Текст
                    Теория вероятностей

В.Н. ТУТУБАЛИН

В. Н. ТУТУБАЛИН □ Теория вероятностей КРАТКИЙ КУРС И НАУЧНО-МЕТОДИЧЕСКИЕ ЗАМЕЧАНИЯ ИЗДАТЕЛЬСТВО МОСКОВСКОГО УНИВЕРСИТЕТА 1972
УДК 519.21 Книга состоит из двух частей. Первая часть представляет собой краткий курс теории вероятностей с элементами математи- ческой статистики, предназначенный для студентов естественных специальностей университетов и пединститутов. Интенсивное ис- пользование аппарата математического анализа и линейной ал- гебры позволяет при небольшом объеме охватить значительный материал, включая доказательство центральной предельной теоре- мы и теорию метода наименьших квадратов. Вторая часть книги написана по материалам работы со слушателями факультета повы- шения квалификации преподавателей вузов. Она содержит науч- ные и методические замечания, которые полезно иметь в виду щреподавателю теории вероятностей при изложении материала, охваченного первой частью книги. Учебное пособие предназначено студентам указанных специ- альностей, а также будет полезно преподавателям и всем интере- сующимся теорией вероятностей и ее приложениями. Печатается по постановлению Редакционно-издательского совета Московского университета 2-2-3 111—72
Предисловие Первая часть данной книги возникла на основе курса лекций, которые автор читал для студента в-механиков механико-матема- тического факультета МГУ. Этот курс рассчитан на один семестр, следовательно, должен быть «кратким». С другой стороны, в курс необходимо включить кроме чисто математической части обсуж- дение вопросов применимости теории вероятностей и элементы математической статистики. Создается затруднение, выход из ко- торого облегчается тем, что большая часть понятий и теорем элементарной теории вероятностей является, с современной точки зрения, конкретизацией более общих математических понятий. Используя высокую математическую культуру, которую полагается иметь студентам мехмата, удается охватить довольно большой материал, включая интеграл Лебега, доказательство центральной предельной теоремы и общую теорию метода наименьших квад- ратов. Собственно математическая часть курса построена по прин- ципу выведения наибольшего числа следствий из наименьшего числа общих теорем. Поэтому возможно, что первая часть книги будет удобным пособием для подготовки к экзаменам. Для ее пони- мания требуется знание хорошего курса математического анализа и элементов линейной алгебры. Таким образом, книгой могут поль- зоваться студенты естественнонаучных специальностей с усиленной математической подготовкой. Вторая часть книги создана на основе опыта преподавания на факультете повышения квалификации преподавателей вузов. Она имеет форму замечаний к соответствующим параграфам пер- вой части. Ее цель — ответить (насколько возможно) на вопрос о том, что должен иметь в виду преподаватель теории вероятно- стей, который собирается изложить предмет в объеме первой части книги. Замечания к § 1—7 имеют в основном методический характер (включая указания на некоторые «подводные камни», т. е. логические пробелы, которые иногда встречаются). Замеча- ния к § 8—12 по большей части излагают связанный с первой частью научный материал. Это объясняется тем, что элементарные понятия теории веро- ятностей изложены в § 1 — 7 первой части книги по ‘ существу исчерпывающим образом, чего совсем нельзя сказать о более серьезном материале § 8—12. 3
Итак, первая часть книги предназначена для студентов, вто- рая часть — для преподавателей. Автор надеется, однако, что книга представит определенный интерес также для знакомых с основами современной математики инженеров и естествоиспыта- телей. Будучи математиком по профессии, автор попытался встать на точку зрения естествоиспытателя при изложении основ теории вероятностей. Понятия и теоремы, приведенные в книге, оцени- ваются с этой точки зрения. Критически рассматривается вопрос об области применимости изложенного материала. Не следует думать, что по данному вопросу автор имеет какое-то свое особое мнение. В книге излагаются взгляды, принятые в настоящее время большинством специалистов, но только в соответствии с требова- ниями момента слегка подчеркивается критическая сторона. Первая часть книги не предполагает знакомства с литерату- рой по теории вероятностей. Для понимания второй части книги формально достаточно владения первой частью. Однако читатель должен иметь в виду, что данная книга отнюдь не заменяет более подробных учебников Гнеденко [S] и Феллера [22]. Тот, кто инте- ресуется приложениями теории вероятностей, обычно не читает учебник подряд, а разыскивает в нем пример, похожий на то, что его интересует. Следовательно, подробный учебник по теории вероятностей должен содержать более или менее универсальный набор примеров. В данной книге примеры есть, их даже много. Однако их набор далеко не универсален. Определения, леммы, теоремы и рисунки нумеруются двумя числами, из которых первое указывает номер параграфа. Во вто- рой части номер снабжается штрихом, например теорема 8. Г на- ходится в замечаниях к § 8.
ЧАСТЬ I Краткий курс теории вероятностей § J ДИСКРЕТНОЕ ПРОСТРАНСТВО ЭЛЕМЕНТАРНЫХ СОБЫТИЙ 1.1. Введение. Теория вероятностей изучает математические модели случайных экспериментов, т. е. таких экспериментов, ис- ход которых не вполне однозначно определяется условиями опы- та. Любимым примером случайного эксперимента является бро- сание .монеты: монета может упасть либо гербом кверху, либо цифрой. В дальнейшем мы увидим, что практически можно вос- произвести вероятностную структуру любого случайного экспери- мента, бросая монету достаточно много раз. Если бы теория вероятностей позволяла сказать нечто содер- жательное об исходе любого эксперимента, про который известно только лишь, что его исход неоднозначен, то она была бы, ко- нечно, наукой наук. На самом деле ее роль гораздо скромнее. Теория вероятностей имеет дело не с любыми случайными экс- периментами, а лишь с экспериментами, обладающими свойством статистической устойчивости, или устойчивости частот. Это свойство описывается следующим образом. Обозначим через А один из возможных исходов случайного эксперимента. Повторим этот эксперимент п раз и обозначим через цА число наступлений исхода А в этих п экспериментах. Тогда отношение цА/п называется частотой события1 Л, а свойство устойчивости частот заключается в том, что при большом п частота события А лишь слегка колеблется (при изменении п) около некоторого чис- ла. Далее, если сделать несколько серий экспериментов, то часто- ты 11(а/п1 (где через пг- обозначено число экспериментов в i-ой серии, а через число наступлений события А в этой серии) будут близки между собой, лишь бы только числа щ были все достаточно велики. Например, iK. Пирсон бросал монету 24 000 1 Слова «событие» и «исход эксперимента» означают одно и то же. 5
12 012 паз и при этом герб выпал 12 012 раз. Отношение ———> очевид- г г а 24 000 но, очень близко к ’/г- В книге Ф. Мостеллера, Р. Рурке и Дж. Томаса [21] сооб- щается следующий результат десяти серий по 1000 бросаний мо- неты: число выпадений герба равнялось соответственно 502, 518, 497, 529, 504, 476, 507, 528, 504, 529 (см. [21], стр. 91). Частоты выпадений герба группируются, следовательно, око- ло ’/г- Число, около которого колеблется частота события А, на- зывается вероятностью события А и обозначается через Р(4). Например, нет сомнений в том, что вероятность выпадения герба при бросании монеты равна ‘А- Сделанное описание свойства устойчивости частот и опреде- ление вероятности вряд ли кому-либо покажутся удовлетвори- тельными. Нельзя избежать вопроса о том, насколько сильно при данном конечном п частота ца/п события А может отличаться от вероятности Р(Д)? Вообще, каким образом следует производить проверку устойчивости частот, решая вопрос о применимости методов теории вероятностей к данному конкретному явлению? Следует сказать, что в настоящее время нет достаточно общего научного ответа на эти вопросы. На первый вопрос — о допусти- мом различии ца/п и Р(А)—мы дадим впоследствии ответ, но при дополнительном условии независимости результатов каждого из п экспериментов (о независимости будет говориться дальше). Для проверки независимости есть частичные критерии, которые, однако, действуют также лишь при соблюдении некоторых допол- нительных условий. Еще более сложен вопрос об устойчивости частот в разных сериях экспериментов. Здесь трудность состоит прежде всего в том, как выделять эти серии. Например, мы мог- ли бы договориться сделать подряд большое число эксперимен- тов, относя к первой серии эксперименты с простыми номерами, ко второй серии — эксперименты с четными номерами, к третьей серии — эксперименты с номерами, делящимися на 3, и т. д. Оче- видно, что способов выделять серии слишком много для того, чтобы их все можно было перепробовать. Кроме того, если пробо- вать все способы, то мы непременно должны рассмотреть и такой, когда в одну серию попадут те опыты, в которых событие А наступило, а в другую — те опыты, в которых оно не наступило. В первой серии частота события А будет равна 1, а во второй — 0, так что эти частоты будут резко различны. Указанная труд- ность является существенной, и лишь в самые последние годы намечены научные способы ее преодоления. Однако эти способы не доведены до практических рекомендаций. Из сказанного ясно, что вопрос о применимости вероятност- ных методов в каждом отдельном случае решается на интуитив- ном уровне (интуиция, конечно, основана па личном и общена- учном опыте). Научная добросовестность требует от каждого ис- следователя применения доступных методов проверки статисти- 6
ческой устойчивости1, но наличие ее редко можно вполне гаран- тировать. Все мыслимые эксперименты можно разделить на три груп- пы. К первой группе относятся хорошие эксперименты, в которых обеспечивается полная устойчивость исхода опыта. Ко второй группе относятся эксперименты похуже, где полной устойчивости нет, но есть статистическая устойчивость. К третьей группе отно- сятся совсем плохие эксперименты, когда нет и статистической устойчивости. В первой группе все ясно без теории вероятностей. В третьей группе она 'бесполезна. Вторая группа составляет на- стоящую сферу применения теории вероятностей, но мы вряд ли когда-нибудь можем быть вполне уверены, что интересующий нас эксперимент относится ко второй, а не к третьей группе. Прогресс физики привел, однако, к тому, что теперь более чем когда-либо прежде верят в важность теории вероятностей: по существующим представлениям эксперименты на квантово-меха- ническом уровне, выясняющие наиболее фундаментальные законы природы, относятся именно ко второй группе. 1.2. Вероятностное пространство. В современной математиче- ской теории вероятностей предпочитают оставлять проблему ста- тистической устойчивости1, в стороне и рассматривают математи- ческую модель, в которой отражены все возможные исходы экспе- римента и считаются известными связанные с этим эксперимен- том вероятности. Наиболее простой вид эта модель имеет в том случае, когда множество2 возможных исходов эксперимента ко- нечно или счетно3. Этот случай называется дискретным; его мы и рассмотрим. Определение 1.1. Пространством элементарных событий называется любое конечное или счетное множество. В дальнейшем пространство элементарных событий обозна- чается буквой Й, его элементы—буквами сем, <о2, ...; тот факт, что элемент со; входит в множество й, записывается в виде со^Й, а тот факт, что множество Й состоит из элементов coi, со2, ... и только из них, записывается в виде Й = {coi, (02, ...} или й={со?, f=l, 2, ...}. Определение 1.2. Каждому со^й отвечает число Р(сог), называемое вероятностью элементарного исхода сог-. Аксиомы 1.1. О<Р(coz) < 1, 1.2. 2 ₽(«>,) = 1. Определение 1.3. Любое подмножество4 множества эле- ментарных событий называется событием. 1 Вместо «статистическая устойчивость» говорят также «статистическая одно- родность». 2 Слова «множество» и «совокупность» означают одно и то же. 3 Счетным называется множество, элементы которого можно поставить во взаимно однозначное соответствие натуральным числам. 4 Слова «подмножество» и «часть» означают одно и то же. 7
В дальнейшем утверждение «А есть подмножество й» запи- сывается в виде Лей. В том случае, когда Л^Й, но Л#=Й, пишут Лей. Определение 1. 4. Вероятностью Р(Л) любого события Л называется сумма вероятностей элементарных событий, входя- щих в событие Л, иначе говоря: Р(Л)= Р («,.). Замечание. Теория вероятностей возникла еще в XVII в., и язык, на котором выражалось содержание этой науки, перво- начально сильно отличался от принятого сейчас языка, основные термины которого введены в только что изложенных определе- ниях и аксиомах. Современный язык есть, очевидно, язык теории множеств. Однако большинство задач, которые читатель найдет в современных учебниках и задачниках по теории вероятностей, сформулированы на старом языке. Это не случайно: только по задачам изучающий теорию вероятностей знакомится с теми ти- пичными ситуациями, когда ее можно практически применять, а теоретико-множественный язык исключил бы всякое описание практических ситуаций. Следовательно, три изучении теории вероятностей надо преж- де всего научиться переводить условия задач с традиционного языка на современный. При этом возможны различные результа- ты. Ситуация здесь совершенно такая же, как та, с которой стал- кивается школьник при переводе задач на язык систем уравне- ний. Пусть, например, нужно решить задачу: «У меня в левом кармане вдвое больше денег, чем в правом, а всего 1 руб. 80 коп. Сколько денег в каждом кармане?» Тогда одна система уравне- ний будет: ( х=2у, I x-f- у = 180, где х копеек в левом кармане, у копеек в правом. Другая система состоит из одного уравнения х + 2х = 180, где х копеек в правом кармане, 2х — в левом. С математической точки зрения это две различные системы уравнений. Тем не менее каждая из них правильно решает одну и ту же задачу, хотя этого и нельзя доказать в рамках матема- тического доказательства. Точно так же при решении одной задачи по теории вероят- ностей возможно введение разных пространств элементарных событий и разных вероятностей Р, причем обычно не следует ис- кать им обоснование на математическом уровне строгости. 8
1.3. Правила Перевода. Переводу учатся на примерах, но пра- вила также играют некоторую роль. Правило 1. Пространство элементарных событий Q есть совокупность всех мыслимых исходов опыта; при этом считается, что исходы регистрируются возможно более подробно. Правило 2. В том случае, когда из каких-либо соображе- ний симметрии ясно, что все элементарные исходы равновероят- ны, т. е. Р(сог) не зависит от сог-, множество элементарных собы- тий Q будет конечным (в силу аксиом 1.1 и 1.2), а Р (coz) , где N — число элементов Q. Если событие А содержит Л4 элемен- тарных србытий, то Р(Л) = —. Замечание. Если правило 2 применимо, то говорят, что имеется-задача «на классическую вероятность». Элементарные события \ входящие в событие А, называются «благоприятными», и формула Р(Л) = -^- на традиционном языке выражается так: «вероятность события равна отношению числа благоприятных исходов к числу всех возможных». Рассмотрим примеры. Пример 1.1. Бросают две игральные кости. Чему равна вероятность того, что сумма очков, выпавших на обеих костях, не превзойдет 5? Решение. Пусть П\ очков выпало на первой кости, п2— на второй. Пространство элементарных событий есть множество пар (пь п2): Q = {(ni, 2, 3,^4, 5, 6}. Интересующее нас событие А имеет вид А = {(/?!, п2): п19 п2 — 1, 2, 3, 4; п± + п2< 5}. Множество Q содержит 36 элементов, множество А — 10 элемен- тов. В силу наших представлений о правильных игральных ко- стях применимо правило 2. Значит Р(Л) = = —-. 36 18 Пример 1.2. Среди 25 экзаменационных билетов имеется 5 «счастливых» и 20 «несчастливых». Студенты подходят за биле- тами один за другим по очереди. У кого больше вероятность вы- тащить счастливый билет: у того, кто подошел за билетами пер- вым, или у того, кто подошел вторым? Решение. Пусть 1«счастливые» билеты имеют номера 1, 2, 3, 4, 5. Обозначим через и номер билета, взятого первым студен- том, через г*2 — номер билета, взятого вторым студентом. Тогда {(ч, ^*2) • ^2 ” 1, • • • , 25, i2]» 1 Слова «элементарное событие» и «элементарный исход» означают одно и то же. 9
Кроме того, все элементарные события равновероятны. Событие А: «первый студент взял «счастливый» билет» имеет вид Л = {(г*!, i2): = 1, 2, 3, 4, 5; i2 = l,...,25, ii#u2}. Событие В: «второй студент взял «счастливый» билет» имеет вид В= {(/ь i2):ii= 1,, 25; i2 = 1, 2, 3, 4, 5, Каждое из событий А и В содержит по 120 элементов, Q содер- жит 600 элементов. Следовательно, Р(Л) = Р(В) = 5 Несколько позже мы рассмотрим решение этой задачи с по- мощью другого Q и других правил перевода. 1.4. Операции над событиями. Определение 1.5. Суммой AUB событий А и В называется их теоретико-множественное объ- единение, т. е. событие, состоящее из таких элементарных исхо- дов, которые входят в событие А или в событие В, или в оба вме- сте. Определение 1.6. Произведением АВ событий А и В на- зывается их теоретико-множественное пересечение, т. е. событие, состоящее из таких элементарных исходов, которые входят одно- временно в оба события А и В (АВ обозначается также через АПВ). Определение 1.7. Противоположным событием А для со- бытия А называется теоретико-множественное дополнение А до Q, т. е. событие, состоящее из таких элементарных исходов, кото- рые не входят в событие А. Уже Аристотель по существу пользовался для изучения тео- ретико-множественных операций моделью, в которой множества изображаются в виде фигур на плоскости. При некотором навы- ке использование этой модели никогда не приводит к ошибкам (т. е. к результатам, неверным для произвольных множеств). На рис. 1.1, 1.2 и 1.3 изображены AUB, АВ и А. 10
В том случае, когда АВ=ф (где 0 обозначает пустое мно- жество1 или множество, не содержащее элементов), мы будем писать А+В вместо AUB (в отличие от других наших обозначе- ний, это не является вполне общепринятым). Из определения 1.1, очевидно, вытекает Теорема 1.1. Р (А+В) =Р(А)+Р(В) , если АВ=0. В случае общего (недискретного) пространства элементарных событий эта теорема принимается в качестве аксиомы. В общем случае (не обязательно АВ = 0) имеем: Теорема 1.2. Р(А (J В) = Р(А) + Р(В) — Р(АВ). Действительно, P(A(JB)= j; P(io(), <о,елив но в сумме Р(А)+Р(В) вероятности Р(соО для и,еАВ учитыва- ются дважды. Поэтому, если из Р(А)+Р(В) вычесть Р(АВ), то получится как раз P(AUB). Дадим теперь образец выражения на традиционном языке. Говорят, что «событие А наступило», если опыт закончился од- ним из элементарных исходов, входящих в событие А. Следова- тельно, AUB наступает, если наступает хотя бы одно из событий А или В; АВ наступает, если наступают оба события А и В; А на- ступает, если А не наступает. Читателю рекомендуется доказать самостоятельно следую- щие свойства операций над событиями: 1. (A\JB)'C=AC{JBC. 2. АВ (J С = (A U С) (В (J С). 3. AJJ В = АВ. 4. AB = A(JB. 5. A(Bt+ ... +В„) = АВ1+ ...+АВ„. $ 2 УСЛОВНАЯ ВЕРОЯТНОСТЬ. НЕЗАВИСИМОСТЬ. ОСНОВНЫЕ ФОРМУЛЫ 2.1. Условная вероятность. Легко заметить, что хотя в аксиомах и определениях предыдущего параграфа частотная интерпрета- ция вероятности явно не участвует, но тем не менее все эти ак- сиомы и определения мотивированы теми свойствами, которые должна иметь вероятность, определяемая по частоте. 1 Пустое множество называется еще невозможным событием; очевидно, надо считать, что Р(0)=О. 11
Например, если событие А состоит из некоторых элементар- ных событий ©г, то частота наступления события А в серии экспе- риментов рав-на, очевидно, сумме частот элементарных событий со^Л. Отсюда возникает определение 1.4: Р(Л)= £ Р(®<). Если 4 = Q, то частота этого события, очевидно, равна 1 (собы- тие Q называется достоверным). Поэтому вводится аксиома 1.2: £ Р(Ю/) = 1. ctyG Q Применим теперь соображения, связанные с частотами, для того чтобы выяснить, каким должно быть математическое опреде- ление условной вероятности. Пусть в результате эксперимента могут наступить два события А и В. Условной частотой события А при условии, что событие В наступило, называется частота со- бытия А, вычисленная не по совокупности всех экспериментов, а лишь по совокупности тех экспериментов, в которых наступило событие В. Иными словами, если п— число всех экспериментов, Цв— число наступлений события В, а цав— число наступления события АВ (или число таких экспериментов, в которых наступи- ло и событие В, и событие Л), то условная частота есть Пав Млв _ п Ив Ив п Левая часть этого выражения интерпретируется как приближен- ное значение условной вероятности Р(Л/В) наступления события А при условии, что В наступило, отношение цавМ приближенно равно Р(ДВ), а отношение-^-^Р(В). Изложенные соображения п мотивируют введение следующего математического определения. Определение 2.1. = Разумеется, это определение имеет смысл только в случае Р(В)#=0. Умножением на Р(В) обеих частей определения условной ве- роятности получается Теорема 2.1. Р (ДВ) = Р (В) Р (Д/В) , иными словами, ве- роятность совместного наступления двух событий равна произве- дению вероятности одного из них на условную вероятность дру- гого при условии, что первое наступило. 12
Почему столь очевидное утверждение мы считаем нужным выделить в виде теоремы? Дело в том, что роль этого математи- чески тривиального утверждения вовсе не математическая. На самом деле оно играет роль одного из правил -перевода на язык пространства элементарных событий. Оно применяется в тех слу- чаях, когда нужно определить 'вероятность на множестве элемен- тарных событий, причем из содержания задачи ясны значения условных вероятностей. Пример 2.1. Рассмотрим в качестве примера другое реше- ние задачи 1.2 предыдущего параграфа. В предыдущем парагра- фе мы считали, что наблюдению доступны номера билетов, взя- тых первым и вторым студентами. Тогда мы вправе взять в каче- стве множества элементарных событий множество пар {(Zi, 1’2): иУ=/2, ii, i*2=il, 2, ..., 25) номеров билетов. Можно, однако, пред? положить, что мы лишены возможности наблюдать номера биле- тов, а можем лишь определить, какие билеты попались — счаст- ливые или нет (например, допустим, что мы наблюдаем только выражение лица студента, взявшего билет). Если обозначить через 1с, 1Н, 2С, 2Н события, состоящие со- ответственно в том, что 1-й студент взял счастливый билет; 1-й > » несчастливый » ; 2-й > » счастливый » ; 2-й » » несчастливый » ; то пространство элементарных событий состоит из четырех собы- тий 12 12 12 12 1cz'c> 1HZ'c> Остается ввести вероятности на множестве этих элементарных со- бытий. Напомним еще раз, что с логической точки зрения утверж- дение, приписывающее вероятности элементарным событиям, яв- ляется не теоремой (которую можно доказать), а определением (которого нельзя доказать, но разумность которого должна быть мотивирована). Воспользуемся теоремой 2.1. Если бы вероятно- сти элементарных событий были уже введены, то должно было бы выполняться соотношение Р(1С2С) = Р(1С)Р(2С/1С). (2.1) С другой стороны, ясно, что Р (1с) = -Г-, поскольку первый сту- дент выбирает один из 25 билетов, из которых 5 счастливых. Да- лее, ясно, что Р(2С/1С) =поскольку второму приходится вы- бирать из 24 билетов, среди которых (при условии, что первый вытащил счастливый билет) только 4 счастливых. Определим те- перь Р(1С2С) так, чтобы равенство (2.1) выполнялось: 13
Р(1С2С) = Р(1С)Р(2С/1С) = и аналогично Р(1С2Н) =Р(1С)Р(2Н/1С)= □ ^4 Р(1н2н) = Р(1Н)Р(2Н/1Н) = После того как вероятности элементарных событий опреде- лены, применяем определение 1.4 и получаем Р(2С) = Р(1С2С) + Р(1Н2С) = -^- т. е. получается тот же самый ответ, что и в § 1. Замечание. Способ, примененный в § 1, позволяет анало- гично подсчитать вероятность того, что 3-й (4-й, 5-й и т. д.) сту- дент получит счастливый билет. Все эти вероятности равны Уб. Только что изложенный способ приводит к более сложным вы- числениям. Таким образом, иногда лучше ввести пространство из большего числа элементарных событий, но так, чтобы эти собы- тия были равновероятны. 2.2. Независимость. Естественно сказать, что событие А не зависит от события В, если условная вероятность события А при условии В равна безусловной вероятности события А Р (А/В) = Р (Л). С помощью определения 2.1 получаем, что в этом случае Р(ЛВ) = Р(Л) -Р\(В). Следовательно, если Л не зависит-от В, то и В не зависит от Л, поскольку последнее равенство симметрично относительно Л и В. Поэтому дается следующее Определение 2.2. События Л и В называются независи- мыми, если выполнено равенство Р(ЛВ) =Р(Л)Р(В). Смысл этого определения заключается в том, что если про- изошло одно из независимых событий, то это никак не влияет на вероятность другого события. Но в таком случае, если первое событие не произошло, то это также не должно влиять на вероят- ность второго. Действительно, имеет место _ Теорема 2.2. Если события А И В независимы, то события А и В также независимы, 14
Доказательство. Р(ЛВ) = Р(В) — Р(ЛВ) = Р(В) — Р(Л) X X Р (В) = (1 - Р (Л)) Р (В) = Р (Л) Р (В). Следствие. Если А и В независимы, то А и В также неза- висимы. Вообще, введенное определением 2.2 понятие независимости обладает всеми свойствами, которых требует интуиция. Для того чтобы определение независимости п событий Ль Л2, ..., Ап было столь же хорошим, его надо вводить следующим образом. Определение 2.3. События Ль Л2, ..., Ап называются не- зависимыми в совокупности, если для любых k из них (k^.n) выполняется соотношение k Р(А1( Ata,..., ЛЙ) = ПР(АЛ /=1 Если это соотношение выполняется только при k=2, то со- бытия называются попарно независимыми. Читателю предостав- ляется привести пример, показывающий, что из попарной неза- висимости не следует независимость в совокупности. 2.3. Прямое произведение вероятностных пространств. Понятие независимости событий, лежащих в одном и том же вероятност- ном пространстве, может показаться несколько искусственным, так как оно формально никак не связано с различными случай- ными экспериментами, проводимыми независимо друг от друга. Достаточно лишь слегка изменить вероятности отдельных элемен- тарных событий, и равенство Р(АВ) =Р(Л)Р(В) перестанет вы- полняться. Но на самом деле вероятностное пространство, связан- ное с независимыми событиями, строится обычно специальным образом. Пусть имеются два вероятностных пространства: № и Й<2>, причем их элементам сор) и wj2) отвечают вероятности Р(*> (сор)) и Р(2) (со<.2)). Можно представить себе как вероятно- стное пространство, связанное с одним случайным эксперимен- том, a й<2>— с другим. Определение 2.4. Прямым произведением вероятностных пространств й*1) и й<2> называется пространство Й=Й<1>ХЙ<2), со- стоящее из всевозможных пар вида <в=(со/1), со/2)), причем веро- ятность каждого элементарного события соей определяется по формуле Р (со) = Р (<ор>, со'2») = Р<» (со**)) Р<2) ((О<2>). События, связанные с исходом первого случайного экспери- мента, можно описывать не только как подмножества й(1), но и как подмножества Й = Й<1>ХЙ(2), поступая следующим образом. Пусть Рассмотрим подмножество Д(1) множества й сле- дующего вида: 15
^(1) = {(cot.1», CO<2)) . W(l) ДО), (O<2) ( Й<2’}. Аналогично, если А(2)ей<2), положим Д(2) = {(©f), ©j2)); ©<’> (. й<'>, ы(2» £ Д(2)}. Множества At1» и A(2) называются цилиндрическими. Очевидно, что Р(А О») =₽(’>(А(1)) и Р(Л<2>) = Р<2>(Л<2»). Теорема 2.3. При. любых А<1)эй(1> и А<2)£2Й<2> события Д(1) и А<2> независимы. Доказательство. Поскольку Д(1)А(2>={(©(», w(.2>):cop( Ad), <в{2)(А<2)}, имеем Р{Д(1)Д(2)}= £ £ P{(©{°, со'2)| = = Е Е Р(° (^’) P(W) = = { р(,>Р)И £ Р(2М2))}== ю<.2)ел<2) = Р(1) (А<п) Р(2) (Д(2)) = Р (A<n) Р (Д<2>), что и требовалось доказать. Таким образом, при описании событий, связанных с каждым из двух случайных экспериментов, в терминах одного простран- ства элементарных событий (прямого произведения Й = Й<*>ХЙ<2)) получаются независимые события в смысле определения 2.2. Не- зависимость этих событий сохранится, если как угодно изменять вероятности Р<*> и Р(2). Изложенная конструкция прямого произведения имеет боль- шое значение в теории вероятностей. 2.4. Формула полной вероятности. Пусть пространство й пред- ставляется в виде суммы Й = Н, + Н2 + ... + Нп попарно непересекающихся (ЯгЯ7=0 при i=£j) событий Hi, Н2.... Нп, А — любое событие (на классическом языке говорят, что Hi, Н2....Нп есть полная группа событий). Теорема 2.4. Р(А) = £Р(tfz)Р(А/Яг) 1=1 (эта формула называется формулой полной вероятности). 16
Доказательство. Легко видеть, что А = АНГ + АН2 + ... + АНп, причем (AHi) (АН,) = 0 лри i=/=/. Следовательно, п п р (Л) = £ р (AHt) = £ Р (Ht) Р (A/HJ 1=1 /=1 (см. теорему 2.1). ' С точки зрения математика вновь выведенная формула яв- ляется тривиальной, однако она может применяться для задания разумным образом вероятностей на множестве элементарных со- бытий.. Пример 2.2. Три машины производят болты, причем п'ер- вая машина производит 20% всей продукции, вторая машина — 30% и третья машина — 50%. Доля брака в продукции первой машины 5%, в продукции второй машины 2%, в продукции тре- тьей— 1%. Чему равна вероятность того, что наудачу взятый болт окажется дефектным? Решение. Эксперимент может состоять в том, что прове- ряется наудачу взятый болт. Элементарных исходов два: D—болт дефектный и D — болт годный. Обозначим через Hi (f=l, 2, 3) событие, состоящее в том, что болт сделан i-той машиной. Тогда имеем з P(D) -£ P(Hi)P(D/Hi) = 0,2-0,05 + 0,3-0,02 + 0,5-0,01]=Д,021. /=1 Приведенное решение может казаться не вполне убедительным, хотя против него трудно привести какие-либо возражения. Для того чтобы убедиться в правильности ответа, приведем другое решение. Рассмотрим в качестве й совокупность всех изготовленных тремя машинами болтов. По условию й представляется в виде Й = //1+Н2+Н3, где через Hi обозначено множество болтов, из- готовленных Ргой машиной. Обозначим через D множество де- фектных болтов. Снова «наудачу взятый болт» мы истолкуем так, что все элементы й равновероятны. Обозначая через N(C) число элементов любого множества С, имеем P(D)= «а v N(Q) В силу условия задачи #(#,) = 0,2 AZ(Q), tf(/fa) = 0,3W(Q), N (Я3) = 0,5 N (Й), N (DHJ = 0,05 N (Ht), (DH2) =0,02 N (Н2), N (DHa) = 0,01 W (Ha). 17
Следовательно, р (D} = N(DH1)+N(DH2) + N(DH8') = 1 } W) = о,О5 N (Я1) + 0,02 N (ffg) + 0,01 N(Q) N(Q) N(Q) ’ т. e. мы получаем тот же самый ответ. Мы видим, что в некоторых задачах формула полной веро- ятности позволяет получать ответ, минуя построение пространст- ва элементарных событий. 2.5. Формула Байеса. В условиях теоремы 2.4 имеет место формула р (н /А) = Р(ЛЯг) =___pW^)p(ff0 v 1 1 Р(А) « 2 Р(А/Я,)Р(Я,) /=1 Эта формула называется формулой Байеса. Формулу Байеса иногда пытаются интерпретировать следую- щим образом. Пусть при начале некоторого научного исследования у нас имеются п гипотез Н\, Hz, ..., Нп о природе изучаемого объ- екта, причем мы приписываем им вероятности Р(Я1), ..., Р(ЯП) (эти вероятности называются априорными). Затем мы делаем эксперимент, в результате которого может наступить или не на- ступить событие А. Если событие А наступает, то мы переоцени- ваем нашу веру в справедливость каждой гипотезы, заменяя ве- роятности Р(Яг) на вероятности P(Hi/A) (эти вероятности назы- ваются апостериорными). Так мы продолжаем, пока для некото- рого i=io апостериорная вероятность гипотезы Hi„ сделается (почти) равной единице. Тогда гипотеза Hit на самом деле верна. Надо сказать, конечно, что подобная «формализация» про- цесса научного исследования в большинстве случаев бессмыслен- на, потому что неоткуда взять априорные вероятности гипотез. Имеется, однако, случай, когда такая схема может быть полез- ной. Речь идет о медицинской диагностике. Пусть в некоторую клинику обращаются больные, у которых может быть одна из болезней Hlf Hz, ..., Нп. Обозначим через А комплекс симптомов для данного боль- ного. В таком случае априорные вероятности ₽(//,) и условные вероятности Р(А/Н{) могут быть экспериментально найдены на основании собранной за прошлые годы статистики. При этом Р|(Яг) равна примерно частоте болезни Н{ среди больных данной клиники, а Р(А/НА—частота наблюдения комплекса симптомов А у больных с болезнью Ht в данной клинике. Поскольку .речь идет о статистике за прошлые годы, то можно считать имеющие- 18
ся статистические данные почти достоверными (например, брать лишь данные, подтвержденные патологоанатомическим исследо- ванием). Формально применение формулы Байеса не вызывает здесь сомнения, и трудности начинаются только при попытке практической реализации этого плана. Существенная трудность состоит в следующем: посмотрим, насколько часто наблюдались в прошлом больные с данным комплексом симптомов А. Предпо- ложим, что в клинике имеется материал о 10 000 больных по каждой болезни Hi. Сколько же существует возможных ком- плексов симптомов? Не будет преувеличением сказать, что при записи двоичным кодом комплекса симптомов требуется не менее 50 двоичных знаков (в тех случаях, когда ответ двузначен — есть данный симптом или нет — требуется один двоичный знак, резуль- таты же измерений, анализов должны разбиваться на группы, а тут может потребоваться два-три двоичных знака для каждого результата). Тогда возможных наборов симптомов будет 250, т. е. около 1015, и в среднем на каждый набор приходится 104-10~15= =;10~11, т. е. практически нуль наблюдений. При отсутствии наблюдений нельзя определить условные ве- роятности Р(Д///г). Таким образом, прямое применение формулы Байеса невозможно, а задача машинной диагностики оказывает- ся трудной научной задачей, требующей далеко не тривиальных усилий. Такова судьба не одной формулы Байеса: при ближай- шем рассмотрении применение любого метода теории вероятно- стей требует нетривиальных усилий, если, конечно, стремиться получать заслуживающие доверия результаты. § 3 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ 3.1. Случайные величины. Мы рассматриваем дискретное (т. е. конечное или счетное) пространство элементарных событий Q, элементам которого со отвечают вероятности Р(со). Определение 3.1. Случайной величиной £ называется функция §(6э), определенная на множестве Q и принимающая ве- щественные или комплексные значения. Для определенности мы будем рассматривать случайные ве- личины с вещественными значениями. Среди возможных значений S(<o), отвечающих различным соей, не обязательно все различны. Обозначим различные возможные значения случайной величи- ны g через а2, ^п, - (при этом а2, ап ... — веществен- ные числа, не обязательно расположенные в порядке возрастания или убывания, так как счетное множество вещественных чисел не всегда можно записать в определенном порядке по величине; на- пример, этого нельзя сделать с множеством всех рациональных чисел). 19
Введем обозначение В {£ = «/} ={со:(о£ й, £(со) = а(}. Очевидно, {^ = <2г} есть подмножество множества Q, следователь- но, событие. Обозначим через Pi вероятность этого события: р..=Р{В = аг}= £ Р(®) ®:^(со)=аг- (запись под знаком S означает, что суммирование берется по со таким, что g(co)=ai, при этом порядок суммирования безразли- чен, поскольку слагаемые неотрицательны). Таблица вида / а1а2 ... ап ... \ \ Р1Р2 •••₽„ ••• Г где в верхней строчке стоят возможные значения случайной ве- личины g, а в нижней строчке под каждым значением стоит веро- ятность Pi = P{g=^i} того, что случайная величина g принимает это значение, называется распределением случайной величины g. В приложениях теории вероятностей, как правило, имеют де- ло не с самими случайными величинами, а с их распределениями. Это связано с тем, что обычно в результате случайного экспери- мента регистрируется значение случайной величины g(co), но не регистрируется, каким элементарным исходом со закончился сам опыт. Регистрируется, следовательно, значение функции, но не значение аргумента. То обстоятельство, что при разных со случай- ная величина g(<x>) может принимать одно и то же значение, не- ожиданно оказывается необычайно существенным: множество {^1, а2, ...} возможных значений случайной величины может быть гораздо проще, чем все множество Q. Поэтому может получиться так, что мы не в состоянии узнать из опыта вероятности Р(со), но можем определить по частотам вероятности рг-= P{g=ai}. Поясним сказанное примером. Пусть бросается игральная кость и наблюдаемая нами случайная величина g есть число вы- павших очков. Введем пространство Q на основании следующих соображений. Хорошо известно, что движение твердого тела вполне определится, если в некоторый момент задать шесть пара- метров, определяющих его положение в пространстве, вместе со скоростями изменения этих параметров. Будем понимать под эле- ментарным событием со набор этих двенадцати чисел (измерен- ных в тот момент, когда мы выпускаем кость из рук), записанных с таким числом десятичных знаков, которого достаточно для опре- деления, какой гранью кверху в конце концов остановится кость. Тогда, зная со, мы знаем и g, т. е. g есть функция от со. 1 В обозначениях теории множеств двоеточие заменяет слова «такие, что». Обозначение {со : co^Q, g(co)=ai} подробно читается так: «множество элементов со таких, что co^Q и g(co) =а^, 20
Множество й возможных значений со конечно, так как в опы- те бросания кости ее положение и скорость может колебаться лишь в конечных пределах, а мы хотим регистрировать эти пара- метры лишь с конечным числом десятичных знаков. Но совершен- но очевидно, что §(со) наблюдать легко, в то время как при реги- страции со возникают непреодолимые трудности. Кроме того, воз- можных значений со очень много, а возможных значений g(co) всего шесть. Отсюда видно, насколько сильным может быть упро- щение при переходе от случайной величины к ее распределению. Значения {ab а2, ...» Лп, ...} случайной величины могут быть любыми. Вероятности рг-, очевидно, неотрицательны, а кроме того, = = = S P(W)) = co:£(co)=aj = SP(Q) = 1- co EQ Обратно, любой таблице Mi, а2, ... , ап, ...\ \Pi, р2, ... , рп, .../’ где числа ait а2, ..., ап, ... различны между собой, р^О и Spi=il, отвечает случайная величина, имеющая эту таблицу своим рас- пределением. Для доказательства достаточно положить Й = (аь а2, ... , ап, ...), P(al)=pi, l(ai)=ai. В приложениях редукция к распределению случайной вели- чины часто бывает недостаточной. Действительно, возможных зна- чений 01, о2, ..., оп, ... может быть все же еще слишком много, чтобы можно было определить из опыта их вероятности pi. В нашей математической модели множество {ob а2, ...} мо- жет быть даже бесконечным (счетным). Но если даже оно ко- нечно, но содержит много элементов, определение всех вероятно- стей pi может быть невозможно. Желательно поэтому охаракте- ризовать распределение несколькими параметрами, которые затем можно было бы определять экспериментально. Эта задача чрез- вычайно важна и будет изучаться на протяжении всего курса, а сейчас мы займемся формальным введением важнейших пара- метров. 3.2. Математическое ожидание. Пусть дана случайная вели- чина ?((о). Определение 3.2. Если ряд Sg(co)P(co) сходится абсо- лютно, то его сумма 21
Mg= £ |(СО)Р((О) co Ей называется математическим ожиданием случайной величины g. Замечание. Если указанный ряд сходится неабсолютно (т. е. условно), то говорят, что случайная величина не имеет ма- тематического ожидания. Действительно, в этом случае значение суммы зависит от порядка слагаемых, в то время как среди эле- ментарных событий со обычно нельзя установить естественного отношения порядка. Если указанный ряд сходится к +оо или —оо (независимо от порядка слагаемых), то иногда полагают соответственно М£= + оо или М£=—оо. Мы, однако, и в этом случае будем говорить, что случайная величина не имеет мате- матического ожидания. Пусть я2, ...» 0п, •••—возможные значения случайной вели- чины, pi, р2, ... рп, ——вероятности этих значений. Теорема 3.1. Ряды £ (со) Р (со) и S atpt одновременно соЕЙ сходятся или не сходятся абсолютно. В случае абсолютной схо- димости Таким образом, математическое ожидание выражается через распределение случайной величины: нужно значения случайной величины умножить на их вероятности и сложить все полученные произведения. Доказательство. Пусть ряд 2 И<»)Р(<») абсолютно схо- ибО дится. В таком случае его члены можно как угодно переставлять и группировать. Имеем поэтому: £ £(®)Р(®) = £( £ 5(®)Р(®)) = со ЕЙ аь co:g(co)==aj = Е P(®)) = £atP{g = aJ = 2azpz. со:£(со)=а* Аналогично 2 |g(<o)|P(co) = £|az|pz, со EQ откуда видно, что ряды £(®)Р(со) и Sazpz одновременно схо- соЕЙ дятся или не сходятся абсолютно. Теорема доказана. На равенстве Mg=Sa,pz основаны различные интерпретации понятия математического ожидания. Потребность интерпретации математических понятий в других терминах связана с тем интуи- 22
тиёно осознаваемым фактом, что все физико-математические нау- ки едины, так что было бы хорошо, если бы в них было поменьше различных понятий. Действительно, если мы в точки прямой ли- нии с абсциссами а\, а2, ...» ап, ... положим массы р2, ..., рп, то, учитывая, что 2рг = 1, найдем, что Mg=2aip^ есть абсцисса цент- ра тяжести этой системы материальных точек. Интересно установить также связь с понятиями функциональ- ного анализа. На математическое ожидание можно смотреть как на функционал, т. е. как на операцию, ставящую в соответствие функции g=g(co) число Mg. Этот функционал оказывается линей- ным, иными словами имеет место Теорема 3.2. Пусть g и т]— две случайные величины такие, что Mg и Мт] существуют, а и b — любые числа. Тогда у линейной комбинации a^+bi] также существует математическое ожидание, причем М (ag + 6т]) =aMg + 6MT]. Доказательство. Имеем aMg + 6Мт] = а g (со) Р (со) + b т) (со) Р (со) = cdEQ сйЕО = £ (al (to) + &П (<»)) Р (<>)= £ (al + h) (<й) Р (со) = М (al + 6т|). Поясним, что мы воспользовались тем, что сумма абсолютно сходящихся рядов есть абсолютно сходящийся ряд и через (ag+бт]) (и) обозначили значение случайной величины а1+Ьт\ на Теорема 3.3. Пусть f (х)—любая функция вещественного переменного, g — случайная величина с распределением Mi а, ... ап ...\ \Р1 Pi • • • Рп---)' В таком случае а1 (в предположении, что последний ряд сходится абсолютно). Доказательство. Имеем 2 /а<ю))Р(ш) = 2( 2 /(В(®))Р(«)) = ©EQ ш:£(ш)=а^ = 2(^ 2 ₽(®))=2Z^^ at со:£(со)=а^ 23
(проведенные операции законны, так как их применение к ряду 2 | / (?.»)J Р («>) дает сходящийся ряд (i)G £2 Пример 3.1. Азартными играми называются игры, в кото- рых выигрыш игроков зависит от исхода случайного эксперимен- та. Если при &-TOM повторении игры выигрыш первого игрока есть случайная «величина а всего сыграно п игр, то общий вы- п игрыш первого игрока есть, очевидно, Посмотрим, чему л=1 примерно равняется его доход в среднем на одну игру, т. е. вы- п числим —Естественно считать, что случайные величины k—\ Ik все имеют одинаковые распределения. Пусть их значения суть п ац а2.. а Р{£й=а4 =р<. Следовательно, в сумме отдель- *=i ные слагаемые принимают значения at, а2, ... . Обозначим через число этих слагаемых, равных Тогда имеем п *=1 ai При большом п естественно ожидать, что Pi. Поэтому «] п т2е‘==‘Е“л=ме‘- £=1 Следовательно, если М£л>0, то игра для первого игрока выгодна, а если M^<0, то невыгодна. Применим эти соображения для иссле- дования следующей известной игры. Играют двое. Первый игрок зажимает в кулаке одну из двух монет: 10 или 20 коп. Второй «пытается угадать, какая монета спрятана, и если он угадывает правильно, то он ее получает, а если неправильно — платит первому игроку 15 коп. Спрашивает- ся, как наиболее выгодно поступать первому игроку. Возможные исходы одной игры представлены следующей таблицей: 24
Эта таблица, называемая матрицей игры, означает следующее. Если, например, первый игрок выбирает «стратегию» 20 коп., а второй игрок выбирает «стратегию» 10 коп., то выигрыш первого игрока + 15 коп. может быть прочитан на пересечении столбца, отвечающего выбранной стратегии первого игрока, и строки, от- вечающей стратегии второго. Первый игрок может менять свою стратегию от игры к игре согласно какому-нибудь правилу. Однако, по принятой в теории игр концепции, мы ждем от про- тивника большой проницательно- сти и не надеемся его запутать: он непременно разгадает наше правило и выиграет. Единствен- ная наша надежда — воспользо- ваться тем, чего никак нельзя предвидеть, а именно производи- мым скрытно от противника слу- чайным экспериментом. Будем считать поэтому, что первый иг- рок выбирает стратегию 10 коп. с вероятностью р, а 20 коп. — с вероятностью 1—р, и постараем- ся подобрать р оптимальным об- разом. Для этого будем искать математическое ожидание выигрыша. Если второй игрок выбирает стратегию 10 коп., то с вероятностью р значение выигрыша перво- го игрока есть (—10), а с вероятностью 1—р есть +15. Следова- тельно, математическое ожидание равно (— 10) р + 15 (1 — р) - 15 — 25р. Если второй игрок выбирает стратегию 20 коп., то аналогично получаем для математического ожидания выражение 15р —20(1—р)-35р —20. Поэтому первому игроку гарантируется средний выигрыш на од- ну игру, равный Ф(р)-min (15 — 25р, 35р —20). (3.1) При этом р пробегает значения от 0 до 1. График функции <р(р) изображен на рис. 3.1. Очевидно, тахф(р) достигается в точке, р где 15 —25р — 35р —20, откуда 7 / 7 р —-------; — 12 Л 12 5 12 * 25
Таким образом, пряча 10 коп. с вероятностью 7/12, а 20 коп. с вероятностью 5/12, (первый игрок может гарантировать себе средний выигрыш за одну игру, равный 5/12 коп. Если мы будем рассуждать теперь с точки зрения второго игрока, то таким же образом придем к выбору вероятности л то- го, что второй игрок выберет стратегию 10 коп. Если первый иг- рок прячет 10 коп., то средний выигрыш второго есть Юл— 15(1— л) = 25л— 15. Если же первый игрок прячет 20 коп., получим — 15л+ 20(1 —л) = 20 —35л. Число л надо выбрать так, чтобы достигался max {min (25л — 15, 20 — 35л)}. (3.2) у При л = — выражение (3.2) равно Таким образом, что бы ни делал первый игрок, второй игрок может не проигрывать в среднем за одну игру более коп. По принятой в* теории игр модели оба противника должны удовлетво- риться тем, что они могут заведомо себе обеспечить, и не отсту- пать от стратегий, соответственно р = и л = Существование таких стратегий является частным случаем одной из основных теорем теории игр. Итак, с точки зрения первого игрока, описанная игра являет- ся выгодной: можно выиграть в среднем 5/12 коп. за одну игру. Однако при практической реализации этого способа обогащения неизбежно возникает вопрос, как велико может быть отклонение фактического выигрыша от его математического ожидания. В ча- стности, сколько раз нужно повторить игру, чтобы с высокой ве- роятностью фактический выигрыш был не менее одного рубля? На эти вопросы можно ответить, но для этого нужно значительно продвинуть теоретический материал курса. 3.3. Дисперсия. Нам необходимо ввести какую-то характери- стику отклонения случайной величины от ее среднего значения. Определение 3.3. Дисперсией Dg случайной величины g называется математическое ожидание случайной величины (£-М|)2 D£ = M{(£-MB)2}. Замечание. В правой части последнего выражения фигур- ные скобки всегда опускаются; вообще М|2 означает М(|)2, а квадрат математического ожидания МВ записывается в виде (М|)2. 26
По теореме 3.3. получаем следующее выражение для диспер- сии: Dg = М(I-Mg)2 = 2 (а» -Mg)2pz. а‘ Раскрывая скобки, имеем Dg = М (g - Mg)2 = М (g2 — 2gMg + (Mg)2) = Mg2 — M (2gMg) -f- + M (Mg)2 = Mg2 — 2MgMg + (Mg)2 = Mg2 — (Mg)2 (здесь мы воспользовались теоремой 3.2 и интерпретировали по- стоянную величину Mg как случайную величину, равную Mg при всех оеЙ). Таким образом, получаем полезную формулу Dg = Mg2 - (Mg)2 = 2a2pz - (SazPz)2. Почему в качестве меры отклонения от математического ожи- дания выбрано M(g—Mg)2? С тем же правом можно было бы выбрать, например, M|g— — Mg| или М| g — Mg|3, или M(g —- Mg) 4. Некоторый ответ на этот вопрос дает механическая аналогия: если Mg имеет смысл центра тяжести, то Dg = S(az-Mg)2pz имеет смысл момента инерции относительно центра тяжести. Ве- личины типа M|g — Mg| = 2|az-Mg|pz вообще никогда не встречаются в механике (абсолютная величи- на |х| не является аналитической функцией х). Но полный ответ на этот вопрос будет получен при дальней- шем изучении теории вероятностей: дело в том, что именно дис- персия, а не какая-либо другая из возможных мер отклонения от среднего, входит в формулировку важнейшей в теории вероят- ностей центральной предельной теоремы. 3.4. Независимые случайные величины. Пусть в результате опыта могут наблюдаться две случайные величины g и т]. Слова «могут наблюдаться», очевидно, можно понимать в том смысле, что для любых двух числовых множеств А и В мы можем ска- зать, произошло или не произошло каждое из двух событий {ge/l} и {т]еб}. «Независимость» случайных величин интуитив- но понимается так, что, зная результат наблюдения над одной случайной величиной, мы ничего не можем сказать дополнитель- но о другой случайной величине. Этим мотивируется Определение 3.4. Две случайных величины g и г] назы- ваются независимыми, если для любых двух числовых множеств А и В события {g&<4} и {т]еВ} независимы. 27
Теорема 3.4. Пусть ах, а2, йп, ... — возможные значения случайной величины £ и Р{£ = аг}=Рг, 62, ..., bm, ...— возмож- ные значения случайной величины л и Р {л = bj} = qj. Для незави- симости случайных величин § и л необходимо и достаточно, что- бы события {£ = Яг} и {л = bj} были Независимы при любых Oj и bj, т. е. чтобы Р{(со: £ (ю) = а,., я(<о) = b})} = PJg = а() т] = 6,} = = р {В = а,} р {n = bj} = РДг Доказательство. Для любых А и В имеем cij€.A,b jEB = 2 PG=aJP01=^}= 2 Р^ = аг} Р^ = М = afi.Atb afcA bj€B = P{UA}P{r]eB}, что и требовалось доказать. Теорема 3.5. Любые функции f(g) и g(r]) от независимых случайных величин g и т] являются независимыми случайными величинами. Доказательство. Обозначая через f~x и g~x операции взятия полного прообраза, имеем Р{/(Ю(Л В} = Р{В(Г1 И), пея-чв» = = Р {S е /-1 (Л)} Р {Я € g~l (В)} = р {f (Ю (Е Л} Р & (п) 6 В}. Определение 3.5. Случайные величины £1,^2, £п назы- ваются независимыми в совокупности, если для любых числовых множеств Ai, А2, ...» Ап события {^^^2}, ...» {£n^U} независимы в совокупности. Теорема 3.6. Пусть а{2\ • • • • • • —значения случай- ной величины Для независимости случайных величин ^2,... ,^п достаточно, чтобы Р {51 = 4”, 52 = а®, ... Л = = fl Р {^ = а<?} • (3.3) /=1 ' Доказательство. Требуется доказать, что при любом kt^Zn и любых множествах А\, , Aik k р {5г, 6 , bk е Aik} = П Р {B/s € 4S}. s—1 28
Заметим, что, полагая At = (—00,00) для i ( (i1( ... , ik) и А = А; , если i = L, имеем € А.....В// Aik) = & С Alt ^А2,...ЛЛ А„). Таким образом, событие, относящееся к случайным величи- нам gt!, ..., можно заменить событием, относящимся ко всем случайным величинам gi, ..., gn. Дальнейшие выкладки такие же, как и при доказательстве теоремы 3.4. Замечание. Таким образом, независимость в совокупности п случайных величин может быть сформулирована в виде равен- ства (3.3), относящегося сразу к п случайным величинам. В то же время независимость в совокупности п событий определяется иначе (определение 2.3). Это связано с тем, что в настоящей книге принято традиционное определение независимости событий (см. в методических замечаниях о том, почему это сделано и как можно было бы изменить традиционное определение). Теорема 3.7. Если случайные величины g и г] независимы и существуют Mg и Mr], то существует математическое ожидание произведения gr] и Mgr) = MgMr). Доказательство. Имеем МВт) = £ £ (to) I] (со) Р (<о) = £ B(w)T)(®)P(®)} = a^b. £(co)-=az T)(co)=b j = Е {a>bi Е РН= Е аАр^=ai> п=ь,} = ai’bj №S(“)=az ^bj = (Ea‘p^=a‘>) EW’rt) =M^ al ' bj (проведенные выкладки законны, так как их применение к ряду I S (о>) | • | г] (со) | Р (со) приводит его к виду М | g | М | т] |, следо- (0GQ вательно, в силу существования M|g| и М|т]|, все наши выкладки делаются с абсолютно сходящимися рядами). 3.5. Совместное распределение. Если имеется две случайных величины g и т], причем g принимает значения а2, ..., ап, а т) принимает значения b2, ...» Ьт, ..., то рассматривают события {®: В (со) = а(, Т) (<в) = bj} = {В = at, т] = Ь>} и вероятности этих событий. Набор векторов (а», &,) вместе с вероятностями Р{В = аг-, г]—М образует так называемое совме- стное распределение случайных величин В и т). Если f(x, у) — лю- 29
бая функция двух переменных, то совершенно так Же, как теоре- му 3.3, можно доказать следующую теорему. Теорема 3.8. Mf(g,7]) = 2 п=М- ai’bl В частности, полагая f(x, у) = 1, если х—а^, и f(x, у)=0, если x=#af„ имеем М/ (5, п) = ₽{/(£, П) = О = Р{В = *.} = = ^ / (az, Ь}) Р {В = aif n = b}) = £ P {В = ait, n = &,}, at-bi bj т. e. распределение случайной величины В получается из совмест- ного распределения путем суммирования по значениям второй случайной величины. Впрочем, этот факт легко установить и не- посредственно. Если случайная величина В имеет п различных значений, а случайная величина т] имеет т различных значений, то для зада- ния совместного распределения Вит] надо задать пт вероятно- стей P{B=at-, т] =bj}. В случае независимых случайных величин Р{£ = <k> т] = b,} = Р{В = az}P{7] = так что достаточно задать т+п вероятностей P{B = aj} и Р{т] = &3}. Для нескольких случайных величин соответствующая разница становится еще более резкой. Этим объясняется то, что в приложениях предпочитают вероятностные модели с независи- мыми случайными величинами. 3.6. Свойства дисперсии. Теорема 3.9. D,(cB) = c2D£, где с — константа. Доказательство очевидно. Рассмотрим вопрос о дисперсии суммы В+т)- Имеем D (В + 7]) = М {В + 7] - М (В + 7])}2 = М {(В - МВ) + (7] - Мт])}2 = = м (В - МВ)2 + м (7] - Мт])2 + 2М {(В - МВ) (7] - МТ])}. Выражение М{(В—МВ) (я—Mt])}=cov(B, т]) называется ковариа- цией величин В и Л- Для независимых и случайных величин cov (В, т]) = М (В — МВ) М (т| — Мт]) = О (теоремы 3.5 и 3.7). Мы получили следующее утверждение Теорема 3.10. Для любых случайных величин В и т] D (£ + П) = + Вт) + 2 cov (В, т]). 30
Для независимых £ и я D(l + n)=D| + Dn. §4 НЕРАВЕНСТВО ЧЕБЫШЕВА. ЗАКОН БОЛЬШИХ ЧИСЕЛ. ИСПЫТАНИЯ БЕРНУЛЛИ. ТЕОРЕМА ПУАССОНА Содержательные теоремы теории вероятностей могут быть получены, если рассматривать не одно событие или случайную величину, а много. Действительно, пока имеется одно событие, все, что можно о нем сказать,—это, что оно или произойдет, или нет, а об одной случайной величине — что она примет одно из своих возможных значений. Однако о большом числе случайных собы- тий (случайных величин) можно сделать некоторые практически достоверные выводы. Для этого, очевидно необходим аппарат, позволяющий с тем или иным приближением получать выводы о вероятностях разных событий, связанных с большим числом слу- чайных величин. Мы вскоре увидим, что только что доказанная простая теорема D(g + т]) = Dg + Dr] для независимых g и т] является важным звеном этого аппарата. Вторым его звеном является знаменитое неравенство Чебышева. 4.1. Неравенство Чебышева. Дисперсия есть мера отклонения случайной величины от ее математического ожидания. Если дис- персия Dg мала, то большие отклонения g от Mg маловероятны. Точно этот факт выражается следующей теоремой. Теорема 4Л. Имеет место следующее неравенство, назы- ваемое неравенством Чебышева1: P{|g-МП > 8}<-5L 82 для любого е>0. Док аз ательство. Имеем Dr=£(az-M|)2P{| = a(.}, ai 1 Обозначение Р {| g — Mg | > е) есть сокращенное обозначение для Р {со : | g (со) — Mg | > в) = Р {и: g (со) = сц, | аг — Mg | > е) = ₽{£ = <*/)• 31
где а,— возможные значения случайной величины £. Если сум- мирование по всем ai заменить суммированием по всем а, таким, что | «г—М|| ^е, то сумма не увеличится. Таким образом, 2 ,(az-M^P{£ = az}> az:|az—Mfcl>8 >е* 2 P{l = aJ = eaP{||-Mg|>e}, ajZlaj—M£|>e что, очевидно, эквивалентно доказываемому утверждению. Определение 4.1. Говорят, что последовательность gi, ^2, — случайных величин сходится по вероятности к нулю'. 5п~>0(вер), если для любого е>0, при п->-оо Р{|^|>8}^0. Определение 4.2. Говорят, что последовательность слу- чайных величин |1, £2 ... сходится по вероятности к (случайной или неслучайной) величине а: £п-ня((вер), если последователь- ность разностей ii—ai, &—02, ... сходится к нулю по вероятности. Теорема 4.2. Если для последовательности случайных ве- личин gi, g2, ...» gn, ... имеем Щп->0, то последовательность Ь—Щх, g2-Mg2, ... сходится к нулю по вероятности. Доказательство. В силу неравенства Чебышева, при П—>оо Р{||„-М^|>е}<-^-^0 для любого 8>0. 4.2. Закон больших чисел. Случайные величины возникают в приложениях как результаты измерений, причем либо сами изме- рения подвержены случайным ошибкам, либо объекты измерения случайным образом выбираются из некоторой совокупности. Дав- но было замечено, что в то время как результаты отдельных из- мерений gi, |2, ...» Вп могут колебаться сильно, их средние ариф- метические — (Bi 4- Вг + • ••+&„) обнаруживают гораздо боль- п шую устойчивость (а, конечно, естествоиспытатель стремится полу- чать устойчивые, т. е. мало меняющиеся в разных сериях опытов, характеристики). В частном случаеэтот экспериментальный факт уже отмечался ранее. Действительно, рассмотрим некоторое собы- тие А, которое может произойти или не произойти © результате опы- та, и положим если в /-том опыте событие А произошло, и £г = 0, если в /-том опыте событие А не произошло. Тогда £1 + ...+ +£п есть, очевидно, число наступлений события А в п опытах, а — (Si+ ... + есть частота наступления события Д. На яв- 32
лении устойчивости частот основаны все (применения теории ве- роятностей. Если явление устойчивости средних имеет место в действи- тельности, то в математической модели, с помощью которой мы изучаем случайные явления, должна существовать отражающая этот факт теорема. В условие этой теоремы нужно ввести некото- рые ограничения на случайные величины gb ..., gn. Эти ограниче- ния делятся на две группы. Одна труппа предположений — оди- наковость распределений всех случайных величин gb g2, tn- Достаточно требовать это свойство в сильно ослабленной форме: мы предположим, что одинаковы математические ожидания Mg1 = Mg2 = ...=Mg„=a и что дисперсии случайных величин ограничены одним и тем же числом D^<c, i = 1,2, ... ,n, ... Вторая группа предположений — предположения о независимости величин gi, g2, gn, ... . Нам достаточно будет предположить, что эти величины попарно независимы (т. е. любые две gt- и gj при /=/=/ независимы). Тогда, очевидно, 0(11 + . + U = Dll + Dg2 + ... + Dg„. Сформулируем знаменитый закон больших чисел в форме Чебышева. Т-еорема 4.3. Пусть случайные величины gi, |2» • ••, £п, ••• по- парно независимы и D^i<Cc. В таком случае для любого положи- тельного е имеем при п->оо gi + g2+-.. + gn Mh + Mg2+.;. + Mg„ >-8j-> 0. л Доказательство. Поскольку мЛЕ1Ч-•••+£* \ = Mh+---+Mgn \ л / л ’ достаточно, в силу теоремы 4.2, установить, что дисперсия вели- чины — Qi + ... + стремится к нулю. Имеем при п-^-оо п п Df ^+--- + М = -Ч = —-»-о, \ п J п2 п2 п 1=1 что и требовалось доказать. Следствие. Если Mgi= ... = Mgn=a, то для любого 8>0 при П-+ОО Р (I Е1+---+Е"--а П 33
Замечание. Это следствие и является выражением устой- чивости средних. Прежде считалось иногда, что из этой математической теоре- мы вытекает экспериментальный факт устойчивости средних. Логически это, конечно, неверно: ни из какой теоремы мате- матики, механики или физики логически не вытекает тот или иной результат эксперимента, поскольку никогда на практике нельзя гарантировать выполнение условия теоремы. Тем не менее, все существование физико-математических наук основано на том, что следствия из хорошо подобранной математической модели обычно находят свое подтверждение в практической деятельности. По- смотрим, каким же образом интерпретировать в виде частоты ту вероятность, о которой закон больших чисел утверждает, что она стремится к нулю. Для начала нам даны случайные величины 1г. .... |п. Это означает, что серию из п экспериментов можно много раз повторять, причем эти случайные величины будут при каждом повторении серии из п опытов получать свои значения. Предполагается, что можно будет говорить о вероятности того, что {11 € А, Ш......- (4Л) где Ai Ап — произвольные числовые множества, т. е. частоты наступления этого события будут устойчивы. Более того, предпо- лагается, что можно будет говорить о вероятности Pj(li,6 С<«)} (4.2) того, что вектор (gb ..., £п) попадет в любое подмножество С<п> «-мерного евклидова пространства (предполагается в том смысле, что эта вероятность должна допускать частотную интерпрета- цию). Положим С<«> = [х = (хг.хп): **+•••+*?----а I > е). ( п | J Тогда, в условиях теоремы 4.3, Р {(Bi.’ • • • . U 6 С<")} = Р {| -1Х+- + ^ -а > е| при большом п будет сколь угодно малой, т. е. событие (£ь ..., ..., £п)еС<п> будет очень маловероятным. Следовательно, подав- ляющее большинство серий из п опытов приведет к тому, что век- тор, составленный из их результатов, не попадет в С<п>. Отметим, что чрезвычайно трудно экспериментально прове- рить предположение о существовании вероятностей (4.1) и (4.2) — ведь это надо сделать для всевозможных подмножеств Аь ..., Ап и С<п>. Таким образом, возможность рассматривать результаты п экспериментов ..., как набор случайных величин опреде- ляется обычно интуитивно, исходя из имеющихся у исследовате- ля опыта и общих представлений. 34
4.3. Испытания Бернулли. В теории вероятностей имеет боль- шое значение простая схема случайных экспериментов, называе- мая схемой Бернулли. На традиционном языке ее определение выглядит следующим образом: «испытаниями Бернулли называ- ются независимые испытания с двумя исходами и с вероятностью успеха, не меняющейся от испытания к испытанию». Для читателя, привыкшего к теоретико-множественному язы- ку, это «определение» выглядит скорее как заклинание и требует перевода на привычный язык. Нужно, следовательно, ввести про- странство элементарных событий. В случае одного испытания (т. е. опыта) с двумя исходами (т. е. возможными результатами) пространство элементарных со- бытий состоит из двух элементов. Один из этих элементов назо- вем «успехом» и будем обозначать единицей, другой назовем «неудачей» и будем обозначать нулем. Пусть вероятность успеха есть, р: Р(1)=р, тогда вероятность неудачи есть q=l—р: Р(0)=?=1-р. Интерес представляет, конечно, не один опыт, а несколько'. Расшифруем выражение «независимые испытания». Согласно п. 2.3, соответствующее пространство элементарных событий яв- ляется прямым произведением п (в случае п испытаний) экземп- ляров пространства Й = (0, 1), Р(0) = р, Р(1) = р= 1 — р. Следовательно, в случае п испытаний пространство элементарных событий Q состоит из последовательностей ® = ПО...01 п нулей и единиц длины и, причем для получения вероятности Р(ш) нужно каждой единице поставить в соответствие р, каждому ну- лю — q и полученные числа перемножить. Иными славами, если через ц(сй) обозначить число единиц в последовательности <о, то получим р ((в) == Поэтому на современном языке следует дать Определение 4.3. Испытания Бернулли — это Q = (0, 1) х (0, 1) х ... X (0, 1) (п раз), причем для любого соей Р(со) = о<1, q = 1 — р. Сравним достоинства и недостатки двух определений испыта- ний Бернулли. Старое определение не вполне ясно, но с его по- мощью можно узнавать, в каких конкретных ситуациях речь идет об испытаниях Бернулли. Испытаниями Бернулли будут, на- 35
пример, бросания монеты (герб — успех), стрельба в цель не- скольких одинаково метких стрелков (попадание — успех), наблю- дения за погодой, проводимые в данный день (скажем, 7 мая) каждого года (дождь — успех, нет дождя — неудача). Определе- нию испытаний Бернулли не будут удовлетворять бросания по- разному искривленных монет (от бросания к бросанию меняется вероятность успеха), стрельба в цель при наличии корректировки (нет независимости результатов отдельных выстрелов и постоян- ства вероятности успеха), наблюдения за погодой в последова- тельные дни одного года (нет независимости). В то же время определение 4.3 ясно и удобно для математических выводов, но, если строго им ограничиться, то оно совершенно не дает пути применения схемы Бернулли. Выведем, (разумеется, из определения 4.3) формулу для ве- роятности Р{р=т}, обозначаемой еще Pni(m), т. е. для вероят- ности того, что при испытаниях Бернулли будет ровно т успехов. Теорема 4.4 Р„ (m) = Р {р = т} = C^pmqn~m Доказательство. Запишем цепочку равенств Р {р = т} = Р {со: р (©) = т} — Р (со) = pmqn~mN (т), ш:ц(ю)=т где через N(m) обозначено число элементарных событий таких, что р(со)=т. Очевидно, = (число сочетаний по т эле- ментов из и), так как элементарное событие, содержащее т еди- ниц, вполне определяется указанием мест, на которых стоят еди- ницы, в последовательности нулей и единиц длины п. Введем случайные величины р&: _ f 1, если в &-том испытании произошел успех, Hjfe — ) (О,» » » » произошла неудача. Иными словами, рл(св) есть символ, стоящий на 6-том месте в последовательности св. Очевидно, что Р {р! = аъ р2 = а2, ... , р„ = ап} = pa'ql^ai pa'ql~a'... где принимают значения 0 и 1. Следовательно, P{pi = ai, р2 = а2, ... ,р„ = «„} = ПP{pt = aj, z=i т. е. случайные величины рь ..., рп независимы в совокупности. Очевидно, что Mpft=p, Dpft=p<?. 36
Поскольку |Л=Р1 + щ+ ... +ц„, (4.3) имеем Мр, — пр, Dp = npq. Замечание. Распределение случайной величины ц (теоре- ма 4.4) называется биномиальным. Оно определяется двумя чис- лами (параметрами): п — число испытаний и р — вероятность ус- пеха при одном испытании. В приложениях п обычно известно. Для определения р обычно считают приближенно, что р~—. п ц/Р Очевидно, —1 есть частота успеха. В силу равенства (4.3) и за- п кона больших чисел, имеем —->р ((вер.). Однако, как великб п может быть различие между — и р при данном конечном п, мы п пока не знаем: это будет выяснено с помощью центральной пре- дельной теоремы. 4.4. Теорема Пуассона. На практике обычно представляет интерес вероятность вида Р{а<р<6}= £ P{p = /n}= J] C%pmqn~m. (4.4) При больших п, а и Ь вычисление суммы (4.4) является очень сложным. Естественно желание составить таблицы для ее вычис- ления. Очевидно, Р{а<р <Ь} = Р{0 <6} — Р{0< а — 1). Поэтому достаточно составить таблицы для вычисления Р{0 р=С&}. Эта вероятность зависит от п, р й Ь, а следователь- но, таблицы должны иметь три входа. Поэтому таблицы имеют слишком большой объем и ими неудобно пользоваться. Достаточно подробные таблицы на русском языке до сих пор не изданы. Из широко доступных изданий можно указать цити- рованную в § 1 книгу [21], где имеются краткие таблицы биноми- ального распределения, пригодные, однако, лишь для учебных целей. Хорошие приближенные выражения указаны в книге Л. Н. Болыпева и Н. В. Смирнова [4]. Но эта книга рассчитана на специалистов. Практически большую ценность имеют прибли- женные выражения для биномиальных вероятностей, полученные при различных предположениях о параметрах п и р. Таких при- ближений два.. Соответствующие утверждения называются тео- ремой Муавра—Лапласа и теоремой Пуассона. Сейчас мы рас- смотрим гораздо более простую (хотя полученную позже) теоре- му Пуассона. 37
Теорема Пуассона касается случая, когда число испытаний п велико, а вероятность успеха р мала, причем произведение пр имеет порядок нескольких -единиц. Грубое и не всегда верное правило для применения теоремы Пуассона состоит в том, что п должно быть порядка не менее нескольких десятков, а лучше со- тен, а произведение пр должно заключаться между 0 и 10. При больших пр рекомендуется применять теорему Муавра—Лапласа. Однако при желании получить некоторую гарантированную точ- ность следует обратиться к указанной книге Л. Н. Болышева и Н. В. Смирнова, так как этой грубой рекомендации особенно доверять нельзя. Выразить на математическом языке то утверждение, что не- которое число велико, а некоторое другое мало, можно только, используя понятие предельного перехода. Следовательно, величи- ны п и р надо сделать переменными, стремящимися соответствен- но к со и 0. Но в последовательности испытаний Бернулли веро- ятность успеха должна быть постоянной. Поэтому теорему. Пуас- сона нельзя сформулировать с помощью одной последовательности испытаний Бернулли. Приходится рассмотреть последователь- ность серий испытаний Бернулли: в первой серии (n= 1) имеется всего одно испытание с вероятностью успеха рь число успехов в ней обозначим pi (очевидно, либо Ц1='1, либо pi=0); далее, во второй серии (и=2) имеется 2 испытания, каждое с вероятностью успеха р2, и число успехов цг, и т. д. В n-ной серии имеется п ис- пытаний с вероятностью успеха рп и успехов. Теорема 4.5 (теорема Пуассона). Пусть при и->оорп->0 таким образом, что прп-+-Х, где % фиксированное неотрицательное число. Тогда для любого фиксированного k=0, 1, 2, ... при п->оо Р{р„ = гА X / 1 \ Доказательство. Имеем р„ =------1- о I — ), п \ п / Р{Ия = А} = с5р*(1-ряГ4 = = Я(л—1) ,..(Я—^4-1) Г А д. 0(А\ 14 Г1 _ А_о(1Л 1“"4 fel [ п \ п ) J L я \«/J При п-^-оа имеем п(/1-1)...(п-А+1)[А+о^)]‘ = = Кк «(л — 1) •••(?.—fe + n ц + 0(П)Л л* Г, Ь f „ л 1-------о( — 11 ->еА L п \ п J J Отсюда вытекает утверждение теоремы. 38
Замечание. Мы видим, что доказательство теоремы Пуас- сона почти тривиально. Выше было отмечено, что приближение биномиального закона, даваемое теоремой Пуассона, не является особенно хорошим. В чем же тогда значение этой теоремы? Дело в том, что, с точки зрения применений, математические теоремы бывают хорошими и плохими в следующем смысле: хорошие тео- ремы продолжают действовать, если даже нарушать их условия, а плохие сразу перестают быть верными при нарушении условий. Теорема Пуассона является в этом смысле хорошей и даже пре- восходной. Формально она относится к испытаниям Бернулли, но можно довольно сильно нарушать условия схемы Бернулли (т. е. допускать переменную вероятность успеха и даже не слиш- ком сильную зависимость результатов отдельных испытаний), не нарушая окончательного вывода теоремы Пуассона. Определение 4.4. Говорят, что случайная величина £, принимающая значения 0, 1, 2, ..., имеет распределение Пуассона с параметром %, если /г! Таким образом, при довольно слабых ограничениях число успехов в последовательности испытаний (не обязательно испыта- ний Бернулли) будет мало отличаться от распределения Пуассо- на. Это утверждение не удается адекватно выразить на матема- тическом языке, т. е. в виде теоремы, хотя бы потому, что неаде- кватно выражать приблизительное равенство, которым можно пользоваться на практике в терминах предельного перехода. Мы видим здесь один из примеров принципиального несовершенства нынешнего математического языка. Более точные аппроксимации биномиального закона, упоми- навшиеся выше, имеют то преимущество, что они более точны, и тот недостаток, что они более сложны. При отклонениях от схе- мы Бернулли они сразу теряют смысл (так обычно бывает с бо- ле сложными в математическом отношении фактами). В то же время простое распределение Пуассона обладает сравнительно универсальной применимостью. Последнее утверждение мы пони- маем в том смысле, что если экспериментальные данные показы- вают, что закон Пуассона неприменим, в то время как, сообразно со здравым смыслом, он должен был бы действовать, то естест- веннее подвергнуть сомнению статистическую устойчивость на- ших данных, чем искать какой-то другой закон распределения. Следовательно, почти тривиальное, с математической точки зре- ния, доказательство теоремы 4.5 нужно рассматривать как эври- стический прием, приводящий нас к одному из универсальных (в рамках применимости теории вероятностей) законов природы. Пример 4.1. Пусть известно, что на выпечку 1000 сладких булочек с изюмом полагается 10 000 изюмин. Найти распределе- 39
ние числа изюмин в какой-то случайным образом выбранной бу- лочке. Решение. Рассмотрим следующую схему испытаний. Всего будет n=ilOООО испытаний (по числу изюмин). Испытание с но- мером k будет состоять в том, что мы определяем, попала ли изюмина с номером k в нашу случайно выбранную булочку (заметим, что на покупку булочки в магазине вполне можно смотреть как на случайный выбор). Тогда, поскольку всего було- чек 1000, вероятность того, что ft-тая изюмина попала именно в нашу булочку, есть р = 1/1000. Испытания не вполне независимы, так как если в нашу булочку попали изюмины с номерами от 1 до нескольких тысяч, то она будет состоять целиком из изюма, так что остальные изюмины просто не смогут там поместиться. Одна- ко ясно, что при хорошем перемешивании теста такой случай почти невозможен. Вообще, идеализация, в которой изюмины считаются точками, достаточно хороша для нашей задачи. При- меняем поэтому распределение Пуассона с параметром Х = пр = 10000.—— = 10 г ‘ 1000 (заметим, что X есть среднее число изюмин, приходящихся на одну булочку). Следовательно, Р{ц =k} = — г10. 1Г ' AI В частности Р{у.=О}, т. е. вероятность того, что нам достанется булочка вовсе без изюма, есть е-10, что примерно есть 0,5-10-4. Замечание. Если случайная величина g подчиняется зако- ну Пуассона, то т р {£<>}= <4-5) £=0 Выражение (4.5) зависит от двух параметров т и X. Поэтому таблица для выражения (4,5) будет таблицей с двумя входами, что несравненно удобнее, чем таблица с тремя входами для би- номиального закона. Хорошие таблицы для закона Пуассона имеются в уже цитированной книге Л. Н. Большева и И. В. Смир- нова, а также в книге Я. Янко «Математико-статистические таб- лицы». Москва, Госстатиздат, 1961 (перевод с чешского языка). Ясно, что пример 4.1 имеет весьма общий характер: можно говорить вместо изюмин в булочках, например, о числе бактерий в капле воды, взятой из хорошо перемешанного ведра, о числе больных данной (неинфекционной) болезнью в данном городском районе и т. д. Если мы предположим, что атомы радиоактивного вещества распадаются независимо друг от друга, причем в тече- 40
ние данного интервала времени распад отдельного атома проис- ходит с вероятностью р, а всего к началу интервала времени было п атомов, то для числа распадов получим, естественно, рас- пределение Пуассона с параметром к=пр. В каких же случаях нельзя ожидать закона Пуассона? Одна из типичных ситуаций, когда он нарушается,— это сильная зави- симость результатов отдельных испытаний. Например, если при возникновении аварии одного элемента оборудования почти на- верняка выходят из строя связанные с ним элементы, то общее число вышедших из строя элементов не будет подчиняться зако- ну Пуассона. Очевидно, то же самое справедливо для случая чис- ла больных инфекционной болезнью, а также для случая числа покупателей, пришедших в магазин за дефицитным товаром, и т. д. §5 СТАТИСТИЧЕСКАЯ ПРОВЕРКА ГИПОТЕЗ При проведении научных исследований часто приходится рас- суждать по схеме силлогизма. Напомним в удобной для нас фор- ме это понятие. Пусть исследователь имеет о природе некоторого явления несколько гипотез. Одна из них — обозначим ее Hq— может быть то какой-то причине для него особенно дорога или важна. Будем называть гипотезу HQ основной. Кроме того, иссле- дователь может допустить еще ряд гипотез Н2, .... Эти гипо- тезы мы будем называть альтернативными. Для проверки того, какая гипотеза — основная Hq или одна из альтернативных Н^ Н2, ... — на самом деле справедлива, исследователь прибегает к помощи опыта. Пусть в результате опыта может наступить или не наступить определенное событие S. Известно, однако, что если на самом деле верна гипотеза Hq, то событие S наступить никак не может: если S имеет место, то неверна Hq. Допустим, что в ре- зультате опыта S все же наступило. Тогда очевидно, что HQ не- верна. Такая схема рассуждений: если S имеет место, то Но неверна представляет собой один из видов силлогизма. Очевидно, что по- нятие силлогизма выделяет в формализованном виде некоторую— хотя и очень небольшую — часть того, что на самом деле проис- ходит при научном исследовании. Теория статистической проверки гипотез изучает примерно эту же часть научного мышления, но в условиях, когда имеется случайность (предполагается, конечно, статистически устойчивая случайность, для описания которой разумно пользоваться поня- тиями и методами теории вероятностей). В частности, пусть известно не то, что при верной гипотезе Hq событие S наступить вообще не может, а что его вероятность 41
P(S/HO) имеет смысл и мала (несмотря на внешнее сходство за- писи, Р(5/Яо) не имеет ничего общего с условной вероятностью, так как гипотезе Но мы не собираемся приписывать никакой ве- роятности— при нашем подходе она либо верна, либо неверна). Ясно, что если первая посылка силлогизма верна «в большин- стве. случаев», то его заключение (при верной второй посылке) верно также «в большинстве случаев». Следовательно, если при наступлении S мы будем отвергать то мы лишь изредка бу- дем ошибаться. Поскольку аккуратный исследователь много раз проверяет свои выводы, то в конечном счете истина возобладает. Однако для того чтобы понять, почему нельзя вообще не оши- баться, надо несколько уточнить рассматриваемую ситуацию. Итак, у нас имеется гипотеза Но о природе некоторого явле- ния, которую мы по каким-то причинам выделяем и называем основной, противопоставляя ее множеству {Н^} альтернативных гипотез (X может принимать значения 1, 2, ... или вещественные значения, а в принципе пробегать любое множество). Далее, имеется опыт, результат которого х есть элемент некоторого множества X, называемого выборочным пространст- вом. Например, если опыт состоит в пересчете каких-то предме- тов, то х— неотрицательное целое число, а Х={0, 1, 2, ...}. Если же опыт состоит в проведении какого-то измерения, то часто ес- тественно считать, что его результат х может быть любым веще- ственным числом, а X—множество всех вещественных чисел. В случае нескольких измерений х — вектор, а X—многомерное пространство. Связь между гипотезами Н\ и результатом опыта х состоит в следующем. Предполагается, что в X выделен достаточно ши- рокий класс подмножеств А^Х таких, что при любой верной ги- потезе Нъ, определены вероятности р{хеА/нк}> т. е. вероятности того, что результат опыта х попадет в Д, если на самом деле верна гипотеза Н% (предполагается, следовательно, соответствующая статистическая устойчивость). Формально процесс проверки гипотезы Но состоит в том, что выбирается некоторое множество S (называемое критическим для гипотезы Но) и делается опыт. Если результат опыта x&S, то ги- потеза Но отвергается. Посмотрим, каким условиям должно удовлетворять S. Хорошо было бы, если бы Р S/Ho] = 0 (тогда бы мы ни- когда не отвергали верную гипотезу), a P{x^S/H^} = ]. при %=/=0 (тогда мы всегда бы отвергали HQi если на самом деле вер- на любая из гипотез %=#0). Однако в практически интересных случаях, для того чтобы Р{х£ S/Ho} = 0, множество S должно быть пустым. Но тогда и Р {х£ S/H%} —0 для любого % и вся процедура бесполезна. 42
Поэтому исследователю приходится, скрепя сердце, допус- кать ненулевые значения P{xsS /Яо}. Единственное, что он мо- жет сделать,— выбрать заранее «уровень значимости», т. е. неко- торое число а>0, и потребовать, чтобы Р{х£ S/Ho} <а. (5.1) Если мы дорожим гипотезой Но и не хотим ее отвергнуть пона- прасну, то а должно быть малым. Каким конкретно — довольно безразлично, поэтому можно уговориться выбирать одно из зна- чений 0,05; 0,01 или 0,001, как обычно и делается. Наличие этих трех всеми признанных значений сокращает объем необходимых статистических таблиц. А поскольку никто не настаивает на том, что только эти значения а допустимы, нет и искушения бороться за равноправие других значений а. Итак, сначала назначается а, затем выбирается S, удовлет- воряющее (5.1), и, наконец, делается опыт. Очевидно, что Р(хе5/Я0} (обозначаемая также, через Р{5/Я0})есть вероят- ность напрасно отвергнуть Но (когда она верна). Такая ошибка называется ошибкой первого рода. Из (5.1) следует, что вероят- ность ошибки первого рода не превосходит уровня значимости а.. Если х&$, где S удовлетворяет (5.1), то говорят: «гипотеза Но отвергается_на уровне значимости а». Если xeS, то; казалось бы, следует сказать «гипотеза Но принимается». Но каждый статистик знает, что если гипотеза не отвергается одним способом, то, возможно, она будет отвергнута другим, и можно только сказать, что «гипотеза Яо на уровне зна- чимости а не отвергается». Но, конечно, основной интерес пред- ставляют те случаи, когда гипотеза отвергается или не отвергает- ся одинаково на всех разумных уровнях значимости (указанных выше). Такие случаи бывают достаточно часто. Кроме ошибки первого рода возможна еще ошибка второго рода, которая состоит в том, что гипотеза Но не отвергается, ког- да на самом деле она не верна, а верна одна из гипотез Ве- роятность этой ошибки р(Х) есть, очевидно, Р (X) = Р {х рМ) = 1 - Р {х е S/HK} == Р {S/HK}. Функция 1 — Р(Х) = Р{х( S/HK}, равная вероятности отвергнуть гипотезу Но, если на самом деле верна гипотеза Нк, называется функцией мощности статистического критерия S. Как только что объяснялось, мы бы желали, чтобы Р {5/Я0} = 0, а P(S//7%) = 1 при X #= 0. Иными словами, было бы хорошо, если бы функция мощности имела вид, показанный сплошной линией на рис. 5.1. На самом деле приходится удовлетворяться функцией мощности, имеющей вид вроде пока- занного на рис. 5.1 пунктиром. . Каким следует выбирать S? Естественно, надо среди S, удов- летворяющих условию (5.1), выбирать такое 5, при котором 43
P{S/HK} = maxP{S/HK}, s где max берется по всем S, удовлетворяющим (5.1). Но S=<Sji, при котором достигается максимум, будет, вообще говоря, зави- сеть от %. Если Sx не зависит от X, то S=Sz, есть, очевидно, наи- лучший критерий. Существование наилучшего критерия — вещь P{S/Hj о Л Рис. 5.1 довольно редкая. Если наилучший критерий есть, то он, во-пер- вых, описан во всех учебниках математической статистики, а, во- вторых, к нему обычно .нетрудно прийти, опираясь на соображения здравого смысла. Именно так обстоит дело в приводимом ниже примере. Пример 5.1. Пусть нам известно, что при выпечке сладких булочек по государственному стандарту полагается на 1000 бу- лочек' 10 000 изюмин. Мы, однако, подозреваем, что изюм мог (по крайней мере, частично) разойтись по непредусмотренным зако- ном каналам, и желаем это проверить. С этой .целью мы покупаем одну булочку и пересчитываем в ней изюм. Если изюмин слиш- ком мало, мы укрепляемся в своих подозрениях. Попробуем формализовать эту процедуру с помощью только что введенных понятий. Начнем с гипотез Но и Нк. Выберем параметр % следующим образом: Л принимает значения на отрезке [0, 1] и обозначает долю украденного изюма. Гипотеза Но отвечает Л=0 и означает, что ничего не украдено. Опыт состоит в том, что мы пересчитываем изюмины в куп- ленной булочке. Выборочное пространство X (множество всех возможных исходов опыта) состоит из чисел х=0, 1, ..., 10 000, но нам удобней считать его состоящим из всех чисел 0, 1, 2, ... (считая, что значения x>il0 000 встречаются с нулевой веро- ятностью) . Вероятности Р {х = k/Hi} можно вычислить, как мы видели в предыдущем параграфе, применяя распределение Пуассона с параметром, равным среднему числу изюмин, приходящихся на одну булочку, т. е. при верной гипотезе Н^, пуассоновский пара- метр есть 10 000 (1 — X) 1 000 44
Таким образом, Р{х = k/HK} = [tot1 —Ml* g-ioa-w A! Перейдем к вопросу о выборе а. Вспомним, что а ограничивает сверху вероятность ошибочно отвергнуть нулевую гипотезу, т. е., в нашем случае, ошибочно обвинить невинного человека. Поэтому при- емлемо лишь значение а=0, ио .в этом случае вся функция мощно- сти будет равна 0, т. е. мы не сможем обвинить и виноватого. Эти соображения показывают, что статистические методы вряд ли пригодны для решения вопроса о возбуждении обвинения (тем более, для решения вопроса о виновности). Посмотрим, что же все-таки они могут дать. С этой целью испробуем два значения а:а=0,01 и а=0,001. ' Главный вопрос — как выбирать критическое множество S. Ясно, что хищение изюма проявится в том, что изюма в булочке будет слишком мало. Иными словами, критическое множество S должно иметь вид S = {х: х < k}, где k следует выбрать из условия Р{5/Я0} = Р{х<Л/Я0}<а. Задача о выборе k по заданному а очень легко решается с помо- щью таблиц распределения Пуассона. При а=0,01 имеем S={x:x^3}, а при а=0,001 имеем 5 = {х:х^1}. Функция мощности дается следующей таблицей: Параметр X (доля укра- денного изюма) Функция мощности P{x£S/H^ (вероятность возбуждения обвинения) а = 0,01 S = {х : х< а = 0,001 S = {х: х < 1 }• а = 0,15 S = {х : х< 6}- 0,0 •0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0,010 0,021 0,042 0,082 0,15 0,27 0,43 0,65 0,86 0,98 1 0,00050 0,0013 0,0031 0,0073 0,017 0,041 0,092 0,20 0,41 0,74 1 0,13 0,76 1 45
Из таблицы видно, в частности, что если вероятность ложно- го обвинения ограничить сверху числом 0,001, то она на самом деле будет равна 0,00050. При этом того, кто украл половину изюма (%=0,5), мы обвиним с вероятностью 0,041. Правда, за счет покупки и исследования нескольких булочек можно было бы приблизить функцию мощности к 1 при Х=7^=0, не увеличивая ее свыше 0,001 при А,=0. Однако ясно, что одними статистически- ми методами здесь не обойтись. Нельзя ли все же извлечь из статистики некоторую пользу? Договоримся решать вопрос об обвинении не при помощи стати- стики, а при помощи прямого наблюдения. Но в таком случае, если допустить, что 80% всех работников честны и лишь 20% нечестны, то 80% рабочего времени «наблюдателя» будет потеря- но впустую. Будем теперь проверять нашу гипотезу HQ на совер- шенно ином уровне значимости а=0,15, договорившись, что от- брасывание гипотезы не означает возбуждения обвинения, а лишь установление в соответствующем месте наблюдения. Как видно из таблицы, вероятность ошибки первого рода, т. е. на- прасной посылки «наблюдателя» есть 0,13 и, таким образом, лишь 0ДЗ-0,80= 10,4% рабочего времени «наблюдателя» будет потеряно впустую. С другой стороны, если Z=0,5, то вероятность посылки наблюдателя и тем самым обнаружения хищения (при его совершении в следующий раз) ривна 0,76, что вполне удов- летворительно. Рассмотренное положение вообще характерно для примене- ния статистических методов: не решая до конца научной или тех- нической задачи, они позволяют ценой сравнительно небольших расходов наметить объект или план углубленного научного ис- следования. Таким образом, мы убедились в справедливости афо- ризма «статистике часто принадлежит первое слово, но никогда последнее». § 6 АКСИОМАТИКА КОЛМОГОРОВА. ИНТЕГРАЛ ЛЕБЕГА Хотя наблюдаемые в эксперименте величины могут быть измерены лишь с ограниченной точностью, все основные понятия науки связаны с идеей числового континуума. Таким образом, обычно считается, что возможными значениями одной измеряе- мой величины могут быть все действительные числа (принадле- жащие некоторому интервалу); если измеряется несколько вели- чин, то получающийся вектор может принимать любое значение из некоторой области евклидова пространства. По-видимому, континуум гораздо проще изучать, чем дискретные числовые множества. Соответственно, непрерывные модели проще и дают лучшее приближение к реальности. 46
Теория вероятностей не может держаться в стороне от этой общенаучной традиции. Следовательно, нужно допустить случай- ные величины, значениями которых могут быть все точки некото- рого интервала или всей числовой прямой. Но если случайную величину g = £(co) понимать как функцию от соей, то Q в таком случае не может быть счетным множеством (разумно рассматри- вать лишь однозначные функции, когда соей отвечает лишь одно число ?(<о)). Поэтому нельзя приписать каждой точке соей вероятность Р(со), отличную от нуля. Действительно, допустив, что все Р(со) >0, рассмотрим для каждого натурального п мно- жество ; V - П 1 п } Если каждое из этих множеств конечно, то Q = Qi + Q2 + ... + £2n4-... не более чем счетно (хорошо известно, что объединение счетного числа не более чем счетных множеств — не более чем счетно). Если одно из множеств Qn бесконечно, то, очевидно, SP(co)=oo, а следовательно, и SP(co)=oo, coeQn, в то время как было бы естественно требовать, чтобы P(Q)=1. Поэтому, приписывая всем точкам из Q (кроме, может быть, счетного числа) нулевые ве- роятности Р(со), мы должны каким-то образом научиться скла- дывать из соей события ненулевой вероятности. * Это вполне возможно. Например, все точки отрезка [0, 10] имеют нулевую длину, но из них прекрасно «складывается» отре- зок длины 10. Однако определение длины отрезка идет не через определение длин различных точек и их континуального сумми- рования, а через сравнение длин различных отрезков с длиной отрезка единичной длины. По-видимому, континуальное суммиро- вание нельзя определить корректно. В теории меры и теории вероятностей допускается лишь счетное суммирование. 6.1. Аксиоматика Колмогорова. В общей аксиоматике теории вероятностей сохраняется понятие множества элементарных со- бытий Q (которое не обязано быть счетным) и понятие собы- тия А как подмножества П:Л^£2. Однако не требуется, чтобы любое подмножество Q было событием. Требуется лишь, чтобы теоретико-множественные операции, производимые над события- ми в счетном числе, приводили опять к событиям. Множество всех рассматриваемых событий обычно обозначается буквой Ж. Мы потребуем, чтобы Ж удовлетворяло некоторой системе аксиом. Аксиомы. 6.1. Ж, 0 С Ж. 6.2. Если А( Ж, то Л( Ж. 6.3. Если Alf Л2, ... ЛЛ, ... £ Ж, то оо U4 = AUALI...lMnU---e®, Z=1 47
П Л = • ••ПЛП ...=Л1А ...д„... 1=1 Множество 25 подмножеств й, удовлетворяющее аксиомам 6.1, 6.2 и 6.3, называется о-алгеброй (сигма-алгеброй). Кратко аксиомы 6.1, 6.2 и 6.3 можно выразить так: множе- ство событий является о-алгеброй подмножеств множества эле- ментарных событий й. Из понятий, связанных с о-алгебрами множеств, нам пона- добится только понятие наименьшей о-алгебры, содержащей дан- ные множества. Пусть даны множества Ва, являющиеся подмно- жествами Й (где индекс а пробегает некое множество), которые, вообще говоря, о-алгебры не образуют. Рассмотрим все о-алгеб-. ры 25р, содержащие множества Ва (это значит, что все множе- ства Ва являются элементами каждой о-алгебры 25р). Такие 25р существуют: одним из примеров является о-алгебра всех подмно- жеств й. Рассмотрим теперь ₽ Очевидно, что 1) SR — (Т-алгебра. 2) все 3) если какая-нибудь о-алгебра содержит все Ва, то ® со- держится в этой ю-алгебре (действительно, эта ю-алгебра совпада- ет с одной из 25р). Свойства 1), 2) и 3) дают основание называть наимень- шей or-алгеброй, содержащей данные множества Bas Пример 6.1. Рассмотрим эксперимент, состоящий в том, что на отрезок [0, 1] случайным образом бросается точка. Опи- шем пространство элементарных событий, связанных с этим экс- периментом. Ясно, что возможными его исходами являются точки отрезка [0, 1]. Поэтому й=[0, 1]. Что же нужно считать а-алгеб- рой событий?. Правило перевода. Событиями считаются те множе- ства элементарных событий, которые естественно считать наблю- даемыми при эксперименте. Ясно, что в примере с бросанием точки на отрезок модель выглядела бы крайне неуклюже, если бы нельзя было считать наблюдаемыми интервалы вида 0^а<со<&^1, где со— резуль- тат опыта. Итак, интервалы {со: a<®<6} должны входить в о-алгебру событий 25. Отсюда вытекает, что в качестве 25 должна быть взята о-алгебра, 'Совпадающая с наименьшей о-алгеброй, содержащей все интервалы, или еще более широкая о-алгебра. Определение 6.1. Наименьшая о-алгебра, содержащая все интервалы, называется о-алгеброй борелевских подмножеств отрезка [0, 1]. 48
Посмотрим, насколько богата о-алгебра бореЛевских подмно- жеств: 1) Отдельные точки являются борелевскими подмножества- ми. Действительно, точку се (О, 1) можно подставить.в виде пе- ресечения интервалов Q (с------, с-----), где п=1, 2, п=л0 X п П ' ГТ ( 1 1 \ Поскольку интервалы ( с----, c-J---) при являются \ л J (борелевскими) подмножествами отрезка [0, 1], из аксиомы 6.3 вытекает наше утверждение. 2) Множество рациональных точек является борелевским. Действительно, оно является счетным объединением отдельных точек. 3) Множество иррациональных точек является борелевским. Действительно, оно является дополнением к множеству рацио- нальных точек. 4) Любое открытое множество является борелевским. Дей- ствительно, всякое открытое множество есть сумма счетного чис- ла интервалов. 5) Любое замкнутое множество является борелевским (как дополнение к открытому). 6) Если f (со) непрерывная функция на отрезке [0, 1], то лю- бое множество вида {со: f(co)^c}, где с — число, является боре- левским (как замкнутое). Довольно трудно привести пример множества, не являюще- гося борелевским. Ясно, что все множества, имеющие хоть какой-то практический интерес, являются борелевскими. Поэто- му, если взять в качестве S5 борелевскую о-алгебру, то все воз- можные прикладные потребности будут обеспечены с большим запасом. Действительно, практически неотличимо даже иррацио- нальное число от рационального. Введем теперь последние аксиомы аксиоматики Колмогоро- ва. Они состоят в том, что каждому событию А (т. е. каждому Д( 95) ставится в соответствие число Р(А), называемое вероят- ностью события А, удовлетворяющее условиям: Аксиома 6.4. P(Q) = 1, Р(0) = 0. Аксиома 6.5. Если множества А19 А2, ... , Ап> ... не пере- секаются: At Aj = 0, то1 PMx + ^+...4-4+...} = £Р(Л(.). (6.1) z=i Равенство (6.1) называется свойством счетной аддитивности (или полной аддитивности) вероятностй (или вероятностной меры) Р. 1 Знаком + в данной книге обозначается сумма непересекающихся множеств. 49
Итак, общая модель Колмогорова состоит из трех элементов (Q, 95, Р), где й — любое множество, 35 — некоторая о-алгебра его подмножеств, Р — счетно-аддитивная вероятностная мера, определенная на 95. Продолжим рассмотрение примера 6.1. Нам осталось ввести вероятность на сг-алгебре 95 борелевских подмножеств отрезка [О, 1]. Для этого мы должны обратиться к толкованию слов «на отрезок случайным образом бросается точка». Их обычно толкуют так, что вероятность попадания точки на интервал (а, £) —[0, 1] не зависит от положения этого интервала, а лишь от его длины |а—&|. Посмотрим, что получится, если в качестве вероятности Р{<в: а<ю<&} взять длину |а—&|. Во-первых, P(Q) = 1, Р(ф)=0. Во-вторых, если (а, Ь) и (с, d) не пересе- каются, то Р{(а, b) + (с, d)}, т. е. длина суммы двух интервалов, очевидно, равна сумме Р{(п, 6)} + Р{(с, d)}. Трудности, которые нас здесь встречают, состоят в том, что, во-первых, мы пока не знаем, что такое длина произвольного борелевского множества, а, во-вторых, не умеем обосновать равенство (6.1). Эти трудности связаны со сложностью борелев- ских множеств. Но зачем нам понадобились борелевские множе- ства? Они возникли из простых и естественных интервалов после применения к ним в счетном числе теоретико-множественных операций. Зачем, однако, требовать, чтобы к событиям можно было применять теоретико-множественные операции в счетном, а не только в конечном числе? (Ведь счетное (бесконечное) число событий нельзя реально наблюдать.) Ответ на последний вопрос состоит в том, что при допуще- нии счетного числа теоретико-множественных операций получает- ся особенно прозрачная и красивая математическая теория. Но в таком случае дело математиков сводить концы с концами, т. е. показывать в разных конкретных случаях, что предложенная модель со счетным числом операций в (самом деле непротиво- речива. В применении к борелевским множествам отрезка вопрос вполне решается с помощью введения * понятия меры Лебега: именно, показано, что на некотором широком классе множеств, содержащем борелевские множества, можно определить вероят- ностную меру Р, во всех практически интересных случаях совпа- дающую с суммарной длиной составляющих множество интерва- лов, причем так, чтобы выполнять равенство (6.1). Читатель может при желании ознакомиться с полным изло- жением теории меры в книге А. Н. Колмогорова и С. В. Фоми- на [13]. Однако естествоиспытателю достаточно знать, что мате- матики умеют каким-то образом справляться с построением непротиворечивых моделей, удовлетворяющих аксиомам 6.1—6.5, причем в результате их усилий а-алгебра S5 (в практически важ- ных случаях) с избытком достаточна для применений. Интересно 50
отметить, что эта о-алгебра появилась именно для преодоления математических трудностей в общей теории интегрирования. На первый взгляд кажется, что можно было потребовать, чтобы любому подмножеству А множества й отвечала вероят- ность Р(Д), удовлетворяющая (6.1). Однако в наиболее интерес- ных случаях этого нельзя добиться: если бы мы постулировали (6.1) для любых Лей, то мы бы построили теорию, не имеющую практически важных приложений. Поэтому приходится ограничи- вать класс множеств А ст-алгеброй 85, которая, впрочем, в тех случаях, которые мы будем рассматривать, заведомо включает все имеющие какой-то практический смысл множества. Определение 6.2. Говорят, что имеется задача на гео- метрическую вероятность, если множество элементарных собы- тий й есть область в евклидовом пространстве, имеющая конеч- ный объем, и вероятность любой ее «подобласти» А задается формулой Р(Л) = У(Л) V(Q) ’ где V обозначает объем (в двумерном случае — площадь). Ко- нечно, математик заметил бы, что речь идет не о любом подмно- жестве А области й, а только о борелевском *, и не об объеме, а о лебеговской мере объема. Пример 6.2. Рассмотрим теперь следующую «задачу о встрече». Два человека А и В договорились встретиться в условленном месте, причем каждый из них приходит, туда неза- висимо от другого в случайный момент между 12 и 13 часами, ждет 20 минут ( = !/з часа) и, если второй за это время не появил- ся, уходит. Найти вероятность того, что встреча произойдет. В рамках общей теории следует сначала перевести задачу на язык пространства элементарных событий. Пусть х — момент прихода А на условленное место, 12^х<:13, у — момент прихо- да В, 12^#^ 13. В качестве й можно, очевидно, взять квадфат на плоскости: й = {(х, у): 12<х<13, 12<t/<13}. В качестве 85 стандартным образом берем борелевские мно- жества квадрата (практически это все фигуры на плоскости, так как каждая фигура есть сумма счетного числа прямоугольников, а прямоугольники — по определению, борелевские множества). Для введения Р(С) сначала введем ее на прямоугольниках. Если 1 В многомерном случае борелевскими подмножествами называются элементы наименьшей а-алгебры, содержащей все параллелепипеды: {х = (х^, ... , хД : ах <С х^ < хп <Z. bn], где ai<bi, а в остальном at и Ь( —любые числа. 51
с = {(х, у): a<x<Zb, c<y<d), то Р/С) =Р {a<_x<b, c<^y<d} = Р {a<Zx<ib}-P {c<.y<Zd}, поскольку в условии задачи упомянуто о независимости моментов прихода х и у. Но, как и в примере 6.1, слова «случайный мо- мент» следует понимать следующим образом: Р{а<х < b} = |а — &|, Р{ccy<Zd} = |с — d\. Следовательно, Р(С) есть площадь прямоугольника. Любая фигура складывается из (счетного числа) прямоугольников. По- этому естественно считать, что для любого С имеем Р(С) = У(С), где V обозначает площадь (площадь всего Q есть 1). Вероят- ность встречи есть вероятность следующего события С: С = 1(х, у)'. |х —1/|<4- Легко вычислить, что p(C) = V(C) = A 6.2. Случайные величины. События, т. е. элементы ®, назы- ваются еще «измеримыми множествами» (это название связано с тем, что только элементам ® приписывается вероятность, т. е. они входят в область определения вероятностной меры Р). Изме- римость есть (часто довольно далекое) отражение . возможности наблюдать событие А в эксперименте: идея состоит в том, что те события А^Й имеют вероятность Р(А), для которых при каж- дом повторении эксперимента мы можем сказать, наступило со- бытие А или не наступило, а следовательно, определить вероят- ность по частоте. Однако требования математической модели (аксиомы 6.1—6.3) заставляют нас считать измеримыми не толь- ко те события, которые в самом деле можно наблюдать, но и любые элементы наименьшей содержащей их о-алгебры (см. при- мер 6.1). Поэтому практическая интерпретация полученных с помощью модели результатов требует осторожности. Например, в примере 6.1 вероятность того, что наудачу бро- шенная точка окажется рациональной, есть нуль, так как множе- ство рациональных точек счетно, а вероятность попадания в любую точку равна нулю. Следовательно, наудачу брошенная точка с вероятностью 1 иррациональна. Однако вряд ли этот математический факт может иметь прикладную интерпретацию. Мы сохраняем определение случайной величины g как функ- ции £(со). Однако естественно потребовать, чтобы событие {со: а<£(<о)<6}, где а и b — числа, было наблюдаемым, т. е, элементом 95. 52
Определение 6,3. Случайной величиной называется изме- римая функция, определенная на й, т. е. функция Ко), обладаю- щая свойством 1 * {со:а< |(со)<Ь} = {(а, Ь)}( ® для любых чисел а<&. Теорема 6.1. Если g — случайная величина, то полный прообраз любого борелевского подмножества прямой В есть элемент ®. Доказательство. Заметим, что операция взятия пол- ного прообраза перестановочна с теоретико-множественными опе- рациями: (6.2) (6.3) а а г1(Пл«) = П^1(л«)’ <6-4) а а где а пробегает любое (не обязательно счетное) множество. Обозначим через Ф? множество таких подмножеств Be е(—оо, оо), для которых g-1(B)e®. В силу определения 6.3, ЭД содержит все интервалы. В силу равенств (6.2)—<(6.4) и аксиом 6.1—6.3, ЭД есть о-алгебра. Поскольку о-алгебра борелевских подмножеств прямой есть наименьшая о-алгебра, содержащая все интервалы, то 3JI содер- жит все борелевские множества, что и требовалось доказать. Замечание!. В дальнейшем множества вида: {со: а< (со)<&}, - {со: |(со)<6} и т. д. сокращенно обозначаются в виде {a<i<b}, {£<&} и т. д. Замечание 2. Поскольку {со: а< (со)<В} ={а<^<6} = {£<&} Г1 {£ <а} и {£<«}= А{в<«+-4’ Л>1 I nJ то для выполнения формулировки определения 6.3 достаточно потребовать, чтобы для любого b {(о:|(со)<6} = {£<6}£®. 6.3. Интеграл Лебега. Сейчас мы укажем простой и общий способ построения понятия интеграла от измеримой функции, определенной на пространстве с мерой. 1 Через g-1 обозначается полный прообраз отображения отображающего Q в множество вещественных чисел (—оо, оо). 53
Определение 6.4. Функция g(co), определенная на про- странстве £2, называется простой, если пространство й можно представить в виде счетной суммы _ й = Л1 + Д2 4- ... + Ап + ... , A(Aj =.0 попарно непересекающихся множеств А^$& причем на каждом А{ функция |(со) принимает постоянное значение: I (со) = с1г если atQAi. Определение 6.5. Индикатором множества А называется функция ... fl, если А, 1а(®) = I I 0, если со Очевидно, простая функция |(to) представима в виде §(<») = £с;/л(®). i=l Определение 6.6. Интегралом J |(со)P(dto) от простой функ- й ции £(со) по мере Р называется выражение р(<о)Р(Ло) = fc,P(A)» й <=1 если ряд в правой части сходится абсолютно. Замечание 1. Мы видим, что интеграл Лебега Jg(co) P(dco) является для простых функций (случайных величин) й g(co) аналогом математического ожидания. Теорем а-6.2. Если простая функция g(co) допускает кроме представления (6.5) другое представление £(<о)= £dy/By(<o), /=1 где BjBk = 0 при j^k, й = Вх + В2 + • • • + Вп + ... , то £^Р(А) = £^Р(ВУ), 1=1 /=Г т. е. значение интеграла Лебега зависит только от самой функ- ции g(со), но не от выбора ее представления в виде (6.5). Доказательство. Положим Оц=А^ и заметим, что на множестве D{j значение fij функции g(co) равно сразу с< и dj. Поэтому имеем (в силу 6.1) 54
s Л,Р(О«)= S(P«P(O«)) = M=1 Z=1 /=1 = Ё rw)=j<,KA). i—l /=1 i=l так как Л<=Л,В1+ЛгВ2+... +Л<В^+... и члены абсолютно схо- дящегося ряда можно суммировать в любом порядке. Аналогично доказывается, что £<',₽<»,) = £ Л,Р(О,,). /=1 Л/=1 Теорема доказана. Теорема 6.3. Если Jj(co) чем существуют интегралы и т) (со) — простые функции, при- ^(®)P(d®) о и J т] (<о) Р (dai), Q me 5 (®) + т| (<») — простая функция и J (£ (ю) + т| (®)) Р (d®) = f £ (®)Т (d®) + J т) (®) Р (d®). Q й О Доказательство. Теорема очевидна, если ё(®) = £ с, Ц (ю), Л (со) = £d,Z^(®), £=1 /=1 т. е. £ и т] являются . линейными комбинациями индикаторов одних и тех же множеств. Если £(ю) и т] (со), представлены в виде линейной комбина- ции индикаторов множеств Ai, Л2, —, An, ... и Bi, В%, ..., Вт. то представим обе функции в виде линейной комбинации инди- каторов множеств Dij=AiBj как это только что делалось при доказательстве теоремы 6.2. Теорема 6.4. Если |(ю)—простая функция, то | f ё(<о)Р (do) | <sup | ё(®) |. 1 шбО Действительно, I V ct Р (А,) I < sup | < 1 • У P(Az)=sup|cJ = sup|^(®)|. 1 1 1 им 1 ®еа 55
Следствие. Если последовательность простых случайных величин gi, g2, %п, ... равномерно сходится к случайной вели- чине g, то последовательность интегралов j Bl (со) р (dco), j |2 (®) р , J (со) Р (с/со) ... £2 £2 £2 - фундаментальна в смысле Коши. Действительно, | J4„(co) P(dco) — Jgm(<o)P(dfe)| = £2 £2 ' = I J (B„ (co) - (co)) P (dco) I < sup I (co) — (co) | -> 0 Q при n,/n-»-oo. Лемма 6.1. Для любой измеримой функции g(co) сущест- вует последовательность £п(со) простых функций, сходящаяся к (со) равномерно. Доказательство. Положим для каждого натурального п и целого k = {со: Д (<») < -*±Ц = V п nJ = {Д<в<-^-} = в-,{Г—, ( n п ) (L п nJ} Положим /г==—оо Тогда |Ц(со) —£(со)| < Д Определение 6.7. Пусть £п(со)—любая последователь- ность простых функций, сходящаяся к случайной величине g(co) равномерно. Положим f 5 (со) Р (dco) =' lim f (со) Р (с/со). Q л-*00 й В силу следствия из теоремы 6.4 и леммы 6.1, определение корректно. Очевидно, что все интегралы Jg„(co)P(dco), 56
.начиная с достаточно большого п, одновременно существуют или -не существуют. В .последнем случае говорят, что [g(co)P(Ao) q не существует. Теорема 6.5. Пусть g(co) и т](со)—случайные величины и интегралы ^((o)P(d<o) и J Tj (со) Р (rfco) существуют. Тогда су- ществует J (В (®) 4- Т] (®)) Р (d®) = j В (®) Р (d®) + J n (®) Р (do). Доказательство непосредственно вытекает из определения 6.7 и теоремы 6.3. Замечание. Используя последовательность (®), опреде- ленную в лемме 6.1, получим f&(®)P(d®)>lim У V Т1 \ И fl J й k=—СО Сравним интеграл Лебега и интеграл Римана для функций, определенных на отрезке [0, 1]. Если функция f(x) непрерывна на отрезке [0, 1], т.о, разбивая отрезок на достаточно мелкие части Л*п) = [x<n), xi+i), получим, что последовательность i ‘ равномерно сходится к функции /(х). Понимая под Р(Л|П>) длину интервала Л$п), имеем интеграл Ле- бега: (L) ff (x)P(dx) = lim (L) f /„(x)P(dx) = J Л-мо J = НшУ/(х?))Р(ЛН. Л-*оо i Однако последняя сумма есть риманова сумма для риманова интеграла (R) J f (х) dx. Следовательно, интеграл Лебега равен о интегралу Римана (если подынтегральная функция непрерывна и под мерой Р понимается длина). Во всех случаях, когда интеграл Лебега можно практически вычислить, он сводится либо к суммированию ряда (как в опре- делении 6,6), либо к вычислению интеграла Римана. 57
В теории вероятностей интеграл Лебега служит для выра- жения в единой форме всех форм понятия математического ожи- дания, которые исторически сложились в этой науке. Определение 6.8. Математическим ожиданием Mg слу- чайной величины g называется Mg = Jg(®)P(cfo) Q (если этот интеграл не существует, т. е. расходится интеграл J | g (со) | Р (dco), то говорят, что случайная величина не имеет Q математического ожидания). Очевидно, что для любого числа с M(cg)=cMg (доказательство предоставляется читателю). Следовательно, из теоремы 6.5 вытекает следующая Теорема 6.6. Пусть случайные величины g и т| имеют ма- тематические ожидания Mg и Мт], а и b — любые числа. Тогда M(ag + 6r)) = aMg + &MT). Эта теорема является аналогом теоремы 3.2, установленной для дискретных случайных величин. В следующем § 7 мы уста- новим аналоги для всего содержания § 3. $ 7 РАСПРЕДЕЛЕНИЕ СЛУЧАЙНЫХ ВЕЛИЧИН 7.1. Определения и основные теоремы. При рассмотрении дискретных случайных величин отмечалось, что, как правило, сама случайная величина g(co) как функция от со не является наблюдаемой в эксперименте. Поэтому практическое значение имеет лишь распределение случайной величины g. Мы переходим к введению этого понятия в общем случае. Замечание. Наше изложение не будет зависеть от того, является ли g вещественной случайной величиной, или комплекс- ной, или, наконец, вектором произвольной конечной размерности. Дадим следующее Определение 7.1. Отображение g: множества эле- ментарных событий Q в евклидово n-мерное пространство Rn на- зывается векторной случайной величиной, если £-*(£)(» для любого борелевского B^Rn. 58
(Напомнйм, что борелевскими подмножествами п-мерного евклидова пространства называются элементы наименьшей а-ал- гебры, содержащей все параллелепипеды.) Точка n-мерного евклидова пространства Rn будет обозна- чаться через х независимо от размерности. Иногда мы будем явно выписывать координаты, например, |(и) = (gi(и), ..., §п(со)) ИЛИ Х= (Х1, ..., хп). Определение 7.2. Мера щ, определенная на борелевских подмножествах Rn равенством !i6(B)=P{®: £((о)£ В} = Р(£( В} = Р {B-i(B)}, называется распределением случайной величины g. Определение 7.3. Функция f(x) точки x<=Rn, отобра- жающая Rn в множество вещественных чисел (—оо, do), назы- вается измеримой по Борелю, если для любого борелевского Cs(—оо, оо) множество {х: f(x)eC) =f~I(C) является борелев- ским в Rn. Практически все функции являются измеримыми по Борелю. Докажем, например, что любая непрерывная функция f(x) изме- рима по Борелю. Рассмотрим класс К множеств Cs(—оо, оо) таких, что f-1(C) есть борелевское подмножество Rn. Класс К содержит все открытые множества: если С открыто, то f~'(C) тоже открыто в силу непрерывности f, но все открытые подмно- жества Rn являются борелевскими *. Ясно также (см. аналогич- ное рассуждение в доказательстве теоремы 6.1), что кд асе К. замкнут относительно теоретико-множественных операций, про- изводимых в счетном числе. Следовательно, класс К содержит все борелевские множества. Теорема 7.1. Пусть g=g((o) (векторная) случайная вели- чина, f — измеримая по Борелю функция. Тогда суперпозиция двух функций /(&) = /(£(<»)) является случайной величиной. * Доказательство. Пусть С — борелевское подмножество (—оо, оо). Имеем (<о:/(|(ш))(С} = {о):И«>)С/-:1(С)}. Но f~l(C)— борелевское подмножество Rn. Следовательно {(o:g(«>)e/-«(c)} = s-i(f-i(c))e^ что и требовалось доказать. 1 Для доказательства заметим, что а) объединение счетного числа параллеле- пипедов есть борелевское множество и что б) всякое открытое множе- ство В можно представить в виде объединения возрастающей последо- вательности множеств где каждое Ат является суммой не более чем счетного числа параллелепипедов (разбивая про- странство на параллелепипеды диаметром < 1/т и относя к Ат все такие параллелепипеды, содержащиеся в В). 59
Определение 7.4. Интеграл $f(*)M(dx) Rn понимается как введенный в предыдущем параграфе интеграл Лебега относительно меры pg в Rn. Докажем теперь теорему. Теорема 7.2. В условиях теоремы 7.1 Rn причем левая и правая части или одновременно существуют или не существуют. Доказательство. По определению математического ожи- дания, имеем р (£(<>)) P(d®) = = lim V — Р [®: — <Ж®))<-^±Ц = П->оо fl ( fl fl J k=—оо оо = lim У — P : I» f f-’ (7 — Л->оо fl I \L n k=—oo n i С другой стороны, C /(x)pg'(dx) = lim У -^рЛх:—</(*)< k + ' | = J /Woo n I fl tl ] J ptl k——QO k=-00 В силу определения меры pg имеем если множество f~x (С) борелевское. В силу измеримости по Борелю функции f множество Q—, —т. е. полный прообраз [Ъ Ь _1_ 1 X . _ —, —-J-— ), является борелевским. Поэтому интегралы п nJ J / (В (<»)) Р (d®) и J / (х) Pg (dx) являются пределами равных между 60
собой сумм, следовательно, существуют одновременно, а если су- ществуют, то совпадают. Теорема доказана. Замечание. Таким образом, Mf(g) выражается через рас- пределение щ. По определению 7.2, щ(В) = P{g&B}. Таким образом, с известными оговорками (подобными тем, которые были сделаны в § 6.2 относительно наблюдаемости событий) Mf(g) выражается через наблюдаемые величины. Например, полагая в случае размерности п, равной единице, f(x)=x, получим: если g одномерная случайная величина, то Mg = Jxp.g(dx). —00 Аналогично, D | = М (g - Mg)a = J (х - Mg)2 |Ч (dx). —00 Таким образом, для вычисления D/(g) и M/(g) нам нужно научиться вычислять интегралы вида 7.2. Частные виды распределений. О мере щ мы знаем пока только, что это есть некоторая мера, определенная на борелев- ских множествах. Практически представляют интерес лишь рас- пределения щ некоторых частных видов. Мы сейчас их опишем. 1) Дискретный случай. Если в пространстве Rn имеет- ся не более чем счетное множество точек Xi, х2.хт ..., на кото- ром сосредоточена мера щ (это означает, что p-gK^, х2......... хт, ...)} = О, где черта обозначает дополнение), то распреде- ление pg называется дискретным. В этом случае p,g полностью характеризуется мерами p,g(Xf), приписанными отдельным точ- кам х{. Действительно, для любого борелевского множества С, обозначая через Q множество {хь ..., хт, ...}, имеем R (О = Ш (CQ) + hi (CQ) Но так как p,g(Q)=O, то и p.g(CQ) = О, а так как Q счетно, то Hg(CQ)= £ |*g(*)= £ 1Ч(*.)- хес<2 хгес Случайная величина g устроена следующим образом: P{geQ) =p,g (Q) =0, т. е. g принимает лишь значения из Q = = {хь х2, ..., хт, ...}. При этом m(Xi) =P(g=x4 являются вероят- ностями отдельных значений. 61
Найдем значение интеграла J f(x)pg(dx). Пусть /р = 1 при _ & x<=Q и Iq(x) =0 при xeQ. Имеем f (х) = / W Л? W + f (х) (1 -/Q (х)). Функция g(x)=f(x) (1—/<?(х)) равна нулю на множестве Q, на котором сосредоточена мера pj. Поэтому f g(x)y.t(dx) = 0. я" Действительно, ffir(x)pg(dx) = lim V — р6{х: — <£(*)< ft— J П—>00 fl t fl fl J Rn k=—oo но lx: — <g(x)< — 0 при k Ф 0, tn fl J так как {x:4<g(x)<*±l k{r^(x)^0}CQ. V fl fl ) Функция f(x)IQ(x) отлична от нуля лишь на счетном мно- жестве Q, следовательно, является простой функцией. Поэтому J / (х) Zq (х) pg (dx) = Е С,. Pg {x:f (х) IQ (х) = с,} = я" С1 = £ Л { £ Нб (*/)} = V f (Xj) Pg (х,) x.GQ (последнее равенство получается путем перестановки членов ряда; это возможно в силу существования Mf(g)). Таким образом, в дискретном случае Mf(£)= p(x)pg(dx) =^if(xj)^(xj), я" xj где Xj пробегают множество Q возможных значений случайной (векторной) величины g, в частности, если g одномерна, то м £ = £ (Xj) = V Xj Р {£ = Xj}. Xj Xj Это вполне 'согласуется с тем, что мы имели прежде в дискретном случае (заметим, что сейчас £2 может быть любым, 62
но величина | имеет не более чем счетное множество различных значений). 2) Случай существования плотности распре- деления (абсолютно непрерывный случай). Будем обозначать через dx элемент объема в пространстве Rn. Определение 7.5. Говорят, что случайная величина имеет плотность распределения р% (%), если распределение выражает- ся в виде 1Ч(В) = Р{^В}= \Pi(x)dx, (7.1) в где Pi(x) — измеримая по Борелю функция и равенство имерт место для любого борелевского множества B^Rn. Интеграл в правой части равенства (7.1) понимается, вооб- ще говоря, как интеграл Лебега по мере, совпадающей с объемом в Rn, но поскольку имеющие практическое значение плотности - Pj (х) бывают обычно непрерывны (во всяком случае, интегри- руемы по Риману), то читатель практически ничего не потеряет, если будет считать этот интеграл интегралом Римана (в преды- дущем параграфе упоминалось, что интегралы Лебега и Римана в этом случае совпадают). Можно показать, что равенство (7.1) достаточно проверить лишь для параллелепипедов В, так как из справедливости его для параллелепипедов вытекает его справедливость для любых боре- левских множеств В (по той причине, что любое борелевское множество складывается из параллелепипедов), но мы не будем давать строгого доказательства этого утверждения. Отметим следующие свойства плотности распределения р% (х). 1. Можно считать, что pg(x)^0, так как если бы на неко- тором множестве С было бы Ps(x)<0, то С было бы борелев- ским и тогда, с одной’ стороны, Jpg(x)dx = P{g(C}>0, С а >с другой, Jpg(x)rfx<0, с если только объем множества С не равен нулю. Таким образом, только на множестве С нулевого объема может быть р5(х)<0. Если мы заменим ее нулем на этом мно- жестве, то равенство (7.1) не нарушится, так как f Pg (*) dx = В J P^x)dx-\- J Pt(x)dx, вс вс 63
но Jpg(x)dx=O, а на множестве ВС значения (х) не меняют- вс ся. Поэтому с самого начала можно ограничиться неотрицатель- ными плотностями распределения. 2. Jp5(x)dx=P{^^} = l- Rn Любая измеримая по Борелю функция р(х), обладающая свойствами 1 и 2, может быть плотностью распределения некото- рой случайной величины. Действительно, положим й=7?п, S3 есть о-алгебра борелевских подмножеств Rn, тогда для Be Р(В) = ^p(x)dx. в Тогда совокупность (£Ц Р) будет удовлетворять аксиомам 6.1—6.4, а в качестве случайной величины £ мы возьмем £((o)=tt>. В результате будем иметь |i£(B) = Р{|( В} = Р{®:£(®)( В} = Р« В} = ^p(x)dx. В Найдем выражение для интеграла j f (х) fig (dx) в случае Rn существования плотности р(х). Пусть сначала функция f(x) про- стая, т. е. принимает лишь счетное множество различных зна- чений Ci, С2, ..., сп, Тогда случайная величина f(g(®)) дискрет- на. По только что доказанному свойству дискретных случайных величин имеем W (5) = У f (x)^(dx) = £crP{/(|) = cj = Rn _ cl . =£ czP{|^/-1(ci)}= J Pj(x)dx = cl cl f‘4ci> = S J f f(x)pl(x)dx= p(x)ps(x)dx. <7 f-l(cp Ct f-i(q) Rn Последнее равенство получается в силу того, что для простых функций f(x) справедливо соотношение J 7(х)рЦх)</х =--£ у/^р^хИх, Л14-л24-...4-Лп4-... 4=1 At если только борелевские множества Ль Лг, ... попарно не пере- секаются. Итак, 64
M/(£)= jf(x)ni(dx)= $f(x)pi(x)dx R™ Rn для простых функций f(x). Предельный переход убеждает нас в том, что верна Теорема 7.3. В случае существования плотности распреде- ления р$ (х) имеем для любой измеримой по Борелю функ- ции f(x) Mf(5) = \f(*)Pt(x)dx. Rn Замечание 1. В случае п=1, т. е. для одномерной случай- ной величины имеем, полагая f (х) =х, ОО М£= J xpt(x)dx. —О© Замечание 2. Иногда распределения р,j случайных вели- чин пытаются делить на дискретные и «непрерывные». Поскольку в литературе не выработалось однозначного понимания термина «непрерывное распределение», мы им не будем пользоваться. Распределения, имеющие плотность, мы будем называть абсо- лютно непрерывными в соответствии с существующим вполне четким термином. 3) Смешанный случай. Практические потребности обычно бывают удовлетворены, если рассматривать распределе- ния ц следующего вида: К = PHi + р + <7=1> где pi дискретно, а распределение ц2 абсолютно непрерывно. Если распределение jxi сосредоточено в точках {xi, хг, ... ..., хт, ...}, а плотность распределения ц2 есть р(х), то из опреде- ления интеграла Лебега получаем Mf(£) = J /Wh(^)=P J /(x)pi(dx) +q Jf(x)|i2(dx) = R" R" Rn = p£ +4 §f(x)p(x)dx. xi Rtl 4) Случай распределения, сосредоточенного на поверхности. Может оказаться, что значения случайного вектора £ = £(со) являются точками некоторой поверхности S, ле- жащей в евклидовом пространстве Rn, причем на этой поверхно- сти g имеет плотность распределения. Это означает, что для любого борелевского Л^З имеем 65
P{^A} = \Pas)ds, A где ds — элемент объема поверхности S. Поскольку при изучении абсолютно непрерывного случая мы нигде не использовали того, что Rn — евклидово пространство, а не какая-то поверхность, имеем, очевидно, м f (В) = J f (X) pg (dx) = J f (s) Pg (s) ds. Rn s 7.3. Функция и плотность распределения в одномерном случае. Согласно основным определениям, распределение pg случайной величины g есть мера, определенная на борелевских множест- вах В. Следовательно, под знак pg можно в качестве аргумента подставлять борелевские множества В. Множество значений аргумента оказывается при этом крайн.е сложным. Было бы хо- рошо, если бы меру pg можно было задавать функцией, у кото- рой аргумент устроен попроще (с точки зрения приложений такое определение является просто необходимым). Один способ, приводящий к некоторым упрощениям, — рассматривать либо абсолютно непрерывные распределения, задаваемые плотностью, т. е. функцией точки, либо дискретные распределения, задавае- мые последовательностью (функцией целочисленного аргумента). Но в определение меры pg через плотность pg (х) входит интег- рирование, что не всегда удобно. В случае, когда g имеет размер- ность 1, т. е. является случайной точкой прямой (—оо, оо), су- ществует более удобная форма задания распределения pg. Определение 7.6. Функцией распределения F* (х) слу- чайной величины g называется функция, задаваемая выражением Pi (х) = Р-Н(—*)} = Р {В < х}, — оо х<2 оо. Удобство функции распределения объясняется тем, что в одномерном случае, как правило, интересуются вероятностью P{geB} отнюдь не для любых борелевских множеств В, а обыч- но для интервалов вида В= {х: atgZx<b}, или {х: а<х<&}, или {х: а<х^&} и т. п., а в крайнем случае для множеств В, являю- щихся суммами интервалов указанного типа. Очевидно, что P{a<g<&} = P{£<&}-P^<a} = Fg№)-Fg(a). Для выражения вероятности P{a<g<6} через функцию рас- пределения докажем лемму. Лемма 7.1. Пусть события Ait А2, Ап, ... образуют возра- стающую последовательность, т. е. ЛхСЛгСЛС ...СЛ„С ... 66
и А= и Аг В таком случае Р(Л) = lim Р(Л„). i= 1 п-»оо Пусть. события Bi, В2, ..., Вп, ... образуют убывающую после- довательность, т. е. и В = П Bt. В таком случае Р(В) = lim Р(В„). £=1 Доказательство. Имеем А = Лх 4- Л2 Л1 + As Л2 4- • • • + AnAn—i Л„ = Лх + Л2ЛХ -|- ... 4- АпАп-1, (ЛлЛп—1) (ЛтЛт_1) — 0. В силу счетной аддитивности меры Р имеем Р(Л) = Р(Л1) + Р(Л1Ла)+ ...+Р(Л„Х-1)+ ••• = = lim {Р (Лх) + р (ЛА) + •.. + р (АЛ„-1)} = Нт р (Л)’ П-ьао Далее имеем Bi = В 4- BiBg + В2 В3 -J- • • • 4“ B:iBn+l 4~ • • • Следовательно., P(Bi) =. Р(В) + Р(ВА) 4- • • • +Р(„„+1) + • • •> откуда, в частности, следует, что при п->-оо £Р(ад+1)->о. k=n Поскольку Вп = В + ВпВп+\ + В/г+1 ^«+2 + • • • > получаем, что Р (Вп) - Р (В) = £ Р (ВА+1) -> О (п->оо). k=n Лемма доказана. Поскольку (a<l<2b}= J {а+ 67
получаем следствие: Р{а<В<6}= Jim(Fg(d)-Fg(a + = = Fg(&)-Fg(a + 0). Аналогично, Р{| = а} = limP /а<В<а + — I = n—>оо ( П J = lim (>g(a + —> — Fg(аЙ = Fg(a + 0) — Fg(a). Отметим следующие свойства функции распределения: 1. ЕСЛИ Х2>*1, то Fl (х2) = Р {£ < х2} = Р {£ < xj + Р {хг < В < х2} > Fg (Xj). Таким образом, функция распределения монотонна. - 2. lim Fe(x) = lim Р{|< — п} = P{f'|(£< — n)} = P{Q) = 0 X->—Оо П—>oo П (поясним, что в силу отмеченной в свойстве 1 монотонности функ- ции Ffc(x) можно заменить lim, где х пробегает все вещест- • х-*—оо - . . . венные значения, на | lim, где п пробегает лишь целые значе- Д-»оо ния, и затем воспользоваться леммой 7.1). Аналогично показы- вается, что lim Fg(x) = 1. х-*-|-оо 3. lim Fg (х) = limFgfa---—= limP/|<a--------—1 = x-^a—0 л->оо \ П J n-»oo l Л ) = P{U1G<a—r)} =P^<a} = Fg(a). Таким образом, функция распределения непрерывна слева. Верно и обратное: для всякой функции F(x), имеющей свой- ства 1—3, найдется случайная величина g такая, что F(x) = = Fg (х). Однако этого утверждения мы доказывать не будем. Отметим, что если существует плотность распределения Pg (х), то Fg(x) = P{g<x}= J Pi(x)dx. (7.2) —ОО Следовательно, во всех точках непрерывности pj(x) имеем <7-3> 68
Однако в точках разрыва р^(х) равенство (7.3) может нару- шаться. Поэтому эквивалентным определением плотности через функцию распределения может быть равенство (7.2), но не равен- ство (7.3). Замечание. В процессе развития обозначений теории ве- роятностей получилось так, что интеграл, обозначаемый нами оо оо через J /(x)p.j(dx), обычно обозначается через J ffxjdF^fx'). —00 —оо Иногда он. истолковывается несколько иначе (как интеграл Ри* мана — Стильтьеса или интеграл Лебега—Стильтьеса, причем в первом толковании в настоящее время нет необходимости, а вто- рое толкование совпадает с нашим с точностью до названия). Читателю следует просто иметь в виду тождество Ч —оо —оо Пример 7.1. Показательное распределение. Пусть имеется некий прибор, который включают в нулевой момент времени, а в случайный момент времени g он выходит из строя. Постараемся вывести общий вид функции распределения P{g<x} (х). Нам удобней будет иметь дело с функцией Qj (х) = 1—F$ (х)'=. = Р{£^Э=х}. Согласно простейшей модели прибор выйдет из строя, как только уровень нагрузки превысит некоторое допустимое зна- чение N. Правдоподобно будет предположить, что вероятность то- го, что это случится в промежутке времени [а, &] при условии, что этого не случилось до момента а, зависит лишь от длины интер- вала [а, Ь] и при малых b—а есть %(&—а)+о(Ь—а), где %>0 — число. Поэтому при малом Дх Р {£ > х + Дх} = Р {| > х) Р {£ > х +.Дх | £ > х) = = Р {В >х} • {1 — ХДх — о (Дх)}. Иначе говоря, для Q* (х) = Р {£ > х} получаем Ql (х + Дх) — Qi (х) = — (ХДх + о (Дх)) Qi (х). При обычных предположениях дифференцируемости функции Qj (х) имеем = - KQi (х), Qs (х) = Се=** и при естественном предположении Qg (0) — 1 имеем .Ql(x)—e~^x, Fj(x) — 1—е-ь*, х>0. Такое распределение- называется показательным. Очевидно, что функция pj.(x).=i при х^О и pi (х) =0 при х<0 является 69
J х\е~Кх dx = — . плотностью показательного закона распределения, так как выпол- няется равенство (7.2). Легко вычислить, что М £ = J хр% (х) dx *= —оо О Считается, что показательный закон распределения справед- лив во многих случаях, например для длительности работы элек- тронных ламп. Заметим, что в основе приведенных для вывода показательного закона эвристических соображений лежит пред- положение о том, что длительность работы прибора определяется колебаниями нагрузки, но не старением самого прибора. Это предположение трудно проверяемо, а иногда и неверно. Кроме того, сделано некоторое предположение о распределении вероят- ностей различных нагрузок, которое также легко может быть неверным, хотя бы потому, что нагрузка, возможно, не обладает статистической устойчивостью, и потому бессмысленно говорить о ней в вероятностных терминах. По всем этим причинам наличие показательного распределе- ния для времени безаварийной работы является всегда гипотезой, которая должна буть подтверждена опытными данными. Под- черкнем, что таково же положение со всеми другими видами рас- пределений, которые встречаются в теории вероятностей. Однако гипотеза показательного закона очень привлекатель- на. Отметим две причины этого. Во-первых, показательный закон обладает гармоничным свойством самовоспроизводимости в сле- дующем смысле. Допустим, что интересующий нас прибор состоит из п звеньев Ль Л2, ..., Ап, причем отказ любого звена приводит к отказу прибора, а моменты отказов звеньев Ai независимы и распределены по показательному закону: Р{£г-<х} = 1—e~^x с параметром Хг-. В таком случае момент отказа всего прибора есть, очевидно, g = min (gi, ..., gn). Имеем Р{£<%} = 1-Р{£>х}= 1 —P{min(5i, ...,’ = 1— Р{£1>х, ..... 1п>х}, а в силу независимости случайных величин ..., gn (в общем случае сохраняется определение 3.5 независимых случайных ве- личин) получаем Р {в < х} = 1 — П Р {Si > х} = 1 — е-(Х>+-+хп)х) т. е. вновь получается показательный закон с параметром Х = %1+%2+ ... + ХП. Например, если в вычислительной машине имеется п = = 1 000 000 элементов, для каждого из которых математическое 70
ожидание времени отказа — = 100000 час (в году 8760 час), л, т. е. Xi=10-5, то для всей машины Х=10. Следовательно, вероят- ность Р{|2>1} того, что машина будет безотказно работать 1 час есть Р{£> 1} = е-л = е-10^0,5-10-4, если, конечно, предположить, что отказ одного элемента нару- шает работу всей машины. Большие машины, следовательно, должны строиться с учетом ненадежности элементов. Вторая причина привлекательности показательного закона — его связь с законом Пуассона. Естественно предположить, что число аварий Ц[з,г] , которые происходят в большой системе за отрезок времени от S до Т, имеет распределение Пуассона. Если то Н[3, </] = 14$. Г] + 11[Г, £7], а следовательно, для функции двух переменных m(S, Т) — = т. е. для параметра распределения Пуассона, имеем m(S, U)=m(S, T) + tn(T, U). Дальнейшее зависит от того, будем ли мы учитывать старение или нет. Если мы не учитываем старение, то m(S, Т) зависит лишь от разности Т—S: m(S, T)=f(T—S). Но тогда, полагая Т—S=x, U—Т=у, имеем Цх + у) = f(x) + /({/), откуда вытекает, что функция f линейна: f(x) = кх, где по смыслу задачи Вероятность Р{^^Г} безаварийной работы на отрезке времени [0, Т] есть вероятность Р{р,[о, г] =0} = _.е—/п(о, п, откуда Р{£<Г} = 1 — Р{£ > Т} = 1 — - 1 = 1 — Если же мы желаем учитывать старение, то все определяется функцией g(T)=m(0i Т), так как, очевидно, m(S, Т) = =g’(T)—g(•$)• Функция g(T) может быть любой (неубывающей, по смыслу задачи) функцией. В этом случае получаем для мо- мента £ первого отказа JP{£<Т} = 1 -P{ro,ti = 0} = 1 , что является некоторым обобщением показательного закона. В целом, показательный закон (возможно, в форме, учиты- вающей старение) является, вместе с тесно связанным с ним законом Пуассона, одним из универсальных вероятностных рас- пределений, при нарушении которых оказывается под подозре- нием статистическая однородность. 71
7.4. Плотность распределения в многомерном случае. В мно- гомерном случае функция распределения случайного вектора В= (|1, In) иногда вводится равенством Fh...1п (*1, •••,*„)= Р {£1< .....In < Хп}- Можно показать, что задание функции распределения однозначно определяет меру pg. Однако в многомерном случае понятие функ- ции распределения почти бесполезно. Дело в том, что в много- мерном пространстве возможна не одна разумная система коор- динат, как на прямой, а многие. Во-первых, это декартовы си- стемы координат, получаемые ортогональным преобразованием базиса, и аффинные системы, получаемые линейным невырожден- ным преобразованием. Во-вторых, это различные криволинейные координаты типа сферических, цилиндрических и т. п. Общий принцип состоит поэтому в использовании таких величин, которые преобразовывались бы сравнительно просто при преобразовании системы координат. Между тем, уже при орто- гональном преобразовании координат функция распределения преобразуется чрезвычайно сложно. Для того чтобы записать соответствующую формулу, фактически приходится делать пере- ход к мере pg. Далее, в криволинейных системах (например, в полярных координатах на плоскости) понятие функции распре- деления вовсе бессмысленно. Поэтому в настоящей книге предла- гается рассматривать либо меру р (которая определяется неза- висимо от системы координат равенством р (B)=P{geB} и по- тому инвариантна относительно преобразований координат), либо, в случае существования плотности, — плотность pg (х) меры p,g. Как преобразуется плотность, мы сейчас увидим. Пусть имеется п гладких функций уг=/г(хь ..., хп) от п ве- щественных переменных хь ..., хп, задающих отображение f : Rn-*Rn. Якобианом Df отображения f называется функция, значение которой в точке х> обозначаемое Df(x), задается фор- мулой Df (х) = det || , i, j = 1, ... , п || Эх у (т. е. Df(x) есть определитель матрицы Якоби). Известно, что если £>/(х)У=0, то в окрестности точки f(x) существует гладкое обратное отображение f~'(y). При этом Df-i(f(x))Df(x)=l. Если f есть взаимно однозначное отображение Rn->Rn, то имеет место также формула замены переменных в определенном интеграле: Ccp(x)dx = f <p(/(x))|D/(x)| dx, В t-'(B) где В — любая область в Rn. 72
Пусть теперь g=(gi, gn) —случайный вектор, распределе- ние которого имеет плотность f — взаимно однозначное ото- бражение Rn на Rn, Теорема 7.4. Распределение вектора т] имеет плотность р^ выражаемую формулой pi(f-1(x))\Df 1 (х)|. Доказательство. Имеем ^(f-i(X))\Df-'(x)\dx = J pi{f~1{f(x))}\Df~1(x)\-\Df(x)\dx — В f-ЧВ) = J р£(х)^х=Р{|(/-1(В)} = Р{/(|)^В} = Р{т1еВ}( что и требовалось доказать. Как получить из многомерной плотности (х) = Рб,...^ (хх,... ,хл) одномерную плотность распределения pgz (х,)] для одной из компо- нент вектора § = (glt ... , |л)? Теорема 7.5. PlM = J* • • • J Ри,...£„(х1> ••• ' xn)dx2...dxn. Доказательство. Для любого одномерного борелевского множества В имеем Р{В1€ В} = Р {В1 € В’ — oo<g2<oo, . . . , — оо<£л<оо} = J • • • j Ръ-1п(Х1.......хл)dxL... dxn = Ph-tn (-«ь .-.,xn)dx2... dxn} dxlt что и требовалось доказать. Пример 7.2. Распределение суммы случайных величин. Пусть двумерный вектор £=(£ь £2) имеет плотность распределе- ния Ps(x)=p5ig, (хь х2). Рассмотрим преобразование f: (xi, х2)->- ~>(х1 + х2, х2). Тогда (1ь У-ЧП1. n2) = Gi + k. Ъ). Так как Df = 1, имеем РП (*) = (xlt х2) = pg (/-1 (х)) = рыъ (х, — х2, х2). 73
Следовательно, Pl,+l,(Xi) = Pn,(Xi) = J РыЛХ1 — х2, x2)dx2. —-oo 7.5. Перенос на общий случай основных понятий. Понятие не- зависимости случайных величин специально вводилось таким об- разом, чтобы сделать тривиальным переход от дискретного случая к общему. Определение 3.4 и теорема 3.5 сохраняются без измене- ний, только числовые множества А и В надо считать борелевски- ми, а функции fug — измеримыми по Борелю. Аналогом теоре- мы 3.6 является следующая Теорема 7.6. Пусть плотность распределения р%(х) случай- ного вектора g= (gi,..., gn) представляется в виде Pl(х) = Р&.1п(*1...хп) = П Plj(Xj), /=1 где Pif(Xj) — соответствующие одномерные плотности. Тогда слу- чайные величины gi,..., gn независимы в совокупности. Доказательство. Проверим определение 3.5. Имеем для любых борелевских А;,,..., Aik Р{&,( А,. •••. ^UzJ = P&se4-3’^((-oo.oo), i=#Q= J ... J J ... J (Xi,) ...p^lk(xlk) X А; A: —oo —oo 41 lk k X dxi, ... dxtk П Pli (Xi) dxt = П f Plis (Xis) dXis = s=lA‘s k “Fl'IW s—1 что и требовалось доказать (поясним, что мы воспользовались представлением многократного интеграла в виде произведения 00 однократных и равенством j (х£) dx£ = 1). — 00 Пример 7.3. Формула композиции. Для независимых случай- ных величин Pl, Ь (*1. х2) = ft, (хг) рь (х2), поэтому плотность их суммы есть' Pl,+l,(xi) = J Pi,(Xi — x2)ft,(x2)dxs. — OP 74
Эта формула, называемая формулой композиции, или свертки, имеет известную аналогию с формулой полной вероятности: каж- дому значению х2 величины £2 ставится в соответствие значение Xi—х2 величины перемножаются значения плотностей вероят- ностей и все интегрируется. Разумеется, справедлива и формула оо Р?.+ь(х1)= J Ph(x2)PiJx1~x2)dx2. (7.4) —00 В дискретном случае большую роль играла формула М (£т]) = = М|-Мт] для независимых S » П- Обобщим эту формулу на случай k k т, произвольных независимых S и т]. Полагая £л = — , если — •< s < < —!— , , если — < т] < —‘, получим, что Е, и т] п п п п независимы как функции от независимых случайных величин, следо- вательно, М£лт];; = Mgn Мг]л. Очевидно, что М£„-»-М£, Мт]п-> ->Мг]. Покажем, что М^лт]л->М^г|. Имеем Mgr] — М£„т]п = М (fri — S„r)„) = М (gti — S„t) + S„r] — £„т]л) = = M(^-Un + M|n(T]-n„). Имеем |S —S„| < —, откуда |S„| <|S| -Г— , |n~П„К ~ • Поэ- n n n тому IMSn-MVjjc—M|nl + — fM|S| + — Vo n n \ n / при n->oo, что и требовалось доказать. Определение и свойства дисперсии автоматически переносятся на общий случай. Для доказательства неравенства Чебышева на- пишем ряд неравенств: DS = M(S-MS)2 = J (х-М|)2щ(4х)> —оо > j (х —M£)2m(dx) >82 J = |Х-М&>8 = е2 J /g(x)pg(dx), ------00 где ... (1, если \х — М£|>е, Л (х) = < , 1 1 (О, если \х — MSI 75
Поэтому J 7e(x)jis(dx) = М7е(|) = Р{/е(£) = 1} = P{|£ —M£| >e}, —00 откуда и вытекает неравенство Чебышева. Теоремы о законе больших чисел переносятся на общий случай автоматически. ЦЕНТРАЛЬНАЯ ПРЕДЕЛЬНАЯ ТЕОРЕМА 8.1. «Чудо» Лапласа. Мы познакомились в предыдущих пара- графах с основными понятиями теории вероятностей: простран- ством элементарных событий, случайной величиной, распределе- нием случайной величины, математическим ожиданием. Эти поня- тия в своих взаимосвязях образуют известную гармонию, и основ- ные их связи мы выражали рядом теорем. Однако эти теоремы при анализе их содержания обнаружи- вают полную тривиальность, поскольку фактически являют- ся переформулировкой извест- ных теорем математического анализа о свойствах функций (отображений), меры и интег- рала (не столь важно, что в курсах математического анали- за эти факты выражаются иногда не на наилучшем языке). Между тем, за любой нау- кой признается право на су- ществование только в том случае, если в ней имеются результаты, которые без нее предвидеть невозможно. При первом знакомстве такие результаты воспринимаются почти как «чудо». Лучшим «чу- дом» в современной теории вероятностей продолжает оставаться открытая Лапласом центральная предельная теорема. Состоит оно в следующем. Рассмотрим сумму Sn=£i + b+-•- + £п независимых случайных величин £i, |2, • • •, Для начала предположим, что эти случай- ные величины все имеют одинаковое распределение, причем при- нимают только целочисленные значения 0, ±1, ±2,... (последнее ограничение целочисленности не является существенным с точки зрения естествоиспытателя, поскольку результаты' любых измере- ний выражаются дробью с конечным числом десятичных знаков, а тогда при подходящем выборе единицы измерения их можно 76
считать целыми числами). Распределение pm=P{gft=m} каждой из величин gi,, 5п можно изобразить следующим образом. На- рисуем для каждого т прямоугольник, середина основания кото- рого есть точка т, длина основания равна 1, а площадь есть рт. Получится совершенно произвольный ряд прямоугольников (с вы- сотами рт), подчиненный лишь тому условию, что сумма всех их площадей равна 1 (рис. 8.1). Попытаемся-изобразить таким же обра- зом вероятности отдельных значений суммы Зп=Е1+&г+-.- + 5п при довольно большом п.. При этом мы обнаружим, прежде всего, что даже если случайные величины {£&} принимали всего два зна- чения 0 и 1, то значениями суммы Sn могут быть числа от 0 до п, следовательно, эти значения при большом п просто не поместятся в прежнем масштабе на рис. 8.1, и мы будем принуждены изме- нить масштаб. Иными словами, нужно сделать линейное преобра- зование оси абсцисс, т. е. вместо значений случайной величины •$п=11+ --4-£п откладывать значения величины Sn — —(Sn — an), bn где ап и Ьп — некоторые числа, зависящие от п. Лаплас открыл, что получится нечто замечательное, если по- ложить ап = M(|i + ... + 5n) = па, а = Ьп = ГЬ(11+ ... + U = а/n, а2 = D5a, о = Случайную величину s* = Е1+---+Е*-М(Е1 + ---+ЕЛ) = Sn-MSn = Sn-na п /Ь(^+... +Ы VbSn о^п 77
мы будем называть нормированной суммой. Очевидно, что Ms* = О, гх * * ✓ \ ffi г'~ ” па us„=z 1, а значениями величины s являются числа х (tri) =--7=-, л n nV ’ а/п ’ причем для любого целого т Р (S, = га) = Р - Р (s’- z, (га)}. Отложим (рис. 8.2) по оси абсцисс значения хп(/п) и изобразим вероятности P{Sn=m} = P{s>x„(m)} этих значений прямоугольниками, середины оснований которых лежат в точках xni(/n), длины оснований равны расстоянию хп (т + 1) — хп (т) = между соседними точками, а площади равны P{s„ = xn(m)}. Высоты этих прямоугольников равны, следовательно, аУпР{5д = хп (т)}. При этом произойдет нечто удивительное. Верхние основания этих прямоугольников почти точно лягут на некоторую раз навсегда вычисленную кривую, задаваемую уравнением X2 1 2 У =...т— е и /2л Иными словами, при имеем х2п(т) aVnP{sn = xn(m)}-^y=-e (8.1) Но в таком случае, очевидно, P{A<s;<B}= £ P{s‘=x„(m)}^ Л<г„(тГ<В #2(m) х?(т) V У Ц У2л оУп Zj У 2л Л<хп(от)<В Л<хл(т)<В В _ у^_ X (x„(/n+ 1)— Хп(т))+ ( е 2 dy. А 78
Введем функцию X у* Ф (х) = С е 2 dy, ' ’ J /2л 3 —оо называемую функцией Лапласа1. Тогда Р{Л <В} Ф(В) — Ф(Л). (8.2) В этом и состоит «чудо» Лапласа. Собственно, «чудом» является соотношение (8.1), а (8.2) является тривиальным следствием из него. Однако формулировка полученного результата в виде (8.1) неудобна тем, что такое «чудо» имеет исключения. Действительно, пусть величины £i,..., %п принимают с нену- левой вероятностью только четные значения. Тогда при т нечет; ном P{s; = x„(/n)} = P{S„ = /n} = 0 и равенство (8.1) неверно. Можно было бы доказать, что указанное исключение по суще- ству является единственным. Удвоение единицы измерения приве- дет наши случайные величины к величинам, принимающим также нечетные значения. Тогда (8.1) будет верно, а следовательно, вер- но и (8.2). Иными словами, получается так, что прямоугольники, отвечающие нечетным т, пропадают, но зато соседние прямоуголь- ники, отвечающие четным zn, удваиваются и (8.2) сохраняется. Но мы не будем уточнять доказательство для этого случая, так как, на первый взгляд, все равно не ясно, как сформулировать (8.1) для общих (недискретных)' случайных величин. Правда, с точки зрения естествоиспытателя, между дискретным и общим слу- чаем не должно быть особых различий: результаты эксперимента, с одной стороны, всегда дискретны (измеряются с конечной точ- ностью), а с другой стороны, по принятому во всей науке подходу, 1 Читателю следует иметь в виду, что иногда авторы таблиц понимают под функцией Лапласа Ф(х) несколько иные выражения: X у2 X у* f 1 2 С 1 2 °w=JlWe ф(х)= ,]у^е d// О — х и даже Ф (х) = 1 У~2л е 2 dy. Прежде чем пользоваться таблицей, надо посмотреть <на ее заголовок, где всегда Написано, что именно понимается под функцией Ф(х). 79
их можно считать и непрерывными. Поэтому должен существовать аналог (8.1), по крайней мере для случая существования плотно- стей распределения. Так и есть на самом деле, но этот случай вызывает некоторое усложнение доказательства. Наоборот, соотно- шение (8.2) имеет смысл и может быть доказано для самого общего случая. Итак, в отличие от (8.1), соотношение (8.2), во-первых, не имеет исключений, а во-вторых, справедливо для недискретных величин. Поэтому мы направим наши основные усилия на точную формулировку и доказательство (8.2) в виде математической тео- ремы. 8.2. Нормальное распределение. Хорошо известно, что неотри- цательная функция X* / \ 1 2 <р (х) = е 7 /2 л оо обладает свойством J <p(x)dx = l. Поэтому <р(х) можно считать —эо плотностью распределения некоторой случайной величины. Определение 8.1. Говорят, что (одномерная) случайная ве- личина £ имеет нормальное распределение с параметрами (0, 1), если X* '’eW=tW' 2 Коротко пишут иногда g~./V(O, 1). Легко видеть, что М£=0, Щ=1. Определение 8.2. Говорят, что случайная величина т]='0£+а, где ст>0, а — любое число, g~/V(O, 1), имеет нормаль- ное распределение с параметрами а, о. Коротко пишут иногда x]^iN(a, о). Очевидно, что Мт|=а, Dr] = ст2. Из теоремы 7.4 вытекает, что 1 = 7* х — а а Рп (х) (х—а)* 1 ~ 2а2. ----7=~ е а /2л 8.3. Основной аппарат — характеристические функции. Пока что мы имеем для вычисления распределения суммы случайных величин лишь один способ — применение формулы композиции. Ясно, что при большом числе слагаемых этот способ, связанный с многократным интегрированием, совершенно безнадежен. Мы сей- час изложим другой способ, по существу также открытый Лапла- сом. 80
Определение 8.3. Характеристической функцией случай- ной величины g называется функция f %(t) вещественного перемен- ного определяемая равенством = J° e‘^s(dx). ----------QO Замечание. Интеграл Лебега от функции с комплексными значениями определяется как сумма интеграла от вещественной части и интеграла от мнимой части, умноженного на i V— 1. Очевидно, что | (/) | < 1. Теорема 8.1. Если случайные величины gi,...,gn независимы в совокупности, то Доказательство. Имеем /е,+....+6„(0 = М {e“®*+b+~+W} = п п п = м {П eltlk} = П’(Мег^) = П hk(О, k=\ k=\ k=i поскольку величины^1, ... , еа^п независимы как функции от не- зависимых случайных величин ..., (читателю рекомендуется обосновать утверждение теоремы о математическом ожидании про- изведения независимых случайных величин для величин с комп- лексными значениями). Важную роль играют так называемые «моменты» случайной величины. Определение 8.4. Моментом k-того порядка случайной ве- личины j называется центральным моментом (&-того порядка) называется М'(£—Mg)ft; абсолютным моментом называется центральным абсолютным моментом называется М|£—Mg|ft. Теорема 8.2. Если существует, то aiK Доказательство. ОО 00 ^(0)=4KP''w(rfx))L= f —00 —О. (перемена порядка дифференцирования и интегрирования законна потому, что в силу существования интеграл 81
J IX I* Hl (dx) — 00 OO, а следовательно, интеграл J (ix)k^ix^(dx), — 00 получившийся после дифференцирования, сходится равномерно (и абсолютно). Теорема 8.3. Если т]=1су£+а, где айв — числа, то Ш =: eltafi(t<J). Доказательство fn (0 = Meitr* = = eitaf^ (to). Теорема 8.4. Характеристическая функция f(t) нормального распределения с параметрами (О, 1) есть е 2 . Доказательство f(t) — С eiix е 2 dx => С cos tx А— е 2 dx. /v' J /2л J /2л —ОО —00 Имеем f (t) — }— f х (— sin tx) e 2 dx = )_ C sin tx e 2 d( ——) = ' v ' /2л J v ' /2л J \ 2 / —oo —OO x3 00 _%2 )— ('sin tx e 2 |°° — C t cos tx • e 2 dx\=-- — tf(t), /2л \ I-» J 7 v ’ —oo if (t} 2 откуда -jXL = — ft f(t) = Ce , и, подставляя t — 0, получаем С = 1, что и требовалось доказать. План дальнейшего изложения. Мы собираемся исследовать поведение суммы Sn=gi + .. . + £п и для „«__Sn — NiSn о — п DSn установить соотношение Р {Л < s* < В}-> Ф (В) — Ф (Л), (п->оо), (8.3) 82
предельный переход в котором выражает на математическом язы- ке знак приближенного равенства в (8.2). Вычислить распределе- ние s*rt сложно, но характеристическую функцию / * (/) легко вы- s п числить, применяя теоремы 8.1 и 8.3. Забегая вперед, заметим, что при /г->оо tz 2, (8.4) sn т. е., в силу теоремы 8.4, f ♦(/) сходится при п->оо к характери- s п стической функции нормального закона 7V(0, 1). Из соотношения (8.4) мы можем получить доказательство (8.3), для чего, впрочем, достаточно, чтобы для любого х Г.(х) = Р{5;<х}->Ф(х), (8.5) т. е. из сходимости характеристических функций (8.4) можно вы- вести сходимость функций распределения (8.5). Для обоснования этого нам придется доказать соответствующую теорему. 8.4. Теорема о непрерывности. Напомним, что преобразованием Фурье суммируемой функции <р(х), т. е. такой функции, что 00 J |<p(x)|dx<oo, называется функция —00 Ф (t) = J eftx<p (х) dx. —00 Если функция <р(х) обращается в нуль вне некоторого конечного отрезка и имеет непрерывную производную порядка k, то с по- мощью интегрирования по частям получаем ф(Д,) (0 = ф (/), откуда вытекает, ввиду ограниченности что при функ- ция <p(Z) суммируема. Поэтому 00 — оо где интеграл понимается в обычном смысле. Будем называть функ- ции, обращающиеся в нуль вне конечного отрезка и имеющие две непрерывные производные, финитными. Имеем следующую лемму: Лемма 8.1. Преобразование Фурье <р(Т) финитной функции есть суммируемая функция и 00 ф(х) = -^- С е-»^ф(/)й/. —оо 83
Лемма 8.2. Пусть <р (х) — финитная функция, £ — случайная величина, fi(t) = !Ле‘Ъ. Тогда оо Мф(£) = -!- С Л(-0ф(0^. 2Л J —оо Доказательство. Мы можем написать следующие преобразо- вания: ОО 00 00 М<р(£) = j <p(x)m(dx)= J J е-"*ф(О^)ие(ли) = —00 —00 --ОО 00 00 оо = 17 J J (dx))'dt = -^ j fi (— О ф (О dt> — 00 —СО -00 так как для непрерывных функций интеграл Лебега совпадает с интегралом Римана, а для интеграла Римана известна теорема о перемене порядка интегрирования. Лемма 8.3. Пусть последовательность характеристических функций fi, (t), ... , fin (/), .... случайных величин |1; • • • сходится к характеристической функции fi (/) случайной величины причем сходимость fin(t)->- fi(t) равномерна в каждом конечном ин- тервале 111< Т (Т фиксировано). Тогда для любой финитной функ- ции ф(х) Доказательство. Для любого Т справедливо равенство оо Т Мф(1„)=~ ( /б„(-Оф(О<»=~ f fln(-t)y(t)dt + Zjv J ZJT J —oo —T +ъг j \t\>T Поэтому T | M<p (|„) - Mq> ® |< | -±- J (fin (- t) - fl (- 0) ф (0 dt | + -r + 17 f 1Лл(-01-|ф(01^ + -^- f l/H-01 • 1ф(01^- £ ЭТ J ZjI J If|>r l*l>r Первый интеграл стремится к нулю при п~*оо и любом Т, второй и третий могут быть сделаны сколь угодно малыми при всех п выбором достаточно большого Т. 84
Теорема 8.5. Пусть в условиях леммы 8.3. функция распре- деления F^(x) непрерывна. В таком случае при п-*оо причем сходимость равномерна по х при—oo<zx<Z°o. Доказательство. Для любого конечного интервала [Л, В] и любого е>0 существует финитная функция <ре (х), равная 0 вне [Л, В] и 1 на {Л+е, В—в], заключенная между 0 и 1 в остальных точках отрезка [Л, В]. Очевидно, что Mq>8(U<PM<|„<B}( Мфе(У >Р{Л + 8<|„<В —8}. Следовательно, НтР{Л<Х<В}>ВЕ(В-8)-Г6(Л + 8). Аналогично доказывается, что lim Р {Л < < В} < Fg (В + е) — F$ (А — в). п->00 Поскольку Fg (х) непрерывна, то при е-*0 имеем ,lim Р{Л < |„< В} = ItaР{Л < В) = Fg (В) -Fg (Л). И-»оо »'♦«’ Следовательно, lim (Fgzt(B)-FgnH)) = Fg(B)-FgH). оо Покажем теперь, что для любого х F^+F^x). (8.6) Пусть 8>0; выберем Ло и Во так, чтобы Fg(B0)-Fg(A)>l-8. В таком случае для больших п Fgn(B0)-FgnH0)>l-28. Следовательно, F^(A0) <2е. Имеем Fg (х) - Fg* (X) = [Fg (х) - Fg (Ло)] - - [Fg* (x) - Fg* (Ло)] + Fg (Ло) - Fg* (Ло). Поскольку по доказанному выше [Fg (х) - Fg (Ло)] - [Fg* (х) - Fg* (Ло)] -> 0 (п оо), 85
Получаем lim | (x) — Ft (x) | < Fi (Ло) + Fi (Ло) < Зе; n-»oo переходя к пределу при е->0, получаем Fln(x)-+Ft(x)- Докажем, наконец, что сходимость в (8.6) равномерна. Выбе- рем точки такие, что для данного 8>0 Fi (хж) - Fi (хг) < 8, i = 1, 2, ... ,N- 1; Ft (Xi) — Ft (— oo) = Ft (xx) < в; Fl (°°) — Ft (xN) = 1 — Fi (xN) < 8. Поскольку при каждом фиксированном х верно (8.6), найдется номер «о такой, что при п>по \Fi(xi)-Fin(xi)\<s, i = l.....N. Пусть xg(—00,00) и найдется i такое, что хг<х<хж. Тогда I h (х) ~ Fin (X) |< | Fl (хг) - Fin (X,.) I + I /4 (X) - Ъ (xt) I + + I Fln W \ I < 26 + I F*n W — F*n I • Однако I Fin (x) — Ftn (xt) I < I Fin (хж) — Fin (xt) |< | Fi (x,+i) — — Fi (Xi) I + I Fin (xi+i) — Fi (хж) I + I Fin (Xi) — Fi (x() I < Зе, откуда |F6(x)-F£n(x)|<58, что и требовалось доказать. В случаях х<хх и x>xN соответ- ствующая оценка очевидна. Теорема доказана. Замечание 1. Не представляет труда доказать обратное предложение: если при п-^оо Fin(x)->Fi(x), то последовательность характеристических функций равномерно в каждом конечном интервале |/|<Т. Это делается путем аппроксимации функции eitx в выражении hn(t)= f ^i(dx) (8.7) 86
функциями, постоянными на интервалах (как при построении ри- мановой интегральной суммы). Правда, тут возникает небольшая трудность, так как пределы интеграла (8.7) бесконечны. Читате- лю рекомендуется преодолеть ее самостоятельно; мы же не будем приводить полного доказательства, поскольку высказанное утверж- дение в дальнейшем не используется (см. Гнеденко [8]). Замечание 2. Из теоремы 8.5 следует, конечно, что если у двух законов распределения совпадают характеристические функ- ции, то .совпадают и сами законы распределения. Применим этот факт для доказательства следующей теоремы. Теорема 8.6. Сумма двух независимых случайных величин %i~N(a\, Qi) и &~N(a2, 02) имеет нормальное распределение N(ai + (h, .]/<г2 + о2). Доказательство. В силу теорем 8.3, 8.4 и определения $.1 имеем 4. (0 = e‘ta'e 2 > А,(0 = ег/<М ;2 . J p Следовательно, f 2 2 2 что отвечает N (аг + а2, У о2 + о2). Замечание. Поскольку = l/D£z, i = 1, 2, то из общих свойств математических ожиданий и дисперсий следует, что М(^ + g2) - а± + а2, D(li + |2) = о? + а2. Применение характеристических функций нужно лишь, чтобы уста- новить нормальность распределения gi + ^2- 8.5. Формулировка и доказательство центральной предельной теоремы. Мы сформулируем эту теорему в условиях Ляпунова. Эти условия подобраны таким образом, чтобы обеспечить сходимость соответствующей последовательности характеристических функций к функции е~е12. Они являются, следовательно, достаточными усло- виями справедливости теоремы. Однако эти условия чрезвычайно близки и к необходимым. Сформулируем условия теоремы Ляпунова. Пусть дана после- довательность независимых случайных величин g2, • • •, • • •, для каждой из которых существует математическое ожидание = ak, дисперсия — <т| и третий центральный абсолютный момент М|£ь—йй|3. Положим П п b!„ = d(|i+...+U = Sd^=£4 Л=1 *=1 87
Пусть выполнено следующее условие Ляпунова: аА|3->0 (п^оо). (8.8) В" i=i Тогда справедлива следующая теорема, называемая теоремой Ля- пунова (естественнее было бы называть ее центральной предель- ной теоремой в форме Ляпунова). Теорема 8.7. При выполнении условия" (8.8) р(5;<х)+ф(х) при п-+<х> равномерно по х, где через $* обозначена нормирован- ная сумма случайных величин , gn: s„ = (Bi + • • • + В„ — (<h + • • • + а„)). £>п Дока \а тел ь ст в о. Рассмотрим случайные величины — ak)’ k=\,...,n. tin n Очевидно, что s*n = T)Zift. При этом Л=1 M1U=O, = = B2n % Поэтому (см. теорему 8.2 и ее доказательство) характеристическая функция fnk(f) случайной величины T]nft обладает свойствами ^-/я4(0|,- = 0. Применяя формулу Тейлора с остаточным членом для веществен- ной и мнимой части функции fn&(/), получаем следующее утверж- дение. Равномерно в любом интервале |£|<Т В2 2 88
где |^(0l<CM|Sft7a*l'=CM|T]nJ< Из условия Ляпунова (8.8) следует, что М | т]л* |3 ->- 0 при п-*-оа равномерно по k, но тогда и -^- = Dr] при п-*оо равномерно Вп по k. Действительно, для любого е>0 DtU = Мт£* < е2Р {| т)йА | < е} + J х2^ (dx) < |Х>8 <е2 + — С |x|smjfe(rfx)<e2 + — М|т)лЛ|8-^е2 8 J 8 И>е при п->оо равномерно по k. гт DS* /2 Положим z„k =------------ в2 2 равномерно по k, + Rnk(t)- При п->оо имеем |гл*|->0 fnktf) — 1 + z2 Z3 1пу„И0 = ^—+ Z о 11п /„А (0 — I 2nk |2 2 S|Zrtftl" I2'’*1 2(l-|znft|)’ s=0 т. е. при достаточно большом п |ln/„ao-2nj<|2„j2. (8.9) п Вычислим теперь характеристическую функцию / »(0 = П П Л=1 Очевидно, одно из значений логарифма комплексной величины f . (t) sn имеет вид п п а in /s. (о=у in/nA (о = у znk+у; (in fnk (о—znk). п k=\ »=i *=i Имеем при п -> оо п п п п Аг=1 Л=1 п fe=l 89
Однако (именно здесь действует условие Ляпунова) п п п <с^М1^ал'8->0- fe=i k=i k=i " Далее, в силу (8.9), п ' п п | У(1п/„А(0-г„А)|< У |z„J2< max |z„J- V|z„*|< £=1 k=\ . k=l n n ft=l « fe=l при л->оо в силу того, что max | znk |->0. /г=1,..,,п /2 Таким образом, ln/s*(.0->-------, следовательно, fs* (t)-+e~t,/2. п 2 п В силу теоремы 8.5, из этого вытекает доказываемая теорема. Замечание. Условие Ляпунова (8.8) не только обеспечи- вает соотношение in £ fc=l но из него вытекает еще, что = = —-------->0, 'nk • р2 п 2 Dgft £=1 т. е. что дисперсия каждой случайной величины составляет лишь малую долю в общей дисперсии суммы gi + ...+|n. Если бы это было не так, например величина gi колебалась бы существенно сильнее, чем остальные величины g2, • • •, In, то закон распределе- ния суммы |i + ...+|n определялся бы в основном величиной В этом случае не было бы основания ожидать нормального распре- деления суммы. Если считать случайные величины примерно рав- ноправными, то это естественно в математической форме выразить так: существуют константы ci, с2 и d2 такие, что для всех k 0 < ci < < с2, 0< < М | — ak |3 < d2. В этом случае Аг=1 90
a n |BA —aj3<d2n. fe=i Поэтому k=: 1 d^ti 1 q X (C1«)3/2 /n” т. e. условие Ляпунова выполнено. В частности, оно выполнено для одинаково' распределенных случайных величин, имеющих тре- тий момент. Частным случаем теоремы Ляпунова является следующая тер- рема Муавра — Лапласа. Теорема 8.8. Пусть ц — число успехов в п испытаниях Бер- нулли с вероятностью успеха в отдельном испытании р. При п-^оо равномерно по х р( и71^-<х1.-»Ф (х). I Vnpq / Доказательство. Вспомним, что Н-Н1 + Н2+ ••• + где случайные величины Ць принимают значения 1, если в fe-том испытании был успех, и значение 0 в противном случае. Величины pi,..., цп независимы, одинаково распределены, МцА=р, D[ik=pq1 q=l—р. Применяя теорему Ляпунова, получаем доказываемое утверждение. Замечание. Отметим один случай, когда нельзя применять центральную предельную теорему. Часто интересуются такими зна- чениями х, при которых величина вероятности р <х}=Р(х) I У npq I будет очень близкой к нулю или к единице. Например, если х та- ково, что Р(х) «0,001, то нам желательно, чтобы ошибка от при- ближенной замены Р(х) на Ф(х) составляла несколько процентов от 0,001. Этого, как правило, не будет. Можно утверждать, что разность Р(х) —Ф(х)->0, но неверно, что отношение Р (х) r j [Ф(х) равномерно по всем х. Практически отсюда следует, что пользо- ваться Ф(х) в качестве приближенного значения для случая ма- 91
лых Р(х) (или близких к 1 Р(х)) ни в коем случае не следует. Например, пусть мы проектируем некоторую систему, рассчитывая ее на данное значение х, причем если окажется, что наступит со- бытие •( И> 4 = {р- > пр + х Vnpq~}, I V npq f то это ведет к аварии. Тогда мы, естественно, желаем, чтобы х удовлетворяло условию Р/ >4 = 1 —Р(х)<а, I Г пРЯ I где а — малое число. Если а мало (имеет порядок 0,001), то за- мена 1—Р(х) на 1—Ф(х) приведет к ошибочной оценке 1—Р(х), причем ошибка может быть порядка сотен процентов (т. е. в не- сколько раз). В теории вероятностей имеются теоремы, называемые теоре- мами о больших уклонениях, которые теоретически должны при- меняться вместо центральной предельной теоремы в рассматрива- емом случае (см. книгу В. Феллера [22], т. 2). Однако-степень их практической полезности не ясна. Прежде всего, это связано с тем, что для вычисления вероятности редкого и опасного события рискованно пользоваться упрощенной вероятностной схемой типа испытаний Бернулли. (Это не значит, что во всех случаях нужно стараться искать улучшенную более сложную вероятностную схе- му: более сложная схема легко может дать еще худший резуль- тат, чем более простая. Лучше, может быть, вовсе отказаться от вероятностных оценок.) Далее, асимптотические формулы, даваемые теоремами о боль- ших уклонениях, начинают действовать при слишком большом чис- ле испытаний. В общем оценка малых (или близких к 1) вероят- ностей требует особой аккуратности (как чисто математической, так и естественнонаучной) и далеко не всегда является научно воз- можной при современном уровне развития науки. 8.6. Что можно сказать о применимости нормального закона? При обсуждении теоремы Пуассона мы выяснили разницу между «хорошей» и «плохой» математической теоремой (с точки зрения естествоиспытателя): «хорошая» теорема не боится некоторого на- рушения ее условий. Центральная предельная теорема в этом смысле является «превосходной». Ее основное условие — предпо- ложение о независимости слагаемых g2, • • •, £п- Это предположе- ние можно довольно сильно ослабить. Математические работы с такой целью были начаты С. Н. Бернштейном и сейчас достигли большого развития, причем некоторые направления в этой области не потеряли до сих пор научного интереса. * По общему мнению, нормально распределены ошибки измере- ний. Каждое измерение зависит от многих, частично зависимых, -частично* независимых факторов, которые дают вклад в суммар- :92
ную ошибку. Не обязательно, конечно, суммарная ошибка являет- ся суммой gi + ...+£n различных факторов. Правильнее ее считать некоторой функцией f(|i, ...,|п) от них. Однако величины £2, • • •, In естественно считать мало отклоняющимися от каких-то неслучайных значений atl..., ап: ^k=ak + V- k= 1, ... , п, где малы. Тогда ;(1Х,..., и/(01........ап) + у “ dak k=\ Сумма, стоящая в правой части, естественно наводит на мысль о нормальности распределения. Нужно сказать, что в развитых экспериментальных науках (астрономия, геодезия) применяются специальные приемы типа усреднения результатов измерений, которые наряду с повышением качества измерений обеспечивают нормальность ошибки. В общем нормальный закон является бесспорно самым универ- сальным среди всех законов распределения. Не нужно только тре- бовать от нормального закона больше, чем он может дать. На- пример, в- конце предыдущего пункта отмечено, что нельзя ожи- дать хорошего согласия с нормальным законом на «хвостах» рас- пределения, т. е. в области слишком больших или слишком малых значений случайной величины (для конкретности это объяснялось для испытаний Бернулли, но так бывает в любых вероятностных схемах и обычно на практике). Грубейшей ошибкой является применение нормального закона в тех условиях, когда наблюдения имеют некоторую неопределен- ность, но эта неопределенность не есть случайность в смысле при- кладной теории вероятностей, т. е. не обладает статистической устойчивостью. Например, содержание полезного компонента в ру- де может постепенно закономерно возрастать от периферии к центру месторождения. Крайне нелепо было бы обрабатывать дан- ные отдельных его определений (подверженных как случайным ошибкам, так и закономерному возрастанию) таким образом, как если бы это были реализации одной и той же случайной величи- ны, подчиненной нормальному закону распределения. $ 9 ПРИМЕНЕНИЯ ЦЕНТРАЛЬНОЙ ПРЕДЕЛЬНОЙ ТЕОРЕМЫ Обыкновенно центральная предельная ч теорема используется по следующей схеме. Мы интересуемся вероятностью того, что сум- ма Sn = gi + ... + gn примет значение, лежащее в некотором интер- вале [Л, В]: Р{Л^5П^В}. Вычисляем MSn и DSn, нормированную сумму s* и пользуемся очевидным тождеством 93
Р{Л <sn<В} = р{гл7р^- < -МгН* I у D Sn у L)Sn J Правую часть последнего равенства приближенно заменяем на ф / B-MSa \ _ф / A-MSn_\ \ у^О Sn J \ D Sn J где Ф — функция Лапласа. Оценка ошибки при этом производит- ся в чрезвычайно редких случаях (в основном, в чисто математиче- ских работах). 9.1. Правило Зег. С помощью таблиц нормального закона легко устанавливаем, что Ф(3)—Ф(—3) =0,997. Иными словами, если А — MSn q В — М.$п । q ' . - О 9 --- “j О /DS„ /DS„ или, что то же самое, Л = М8„ — 3/DS;, B = MS„ + 31/DS7, то Р{Л <£,<£} ^0,997. Иначе говоря, P{!S„-MS„|<3/DS7}^0,997, (9.1) т. е. практически достоверно, что Sn отклоняется от MS;! не более чем на 3]/Т)8 i Обычно обозначают 1/DSZ( = о, поэтому изложен- ное правило называется «правилом За». Для отклонения на 2а = 2 Vf)Sn имеем Р {| Sn - М S„ | < 2 l/DSj = 0,965. Конечно, как было отмечено в конце предыдущего параграфа, оценка очень близких к 1 вероятностей с помощью центральной предельной теоремы обычно дает неправильный результат. Поэто- му, строго говоря, «правило Зю» действует лишь в том случае, когда в точности выполняется нормальный закон распределения. Вместо значения 0,997 вероятность (9.1) легко может равнять- ся 0,990, а то и 0,980 (могут быть, в зависимости от конкретных случайных величин , • • • , £п, и большие отклонения). Это надо иметь в виду при использовании изложенного правила. Для одинаково распределенных случайных величин с M|i=_a=/=0 величина М5п=па имеет порядок п, а величина имеет порядок I/ п. Таким образом, при боль- ших п преобладающую роль играет неслучайное число MSn=na, так как отклонение Sn от па имеет порядок Vn . 9.2. Применение к среднему арифметическому. Пусть gb..., gn— независимые случайные величины, причем Mgi = a, В^ = о2 не зави- 94
сят от номера /, 8>0. В таком случае закон больших чисел утверждает, что при п->оо — а >8 -*0. Строго говоря, для применения центральной предельной теоремы в том виде, в каком мы ее знаем, величины ..., должны быть независимы в совокупности, в то время как для закона больших чисел нужна лишь попарная независимость. Однако, предполагая, что центральная предельная теорема имеет место, получаем a J I о ) \ 8 3(7 Например, при --------= 3, т. е. 8 = —эта вероятность равна ° у/' п 0,997 (в той мере, в какой можно пользоваться правилом Зег). Заметим, что 8 убывает, как корень — • Если интерпретиро- вать gi,..., In как наблюдения, то мы видим, что ошибка от заме- ны а на —(11+ ... +ВЛ) обратно пропорциональна квадратно- п му корню из числа наблюдений. Любопытно, что этот вид зависи- мости от числа наблюдений почти всегда имеет место в рамках чисто статистического подхода. Иногда бывает лучше сделать бо- лее точный прибор, чем надеяться увеличить точность за счет уве- личения числа наблюдений. Статистикой надо пользоваться тогда, когда исчерпаны технические возможности. Любопытно, что в этом случае и ошибки наблюдений лучше укладываются в теоретико- вероятностные модели. 9.3. Вероятность и частота. Мы можем, наконец, ответить в рамках модели испытаний Бернулли), насколько сильно может отличаться частота от вероятности при данном числе наблюдений п. Имеем 2Ф (- Y \ .-/pq / 95
I Поскольку при р + = 1, очевидно, pq < —, эта вероятность, оче- 4 видно, не превосходит 2Ф (—2е]/п). Иными словами, Р ------е<р <— + el in n j = 1— 2Ф<— — 2Ф(— 2e/n). \ -/ pq J Таким образом, зная число успехов р в п испытаниях Бернулли, мы можем построить интервал / и и . \ ( —---8, — + 8 ) \ П nJ который будет накрывать неизвестное значение вероятности р успе- ха в одном испытании с любой заданной вероятностью 1—а (а — малое, но положительное число). Для этого нужно выбрать 8 = 8а из соотношения: 2Ф (— 2еа ]//?)< а. Тогда Р — еа < Р < — + е<Д > 1 — а. { п п J Интервал —8а, — + 8а ) называется доверительным интер- \ п п / валом для р с коэффициентом доверия (коэффициентом надежно- сти) 1—а. Итак, доверительный интервал есть интервал со случай- ными (зависящими от р) концами, который накрывает неслучай- ное, но нам неизвестное, значение р с вероятностью ^1—а. Каким нужно выбирать а? Обычно берут одно из значений 0,05; 0,01; 0,001. Смысл 8а— указать порядск возможной ошибки от замены р на —. При переходе от а=0,05 к а=0,001 довери- ’И* П тельный интервал удлиняется примерно в полтора раза (но при а=0,001 оценка р I И- — еа< Р < — + еа с помощью теоремы { п п Муавра— Лапласа становится крайне ненадежной). Поэтому до- вольно безразлично, какое значение а выбрать. Можно представить себе, что мы, не _хотим увеличить размер доверительного интервала, заменив у~~ на • В таком случае, поскольку речь все равно идет лишь о порядке длины, можно (при больших п) вставить вместо р значение — • Иными словами, можно ев выбрать из соотношения 96
9.4. Сравнение вероятностей. Принципиальный вопрос проверки статистической однородности обычно решается следующим обра- зом. Пусть мы провели п опытов, в каждом из которых могло на- ступить или не наступить событие А. Разделим имеющийся у нас материал на две группы (группы, конечно, должны выбираться из естественнонаучных соображений, в зависимости от наших пред- ставлений, каким именно образом может нарушаться статистиче- ская однородность). Пусть в первой группе будет ni испытаний и pi успехов, во второй группе П2 испытаний и р.2 успехов. Конечно, частоты и как правило, будут различны. Спрашивается, можно /lj п2 ли считать, что это различие вызвано чисто случайными причинами или оно настолько велико, что мы должны отвергнуть гипотезу Pi=P2 равенства вероятностей успеха. Построим критерий для про- верки гипотезы рх=р2. Очевидно, критерий должен иметь вид Hi На Y «1 «а где хв надо выбрать таким образом, чтобы вероятность р( —------— |>ХаГр1=Ра)<а, U «1 «а I J причем а — уровень значимости. При верной гипотезе p1 — pi — p имеем М ЛВ1Л =р, мЛ&Л = р, \ «1 / \ «а / \ «1 J \ пг J п2 ’ где р обозначает общее значение р\ и р% (нам р неизвестно), Ч=\—р. Считая, что величины щ и ц.2 независимы, мы получаем, что Hi Ш х разность —------— двух приблизительно нормальных независи- «1 п2 мых величин имеет примерно нормальное распределение с пара- метрами ^ = 0, П2 J V \ ttt Поэтому xa следует выбрать из coo' «2 / F \ «1 «a / гношения 97
2Ф = а. (9.2) Веда здесь заключается в том, что нам неизвестно р. Поэтому разумно подставить вместо р его оценку: + л1 + яг Обозначим через найденное таким образом значение ха. Если Пг + «2 велико, TO близко К Р И Ха близко к ха. Поэтому «1 + па при замене ха на Ха мы будем проверять гипотезу примерно на уров- не значимости а. 9.5. Окончание исследования игры в 10 и 20 коп. В примере 3.1 § 3 мы нашли, что первому игроку выгодно прятать 10 коп. с вероятностью 7/12 и 20 коп. с вероятностью 5/12. При этом второ- му игроку безразлично, как поступать, в смысле математического ожидания выигрыша, и мы предположим, что он с вероятностью 1/2 называет 10 коп. или 20 коп. Спрашивается, сколько раз надо повторить игру, чтобы выигрыш первого игрока был не менее 1 рубля с вероятностью, скажем, 0,975. Случайная величина равная выигрышу первого игрока при г-том повторении игры, имеет следующее распределение: / —10 +15 —20 \ I, 7/24 1/2 5/24 /’ Мы помним, что М|г =5/12; вычислим D = М — (М £z)a 225. Число повторений игры п надо выбрать из соотношения 5 10Э——п Р{$„=5.+ ... +5„>100} = Р s;>—------ = 0,975. Иными словами, Отсюда подбором получаем п«5150. Следовательно, если повторять игру 10 раз в минуту, то при- дется играть без отдыха 8,5 часа, чтобы выиграть рубль. В случае, если первый игрок не сумеет точно выдержать вероятности 7/12 и 5/12, а собьется на 1/2 и 1/2, то он вообще ничего не выиграет. Ясно, что легче и проще заработать рубль каким-либо другим способом. 98
§10 ВЫБОРКА. ОЦЕНКА ПАРАМЕТРОВ 10.1. Выборка. Математические модели теории вероятностей исходят из пространства элементарных событий с заданной зара- нее вероятностной мерой. Ожидается, что вероятности тех или иных событий, равные значениям этой меры, можно будет интер- претировать как частоты. При практическом применении теории вероятностей естественно возникают два вопроса: 1) можно ли го- ворить о вероятностях рассматриваемых событий, т. е. обладают ли их частоты свойством статистической устойчивости; 2) как най- ти эти вероятности из экспериментальных данных. Оба эти вопроса мы уже рассматривали применительно к ис- пытаниям Бернулли. Сейчас мы рассмотрим несколько более об- щую ситуацию, в которой результат отдельного опыта не обяза- тельно является одним из двух событий «успех» или «неудача», а может быть значением измерения, т. е. вещественным числом. Конечно, следует рассмотреть не один эксперимент, а несколько. Итак, пусть исследователь произвел п опытов, каждый из ко- торых состоял в некотором измерении, и получил результаты Xi, xs,..хп. Спрашивается, надо ли их обрабатывать статистиче- ски и каким образом. Сам способ статистической обработки, равно как и ценность ее результатов, полностью зависит от положенной в основу вероятностной модели, которая должна объяснить веро- ятностную структуру наблюдений Х\, х2,..., хп- Простейшая и наиболее надежная модель относится к тому случаю, когда заранее известно, что во всех п опытах измерялась одна и та же величина (например, среднее расстояние от Земли до Солнца), так что различие в наблюдениях xit..., хп объясняет- ся лишь ошибками наблюдений. Далее, предполагается, что во всех п опытах условия эксперимента оставались одинаковыми, а сами эксперименты были независимыми друг от друга. Заметим, что при измерении расстояния от Земли до Солнца наблюдатели, жившие в XVIII и XX вв., пользовались совершенно различными техническими средствами, так что условия эксперимента нельзя считать одинаковыми. (Следует рассматривать лишь измерения, проводимые с помощью примерно одинаковых средств.) Сформулированные на естественнонаучном языке предпосылки о неизменности измеряемой величины и условий опыта и о незави- симости друг от друга результатов эксперимента на языке теории вероятностей превращаются в следующую основную предпосылку: результаты п экспериментов Xi,..., хп являются независимыми в совокупности случайными величинами с одной и той же функцией распределения F(x). Кратко это предположение выражают так: числа Xi,..., хп образуют выборку с теоретическим законом рас- пределения F(x), или числа Xi,.... хп образуют выборку из рас- пределения F(x), 99
Строго говоря, результаты наблюдений следовало бы обозна- чить gi, £2, • • •, gn, если придерживаться введенных ранее обозна- чений. Однако в математической статистике сложилась досадная традиция, в силу которой хь х2,хп обозначают иногда случай- ные величины, а иногда неслучайные числа (например, перемен- ные интегрирования) и притом в одной и той же формуле. Чита- тель должен научиться отличать эти два случая. Поскольку на- стоящая книга должна облегчить обращение к имеющимся учеб- никам по математической статистике, пришлось и здесь принять эту традицию. Например, если каждая из случайных величин х\,..., хп имеет плотность распределения р(х), А — подмножество n-мерного ев- клидова пространства, то Р{(-*1....хп) (: А} = J ... fp(Xi) ...p(xn)dx1 ... dxn, (10.1) А причем в левой части этого выражения Xi,..., хп обозначают слу- чайные величины, а в правой части — переменные интегрирования. Если мы говорим, что Xi, х2,...,хп образуют выборку, то тем самым мы принимаем некоторую вероятностную модель для ре- зультатов наблюдения. В частности, мы объявляем, что имеет смысл рассматривать вероятности, стоящие в левой части (10.1). Иными словами, мы объявляем, что в принципе совокупность из п наблюдений может быть повторена сколько угодно раз, причем n-мерный 'вектор, получающийся при каждом .повторении п наблю- дений, будет попадать в подмножество А с частотой, примерно равной P{(xi.....хп)еЛ}. Грубой ошибкой, следовательно, является применение понятия выборки и связанных с этим понятием методов статистической обработки данных в тех случаях, когда говорить о повторениях со- вокупности из п наблюдений в условиях статистической однород- ности не имеет смысла. Несколько позже мы будем говорить о воз- , можном изменении теоретико-вероятностной модели в том случае, когда условия опыта систематически меняются (метод наимень- ших квадратов). Сейчас же мы предположим,, что Хь..., х„ образуют выборку, и поставим вопрос о нахождении закона распределения Е(х). Практически обычно бывает, что известны лишь результаты опы- тов Xi,..., хп и по этим результатам нужно найти Е(х). Основным принципом здесь является принцип подбора Г(х) из некоторого па- раметрического семейства законов распределения. Предполагается, что F(x) не может быть произвольной функцией распределения, а определяется небольшим числом (не более трех-четырех) пара- метров. Например, нормальный закон распределения N(a, <т) опре- деляется двумя параметрами — математическим ожиданием а (в статистике математическое ожидание называют средним} и дис- персией а2. Закон Пуассона определяется единственным парамет- 100
ром — средним X. Чаще всего в качестве параметров берутся мо- менты ak = Jx*dF(x), А =1,2, ... —00 Величины ah называются теоретическими моментами. Очевидно, что среднее а есть момент а дисперсия = a2—al. Общий подход состоит в том, что семейство законов распре- деления, из которого нужно подобрать F(x), определяют заранее из каких-либо соображений (например, решают, что теоретический закон является нормальным), а параметры подбирают исходя из конкретных значений хь..., хп. В статистике вводятся (в отличие от только что введенных «теоретических» или «истинных») понятия эмпирической (выборочной) функции распределения, эмпирических (выборочных) среднего, дисперсии, моментов и т. д. Удобным мне- моническим правилом для запоминания всех этих определений является следующее: образуем фиктивную «случайную величину», принимающую каждое значение хь ..., хп с вероятностью —; » п тогда «выборочные» характеристики йвляются соответствующими характеристиками этой случайной величины. Например, эмпириче- ской функцией распределения Fn(x) называется функция распре- деления этой фиктивной случайной величины число Xj таких, что xi<Zx п где х — любое вещественное число. Эмпирическим (выборочным) средним называется Fn(x) эмпирической дисперсией называется величина Z=1 i==l эмпирическим k-тыс моментом ак называется .величина Важность эмпирических характеристик заключается в том, что они близки (при большом п) к соответствующим теоретическим величинам. Конечно, поскольку выборочные характеристики явля- 101
ются случайными величинами, а теоретические характеристики — числа, то близость может пониматься лишь в смысле сходимости по вероятности. Лемма 10.1. Пусть последовательность случайных величин {£п} сходится по вероятности к числу а, последовательность {т]п} сходится по вероятности к числу Ь, а функция f(x, у) двух пере- менных х и у непрерывна в точке х=а, у=Ь. В таком случае №п,г\п)->На,Ь) по вероятности. Доказательство. Для любого в>0 выберем 6>0 такое, что при |х— а|<6, \у — 6|<6 I f(x, у) — f (а, 6) | < 8. Имеем следующее включение для событий: п„)-Ж 6)|>8}Q{|gn-а\>6} и {Ч-61 >6}. Следовательно, P{|f(B„. 6)|>8}< <РХ1^-а|>6} + Р{|т]„-6|>б}. Но в силу условия леммы каждое слагаемое правой части послед- него выражения стремится к нулю при п->оо. Лемма доказана. Теорема 10.1. При п->оо имеют место следующие соотноше- ния (где сходимость понимается в смысле сходимости по вероят- ности): > О ^„(x)->F(х) при любом х, —оо<х<оо. П 00 2> a* = ~ '= ^dF{x), /=1 —ОО если а^-с^оо, в частности, если а2<оо, х = -— хг -» а = § xdF (х); f=l —00 3) S2 = £ (xz — х)2->о2 = j(х—a)2rfF(x). Z=1 —оо Доказательство. 1) Фиксируем х,—оосхСоо и введем функцию 1, если О, если У<х, 102
Очевидно, что п i=l так как /X(xt) являются независимыми случайными величинами (как функции от независимых случайных величин xi........ хп) и - имеют конечную дисперсию. Далее, = ЬР{Ш) =,1} = р{х,<*} = т так что утверждение 1) доказано. 2) Если a2k<.°°, то существует конечная дисперсия D(x?), так что 2) вытекает из закона больших чисел. 3) Применим лемму 10.1 к выражению п п 4=1 f=l полагая П 00 = "л" S °2 М%1?| = J Х*dF ^х)’ 4=1 —00 ОО т)„ = х~>Мх1 —а = ^xdF(x) —00 и считая, что /(£„, т|„) — £„^-т|п. Утверждение доказано. 10.2. Основные понятия теории оценок. Оценкой вообще на- зывается функция у=у(%1.......хп), зависящая только от наблю- давшихся в опыте значений Xi..хп. Но нас интересуют не лю- бые оценки, а только близкие в каком-то смысле к оцениваемому параметру с. Определение 10.1. Оценка у=у(хь..., хп) параметра с называется состоятельной оценкой параметра с, если при п-*оо Y(*i.....хп)~*с в смысле сходимости по вероятности. Теорему 10.1 можно сформулировать следующим образом: выборочные характеристики являются состоятельными оценками соответствующих теоретических характеристик. Требование состоятельности предъявляется ко всем практиче- ским используемым оценкам. Часто считается полезным также сле- дующее свойство несмещенности. Определение 10.2. Оценка у=у(хь..., хп) называется несмещенной, если при любом п 103
Му(хь ... ,хп) = с. Таким образом, в случае несмещенной оценки отклонение у—с носит несистематический характер. Впрочем, обычно вполне доста- точно, если при п->со Му(хь ... , х„)->с. (10.2) Если выполнено (10.2) и при и-*оо дисперсия Оу(хъ ... ,х„)->0, (10.3) то оценка у является состоятельной оценкой параметра с (это вы- текает из неравенства Чебышева). Большинство практически применимых оценок обладают свойствами (10.2) и (10.3). Заметим, что Мх = — V Mxz = а — \xdF(x), fc=l —оо т. е. х является несмещенной оценкой для а. Величина п S2= —V (xz—7)2 n 4=1 не является несмещенной оценкой для о2. В связи с этим вместо S2 иногда применяют п Теорема 10.2. Величина s2 является несмещенной оценкой для о2. Доказательство. Положим Xi=yi+a, где a=Mxz. Тогда, очевидно, My/ = 0, Dy(=Dx, = ст2, Л _ п _ У (х{ — х)2 = £ (Уг — 4=1 4=1 Заметим, что в силу независимости при i#=/ М (t/xr/y) = М t/z М = 0. Имеем Л _ п _ м Е (У. —У)2 = М{ У tfi — n(t/)2j. 4=1 1 М ' 104
Вычислим 1 / л м2 t=i Ki Следовательно, п _ иМ п?_ „ М (77X2 ' к f=i Теорема доказана. Замечание. Очевидно, что при п->оо величина s2 =------S2 стремится к тому же пределу о2, что и S2, т. е. s2 п — I является несмещенной состоятельной оценкой для о2. Однако s=V s2 не будет несмещенной оценкой для о, так что использо- вание s вместо S связано не столько с несмещенностью s2, сколько с тем, что в случае нормального теоретического закона распреде- ления именно 5 входит во все важнейшие формулы, как мы это вскоре увидим. Важнейшим понятием теории оценок является понятие довери- тельного интервала, с которым мы уже встречались при оценке вероятности успеха в испытаниях Бернулли. Определение Ю.З. Пусть У1(хь..., хп), уг(хь..., %п) — такие функции от выборочных значений хь..., хп, что у1(хь.. ..., xn) у2 (Xi,..., хп) при любых возможных Х1, ..., хп и для параметра с имеем P{Yi(Xj, ••• , х„)<с<у2(х1, ... , а, где а — некоторое (небольшое) число. В таком случае интервал [уь уг] называют доверительным интервалом для параметра с с коэффициентом доверия (надежности) 1—а. Практическая схема применения введенных понятий обычно такова. С самого начала имеется выборка хь..., хп. Из тех или иных теоретических :^и экспериментальных соображений опреде- ляют, в каком параметрическом семействе нужно искать теорети- ческий закон распределения F(x). Затем с помощью выборочных характеристик приближенно определяют параметры F(x), после подстановки которых получаем некоторый новый закон распреде- ления Л(х). Однако, если мы хотим делать какие-то выводы из найденного закона, нам важно знать, с какой точностью он найден, т. е. насколько сильно может отличаться F(x) от Г(х). Например, если мы хотим знать число хр такое, что F(xp)=p (где р — не- которое небольшое число), то мы можем в качестве приближения к хр взять число хр такое, что F<(xp)=p. Однако нам важно знать, как велика может быть разница между хр и хр. С этой целью нуж- 105
но вычислить доверительные интервалы, показывающие примерный порядок ошибки определения каждого из параметров, и устано- вить, насколько сильно может колебаться хр при колебании пара- метров в пределах своих доверительных интервалов. Точный дове- рительный интервал для хр установить таким образом не всегда возможно, поскольку не всегда известно совместное распределение оценок параметров. Тем не менее, порядок возможной ошибки от замены хр на хр нужно всегда иметь в виду. 10.3. Доверительные интервалы для моментов. Оценкой момен- „ п ОО | ___ та ak = J xkdF(x) является эмпирический момент ak = — У х*. . /=1 Применяя центральную предельную теорему, имеем 2 £=1 2 _______ п что позволяет сразу построить доверительный интервал для ak, если только известна дисперсия D (х?) = М х?* - (М х?)а = a2k - (atf. Для нахождения D(x*) обычно нельзя предложить ничего лучше- го, чем заменить a%k и ak их оценками агь и а&. Учитывая невысо- кие требования к точности построения доверительного интервала, можно обычно ограничиться этим приемом при больших п (поряд- ка нескольких десятков). Таким образом, при оценке точности определения аь по выборке приходится привлекать агь. При очень большом a2k замена «гл на агь для применения центральной пре- дельной теоремы может привести к ошибке даже при нескольких десятках наблюдений. Мы вскоре увидим, что при выборках из нормального закона существует точный способ построения довери- тельных интервалов. Пока же отметим специально случай Л=1: Р{|х — а\>е}^2Ф<— еуГп Y \ в J где вместо о часто бывает возможным подставить любую из оце- нок s = *)а’ s= 106
. 10.4. Метод Монте-Карло. Мы отмечали в § 1, что самым на- дежным случайным экспериментом является бросание монеты. По- ложим £=1, если в i-том бросании выпал герб и если в i-том бросании выпала цифра. Пусть N — некоторое большое чис- ло (порядка 40—50). Рассмотрим случайную величину N I t=s • i=l т. е. двоичную дробь, знаками которой являются числа |2,. • Очевидно, t имеет 2N различных равновероятных значений, лежа- щих на отрезке [0, 1]. Практически распределение £ неотличимо от равномерного распределения на отрезке [0, 1], т. е. распределения, плотность которого равна 1 на отрезке [0, 1] и нулю вне этого от- резка. Пусть теперь F(x) — любая непрерывная функция распре- деления. Положим В таком случае для любого х имеем (х) = Р {т) < х} = Р {F-1 (С) < х} = Р {С < F (х)} = F (х), поскольку при 0 < у < 1 р. {£<«/} = !/• Таким образом, с помощью бросаний монеты ..., и анали- тических операций можно образовать случайную величину т), имею- щую наперед заданное распределение F(x). Повторяя бросание монеты Nn раз, можно образовать выборку tji,..., т]п из закона распределения F(x). Беря функции вида Л(ць ..., Лп), •. •, ..., Мль---, Лп), можно образовать более сложные многомерные распределения. Нет сомнения в том, что таких распределений до- статочно для любых практических целей. Описанный здесь процесс называется методом моделирования, или методом Монте-Карло. Сложность, однако, состоит в том, что при решении реальных задач необходимо бросать монету так быст- ро, чтобы это было сравнимо со скоростью работы ЭВМ. К сожа- лению, такого способа не существует, и современные датчики слу- чайных чисел выдают в сущности результаты арифметических опе- раций над вполне определенными неслучайными числами. В силу каких-то мало понятных свойств чисел получаемые таким образом псевдослучайные числа могут применяться для практических целей так же, как и настоящие случайные числа. Например, если раз- лагать число л в десятичную дробь, то с помощью статистических критериев нев^^ожно заметить в этой последовательности цифр никаких отклонений от случайной последовательности цифр 0,... ,9. Было также давно замечено, что если взять последние цифры мно- гозначных логарифмов натуральных чисел, то получается неплохая 107
модель равномерного распределения на отрезке [0, 1]. Все эти фак- ты не имеют пока полного научного объяснения, и где проходит граница применимости псевдослучайных чисел, не ясно. Мы рас- смотрим одно применение теории статистических оценок, предпо- лагая, что при моделировании мы имеем дело с настоящими слу- чайными числами, хотя надо со всей серьезностью предупредить, что при использовании псевдослучайных чисел возможны сущест- венные отклонения от излагаемых результатов. Пусть требуется вычислить интеграл 1 1 1 / = J j . • р(Х1, х2, ... , xJdXidXt ...dxn от некоторой функции f(x) =f(хь..., хп), заданной на п-мерном единичном кубе К. Предположим, что £i, £2...Ся — случайные величины, имеющие каждая равномерное распределение на К. Оче- видно, что т, /(и.........то (ю.4) образуют выборку. Имеем Mf(S,) = j . . . ....xt)dx1...dxn = I. о о Поэтому искомое значение интеграла / есть теоретическое среднее выборки (10.4). Имеем, согласно п. 10.3, Р{1 Y £Ж)-7|>е}^2ф(---------------—), где <j2=Df(£i). Следовательно, полагая, например, 2Ф<----= о,997, \ О J в/IV За откуда —---= 3s, или е = —мы видим, что точность 8 опре- 1 деления / по выборке имеет порядоь /.— • Заметим, что для этой у N оценки важна не гладкость функции f(xi,..., хп), а лишь диспер- сия °2 = J • • • J(f(xi. •••- xn)—/)adx!...dxn. о о Таким образом, за счет М моделирований n-мерных случайных век- торов £i...и N вычислений значений N дости- 108
Зег угг гается точность • Сравним этот результат с классическим способом вычисления интегралов с помощью аппроксимации сум- мами. В случае n—1 метод Симпсона по N точкам дает (для гладких функций) точность порядка Однако если в случае п>1 пе- ременных применять метод Симпсона хотя бы в 10 точках, то потребуется 10" вычислений значений функции f(xi, хп). При таком способе вы- числение интеграла I при возраста- нии п сначала сделается невозмож- ным из-за накопления ошибок, а затем из-за недостаточного быстро- действия машины. Метод же Монте- Карло при возрастании размернос- ти требует nN моделирований и N вычислений значений функции f(Zi) вместо 10" вычислений значений функции. Ясно, что при больших размерностях п метод Монте-Карло является единственно возможным. При его применении желатель- но, конечно, иметь оценку сверху дисперсии о2. по каждому переменному 10.5. Практические приемы работы с выборками. ОДним из полезнейших изобретений для статистической обработки выбо- рок является вероятностная бумага. При изменении шкалы отсче- та х-^вх+а закон распределения F(x) преобразуется в закон распределения F^ д-). Поэтому имеющее физический смысл семейство законов распределения должно как минимум содержать параметры а и а. Уговоримся рисовать график функции F(x) в таком масштабе по оси ординат, чтобы этот график был прямой линией. Тогда все законы аотличающиеся от F(x) линейной заменой аргу- мента, также будут изображаться прямыми линиями. Изготовлен- ная таким способом бумага называется вероятностной. Способ оцифровки оси ординат для ее изготовления ясен из рис. 10.1. Имея таблицу функции F(x), вероятностную бумагу легко приго- товить на любом листе миллиметровки, а на худой конец — на листе из тетради в клетку. В случае нормального закона F(x) бу- мага называется нормальной. На практику на нормальной бумаге изображается эмпириче- ская функция распределения Fn(x). Если выборка имеет теорети- ческое нормальное распределение, то ступенчатая функция Fn(x) 109
должна быть близка к прямой. Используя прозрачную лийейку, нетрудно провести соответствующую прямую. При некотором навы- ке бывает достаточно ограничиться этим способом проверки нор- мальности распределения. Явно заметное отклонение от прямой может позволить * обнаружить не только тот случай, когда теоретическое распределение не будет нормальным, но и случай, когда наблюдения вовсе не образуют выборки (т. е. нарушается соответствующая статистическая однородность). По-видимому, по- следовательность приемов должна быть такова: проверка нормаль- ности с помощью нормальной бумаги; затем, при плохом согласии с нормальным законом — проверка статистической однородности и лишь затем (в случае наличия однородности) подбор других се- мейств распределений. В случае согласия с нормальным законом можно считать, что проведенная на глаз прямая близка к теоретическому нормально- му закону С помощью графика этой прямой легко без вычислений найти а и а. Действительно, значение xQ такое, что Ф ( = 0,5, соответствует = 0, т. е. Хо — а, так как ф(0)=0,5. Ввиду того что Ф(1) =0,84, Ф‘(—1) =0,16, легко нахо- димые графически решения x-i и x+i уравнений ф( ) = °-16- <I)(~±if~!L) = 0,84 обладает свойствами: x-i — х0 = — а, х+! — х0 = + а, откуда <J=— (x+i—x-i). Этим способом оценок обычно ограничи- ваются на практике. Он может служить также для контроля вы- числений х и s. Следует заметить, что при оценке возможной разницы между х0 и а может встретиться следующая ошибка. Оценивают на глаз, с какой точностью может быть проведена прямая линия, прибли- жающая F„i(x), и каковы, следовательно, возможные колебания точки Хо (точки пересечения этой прямой с линией z/=0,5). Этот способ обманчив, так как уже в самой эмпирической функции рас- пределения Fn(x) содержится некоторая случайность. Поэтому сле- дует пользоваться методом доверительных интервалов. В данной книге лишь намечены практические приемы работы. Исчерпывающее изложение практической стороны дела вместе с примерами использования, нормальной бумаги можно найти в книге А. Хальда [24]. При большом числе наблюдений вместо эмпирической функции распределения можно построить так назы- ваемую гистограмму, которая по виду напоминает плотность рас- пределения. Короче всего определить гистограмму так: на обыч- но
ной (невероятностной) бумаге строится эмпирическая функция распределения, затем она сглаживается ломаной линией, а гисто- грамма является графиком производной последней ломаной линии. По поводу работы с гистограммами читатель также отсылается к книге А. Хальда [24]. Не так просто, как кажется на первый взгляд, найти в доступ- ной литературе данные, на которых можно было бы попрактико- ваться в статистической обработке. От плохих наблюдений нельзя ожидать нормального закона. Даже при хороших наблюдениях экспериментаторы часто выписывают данные таким образом, что фактически лишь одна цифра является значащей, поскольку сле- дующие цифры сильно колеблются и в них нет веры. Обрабаты- вать грубо округленные данные с помощью нормальной бумаги бессмысленно. Нужно, чтобы наблюдения записывались хотя бы с двумя значащими цифрами. Примером данных, вполне оправдывающих гипотезу нормаль- ности, являются данные Милликена по измерению заряда электро- на (задачник Л. Д. Мешалкина, задача 456). На этих данных можно практически освоить приемы, рассматриваемые в этом и следующих параграфах. Например, построив эмпирическую функ- цию распределения на нормальной бумаге, читатель увидит, что в средней части эмпирическая функция распределения прекрасно укладывается на прямую, а ;в «хвостах», т. е. в областях значений, близких к 0 или 1, укладывается хуже. Последнее не всегда свиде- тельствует о плохом согласии с нормальным законом и является обычным. § 11 ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ, СВЯЗАННАЯ С НОРМАЛЬНЫМ РАСПРЕДЕЛЕНИЕМ ОШИБОК НАБЛЮДЕНИЙ В этом параграфе мы изложим основные приемы обработки наблюдений в том случае, когда ошибки наблюдений считаются нормально распределенными случайными величинами с нулевым математическим ожиданием. Мы рассмотрим как случай выборки (т. е. случай наблюдений одной и той же величины), так и случай наблюдений разных, но связанных между собой величин. Начнем с математического введения. 11.1. Основные распределения, связанные с нормальным зако- ном. Свойства проекций нормального вектора. Определение 11.1. Распределением Пирсона (или распре- делением %2) с п степенями свободы называется распределение случайной величины Хд = В? + Й+ ...+& где In — независимые случайные величины, имеющие каж- дая нормальное распределение Af (О, 1). Ш
Определение 11.2. Распределением Стьюдента (или t- распределением) с п степенями свободы называется распределение случайной величины где £ — нормальная случайная величина с параметрами (0,1), X2— случайная величина, имеющая распределение %2 с га степеня- ми свободы и не зависящая от Определение 11.3. Распределением Фишера (или F-рас- пределением) с (пг, п) степенями свободы называется распределе- ние случайной величины 1 2 — Хт Р — m 1 т,п — : ’ 1 2 где в числителе и знаменателе стоят независимые случайные ве- личины, имеющие распределения х2 с т и п степенями свободы (соответственно). При обработке наблюдений постоянно приходится иметь дело с таблицами только что введенных распределений. Наоборот, явные выражения для их плотностей почти не используются на практике и поэтому мы их не приводим (читатель может найти их в любом учебнике математической статистики). Остановимся коротко лишь на приближенном выражении этих распределений при большом числе степеней свободы. В силу центральной предельной теоремы, при больших п рас- пределение х^ является приблизительно нормальным. Нетрудно подсчитать, что Mxn = п, Dx« = 2n, так что самую простую аппроксимацию распределения х „ получаем, если считать, что рас- пределение величины Хп-» /2п приближенно равно N (0, 1). Согласие с нормальным распределе- нием улучшится, если заменить}Л2п на ]/2п—1, но мы не будем вдаваться здесь в подробности точного определения функции рас- пределения х» (см., например, таблицы Л. И. Болыпева и Н. В. Смирнова [4]). В силу закона больших чисел ~"Хл-*1^по вероятности, так что естественно ожидать, что при больших п распределение вели- чины tn практически совпадает с распределением числителя |, т. е. П2
с распределением Af (О, 1). Обычно считают, что при п>30 прак- тически можно пользоваться вместо распределения tn распределе- нием Af (О, 1), но это, разумеется, неверно для вероятностей, очень близких к 0 или 1. Правда, обычно нельзя всерьез утверждать, что в области таких вероятностей совершенно точно действует и рас- пределение Стьюдента. Гораздо сложнее обстоит дело с табулированием распределе- ния Фишера (по той простой причине, что вероятность Р{Fm,n<x} зависит от трех параметров т, п и х, а следовательно, нужна таб- лица с тремя входами). В доступной литературе имеются лишь таблицы процентных точек F-распределения, т. е. таблицы точек х(/п, п, а), таких, что P{Fm.n<x(m, п, а)} = а для нескольких значений а. Обычно этого бывает достаточно. Применения указанных распределений основаны на следующей лемме и следствиях из нее. Лемма 11.1. Пусть |=|(£ь..., gn) — случайный вектор, ком- поненты которого £1,..., независимы (в совокупности) и имеют каждая распределение N (0, о). Если U — ортогональное преоб- разование евклидова пространства, то распределение вектора совпадает с распределением вектора Доказательство. Имеем для плотности распределения = ₽£,...8„(Х1, .... Хп) = х? . « <*> •*) — П 1 Y с 2а’ Далее Рп (х) = Put W = Pi (U-1 х) = = (---Y exp /-------— (U-1 x, U-1 = \ о/2л J 2or« ' 'f 4ViW”exp {“ i (x'x)} = w в силу ортогональности U (якобиан преобразования равен единице и (U~ix, U~lx) = (x, х)). Лемма доказана. Выведем из этой леммы ряд (весьма важных) следствий. Эти следствия будут относиться к вектору £ + &, отличающемуся от £ добавлением неслучайного вектора Ь. Буквой L с различными ин- дексами мы будем обозначать линейные подпространства «-мерно- го евклидова пространства, а знаком _1_ — ортогональность. 113
Следствие 1. Если LiJ_L2, то проекции projLl (£ + Ь) и projL> (£ + b) являются независимыми случайными векторами. Доказательство. Поскольку pro(I + b) = projLi £ + projLz b, i = 1, 2, и b — неслучайный вектор, то достаточно доказать, что независимы projt,£ и projt, £. Выберем в пространстве ортонормированный базис /1, /а. • • • , fkt, fkt+i.Д,+4,, /*,+*,+1..В котором векто- ры /х, ... , являются базисом в (размерность dim£1 = ^1), а векторы f*,+i, ... , fk^k, являются базисом в L2 (dimL2 = ^)- В та- ком случае k, projb, £ = £(£, Л) fs> s=l kt ргокЛ= J] (В, fs)fs. s=*,+l Но, в силу леммы 11.1, величины (s, /j, a, w......(в, f„) имеют такое же распределение, как и величины g2,.... £п, в частности независимы. Поэтому projug и projL2B независимы как функции от независимых случайных величин. Следствие 2. Пусть b_LL. Тогда ||projb(|+&)ll2=llprojLg||2 имеет распределение g2x2<iimr.. где о2=!>£,, х2н1тГ. —случайная ве- личина, имеющая распределение х2 с числом степеней свободы, равным размерности dimL. Доказательство. Положим L=Lt, чтобы использовать обозначения доказательства предыдущего следствия. Тогда llproklll2 = 2(L S=1 что имеет такое же распределение, как S й Ш S=1 s=l 4 7 что и требовалось доказать. Следствие 3. Если b-L^2, причем Li^L2i то отно- шение 114
(11.1) имеет распределение Фишера FdimLi, dimL2. Доказательство. :В силу следствия 1 числитель и знаме- натель (11.1) независимы, а в силу следствия 2 имеют, соответ- ственно, распределения d * o2xlimL, и d* <х2Х^тЬ,- При де- лении числителя на знаменатель общий множитель о2 сокращается и получается утверждение следствия. 11.2. Общая линейная модель и метод наименьших квадратов. Пусть мы имеем совокупность наблюдений т)1, т]2,...» т]п, вообще говоря, различных величин ai, а2,..., Qn- Каждое наблюдение r)i=ai + 6i складывается из значения сц наблюдаемой величины и ошибки наблюдения б{. В математической статистике не остается ничего другого, как предположить, что наблюдения не имеют систематической ошибки, т. е. М6»=0. Кроме того, обычно пред- полагается, что все дисперсии D6i=o2 одинаковы (но нам неиз- вестны) и распределения нормальны: (О, о). Несколько более общий случай, когда дисперсии D6» неодинаковы, но извест- ны их отношения, т. е. D6Z = a2wlt легко сводится к предыдущему. Действительно, положим £/ = Ч/ at Тогда дисперсии одинаковы, а роль чисел ai,.., ап играют чис- ла —^=-. Заметим, что величины У Wi 1 1 1 > , • • • > > W2 wn обратные дисперсиям наблюдений, называются весами наблюдений. Веса предполагаются заранее известными. Как может случиться, что дисперсии о2^ отдельных наблюде- ний неизвестны, но веса шг- известны? Один из возможных вариан- тов состоит в следующем. Исследователь хочет измерить величи- ны ai,..., ап, но результаты единичных измерений этих величин столь плохи, что он даже не записывает отдельных наблюдений, а берет лишь среднее _ 2x1+Z£2+••• 115
из Шг наблюдений величины В силу условий эксперимента чис- ла /пь..., тп вполне могут быть различными. Если при этом же- лают применить статистическую обработку, т. е. допустить соответ- ствующую статистическую однородность, то естественно считать, что дисперсии Dr^ обратно пропорциональны числам тг-. Таким образом, числа наблюдений mb т2,..., тп оказываются весами на- блюдений. В дальнейшем мы будем считать веса одинаковыми. Итак, наша модель имеет вид = + 6z~JV(0, о), где а неизвестно и все 6Ь..., 6П считаются независимыми случай- ными величинами. Если числа а\, ап совершенно произвольны, то наблю- дения т)1, т]2,..., т)п бессмысленно обрабатывать совместно. На другом языке бессмысленность совместной обработки можно выразить так: ничто не мешает предположить, что о=0, т. е. ошибок наблюдений нет, так что i)<=aj. Наблюдения имеет смысл обрабатывать сов- местно только при наличии какой-то дополнительной информации о наблюдаемых величинах ai, atf.ап. Чрезвычайно удобным и общим способом математически строгого («формального») выраже- ния этой информации является следующий: предполагается, что вектор а— (а\,ап) лежит в некотором известном линейном под- многообразии М (напомним, что линейным подмногообразием М называется множество вида M=L-\-c, где L — линейное подпро- странство и с=(С1.....сп) — фиксированный вектор). Переходя от величин т)1,..., 1)п и ai,..., ап к величинам i)i—Ci,..., i)n—сп и «1—Ci,..., ап—сп, мы всегда можем без потери общности считать, что с=0, т. е. М— L есть линейное подпространство. Итак, наши предположения имеют следующий вид: i) = a + 6, a^L, (11.2) где i)=i(i)i,..., i)n) — вектор наблюдений, a=t(ai,..., ап) — век- тор, который мы хотим определить из наблюдений, 6= (61,..., 6п) — вектор ошибок. При этом 61,..., 6П независимы и 6z~JV(0, о). (11.3) Для определения вектора а Гаусс предложил следующий ме- тод максимального правдоподобия. Рассмотрим плотность распре- деления Рп(*) = Рп....т)„(*ь •...*„) = = гт_____L.-expl- ^-<^1- 1=1 °У2л 2°2 J = Г----U1 У exp J- I \ а у 2л J \ 2а2 J 116
Если в выражение р^(х) вместо переменной интегрирования х подставить наблюденный вектор г], то функция от а, т] р„(а, ч) = ( —‘Yap {- I \ оу 2л J I 2о2 \ называется функцией правдоподобия, В качестве оценки й=й(т|) неизвестного значения а следует взять ту точку, в которой (при заданном т]) достигается максимум функции правдоподобия Рп (а, т]): Рп (а(п)» Л) = max рл (а, т|), аеь причем максимум берется по всем a^L (поскольку заранее извест- но, что aeL). Очевидно, что <2(т]) обладает тем свойством, что (П — а (л), Л — а (п)) = || П — а (т]) II2 = min || г] — а ||а. , абЬ Другими словами, а (т]) = projz. т] (11.4) является оценкой максимального правдоподобия для неизвестного вектора а. Поскольку это решение получено путем минимизации ||т)—а||2, то в рассматриваемом случае говорят также о методе наи- меньших квадратов. Кроме оценки для а, желательно бывает получить оценку для дисперсии а2 отдельного наблюдения. С этой целью заметим, что случайная величина Д2 = || т] — projbTi'II, называемая «кажущейся ошибкой» (происхождение этого названия будет ясно несколько позже), совпадает с ||proji'T)||2, где L' есть lopiroroinальное дополнение ж L. Следовательно, в силу того, что a-LL\ А2 имеет распределение °2Ха1тЛ- = Рассмотрим величину s2 =------5----Да. п — dim L Очевидно, что Ms2 =----------— <Та МХл—dim L = О2. л— dim L 117
Следовательно, s2 является несмещенной оценкой для о2. Отклоне- ние s2 от о2 определяется отклонением случайной величины 1 ,. г %л—dim L п — dim L от единицы. Следовательно, при большом числе п—dimL степеней свободы это отклонение будет малым. Например, если число на- блюдений П“>оо, а размерность dimL подпространства L (в кото- ром лежит вектор математических ожиданий наблюдений) остает- ся ограниченной, то s2 является состоятельной оценкой для о2. Замечание. Оценка я(т]) для а связана с проекцией векто- ра т] на L; оценка s2 для о2 связана с проекцией вектора г] на L'±L. Следовательно, я(т]) и s2 являются независимыми случай- ными величинами ^следствие 1 леммы 11.1). При этом а (л) = projt л = projL (а + 6) == a +>ojL б, так что квадрат нормы || а—а (г)) |р = || projz. б ||2 имеет распределение o2x2dimi.. Распределение отношения —1| a— <T(t])||2 dim L s2 есть распределение Фишера Лптмьш/. . Мы рассмотрели общую задачу об оценке параметров в слу- чае линейной модели. Значение этой задачи можно представить себе только после рассмотрения важнейших примеров применения этой общей задачи. 11.3. Нормальная выборка (теория ошибок). Важнейшим част- ным случаем общей теории является случай нормальной выборки, когда измеряется все время одна и та же величина, т. е. ai=a2=.. .=ап=а. Очевидно, что в этом случае L = {(аъ а2, ... , ал) = ае]/л, —оо<а<оо), где через е обозначен нормированный вектор / 1 1 1 \ в I ---------------------, --, • . • , . ), \ У п Уп У п ’) Оценкой для вектора ае]У п будет п £ Пг proj£,i1 = (i1, = f-L, ... , = ......п), 118
1 где т] = —V T]z. Следовательно, оценкой для вектора (а19 ... , ап)= кП *=1 _ _ = (а, ... , а) является вектор (т], ... , т)), иначе говоря, оценкой для числа а является т]. Заметим, что вместо обозначения t)=«(t|i, ..., т]п) обычно упот- ребляется обозначение х= (Х1,.д:, хп) для результатов наблюде- ний. Тогда оценкой для а будет х. Оценкой для о2 будет (в силу того, что dimZ,= l) 1 1 п s2=—Ц-||(*1. ••• > хп) — (х..х)||а = -—; У (*» —*)2- п-1 "-hfi Заметим, что случайная величина — (х—a)]fn имеет, очевидно; (У распределение Л^(0,1). Случайна# величина — s? имеет распределение а2 1 t . Поэтому величина — (х —а)|<п . г— а (х — а) у п имеет распределение Стьюдента с (п—1) степенью свободы. Это важнейшее свойство нормальной выборки. Построим, используя этот факт, доверительный интервал для. среднего а. С помощью таблиц распределения Стьюдента легко найти по заданному а число ta такое, что P{lU|<M=l-a. Подставим вместо tn_\ величину -------—— и решим относитель- S но а получившееся неравенство. Находим (11-5) Если бы мы пользовались нормальным распределением для х, счи- тая, что cr=s, то вместо нахождения ta по таблицам распределе- ния Стьюдента мы должны были бы найти его по таблицам нор- мального закона. Значения оказались бы при этом меньше. Сле- довательно, применение распределения Стьюдента дает более «осторожный» (т. е. более широкий) доверительный интервал. П9
Далее, ——имеет распределение у2 . . Найдем числа Xj(a) (j2 л 1 и х2(а) такие, что Р {*i (а) < XL1 < х2 (а)} = 1 — а (этим соотношением хь(а) и х2(а) определены неоднозначно; обычно их выбирают таким образом, чтобы P{%L1 <*(«» = у. P{%L1 >*з(а)} = у). Подставляя ln~^s3 вместо у2_, и решая относительно а8 получив- шееся неравенство, имеем Р f(n~1)s8 < а3 < (n~1) s--l = 1 — а. (11.6) I *2 (а) хх(а) J Мы получили, таким образом, доверительный интервал для диспер- сии о2. Так называемая «теория ошибок» сводится в сущности к соот- ношениям (11.5) и (11.6). 11.4. Проверка некоторых гипотез. Гипотеза а=а0- Пусть имеется выборка хь х2.......хп из нормального закона N (а, а) и мы желаем проверить гипотезу а = ао, где ао— некото- рое известное число. Гипотеза Но: а=а0 может иметь различные альтернативы. Наиболее часто встречаются две альтернативы: а) а>йо, т. е. если неверно, что а = а0, то а>а0 (переменой знака эта альтернатива переводится гв альтернативу а<ао); б) а=#«о, г. е. если неверно, что а = а0, то возможны оба слу- чая: а<а0 и а>а0. Первая альтернатива а) называется односторонней; вторая б) — двусторонней. Поскольку оценкой для а является х, то из общих соображе- ний следует, что при альтернативе а) гипотезу Но:а — ао, 'следует отклонять, если x—a0>ct (и не следует отклонять, если х<а0), а при альтернативе б) гипотезу Но следует отклонять, если |х—Оо|>С2, где числа ci и с2 должны быть выбраны каким-то ра- зумным способом. «Разумность» здесь означает, конечно, соблюде- ние-заданного уровня значимости а. Рассмотрим сначала вопрос о выборе Ci. Если гипотеза Но :а = а0 верна, то величина , _ (х — а0)/п *л—-1 = -------- s имеет распределение Стьюдента. Найдем с помощью таблиц число da такое, что Р {^л—1 dai} = 12Q
Тогда при верной гипотезе Но Р |х — а0 > —^-1 = а. I Vn ) Иными словами, с^— —Итак, выбор числа ci учитывает харак- V п теристику s для точности отдельного наблюдения и число наблю- дений п. В случае альтернативы б) надо, очевидно, вместо d & взять чис- ло da, определяемое из соотношения Р {| tn-i | > da} = а. Из определения распределения Стьюдента вытекает, что при лю- бом z Следовательно, da/2 = d’a- Величина da называется односторонней доверительной границей, величина d'a — двусторонней. Гипотеза щ = 02. Пусть имеются две независимые выборки х1( х2,..., хп и у1г у2,...,уп из распределений N(ai, Oi) и N(a2, 02). Рассмотрим проверку гипотезы 01=02. Удобно записать эту гипо- тезу в виде 01/02=1 и применить для ее проверки распределение Фишера. Рассмотрим отношение Числитель имеет распределение п-1 %п-1’ знаменатель — распре- °2 деление —?_%2 Если т—\ Лт-‘ —— имеет распределение sy Фишера имеются таблицы гипотеза 01 = 02 верна, то отношение Фишера Fn-i,m-b Для распределения односторонних и двусторонних довери- тельных границ, которые позволяют, точно так же, как в предыду- щем случае, определить критическую область. Гипотеза а\ = а2. Пусть, как и в предыдущем случае, имеются две выборки, и мы собираемся проверить гипотезу ai = a2 (при альтернативе, для определенности, а\^=а2). Ясно, что эту гипотезу следует отклонить, если |х—у\>с, разумным образом выбирая с. Если Oi#=O2, то рас- 121
сматриваемая задача называется проблемой Беренса*— Фишера, и для ее решения до сих пор не существует теоретически и практи- чески безупречного подхода. Это, впрочем, не должно особенно смущать заинтересованного в практическом применении естество- испытателя, который (при достаточном количестве наблюдений) вполне может считать, что дисперсия разности х—у примерно рав- s2 s2 на —Н—и применить распределение М(0, 1) для отношения п т — — I S2 S2 \ —Т" (х-1/ —+ — ’ \ п пг ] При умеренном числе наблюдений можно применить более точные способы (см., например, таблицы Я. Янко [29]). Мы же рассмотрим случай, когда известно, что 01 = 02=0 (обычно сначала проверяется гипотеза 101 = 02 и, если она не отвер- гается, то считают возможным применить излагаемый метод). Если это так, то при верной гипотезе а\ = а2 разность х—у имеет нормальное распределение NI 0, о! / — + — ). За оценку для о \ f tn п / можно взять следующую величину: _ (Д—1)Дх + (^— п-\-т — 2 Действительно, (п—1)5^ имеет распределение о2х2_р (tn—l)s2 имеет распределение <т2Х^г_1; в силу независимости двух выборок (/i-f-m — 2)s2 имеет распределение о2х2+т_2 и Ms2 = о2. Кроме того, х — у и s2 независимы (как функции от четырех независимых в сово- купности величин х, у, Sx, s2y).' Поэтому статистика (статистикой называется любая функция от результатов наблюдений) У *л-|-т—2 — г - ' H/-L + -L имеет распределение Стьюдента с (п-\-т—2) степенями свободы (при верной гипотезе а\ = а2). Как воспользоваться найденным рас- пределением для проверки гипотезы, объяснено на примере гипо- тезы а). Мы видим, что процедура проверки гипотез сводится к отыс- канию статистики, распределение которой не зависит от парамет- ров закона распределения наблюдений, так как для такого не за- висящего ни от чего распределения можно заранее составить таб- лицы. Сложность проблемы Беренса — Фишера состоит в том, что не удается освободиться от зависимости от двух параметров и 02 практически приемлемым способом. 122
Замечание. При практической проверке гипотез обычно не- достаточно знания одного уровня значимости. Требуется знать (хо- тя бы приблизительно) функцию мощности (см. § 5, стр. 43). Для всех рассмотренных примеров проверки гипотез существуют табли- цы и графики для вычислений их мощностей (см., например, таб- лицы Я. Янко [29]). Мы, однако, не будем рассматривать соответ- ствующих «нецентральных» распределений Стьюдента, Пирсона и Фишера, на которых основано вычисление функций мощности. Приближенное представление о функции мощности можно полу- чить, считая дисперсию а2 отдельного наблюдения точно совпадаю- щей с s2. При известной о2 для вычисления функции мощности до- статочно использовать уже рассмотренные распределения. Чита- тель, интересующийся точными выражениями для функций мощ- ности, может найти их, например, в книге Г. Шеффе [27]. § 12 ДАЛЬНЕЙШИЕ ПРИМЕНЕНИЯ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ Общая линейная модель, рассмотренная в предыдущем пара- графе, позволяет охватить с единой точки зрения классические приемы обработки наблюдений. Мы кратко рассмотрим их сейчас. 12.1. Уравнивание измерений. Пусть наши измерения Xi имеют вид xz = 4^бг, где 61,..., 6П — имеющие распределение N(0, а) независимые ошибки наблюдений, а относительно истинных значений измеряе- мых величин аь аг,..., ап известно, что они связаны системой уравнений Fk (ai> • • • > ak) = 0» & = 1, ... , /п, (12.1) где, разумеется, рассматривается лишь случай m<Zn (в противном случае мы могли бы найти величины аь ..., ап прямо из системы уравнений без всяких измерений). .Обычно считается, что в точке (ai,..., an) матрица Якоби |>| , k = 1, ... , /и; / = 1, ... ,п системы (12.1) имеет наивысший возможный ранг т. Ошибки из- мерений 6t=Xi—считают настолько малыми, что их квадратами можно пренебречь. Ставится вопрос о том, как, используя информацию о неиз- вестных величинах ai,..., ап, уточнить их полученные из измерений значения Xi,..., хп, т. е. найти такие поправки Axt.Дхп, чтобы ТЭК называемые «уравненные» измерения Х( = х( + Дхр
во-первых, удовлетворяли уравнениям Fk(x'i....0 = 0, k = 1, ... ,т, а во-вторых, были бы в каком-то разумном смысле ближе к истин- ным значениям «1,..., ап, чем «неуравненные», т. е. полученные прямо из наблюдений величины %ь ..., хп. Высокоточные измерения проводятся обычно в несколько эта- пов, так что хорошее приближение af, ... , а® к величинам аь ап можно считать уже известным. Поэтому с практической точки зрения система (12.1) эквивалентна системе Л(Я1> ••• » «0 ~ (а1.......О + ’+ У dFk^’ -'- ,-а")- = 0, (12.2) оа/ i=\ которая получается линеаризацией системы (12.1). Однако система (12.2) относительно неизвестных di является линейной. Следова- тельно, вектор (оь..., ап} должен лежать в некотором линейном подмногообразии М, т. е. мы имеем частный случай общей линей- ной модели. Если точка (а°, ... , а°) лежит на поверхности Fjao......а°) = 0, k = l.....т, (12.3) то линейное подмногообразие М, выделяемое уравнениями (12.2), является касательным к этой поверхности. В качестве приближен- ного значения для вектора a=(ai,..., ап) мы должны, согласно общей теории метода наименьших квадратов, взять вектор х’ = (Хр х'....х’п) = proj/nX = projM(xlt ... ,хп), где х=(х1,...,хп). Если замена поверхности (12.1) ее касательной плоскостью (12.2) практически не оказывает влияния, то вектор projw-x можно принять за вектор уравненных измерений. Квадрат расстояния £ (х; — atY = J projM х — а ||2 = || projai (а + 6) — а ||а М рго)м 6||2 /=1 имеет распределение о^Х^тм (приближенное равенство стоит по- тому, что лишь приближенно верно, что аеЛГ). В то же время квадрат расстояния £(х/-а,)=||б||2 i__1 • 124
имеет ipаспределение п2х«. При малой размерности dimAf=n—т разница между х^тм и может быть очень чувствительной. Если (nJ, ... , а°) не лежит на поверхности Fk(cPv ... ,.a<J) =0, k= 1, ... ,/п, (12.3) то нетрудно проверить, что проекция на многообразие Af, задавае- мое уравнениями (12.2), лишь на величину порядка (at— а°)2 отли- чается от проекции на касательную плоскость в точке (ди,..., ап). Поэтому, полагая, что квадратами неточностей можно пренебречь, получаем, что и в этом случае при применении метода наименьших квадратов практически получится тот же результат. По-видимому, то же самое получится, если не считать, что точка (a°, ... ,а°) известна заранее, а допустить, что она получается из тех же самых наблюдений ли,..., хп, например, следующим образом: полагаем до = Xi, ... , сРп_т = Хп—т и затем т оставшихся значений • • • >ап находим из уравнений (12.3). Мы ограничиваемся здесь этими краткими замечаниями об уравнивании измерений. В областях науки с давно культивируемой статистической обработкой (например, в геодезии) уравнивание измерений превратилось в особую науку, изложение которой выхо- дит за рамки данной книги. Изложение математической теории уравнивания измерений можно найти в книге Ю. В. Линника [15]. Здесь мы ограничимся лишь приведением простейшего примера. Пример 12.1. Два груза а\ и а2 сначала взвесили порознь, причем получились результаты Х\ и х2, а затем положили на чашку весов вместе и получили результат взвешивания х3. Дать оценки для весов а\ и а2. Решение. Примем модель xt=at+§i, где i=l, 2, 3. Очевид- но, что вектор а= (ли, а2, аз) лежит в подпространстве L= {а= (а^, а2, аз) •: а3=я1+а2}- Ортогональный вектор к этому подпространству есть е = <—J—, -----поэтому (уЗ у 3 уз/ ргокх = х-(х,е)е = х-5:‘ + ?^(7. 7, -~) = f„ Х1 + х2— х3 Xi + Xi — Xa Xi+хз— х3) - jx,-----------, х2 - , х3 + - j.. Следовательно, л 2хх -|- (х3 — х2) 2х2 -|- (х3 — Xi) *1х2 4~ 2х3 01 ~------------1 а2~------------, а3-------з-----. Заметим, что в предшествовавшие общие рассмотрения аь аг,, ап входили на равных правах, в то время как сейчас нам интересны веса at и а3 и совершенно не интересна сумма весов 125
a3=ai+a2. Красивая оценка выигрыша в точности, связанная с заменой а2х2 на <г2х|1тЛ1 = в рассматриваемом случае ли- шена смысла. Используя модель Xi=ai+St-, имеем = 2xt + (x3-x2)_ = + (2Si + fi#_ g2)( 3 3 - = 2хг + (х3-хх)_ = Й2 + _L (_ Si + 2бг + бз) 3 3 2 Дисперсии оценок di и d2 равны — ст2, где ct2=D6{. При отсут- <5 ствии третьего взвешивания Хз дисперсия оценок Xi и %2 для а\ и аг равнялась бы, очевидно, о2. Наличие третьего взвешивания х3 поз- воляет дать некую оценку для о2, исходя из того, что з2 = II(X, е) е||2 = (х, е)2 = имеет распределение ст2х2. С помощью таблиц распределения xf нахо- дим р(о,О158<^-^< 2,70б1 = 0,8. 1а2/ Следовательно, Р {0,37 (х, е)2 < ст2 < 63,3 (х, е)2} = 0,8. Очевидно, при малом числе степеней свободы (в данном случае при одной степени свободы) оценка для о2 получается чрезвычайно грубой. 12.2. Определение параметров из эксперимента. Близкой к только что рассмотренной задаче является задача определения параметров. Пусть условия эксперимента характеризуются пере- менной величиной t в том смысле, что результат наблюдения х(/) имеет вид х(/) = /(/, сх, с2, ... ,сА) + 6(0, где вид функции f (t, Ci,..., Ck) нам известен, а неизвестны лишь значения параметров Ci,..., сь. Например, зависимость длины l(t) стержня от температуры t имеет вид / (0 = Со + Cjt, где параметры Со и ct обычно приходится определять из опыта. Для определения параметров сь..., с& мы по своему произволу даем переменной t значения Л, tn. При этом 6,..., tn не обязаны все быть различными, однако требуется, чтобы различных значений среди t\,..., tn было (гораздо) больше, чем требуется для однозначного решения системы = •••><>)• f = 1. л 126
Относительно Ci,..., ck. Подчеркнем, что значения tn счита- ются неслучайными и известными точно. Принимается модель, согласно которой результаты наблюде- ний имеют вид = ...........+ с обычными предположениями об ошибках 6,- (независимость и нормальность Л/(0, о)). Предположим, что известно некоторое приближение с?, •••»£* для параметров Cj,..., ск. Пренебрегая членами по- рядка выше первого, имеем .....^ = /((„£».......ф + /=1 Полагая yi = xL — f (tlt c°, ... , c£), имеем /=1 Поскольку М6г=0, то вектор лежит в гиперплос- кости, натянутой на k векторов: |a/(Z1(C?, df(f2,colt ... ,c°k) df(tn,c°,... ,cg) | I dcj de? ' ’ dcj J / = 1,2, Таким образом, мы вновь имеем линейную модель. Ничто не мешает считать функцию /(/, ch..., Ck) векторной и интерпретировать ее как положение планеты в момент времени /, считая параметры сь..., Ck параметрами траектории. Мы, естественно, не можем вдаваться здесь в подробности, которые, как и в случае уравнивания измерений, вновь составляют целую науку. 12.3. Сглаживание измерений. Задача определения параметров физического закона, кратко описанная в предыдущем пункте, тре- бует знания этого закона с точностью до параметров. Часто, одна- ко, приходится иметь дело с таким случаем, когда несовершенство наших знаний столь глубоко, что об истинном характере наблю- даемой закономерности мы не имеем представления. Тем не менее истинные закономерности обычно имеют крегулярный» характер, в то время как случайные ошибки, их искажающие,—«нерегуляр- ный». В настоящее время нет возможности на научном уровне строгости сказать, что такое «регулярный» или «нерегулярный» 127
характер. В зависимости от формализации этих понятий ,мы будем приходить к тому или иному способу статистической обработки. Самая «регулярная» из функций — несомненно, константа. Если мы предположим, что во всех наблюдениях измеряется одно и то же, а разброс данных объясняется чистой случайностью, то в качестве модели мы получим выборку, и статистическая обработка сведется к определению закона распределения. Конечно, при этом делается трудно проверямое предположение о статистической одно- родности и независимости отдельных наблюдений. Бывает, однако, и так, что статистическая однородность на- блюдений явно отсутствует, как в рассмотренном в предыдущем пункте примере, когда на результат эксперимента влияла пере- менная t, выбираемая нами по нашему усмотрению. В этом случае в модель включается предположение о статистической однородно- сти не самих наблюдений, а лишь ошибок наблюдений бт Если же закон явления f(t, й,...» Ck) неизвестен, расплывча- тое предположение о «регулярности» обычно интерпретируют как предположение о том, что неизвестная функция f(t, Ci,.... сд) является попросту многочленом. На чем основано и к чему приво- дит данное предположение? Известна математическая теорема, согласно которой любая непрерывная функция на любом отрезке с любой степенью точно- сти может быть аппроксимирована многочленом достаточно высо- кой степени. На первый взгляд, троекратное повторение слова «любой» способно убедить каждого в том, что ничего лучшего и не требуется. Однако возможность этого троекратного повторения до- стигается в сущности путем замены в словосочетании «достаточно высокой степени» слова «достаточно» на слово «чрезвычайно». А между тем график многочлена чрезвычайно высокой степе- ни, пожалуй, никто не назовет «регулярной» функцией. Далее, достигнув хорошего приближения многочленом, скажем синусоиды, на одном отрезке, мы увидим с огорчением, что согласие резко ухудшится, если рассматривать эти же функции на более широком отрезке. Следовательно, экстраполяция экспериментальной зависи- мости, полученной сглаживанием с помощью многочлена, риско- ванна. Наконец, коэффициенты многочлена высокой степени плохо определяются по данным, содержащим погрешности, так что ожи- даемого освобождения от случайных ошибок при резком повыше- нии степени многочлена может и не получиться. Все, что было сказано об отрицательных свойствах сглажи- вания многочленами, разумеется, относится и к другим классам сглаживающих функций. Итак, для успешного сглаживания многочленом нужно, чтобы настоящая зависимость не слишком отличалась от многочле- на, чтобы сглаживание производилось на не слишком большом отрезке и многочленом не слишком высокой степени. Сглаживание обычно имеет две цели: 1) поточнее определить экспериментальные данные за счет освобождения от случайных 128
ошибок, допущенных в каждом отдельном опыте; 2) редуцировать большое количество экспериментальных данных к немногим коэф- фициентам многочлена. Надо сказать, что эти задачи часто могут быть с тем же успехом (или неуспехом) решены без использования методов математической статистики, просто путем проведения на глаз гладкой кривой; Однако при этом вряд ли можно судить о точности проведения этой кривой, т. е. о соответствующих довери- тельных интервалах для истинных значений наблюдаемой функции в разных точках. Математическую статистику ее сторонники харак- теризуют словами: «здравый смысл плюс точность». Точнее было бы сказать: «плюс оценка возможной точности». Перейдем к математической стороне дела. Положим р«(0 = со + Cit + • • • + cntm, где Со, Ci,..., ст — неизвестные нам коэффициенты многочлена (степень т многочлена пока считается известной). Примем следую- щую модель для результатов наблюдений: Xi =Pm(Q + 6p i = l......n, где бг — независимые случайные величины с распределением yV(O, о). Требуется по результатам наблюдений x—(xi,..., хп) определить коэффициенты Со, сь ..., ст и о. Для решения задачи введем векторы Т° = (1, ... , 1), Л = (/1.Q...... .....£), б = (бд....б„). В таком случае имеем х = £ с{Т1 + б. /=0 Обозначая через L линейную оболочку L = L(T°, Т1,... ,Т,п) векторов Т°, Т1...Тт, мы видим, что вновь имеем дело с общей линейной моделью. Заметим, что мы не требуем, чтобы все tt, tn были раз- личны: нам нужно лишь, чтобы векторы Т°, Т1,..., Тт были линей- но независимы (в частности, тп-(-1<;п). Ясно, что если степень многочлена т^п—1, где п — число наблюдений, то многочлен можно провести точно через все наблю- денные точки. При этом никакого отделения «регулярной» компо- ненты от «нерегулярных» ошибок не получится. 129
т По общему правилу, оценкой для вектора ctTl будет про- z=o екция projiX Следовательно, оценками для ci будут числа yz такие, что т 2 ytTl = projLx, 1=0 иными словами т т ||Х-У = min | X-у erf == Я) с°.........с«" feo 11 п = min У (х,. — с0 — c1tl — ... — cmtT)\ Следовательно, yi являются решением следующей системы так на- зываемых «нормальных» уравнений: п —-У (•«( —Yo —• •• —YmO2 = 0. Л = 0, ... ,m dyk i=l ИЛИ п £ (*< —Yo —Yi*z— ••• —Ym^)/* = 0, k = 0, ... ,m. 4=1 Заметим, что величина n Д2 =- II x — prok XII2 = £ (xz — Yo — Yki — • • • — Ym^)2, 1 = 1 называется «кажущейся ошибкой», имеет (распределение о\2п_т_{ (правильно, но слишком длинно называть А2 «суммой квадратов кажущихся ошибок»: поскольку значения у0, Уь • • •, Ут не есть истинные значения с0, , ст, то и разность xi — у0 — ... — ymtt не есть истинная ошибка наблюдения 6;, а есть «кажущаяся ошибка»). Для построения доверительных интервалов для неизвестных коэффициентов многочлена предпочтительнее записать его не в ви- де co+cit+.. . + т. е. в виде линейной комбинации многочле- нов 1,/,..., tm, а сделать переход к другому базису. Положим W° = Т°, ц/i = 71__ С?4» ^°) (W°t WQ) __wo_ _ wm_! (U7°, IF0) (Wm~*, Wm~') 130
Для случая равноотстоящих то4ек /ь /2,..., 1п, т. е. когда Л—/2=^2—/з=...=^п-1—tn, такая ортогонализация может быть сделана раз навсегда для каждого значения п. Соответствующие полиномы называются ортогональными полиномами Чебышева (см., например, [4]). Но вообще ортогонализация удлиняет вычис- ления, а также имеет то неприятное свойство, что при добавлении наблюдений должна переделываться заново. В новом базисе, очевидно, т т /=о Z—О . где bi связаны с Ci линейным преобразованием. Оценками для ве- личин bi будут величины Р/ такие, что т У = projL X. 1=0 В силу ортогональности IF0,Wm имеем р UJtL z„0, .. ,т. v (№', U'j Так как х=а+6, то о = (а+ 6,^) = (а, W1) , (6, W1) =ь , (6, W1) Заметим, что 0г связана с проекцией х=а+б на L, а кажущаяся ошибка А2 — с проекцией х на ортогональное дополнение к L. Сле- довательно, 0; и А2 — независимые случайные величины. Нетрудно подсчитать, что D(0Z — bt) = — v ' (Wl, W!) ’ где o2=D6i — дисперсия ошибки отдельного наблюдения. Следо- вательно, отношение (0Z-Wl/(W", W") ---т—1 1/ _____1_____Д2 У п — tn — 1 имеет распределение Стьюдента с (п—т—1) степенями свободы. Это обстоятельство позволяет легко написать доверительный интер- вал для bi. Поскольку оценки 0г, Z=0,..., т, независимы в сово- купности, отношение 131
т т ЛШЛ — p , -___________________—^m,n-tn-1 -------- Д2 n — m— J имеет распределение Фишера с указанным числом степеней свобо- ды. Поэтому по заданному а легко указать такое Fa, что т F ₽{7Г2Л’} “ 1 - 1=0 Таким образом, доверительная область для вектора Ьт) является эллипсоидом. Теперь рассмотрим вопрос о выборе степени т сглаживающего многочлена. Здесь нет строгих правил. Интуитивно ясно, что чем меньше т, при котором отклонения наблюдений от многочлена можно считать чисто случайными, тем лучше. Надо начать с не- большой степени (т=1, 2, вряд ли более 3) и увеличивать /плишь при наличии достаточных экспериментальных оснований. Приведем статистический критерий для решения этого вопроса. Пусть мы начали приближение многочленом Рт,(0 степени /Пь а затем решили попробовать многочлен Рт>(/) степени Если наблюдаемый эффект действительно задается гладкой функ- цией, то даже при не слишком большом увеличении степени мно- гочлена точность приближения обычно резко растет. Поэтому име- ются известные основания считать, что многочленом Рт, (О истинная зависимость может быть описана точно. Иначе это можно выразить следующим образом. Положим Lx = L(Т°, Т1...Tm), L2 = L(Т°, Т1,..., Тт>), т2> >/тгх. Если х = (хх.хп) — наши наблюдения, а = (Мхх.Мхя) заведомо входит в L2. Возможно, однако, что на самом деле a^Li, т. е.'достаточно ограничиться многочленом степени т\. Проверим эту гипотезу. Конечно, полагая А? = || х — projbl х f, А2 = || х — projL> х IIs, мы всегда будем иметь А2 < А2, поскольку L2^>Li. Но, спраши- вается, достаточно ли сильно уменьшение кажущейся ошибки при переходе от mi к т2, чтобы поверить в необходимость такого пере- хода, т. е. в то, что a&Lj? Для ответа на этот вопрос нужно со- ставить некоторую статистику с заранее известным распределе- нием. Заметим, что, обозначая через L2\Li ортогональное допол- нение в L2 к подпространству L\, получаем A2—Af = ||projL,\L1x||a, dim L, \ Lx = т2 — тг. 132
Если верна гипотеза то proiL14L1 X = projt.xL, (а + б) = projL.xt. б. Поэтому Д1 — Д| имеет распределение <г\тг_т1. В то же время, пос- кольку a£L2, Д| имеет распределение <т2Хл-т„-1. Следовательно, при верной гипотезе Lt отношение 1 (Д? —Д|) ГП2— т1 Fma—mt ,п—т,—1 ----!—г4? п — тг — 1 2 имеет распределение Фишера с указанным числом степеней свобо- ды. Поэтому гипотеза aeZ-i может быть проверена стандартным путем, и при необходимости отклонить ее следует увеличить сте- пень многочлена, правда, возможно не с mi до т2, а, например, с mi до m-14-1. На этот счет нет точных рекомендаций, равно как и рекомендаций о значениях и т2. Разумеется, желательно, чтобы данные примерно одинакового происхождения сглаживались мно- гочленами одинаковой степени. Только проверка результатов нт нескольких массивах данных может дать уверенность в устойчиво- сти результата. 12.4. Линейная регрессия . Многочлен уо+Т1^+-. сгла- живающий экспериментальные данные, проведенный методом наи- меньших квадратов, называется линией параболической регрессии порядка т. Если т=\, то црямая линия yo+yi^ называется ли- нией регрессии (подразумевается первого порядка). Если перемен- ная t, характеризующая условия опыта, меняется в нешироких пре- делах, то любую зависимость можно приближенно считать линей- ной. Поэтому проведение линии регрессии (обычно—на глаз, ино- гда — с помощью вычислений) является одним из любимых прие- мов первичного осмысливания результатов эксперимента. С другой стороны, этот прием находит некоторое применение при оценке со- гласия между теорией и экспериментом. Мы рассмотрим вскоре пример такого рода, но сначала выпишем явно соответствующие формулы. Имеем следующую модель результатов эксперимента: xi = сй + c1ti 4- 8(, i = 1, ... ,п, где б{ — ошибки наблюдений. Вводя векторы х=(х1; ... ,х„), 7» = (1, ... , 1), Т1 = (^..-Л), « = («!......б„), запишем эту модель в виде х = с0Т° + + 8. 133
В соответствии с процедурой, изложенной в предыдущем пункте, ортогонализируем систему векторов Т° и Т1: дач» — W/i _ Ti (^. ^°) (IF0, IF0) п ’’’’-(тЭД уо __ yi__у где через Т обозначен вектор, все 'компоненты которого равны п £ = —iB обозначениях IF0, IF1 имеем i=l х = c0W° 4- q (IF1 + tW°) = b0W° + hW1 + 6, где bo=co+cti, bi=Ci. Если иметь в виду эти соотношения, то, конечно, безразлично, рассуждать ли в терминах со и Ci или в тер- п минах Ьо и Ь\. Сохраним обозначение х ——^xz (хотя хь z=i Х2...хп теперь не образуют выборки, мы используем старое обо- значение для их среднего арифметического). Имеем следующие оценки ро и Pi для Ьо и В _ (^^°) -у Ро (IF0, IF0) о = (х, IF1) = (х —x!F°, IF1) _ ffi________ P1 (IF1, IF1) “ (IF1, IF1) ~ « Stt-02 i=i Мы имеем точное равенство х = P0IF° + рг1Р + (х - poIF« - рх1Г). Если Ро близко к Ьо, Pi близко к &i, то член х—p0IF0—PiIF1 близок к б. Допуская, что ошибки малы, имеем хМо^ + Р^1. или, подставляя Ро=х, получаем рп/;—7). Так обычно записывается линия регрессии. Из предыдущего пункта известно, что кажущаяся ошибка п _ _ А2= ^(х.-х-РЛ/,-/))2 fass 1 134
имеет распределение а2х2п-2- Кроме того, оценки р0'« pi не зависят от Д2 и друг от друга, причем разности р0—Ьо и Pi—b\ имеют нор- мальные распределения \ ’ /(№», №«)/’ Ч ’ /(W'1, W'1)/ Следовательно, отношения (Ро-М/(^°. W'») у—« Д ’ Д у имеют каждое распределение Стьюдента /п_2. Поэтому распреде- ление Стьюдента может быть применено при проверке любой из гипотез bQ=b0 или &i = &i, где bQ и Ь\ — заданные числа. Для. одновременной проверки этих двух гипотез естественно применить статистику У К₽о - &о)2 №. l»70) + (₽1 - btf (IP, IF1)] * 61 которая (при верной гипотезе bQ = &0, Ьх = Ьх) имеет распределение Фишера F2, п-2 • После этих замечаний рассмотрим задачу экспериментальной проверки теории. 12.5. Проверка согласия между теорией и наблюдениями. Пусть теоретически предсказаны значения t2i..., tn для изме- ряемой величины, а фактические наблюдения дали значения Xi, %2,...» хп. Спрашивается, можно ли считать, что, с точностью до ошибок измерений, наблюдения подтверждают теорию? Иначе го- воря, можно ли расхождения Х\—tb х2—t2,..., хп—tn отнести це- ликом за счет ошибок наблюдений? Если бы математическая статистика давала объективный при- ем для решения этого вопроса, пригодный во всех случаях, то она, очевидно, была бы наукой наук. Но легко видеть, что это не так. Действительно, если положить хг-—^=6г-, где 6; — независимые случайные величины с распределением М(0, о), то в принципе для 61, 62,, 6П возможны любые значения. Статистические приемы основаны на том, что некоторые области этих значений (критиче- ские области) объявляются маловероятными. Однако вероятность любого конкретного набора значений 6i = f/i,..., 6n=f/n равна ну- лю, так что любой набор значений можно было бы объявить не- возможным. Но только что любой набор значений был объявлен возможным. Выход из формального противоречия состоит в том, что кри- тические области выбираются не произвольно, а исходя из пред- ставления о возможных альтернативах для гипотезы, состоящей в том, что Xi—, хп—tn являются ошибками измерений. Иначе 135
говоря, предлагаются и проверяются различные вероятностные мо- дели для результатов наблюдений. Поскольку получаемые выводы целиком зависят от исследуе- мых моделей, не может быть и речи о полной объективности ста- тистических методов. Они занимают некоторое среднее место меж- ду (недостижимой) полной объективностью и чисто субъективной оценкой на глаз. Заметим, что при правильном применении стати- стических методов и добросовестности субъективной оценки обычно не возникает противоречия между этими двумя подходами. Отчасти роль статистических методов состоит в том, чтобы помочь приобре- сти необходимые навыки для субъективной оценки. Итак, мы должны указать в рамках статистической модели для результатов наблюдений проверяемую гипотезу и класс воз- можных альтернатив. Излагаемый здесь подход, основанный на понятии линии регрессии, не является единственно возможным. Например, указываемые методы проверки не всегда выявляют на- личие зависимости (скажем, периодических колебаний) между раз- ностями Xj—t\, х2—t2, ..., хп—1п. Однако мы должны на чем-то остановиться для определенности. Мы будем рассматривать основную (нулевую) гипотезу вида xl—tl + 8l, i — 1, ... , п, 61,..., 6„ — независимые случайные величины, имеющие рас- пределение М(0, о). Возможными альтернативами мы будем счи- тать альтернативы двух видов: 1) х( = с0 + c1tl + 6г, где с0=£ 0 и (или) сг Ф 1. 2) х( = Pm(t,) 4- 6г, где Рт (/) — многочлены от t степени /п>1. Посмотрим, как практически могут быть интерпретированы эти альтернативы. Среди альтернатив вида 1) есть одна весьма специальная, именно гипотеза Ci=0. Эта гипотеза означает, что х< вообще не зависят от т. е. предсказываемый теорией эффект вовсе не на- блюдается. Говорить о серьезной проверке теории можно, очевидно, только в том случае, когда есть достаточные основания для того, чтобы отвергнуть гипотезу Ci=0. Гипотеза вида 1) при соУ=О, Ci = 1 говорит, очевидно, о том, что у наблюдений Х{ есть систематическая ошибка со. Гипотеза вида 1) при Ci^l говорит, что предсказываемый тео- рией эффект существует, но (при значимом отличии Ci от 1) коли- чественное согласие отсутствует. При малом диапазоне изменения Л,..., tn практически любая зависимость от ..., tn является ли- нейной, так что при Ct, значимо отличном от 1, получается, очевид- но, лишь довольно слабое подтверждение (если не опровержение) теории. 136
Альтернатива вида 2) говорит о том, что эффект имеет нели- нейный характер, в .отличие от предсказываемого теорией эффекта, равного просто Если альтернативу 2) приходится принять в ущерб линейной альтернативе 1), то это создает сильное подозре- ние в том, что на самом деле наблюдаемый эффект зависит не только от предсказанного эффекта но еще и от каких-то других обстоятельств, возможно, не контролированных в эксперименте. Может, конечно, быть и нелинейная зависимость только от Изложенные только что способы истолкования альтернативных гипотез 1) и 2) не следует, конечно, принимать догматически; это скорее лишь примеры возможных выводов, которые можно извлечь из статистического исследования. В зависимости от конкретных условий делаемые выводы могут стать совершенно иными (чита- тель, разумеется, заметил, что тот факт, что Г1=т^=1, может быть истолкован иногда как подтверждение, а иногда-как опровержение теории — в зависимости от того, чего мы хотим: только лишь за- метить эффект или точно выразить его количественно). Способы проверки гипотезы = при альтернативе 1) из- ложены в предыдущем пункте. Надо альтернативу 1) записать не- сколько иначе: xt-b0 -t) где ' п t— = ^1* /=1 Тогда проверяемая гипотеза Со = О, Ci = l переписывается в виде b^-t, &i = l. Для проверки надо воспользоваться оценками ро и Pi и их свойствами, указанными в предыдущем пункте. Способ проверки линейной гипотезы 1) при нелинейной аль- тернативе 2) указан в пункте 12.3. Надо иметь в виду, что при проверке соответствия между теорией и экспериментом возможны весьма разнообразные сочетания основных и альтернативных ги- потез, например, основная гипотеза: хг-=/г- + 8{, альтернативная: xi = + cfi + 8f, где с=#0. Эта альтернатива (и многие другие) может быть рассмотрена в рамках общей линейной модели. Бы- вают ситуации, не укладывающиеся в эти рамки. Но, по-видимо- му, теоретическое рассмотрение всех возможных альтернатив ока- залось бы практически бесполезным. Рассмотрим пример проверки соответствия между теорией и экспериментом. Речь идет о проверке общей теории относительно- сти по отклонению луча света в поле тяготения. Данные для ста- тистической обработки взяты из сборника статей Альберта Эйн- штейна (28]. Схема опыта, проведенного под руководством Эддинг- тона, состоит в следующем (рис. 12.1). Пусть звезда лежит при- мерно в плоскости земной орбиты. Тогда в тот момент, когда Земля 137
находится в положении I, звезда видна в некотором направлении I. Через полгода луч света от звезды, идущий к Земле, находящейся в положении II, должен испытать отклонение в поле тяготения Солнца, так что звезда будет видна в направлении II. Иначе гово- ря, звезда испытает как бы перемещение, которое можно вычис- лить теоретически. Конечно, наблюдать звезду из положения II можно лишь в момент полного солнечного затмения. Для наблюдения было выбрано 7 звезд. Их видимые переме- щения (векторы на небесной сфере, которые из-за малости'можно считать векторами на плоскости) разлагались по двум осям коор- динат. Получились следующие результаты (в угловых секундах): Первая координата ti (вычисленная) — 0,22 + 0,31 + 0,10 + 0,12 + 0,04 +0,09 + 0,85 Х[ (наблюденная) — 0,19 + 0,29 + 0,11 + 0,20 + 0,10 — 0,08 + 0,95 Вторая координата tl (вычисленная) + 0,02 — 0,43 + 0,74 + 0,87-|- 0,40 + 0,32 — 0,09 Xi (наблюденная) + 0,16 — 0,46 + 0,83 + 1,00 + 0,57 + 0,35 — 0,27 Заметим, что часть результатов измерений была забракована Эддингтоном из-за технической погрешности и в книге Альберта Эйнштейна [28] не приводится. Мы рассмотрим обработку данных по первой координате, реко- мендуя читателю сделать то же самое для второй. Первое, что следует сделать — это нарисовать в прямоуголь- ной системе координат точки (/i, Xj) (см. рис. 12.2). Глядя на этот график, всякий, кто имеет некоторый опыт глазомерной оценки, скажет, что согласие с теорией превосходное. Посмотрим, что же дают статистические расчеты. 138
Основные вычисления сводятся к вычислению следующих ве- личин: 1) f = —jb/г = 0,184, /=1 Х=—^Х(. = 0,197; 1=1 2) || х — х||2 = У (х£ — х)2 = 0,819, t=l IIP —Т ||а у (/. — F)2 = 0,664; i=\ 3) (х — х, Tl — Т) = J] (х£ — х) — о = 0,718, 1=1 где число наблюдений п=7. Через эти величины легко выражаются все другие, нужные нам. Например, если обозначить через L линейную оболочку Т° и Г1, то «кажущаяся ошибка» А2 есть Д2 = ||х — projLx[|2 = ||х — X — — projj-i—f (х — х) II2 = IIX — XII2 — (x-Х, п-ту = 0 819_о 776 = 0 043 IIТ1 — ТII2 Оценка для а2 (дисперсии отдельного наблюдения) есть А2, оцен- ка для а есть «=1/ —Д2 = 1/ —-0,043 = 0,090. V П—2 V 5 Таким образом, ошибка отдельного наблюдения имеет поря- док 0,1 угловой секунды. Поэтому сотые доли угловой секунды за- ведомо ненадежны. Тем не менее, наблюдения приводятся с двумя значащими цифрами, что только и делает возможной их статисти- ческую обработку, основанную на нормальном распределении. Во- обще все в этих опытах, включая отмеченную сейчас сравнительно мелкую подробность, свидетельствует о накопленной веками разви- тия науки культуре точных измерений. 139
Оценки ро и Pi имеют значения [Ро = х = 0,197, Приступим теперь к проверке гипотез. Начнем с обидной для Эддингтона и Эйнштейна гипотезы 61=0 (т. е. гипотезы об отсутствии связи между теорией и наблю- дениями). Статистика «Ч-МВ71-Г1. v—2 _ д имеет распределение Стьюдента с п—2=5 степенями свободы. При 61=0 получаем = 9,75. Вероятность Р{|t$ 1^9,75} обычно не приводится в таблицах распределения Стьюдента. Однако с помощью таблиц Большева и Смирнова [4] можно установить, что эта вероятность равна при- мерно 2-Ю-4. Таким образом, обидная гипотеза 61=0, несомненно, должна быть отвергнута. Теперь проверим согласие с гипотезой Xi=/i + 6i, т. е. гипотезы ba=t и 61 = 1. _ Для проверки гипотезы b^—t значение статистики равно (P.-i)/(r»7Tgj v—2 _ 0 38 A J (заметим, что (IT0, U7°)=n=7). Для проверки гипотезы 6i= 1 значение статистики равно Din-Til V^2 = 0J3. д Оба эти значения заведомо незначимы для распределения Стью- дента с пятью степенями свободы (но и не настолько малы, чтобы можно было заподозрить подгонку наблюдений). Для совместной гипотезы 6о = /, 61 = 1 имеем следующую ста- тистику: 4- 1(₽о — О О*70. И70) + (₽1 -1) II г1 - Г IP] —----------------------------------= 0,35, что также совершенно не значимо для распределения Фишера р2,о. Найдем, еще доверительный интервал для о. С помощью таб- лиц распределения х| находим 140
Р 0,831 < -^- < 12,81 = 0,95 или Р {0,23 ><г > 0,056} = 0,95. Таким образом, мы вновь видим, что при малом числе наблюдений (л=7) дисперсия отдельного наблюдения оценивается весьма гру- бо. Заметим, что . мы здесь применили чисто формально прием оценки дисперсии с помощью кажущейся ошибки после проведе- ния линии регрессии. Дело в том, что, приняв модель Xt = tt + бр »= 1, ...» л, мы имеем б( = xt— tt, т. е. разности Xi — ti, х2 —/2, .... xn — tn образуют выборку из распределения N(0, а). Поэтому величина п 2^-^ = 0,050 1=1 имеет распределение а2%2. С помощью таблиц распределения %2 полу- чаем Р {0,17 > о >0,055}-0,95, что несколько (но немногим) лучше. Заметим, что все вычисления мы вели с расчетом на получение двух значащих цифр в окончательных результатах (т. е. в тех чис- лах, с помощью которых мы входили в таблицы для определения значимости или незначимое™ тех или иных статистик). Необяза- тельно, чтобы обе значащие цифры были верными. Поэтому проме- жуточные вычисления в статистике обычно можно вести также с двумя значащими цифрами. Впрочем, если применять современные средства механизации вычислений, вопрос о числе значащих цифр почти полностью теряет интерес.
ЧАСТЬ II Научные и методические замечания Введение В первой части этой книги изложен элементарный курс теории вероятностей так, как его себе представляет автор. Цель второй части методических замечаний — объяснить, почему в соответ- ствующем месте первой части выбран именно тот способ изложе- ния, который там есть, чем этот способ отличается от других воз- можных или принятых в литературе, а также каких ошибок, по мнению автора, следует избегать. Традиция в преподавании, даже если речь идет о преподавании математики, закрепляет иногда весьма странные вещи. Рассмотрим, например, изложение вопроса об условном экстремуме в курсе математического анализа. Речь идет о следующей хорошо известной задаче: найти точки экстре- мума функции F(x) на поверхности, выделяемой системой урав- нений Gi(x)=0,.... Gfe(x)=0, где x=i(xb..., хп). Для безуслов- ного экстремума (когда экстремум ищется во всем пространстве) необходимым является условие gradF(x) =0. В случае одного усло- вия: поверхности G(x)—0 в точке экстремума gradf(x) должен быть ортогонален к поверхности, так как в противном случае в касательной плоскости существует направление, вдоль которого производная от функции F отлична от нуля (тогда и производная вдоль кривой на поверхности, касающейся этого направления, отлична от нуля). Поскольку gradG(x) есть нормаль к поверхно- сти, в точке экстремума хо имеем при некотором X grad F (х0) = X grad G (х0) > иначе говоря, при некотором Л grad (F — X G) (х0) = 0. В случае нескольких условий Gi(x)=0....... Сд(х)=0 градиент должен лежать в нормальной плоскости к поверхности, т. е. в плос- 142
кости, натянутой на векторы gradGj(х0),..., gradGfe(x0). Имеем, следовательно, при некоторых ..., Х& grad(F — XiGjl— ... — KkGk) = О, в чем и заключается метод неопределенных множителей Лагранжа. Любопытно, однако, посмотреть, что написано об этом в кур- сах математического анализа. По существу, разумеется, делается то же самое, но без использования понятий касательной плоскости, нормали и градиента, которые, впрочем, все равно имеются во всех этих курсах. Так, у Г. М. Фихтенгольца1 изложение занимает четыре страницы и в заключении объявляется, что метод Лагран- жа «следует рассматривать лишь как указание, облегчающее за- поминание». Беда в том, что у Г. М. Фихтенгольца условный экстремум в первом томе, а градиент — в третьем. Но в крайнем случае, если нельзя перенести в первый том градиент, то можно было бы подождать с условным экстремумом до третьего тома. В курсе А. Я. Хинчина 2 условный экстремум излагается нй шести страницах. Вряд ли эти замечания повлияют на изложение вопроса об условном экстремуме в курсах математического анализа. Трудно поколебать сложившуюся традицию. Но что касается теории веро- ятностей, то здесь традиции преподавания только лишь складыва- ются. Возможно, что предлагаемые здесь методические замечания в какой то мере повлияют на эти традиции (автор, разумеется, не уверен, что и эта книга не содержит какого-нибудь абсурда). Вторая цель этих замечаний — обсудить возможности прило- жения теории вероятностей. Здесь есть две опасности. Во-первых, применениями теории вероятностей может зани- маться естествоиспытатель, недостаточно квалифицированный в математическом отношении. Имя возникающим в таком случае ошибкам — легион, и примеры приводить просто неинтересно. Во-вторых, вполне квалифицированный математик может быть, к сожалению, лишен здравого смысла естествоиспытателя и пред- лагать применять теорию вероятностей во всех случаях жизни, в том числе и в тех, когда она неприменима. Например, Дж. Кемени, Дж. Снелл и Дж. Томпсон3 объявляют предметом теории вероят- ностей, в частности, решение вопроса о том, будет ли сегодня дождь. На этом вопросе следует остановиться подробней. Прежде всего, если речь идет о том, будет ли дождь в опре- деленный день, скажем 7 мая, какого-то достаточно далекого от настоящего момента года, то это есть типичный вопрос теории, ве- роятностей. Лучшее, что здесь можно сделать, — это посмотреть 1 См. Г. М. Фихтенгольц. Курс дифференциального и интегрального исчис- ления, т. I. М., 1966, стр. 467—471. 2 См. <А. Я. Хинчин. Краткий курс математического анализа. М., 1967, стр. 453—458. 3 См. Дж. Кемени, Дж. Снелл, Дж. Томпсон. Введение в конечную ма- тематику. М., ИЛ, 1968, стр. 162. 143
по материалам прошлых метеорологических наблюдений, как'часто бывает дождь 7 мая, и полученную частоту считать примерно рав- ной вероятности дождя. Однако, по мере приближения условлен- ного срока, такой ответ будет все менее нас удовлетворять. На- пример, когда 7 мая указанного года наступит и пройдет, мы будем знать ответ на наш вопрос совершенно точно. Рассмотрим теперь случай, когда 5 мая мы спрашиваем о том, будет ли послезавтра дождь. Чтобы сделать этот вопрос предметом теории вероятностей, мы должны указать соответствующую стати- стически однородную совокупность. Можно было бы выбрать по материалам прошедших лет не все годы, а лишь те годы, в которые 5 мая была такая же синоптическая обстановка, как и в данном году, и вычислить частоту дождя 7 мая по этим годам. Но что такое «такая же синоптическая обстановка»? Если под этим пони- мать, скажем, полное совпадение синоптических карт, то мы на- верняка ни одного подходящего года в прошлом не найдем. Если же не требовать полного совпадения, то вопрос перестает решаться объективно. Указанная трудность является существенной: несмотря на развитие теории вероятностей, прогнозы погоды продолжают оставаться плохими. Что касается пропаганды теоретико-вероятностных и статисти- ческих методов, то когда-то, в давно прошедшие времена, надо было отстаивать само их право на существование. Однако сейчас их польза никем не оспаривается, и основное внимание следует обратить на ограничения, при которых эти методы дают в самом деле надежные результаты. По современным представлениям об- ласть применения теоретико-вероятностных методов ограничена явлениями, которым присуща статистическая устойчивость. Однако проверка статистической устойчивости трудна и всегда неполна; к тому же она часто дает отрицательный вывод. В результате в це- лых областях знания, например в геологии, нормой стал такой подход, при котором статистическая устойчивость вовсе не прове- ряется, что неизбежно приводит к серьезным ошибкам. К тому же пропаганда кибернетики, предпринятая нашими ведущими учены- ми, дала (в некоторых случаях) несколько неожиданный результат: теперь считается, что только машина (а не человек) способна по- лучать объективные научные результаты. В таких обстоятельствах долг преподавателя теории вероятно- стей вновь и вновь пропагандировать ту старую истину, которую еще Петр I пытался (безуспешно) внушить русским купцам: что торговать надо честно, без обмана, так как в конечном счете это для самих же себя выгоднее. Методически (но, конечно, не научно) здесь было бы полезно ввести терминологическое разграничение. Если исход эксперимента не вполне однозначно определяется его условиями, то можно было бы говорить о наличии «неопределенности», например завтра мо- жет быть или не быть дождь. Если эта неопределенность обладает свойством статистической устойчивости, то тогда можно сказать, 144
что имеется «случайность», т. е. случайное событие или случайный эксперимент. В научном смысле, разумеется, невозможно сколько- нибудь продвинуться только за счет введения нового термина: основной вопрос только переформулируется — вместо того, чтобы спросить, есть ли статистическая устойчивость, мы должны будем спросить, есть ли «случайность» или только «неопределенность». Однако такое терминологическое разграничение позволяет ис- пользовать удачные в литературном отношении обороты, например: «Ваш фактический материал содержит неопределенность, очевидно потому, что плохо делались эксперименты. Однако в нем нет слу- чайности в том смысле, как это слово понимается в теории вероят- ностей». Замечания к § 1 К п. 1.1. Не так просто привести пример случайного экспери- мента с известной вероятностью того или иного исхода. Пожалуй, только бросание монеты никогда не бралось под сомнение. При бросании кости вряд ли можно сомневаться в статистической устой- чивости, однако в некоторых экспериментах с несомненностью обнаруживалось, что вероятности выпадения отдельных граней не равны 7б. То же относится к рулетке. На некоторых аппаратах отдель- ные номера выпадают чаще (или реже), чем им полагалось бы при идеальной рулетке. На этом основан способ наживы за счет вла- дельцев рулетки, который, по крайней мере однажды, был успешно применен. Кстати, для обнаружения отклонений рулетки от идеаль- ной весьма полезны и необходимы методы теории вероятностей. Неверно, таким образом, что теория вероятностей учит, что играю- щий в азартные игры неизбежно разоряется — это справедливо только в идеальной модели азартной игры. К сожалению (для игроков), вероятностные методы одинаково доступны также и для хозяев рулетки. Последние спасаются тем, что часто меняют аппа- раты. Переходя к более серьезным примерам, рассмотрим вероят- ность рождения ребенка мужского пола. В рамках генетики было бы понятно, если бы эта вероятность равнялась V2. Но на самом деле она несколько больше, причем об- наруживаются отклонения от статистической однородности. На- пример, достоверно известно, что после крупных войн частота рож- дения мальчиков увеличивается. Таким образом, эта вероятность точно не известна, а оценивается по частоте. Блестящим примером из биологии являются опыты Менделя по расщеплению признаков, в которых вероятности появления разных признаков у гороха практически не отличались от вычис- ленных теоретически (см. задачник Л. Д. Мешалкина [8], стр. 58). Следует заметить, что теория вероятностей приносит, пожалуй, 145
максимальную научную пользу не тогда, когда обнаруживается полное согласие с ее схемами, а тогда, когда обнаруживаются от- клонения. Так, колебания частоты рождения мальчиков по край- ней мере ставят вопрос о механизмах регулировки численности мужских и женских особей биологического вида. Частотная интерпретация понятия вероятности и понятие ста- тистической устойчивости принадлежат Р. Мизесу. Р. Мизес ока- зал большое влияние на развитие теории вероятностей, в частности весьма наглядно продемонстрировал несовершенство ее старого языка. Например, в классической теории вероятностей имеется определение: «два события называются несовместимыми, если они не могут произойти оба вместе» и теорема: «вероятность сум- мы двух несовместных событий равна сумме вероятностей». Р. Ми- зес придумал следующий парадокс. Пусть некий теннисист может поехать на турнир либо в Москву, либо в Лондон, причем турниры там происходят одновременно. Вероятность того, что он займет первое место в Москве равна 0,9 (если, конечно, он туда поедет), а в Лондоне — 0,6. Чему равна вероятность того, что он займет где- либо первое место? Решение: согласно классической теории, собы- тия «выигрыш турнира в Москве» и «выигрыш турнира в Лондоне» несовместны, поэтому искомая вероятность есть 0,9+ 0,6 =1,5. Несмотря на очевидную нелепость этого рассуждения, в ста- рой теории вероятностей не было ничего, что бы его запрещало. Таким образом, в настоящее время совершенно ясно, что из- ложение теории вероятностей на классическом языке является ана- хронизмом. Какие же имеются альтернативы? Первая альтернатива — язык теории множеств и теории меры в той форме, которая ему придана А. Н. Колмогоровым в знаме- нитой «аксиоматике Колмогорова». Этот язык пользуется почти универсальным признанием как в нашей стране, так и за рубежом. В частности, на нем написана данная книга. В рамках этого языка только что приведенный парадокс с теннисистом решается просто: вероятности 0,9 и 0,6 относятся к разным пространствам элемен- тарных событий, так что не имеет смысла теорема сложения веро- ятностей. Столь же просто разрешаются другие известные пара- доксы, например, парадокс Бертрана (см. учебник Б. В. Гнеденко [8]). Благодаря этому языку необычайно усилилось развитие тео- рии вероятностей, о чем, однако, автор не берется говорить под- робнее. Но является ли этот язык вполне безупречным? Это не так по ряду причин. Во-первых, хорошо известно, что понятие множества, в таком виде, в котором оно используется здесь, ведет к парадоксам. Прео- доление парадоксов языка математики всегда совершалось лишь за счет существенного научного развития (можно напомнить, на- пример, преодоление парадоксов теории рядов за счет изобретения теории пределов и понятия сходимости). Именно поэтому матема- тик относится с недоверием к попыткам «формализации» системы 146
понятий какой-либо естественной науки, так как при наличии су- щественного научного прогресса «формализация» придет сама со- бой, а без такого процесса останется чисто схоластическим упраж- нением. Для теории множеств еще нет удовлетворительного во всех отношениях способа преодоления парадоксов. Имеется, правда, эмпирическое правило для избежания пара- доксов, которое заключается в том, что лучше не говорить с слиш- ком больших или слишком расплывчато заданных множествах. Например, запрещается говорить о «множестве всех множеств» или о «множестве всех множеств, для задания которых требуется не более 100 слов русского языка». Этому правилу заведомо подчиня- ются всц множества, рассматриваемые в теории вероятностей в рамках колмогоровской аксиоматики, так что парадоксы теории множеств не особенно беспокоят нас в теории вероятностей. Во-вторых, в результате развития теории случайных процес- сов обнаружилось, что в рамках колмогоровской аксиоматики при- ходится уделять слишком много внимания различным математи- ческим затруднениям. По крайней мере в преподавании курса слу- чайных процессов получается так, что на преодоление этих затруд- нений уходит столько времени и сил, что это наносит ущерб изучению сопоставимых с действительностью моделей. В-третьих, в рамках этой аксиоматики ничего не говорится о том, как узнать, приложима ли вероятностная модель к данному конкретному явлению. Вторая альтернатива классическому языку теории вероятно- стей — язык «теории коллективов» Р. Мизеса. Этот язык имеет гораздо меньшее распространение, чем язык аксиоматики Колмо- горова. По существу он был, вероятно, отчасти вытеснен послед- ним (подчеркнем, что, на наш взгляд, здесь следует говорить имен- но о взаимодействии языков, так как конкретное содержание и практические приложения теории вероятностей, по лМизесу и по Колмогорову, в сущности совпадают). Не излагается этот язык и в настоящей книге (см., например, [19]). В таком случае было бы не- добросовестно давать здесь его критику, в чем, впрочем, и нет ни- какой необходимости, так как вряд ли кто-нибудь хочет сейчас преподавать теорию вероятностей по Мизесу. Однако любопытно обрисовать изменение общего тона критики теории Р. Мизеса за истекшие 40 лет. Первоначальный вариант теории Мизеса казался неприемлемым для математика 1 по двум причинам: он был логиче- ски противоречив (это противоречие отмечено в § 1 настоящей книги при обсуждении вопроса о проверке устойчивости частот в различных сериях опытов) и не содержал математической аксио- 4 Выражение этих ранних взглядов на теорию Р. Мизеса см. в статьях А. Я. Хинчина «Учение Мизеса о вероятностях и принципы физической статистики». «Успехи физических наук», 1929, т. IX, вып. 2; «Частотная теория Р. Мизеса и современные идеи теории вероятностей». «Вопросы философии», 1961, № 1, стр- 91—102; № 2, стр. 77—89 (последняя статья написана около 1944—1946 гг.). 147
матики. Изучение реакции Р. Мизеса на математическую критику представляет известные трудности, так как содержащая наиболее полное изложение его теории книга [20] написана—пусть аккурат- но и добросовестно — но все же не самим Р. Мизесом, а Хильдой Гейрингер. Достоверно известно, однако, что Р. Мизес не считал отсутствие аксиоматики недостатком. Любопытно, что в свяЗи с вы- яснившимися недостатками формальных аксиоматических теорий (например, теоремой Геделя о неполноте) многие математики по- степенно перестали считать наличие аксиоматики большим досто- инством. Впрочем, последователи Р. Мизеса создали аксиоматику его теории, и ее можно читать в виде приложения к упомянутой выше книге [20]. Далее, в работах А. Н. Колмогорова и его учеников намечен и способ преодоления логического противоречия теории Р. Мизеса (естественно, на совсем другом научном уровне, в частности, с ис- пользованием теории алгоритмов). С другой стороны, за истекшие 40 лет теория вероятностей раз- вивалась на основе аксиоматики Колмогорова. В частности, возник- ла теория случайных процессов. Естественно, перед теорией Мизеса встал вопрос о включении нового материала. По-видимому, это возможно, и X. Гейрингер даже бралась это сделать, но издатель цитированной книги [20] отказался напечатать соответствующий материал из-за слишком большого объема книги. В целом, теперешнее отношение специалистов к языку теории Р. Мизеса можно сравнить с отношением к мертвому языку, на ко- тором почему-то никто говорить не хочет, но — при соответствую- щих поправках и переделках — вполне можно было бы сказать все то, что говорят на живом языке. В то же время несомненно, что идеи Р. Мизеса органически входят в современную теорию вероятностей, а дальнейшая разра- ботка их оказывает влияние на фундаментальные представления этой науки. В частности, условия практической применимости теории веро- ятностей сейчас трактуются по Р. Мизесу. Они изложены в § 1. Методически надо иметь в виду, что этот материал не может быть усвоен студентами, впервые знакомящимися с теорией вероятно- стей. К понятию статистической устойчивости необходимо возвра- щаться на протяжении всего курса — при интерпретации случайной величины как результата измерения, подверженного случайным ошибкам: при применении теоремы Муавра—Лапласа для провер- ки гипотезы о равенстве вероятностей успеха в двух сериях испы- таний Бернулли; при изложении метода наименьших квадратов и т. д. К. п. 1.2 и 1.3. Целесообразно начинать изложение теории ве- роятностей с дискретного случая, т. е. со случая конечного или счетного Q. При этом «каждому подмножеству А множества Q мо- жет быть приписана вероятность в соответствии с определением 1.4. Свойство Р(А+В) =Р(А)+Р(В) для непересекаюшихся А и 148
В оказывается теоремой. Это является особенностью принятого способа изложения. Принятый в п. 1.2 набор определений и аксиом представляется наиболее экономным. Подчеркивание того обстоятельства, что при решении задач по теории вероятностей прежде всего нужно сделать перевод на язык элементарных событий, чрезвычайно облегчает студентам понимание того, чего от них хотят. На упражнениях по теории ве- роятностей нужно сделать несколько задач на такой перевод (ре- комендуется задачник Л. Д. Мешалкина [18]). Однако преподава- тель теории вероятностей должен помнить о том, что язык элемен- тарных событий изучают в основном для того, чтобы можно было всегда избежать парадоксов, а впоследствии обычно мыслят сра- зу интересующими нас событиями. Замечания к § 2 К п. 2.1. При введении определений и аксиом в § 1 не было подчеркнуто, что они являются математической формулировкой свойств понятия вероятности, которых естественно ждать, если иметь в виду частотную интерпретацию этого понятия. Это важное обстоятельство отмечается лишь в начале § 2, что сделано по чисто психологическим соображениям: первый параграф и так перегру- жен материалами естественнонаучного содержания. В то же вре- мя важно соблюдать равновесие между чисто математическим и естественнонаучным материалом, так как при пренебрежении первым изложение воспринимается студентами как поверхностное, а пренебрежение вторым наносит ущерб правильной оценке роли теории вероятностей в науке. Само определение условной вероятности, данное в § 2, фор- мально говоря, не соответствует трактовке условной вероятности в аксиоматике Колмогорова. В применении к дискретному случаю, если строго держаться этой аксиоматики, нужно было бы рассмот- реть вероятности Р(Д/В) и Р(Д/В), задаваемые определением 2.1, а под условной вероятностью понимать случайную величину, опре- деленную на Q и равную Р(А/В) для оеВ и Р(Д/В) для со^В. Однако различие между одной вероятностью Р(Д/В) и двумя ве- роятностями: Р(Д/В) и Р(Д/В) в контексте § 2 воспринималось бы как чисто схоластическое (по крайней мере, автор не нашел способа его убедительно мотивировать). Реальным это различие можно сделать только рассматривая условные вероятности при условии, что задано значение некоторой случайной величины g. Соответствующее определение должно было бы выглядеть так: ус- ловной вероятностью Р(Д/£) называется случайная величина, рав- ная Р{Д1 (е==сц)} для тех и только тех соей, для которых £(со) =(ц (здесь аь а2, ... — все возможные значения слу- чайной величины £). В силу формулы полной вероятности (см. п. 2.4, § 2) имеем 149
Р(Л)=£Р{Л|(| = а/)}Р{§=а/}, а< что можно записать в виде Р(Л) = МР(Л||), (2.1') где М есть знак математического ожидания (примененного к слу- чайной величине Р (Л/g). При таком способе изложения следовало бы подчеркнуть, что сами значения {а»} случайной величины g в определение условной вероятности Р (Л/g) никак не входят: важны лишь множества (g=at). Отсюда можно было бы мотивировать введение условной вероятности Р(Л/95), где 95 —разбиение пространст- ва Q, т. е. набор множеств {Bi, В2, Вп, ...} таких, что BiBj=(j) при i=^=/ и Bi+B2+...+Bn+...=Q. Далее следовало бы ввести понятие условного математическо- го ожидания М(т]/95), а в частном случае M(r]/g), где т) — любая дискретная случайная величина, и вывести формулу Мт] = М {М (т) 195)}, (2.2') являющуюся обобщением формулы (2.1'). Почему указанный путь не реализован в настоящей книге? Дело в том, что формулы (2.1') и (2.2') по-настоящему важны не в дискретном случае, а в случае произвольного пространства эле- ментарных событий. Однако тогда изложение колмогоровской тео- рии условных математических ожиданий предполагает владение теорией меры (в частности, знание теоремы Радона-Никодима), а кроме того, требует очень много времени (если, конечно, препода- 150
Вй1ель добивается неформального владения этой теорией, т. ё. слияния интуитивных представлений об условной вероятности с формальными определениями). Поэтому автор считает, что от об- щей теории условных вероятностей в элементарном курсе следует отказаться. Но если принять эту точку зрения, то, по мнению ав- тора, формулы (2.Г) и (2.2') должны показаться недостаточно Рис. 2.3' Рис. 2.4' содержательными, хотя их, пожалуй, уже никто не назовет чистой схоластикой. Два других соображения против расширенной, по сравнению с принятой в настоящей книге, трактовки понятия условной веро- ятности состоят в следующем. Во-первых, наиболее реальные, с точки зрения естествоиспыта- теля, вероятностные модели связаны с независимыми событиями и случайными величинами, т. е. с тем случаем, когда условные веро- ятности равны (безусловным. Это объясняется тем, что гораздо проще найти из опыта единственную вероятность Р.(4), чем слу- чайную величину Р(Л/£), а кроме того, говоря о вероятности Р(Д/§), «мы лишний раз рискуем статистической устойчивостью: так как для того, чтобы эта условная вероятность имела смысл, нужно, чтобы частота наступления события А при условии, что |=аг-, была статистически устойчива при любом аг*. Таким обра- зом, хотя многие после первого знакомства с понятием условной вероятности представляют себе мир в терминах этого понятия, так поступать чаще всего будет неправильно. Как извест- но, Декарт указывал, что можно придумать много разных спосо- бов, которыми господь бог — при желании — «мог бы устроить мир, но никогда нельзя чисто умозрительно выбрать из них тот, кото- рым он воспользовался на самом деле (чтобы это сделать, по Декарту, требуется эксперимент). Представление об условной ве- 151
роятности относится к числу таких мыслимых представлений, но только экспериментальная проверка устойчивости частот покажет, так ли устроено изучаемое явление на самом деле. Впрочем, при- мер Декарта наводит на грустные размышления: Декарт прилеж- но делал эксперименты, но это не мешало ему утверждать, что в сердце кровь обращается в пар и благодаря этому осуществляет- ся кровообращение. В частности, когда в элементарном курсе теории вероятностей из-за недостатка времени приходится выбирать между основными статистическими методами и теорией цепей Маркова, основанной на понятии условной вероятности, предпочтение следует отдать статистике. Бесспорно, что теория цепей Маркова имеет некото- рые серьезные естественнонаучные применения, но бесспорно и то, что эта теория иногда применяется совершенно неверно. В ка- честве примера можно указать некоторые работы по «математиче- ской геологии», однако разбор их неуместен в настоящей книге. Во-вторых, общая теория условных вероятностей связана, к сожалению, с рядом затруднений типа вопросов измеримости, что лишает ее того удобства, которое естествоиспытатель, разумеется, хочет видеть в методах исследования, которые дает ему матема- тика. ' Однако, по мнению автора, способ изложения, основанный на формулах |(2.Г) и (2.2'), обязателен в том случае, когда в даль- нейшем предполагается изложение общей теории условных вероят- ностей или рассмотрение понятий энтропии и информации. По поводу задач на понятие условной вероятности заметим, что до настоящего времени в советских и зарубежных задачниках попадаются совершенно бессмысленные задачи, вроде, например, следующей. «Охотник сидит в засаде и ждет медведя. Медведь мо- жет выскочить из-за первого куста с вероятностью 0,1, из-за второ- го куста — с вероятностью 0,2 и из-за третьего куста—с вероятно- стью 0,3. В первом случае охотник убивает его с вероятностью 0,5, во втором-случае—с вероятностью 0,4, в третьем случае—с вероят- ностью 0,3. Найти вероятность того, что охотник убьет медведя». В формулировке этой задачи весьма сомнительно предполо- жение статистической устойчивости частот появления медведя из- за каждого куста, равно как и частот удачного выстрела охотника (без чего данные в задаче вероятности не имеют смысла). Но что можно гарантировать во всяком случае — это то, что эксперимент, обнаруживший статистическую устойчивость и давший приведен- ные значения вероятностей, никогда на самом деле не проводился. В целом задача наводит на мысль о всеобъемлющем характере по- нятия условной вероятности, применимость которого не требует эк- спериментальной проверки (ведь каждому ясно, что эксперимента не было). А поскольку изучающий теорию вероятностей знакомится с практическими примерами применения прежде всего из задач, то использование в преподавании задач, подобных приведенной вы- ше, неизбежно создает неоправданные иллюзии. Многие задачи с 152
военным контекстом на понятие условной вероятности ничем не лучше «задачи про медведя». К п. 2.2 и 2.3. Понятие независимости является фундаменталь- ным для теории вероятностей. Сравнительно недавно, после того как колмогоровская аксиоматика дала возможность рассматривать теорию вероятностей как часть теории меры, одно время даже счи- талось, <что отличительной чертой этой части теории меры является использование понятия независимости. В настоящее время незави- симость не господствует в теории вероятностей как в математиче- ской науке. В частности, в теории случайных процессов рассматри- ваются в основном зависимые события и величины. Однако почти в любой вероятностной модели, рассчитанной на применения, где- то, быть может довольно глубоко, спрятана независимость. Как правило, независимые события наблюдаются в независи- мо друг от друга проводимых экспериментах. ’Соответствующая конструкция вероятностного пространства дана в п. 2.3. Обычно 1 преподаватель рисует пространство Q в виде подмножества (напри- мер, круга) на плоскости. На такой картинке независимые события выглядят вычурно: между вероятностями фигур Л, В и АВ должно выполняться соотношение (рис. 2. Г) Р(ЛВ)=Р(Л)Р(В). Более естественная картинка получится, если использовать прямое произведение: на отрезке оси абсцисс изобразить пространство элементарных исходов QW первого эксперимента, а на отрезке оси ординат — пространство Q(2), связанное со вторым экспериментом. Тогда Q=’Q<1)XQ<2) есть показанный на рис. 2.2' прямоугольник. Если ЛО)— событие, связанное с исходом первого эксперимента, то исход второго эксперимента может быть любым. Поэтому можно изображать Л<!) также в виде прямоугольника Л<1)=Л<1)ХЙ(2) (рис. 2.3'). Аналогично изображается событие Л<2> в виде события Л<2). Но тогда произведение Л^Л*2) изображается в виде прямо- угольника, являющегося пересечением Л<*) и Л<2>. Равенство Р'(Л(1)Л(2)) = Р (Ат) Р (Л|*)1 будет выполняться, если вероятность естественным образом интер- претировать как площадь (рис. 2.4'). Необходимо добиться, чтобы изучающий теорию вероятностей понимал полную естественность перехода от Л0> и Л<2> к Л<*> и Л® в пространстве Q = Q<’>XQ<2>. Понятие независимости при решении задач по теории вероят- ностей используется для определения вероятностей на множестве элементарных событий, подобно другим «правилам перевода», упомянутым в § 1 и 2. Формально здесь редко делаются ошибки. Приведение примеров независимых событий не представляет тру- да: два или несколько случайных экспериментов, проводимых раз- 153
ними лицами в разных местах. Известную аккуратность надо соб- людать лишь при выборе самих экспериментов (чтобы они в самом деле были случайными в уже разъяснявшемся смысле). Хуже обстоит дело с экспериментами, проводимыми одним и тем же лицом последовательно, например, с результатами после- довательных измерений. Вообще говоря, здесь нет оснований ожи- дать независимости результатов различных 'экспериментов. Надо думать, что если эксперименты проводятся недостаточно тщатель- но, то независимости и не будет. В этом случае (плохих наблюде- ний) никакая статистическая обработка их не улучшит. В том же случае, когда возможные причины колебаний резуль- татов экспериментов тщательно устраняются, т. е, остаются лишь такие небольшие колебания, которые нельзя устранить без принци- пиального усовершенствования техники эксперимента, видимо, можно ожидать независимости результатов отдельных наблюдений. Таким образом, лишь при хороших экспериментах целесообразна статистическая обработка, которая может еще улучшить результа- ты. Бывают, однако, хорошие измерения, в которых проводимые через небольшие интервалы времени отсчеты дают зависимые ре- зультаты (например, в радиолокации). В таких случаях статисти- ческая обработка существенно затрудняется. К п. 2.4 и 2.5. Задачи на формулу полной вероятности, по тра- диции, обычно решаются без перехода к пространству элементар- ных событий. Это непоследовательно. Чтобы сохранить логическую состоятельность, можно применить следующий искусственный прием. Пусть в задаче требуется определить вероятность некото- рого события D. Образуем пространство элементарных событий из двух символов: D и D. Введем P(D) таким образом, чтобы оно не противоречило формуле полной вероятности, и положим P(D)=1—P(D). Ответом на вопрос задачи является введенное по определению значение вероятности Р(О). Спасена и аксиоматическая модель. Этот способ перевода на язык пространства элементарных событий условий задач на формулу полной вероятности формально возмо- жен. Он приведен в качестве первого способа решения задачи в примере 2.2. Более естественным является второй путь решения этой задачи. Однако при этом выпадает использование самой фор- мулы полной вероятности, вместо которого производится подсчет числа элементов разных множеств. В общем-то формула полной вероятности не имеет права на существование в курсе теории вероятностей в качестве самостоя- тельной теоремы. Это связано с тем, что она не только тривиальна с математической точки зрения, но и не дает ничего нового по сравнению с понятием условной вероятности для целей перевода условий задач на язык элементарных событий. Лишь традицион- ная привязанность к ней заставляет уделить ей место в лекцион- 154
ном курсе (всегда есть опасность, что кто-нибудь из преподавате- лей спросит ее на экзамене). В противном случае достаточно было бы разобрать ее на упражнениях. Попытки описания научного прогресса с помощью формулы Байеса действительно делались. В применении к произвольным научным гипотезам это бессмысленно, хотя один крайний случай получается из формулы Байеса. Этот случай состоит в следующем. Пусть P(A/Hi)>0, а Р'(А/Яу)=0, г = 2, 3, ..., т. е. событие А мо- жет произойти только в том случае, если верна гипотеза Яь Тогда, при любых априорных вероятностях Р(Я1), .... Р(ЯП), лишь бы только Р(Н1) была положительна (т. е. мы верили сколько-то в гипотезу Н\), имеем PfHjA) = 1, Р(Н(/А) = 0, i = 2, ... ,п. Следовательно, если А произошло, то верна гипотеза Н\ — вывод весьма разумный, но очевидный и без использования формулы Байеса. Во всяком случае, гипотезы Н\, Н%, ..., Нп должны быть таки- ми, чтобы условные вероятности Р(А/Н{) имели смысл, т. е. наб- людалась бы статистическая устойчивость. Это сильно ограничи- вает область применения формулы Байеса. Типичной задачей на эту формулу является следующая. Пусть вынимается шар из урны, содержащей черные и белые шары, причем гипотеза Н{ состоит в том, что отношение числа бе- лых шаров в урне к числу всех шаров равно , i= l, 2, ..., п. п Предположим, что с одинаковой вероятностью нам могли дать ур- ну любого состава, т. е. что Р(Я^) = — для любого i. Спрашивает- п • ся, чему равна вероятность Hi при условии, что вынутый шар ока- зался белым. На тривиальном расчете мы не останавливаемся. Заметим, что если операцию вынимания шара повторять много раз (каж- дый раз возвращая вынутый шар в урну и хорошо перемешивая шары), то мы сможем почти точно .выяснить долю белых шаров в урне. На языке апостериорных вероятностей это утверждение вы- глядит так: при вычислении апостериорной вероятности гипотезы Hi .при условии, что задан результат k выниманий шара, получит- ся, что при k-^oo для некоторого i эта апостериорная вероятность стремится к 1, а для остальных к нулю. )(Мы не останавливаемся на точной формулировке и доказательстве последнего утвержде- ния.) Этот вывод не зависит от априорных вероятностей Р(Яг), лишь бы все они были положительны. На получении выводов, мало зависящих от априорных вероятностей, основан байесовский под- ход в математической статистике. Этот подход имеет сравнительно немного сторонников, но в последнее время его популярность не- сколько возросла. 155
Применение формулы Байеса в задачах диагностики, вызвано тем обстоятельством, что медицинская информация, касающаяся больного, в настоящее время слишком обширна. Указанная в § 2 трудность, стоящая на пути формального при- менения теоремы Байеса, заставляет искать какие-то дополнитель- ные допущения, при которых все-таки можно определить вероят- ности Р(А/Н{) по ограниченному статистическому материалу. По- скольку приходится делать дополнительные предположения, на результат всей процедуры не следует смотреть как на математиче- ски доказанный факт: это лишь некоторый вспомогательный способ суммировать для врача имеющуюся информацию. Автор книги не берется судить о достигнутых здесь результатах. Вообще оценка результатов математико-статистического исследования — очень трудное дело. Формула Байеса может применяться также для решения за- дачи машинного узнавания букв. Роль комплекса симптомов в этом случае играет совокупность некоторых отличительных призна- ков буквы, которые легко могут быть выражены в виде, пригод- ном для введения в машину. Можно говорить о распознавании других объектов. В таком случае речь обычно идет о «распозна- вании образов». Каким образом человек распознает образы, т. е. узнает знакомые буквы, предметы, лица, в настоящее время совер- шенно неизвестно. Существующие математические теории строятся на основе использования понятия группы преобразований, но на самом деле преобразования, не меняющие восприятия образа, груп- повыми свойствами явно не обладают. О формуле Байеса можно в данной задаче сказать только одно — ее использования очевид- ным образом недостаточно для успешного распознавания образов. Замечания к § 3 Курс математического анализа полон неожиданностей. Пусть, например, 22 at — ai + а2 + ^з+ • • • абсолютно сходящийся ряд. Верно ли, что Xj ~ + 52 в2*-ь (3.1') /=1 Л=1 fe=l т. е. можно ли сначала просуммировать члены ряда с четными но- мерами и к полученной сумме прибавить сумму членов с нечетны- ми номерами? Пожалуй, в этом трудно сомневаться. В обоснование этого ссылаются обычно на теорему о перестановке членов ряда из курса математического анализа. Однако требуемое утвержде- ние не следует из этой теоремы, так как в результате пере- 156
становки должен получиться снова ряд, а не сумма двух рядов вида (3.1'). Однако доказательство этой теоремы легко при- способить и для доказательства (3.1'). Пусть Q={co}—счетное множество элементарных событий, Р(со) —вероятность со. Трудно удержаться от написания равенства £Р(®) = 1. ®6Q Но что означает символ Р(®)? На этот вопрос можно было бы ответить так: пусть имеется взаимно однозначное отображение z->coi натурального ряда на О. Будем понимать под суммой где F(®)—некоторая (функция от <в, сумму ряда, соЕО оо J?F(coz). В силу упоминавшейся теоремы анализа, такое опре- i—1 деление дает результат, не зависящий от выбора отображения f-хо/. Пусть теперь Alf А2, ..., Ап, ...— непересекающиеся подмно- жества Q, причем £2=Д1+Д2+ ... +ДП + .... Тогда хотелось бы, чтобы (в случае абсолютной сходимости) £ F(o>) = £ F(o)) + £ F(<o) + ... + £ F(®) + - (3.2') (oGQ (oE-dj со€Ла (&GAn Но это не вытекает из указанной теоремы анализа, хотя ее дока- зательство в сущности проходит. Рассмотрим еще пример, когда + А» + • • • Ап + • • • = О \ соо, где соо—некоторый элемент Q. Хотелось бы, чтобы S F = S {X F Н + F (Wo)- (3-3') coGQ Z=1 Рассмотренные примеры доказывают необходимость иметь та- кое определение суммы ^Cw)» которое охватывало бы как част- ные случаи равенства (3.2') и (3.3'). По-видимому,.нет ничего бо- лее простого, чем использование понятия трансфинитных чисел (счетной мощности). Если А—любое счетное вполне упорядочен- ное множество и а-хоа есть взаимно однозначное отображение А на Q, то V (соа) определяется как предел по Шатуновскому (см., например, [2 3]), и нужно доказывать, что в случае абсолют- ной сходимости 157
£ F((oa) = £ F(w), аел рев где В — другое вполне упорядоченное множество. Доказательство все равно остается тем же самым. Так мы видим, что требуемое утверждение содержится в курсе анализа по существу, но не по форме. Поэтому преподаватель теории вероят- ностей не слишком погрешит против совести, если не будет обра- щать на это внимания студентов, как это сделано в § 3 настоящей книги. Впрочем, для целей теории вероятностей достаточно, если угодно, обосновать равенство (3.2'). К п. 3.1. Все случайные величины, рассматриваемые в одном контексте, определены на одном множестве элементарных собы- тий Q. В противном случае нельзя избежать недоразумений. В ча- стности, будет непонятно, что такое сумма случайных величин. Если случайная величина gi интерпретируется как результат одно- го опыта с пространством элементарных исходов Q<’>, а — как ре- зультат другого опыта, связанного с пространством Q(2\ то следует ввести пространство на котором и рассматривать вели- чины и g2. К п. 3.2. Определение математического ожидания отличается от обычно принятого в дискретном случае. Обычно в качестве оп- ределения математического ожидания Mg случайной величины g, принимающей значения а\, а*, ..., ап, ... с вероятностями р\, р2, ..., ..., рп, ... берется равенство М£ = £аЛ. Кстати, обозначать пределы суммирования в последнем ра- 00 венстве в виде £ а1р1 неудобно, так как множество .’значений {а{} /=1 может быть конечным. При необходимости обозначить явно преде- лы суммирования мы предпочтем запись ^a,pz. ai Чем вызвано определение Mg в виде М|= £g(e>)P(<»)? ©EQ При таком определении гораздо проще доказывать свойства мате- матического ожидания. Рассмотрим, например, теорему М tj) = Mg + Мт]. Обычно она доказывается следующим образом. Пусть /di, , ап, ... \ /bi, Ь%, ... , Ьт, ... \ \pi,p2, ... ,рп,...)’ Ui.••• ,qm, / 158
распределения величин | и т]. Обозначим через p{j вероятность P{g=af,r] = &f}. Если значениями величин | и ц являются числа и bj, то значениями суммы g+т) являются числа at + bj, причем Р{В+'П==а« + М=Ро- Тогда .имеем М (I + П) = £ (а.- + *,) Рц = £ а(Рг,- + £ Ьр„ = ai'bl at ,bf ai,bj = £ aiPi + 2 Mi = 4- МТ]. . al bj Доказательство это вообще неверно. Дело в том, что числа {аь а*, ...} (так же, как числа {&i, 62, —}) между собой различны, иначе не имеет смысла вероятность Р{|=а<}, Р{т)=6<}. Однако между числами at+bj могут быть равные. Следовательно, либо не имеет смысла говорить о вероятности Р{|+т)=^+М» либо во всяком случае неверно, что эта вероятность есть pij. Кроме того, из-за уже отмечавшегося несовершенства традиционного языка тео- рии рядов в анализе не вполне понятно, на какие теоремы анали- за следует ссылаться для обоснования выкладок с рядами. Впро- чем, последнее обстоятельство сравнительно маловажно. Но пер- вое затруднение существенно. На него мы попадаем вновь, желая доказать формулу IAf(|) =Sf(arfpi (теорема 3.3). Неверно ведь, что P{f (|) =|(йг)} =Pi- На самом деле Ptf® = /(<*<)} = Рг Теорему 3.3 нужно выводить из последнего равенства следующим образом: Mf(|)=£f(az){ £ p^^f^p,, fty) at но понимание правильности этого вывода требует некоторых уси- лий от студента (и, конечно, снова нельзя избежать формальных затруднений с рядами). Та же история повторяется при выводе теоремы Mgr] = MgMr) для независимых случайных величин. Здесь вновь обычно утверж- дается, что р{^ = ад.} = Р{£ = а/) л==6д. Желание избавиться от серии этих затруднений привело к из- менению определения математического ожидания по сравнению с обычно принятым (определение 3.2). •Отметим другую возможность. Сначала надо получить фор- мулу M/(g) = 2/(«JP/ (3.4') ai 159
для того случая, когда величина g принимает векторные значения, т. е. является набором случайных величин. (Только что упомяну- тый вывод теоремы 3.3, разумеется, одинаково применим к век- торным величинам.) Итак, пусть получена формула (3.4') для век- тора g=i(gb £2). Положим сначала /l(x)=Xv Тогда (?ь ?2) =Bi и М/1(?1Ла)=М?1 = £/1(а/)Рр ai где .под а{ понимаются возможные значения вектора £= = (|I,g2),pi = P{g='(lbl2 = ai}. Аналогично, полагая f2(x)=x2, имеем ai Наконец, полагая /з (х) = хх + х2 = /х (х) + /2 (х), получаем М/8 (g) = М (?х + У = £ h («/) Pi = J] (fi (a? + f2 (a,)) pt = ai ai = £ А (a,) Pi + £/« (a,) Pl = M?x + M?2. ai ai Пусть теперь значениями случайной величины ? являются чис- ла Ci, с2, ..., сп, ..., значениями случайной величины т) — числа d\, d2, ..., dm, ... и величины ? и г) независимы. Рассмотрим вектор- ную случайную, величину ?= (?, т]), значениями которой являются векторы (Ct, dj), причем Р {? = (Ci,%)} = Р {? = ct, Т] = d,} = Р {? = Р 0) = dj. Полагая fi(x)=X\X2, имеем М,4 (?) = М?т] = £ ft (с1г d>) Р Й = (с„ d,)} = evdj = 2 cidiP{? = cJP{T) = d/} = = (Е<чр{1=(s dip <4 =4>)= ci dt Путь, принятый в § 3, представляется несколько менее фор- мальным, чем только что изложенный, Там все основано на раз- 160
биениях множества Q на различные части. Эти части указываются явно, и происходит сначала суммирование в пределах одной части, а затем—суммирование по всем получившимся частям. Только что изложенный способ фактически также основан на разбиении на части некоторых сумм. Однако эти части являются множествами, на которых функции fb f2, /з, fa принимают постоян- ные значения, так что выделение частей осуществляется заданием функций Д-, что может быть несколько труднее при первом знаком- стве с теорией вероятностей. Зато все свойства математического ожидания выступают в качестве следствий единственной форму- лы (3.4'). Применения понятия математического ожидания весьма мно- гообразны. Мы остановимся коротко на теории игр и статистиче- ских решений, которая в последние годы стала довольно популяр- ной. Идейное содержание теории игр по существу понятно из при- мера 3.1. Там описано такое поведение игроков, при котором каж- дый из них выбирает с некоторыми вероятностями доступные ему способы поведения — ««стратегии», стараясь максимизировать мате- матическое ожидание своего выигрыша. Важнейшей теоремой яв- ляется теорема о существовании цены игры (в примере 3.1 цена игры есть 5/i2 коп.), т. е. такого числа с, что первый игрок, выби- рая свое поведение, может сделать свой средний выигрыш рав- ным с, что бы ни делал второй игрок, и в то же время второй игрок, выбирая свое поведение, может добиться, чтобы выигрыш первого игрока был не более с, что бы первый игрок ни делал. В теории игр предполагается, что оба игрока будут поступать именно таким образом, т. е. будут стараться получить то, что им гарантируется, и не стремиться спровоцировать противника на от- каз от оптимально i(b указанном только что смысле) выбранных вероятностей различных стратегий. . Надо сказать, что при этом всякое удовольствие от игры долж- но быть потеряно, так что психологически естественно именно про- воцировать противника (либо уж вовсе не играть). Однако в этом гораздо более сложном случае не известно содержательных мате- матических результатов. Кроме того, после изложения централь- ной предельной теоремы пример 3.1 будет развит дальше, причем будет показано, что необходимо учитывать и дисперсию выигрыша. Получение более или менее гарантированного выигрыша в один рубль требует такого числа повторений рассмотренной в примере 3.1 игры, что лучше этот рубль заработать каким-либо другим пу- тем. Между тем, в теории игр обычно не учитывается дисперсия. Мы не говорим уже подробно о том, что наиболее интересные игры вообще не могут быть решены (т. е. найдены цена игры и оп- тимальное поведение игроков) даже с применением машинных вы- числений. Таким образом, модель поведения игроков, принятая в теории игр, не имеет всеобъемлющего характера, хотя и может, разумеет- ся, быть правильной в отдельных частных случаях. Популярность 161
Теории игр, очевидно, связана с тем обстоятельством, что Многие судят о сфере приложений математической теории по ее названию, а не по содержанию. Название же в математике есть вещь доволь- но произвольная, а иногда даже обязанная случайной ассоциации (достаточно напомнить алгебраические термины: «кольца», «поля», «идеалы»). С идеологией теории игр связана модернизация байесовского подхода математической статистике, называемая теорией стати- стических решений. Коротко суть подхода, здесь принятого, мож- но объяснить следующим образом. Рассмотрим задачу с урнами из замечаний к предыдущему параграфу (к пунктам 2.4 и 2.5). Гипотеза Hi состояла ,в том, что доля белых шаров в урне рав- на—. Оценка апостериорных вероятностей гипотез при условии, п что вынутый из урны шар оказался белым, затруднялась тем об- стоятельством, что нам неоткуда было взять априорные вероятно- сти Р(Я,). Применение понятий теории игр становится 'возможным, если считать, что нам заданы штрафы S(HilHj), которые придется уп- латить статистику, если он объявит верной гипотезу Hi, в то время как на самом деле верна гипотеза Hj (конечно, естественно счи- тать, что S(Hi/Hj)=6). Кроме того, подобно тому, как это делается в теории игр, нужно разрешить статистику принимать не обяза- тельно какую-нибудь одну из гипотез Hi,.a допустить, что гипоте- зы Н\, Нп могут приниматься с некоторыми вероятностями pi, ..., рп- Эти вероятности зависят, разумеется, от исхода, опыта: если бы был вынут черный шар, то эти вероятности оказались бы другими: 9г, 9п- Вероятность того, что статистику при- дется уплатить штраф 8(Н^Н^, дается равенством = Р (Я,) {Р (Б/Я,-) pt + Р (Ч/Я,.) 9J, где Р(Я5)—априорная вероятность Я,-,Р(Б/Я,) = —---------вероят- ность того, что из урны состава Hj будет вынут белый шар, Р(Ч/Я.) = — аналогичная вероятность для черного шара. п Риск, т. е. математическое ожидание штрафа, дается формулой Г = £ s (Я,/Яу) = г {Р (Я,), ?,}, /, / = 1, ... , и. Очевидно, риск зависит от наборов вероятностей <Р(//Ж). ... ,Р(Я„)}, {р1( ... ,р„}, {91, ... ,9„}. Набор априорных вероятностей нам неизвестен. Основная идея теории статистических решений состоит в том, чтобы подбирать {pi, -., Рп} и {91, ..., 9п} таким образом, чтобы минимизировать 162
максимум риска, взятый по всем возможным априорным распреде- лениям: max г{Р(Я/), 4j} Р(й,).Р(Н„) (эта функция зависит только от pi, q^, i, /=1, n, и предлагается найти минимум этой функции). Решение этой задачи, конечно, за- висит от вида -штрафов S(Hi, Hj). По поводу предлагаемого подхода можно сделать два заме- чания. Во-первых, здесь минимизируется риск при наихудшей стратегии. Поэтому этот подход (и связанная с ним оценка рис- ка) может во многих случаях оказаться слишком осторожным. Но главное препятствие для применения такого подхода обычно со- стоит в том, что неоткуда взять штрафы подобно тому, как неоткуда было взять априорные вероятности P(Hi) *. В общем теория статистических решений не может иметь в настоящее время особенно широких применений. Поэтому вряд ли следует включать ее в элементарный курс теории вероятностей, предназначенный для естествоиспытателей. Читателю, желающему подробней ознакомиться с теорией игр и статистических решений, можно рекомендовать, например, книгу Дж. Мак-Кинси [17]. К п. 3.4. Определение независимости случайных величин вы- брано в форме определения 3.4 для того, чтобы оно ничем не от- личалось от определения независимости в общем (недискретном) случае. Из этого определения немедленно вытекает теорема 3.5, верная и в общем случае. Полезно пояснить наглядный смысл этой теоремы: независимость случайных величин означает, что, зная одну из них, мы ничего дополнительно не можем сказать о другой. А если мы знаем не саму случайную величину |, а некото- рую функцию от нее f(|), то это меньше, чем знать так как при разных значениях g значения fi(|) -могут совпадать. Следовательно, зная f (|), мы ничего не можем сказать об т], но тогда ничего нель- зя оказать и об ^(т|), так как все сказанное о g(ri) говорит нечто и О Т). 1 Мы не говорим, конечно, о том случае, когда теорию решений пытаются применять в условиях, когда и вероятности типа Р(Б/Я<) и Р(Ч/Я<) неоткуда взять. Рассмотрим следующий пример, правда, придуманный автором книги, но стилизованный под математическую геологию, потому что в этой области иногда можно встретить нечто подобное. Пусть нужно решить вопрос о том, является ли некое месторождение промышленным (гипотеза Л) или непромышленным (гипотеза Н). С этой целью делается некоторое исследование, которое может иметь несколько результатов Ль ..., Ап. На основании этих результатов предлагается выбрать одну из гипотез П и Н с помощью теории статистических решений. IB этой задаче сравнительно реально задание штрафов 3(П/Н) и 3(Н/П). Однако ма- ловероятно, чтобы можно было говорить о вероятностях Р(Лг//7) и Р((Лг//7), так как вряд ли здесь можно ожидать статистической устой- чивости. Во всяком случае, при оценке подобного подхода надо прежде всего обращать внимание на то, проверена статистическая устойчивость или нет. 163
На теорему 3.4 следует смотреть как на формулировку сравни- тельно легко проверяемого условия 'независимости случайных ве- личин. Для .недискретных величин, имеющих плотности распреде- ления, имеет место аналогичная теорема. За принятую в курсе непоследовательность при изложении.ус- ловных вероятностей (см. замечания к п. 2.1) приходится распла- чиваться при изложении независимости случайных величин (см. замечание к теореме 3.6). Можно было бы определить независи- мость п событий А1, А2, ..., Ап следующим образом: Р(С1С2...С„)=Р(С1)Р(С2)...Р(С„), где каждое С, может принимать два значения: Ai и А{. Это опреде- ление эквивалентно независимости случайных величин , . . ( 1, «об А 1А. (®) = { I 0, со £ At, называемых индикаторами событий Л,-. Замечания к § 4 К п. 4.1. Понятие сходимости по вероятности является основ- ным понятием сходимости случайных величин, имеющим практи- ческую интерпретацию. Обычно сопоставляются три понятия: схо- димость по вероятности, сходимость с вероятностью .1 и сходи- мость законов распределения. О сходимости законов распределе- ния речь впереди; что касается сходимости с вероятностью 1, то она определяется следующим образом: говорят, что последователь- ность случайных величин схо’дится к случайной (или неслучай- ной) величине | с вероятностью 1, если Р{(о: 1п (©)-> g (со), л^-со} = 1. На понятии сходимости с вероятностью 1 основан ряд изящ- ных теорем, принадлежащих главным образом А. Н. Колмогорову и А. Я. Хинчину и известных под названием теорем типа усиленно- го закона больших чисел и закона повторного логарифма. Теоремы типа усиленного закона больших чисел утверждают, что разность :Е1 + Е2+ - -- + £«/ Si + 1г + •«• + \ п \ п J сходится к нулю с вероятностью 1 (а не по вероятности, как ут- верждает теорема Чебышева). Поскольку, как мы неоднократно замечали, случайные величи- ны как функции от элементарного события обычно не наблюдают- ся, теоремы типа усиленного закона больших чисел вряд ли могут, с прикладной точки зрения, дать больше, чем обычный закон боль- ших чисел. 164
Закон повторного логарифма формулируется довольно слож- но. О нем можно прочесть в первом томе книги Феллера [22] (про- стейший случай), а также в книге Лоэва [16]. К п. 4.2. Говоря о вероятности, относящейся к большому числу случайных величин, например, о ...+Вп ... +Mg„ п п мы под символом Р понимаем вероятность, определенную на том пространстве элементарных событий, на котором определены слу- чайные величины igi, ..., £п. Однако совершенно нетривиален вопрос о том, существует ли такое пространство. Пусть, например, мы хо- тим, чтобы все 'случайные величины ..., gn имели одинаковое рас- пределение, т. е. принимали значения а2, ...» с вероятностя- ми pi, р2, ..., рп,— и были в совокупности независимы. Как по- строить соответствующее пространство Q? В п. 3.1 мы отметили, что для одной случайной величины до- статочно в качестве Q взять множество {«i, а2, ...,an,...} и положить Р(аг)=Рг и Довольно ясно, в соответствии с пунктом 2.3, что для построения пары независимых случайных величин надо взять множество пар (ай aj), положить Р{(аг-, а,-)} = Р(аг-) Р(а;-) == = pipj (прямое произведение вероятностных пространств) и счи- тать, что Si {(flu я,)} = alt {(alt а,-)} = а,- (доказательство независимости gi и g2 предоставляется читателю). В таком случае для построения п случайных величин нужно взять n-кратное произведение пространств: элементарными событиями будут наборы (а^аг, ...аг„), причем Р{а1,а1г.. .ain)} = pit pit... р t, и ain)} = aik. Но тогда при каждом n получается свое пространство элемен- тарных событий и своя вероятность. Нельзя, следовательно, гово- рить о вероятности (4.Г), и надо говорить о вероятности (4.2'> Но как быть с вероятностью, относящейся к случайным величинам gi, ..., где k<n> Их можно рассматривать на пространстве эле- ментарных событий для k величин, (&+1) величины, (k + 2) вели- чин, ..., п величин. Будут получаться вероятности Р&, Рь+ь Рп- Может быть, вместо (4.2Z) следует рассматривать ► 1 Si + . • + Вп + ... + MBn п (4.3'> для всех Почему-то ничего такого нет ни в одном учебнике теории вероятностей. 165»
Естественно поэтому постараться все величины §2, •••» 5п, ••• (в бесконечном числе) определить на одном пространстве. В ка- честве пространства можно было бы взять множество бесконечных последовательностей (а^а^... Но здесь нас ждет очень серьезное затруднение: это множество не будет счетным, так что на нем нельзя вести вероятности таким простым образом, как ука- зано в § 1. Ясно, что если положить р;{(ад,... а1п)} = pilPii чо, как правило, в правой части получим нуль. Выход из этого затруднения указывается одной из знамени- тых теорем А. Н. Колмогорова (см. А. Н. Колмогоров [11]). Ока- зывается, что на множестве последовательностей все-таки можно задать вероятностную меру. Однако эта теорема лежит за преде- лами данной книги. Логически она не необходима: мы предпола- гаем, что все наши случайные величины заданы на одном прост- ранстве элементарных событий, и нас мучает не логика, а только совесть: не рассматриваем ли мы нечто такое, чего вообще не мо- жет быть? Для успокоения совести достаточно знать о существо- вании теоремы Колмогорова, не умея ее точно формулировать и доказывать. Такое же положение повторяется при введении аксио- матики, основанной на теории меры: достаточно знать о существо- вании теории Лебега, из которой следует, что введенный аксиома- тикой класс объектов в самом деле не пуст. Чрезвычайно важно искоренить заблуждение, встречающееся иногда у недостаточно знакомых -с теорией (вероятностей инжене- ров и естествоиспытателей, что результат любого эксперимента можно рассматривать как случайную величину. В особо тяжелых случаях к этому присоединяется вера в нормальный закон распре- деления, а если уж сами случайные величины, не нормальны, то верят, например, что их логарифмы нормальны. Здесь нужно от- мечать, что нормальности нет потому, что нет случайности, а слу- чайность означает, что можно говорить о вероятности P{geA} того, что случайная величина £ примет значение, являющееся эле- ментом числового множества А (А—практически любое множество чисел). Последнее означает, что событие {geA} должно обладать статистической устойчивостью. При необходимости сослаться на •авторитет или указать литературу лучше всего использовать гл. XIII книги А. Хальда [24]. Вообще, в странах с развитыми при- менениями математической статистики важность выделения стати- стически устойчивых экспериментов давно и хорошо понята. Замечанияк§5 Математическая статистика — наука, устроенная довольно своеобразно. Если бы общие дефиниции различных наук не ка- 166
зались в настоящее время потерявшими всякий смысл, то при- шлось бы сказать, что математическая статистика занимается оп- ределением по опытным данным тех самых вероятностей отдель- ных элементарных событий, которые в § 1 предполагались за- данными. Чаще, впрочем, приходится заниматься определением распре- делений случайных величин (мы несколько сдали первоначальную позицию и не требуем уже определения вероятностей всех элемен- тарных событий, что является более сложным делом). Вдумываясь несколько глубже в реальные практические возможности матема- тической статистики, мы будем принуждены сдать и эту позицию и сказать, что небезынтересно бывает хотя бы определить, каки- ми не могут быть распределения случайных величин, на- блюдаемых в опыте. Последняя задача формализуется как задача проверки статисгичеоких гипотез, рассмотренная в § 5. В конечном счете мы приходим к определению содержания науки исходя из действительно решаемых ею конкретных задач. В математической статистике можно выделить, пожалуй, три основных понятия. В § 5 рассматриваются два из них — понятие статистической значимости (уровня значимости) и понятие функ- ции мощности статистического критерия, или, что тоже самое, по- нятия ошибок первого и второго рода. Третье основное понятие статистики—понятие доверительного интервала — будет рассмотре- но позже. По существу все эти понятия были известны еще Лапла- су, но эволюция научного языка привела к тому, что теперь они выражаются совершенно иначе. Язык, принятый в §5, не является вполне общепринятым. На- пример, знаменитый английский статистик Р. Фишер называет рассуждение о том, что гипотеза либо верна с вероятностью 1,. либо неверна (верна с вероятностью 0), жалким софизмом. Одна- ко этот язык принят в настоящее время подавляющим большинст- вом специалистов. В процессе изучения статистических понятий ошибки первого - и второго рода желательно рассматривать одновременно. Однако понятие ошибки второго рода требует указания, кроме основной гипотезы Яо, множества альтернативных гипотез {Нх, Х#=0}. Ино- гда альтернативные гипотезы трудно специфицировать. Например, пусть гипотеза Но состоит в том, что некоторые испытания незави- симы. Альтернативная гипотеза не может быть выражена в виде: «испытания зависимы», потому что указание альтернативной гипо- тезы Н х должно позволить находить вероятности Р{х^А/Н %} того, что результат опыта х попадет в какое-то множество А при вер- ной гипотезе Н%. Следовательно, надо гораздо точнее задать род зависимости испытаний, т. е. задать не просто вероятности исхо- дов отдельных испытаний, а совместную вероятность совокупности их исходов. Но это обычно трудно бывает сделать. Например, пред- положение о марковском характере зависимости не так уж часто бывает естественным. 167'
В тех случаях, когда понятие альтернативной гипотезы рас- плывчато, имеет смысл лишь вероятность ошибки первого рода. В таких 'Случаях важно лишь понятие уровня значимости. Первое знакомство со статистической проверкой гипотез обыч- но затруднительно для учащегося. К этому вопросу необходимо несколько раз возвращаться на упражнениях. Вообще, упражнения на испытаниях Бернулли и теорема Пуассона должны быть в ос- новном связаны с проверкой гипотез. Придумывание таких задач не составляет труда. Например, «В партии изделий не менее поло- вины изделий должно быть первого сорта. При случайной провер- ке 10 изделий лишь одно из них оказалось первого сорта. Какой .можно сделать вывод? Тот же вопрос, если 3 изделия оказались первого сорта». На таких задачах можно показать, каким образом .теория ве- роятностей приводит к практически достоверным выводам. Задачи с ошибками первого и второго рода целесообразно основывать не на биномиальном распределении, а на более про- стом распределении Пуассона. Например, «Качество партии изде- лий считается удовлетворительным, если дефектные изделия со- ставляют не более 2%. Сколько нужно испытать изделий из пар- тии, для того чтобы партию, содержащую 3% дефектных изделий, отвергать с вероятностью не менее 0,99, а партию, содержащую 1 % дефектных изделий, принимать с вероятностью не менее 0,95?» Решение. Если проверять п изделий, то для партии с долей брака pi = 0,01 число дефектных изделий gi подчиняется закону Пуассона с параметром М = а для партии с долей брака р2 = 0,03 число дефектных изделий цг подчиняется закону Пуассо- на с параметром Х2 = пр2- Каким образом должен решаться вопрос о принятии партии? Очевидно, единственно разумный способ состоит в следующем: вы- бирается некоторое число k такое, что если число дефектных изде- лий ц среди проверенных п изделий k или больше kf то партия отвергается, т. е. критическая область имеет вид Согласно условию задачи, п должно быть таким, чтобы существовало такое k, что P{Hi<*}>0>95, Р{|ла >k} > 0,99. Иначе говоря, 1 £-2-Х.>0,95; 2^-Х.<0.01, х=0 х==0 где Xi = npi, Хг=пр2. С помощью таблиц распределения Пуассона такое п легко находится подбором: сначала пробуем п=500? т. е. Х1=5, Л,2=15. Для выполнения первого неравенства нужно взять fe=10, тогда0,070>0,01. Пробуем п=800. Тогда х=0 168
%i = 8, A,2=24. Для выполнения первого неравенства нужно взять &=14. Тогда вторая сумма равна 0,010, так что задача решена: нужно взять п=800. Следует обратить внимание на огромную ве- личину п\ маленькие вероятности pi = 0,01 и р2=0,03 различать трудно. Приведенное решение задачи несколько условно из-за ис- пользования приближенной -формулы Пуассона на правах точного выражения. Но практически довольно условно постоянство вероят- ностей р\ и р2, так что (применение 'более сложной аппроксимации биномиального распределения практически не оправдано, тем бо- лее, что практически интересно лишь приближенное знание числа и. Чрезвычайно полезно также нарисовать трафик вероятности отвергнуть вторую партию с р2=0,03 в зависимости от числа про- веряемых изделий п и при условии, что (т. е. при заданной вероятности отвергнуть удовлетворительную партию). Этот график называется оперативной характеристикой статистического критерия Заметим, что затронутому здесь вопросу о контроле качества продукции посвящена обширная литература. Наибольшим успехом в этой области является последовательный анализ Вальда [5]. Но все статистические методы контроля могут быть полезны лишь при наличии статистически устойчивого («статистически под- контрольного», как говорит в своей книге Хальд 1[24]) производ- ства. Замечания к § 6 В кратком курсе теории вероятностей, предназначенном для естествоиспытателей, не-следует уделять много места теории меры и теоремам типа усиленного закона больших чисел, поскольку эти теоремы не имеют существенной естественнонаучной интерпрета- ции (любопытно отметить, что в аксиоматике теории Мизеса, соз- данной его последователями, имеются специальные аксиомы, по существу запрещающие рассматривать такие теоремы). С другой стороны, имеются веские основания для введения интеграла Лебега. Речь идет прежде всего о введении понятия ма- тематического ожидания. Нельзя обойтись без формулы М/а)= f f(x)^(dx) (6.1') -00 или -хотя бы без ее варианта для случая, когда щ имеет плот- ность 169
M/Q)= J /(x)pg(x)dx. — 00 Эту формулу нельзя, к сожалению, ввести просто в качестве опре- деления математического ожидания. Дело в том, что случайная ве- личина ri=|f(£) имеет собственную плотность распределения Рп(х), следовательно, Мт] = М/(?)= j\pn(x)dx. —00 Следовательно, нужно уметь доказать, что если т| = /(£), то J xpn(x)dx = J f(x)pi(x)dx. —оо —оо Если функция f взаимно однозначно отображает R1 в /?’, то это просто. Но в случае неоднозначной функции это сложно. Анализ возможных способов доказательства этого равенства показывает, что они используют, по существу, способ построения интеграла Лебега. Методически недопустимо, чтобы существующие в матема- тике достаточно общие и ясные понятия вводились в неявном ви- де. Кроме того, интеграл Лебега одинаково пригоден для одно- мерной и многомерной случайной величины g (см. А. Н. Колмого- ров [11]). Интеграл Лебега по способу своего построения, бесспорно, проще, чем интеграл Римана. Разберем, на чем основана эта про- стота. Римановы суммы составляются из значений интегрируемой функции, умноженных на длины отрезков. Лебегова сумма имеет вид V —рЛо; — <|((о) <-*±11 i-J П [ П п J k=—оо Таким образом, считается возможным «измерять», т. е. приписы- вать значения меры Р множествам вида J<о : — < | (ю) << - fe±1 1. I п п J Если даже iQ={o} есть отрезок [0,1], функция £(со) гладкая, то все равно множества А <£(©)< _*±±1 ( П П J могут быть сложными. Например, для функции соа sin -± такие множества состоят из счетного объединения полуинтервалов. Счет- ные множества таят неожиданности. Например, не так просто др- 179
казать, что если интервал [0,1) представлен в виде объединения счетного числа интервалов Aj: [О, 1) = Q Аг, А,А3 = 0, м во то длина /{(0,1)} равна сумме длин^/(Л4). Если интервалы i=i Ai уложены на интервале (0,1) по порядку, например Д =Г1— —, 1———Y / = 1,2, ... , I » »+1 / то утверждение очевидно. Однако необязательно концам интерва- лов А{ накапливаться именно к точке 1: они могут накапливаться к точке ‘Л: а к системе интервалов А<, t =2, 3, ... можно прибавить еще интер- вал —, 1 ), чтобы покрыть весь отрезок [0,1). Далее, можно счи- тать, что точек накопления концов интервалов не одна, а счетное множество, и сами такие точки имеют точки накопления, притом тоже счетное множество и т. д. Неудивительно, что наше утвержде- ние нуждается в нетривиальном доказательстве (в книге А. Н. Колмогорова и С. В. Фомина [13] аналогичный вопрос разо- бран в § 1 гл. V). Поэтому вопрос об «измерении» множеств типа <(о : — <£ (со)< нетривиален. ( п п J Тем не менее, после построения лебеговской теории меры этот вопрос решен положительно. В дальнейшем было выяснено, что положительное решение вопроса распространяется не только на случай прямой, плоскости и евклидова пространства, но и на го- раздо более широкий класс пространств. Таким образом, выясни- лось, что модель, в которой вероятностная мера задана на некото- рой а-алгебре, имеет массу применений. В настоящей книге не- сколько «паразитически» используется это установленное прогрес- сом науки обстоятельство: просто постулируется аксиоматика Колмогорова (аксиомы 6.1—6.5) без приведения конкретных при- меров. С чисто логической точки зрения такая позиция безупреч- на; для успокоения совести достаточно просто знать (без строгого доказательства), что постулировано не что-то искусственное, а вещь, имеющая большие применения. При приведении примеров (примеры 6.1 и 6.2) приходится признать, однако, отсутствие пол- ных доказательств. Таким образом, общую методическую установ- ку данной книги можно сформулировать как «интеграл Лебега без теории меры». Такая установка является заведомо приемлемой, 171
если курс теории меры имеется в учебном плане, хотя бы после курса теории вероятностей. В случае, если ни в каком курсе, кро- ме курса теории вероятностей, теории меры в том или ином виде нет, вопрос о допустимости такого подхода может быть спорным. При наличии времени нужно включать в курс теории вероятностей теорию меры и интеграла Лебега (используя, например, |[13]). Однако если такой возможности нет, то, по мнению автора, будет потеряно не слишком много: вряд ли естествоиспытателю приходится измерять сложные множества с помощью лебеговского продолжения меры. С другой стороны, построение лебеговского интеграла с использованием готовой теории меры настолько про- сто, обще и удобно, что должно быть известно каждому знакомому с основами современной математики естествоиспытателю. К п. 6.1. Допущение счетных операций над событиями чрезвы- чайно удобно с чисто математической точки зрения, но явно выво- дит в самых простейших случаях (пример 6.1) за рамки наглядно представимых подмножеств множества Й. Однако не существует какого-либо более простого средства обеспечить необходимые мате- матические удобства. Например, если последовательность случай- ных величин (т. е. измеримых функции) £ni(co) сходится при ка(Ж? дом со к функции g(со), то §(со) измерима. Доказывается это так: ОО Г- 00 z 00 1 А ~] = Q Г Ц ПЦи)<с+ }, m=l L£=l \л=/г m ' J т. e. с полным использованием счетных теоретико-множественных сумм и пересечений. Понятие наименьшей o'-алгебры, содержащей данные множест- ва, довольно трудно определить, если исходить из того, что нужно рассматривать те множества, которые получаются из данных сна- чала счетным суммированием или пересечением, затем счетным суммированием или пересечением тех множеств, которые получи- лись на первом этапе, и т. д. Здесь требуется применение трансфи- нитных чисел (см. П. С. Александров [1]). Данное в § 6 определе- ние наименьшей o'-алгебры напоминает незаконные способы опери- ровать с теоретико-множественными терминами, но пока что при- знается достаточно законным. При рассмотрении примера 6.1 употребляются понятия замк- нутого и открытого множества и их простейшие свойства. Этот материал включается в курс математического анализа. Если на него почему-либо нежелательно ссылаться, то основной факт — что практически все функции на единичном отрезке измеримы по Бо- релю, можно проиллюстрировать, нарисовав график функции и показав, что {со: fi(co) есть сумма конечного или счетного чис- ла интервалов. К п. 6.2. Для случая интеграла Лебега дается минимальный набор определений и теорем, необходимый для целей данной кни- 172
ги (практически, для (введения определения математического ожи- дания). Более подробно см. [13]. В тех случаях, когда интеграл Римана существует, он равен интегралу Лебега. Можно было бы подумать, что современный курс математического анализа может вообще не содержать инте- грала Римана, а только интеграл Лебега. Это, однако, заблужде- ние. Дело в том, что интеграл Лебега неестествен для ориентиро- ванных многообразий. Простейший пример, на котором можно по- чувствовать разницу, заключается в следующем. Если х=<р(/), причем ф(/о) =л, q>(T) = Ь, то ь. т dx= Jf(<p(0)q>'(0^ • (6.4') a t9 для интеграла Римана и ь т ф' (О I dt (6.5') а для интеграла Лебега. Однако формула ,(6.4') верна всегда, а фор- мула (6.5') верна лишь для монотонных функций <р(/). ь Интеграл §f(x)dx по отрезку [а, &] существует таким обра- а зом, в двух видах — ориентированном и неориентированном. Ори- ентированный интеграл дает начало обобщениям на многообра- зия, в частности, знаменитой формуле Ньютона—Лейбница—Гаус- са — Грина — Остроградского — Стокса — Пуанкаре. Неориен- тированный интеграл дает начало интегралу Лебега и общему понятию математического ожидания. J7(x)dx = ff(<p(0)| Замечания к § 7 К п. 7.1. Цель этого параграфа — перенести на общий случай свойства случайных величин и математических ожиданий, извест- ные ранее для дискретного случая. .(Формула . М(а| + 6т]) = аМ£ + 6Мт) уже установлена в конце § 6.) Иногда такое обобщение делается в два этапа: сначала все переносится на одномерные случайные величины и затем — на многомерные. Использование интеграла Лебега .позволяет рассматривать сразу многомерный случай. Возникает вопрос, следует ли при изложении теории вероятно- стей сначала рассматривать дискретный случай и лишь затем — общий. По мнению автора, с точки зрения чисто математиче- ской не требуется подготовительного курса дискретной теории вероятностей. При мало-мальски приличном изложении, наличии 173
учебных пособий и продуманном ведении упражнений студенты разберут любой курс. Однако для обсуждения принципиальных во- просов применимости теории вероятностей следует начинать с про- стой дискретной модели. Общая модель, с точки зрения естество- испытателя, не является до конца естественной (см. начало п. 2 § 6), и внимание слишком связывается математическими трудно- стями. Все множества, рассматриваемые в § 7, борелевские, все функ- ции на Rn— измеримые по Борелю. Практически это не наклады- вает никаких ограничений. Можно было бы рассматривать вместо Rn в качестве множества значений случайных величин любое мно- жество R, в котором выделена о-алгебра подмножеств 9R. Тогда определение случайной величины со значениями из R выглядело бы так: £=£(со) есть отображение iQ-*-R такое, что для любого МеЗЛ прообраз £-1(М)е®. При этом на SR индуцируется мера по формуле: (м)=р м (ю) (м}=р м>: При рассмотрении случайных точек на сфере, случайных матриц и т. д. имеются в виду определения именно по такой схеме. При этом автоматически сохраняются теоремы 7 Л и 7.2. К п. 7.2 и 7.3. Что реально означает интеграл Лебега J/(x)p5(dx), т. е. каким образом его следует вычислять? Можно было бы опа- саться, что построение книги по принципу «интеграл Лебега без теории меры» приведет в этом месте к неприятным последствиям. Однако это не так: никто не вычисляет интегралов Лебега, опре- деляя сначала меру с помощью лебеговского продолжения. Част- ные случаи, в которых такое вычисление возможно, изложены в п. 7.2. Случай существования плотности распределения противопо- ставляется дискретному случаю. В большинстве случаев именно так и бывает: если случайная величина недискретна, то она имеет плотность распределения. Однако не-мешает описать строго воз- можные здесь случаи. Определяемая по формуле щ(В)=Р{|еВ} мера pj в евкли- довом пространстве Rn сопоставляется с мерой Лебега I в этом пространстве (мера Лебега на несложных множествах совпадает с объемом, а на множествах, устроенных сложно, определяется с помощью лебеговского продолжения меры, но нам нет нужды вхо- дить в детали этого построения). Действительно, плотность р\ (х) есть (измеримая по Борелю) функция, удовлетворяющая соотно- шению P{^B}=MB) = Jps(x)dx, в 174
где под dx понимается элемент лебеговской меры (придерживаясь единых обозначений, следовало бы писать j* pg (x)£(dx)). Из тео- в рии меры известен следующий факт. Пусть на некоторой о-алгебре подмножеств определены две меры ц и v. В таком случае меру у, можно представить в виде Р = |А1 + |А2, где 1) мера pi абсолютно непрерывна относительно меры v, т. е. существует (измеримая) функция Pi(x) такая, что1 *: Hi(B)= fpiWv(dx); в 2) мера р.2 сингулярна относительно меры v, т. е. существует множество См, такое, что На (Оч) = 0> v (GO = О (иными словами, мера y,2 сосредоточена на множестве Сщ таком, что v(Cg,) = 0). Следовательно, вероятностная мера pg в евклидовом прост- ранстве Rn представляется в виде р5 = Pi + ps, где мера pi имеет плотность относительно меры Лебега I, а р2 син- гулярна относительно I. В том случае, когда pg = pi, плотность меры pi совпадает с плотностью меры pg, и этот случай предла- гается называть абсолютно непрерывным. Интересен вопрос, какими могут быть меры р2, т. е. сингуляр- ные меры. Достаточно рассмотреть случай, когда pg = p2, т. е. аб- солютно непрерывная компонента pi распределения pg отсутствует. В этом случае мера pg сосредоточена на множестве С таком, что 1(C) =0. Для случая пространства Rn размерности п>1 такие множества возникают совершенно естественно: во-первых, это мно- жества, состоящие из счетного числа точек, а во-вторых, все по- верхности (кривые) размерности меньшей п. В случае и=4 счет- ные множества, конечно, также имеют лебегову меру нуль, но при- ведение примеров других множеств нулевой меры оказывается сложнее. Пожалуй, самым лучшим примером здесь оказывается канторовское множество. Оно строится следующим образом. Бе- рется отрезок [0,1], делится на три части: 1 Функция Р\(х) называется плотностью меры pi относительно меры v и иногда вводится обозначение ^(х)==^(х)- |7§
[о, А], (±, А\ ГА, 1] L з J \з з/ L з J и средний интервал выбрасывается. Каждый из двух оставшихся интервалов вновь делится на три части и средний (открытый) ин- тервал выбрасывается. То, что остается после этой процедуры, повторенной счетное число раз, называется канторовским совер- шенным множеством С, Сумма длин выброшенных интервалов есть _!_ + 2. А+ 4.-L + ... _ Ay P-Y =!. 3 9 27 2 к 3 J п=1 Поэтому 1(C) =0. Канторовское множество может быть еще опи- сано как множество точек хе[0,1] таких, что в представлении х = х =0, 1, 2; Зп п в виде троичной дроби «цифры» хп не равны 1, а могут принимать лишь значения 0 и 2. Выброшенные при построении С интервалы называются смежными интервалами; каждый смежный интервал может быть охарактеризован как множество точек хе(0,1] таких, что «цифры» Хп троичного разложения х выглядят так: несколько первых «цифр» Xi, ..., Xk принимают значения 0 или 2, а «цифра» Хл+1=|1. Один из удивительных математических фактов заключается в том, что испытания Бернулли (бросания монеты) можно интер- претировать как случайное бросание точки в канторовское мно- жество С. Единственное, что нужно для этого позволить, — это рассматривать счетные последовательности испытаний Бернулли. Положим £п = 0, если при n-ном бросании монеты выпала цифра, и £п=2, если при n-ном бросании монеты выпал герб. Составим 5 = У-Ь- Zj з* n=l и тогда | — случайная точка множества С. Рассмотрим функцию распределения аю=₽{&<*}• Ясно, что если х меняется в пределах одного смежного интервала, то Р{|<х} остается постоянной. Следовательно, график монотон- ной функции F$(x) образует нечто вроде лестницы: горизонталь- ные ми. площадки «ступеней» расположены над смежными интервала- clFr (х) На каждом смежном интервале существует —о 0, Сле 176
Действи- dFt (х) руществования —5—) при всех х, то не будут охвачены dx > о 4 (Х) довательйо, на множестве лебеговскои Меры 1 имеем —-— = 0. dx В точках множества С эта производная не существует. Таким образом, определять плотность р^(х) распределения (х) случайней величины g равенством р^(х) =—------ нельзя, тельно, если потребовать выполнения этого равенства (следова- тельно, важные случаи, вроде показательного распределения (у которого ^(0)х не сущертвует —-— ). Если же допускать нарушение этого ра- dx J венства в отдельных точках х, то нужно прибавить, что эти ис- ключительные точки образуют довольно редкое множество. Но какое именно? Обычно говорят, что лебеговская мера этого мно- жества должна быть равна нулю. Однако в только что рассмот- (х) ренном примере—5— = 0 на множестве меры 1. Между тем dx явно нельзя считать, что плотность Ръ(х)=0. Можно показать, что следующее определение будет корректным: если р^(х) =—5— dx существует во всех точках, кроме множества лебеговской меры 0, и J Pfe (x)dx = 1, то Ръ(х) называется плотностью распределения. Однако методи- чески проще дать интегральное определение плотности (определе- ние 7.5), удобное в многомерном случае. Иногда (например, при рассмотрении показательного распре- деления) требуется по функции F%(x) найти /%(х). Можно пока- зать, что равенство P{UB} = $Pl(x)dx в не нужно проверять для всех борелевских множеств В. Достаточно проверить это равенство для всех интервалов. Если В= [а, Ь), то Р{И В} = Р{£<b}-Р{£<а} = Fg(6) -Fg(а), так что достаточно установить, что ь > Fg-(6)-Fg(a) = jpg(x)dx. 177
Это эквивалентно (как легко видеть) равенству X { Рь(У)6у. V —ОО Следовательно, это равенство можно считать определением плот- ности. Однако возможность перехода от класса борелевских множеств к классу интервалов требует обоснования (в § 7 этот вопрос намеренно смазан). Это обоснование делается следующим образом. Рассмотрим две функции множества В: Р{£еВ} и Jpj(x)dx. Обе эти функции являются счетно аддитивными в функциями В (см., например, [13]). Нам дано, что эти две функ- ции совпадают для интервалов. По теореме о единственности про- должения меры они совпадают и для всех борелевских мно- жеств В. Таким образом, приходится сослаться на две теоремы: о счет- ной аддитивности интеграла- и о единственности продолжения меры. Мы видим, что, приняв принцип «интеграл Лебега без теории меры», невозможно сделать изложение абсолютно строгим. Под- черкнем, однако, что «принцип» этот не является обязательным: дело тут лишь в экономии времени. Что приобретает будущий естествоиспытатель, если будет знать полное доказательство того, что из соотношения A(*)e J PdVldy —00 вытекает, что для любого борелевского В в Для интервалов и конечных сумм интервалов это непосредственно очевидно. Более сложные борелевские множества вряд ли имеют физический смысл. Фактически, например, для показательного распределения речь идет о том, получить ли эвристически фор- мулу F6(x) = l —г-** и затем строго доказать, что р$(х) =/.е~Кх, или продолжить эвристические рассуждения на один шаг дальше и «нестрого» получить ту же формулу для pg(x). Однако при получении Fg (х) столько «нестрогостей», что эта последняя не имеет никакого зна- чения для справедливости результата. В конце п. 7.3 (пример 7.1) читатель впервые сталкивается с эвристическим выводом закона распределения в теории вероят- 178
ностей на примере показательного закона. Иногда встречается заблуждение, согласно которому считается, что такие рассужде- ния, основанные на сравнительно произвольных вероятностных моделях, тем не менее являются строгими доказательствами того, что должен выполняться определенный закон распределения. Разъяснить ошибочность такого взгляда легко: собственно, он встречается лишь у тех, кто не понимает до конца использованных рассуждений. Труднее сделать убедительной ту идею, что хорошие вероят- ностные закономерности продолжают оставаться справедливыми, даже если нет полного согласия с действительностью у той прос- той модели, на основании которой они выведены. Отмеченная гар- моничность показательного закона: min(gi, ..., gn) имеет показа-' тельное распределение, если каждая из независимых величин Вп имеет показательное распределение; показательный закон и закон Пуассона тесно связаны — не остается без отклика в при- роде. Беда в том, что так называемые «статистические» данные чаще всего будут отвергать гипотезу о показательном законе. Однако можно думать, что это иногда случается потому, что дан- ные не являются «статистическими», т. е. у них нет статистиче- ской однородности. К п. 7.4. Попытка строить теорию многомерных случайных величин на основании многомерной функции распределения обре- чена на неудачу [11]. В п. 7.4 описана одна из причин этого, свя- занная с невозможностью изменения системы координат. К этому можно прибавить следующее. В одномерном случае М/(!)= J /(x)dF6(x), —00 где интеграл можно понимать в смысле Римана—Стильтьеса. В многомерном случае пришлось бы рассматривать интегралы вида J • • • J f(*i......х„)dnFlt...ln(хь ... » хп). —00 -м Однако у n-кратного дифференциала ••• . хп) нет даже установившегося обозначения. Кроме того, по-видимому, ни у кого еще не хватило терпения выписать подряд все формулы, какие нужно для обоснования теории таких интегралов. Особенно «приятно» вычислять такие интегралы, если распределение слу- чайного вектора |=(|ь ..., |п) сосредоточено на некоторой поверх- ности (ср. случай 4) п. 7.2). Пропадает и естественная характеризация класса функций, могущих быть функциями распределения: накладывается условие, 179
которое (наглядно состоит в том, что для любого .параллелепипеда С вероятность Р{£еС}, определенная по функции (xi,...,xn) с помощью составления «смешанной разности» от нее, была бы неотрицательна (см. В. Феллер [22], т. 2, стр. 167). Основным способом задания меры в многомерном случае яв- ляется (кроме дискретного случая) задание плотности распреде- ления. При выводе основной теоремы 7.4 для преобразования плот- ности распределения требуется использовать понятие якобиана преобразования. Нельзя сказать, чтобы это понятие не было чет- ким для современных курсов математического анализа. Однако эта четкость совершенно скрывается традиционно сложившимися обозначениями. Например, в обозначении совер- ' & (Х1» • • •» хп) шенно не видно, в какой точке берется значение якобиана. В са- мом деле, уже для функций одной переменной записывается формула dx -1-1 dy . dy dx Но что она означает? Во-первых, никто не оспаривает, что —— и — это функ- dx dy ции. Следовательно, написанную формулу следует понимать как равенство двух функций. Две функции одного и того же перемен- ного называются равными, если равны их значения при одном и том же значении аргумента. Но функции -^-^и есть функции dx * dy разных аргументов — соответственно, х и у. А что значит, что функции двух разных аргументов равны — этого, пожалуй, никто не знает. Можно было бы считать, что они равны, если равны их значения при подстановке одного и того же числа вместо аргумен- та. В таком случае sinx=siny, но dy , Г dx "I—1 dx L J Конечно, здесь речь идет о чисто языковой небрежности: неболь- шим размышлением можно установить, что хотят сказать следую- щее: если /'(xjyzO, то некоторая окрестность точки х взаимно однозначно отображается на окрестность точки f(x), причем Более естественно это выглядит, если оператор производной обо- значить не f', a Df: ДА-1 (/(*)) = [W)]-1- Во избежание путаницы предлагается то же самое обозначение использовать для якобиана. 180
Теорема 7.4 является общей и удобной. Например, из нее немедленно вытекает результат примера 7.2. Необходимо под- черкнуть, что в этой теореме f — взаимно однозначное отображе- ние Rn в Rn. В случае не более чем счетной кратности отображе- ния (т. е. /-1(х) счетно) имеем: yet-'M Для непрерывных плотностей распределения теорему 7.4 можно вывести следующим образом. Будем обозначать через U(x) окрестность точки х и через lim предельный переход, при ко- U(x)lx тором диаметр U(x) стремится к нулю. Пусть T] = f(|). Очевидно, что для непрерывней имеем Рп (х) = lim UM lx Phet/(x)} V(.U(x)) ’ где V обозначает объем. Имеем далее ПпГ Р = Hm P{f®eU(x)} = им lx V(U(X))\ им lx V(U(X)) = Hm H/W))} = V{f'(U(x))} ’ V (U (х)) = lim х v {t7 (/-*(x))} X lim = pg (/-1 (X)) I DP (x) I. U(x)lx V(U(x)) В n. 7.4 принято иное доказательство, основанное на формуле замены переменных, справедливой для любых измеримых функ- ций (в курсах анализа она доказывается для непрерывных функ- ций, но ее распространение на измеримые функции делается самым стандартным предельным переходом). При определении (определения 3.4 и 3.5) независимых слу- чайных величин в дискретном случае участвовали произвольные множества Л, В (определение 3.4) и А\, ...,Ап (определение 3.5). В общем случае слово «произвольные» надо заменить словом «бо- релевские», но для естествоиспытателя это безразлично. Теоре- ма 3.5 вместе с доказательством остается в силе, только «любые» функции надо заменить на «измеримые по Борелю». Достаточное условие независимости случайных величин, вы- раженное через плотности распределения, доказывается на основе теоремы о произвольности порядка интегрирования. Для интегра- лов Римана эта теорема должна быть известна читателю; в спра- ведливость ее для интегралов Лебега (теорема Фубини) читатель легко поверит. 181
Замечания к § 8 В § 1—7 речь шла об основных понятиях теории вероятностей и связях между ними, которые часто выражались в виде тривиаль- ных теорем ’. Настоящее содержание теории вероятностей впер- вые серьезно затрагивается в § 8, посвященном центральной пре- дельной теореме. Поскольку в части, касающейся основных определений, в настоящей книге изложен (хотя и кратко) по су- ществу весь необходимый научный материал, то замечания к§ 1— 7 имели форму методических комментариев к отдельным пунктам этих параграфов. Ничего подобного нельзя сказать о материале § 8, так как он охватывает лишь небольшую часть научных ре- зультатов, связанных с центральной предельной теоремой. В ин- тересах преподавателя теории вероятностей —"прежде всего шире познакомиться с этими результатами. Поэтому замечания к § 8 своей основной целью имеют расширение научного содержания. 8.1'. Многомерное нормальное распределение. В распростра- ненной учебной литературе недостаточно полно описан многомер- ный аналог нормального распределения, введенного в п. 8.2. Мы дадим вариант изложения, в котором за счет применения линей- ной алгебры достигается большая сжатость. Определение 8.1'. Пусть g= (|i,..., |п) — случайная ве- личина с векторными значениями. Вектором математических ожиданий называется вектор [л% = (М51,...,ми, матрицей ковариаций Cg называется квадратная симметричная матрица размером пХп, элементами которой являются ковариации v ’covfo, ^)=Ma/-M^)(^-MSi), i, /=1,...,'л. Лемма 8.1'. Пусть х=(х\, хп) есть любой неслучайный вектор. Тогда D(x, £) = (Qx, х), где D обозначает дисперсию, а(х, £) — скалярное произведение х на £. Доказательство. D(x, g)=D{2*^} = Z=1 1 Исключением является, в частности, закон больших чисел, доказательство которого хотя и просто, но совершенно нетривиально (в том смысле, что ничего подобного нет в математическом анализе, так что закон боль- ших чисел является самостоятельной теоремой, а не перефразировкой известных утверждений). Г82
= 2 X^COVfo, ^) = (C6x, X), /./=1 где, разумеется, cov(g{, £<)=Dgi. Лемма 8.2'. Для того чтобы распределение вектора § было сосредоточено в некоторой гиперплоскости, необходимо и доста- точно, чтобы матрица Cj была вырожденной. Доказательство. Всякая гиперплоскость имеет вид £ = {X = (хъ ... , х„): (а, х) = q}, где а= (аь ап) — нормальный к этой гиперплоскости вектор и q — действительное число. Для того чтобы распределение векто- ра £ было сосредоточено в L, необходимо и достаточно, чтобы при некотором q Р{(а, £) = ?} = 1, иначе говоря, чтобы D(a, £)=0, т. е. (Cga, а)=0, что и означает вырожденность симметрической неотрицательно определенной (в силу леммы 8.Г) матрицы Cg. Лемма, 8.3'. Пусть т]=Л£4-а, где а — неслучайный вектор, А — неслучайная матрица. В таком случае С»| = АС$А', где А' — транспонированная матрица А. Доказательство. Имеем D(x, i])=D(x, Al + a)=D(x, Al) = = D(A'x, I) = (CtA'x, A'x) = (ACt A'x, x). С другой стороны, в силу леммы 8.1', D (х, т]) = (СпХ, х). Лемма доказана. Изложенные результаты имеют место для любого случайного вектора £ (предполагается, конечно, существование дисперсий его компонент). Переходим теперь к определению и изучению нор- мально распределенных случайных векторов. Определение 8.2'. Стандартным нормальным распределе- нием называется распределение вектора g=(£i. £п), компонен- ты которого независимы и имеют каждая одномерное нормальное распределение 7V(0,l). Замечание. Плотность pg(х) распределения вектора £ имеет вид -2 (х, х) л л / 1 *12. / 1 \ „ 2 П1 2 \ / 1 \ л Очевидно, что Cg =£, где Е — единичная матрица. 183
Определение 8.3'. Нормальным распределением назы- вается распределение вектора т] = Л|+а, где А — матрица, а — вектор, £ — случайный вектор, имеющий стандартное нормальное распределение. Очевидно, что = а, Сп = АС$А' = АА'. Если матрица А вырождена, то вектор т] распределен на не- которой гиперплоскости; следовательно, его распределение не имеет плотности в пространстве Rn. Если матрица А невырожде- на, то невырождена и матрица ковариаций СП = ДЛ' и справедлива следующая теорема. Теорема 8.1'. Плотность рц(х) многомерного нормального распределения задается формулой Рп (*) = . г______ехр {—J-(Cr’ (х — а), (х — а)Ч (/2л)"/det Cn I 2 *• J\ Доказательство. Имеем (в силу теоремы 7.4) Дп (х)=~i~d£n" *(Л-1 (х -а))= = -.—=^------ехр /—Ь (Л-i (х — а), А-1 (х — а))} = (У2л) | det А | I 2 “ . -----ехР V с(лл')-1 (х — а),х — а)} (/2л)” | det А | I 2 (мы используем выражение (Л')-1 = (л“1)/» которое легко полу- чить, транспонируя равенство ЛЛ~'=Е). Учитывая, что АА' = СЪ, а, следовательно, | deL41 = ]/det, получаем требуемую фор- мулу. Замечание. Распределение вектора т) полностью опреде- ляется вектором тг\ и матрицей Сп. Это распределение обозна- чается через N(a, Сп) и называется многомерным нормальным распределением с параметрами а и Сч. — Пример. В двумерном случае матрица ковариаций векто- ра т] имеет вид с = /Driicov (тц, Th) \ = /<т? rfficr2 ”. \cov(Th, Th) Dt)2/ \Г(Т1<Т2 <r| где обозначено 9 г» 2 г» COV(Th, Гк) О1 = Dt]!, <т2 ,==Dih, Г =------ а2о2 18 4
(величина г называется коэффициентом корреляции между tit и т]2). Имеем det Сп = (1 — г2) о? at Поэтому в двумерном случае плотность нормального закона имеет вид VAYnf 1 Г (*1 —О1)2 2r(xx — Oj)(xs — Оа) |(х2 —Оа)21\ х ех₽ L + TJ Г Лемма 8.4'. Если вектор я=(яь .... Ят, Ят+ь •••> Яп) имеет многомерное нормальное распределение, причем cov (яь Я>)=0 при i=l, m\ j=m+'\, п, то случайные векторы (rji, .... Яш) и (т)т+ь Яп) независимы между собой. Доказательство. Правый верхний и левый нижний углы матрицы Сч заполнены нулями. То же самое верно для обратной матрицы С^1. Поэтому из теоремы 8. Г следует, что плотность распределения р^ вектора я распадается в произведение плотнос- тей распределений векторов (t]i, ..., Ят) и (ят+i, .... Яп)- Лемма доказана. Замечание. Таким образом, в нормальном случае если две случайные величины Я1 и яг некоррелированы, т. е. соу(яь Яг) =0, то они ;и независимы. Этот вывод, однако, верен только в том случае, когда известно, что двумерное распределение (яь Яг) нор- мально. Нормальности каждой из величин Я1 и яг для указанного вывода недостаточно. Лемма 8.5'. Если вектор (яь яг) имеет двумерное нор- мальное распределение, причем Мя1 = Мя2=0, то случайные вели- чины яг и 8 = Ях-cov^’ независимы между собой. Dq2 Доказательство. Имеем cov (S, Яа) = cov (Я1 Яа) — Dth = °- Оя» Следствие. В случае двумерного нормального распреде- ления имеет место равенство Ях-Мях = —^-(Яз-Мяз) + 5, где величина S не зависит от Я2. 185
Таким образом, если мы знаем величину т]2=Х2, то мы можем утверждать, что при этом условии распределение -qi есть распре- деление случайной величины 6 + Mtji + — —- (х2 — Мт)2). DT)2 Очевидно, что Мб=0, D б - Dih - Dri. = Dni (1 - г3), где г обозначает коэффициент корреляции между гц и т)2. Иными словами, при известном значении т]2=Х2 интуитивно понимаемое нами «условное распределение» величины r]i является нормальным с математическим ожиданием Мп.+ “V(?’ (х,-мп.) И дис- Dlh Персией DrUl-r2). Если отправляться от общепринятого определения условного распределения через отношение плотностей (см. Б. В. Гнеденко [8]), то получится, конечно, тот же самый результат, так как нетрудно проверить, что условное распределение б при известном Г12 будет, в силу независимости, совпадать с безусловным также и при строгом способе введения условных распределений (иначе сам способ их введения никуда бы не годился). Следовательно, при известном т)г возможная неопределенность значения t]i определяется неопределенностью величины б. Диспер- сия величины б равна Отц(1—г2). Поэтому при г, близком к 1, мы по величине т]2 можем почти точно восстановить rji. Именно, МТ]а Последнее уравнение называется уравнением регрессии. Мно- гомерный аналог изложенного способа нахождения r]i по цг полу- чил название «регрессионного анализа». Необходимо отметить, однако, что предположение о нормальности многомерных распре- делений, лежащее в основе регрессионного анализа, редко прове- ряется, а чаще принимается без проверки. Соответственно, умень- шается доверие к полученным выводам. Мы вернемся к обсужде- нию этого вопроса при изложении метода наименьших квадратов. 8.2'. Недостатки понятия слабой сходимости. Понятие слабой сходимости, эквивалентное понятию сходимости функций распре- деления, позволяет сформулировать центральную предельную теорему в наиболее общем виде: р{л<5;<в}-^ф(В)-ф(Л), где $* — нормированная сумма, А и В — любые числа, Ф — функция Лапласа. Такой способ формулировки этой теоремы в настоящее время является общепринятым; он принят и в основ- ном тексте настоящей книги. Тем не менее, сходство распределе- ния случайной величины s* с нормальным не является полным. 186
Например, если слагаемые ...» In дискретны, т. е. каждое из них принимает лишь счетное число значений, то нормированная сумма s* также дискретна — её распределение сосредоточено на счет- ном множестве Ап. Между тем нормальное распределение имеет плотность, следовательно, вероятность попадания нормальной случайной величины т] в любое счетное множество равно нулю. Итак, р{5;сл„} = 1, р{п(4} = о. Только для интервалов {Л, В] имеем Р {«; е [Л, В]} = Р {Л < < В} ->Р{ПНЛ, В]} = Ф(В) — Ф(Л), где га->оо. Следовательно, понятие сходимости, основанное на схо- димости функций распределения, требует известной осторожности при его практическом использовании. Однако по-настоящему яркий пример возможной неудачи при слишком формальном использовании такого понятия сходимости можно привести не в случае одномерных, а в случае двумерных законов распределения. Дело в том, что для одномерных случай- ных величин обычно приходится интересоваться вероятностью их попадания в интервалы, которая вполне характеризуется функ- цией распределения. В случае двумерного распределения функция распределения определяет вероятности попадания в прямоуголь- ники со сторонами, параллельными осям координат. Но это далеко не все фигуры на плоскости, которые могут представлять практи- ческий интерес. Например, вероятность попадания в круг не вы- ражается через функцию распределения. Таким образом, в дву- мерном случае само понятие функции распределения не имеет особого смысла. Это и приведет почти к парадоксу в нижеследую- щем примере. Этот пример показывает, что два распределения на плоскости могут иметь сколь угодно близкие функции распределе- ния и тем не менее быть совершенно не похожими. Пример 8.1'. Рассмотрим последовательность Ci = рА |2 = Р^ф»....... |„ = р^п, ... случайных комплексных чисел, где модули pi, р2, ..., рп, ... и аргу- менты фь ф2, фп, — представляют собой две последовательности одинаково распределенных случайных величин (модули и аргу- менты независимы между собой и друг от друга). Предположим, что аргументы распределены равномерно на отрезке [0,2л]. По- ставим вопрос об аналоге центральной предельной теоремы для произведения Sila • • • S„ = PiPa • • • Р„ехр{( (Ф1 + ... + Фп)}. 187
Ясно, что для логарифма модуля ln|U2 •••£„! = lnpi + lnp2+ ... + 1пр„ справедлива центральная предельная теорема, в то время как exp{i(<Pi+ ... + <p„)} имеет равномерное распределение на единичной окружности |z|=l, причем модуль и аргумент произведения £i£2—Cn неза- висимы как случайные величины. Поэтому распределение ti?2 —Sn не меняется при вращениях вокруг начала координат (любые зна- чения ехр{г(ф1 + ...+фп)} равновероятны). Если положить а=М1прй <j2 = Dlnpj (предполагая, следовательно, существование Mlnpf и Dlnpi) и считать, что — нормальная случайная величина с параметрами (па, о]/п), к — случайная величина, равномерно распределенная на окружности, то распределение ti&a—Sn может быть аппроксимировано распределением случайной величины exp (in). Это и есть аналог центральной предельной теоремы. Теперь, зная правильный ответ, попробуем воспользоваться понятием слабой сходимости. Попытаемся «нормировать», т. е. преобразовать ка- ким-либо образом распределение ZiZi — tn так, чтобы после преоб- разования двумерные функции распределения сходились к некото- рой двумерной функции распределения. Положим Х„ = PiPa.. • рпсоз(ф! + ф2+ ... 4- ф„); Yn = PiPa • • • Ря sin (фх + ф2 + ... + ф„), т. е. £& ...£„ = 4- iYn. Тогда п lnixJ=21пр‘+1п'соз(ф1+ - • +i; _ z=i п ln । Yn । = 2 lnp<+ln-isin (Ф1 + • • •+фл) I- /=1 Мы видим, что, ища преобразование нормировки, можно норми- ровать 1п|Хп| и 1п | Yn |, а затем потенцировать получающиеся выражения. Иными словами, кажется возможным нормировать пару (Хп, У„) путем перехода к паре (хя, Уп) где I / I - руп J ,П1Х«1 — nMlnpz 1 I у nDpi ) п У, 1пр/ — па — pvnl i=1 -4- In I COS (9x4-... 4-ф„) | b — CAp —— ( 77= ay n a у n 188
I J Л 2 In Pi —na = exp f=1 _ + ln I sin (<px+•_•_• +Ф»)1 , P aVn o^n а знаки xn, yn совпадают соответственно co знаками Xn и Yn. Посмотрим, что дает такая нормировка. Поскольку In | cos (th 4-... +ф„)| } 0 In | sin (фх +... + ф„) | , 0 ау^п при п-»оо в смысле сходимости по вероятности, получаем \Уп\<У}~ — Р ехр п 2 in Pi —па <=1________ а У п <min(x, z/)|->0. Величина —у,— In pz — па j имеет стремящееся к нормально- му N(0,1) распределение. Нетрудно проверить, что случайные величины {IX,|. IM). {sgnX„ sgnr,} независимы Поэтому независимы и величины {|*«Ь IVI}. {sgnx’, sgnjM}, причем, очевидно, P{sgnxn = l}=P{sgnx« ——1}= у- и аналогично для sgnУп. Обозначая через а и Р случайные величины, принимаю- щие значения ± 1 с вероятностью х/2 независимо друг от друга, а через т) случайную величину, независимую от а и ₽ и имеющую рас- пределение М(0,1), получаем: функция распределения пары случай- ных величин (х„, у*п) стремится к функции распределения пары (aen, реп). При попытке использовать практически этот результат мы долж- ны будем заменить совместное распределение пары (х„, уп) его пре- дельным значением, т. е. распределением (aen, реп), и получить при- ближенное'распределение пары Хп, Y , выражая Хп и Yn через х*п и Уп' Xn’= sgnХпexp{аУп InJх„_|_+ па}, 189
Yn = sgn y>xp{o/n In | yn | + ла} и заменяя в полученных выражениях х*п на аеч и у„ на Ре11. Ясно, что при этом функция распределения пары (Хп, Yn) будет мало отличаться от аппроксимирующей функции распреде- ления (верхняя грань разности между этими функциями распре- деления будет равна верхней грани разности между функциями распределения пар (хп, Уп) и (аеч, Ре11), т. е. будет стремиться к нулю). Однако IаеЧ I = 1Р, т. е. полученная аппроксимация распределения пары (Хп, Yn) будет распределением такой дву- мерной величины (|1, §2), что ||i| = |^2|» т. е. распределением, со- средоточенным на биссектрисах координатных углов. Однако мы выяснили раньше, что распределение вектора (Хп, Yn) не меняет- ся при вращениях, т. е. симметрично. Мы видим, что два совер- шенно непохожих распределения могут иметь близкие функции распределения, хотя аппроксимация одного распределения другим практически бессмысленна. Необходимы, следовательно, такие теоремы, которые бы устанавливали нормальную аппроксимацию распределения суммы случайных величин не только в смысле разности между функция- ми распределения, но в каком-то более сильном смысле. Особую роль такие теоремы должны играть в случае многомерных распре- делений, когда к тому же рассматривается не просто суммирова- ние случайных векторов, а другие операции (как в только что рассмотренном примере — умножение комплексных чисел). Исто- рически, однако, развитие теории предельных теорем шло по пути обобщения результатов, полученных для обычного суммирования одномерных случайных величин, так что прежде всего надо обра- тить внимание на соответствующие результаты для этого случая. Такие результаты называются локальными предельными тео- ремами теории вероятностей. С самого начала здесь приходится рассматривать отдельно два случая: первый случай — суммы так называемых решетчатых случайных величин (случайные величины называются решетчатыми, если при подходящем линейном преоб- разовании шкалы отсчета их значения становятся целочисленны- ми); второй случай — суммы величин, имеющих плотность распре- деления. Для сингулярных случайных величин (т. е. недискрет- ных, но не имеющих и плотности распределения) локальных предельных теорем не известно. С чем мы тут имеем дело — с не- совершенством ли математической теории или с непонятными пока свойствами пространства, которое допускает дискретную илч непрерывную модель, но почему-то не допускает сингулярной — сказать в настоящее время невозможно. Ясно, конечно, что сингу- лярные распределения не могут иметь практического значения. Методически в курс теории вероятностей могут включаться локальные предельные теоремы как вместе с интегральными (т. е. основанными на функциях распределения), так и вместо них. 190
В последнем случае интегральные предельные теоремы интерпре- тируются как следствия локальных (например, интегральная тео- рема Муавра—Лапласа выводится из локальной). 8.3'. Замечание о многомерных предельных теоремах. Понятие преобразования Фурье (характеристической функции) многомер- ного случайного вектора g=(gi, b,...,£п) формулируется естест- венно: это функция вещественного вектора t=(t\, tz.tn), зада- ваемая соотношением Д(0=М^’»= J e^i^dx), где (t, х) обозначает скалярное произведение векторов t и х. Без особых изменений переносятся на многомерный случай свойства характеристических функций, в частности теорема непре- рывности (из сходимости характеристических функций следует сходимость законов распределения). Сходимость законов распре- деления понимается, конечно, в слабом смысле: для любой непрерывной ограниченной функции <р(х) J<p (х) (dx) -> J <р (х) р (dx). Понятия вектора математических ожиданий т$ и матрицы кова- риаций Q для случайного вектора g были определены в п. 8.Г. Характеристическая функция вектора g—пи с нулевым математическим ожиданием, очевидно, при малых t имеет вид Д_т£(/) = 1—L(Q7, 0 + o(lda). где 11 |г = + . .. + tn. Характеристическая функция нормального распределения с параметрами (а, С) есть exp/i(f, а)--— (Ct, \ 2 J Действительно, для стандартного (определение 8.2') нормального вектора g характеристическая функция есть ехр {----(/, /)|. Тогда для вектора т1=Д£+а имеем Mexp(i(/, т])) = exp(i(t, a))exp{i(t, Д£)} = = exp (t (t, а)) • exp {i (A’t, £)} = = exp{t(f, а))ехр|—(Л^Л° j> = = exp {i (t, а)} ехр /—(AA't, t) I = 191
= exp{i(Z, a)}exp^—^-(CZ, где C=AA' — матрица ковариаций. Для одинаково распределенных случайных векторов |2, автоматически получается центральная предельная теорема для нормированной суммы Заметим, что нормировка производится путем деления на К п без ‘участия матрицы ковариаций С%, которая может быть вырожден- ной. Действительно, -> ехр (С/, О}, C = CV Отсюда вытекает сходимость sn к нормальному распределению с параметрами (О,С). Для неодинаково распределенных случайных векторов g2, ... ..., gn»— вопрос о центральной предельной теореме существенно усложняется. Дело в том, что матрица ковариаций Сп нормиро- ванной суммы Sn может не стремиться ни к какому пределу. По- этому требуется включить в операцию нормировки линейное преобразование с матрицей Сп 2. По поводу определения Сп 2 заметим, что любая функция f(C) от симметрической матрицы С определяется следующим об- разом: если С привести ортогональным преобразованием к диаго- нальному виду C = UAU~1, [W... О где Л = I . . . . . \0 о то /(С) = где /7(М о ...о \ /(Л)= о/(%а)...о . \о О.../(ХЛ)/ 192
Однако матрица Сп может быть вырожденной или стремиться к вырожденной при п->оо. Это может создать существенные за- труднения. В учебной литературе вопрос о многомерной централь- ной предельной теореме рассматривается лишь в книге С. Н. Берн- штейна «Теория вероятностей» [3]. Приоритет в получении таких теорем также принадлежит С. Н. Бернштейну. Заметим, что несмотря на то, что эти теоремы выражаются на языке слабой сходимости, здесь не возникает ошибочной аппро- ксимации, вроде рассмотренной в п. 8.2'. Очевидно, наши пред- ставления о сущности явления сходимости к нормальному закону глубже, чем их выражение на языке математических теорем. Замечания к § 9 Большой набор задач на применение центральной предельной теоремы можно найти в задачнике Л. Д. Мешалкина [18]. Однако многие задачи из этого задачника требуют более четкой форму- лировки. Таковы, например, задачи 225 и 231, которые следует переформулировать в терминах статистической проверки гипотез. Покажем на примере задачи 231, как это сделать. Формулировка задачи № 231. Многие ботаники дела- ли опыты по скрещиванию желтого (гибридного) гороха. По из- вестной гипотезе Менделя вероятность появления зеленого гороха в таких опытах (равна V4. При 34 153 опытах скрещивания в 8506 случаях был получен зеленый горох. Подтверждают ли эти данные гипотезу Менделя? Точнее говоря, при статистической про- верке этой гипотезы должны ли мы ее отбросить на уровне значи- мости а=0,05? А на уровне значимости а = 0,10? 8506 Решение. Если h =------------= 0,2490 — частота успеха, то 34153 при верной гипотезе Менделя р = — разность 4 (h — р) . 1 — 7 /р(1 —Pl имеет приблизительно нормальное распределение с математическим ожиданием а= 0 и а = 1 / 1 0,0054. V 34153 Критическая область для проверки гипотезы р = — на уровне значимости а есть |/t —Pl К р(1-р) где ха находится из соотношения $(—*«)+ IФ.(*а).= а. 193
При найденном значении h = 0,2490 | ft — р | _ 0,0010-4 а/р(1—р) ~ 0,0054-/Г = 0,43. При а=0,05 имеем х,а—1,96, следовательно, на 5% уровне значи- мости отвергать гипотезу Менделя р = — нет оснований. При 4 а=0,10, ха = 1,64, т. е. также не отвергается гипотеза. В сущности мы сделали переход к величине ft —Р а/р(1— р)’ имеющей примерно распределение JV(0,1), и получили из опытных данных для этой величины значение 0,43. Согласие с распределе- нием Af(O,1) следует признать очень хорошим, особенно учитывая огромный объем экспериментального материала. Дальнейшие примеры очень хорошего согласия эксперимен- тальных данных с гипотезой Менделя читатель может найти, в частности, в работе А. Н. Колмогорова [12]. К п. 9.1. Странно, что правило «трех сигма» иногда рекомен- дуется для распределений, ничего общего не имеющих с нормаль- ным. Корень этой ошибки — в слишком большой вере в универ- сальность нормального закона. Над этой верой смеялся еще А. Пуанкаре, когда он писал приблизительно так: «Все верят в нормальный закон: математики — потому, что думают, что физи- ки наблюдают его на опыте; физики же — потому, что думают, что математики способны доказать теоретически, что нормальный закон должен выполняться». Однако правило «трех сигма» про- никло в элементарные учебники, например, для экономистов, без упоминания нормальности распределения (и. вообще без упомина- ния статистической устойчивости). С этим заблуждением препо- даватель должен бороться. К п. 9.2. Утвердился методически неправильный прием, когда студентов сначала учат оценивать вероятность 614~ • • • л — а (9.1') с помощью неравенства Чебышева, а потом учат делать то же са- мое с помощью центральной предельной теоремы. В результате студенты считают эти приемы равноправными. Между тем нера- венство Чебышева дает для этой вероятности крайне грубую оцен- ку сверху и притом тем грубее, чем меньше е. Нормальное при- ближение дает примерно правильную по порядку оценку. Поэтому следует рассматривать лишь прием, основанный на центральной предельной теореме. Вероятность (9.1') обычно интерпретируется следующим об- разом. Пусть gi, §2,—, |п — независимые наблюдения некоторой 194
величины а, которую мы хотим узнать. Если мы предположим, что наши наблюдения обладают свойством М^=а, (9.2') т. е. отсутствует систематическая ошибка, то вероятность (9.1') есть вероятность отклонения среднего арифметического наших наблюдений от истинного значения а. Прии->оо получаем несколько парадоксальный вывод, что величину а можно узнать сколь угод- но точно, даже если дисперсия o2=Dgi отдельного наблюдения велика. Восторг статистика от такого вывода несколько умеряется тем обстоятельством, что точность е имеет вид т. е. точность возрастает пропорционально V п. Но на самом деле важнее другое: в рамках чисто статистического подхода ничто не может гарантировать равенство (9.2'), которое является опреде- лением отсутствия систематической ошибки. У прибора с большой величиной ст наверняка будет и систематическая ошибка. Замечания к § 10 Последние три параграфа книги посвящены математической статистике. Надо ясно представлять себе, что квалифицированное применение методов математической статистики требует привле- чения специалистов в этой области. Данная же книга рассчитана на математически образованного естествоиспытателя, который не собирается стать специалистом по математической статистике. Однако ему необходимо четко представлять себе, в каких случа- ях эта наука может принести существенную пользу, и уметь вос- пользоваться помощью специалиста. Лучший способ для создания такого представления за ограниченное время — подробно разъяс- нить некоторые частные приемы математической статистики, до- ведя их до возможности приложений, но оставив в стороне другие приемы за недостатком времени. Сама структура математической статистики позволяет такое исчерпывающее изучение одних прие- мов за счет полного игнорирования других, так как в этой науке сравнительно небольшую роль играют общие математические тео- ремы, а отдельные приемы часто логически независимы друг от друга. В данной книге выбраны для изучения приемы обработки ре- зультатов наблюдений. В § 10 излагаются основные приемы рабо- ты с выборками. К п. 10.1. По-видимому, требуется неоднократно подчеркивать, что нельзя на любые результаты измерений Xi,..., хп смотреть как на выборку. Методическим целям' хорошо служит следующий со- 195
физм. Мы говорим, что выборку образуют результаты нескольких независимых измерений, проводимых в одинаковых условиях. Однако если мы контролируем все условия Опыта, то у нас всегда будет получаться одно и то же число (не будет никакой неопреде- ленности), а если мы контролируем не все условия опыта, то от- куда мы можем знать, что они остаются одинаковыми? Не существует исчерпывающего способа проверки того, что данные измерения хь ..., хп можно считать выборкой. Уверенность в правильности соответствующих методов работы приобретается в процессе накопления опыта. Одним из «чудес» теории вероят- ностей является возможность подбора кривых распределения пу- тем определения их параметров по выборкам. Остановимся под- робнее на том, что при этом происходит. Пусть дана выборка хп. В § 10 рекомендуется ее гра- фическое представление с помощью эмпирической функции рас- пределения Fn(x). Не менее употребительным приемом является построение гистограммы. Он заключается в следующем. Отрезок оси абсцисс, на котором лежат наблюдения ..., хп, разбивается на несколько одинаковых интервалов Ль Лг,..., Ат, Пусть — число наблюдений хь...,хп, попавших в интервал Ah. Рассмотрим кусочно постоянную функцию, принимающую на интервале Ак значение--. График этой функции называется гистограммой, п Если р(х) — плотность распределения, то як С р (х) dx. п J Ak Предполагая, что на интервале Ак плотность р(х) меняется незна- чительно, получаем ^p(x)dx^p(xk)l{Ak), Ak где /(Л^) — длина Ak, xk — любая точка интервала Ак. На этом основании считают иногда, что при большом числе наблюдений гистограмма (построенная в подходящем масштабе по оси орди- нат) стремится к плотности вероятности р(х). Это неверно: для того чтобы это было так, нужно, чтобы выполнялось довольно сложное соотношение между числом наблюдений и и числом ин- тервалов т, употребляемых для построения гистограммы. Тем не менее, гистограмма по внешнему виду напоминает плотность ве- роятности. Заметим, что одним из достоинств эмпирической функции распределения Fn(x) является то, что утверждение Fn(x)-+F(x) верно без всяких ограничений. Кроме того, построение Fn(x) це- лесообразно при небольших значениях и, когда строить гисто- грамму бессмысленно. 196
При применении обоих способов (как гистограммы, так и эм- пирической функции распределения) выборка хь х2,...»*п наглядно характеризуется некоторым графиком. Что же происхо- дит потом? О графике временно забывают; производят некоторые вычисления, обычно вычисления эмпирических моментов: (при &=1,2, а иногда и при & = 3,4). Полученные значения под- ставляют в некие формулы, например в формулу плотности нор- мального закона: / Ч 1 2а’ р (х; а, а) =-/=- е , . v ' а/2л вместо а подставляют си, вместо о — выражение у а2— а2. Затем полученную плотность (функцию распределения) строят на том же графике, где была построена гистограмма (эмпирическая функция распределения). В результате гладкая кривая прекрасно приближает эмпирическую кривую. Если согласие оказывается не особенно хорошим, его можно улучшить, привлекая момент более высокого порядка. Например, вместо нормального закона Ф(х) (для функции распределения) берут закон, выражаемый следую- щей формулой: Ф_____________^ф<у *-* Л + \ s J 3! \ s ) где п п * = vS*" sS = 1=1 1=1 n n ₽3 = -T- У (xi X)S > ₽4 = -T~ У (xl ХУ, SPn s*n ЛяшА 1=1 1=1 а Ф^)(х) означает —— Ф(х). В результате приближение часто dxk становится превосходным (подробнее см. [14]). Очевидно, конеч- но, что х, s2, р3 и р4 выражаются через аь а2, аз, а4. Таким обра- зом, кажется возможным по крайней мере всю информацию, содержащуюся в выборке, свести к нескольким параметрам, на- пример а*. 197
Однако указанное улучшение нормального закона не является единственным средством сглаживания эмпирической функции рас- пределения. Другую систему кривых, определяемых по четырем параметрам, предложил К. Пирсон (кривые Пирсона). Эти кривые часто столь же хорошо приближают эмпирические данные, как и только что указанные (см. [10]). Имеются и другие типы кривых распределения, которые мож- но использовать с тем же правом. Пока речь идет о приближении эмпирического распределения в области не слишком больших и не слишком малых вероятнос- тей, более или менее безразлично, каким семейством кривых пользоваться. Однако часто практически наибольший интерес представляют именно «хвосты» функции распределения. Оценка «хвостов» с помощью разных семейств распределения приводит к резко различным результатам. Следует признать, что не суще- ствует имеющих научные основания общих способов для выбора того или иного семейства распределений. По-видимому, все они дают в области «хвостов» одинаково не заслуживающие доверия результаты. Остановимся подробнее на свойствах эмпирической функции распределения Fn(x). Пусть теоретическая функция распределе- ния F(x) монотонно строго возрастает. Рассмотрим статистику (т. е. функцию от результатов наблюдений) вида = Vn sup I Fn (х) — F (х) |. X Значение этой статистики не изменится, если от выборки хьхп перейти к выборке у\,уп, где yi = G(Xi), причем G — любая монотонно возрастающая функция, если, конечно, теоретическим законом распределения считать Р {у, < X} = Р {G (xt)< х} = Р {xz < G-1 (х)} = F (G~* (х)). Полагая G(x)=F(x), мы получим, что величины yi имеют равно- мерное распределение на отрезке [0,1]. Следовательно, распреде- ление вероятностей для статистики хп не зависит от вида функ- ции Г(х). Асимптотическое выражение lim Р{х„< х} = К(х)1 д-»оо найдено А. Н. Колмогоровым. Таблицы функции Колмогорова имеются во всех сборниках статистических таблиц. Если мы собираемся проверить гипотезу о том, что F(x) есть заданная функция, например функция Лапласа Ф(х), то мы мо- жем сделать это с помощью статистики x„ = sup|Fn(x) — Ф(х)|, ______ X 1 К(х)—функция Колмогорова. 198
используя ее асимптотическое распределение К(х) (имеются, впрочем, и таблицы распределений хп для конечных п). Часто неправильно используется аналогичный прием, когда желательно проверить не то, что теоретический закон распределе- ния является заранее заданной функцией, а то, что он принадле- жит заданному параметрическому семейству. Например, состав- ляют статистику х; = sup I Fn (х) - Ф и применяют для нее распределение К(х). Это неверно, так как за счет подбора параметров х и s по выборке хь..., хп мы сильно приближаем закон распределения ф( х~х ) к данной эмпири- ческой функции распределения Fn(x). Между тем, распределение Колмогорова относится к случаю, когда никакого подбора пара- метров не производится. Выше отмечалось, что за счет подбора четырех параметров можно обычно очень точно подогнать любой закон распределения к любым эмпирическим данным. Область применения критерия Колмогорова ограничена слу- чаем, когда теоретический закон распределения известен точно. Замечания к § 11 В этом параграфе в п. 11.1 излагаются основные математиче- ские факты, на которых строится статистическая обработка на- блюдений при нормально распределенных ошибках. Однако сфера применения этих фактов на самом деле шире и охватывает также асимптотически нормальные распределения. Соответственно шире область применений для распределений Пирсона, Стьюдента и Фишера, особенно для пирсоновского распределения %2. Эти при- менения мы отчасти изложим в замечаниях к § 11. 11.1'. Применение распределения %2 к полиномиальному рас- пределению. Пусть имеется п независимых испытаний, каждое из которых имеет т исходов А у Л.....Ат. Допустим, что в каждом отдельном испытании вероятности этих исходов равны pi, р2,..., рт, где р4>0, t = l,..., т и pi+p2+ ... +pm= l. Пусть Ху х2,.... хт — соответственно, число наступлений событий Ль Л2,.... Ат в п испы- таниях. Тогда распределение вектора х= (хь ..., хт), где, очевидно, xj=0, 1,...,п, причем xi+x?+...+хп=п называется полиномиаль- ным распределением. Введем случайные векторы Н* = (£*1> ?*»> • • • > £*m) следующим образом. Если в &-том испытании произошло событие 41, то |м==1» а остальное |м=0 при j=£i. Тогда, очевидно, J99
X = Pl + На + • • • + Ня- Найдем матрицу ковариаций Сх 'случайного вектора х. Поскольку Ць ...» Цп — независимые одинаково распределенные случайные векторы, Сх == пСц9 где Сц— матрица ковариаций любого из векторов Имеем М&-(М^,)2 = pz-p? где qt = 1 — р{. Далее, при I =}=. j cov akl9 lkj) = M - №z) (M^) = - piPl, поскольку всегда lkiZkj = 0, а значит, M (£>k£kj) = 0. Таким образом, (Pi4i PiPz • • • — PiPn \ P2P1 P2Q2 • • • p2pn 1 PnPl PnP2 • • • Prfln ' В силу многомерной центральной предельной теоремы, при боль- шом числе испытаний п вектор х —Мх _ / хх — прх х2 — пр2 хт — прт\ Уп \ Уп ’ Уп ’ ’ ” ’ уй ) будет иметь близкое к нормальному распределение с параметрами (0, Сц). Однако матрица вырождена, что отвечает тому факту, что распределение вектора х сосредоточено в гиперплоскости Х1+Х2+ ... +xw=n. Поэтому и соответствующее нормальное рас- пределение надо рассматривать в гиперплоскости 2г/г=0, где че- рез yi обозначена величина yt = Пирсон сделал замечательное открытие, в силу которого удобно рассматривать не величины а величины 2l = -^=-=*^£L, i = У Pl у tipi Распределение величин zz сосредоточено в гиперплоскости т Л = /(21, ... ,zm):^zz/pz = 0). 1=1 На современном математическом языке открытие К. Пирсона мож- но выразить следующей теоремой. Теорема 11.1'. Если распределение вектора z= (zi,..., zm) рассматривать в гиперплоскости L, то при ц->оо рцо сходится к стан- 200
дартному нормальному распределению в L (т. е. к нормальному распределению с параметрами (0, £), Е — единичная матрица). Доказательство. Достаточно показать, что в гиперплос- кости L матрица ковариаций вектора z равна Е. Пусть вектор а= (аь aw) лежит в L и длина его равна 1, т. е. Вычислим tn tn i=l i=1 D(a, z) = (Cza, a), где C2 есть матрица ковариаций вектора z, т. е. <h — VpiPz ••• —VpiPm — VPiPl Я2 ••• — VpiPm \ yf PmPl И PmPz • • • 4m Имеем (Cza, a) = (1 — a? — /pjp2 aia2 — p1pm aiam + + (1 — p2)ai — VP2P1 a2ax— ... — /p2pma2am+ ... ... + (1 — pm)am — Vp^a^— .. .—Vpmpm^amam-i = = ai + • • • + a2m — a1Vp1 £ VPz — a2/p2£ a£ VpL — i=l i=l — •••—^iVPi =a?+ ... +am= 1, i=l что и требовалось доказать, Следствие. При п->оо распределение величины tn tn m у. = y_(*-»ft)2 = у Z2 = (2> 2) (|Л npi) npi ^4 i=\ i=l 1=1 стремится к распределению т. е. к распределению %2 с (т—1) степенями свободы. 201
Доказательство. Размерность гиперплоскости L равна (т—1), распределение вектора z стремится (при больших п) к стандартному нормальному распределению в L в смысле слабой сходимости. Отсюда вытекает, что Р{(г, z) <7?) стремится к веро- ятности P{^i +\ .. + <ZR}, где независимы и имеют рас- пределение 7V(0,1). Следствие доказано. Критерий %2. Пусть из каких-то соображений мы считаем, что вероятности ..., рт для данной полиноминальной схемы рав- ны заданным числам р?, ... , р^? и хотим проверить эту гипотезу. Очевидно, с этой целью мы должны составить какую-то статисти- ку с известным распределением, которая измеряла бы отклонение вектора результатов наблюдений (хь •••» *т) от его «теоретиче- ского» математического ожидания, т. е. вектора пр?, лр2, ... ,пр^. Только что доказанноеследствие говорит нам, что если в качестве этой меры отклонения взять величину ..2 у , h ПР‘ то распределение этой величины есть приближенно Мы по- лучили возможность проверять по экспериментальным данным гипотезу л = р°, р2 = р°2...Рт = Р°т- 11.2 . Критерий %2 в случае зависящих от параметров вероят- ностей. Основные применения критерия %2 относятся к случаю, когда вероятности рь р2,..., рт заранее не известны, но определя- ются некоторым числом k<m—1 параметров: р^ = рДаь..., а^). Типичный путь возникновения такой ситуации состоит в следую- щем. Пусть дана выборка ..., из какого-то теоретического закона распределения Л(х; а\,..., ak), зависящего от параметров tti,..., ak. Разобьем вещественную ось на интервалы ( °О> £1)> [^1, • • • , [Ст—2} Ст—\)> [Ст_ 1, оо) (всего т интервалов) и обозначим через Xi число значений вели- чин §1,..., gn, попавших в интервал с номером i: Xi есть число таких ?j, что (где с0 =—00, cw=oo). Очевидно, что на вектор (Xi, ...,хт) можно смотреть как на результат п полиномиальных испытаний с вероятностями успеха Pi = Pi («1..«*) = F (<Y. alt ... ,ak)—F (c,_j; alt ... , ak). Параметры a\,..., ak обычно неизвестны. Воспользуемся следую- щим способом их определения. Составим статистику Х2 = Х2(«1...... у fa —npffo, <—I npi(alt. • . flfe)]2 . ak) 2Э2
и найдем числа di...dk, реализующие минимум этой статистики: Xa(«i, ... ,ak) = minx2(a1..ak). «*..ak Этот метод получения оценок dk для параметров ..., afi называется методом минимума %2. Рассмотрим распределение слу- чайной величины %2(йьdk) в предположении, что семейство законов распределения F(x; ..., ак) указано верно, т. е. сущест- вуют такие истинные значения параметров а*, ... что выбор- ка §i,в самом деле извлечена из распределенияF(x; а*,...,а*). Нетрудно показать (см. Б. Л. ван дер Варден [6], § 51), что распределение величины %2(йь..., dk) при больших п близко к распределению величины 2г — V 1^ —np/fe, ... , ak)]2 Zj / * \ ’ где в знаменатель подставлены истинные значения параметров. Имеем xt — npi(a\. ... , ak) npi(alt ... , ak) — npi(av ... , 2 Vnpi(ait ... ,ak) Vnpi(a{, ... , ak) По доказанному в пункте 11.1', величины Xi — npi(a\, ... ,ak) Zi ~~ 1/ / * —X V npi , ... , ak) имеют приблизительно стандартное нормальное распределение в гиперплоскости т ______________________________________________________ L = {z = (?!, z2....zm): «, ...,<) = О}. 1=1 Рассмотрим поверхность КУ (аъ ... ,ak) = (w1(a1, ... ,ак), ... , wm (ах.аА)), заданную параметрическим уравнением npi (а1У ... , Qfe) — пр, (Др ... , ak) Vtipt{a\, ... ,ak) Очевидно, что эта поверхность лежит в L. Заметим, что можно считать, что оценки ..., dk выбираются из условия минимума т х2 (аъ ... , ак) = 2 (Z/ — (ах> ... , а^))2, ку,-(ах, ... ,aJ 203
т. е. Х2 = пппх2(Яь ... ,aj. a"-'ak Таким образом, точка w (db dk) есть точка поверхности w = w (аь ..., ak), лежащая ближе всего к точке г= (гь ..., zm). В предположении, что поверхность можно заменить линейным многообразием той же размерности k, получаем: величина х2 имеет распределение Х^-^-г Таким образом, если мы определили k неизвестных парамет- ров методом минимума х2, то мера расхождения m Х2(ах, ... ,ак) = ..............................ak) между теоретическим и выборочным распределением имеет асимп- тотическое распределение Хт-л-i» в КОТОРОМ число степеней сво- боды уменьшено на k единиц. Этот результат замечательно прост и удобен для приложений. Заметим, что мы не дали его полного доказательства в основ- ном потому, что не доказали возможности замены поверхности w = w (аь..., ак) линейным многообразием. Для доказательства возможности такой замены нам пришлось бы прежде всего дока- зать, что оценки di,..., dk близки к истинным значениям парамет- ров Яр ... ,a*k. Это завело бы нас слишком далеко. Интересую- щийся читатель может познакомиться с этим доказательством по книге Б. Л. ван дер Вардена [6]. Полное же доказательство вида асимптотического распределения х2(^ь—>^) приведено в книге Г. Крамера [14]. Практически оказывается, что применение метода минимума X2 для нахождения оценок ..., dk неудобно. Однако замена этих оценок обычно применяемыми оценками по моментам распределе- ния может привести к нарушению распределения для меры расхождения между теоретическим и выборочным распреде- лением. Об этом необходимо помнить при практической работе. Интересующийся читатель вновь отсылается к книгам [14] и [6]. Заметим, что только что изложенные свойства меры расхож- дения позволяют, наконец, понять, почему индекс п у распределе- ния хп называется «числом степеней свободы»: определение k параметров сокращает число степеней свободы на k единиц. 11.3 '. Замечания к п. 11.2. Здесь на языке линейной алгебры выражена чрезвычайно общая модель, пригодная в самых различ- ных случаях. В данной книге мы оставляем в стороне дисперсион- ный анализ, также основанный на линейной модели (изложение дисперсионного анализа с такой точки зрения имеется в книге Г. Шеффе «Дисперсионный анализ» [27]), 204
11.4 '. Замечания об обработке нормальных выборок. При способе изложения, принятом в § 11, модель выборки является частным случаем линейной модели. Основное утверждение о не- зависимости х и s2 оказывается частным случаем общей теории. Однако можно было бы его доказать отдельно. Через х, s2 выражаются все статистики, применяемые при оценке параметров и проверке гипотез для нормальных выборок. Таким образом, в предположении нормальности, вся информация, содержащаяся в выборке (хь Х2,..., хп), может быть редуцирована к трем числам: п (число наблюдений), х, s. Статистики х и s на- зываются «достаточными статистиками». Общее определение этого понятия читатель может найти в любом подробном учебнике математической статистики. На практических занятиях должны быть рассмотрены приме- ры использования таблиц распределений Пирсона, Стьюдента и Фишера для обработки нормальных выборок. Проверка тех или иных статистических гипотез имеет смысл тогда, когда она делается много раз на независимом эксперимен- тальном материале. Допустим, что мы проверили гипотезу а = ас на материале т независимых выборок. В результате выбора уров- ня значимости а мы каждый раз отвергаем или не отвергаем про- веряемую гипотезу. Спрашивается, как истолковать результаты т независимых проверок одной и той же гипотезы. Если т велико, то даже при малом а и верной гипотезе мы будем иногда ее от- вергать. Наоборот, если гипотеза неверна, то вполне возможно, что при большом т мы несколько раз ее не отвергнем. Для объе- динения результатов т независимых проверок одной и той же ги- потезы применяется следующий прием. Как известно, для проверки гипотезы составляется некоторая статистика £, распределение которой F^(x) известно. Критиче- ская область обычно имеет вид {£>ха}, где Р{£>ха}^а, а — заранее назначенный уровень значимости. Например, при провер- ке гипотезы a = aQ при односторонней альтернативе £= -- (х — S — , а при двусторонней альтернативе £ =—|х — й0|]/Ъ. S Назовем предельным уровнем значимости 0 тот уровень значимо- сти, при котором еще можно было бы принять гипотезу при дан- ном значении статистики £. Иначе говоря, Пусть (х) —непрерывная функция. Тогда случайная величина 0 = 0 (£) имеет, как легко видеть, равномерное распределение на отрезке [0,1]. Если в результате п независимых проверок мы полу- чили значения 0], 02, ..., 0П, то (при верной проверяемой гипотезе) эти значения будут образовывать выборку из равномерного зако- 205
на на отрезке [ОД]. Таким образом, соединение результатов не- скольких независимых проверок гипотезы (или даже разных гипо- тез) сводится к проверке того, что Рь рг, •••, Рп образуют выборку из равномерного закона. Ошибочность проверяемой гипотезы вы- разится в том или ином отклонении от равномерности распреде- ления. Поскольку теоретический закон распределения рь ..., рп точно известен, можно применить критерий Колмогорова (см. [8]). Дру- гой возможный способ проверки равномерности основан на том, что МР6 = - - , Dpz =----и, следовательно, величина Z 1Z имеет при больших п стандартное нормальное распределение N (0,1). Заметим, что в случае равномерного закона распределения хорошая близость к нормальному закону достигается уже при п порядка 4—5. Третий способ основан на том, что, как нетрудно проверить, явно вычисляя плотность распределения, величина -21n₽z имеет распределение оф Следовательно, сумма п — 2^in₽t. i=l имеет распределение х|Л. Какой способ проверки равномерности распределения вы- брать— зависит от того, каких именно отклонений от равномер- ности мы ждем, если проверяемая гипотеза неверна Да верна одна из альтернативных гипотез). Обычно <в таком случае рас- пределение предельного уровня значимости изменится так, что малые значения (близкие к нулю) станут более вероятными, чем полагалось бы при равномерном распределении. Такое отклоне- ние лучше чувствуют критерии, основанные на нормальном за- коне или на распределении х^, чем критерий, основанный на распределении Колмогорова. Зато при работе с критерием Кол- могорова полагается вычертить эмпирическую функцию распре- деления для pi, ..., рп, содержащую всю ту информацию, которая есть в выборке рь ..., рп, в то время как при работе с двумя дру- гими критериями -мы имеем дело лишь с результатами вычисле- ния статистик. Например, если данные были подогнаны так, чтобы все время принимать гипотезу на 5%-ном уровне значимости, мы увидим неразумно большой скачок эмпирической функции распределения 206
в узкой области около абсциссы 0,05. При использовании только статистик мы 'можем не заметить таких особенностей. Рассмотрим на этом же примере вопрос об отбраковке резко выделяющихся результатов. Статистическая однородность — фе- номен редкий и тонкий, и его легко испортить. Поэтому отбраков- ка резко выделяющихся результатов, которые ।(предположитель- но) явились следствием временного нарушения статистической однородности, является делом необходимым. Правда, при этом резко понижается доверие к тому, что оставшиеся, результаты об- разуют статистически однородную совокупность. Ситуация, в ко- торой доверие отчасти восстанавливается, должна быть следую- щей: до отбраковки применение статистических критериев указы- вает высоко значимое нарушение основной гипотезы; после отбра- ковки применение тех же критериев с учетом отбрасывания дает совершенно незначимый результат. Пусть, например, P(i), Р(2), Р(п)— значения предельных уровней значимости, записанные в порядке возрастания. Тогда функция распределения для P(i) = min (рь ..., рп) вычисляется сле- дующим образом: Р{₽(1) < х} =- 1 - Р{Р(1) >х} = — 1 Р {Pi > X, Р2 > х, . . . , Рл > х} = 1 (1 — х)п. Если значение р(ц слишком маловероятно при такой функции распределения, то мы можем считать, что р(ц получено в тот мо- мент, когда нарушилась статистическая однородность, так что должно быть отброшено. Однако, отбросив p(i), мы должны про- верить равномерность распределения оставшихся значений р(2), ..., ..., Р(П) не на отрезке [0,1], а на отрезке [p<i), 1] (например, путем линейного преобразования последнего отрезка в отрезок [ОД]). Действительно, значение Р(ц могло оказаться малым в силу двух причин: 1) в соответствующих опытах чисто случайно появилось малое значение; 2) имелось отклонение от статистической одно- родности. Если имела место первая причина, то, как легко видеть, для выборки Р(2), Р(п) теоретическим законом распределения являет- ся равномерный закон на отрезке (P<i), 1]. Если имела место вторая причина, то мы были бы вправе проверять равномерность на отрезке [ОД]. Поскольку первой при- чины нельзя полностью исключить, то проверка равномерности на [p(i), 1] является возможной. Но тогда из двух критериев исследо- ватель должен выбрать более жесткий. При линейном преобра- зовании отрезка [p<i), 1] в отрезок [ОД] все значения р(2), ..., Р(П) уменьшатся. Поэтому более жестким критерием является крите- рий равномерности на отрезке (р<1), 1]. Во всяком случае, если мы объявляем числа р(2), •••, ₽<п) вы- боркой из равномерного закона на отрезке (0,1], то числа |₽(3), 207
Р(Л) должны образовывать выборку из равномерного закона на отрезке [р(2), 1]. Иными словами, если отбрасывается наименьшее значение p(i), мы рекомендуем применять более жесткие приемы контроля равномерности распределения оставшихся элементов выборки. В противном случае, отбросив достаточное число 'членов P(i>, Р(2), ...» Р(&), принимающих слишком малые значения, мы всегда сможем принять гипотезу о равномерности распределения. Мы не будем рассматривать вопрос об отбраковке резко вы- деляющихся элементов выборки из нормального закона. Соответ- ствующие приемы можно найти в таблицах Л. Н. Болышева и С. В. Смирнова [4] вместе с практическими рекомендациями. При этом речь идет обычно о выделении не более чем одной грубой ошибки в выборке. Подробное и элементарное изложение прие- мов отбраковки можно найти в книге Арлея и Буха [2]. Замечания к § 12 12.Г. Замечания к пунктам 12.1 и 12.2. В этих пунктах рас- сматриваются две классические задачи — уравнивания измерений и определения параметров по наблюдениям. Метод решения этих задач предложен по существу Гауссом, но для оценки точности получаемого решения полезно применение достижений матема- тической статистики нашего века, в частности распределений %2 Пирсона и Фишера. Простейшей задачей уравнивания измерений является сле- дующая. Пусть х2, х3— три измерения углов треугольника аь а2, «з, причем а\ + а2 + йз = л;. Поскольку с вероятностью 1 Х1 + х2 + х3=^л, то считать х2, х3 истинными значениями а2, а3 невозможно и требуется уравнять измерения xlf х2, х3. Лаплас полагал, что в качестве приближения к истинным значениям а\, а2, а3 надо взять такие значения yif у2, у3, что у\ + у2 + у3 = п и сумма |%1—У1| + |х2—*/2| + |^з—£/з| минимальна. Гаусс показал, что в случае нормального распределения ошибок измерений ме- тод максимального правдоподобия приводит к минимизации (*1 — У1)2 + (*2 — i/2)2 + (Х8 — 1/8)2, т. е. к методу наименьших квадратов. Аргументы Гаусса в пользу метода наименьших квадратов подчеркивают большую гармонич- ность этого метода по сравнению с методом Лапласа, в частности простоту и удобство вычислений. Однако простота вычислений не является единственным аргументом Гаусса, так что вряд ли есть смысл пересматривать эту старую дискуссию теперь, когда при- менение ЭВМ могло бы позволить численно реализовать метод Лапласа (вспоследствии сам Лаплас принял метод Гаусса). 208
В геодезии уравнивают измерения углов большого количест- ва треугольников (с учетом того, что эти треугольники прибли- зительно сферические, а не плоские). При этом измерения прово- дятся при различных условиях, в то время как в модели метода наименьших квадратов предполагается равенство дисперсий от- дельных наблюдений, вряд ли совместимое с различными усло- виями наблюдений. Неправильная оценка весов наблюдений, ес- тественно, может поставить под сомнение результаты уравнива- ния. Вся теория уравнивания измерений основана на предположе- нии, что нелинейные связи между переменными можно заменить линейными. Иными словами, предполагается, что квадратами ошибок измерения можно беспрепятственно пренебречь. В пред- положении линейности связей применяется общая линейная мо- дель (§ 11), и доверительная область для вектора параметров a=i(ai, ао, ..., ап) получается применением распределения Фише- ра. Действительно, в обозначениях п. Г2.1 имеем: оценка для век- тора а есть (вектор х'=рго]’м*, II*' — а||2 = || proj.M б II2, где 6= (61, ..., 6П)—вектор ошибок наблюдения. Рассмотрим ве- личину IIX — х' II2 - \\а + 6 — projM (а + 6) ||2 = = II6 — projM 6II - II projM' s II2, где М' есть ортогональное дополнение к М. В силу следствий основной леммы из § 11, отношение 1 1 —77“ \\х' — а II2 ------- II projM 6II2 dim М _ п — т т г - — ~ р п_т, т -----———- IIх — х' II2 — II proj м, б II2 п — dim М ~ т т имеет распределение Фишера Fn_m, п. Поэтому доверительная об- ласть для а имеет вид шара: Р /||х' — аII < /а--d™.M IIX — х' ||Д = 1 — а, t п — dim М j где fa определяется из соотношения PjFn-[т,т /а} — 1 Однако доверительная область в виде шара хороша только в том случае, когда все параметры ..., ап равноправны. Это не обязательно так; например, это не так в примере 12.1, когда нас интересуют веса грузов а\ и а2 и не интересует сумма их весов 209
аз = а1 + а2. Оценки для параметров а\ и а2 оказываются зависи- мыми случайными величинами, и для построения доверительной области для i(«i, а2) следовало бы привлечь общую теорию мно- гомерного нормального распределения. Покажем, как это следует сделать в общем случае. Пусть х' = (хь ... , хп) = projM х и мы желаем построить доверительную область для параметров аь а2) ..., где k<jt. Легко видеть, что вектор (х{, ... , Xk) имеет ^-мерное нормальное распределение с вектором математических ожиданий (аь а2, ..., ..., ak) и с некоторой матрицей ковариаций вида о2С, где o2=Dx-. Действительно, при любом / = 1, ..., k величина Х1 = b,0 + Е bh XS = bjo -F £ bis (as + 8s) S=1 S=1 является линейной формой от 6i, ..., бп, откуда вытекает, что эле- менты «матрицы ковариаций пропорциональны о2. Следовательно, полагая а = (а19 ... , ak)t х= (хь ... , Xk), имеем: вектор ___i_ С 2 (х— а) имеет нормальное распределение с параметрами (0, о2£). В та- ком случае величина __1_ ____________1_ С 2 (х—а), С 2 (х — а)) = (С”1 (х — а), х —п), имеет распределение сг2%1, причем она не зависит от величины IIX— х'И2 -||projM'6|i2. Таким образом, получаем, что выражение -У (С-1 (х— а), х — а) Г---IIX — х'||21 1 k L п — dim М J имеет распределение Фишера Fk,m> Это дает возможность построить доверительную область для а вида (С-1 (х — а), х— a)<fa-----£-—-||х — х'||2. n — dim М Таким образом, доверительная область имеет вид эллипсоида. Задача об определении параметров из эксперимента, рассмот- ренная в п. 42.2, очень похожа на задачу уравнивания измерений. Можно было бы даже сформулировать ее в точности так же, но для применений это неестественно. Принципиальная сторона этих задач исчерпывается примене- нием общей линейной модели. Однако для освоения практических 210
приемов работы необходимы соответствующие упражнения. Практические приемы здесь могут быть довольно сложными, так что конкретизация решения, записанного у нас в терминах линей- ных (подпространств и проекций, может представить большие за- труднения. Среди имеющихся руководств по методу наименьших квадратов можно рекомендовать книгу Ю. В. Линника [15]. 12.2'. Общая задача об определении одной величины по дру- гой. Проведение многочлена методом наименьших квадратов ин- терпретировалось в п. 12.3 как отделение .«истинной», или «регу- лярной», закономерности от («случайных», или «нерегулярных», ошибок измерений. Важно заметить, что та же вычислительная процедура применяется и для других целей в задачах, основан- ных на других вероятностных моделях. При этом результат вы- числений нужно, естественно, интерпретировать по-другому. Сей- час мы и рассмотрим эти другие возможности. В п. 12.3 принималась следующая модель: где Xi — значение наблюдаемой переменной, a ti — значение пере- менной, определяющей условия опыта. Значения /2, ...» tn могли быть взяты произвольно, в частности |(но не обязательно) образо- вывать выборку из некоторого распределения, но, вообще говоря, в этих значениях не предполагалось ничего случайного: это про- сто некоторые известные числа. Сейчас мы рассмотрим вопрос о совместной обработке п пар наблюдений (хь уг), (х2, у2), , (хп, уп), (12.1') где возможны другие вероятностные предположения, а потому мы изменяем обозначения. Мы постараемся поставить вопрос о том, что можно сказать об одной из переменных (х, у), если известно значение другой. Простейший случай — когда переменные х и у связаны функ- циональной связью: y = f(x) или ^(х, у)—0. В этом случае, вос- становив (в результате более или менее трудной работы) вид функций f или F, мы можем по значению одной переменной точно или с некоторым выбором восстановить значение другой. Очевид- но, что операция такого восстановления есть решение соответст- вующего уравнения (либо прямое . нахождение у по формуле y=f(x)). Для восстановления функции f или F могут потребо- ваться наблюдения (12.Г). Читатель легко представит себе при- мер, когда х есть сила, у — ускорение, а для определения массы нужен опыт. Этот случай есть случай полной устойчивости эксперимента, рассмотренный в § 1. Возможен случай, когда в эксперименте нет никакой устойчивости, но этим случаем неинтересно заниматься, 211
так как тогда 'ничего определенного сказать нельзя. Нас .интере- сует только случай, когда в том или ином виде предполагается статистическая устойчивость, т. е. имеет смысл говорить о тех или иных распределениях вероятностей. Возможно симметричное 'предположение о наличии совмест- ного распределения х и у. Однако это предположение не охваты- вает только что указанного случая xz=Pm(O + Se (12.2') Поэтому мы введем менее ограничительное условие, согласно ко- торому имеет смысл говорить о распределении переменного у для каждого известного значения х (это распределение может быть или не быть1 условным распределением). Например, в случае мо- дели (12.2') распределение х при известном t есть нормальное распределение A/'(Pm(^), o'), где a2-DSt.. Можно было бы требовать существования условного распре- деления у вектора (z/i, ..., уп) при условии, что задан вектор (%i, ..., хп), но в простейших случаях это есть просто распределе- ние независимых случайных величин, а более сложные случаи требуют привлечения теории случайных процессов, которая здесь не рассматривается. Если распределения у при различных х нам извест- ны, то для каждого a, O^a^ll мы можем найти величину уа (х) из соотношения Р {у < Уа (*)/*} = а- Величина уа (х) называется а-квантилью (для простоты мы будем считать, что все эти уравнения относительно уа (х) имеют единст- венное решение). Представим себе график (рис. 12.1'), на котором нанесены кривые уа (х) для достаточного числа значений а. Как можно использовать этот график для получения информации об у, если известно значение х? Ответ очень прост: с заданной вероятно- стью 1—2а имеет место равенство Уа (*) <У<У\-а (х). Например, при х=х0 значение у с вероятностью 0,98 лежит в заштрихованном интервале АВ. Сложнее сообразить, как по известному у = уп указать дове- рительный интервал или доверительную область для х = Хо- Одна- ко и в этом случае ответ прост: доверительной областью является 1 Оно будет условным распределением только в том случае, когда имеет смысл говорить о совместном распределении х и у. 212
2а — {% ' Уа (х) Уо <2 У\— а (х)}. Действительно Р {х0 f/1—2а} — Р {(t/o < У а (*о) U (У о J/1—а (-^о))} — < У« (*о)} + Р {Уо > У1-а (*о)} = 2а = Р{У< (в этих формулах знак при известнохМ х—Хо). Следовательно, Р {xQ С Ui-2а} = 1 — 2а. Если функции уа (х) монотон- ны, то доверительной областью для Xq является интервал, кон- цы которого %о(1) и х0(2) суть ре- шения уравнений У о = Уа (Хо1)), Уо = yi-а. (42)) • вероятности Р обозначает вероятность Так, 98% доверительной областью для xQ на рисунке 12.Г будет интервал CD. Пример 12.1'. Пусть слу- чайная величина ц имеет пока- зательное распределение с параметром X. Известно, что в опыте ц приняла значение у. Дать доверительный интервал для X. Решение. Очевидно, что существует Р{р, < z | X} = 1—е-Ч Поэтому концами АД), Х<2) доверительного интервала для X будут решения уравнений 1 _ = а> 1 _ g-№y = 1 — а. Замечание. Слегка (видоизменяя указанный способ реше- ния для дискретных распределений, можно построить доверитель- ные интервалы для параметров любых распределений, зависящих от одного параметра (например, для биномиального и пуассонов- ского распределений, а также для выборочного коэффициента корреляции1). Соответствующие таблицы и графики имеются в таблицах Я- Янко [29] и Л. Н. Болынева и С. В. Смирнова [4]. Практически вряд ли можно требовать чего-либо лучшего для восстановления одной из переменных х или у по известной дру- гой, чем график вида, приведенного на рис. 12.1'. Вопрос состоит 1 Определение выборочного коэффициента корреляции см. ниже. 213
Ё том, как построить подобный график, не зная заранее законов распределения у при каждом х, а имея лишь наблюдения (хь yi), f*2, У2), (хп, Уп)- Эффективно это может быть выпол- нено .(кроме уже рассмотренного случая), когда х является пара- метром распределения вероятностей для у, лишь в нескольких частных случаях. Конечно, речь идет лишь о приближенном по- строении чертежа 12.1х. Один из этих случаев, задаваемый моделью (12.2х), был рас- смотрен в п. Г2.3. Действительно, там был указан способ прибли- женного нахождения коэффициентов многочлена Рт(/) и диспер- сии о2, т. е. параметров распределения Л/|(Рт'(./), о2). Второй случай — случай двумерного нормального распреде- ления х и у — рассмотрим сейчас. 12.3. Случай двумерного нормального закона. Если совмест- ное распределения х и у — двумерное нормальное, то имеют ме- сто равенства у — My = ri/ _PL (х — Мх)+6, (12.3') V Вх x-Mx = r i/ PL (у-Му) + £, (12.4') V Dy где б и Z — случайные величины, не зависящие соответственно от х и от у, г— коэффициент корреляции между х и у. Если нам из- вестны параметры Мх, Му, Dx, Dy, г, (12.5') то лучшее, что можно сделать для предсказания значения вели- чины у при известном значении х — это положить приблизительно 6=0 в уравнении (12.3х), т. е. считать у = Му + г 1 /~ (х — Мх) |/ Dx приближенным значением величины у. Доверительный интервал для у, середина которого есть точка у, легко находится с помо- щью нормального распределения для б с параметрами Мб-О, D6 = (l—r2)Dy. Легко могут быть построены и а-квантили уа\(х), введенные в предыдущем пункте. Не следует, однако, пользоваться способом, изложенным в предыдущем пункте, для отыскания х при известном у. Дело в том, что этот способ был основан на предположении, что каждо- му х отвечает распределение вероятностей для у, но не наоборот. Сейчас же роль переменных х и у совершенно симметрична. Поэ- тому имеет место равенство (12.4х); его и надо использовать для 214
отыскания х при известном у. Тогда будет (получаться более ко- роткий доверительный интервал, чем при использовании для этой цели а-кваитилей уа(х), найденных из уравнения (12.3'). Действительно, из уравнения (12.3') имеем х — JAx=_L.i/r Рх (у — Му)— — 1/^ Р- 6, г V Dy г V Dy так что ширина доверительного интервала для х определяется „ 1 т / Dx <5 <, 1 — Г2 ГЛ „ дисперсией величины — у —— о, равной ----— Dx. В то же время ширина доверительного интервала для х, найденного из (12.4'), определяется дисперсией D£ = (l —r2)Dx. В силу сложившейся терминологии, уравнения (12.3х) и (12.4') называются уравнениями репрессии, соответственно у на х и х на у. хотя мы бы предпочли употреблять этот термин лишь для уравнения (12.2') во избежание путаницы между двумя раз- ными моделями. Мы видим, что когда имеется совместное распре- деление (х, у), то для оценки одной переменной при известной второй надо употреблять подходящее уравнение регрессии. Очевид- но, что .в модели (12.2') уравнение регрессии t на х вовсе не имеет смысла, а потому для оценки t по х надо пользоваться доверитель- ными интервалами, построенными в предыдущем пункте. В случае ненормального распределения пары х и у также справедливы равенства *(12.3') и (12,4'), однако б не обязательно должно быть независимым от х, а £ от у. Верно лишь, что cov(6, х) =cov(g, у)=0. В этом случае нет хороших способов для оценки одной переменной по другой, так как неизвестен закон распределения б и £. Единственное, что остается — оценка б и £ с помощью неравенства Чебышева, но это обычно слишком грубо. Посмотрим теперь, что произойдет, если параметры (12,5') теоретически не известны, а требуют оценки по выборке (*ь У1), (Ха, у2), ... , (х„, уп). Мы уже хорошо знаем вид оценок Мх, Му, Dx, Dy: п п Мх X = — хР Му ^~у = — t/,; i=l i=\ n n Dx £ = —Ц- У (xz — x)2, Dy s2y —Г—- V (уг — у)2. tl —— 1 лшш fl — 1 ввив i=l t=l 215
Для cov (х, у) несмещенной оценкой будет величина п —Ц- У, (*. — х) (Vi — у), п — 1 t=l а потому для коэффициента корреляции г = соу(х* естест- у Dx Dy венно в качестве оценки взять так называемый выборочный коэф- фициент корреляции п 2 (xi—x)(yi — y) 1/ 2 “*)2, 2 (yi—у)2 V i=l i=l Подставляя в уравнение >(12.3') вместо параметров (12.5х) .их оценки, получим эмпирический аналог ?(12.3Х) следующего вида: п ^-х^-у) У- У = - — п-------------- (х - х) + б‘, 2 (XI — х)2 i=l где 6‘ имеет распределение а на зависимость б* от х можно не обращать внимания. В точности то же самое уравнение линейной регрессии мьг бы по- лучили, если бы стали обрабатывать пары ((хь у\), ..., (хп, уп), не предполагая наличия совместного распределения, а принимая мо- дель, рассмотренную в п. 12.4. Таким образом, две разные веро- ятностные модели ведут к одним и тем же арифметическим дей- ствиям. Это часто приводит к их смещению, а тем самым и к ошибкам в интерпретации результата. Например, в случае двумерной нормальной совокупности для определения величины х по известной величине у надо применить регрессию (12,4') величины х на у. Что получится, если на самом деле верна модель у = х+ 6, в которой х нельзя рассматривать как случайную величину, если по выборке (12.1х) мы построим эмпирический аналог линии ре- грессии х на у и применим его для определения х при известном у? Выражение «х нельзя рассматривать как случайную величи- ну» означает, что мы не предполагаем устойчивого закона распре- 216
деления вероятностей для х. Будем предполагать, например, что наши наблюдения (xi, yi), (хп, уп) таковы, что Xi, хп есть выборка из некоторого распределения на отрезке [—1, 1], а то новое значение x=xn+i, которое мы попытаемся узнать по извест- ному у = Уп+ъ не принадлежит отрезку [—4, 1]. Имеем yi = + 6;, (12.7') где 6г- не зависят от X; и друг от друга. Пусть число наблюдений п велико. Тогда s2 Dx, Sy^ Dy = Dx 4- o’2, a2 = D6,, cov(x, y) _ Dx __ i / }Dx Dy У Dx Dy |/ Dy Поэтому эмпирический аналог линии регрессии у на х имеет вид у — !Лу^(х — Мх)+6*, что, конечно, разумно ib свете модели (12.7'). Эмпирический аналог линии регрессии х на у имеет вид х _ Мх « ({/ _ Му) + Г = —(у - Му) -h Г, Dy Dx -f- cr Dx где коэффициент -----— % <Z 1. Поэтому при большом значении х = хп+1 1 результаты определения xn+i по yn+i = + 5/г-н с помощью двух разных уравнений регрессии будут резко различ- ны. Ясно, что результат, вычисленный по уравнению регрессии х на у, будет совершенно неверным, если для уп+\ сохраняется дей- ствие модели (12.7'). Таким образом, не имея правильной модели, мы не сможем правильно восстановить х по у. Например, если мы подозреваем, что ни модель с двумерным нормальным распределением, ни мо- дель со случайной ошибкой (12.2х) на самом деле не имеет ме- ста, наше положение является затруднительным, а выводы не за- служивают доверия. Сделаем одно замечание о распределении выборочного коэф- фициента корреляции, которое легко может быть получено из ре- зультатов п. 12.4 и из совпадения арифметических приемов в двух разных моделях. Пусть (хь yi), ..., -(хп, уп)—выборка из двумерного нормального распределения, и мы желаем проверить гипотезу о том, что Xi не зависит от yt, т. е. что теоретический коэффициент корреляции r=0. С этой целью мы должны уметь решить вопрос о значимости полученного эмпирического коэффи- циента корреляции р, иначе говоря, знать распределение р при гипотезе г=0. Рассмотрим условное распределение значений ..., уп при заданных хь ..., хп. При гипотезе о независимости распределений 217
оно совпадает с безусловным распределением. Следовательно, ус- ловное распределение может быть (Представлено моделью yt — а = 0-хг +6(, а = Му(, где 6г- независимы и имеют нормальное распределение М(0, о), где q2_ f)8i = Dyi. Мы имеем частный случай модели, рассмотренный в п. 12.4 (в котором Ь\ = С\ =0). В -пункте Г2.4 было показано, что стати- стика д v Д имеет распределение Стьюдента /п-2. Однако в наших обозначениях имеем pi/OP, w1) 2 (w—у) 1=1 A2 = £ (f/z - У? - Pi S <*i ~ = i=l f=l « [ S (*/—*) (w—ji)]2 = ------------------------------------ 1=1 2(X/_X)2 Z=1 Отсюда вытекает, что ^^2 = p V^2. д /1 — (> ’Те' г У n Таким образом, условное распределение статистики — /1 — Р2 при условии, что Xi, ..., хп заданы, есть распределение Стьюдента tn-2 (следовательно, вовсе не зависит от условия Xi, ..., хп). Поэто- му безусловное распределение статистики Р у 1-Р2 Vn— 2 есть также /?г_2. Итак, для определения значимости выборочного коэффициента корреляции р нужно для указанной статистики на- значить критическую область исходя из распределения 218
Мы имеем два разных способа выражения независимости. В модели с двумерным нормальным распределением гипотеза неза- висимости имеет вид г = 0. В модели xi = Pm(ti) + 8l гипотеза независимости имеет вид Pm(t) — 0 (результат наблюде- ния не зависит от условий опыта /). В частности, коэффициент Ci многочлена Pm(t) =с0 + с1/+ ... + cmtm при гипотезе независимости равен нулю. Совершенно разные (отвечающие разным моделям) гипотезы г = 0 и С1=0 проверяются при помощи одной и той же статистики, т. е. одних и тех же вычислений. Однако в модели двумерного нор-' мального распределения нет никакого аналога «гипотезам С2=0, Сз = 0, ..., ст=6. Такие аналоги могли бы появиться в моделях дву- мерного, но не нормального распределения (нелинейная связь меж- ду переменными). Однако разговоры о нелинейных связях в такой модели совершенно пусты, поскольку неизвестно, как математиче- ски формулировать и проверять гипотезы о нелинейных связях между случайными величинами. Обратим внимание также на часто встречающееся ошибочное истолкование коэффициента корреляции как меры близости двух наблюдаемых в опыте величия х и у. Степень ошибочности такого толкования зависит от того, какая вероятностная модель описы- вает на самом деле наблюдения. Если пара (х, у)—случайная ве- личина (т. е. можно говорить о ее двумерном распределении веро- ятностей), то указанное толкование может (в случае двумерного нормального распределения) даже быть правильным. Разберем этот вопрос несколько подробней. Коэффициент кор- реляции г = cov(x, у) Y DxDz/ указывает (в случае значения г, близкого к единице) не на то, что величины х и у близки между собой, а на то, что линейно завися- щее от х выражение у = Му + г (х — Мх) отличается от у на величину б==у—у такую, что дисперсия £>б = = (1—г2) Dy мала (впрочем, мала не сама по себе, а лишь в срав- нении с Dy). Переход от х к линейной форме у может (в зависимо- сти от структуры эксперимента, дающего х и у) быть как естест- венным, так и неестественным. Например, он весьма естествен, если выбор шкал измерения х и у произволен, т. е. сами х и у оп- ределены с точностью до линейного преобразования. Наоборот, он 219
весьма неестествен, если хотя бы нули -шкал, в которых измеряют- ся х и у, строго фиксированы. Пусть, например, х и у — наблюде- ния одной и той же величины разными экспериментаторами, и мы желаем проверить, хорошо ли согласуются эти наблюдения. Если мы с самого начала знаем, что нули отсчета -и единицы измерения могли оказаться совершенно несогласованными (для примера ука- жем оценку умственных способностей с помощью двух разных на- боров тестов), то для оценки близости между х и у естественно пользоваться коэффициентом корреляции. Наоборот, если шкалы должны быть согласованы, как бывает в экспериментах точных наук, то коэффициент корреляции (который, например, совершенно не чувствует систематического сдвига у = х + а, а — число) для оценки близости не годится. Еще более важно заметить, что в том случае, когда нельзя говорить о двумерном распределении (х, у), коэффициент корреля- ции никоим образом не годится для оценки близости между х и у. Конечно, речь в данном случае может идти лишь о выборочном коэффициенте корреляции: п _ У (*i — х) (yi — у) 1/ ^(У1-уу * 1=1 £=1 поскольку теоретический коэффициент не имеет смысла. Например, если верна модель yi=Xi + 8i, то близость между х и у определяется малостью дисперсии o2 = D6i. Однако при лю- бой дисперсии о2 выборочный коэффициент корреляции может быть сделан сколь угодно близким к 1, если значения независимого пе- ременного Xi менять в достаточно широком интервале. Докажем это. Пусть Xi принимает значения — 7V, —((W—4), ..., О, ..., —1, N. Тогда N X = 0, = ----5--- V 6;. i——N Далее £ (х,— х) (у,— у) = £ £а+ £ i6z; i=—N i~—N i==—N £ <«--?>• £ С; i=—N i=—N N __ N N N _ £ (У<~У)2 = £ i2-j-2 £ £ 6?-(2^+1)(у)2. 220
N Величина Sm=- Z2 имеет порядок AZ3. Путем подсчета дис- персий и применения неравенства Чебышева получаем: при AZ->oo N N qn=-^~ У = У б^о, SN i^N -N TN=-±— (2JV + 1) (у)20 в смысле сходимости по вероятности. Выражение для р имеет вид . Л Sw(1+Qn) Р = Р№------- _2L~ . Wl+ZQjv + Kjv-Tjy Следовательно, р = р№>1 при AZ—>оо. Наоборот, если значения независимого переменного Х{ меня- ются в достаточно узких пределах, то при сколь угодно малой дис- персии o2=DSi выборочный коэффициент корреляции будет мал. Математическое доказательство этого утверждения похоже на предыдущее, и мы предоставляем его читателю. Таким образом, в случае модели yt—Xi + ^i выборочный коэф- фициент корреляции зависит не только от величины дисперсии о2, но и от произвольно выбираемых значений хг-. В этом случае его истолкование как меры близости между х и у смысла не имеет. Сказанное выше должно сделать понятным следующее замеча- ние общего характера. При использовании средств математической статистики для исследования того или иного явления нужно пред- ставлять себе действительность в терминах более или менее адек- ватной вероятностной модели, в то время как использование одних арифметических приемов i(b частности, так называемый «корреля- ционный анализ») будет давать результат, который неизвестно как интерпретировать. В свое время простое использование арифмети- ческих приемов было, вне всякого сомнения, прогрессивным. Одна- ко это время прошло. 12.4'. Сколько чакрымов в километре и сколько километров в чакрыме? Закончим эту книгу иллюстрацией того обычного об- стоятельства, что для применения статистических методов недо- статочно применить готовый рецепт, а нужно приспособить к рас- сматриваемому случаю рекомендованные для других случаев ме- тоды. Пример взят из книги Л. Н. Гумилева «Открытие Хазарии (историко-географический этюд)». Москва, «Наука», 1966, стр. 18— 20. Цитируем подробно Л. Г. Гумилева. «В один из весенних дней 1959 г. я вошел в читальный зал библиотеки Эрмитажа и увидел профессора М. И. Артамонова, рассматривающего карту калмыцких степей. '«Сколько километров в фарсахе?» — мрачно спросил он меня. Я припомнил общеприня- 221
тую величину — 5,5 км, ио профессор буркнул: «Не выходит» и пригласил меня к карте. Дело заключалось в следующем. Хазар- ский царь Иосиф в письме к Хсдаи ибн-Шафруту описал ежегод- ную летнюю перекочевку своего двора. Весной он выезжал из своей столицы Итиль, расположенной на берегу Волги, и двигался на юг к реке В-д-шан. Затем он перекочевывал на север, очевидно, из- бегая летней жары <в засушливых прикаспийских районах, но дви- гался не домой, а к реке Вуз ан, отождествляемой с Доном, и от- туда возвращался к себе в Итиль, находившийся в 20 фарсахах от Бузана. Тут же царь Иосиф сообщает расстояния от своей столи- цы до границ своего царства: на восток до Гирканского, т. е. Кас- пийского, моря — 20 фарсахов, на юг до реки Уг-ру— 30 фарсахов и на север до уже упомянутой реки Бузан и «до склона нашей реки к морю Гирканскому», т. е. до сближения излучин Дона и Волги в современном месте Волго-Донского канала,— 20 фарсахов. Таким образом, все расстояния исчисляются от столицы Итиля. Следовательно, для того чтобы найти место столицы, М. И. Арта- монов построил на карте треугольник, упиравшийся вершинами в реки Дон (Бузан), Волгу |(Итиль) и Терек (Уг-ру), с длиной сто- рон, пропорциональной заданным расстояниям. Однако установленная длина фарсаха — 5,5 ^противоречила его построению. Если принять эту длину за основу и опереть вер- шины треугольника на Дон и пусть даже не на Терек, а на Куму и Маныч, то столица Хазарского каганата должна оказаться «в сте- пи Северной Калмыкии, около Сарпинских озер. Это одно проти- воречило источникам, помещавшим Итиль на берегу Волги, а кро- ме того, пропадала большая река В-д-шан, находившаяся на 10 фарсахов севернее пограничной реки Уг-ру. Задача казалась не- разрешимой, и именно это заставило моего учителя задуматься. И тут у меня внезапно вспыхнула далекая ассоциация. В мо- лодости, еще в 1932 г., мне довелось работать в Таджикистане ма- лярийным разведчиком. Работа заключалась в том, что я находил болотца, где выводились комары, наносил их на план и затем от- равлял воду («парижской зеленью». Количество комаров при этом несколько уменьшалось, но уцелевших вполне хватало для того, чтобы заразить малярией не только меня, но и все население райо- на. Однако я извлек из этой работы максимальную пользу, потому что освоил глазомерную съемку и разговорный таджикский язык. Так как при определении расстояний мне неоднократно приходи- лось обращаться к местным жителям, то я волей-неволей усвоил среднеазиатскую меру длины — чакрым. Определить длину чакры- ма в метрах было невозможно: он был до длинный, то короткий, но (В вариациях наблюдалась строгая закономерность. Если путь в гору или по болоту — чакрым короткий, если с горы или по хо- рошей дороге — длинный, а все прочие величины располагались между этими лимитами. Собственно говоря, чакрым был мерой не длины, а усилий, которые человек должен был затратить, чтобы достигнуть цели. Нельзя не признать, что такая система отсчета 222
была очень удобна для местных жителей, хотя совершенно непри- годна для картирования. И тут мне пришла в голову мысль, что таджикский «чакрым» не что иное, как персидский «фарсанг» ((ара- бизированная форма — фарсах), и тогда следует учитывать не абстрактную длину, а проходимость путей перекочевок. Длина фарсаха высчитана европейцами в условиях пересеченного релье- фа Иранского плоскогорья, а в прикаспийских степях, гладких как стол, она должна быть куда больше. Мы тут же прикинули рас- стояние, построили треугольник, и оказалось, что при длине хазар- ского фарсаха 10 км река Уг-ру — Терек, река Бузан—Дон, В-д-шан—Кума, а Итиль должен находиться на одном из берегов Волги между селами Енотаевским и Селитрянным». -Ситуация описана достаточно ясно. Попробуем научно поста- вить вопрос о переводе чакрымов в километры. В приведении раз- личных данных укоренилась дурная традиция, когда приводятся лишь средние значения, и нельзя узнать, как велики бывают откло- нения от средних. Допустим, что вы собираетесь в путешествие и узнаете по справочнику, что в районе вашего путешествия в июле в среднем 15 солнечных дней. Обычно при этом никак нельзя уз- нать, как часто в июле бывает 25 дождливых дней. Ясно, что путе- шественнику по Средней Азии совершенно недостаточно знать, что «в среднем» в чакрыме а километров (спросить бы еще, по какому «ансамблю» вычислено это среднее), но необходимо иметь какое-то представление о величине доверительного интервала для числа километров при заданном числе чакрымов. Таким образом, необходимо нечто вроде графика 12.Г, в ко- тором по одной из осей отложено число чакрымов, а по другой — число километров. Но для получения такого графика нужно вве- сти одно из предположений — либо, что при данном числе чакры- мов имеется распределение вероятностей для числа километров, либо, что при заданном числе километров имеется распределение вероятностей для числа чакрымов. В первоначальной постановке задачи обе меры — чакрымы и километры — совершенно симмет- ричны. Можно было бы попробовать даже ввести их совместное рас- пределение. Однако это распределение, очевидно, должно быть распределением расстояний между какими-то пунктами (выбран- ными более или менее наудачу), измеренных в чакрымах и кило- метрах, и заведомо не будет нормальным. Поэтому мы откажемся от модели с совместным распределением. Что же лучше — распре- деление чакрымов при известном числе километров или распреде- ление километров при известном числе чакрымов? Число километ- ров можно всегда узнать точно по карте. Что касается числа, чак- рымов—его придется спросить у местных жителей. Будет ли их ответ вполне точен? Автор книги вспоминает, что в одной подмос- ковной деревне ему сообщили, что до железнодорожной станции отсюда прежде было восемь километров, а как пошел автобус, так стало двенадцать (по той же дороге). Поэтому, ради получения 223
данных лучшего качества, лучше основываться на топографической карте. Итак, предполагаем, что при заданном числе километров х число чакрымов у имеет некоторое распределение вероятностей. Каким должно быть это распределение? Разобьем дорогу длиной в х километров на отрезки х\, х2, ..., Xk' X = Xi + Х2+ ... + xk. Тогда число чакрымов у также представится в виде суммы У = У1 + Уч + • • • + yk> где в отрезке дороги х, километров содержится yt чакрымов. До- пустим, что отрезки xb ..., xk равны между собой и не слишком малы. Раз они равны, то z/i, у2, ук являются одинаково распре- деленными случайными (величинами. А раз хг- не слишком малы, то величины z/2, ..., уь можно считать независимыми. Но тогда за- кон распределения суммы у = ух+<у2+ ... + уь нормален с матема- тическим ожиданием kJftjji и дисперсией kOyi. Иными словами, при достаточно большом числе километров х соответствующее число чакрымов имеет нормальное распределение Щах,вУ х), где о or— параметры, которые нужно найти из эксперимента (очевидно, а — «среднее» число чакрымов в километре, но нам нельзя удовлетво- риться средним, а нужно знать еще параметр о, характеризующий разброс). Итак, для перевода километров .в чакрымы (а с помо- щью чертежа 12.Г и чакрымов — в километры) достаточно знать а и о (а также минимальную величину расстояния в километрах, начиная с_которой для числа чакрымов действует распределение Щах, о|/х)). Очевидно, что при малых расстояниях наш подход бесполезен, да там действительно может быть что угодно (в зави- симости от крутизны горы или топкости болота). Рассмотрим теперь эксперимент, с помощью которого можно определить а и о. Самый наивный подход, впрочем, не требует применения распределения Щах, о]/х), но зато требуется, чтобы при каждом числе километров х было произведено достаточно экс- периментов для выяснения распределения числа чакрымов у. Этот способ теоретически годен и при малых х, но практически совер- шенно невозможен из-за слишком большого числа необходимых экспериментов. Действительно, для определения закона распреде- ления при каждом х нужны сотни и тысячи экспериментов, так что если взять несколько значений х, то программа экспериментов становится невыполнимой. Значение метода наименьших квадратов состоит в том, что он позволяет (за счет дополнительных предположений) совместно обрабатывать результаты экспериментов, проведенных в разных условиях. Самый чистый эксперимент для определения длины чакрыма, который можно себе представить, заключается в следующем. Слу- 224
чайно выбирается точка в пределах Средней Азии, направление, в котором следует идти, и длина перехода х км. Вертолеты достав- ляют в выбранную точку группу местных жителей, особенно хоро- шо чувствующих «чакрымную меру» расстояния; они проходят вы- бранный отрезок, оценивают его длину в чакрымах, и их оценки усредняются для получения лучшей устойчивости результата. Дру- гая группа проезжает тот же путь на ишаках и дает свою оценку длины пути в 'чакрымах. Затем вертолеты перебрасывают обе группы вместе с ишаками в другую наудачу выбранную точку и т. д. Таков современный психофизический эксперимент, но он, оче- видно, безумно дорог. Реален, очевидно, опрос местных жителей о расстояниях (в чакрымах) между п парами выбранных наудачу населенных пунктов .(один из этих пунктов выбирается наудачу, а второй — так, 'чтобы расстояние от первого не было слишком малым иди слишком большим). В результате измерения расстояний по карте получим совокупность наблюдений (*1> У1), (х2, уа)..(*„. уп). Наша модель состоит в том, что имеет нормальное распределе- ние N(axit о Vxi), иначе говоря, У1 = axi + 6i( где 6г- имеет распределение jVi(O, oJ/\) и 6i, 62, —, бп независимы (для независимости ..., бп не следует выбирать рядом пары на- селенных пунктов). Итак, веса отдельных наблюдений обратно пропорциональны числам хг-. Приведем нашу модель к модели с равными весами: положим У1 ~ ____ уъ 5* ___ Тогда zl=a}fxl +^, где имеют распределение М(0, <т). Полагая z = (zlt ... , zn), W — (]^xY , , \/Гхп ), имеем оценку а для а: п _______ п У1 ziVXi У1 УI (г, W) = г±1 = i±i (№, W) п п т. е. а есть среднее число чакрымов, приходящихся на один кило- метр, как естественно было и ожидать. 225
Оценка для о2 есть ___1 IL (*, Ю n—1 II (W,W) п— 1 VI (W-Sx.)2 У (Z/ — а 1/х;.) = XI 1=1 т. е. к<кажущиеся ошибки» yi—axi возводятся в квадрат и сумми- руются с множителями 1/Xi. При числе наблюдений п порядка нескольких десятков или сотен а практически точно совпадает е а и s2 с о2. Возможны лишь погрешности за счет нарушения статистической однородности, кото- рыми мы вынуждены пренебречь. Кривые £/а(х), задаваемые урав- нениями Р {у < Уа. (х) I х} = а, 0 < а < 1, имеют вид уа(х) =а% + vkaVX . где ka определяется из соотношения Ф(&а)=а, причем Ф — функ- ция Лапласа. Аналог чертежа 12.1' следует, разумеется, рисовать только при достаточно больших х. Доверительный интервал с ко- эффициентом надежности 1—2a для числа километров х0 при из- вестном числе чакрымов у0 имеёт вид (хФ, х<2>), где х^ и х<2> на- ходятся из уравнений ах^ + a^i-a Vх^ = yQi ax<2) + oka ]/х(2) = yQ- Конечно, необходим чертеж для мгновенного графического ре- шения этих уравнений. Однако правильность расчетов прохождения маршрута зави- сит от справедливости положенного в основу всех расчетов пред- положения: при известном числе километров х число чакрымов у можно считать случайной величиной, притом имеющей не какое угодно распределение, а распределение 7Vi(ax, ol^x). Мы постесня- лись предположить нормальное распределение для пары (х, у) по следующей причине. Расстояние х между двумя выбранными наудачу населенными пунктами (в километрах) нельзя считать, с точки зрения предпо- лагаемого путешественника, случайной величиной: у расстояния х есть какая-то неопределенность, но навряд ли есть статистическая устойчивость. Очевидно, что путешественник часть времени будет путешествовать почти сплошь по населенным пунктам (расстояние х будет принимать малые значения), а часть времени по малонасе- ленной местности (большие значения х). Наоборот, при заданном х у расстояния в чакрымах у (т. е. у трудности прохождения пути) должна быть большая статистическая устойчивость, связанная с 226
некоторой интуитивно ощущаемой устойчивостью свойств ландшаф- та .в пределах данной природной зоны. Однако никому еще не уда- лось научно сформулировать это свойство устойчивости ланд- шафта. В наших рассуждениях участвовала также независимость трудности прохождения отдельных (достаточно больших) участ- ков пути. Это также есть свойство ландшафта, которое никто не в состоянии научно сформулировать. Таким образом, построенная нами модель представляет собой типичный пример вероятностных моделей, которые более или менее правдоподобны, но, строго го- воря, до их экспериментальной статистической проверки ничегр не стоят. Хорошо то, что наша модель в принципе вполне допускает статистическую проверку. Возможно, что она когда-нибудь будет проверена, но, конечно, не для чакрымов, выражающих трудность пешего путешествия, а для меры трудности (например, времени) автомобильной поездки. Если модель выдержит проверку, то в ре- зультате может получиться аналог графика 12.1',. который пред- ставляет очевидный хозяйственный интерес.
ЛИТЕРАТУРА 1. Александров П. С. Введение в общую теорию множеств и функ- ций. М., Гостехиздат, 1948. 2. А р л е й Н., Б у х К- Введение в теорию вероятностей и математиче- скую статистику. М., ИЛ, 1948. 3. Бернштейн С. Н. Теория вероятностей, изд. 4-е. М., Гостехиздат, 1946. 4. Болыиев Л. Н., Смирнов С. В. Таблицы математической ста- тистики. М., «Наука», 1968. 5. Вальд А. Последовательный анализ. М., Физматгиз, /I960. 6. Ван дер Варден Б. Л. Математическая статистика. М., ИЛ, 1960. 7. Гельфанд И. М., Шилов Г. Е. Обобщенные функции, вып. I. Обобщенные функции и действия над ними. М., Физматгиз, 1959. 8. Г н е д е н к о Б. В. Курс теории вероятностей, изд. 5-е. М., Физмат- гиз, 1969. 9. Гнеденко Б. В., Колмогоров А. Н. Предельные распределения для сумм независимых случайных величин. М., Гостехиздат, 1949. il'O. Кендалл М., Стьюарт А. Кривые распределения. М., «Наука», 1966. 11. Колмогоров А. Н. Основные понятия теории вероятностей. М,—Л., ОНТИ, 1936. 12. К о л м о г о р о в А. Н. Об одном новом подтверждении законов Менделя. ДАН СССР, 26, 6—9, 1940. 13. К о л м о г о р о в А. Н., Фомин С. В. Элементы теории функций и функционального анализа, изд. 2-е. М., «Наука». 1968. 14. Крамер Г. Математические методы статистики. М., ИЛ, 1948. 15. Линник Ю. В. Метод наименьших квадратов и основы математико- статистической теории обработки наблюдений. М., Физматгиз, 1962. 16. Л о э в М. Теория вероятностей. М., ИЛ, 1962. 17. Мак Кинси Дж. Введение в теорию игр. М., Физматгиз, 1960. 18. Мешалки н Л. Д. Сборник задач по теории вероятностей. Изд-во МГУ, 1963. 19. Мизес Р. Вероятность и статистика. М., ГИЗ, 1930. 20. R. von Mises. Matematical theory of probability and statistics. Edi- ted and complemented by H. Geiringer. N. Y. and London, Acad, press, 1964. 21. Мостеллер Ф., Рурке P., Томас Дж. Вероятность. М., «Мир», 1969. 22. Феллер В. Введение в теорию вероятностей и ее приложения, т. 1, изд. 2-е. М., «Мир», 1964; т. 2. М., «Мир», 1967. 23. Ф и х т е н г о л ь ц Г. М. Курс дифференциального и интегрального исчисления, т. 1, изд. 7-е. М., 1970. 24. X а л ь д А. Математическая статистика с техническими приложения’ ми. М., ИЛ, 1955. 228
25. X и н ч и н А. Я. Асимптотические законы теории вероятностей. М., ГТТИ, 1936. 26. Худсон Д. Статистика для физиков. М., «Мир», 1967. 27. Ш е ф ф е Г. Дисперсионный анализ. М., Физматгиз, 1963. 28. Э й н ш т е й н А. Физика и реальность. М., «Наука», 1965. 29. Янко Я. Математико-статистические таблицы. М., Госстатиздат, 1961.
СОДЕРЖАНИЕ Предисловие.................................• . ... 3 ЧАСТЬ I. КРАТКИЙ КУРС ТЕОРИИ ВЕРОЯТНОСТЕЙ § 1. Дискретное пространство элементарных событий . . 5 § 2. Условная вероятность. Независимость. Основные фор- мулы ....................................................11 § 3. Случайные величины и их основные характеристики 19 § 4. Неравенство Чебышева. Закон больших чисел. Испы- тания Бернулли. Теорема Пуассона.........................31 § 5. Статистическая проверка гипотез.............41 § 6. Аксиоматика Колмогорова. Интеграл Лебега ... 46 § 7. Распределение случайных величин.............58 § 8. Центральная предельная теорема.............76 § 9. Применения центральной предельной теоремы . 93 § 10. Выборка. Оценка параметров.................99 § И. Общая линейная модель, связанная с нормальным распределением ошибок наблюдений................111 § 12. Дальнейшие применения метода наименьших квадратов 121 ЧАСТЬ II. НАУЧНЫЕ И МЕТОДИЧЕСКИЕ ЗАМЕЧАНИЯ Введение............................................................................................142 Замечания к § 1....................................................................................145 Замечания к § 2....................................................................................149 Замечания к § 3 156 Замечания к § 4....................................................................................164 Замечания к § 5....................................................................................166 Замечания к § 6....................................................................................169 Замечания к § 7....................................................................................173 Замечания к § 8....................................................................................182 Замечания к § 9....................................................................................193 Замечания к § 10...................................................................................195 Замечания к § 11...................................................................................199 Замечания к § 12...................................................................................208 Литература..........................................................................................228
Валерий Николаевич ТУТУБАЛИН Теория вероятностей Тематический план 1972 г. № 111 Редактор Ю. И. Сионский Переплет художника М. М. Носовой Технический редактор 3. С. Кондрашова Корректоры М. И. Эль му с, С. Ф. Будаева Сдано в набор 27.1 1972 г. Подписано к печати 27.Х 1972 г. Л-109832. Формат 60Х 90/16. Бумага тип. № 2. Физ. печ. л. 14,5. Уч.-изд. л. 14,48. Изд. № 1550. Зак. 40. Тираж 22 780 экз. Цена 61 коп. Издательство Московского университета. Москва, К-9, ул. Герцена, д. 5/7. Типография Изд-ва МГУ. Москва, Ленинские горы

Цена 61 коп.