/
Текст
В. ФЕЛЛЕР ВВЕДЕНИЕ В ТЕОРИЮ -% ВЕРОЯТНОСТЕЙ Ixj И ЕЕ ПРИЛОЖЕНИЯ ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ И ЕЕ ПРИЛОЖЕНИЯ
AN INTRODUCTION TO PROBABILITY THEORY AND ITS APPLICATIONS WILLIAM FELLER (1906—1970) Eugene Higgins Professor of Mathematics Princeton University VOLUME II Second edition John Wiley & Sons, Inc. New York • London • Sydney • Toronto 1971
В. ФЕЛЛЕР ВВЕДЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ И ЕЕ ПРИЛОЖЕНИЯ В 2-х томах Том 2 Перевод со второго английского издания Ю. В. Прохорова МОСКВА «МИР» 1984 Scan AAW
ББК 22.171 ФЗО УДК 519.24 Феллер В. ФЗО Введение в теорию вероятностей и ее приложения. В 2-х томах. Т. 2. Пер. с англ.— М.: Мир, 1984.— 738 с., ил. Второй том всемирно известного двухтомного курса теории вероятностей, написан- ного выдающимся американским математиком. Классическое учебное руководство, оказавшее значительное влияние на развитие современной теории вероятностей и подготовку специалистов. Перевод заново выполнен со второго переработанного автором издания. Предыдущее^издание выходило в русском переводе (М.: Мир, 1967). Для математиков—от студентов до специалистов по теории вероятностей, для физиков и инженеров, применяющих вероятностные методы. . 1702060000—113 Ф ----------------32—84. ч. 1 041 (01)—84 ’ 41 ББК 22.171 517.8 Редакция литературы по математическим наукам © Перевод на русский языКд «Мир»Д984
ИЗ ПРЕДИСЛОВИЯ К РУССКОМУ ИЗДАНИЮ 1967 г. Второй том книги известного американского математика В. Фет- лера „Введение в теорию вероятностей и ее приложения" вышел в США в 1966 г. Несмотря на большой промежуток времени между выходом первого и второго томов, оба тома имеют общий замысел и составляют единое целое. Книга дает строгое изложение теории вероятностей как самостоятельного раздела математики и в то же время знакомит читателя с опытными основаниями теории и различ- ными применениями. Последнее достигается включением большого числа примеров и задач. Книга очень богата содержанием. Многочисленные отступления от основного текста содержат сведения, интересные и специалистам. Большая работа, проведенная автором при подготовке второго тома, позволила существенно упростить изложение целых разделов (напри- мер, вывод асимптотических формул в теории случайных блужданий и задачах о разорении и многое другое). Изложение тщательно продумано. Оно часто дополняется замеча- ниями, отражающими отношение автора к приводимым фактам (см., например, замечание в гл. VI, 7, о том, что рассмотрение в теории очередей потоков вызовов с независимыми промежутками между вызовами и с законом распределения длины этих промежутков, отлич- ным от вырожденного или показательного, создает лишь иллюзию общности; трудно, говорит автор, найти примеры таких процессов, кроме разве движения автобуса по кольцевому маршруту без распи- сания). Напомню, что в первом томе автор удачно продемонстрировал тот факт, что сравнительно простые модели позволяют, хотя бы в первом приближении, правильно описать широкий круг практичес- ких задач (такими моделями в первом томе являются, например, размещения частиц по ячейкам, урновые схемы и случайные блужда- ния). Во многих случаях, где интуиция не подсказывает правильного порядка соответствующих вероятностей, автор приводил численные результаты. Подчеркивался ряд свойств случайности, идущих враз- рез с интуитивными представлениями (закон арксинуса, пропорцио- нальность времени до n-го возвращения величине ц2 и т. п.). Эти тенденции сохраняются и во втором томе (см., в частности, неодно- кратное обсуждение парадокса инспекции и сходных тем). После того как разобран дискретный случай, элементарная теория непрерывных распределений требует лишь нескольких слов дополнительного объяснения. Поэтому до всякой общей теории, в первых трех главах, автор излагает задачи, связанные с тремя важнейшими распределениями — равномерным, показательным и нормальным. При этом автор затрагивает и ряд глубоких вопросов (случайные разбиения и теоремы о покрытиях, отклонение эмпи-
6 Из предисловия к русскому изданию 1967 г. рического распределения от теоретического, характеризация нор- мального распределения независимостью статистик, структура; некоторых стационарных нормальных последовательностей и т. п.). Необходимые сведения из теории меры сообщаются в четвертой главе. Автор подчеркивает вспомогательный характер этих сведений (что отличает книгу Феллера от ряда других современных руко- водств, где до трети объема уходит на теорию меры и интеграла).. Важную роль играет гл. VI, являющаяся, как замечает автора собранием введений во все последующие главы. В настоящем томе, по-видимому, впервые излагается так обстоя- тельно теория преобразований Лапласа в применении к вероят- ностным проблемам (гл. VII, XIII, XIV). Много места отведена вопросам теории восстановления и случайным блужданиям (гл. VI*. XI, XII, XIV и XVIII). Предельные теоремы для сумм не- зависимых величин излагаются дважды: сначала как иллюстрация- операторных методов (гл. IX), а затем в общей форме в гл. XVII. Можно надеяться, что выход в свет русского издания второго тома книги Феллера окажет заметное воздействие на многие стороны развития теории вероятностей, в частности сильно по- влияет на характер преподавания теории вероятностей, позволив,, наконец, привести его в соответствие с современными требованиями. Профессор Феллер, узнав о подготовке перевода второго тома„ любезно прислал список ряда цеобходимых исправлений, которые были внесены в текст. Я весьма благодарен ему за эту любезность. В работе над переводом существенную помощь мне оказали А. В. Прохоров и В. В. Сазонов. Они внимательно прочли ру- копись перевода и сделали ряд ценных замечаний, которыми я воспользовался. Они также указали на ряд неточностей в ори- гинале. Пользуюсь случаем выразить им свою глубокую благодар- ность. 9 мая 1967 г. Ю. ПрОХОрОв:
ОТ ПЕРЕВОДЧИКА План второго английского издания данного тома (с которого .выполнен перевод) § целом повторяет план его первого издания, и в то же время автором внесено в текст большое число измене- ний. Подробно о них сказано в предисловии автора. При подготовке перевода второго тома неоценимую помощь оказал мне А. Прохоров, а в работе над отдельными частями -текста мне помогали А. Архангельский, А. Бряндинская, В. Матвеев, А. Ушакова, В. Ушаков, Н. Ушаков. Всем им я выражаю свою глубокую благодарность. :20 апреля 1983 г, /О. Прохоров
ПРЕДИСЛОВИЕ К ПЕРВОМУ ИЗДАНИЮ О. Нейгебауэру х) О et praesidium et dulce decus meum* 2) В то время когда писался первый том этой книги (между 1941 и 1948 гг.), интерес к теории вероятностей еще не был столь широким. Преподавание велось очень ограниченно, и такие вопросы, как цепи Маркова, которые теперь интенсивно используются в самых различных дисциплинах, рассматривались лишь как весьма специальные главы чистой математики. Поэтому первый том можно уподобить годному на все случаи жизни путеводителю для чело- века, отправляющегося в чужую страну. Чтобы отразить сущность теории вероятностей, в первом томе нужно было подчеркнуть как математическое содержание этой науки, так и удивительное разно- образие потенциальных применений. Некоторые предсказывали, что неизбежно возникающие из этой задачи колебания степени трудно- сти изложения ограничат полезность книги. На самом деле первым томом книги широко пользуется и сейчас, когда новизна этой книги пропала, а ее материал (включая способ изложения) можно почерпнуть из более новых книг, написанных для специальных целей. Книга, как нам кажется, все еще завоевывает новых друзей. Тот факт, что неспециалисты не застряли в местах, оказавшихся трудными для студентов-математиков, показывает невозможность объективного измерения уровня трудности; этот уровень зависит от типа информации, которую ищет читатель, и от тех деталей, которые он готов пропустить. Так, путешественник часто стоит перед выбором: взбираться ли ему на гору самому или использо- вать подъемник. Ввиду сказанного второй том написан в том же самом стиле, что и первый. Он включает более трудные разделы математики, но значительная часть текста может восприниматься с различной степенью трудности. Поясним это на примере способа изложения теории меры. Гл. IV содержит неформальное введение в основные идеи теории меры, а также дает основные понятия теории вероят- ностей. В этой же главе перечисляются некоторые факты теории меры, применяемые в последующих главах для того, чтобы сфор- мулировать аналитические теоремы в их простейшей форме и избе- жать праздной дискуссии об условиях регулярности. Основное назначение теории меры в этой связи состоит в том, чтобы оправ- х) Отто Нейгебауэр (р. 1899 г., с 1939 г.—в США) — австрийский математик, историк математики и астрономии. На русском языке опубликованы его книги «Лекции по истории античных математических наук. Том. I. Догре- ческад математика».—М.—Л.: ОНТИ, 1937 и «Точные науки древности».— М., 1968: 2) О отрада моя, честь и прибежище! —К Меценату («Славный внук, Меценат»), перевод А. Семенова-Тян-Шанского. — В кн.: Квинт Гораций Флакк, Оды.Эноды. Сатиры. Послания,—Mj Художественная литература, 1970,
Предисловие к первому изданию 9 дать формальные операции и переходы к пределу, чего никогда не потребовал бы нематематик. Поэтому читатели, заинтересован- ные в первую очередь в практических результатах, никогда не почувствуют какой-либо необходимости в теории меры. Чтобы облегчить доступ к отдельным темам, изложение во всех главах сделано столь замкнутым, сколь это было возможно. Иногда частные случаи разбираются отдельно от общей теории. Некоторые темы (такие, как устойчивые законы или теория вос- становления) обсуждаются в нескольких местах с различных по- зиций. Во избежание повторений определения и иллюстративные примеры собраны в гл. VI, которую можно описать как собрание введений к последующим главам. Остов книги образуют гл. V, VIII и XV. Читатель сам решит, сколько подготовительных глав нужно ему прочитать и какие экскурсы произвести. Специалисты найдут в этом томе новые результаты и доказа- тельства, но более важной представляется попытка сделать еди- ной общую методологию. В самом деле, некоторые части теории вероятностей страдают от того, что они недостаточно внутренне согласованы, а также от того, что группировка материала и спо- соб изложения в большой степени определяются случайностями исторического развития. В образующейся путанице тесно связан- ные между собой проблемы выступают разобщенными, а простые вещи затемняются усложненными методами. Значительные упро- щения были достигнуты за счет систематического применения и развития наилучших доступных сейчас методов. Это относится, в частности, к такой беспорядочной области, как предельные теоремы (гл. XVI, XVII). В других местах упрощения были до- стигнуты за счет трактовки задач в их естественном контексте. Например, элементарное исследование специального случайного блуждания привело к обобщению асимптотической оценки, кото- рая ранее была выведена тяжелыми, трудоемкими методами в мате- матической теории страхования (и независимо, при более ограни- чительных условиях, в теории очередей). Я пытался достичь математической строгости, не впадая в пе- дантизм. Например, утверждение, что 1/(1 +£2) является харак- теристической функцией для представляется мне жела- тельным и законным сокращением для логически корректного варианта: функция, которая в точке g принимает значение 1/(1+ £2), является характеристической функцией для функции, которая в точке х принимает значение -I'6’1*1- Боюсь, что краткие исторические замечания и ссылки не от- дают должного многим авторам, внесшим свой вклад в теорию вероятностей. Однако всюду, где было возможно, я старался „ сделать это. Первоначальные работы во многих случаях перек-
10 Предисловие к первому изданию рыты более новыми исследованиями, и, как правило, полные ссылки даются только на статьи, к которым читатель может обра- титься для получения дальнейшей информации. Например, нет ссылок на мои собственные работы по предельным теоремам, в то- же время какая-либо статья, описывающая результаты наблюде- ний или идеи, лежащие в основе примера, цитируется, даже если/ она совсем не содержит математики1). В этих обстоятельствах авторский указатель не дает никаких сведений о важности тех или иных исследований для теории вероятностей. Другая труд- ность состояла в справедливой оценке работ, которым мы обязаны новыми направлениями исследований, новыми подходами, новыми методами. Некоторые теоремы, рассматривавшиеся в свое время как поразительно оригинальные и глубокие, теперь получили простые доказательства и выступают в окружении более тонких результатов. Трудно воспринимать такие теоремы в их истори- ческой перспективе и нелегко понять, что здесь, как и в других, случаях, первый шаг значит очень многое. Я благодарен Исследовательскому бюро армии США за под- держку моей работы по теории вероятностей в Принстонском^ университете, где мне помогали Дж. Голдмэн, Л. Питт, М. Сил- верстейн. Они устранили значительное число неточностей и неяс- ных мест. Все главы переписывались много раз, и первоначальные варианты предшествующих глав распространялись среди моих друзей. Таким образом, благодаря замечаниям Дж. Эллиота». Р. С. Пинхема и Л. Дж. Сэвиджа возник ряд улучшений. Я особенно благодарен Дж. Л. Дубу и Дж. Волфовицу за советы и кри- тику. График случайного блуждания Коши подготовлен Г. Тро- тером. За печатанием наблюдала г-жа X. Мак-Дугл, и внешний? вид книги многим обязан ей. Вильям Феллер* Октябрь 1965 г. х) Эта система была принята, и в первом томе, однако она была непра- вильно понята некоторыми последующими авторами; они теперь приписывают- методы, использованные в книге, работавшим до этого ученым, которые на. могли знать их.
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Характер и структура книги остались без изменений, но весь 'текст подвергся основательному пересмотру. Многие разделы были переписаны полностью (в частности, гл. XVII) и были добавлены некоторые новые параграфы. В ряде мест изложение упрощено благодаря усовершенствованным (а иногда и новым) рассуждениях^. В текст был также включен новый материал. При подготовке первого издания меня преследовал страх, что объем получится чрезмерно большим. Из-за этого, к сожалению, я провел несколько бесплодных месяцев, сокращая первоначаль- ный текст и выделяя отдельные места в мелкий шрифт. Этот ущерб теперь возмещен, и много усилий было потрачено на то, чтобы облегчить чтение книги. Встречающиеся время от времени повторения упрощают независимое чтение отдельных глав и по- зволяют связать некоторые части этой книги с материалом пер- вого тома. Расположение материала описано в предисловии к первому изданию, воспроизведенному здесь (см. второй абзац и далее). Я благодарен многим читателям за указание ошибок и упу- щений. Особо я благодарю Хаджала (D. A. Hejhal) из Чикаго за весьма полный и впечатляющий список опечаток и за замечания, касающиеся многих мест книги. ^Январь 1970 г.-, Принстон Вильям Феллер К моменту кончины автора работа над рукописью уже была завершена, но корректуры получены не были. Я благодарю изда- телей, выделивших сотрудника для тщательного сличения кор- ректуры с рукописью и за составление указателя. Проверку математического содержания книги произвели сообща Голдмэн (J. Goldman), Грюнбаум (A. Grunbaum), Маккин (Н. McKean), Питт (L. Pitt) и Питтенджер (A. Pittenger). Каждый математик понимает, какой невероятный объем работы стоит за этим. Я вы- ражаю свою глубокую признательность этим ученым и обращаю < ним слова искренней благодарности за их бескорыстный труд. Май 1970 г, Клара Н. Феллер
ОБОЗНАЧЕНИЯ Интервалы обозначаются чертой сверху: а, b—открытый, а, b—замкнутый интервал; полу- —। ।— открытые интервалы обозначаются а,Ь и а, Ь. Эти обозначения применяются также и в многомерном случае. Соответствующие соглашения о векторных обозначениях и упорядочении см. в гл. V, 1 (а также в гл. IV, 2). Символ (а, Ь) резервирован для пар и для точек. обозначают соответственно прямую, плоскость и r-мерное евклидово пространство. 1 означает ссылку на первый том; римские цифры ука- зывают номер главы. Так, 1; гл. XI, (3.6) указывает на отношение к § 3 гл. XI первого тома. ► указывает конец доказательства или серии примеров, и и обозначают соответственно нормальную плотность и нормальное распределение с нулевым математическим ожиданием и единичной дисперсией. О, о и ~ Пусть и и v зависят от параметра %, который стре- ограничено ->1 мится, скажем, к а. Предполагая, что v положи- тельно, мы пишем u = O(v) \ ограничено u = o(v) если ~ I —>0 и ~ v —> 1 если f(x)U{dx} об этом сокращении см. гл. V,3/ Относительно борелевских множеств и бэровских функций см. введение к гл. V.
ГЛАВА I ПОКАЗАТЕЛЬНЫЕ И РАВНОМЕРНЫЕ ПЛОТНОСТИ § 1. ВВЕДЕНИЕ В первом томе мы неоднократно имели дело с вероятностями, определяемыми суммами многих малых слагаемых, и пользовались приближениями вида ъ P{a<X<b}^f(x)dx. (1.1) а Основным примером служит нормальное приближение к биномиаль- ному. распределению1). Приближение этого типа обыкновенно устанавливается в форме предельной теоремы, включающей ряд все более и более «тонких» дискретных вероятностных моделей. Во многих случаях этот переход к пределу приводит, вообще говоря, к новому выборочному пространству, и последнее может быть интуитивно проще, чем первоначальная дискретная модель. Примеры, а) Показательные времена ожидания. Для того чтобы описать времена ожидания дискретной моделью, мы должны сде- лать время дискретным и условиться, что изменения могут осу- ществляться только в моменты времени б, 26, ... . Простейшее время ожидания Т есть время ожидания первого успеха в после- довательности испытаний Бернулли с вероятностью успеха р§. Тогда Р{Т>пб} = (1—р6)п и среднее время ожидания равно Е(Т) = б/рд. Эту модель можно усовершенствовать, если предпо- ложить б убывающим так, что математическое ожидание б/рб = а остается фиксированным. Любому фиксированному интервалу вре- мени t соответствует п & t/S испытаний, и, следовательно, при малом б мы имеем Р{Т>/}«(1 — 1у/б« <?-*/«, (1.2) что доказывается переходом к логарифмам. Эта модель описывает время ожидания как геометрически распределенную дискретную случайную величину, а (1.2) утверждает, что «в пределе» полу- чается показательное распределение. Интуиция подсказывает, что г) Другие примеры из первого тома: распределение арксинуса, гл. III,4; распределение числа возвращений в начальное состояние и времен первого прохождения, гл. III,7; предельные теоремы для случайных блужданий, гл. XIV; равномерное распределение, задача 20 в гл. XI,7.
14 Гл, I. Показательные и равномерные плотности более естественно начать с выборочного пространства, точками которого служат действительные числа, и ввести показательное распределение непосредственно. б) Случайный выбор, «Выбор точки наудачу» в интервале1) 0,1 является воображаемым экспериментом с очевидным интуитивным смыслом. Этот эксперимент может быть описан дискретными при- ближениями, но проще взять в качестве выборочного простран- ства весь интервал и приписать каждому подынтервалу в качестве вероятности его длину. Воображаемый эксперимент, заключаю- щийся в том, что производятся два независимых выбора точки в 0,1, дает пару вещественных чисел, и поэтому естественным выбороч- ным пространством служит единичный квадрат. В этом выбороч- ном пространстве «вероятность» почти инстинктивно приравни- вается «площади». Этого вполне достаточно для некоторых эле- ментарных целей, но рано или поздно возникает вопрос о том, что же в действительности означает слово «площадь». ► Как показывают эти примеры, непрерывное выборочное про- странство может быть проще для восприятия, чем дискретная модель, но определение вероятностей в нем зависит от такого аппарата, как интегрирование и теория меры. В счетных выбороч- ных пространствах можно было приписать вероятности всем вообще событиям, в то время как в пространствах произвольной природы эта простая процедура ведет к логическим противоречиям, и наша интуиция должна приспосабливаться к крайностям формальной логики. Мы вскоре увидим, что наивный подход может привести к затруднениям даже в сравнительно простых задачах. Ради спра- ведливости стоит сказать, что в то же время многие значительные вероятностные задачи не требуют четкого определения понятия вероятности. Иногда они имеют аналитический характер, а вероят- ностное содержание служит лишь опорой для нашей интуиции. Более существен тот факт, что при изучении сложных случайных процессов (и соответственно усложненных выборочных пространств) могут возникнуть важные и понятные задачи, не связанные с теми тонкими средствами, , которые используются при анализе процесса в целом. Типичное рассуждение может иметь следующий вид: если процесс вообще допускает математическое описание, то случайная величина Z должна иметь такие-то и такие-то свойства, а ее рас- пределение должно в силу этого удовлетворять такому-то уравне- нию. Хотя вероятностные соображения могут сильно влиять на ход исследования этого уравнения, последнее в принципе не зависит от аксиом теории вероятностей. Специалисты различных прикладных областей настолько привыкли иметь дело с подобными х) Для обозначения интервалов используется черта. Символ (а, Ь) сохра- няется для координатной записи точек на плоскости, см, обозначения в на- чале книги.
§ 2, Плотности. Свертки 15 проблемами, что они отрицают необходимость теории меры: они не знакомы с задачами другого типа и с ситуациями, где нечет- кие рассуждения приводили к неверным результатам1). Эти замечания постепенно разъясняются на протяжении этой главы, которая предназначена служить неформальным введением в теорию. В ней описываются некоторые аналитические свойства двух важных распределений, которые будут постоянно использо- ваться в этой книге. Специальные темы затрагиваются отчасти по причине важных применений, отчасти для демонстрации новых задач, требующих привлечения новых методов. Нет необходимости изучать их систематически или в том порядке, как они пред- ставлены. Всюду в этой главе вероятности понимаются как элементар- ные интегралы со всеми вытекающими отсюда ограничениями. Использование вероятностного «жаргона» и таких терминов, как случайные величины и математические ожидания, может быть оправдано с двух точек зрения. Можно рассматривать их как техническое вспомогательное средство для нашей интуиции, имею- щее в основе формальную аналогию с изложенным в первом томе. С другой стороны, все сказанное в этой главе может быть фор- мально безупречно обосновано предельным переходом от дискрет- ной модели, описанной в примере 2, а). Последняя процедура, хотя и не является ни необходимой, ни желательной, может быть хорошим упражнением для начинающих. § 2. ПЛОТНОСТИ. СВЕРТКИ Плотностью вероятности функция /, такая, что на прямой (или в «Я1) называется + со f (х) dx = 1. — 00 (2-1) Для начала мы рассмотрим ности (общий случай см. в только кусочно-непрерывные плот- гл. V,3). Каждой плотности f мы г) Роли строгости и интуиции часто понимаются неправильно. Как уже отмечалось в первом томе, природная интуиция и естественный способ мыш- ления дают Чиало, но они становятся сильнее по мере развития математиче- ской теории. Сегодняшняя интуиция и применения опираются на сложные теории вчерашнего дня. Кроме того, строгая теория не роскошь, а способ экономии мышления. В самом деле, наблюдения показывают, что в примене- ниях многие авторы полагаются на длинные вычисления, а не на простые рассуждения, которые им кажутся рискованными [ближайшая иллюстрация — пример 5,а)].
16 Гл. I. Показательные и равномерные плотности поставим в соответствие функцию распределения1) F, определен- ную равенством х I f(y)dy. (2.2) — 00 Это есть монотонная непрерывная функция, возрастающая от О до 1. Мы скажем, что f и F сосредоточены на интервале а^. если f равна нулю вне этого интервала. Плотность f будет рассматриваться как функция, задающая вероятности на интер- валах прямой; интервалу а, 6 = {а<х<&} соответствует вероят- ность ъ F(b)—F(a) = \f(x)dx. (2.3) t. Иногда эта вероятность будет обозначаться Р{а, Ь}. При таком распределении отдельной точке соответствует вероятность О, а замкнутому интервалу а, b—та же вероятность, что и а. Ъ. В простейшей ситуации действительная прямая служит «выбо- рочным пространством», т. е. результат воображаемого экспери- мента представляется числом. (Точно так же, как и в первом томе, это лишь первый шаг в построении выборочных про- странств, представляющих последовательности экспериментов.) Случайные величины являются функциями, определенными на вы- борочном пространстве. Для простоты мы договоримся на неко- торое время считать функцию U случайной величиной, если для каждого t событие состоит из конечного множества интер- валов. Тогда функция G(/) = P{U</} (2.4) может быть определена как интеграл от f по объединению этих интервалов. Функция G, заданная равенством (2.4), называется функцией распределения величины U. Если G является интегра- лом от некоторой функции g, то g называется плотностью рас- пределения G или (что равнозначно) плотностью величины U. Основная случайная величина—это, конечно, координатная величина2) X сама по себе, а все другие случайные величины 2) Мы напоминаем, что под «функцией распределения» понимается непре- рывная справа неубывающая функция с пределами 0 и 1 на — оо п +00- В первом томе мы преимущественно имели дело со ступенчатыми функциями. Теперь сосредоточим наше внимание на функциях распределения, задаваемых интегралами. Более подробно мы будем изучать функции распределения в гл. V. 2) Всюду, где это возможно, мы будем обозначать случайные величины (т. е. функции на выборочном пространстве) заглавными полужирными бук- вами, оставляя малые буквы для обозначения чисел или масштабных пара- метров. Это справедливо, в частности, для координатной величины X, а именно функции, определенной равенством X (х)=х.
§ 2. Плотности. Свертки 17 являются функциями X. Функция распределения X тождественна функции F, посредством которой задаются вероятности. Необхо- димо сказать, что любая случайная величина Y=g’(X) может рассматриваться как координатная величина на новой прямой. Как сказано выше, употребление этих терминов может быть оправдано аналогией с рассмотренным в первом томе. Следующий пример показывает, что наша модель может быть получена из дискретных моделей предельным переходом. Примеры, а) Группировка данных. Пусть F—заданная функ- ция распределения. Выберем фиксированное 6 > 0 и рассмот-* рим дискретную случайную величину Хб, которая в интервале (п— 1)б<х^пб принимает постоянное значение пб. Здесь п = 0, =ЬК ±2, .... В первом томе мы использовали совокупность чисел, кратных б, как выборочное пространство и описывали распределение вероятностей Х;; равенством р {Хд = пб} = F (nty—F ((n— 1) б). (2.5) Теперь Х6—случайная величина в расширенном выборочном про- странстве, и ее функция распределения—это функция, которая в интервале пд^х < (n-j- 1) б равна F (п$). В непрерывной мо- дели Хб служит приближением к X, получаемым отождествлением наших интервалов с их концами (процедура, известная статисти- кам как группировка данных). В духе первого тома мы будем рассматривать Х5 как основную случайную величину, и б—как свободный параметр. Полагая б—>0, мы получим предельные теоремы, устанавливающие, например, что F служит предельным распределением для Х;.. б) При х>0 событие {Х2^х} равносильно событию {— <Х<Ух}; случайная величина X2 имеет распределение, сосре- доточенное на 0, оо с функцией распределения F (Кх)—F (—Кх). После дифференцирования видно, что плотность g величины X2 равна g (х) = [/ (/х) + /(—Vrx)]fyrх при х > 0 и g (х) = 0 при х<0. Аналогично функция распределения X3 равна F (f/х) и имеет плотность у Н х2. >. Математическое ожидание X определяется формулой + 00 Е (X) = $ xf (х) dx (2.6) — 00 при условии, что интеграл сходится абсолютно. Математические ожидания аппроксимирующих дискретных величин Х3 из при- мера а) совпадают с римановыми суммами этого интеграла, и поэтому Е(Хб)—^Е(Х). Если и есть ограниченная непрерывная функция, то те же самые рассуждения применимы к случайной величине
18 Гл. I. Показательные и равномерные плотности ы(Х), и соотношение Е (и (Х6)) —> Е (и (X)) влечет за собой Е (и (X)) = и (x)f (х) dx. (2.7) — 00 Здесь следует отметить, что в этой формуле явно не используется распределение w(X). Таким образом, для вычисления математи- ческого ожидания функций от X достаточно знать распределение случайной величины X. Второй момент X определяется равенством Е(Х2) = $ x*f(x)dx (2.8) — 00 при условии, что интеграл сходится. Обозначим р, = Е(Х). Тогда дисперсия X определяется как Var (X) = Е ((X —и)2) = Е (X2)—jx2. (2.9) Замечание. Если величина X положительна (т. е. если плот- ность f сосредоточена на 0, оо) и если интеграл в выражении (2.6) расходится, то удобно говорить, что X имеет бесконечное ма- тематическое ожидание, и писать Е(Х) = оо. Точно так же гово- рят, что X имеет бесконечную дисперсию, когда интеграл в (2.8) расходится. Для величин, принимающих положительные и отри- цательные значения, математическое ожидание остается неопре- деленным, когда интеграл (2.6) расходится. Типичный пример доставляет плотность л-1 (1-(-х2)”1. Понятие плотности переносится на размерности более высо- ких порядков, но общее обсуждение мы отложим до гл. III. Пока же мы будем рассматривать только аналог произведения вероятностей, введенного определением 2 в 1, гл. V, 4, для описания комбинаций независимых экспериментов. Другими сло- вами, в этой главе мы будем иметь дело только с плотностями, представляемыми произведениями вида f(x}g(y), f (х) g(y)h(z) ит. д., где /, g, ...—плотности на прямой. Задание плотности вида f(x)g(y) на плоскости 512 означает отождествление «веро- ятностей» с интегралами P{A} = ^f(x)g(y)dxdy. (2.10) А Когда мы говорим о «двух независимых случайных величинах X и Y с плотностями f и £», то это есть сокращение высказыва- ния о том, что вероятности на (X, У)-плоскости определяются в соответствии с формулой (2.10). Отсюда следует правило умно- жения для интервалов, например Р {X > a, Y > b} = Р {X > а\ х xP{Y>^}« Аналогия с дискретным случаем настолько очевидна, что дальнейшие разъяснения не требуются.
§ 2. Плотности» Свертки 19 Можно ввести много новых случайных величин, рассматривая функции X и Y, но наиболее важную роль играет сумма S = = X + Y. Событие А = {S s} изображается полуплоскостью точек (%, у), таких, что x-\-y^.s. Обозначим функцию распре- деления Y через G, так что g(y) = G' (у). Чтобы найти функцию распределения X-j-Y, мы интегрируем в (2.10) по области у^. —X. В результате получаем + 00 P{X + Y^s}= $ G(s—x)f(x)dx. (2.11) — 00 Ввиду симметрии можно поменять F и G ролями без влияния на результат. После дифференцирования видно, что плотность X-f- Y равна любому из двух интегралов + оо +оо $ f(s—y)g(y)dy = J f(y)g(s—y)dy. (2.12) — ОС — 00 Операция, определенная формулой (2.12), является частным случаем свертки, которая будет введена в гл. V, 4. До этого времени мы будем использовать термин «свертка» только для плотностей: свертка двух плотностей fug есть функция, опре- деленная в (2.12). Свертка будет обозначаться f * g. Повсюду в первом томе мы имели дело со свертками дискрет- ных распределений. Соответствующие правила справедливы и здесь. В силу (2.12) мы имеем f X g = g# f. Если задана третья плот- ность h, мы можем составить свертку (/ -к g) * h. Это есть плот- ность суммы X + Y+Z трех независимых величин с плотностями Д g, h. Тот факт, что суммирование коммутативно и ассоциа- тивно, влёчет те же свойства для сверток, и поэтому результат f*gxh не зависит от порядка операций. Положительные случайные величины играют важнейшую роль, и потому полезно отметить, что если плотности fug сосредото- чены на 0, оо, то свертка f X g равна S S f*g(s) = \f(s—y)g(y)dy=lf(x)g(s—x)dx. (2.13) ► о О Пример, в) Пусть fag сосредоточены на 0, оо и определены здесь равенствами f (х) = ае~ах и g (х) = Ре~зх. Тогда f^.g(x) = ape х>°- (2-14)>- (Продолжение в задаче 12.) Замечание о понятии случайной величины. Использование прямой линии или евклидовых пространств $1п как выборочных пространств иногда затемняет различие между случайными вели-
’20 Гл. 1. Показательные и равномерные плотности чинами и «обычными» функциями одной или большего числа пере- менных. В первом томе случайная величина X могла принимать лишь счетное множество значений, и в этом случае было ясно, говорили ли мы о функции, например квадрате или экспоненте, определенной на прямой, или о случайной величине X2 или ех, определенной на выборочном пространстве. Даже по внешнему виду эти функции совершенно различны, поскольку «обычная» показательная функция принимает все положительные значения, тогда как ех имеет счетную область значений. Для того чтобы увидеть изменение в этой ситуации, рассмотрим теперь «две неза- висимые случайные величины X и Y с одинаковой плотностью /». Другими словами, выборочным пространством служит плоскость и вероятности определяются как интегралы от /(х)/(у). Теперь любая функция двух переменных может быть определена на выборочном пространстве, и тогда она становится случайной величиной, однако следует иметь в виду, что функция двух пере- менных может быть также определена независимо от нашего выборочного пространства. Например, некоторые статистические задачи требуют введения случайной величины / (X) f (Y) [см. при- мер 12, г) гл. VI]. С другой стороны, вводя наше выборочное пространство 5i2, мы очевидным образом упоминали «обычную» функцию /, определенную независимо от выборочного простран- ства. Эта «обычная» функция задает множество случайных вели- чин, например /(X), /(Y), f(X±Y) и т. д. Таким образом, одна и та же функция f может служить или случайной величиной, или «обычной» функцией. Как правило (и в каждом отдельном случае), будет ясно; имеем ли мы дело со случайной величиной или нет. Тем не ме- нее в общей теории возникают ситуации, при которых функции (такие, как условные вероятности и условные математические ожидания) могут рассматриваться как «свободные» функции или как случайные величины, и это отчасти приводит к путанице, если свобода выбора не понимается должным образом. Замечание о терминологии и обозначениях. Чтобы избежать громоздких формулировок, условимся называть Е (X) математическим ожиданием вели- чины X, или плотности или распределения F. Подобные вольности будут введены и для других терминов. Например, «свертка» фактически означает операцию, но этот термин применяют и к результату операции, и функция f g называется «сверткой». В старой литературе термины «распределение» и «функция частот» при- менялись к тому, что мы теперь называем плотностями; наши функции рас- пределения описывались как «кумулятивные», а сокращение c.d.f. х) употре- бительно до сих пор. х) Cumulative distribution function — кумулятивная функция распределе- ния,— Прим» перев»
§ 3, Показательная, плотность 21 ,§. 3. ПОКАЗАТЕЛЬНАЯ ПЛОТНОСТЬ Для произвольного, но фиксированного а > 0 положим f (х) = ае~ах, F(x) = l—е~ах при х^О (3.1) и F (х) = /(%) = 0 при х < 0. Тогда /—показательная плотность, F—ее функция распределения. Простые вычисления показывают, что математическое ожидание равно а”1, дисперсия—а-2. В примере 1, а) показательное распределение было выведено как предел геометрических распределений. Метод примера 2, а) приводит’ к тому же результату. Напомним, что в случайных про- цессах геометрическое распределение часто имеют времена ожида- ния или продолжительность жизни и что это обусловлено «отсут- ствием последействия», описанным в 1, гл. XIII, 9: каков бы ни был настоящий возраст, оставшееся время жизни не зависит от прошлого и имеет то же самое распределение, что и само время жизни. Теперь будет показано/что это свойство переносится на показательное распределение и только на показательное рас- пределение. Пусть Т—произвольная положительная величина, которую мы будем интерпретировать как время жизни или как время ожида- ния. Удобно заменить функцию распределения Т «хвостом рас- пределения» (/(/) = Р{Т>/}. (3.2) С наглядной точки зрения U (/) есть «вероятность того, что время жизни (от момента рождения) превзойдет t». При данном возра- сте s событие, состоящее в том, что оставшееся время жизни превосходит t, записывается как {Т> $ + /}, и условная вероят- ность этого события (при данном возрасте s) равна отношению U (s 4- t)/U (s). Это есть распределение оставшегося времени жизни. Оно совпадает с распределением общего времени жизни тогда и только тогда, когда U (s + t) = U (s)U (t), s, />0. (3.3) В 1; гл. XVII, 6 было показано, что положительное решение этого уравнения должно иметь вид U = и, следовательно, отсутствие последействия, выделенное выше, имеет место тогда и только тогда, когда распределение времени жизни пока- зательно. Мы будем называть это свойство отсутствия последействия (lack of memory) марковским свойством показательного распреде- ления. Аналитически марковское свойство сводится к утвержде- нию, что только для показательного распределения F хвосты U= = 1—F удовлетворяют равенству (3.3). Этим объясняется посто- янное присутствие показательного распределения в марковских процессах. (Усиленный вариант марковского свойства будет описан
22 Гл. I. Показательные и равномерные плотности в § 6.) Наше описание относится к временным процессам, но наши рассуждения имеют общий характер, и марковское свойство остается осмысленным, когда время заменяется каким-нибудь дру- гим параметром. Примеры, а) Прочность на разрыв. Чтобы получить непре- рывный аналог общеизвестной конечной цепи, прочность которой равна прочности ее самого слабого звена, обозначим U (t) веро- ятность того, что нить длины t (данного материала) может вы- держать некоторый фиксированный груз. Нить длины s-H не раз- рывается, если два отрезка по отдельности выдерживают данный груз. В предположении, что взаимодействие отсутствует, эти два события должны рассматриваться как независимые и U должно удовлетворять (3.3). Здесь длина нити выполняет роль временного параметра, а длина, при которой нить порвется, является пока- зательно распределенной случайной величиной. б) Случайные ансамбли точек в пространстве существенны во многих отношениях, поэтому важно иметь подходящее определение этого понятия. Интуиция подсказывает, что первым свойством, характеризующим «чистую случайность», должно быть отсутствие взаимодействия между различными областями: если области и А2 не перекрываются, то наблюдения за положением в области Лх не позволяют сделать вывод о положении в области Л2. Конк- ретно, вероятность р того, что области Л£ и Л2 одновременйо не содержат точек ансамбля, должна быть равна произведению веро- ятностей и р2 того, что каждая область Лх- и Л2 соответственно пуста. Правдоподобно, что это правило произведения справед- ливо не для всех разбиений на области, но в том случае, когда, вероятность р зависит лишь от объема области Л, а не от ее формы. Предполагая, что последнее выполнено, обозначим через U (t) вероятность того, что область, имеющая объем t, является пустой. Тогда вероятности U (t) удовлетворяют равенству (3.3) и поэтому U(t') = e~at\ постоянная а зависит от плотности точек ансамбля, или, что то же самое, от единицы измерения. В сле- дующем разделе будет показано, что знание U позволяет вычис- лять вероятности pn(t) того, что область объема t содержит ровно п точек ансамбля; эти вероятности определяются распре- делением Пуассона: рп (/) = e~at (at)n/nl. В этом случае мы гово- рим о пуассоновских ансамблях точек, и этот термин является более определенным, нежели термин случайный ансамбль, кото- рый может иметь и другие значения. в) Ансамбли кругов и шаров. Случайные ансамбли частиц ставят перед нами более сложную задачу. Предположим для простоты, что частицы имеют круговую или сферическую форму фиксирован- ного радиуса р. Тогда положение частиц полностью определяется их центрами и заманчиво считать, что эти центры образуют пуассоновский ансамбль. При строгом подходе, однако, это не- верно, поскольку взаимные расстояния между центрами необходима
§ 3. Показательная плотность 23 превосходят 2р. Кажется тем не менее правдоподобным, что при малом радиусе р пренебрежение размерами рассматриваемых фигур незначительно сказывается на практике и поэтому модель пуассоновского ансамбля центров можно считать приемлемой в качестве разумного приближения. В соответствующей математической модели мы постулируем, что центры образуют пуассоновский ансамбль, и допускаем в связи с этим возможность того, что круги или шары пересекаются. Эта идеализация не должна иметь практических последствий, если радиусы р малы, так как вероятность пересечений незначительно мала. Астрономы обращаются со звездными системами как с пуас- соновскими ансамблями, и достигаемое при этом приближение к действительности оказывается превосходным. Следующие два при- мера демонстрируют использование этой модели на практике. г) Ближайшие соседи. Рассмотрим пуассоновский ансамбль шаров (звезд) с плотностью а. Вероятность того, что область объема t не содержит центров, равна e~at. Высказывание о том, что расстояние до ближайшего к началу координат соседа боль- ше г, сводится к высказыванию, что внутренность шара радиуса г не содержит ни одного центра из ансамбля. Объем такого шара равен -улг3> и поэтому для пуассоновского ансамбля звезд веро- ятность того, что ближайший сосед находится на расстоянии, —лаг3 большем г, равна е 3 .Тот факт, что полученное выражение не зависит от радиусов р звезд, указывает на приближенный харак- тер модели и ее ограниченность. На плоскости шары заменяются кругами, а распределение рас- стояний между ближайшими соседями задается функцией 1— д) Продолжение', задача свободного пробега. Для упрощения описания мы начнем с двумерной модели. Представим себе слу- чайный ансамбль-крупов (круговых дисков) как поперечные сече- ния деревьев (круговых цилиндров) в достаточно редком лесу. Я стою в начале координат, которое не содержится ни в одном из дисков, и смотрю в положительном направлении оси х. Длина самого длинного интервала 0, /, не пересекающего ни одного диска, характеризует свободный пробег, или видимость, в х-нап- равлении. Эту случайную величину обозначим L. Обозначим через А область, образованную множеством точек, расстояния которых от точех интервала 0, t на оси х не пре- восходят р. Граница области А состоит из двух сегментов 0^ ^х*^/ на прямых у= ±*р и двух полуокружностей радиуса р с центрами в точках 0 и t на оси х. Таким образом, площадь А равна 2р/-|-лр2. Событие {L>/} происходит тогда и только тогда, когда внутри области ,Л нет ни одного центра диска, но уже известно заране^, что круг радиуса р с центром в начале координат не содержит центров диска. Оставшаяся область имеет
.24 Гл. 1. Показательные и равномерные плотности площадь 2р/, и можно сделать вывод, что распределение случай- ной величины L (видимости в х-направлении) является показа- тельным: P{L> = Проведенные нами рассуждения остаются верными и в прост- ранстве а соответствующая этому случаю область образу- ется вращением А около оси х. Прямоугольник 0 < х < /, |у|< < р заменяется цилиндром объема яр2/. Мы получаем, что для пуассоновского ансамбля шаровых звезд величина L свободного пробега в любом направлении имеет показательное распределение: P{L>0 = е-лар2/ Средняя величина свободного пробега равна Е (L) = 1/(лар2). > Следующая теорема будет использоваться неоднократно. Теорема. Если Хп ..., Хп—взаимно независимые случайные величины с показательным распределением (3.1), то сумма X* +... ... + х„ имеет плотность gn и функцию распределения Gn% задаваемые формулами £п(х)=«((Т-7яе~а*’ х>0, <3-4) G„(x) = l-e— (1+^+ х>0. (3.5) Доказательство. При п = 1 утверждение сводится к опреде- лению (3.1). Плотность gn+1 определяется сверткой t gn+i(t)^^gn(i—x)g1(x)dx, (3:6) О и в предположении справедливости (3.4) это сводится к •' ' gn+id) = (ПЗЛ)1е"а* j = (3.7) О Таким образом, (3.4) выполняется по индукции для всех п. Спра- ведливость равенства (3.5) доказывается дифференцированием. Плотности gn входят в семейство гамма-плотностей, которое будет введено в гл. 11,2. Они представляют собой непрерывный аналог отрицательного биномиального распределения, определен- ного в 1, гл. VI, 8, как распределение суммы /г случайных вели- чин с одинаковым геометрическим распределением. (См. задачу 6.)г § 4. ПАРАДОКСЫ. СВЯЗАННЫЕ С ВРЕМЕНЕМ ОЖИДАНИЯ. ПУАССОНОВСКИЙ ПРОЦЕСС Обозначим Хх, Х2, ... взаимно независимые случайные велит чины с одинаковым показательным распределением (3.1). Пусть
§ 4. Парадоксы, связанные с временем ожидания 25 se = o, Sn = X1+...+Х„, п = 1, 2............... (4.1) Мы вводим семейство новых случайных величин N (/) следующим образом: N (/) есть число индексов таких, что Sk^t. Со- бытие (N (/) = «} происходит тогда и только тогда, когда Sns^t, а $«+1 > t- Так как S„ имеет распределение G„, то вероятность этого события равна Gn(f)—Gn+i(t) или P{N(0 = n}=e-“'-^p-. (4.2) Иначе говоря, случайная величина N (/) имеет пуассоновское рас- пределение с математическим ожиданием at. Эта аргументация выглядит как новый вывод пуассоновского распределения, но на самом деле это только перефразировка пер- воначального вывода из 1, гл. VI, 6, в терминах случайных вели- чин. Для наглядного описания рассмотрим случайно наступаю- щие события (такие, как вспышки космических лучей или теле- фонные вызовы), которые мы называем «поступлениями». Допус- тим, что последействие отсутствует, т. е. прошлое не дает воз- можности сделать заключение в отношении будущего. Как мы видели, это условие требует, чтобы время ожидания Хг первого по- ступления было распределено показательно. Но при каждом поступ- лении процесс начинается снова как вероятностная копия всего процесса: времена ожидания Xk между последовательными поступле- ниями должны быть независимыми и должны иметь одно и то же рас- пределение. Сумма Sn изображает момент n-го поступления, a N (/)— число поступлений в интервале 0, t. В такой форме доводы отли- чаются от первоначального вывода пуассоновского распределения лишь использованием лучших специальных терминов. (По терминологии случайных процессов последовательность есть процесс восстановления с показательными временами Xk между поступлениями} общее понятие процесса восстановления см. в гл. VI, 6.) Даже эта простая ситуация приводит к кажущимся противоре- чиям, которые иллюстрируют необходимость более сложного под- хода. Мы начнем с несколько наивной формулировки. Пример. Парадокс времени ожидания. Автобусы прибывают в согласии с пуассоновским процессом, причем среднее время между последовательными автобусами равно а”1. Я прихожу в момент t. Каково математическое ожидание E(Wt) времени Wf, в течение которого я жду следующий автобус? (Понятно, что мо- мент t моего прибытия не зависит от автобусов—скажем, я при- хожу ровно в полдень.) Очевидно, имеются два противоречивых ответа. а) Отсутствие последействия, свойственное пуассоновскому процессу, влечет за собой независимость времени ожидания авто-
26 Гл. I. Показательные и равномерные плотности буса от момента моего прибытия. В этом случае E(Wf) = E(W0) = a-1. б) момент моего прибытия «выбран наудачу» в интервале между двумя последовательными автобусами, и по соображениям симмет- рии мое среднее время ожидания должно быть равно половине среднего промежутка времени между двумя последовательными автобусами, т. е. E(Wf)=-la-\ Оба рассуждения кажутся приемлемыми, и оба использовались на практике. Что же делать с противоречиями? Легчайший выход у формалиста, который отказывается рассматривать задачу, если она не сформулирована строго. Но задачи не решаются их игно- рированием. Теперь мы покажем, что оба рассуждения по существу, если не формально, корректны. Ошибка лежит в непредвиденном пункте, и мы приступаем теперь к ее объяснению1). Мы рассмотрим последовательность времен между прибытиями X1 = S1, X2 = S2-Sn .... По предположению Xk имеют одинаковое показательное распре- деление с математическим ожиданием а"1. Выбирая «любое» от- дельное Xfe, мы получаем случайную величину, и интуитивно ожидается, что ее математическое ожидание будет равно от1 при условии, что выбор сделан , без знания последовательности Х£, Х2, .... Однако это неверно’ В нашем примере мы взяли тот элемент Хь для которого где t фиксированно. Этот выбор сделан без учета действительного процесса, но оказывается, что так выбранное Хк имеет двойное математическое ожидание 2a-1. С учетом этого факта противоречие исчезает, так как в пункте б) нашего примера постулируется, что среднее время ожидания равно а"1. Это разрешение парадокса вызвало шок у опытных работников, однако оно становится интуитивно ясным, когда должным образом подбирается способ рассуждения. Грубо говоря, длинный интервал имеет больше шансов накрыть точку t, нежели короткий. Это приблизительное утверждение подтверждается следующим пред- ложением. Предложение. Пусть Хй Х2 ... взаимно независимы и одина- ково показательно распределены с математическим ожиданием ос1. г) Вариант парадокса см. в примере VI, 7, а) Этот парадокс известен в общей теории восстановления, где он вызвал серьезные затруднения и про- хиворечияа прежде чем был правильно понят (см. по этому поводу Х1Л4).
§ 4. Парадоксы, связанные с бременем ожидания 27 Пусть / > О фиксированно, но произвольно. Элемент Хл, удовлет- воряющий условию имеет плотность , \ ( а2хе~ах для О < х < t, vt \х) — I a(i _|_а^е-ах для (4.3) Здесь главное в том, что плотность (4.3) не является общей плотностью для Xk. Явный вид этой плотности представляет второстепенный интерес. [Аналог произвольного распределения времени ожидания содержится в XI, (4.16).] Доказательство. Пусть k—такой (зависящий от случая) индекс, что и пусть L, равно —Sft_r Мы должны дока- зать, что Lf имеет плотность (4.3). Допустим сначала, чтох<Л Событие происходит, если и только если8„ = г/и/—у < при некоторой комбинации м, у. Отсюда следует не- равенство t—x^y<t. Суммируя по всем возможным п и у, получаем 00 P{L,<x}=£ \ gn{y)-[e-^^-e-^]dy. (4.4) п~1I-X Но gi (y) + g2 (у) + . •. =<х тождественно, и поэтому P{L/^x} = 1—е~ах—ахе~ах. (4.5) Дифференцируя, мы получим (4.3) для х < t. Для х > t применимо это же доказательство с той разницей, что у меняется от 0 до х, и мы должны прибавить к правой части равенства (4.4) вероят- ность e~at—е~ах того, что 0 < t < Sx < х. Этим доказательство завершается. Скачок функции (4.3) при х = t обусловлен специальной ролью начала как исходной точки процесса. Очевидно, lim vt (х) = а2хе~ах, (4.6) откуда видно, что со временем роль начала исчезает и для «ста- рого» процесса распределение почти не зависит от t. Удобнее выразить это, сказав, что правая часть (4.6) задает «стационар- ную» плотность L*. В обозначениях, принятых в доказательстве, время ожидания Wb рассмотренное в примере, есть случайная величина W^ = S^—t Из доказательства теоремы следует также, что Р {Wt < %} = е~ <х+/>+ 00 t + Х \ 8ЛУ)\.е"аЛ*~,л—е~ах. (4.7) п=1 О Таким образом, Wf имеет то же самое показательное распреде- ление, что и ХА, в согласии с доводами пункта а). (См. задачу 7.)
28 Гл. I. Показательные и равномерные плотности Наконец, несколько слов о пуассоновском процессе. Пуассонов-', ские величины N (/) были введены как функции, определенные, на выборочном пространстве бесконечной последовательности случайных величин Хх, Х2, ... . Эта процедура удовлетворительна для многих целей, но более естественно другое выборочное про- странство. Мысленный эксперимент «регистрации числа поступив- ших вызовов вплоть до момента /» дает при каждом положитель- ном t целое число, и результатом поэтому является ступенчатая функция с единичными скачками. Эти ступенчатые функции служат точками выборочного пространства; выбррочное пространство является функциональным пространством—пространством всех возможных «траекторий». В этом пространстве N (t) определяется как значение ординаты в момент /, a Sn—как координата /г-го скачка и т. д. Теперь могут быть рассмотрены события, которые невыразимы в терминах первоначальных случайных величин. Ти- пичный пример, имеющий практический интерес (см. задачу о ра- зорении в гл. VI, 5), доставляет событие, заключающееся в том, что N (/)>« + &/ при некотором /. Отдельная траектория (точно так же, как отдельная бесконечная последовательность из ± 1 в биномиальных испытаниях) представляет собой естественный и неизбежный объект вероятностного исследования. Стоит только привыкнуть к новой терминологии, как пространство всех траекто- рий становится наиболее наглядным выборочным пространством. К сожалению, введение вероятностей в пространстве выбороч- ных траекторий—дело далеко не простое. Для сравнения заме- тим, что переход от дискретных выборочных пространств к пря- мой, плоскости и т. д. и даже к бесконечным последовательно- стям случайных величин ни мысленно, ни технически не труден. В связи с функциональными пространствами возникают проблемы нового типа, и мы предупреждаем читателя, что не будем иметь с ними дела в этом томе. Мы удовлетворимся частным рассмотре- нием выборочных пространств последовательностей (счетного мно- жества координатных величин). Упоминание о случайных процес- сах вообще и о пуассоновском процессе в частности мы будем делать свободно, но только для того, чтобы подготовить интуи- тивную основу или привлечь интерес к нашим проблемам. Пуассоновские ансамбли точек Как показано в 1; гл. VI, 6, пуассоновский закон управляет не только «точками, распределенными случайно на оси времени», но также ансамблями точек (такими, как дефекты в изделиях или изюминки в булках), распределенных случайно на плоскости или в пространстве при условии, что t интерпретируется как площадь или объем. Основное предположение состоит в том, что вероят- ность нахождения k точек в заданной области зависит только от
§ 5. Устойчивость неудач 29 площади или объема области, но не от ее формы и что явления в неперекрывающихся областях независимы. При этом же самом предположении в примере 3, б) было по- казано, что вероятность отсутствия точек в области объема t равна e~at. Это соответствует показательному распределению времени ожидания первого события, и мы теперь видим, что распределение Пуассона для числа событий является простым следствием этого. Те же доводы применимы к случайным ансамблям точек в про- странстве, и мы приходим к возможности нового доказательства того, что число точек ансамбля, содержащихся в данной области, есть случайная величина, распределенная по закону Пуассона. Путем несложных формальных выкладок можно прийти к ин- тересным результатам, касающимся таких случайных ансамблей точек, но замечания относительно пуассоновского процесса оди- наково применимы и к пуассоновским ансамблям; полное вероят- ностное описание сложно и лежит вне рамок настоящего тома. § 5. УСТОЙЧИВОСТЬ НЕУДАЧ Общеизвестно, что тот, кто встает в очередь, случается, вы- нужден ждать неопределенно долгое время. Подобные неудачи преследуют нас во многих положениях. Как может способство- вать объяснению этого теория вероятностей? Для ответа на этот вопрос мы рассмотрим три примера, типичные для множества ситуаций. Они иллюстрируют неожиданные общие свойства слу- чайных флуктуаций. Примеры, а) Рекордные значения. Обозначим Хо мое время ожидания (или размер финансовых потерь) некоторого случайного события. Предположим, что мои друзья подвергли себя опыту того же типа. Обозначим их результаты Хх, Х2, ... . Чтобы отразить «беспристрастность», предположим, что Хо, Хх. ..— взаимно независимые случайные величины с одним и тем же рас- пределением. Природа последнего в действительности не имеет значения, но, так как показательное распределение служит мо- делью случайности, мы предположим, что Ху- показательно распре- делены в соответствии с (3.1). Для простоты описания мы пред- полагаем последовательность {Xyj неограниченной. Чтобы оценить размер моей неудачи, я спрашиваю, как много времени должно пройти, прежде чем один из моих друзей испы- тает большую неудачу (мы пренебрегаем событием ХА, = Х0, вероят- ность которого равна нулю)? Более формально, мы вводим время ожидания N как значение первого индекса п, такого, что Хп > Хо. Событие'{N > п—1} происходит, если и только если максималь- ный член строки Хо, Хх, ..., Х„_х является начальным; по со- ображениям симметрии вероятность этого события равна п"1. Со- бытие {N?=n}—это то же,, что {N>n—1} — {N>n}, и, следо-
30 Гл. I. Показательные и равномерные плотности вательно, при п =1, 2, ... P{N=n}=l--------* =_!. (5.1) х 1 1 п n-j-1 п(п-±-1) v 1 Этот результат полностью подтверждает, что мне действительно ужасно не везет: случайная величина N имеет бесконечное мате- матическое ожидание'. Было бы достаточно плохо, если нужно было бы провести в среднем 1000 испытаний, чтобы побить «рекорд» моих неудач, но действительное время ожидания имеет бесконечное математическое ожидание. Отметим, что наше рассуждение не зависит от условия, что Xfc показательно распределены. В действительности всякий раз, когда величины Ху независимы и имеют одну и ту же непрерыв- ную функцию распределения F, первое «рекордное» значение имеет распределение (5.1). Тот факт, что это распределение не зависит от F, используется статистиками для проверки независимости. (См. также задачи 8—11.) Замечательный и общий характер результата (5.1) в сочетании с простотой доказательства способен внушить подозрение. На са- мом деле доказательство безупречно (за исключением неформаль- ных рассуждений), но те, кто предпочитает полагаться на надеж- ные вычисления, могут легко проверить правильность (5.1), используя непосредственное определение рассматриваемой вероят- ности как (п+1)-кратного интеграла от ап+1е~а (x»+ по об- ласти, определенной неравенствами 0 < х0 < хп и 0 < xf < х0 при j = 1, ..., п—1. Дадим другой вывод формулы (5.1), представляющий собой поучительное упражнение с условными вероятностями; он менее прост, но приводит к до- полнительным результатам (задача 8). При условии, что Х0 = х, вероятность большого значения в более поздних испытаниях равна р = е~ах, и мы имеем дело с временем ожидания первого «успеха» в испытаниях Бернулли с вероят- ностью успеха р. Условная вероятность, что N = n при условии Х0 = х, равна поэтому р (1—р)"-1. Чтобы получить P{N = n}, мы должны умножить это на плотность ае~ах и проинтегрировать пох. Подстановка 1—e~ax~t сводит подынтегральную функцию к функции /п"1(1— /), интеграл от которой равен /г-1—(/i-f-l)"1, что соответствует (5.1). б) Отношения. Если X и Y—две независимые случайные ве- личины с одинаковым показательным распределением, то отноше- ние Y/Х является новой случайной величиной. Ее функция рас- пределения получается интегрированием выражения а2е“аи+^ по области 0 < z/ <tx, 0 < х < оо. Интегрирование по у приводит к результату e~a<x)dx==T^T- (5-2) п Соответствующая плотность равна О + О"2» Заслуживает внима-
§ 6. Времена ожидания и порядковые статистики 31 ния то, что величина Y/Х имеет бесконечное математическое ожи- дание. Мы находим здесь новое подтверждение устойчивости неудач. Конечно, Петр имеет основание для недовольства, если ему приш- лось ждать в три раза больше, чем ждал Павел. Однако распре- деление (5.2) приписывает этому событию вероятность V4. Отсюда следует, что в среднем в одном из двух случаев или Павел, или Петр имеют основания для недовольства. Наблюденная частота практически возрастает, так как очень короткие времена ожида- ния, естественно, проходят незамеченными. в) Параллельные очереди. Я приезжаю в своем автомобиле на автомобильную инспекционную станцию (или ко въезду в туннель, или на автомобильный паром и т. д.). Имеются на выбор две очереди, но раз уж я встал в одну очередь, я должен стоять в ней. Мистер Смит, который приехал вслед за мной, занимает место в другой очереди, которое я мог бы выбрать, и я теперь слежу за тем, продвигается ли он быстрее или медленнее меня. Большее время мы стоим неподвижно, но время от времени то одна, то другая очередь передвигается на один автомобиль вперед. Чтобы увеличить влияние чистого случая, мы предположим две очереди ртохастически независимыми; интервалы времени между последо- вательными продвижениями также являются независимыми ве- личинами с одинаковым показательным распределением. При данных обстоятельствах последовательные продвижения представляют со- бой испытания Бернулли, где «успех»—это то, что продвинулся вперед я, «неудача»—что продвинулся мистер Смит. Так как вероятности успеха равны х/2, мы в сущности имеем дело с сим- метричным случайным блужданием, и любопытные свойства флук- туаций при случайных блужданиях находят неожиданную интер- претацию. (Для простоты описания мы отвлечемся от того, что имеется только ограниченное число автомобилей.) Смогу ли я когда-нибудь обогнать мистера Смита? В переводе на язык слу- чайных блужданий этот вопрос звучит так: будет ли когда-нибудь иметь место первое прохождение через +1? Как известно, это событие имеет вероятность, равную единице. Однако среднее время ожидания для него бесконечно. Такое ожидание дает достаточные возможности для оплакивания моих неудач, причем раздражение мое только возрастает от того, что мистер Смит приводит те же самые доводы. § 6. ВРЕМЕНА ОЖИДАНИЯ И ПОРЯДКОВЫЕ СТАТИСТИКИ Пусть дана упорядоченная строка (хп ..., х„) из п действи- тельных чисел. Переставляя их в порядке возрастания величины, получим новую строку (-^(d > х(2), • • •, где Хм х(2) Х(п).
32 Гл. 1. Показательные и равномерные плотности Эта операция, примененная ко всем точкам пространства 81п, дает нам п вполне определенных функций, которые будут обозна- чаться Х(1), .... Х(п). Если в 31п определены вероятности, то эти функции становятся случайными величинами. Мы говорим, что (Х(1), ..., Х(и)) получается перестановкой из Хп ..., Хп в соот- ветствии с возрастанием величины. Величина Х(Л) называется й-й порядковой статистикой1) данной выборки Хп Хп, в част- ности, Х(1) и Х(л)—это выборочные экстремумы} если п = 2v + 1 нечетно, то X(v+1) есть выборочная медиана. Мы применим эти понятия к частному случаю независимых случайных величин Xv . ..,Х„ с одинаковым показательным рас- пределением с плотностью ае~ ах. Пример, а) Параллельные очереди. Будем интерпретировать Х1? .Хп как длительности п времен обслуживания, начинаю- щегося с момента 0 в почтовом отделении с п окошками. Поряд- ковые статистики изображают последовательные моменты окончания обслуживаний, или, как говорится, моменты последовательных разгрузок («выходной процесс»). В частности, Х(1) представляет собой время ожидания первой разгрузки. Теперь если предполо- жение об отсутствии последействия осмысленно, то время ожида- ния Х(1) должно обладать марковским свойством, т. е. Х(1) должно быть распределено показательно. Фактически событие {X(1)>Z} есть одновременная реализация п событий {Хл > t}, каждое из которых имеет вероятность е~а/; ввиду предположения о незави- симости вероятности перемножаются, и мы имеем Р{Хш>0 = е-^. . (6.1) Сделаем теперь следующий шаг и рассмотрим положение в мо- мент Х(1). Предположение об отсутствии памяти, по-видимому, подразумевает, что восстанавливается первоначальное положение с той разницей, что теперь в операциях участвует п— 1 окошек; продолжение процесса не должно зависеть от Х(1) и должно быть копией всего процесса. В частности, время ожидания следующей разгрузки, а именно Х(2) — Х(1), должно иметь распределение Р{Х(2)-Х(1) > t} = (6.2) аналогичное (6.1). Это рассуждение приводит к следующей общей теореме, касающейся порядковых статистик для независимых вели- чин с одинаковым показательным распределением: г) Строго говоря, термин «выборочная статистика» является синонимом термина «функция от выборочных величин», т. е. термина «случайная вели- чина». Он используется для лингвистического выделения разницы в ролях, играемых в данном контексте первоначальными величинами (выборкой) и не- которыми полученными из них величинами. Например, «выборочное среднее» (Xx-j-• • • + Хп)/п называется статистикой. Порядковые статистики часто встречаются в статистической литературе. Мы придерживаемся стандартной терминологии, за исключением того, что экстремумы обычно называются экстремальными «значениями».
§ 6. Времена ожидания и порядковые статистики 33 Предложение1). Случайные величины Х(1), Х(2)—Х(1), ... ..., Х(Л)—Х(п_п являются независимыми, и плотность Х(А+1)—Х(Л> равна (п—k)ae~(n~k} at. Прежде чем проверить это утверждение формально, рассмот- рим его следствия. Если п = 2, то разность Х(2) — Х(1) означает «остаточное время ожидания» после истечения более короткого из двух времен. Теорема утверждает, что это «остаточное время ожидания» имеет то же самое показательное распределение, что и первоначальное время ожидания, и не зависит от Х(1). Это есть расширение марковского свойства, сформулированного для фи- ксированных моментов t, на зависящее от случая время остановки Х(1). Это свойство называется строго марковским свойством. (Так как мы имеем дело лишь с конечным множеством величин, мы в состоянии вывести строго марковское свойство из обычного, но в более сложных случайных процессах различие существенно.) Доказательство теоремы служит примером формальных дейст- вий с интегралами. Для упрощения типографского набора формул рассмотрим п = 3. Так же как и в других подобных ситуациях, мы используем соображения симметрии. С вероятностью 1 никакие две из величин Ху- не равны. Пренебрегая событием вероятности нуль, делаем вывод, что шесть возможных упорядоченных распо- ложений Хп Х2, Х3 представляют собой шесть взаимно исключаю- щих равновероятных событий. Поэтому для того, чтобы найти распределение порядковых статистик, достаточно рассмотреть случай Xj < Х2 < Х3. Таким образом, Р{Х(1)>/1, х(2)-х(1)>/2, х(3)—х(2) > /3} = = 6Р{Х1>/1, Х2-Х1>/2, Х3-Х2>Ц. (6.3) (Аналитически, пространство S13 разбивается на шесть частей,, конгруэнтных области, определенной неравенствами %1<х2<х3. Каждая из них вносит одну и ту же величину в соответствующий интеграл. Границы, где две или более координат равны, имеют вероятность нуль и не играют роли.) Чтобы получить правую часть в (6.3), мы должны проинтегрировать а3в"а Ui+^+^з) по об- ласти, определенной неравенствами Х^^> t}, Х2—-%! /2, Х3 —Х2 fg. Интегрирование по х.3 приводит к 00 00 6е~ а/3 ае~ ах> dxt J ae~2ax^dx2 = tl Xi + t2 00 = 3g-a^3-2otG (6.4) ______ x) Эту теорему неоднократно открывали в связи с задачами статистиче- ского оценивания, но обычные ее доказательства сводились к вычислениям вместо обращения к марковскому свойству, См, также задачу 13# 2 № 249
34 Гл. I, Показательные и равномерные плотности Таким образом, совместное распределение трех величин Х(1), Х(2)— — Х(1), Х(3)—Х(2) есть произведение трех показательных распре- делений, и это доказывает наше утверждение. Отсюда, в частности, следует, что Е (X(fe+1) — X(fe)) = 1/(м—й)а. Суммируя по й = 0, 1, ..., v—1, мы получаем E(X(v))=lf-H------Ц+...Н-------U-rV (6.5) v a \ n 1 n—1 1 ‘ n—v+1 J v 7 Отметим, что это математическое ожидание было вычислено без знания распределения X(V). Итак, мы имеем еще один пример преимущества представления случайной величины как суммы дру- гих величин. (См. 1, гл. IX, 3.) б) Использование строго марковского свойства. В качестве образного примера рассмотрим следующую ситуацию: в момент О три лица Л, В и С прибывают в почтовое отделение и находят два окна свободными. Три времени обслуживания представляют собой независимые случайные величины X, Y, Z с одинаковым показательным распределением. Обслуживание А и В начинается сразу же, а обслуживание С начинается в момент Х(1), когда или Л, или В уходит. Мы покажем, что марковское свойство приводит к простым ответам на различные вопросы. (i) Какова вероятность, что С не последним уйдет из почто- вого отделения? Ответ: х/2, так как момент Х(1) первого ухода устанавливает симметрию между С и другим обслуживаемым лицом. (И) Каково распределение времени Т, проведенного лицом С в почтовом отделении? Ясно, что величина Т == Х(1) + Z есть сумма двух независимых величин, которые распределены показательно с параметрами 2а и а. Свертка любых двух показательных распределений найдена в (2.14), и мы получаем, что Т имеет плотность и (/) = 2а (е~ at—е~2а/) и что Е (Т) = . (iii) Каково распределение момента последнего ухода? Обозна- чим моменты последовательных уходов Х(1), Х(2), Х(3). Разность Х(3)—Х(1) представляет собой сумму двух величин Х(3)—Х(2) и Х(2)—Х(1). Мы видели в предыдущем примере, что эти величины независимы и имеют показательные распределения с параметрами 2а и а. Отсюда следует, что Х(3)—Х(1) имеет ту же плотность и, что и величина Т. Теперь Х(1) не зависит от Х(3)—Х(1) и имеет плотность 2ае~2а/. Формула свертки, использованная в (И), пока- зывает, что Х(3) имеет плотность 4а[в“а/——ate ~2aZ] и что Е(Х(3)) = 2/а. Преимущества этого метода становятся очевидными при срав- нении с непосредственным вычислением, но последнее применима и для других распределений времени обслуживания (задача 19). в) Распределение порядковых статистик. В качестве заключи- тельного упражнения мы выведем распределение Хш. Событие {XU) ф означает, что по крайней мере k из п величин Ху не
§ 7. Равномерное распределение 35 превосходят t. Это равносильно наступлению по крайней мере k «успехов» в п независимых испытаниях, и поэтому п . Р |Х(А) < « 5 ( " ) (1 —е-“')/«-«»-/> (6.6) После дифференцирования видно, что плотность Х(Л) равна nQ~!) (1— е~“')*-* е~ <”-*>“<•ае~а/. (6.7) Этот результат может быть получен непосредственно следующими нестрогими рассуждениями. Мы разыскиваем (вплоть до членов пренебрежимо малых в пределе при h—>-0) вероятность события, заключающегося в том, что одна из величин Ху лежит между t и t+h, a k—1 величин из оставшихся я—1 величин не превосхо- дят/, в то время как другие п—k величин строго больше /4-й. Пере- множая число наборов и соответствующие вероятности, приходим к (6.7). Начинающим рекомендуется формализовать это рассужде- ние, а также вывести формулу (6.7) из дискретной модели. (Про- должение в задачах 13, 17). § 7. РАВНОМЕРНОЕ РАСПРЕДЕЛЕНИЕ Случайная величина X распределена равномерно в интервале а, й, если ее плотность постоянна—равна (й—а)-1 при а < х < b и равна 0 вне этого интервала. В этом случае величина (X—а) (й—а)-* распределена равномерно в 0,1, и мы будем обычно использовать этот интервал как стандартный. Из-за внешнего вида графи- ков плотности равномерные распределения называются «прямо- угольными». При равномерном распределении интервал 0, 1 становится выборочным пространством, в котором вероятности интервалов тождественны их длинам. Выборочное пространство, соответствую- щее двум независимым величинам X и Y, которые равномерно ' распределены на 0,1, представляет собой единичный квадрат в Ж2, а вероятности в нем определяются как площади. Те же идеи применимы к трем и большему числу величин. Про равномерно распределенную случайную величину часто говорят: «точка X выбрана наудачу». Результат мысленного эк- сперимента «п независимых случайных выборов точки в 0,1» тре- бует для своего вероятностного описания n-мерного гиперкуба, но эксперимент сам по себе дает п точек Ху, ..Х„ в том же самом интервале. С вероятностью единица никакие две из этих точек не совпадают, и, следовательно, они разбивают интервал 0, 1 на п4-1 подынтервалов. Переставляя п точек Ху, ..., Хп в их естественном порядке слева направо, мы получаем п новых 2*
36 Гл. I. Показательные и равномерные плотности случайных величин, которые обозначим Х(1), XU). Это и есть порядковые статистики, определенные в предыдущем параграфе. Подынтервалы разбиения теперь имеют вид О, Х(1), Х(1), Х(2) и т. д. • Понятие точки, выбранной наудачу на окружности, говорит само за себя. Чтобы отчетливо представить себе исход п незави- симых выборов точки на окружности, мы вообразим окружность, ориентированную против часовой стрелки, так что интервалы имеют левый и правый концы и могут быть изображены в форме а, Ь. Две точки Хх и Х2, выбранные независимо и наудачу, делят окружность на два интервала Хх, Х2 и Х2, Хх. (Мы снова прене- брегаем событием Хх = Х2, имеющим вероятность нуль.) Примеры, а) Опытные интерпретации. Колесо рулетки обычно приводится как средство осуществления «случайного выбора» на окружности. Ошибка округления при вычислениях с шестью де- сятичными знаками обычно рассматривается как случайная вели- чина, распределенная равномерно в интервале длиной 10“6. (Для ошибок, совершенных при отбрасывании двух последних десятич- ных знаков, дискретная модель со 100 возможными значениями более уместна, хотя менее практична.) Время ожидания пассажира, прибывшего на автобусную станцию без учета расписания, может рассматриваться как случайная величина, равномерно распреде- ленная в интервале между последовательными отъездами автобусов. Большой теоретический интерес представляют применения к слу- чайным разбиениям, обсуждаемым в § 8. Во многих задачах ма- тематической статистики (таких, как непараметрические критерии) равномерное распределение входит косвенным образом: при усло- вии, что произвольная случайная величина X имеет непрерывную функцию распределения F, случайная величина F (X) распределена равномерно на 0, 1 (см. § 12). б) Индуцированное разбиение. Мы докажем следующее утверж- дение: п независимо и случайно выбранных на 0, 1 точек Хх, ..., Хп разбивают 0, 1 на п +1 интервалов, длины которых имеют одно и то же распределение P{L>O = (1—0</<1. (7.1) Это .неожиданно, так как интуитивно можно было бы ожидать, что по крайней мере два концевых интервала должны иметь дру- гое распределение. То, что все интервалы будут иметь одинако- вое распределение, становится ясным при рассмотрении эквива- лентной ситуации на (ориентированной) окружности единичной длины1). Здесь п+1 точек Хх, . Хп+1, выбранных независимо г) При численной проверке следует иметь в виду, что вероятность собы- тия {Х(£+1) — X(fe) > t} равна интегралу от постоянной 1 по объединению п\ конгруэнтных областей, определенных или цепью неравенств хА < ... < лд,< < < xk+i < < хп> или аналогичными цепями, полученными пере-
§ 7. Равномерное распределение 37 и наудачу, разбивают окружность на п+1 интервалов, и по со- ображениям симметрии эти интервалы должны иметь одинаковое распределение. Представим теперь, что окружность разрезана в точке Хи+1 для того, чтобы получить интервал, в котором Х1Г . Хи выбраны независимо и наудачу. Длины всех п + 1 интервалов индуцированного разбиения имеют одно и то же рас- пределение. Рассматривая самый левый интервал О, Х(1), можно видеть, что это распределение задается формулой (7.1). Длина этого интервала превосходит t тогда и только тогда, когда все п точек хп .... х„ лежат в /, 1. Вероятность этого равна (1—t)n- Хорошим упражнением является проверка утверждения в част" ном случае п = 2 путем рассмотрения трех событий в единичном квадрате, изображающем выборочное пространство. (Продолжение см. в задачах 22—26.) в) Парадокс (связанный с парадоксом времени ожидания из § 4). Пусть две точки Хх и Х2 выбраны независимо и наудачу на окруж- ности единичной длины. Тогда длины двух интервалов Хх, Х2 и Х2, Хх распределены равномерно, а длина X интервала, содержащего про- извольную точку Р, имеет другое распределение (с плотностью 2х). В частности, средняя длина каждого из двух интервалов равна V2» а средняя длина интервала, содержащего Р, равна 2/3. Точка Р бе- рется фиксированной, но произвольной. Поэтому можно ожидать, что интервал, покрывающий Р, выбран (заимствуя фразу у философов теории вероятности) «без предварительного знания его свойств». Наивная интуиция не подготовлена, конечно, воспринять большое различие между покрытием и непокрытием произвольной точки, но после должного размышления это различие становится «интуитивно очевидным». На самом деле, однако, даже довольно опытные авторы попадали в ловушку. Для доказательства представим себе, что окружность разъеди- нена в точке Р. Нам остаются две точки, выбранные независимо и наудачу в 0, 1. Используя те же обозначения, что и раньше, мы находим, что событие {X < происходит тогда и только тогда, когда Х(2) — Х(1) > 1 — /.По формуле (7.1) вероятность этого равна /2. Величина % имеет поэтому плотность 2t, как утверждалось. (Начинаю- щим рекомендуется провести непосредственную вычислительную проверку.) г) Распределение порядковых статистик. Если Xf, ..., Х„ независимы и распределены равномерно в интервале 0, 1, то число величин, удовлетворяющих неравенству 0 < Ху<1 t < 1, имеет бино- миальное распределение с вероятностью «успеха», равной /. Теперь событие {X(ft) происходит, если и только если по крайней становкой индексов. Другой способ вычисления, приводящий к более сильному результату, содержится в примере III, 3, в).
38 Гл. 1. Показательные и равномерные плотности мере k из величин Xf не превосходят t, и, следовательно, п P(X(ft) V(l-/)»-< (7-2) /=* ’' Это дает нам функцию распределения Л-й порядковой статистики. После дифференцирования находим, что плотность Х(А) равна (7.3) Это можно увидеть непосредственно из следующего: вероятность того, что одна из величин Xz лежит между t и /4- Л и что k—1 из оставшихся величин меньше t, в то время как п—k величин больше t+h, равна n — t—h)n~*h. Деля последнее выражение на ft и устремляя h к 0, получим (7.3). д) Предельные теоремы. Чтобы понять характер распределения Х(1), когда п велико, лучше ввести Е (Х(1)) = (п-Ь I)-1 как новую единицу измерения. Тогда при п—> оо мы получим для хвоста функ- ции распределения Р{пХ<п>0 = (1-4У- е-К (7.4) Словами это соотношение обычно описывают так: в пределе Х(1) показательно распределена с математическим ожиданием п-1. Аналогично Р (пХ(2) > 0 = (1 -4)"+ ( ;) 4 (1 -4)”"1 — + te-<, (7.5) и в правой части мы узнаем хвост гамма-распределения б2 из фор- мулы (3.5). Подобным способом легко проверить, что при каждом фиксированном k при п —» оо распределение nX(ft) стремится к гамма- распределению Gk (см. задачу 33). Теперь Gk есть распределение суммы k независимых показательно распределенных величин, тогда как X(ft) есть сумма первых k ин- тервалов, рассмотренных в примере б). Мы можем поэтому сказать, что длины последовательных интервалов нашего разбиения ведут себя в пределе так, как если бы они были взаимно независимыми показательно распределенными величинами. Ввиду очевидной связи (7.2) с биномиальным распределением для получения приближений к распределению Х(Л), когда и п, и k велики, может быть использована центральная предельная теорема. (См. задачу 34.) е) Отношения. Пусть X выбрано наудачу в 0, 1. Обозначим через U длину более короткого из интервалов О, X и X, 1 и через
§ 8. Случайные разбиения 39 V = 1 — U длину более длинного. Случайная величина U равномерно распределена между 0 и так как событие {U < t < 1/2} про- исходит тогда и только тогда, когда или X < t, или 1—X < t, и потому имеет вероятность 2t. По соображениям симметрии вели- чина V распределена равномерно между % и 1, и отсюда E(U) = 1/4, E(V) = 3/4. Что мы можем сказать об отношении V/U? Оно необходимо превосходит 1 и лежит между 1 и t тогда и только тогда, когда или или 4-^ . При />1 отсюда сле- 1 -f-Г 2 Z 1 -f-Г 1 дует, что р{т<(}=-^Г' (7-6) и плотность этого распределения равна 2(/-{-1)"2. Мы видим, что отношение V/U имеет бесконечное математическое ожидание. Этот пример показывает, сколь малая информация содержится в наблю- дении E(V)/E(U) = 3. ► § 8. СЛУЧАЙНЫЕ РАЗБИЕНИЯ Задача этого параграфа завершает предыдущий ряд примеров и выделена из них отчасти ввиду ее важности в физике, отчасти ввиду того, что она дает прототип обычных марковских цепей. Формально мы будем иметь дело с произведениями вида Z„ = s=XxX2.. .Хл, где Хх, ..., Х„—взаимно независимые величины, равномерно распределенные в интервале 0, 1. Примеры для применений. В некоторых процессах со столкнове- ниями физическая частица расщепляется на две и ее масса т делится между ними. Различным процессам могут соответствовать различные законы разбиения, но чаще всего предполагается, что полученная каждой дочерней частицей часть исходной массы распределена рав- номерно в 0, 1. Если одна из двух частиц выбрана наудачу и под- вергается новому столкновению, то (в предположении отсутствия взаимодействия, т. е. независимости столкновений) массы двух частиц второго поколения задаются произведениями тХхХ2 и т. д. (см. задачу 21). С небольшими терминологическими изменениями эта модель применима также к разбиениям зерен минералов или галек и т. п. Вместо масс можно рассматривать потери энергии при столкновениях, и описание несколько упрощается, если заниматься изменениями энергии одной и той же частицы при последовательных столкновениях. В качестве последнего примера рассмотрим изме- нения в интенсивности света, проходящего через вещество. При- мер. 10, а) показывает, что когда световой луч проходит через сферу радиуса 7? «в случайном направлении», расстояние, пробегаемое лучом в сфере, распределено равномерно между 0 и 2R. При нали- чии равномерного поглощения такое прохождение будет уменьшать
40 Гл. I. Показательные и равномерные плотности интенсивность случайного луча на величину, которая распределена равномерно в интервале 0, а (где а < 1 зависит от степени погло- щения). Масштабный параметр не влияет серьезно на нашу модель, и видно, что п независимых прохождений будут уменьшать интен- сивность света на величину вида Z„. ► Для того чтобы найти распределение Z„, мы можем действовать двумя способами. (i) Редукция к показательным распределениям. Так как суммы обычно предпочтительнее произведений, мы перейдем к логарифмам, полагая YA = —IogXA. Величины YA взаимно независимы, и при t>0 = = (8.1) Функция распределения G„ суммы S„ = Yx + ... + Y„ п независимых показательно распределенных величин была получена в формуле (3.5), и тогда функция распределения величины Z„ = e~s» задается выра- жением 1—Gn(logZ-1), где 0</<1. Плотность этого распреде- ления равна (log t~l) или МО=(г4ф(1°е4)”‘. «<'<' <8.2) Наша задача решается в явном виде. Этот метод показывает преимущества вывода с помощью соответствующего преобразования, однако успех зависит от случайного совпадения нашей задачи и задачи, предварительно решенной. (ii) Рекуррентная процедура имеет то преимущество, что она применима к родственным задачам. Пусть Fn (t) = Р {Zn /} и 0</<1. По определению F1(t) = t. Допустим, что Fn^ из- вестно, и рассмотрим — как произведение двух незави- симых величин. При условии ХЛ = х событие {Zn^Z} происходит тогда и только тогда, когда Z^^t/x, и имеет вероятность Рп_г (t/x). Суммируя по всем возможным х, мы получаем при 0 t 1 1 1 Fn (') = У F„_t (4) dx = j (-J-) dx +1. (8.3) о t Эта формула в принципе позволяет нам вычислить последовательно F2, Fs, .... На практике удобнее иметь дело с соответствующими плотностями fn. По предположению существует. Предположим по индукции существование fn^1. Вспоминая, что fn-i(s) — Q при s> 1, мы получаем после дифференцирования (8.3) 1 /»(0 = ри-1(4)т» 0</<1, (8.4) и элементарные вычисления показывают, что /„ действительно-за- дается формулой (8.2).
§ 9. Свертки и теоремы о покрытии 4j § 9. СВЕРТКИ И ТЕОРЕМЫ О ПОКРЫТИИ Результаты этого параграфа в какой-то мере занятны и сами по себе, и в связи с некоторыми очевидными приложениями. Кроме того, они несколько неожиданно возникают в совсем, казалось бы, не связанных разделах, таких, как, например, критерии значимости в гармоническом анализе [пример 3, е) гл. III], пуассоновские процессы [гл. XIV, 2, а)] и случайные сдвиги [пример 10, д)]. Поэтому не удивительно, что все формулы, так же как и их ва- рианты, выводились несколько раз различными способами. Способ, используемый в последующем, выделяется простотой и примени- мостью к близким задачам. Пусть а > 0 фиксировано, и пусть Xf, Х2, ... —взаимно независимые случайные величины, равномерно распределенные на 0, а. Пусть 8П = ХГ + ... +Х„. Наша первая задача заключается в нахождении распределения Uп суммы и ее плотности un=^U'n. По определению иг (х) = а"1 при 0 < х < а и (%) = 0 в других точках (прямоугольная плотность). Для п > 1 плотности ип опре- деляются формулой свертки (2.13), которая в данном случае имеет вид а «„+i(*) = yj u„(x—y)dy = ^[Un(x)—U„(x—a)]. (9.1) о Легко видеть, что [ хя“2, 0 х$С а, и2(х) = \ /о \ -о (9-2) 7 1 (2а— х) а 2, а^х^2а, и, конечно, и2 (х) = 0 для всех других х. График и2 представляет собой равнобедренный треугольник с основанием 0, 2а, и поэтому и2 называется треугольной плотностью. Аналогично, и3 сосредо- точена на 0, За и определяется тремя квадратными полиномами соответственно в интервалах 0, а, а, 2а и 2а, За. Чтобы найти общую формулу, мы введем следующее Обозначение. Мы записываем положительную часть действи- тельного числа х в виде В последующем мы используем символ хп+ для (х+)", т. е. для функции, которая равна 0 при х^Ои равна хп при х^О. Заметим, что (х—а)+ есть нуль при х < а и линейная функция, когда х > а. С помощью этого обозначения равномерное распределение можно записать в форме (%) = (х+ —(х—а)+) а"1. (9.4) Теорема 1. Пусть Sn—сумма п независимых случайных величин.
42 Гл. 1. Показательные и равномерные плотности распределенных равномерно на 0, а. Пусть t/„(x) = Р и пусть un~U'n—плотность этого распределения. Тогда при п = 1, 2, ... и для всех х^О v=O 7 п + 1 «n+iW = ^Ti^ va)+- v=O ' (9-5) (9-6) (Эти формулы остаются верными для х < 0 и п = 0 при условии, что х° равно (\ если х<0, и 1, если х>0.) Заметим, что если точка х расположена между (k — 1)а и ka, то только k членов в формулах отличны от 0. Для удобства прак- тических вычислений можно, игнорируя пределы суммирования в (9.5), (9.6), считать, что v меняется от — со до оо. Это возможно в силу того, что по соглашению биномиальные коэффициенты в (9.5) равны 0 при v<0 и v > п (см. 1; II, 8). Доказательство. При п=1 справедливость (9.5) очевидна, так как (9.5) сводится к (9.4). Докажем оба утверждения теоремы вместе методом индукции. Допустим, что формула (9.5) верна при некотором Подставляя (9.5) в (9.1), получаем ип+1 в виде разности двух известных сумм. Заменяя индекс суммирования v во второй сумме на v—1, получаем W=srk S <- »’ [ (:) + ( что совпадает с правой частью (9.6). Интегрирование доказывает справедливость (9.5) для п + 1, и этим завершается доказательство. ► (Другое доказательство, использующее переход к пределу в ди- скретной модели, содержится в 1; гл. XI, 7, задача 20.) Если а = 2Ь, то случайные величины Xft—b равномерно рас- пределены на симметричном (относительно нуля) интервале — b,b и поэтому сумма п таких величин имеет то же распределение, что и величина S„—nb. Последнее распределение задается функцией [/„(x + nb). Поэтому наша теорема может быть сформулирована в следующей эквивалентной форме. Теорема 1а. Плотность суммы п независимых случайных вели- чин, равномерно распределенных на —Ь, Ь, задается равенством п un(x + nb) = (26)n(n_l)|X(-1)v ) (x+(n-2v)b)r- (9.7) Мы переходим теперь к теореме, которая допускает две экви- валентные формулировки, одинаково полезные для многих частных задач, возникающих в приложениях. Отыскиваемая в этих теоремах вероятность по счастливому совпадению очень просто выражается
§ 9. Свертки и теоремы о покрытии 43 в терминах плотности ип. Мы докажем это аналитическим спосо- бом, который имеет широкую применимость. Доказательство, осно- ванное на геометрических соображениях, см. в задаче 23. Теорема 2. На окружности длины t заданы п 2 дуг длины а, центры которых выбраны независимо и наудачу. Вероятность ф„ (О того, что эти п дуг покрывают всю окружность, равна (9.8) или, что то же самое, п (9.9) Прежде чем доказывать это, придадим теореме форму, в кото- рой она будет использована позже. Выберем один из п центров в качестве начала и развернем окружность в интервал длины t. Оставшиеся п—1 центров случайно распределяются в интервале 0, I, и тогда теорема 2 выражает то же самое, что и Теорема 3. Пусть интервал 0, t разбит на п подынтервалов посредством независимого и случайного выбора п—1 точек деления Х1( ..., XB_i. Вероятность <р„ (/) того, что ни один из этих интервалов не превосходит а, равна (9.9). Отметим, что ф„(/), рассматриваемая при фиксированном t как функция а, представляет собой функцию распределения максималь- ной из длин п интервалов, на которые разбит интервал 0, t. В связи с этим см. задачи 22—27. Доказательство. Достаточно доказать теорему 3. Мы докажем рекуррентную формулу а Ф„(0 = (п-1) J (9.10) о Ее справедливость прямо следует из определения <рл как (п—1)- кратного интеграла, но предпочтительнее толковать (9.10) вероят- ностно следующим образом. Наименьшее значение среди X*, ..., X„_f должно быть меньше чем а, причем существует п—1 возможностей выбрать это значение. При условии, что Х1 = х, вероятность того, [I________________________________п"“2 ; тогда Х2, ..., Хп„х рас- пределены равномерно в интервале х, t и условная вероятность того, что они удовлетворяют условиям теоремы, равна —х). Суммируя все возможности, мы получаем (9.10)1). г) Читатели, которых беспокоит вопрос вычисления условных вероятно- стей по плотностям, могут заменить условие Ху = х условием х—h < Ху < х, которое имеет положительную вероятность, а затем перейти к пределу при Ь—>0.
44 Гл. 1. Показательные и равномерные плотности Если предположить, что <рл из (9.8) удовлетворяет равенству (9.10), то для ип, входящих в (9.8), равенство (9.10) сведется к цл(/) = а“1 (t—x)dx, (9.11) о что есть в точности рекуррентная формула (9.1), которая служит для определения ип. Поэтому достаточно доказать теорему для случая п = 2. Но и так ясно, что ср2 (/) = 1 при 0 < t < а и <р2 (t) = = (2а— t)/t при а < t < 2а в полном согласии с (9.8). ► § 10. СЛУЧАЙНЫЕ НАПРАВЛЕНИЯ Выбор случайного направления на плоскости 5J2—это то же самое, что выбор наудачу точки на окружности. Если желательно задать направление углом, который оно составляет с правой частью х-оси, то на окружности следует ввести координату 0, 0^0 < 2л. Для случайных направлений в пространстве 5^3 в качестве выбо- рочного пространства служит единичная сфера; каждая область имеет вероятность, равную ее площади, деленной на 4л. Выбор случайного направления в «Я3 эквивалентен выбору наудачу точки на этой единичной сфере. Так как это включает пару случайных величин (долготу и широту), то следовало бы отложить обсуждение трехмерного случая до гл. III, но в данном контексте он появ- ляется более естественно. Предложения, (i) Обозначим через L длину проекции единичного вектора со случайным направлением в Я? на фиксированную пря- мую, скажем х-ось. Тогда величина L распределена равномерно на О и Е(Ъ) = Ч2. (ii) Пусть U—длина проекции того же вектора на фиксиро- ванную плоскость, скажем (х, у)-плоскость. Тогда LJ имеет плот- ность tfV1—/2 при 0 < t < 1, и Е(и) = л/4. Важно то, что две проекции имеют различные распределения. Тот факт, что первое распределение равномерно, не есть свойство случайности, а есть свойство, присущее пространству трех изме- рений. Аналогом теоремы (i) в 912 служит Предложение, (iii) Пусть L—длина проекции случайного еди- ничного вектора в Я2 на х-ось. Тогда L имеет плотность 2/(лК 1 —х2) и Е(Ь) = 2/л. Доказательства, (iii) Если 0 —угол между нашим случайным направлением и //-осью, то L = | sin 01 и, следовательно, при 0 < х < 1 в силу симметрии P{L<x} = P{0 < 0 < arcsinх} = ~arcsinх. (10.1) Предложение (iii) теперь доказывается дифференцированием. (i), (ii) Вспомним элементарную теорему о том, что площадь
§ 10. Случайные направления 45 сферического пояса между двумя параллельными плоскостями пропорциональна высоте пояса. При 0</<1 событие представляется поясом |х1| t высоты 2/, тогда как событие соответствует поясам | хх | К1 — t2 общей высоты 2—2 J/1 —t2- Этим обе функции распределения определяются с точностью до числовых множителей. Их значения просто находятся из условия, что обе функции распределения равны 1 при / = 1. ► Примеры, а) Прохождение через сферу. Пусть 2 —сфера ра- диуса г и N—точка на ней. Линия, проведенная через N в слу- чайном направлении, пересекает 2 в точке Р. Тогда длина сег- мента NP является случайной величиной, равномерно распределенной между 0 и 2г. Чтобы увидеть это, рассмотрим ось NS сферы и треуголь- ник NPS, который имеет прямой угол в точке Р и угол 0 в точке N. Длина NP равна тогда 2rcos0. Но cos© является в то же время проекцией единичного вектора прямой NP на диа- метр NS, и поэтому величина cos© равномерно распределена на О, 1. В физике эта модель употребляется для описания прохожде- ния света через «случайно распределенные сферы». Возникающее при этом поглощение света' использовалось в качестве одного из примеров процессов случайных разбиений в предыдущем параграфе (см. задачу 28). б) Круговые объекты под микроскопом. Через микроскоп наблю- дается проекция клетки на (х1? х2)-плоскость, а не ее действи- тельная форма. В некоторых биологических экспериментах клетки имеют линзообразную форму и могут рассматриваться как круговые диски. Один лишь горизонтальный диаметр проектируется в свою натуральную величину, а весь диск проектируется в эллипс, малая ось которого является проекцией наиболее круто наклоненного радиуса. Обычно предполагается, что ориентация диска случайна; это означает, что направление его нормали выбрано наудачу. В этом случае проекция единичной нормали на х3-ось распределена равномерно в 0, 1. Но угол между этой нормалью и х3-осью равен углу между наиболее круто наклоненным радиусом и (хх, ^-пло- скостью. Следовательно, отношение малой и большой осей рас- пределено равномерно в 0, 1. Иногда обработка экспериментов основывалась на ошибочном мнении, что угол между наиболее круто наклоненным радиусом и (хх, х2)-плоскостью должен быть распре- делен равномерно. в) Почему две скрипки звучат вдвое громче, чем одна? (Вопрос серьезен, так как громкость пропорциональна квадрату амплитуды колебаний.) Поступающие волны могут быть изображены случай- ными единичными векторами, и эффект наложения звука двух скрипок соответствует сложению двух независимых случайных
46 Гл. I. Показательные и равномерные плотности векторов. По теореме косинусов квадрат длины результирующего вектора равен 2 +2cos©. Здесь 0—угол между двумя случайными векторами, и, следовательно, cos© распределен равномерно в —1,1 и имеет нулевое математическое ожидание. Математическое ожи- дание квадрата длины суммарного вектора поэтому действительно равно 2. На плоскости cos© уже не является равномерно распределенной случайной величиной, но по соображениям симметрии по-прежнему имеет нулевое математическое ожидание. Таким образом, наш ре- зультат справедлив при любом числе измерений. См. также при- мер V, 4, д). ► Под случайным вектором в 9L* понимается вектор, проведенный в случайном направлении, длина которого L является случайной величиной, не зависящей от его направления. Вероятностные свой- ства случайного вектора полностью определяются свойствами его проекции на х-ось, и, используя последнюю, можно избежать анализа в трех измерениях. Для этого важно знать связь между функцией распределения V истинной длины L и распределением F длины Lx проекции на х-ось. Имеем Lx = XL, где X—длина про- екции единичного вектора с данным направлением. Соответственно величина X равномерно распределена на 0, 1 и не зависит от L. При условии Х = х событие происходит тогда и только тогда, когда L^t/x, и поэтому1) о t > 0. (10.2) Соответствующие плотности мы получаем дифференцированием с/ \ Л / Л J у о t Повторное дифференцирование приводит к у(/) = —//'(/), # />0. (10.4) Мы нашли таким образом аналитическую связь между плотно- стью v длины случайного вектора в и плотностью f длины его проекции на фиксированное направление. Соотношение (10.3) используется для отыскания f, когда v известно, а соотношение (10.4)—в противоположном случае. (Асимметрия между двумя формулами обусловлена тем фактом, что направление не является независимым от длины проекции.) Примеры, г) Распределение Максвелла для скоростей. Рассмот- рим случайные векторы в пространстве, проекции которых на Это рассуждение повторяет доказательство формулы (8.3)*
§ 10. Случайные направления 47 х-ось имеют нормальную плотность с нулевым математическим ожиданием и единичной дисперсией. Длина проекции равна её абсолютному значению, и поэтому f(0 = 2n(/)= />0. (10.5) Тогда из (10.4) выводим v(/)= />0 (Ю ,6) Это есть плотность Максвелла для скоростей в статистической механике. Обычный вывод объединяет предыдущее рассуждение с доказательством того, что плотность / должна иметь вид (10.5). (Другой вывод см. в гл. III,4.) д) Случайные сдвиги в 5£3 (Рэлей). Рассмотрим п единичных векторов, направления которых выбираются независимо друг от друга и наудачу. Мы разыскиваем распределение длины Ln их суммы. Вместо непосредственного изучения этой суммы мы рас- смотрим ее проекцию на х-ось. Эта проекция, очевидно, равна сумме п независимых случайных величин, распределенных равно- мерно на —1, 1. Плотность этой суммы дается формулой (9.7) при 6=1. Длина этой проекции равна ее абсолютному значению, и, используя (Ю.4), мы получаем плотность длины L^1): п ✓ М*) = (-l)v(U(^-2v)V, х>0. (10.7) ' ' v=0 4 ' Эта задача возникает в физике и химии (векторы изображают, например, плоские волны или молекулярные связи). Сведение к одному измерению, по-видимому, делает эту известную задачу тривиальной. Тот же метод применим к случайным векторам произвольной длины, и таким образом (10.4) позволяет нам свести задачи слу- чайного блуждания в 3L3 к более простым задачам в ЗР. Даже если трудно получить точное решение, ценную информацию дает центральная предельная теорема [см. пример 4,6) гл. VIII]. ► Случайные векторы в 3L3 определяются тем же способом. Аналогом (10.2) служит соотношение, связывающее распределение V истинной длины и рас- пределение F длины проекции: л/2 <и1'8) __________ о *) Обычно ссылаются на статью С? Чандрасекара, который вычислил v4, v6 и преобразование Фурье для vn. Так как он использовал полярные координаты, его Wn(x) нужно умножить на 4лх2, чтобы получить нашу плот- ность vn. Статья Чандрасекара перепечатана в книге У экса (1954)*
48 Гл, I. Показательные и равномерные плотности Однако обратное соотношение (10.4) не имеет простого аналога, и, чтобы выразить V через F, мы должны опираться на относительно глубокую теорию интегрального уравнения Абеля х). Мы констатируем здесь без доказательства, что если F имеет непрерывную плотность ft то л/2 о (См. задачи 29, 30.) е) Двойные орбиты. При наблюдении спектрально-двойных орбит астро- номы могут измерить только проекции векторов на плоскость, перпендику- лярную к линии зрения. Эллипс в пространстве проектируется в эллипс в этой плоскости. Большая ось исходного эллипса лежит в плоскости, определяемой лучом зрения и проекцией этой оси, и поэтому разумно предположить, что угол между большой осью и ее проекцией равномерно распределен. Распре- деление проекции определяется (в принципе) измерениями. Распределение исходной большой оси дается тогда решением (10.9) интегрального урав- нения Абеля. ► § 11. ИСПОЛЬЗОВАНИЕ МЕРЫ ЛЕБЕГА Если множество А в 0, 1 представляет собой объединение конечного множества непересекающихся интервалов /х, /2 ... с дли- нами Хх, Х2, то равномерное распределение приписывает ему вероятность Р{А} = Х1 + Х2+... . (11.1) Следующие примеры покажут, что некоторые простые, но важные задачи приводят к объединениям бесконечного числа непересекаю- щихся интервалов. Определение (11.1) по-прежнему применимо и отождествляет Р{А} с лебеговой мерой А. Это согласуется с нашей программой отождествления вероятностей с интегралом от плот- ности /(х) = 1, зз исключением того, что мы используем интеграл Лебега, а не интеграл Римана (который может не существовать). Из теории Лебега нам требуется только тот факт, что если А представляет собой объединение (возможно, пересекающихся) ин- тервалов /х, /2, ..., то мера Р{А} существует и не превосходит суммы Хх +Х2-|- ... их длин. Для непересекающихся интервалов вы- полняется равенство (11.1). Использование меры Лебега соответ- ствует свободной интуиции и упрощает дело, так как обосновы- J) Преобразование в интегральное уравнение Абеля достигается посред- ством замены переменных Fi(x) = f(-АА х / Vi (х) = V ( и xsin20=z/» \ V х / Тогда (10,8) принимает вид I С У1(у) dy.
§ 11. Использование меры Лебега 49 ваются все формальные переходы к пределу. Множество N назы- вается нулевым множеством, если оно содержится в множествах произвольно малой меры, т. е. если .для каждого е существует множество Az)N, такое, что Р{А}<е. В этом случае P{Af}=0. В дальнейшем X обозначает случайную величину, распреде- ленную равномерно в 0, 1. Примеры, а) Какова вероятность того, что величина X ра- циональна? Последовательность т» Т» Т» Т» Т» ••• с°ДеР~ жит все рациональные числа интервала 0, 1 (расположенные в по- рядке возрастания знаменателей). Выберем 8<-у и обозначим через Jk интервал длины 8*+1 с центром в й-й точке последова- тельности. Сумма длин интервалов Jk равна е2е3. < 8, и их объединение покрывает рациональные числа. Поэтому по нашему определению множество всех рациональных чисел имеет вероят- ность нуль, и, следовательно, X иррационально с вероятностью единица. Здесь уместно спросить: зачем такие множества рассматри- ваются в теории вероятностей? Один из ответов состоит в том, что их исключением ничего нельзя достичь и что использование тео- рии Лебега действительно упрощает дело, не требуя новых мето- дов. Второй ответ может быть более убедителен для начинающих и для нематематиков; нижеследующие варианты приводят к зада- чам, несомненно, вероятностной природы. б) С какой вероятностью цифра 7 встречается в десятичном разложении величины X? В десятичном разложении каждой точ- ки х из открытого интервала между 0,7 и 0,8 цифра 7 появляется на первом месте. Для каждого п существуют 9"”1 интервалов длины 10"/г, содержащих только такие числа, что цифра 7 появ- ляется на n-м месте, но не раньше (при п = 2 их концами слу- жат 0,07 и 0,08, затем 0,17 и 0,18 и т. д.). Эти интервалы не пересекаются, и их общая длина равна Tofl + nj + ^y + ---) = l- Таким образом, наше событие имеет вероятность 1. Заметим, что некоторые числа имеют два представления, напри- мер, 0,7 = 0,6999... . Чтобы сделать обсуждаемый нами вопрос определенным, мы должны точно установить, должна или может цифра 7 появиться в представлении, но наше рассуждение не за- висит от этого различия. Причина в том, что только рациональ- ные числа могут иметь два представления, а множество всех ра- циональных чисел имеет вероятность нуль. в) Бросание монеты и случайный выбор. Посмотрим теперь, как «случайный выбор точки X между 0 и 1» может быть описан в терминах дискретных случайных величин. Обозначим через Xk (х) k-w десятичный знак х (чтобы избежать двусмысленностей, мы будем использовать, когда это возможно, обрывающиеся разложе-
50 Гл. I. Показательные и равномерные плотности ния). Случайная величина ХЛ принимает значения 0, 1, . ..,9, каждое с вероятностью ~, и величины Хй взаимно независимы. Кроме того, мы имеем тождество Х=У-ЬхА. (11.2) Эта формула сводит случайный выбор точки X к последователь- ным выборам ее десятичных знаков. В последующих рассуждениях мы перейдем от десятичного разложения к двоичному, т. е. мы заменим основание 10 на осно- вание 2. Вместо (11.2) мы теперь имеем со X=E^Xft> (11.3) k-1 z где Xfe—взаимно независимые случайные величины, принимающие значения 0 и 1 с вероятностью 1/2. Эти величины определены на интервале 0, 1, для которого вероятность отождествляется с мерой Лебега (длиной). Эта постановка задачи напоминает игру с броса- нием монеты из первого тома, в которой выборочное простран- ство состоит из бесконечных последовательностей гербов и реше- ток или нулей и единиц. В этом выборочном пространстве можно теперь заново интерпретировать (11.3). В этом пространстве суть координатные величины, а X есть случайная величина, ими определяемая; ее функция распределения, конечно, равномерна. Заметим, что второе выборочное пространство содержит две раз- личные выборочные точки 0111111... и 1000000..., хотя соответ- ствующие двоичные разложения изображают одну и ту же точку 1/2. Однако понятие нулевой вероятности дает нам возможность отож- дествить два выборочных пространства. Другими словами, при пренебрежении событием нулевой вероятности случайный выбор точки X между 0 и 1 может быть осуществлен последователь- ностью бросаний монеты и, наоборот, результат бесконечных бросаний монеты может быть изображен точкой х из интервала 0, 1. Каждая случайная величина, связанная с игрой в монету, может быть представлена функцией на 0, 1 и т. д. Этот удобный и наглядный прием использовался в теории вероятностей издавна, но он связан с пренебрежением событиями, имеющими нулевую вероятность. г) Распределения канторовского типа. Если мы будем рассмат- ривать в (Н.З) сумму слагаемых с четными номерами, или, что то же самое, рассматривать случайную величину 00 Y-3£^XV1 (11.4) V 1
§ 12. Эмпирические распределения 5t то мы придем к распределению с неожиданными свойствами. (Мно- житель 3 введен для упрощения рассуждений. Сумма слагаемых с нечетными номерами распределена так же, как | Y.) Функция распределения F(x) = P{Y ^.х] служит примером так называемых сингулярных распределений. При подсчете мы рассматриваем Y как выигрыш игрока, ко- торый получает величину 3-4~А, когда &-е бросание симметрич- ной монеты дает в результате решетку. Полный выигрыш лежит между 0 и 3 (4“14-4“2-|-.. .) = 1. Если первое испытание приво- дит к 1, то выигрыш а/4, тогда как в противоположном случае Y ^3 (4~24-4“а4-... )==4-1. Таким образом, неравенство Ч, <Y < < а/4 не может быть осуществлено ни при каких обстоятельствах, и поэтому F (х) = 1/а в этом интервале длины 1/2. Отсюда следует, что F не может иметь скачка, превышающего 1/г. Отметим теперь, что с точностью до множителя */4 испытания с номерами 2, 3, .. представляют собой точную копию всей последовательности, и поэтому график F (х) в интервале 0, отличается от всего графика только преобразованием подобия f(*)=y^(4x), 0<х<»/4. (Н.5) Отсюда следует, что f (x) = V4 всюду в интервале длины х/8 с центром в точке Ve- По соображениям симметрии F (х) = 3/4 всюду в интервале длины */8 с центром в 7/8. Мы нашли сейчас три ин- тервала общей длины х/2 4-2/8 = 3/4> на каждом из которых F при- нимает постоянное значение, а именно 1/^ V2 или 3/4. Следова- тельно, F не может иметь скачка, превышающего J/4- Остаются четыре интервала длиной 1/i& каждый, и в каждом из них гра- фик Fотличается от всего графика только преобразованием подобия. Каждый из четырех интервалов поэтому содержит подынтервал половины его длины, на котором F принимает постоянное значе- ние (а именно 1/8, 3/8, ?/8, ?/8 соответственно). Продолжая в том же духе, мы найдем за п шагов 1 +2-|-224- ... -f-2""1 интервалов общей длины 2‘1 + 2“24-2"3+... 4-2”"= 1—2"«, в каждом из которых F принимает постоянное значение. Таким образом, F представляет собой непрерывную функцию, возрастающую от F (0) = 0 до F (1) = 1 так, что сумма длин интервалов постоянно равна 1. Грубо говоря, все возрастание F происходит на множестве меры 0. Мы имеем здесь непрерывную функцию распределения F без плотности [. ► § 12. ЭМПИРИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ «Эмпирическая функция распределения». Fn для п точек аь ... .ап на прямой есть ступенчатая функция со скачками \]tt в точках аи ап. Другими словами, tiFn(x) равно числу точек
52 Гл. 1. Показательные и равномерные плотности ак в —оо, %, и Fn—функция распределения. Если даны п слу- чайных величин Xn . ..,ХП, то их значения в некоторой точке выборочного пространства образуют строку из п чисел и ее эмпи- рическая функция распределения называется эмпирическим рас- пределением выборки. При каждом х значение Frt (х) эмпириче- ского распределения выборки определяет новую случайную вели- чину, а эмпирическое распределение (Хх, ..., Хп)—это целое семейство случайных величин, зависящих от параметра х (фор- мально мы имеем дело со случайным процессом, где х—временной параметр). Мы не будем пытаться развить здесь теорию эмпири- ческих распределений, но это понятие можно использовать для иллюстрации возникновения сложных случайных величин в прос- тых приложениях. Сверх того мы в новом свете увидим равно- мерное распределение. Пусть Хп ...» Хп обозначают взаимно независимые случайные величины с одинаковым непрерывным распределением F. Вероят- ность того, что любые две величины принимают одно и то же значение, равна нулю, и поэтому мы можем ограничить наше вни- мание выборками из п различных значений. При фиксированном х число величин Xk, таких, что Xk^.x, имеет биномиальное рас- пределение с вероятностью «успеха» p = F(x), и поэтому случай- ная величина Frt (х) имеет биномиальное распределение с возмож- ными значениями 0, 1/и, . .,1. Следовательно, при большом п и фиксированном х значение Fw (х) с большой вероятностью будет довольно близким к F (х), и центральная предельная теорема ин- формирует нас о возможных отклонениях. Более интересен (зави- сящий от случая) график Fw в целом и то, насколько он близок к F. Мерой этой близости может быть максимум расхождения, т. е. D„= sup |F„(x)-F« (12.1) — ао< х <ао Эта новая случайная величина представляет большой интерес для статистиков в силу следующего свойства. Распределение ве- роятностей случайной величины Drt не зависит от F (конечно, при условии, что F непрерывна). Для доказательства этого свойства достаточно проверить, что распределение Dw остается неизменным, когда F заменяется равно- мерным распределением. Мы сначала покажем, что величины \k = F(Xk) распределены равномерно в 0, 1. Для этой цели мы ограничим t интервалом 0, 1, ив этом интервале мы определим v как функцию, обратную F. Событие {F(Xk)^t} равносильно тогда событию {ХЛ v (/)}, которое имеет вероятность F (и (/)) = /. Таким образом, = как и утверждалось. Величины Yj, ..., Yrt взаимно независимы, и мы обозначим их эмпирическое распределение через Gn. Только что приведенные рассуждения показывают также, что при фиксированном I слу- чайная величина G„ (/) тождественна с Fw (v (/)), Так как t=F (v (£))>
§ 12. Эмпирические распределения 53 то отсюда следует, что в каждой точке выборочного пространства sup I G„ (О—И = sup I F„ (v (0)-F (u (0)1 = D„. Этим доказательство завершается. Тот факт, что распределение Dn не зависит от исходного рас- пределения F, дает статистикам возможность построить критерии и процедуры оценивания, применимые в ситуации, когда исходное распределение неизвестно. В этой связи другие величины, свя- занные с D„, находят даже большее практическое использование. Пусть Хп ..., ХЛ, X*, ..., X* — 2п взаимно независимых слу- чайных величин с одинаковым непрерывным распределением F. Обозначим эмпирические распределения (Хп Х„) и (X#, ... ..., Х„) через F„ и F* соответственно. Положим Drt,^sup|F^x)-F*(x)|. (12.2) X Это есть максимальное расхождение между двумя эмпирическими распределениями. Оно обладает тем же свойством, что и D„, а именно не зависит от распределения F. По этой причине Ьп,п используется при построении статистического критерия проверки «гипотезы о том, что Хп ..., Хп и X*, X* являются слу- чайными выборками из одной и той же совокупности». Распределение D„j72 было найдено с помощью громоздких вы- числений и исследований, но в 1951 г. Гнеденко и Королюк по- казали, что вся проблема сводится к задаче случайного блуждания с хорошо известным решением. Их доказательство отличается изяществом, и мы приведем его для иллюстрации возможностей простых комбинаторных методов. Теорема. Вероятность Р < г/п\ равна вероятности того, что в симметричном случайном блуждании траектория длины 2п, начинающаяся и заканчивающаяся в нуле, не достигнет то- чек ±г. Доказательство. Достаточно рассмотреть целые г. Располо- жим 2п величин Хх, ..., X* в порядке возрастания величины и положим efe = l или sk =—1 в зависимости от того, какая вели- чина занимает й-е место, Xz или X?. Окончательная запись содер- /2п\ жит п «4-1» и п «—1», и все ( п ) расположений равновероятны. Поэтому возникающие при этом строки (ех, находятся во взаимно однозначном соответствии с траекториями длины 2п, начинающимися и заканчивающимися в начале. Если теперь 8-^ . • • . ..4-8/ = ^, то первые / мест заняты (/4~&)/2 неотмеченными и (/—k)/2 отмеченными величинами, и поэтому существует точка х, такая, что F„(x) = (/ + &)/2n и F# (х)==(/—k)[2n. Но тогда
54 Гл. I. Показательные и равномерные плотности |F„(x)—F*(x)| = |&|/п и, следовательно, D„in^p|/n. То же рас- суждение, проведенное в обратном порядке, завершает доказа- тельство. Точное выражение для рассматриваемой вероятности содержится в lj гл. XIV, (9.1), В самом деле, выражение ( я } есть вероятность того, что частица, выходящая из начала отсчета, вернется в момент 2п в начало, не касаясь ir, Последнее условие можно реализо- вать, если установить в точках поглощающие экраны, и поэтому шГэй •есть вероятность возвращения в начало координат в момент 2п, когда точки являются поглощающими экранами. [В 1; гл, XIV, (9.1) рассматривается интервал 0, а, а не —г, г. Наша вероятность wr п тождественна иг>2п(г)Л В 1; гл. XIV было показано, что предельный ’переход приводит от слу- чайных блужданий к диффузионным процессам, и, таким образом, легко видеть, что распределение пОПгП стремится к пределу. Фактически этот предел •был найден Смирновым еще в 1939 г., а аналогичный предел для У п D„— Колмогоровым в 1933 г. Эти вычисления очень сложны и не объясняют связи с диффузионными процессами в противоположность подходу Гнеденко—Коро- люка. С другой стороны, они стимулировали плодотворную работу по сходи- мости стохастических процессов (Биллингсли, Донскер, Прохоров, Скороход и другие). Можно упомянуть, что теоремы Смирнова в равной степени применимы и к расхождениям Dmn между эмпирическими распределениями выборок, имеющих различные объемы тип. Подход, связанный со случайным блуж- данием, применим к этой проблеме, но он во многом теряет свою изящность и простоту (Гнеденко, Рвачева), Статистиками было исследовано множество вариантов Птп (см, задачу 36), $ 13. ЗАДАЧИ Во всех задачах предполагается, что заданные величины взаимно неза- висимы. 1. Пусть X и Y имеют плотности ае~ах, сосредоточенные на 0, оо. Най- дите плотности величин (i) X3 (ii) 3 + 2Х (iii) X—Y (iv) | X —Y| (v) Наименьшей из величин (vi) Наибольшей из величин X и Y3 X и Y3 ___2. Решите ту же задачу, если плотности X и Y равны х/2 в интервале —1, 1 и 0 вне его, 3. Найдите плотности для X-f-Y и X — Y, если X имеет плотность > о). а плотность Y равна й"*1 при 0 < х < Л. 4. Найдите вероятность того, что X2—2аХ+& имеет комплексные корни, если коэффициенты а и b являются одинаково распределенными случайными величинами, плотность которых (i) равномерна, т, е. равна /i*"1 при 0 < х < h; (ii) показательна, т, е, равна ае~ах при х > 0. - uX+Y X+Y 5. Найдите функции распределения величин —— и —— , если вели- X Lt чины X, Y и Z имеют одинаковое показательное распределение. 6, Выведите формулу свертки (3,6) для показательного распределения
§ 13. Задачи 55 прямым переходом к пределу из формулы свертки для «отрицательного бино- миального» распределения из 1; гл. VI, (8.1). 7. Для пуассоновского процесса § 4 обозначим через Z время между мо- ментом t и последним предшествующим прибытием или 0 («возраст» текущего времени между прибытиями). Найдите распределение Z и покажите, что оно- стремится к показательному распределению при t—>оо. 8. В примере 5, а) покажите, что вероятность появления первого рекорд- ного значения на n-м месте и при этом не превосходящего х равна мЯПГ(1 Докажите, что распределение вероятностей первого рекордного значения есть 1 — (1 +ах) е~ах. [Вообще, если величины Xу положительны и подчинены произвольному непрерывному распределению F, то первая вероятность равна [п («+1)]'"1Х XFn+1(x)t а распределение первого рекорда равно F—(1—F)log(l — F)”1.} 9. Нисходящие серии. Случайная величина N определена как единствен- ный индекс, такой, что Хх Х2 Xn-i < Xn . Если Ху имеют одина- ковое распределение с непрерывной функцией распределения, то докажите,, что P(N = n) = (n—1)/п! и E(N) = e. Указание. Используйте метод примера 5, а), относящийся к рекордным значениям. 10. Образование колонн на транспорте1). Автомобили отправляются друг за другом из начала координат и двигаются с различными, но постоянными скоростями по бесконечной дороге, на которой запрещены остановки. Если автомобиль догоняет другой, медленнее едущий автомобиль, то ему самому приходится тащиться с той же скоростью. Таким образом будет сформирована колонна. Предельный размер колонны будет зависеть от скоростей автомо- билей, но не от времен между последовательными отправлениями из началь- ной точки. Рассмотрим скорости автомобилей как независимые случайные величины с одинаковым непрерывным распределением. Выберем наудачу любой авто- мобиль, например первый из отправляющихся после данного момента. Исполь- зуя комбинаторные методы примера 5, а), покажите, что а) вероятность того, что данный автомобиль не будет тащиться за каким- либо другим автомобилем, стремится к 1/2\ б) вероятность того, что данный автомобиль ведет за собой колонну общим размером п (т. е. ровно п—1 автомобилей тащатся за ним), стремится к 1/(п+1) («4-2); в) вероятность того, что данный автомобиль является последним в ко- лонне размера п (т. е. тащится за п—1 автомобилями), стремится к тому же пределу, что и предыдущая вероятность. 11. Обобщение2) примера 5,а) о рекордном значении. Вместо того чтобы рассматривать одно предварительное наблюдение Хо, мы начинаем с выборки (Хх, ..., Х,Л) с порядковыми статистиками (Х(1), ..., X(W)). (Общее для всех величин распределение F не играет роли, коль скоро оно непрерывно.) а) Пусть N — первый индекс и, такой, что Xw+„^X(w). Покажите, что Р {N > n} — ml(tn-\-n). [В примере 5,а) мы имели т—1.] б) Пусть N — первый индекс п, такой, что Хт +п^ Х(от-г+1); покажи- те, что X) Newell G. F., Opns Res. 7 (1959), 589—598. а) Willks S. S., J. Austr. Math. Soc„ 1 (1959), 106-112.
56 Гл. I. Показательные и равномерные плотности При г 2 мы имеем Е (N) = <оо и P{N</nx}—> 1 — т~*°°- в) Пусть N — первый индекс, такой, что Хт + П находится вне интервала между Х(1) и Х(/и). Тогда P{N > п}=~—;———-—тт и Е (N) < оо. 1 J (т + п) (т + п— 1) 12. (Свертки показательных распределений.) Пусть X/ при / = 0, ..., п —X х J имеет плоъ юсть Хув i для х > 0. Здесь Ху Ф если только j не равно k. Положим Фа?, п= [fto Фа?) ••• ••• (^« ^а?)] Покажите, что Х0+... + Хп имеет плотность Рп (/) =Х0 . • K-i ко, пе~Кх+ +%, пе~КпХ]- (*) Указание. Используйте индукцию, симметрию и (2.14). Вычислений можно избежать. 13. Продолжение. Если Y,- имеет плотность je~Jx, то плотность суммы Yi + ... + ¥„ равна п х>°' fe= 1 v ' Используя утверждение примера 6,6), выведите, что fn-\ есть плотность размаха Х(/г) —Х(1) выборки Хг, ..., Х„, где все Ху имеют одинаковую плот- ность е~х. 14. Процессы чистого размножения. В процессе чистого размножения из 1; гл. XVII, 3 система проходит через последовательность состояний £0—► —> Е\—>..., причем время пребывания в состоянии Ek имеет плотность Х&е kX. Таким образом, Sre = Хо+ ... + Х„ есть момент перехода Еп —> En+i' Обозначьте через Рп (/) вероятность Еп в момент t. Покажите, что Pw (0 = == Р {Srt > > О и> следовательно, Р„ (/) определяется формулой (*) задачи 12. Дифференциальные уравнения процесса: Ро (О =—Х0Ро (О, Рп (О =- КРп (О+^-Л-1 (0, 1, можно вывести (а) из (1) и (б) из свойств сумм Sn. Указание. По соображениям симметрии достаточно рассмотреть коэффи- циент при e~^ot. 15. В примере 6,а), где рассматриваются параллельные очереди, мы ска- жем, что система находится в состоянии &, если k окошек свободны. Пока- жите, что здесь применима модель процесса чистого размножения (задача 14) с hk = (n — k) а. Докажите, что Pk (О e~at \k e-(n-k) at. Выведите отсюда распределение X(ft). 16. Рассмотрите две независимые очереди из т и п > т лиц соответст- венно, предполагая, что времена обслуживания имеют одно и то же показа- тельное распределение. Покажите, что вероятность более длинной очереди окончиться первой равна вероятности получить п гербов раньше, чем т ре- шеток, при бросаниях симметричной монеты. Найдите ту же вероятность,
§ 13. Задачи 57 рассматривая отношение Х/Y двух величин с гамма-распределениями Gm и Gn, заданными формулой (3.5). 17. Пример статистического оценивания. Предполагается, что продолжи- тельности существования электрических ламп имеют показательное распреде- ление с неизвестным математическим ожиданием а-1. Чтобы оценить а, бе- рется выборка из п ламп и наблюдаются продолжительности существования Х(1) < Х(2) < • • • < Х(и первых г портящихся ламп. «Наилучшая несмещенная оценка» а”1 дается линейной комбинацией U = ХхХ(1) + ... + А,гХ(г), такой, что E(U) = a-1 и Var (U) имеет наименьшее возможное значение. Покажите, что и = (Х(1)+ ... Х(и) 1 + Х(г) (п—г) 1, и тогда Var (U) = -~a“2. Указание. Проделайте вычисления в терминах независимых величин Х(Л)—X(ft-D (см. пример 6, б)). ____ 18. Пусть величины Хъ Хп распределены равномерно на 0, 1. Пока- жите, что размах Х(п)—Х(1) имеет плотность п (п—l)xw“2(l—х) и матема- тическое ожидание (п—l)/(n+ 1). Какова вероятность, что все п точек лежат внутри некоторого интервала длины /? 19. Ответьте на вопросы примера 6, б), когда три времени ожидания равномерно распределены в интервале 0, 1. (Задача включает «скучные» вы- числения, однако это может оказаться полезным упражнением по части тех- нических приемов.) 20. На окружности независимо и наудачу выбраны четыре точки. Най- дите вероятность того, что хорды ХхХ2 и Х3Х4 пересекаются а) без вычисле- ний, используя лишь соображения симметрии; б) из определения череа интеграл. 21. В процессе случайного разбиения из § 8 обозначьте через Хи, Х12, Х21, Х22 массы четырех осколков второго поколения, индекс 1 относится к наименьшей, а 2—к наибольшей части. Найдите плотности и математи- ческие ожидания этих величин. Замечание. Следующие несколько задач содержат новые теоремы, касаю- щиеся случайных разбиений интервала на части (см. пример 7, б)). Предпо- лагается, что случайные величины Хъ Х„ независимы и равномерно распределены на 0, t. Эти случайные величины индуцируют разбиение интер- вала 0, t на п+1 подынтервалов. Длины этих интервалов, взятые в надле- жащем порядке, мы обозначим Ln ..., Lw+1. В терминах порядковых ста- тистик Li = X(1), L2 = X(2)—Х(1), ..., L„+1 = /—X(„). 22. Обозначим через pn(t) вероятность того, что длины всех п+1 подын- тервалов разбиения больше чем h (иными словами, рп (/) = Р {min > Л}, что представляет собой хвост функции распределения самого короткого из интервалов). Докажите рекуррентное соотношение /-ft Рп (0 =-^ J хп~1рп.1 (х) dx. (*) о Выведите отсюда, что рп (/) = /-«(/—(п+1)Л)+. 23. Используя рекуррентное соотношение, аналогичное (*), докажите без вычислений, что для произвольных + Р {Li > Xi, • * •, > Xn-t 11“ — f и хпi)• (**)
58 Гл. /. Показательные и равномерные плотности (Этот изящный результат был получен Б. де Финетти г) из геометриче- ских соображений. Он включает множество интересных частных случаев. Если xj = h при всех /, то мы получаем предыдущую задачу. Пример 7, б) соответствует частному случаю, когда ровно одна из величин ху отлична от нуля. Теорема о покрытиях (теорема 3 § 9) следует из (**) и формулы 1; IV, (1.5) для появления по крайней мере одного из (п+1) событий.) 24. Пусть qn (/) — вероятность того, что все взаимные расстояния между Xfc превышают h. (Отличие от задачи 22 в том, что здесь не накладываются ограничения на концевые интервалы Lx и Ln+1.) Найдите соотношение, ана- логичное (*), и выведите оттуда qn(t). 25. Продолжение. Не используя решение предыдущих задач, найдите, что (/) = а—2П)" t~”qn 26. Сформулируйте аналог задачи 24 для окружности и покажите, что задача 23 дает ее решение. 27. Равнобедренный треугольник образован единичным вектором в х-на- правлении и единичным вектором в случайном направлении. Найдите распре- деление длины третьей стороны (i) в 3&2 и (ii) в 3J3. 28. Единичный круг (шар) с центром в 0 имеет на положительной х-оси северный полюс. Из полюса выходит луч, и его угол с х-осью распределен равномерно на —1/2л, 1/2л. Найдите распределение длины хорды внутри круга (шара). Замечание. В луч имеет случайное направление, и мы имеем дело с аналогом примера 10, а). В же задача другая. 29. Отношение средних длин случайного вектора и его проекции на х-ось равно 2 в ,Я3 и л/2 в ^£2. Указание. Используйте (10.2) и (10.8). 30. Длина случайного вектора распределена равномерно на 0, 1. Найдите плотность длины его проекции на х-ось а) в 5J3 и б) в Указание. Используйте (10.4) и (10.9). 31. Найдите функцию распределения угла между х-осью и случайно выбранным направлением в 3&4. 32. Найдите в аналог соотношения (10.2) между распределением длины случайного вектора и распределением длины его проекции на х-ось. Про- верьте результат задачи 31, ограничившись единичным вектором. 33. Предельная теорема для порядковых статистик, а) Пусть Xj, ..., Хп распределены равномерно в 0, 1. Докажите, что при фиксированном k и п —► оо j} —Gfe-1 W. *>0. где 6^ есть гамма-распределение (3.5) [см. пример 7, д)]. б) Если Хл имеют произвольную непрерывную функцию распределения Г, то тот же предел существует и для Р {Х(£)«С Ф (х/n)}, где Ф есть функ- ция, обратная к F (Смирнов). 34. Предельная теорема для выборочной медианы. Порядковая статистика Х(п) выборки (Хь ..., X2rt-i) называется выборочной медианой. Если Ху независимы и равномерно распределены на 0, 1, то покажите, что р|х(п)-1<//К8^—>91(0. где 91 обозначает функцию распределения стандартного нормального рас- пределения. 35. Продолжение. Пусть случайные величины Ху имеют одинаковое рас- пределение F с непрерывной плотностью f. Пусть т—медиана распределе- х) Giornale 1st, Ital. degli Attuari, 27 (1964), 151—173,
§ 13. Задачи 59» ния F9 т. е. F (т)~ 1/2. Покажите, что X Р{Х(я) < х}=(2п-1) j F”-1 (У) [1 —F (У)]»-1 / (У) dy, — 00 откуда в силу предыдущей задачи Р 1х(в)-т <------> 3? (О- 36. Докажите следующий вариант теоремы Гнеденко—Королюка в § 121 / 2п \ Р |sup[F„ (x)-F* (*)>Д • k « ] где r=l, 2, ..., n. [В отличие от первоначальной формулировки знаки абсолютных величин слева опущены, и поэтому в соответствующем случай- ном блуждании появляется только один поглощающий барьер в точке г.) 37. Образование показательно распределенных случайных величин из равно- мерно распределенных величин1). Пусть Xlt Х2, ...—независимые величины с равномерным распределением в 0, 1. Определим случайную величину, N как такой индекс, что Xf^X2^ ... ^Xn-i < Xn (см. задачу 9). Докажите, что- vn — 1 уИ откуда P{Xi«C*, N четно} =1—е~х. Определим Y следующим образом: «испытанием» служит последователь- ность Xi, ...» Xn ; мы говорим о «неудаче», если N нечетно. Мы повторяем независимые испытания до появления первого «успеха». Пусть Y равно числу неудач плюс первая величина в успешном испытании. Докажите, что P{Y < х}=1-е-*. х) Von Neumann J., National Bureau of Standarts, Apji. Math. Serries, 12 (1951), 36—38.
ГЛАВА II СПЕЦИАЛЬНЫЕ ПЛОТНОСТИ. РАН ДОМИЗАЦИЯ Основная задача этой главы состоит в том, чтобы перечислить для облегчения ссылок те плотности, которые чаще всего будут появляться в дальнейшем. Рандомизация, описанная во второй части, полезна для многих целей. В качестве иллюстрации дается вывод формул для некоторых распределений, связанных с функ- циями Бесселя и встречающихся в различных переменных. Мы увидим, что этот простой вероятностный прием заменяет сложные вычисления и трудоемкий анализ. § 1. ОБОЗНАЧЕНИЯ И ОПРЕДЕЛЕНИЯ Мы говорим, что плотность f и соответствующее ей распреде- ление F сосредоточены (или сконцентрированы) на интервале 1 = а, Ь1), если /(х) = 0 для всех х, не принадлежащих /. Тогда F(x) = 0 для х<а и Г(х) = 1 для х>&. Говорят, что два рас- пределения F и G, а также их плотности f и g принадлежат одному и тому же типу, если они связаны соотношениями G (x) = F (ax + b), g(x) = af (ax-\-b), (1.1) где а > 0. Мы будем часто называть b центрирующим параметром и а—масштабным параметром. Эти термины становятся хорошо понятными после следующего разъяснения: если F служит функ- цией распределения случайной величины X, то G есть функция распределения величины Y=~. (1.2) Во многих ситуациях в действительности важен только тип рас- пределения. Математическое ожидание т и дисперсия о2, соответствующие х) В соответствии с обычной терминологией наименьший замкнутый интер- вал / с таким свойством следовало бы называть носителем f. Новый термин введен в связи с тем, что мы будем употреблять его в более общем смысле: так, распределение может быть сосредоточено на множестве всех целых или всех рациональных чисел.
§ 1. Обозначения и определения 61 плотности f (или F), определяются равенствами . >• 4- оо 4-00 4-оо т = ^xf(x)dx, а2 = J (х—m)2f(x)dx — ^x2f(x)dx—т2, (1.3) — 00 — 00 — 00 если только интегралы сходятся абсолютно. Из формулы (1.2) следует, что плотности g в этом случае соответствует математи- ческое ожидание (т—Ь)/а и дисперсия с2/а2. Отсюда ясно, что для каждого типа существует самое большее одна плотность с нулевым математическим ожиданием и единичной дисперсией. Вспомним [см. гл. I, (2.12)], что свертка [ = двух плот- ностей f\ и есть плотность вероятности, определяемая формулой 4- оо f W = 5 /1 (х—у) (у) dy. (1.4) Если /1 и f2 сосредоточены на 0, оо, эта формула сводится к X f(x)~^fi(x—y)f2(y)dy, х>0. (1.5) О Функция f представляет собой плотность суммы двух независи- мых случайных величин с плотностями и /2. Заметим, что для ё[ (*) = ft (* + &/) свертка g = gr* g2 дается равенством g (х) = = /(х + &! + &2)» как это видно из (1.2). Мы заканчиваем этот параграф введ нием обозначений для плотности и функции распределения нормального распределения: * * " 1 х 1 1 _— Х2 1 р _ — “w"Fg' ' • ’,w=FSp ’ (L6’ — 00 Давно знакомая нам нормальная плотность с математическим ожиданием т и дисперсией о2 определяется как В центральной предельной теореме неявно содержится существен- ный факт, что семейство нормальных плотностей замкнуто отно- сительно операции свертки*, другими словами, свертка двух нор- мальных плотностей с математическими ожиданиями т2 и дисперсиями о?, о2 есть нормальная плотность с математическим ожиданием т1-\-т2 и дисперсией о? + о2. Ввиду ранее сказанного достаточно доказать это для m1 = m2 = 0. Утверждается, что 7§^ехР [~2^] 1 2nOia2 (х—у)2 2а2 Z(J2 J
62 Гл. II. Специальные плотности. Рандомизация Справедливость этого утверждения становится очевидной, если произвести замену переменных г — у-^Х— где х фиксиро- вано. (См. задачу 1.) $ 2. ГАММА-РАСПРЕДЕЛЕНИЯ Гамма-функция Г определяется как Г(/) = Z>0. (2.1) о [См. 1; гл. II, (12.22).] Гамма-функция интерполирует факториалы в том смысле, что Г(п-|-1) = и! для n = 0, 1, ... . Интегрирование по частям показывает, что Г(/) = (/ — 1)Г(/ — 1) при всех t > 0 (задача 2). Гамма-плотности, сосредоточенные на 0, оо, определяются формулой Za.v(x)=r^yavx'’-1e-«S х>0. (2.2) Здесь а> 0—тривиальный масштабный параметр, hov>0—су- щественный параметр. В частном случае мы имеем дело с показательной плотностью, а плотности fa,п (п=1, 2, ...) совпадают с плотностями gn из гл. I, (3.4). Простые вычисления показывают, что математическое ожидание fa, v равно v/a, а дис- персия равна v/a2. Семейство гамма-плотностей замкнуто относительно опера- ции свертки fa, ц* fa, v = fa, H4-V, р 0,V 0. (2-3) Это важное свойство обобщает теорему из гл. I, 3 и будет по- стоянно использоваться; доказательство чрезвычайно просто. Согласно (1.5), левая часть равна С (%—f/P'1 yv~xdy. (2.4) Г (р) Г (v) J ' о После подстановки у — xt это выражение будет отличаться от fa, u+v только численным множителем, а он равен единице, так как fa, i^v и (2.4) являются плотностями вероятности. Последний интеграл при х=1—это так называемая бета- функция В (р, v), и как побочный результат доказательства мы получаем, что B(J*, v) = j(l~^-ir-x# = rrwr(v) (2 б)
§ 3. Распределения, связанные с гамма-распределением 63 для всех р > 0, v > О. [С целыми pi и v эта формула исполь- зуется в 1; гл. VI, (10.8) и (10.9). См. также задачу 3 этой главы.] Что касается графика v, то он, очевидно, монотонен, если v^'l, и неограничен вблизи нуля, когда v < 1. При v > 1 график /i, v колоколообразен, fltV достигает при x = v—1 максимума, равного (v — l)v-*1e~^~1)/f (v), что близко к [2л (v—I)]-1/2 [фор- мула Стирлинга, 1; гл. II, 12, задача 12]. Из центральной пре- дельной теоремы следует, что Qfa.vl i + v—+оо. (2.6) kA \ kA kA / § 3* РАСПРЕДЕЛЕНИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ, СВЯЗАННЫЕ С ГАММА-РАСПРЕДЕЛЕНИЕМ Гамма-плотности играют значительную, хотя не всегда явную роль в математической статистике. Прежде всего они фигурируют как'«тип III» в классической (теперь до некоторой степени уста- ревшей) системе плотностей, введенной К. Пирсоном (1894 г.). Более часто они встречаются благодаря тому, что для случайной вели- чины X с нормальной плотностью п квадрат X2 имеет плотность x"1/2n(x1/2) = /1/2,1/2 (х). Ввиду свойства свертки (2.3) отсюда сле- дует, что Если Хп ..., Х„ — взаимно независимые нормально распреде- ленные величины с математическим ожиданием 0 и дисперсией о2, то величина х?+...+х* имеет плотность fi^o2, п/ъ- Для статистиков величина %2 = X? + ... Х£ совпадает с «вы- борочной дисперсией для нормальной совокупности», и ее рас- пределение постоянно используется. В этой связи /\/2, i/2rt по традиции (восходящей к К. Пирсону) называется хи-квадрат плотностью с п степенями свободы. В статистической механике величина Xi + X^ + Xi появляется как квадрат скорости частиц. Сама скорость поэтому имеет плотность у (х) = 2х/1/2, 3/2(х2). Это не что иное, как плотность Максвелла, найденная другим способом в гл. I, (10.6). (См. также пример в гл. Ш,4.) В теории очередей гамма-распределение иногда называют рас- пределением Эрланга. Некоторые случайные величины (или «статистики»), важные для статистиков, имеют форму T = X/Y, где X и Y—независимые случайные величины, Y > 0. Обозначим их функции распределе- ния через F и G, а их плотности через f и g соответственно. Так как величина Y предполагается положительной, то g сосре- ~ ♦) Этот параграф затрагивает специальные вопросы и не используется в дальнейшем.
64 Гл. Л. Специальные плотности. Рандомизация доточено на 0, оо, и поэтому 00 Р{Т < 0 = Р {X < ZY} = $ F (ty) g (у) dy. О (3.1) Дифференцируя, находим, что отношение T = X/Y обладает плот- ностью 00 w(t) = \f(ty)yg(y)dy. О (3-2) Примеры, а) Если X и Y имеют плотности fi/2t т/2 и fi/2t п/2, то Х/Y имеет плотность r(v(m+n)) /2 w (0 =------i, t > 0. (3.3) / 1 \ /1 \ —(m + n) г(ттЛ (t'J(1+/)S Действительно, интеграл (3.2) равен 1 ОС — т-1 г _________tj________________ ( 4~(т+п)г (_L т\ г f _Lп\ J 22_______\ 2 J к 2 J О — (m + n)-l (1 + Ojf У е 1 dy, (3.4) а подстановкой у(1+0// = $ он сводится к (3.3). В дисперсионном анализе рассматривают частный случай Х = Х2+ ... +Х*г и Y = Yj + ... 4-Y„, где Хп Хш, Yr, • • •, Yп—взаимно независимые нормально распределенные вели- чины с плотностью п. Случайная величина F называется статистикой Снедекора, а ее плотность — w ( — х ) — плотностью Снедекора или F-плотностью. Величина Z есть Z-стати- стика Фишера, а ее плотность в свою очередь—Z-плотность Фишера. Обе статистики являются, конечно, вариантами записи одной и той же величины. б) 1-плотность Стьюдента. Пусть X, Yn ..., Yw независимы и одинаково распределены с нормальной плотностью и. Случай- ная величина ,35’ называется в математической статистике 1-статистикой Стью- дента. Покажем, что распределение случайной величины Т задается
§ 4. Некоторые распространенные плотности 65 ПЛОТНОСТЬЮ w(t)=----------^4------- — (п+1) (1-Ь Z2/n)2 где С п = 1_ф+1>) г(4п) (3.6) В самом деле, числитель в (3.5) имеет нормальную плотность с нулевым математическим ожиданием и дисперсией п, тогда как плотность знаменателя равна 2xfl/2, п/г (х2). Таким образом, исполь- зуя формулу (3.2), получаем плотность вида 1 Г + - \ е “ firn 2<«-1)/2Г(п/2) J о yndy. (3.7) Подстановка s=-~ (1 + t2/ri) у2 сводит интеграл (3.7) к гамма-функ- ции, и мы получаем (3.6). § 4. НЕКОТОРЫЕ РАСПРОСТРАНЕННЫЕ ПЛОТНОСТИ а) Двусторонняя показательная плотность определяется выра- жением А|» где а—масштабный параметр. Ей соответствует нулевое математическое ожидание и дисперсия 2а"а. Эта плотность представляет собой свертку показательной плотности ае~ах (х > 0) со своим зеркальным отображением аеах (х < 0). Иными словами, двусторонняя показательная плотность является плотностью вели- чины Xi—Х2, где Xf и Х2 независимы и обладают одной и той же показательной плотностью ае~ах (х > 0). Во французской лите- ратуре это распределение обычно называют «вторым законом рас- пределения Лапласа» (первым считается нормальное распреде- ление). б) Равномерная (или прямоугольная) плотность ра и треуголь- ная плотность тл, сосредоточенные на —а, а, определяются соот- ветственно выражениями PeW = ^. ТЛ*)=^(1 — -V-) , И <а- (4.1) Легко видеть, что ра*ра==т2а, или словами! сумма двух равно- мерно распределенных на —а, а величин имеет треугольную плот- ность распределения на —2а, 2а. [Повторные свертки ра * ... * ра были описаны в гл. I, (9.7).] в) Бета-плотности на 0, 1 определяются как 0<х<1, (4.2) где |х>0 и v>0—свободные параметры. То, что (4.2) действи- тельно определяет плотность вероятности, следует из (2.5). Из той 3 д. 249
66 Гл. 11. Специальные плотности* Рандомизация же самой формулы видно, что рц> v имеет математическое ожида- ние v/(p + v) и дисперсию pv/[(pi + v)2 (р + v + 1)]. Еслир<1, v<l, то график v является U-образным, уходящим в беско- нечность при х, стремящемся к 0 или 1. При р> 1, v> 1 гра- фик колоколообразен. При p = v = l получаем как частный случай равномерную плотность. Простой вариант бета-плотности определяется формулой (l + o2 v (Гн) = г (м)Г>) (1-HFV ’ 0 <z < °°- <4-3) Если случайная величина X имеет плотность (4.2), то величина Y = X-1 — 1 имеет плотность (4.3). В системе распределений Пирсона плотности (4.2) и (4.3) именуются плот- ностями типа I и VI соответственно. Плотность Снедекора (3.3) есть не что иное, как частный случай плотности (4.3). Плотности (4.3) иногда называются плотностями Парето (в честь экономиста Парето). Считалось (несколько наивно с современной статистической точки зрения), что распределения дохода должны иметь хвост с плотностью ~ Ах~а при х—>оо, а (4.3) удовлетворяет этому требованию. г) Так, называемая «арксинусчглотностьъ 1 Л X (1 —х) * 0<х< 1, (4.4) есть фактически то же самое, что и бета-плотность Pi/2,1/2, однако эта плотность заслуживает специального упоминания вследствие ее частого появления в теории флуктуаций. (Мы ввели ее в 1, гл. III, 4, в связи с неожиданным поведением «времени пребыва- ния».) Вводящее в заблуждение название, к сожалению, обще- употребительно; фактически функция распределения равна 2л"1 arc sin Кх. (Бета-плотности с ц -}- v — 1 иногда называются «обобщенными арксинус-плотностями».) д) Плотность Коши с центром в начале координат опреде- ляется как Tt W = • 727^-2 > —оо<х<оо, (4.5) где />0—масштабный параметр. Соответствующая функция рас- пределения равна y + rc^aretg (x/Z). Графику напоминает график нормальной плотности, но приближается к оси х столь медленно, что математическое ожидание не существует. Важность плотностей Коши обусловлена формулой свертки Ъ*Т< = Ъ+р (4-6) Этим утверждается, что семейство плотностей Коши (4.5) замк- нуто относительно свертки. Формула (4.6) может быть доказана
§ 4. Некоторые распространенные плотности 67 элементарным (но скучным) способом с помощью обычного разло- жения подынтегральной функции на элементарные дроби. Более простое доказательство опирается на анализ Фурье. Формула свертки (4.6) имеет весьма интересное следствие, а именно: для независимых случайных величин Хх, ..., ХЛ, имею- щих одинаковую плотность распределения (4.5), среднее значение (Xj + ... + Х„)/п распределено с той же самой плотностью, что и Ху. Пример. Рассмотрим лабораторный опыт, заключающийся в том, что вертикальное зеркало проецирует горизонтальный световой луч на стену. Зеркало может свободно вращаться относительно вертикальной оси, проходящей через А. Мы предполагаем, что направление отраженного луча выбирается «случайно», т. е. угол ср между этим лучом и перпендикуляром АО к стене распределен равномерно между —и 2-л. Световой луч пересекает стену в точке, которая лежит от точки О на расстоянии X = Mgcp (t равно расстоянию АО центра зеркала А от стены). Теперь оче- видно, что случайная величина X имеет плотность (4.5)г). Если эксперимент повторен п раз, то среднее (Хх + ... + ХЛ)/п имеет ту же самую плотность распределения и, таким образом, средние не накапливаются вокруг нуля, как можно было бы предположить по аналогии с законом больших чисел. > Плотность распределения Коши обладает любопытным свойством: если X имеет плотность у*, то 2Х имеет плотность y2t = yt * ТЬ Таким образом, вели- чина 2Х = Х + Х является суммой двух зависимых величин, однако ее плотность задается формулой свертки. Более того, если U и V—две независимые вели- чины с одинаковой плотностью yt и X=tfU + Z>V, Y = cU4-dV, то величина X + Y имеет плотность y^a + b + c + cDtt чт0 представляет собой свертку плотно- стей y<a + b)t величины X и y(C + d)t величины Y; однако X и Y не являются независимыми. (Схожий пример см. в задаче 1 в гл. III, 9.) [Плотность Коши соответствует частному случаю п=1 семейства (3.5) 7-плотностей Стьюдента. Иными словами, если X и Y — независимые случай- ные величины с нормальной плотностью п, то величина Х/| Y | имеет тот- ность распределения Коши (4.5) с /=1. Некоторые другие родственные плот- ности см. в задачах 5, 6.] Свойство свертки гамма-плотностей, выраженное формулой (2.3), выглядит точным подобием свойства (4.6), однако существует важ- ное различие, состоящее в том, что для гамма-плотностей параметр v является существенным, в то время как формула (4.6) содержит х) Простая переформулировка этого эксперимента приводит к физической интерпретации формулы свертки (4.6). Наше рассуждение показывает, что если единичный источник света находится в начале отсчета, то yt пред- ставляет распределение интенсивности света вдоль линии y = t на (х, ^-пло- скости. Тогда (4.6) выражает принцип Гюйгенса, согласно которому интенсив- ность света вдоль направления y~s-\-t такая же, как если бы источник был распределен вдоль линии у — t с плотностью у^ (Я обязан этим замечанием Дж, Bs Уолшу.) 3*
68 Гл. 11. Специальные плотности. Рандомизация только масштабный параметр. Тип распределений Коши является устойчивым типом. Эта устойчивость относительно операции свертки свойственна плотностям Коши и нормальным плотностям; различие заключается в том, что масштабные параметры опре- деляются согласно правилам / = + и а2 = о^_|_а2 соответст- венно. Имеются другие устойчивые плотности с подобными свой- ствами, и после систематизации терминологии мы будем называть нормальные плотности и плотности Коши «симметричными, устой- чивыми с показателями 2 и 1» (см. гл. VI, 1). е) Одностороннее устойчивое распределение с показателем 1/2. Если —нормальное распределение, заданное формулой (1.6), то равенство х > О, (4-7) определяет функцию распределения с плотностью /а(х) = -Д=« “7^=-е 2 х>0. (4.8) 1аХ 7 К2л /х3 v 7 Очевидно, что математическое ожидание не существует. Это рас- пределение было найдено в 1; гл. III, (7,7), и снова в 1; гл. X, 1, как предел распределения времен возвращения. Отсюда легко вы- вести правило свертки где у = а + р. (4.9) (Возможна проверка элементарным, но несколько громоздким спо’ собом интегрирования. Доказательство, основанное на анализе Фурье, проще.) Если Хй Хл—независимые случайные вели- чины с распределением (4.7), то из равенства (4.9) следует, что величина (Хх+...-f-XJn"2 имеет то же самое распределение, и поэтому средние (Хх+ ... -J-XJ /г’1, вероятно, должны быть порядка п; вместо того чтобы сходиться, они безгранично воз- растают (см. задачи 7 и 8). ж) Распределения вида е~х а (х > 0, а > 0) появляются в связи с поряд- ковыми статистиками (см. задачу 8), Вместе с разновидностью 1—е~ха они появляются (несколько таинственно) под именем распределений Вейбула в ста- тистической теории надежности. в) Логистическая функция распределения = 1+g-a—. «>°. ИЛО) может служить предостережением. Существует невероятно большая литера- тура, где делаются попытки доказать трансцендентный «закон логистического развития». Предполагалось возможным представить практически все процессы развития (измеренные в соответствующих единицах) функцией типа (4.10) с/, изображающим время. Весьма длинные таблицы с хи-квадрат критериями под- тверждали это положение для человеческих популяций, бактериальных коло- ний, развития железных дорог и т, д> Было обнаружено, что как высота,
§ 5. Рандомизация и смеси 69 так и вес растений и животных подчиняются логическому закону, хотя из теоретических соображений ясно, что эти две величины не могут подчиняться одному и тому же распределению. Лабораторные эксперименты на бактериях показали, что даже систематические нарушения не могут привести к другим результатам. Теория популяций была основана на логистических экстраполяциях (даже если они оказывались очевидным образом ненадежными). Единственное затруднение «логистической» теории заключается в том, что не только логи- стическое распределение, но также нормальное, Коши и другие распределе- ния могут быть подогнаны под тот же самый материал в тем же или лучшим согласием1). В этой конкуренции логистическое распределение не играет никакой выдающейся роли: самые противоречивые теоретические модели могут быть подтверждены на том же материале наблюдений. Теории этого рода недолговечны, так как они не открывают новые пути, а новые подтверждения одних и тех же старых вещей очень скоро становятся надоедливыми. Однако наивное рассуждение само по себе не было заменено здравым смыслом, и поэтому может быть полезно иметь очевидное доказатель- ство того, как могут вводить в заблуждение взятые сами по себе критерии согласия. § 5. РАНДОМИЗАЦИЯ И СМЕСИ Пусть F—функция распределения, зависящая от параметра 0, и и—некоторая плотность вероятности. Тогда + 00 W(x) = $ F (х, в) и (в) de (5.1) — 00 есть монотонная функция х, возрастающая от 0 до 1, и, следо- вательно, функция распределения. Если F имеет непрерывную плотность f, то и W имеет плотность равную + 00 w(x) = J [ (х, 0) и (0) de. (5.2) — со Вместо интегрирования относительно плотности и мы можем сум- мировать по отношению к дискретному распределению вероятно- стей- если 0О 02, ... выбраны произвольно и если pk^0t = то равенство - W(x) = ^f (x, ek)pk (5.3) k определяет новую плотность вероятности. Процесс может быть описан вероятностно как рандомизация; параметр 0 рассматри- вается как случайная величина, и новое распределение вероятно- стей определяется в (%, 0)-плоскости, которая служит выборочным пространством. Плотности вида (5.3) называются смесями, и это выражение здесь используется вообще для распределений и плот- ностей вида (5.1) и (5.2). х) Feller W., On the logistic law of growth and its empirical verifications jn biology, Acta Biotheoretica, 5 (1940), 51—66,
70 Гл. II. Специальные плотности. Рандомизация Мы не предполагаем на этом этапе развивать общую теорию. Наша цель скорее в том, чтобы проиллюстрировать на нескольких примерах возможности этого метода и его вероятностное содержа- ние. Примеры служат также подготовительным материалом к поня- тию условных вероятностей. Следующий параграф содержит при- меры дискретных распределений, полученных посредством рандо- мизации непрерывного параметра. Наконец, § 7 иллюстрирует построение непрерывных процессов на основе случайных блужда- ний; попутно мы получим распределения, встречающиеся во мно- гих приложениях и требующие при другом подходе громоздких вычислений. Примеры, а) Отношения. Если X—случайная величина с плот- ностью /, то при фиксированном у > 0 величина Х/у имеет плот- ность f (ху) у. Рассматривая параметр у как случайную величину с плотностью g*, мы получаем новую плотность + оо да(х)= J f(xy)yg(y)dy. (5.4) — 00 Это то же самое, что и формула (3.2), которая была основой для обсуждений в § 3. На вероятностном языке рандомизация знаменателя у в Х/у означает рассмотрение случайной величины Х/Y, и мы можем просто повторить вывод формулы (3.2) для плотности величи- ны Х/Y. В этом частном случае терминология есть дело вкуса. б) Суммы случайного числа слагаемых. Пусть Хь Х2, ...— взаимно независимые случайные величины с одинаковой плотностью f. Сумма S„ = Хх + ... + Хп имеет плотность а именно п-кратную свертку f с собой (см. гл. I, 2). Число слагаемых п является параметром, который мы теперь рандомизируем с' помощью рас- пределения вероятностей P{N=n}=prt. Плотность результирую- щей суммы Sn со случайным числом слагаемых N равна = (5.5) 1 Возьмем, например, в качестве геометрическое распределение pn = qpn~\ а в качестве f—показательную плотность. Тогда fn*=gn дается формулой (2.2) и 00 w (х) = qae~ax У, рп = qae~aQX. (5.6) П=1 ) в) Применение к теории очередей. Рассмотрим один обслужи- вающий прибор с показательным распределением времени обслужи- вания (плотность /(/) = це~ц/) и предположим, что поступающая нагрузка—это нагрузка пуассоновского типа, т, е. что интервалы
з9 5. Рандомизация и сноси 71 времени между вызовами независимы и имеют плотность распре- деления Ке~к\ X < [х. Данная модель описана в 1; гл. XVII, 7, б). Поступающие вызовы становятся в (возможно, пустую) «очередь» и обслуживаются в порядке поступления без перерывов. Рассмотрим вызов, к моменту поступления которого в системе обслуживания уже имеется очередь из 0 других вызовов. Пол- ное время, которое этот вызов проводит в системе обслуживания, равно сумме времен обслуживания п вызовов, стоящих в очереди, и времени обслуживания самого этого вызова. Полное время есть случайная величина с плотностью f(n+1}X, Мы видели в 1; XVII, (7.10), что в стационарном состоянии вероятность наличия в оче- реди ровно п вызовов равна qpn, где p = K/[i. Если имеет место стационарное состояние, то полное время, которое вызов проведет в системе обслуживания, есть случайная величина с плотностью распределения 2 qpnf{H+L} * (t)==q\\>e~vt 5 (р\^)п1п\ = (р— п = 0 п=0 Поэтому Е (Г) = 1/(р—X). (См. также задачу 10.) г) Очереди на автобус. Предполагается, что автобус появляется каждый час (в час, в два часа... и т. д.), но может запаздывать. Мы рассмотрим последовательные запаздывания Xfe как независи- мые случайные величины с одним и тем же распределением F и плотностью f. Для простоты мы предполагаем, что0^Хй^1. Обозначим через Т* время ожидания для человека, прибывшего в момент х < 1 после полудня. Вероятность, что автобус, назна- ченный на полдень, уже ушел, равна F (х). Ясно видно, что J F(/ + *)—F (х) при 0</<1— х, 1—F (х) 4- F (х) F (t 4- х—1) при 1—х</<2—х, и, конечно, Р{Т^/} = 1 для всех больших t. Соответствующая плотность равна /(/4-х) при 0</<1— х, ,58 F(x)f{t-^x—1) при 1—х</<2—х. ' Здесь момент х прибытия является свободным параметром, и его естественно рандомизировать. Например, для человека, прибы- вающего «наугад», момент прибытия представляет собой случайную величину, распределенную равномерно на 0, 1. Среднее время ожидания равно в данном случае ^-(-о2, где о2 есть дисперсия времени запаздывания. Другими словами, среднее время ожидания является наименьшим тогда, когда автобусы идут точно по расписанию, и возрастает вместе с дисперсией запаздывания. (См. задачи 11, 12.) ►
72 Гл. 11. Специальные плотности. Рандомизация § 6. ДИСКРЕТНЫЕ РАСПРЕДЕЛЕНИЯ Этот параграф посвящен беглому обзору некоторых результатов применения рандомизации к биномиальному и пуассоновскому распределениям. Число Sn успехов в испытаниях Бернулли подчиняется рас- пределению, зависящему от вероятности успеха р. Рассматривая р как случайную величину с плотностью ц, мы приходим к новому распределению 1 Р (S„ = k} = (j) J р* (1 -р)»-* и (р) dp, А = 0, ..., п. (6.1) О Пример, а) Если н(р)=1, то интегрированием по частям можно показать, что распределение, заданное формулой (6.1), не зависит от k и сводится к дискретному равномерному распреде- лению вероятностей Р = k} = (п 4-l)”1. Более разъясняющей является аргументация Байеса. Рассмотрим n-f-l независимых величин Хо, ..., Хп, распределенных равномерно между 0 и 1. Интеграл в выражении (6.1) (при п=1) равен вероятности того, что ровно k величин из Хь ..., Х„ будет меньше Хо, или, дру- гими словами, что при перечислении точек Хо, ..., Хп в порядке возрастания величина Хо появляется на (й+1)-м месте. Но ввиду симметрии все положения равновероятны, и поэтому интеграл равен (п+1)"1. ► На языке азартных игр (6.1) соответствует ситуации, когда несимметричная монета выбирается посредством случайного меха- низма, после чего с этой монетой (неизвестной структуры) произ- водятся испытания. Игроку испытания не кажутся независимыми; действительно, если наблюдается длинная последовательность гербов, то правдоподобно, что для нашей монеты р близко к 1, и поэтому безопасно делать ставку на дальнейшее появление гербов. Два формальных примера иллюстрируют оценивание и предсказание в задачах такого рода. Примеры, б) Дано, что п испытаний закончились k успехами (гипотеза Н). Какова вероятность того, что р<а? По определе- нию условных вероятностей а pk (1 — р)п~Ь и (р) dp ----------------- (6-2) J pk (1 —р)п~& и (p) dp o Этот способ оценивания использовался Байесом [при н(р) = 1]. В рамках нашей модели (т. е. если мы действительно занимаемся смешанной популяцией монет с известной плотностью и) не воз-
§ 6. Дискретные распределения 73 никнет возражений против этого способа. Опасность в том, что этот способ постоянно использовался без оснований применительно к суждениям о «вероятностях причин», когда о рандомизации не было и речи; эта точка зрения широко обсуждалась в примере 2, д) в 1; гл. V, в связи с вычислением пресловутой вероятности того, что завтра солнце взойдет. в) Вариант предыдущей задачи можно сформулировать следую- щим образом. Дано, что п испытаний закончились k успехами; какова вероятность того, что следующие tn испытаний закончатся / успехами? То же самое рассуждение приводит к ответу 1 (7) S pJ + k (l—p)m+n~J-k и (р) dp —------------------------------. (6.3) рЛ (1 — p)n~k и (р) dp о (См. задачу 13.) ► Обращаясь к пуассоновскому распределению, мы будем интер- претировать его как распределение числа «прибытий» за интервал времени длительностью t. Математическое ожидание числа при- бытий равно at. Мы проиллюстрируем две существенно различные процедуры рандомизации. Примеры, г) Рандомизированное время. Если длительность интервала времени является случайной величиной с плотностью и, то вероятность pk ровно k прибытий равна 00 = (6.4) О Например, если интервал времени распределен показательно, то вероятность fe = O, 1, ... новых прибытий равна п — С (а+Р) t ftdt—.......— • (...V (6 5) о что представляет собой геометрическое распределение. д) Расслоение, Допустим, что имеется несколько независимых источников для случайных прибытий, каждый источник имеет пуассоновский выход, но параметры различны. Например, аварии в какой-либо установке в продолжение фиксированного промежутка времени t могут быть представлены пуассоновскими величинами, но параметр будет меняться от установки к установке. Аналогично телефонные вызовы от отдельных абонентов могут быть пуассонов- скими с математическим ожиданием числа вызовов, меняющимся от абонента к абоненту. В таких процессах параметр а появ-
74 Гл. Л. Специальные плотнб'Ми. Рандомизация, , ляется как случайная величина с плотностью и, а вероятность ровно п вызовов за время t равна 00 P„(O=j (a) da. (6.6) о В частном случае гамма-плотности u — f^v+1 мы получим Р m = f«+vV_₽_V+1f_J_\n (67) П J\^ + t) W + t)' ' 1 что является предельной формой распределения Пойа, данного в 1; гл. V, 8, задача 24, и 1; гл. XVII, (Ю.2) (если Р = а-1, ч = а~1—1). ► Замечание о ложном заражении. Курьезная и поучительная история при- писывается распределению (6.7) и его двойственной природе. Урновая модель Пойа и процесс Пойа, которые приводят к (6.7), яв- ляются моделями истинного заражения, где каждый случай эффективно уве- личивает вероятность будущих случаев. Эта модель пользовалась большой популярностью. Для множества явлений эмпирически проверялось согласие с (6.7). При этом хороший результат воспринимался как признак истинного заражения. По случайному совпадению то же самое распределение (6.7) было полу- чено еще ранее (1920) М. Гринвудом и Дж. Юлом с тем замыслом, что хоро- шее согласие с ним опровергает наличие заражения. Их вывод приблизительно соответствует нашей модели расслоения, для которой начальным является предположение о том, что в основе лежит пуассоновский процесс, т. е. что полностью отсутствует последействие. Таким образом, мы имеем курьезный факт, что хорошее согласие наблюдений с одним и тем же распределением может быть истолковано двумя различными способами, диаметрально противо- положными как по своей природе, так и по своим практическим последствиям. Это послужит предостережением против слишком поспешной интерпретации статистических данных. Объяснение этому лежит в явлении ложного заражения, описанного в 1; гл. V, 2, г) и выше в связи с (6.1). В данной ситуации, получив за интервал времени длины s т прибытий, можно оценить вероятность п прибытий за следующий интервал времени t по формуле, аналогичной (6.3). Результат будет зависеть от т, и эта зависимость обусловлена способом выбора, а не природой данных; информация, относящаяся к прошлому, дает нам возмож- ность делать лучшие предсказания относительно будущего поведения нашей выборки, но это не следует смешивать с будущим всей популяции, § 7. БЕССЕЛЕВЫ ФУНКЦИИ И СЛУЧАЙНЫЕ БЛУЖДАНИЯ Удивительно много явных решений задач теории диффузии, теории очередей и других приложений содержат бесселевы функ- ции. Обычно далеко не очевидно, что решения представляют собой распределения вероятностей, а аналитическая теория, ко- торая требуется для получения их преобразований Лапласа и других характеристик, довольно сложна. К счастью, рассматри- ваемые распределения (и многие другие) могут быть получены простой процедурой рандомизации. На этом пути многие соотно-,
§ 7. Бесселевы функции и случайные блуждания 75 тени я теряют свой случайный характер, и можно избежать весьма трудного анализа. Под бесселевой функцией порядка р > —1 мы будем понимать функцию /р; 1р = А|Г (й+р+Ч W ’ <7' определенную для всех вещественных х1). Мы приступаем к описанию трех процедур, ведущих к трем различным типам распределений, содержащих бесселевы функции. а) Рандомизированные гамма-плотности Пусть мы имеем при фиксированном р>—1 гамма-плотность Л,р+/г+1, заданную формулой (2.2). Рассматривая параметр k как целочисленную случайную величину, подчиненную пуассоновскому распределению, мы получаем в соответствии с (5.3) новую плот- ность шр(х) = е p+fe+i (х) — е * х S й!г (р4-*-Ь 1) • Сравнив выражения (7.1) и (7.2), мы можем записать wp (х) = е~'~* YWf /р Х > °- (7,3) Если р>—1, то является плотностью вероятности, сосре- доточенной на 0, оо (при р = — 1 правая часть не интегрируема по х). Заметим, что t не масштабный параметр, так что эти плот- ности принадлежат различным типам. Между прочим, из этого построения и формулы свертки (2.3) для гамма-плотностей следует, что ^p*fi,v = ^p+v. (7.4) б) Рандомизированные случайные блуждания При анализе случайных блужданий обычно считают, что после- довательные переходы совершаются в моменты времени 1, 2, ... . Должно быть, однако, ясно, что это соглашение просто придает гармоничность описанию и что модель полностью независима от х) Согласно обычному словоупотреблению, 7Р — это «модифицированная» бесселева функция или бесселева функция «с мнимым аргументом». «Обыкно- венная» бесселева функция, всегда обозначаемая Jp , определяется добавле- нием множителя (—1)^ в правую часть (7.1). Наше использование названия бесселевой функции должно рассматриваться как сокращение, а не как ново- введение,
76 Гл, 1L Специальные плотности» Рандомизация времени. Настоящие случайные процессы с непрерывным временем получаются из обычных случайных блужданий в предположении, что интервалы времени между последовательными скачками яв- ляются независимыми случайными величинами с одной и той же плотностью е~*. Другими словами, моменты скачков регулируются пуассоновским процессом, а скачки сами по себе являются случай- ными величинами, принимающими значения 4-1 и —1 с вероят- ностями р и 9, независимо друг от друга и от пуассоновского процесса. Каждому распределению, связанному со случайным блужданием, соответствует некоторое распределение для процесса с непрерыв- ным временем, которое формально получается рандомизацией числа скачков. Чтобы увидеть процедуру в деталях, рассмотрим состояние процесса в заданный момент t. В исходном случайном блуждании п-й шаг приводит к состоянию тогда и только тогда, когда среди первых п скачков 4"(п + г) положительны и -|-(п—г) отрицательны. Это возможно, если только п—r — 2v четно. В этом случае вероятность состояния г точно после п-го скачка равна п 4 (п+г) r+2vV+V. r-|-v J (7-5) р 2 2 Для нашего пуассоновского процесса вероятность того, что вплоть до момента t произойдет ровно n = 2v4-r скачков, равна е~Чп1п\, и поэтому для нашего процесса с непрерывным временем вероят- ность состояния г>0 в момент t равна 0-Ё + /(Яг->Л(2/ЙО. (7.6) и мы приходим к двум заключениям. (i) Если мы определим I~r~Ir при г = 1, 2, 3, ..., тогда при фиксированных / > 0, р, q выражение М0 = Vr = 0, ±1, ±2, ... (7.7) представляет распределение вероятностей (т. е. аг^0, ^аг—\). (ii) В нашем случайном блуждании с непрерывным временем ar(t) равно вероятности состояния г в момент t. Две известные формулы для бесселевых функций являются непосредст- венными следствиями этого результата. Во-первых, если изменить обозначе- ния, полагая 2 Y pq t — x и р/д = и\ то тождество 2 аг (0 = 1 превращается в е2 =ф'/г(х), (7.8)
,5 7. Бесселевы функции и случайные блуждания 77 Это так называемая производящая функция для бесселевых функций (формула Шлемильха, которая иногда служит в качестве определения для /г). Во-вторых, из природы нашего процесса ясно, что вероятности аг (/) должны удовлетворять уравнению Колмогорова — Чепмена 00 аг (t + т) = У ak (/) ar. k (т), (7.9) k = — 00 которое отражает тот факт, что в момент t частица должна быть в некотором состоянии k и что переход из k в г эквивалентен переходу из 0 в г—k. Мы возвратимся к этому соотношению в гл. XVII, 3, [Его легко проверить не- посредственно, используя представление (7.6) и аналогичную формулу для вероятностей в случайном блуждании.] Уравнение Колмогорова—Чепмена (7.9) эквивалентно формуле Л-(Н-т)= 2 (7.10) k— — 00 которая известна как тождество К. Неймана. в) Первые прохождения Для простоты сосредоточим наше внимание на симметричных случайных блужданиях p^q — 1/^ Согласно 1, гл. III, (7.5), вероятность того, что первое прохождение через точку г > 0 про- изойдет во время скачка с номером 2п—г, равна г /2п—г\ 1 ] О-2« + Г 2п—Г\ п I п^г. (7.П) Случайное блуждание возвратно. Поэтому первое прохождение происходит с вероятностью единица, т. е. при фиксированном г величины (7.11) дают в сумме единицу. В нашем процессе момент &-го скачка имеет гамма-плотность заданную формулой (2.2). Отсюда следует, что момент первого прохождения через г > О распределен с плотностью 2u2n-r^ п [УМ • Р.12) (2п— г— 1) ! \ 2л— г J п! (п — г)! t r v v 7 Таким образом, (i) при фиксированном г = 1,2, ... выражение j vr(t) = e~l-j-Ir(t) (7.13)' определяет плотность вероятности, сосредоточенную на 0, оо. (ii) Момент первого прохождения через г > 0 имеет плот- ность vr. (См. задачу 15.) Этот результат позволяет сделать другие интересные заклю- чения. Первое прохождение через г + р в момент t предполагает предварительное первое прохождение через г в некоторый момент
78 Гл. II. Специальные плотности. Рандомизация s <t. Вследствие независимости скачков в интервалах времени О, s и s, t и свойства отсутствия последействия у показательного времени ожидания мы должны иметь vr*vp = yr+p. (7.14) [Проверка этого соотношения по формуле (7.12) .будет легкой, если использовать соответствующее свойство свертки для вероят- ностей (7.11).] Фактически утверждение (i) и соотношение (7.14) справедливы для всех положительных значений параметров г и р1). § 8. РАСПРЕДЕЛЕНИЯ НА ОКРУЖНОСТИ Полуоткрытый интервал 0, 1 можно рассматривать как изобра- жение окружности единичной длины, но предпочтительнее обер- нуть всю прямую вокруг окружности. Окружность тогда приоб- ретает ориентацию, а длина дуги изменяется от —оо до оо, но х, х±1, х±2, ... интерпретируются как одна и та же точка. Сложение происходит по модулю 1 (так же как сложение углов по модулю 2л). Плотность распределения вероятностей на окруж- ности есть периодическая функция <р^0 такая, что ' 1 J (p(x)dx=l. (8.1) о Пример, а) Задача Бюффона об игле (1777). Традиционная формулировка такова. Плоскость разбивается на параллельные полосы единичной ширины. Произвольным образом бросается на плоскость игла единичной длины. Какова вероятность, что игла ляжет на плоскости так, что заденет две полосы? Чтобы поставить задачу формально, рассмотрим сначала центр иглы. Его положение определяется двумя координатами, но у мы пренебрегаем, а х приводим по модулю 1. Таким образом, «центр иглы» превра- щается в случайную величину X, равномерно распределенную на окружности. Направление иглы может быть описано углом (изме- ренным по часовой стрелке) между иглой и х-осью. Поворот на угол л возвращает иглу в то же самое положение, и поэтому угол определяется с точностью до умножения на л. Обозначим рассматриваемый угол через 7л. В задаче Бюффона подразуме- вается, что X и Z — независимые равномерно распределенные на окружности единичной длины величины2). Если мы выбираем значения X между 0 и 1, а значения Z х) Feller W., Infinitely divisible distributions and Bessel functions asso- ciated with random walks. J. Soc. Indust. Appl. Math. (1966), 864—875. 2) Выборочное пространство пары (X, Z) есть тор,
§ 8. Распределения на окружности 79 между —г/2 и */2, то игла пересекает границу тогда и только тогда, когда у cos Zji >Х или ~cosZn>l—X. При данном значении z, —у < г < 4-, вероятность того, что X < — cos гл, равна вероятности того, что 1 — Х< ~ cos гл, а именно равна у cos гл. Поэтому искомая вероятность равна 1/2 J £озгл-б!г = у. (8.2) ► -1/2 Случайная величина X на прямой может быть преобразована по модулю 1 в величину °Х на окружности. Случайными величи- нами такого рода являются ошибки округления при численных подсчетах. Если X имеет плотность /, то плотность величины °Х равна *) ф(х)= 2/(*+«)• (8-3) — со Любая плотность на прямой, таким образом, индуцирует плот- ность вероятности на окружности. [В гл. XIX, 5, мы увидим, что та же самая функция ср допускает совершенно иное представ- ление в виде рядов Фурье. Частный случай нормальных плот- ностей см. в примере 5, д) гл. XIX.] Примеры, б) Задача Пуанкаре о рулетке. Рассмотрим число по- воротов колеса рулетки как случайную величину X с плотностью /, сосредоточенной на положительной полуоси. Наблюденный^ ре- зультат,' а именно точка °Х, против которой колесо останавли- вается, является величиной X, приведенной по модулю 1. Ее плотность дается формулой (8.3). Естественно ожидать, что «при обычных обстоятельствах» плотность °Х должна быть приблизительно равномерной. В 1912 г. А. Пуанкаре придал этой расплывчатой мысли форму предельной теоремы. Мы не будем повторять здесь его анализ, так как по- добный результат легко следует из (8.3). Подразумевается, конечно, что данная плотность, по существу, «расплывается» на длинный интервал, так что ее максимум т мал. Предположим для про- стоты, что f возрастает вплоть до точки а, где она достигает своего максимума m = f(a), и что f убывает при х>а. Тогда х) Читателям, которых беспокоит вопрос сходимости, следует рассмат- ривать только плотности /, сосредоточенные на конечном интервале. Если f монотонна при достаточно больших х и —х, но, очевидно, имеет место рав- номерная сходимость. Если не накладывать на / никаких ограничений, то ряд может расходиться в некоторых точках, то ф всегда представляет собой плотность, так как частные суммы в (8.3) образуют монотонную последова- тельность функций, интегралы которых стремятся к 1 (см, гл. IV, 2).
80 Гл. 1J. Специальные плотности. Рандомизация для плотности ф случайной величины °Х верно равенство + оо Ф(х)— 1 = 2/(х + п)— $ f(s)ds. (8.4) — 00 При фиксированном х обозначим через xk единственную точку вида х + п, такую, что a-\-k^xk + & + 1 Тогда формула (8.4) может быть переписана в виде оо xk+i ф(х) — 1= 2 J ff(xk)—f(s)]ds. (8.5) *=-" Хк При k — 1 подынтегральная функция «СО, и поэтому Ф (х) — 1 < f (а) 4- 2 [/ (xk) - f (xft+1)] С 2/ (а) = 2т. k=o Аналогичные аргументы доказывают, что ф(х) — 1^> — т. Таким образом, |ф(х) — 11 < 2m, и, следовательно, ф действительно при- ближенно постоянна. Условия монотонности были наложены на плотность только ради простоты изложения и могут быть ослаблены многими спо- собами. [Хорошие достаточные условия могут быть получены при- менением формулы суммирования Пуассона, гл. XIX, (5.2).] в) Распределение первых значащих цифр. Известный ученый, прикладной математик, имел громадный успех в заключаемых им пари на то, что число, выбранное наугад в Farmer’s Almanac или Census Report или в подобном компендиуме, будет иметь первую значащую цифру меньше 5. Наивно предполагается, что все де- вять цифр равновероятны; в этом случае вероятность того, что цифра не превосходит 4, будет равна 4/9. Практически1) она близка к 0,7. Рассмотрим дискретное распределение вероятностей, приписы- вающее цифре k вероятность pk = Log (k + 1) — Log k (где Log обо- значает логарифм по основанию 10 и k = l, . ..,9). Эти вероят- ности равны приближенно Р1 = 0,3010 р 2 = 0,1761 р3 = 0,1249 р4 = 0,0969 рб = 0,0792 р6 = 0,0669 Р1 = 0,0580 р8 = 0,0512 р9 = 0,0458 Распределение заметно отличается от равномерного распре- деления с весами -1 = 0,111... . х) Эмпирические данные см. в статье: Benford F., The law of anomalous numbers, Proc. Amer. Philos. Soc., 78 (1938), 551—572.
$ 9. Задачи 81 Мы теперь покажем (следуя Р. С. Пинкхэму), что распреде- ление {рк} правдоподобно как эмпирическое распределение пер- вой значащей цифры числа, выбранного наугад из большой сово- купности физических или наблюденных данных. Действительно, такое число может быть рассмотрено как случайная величина Y > 0 с некоторым неизвестным распределением. Первая значащая цифра Y равна k тогда и только тогда, когда 10"£ Y < 10й (k 4-1) при некотором п. Для случайной величины X = Log Y это озна- чает, что n-f-Logfes^X <n + Log(6-|-l). (8.6) Если размах Y очень велик, то распределение случайной вели- чины °Х, которая есть X, приведенная по модулю, является при- ближенно равномерным. Тогда вероятность неравенства (8.6) близка к Log(/s4-l) — Logk = pk. > Формула свертки (1.5) и умозаключения, приводящие к ней, остаются справедливыми в случае, когда сложение производится по модулю 1. Таким образом, свертка двух плотностей на ок- ружности длины 1 есть плотность, определяемая формулой 1 “>(*) = $ fl (х—у) f2 (у) dy. (8.7) о Если Xj и Х2 —независимые величины с плотностями Д и /2, то Xi-f-Xg имеет плотность w. Так как эти плотности —периодические функции, свертка равномерной плотности с любой другой плот- ностью является равномерной. (См. задачу 16.) § 9. ЗАДАЧИ 1. Покажите, что нормальное приближение для биномиального распреде- ления, выведенное в 1, гл. VI , позволяет обосновать формулу свертки (1.7) для нормальных плотностей. 2. Используя подстановку х— г/2, докажите, что г(4)==я1/2- 3. Формула удвоения Лежандра. Из формулы (2.5) при p = vвывести, что Г (2^ = -^22V-1 г (V) Г ( v+4) . К л \ z / Указание. Используйте подстановку 4 (у—y2)=s в интервале 0 < у < 1/2. 4. Пусть g (х) s=s — х I. Найдите свертки g # g и g а также g4 * * 5. Пусть X и Y — одинаково распределенные независимые случайные ве- личины с плотностью Коши Yi(x), определенной по (4.5). Докажител что про- V х? П О In I х I изведение XY имеет плотность 2jx~2——J-,
82 Гл. 11. Специальные плотности. Рандомизация Указание. Для вычисления не требуется ничего, кроме соотношения а—1 _ 1________1 (1+ s) s) 1+ s а + s 6. Пусть Н > 2 1 * Х л ех^-е~х' Докажите тогда, что двумя способами: а) рассматривая величины In | X | и In | Y | в обстановке пре- дыдущей задачи; б) непосредственно при помощи подстановки e2y = t и раз- ложения на элементарные дроби. (См. задачу 8 в гл. XV, 9.) 7. Если X имеет нормальную плотность п, то очевидно, что X”2 имеет устойчивую плотность (4.8). Используя это, покажите, что если X и Y — не- вависимые нормально распределенные величины с нулевым математическим ожиданием и дисперсиями of и of, то величина Z = XY/}^X2 +Y2 нормально распределена с дисперсией о2, такой, что 1/о3= 1/о±+ 1/о2 (Л. Шепп). 8. Пусть величины Xi, ..., Хп независимы и X(W) — наибольшая среди них. Покажите, что если Ху имеют а) плотность Коши (4.5), то ' Р {п-'Х^^х} > х > 0; б) устойчивую плотность (4.8), то Р{п-2Х(„)<х}->е-“Г2/(ях) , х > 0. 9. Пусть величины X и Y независимы с плотностями f и g, сосредото- ченными на 0, оо. Если Е(Х) < оо, то отношение Х/Y имеет конечное мате- матическое ожидание тогда и только тогда, когда 1 + §(//) < «>• о 10. В примере 5, в) найдите плотность распределения времени ожидания следующей разгрузки'. а) если в момент 0 система обслуживания свободна; б) в условиях стационарного состояния. 11. В условиях примера 5, г) покажите, что 1 -х Е(Тх)=Е(х) (и+1—Х)+ J tf(t+x)dt, о где есть математическое ожидание F. Используя это, проверьте утвержде- ние относительно Е (Т), когда х распределено равномерно. 12. В примере 5, г) найдите распределение времени ожидания, когда f (f) = 1 для 0 < t < 1. 13. В примере 6, в) предположим, что и есть бета-плотность, определен- ная в (4.2). Выразите условную вероятность (6.3) через биномиальные коэф- фициенты. 14. Пусть X и Y независимы и подчинены распределению Пуассона с од-J
§ 9. Задачи 83 ним и тем же параметром: Р {X = п} = e~ttn/fil. Покажите, что P{X-Y = r} = e-2V|r|(20, г = 0, ±1, ±2, * [См. задачу 9 гл. V, 11.] 15. Результаты § 7, в) остаются справедливыми для несимметричных случай- ных блужданий при условии, что вероятность первого прохождения через г > 0 равна единице, т. е. при условии p^q. Покажите, что единственное изменение в (7.11) состоит тогда в том, что 2~2п+г заменяется на pnqn~rt а вывод таков: при p^q и г=1, 2, ... определяет плотность вероятности, сосредоточенную на 0, оо. 16. Пусть X и Y — независимые случайные величины, а °Х и °Y те же величины, приведенные по модулю 1. Покажите, что величина X + Y при- водится по модулю 1 к °X-|-0Y. Непосредственным вычислением проверьте соответствующую формулу для сверток.
ГЛАВА m МНОГОМЕРНЫЕ ПЛОТНОСТИ. НОРМАЛЬНЫЕ ПЛОТНОСТИ И ПРОЦЕССЫ По понятным причинам многомерные распределения встре- чаются реже, чем одномерные распределения, и материал этой главы почти не будет играть роли в последующих главах. С дру- гой стороны, глава содержит важный материал, например извест- ную характеризацию нормального распределения и методы, при- меняемые в теории случайных процессов. Истинная природа этих методов становится более понятной, если отделить их от услож- ненных задач, с которыми они иногда связываются. § 1. ПЛОТНОСТИ В ходе дальнейшего изложения будет очевидно, что число из- мерений несущественно, и лишь ради типографских удобств мы будем иметь дело с декартовой плоскостью 5Z2. Мы связываем с плоскостью фиксированную систему координат с координатными величинами Xv Х2 (более удобное однобуквенное обозначение бу- дет введено в § 5). Неотрицательная интегрируемая функция /, заданная в «й2 и такая, что ее интеграл равен единице, называется плотностью вероятности или просто плотностью. (Все плотности, встречаю- щиеся в этой главе, кусочно-непрерывны, и поэтому их интегри- руемость не требует разъяснений.) Плотность f приписывает об- ласти Q вероятность Р (й) = f (Xj, х2) dxxdx2 (1.1) при условии, конечно, что область Q достаточно регулярна для того, чтобы интеграл существовал. Все такие вероятности одно- значно определяются через вероятности, соответствующие прямо- угольникам, параллельным осям, т. е. ь2 Р {^1 < -^1 » ^2 < 2 ^2 } = f (-^1» ^2) 1 * 2) при всех комбинациях Полагая а1 = а2 ——оо, мы полу- чим функцию распределения F, а именно F (х1У x^PjX^x,, Х2^х2}. (1.3)
§ 1. Плотности 85 Очевидно, что F (Ь1У х2) — F (а^ х2) представляет собой вероят- ность, соответствующую полубесконечной полосе шириной Ь±—ait и так как прямоугольник в (1.2) выражается разностью двух та- ких полос, то вероятность (1.2) равна так называемой смешан- ной разности F(blt b2) — F(a1, bJ — Ffh, a2) + F(ait a2). Отсюда следует, что по функции распределения F однозначно определяются все вероятности (1.1). Несмотря на формальную аналогию с прямой линией, понятие функции распределения на плоскости гораздо менее полезно, поэтому лучше сосредоточиться на задании вероятностей (1.1) в терминах плотности. Это зада- ние отличается от совместного распределения вероятностей двух дискретных случайных величин (1, гл. IX, 1) в двух отношениях. Во-первых, суммирование заменено интегрированием, и, во-вторых, вероятности теперь приписываются лишь «достаточно регулярным областям», тогда как в дискретных выборочных пространствах всем множествам соответствовали вероятности. Так как в настоящей главе рассматриваются простые примеры, в которых это различие едва уловимо, понятия и термины дискретной теории переносятся на новый случай в понятной форме. Так же как и в предыдущих главах, мы используем поэтому вероятностный язык без всякой попытки привлечения общей теории (которая будет изложена в гл. V). L. Из (1.3) очевидно, что1) P{X1^x1}^F(xlf оо). (1.4) Таким образом, F1(x)^ - F (х, оо) определяет функцию распределе- ния величины Хх, а ее плотность равна + <» А(*) = $ Н*. y)dy. (1.5) — оо Если желательно подчеркнуть связь между Xf и парой (Хх-, Х2), мы говорим об У7! как о маргинальном (частном) распределении2) и об /j как о маргинальной (частной) плотности. Математическое ожидание и дисперсия а? величины Х1? если они существуют, даются следующими формулами: + ао+оо fi1 = E(Xi)= J J xj (%j, х2) dx±dx2 (1.6) х) Здесь и в дальнейшем U (oo) = lim U (х) при х—> оо, и использование символа U (оо) подразумевает существование пределав 2) Другой принятый термин: проекция на ось.
86 Гл. 111. Многомерные плотности. Нормальные плотности и процессы и + оо + со oJ = Var(X1)= $ J (*i—Hi)2/(*1» xJdXjdx^ (1.7) — 8 - со По симметрии эти определения применимы также и к Х2. Нако- нец, ковариация Xt и Х2 равна + 00 + со Cov (Хх, Х2)== (хх Hi) (х2 На) f (*^1» х^) dx^dx2. — СО — 00 Нормированные величины Х/j?1 безразмерны, и их ковариация, а именно р = Cov (Xi, Х2)огЧ-\ есть коэффициент корреляции Хх и Х2 (см. 1, гл. IX, 8). Случайная величина U—это функция координатных величин Хх и X 2; здесь мы снова рассматриваем только такие функции, что вероятности P{U^Z} могут быть выражены интегралами вида (1.1). Таким образом, каждая случайная величина будет иметь единственную функцию распределения, каждая пара будет иметь совместное распределение и т. д. Во многих ситуациях выгодно переменить координатные вели- чины, т. е. приписать величинам Yx, У2 роль, ранее предназна- ченную для Хх, Х2. В простейшем случае величины Yy опреде- ляются линейным преобразованием Хх — аи Yx a12Y2 Х2 = a2i Yx -f- a22 Y2 0*9) с детерминантом Л = б71Х«22—я12<721->0. Обычно преобразование вида (1.9) можно описать или как отображение одной плоскости на другую, или как изменение координат в той же самой пло- скости. Производя замену переменных (1.9) в интеграле (1.1), мы получаем Р f (РцУ1 "Та-^Уъ* ^21У1 “J" ^22%) ’^dy-jdy2t (1.10) где область содержит все точки (yi9 у2\ образ которых (хх, х2) принадлежит Q. Так как события (Хх, X2,)gQ и (Yx, Y2)£^* идентичны, ясно, что совместная плотность (YXY2) равна g(yi. Уг) = НаиУ1 + а12У2, а2,у±-]-аму2)-\. (1.11) Все это в равной степени справедливо и при большем числе из- мерений. Подобные аргументы применимы к более общим преобразова- ниям с той лишь разницей, что детерминант Д заменяется яко- бианом. Мы будем использовать явно только переход к полярным координатам Хх == R cos 0, Х2 = R sin 0, (1,12}
§ 1. Плотности 87 Где пара случайных величин (R, 0) ограничена условиями R О, л<0^л. Плотность пары (R, 0) равна g(r, 0)=/(rcos0, г sin 0) г. (1.13) В пространстве трех измерений используются географические дол- гота ср и широта 0(—л<ф^л и Тогда координатные величины выражаются в полярной системе следую- щим образом: Хх — R cos Ф cos0, Х2 = R sin Ф cos 0, X3 = Rsin0. (1.14) Их совместная плотность записывается как g*(r, ф, 0) — f (г cos ф cos 0, г sin ф cos 0, г sin 0) г2 cos 0. (1.15) При преобразовании (1.14) «плоскости» О= —и 0=-|-л со- ответствуют полуосям оси х3, но эта вырожденность не играет роли, так как эти полуоси имеют нулевую вероятность. Анало- гичное замечание можно сделать и в отношении начала коорди- нат для полярной системы на плоскости. Примеры, а) Независимые случайные величины, В предыдущих главах мы рассматривали независимые случайные величины Хх и Х2 с плотностями Д и /2. Это равносильно определению двумер- ной плотности равенством /(л\, х2) = (xj f2 (*2), где // — марги- нальные плотности. б) «Случайный выбор». Пусть Г — ограниченная область; пред- положим для простоты, что Г —выпуклая область. Обозначим Площадь Г через у. Пусть теперь функция / равна у""г внутри Г й 0 вне Г. Тогда / является плотностью, и вероятность, соот- ветствующая любой области НсГ, равна отношению площадей Q й Г. По очевидной аналогии с одномерным случаем мы будем го- ворить, что пара (X*, Х2) распределена равномерно в Г. Марги- нальная плотность Х£ в точке с абсциссой равна ширине об- ласти Г в этой точке в очевидном смысле этого слова. (См. за- Дачу 1.) в) Равномерное распределение на сфере. Единичная сфера S в пространстве трех измерений может быть описана при помощи Географических долготы ф и широты 0 равенствами = COS ф COS 0, Х2 = sin ф COS 0, *3 = sin0. (1.16) Каждой паре (ф, 0), такой, что —л<ф^л, —7^<0<уЯ, Соответствует здесь ровно одна точка на сфере, и каждую точку S, исключая полюса, можно получить таким путем. Исключи- тельность полюсов не должна нас беспокоить, так как им соот- ветствует нулевая вероятность. Область Q на сфере определяется своим образом на (ф, 0)-плоскости, и, следовательно, площадь Q £авна интегралу от соз0йфй0 по этому образу [см. (1.15)]. Для
88 Гл. 7П, Многомерные плотности. Нормальные плотности и процессы описания мысленного эксперимента, заключающегося в «случайном выборе точки на 2», мы должны положить 4лР (Q) == площадь Q. Это эквивалентно определению в (ср, 0)-плоскости плотности g(q>. 0) = -^-COS0 при —ЗТ<ф^Л, О при других ф и 9. 101<2Я’ (1Д7) При таком определении координатные величины независимы и дол- ----------------------------------1 гота распределена равномерно на —л, л. Идея перехода от сферы 2 к (ф, 0)-плоскости хорошо знакома нам по географическим картам и полезна для теории вероят- ностей. Заметим, однако, что координатные величины в значи- тельной степени произвольны и их математические ожидания и дисперсии ничего не значат для первоначального мысленного экс- перимента. г) Двумерная нормальная плотность. Многомерные нормаль- ные плотности будут введены более систематично в § 6. Оправ- дание преждевременному появлению двумерного случая в том, что тем самым обеспечивается более легкий подход к нему в даль- нейшем. По очевидной аналогии с нормальной плотностью и из П, (1.6), можно записать плотность вида ce~<i где q(xt, х2)= == агХ1 + 2bxrx2 -j- а2х%. Нетрудно видеть, что функция будет интегрируемой тогда и только тогда, когда ага2—Ь2>0 и «1, а2 > 0. Для целей теории вероятностей предпочтительнее вы- разить коэффициенты ai и b в терминах дисперсий и определить двумерную нормальную плотность, центрированную в начале координат как ф(Х1’ %2)==2ЯО1О2^ 1-р2еХр ~2(1-р*)(д_2Р7Й+-^ ’ (1.18) где Qj > 0, а2>0 и —1 <р<1. Интегрирование по х2 легко выполняется с помощью подстановки /=——р~~ (дополнение а2 ai до полного квадрата). Видно, что ф действительно представляет плотность в ий2. Кроме того, становится очевидным то, что мар- гинальные распределения Xf и Х2 снова нормальных) и что E(Xz) = 0, Var(Xz) = Qf, Соу(Х£, Х2) = ра1а2- Иными словами, р есть коэффициент корреляции Xf и Х2. Заменяя xt на Xt—Ci х) Вопреки широко распространенному мнению существуют не являю- щиеся нормальными двумерные плотности с нормальными маргинальными плот- ностями (два типа описаны в задачах 25 3, еще два — в задачах 5 и 7 из гл. V, 12). Для того чтобы иметь дело с нормальными плотностями, ста- тистики иногда вводят новые координатные величины Yi = gi (Xj), Y2 = g2(X2), которые распределены нормально. При этом, увы, совместное распределение (Yi, YJ не является нормальным.
§ 1. Плотности 89 в (1.18), мы приходим к нормальной плотности, центрированной в точке (Ci, с2). Важно то, что линейное преобразование (1.9) переводит нор- мальное распределение в другое нормальное распределение. Это оче- видно из определения и формулы (1.11). [Продолжение см. в при- мере 2, а).] д) Симметричное распределение Коши в Положим и (хг, х2) == 2^ * /• 2—2— • (1’19) V (1+^+х2)3 Чтобы удостовериться, что это есть плотность, заметим1), что + СО f и (Х,, у) dy — ---—2 • —f — +“ =— . J—у . (1.20) А 2« 1+4 К1+4+^ я 1+^ Отсюда следует., что и является плотностью и что маргинальная плотность X, не что иное, как плотность Коши у, из гл. II, (4.5). Очевидно, что величина X, не имеет математического ожидания. При переходе к полярным координатам [как в (1.12)] видим, что плотность R не зависит от 0, и поэтому величины R и 0 стохастически независимы. Следуя терминологии гл. I, 10, мы можем тогда сказать, что имеющая симметричное распределение Коши пара (Х„ Х2) изображает вектор со случайно выбранным направлением длины R, плотность которой равна откуда Р {R С г} — 1 —И(1+ г2)-1. [Продолжение в примере 2, в).] е) Симметричное распределение Коши в 91\ Положим / ч 1 1 О (хп х2, Хо) = -V . --з--5---т- . я (l+xj+4+хз)8 Легко видеть2), что маргинальная плотность (Xi9 Х2) является симметричной плотностью Коши и из (1.19). Маргинальная плот- ность Хх есть поэтому плотность Коши (Продолжение в за- даче 5.) > Хотя это и не используется явно в последующем, но мы должны отметить, что свертки можно определить так же, как и в одномерном случае. Рассмотрим две пары (Хъ Х2) и (Yt, Y2) с совместными плотностями f и g соответственно. Утверждение о том, что две пары независимы^ означает, что мы берем четырех- мерное пространство с четырьмя координатными величинами Х£1 Х2, Yn Y2 в качестве выборочного пространства и определяем в нем плотность произведением f(x1T x2,)g(yir у2). Так же как *) Подстановка y~V l+*i tg t облегчает вычисление* 2) Используя подстановку z = K l+xi+^atg/.
90 Гл. 111. Многомерные плотности. Нормальные плотности и процессы в тогда легко видеть, что совместная плотность v суммы (X1 + Y1, X2 + Y2) задается формулой свертки + со + со v(zn Z2)= $ $ — z2 — x2)g(xt, xJdXtdXtf (1.22) — oo — co которая является очевидным аналогом формулы гл. I, (2.12). (См. задачи 15—17.) § 2. УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ Предположим, что пара (Xf, Х2) имеет' непрерывную плот- ность f и что маргинальная плотность величины X* строго положительна. Рассмотрим условную вероятность события Х2^ц при условии, что ё<Х1^£+/г, а именно £+ h ч dx f (х, у) dy Р{Х2<П|^<Х1-<ё + /1} = -1_^-------------. (2.1) j fl W dx В Деля числитель и знаменатель на й, устанавливаем, что при А—> —>0 правая часть стремится к ч ^(п)=О) J Z(g’ y}dy- (2 2) При фиксированном | это функция распределения по т] с плот- ностью = П). (2.3) Мы называем щ. условной плотностью величины Х2 при условии, что Xi — Z- Условное математическое ожидание Х2 при условии, что Х1 = £, определяется как + 00 Е (Х21 Xj = g) = J yf (£, у) dy (2.4) в предположении, что интеграл сходится абсолютно. Если рас- сматривать % как переменную величину, то правая часть есть функция от В частности, отождествляя % с координатной вели- чиной Хп получим случайную величину, называемую регрессией Х2 на Xj и обозначаемую Е (Х21 Хх). Присутствие Х2 не должно затемнять тот факт, что эта случайная величина является функ- цией одной переменной Xf [ее значения даются формулой (2.4)]. До сих пор мы предполагали, что (g) > 0 для всех Выра-
J 2. Условные распределения 91 жение (2.4) не имеет смысла при /*(£) = (), но множество таких точек имеет вероятность нуль, и мы условимся интерпретировать (2.4) как нуль во всех точках, где обращается в нуль. Тогда Е (Х21XJ определено всякий раз, когда плотность непрерывна. (В гл. V,9 —11, условные вероятности будут введены для про- извольных распределений.) Излишне говорить, что регрессия E(XJX2) величины Xj на Х2 определяется подобным же образом. Кроме того, условная дис- персия Var(X2|X1) определяется по очевидной аналогии с (2.4). Эти определения переносятся на случаи большего числа изме- рений, за тем исключением, что плотность в 5i3 порождает три двумерные и три одномерные условные плотности. (См. задачу 6.) Примеры, а) Нормальная плотность. Для плотности (1.18), очевидно, имеем г ( Ос> "1 иг. (у) = —^==== exp------------1—4— , (2.5) ' И2л(1- р2)о22 L 2(1—р2)о| J ’ что представляет собой нормальную плотность с математическим ожиданием р|^ £ и дисперсией (1—р2) о2. Таким образом, Е(Х2|Х1) = р^Х1, Var (Х21 XJ = (1 —р2) (2.6) Одним из приятных свойств нормального распределения является то, что регрессии—линейные функции. Возможно, самым ранним применением этих соотношений мы обязаны Гальтону, и одним из его примеров можно проиллюстри- ровать их эмпирическое значение. Предположим, что Хх и Х2 характеризуют рост (измеренный по отклонению от среднего в дюймах) соответственно отцов и сыновей в некоторой популяции. Рост случайно выбранного сына есть тогда нормальная случайная величина с математическим ожиданием 0 и с дисперсией о2. Од- нако в подпопуляции сыновей, отцы которых имеют фиксирован- ный рост рост сыновей представляется нормальной величиной с математическим ожиданием р —? и дисперсией а|(1—р2) < о2. Таким образом, регрессия Х2 на Xf показывает, как много ста- тистической информации относительно Х2 содержится в наблю- дении над Xv б) Пусть случайные величины Xf и Х2 независимы и равно- мерно распределены на 0, 1. Обозначим через Х(1) и Х(2) соот- ветственно наименьшую и наибольшую среди этих величин. Пара (Х(1), Х(2)) имеет плотность, которая тождественно равна 2 внутри треугольной области 0 х2 1 и равна 0 во всех других точках плоскости. Интегрируя по переменной х2, выводим, что маргинальная плотность Х(1) есть 2(1—xj. Плотность условного
92 Гл. HI. Многомерные плотности. Нормальные плотно'ЫНи, и процессы распределения Х(2) при условии, что X(i) = Xi, равна, следова- тельно, постоянной 1/(1—xj внутри интервала xif 1 и равна нулю вне этого интервала. Иными словами, при условии, что X(f) при- нимает значение xi9 случайная величина Х(2) равномерно распре- делена на xi9 1. в) Распределение Коши в 91*. Для двумерной плотности (1.19) маргинальная плотность Xi задается формулой (1.20), и поэтому условная плотность Х2 при данном Х£ равна (у) = ±. r 1 + g2 =. (2.7) Заметим, что «g отличается от плотности ы0 (у) только масштаб- ным множителем Ki ~t*£2> и поэтому все плотности «g принадлежат одному и тому же типу. Условных математических ожиданий в этом примере не существует. (См. задачу 6.) > В терминах условных плотностей (2.3) функция распределения величины Х2 принимает вид у +QO P(X2<t/}=j $ (2.8) — ОО —00 Иными словами, распределение Х2 получается посредством ран- домизации параметра g в условных плотностях и^9 и поэтому каждое1) распределение может быть представлено в виде смеси. Несмотря на эту теоретическую универсальность, имеется боль- шое различие в положении «ударения». В некоторых ситуациях, таких, как в примере а), начальным является двумерное распре- деление для (Xj, Х2), а затем выводятся условные распределения, тогда как при истинной рандомизации условные вероятности их являются исходным понятием и плотность /(х, у) фактически определяется как t^G/) А (х). (Эта процедура определения веро- ятностей в терминах условных вероятностей объяснялась элемен- тарным путем в 1; гл. V, 2.) § 3. ВОЗВРАЩЕНИЕ К ПОКАЗАТЕЛЬНОМУ И РАВНОМЕРНОМУ РАСПРЕДЕЛЕНИЯМ Задача этого параграфа в том, чтобы дать примеры-иллюстра- ции к предыдущим параграфам и в то же время дополнить теорию первой главы. Примеры, а) Характеристическое свойство показательного распределения. Пусть Xf и Х2—две независимые случайные вели- чины с плотностями /х и /2. Обозначим плотность их суммы S == *) Мы рассматривали до сих пор непрерывные плотности. Общий случай будет разобран в гл. V,9. Понятие рандомизации обсуждалось в гл4 IIа 5,
$ 3. Показательное и равномерное распределение 93 = ХТ + Х2 через g. Пары (Xf, S) и (Xf, Х2) свЯзаны лилейным преобразованием Х1 = Х1, X2 = S—X* с детерминантом 1, и сов- местная плотность пары (Xf, S) по формуле (1.11) равна Х(х)х Xf2(s—Интегрируя по всем х, мы получаем маргинальную плотность g суммы S. Условная плотность us величины Хх при условии, что S = s, удовлетворяет соотношению (3.1) Для частного случая показательных плотностей Д (х) = /2 (х) =* = (х > 0) мы получаем us (х) = s’"1 при 0 < х < s. Иными словами, при условии, что Xx + X2 = s, случайная величина Xf распределена равномерно на интервале 0, s. Образно говоря, знание того, что S = s, не дает нам никакой информации о возможном положении случайной точки Хх внутри интервала 0, s. Этот ре- зультат согласуется с представлением о полной случайности, свой- ственной показательному распределению. (Более сильный вариант содержится в примере г). См. также задачу 12.) б) Случайные разбиения интервала. Пусть Хх, Х„— п точек выбранных независимо и наудачу в (одномерном) интер- вале 0, 1. Как и прежде, мы обозначим через Х(1), Х(2), ..., Хи) случаные точки Хх, ..., Хи, расположенные в возрастающем порядке. Эти точки делят интервал 0, 1 на п 4-1 подынтервалов, которые мы обозначим /х, /2, ...» /п+х, пронумеровав их слева направо, так что Х(/) является правым концом интервала /у. В первую очередь мы вычислим совместную плотность (Х(1), ... .... Х(в)). Выборочное пространство, соответствующее (Хх, ..., XJ, пред- ставляет n-мерный гиперкуб Г? 0<хл<1, а вероятности равны (n-мерному) объему. Естественное выборочное пространство, где где Хш—координатные величины, есть подмножество QczT, со- стоящее из всех точек, таких, что 0 < хх хп < 1. Объем Q равен 1/и! Очевидно, что гиперкуб Г содержит п\ конгруэнтных «копий» множества Q, и в каждой из них упорядоченная строка (Х(х), .Х(п) совпадаете фиксированной перестановкой вели- чин Хх, ..., Хп. (Внутри Г, в частности, X(ft, = XA.) Вер оят- ность того, что Ху==ХА: для некоторой пары /=#£, равна нулю, а только это событие вызывает перекрытия между различными «копиями». Отсюда следует, что для любого подмножества XczQ вероятность того, что (Х(1), .Х(72)) принадлежит А, равна вероятности того, что (Хх, ..., XJ принадлежит одной из п! «копий» А, а эта вероятность в свою очередь равна умножен- ному на п\ объему А. Таким образом, вероятность Р{(Х(1), ... ..., Х(п))£Л} равна отношению объемов А и Q, а это означает, что строка (Х(1), Х(л)) распределена равномерно на мно-
94 Гл. III. Многомерные плотности. Нормальные плот ноет и и про цессы жестве Q. Совместная плотность величин этой строки равна п\ внутри Q и нулю вне Q. Из совместной плотности (Х(1), .. , Х(/2)), предполагая xk фиксированным и интегрируя по всем оставшимся переменным, можно вычислить плотность Х^. Легко видеть, что этот резуль- тат согласуется с формулой для плотности, вычисленной дру- гими методами в гл. I, (7.3). Этот пример был рассмотрен детально в качестве упражнения в обращении с многомерными плотностями. в) Распределение длин. В обстановке предыдущего примера обозначим длину &-го интервала Ik через U^,. Тогда Ui = X(i)> иА = Хш-Х(А_п £ = 2,3, (3.2) Это не что иное, как линейное преобразование типа (1.9) с де- терминантом 1. Множество Q точек 0 < хг хп < 1 отобра- жается в множество Q* таких точек, что uf 0, t/x + ... + ип < < 1, и, следовательно, строка (Ux, ..., U„) распределена равно- мерно в этой области. Этот результат сильнее ранее установлен- ного факта, что величины одинаково распределены [пример 7,6) из гл. I и задача 13 из гл. I]. г) Еще раз о случайности показательного распределения. Пусть Хх, ..., Хд+х независимы и одинаково распределены с плотностью ПрИ х>0. Положим Sy = Хх+ ... +Ху. Тогда строка (Sx, S2, ..., S„+1) получается из (Хх, ...» Хп+1) линейным преобра- зованием типа (1.9) с детерминантом 1. Обозначим через Q «октант», состоящий из точек %у>0 (/ = 1, ..., п + 1). Плотность (Хх, ... ..., Хл+1) сосредоточена на й и равна (Х1+...+хп+1), если %у>0. Величины Sf, ..., Sn+i отображают Q на область Q*, определяемую неравенствами 0 < sx $2 ^... ^ s„+f < оо, и [см. (1.11)] внутри Q* плотность (Sx, .. • * Stt+1) равна a,z+1e~asn+i. Маргинальная плотность S„+f есть не что иное, как гамма-плот- ность an+1sne-asln\, и, следовательно, условная плотность строки (Sx, ..., SJ при условии, что Sn+1 = s, равна п\ s~n при 0< <sx <...<$„ <s (и нулю в других случаях). Иными словами, при условии, что S„+1 = s, величины (Sx, ..., SJ равномерно распределены в области их возможных значений. Сравнивая это с примером б), мы можем сказать, что при условии Sn+1 = s вели- чины (Sx, ..., Sn) изображают п точек, выбранных независимо и наудачу в интервале 0, s и занумерованных в их естественном порядке слева направо. д) Другое распределение, связанное с показательным. Имея в виду последующее неожиданное применение, мы дадим еще один пример преобразования. Пусть снова Хх, ..., X—незави- симые величины, имеющие одинаковое показательное распреде- ление и Sn = Хх + ... + Хп. Определим величины Ux, ...» U„
§ 3. Показательное и равномерное распределения 95 следующим образом: = при k = \, .n—1, U„ = S„, (3.3) или, что равносильно, Х^ = и,еи„ при /г = 1, /г—1, . Xn = U„ (1 —Uj—... — ’ Якобиан преобразования (3.4) равен U^-1. Совместная плотность (Хь .... Х„) сосредоточена в области Q, определяемой неравен- ствами > О, и внутри ее эта плотность равна апе~а^ + -+х^. Отсюда следует, что совместная плотность (ип ..., UJ равна в области Q*, определенной неравенствами .. + un_i < 1, ик > 0, А —1, ..., п, и равна нулю вне Q*. Интегрирование относительно ип показы- вает, что совместная плотность (ип ..., равна (п—1)! в Q* и нулю в других случаях. Сравнивая с примером в), мы видим, что (Vi, .... U„_J имеет такое же распределение, как если бы величина была длиной k-го интервала при случайном разбиении интервала 0, 1 набором п—1 точек. е) Критерий значимости в анализе периодограмм и теорема о покрытии. Практически любая непрерывная функция времени t может быть приближена тригонометрическим полиномом. Если эта функция представляет собой выборочную функцию случайного процесса, то коэффициенты становятся случайными величинами и аппроксимирующий полином может быть записан в виде п п S (Xvcoscov t + Yvsin(ovZ) = 5 Rvcos(cov/—(pv), (3.5) V=1 V=1 где Ry = Xv+Y^ и tg <pv = Yv/Xv. Обратно, разумные предполо- жения относительно случайных величин Xv, Yv приводят к слу- чайному процессу с выборочной функцией, задаваемой (3.5). В свое время было модным вводить модели такого рода и открывать «скрытую периодичность» для солнечных пятен, цен на пшеницу, поэтического творчества и т. д. Подобные скрытые периодичности отыскивали с такой же легкостью, как ведьм в средневековье. Но даже сильная вера должна быть подкреплена статистическим критерием. Грубо говоря, метод заключается в следующем. Три- гонометрический полином вида (3.5) с как-то выбранными часто- тами (оп ..., (о„ сравнивается с некоторыми результатами наблю- дений. Допустим, что при этом обнаруживается особенно большая амплитуда Rv. Желательно доказать, что это не может быть слу- чайным и, следовательно, что <ov — истинный период. Для про- верки этого предположения выясним, правдоподобно ли совме- стить большое наблюденное значение Rv с гипотезой, что все п
96 Гл. IIМногомерные плотности. Нормальные плотности и процессы компонент играют одинаковую роль. В соответствии с этим пред- полагается, что коэффициенты Хь ..., У„ взаимно независимы и имеют одинаковое нормальное распределение с нулевым мате- матическим ожиданием и дисперсией а2. В этом случае (см. II, 3) величины Rv взаимно независимы и имеют одно и то же показа- тельное распределение с математическим ожиданием 2о2. Если наблюденное значение «значимо» отклонилось от ожидаемого, то мы приходим к заключению, что гипотеза об одинаковой роли компонент была несостоятельна и R2 отражает «скрытую перио- дичность» . Ошибочность этих соображений была раскрыта Р. А. Фишером (1929). Он отметил, что максимальный из результатов п незави- симых наблюдений не подчиняется тому же самому распреде- лению вероятностей, которое имеет каждый из них в отдельности. Ошибка в такой статистической трактовке худшего случая, как будто он выбирался случайно, до сих пор распространена в меди- цинской статистике, но причиной обсуждения этого вопроса здесь является неожиданная и занятная звязь критерия значимости Фишера с теоремами о покрытии. Так как важны только отношения компонент, то мы норми- руем коэффициенты, полагая 1 R1+.-. + R» ’ (3.6) / — С • • •» я. Поскольку R; имеют одно и то же показательное распределение, мы можем использовать предыдущий пример g X? = R-. Тогда Vx-Ut, .... V^iXsU^f, но Vn=xl —и,——U„_t. Соответ- ственно строка (Vj, Vп) распределена так, как если бы Vt были длинами п интервалов, на которые разбивается интервал О, 1 при случайном расположении в нем п—1 точек. Вероят- ность того, что все Vу будут меньше а, задается формулой гл. I, (9.9) теоремы о покрытии. Этот результат иллюстрирует факт неожиданных отношений между на первый взгляд не свя- занными задачамих), ► § 4* *). ХАРАКТЕРИЗАЦИЯ НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ Рассмотрим невырожденное линейное преобразование коорди- натных величин Y J Y 2 !== $21^4 ^22^2 (4*1) 1) Фишер получил распределение максимальной из величин Vy^B 1929 г, без знания теоремы о покрытии, а в 1940 г. объяснил связь с теоремой о покры- тии, после того как Стивенс доказал последнюю. [См. Fisher, Contributions to Mathematical Statistics, John Wiley, N. Y (1950), статьи 16и 37.] Другой вывод, использующий анализ Фурье, см.: Grenander U., RosenblattМ., (1957), *) Этот параграф затрагивает специальную тему и не используется в даль- нейшем.
§ 4. Характеризация нормального распределения 97 и допустим (не ограничивая общности), что детерминант Д=1. Если Хх и Х2—независимые нормально распределенные величины с дисперсиями ох и то распределение пары (Yx, Y2) нормально с ковариацией a11a21o[ + a12a22(J22 [см. пример 1, г)]. В этом случае существуют нетривиальные наборы коэффициентов ajk, такие, что Yx и Y2 независимы. Следующая теорема показывает, что это свойство одномерного нормального распределения не разделяется никаким другим распределением. Мы докажем это только для распределений с непрерывными плотностями, в случае которых наше утверждение сводится к лемме относительно функциональ- ного уравнения (4.3). Более общий случай сводится (с использо- ванием характеристических функций) к тому же самому урав- нению. Поэтому наше доказательство фактически устанавливает теорему в ее наибольшей общности (см. гл. XV,8). Элементарное рассмотрение плотностей лучше раскрывает основную суть тео- ремы. Преобразование (4.1) имеет смысл лишь в том случае, когда коэффициенты aJk не обращаются в нуль. В самом деле, поло- жим, например, czxx = O. Без ограничения общности мы можем выбрать масштабные параметры так, чтобы а12 = 1. Тогда Yx = X2 и, заглядывая вперед, из (4.4) получаем, что в этом случае Y2 должно иметь ту же плотность распределения, что и Хг Иными словами, такое преобразование равнозначно простому переимено- ванию случайных величин и потому не представляет никакого интереса. Теорема. Допустим, что Хх и Х2 независимы и что величины Yx и Y2 также не зависят одна от другой. Если ни один из коэффициентов aJk не равен нулю, то все четыре величины явля- ются нормальными. Наиболее интересный частный случай (4.1) доставляется вра- щениями, т. е. преобразованиями вида Yx = Хх cos со + Х2 sin со, 9 Y2 = —Хх sin со + Х2 cos со, ' ' ' где со не кратно Применяя теорему к подобным вращениям, мы получаем Следствие. Если Хх и Х2—независимые случайные величины и существует вращение (4.2), такое, что Yx и Y2 также незави- симы, то Хх и Х2 имеют нормальные распределения с одинаковой дисперсией. В этом случае Yx и Y2 независимы при каждом со. Пример. Распределение Максвелла для скоростей. При изуче- нии распределений скоростей молекул в <%3 Максвелл предпо- лагал, что в любой декартовой системе координат три компоненты скорости являются независимыми случайными величинами с нуле- вым математическим ожиданием. Примененное к вращениям, ос- тавляющим одну ось фиксированной, наше следствие непосредст- 4 Х8 249
98 Гл. III. Многомерные плотности. Нормальные плотности и процессы венно показывает, что три компоненты нормально распределены с одинаковой дисперсией. Как мы видели в гл. 11,3, это влечет распределение Максвелла для скоростей. Эта теорема имеет длинную историю, восходящую к исследованиям Макс- велла. Чисто вероятностное изучение было предпринято М. Кацем (1940) и С. Бернштейном (1941), который доказал наше следствие в предположении конечности дисперсий. Многие авторы вносили улучшения и исследовали варианты, иногда при помощи более сильных методов. Кульминации это раз- витие достигло в результате, доказанном В. П. Скитовичем1). Перейдем к доказательству для случая непрерывных плотно- стей. Обозначим плотности Ху через а плотности Yy через Положим для краткости У1 == ^11^1 ^12^2» Уг = ^21^1 “Ь ^22^2* (4*3) По условию теоремы имеем f 1 (У1) f 2 (У2)= C^i) и2 (я2). (4« 4) Покажем, что из соотношения (4.4) следует, что f j (у) = ± е?j, ^у(х) = ±Л (х), (4.5) где <pz(z/) и (Оу (%)—полиномы не выше w второй степени. Единст- венными распределениями с плотностью такого вида являются нормальные распределения. Поэтому для распределений с непре- рывными плотностями теорема содержится в следующей лемме. Лемма. Предположим, что четыре непрерывные функции fj, и Uj, / = 1, 2, связаны функциональным уравнением (4.4) и что ни один из коэффициентов ajk не равен нулю. Тогда эти функции имеют вид (4.5), где показателями являются полиномы, степень которых не выше 2. (Предполагается, конечно, что ни одна из функций не равна тождественно нулю.) Доказательство. Вначале отметим, что ни одна из наших функ- ций не имеет нулей. Действительно, в противном случае должна существовать на (х1? л2)-плоскости область Q, внутри которой обе части равенства (4.4) не имеют нулей и на границе которой они обращаются в нуль. Приравнивая обе части равенства (4.4) нулю, выводим, с одной стороны, что граница состоит из отрезков пря- мых, параллельных осям, с другой стороны, из отрезков, парал- лельных прямым z/y = const. Это противоречие показывает, что такая граница не существует. Мы можем таким образом считать наши функции строго поло- ' х) Изв. АН СССР, т. 18 (1954), стр. 185—200. Теорема. Пусть Хх, ... ..., Хл взаимно независимы, Y1 = ^\zz-X/ и Y2=5]'bfXf, где ни один коэффи- циент не равен нулю. Если Yx и Y2 независимы, то величины X/ распреде- лены нормально,
§ 5. Матричные обозначения. Ковариационная матрица 99 жительными. Переходя к логарифмам, перепишем (4.4) в виде Ф1 (У1) + ф2 (z/2) =- fa)+®2 (х2). (4.6) Определим при любых фиксированных ht и h2 смешанный разностный оператор Д равенством Ду (хх, х2) = v (хх х2 4” ^2) ^(хх+йх, “*“^2) —v(xt—hi9 x2+h2) + v(x1—hi, x2—h2). (4.7) Так как каждая функция соу зависит только от одной переменной Ху, то отсюда следует, что Дсоу = 0. Имеем ДФ1 Q/i) = Ф1 + Ф1 (У1 + *2)—Фх G/i—Q + Фх (У1~ *1), (4-8) где для краткости введены ~ ^11A1 “И ^12^2> ^2 “ ^11Л1 ^12^2* (4*9) Таким образом, имеем Дфх + Дф2==0, где фу зависит только от переменной z/y. При фиксированном у2 очевидно, что Дфх (z/x) есть постоянная, зависящая только от 1г1 и h2. Выберем теперь Ах и h2 так, что tr = t и /2—О, где t произвольно, но фиксированно. Тогда соотношение Дфх = const примет вид Ф1 G/i+0+Ф1 (Уг—О—2Ф1 (У1)=МО- (4.Ю) Вблизи точки у1У где функция фх принимает минимальное значе- ние, левая часть (4.10) не меньше нуля. Следовательно, такая точка уг существует только в том случае, если Я(/)^0 при всех t из некоторой окрестности нуля. Но в таком случае фх не может иметь максимальное значение. Далее, непрерывная функция, обращающаяся в нуль в трех точках, принимает как максималь- ное, так и минимальное значение. Мы выводим, что если непре- рывное решение соотношения (4.10) равно нулю в трех различных точках, то оно равно нулю тождественно. Каждый квадратный полином q (z/x) = ау{ + Pz/X + у удовлетворяет уравнению вида (4.10) (с другой правой частью), и, следовательно, то же справедливо для разности Фх(ух)—(?(z/x). Но (/ можно выбрать так, что эта разность будет равна нулю в трех точках и тогда фх (ух) совпадает с q. Те же рассуждения применимы к ф2, и этим доказывается утверждение относительно /1 и /2. Так как случайные величины Ху и Yу играют одинаковую роль, то те же аргументы применимы к плотностям Uj. >> § 5. МАТРИЧНЫЕ ОБОЗНАЧЕНИЯ. КОВАРИАЦИОННАЯ МАТРИЦА Обозначения, использованные в § 1, громоздки и становятся еще более громоздкими в случае большего числа измерений. Изяще- ства и экономии можно достичь при использовании матричной системы обозначений. 4*
100 Гл. III. Многомерные плотности. Нормальные плотности и процессы Чтобы облегчить ссылки, мы кратко изложим немногие факты из теорий матриц и матричных обозначений, нужные в дальнейшем. Основное правило таково: сначала строки, затем столбцы. Таким образом, (ахР)-матрица А имеет а строк и |3 столбцов; ее элементы обозначаются aj^, при этом первый индекс указывает строку. Если В есть (Рху)-матрица с элементами bjk, то произведение АВ представляет собой (аХу)-матрицу с элементами а^Ь^-}- + ^/2^2/г+ • • • Если число столбцов матрицы А не совпадает с числом строк матрицы В, то произведение не определено. Выполняется ассоциативный закон (АВ)С=А(ВС), хотя, вообще говоря, АВ^ВА. Транспонированная матрица^^Д^ есть (|ЗХа)-матрица с элементами a]k = ^kj- Очевидно, что (1Xос)-матрица с единственной строкой называется вектор-строкой, а матрица с единственным столбцом—векпгор-столбцом1}. Вектор-строка г = = (гг, ...» га) легко изображается при печати, а вектор-столбец лучше определять результатом его транспонирования сг = (с1} ..., са). Заметим, что сг есть (ахос)-матрица (типа «таблицы умножения»), в то время как гс есть (1X1)-матрица, или скаляр. В случае а = 2 /С1/1 С!Г2\ сг = ( ) , гс = (г1с1 + г2с2). \02Г1 С2Г2/ Нулевой вектор имеет нулевые компоненты. Матрицы с одинаковым числом строк и столбцов называются квадратными матрицами. Для каждой квадратной матрицы А определяется ее детерминант (определитель), который будет обозначаться через | А |. Для наших целей достаточно знать, что детерминанты обладают свойством мультипликативности: если А и В — две квадратные матрицы и С = АВ, то ] С | = ] Д|-|В|. Матрица А и транспонированная матрица АТ имеют один и тот же детерминант. Под единичной матрицей подразумевается квадратная матрица с едини- цами по главной диагонали и с нулями на всех остальных местах. Если / — единичная матрица с г строками и г столбцами и А—любая (гхг)-матрица,^ то очевидно, что 1 A — AI — А. Матрицей, обратной для Д, называется мат- рица А-1, такая, что АА~г = А-1А = I. [Только квадратные матрицы могут иметь обратные. Обратная матрица единственна: так, если В—любая обратная матрица для Д, то AB — I и по ассоциативному закону Д”1 = (Д“1Д)В=В.] Квадратная матрица, не имеющая обратной, называется вырожденной. Из мультипликативного свойства детерминантов следует, что матрица, имеющая нулевой детерминант, вырождена. Справедливо также и обратное: если | А | 0, то матрица А невырождена. Иными словами, матрица А является вырожден- ной тогда и только тогда, когда существует ненулевая вектор-строка х, та- кая, что хА = 0. Квадратная матрица А симметрична, если ajk — akj, т. е. если ДГ = Д. Квадратичная форма, соответствующая симметричной (гХг)-матрице А, определяется как г хАхТ= 5 ajkXjXn, i, k=i где xlt ...,хг являются переменными.'Матрица называется положительно определенной, если хАхТ > 0 для всех ненулевых векторов х. Из последнего критерия следует, что положительно определенная матрица невырождена. Вращения в 51а- Для полноты мы кратко коснемся одного геометрического приложения матричного анализа, хотя это и не будет использовано в даль- нейшем. 1) На самом деле это—злоупотребление языком. В конкретном случае х^ может означать количество фунтов, а х2—число коров; тогда (xlt х2) не является «вектором» в строгом смысле.
$ 5. Матричные обозначения. Ковариационная матрица 101 I Скалярным (внутренним) произведением двух векторов-строк x = (xi, . ха) и у~(z/i, .уа) называется величина хуТ = ухТ = ^ Xjyj. i=i Длина L вектора х определяется из равенства Л2 = ххг. Для векторов х и у единичной длины угол 6 между ними определяется величиной cos 6 = хут. Любая (аха)-матрица А индуцирует преобразование, переводящее х в £ = для транспонированной матрицы х преобразуется в %,т=Атхт. Матрица А называется ортогональной, если индуцированное ею преобразование сохра- няет длины и углы, иначе говоря, если любые два вектора-строки имеют то же самое скалярное произведение, что и их образы при преобразовании. Таким образом, матрица А ортогональна тогда и только тогда, когда для лю- бой пары векторов-строк х, у хААтут = хут. Отсюда следует, что ААТ есть единичная матрица I (в этом можно убедиться, выбирая в качестве х и у векторы с а—1 компонентами, равными нулю). Таким образом, мы пришли к заключению, что А ортогональна тогда и только тогда, когда ААТ — 1. Поскольку А и Ат имеют один и тот же детерминант, то этот детерминант равен +1 или —1. Ортогональная матрица с детерми- нантом 1 называется матрицей вращения, а индуцируемое ею преобразование — вращением. Отныне мы будем обозначать точку n-мерного пространства 91г одной буквой, интерпретируя ее как вектор-строку. Таким образом, x = (xlf ..., хг) и f(x) = f(x19 ..., хг) и т. д. Неравен- ства должны интерпретироваться покоординатно: х < у тогда и только тогда, когда xk<yk для &=1, ..., г; аналогично и для других неравенств. На плоскости «й2 соотношение х <у может быть прочитано как «х лежит юго-западнее у». Новая особен- ность этого обозначения в том, что две точки не обязаны состоять в одном из двух соотношений: либо х^у, либо у < х, т. е в многомерном случае знак < определяет только частичное упо- рядочение. Мы вводим обозначение X = (Xf, ..., Хг) для вектор а-стр ок и из координатных величин и будем использовать это обозначение для случайных величин вообще (в основном для нормально рас- пределенных величин). Если величины Xf, ..., Хг имеют математические ожидания E(XZ), то мы обозначим через Е (X) вектор-строку с компонентами. Е(ХУ). Вектор X —Е(Х) имеет нулевое математическое ожидание. Вообще, если М—матрица, элементы которой являются случайными величинами, мы обозначаем через Е(М) матрицу эле- ментов Е(Мд) в предположении, что она существует. Определение. Если Е(Х) = 0, то ковариационная матрица Var (X) для X есть симметричная (гхг)-матрица с элементами Е(ХуХй) (при условии, что все они существуют). Иными словами, Var (X) = Е (ХГХ). (5.1) В случае произвольного X мы onредели^ VarX как Var Е(Х)).
102 Гл. III. Многомерные плотности. Нормальные плотности и процессы Использование векторов-строк неизбежно влечет за собой за- пись линейного преобразования Slr в 31т в виде Y-ХД, (5.2) т. е. Уь = S aJhxJt k=l, т, (5.3) /=1 где А — (г хт)-матрица. Очевидно, что E(Y) = E(X)4 всякий раз, когда Е (X) существует. Для того, чтобы найти дисперсии, мы положим, не ограничивая общности, что Е(Х) = 0. Тогда E(Y) = 0 и Е (YrY) = Е (ДГХГХЛ) = ДГЕ (ХГХ) А. (5.4) Мы получаем, таким образом, важный результат: Var(Y)-^Var(X) А. (5.5) Особый интерес представляет частный случай т = 1, когда Y =а1Х1 + ...+^ГХГ (5.6) есть обыкновенная случайная величина. Здесь Var(Y) — (скалярная) квадратичная форма: Var(Y)= S E(X/Xft)aA. (5.7) j, k-1 Линейная форма (5.6) равна нулю с вероятностью единица, если Var(Y) = 0, и в этом случае любая область за пределами гипер- плоскости = Q имеет вероятность нуль. Распределение вероятностей сосредоточено тогда на (г—1)-мерном многообразии и вырождено, если его рассматривать в г измерениях. Мы дока- зали, что ковариационная матрица любого невырожденного рас- пределения вероятностей положительно определена. Обратно, ка- ждая такая матрица может служить ковариационной матрицей нормальной плотности (см. теорему 4 следующего параграфа). § 6. НОРМАЛЬНЫЕ ПЛОТНОСТИ И РАСПРЕДЕЛЕНИЯ Всюду в этом параграфе Q обозначает симметричную (гхг)- матрицу, a q(x)—соответствующую ей квадратичную форму q(x)= S qjkxfy=xQxT. (6.1) /, А=1 где х = (х1, хг) есть вектор-строка. Плотности в 91г, опре- деленные как показательные функции с квадратичной формой $ показателе, являются естественным обобщением нормальной плот- ности на прямой, и мы начнем поэтому с того, что введем сле- дующее
§ 6. Нормальные плотности и распределения 103 Определение. Плотность ср в пространстве г измерений на- зывается нормальной (с центром в начале координат), если она представляется в виде ф(%) = у“1-е (6.2) где у—некоторая постоянная. Нормальная плотность с центром в точке а = (а1У а2, ..., аг) определяется как ср (%—а). Частный случай двух измерений обсуждался в примерах 1, г) и 2, а). Возьмем в качестве выборочного пространство 91г с вероятно- стным распределением (6.2) и обозначим через Х = (Хх, Хг) вектор-строку, образованную координатными случайными величи- нами. Соответствующую ковариационную матрицу обозначим через М: M = Var(X) = E(XrX). (6.3) Наша задача состоит в исследовании матриц Q и М, а также связи между ними. Вначале заметим, что диагональные элементы Q не могут быть нулями. В самом деле, если бы мы имели qrr = 0, то при фикси- рованных значениях х19 ..., плотность (6.2) имела бы вид y-ie~axr+b и интеграл от плотности по хг расходился бы. Введем теперь подстановку у = хА, определенную равенствами У1 ~ ^1» • • * » У г-1 “ Уг~ У1ГХ1 “Ь • • • Ч* УгГХГ* (6*4) Проверка показывает, что q(x)—y*lqrr есть квадратичная форма от величин х19 ..., xr_if но не от хг. Таким образом, <7 (*)=7-*/г2+?(*/). (б-5) Чгг где q(y)—квадратичная форма от уг, ..., yr-f. Отсюда следует, что вектор Y = ХА имеет нормальную плотность, которая является произведением двух нормальных плотностей для случайных вели- чин Yr и (Yp .... Yr.x) соответственно. Первый полученный результат содержится в простой, но важной теореме. Теорема 1. Все маргинальные плотности нормальной плотности снова нормальны. Более неожиданный результат содержит Теорема 2. Существует матрица С с положительным детер- минантом, такая, что Z = XC есть вектор-строка, чьи компо- ненты Zj суть взаимно независимые нормально распределенные случайные величины. Матрица С не единственна; в действительности теорема может 1} «Вырожденные» нормальные распределения будут введены в конце этого параграфа»
104 Гл. 111. Многомерные плотности. Нормальные плотности и процессы быть усилена до утверждения, что в качестве С можно выбрать матрицу вращения (см. задачу 19). Доказательство. Используем индукцию. При г = 2 утверждение теоремы выводится непосредственно из представления (6.5). Если теорема справедлива в г—1 измерениях, то случайные величины являются линейными комбинациями независимых нормальных величин Zx, ..., Zr_x, тогда как случайная величина Yr сама распределена нормально и независимо от остальных величин. Поскольку Х = УЛ-1, отсюда следует также, что величины Ху являются линейными комбинациями Zn Zr_x и Yг. Детерми- нант матрицы А равен qrr и, как следует из (6.5), положителен. Детерминант преобразования X—>Z равен произведению детер- минанта А и детерминанта преобразования Y —> Z и, следовательно, положителен. Теорема 3. Матрицы Q и М взаимно обратны и у2 = (2л)г-1М |, (6.6) где I Al | = | Q|"“1 есть детерминант М. Доказательство. В обозначениях предыдущей теоремы положим D = E(ZrZ) = CrMC. (6.7) Диагональные элементы этой матрицы равны E(Z^) = Oy, а осталь- ные элементы равны нулю. Плотность Z равна произведению нормальных плотностей и (хоу1) of1 и, следовательно, порождается матрицей D-1 с диагональными элементами оу2. Далее, плотность величины Z получается из плотности (6.2) величины X путем подстановки x = zC~l и умножения на детерминант IC”1). Таким образом zD^1zT = xQxT (6.8) и (2л)г [ D | = у2.| С |2. (6.9) Из (6.8) видно, что Q = CD^CT, (6.10) и отсюда с учетом (6.7) следует, что Q==M“1. Из (6.7) вытекает также, что | D | = | М | • | С |2 и, следовательно, (6.9) равносильно (6.6). > Из теоремы следует, в частности, что разложение для матрицы М соответствует аналогичному разложению для Q, и поэтому имеет место Следствие. Если (Xi. X 2) имеет нормальное распределение, то Xf и Х2 независимы в том и только в том случае, когда Cov(Xi, Х2) = 0, т. е. когда Xf и Х2 некоррелированы. Вообще, если (Xj,Хг) имеет нормальную плотность, то
§ 6. Нормальные плотности и распределения 105 (Х1( .... х„) и (Хп+1, .... X,) независимы тогда и только тогда, когда Cov(Xz, Х^) = 0 при j^n, k>n. Предостережение. Для справедливости следствия существенно то, что совместная плотность пары (Хп Х2) нормальна. Следствие неприменимо, если известно только то, что маргинальные плот- ности Хх и Х2 являются нормальными. В последнем случае плот- ность (Хх, Х2) не обязана быть нормальной и в действительности даже не обязана существовать. Этот факт часто понимается не- правильно (см. задачи 2’, 3). Теорема 4. Матрица М представляет собой ковариационную матрицу нормальной плотности тогда и только тогда, когда она положительно определена. Поскольку плотность порождается матрицей Q = можно сформулировать эквивалентное утверждение: матрица Q порождает нормальную плотность (6.2) тогда и только тогда, когда она положительно определена. Доказательство. Мы видели в конце § 5, что всякая ковари- ационная матрица нормальной плотности положительно определена. Обратное тривиально в случае г=1. К большим г мы перейдем по индукции. Предположим, что матрица Q положительно опре- деленная. При х1 = 0, ..., хг_1 = 0 мы получаем q(x) = qrrx2r и, следовательно, qrr > 0. При этом предположении, как мы видели, q можно привести к виду (6.5). Выбирая хг так, что уг = 0, мы видим, что положительная определенность Q влечет q (х) > 0 при всех наборах х±, ..., хг_г. Поэтому по предположению индукции q соответствует нормальной плотности в пространстве г—1 из- мерений. Из (6.5) теперь очевидным образом следует, что q соот- ветствует нормальной плотности в пространстве г измерений, и этим завершается доказательство. Мы закончим эту общую теорию интерпретацией (6.5) в терми- нах условных плотностей, которая приводит к общим формули- ровкам теории регрессии, разобранной для двумерного случая в примере 2, а). Положим ДЛЯ краткости ак = — QkrlQrr^ так» что У г= Qrr С11Х1 . . . ar-iXr_i)> (6.11) Для вероятностной интерпретации коэффициентов ak мы вспомним, что Yr по построению не зависит от Xf, ..Хг_1. Иными словами, ak—такие числа, что Т = Хг—^Х,—... — ar_iXr__i (6.12) не зависит от (Хь ..Хг_1), и это свойство однозначно характери- зует коэффициенты ak. j Чтобы найти условную плотность Хг для данных Xf = xi9 . r?* мы должны разделить плотность (Хй . .Хг) на
106 Гл. III. Многомерные плотности. Нормальные плотности и процессы маргинальную плотность (Хх, . Х^). Ввиду (6.5) мы получим показательную функцию с показателем —^уУЯгг- Отсюда следует, что условная плотность Хг при данных Хх = х19 ..., Хг_± = хг_± есть нормальная плотность с математическим ожиданием .. ...+^ и дисперсией \lqrr. Соответственно Е(ХГ|.Х1, ..., (6.13) Таким образом, мы доказали следующее обобщение двумерной задачи регрессии, выражение которой было дано в (2.6). Теорема 5. Если (хй .... Хг) имеет нормальную плотность, то условная плотность Хг при данных (Хх, Хг_х) снова нор- мальна. Кроме того, условное математическое ожидание (6.13) есть единственная линейная функция от Хх, .. ./Xr_f, делаю- щая величину Т не зависящей от (хп .... хг_о. Условная дис- персия равна Var (?) = <?;/. Пример. Выборочное среднее значение и дисперсия. В статис- тике случайные величины г X = i(X1+...+Xr),^ = l£ (Xfc—X)2 (6.14) k = 1 называются выборочным средним значением и выборочной дис- персией для Х = (Хх, ..., Хг). Весьма любопытен лот факт, что если величины Хх, ..., Хг независимы и нормальны с E(Xfe) = 0, E(Xfc) = o2, то случайные величины X и о2 являются независи- мыми1). Доказательство демонстрирует применимость предыдущих ре- зультатов. Мы положим Nk = Xk—X при [k=l, ..., г—1, но Yr = X. Преобразование X в Y=(YX, Yr) линейно и невы- рождено. Поэтому Y имеет нормальную плотность. Далее E(Y^Yr) = 0 при &==!, ..., г — 1, и поэтому Yr не зависит от (Yx, ..., 4r~i)- Однако ra2 = Y*+ ... + Y2r_1 + (Yi+ ... + Y^O2 (6.15) зависит только от Yi......Y,_b и, таким образом, о2 действи- тельно не зависит от Yr = X. ► Нормальные распределения общего вида Из предыдущего следует, что если X = (Xf, ..., Хг) имеет нормальную плотность, то каждая ненулевая линейная комбина- ция Yi = a1X1+ •.. Ч-агХг также имеет нормальную плотность. » х) То, что этот факт характеризует нормальное распределение в было показано Гири и Лукачем,
§ 7. Стационарные нормальные процессы 107 То же самое верно для каждой пары (Yf, Y2) при условии, что не выполняется линейное соотношение типа cxY1 + c2Y2 = 0. В этом исключительном случае распределение вероятностей пары (Yn Y 2) сосредоточено на прямой с уравнением ^1у1 + ^2//2 = 0, и, следовательно, оно вырожденно, если его рассматривать как, двумерное распределение. Для многих целей желательно сохранить термин нормального распределения также и для вырожденных распределений, сосредоточенных на многообразиях низшей раз- мерности, скажем на какой-либо прямой. Простейшее общее определение выглядит следующим образом: распределение Y== = (YX, ..., Yp) является нормальным, если существует вектор Х = (Хх, ..Хг) с нормальной г-мерной плотностью, такой, что Y = а + ХЛ, где А — (постоянная), (гхр)-матрица и a = (alt.. .,ар). Если р > г, то распределение Y вырождено в р измерениях. При р^г это распределение невырождено тогда и только тогда, когда р форм, определяющих Nk, линейно независимы. § 7*). СТАЦИОНАРНЫЕ НОРМАЛЬНЫЕ ПРОЦЕССЫ Цель этого параграфа состоит отчасти в том, чтобы дать при- меры нормальных распределений, и отчасти в том, чтобы уста- новить некоторые соотношения, имеющие важное применение в теории дискретных случайных процессов и временных рядов. Они носят аналитический характер и легко отделимы от более глубо- кого стохастического анализа. Фактически мы будем иметь дело только с конечномерными нормальными плотностями, или, что' равносильно, с их ковариационными матрицами. Ссылки на слу- чайные величины существенны для вероятностной интуиции и как подготовка к применениям, но на данном этапе мы касаемся только их совместных распределений; случайные величины сами используются единственно как удобный способ описания всех маргинальных плотностей посредством указания соответствующих совокупностей (Ха1, ..., Xafe). Кроме того, ссылка на бесконеч- ную последовательность {Х^} влечет за собой лишь то, что число элементов в (Хх, ..., Хп) может быть взято сколько угодно большим. ! Мы будем фактически рассматривать бесконечную в обе сто- роны последовательность {..., Х_2, Х_х, ...}. Под этим мы просто подразумеваем, что для каждой конечной совокупности (Х^, ..., Хпг) задана нормальная плотность с очевидными уело-; виями согласованности. Последовательность называется стацио^ нарной, если эти распределения инвариантны относительно сдви-, гов во времени, т. е. если все строки вида (ХП1+и, •••, ХДг+т) с фиксированными (пъ пг) имеют одно и то же распределен *) Не используется в последующем. В частности § 8 может быть цро- читан независимо (см, также гл, XIX,8).
108 Гл. III. Многомерные плотности. Нормальные плотности и процессы ние, не зависящее от v. При г=1 отсюда следует, что матема- тические ожидания и дисперсии постоянны и, следовательно, можно предположить, не ограничивая общности, что Е(Хл) = 0. Совместные распределения полностью определяются через кова- риации pjk = Е (ХуХ^), а свойство стационарности требует, чтобы рд зависели только от разности |&—Поэтому мы положим ру .+п^=гп. Таким образом, r„ = E(XftXft+n) = E(Xft_„, Xft), (7.1) откуда rn — r_n. Мы будем иметь дело только с последователь- ностями чисел гп, которые могут служить ковариациями случай- ного процесса. Всюду в этом параграфе {ZJ изображает бесконечную в обе стороны последовательность взаимно независимых нормально рас- пределенных случайных величин, нормированных так, что E(Z„) = 0, E(Z*) = 1. (7.2) Будут описаны три метода построения стационарных последова- тельностей в терминах данной последовательности {Zn}. Эти ме- тоды постоянно используются в анализе временных рядов и мо- гут служить упражнением в стандартных рассуждениях. Пример, а) 'Обобщенные процессы скользящего среднего. При произвольных постоянных b0, Ь±, bN положим Xn = frozn + ^izn-i+ • • • + (7.3) В частном случае равных коэффициентов bk=\/(N +1) случайная величина Х„ является средним арифметическим того типа, кото- рое применяется в анализе временных рядов для «сглаживания данных» (т. е. для устранения локальных иррегулярностей). В общем случае (7.3) представляет собой линейный оператор, переводящий стационарную последовательность {Zn} в новую стационарную последовательность {Хп}. Такие операции модно называть «фильтрами». Последовательность {Xw} имеет ковариации rfc = r_ft = E(X„X„+ft) = S/?v&v+ft (fe>0), (7.4) V где сумма справа содержит ряды, имеющие лишь конечное число членов. Так как 2 | bvbv+k | by + b2v+k, то выражение (7.4) имеет смысл также и для бесконечных последовательностей, для которых 2^v<oo. Легко видеть, что предел последовательности ковариа- ционных матриц есть снова ковариационная матрица. Полагая М—>оо, мы заключаем, что для любой последовательности Ьо, Ь^ Ь2, ..., такой, что 2^<°°, числа rk, определенные в (7.4), могут служить ковариациями стационарного процесса {Xrt}4
§ 7. Стационарные нормальные процессы 109 Формально мы получаем для нового процесса Xn=5&ftZ„_fc. (7.5) /г=0 Можно без затруднений показать, что любой стационарный про- цесс с ковариациями (7.4) представим в такой форме, но выра- жение (7.5) включает бесконечно много членов, и мы не можем сделать это в настоящий момент (см. гл. XIX,8). б) Процесс авторегрессии. С тех пор как родился анализ вре- менных рядов, предлагались многие теоретические модели для объяснения эмпирических явлений, например, таких, как поведе- ние экономических временных рядов, солнечных пятен и наблю- денные (или воображаемые) периодичности. Наиболее распро- страненная модель предполагает, что величины Хп исследуемого процесса связаны с нашей последовательностью Z„ независимых нормальных величин (7.2) посредством уравнения авторегрессии вида a^n + ai^n-i+ • • • (7.6) Эта модель основывается на эмпирическом предположении, что значение величины Хп в момент п (цена, содержание или интен- сивность) зависит от ее прошлого развития и наложенного на него «случайного возмущения» Zn, которое не связано с прошлым. Как часто бывает, предположение о линейной зависимости упро- щает (или делает возможным) теоретический анализ. Более общие модели получаются, если положить N—>оо или выбрать в каче- стве Zn величины другого стационарного процесса. Если =7^= 0, то можно произвольным образом выбрать (Хо, ..., X^.J и затем последовательно вычислить XzV, Хд^,... и Х_п Х_§,.... В этом смысле (7.6) определяет некоторый про- цесс, но нас интересует, существует ли стационарное решение. Для ответа на этот вопрос мы перепишем (7.6) в форме, не включающей элементов, непосредственно, предшествующих ХЛ. Рассмотрим (7.6), заменяя п последовательно на п — 1, п—2, ... ..., п—v. Умножим эти равенства на Ь2, ..., bv соответст- венно и прибавим к (7.6). Величины Х^.^ ..., X„_v не появятся в новом уравнении в том и только в том случае, если bj та- ковы, что ао&1 + а1Ьо = О, ..., aQbv + a1bv_1+ ... 4-avbo = O, (7.7) где b0 = l. В конце концов приходим к выражению вида а^п — Ь<2п + ^^n-i + • • • + bvZn_v 4- Yn> v, (7.8) где Yn> v представляет собой линейную комбинацию Xrt_v_n ... ..., Xn.jv-v (с коэффициентами, которые нас не интересуют). (7.8) мы представим величину Хй как сумму случайных возму-
ПО Гл. III. Многомерные плотности. Нормальные плотности и процессы щений в моменты п, п—1, п—v и величины Yn> v, изо? бражающей влияние «прошлого» до момента п—v. При v—>оо это время становится «бесконечно далеким прошлым», и в боль- шинстве ситуаций оно не будет иметь влияния. При переходе к пределу мы (по крайней мере временно) предположим именно этот случай, т. е. мы разыскиваем процесс, удовлетворяющий предельному соотношению вида a0X„=S&ftZ„-ft- (7-9) k— о (Грубо говоря, мы предполагаем, что остаточные величины Yn> v стремятся к нулю. Другие возможные пределы изучены в сле- дующем примере.) Процессы вида (7.9) рассматривались в примере а), и мы ви- дели, что всякий раз, когда существует стационарное решение (если ряд расходится, то даже выражение для ковариа- ций теряет смысл). Для решения уравнений (7.7) относительно Ьк мы используем формальные производящие функции A(s) = 2^, B(s) = 2&^- (7-Ю) Уравнения (7.7) выполняются тогда и только тогда, когда A (s) В (s) = aobo. Так как А—полином, то В—рациональная функция. Поэтому мы можем использовать теорию разложения на простые дроби, развитую в 1, гл. XI,4. Если полином Д(з) имеет различные корни s^, мы получаем В (s) = -A_+.. .+-^- (7.11) v / Si —S ‘ 1 S V 1 и, следовательно, Ьп = + ... + Л^-1. (7.12) Очевидно, что 2^<°° тогда и только тогда, когда все корни удовлетворяют неравенству | s7-1 > 1. Легко проверить, что это остается справедливым также в случае кратных корней. Мы таким образом сейчас показали, что стационарное решение авторегрес- сионной модели (7.6) существует всегда, когда все корни полинома Л(£) лежат вне единичного круга. Ковариации нашего процесса задаются формулой (7.4), и «бесконечно далекое прошлое» не играет в процессе никакой роли. Полученное решение {Х„} уравнения авторегрессии (7.6) единственно. В самом деле, разность двух решений должна удов- летворять однородному уравнению (7.13), и теперь мы покажем, что условие | sf | > 1 исключает появление имеющего вероятност- ный смысл решения этого уравнения. в) Вырожденные процессы. Обратимся к стационарным после- довательностям {У„}, удовлетворяющим стохастическому раз-.
§ 7. Стационарные нормальные процессы 111 ностному уравнению м + n-i+ • • • +^Yn-jV=0. (7.13) Эти процессы интересны своей противоположностью процессам авторегрессии, определяемым уравнением (7.6). Типичными явля- ются примеры = к (Z1 cos /ио + Z-i sin neo), (7.14) + (7.15) где коэффициенты и величина <о постоянны, a Zx и Z_2 являются независимыми нормальными случайными величинами, нормирован- ными условиями (7.2). Эти процессы удовлетворяют уравнению (7.13), первый с а0 = а2=1 и at = —2 cos со, второй с а0= =—а2 = 1 и (7х = 0. Эти процессы вырождены в том смысле, что весь процесс полностью определяется двумя наблюдениями, ска- жем Ч и Чк. Эти два наблюдения можно взять как угодно далеко в прошлом, и в этом смысле процесс полностью опреде- ляется своим «бесконечно далеким прошлым». Аналогичные рас- суждения применимы к любому процессу, удовлетворяющему разностному уравнению вида (7.13), и, следовательно, эти про- цессы составляют противоположность примеру б), где «беско- нечно далекое прошлое» совсем не имеет влияния. ► Эти примеры объясняют тот широкий интерес, который про- является по отношению к стохастическому разностному уравнению (7.13). Прежде чем перейти к соответствующей теории, заметим, что любой процесс {Yw}, удовлетворяющий (7.13), удовлетворяет также различным разностным уравнениям более высокого порядка, например ^Y„ -f- (а1 $0) Yn_1 4“ • < • 4“ (^jv Y„_;v а^Чп-n-i* Для того чтобы придать задаче смысл, мы должны предположить, что (7.13) представляет собой разностное уравнение наинизшего порядка, которому удовлетворяет {Yw}. Это равносильно тому, что строка (Y:, ..., Y„) имеет невырожденное нормальное рас- пределение в N измерениях. Отсюда следует, чтоа04^0 и адг =#=(). Теперь можно показать, что теория стационарных решений разностного уравнения (7.13) тесно связана с «характеристиче- ским уравнением» ^ + а1^-14-...4-«л=0- (7.16) Каждому квадратному множителю полинома, стоящего слева, здесь соответствует стохастическое разностное уравнение второго по- рядка и вследствие этого процесс вида (7.14) или (7.15). В соот- ветствии с разложением на множители характеристического поли- нома мы представим, таким образом, общее решение уравнения (7.13) как сумму компонент вида (7.14) и (7.15).
112 Гл. III. Многомерные плотности. Нормальные плопшости, и процессы Как и раньше, мы предполагаем E(Y„) = 0. Вся теория строится на следующей лемме. Лемма 1. Стационарная последовательность с E(YnYn+f^ = rk удовлетворяет стохастическому разностному уравнению (7.13) в том и только том случае, когда a()rn + a1rn_1+...+aNrn_N = Q. (7.17) Доказательство. Умножив (7.13) на Yo и взяв математиче- ские ожидания, придем к (7.17). Возводя в квадрат левую часть равенства (7.13) и вновь вычисляя математические ожидания, получаем в результате 2#/(Х^Л-Д и поэтому из (7.17) сле- дует, что левая часть в (7.13) имеет нулевую дисперсию. Это доказывает лемму. Мы приступаем к выводу канонической формы для гп. Эти величины, конечно, действительны, но так как в формулу входят корни характеристического уравнения (7.16), мы должны при- бегнуть к временному использованию комплексных чисел. Лемма 2. Если {Y„} удовлетворяет уравнению (7.13), но не удовлетворяет никакому разностному уравнению низшего поряд- ка, то характеристическое уравнение (7.16) обладает N различ- ными корнями ..., %N, по модулю равными единице. В этом случае Гп—СЛ1 + • • • (7-18) где Cj > 0 при j = 1, ..., N. Доказательство. Предположим вначале, что характеристиче- ское уравнение (7.16) имеет N различных корней Найдем решение уравнения (7.17) методом частных решений, ко- торый применялся для подобных целей в первом томе. Проверка устанавливает, что (7.18) изображает формальное решение (7.17), зависящее or N свободных параметров ..., cN. Теперь гп полностью определяются N значениями гх, ..., rN. Поэтому для того, чтобы показать, что каждое решение (7.17) имеет вид (7.18), достаточно показать, что Cj могут быть выбраны так, что соот- ношения (7.18) приводят к предписанным значениям г19 ..., rN. Это означает, чтосу. должны удовлетворять N линейным уравне: ниям с матрицей А, элементами которой служат aJk^=^k (j, k=l, . N). Детерминант А не равен нулю1), и, следова- тельно, искомое решение существует. х) Этот детерминант обычно называется в честь Вандермонда. Чтобы показать, что детерминант не равен нулю, заменим £ некоторой свободной переменной х. Проверка показывает, что детерминант имеет при этом вид хР(х), где Р есть полином степени N — 1. Далее Р(х)=0 при x = g2, .потому что при этих значениях х два столбца детерминанта становятся одинаковыми. Поэтому детерминант не обращается в нуль ни при каком другом значении х, и в частности при x=£i.
§ Z. Стационарные нормальные процессы 113 Таким образом, мы установили, что (в случае различных кор- ней) гп действительно имеет вид (7.18). Теперь мы покажем, что фактически в (7.18) присутствуют только корни, равные по модулю единице. Мы знаем ,что Оу=/=0 и поэтому 0 не может быть корнем характеристического уравнения. Далее отметим, что ковариации гп ограничены общим значением г0 дисперсии Yп. Однако если не равны по модулю единице, го >оо при п—>оо или при п—>—оо. Отсюда следует, что при любом / либо |(= 1, либо же cf = 0. Предположим теперь, что и £2 представляют собой пару сопряженных корней и что ^=^0. Тогда равен по модулю единице и, следовательно, = В силу симметрии гп = г_п> поэтому с2 = с1. С другой стороны, ^1 + ^2 действительно, и по- этому значение сг должно быть действительным. Таким образом комплексные корни присутствуют в (7.18) в сопряженных парах с действительными коэффициентами, и если некоторый коэффи- циент Cj равен нулю, то гп будет удовлетворять разностному уравнению порядка меньшего, чем N. Таким образом, все корни равны по модулю единице, все Cj действительны и cf =^=0. Для того чтобы убедиться в том, что Cj положительны, рас- смотрим ковариационную матрицу R для случайных величин (Yn ..., NnY Элементами матрицы R являются и легко вывести из (7.18), что R = ACAT. (7.19) где С—диагональная матрица с элементами матрица А вве- дена выше, а матрица А сопряжена с А (т. е. получается из А заменой на ^f1). Далее, R является действительной и положи- тельно определенной матрицей и поэтому для любой комплексной TV-мерной ненулевой вектор-строки х = имеет место соот- ношение xRxr = uRur + vRvr > 0. (7.20) Полагая у = хА, получаем вместо (7.20) уСу?^ ^\У/\*>0. (7.21) Поскольку детерминант А не равен нулю, последнее неравенство выполняется для произвольного у и, таким образом, Cj > 0, как и утверждалось. Для завершения доказательства нам осталось показать, что характеристическое уравнение не имеет кратных корней. Предпо- ложим*, что ^ = ^2, а другие корни различны. Мы снова получим представление в форме (7.18) с той разницей, что член за- менится членом . Ограниченность гп снова с необходимостью приводит к тому* что q==0, Следовательно* в случае одного
114 Гл. III. Многомерные плотности. Нормальные плотности и процессы двойного корня мы получим представление вида (7.18) с числом отличных от нуля членов, меньшим N, а, как мы уже видели,, это невозможно. Те же аргументы применимы и в более общей ситуации и показывают, что кратные корни невозможны. Сформулируем теперь окончательный результат для случая,3 когда N—нечетное целое число. Изменения, необходимые для перехода к четному N, должны быть очевидны. Теорема. Предположим, что стационарная последовательность -{¥„} удовлетворяет разностному уравнению (7.13) с Ar = 2v+l,j но не удовлетворяет никакому разностному уравнению низшего порядка. Тогда характеристическое уравнение (7.16) обладает v парами комплексных корней = cos coy ± i sin coy (где со,- вещест- венны) и одним вещественным корнем <о0 = ± 1. Последователь- ность {Y„} имеет вид Y„ = XoZoco; + J Xy[Z .cosntoy + Z-ySinnco ], (7.22) /= i где Lf—взаимно независимые нормальные величины с нулевыми математическими ожиданиями и единичными дисперсиями, а*к}- — постоянные. Для этой последовательности гп = 2 X/ cos исоу. (7.23) Обратно, выберем произвольные действительные Kv=^=0 и со0= ±1. Пусть (±4, ...» <ov— различные действительные числа, такие, что О < соу < л. Тогда (7.22) определяет стационарный процесс с ко- вариациями (7.23), удовлетворяющий разностному уравнению порядка 2v-)-1 (ноне удовлетворяющий никакому разностному уравнению низшего порядка). Доказательство. Пусть Ху и (Оу и нормальные случайные вели- чины Zy удовлетворяют условиям теоремы. Определим величины Уп формулой (7.22). Простые вычисления показывают, что кова- риации гп величин {YJ задаются равенством (7.23). Существует алгебраическое уравнение с действительными коэффициентами вида (7.16) с корнями, описанными в теореме. Тогда ковариации удо- влетворяют разностному уравнению (7.17) и в силу леммы 1 отсюда следует, что Yn удовлетворяет стохастическому разностному урав- нению (7.13). По построению это есть разностное уравнение наи- низшего порядка, которому удовлетворяет Y„. Обратно, пусть {YJ обозначает решение данного разностного уравнения (7.13). Ковариации гп величин {YJ определяют числа Ху и (Оу, присутствующие в (7.22). Рассмотрим эти уравнения при п — О, 1, ..., 2v как линейное преобразование произвольной строки из нормальных величин (Z_v> Zv) в (Yo, YJ. Это преоб-,
§ 8. Марковские нормальные плотности 115 разование невырождено, и поэтому ковариационные матрицы для (Z_v, Zv) и (Yo, ..., YAr) определяют одна другую единст- венным образом. Мы только что показали, что если ковариацион- ная матрица величин Zy- сводима к единичной матрице, то вели- чины Yft имеют своими ковариациями гп. Поэтому обратное также справедливо, и тогда существуют нормальные величины Zy, удов- летворяющие условиям теоремы и такие, что (7.22) выполняется при п = 0, ..., N. Однако обе части каждого из этих уравнений представляют собой решения стохастического разностного урав- нения (7.13), и поскольку они совпадают при п = 0, М, то они с необходимостью тождественны. § 8. МАРКОВСКИЕ НОРМАЛЬНЫЕ ПЛОТНОСТИ Мы перейдем к обсуждению одного класса нормальных плот- ностей, встречающихся в марковских процессах. Не ограничивая общности, мы рассмотрим только плотности, центрированные в начале координат. Тогда E(XJ = 0, и мы используем обычные сокращения E(Xi) = al, E(X^)=W/fc. (8.1) Величины суть коэффициенты корреляции, и р^=1. •_ Определение. Нормальная r-мерная плотность (xf, хг) является марковской, если при г условная плотность Xk при данных- Xi, ..., X^-i тождественна с условной плотностью Xk при данной Грубо говоря, если мы знаем Х^_т («настоящее»), то дополни- тельное знание «прошлого» Xf, ..., Xk_2 не привносит никакой полезной информации относительно «будущего», т. е. относительно любой из величин Ху с j^k. Как обычно в подобных случаях, мы применяем термин «мар- ковский» и к последовательности (Xi, ...» Хг), и к ее плотности. Теорема 1. Для того чтобы последовательность (Хй .... Хг) была марковской, каждое из следующих двух условий является необходимым и достаточным*. (i) для k^r E(XJXi, .... Xft-I) = Е(Xft|Xfe.j); (8.2) (ii) для / v < & r Р/Л = РММ« (8-3) Для выполнения (8.3) достаточно, чтобы P/* = P/.»-iP*-i,ft. i<k. (8.4) Доказательство. Совпадение плотностей влечет равенство ма- тематических ожиданий, и поэтому необходимость (8.2) тривиальна.
116 Гл. IJ J. Многомерные плотности. Нормальные плотности и процессы С другой стороны, если (8.2) справедливо, то теорема 5 из § 6 показывает, что условная плотность Xfe при данных Хх, ..., Х^ зависит только от Х^_х, но не от предшествующих величин. Ус- ловная плотность Xft при данном Х^__х получается интегрирова- нием относительно величин Хх, ..., Х^_2, и, следовательно, две условные плотности совпадают. Таким образом, (8.2) необходимо и достаточно. Обращаясь снова к теореме 5 из § 6, заключаем, что величина T = Xft-E(Xft|Xft_1) (8.5) совпадает с величиной поскольку это есть единственная случайная величина вида Xk—cXk_ly не коррелированная с Х^. В силу той же теоремы равенство (8.2-) выполняется тогда и только тогда, когда вели- чина Т не коррелирована также с Хь Xft_2, т. е. тогда и только тогда, когда выполняется (8.4). Таким образом, (8.4) необ- ходимо и достаточно. Поскольку (8.4) есть частный случай (8.3), то последнее условие является достаточным. Оно также и необ- ходимо, так как повторное применение (8.4) показывает, что при j < v < k г Pj-k _ n. /Q 74 Pvk Pv,k-1 Pv.k-2 ” Pw P/V‘ ' ' Поэтому из (8.4) следует (8.3). ► Следствие. Если последовательность (Хх, ..., Хг) марковская, то каждая подпоследовательность ...,Xav) с < а2 <... ... <avг является марковской. Это очевидно, так как (8.3) автоматически распространяется на все подпоследовательности. ► Примеры, а) Независимые приращения. Говорят, что последова- тельность (конечная или бесконечная) <{Xft} нормальных случайных величин с E(Xft) = 0 образует процесс с независимыми прираще- ниями, если при /<£ приращение Xk—Xj не зависит от (Хх, ..., Ху). Отсюда следует, в частности, что Е(Ху(Х*—Ху)) = 0 или i<k' <8-8) Сравнивая это с (8.3), видим, что нормальный процесс с незави- симыми приращениями автоматически оказывается марковским. Его структура чрезвычайно проста: Хй есть сумма k взаимно не- зависимых нормальных величин хп х2-хь ..xft-x»_It
§ 8. Марковские нормальные плотности 117 б) Модели авторегрессии. Рассмотрим нормальную марковскую последовательность Хп Х2, ... с E(Xft) = 0. Существует единст- венная постоянная ak, такая, что Xft—не зависит от X^-i и, следовательно, от Хх, ..., Xft-1. Положим ^ = Var(X,-aftX^1) и, следовательно, Xi = X1Zj, /Л Q\ Xk = akXk^ + KkZk & = 2, 3, ... . Легко видеть, что определенные таким образом величины Zk не- зависимы и E(Zz?) = 0, E(Z|) = 1. (8.10) Верно и обратное. Если Zk нормальны и удовлетворяют (8.10), то (8.9) определяет последовательность {Хи[, и сама по себе струк- тура соотношений (8.9) показывает, что последовательность {XJ марковская. В качестве упражнения мы проверим это утвержде- ние вычислением. Умножим (8.9) на X, и возьмем математические ожидания. Так как Zk не зависит от Хх, ..., Xk_lt мы получаем при j < k Теперь (8.4) есть простое следствие (8.11), а мы знаем, что вы- полнение (8.4) влечет за собой марковский характер Xft. Таким образом, (Хх, ..., Хг) является марковской тогда и только тогда, когда выполняются соотношения вида (8.9), где Zj—независимые нормальные величины, удовлетворяющие (8.10). [Это есть част- ный случай примера 7, б).] < > До сих пор мы рассматривали только конечные последователь- ности (Хх, ..., Хг), но число г не играет никакой роли, и мы можем также говорить о бесконечных последовательностях {Xw[. Это не затрагивает пространств бесконечных последовательностей или какую-либо новую теорию, это просто указание на то, что распределение для (Хх, ..., Хг) определяется при всех г, Анало-, гично мы говорим о марковском семействе {Х(/)[, когда любая конечная совокупность Х1==Х(/1), ..., Xr = X(tr) является мар- ковской. Ее описание зависит от функций . Е (X2 (/)) = о2 (0, Е (X (s) X (0) = a(s) а(0 р (s, t). (8.12) В. силу критерия (8.3) очевидно, что семейство является маркое- ским тогда и только тогда, когда при s <t p(s, T) = p(s, т). (8.13)
118 Гл. 111. Многомерные плотности. Нормальные плотности и процессы Терминология не должна затемнять то, что фактически мы будем иметь дело только с семействами конечномерных нормальных рас- пределений с ковариациями, которые удовлетворяют (8.13). Как обстоятельно объяснялось в начале § 7, последователь- ность {Хи} называют стационарной, если для каждого фиксиро- ванного набора ах, ..., ап распределение (Xai+V, ..., Xa„+V) не зависит от V. Конечный отрезок такой последовательности может быть продолжен в обе стороны, и, следовательно, естественно рассматривать только бесконечные в обе стороны последователь- ности {..., Х_2, Х_п Хо, Хх...}. Эти понятия тривиальным об- разом переносятся на семейства {Х(/)}. Для стационарной последовательности {ХД дисперсия о* не зависит от п и в марковском случае (8.3) влечет равенство p//r = p^-/i. Таким образом, для стационарной марковской после- довательности Е(Х7Х*>о2р1*-Л (8.И) где о2 и р—постоянные, |р| < 1. Обратно, последовательность с нормальными распределениями, удовлетворяющая (8.14), яв- ляется марковской и стационарной. В случае стационарного семейства {Х(/)} корреляция р (s, t) зависит только от разности \ t—s| и (8.13) приобретает вид р(Ор(т)==р(^+т) Аля т> 0. Очевидно, из равенства р(т) = 0 должно следовать р(/) = 0 при всех t > т и также р (у т) =0. Поэтому р не может иметь нулей, за исключением случая р(/) = 0 при всех t > 0. Следовательно, р(/) = е~л/ (здесь используется результат из 1, гл. XVII, 6). Соот- ветственно для стационарного марковского семейства Е (X (s) X (s + 0) = ог2е-л/, t > 0, (8.15) за исключением случая, когда X(s) и Х(/) не коррелированы при всех s^= t. Пример, в) Стационарные последовательности могут быть по- строены по схеме последнего примера. Вследствие (8.11) мы должны иметь X^pX^+aKl-p8^. (8.16) При каждом k можно выразить Xft как .линейную комбинацию Zfe, Zk_ly ..Zk-v и Xk-v-i- Формальный переход к пределу при- водит к представлению (8.17) /=0 т. е. к представлению {XJ через бесконечную в обе стороны по- следовательность независимых нормальных величин Z7, нормиро-
g 8. Марковские нормальные плотности 119 ванных условием (8.10). Так как |р| < 1, то правдоподобно, что ряд сходится, однако формула по существу связана с простран- ством бесконечных последовательностей. [См. замечания, касаю- щиеся формулы (7.5), частным случаем которой является (8.17).] ► Полезно, быть может, обсудить связь теоремы 1 с непосред- ственным описанием марковских последовательностей в терминах плотностей. Обозначим через g{ плотность Xz и через gik (х, у) — значение в точке у условной плотности при условии Xz = %. (В теории случайных процессов, gik называется переходной плот- ностью от Xz к Xfc.) Для нормальных марковских последователь- ностей gt представляет собой нормальную плотность с нулевым математическим ожиданием и дисперсией о?. Что касается услов- ных вероятностей, то в примере 2, а) было показано, что 1 / У—°1 rPik°kX 1—pzfe \ /1 —ptk gik (*. У)— (8.18) где и обозначает стандартную нормальную плотность. Мы не будем, однако, использовать этот результат и проведем анализ свойств gik независимым способом. Как обычно, мы интерпрети- руем индексы как временные параметры. Совместная плотность (Xz, Ху) задается как g{ (х) gif (х, у). Совместная плотность (Xz, Ху, XJ равна произведению предыду- щей плотности на условную плотность Xk при данных Ху и Xz, но ввиду марковского характера индекс i может быть опущен, если i < j < &, и плотность (Xz, Ху, Xk) становится равной gi (х) gif (х, у) g]k (у, г). (8.19) В. марковском случае плотность каждой строки (Ха1, Ха„) задается произведением вида (8.19), однако плотности gik не могут быть выбраны произвольно. В самом деле, интегрирование (8.19) относительно у дает маргинальную плотность для (Xz, Xft). Поэтому мы получаем условие согласованности + со gik(x, z)= J gij(x, y)gjk(y, z)dy — 00 (8.20) при всех i < j < k. Это есть частный случай уравнения Колмого- рова— Чепмена для марковских процессов1). Говоря очень при- близительно, это уравнение означает, что переход из х в момент i в z в момент k происходит через все промежуточные состояния yt причем переход от у к z не зависит от прошлого. Очевидно, что при любой системе переходных вероятностей gik, удовлетворяю- щих уравнению Колмогорова—Чепмена, схема умножения (8.19) *) Другие частные случаи встречались в 1, гл. XV, (13.3), и гл. XVII, (9.1). Заметим, что формула (8.19) представляет собой аналог определения (1.1) в 1, гл. XV, вероятностей для марковских цепей, за исключением того, что здесь суммирование заменено интегрированием и что были рассмотрены только стационарные переходные вероятности»
120 Гл. III. Многомерные плотности. Нормальные плотности и проц>ссы приводит к согласованной системе плотностей для (Хх, Х2, ..., Хг), и эта последовательность является марковской. Таким образом, мы пришли к следующему аналитическому дополнению теоремы 1. Теорема 2. Плотности семейства {gz-J тогда и только тогда могут служить переходными плотностями в нормальном марков- ском процессе, когда они удовлетворяют уравнению Колмогорова — Чепмена и когда gik (х, у) при каждом фиксированном х является нормальной плотностью относительно у. Обе теоремы содержат необходимые и достаточные условия, и поэтому они в некотором смысле эквивалентны. Тем не менее они имеют различную природу. Вторая из них на самом деле не ограничивается нормальными процессами; примененная к семей- ствам {Х(/)[, она приводит к дифференциальным и интегральным уравнениям для переходных вероятностей и на этом пути способ- ствует введению новых классов марковских процессов. С другой стороны, из теоремы 2 трудно угадать, что gik необходимо имеет вид (8.18)—результат, содержащийся в более специальной тео- реме 1. Для последующих ссылок и сравнений мы приводим здесь два наиболее важных марковских семейства {Х(/)}. Примеры, г) Броуновское движение или процесс Винера — Ба- шелье. Процесс определяется тем условием, что Х(0) = 0 и что при / >s величина Х(/) — X(s) не зависит от X(s) и имеет дис- персию, зависящую только от t—s. Иными словами, процесс имеет независимые приращения [пример а)] и стационарные пере- ходные вероятности [но он не стационарный, поскольку X (0) = 0]. Очевидно, что Е (X2 (/)) = о2/ и Е (X (s) X (/)) = cr2s при s<t. При т > t переходные плотности, характеризующие переход из (t, х) в (т, у), нормальны с математическим ожиданием х и дисперсией о2(т—t). Они зависят только от (у—х)/(т—t), и уравнения Кол- могорова—Чепмена сводятся к свертке. д) Процесс Орнстейна—Уленбека. Под этим понимается наи- более общий нормальный стационарный марковский процесс с ну- левыми математическими ожиданиями. Его ковариации опреде- ляются формулой (8.15). Иными словами, при т>£ переходные плотности, характеризующие переход из (/, х) в (т, у), нормальны с математическим ожиданием е-^-^х и дисперсией а2(1 — При т—>оо математическое ожидание стремится к нулю, а дис- персия к о2. Этот процесс был рассмотрен Орнстейном и Улен- беком с совершенно другой точки зрения. Его связь с диффу- зией будет обсуждена в гл. Х,4. ► § 9. ЗАДАЧИ 1. Рассмотрим Q—область на плоскости (площадью %), ограниченную четырехугольником с вершинами (0, 0), (1, 1), (0, У2), (%, 1) и треугольнич- ком с вершинами (У2, 0), (1, 0), (1, У2). (Единичный квадрат представляете^
§ 9. Задачи 121 объединением Q и области, симметричной Q относительно биссектрисы.) Пусть пара (X, Y) распределена равномерно на Q. Докажите, что частные распре- деления являются равномерными и что X-|-Y имеет такую же плотность, как если бы X и Y были независимыми1). Указание. Рисунок делает вычисления излишними. 2. Плотности с маргинальными нормальными плотностями. Пусть и — нечетная непрерывная функция на прямой, равная нулю вне интервала —1, 1. Если |ц| < (2ле)~1у/2, то выражение nWn(t/) + «(x)«(i/) изображает двумерную плотность, которая не является нормальной, но мар- гинальные плотности которой нормальны (Э. Нелсон). 3. Второй пример. Пусть фх и ф2—Две двумерные нормальные плотности с единичными дисперсиями, но с различными коэффициентами корреляции. Смесь -|"(ф1+ф2) не является нормальной плотностью, но две ее маргиналь- ные плотности совпадают с п. Замечание. В последующем все случайные величины рассматриваются в Векторные величины обозначаются парами (Хх, Х2) и т. д. 4. Пусть Хх, ...» Хп — независимые случайные величины с одинаковой плотностью f и функцией распределения F. Если X и Y являются соответст- венно наименьшей и наибольшей из них, то совместная плотность пары (X, Y) равна п (n-1) f (х) f (у) [F (y) — F (х)]”-2, у > х. 5. Покажите, что симметричное распределение Коши в 5J3 [определенное в (1.21)] соответствует случайному вектору, длина которого распределена с плотностью v (г) = 4л~1 г2 (14-г2)“2 при г > 0. Указание. Используйте полярные координаты и либо (1.15), либо же об- щее соотношение (10.4) гл. I для проекций. 6. Для распределения Коши (1.21) условная плотность Х3 при данных Хх, Х2 равна v. » (г) =2. . 0 + £1 + Вг)3 л (1 + ^ + ^+г2)2 ’ а двумерная условная плотность Х2, Х3 при условии, что Хх = ^1 равна V (и Ч-1 !+^2 ’(У' ’ л О+^+^+г2)2’ 7. Пусть 0 < а < 1 и f (х, #) = [(1-|-ах) (1 +«у)— а] е~х~У~ахУ ПрИ х > 0, у > 0 и f (х, у) = 0 в других случаях. а) Докажите, что f есть плотность пары (X, Y). Найдите маргинальные плотности и функцию распределения. б) Найдите условную плотность их (у) и Е (Y | X), Var (Y | X). 8. Пусть f—плотность, сосредоточенная на 0, оо. Положим и (х, у) = ==/ (*+у)1(х+у) пРи х > 0, у > 0 и и (х, у)=0 в других случаях. Докажите, что и есть плотность в ^i2, и найдите ее ковариационную матрицу. ____9. Пусть Хх, Х2, Х3 взаимно независимы и равномерно распределены на 0, 1. Пусть Х(х), Х(2>, Х(3) — соответствующие порядковые статистики. Найдите плотность пары Х(2)\ \Х(2) ’ Х(3)/ х) Иными словами, распределение суммы может быть задано сверткой, даже если величины зависимы. Этот интуитивно понятный пример предложен Гв Роббинсом, Другой парадокс такого же типа см, в гл, II, 4,д),
122 Гл. HI. Многомерные плбШбШй. НорМШьныё плбШРбсти и процессы и покажите, что эти два отношения независимы. Обобщите на п измерений. 10. Пусть Xf, Х2, Х3 независимы и одинаково показательно распределены. Найдите плотность (Х2—Xf, Х3 — Хх). 11. Частица единичной массы расщепляется на два осколка с массами X и 1 — X. Плотность f случайной величины X сосредоточена на 0, 1, и по со- ображениям симметрии f (%) — f (1—х). Обозначим наименьший осколок через Хх, а наибольший осколок через Х2. Предположим, что эти два осколка незави- симо друг от друга расщепляются таким же образом и дают в результате четыре осколка с массами Ххх, Х12, X2f, Х22. Найдите (а) плотность Хп, (б) совместную плотность Ххх и Х22. Используйте (б) для проверки (а). 12. Пусть Xi, Х2, ... независимы и имеют одну и ту же нормальную плотность п. Обозначим Sfe = Xi+...+ Х£. При т<п найдите совместную плотность (SOT, S„) и условную плотность для при условии, 4TOSW=/. 13. В предыдущей задаче найдите условную плотность Xx+.., + Xz2n при данном значении Хх+... + Хп. 14. Пусть (X, Y) имеет двумерную нормальную плотность, центрирован- ную в начале координат, с Е (Х2) = Е (Y2) = 1 и Е (XY) = p. При переходе к полярным координатам (X, Y) превращается в (R, Ф), где R2 = X2-|-Y2. До- кажите, что Ф имеет плотность, равную 2л (1 —2р sin ф cos ср) т и распределена равномерно тогда и только тогда, когда р = 0. Выведите, что P{XY > 0} = -i—|-л"1 arcsin р и P{XY < 0} = л-1 arccos р. 15. Пусть f—равномерная плотность в треугольнике с вершинами (0, 0), (0, 1), (1,0) и g—равномерная плотность в симметричном треугольнике в третьем квадранте. Найдите f*f и f^g. Предостережение. Требуется утомительное раздельное рассмотрение от- дельных интервалов. 16. Пусть f—равномерное распределение в единичном круге. Найдите f*f в полярных координатах. 17. Пусть и и v—плотности в 312 вида «(х, у) =f tfx2+y2), V (х, у) = g (Vx2-\-y2'). Найдите u^v в полярных координатах. 18. Пусть X = (Xi, ..., Хг) имеет r-мерную нормальную плотность. Су- ществует такой единичный вектор a = (ai, ..., аг), что Var (ахХх + ... -|-arXr) Var (cxXx + ... -\-crXr) для всех единичных векторов с = (сх, . сг). Если а=(1, 0, 0) — такой вектор, то Xf не зависит от остальных величин Ху. 19. Докажите теорему. Теорема. Пусть дана нормальная плотность в . Тогда оси координат могут быть повернуты таким образом, что новые координатные величины будут взаимно независимыми нормальными величинами. Иными словами, в теореме 2 из § 6 в качестве матрицы С может быть взята матрица вращения. Указание. Пусть Y = XC и матрица С выбрана так, что Yr = axXx+,.s+arXr, где a=(at, »*., аг) есть вектор из задачи 18. Остальное несложно. 20, Найдите общий нормальный стационарный процесс удовлетворяющий.
§ 9. Задачи 123 соотношениям: а) Хп+2 + Х„ = 0; б) Хп+2 —Хй = 0; В) ^72+3 ^П+2"Ь^72 + 1 Х„---О* 21. Сервостохастический процесс (Г. Д. Миллс). Сервомеханизм подвергается случайным толчкам, но в любое время могут быть введены поправки. Таким образом, ошибка Y72 в момент п имеет (в подходящих единицах) вид Yn+1 = = Y„+C„4-Xn+i, где Сй— поправка, а Хй— независимые нормально распре- деленные величины с Е(ХП)=О, Е(ХЙ) = 1. Величины Сй в принципе явля- ются произвольными функциями прошлых наблюдений, т. е. Y# и Х^ при k^n. Желательно выбрать их так, чтобы минимизировать дисперсию Var(Yn), которая представляет собой меру того, сколь хорошо работает механизм, и дисперсию Var(CJ, которая указывает, сколь тяжелы условия его работы. а) Рассмотрите ковариационную функцию {Yw} и покажите, что Var(Yn) 1. б) В предположении, что Var (Сй)—> a2, Var (Y„)—>о2 (тенденция к стационарности), покажите, что о > -|- (афсг1). в) Рассмотрите, в частности, линейную схему Сп = а—р (Yn—b), 0<р^1. Найдите ковариационную функцию и представление вида (7.8) для Yn. 22. Продолжение. Если существует запаздывание во времени в поступлении информации или корректировке, то модель остается, по существу, той же са- мой, за исключением того, что Сй следует заменить на Обсудите эту ситуацию.
ГЛАВА IV ВЕРОЯТНОСТНЫЕ МЕРЫ И ПРОСТРАНСТВА Как уже говорилось во введении, технический аппарат теории меры используется в этой книге лишь в небольшой степени, и для понимания большей ее части настоящая глава не нужна1). Тем не менее желательно дать краткий обзор важнейших понятий, обра- зующих теоретический фундамент книги, а также привести основ- ные теоремы для удобства ссылок. Лежащие в основе идеи и факты нетрудны, однако доказательства в теории меры включают в себя нагромождение технических деталей. Для начинающего и неспециа- листа подступ затрудняется многогранностью теории меры, а так- же разнообразием ее применений. Существуют превосходно напи- санные вводные курсы, однако материал в них в силу необходи- мости дается в слишком общей форме, и, кроме того, в них изла- гаются различные аспекты теории меры, не являющиеся существенными для настоящей книги. Даваемый ниже обзор содержит главным образом лишь то, что нужно для дальнейшего; многие доказатель- ства и технические детали опускаются2). (Следует отметить, что простота теории обманчива: значительно более трудные задачи тео- рии меры возникают в связи со случайными процессами, завися- щими от непрерывного временного параметра. Изложение условных математических ожиданий откладывается до гл. V, 10, 11; теорема Радона—Никодима содержится в гл. V, 3.) Формулы, относящиеся к евклидовым пространствам <йг, не за- висят от числа измерений, и х в них нужно понимать как сокра- щенную запись для (хх, ..., хг). х) Это относится к читателям, знакомым с основами теории меры, а также к тем читателям, которые интересуются главным образом результатами и фак- тами. Для удобства последних определение интеграла повторяется в гл. V, 1. За пределами этого материала они могут полагаться на свою интуицию, по- скольку, по существу, теория меры дает обоснование простым формальным действиям. 2) Бэровские функции и интегрирование по Лебегу — Стильтьесу превос- ходно изложены в книге Макшейна и Боттса, Е. J. McShane and Т. A Botts Real analysis, D. Van Nostrand, Princeton, 1959. Результаты общей теории меры широко используются в изложении Халмоша, см.: Халмош П. Р., Тео- рия меры, ИЛ, М., 1953, и Бурбаки, см.: N. Bourbaki, Elements de mathe- matiques [Livre VI, chapitres 3—5], Herman, Paris, 1952, 1956. Изложение общей теории меры с целью применения в теории вероятностей содержится в книгах Дуба, Крикеберга, Лоэва, Невё, Анникяна и Тортра. См. также Пар- тасарати К. Введение в теорию вероятностей и теорию мерьц—M»j Мир, 1983,
§ 1. Бэровские функции 125 § 1. БЭРОВСКИЕ ФУНКЦИИ Нам нужно указать класс множеств, для которых определены вероятности, а также класс функций, являющихся случайными величинами. Эти две задачи связаны между собой, и, более того, их изложение объединяется применением современных обозначений. Введем сначала эти обозначения и напомним определение сходимости в терминах монотонных пределов. Индикатором1') множества А называется функция, равная единице во всех точках А и равная нулю во всех точках множе- ства А', дополнительного к А. Индикатор А обозначается 1Л, так что 1А (х) = 1 при х£ А и 1 л (х) = 0 в противном случае. Каждому множеству отвечает его индикатор, и каждая функция, принимаю- щая лишь значения 0 и 1, является индикатором некоторого мно- жества. Если f—произвольная функция, то произведение \Af есть функция, равная / на А и нулю в остальных точках. Рассмотрим теперь пересечение С = АпВ двух множеств. Его индикатор 1С равен нулю, когда либо 1Л, либо 1а обращается в нуль, так что lc = inf (1Л, 1я), т. е. значение 1с равно наимень- шему из значений 1Л, 1В. Этот параллелизм отражается в обозна- чении f A g, которое используется вместо inf (/, g) для функции, равной в каждой точке х наименьшему из значений f (х) и g (x). Аналогично f U g=sup(/, g) обозначает наибольшее из двух значений2). Операторы Пии применимы к любому множеству функций. Обычно пользуются сокращенными обозначениями п п fxO...n/„= n fk, Au ...U/n=U fk. (1.1) k=l 6=1 По определению в каждой точке х эти функции равны соответст- венно минимуму и максимуму среди п значений /Х(х), • Если fk есть индикатор множества А*, то функции (1.1) являются индикаторами соответственно пересечения Ах А ..• А Ап и объедине- ния Ах и ... U Ап. Рассмотрим теперь бесконечную последовательность {/„}. Функ- ции, определяемые формулой (1.1), монотонны по п, так что пре- до до делы П fk и U/д, вполне определены, хотя, возможно, и беско- k=i k=i нечны. Для фиксированного / функция (1-2) . k-i х) Этот термин был введен Лоэвом. Более старый термин «характеристи- ческая функция» неудачен в теории вероятностей, поскольку его принято от- носить к другому объекту. 2) Многие авторы предпочитают символы А и V для функций, оставляя символы Пии для множеств. В нашем изложении двойные обозначения не дают никаких преимуществ,
126 Гл. IV. Вероятностные меры и пространства есть предел монотонной последовательности функций fj А ... А/у+д; сама последовательность {ауД тоже монотонна, именно wn = w1u ... со ... и wn. В наших обозначениях wn —> U wk. По определению wn(x) 1г=1 есть нижняя грань (инфимум) числовой последовательности fn (%), /и+1(%)» • • • • Следовательно, предел последовательности wn совпадает с нижним пределом lim inf так что lira inf f„= U n fk. (1-3) /=1 k=j При таком подходе нижний предел lim inf получается двумя по- следовательными переходами к пределу в монотонных последова- тельностях. Аналогичное справедливо и для верхнего предела lim sup fn, равенство (1.3) сохранится, если в левой его части lim inf заменить на lim sup, а в правой части значки А и и по- менять местами. Все сказанное переносится на множества. Так, например, по определению А = Нт Ап тогда и только тогда, когда 1л = Нт Un. Это означает, что последовательность множеств сходится к множеству А тогда и только тогда, когда каждая точка А при- надлежит всем Ап, за исключением не более чем конечного числа, и каждая точка дополнения А' принадлежит не более чем конеч- ному числу множеств А'п. Пример, а) Множество {Ап б. ч.}1). В качестве важного с ве- роятностной точки зрения примера предельных операций над мно- жествами рассмотрим событие Л, состоящее в «реализации беско- нечного числа событий из данной последовательности событий ЛП Л2, ...». [Частные случаи были рассмотрены в 1; гл. VIII, 3 (леммы Бореля—Кантелли), и в 1; гл. XIII (рекуррентные собы- тия).] На более формальном языке это означает, что точка х при- надлежит множеству А тогда и только тогда, когда она принад- лежит бесконечному числу множеств последовательности Поскольку индикаторы могут принимать лишь два значения 0 и 1, то данноб определение равносильно следующему: 1Л = lim sup 1дп. В обычных обозначениях это записывается как A=limsup Л„, однако обозначение {Ллб.ч.} (читается Ап «бесконечно часто») более при- ятно и наглядно. Оно было введено Чжуном и теперь общепринято в вероятностной литературе. ► х) В подлиннике «Ап i. о» (infinitely often).— Прим, перев. *) В принципе мы интересуемся лишь конечнозначными функциями, од- нако иногда удобно допустить также в качестве возможных значений ± оо. На- пример, простая теорема, утверждающая сходимость всякой монотонной последо- вательности, неверна для конечнозначных функций, а без нее многие формули- ровки становятся тяжеловесными. По этой причине мы следуем обычному соглашению^ по которому все функции прщу^упот. значения из расширенной
§ 1. Бэровские функции 127 Наша следующая задача—ограничить класс функций1) на с которыми мы предполагаем иметь дело. Понятие произвольной функции слишком общо, чтобы быть полезным для наших целей. Более подходящим является модернизированный вариант эйлеро- вого определения функции. Если считать, что непрерывные функ- ции заданы, то единственный эффективный способ конструирования новых функций состоит в предельных переходах. Оказывается, все наши потребности будут удовлетворены, если мы будем знать, как обращаться с функциями, являющимися пределами последователь- ностей {fn\ непрерывных функций или пределами последователь- ностей, в которых каждая fn является таким пределом и т. д. Иными словами, нам интересен класс 23 функций, обладающий следующими свойствами: 1) каждая непрерывная функция принад- лежит 23 и 2) если функции Д, /2, ... принадлежат 23 и предел f (%) = lim fn (%) существует при всех %, то f тоже принадлежит 23. Такой класс называется замкнутым относительно поточечных пре- делов. Ясно, что такие классы существуют, например класс всех функций. Пересечение всех таких классов является замкнутым се- мейством и образует, очевидно, наименьший такой класс. Разумно ограничить наши рассмотрения этим наименьшим классом. Наименьший замкнутый класс функций, содержащий все не- прерывные функции, называется классом Бэра и будет обозначаться 23. Функции из 23 называются бэровскими функциями2). Понятие бэровской функции будет использоваться не только по отношению к функциям, заданным на всем пространстве, но и по отношению к функциям, определенным лишь на некотором подмножестве (например, Ух и logx в случае пространства 541). Из данного определения ясно, что сумма и произведение двух бэровских функций тоже являются бэровскими функциями. Более того, если до—непрерывная функция от г переменных и /х, . .. , fr — бэровские функции, то функция w (/х, ..., fr) тоже бэровекая. Заменяя w на wn и переходя к пределу, можно показать, что вообще всякая бэровекая функция от бэровских функций есть бэровекая функция. Фиксация значений одной или нескольких переменных приводит опять к бэровской функции и т. д. Короче говоря, никакая из обычных операций над бэровскими функциями не выходит за пределы класса 23, и, следовательно, класс 23 пред- ставляет собой естественный объект для изучения. Оказывается^ что никакого упрощения не достигается^ если ограничиться мень- шими классами. вещественной прямой, т. е. их значения суть числа или ±оо. На практике значения ±оо не будут играть роли. Чтобы сумма и произведение двух функций были определены, вводят следующие соглашения: оо + оо = оо, со — оо = 0, оо«оо = оо, 0- оо = 0 и т. д. 2) Это определение основано лишь на понятии непрерывности и не зави- сит от других свойств евклидовых пространств. Его, следовательно, можно перенести на любое топологическое пространство.
128 Гл. IV. Вероятностные меры и пространства § 2. ФУНКЦИИ ИНТЕРВАЛОВ И ИНТЕГРАЛЫ В Интервалом мы будем называть множество точек, удовлетво- ряющих двойному неравенству одного из следующих четырех типов (попутно вводятся очевидные обозначения): ____ —। а, Ь: а х <_Ь а, Ь: I---1 I- а, Ь: а^х^Ь а,Ь: а^х<Ь. В одномерном случае выписанные неравенства исчерпывают все возможные интервалы, включая вырожденный интервал нулевой длины. В двумерном случае эти неравенства понимаются в поко- ординатном смысле, и интервалы представляют собой (возможно,3 вырожденные) прямоугольники со сторонами, параллельными осям координат. При числе измерений, большем или равном двум,; возможны и другие типы интервалов, однако мы их исключаем из рассмотрения. Допускается предельный случай, когда одна или более координат а или b равны ±оо. В частности, все простран- ство есть интервал —оо, оо. Функция точек f сопоставляет значения f (х) отдельным точ- кам. Функция множеств F сопоставляет значения отдельным мно- жествам или областям пространства. Объем в <й3, площадь в <й2 или длина в «%1 являются типичными примерами функций мно- жеств. Помимо этих есть много других функций множеств, и среди них вероятности представляют собой наиболее интересный для нас частный случай. Мы будем интересоваться лишь функциями множеств, обладающими следующим свойством: если множество А разбито на две части и Л2, то Г{Л} = /7{Л1} + /7{Л2}. Такие функции называются аддитивными1). Как мы видели, вероятности F {/} часто определены для всех интервалов r-мерного пространства 91\ и их желательно до- определить на более общих множествах. Та же самая задача воз- никает в элементарном анализе, где площадь первоначально опре- делена только для прямоугольников, и желательно определить ее для общей области А. Простейший подход состоит в том, что сначала определяется интеграл от функции двух переменных и затем «площадь А» приравнивается к интегралу от индикатора 1л (т. е. к функции, равной 1 на Л и обращающейся в нуль вне Л). Аналогично мы определим интеграл Е(и) = $ u(x)F{dx\ (2.1) !) Вот несколько примеров аддитивных функций из практики: масса и коли- чество тепла в области, цена земли, площадь под пшеницей и число жителей в географическом районе, ежегодная добыча угля, расстояние, которое проле- тел пассажир, или число израсходованных киловатт-часов в течение некото- рого периода., число телефонных вызовов и т. д,
§ 2. Функции интервалов и интегралы в Slr 129 от функции точек и по отношению к функции интервалов F. Вероятность А определяется затем как Е(1Л). При построении интеграла (2.1) неважно, как интерпретируется функция F, и мы, по существу, дадим общее понятие интеграла Лебега—Стильтьеса. Приступим теперь к аккуратному выполнению намеченной про- граммы. Пусть F—функция, сопоставляющая каждому интервалу / конечное значение F {/}. Такая функция называется (конечно) аддитивной, если для каждого разбиения интервала I на конеч- ное число непересекающихся интервалов 1п = (2.2) Примеры, а) Распределения в 311. В первом томе мы рассмат- ривали дискретные вероятностные распределения, сопоставляю- щие вероятности pt, р2, ... точкам аь а2, ... . Здесь F {/} есть сумма масс рп во всех точках ап, содержащихся в I, и Е (и) = = S «(«„) Рп- б) Если G—какая-либо непрерывная монотонная функция, возрастающая от 0 на —оо до 1 на оо, то можно положить F{aTb} = G(b) —G(a). в) Случайные векторы в М2. Вектор единичной длины выходит из начала координат в случайном направлении. Вероятность того, что его конечная точка лежит в двумерном интервале I, пропор- циональна длине дуги, по которой I пересекается с единичной окружностью. Определяемое здесь непрерывное распределение вероятностей не имеет плотности. Оно сингулярно в том смысле, что вся вероятность сосредоточена на окружности. Можно думать, что такие распределения искусственны и что в рассматриваемом случае скорее окружность, а не плоскость должна быть естест- венным выборочным пространством. Это возражение неоснова- тельно, поскольку сумма двух таких независимых случайных век- торов может принять любое значение между 0 и 2, и имеет положительную плотность в круге радиуса 2 (см. V, пример 4, д)). Следовательно, в некоторых задачах, связанных с единичными случайными векторами, плоскость является естественным выбороч- ным пространством. Во всяком случае, нашей целью было только показать на простом примере, что может происходить в более сложных ситуациях. г) В заключение приведем пример, иллюстрирующий одно обстоятельство, которое будет исключено в дальнейшем. В про- странстве положим F{I} = 0 для любого интервала I = b с &<оо и F{/}==1, когда 1~а, оо. Так определенная функция интервалов, будучи аддитивной, является патологической в том смысле, что она не удовлетворяет естественному требованию не- прерывности, согласно которому F {а, Ь\ должно стремиться к F {а, оо} при Ь —>оо4 > S Ns 24Э
130 Гл. IV. Вероятностные меры и пространства Последний пример показывает, что желательно усилить требо- вание (2.2) конечной аддитивности. Мы скажем, что функция ин- тервалов F счетно- или ^-аддитивна* если для каждого разбиения интервала I на счетное число интервалов /х, /2, ... (2.3) «Счетное число» обозначает либо конечное число, либо бесконеч- ное счетное число. Термины «вполне аддитивная» и «счетно-адди- тивная» означают одно и то же. Условие (2.3) явно нарушено в последнем примере. В дальнейшем мы будем рассматривать только счетно-аддитив- ные функции множеств. Это ограничение, с одной стороны, позво- ляет успешно развить теорию, а с другой—может быть оправдано a priori на эвристической и прагматической основе. В самом деле, если Ап^1г и ... U 1п есть объединение первых п интервалов, то Ап—>/. Можно считать, что «при достаточно большом/i Ап пра- ктически неотличимо от /». Если значения функции F могут быть найдены ив экспериментов, то должно быть «практически неотличимо» от F {I}* т. е. F должно стремиться к F {Z}1). Счетная аддитивность (2.3) и есть точное выражение этого тре- бования. Поскольку нас интересуют в первую очередь вероятности, мы ограничимся рассмотрением лишь неотрицательных функций ин- тервалов F* нормированных условием F\—оо, оо}==1. Требова- ние нормированности не накладывает никаких серьезных ограни- чений, когда F{—оо, оо}<оо, однако исключает такие функции интервалов, как длина в Я1 или площадь в $12. Чтобы использо- вать излагаемую ниже теорию в подобных случаях, достаточно разбить прямую или плоскость на единичные интервалы и рас- сматривать их по отдельности. Этот прием так очевиден и настолько хорошо известен, что не требует никаких дальнейших пояснений. Функция на ЗУ называется ступенчатой функцией* если она принимает лишь конечное число значений, причем каждое значе- ние на некотором интервале. Пусть ступенчатая функция и при- нимает значения а±* ..., ап на интервалах ..., 1п (т. е. с вероятностями F{/J, .Р{1п\) соответственно. По аналогии с определением математического ожидания дискретных случайных величин положим E{u)^a1F{I1\^...^anF{In}. (2.4) [Конечно, разбиение пространства на интервалы, на которых функция и постоянна, не единственно, однако, как и в дискрет- ном случае, легко видеть, что определение (2.4) не зависит от разбиения.] Математическое ожидание Е (а) обладает следующими свойствами: х) См. Колмогоров А.Н. Основные понятия теории вероятностей, изд, 2, 1975, стр4 27,— npUMt перев^
5 2. Функции интервалов и интегралы в 131 а) Аддитивностью относительно линейных комбинаций: Е (аг«, + а2н2) = о^Е (mJ + а3Е (м2). (2.5) б) Положительностью} если и 0, то Е (и) 0. (2.6) в) Нормированностью\ для функции, равной во всех точках 1, Е(1) = 1. (2.7) Последние два свойства эквивалентны теореме о среднем зна- чении] если то а^Е(ц)^р, так что функция Е(и) представляет собой один из видов среднего значения1}. Теперь задача состоит в том, чтобы продолжить определение Е (и) на более широкий класс функций с сохранением свойств (а) — (в). В классическом интегрировании по Риману используется тот факт, что для каждой непрерывной функции и на 0, 1 су- ществует последовательность ступенчатых функций ип, для кото- рой ип—>и равномерно на 0, 1. По определению полагают Е(и)= ==limE (£/„). Оказывается, что требование равномерной сходимости необязательно, и то же самое определение Е (и) можно использо- вать, когда сходимость ип —+и лишь поточечная. Таким способом Е (ц) можно продолжить на все ограниченные бэровские функции, и это продолжение единственно. При распространении Е(ц) на неограниченные функции неизбежно появляются расходящиеся интегралы, однако, по крайней мере для положительных бэровских функций, можно определить Е (и) либо как число, либо как сим- вол оо (указывающий расходимость). Никаких неприятностей в связи с этим не возникает, поскольку в лебеговской теории интегрирования рассматривается лишь абсолютная интегрируемость. Грубо говоря, исходя из определения (2.4) математического ожи- дания для простых функций, можно доопределить Е(ц) для про- извольных бэровских функций, используя очевидные приближения и переходы к пределу. Так определенное число Е (и) есть инте- х) Когда функция F задает вероятности, среднее Е (и) можно интерпре- тировать как ожидаемый выигрыш игрока, возможные выигрыши которого суть а/, а2> . Чтобы интуитивно осознать смысл среднего в других ситуа- циях, рассмотрим три примера, в которых и (х) является соответственно тем- пературой во время х, числом телефонных разговоров во время х, расстоя- нием материальной точки от начала координат, a F представляет собой соот- ветственно длительность временного интервала, цену временного интервала (цену разговора) и механическую массу. В каждом случае интегрирование производится лишь по конечному интервалу и Е (и) есть соответственно средняя температура, накопленный доход и статический момент. Эти примеры пока- зывают, что определенное нами интегрирование по отношению к произвольной функции множеств проще и нагляднее, чем интегрирование по Риману, в ко- тором независимая переменная играет несколько ролей и интерпретация как «площадь под кривой» ничуть не помогает начинающему. Следует иметь в виду, что понятие среднего (математического ожидания) встречается не только в теории вероятностей. 5*
132 Гл. IV. Вероятностные меры и пространства грал Лебега—Стильтьеса от функции и по отношению к F. (Когда функция F фиксирована, более предпочтителен термин «матема- тическое ожидание» — никаких двусмысленностей при этом не воз- никает.) Ниже приводится без доказательства1) основной факт лебеговской теории; его природа и значение будут проанализиро- ваны в следующих параграфах. [Конструктивное определение Е (ц) дается в § 4.] Основная теорема. Пусть F—счетно-аддитивная функция ин- тервалов в 31г и F\—оо, оо} = 1. Существует единственный ин- теграл Лебега—Стильтьеса Е(ц) на классе бэровских функций, обладающий следующими свойствами'. Если и^ 0, то Е (и) равно либо неотрицательному числу, либооо. В случае произвольного и Е(и) существует тогда и только тогда, когда либо Е (и+), либо Е (ц“) конечно', при этом Е(и) = Е(ц+) — Е(и~). Функция и называется интегрируемой, если Е(и) конечно. Далее (i) если и—ступенчатая функция, то Е (и) дается формулой(2А); (ii) условия (2.5)—(2.7) выполняются для всех интегрируемых функций', (iii) (принцип монотонной сходимости) если и ип интегпируемы, то Е (и^ —> Е (и). Сделав замену переменных vn = un+1—ип, можно переформу- лировать принцип монотонной сходимости в терминах рядов: Если vn интегрируемы и vn^0, то £E(v„) = E(£vn), (2.8) причем обе стороны равенства конечны или бесконечны одновре- менно. Отсюда, в частности, следует, что если v и 0 и Е (и)= оо, то также Е (у) = оо. Что будет, если в (iii) условие монотонности отбросить? Ответ на этот вопрос содержится в следующей важной лемме, имеющей широкую область применений. Лемма Фату. Если ип^0 и ип интегрируемы, то Е (lim inf и^ С lim inf Е (и^. (2.9) В частности, если ип—>и, то lim inf Е (и^ Е (и). Доказательство. Положим vn = unnun+i А .... Тогда ип^и„ и, следовательно, E(vn)^E(un). Но (как мы видели в § 1) vn монотонно стремится к lim inf ип, так что E(t/J стремится к левой части в (2.9) и лемма доказана. [Отметим, что обе стороны неравенства (2.9) могут быть равны оо.] ► *•) Метод доказательства намечен в § 5. Как обычно и+ и обозначают положительную и отрицательную части и, т. ев ^+=w|jO и —^“’ = ^П0. Очевидно5 u=w+—
$ 2. Функции интервалов и интегралы в 133 Приводимый ниже пример д) показывает, что условие поло- жительности не может быть отброшено, однако его можно заме- нить на формально более слабое условие, состоящее в том, что существует интегрируемая функция U, для которой unZ^U (до- статочно заменить ип на ип—U). Заменяя ип на —ип, устанав- ливаем следующий результат: если un<U и E(t/)<oo, то lim sup Е (w„) Е (lim sup и^. (2,10) Для сходящихся последовательностей левая часть неравенства (2.9) совпадает с правой частью неравенства (2.10), и мы получаем следующий важный Принцип мажорированной сходимости. Пусть ип интегрируемы и ип—>и поточечно. Если существует интегрируемая функция U9 такая, что | ип | <1 U при всехп, то и интегрируема и Е (ип) —> Е (и). Эта теорема относится к единственному месту в лебеговской теории интегрирования, где наивные формальные действия могут привести к неверному результату. Необходимость условия | ип | ^(7 иллюстрируется нижеследующим примером. ।--1 Пример, д) Рассмотрим 0, 1 в качестве исходного интервала и определим математическое ожидание с помощью одномерного интеграла (по отношению к длине). Положим ип (х) == (п + 1) (п + 2) х хх"(1—х). Эти функции стремятся к нулю в каждой точке, но 1 = Е(^„)—>1. Заменяя ип на —ип, видим, что неравенство Фату (2.9) может не выполняться для неположительных функций. ► Отметим без доказательства одно правило обычного интеграль- ного исчисления, применимое и в более общей ситуации. Теорема Фубини о повторных интегралах. Если и^О — бэров- ская функция и F, G—вероятностные распределения, то с оче- видной интерпретацией в случае расходящихся интегралов имеет место равенство ОО ОО 00 00 J F {dx\ J и(х, y)G{dy} = J G {dy} J и (х, y)F\dx}. — 00 — 00 — 00 — 00 (2.П) Здесь х и у можно понимать как точки в 9im и 3U1, и теорема содержит в себе утверждение, что оба внутренних интеграла суть бэровские функции. (Эта теорема применима к произведению произвольных пространств, и более общий ее вариант приводится В § 6.) , > Теорема об аппроксимации в среднем. Для всякой интегрируе- мой функции и и любого е > 0 можно найти ступенчатую функ- цию v, такую, что Е (| и—v j) < &.
134 Гл. IV. Вероятностные меры и пространства Вместо ступенчатых функций можно использовать аппроксима- цию посредством непрерывных функций или посредством функций, бесконечное число раз дифференцируемых и равных нулю вне не- которого конечного интервала. [Сравните с теоремой об аппрок- симации из примера VIII, 3, а).] Замечание об обозначениях. Обозначение Е(и) подчеркивает зависимость от и и хорошо применимо в тех случаях, когда функция интервалов Р фиксирована. Если F меняется или нужно подчеркнуть зависимость от F, то предпочтительнее интегральное обозначение (2.1). То же самое относится к интегралам по под- множеству Л, поскольку интеграл от и по подмножеству А есть (по определению) интеграл от произведения \Аи по всему про- странству J и(х) F \dx}==E(\Au) А (при этом предполагается, конечно, что индикатор 1л есть бэров- ская функция). Обе части выписанного равенства означают в точ- ности одно и то же, причем выражение, стоящее в левой части, подчеркивает зависимость от F. Когда A —a, b есть интервал, ь иногда предпочитают обозначение , однако чтобы сделать его а точным, необходимо указать, включаются ли в интервал его ко- нечные точки. Это можно сделать, используя запись а+ или а—. > В соответствии с намеченной в начале этого параграфа про- граммой вероятность множества А полагается теперь, по опреде- лению, равной Е(1л) для всех множеств, для которых 1А есть бэровская функция. Для множеств, нё обладающих этим свойством, вероятности не определяются Теперь мы обсудим следствия из данного определения в более общей ситуации произвольного вы- борочного пространства. § 3. n-АЛГЕБРЫ. ИЗМЕРИМОСТЬ В дискретном случае можно было определить вероятности для всех подмножеств выборочного пространства <5, однако в общем случае это или невозможно, или нежелательно. В предыдущих главах мы рассматривали специальный случай евклидовых про- странств W и начинали с того, что приписывали вероятности всем интервалам. В § 2 было показано, что такое определение вероятностей может быть естественным образом распространено на более широкий класс множеств 21. Основные свойства этого класса таковы.’
§ 3. о-алгебры. Измеримость 135 (i) Если множество А принадлежит 31, то 31 принадлежит также его дополнение Д' = @—А. (ii) Для произвольной счетной системы {ДД множеств из 31 объединение и Ап и пересечение А Ап множеств Ап также при- надлежит 3L Короче говоря, класс 31 замкнут относительно образования счетных объединений и пересечений, а также дополнений. Как было показано в § 1, отсюда также следует, что верхний и ниж- ний пределы любой последовательности {ДД множеств из 31 снова принадлежат 31. Иными словами, ни одна из известных операций, производимых над множествами из 31, не приведет нас к множе- ствам, лежащим за пределами 31, и поэтому не возникает необхо- димости рассматривать какие-либо другие множества. Эта ситуация типична настолько, что вообще вероятности будут приписываться только классу множеств со свойствами (i) и (ii). Введем поэтому следующее определение, которое применимо к произвольным ве- роятностным пространствам. Определение 1. о-алгеброй1) называется семейство 31 подмно- жеств данного множества ©, обладающее свойствами (i) и (ii). Для любого заданного семейства $ подмножеств наимень- шая а-алгебра, содержащая все множества из $, называется а-алгеброй, порожденной В частности, множества, порожденные интервалами из называются борелевскими множествами в Э1Т. В том, что наименьшая а-алгебра, содержащая $, существует, можно убедиться с помощью рассуждений, используемых при определении бэровских функций в § 1. Заметим, что любая а-ал- гебра содержит пространство поскольку ® представимо в виде объединения любого множества А и его дополнения. Примеры. Наибольшая а-алгебра содержит все подмножества Эта алгебра была нам очень полезна в дискретных пространствах, однако в общем случае она слишком обширна, чтобы ее можно было использовать. Другим крайним случаем является тривиаль- ная алгебра, состоящая только из всего пространства и из пустого множества. В качестве нетривиального примера рассмотрим мно- жества на действительной прямой, обладающие тем свойством, что если х£А, то все точки х±1, х±2, ... тоже принадле- жат А (периодические множества). Очевидно^ семейство таких множеств образует а-алгебру. ► х) Алгебра множеств определяется аналогичным образом, но с заменой слова «счетный» в (ii) на слово «конечный», а-алгебру иногда называют «бо- релевской алгеброй», но это ведет к противоречию с последней частью дан- ного определения. (Интервалы в этом определении можно заменить на откры- тые множества, и тогда это определение применимо к произвольным тополо- гическим пространствам.)
136 Гл. IV. Вероятностные меры и пространства Наш опыт подсказывает нам, что главный объект теории вероят- ностей—это случайные величины, т. е.- некоторые функции, опре- деленные на выборочном пространстве. Мы хотим связать с каждой случайной величиной ее функцию распределения, и для этого нам нужно, чтобы событие {Х^/} имело бы определенную вероятность. Это рассуждение приводит -нас к следующему определению. Определение 2. Пусть 31—произвольная о-алгебра подмножеств <&. Действительная функция и, определенная на называется ^.-измеримой1), если для любого действительного t множество всех точек х, для которых u(x)^.t, принадлежит 31. Множество точек х, для которых ы(х)</, представляет со- бой объединение счетной совокупности множеств с тем свойством, что u(x)^t—п~г, и поэтому оно принадлежит §1. Так как 31 замкнуто относительно взятия дополнения, то отсюда следует^ что в определении 2 знак может быть заменен на <, > или Из определения следуем что Э1-измеримые функции образуют замкнутое семейство в том смысле, который указан в § 1. Следующая простая лемма часто оказывается полезной. Лемма 1. Функция и ^-измерима тогда и только тогда, ко- гда она является равномерным пределом последовательности про- стых функций., т. е. таких функций, которые принимают только счетное число значений, причем каждое на множестве из SI. Доказательство. По определению любая простая функция 31 измерима. Вследствие замкнутости класса 31-измеримых функций любой предел последовательности простых функций снова является ^[-измеримой функцией. Обратно, пусть и—31-измеримая функция. При фиксированном е > 0 определим множество А„ как множество всех точек х, для которых (п—1) 8 < и (х) пе. Здесь целое п меняется от —оо до оо. Множества Ап взаимно исключают друг друга, а их объе- динение составляет все пространство ©. На множестве Л„ опре- делены ое(х) = (п—1)е и o£(x) = ns. Этим путем мы получим две функции ое и а£, определенные на ® и такие, что а8<и<а8, о£—ое=е (3.1) во всех точках х. Очевидно, что и есть равномерный предел сте и о£ при 8—>-0. Лемма 2. В 91г класс бэровских функций тождествен классу функций, измеримых относительно о-алгебры 31 борелевских мно- жеств. ') Использование этого термина, по существу, преждевременно, поскольку мера еще не введена.
§ 3. о-алгебры. Измеримость 137 Доказательство, (а) Очевидно, что любая непрерывная функ- ция измерима по Борелю. Далее, эти функции образуют замкну- тый класс, тогда как бэровские функции образуют наименьший класс, содержащий все непрерывные функции. Таким образом,; всякая бэровекая функция измерима по Борелю. (б) Предыдущая лемма показывает, что для обратного утверж- дения достаточно показать, что любая простая измеримая по Борелю функция является бэровской функцией. Это равносильно утверждению, что для всякого борелевского множества А инди- катор 1Л является бэровской функцией. Таким образом, борелев- ские множества могут быть определены следующим образом! мно- жество А является борелевским тогда и только тогда,, когда его индикатор 1Л принадлежит наименьшему замкнутому классу, со- держащему все индикаторы интервалов. Поскольку бэровские функции образуют замкнутый класс, содержащий все индикаторы интервалов1), то отсюда вытекает, что 1Л есть бэровекая функция для любого борелевского множества А. Применим этот результат в частном случае евклидова прост- ранства 91г. В § 2 мы начинали с вполне аддитивных функций интервалов и определяли Р {Л} = Е (1Л) для каждого множества Л, индикатор 1А которого есть бэровекая функция. Из предыдущего видно, что при такой процедуре вероятность Р{Л} определена тогда и только тогда, когда А есть борелевское множество. Аппроксимация борелевских множеств интервалами. Ввиду последнего замечания вероятности в , как правило, определяются на о-алгебре боре- левских множеств. Поэтому важно то, что любое борелевское множество А может быть аппроксимировано множеством В, состоящим из конечной сово- купности интервалов. Точнее, для любого е > О существует множество С, такое, что Р {С} < в и вне С множества А и В совпадают (т. е. точка из дополнения С' либо принадлежит А и В одновременно, либо не принадлежит ни тому, ни другому множеству. В качестве С можно взять объединение Л —АВ и В — АВ). Доказательство. В силу теоремы об аппроксимации в среднем из § 2 существует ступенчатая функция для которой Е (| 1Л—v |) < 8/2. Возьмем в качестве В множество таких точек х, в которых v (х) > 1/2. По- скольку и—ступенчатая функция, то В состоит из конечного числа интерва- лов. Легко проверить, что ' Е I U W-h W / <2Е | 1 л (х)-о(х) | < 8 при всех х. Но | 1л—1д| есть индикатор множества С; состоящего из всех точек, которые принадлежат либо А, либо В, но не обоим этим множествам одновременно. Из последнего неравенства следует, что Р {С} < 8, и на этом доказательство завершается. х) Чтобы убедиться в этом для открытого интервала /, определим v как непрерывную функцию, равную нулю вне / и такую, что 0 < о (х) <11 при х$Д9 Тогда v —> 1 /.
138 Гл. IV. Вероятностные меры и пространства § 4. ВЕРОЯТНОСТНЫЕ ПРОСТРАНСТВА. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ Мы теперь в состоянии описать общую конструкцию, исполь- зуемую в теории вероятностей. Каково бы ни было выборочное пространство ©, вероятности будут приписываться только мно- жествам соответствующей сг-алгебры 31. Поэтому начнем со следу- ющего определения. Определение 1. Вероятностной мерой Р на в-алгебре 31 под- множеств © называется функция, наделяющая каждое множество числом Р{Д}>0, таким, что Р^{©}==1, и для любого счет- ного семейства взаимно непересекающихся множеств Ап из 31 вы- полняется равенство Р{ил„Н2рМлЬ С4-1) Это свойство называется вполне аддитивностью, и вероятностная мера может быть описана как вполне аддитивная неотрицательная функция множества на 31, подвергнутая нормировке1) Р {©}=*!. В отдельных случаях можно выбрать подходящую а-алгебру и построить на ней вероятностную меру. Эти процедуры меняются от случая к случаю, и невозможно отыскать общий метод. Иногда можно приспособить подход, используемый в § 2, для построения вероятностной меры на борелевских множествах пространства Ж. Типичный пример дает последовательность независимых случайных величин (§ 6). Исходным пунктом любой вероятностной задачи служит выборочное пространство, в котором выбрана а-алгебра с соответствующей вероятностной мерой. Это приводит к следую- щему определению. Определение 2. Вероятностным пространством называется тройка (©, 31, Р), состоящая из выборочного пространства ©, о-алгебры 3t подмножеств © и вероятностной меры Р на 31. Конечно, не любое вообразимое вероятностное пространство представляет собой интересный объект, однако данное определение включает в себя все, что требуется для формального развития теории, следуя схеме первого тома, и было бы бесплодным обсуж- дать заранее типы вероятностных пространств, которые могут встретиться на практике. Случайные величины суть функции, определенные на выбороч- х) Условие Р{©}=1 вводится лишь для нормировки, и никаких сущест- венных изменений не произойдет, если его заменить на Р {©} < оо. В этом случае мы получаем пространство с конечной мерой. В теории вероятностей в связи с различными обстоятельствами возникают ситуации, когда Р{©} < 1. В этом случае Р называют несобственной вероятностной мерой. Даже условие Р {©} < оо может быть ослаблено: можно потребовать лишь, чтобы © было объединением счетного числа подмножеств для которых Р {©„} < оо. (Ти- пичными примерами являются длина н площадь.) Такие меры называют о-ко- печными.
§ 4. Вероятностные пространства. Случайные величины 139 ном пространстве, но в теории вероятностей используются только те функции, для которых можно определить функцию распреде- ления. Определение 2 в § 3 было введено и как раз применительно к этой ситуации и приводит к определению 3. Определение 3. Случайной величиной X называется действитель- ная функция, которая измерима относительно исходной а-алгебры §1. Функция F, определенная равенством F = Р {Х^т}, называется функцией распределения случайной величины X. Исключение из рассмотрения функций, не являющихся случай- ными величинами, возможно в силу того, что, как мы сейчас увидим, все обычные операции, такие, как вычисление сумм или других функций, переходы к пределу и т. д., могут быть произведены внутри класса случайных величин без выхода за его границы. Прежде чем выразить это более точно, заметим, что случайная величина X отображает выборочное пространство @ в действитель- ную прямую 91х таким образом, что множество из ©, для кото- —| рого а<Х^Ь, отображается в интервал а, b с соответствующей вероятностью F (Ь)—F(a). Следовательно, каждый интервал / из Si1 получает вероятность FВместо интервала / можно взять произвольное борелевское множество Г в и рассмотреть мно- жество А таких точек из для которых значение X принадлежит Г. Символически 4 = {Х£Г}. Ясно, что система всех таких множеств образует о-алгебру которая может совпадать с 31, но обычно меньше. Будем называть о-алгеброй, порожденной случайной величиной X. Ее можно описать как наименьшую о-алгебру в относительно которой X измерима. Случайная величина X отобра- жает всякое множество из 311 в борелевское множество Г на пря- мой и, следовательно, соотношение = определяет единственную вероятностную меру на о-алгебре борелевских мно- жеств 91х. Для интервала / = а, b имеем Л(/) = /7(&)— F (а), и потому F совпадает с единственной вероятностной мерой в 911, которая связана g функцией распределения F так, как описано в § 2. Эти рассуждения показывают, что, пока мы имеем делос какой- либо отдельной случайной величиной X, мы можем забыть о перво- начальном выборочном пространстве и делать вид, что вероятностное пространство есть прямая 9F со-алгеброй борелевских множеств на нем и с мерой, индуцированной посредством функции распре- деления F. Мы видим, что в класс бэровских функций совпа- дает с функциями, измеримыми по Борелю. Выбор в качестве выборочного пространства означает, что класс случайных величин совпадает с классом функций, измеримых по Борелю. По отноше- нию к исходному выборочному пространству это означает, что семейство бэровских функций от случайной величины X совпадает с семейством всех функций, которые измеримы относительно
140 Гл. IV. Вероятностные меры и пространства o'-алгебры порожденной X. Поскольку Э(1с=3(,то отсюда сле- дует, что любая бэровекая функция X снова является случайной величиной. Эти доводы переносятся без изменения на конечные совокуп- ности случайных величин. Таким образом, вектор (Хп Хг) отображает в W так, что открытому интервалу в соответ- ствует множество в ©, для которого имеют место г соотношений вида ak < Xk < bk. Это множество 31-измеримо, так как оно яв- ляется пересечением г таких множеств. Как и в случае одиночной случайной величины, можно определить в-алгебру порожденную Xi, ..., Хг, как наименьшую о-алгебру множеств из S, относи- тельно которой г случайных величин измеримы. Получаем основ- ную теорему. Теорема. Любая бэровекая функция от конечного числа случай- ных величин тоже есть случайная величина. Случайная величина U является бэровской функцией переменных Хп Хг, если она измерима относительно а-алгебры, порожден- ной Х£, ..., Хг. Примеры, а) На прямой 5J1 с X как координатной случайной величиной функция X2 порождает о-алгебру борелевских множеств, которые являются симметричными относительно начала координат (в том смысле, что если х^А, то и —х£Д). б) Рассмотрим 513 с координатными случайными величинами Xi, Х2, Х3 и о-алгеброй борелевских множеств. Пара (Хх, Х2) порождает семейство всех цилиндрических множеств с образующими, параллельными третьей оси, и основаниями, которыми служат борелевские множества на (Хх, Х2)-плоскости. ► Математические ожидания В § 2 мы начинали с функции интервалов вЖи использовали ее для построения вероятностного пространства. Там мы считали, что удобно сначала определить математические ожидания (интег- ралы) и затем определить вероятности борелевского множества А как математическое ожидание Е (1Л) его индикатора. Если начинать с вероятностного пространства, то процедура должна быть обратной: вероятности заданы ,и нужно определить математические ожидания случайных величин в терминах данных вероятностей. К счастью, эта процедура крайне проста. Как и в предыдущем параграфе, мы будем говорить, что слу- чайная величина U является простой, если она принимает только счетное число значений а1У а2, ... , каждое на множестве Ду, принадлежащем основной о-алгебре 31. К таким случайным вели- чинам применима дискретная теория первого тома, и мы определим
§ 4. Вероятностные пространства. Случайные величины 141 математическое ожидание U равенством E(U) = 2afcP{4} (4.2) при условии, что ряд сходится абсолютно, в противном случае мы скажем, что U не имеет математического ожидания. Для любой случайной величины U и произвольного числа & > О мы определили в (3.1) две простые случайные величины а8 и а8, такие, что сг8 = о84-е и <j8^U^oe. При любом разумном опре- делении Е (U) E(£8)<E(U)<E(o8), (4.3) всякий раз когда величины ое и о8 имеют математические ожида- ния. Так как эти функции отличаются не более чем на в, то либо это же справедливо для их математических ожиданий, либо эти математические ожидания не существуют. В последнем случае мы говорим, что U не имеет математического ожидания, тогда как. в первом случае E(U) определяется однозначно из (4.3) переходом к пределу при 8—>0. Короче, поскольку любая случайная вели- чина U представляется равномерным пределом последовательности простых случайных величин (гл, то математическое ожидание U может быть определено как предел Е (cQ. Например, в терминах а8 имеем E(U)= lim SneP{(n—l)8<U<ne} (4.4) 8 -> 0 - 00 при условии/что ряд сходится абсолютно (при некотором, а потому и при всех 8 > 0). Далее, вероятности, входящие в (4.4), совпа- дают с вероятностями, которые приписываются интервалам ---------1 (п—1)8> с помощью функции распределения F случайной вели- чины U. Отсюда следует, что при таком изменении обозначений наше определение Е (U) сводится к определению, данному в § 2: E(U) = $ tF{dt\. (4.5) — 00 Таким образом, Е (U) можно корректно определить либо непо- средственно в исходном вероятностном пространстве, либо в тер- минах функции распределения. (То же замечание было сделано в 1; гл. IX, для дискретных случайных величин.) По этой причине излишне говорить, что в произвольных вероятностных простран- ствах математические ожидания обладают основными свойствами математических ожиданий в введенных в § 2.
142 Гл. IV. Вероятностные меры и пространства § 5. ТЕОРЕМА О ПРОДОЛЖЕНИИ При построении вероятностных пространств вероятности обычно определены a priori на не очень богатом классе множеств, и тре- буется подходящим образом расширить их область определения. Например, при рассмотрении в первом томе бесконечных последо- вательностей испытаний и рекуррентных событий были заданы вероятности всех событий, зависящих от конечного числа испыта- ний, и эту область определения вероятностей требовалось расши- рить так, чтобы включить такие события, как разорение, возвращение и полное вырождение. Аналогично при построении в § 2 мер в 91г сначала наделялись вероятностями F {1\ интервалы, а затем область определения продолжалась до класса всех борелевских множеств. Такое продолжение возможно благодаря теореме, имеющей зна- чительно более широкую область применения и на которой осно- вываются многие конструкции вероятностных пространств. Схема рассуждения состоит в следующем. Аддитивность F позволяет однозначно определить (5.1) для любого множества Л, являющегося объединением конечного числа непересекающихся интервалов Ik. Эти множества образуют алгебру 310 (т. е. объединения и пересечения конечного числа мно- жеств из 310, а также дополнения множеств из 310 тоже принад- лежат 310). Начиная с этого пункта, природа пространства 31г не играет никакой роли и можно рассматривать произвольную ал- гебру 310 множеств в произвольном пространстве Всегда суще- ствует наименьшая алгебра 31 множеств, содержащая 310 и замкну- тая относительно счетных объединений и пересечений. Иными словами, существует наименьшая о-алгебра 31, содержащая 510 (см. определение 1 из § 3). При построении мер в &1Г о-алгебра 31 совпадала с о-алгеброй всех борелевских множеств. Расширение области определения вероятностей 310 до 31 основывается на сле- дующей общей теореме. Теорема о продолжении. Пусть 310—произвольная алгебра мно- жеств в некотором пространстве ©. Пусть F—определенная на 310 функция множеств, такая, что F{A}^0 при всех Л£31о, F {©} =а 1, и, кроме того, соотношение (5.1) выполняется для любого разбиения А на счетное число непересекающихся множеств 4£310. Тогда существует единственное продолжение F до счетно-адди- тивной функции множеств (т. е. до вероятностной меры) на наи- меньшей в-алгебре 31, содержащей 310. В следующем параграфе будет приведен типичный пример применения этой теоремы. Теперь мы обратимся к более общему и гибкому варианту теоремы о продолжении, ближе примыкающему к рассмотрениям § 2 и 3. Мы исходили из математического ожи- дания (2.4) для ступенчатых функций (т. е. функций, принимающих
$ 5. Теорема о продолжении 143 лишь конечное число значений, причем каждое из значений—на некотором интервале). Область определения этого математического ожидания была затем продолжена с довольно бедного класса сту- пенчатых функций на более широкий класс, включающий все ограниченные бэровские функции. Указанное продолжение непо- средственно приводит к интегралу Лебега—Стильтьеса, и мера множества А получается как математическое ожидание его инди- катора 1л. Наметим соответствующую абстрактную схему. Рассмотрим вместо алгебры множеств 310 класс.функций 33О, замкнутый относительно линейных комбинаций и операций П и U - Иными словами, предполагается, что если функции ut и и2 при- надлежат 33О, то функции щ Г) u2i u1Uu2 (5.2) тоже принадлежат 33ОХ). Отсюда, в частности, следует, что всякая функция и из Э30 может быть записана как разность двух неотри- цательных функций, именно и = и + — и~, где = r/(jO и и~ = = (—и) П 0. Под линейным функционалом Е на 33О понимается сопоставление значений Е (и) всем функциям из 33О с выполнением условия Е (a1w1 + a2w2) = atE (wj Д- a2E (u2). (5.3) Функционал E называется положительным, если E(rz)^O при Нормой E называется верхняя грань значений Е (| и |) по всем функциям £/£ 330, удовлетворяющим условию Если функция, равная всюду 1, принадлежит 33О, то норма Е равна Е(1). Наконец, скажем, что Е счетно-аддитивен на ®0, если е(3«*) = £е(«а) (5.4) всякий раз, когда ^uk принадлежит 33О* 2). Условие счетной адди- тивности эквивалентно следующему: если — последовательность функций из 33О, сходящаяся монотонно к нулю, то3) ЕМ- 0. (5.5) - Для каждого заданного класса функций 33О существует наимень- ший класс 33, содержащий 33О и замкнутый относительно переходов к пределу в смысле поточечной сходимости. [Класс 33 автоматически х) Наши предположения равносильны требованию, чтобы класс был линейной структурой. 2) Здесь следует добавить требование иначе последующее утверж- дение неверно.— Прим, перев. 3) Для доказательства эквивалентности (5.4) и (5.5) достаточно рассмот- реть случай Тогда (5,4) следует из (5.5), если положить ^ = /^+1 + «„+2+..., и (5.5) вытекает из (5.4), если положить uk = vk-—vk+ (при этом
144 Гл. IV. Вероятностные меры и пространства замкнут относительно операций (5.2),] Дадим теперь другую фор- мулировку теоремы о продолжении* 1). Каждый положительный счетно-аддитивный линейный функционал нормы 1 на 93О может быть единственным образом продолжен до положительного счетно- аддитивного линейного функционала нормы 1 на всех ограниченных (и многих неограниченных) функциях из 93. В качестве примера применения этой теоремы докажем следу- ющий важный результат. Теорема Ф. Рисса о представлении2). Пусть Е—положительный линейный функционал нормы 1 на классе всех непрерывных функций на 91г, обращающихся в нуль на бесконечности3). Существует мера Р на в-алгебре борелевских множеств, для которой P{5ir} = 1 и такая, что Е(и) совпадает с интегралом от и по Р. Иными словами, определенные нами интегралы дают представ- ление наиболее общих положительных линейных функционалов. Доказательство. В основе доказательства лежит тот факт,: что если последовательность обращающихся в нуль на бесконеч- ности непрерывных функций монотонно сходится к нулю, то схо- димость эта автоматически равномерна. Пусть оп 0, и обозначим || оп || = max vn (х). Тогда Е (v„) ^|| и„||, и поэтому для Е выполнено условие счетной аддитивности (5.5). В силу теоремы о продолже- нии Е можно продолжить на все ограниченные бэровские функ- ции. Положив Р{ Л}= Е(1 л),; получаем меру на о-алгебре борелевских множеств. Как мы видели, по заданной мере Р{Л} интеграл Ле- бега—Стильтьеса однозначно определяется с помощью двойного х) Основная идея доказательства (восходящая к Лебегу) проста и остро- умна. Нетрудно видеть, что если две последовательности {«„} и функций из 53О сходятся монотонно к одному и тому же пределу и, то последователь- ности Е (w„) и Е («п) тоже сходятся к одному и тому же пределу. Для таких монотонных пределов и можно, следовательно, определить Е (и) =lim Е (ип). Рассмотрим теперь класс 531 функций ut для которых при любом 8 > 0 сущест- вуют две функции и и и, либо принадлежащие 9%, либо являющиеся моно- тонными пределами последовательностей из 93о и такие, что и < и < и, Е (w) —Е (и) < 8. Класс 53f замкнут относительно переходов к пределам, и для функций из iBf значение Е (и) определяется очевидным образомпоскольку должно быть Е («) «С Е (и) Е (и). Замечательной особенностью этого рассуждения является следующее об- стоятельство: обычно класс 531 больше класса 53 и простое доказательство оказывается возможным благодаря тому, что доказывается больше, чем тре- буется. (Относительно сравнения классов 53 и 53i см. § 7.) 2) Эта теорема справедлива для произвольных локально компактных про- странств. См. другое доказательство в V, 1. 3) и обращается в нуль на бесконечности, если для любого 8 > 0 сущест- вует шар (компактное множество), вне которого |«(х)| < 8f
§ 6. Произведения пространств 145 неравенства (4.3). Следовательно, интеграл Лебега—Стильтьеса по Р от обращающейся в нуль на бесконечности непрерывной функции и совпадает со значением на и заданного функционала В (и). ► § 6. ПРОИЗВЕДЕНИЯ ПРОСТРАНСТВ. ПОСЛЕДОВАТЕЛЬНОСТИ НЕЗАВИСИМЫХ СЛУЧАЙНЫХ ВЕЛИЧИН Понятие прямого произведения пространств (1; гл. V, 4) яв- ляется весьма важным в теории вероятностей и используется всякий разг когда речь идет о повторных испытаниях. Представление точки плоскости 5£2 посредством двух координат означает, что 5i2 рассматривается как прямое произведение двух своих осей. Обозначим две координатные переменные через X и Y. Рассмат- риваемые как функции на плоскости они представляют собой бэровские функции, и если на о-алгебре борелевских множеств в 5£3 определена вероятностная мера Р, то существуют две функции рас- пределения Р{Xи P{Y <у}. Эти две функции распределения индуцируют вероятностные меры на обеих осях, называемые част- ными (маргинальными) распределениями (или проекциями). Здесь у нас в качестве первичного понятия появляется плоскость, однако часто более естественной является противоположная ситуация. Например, когда говорят о двух независимых случайных величи- нах с заданными распределениями, два частных распределения являются первичным понятием и вероятности на плоскости полу- чаются из них с помощью «правила умножения». Общий случай ничуть не сложнее случая плоскости. Рассмотрим теперь два произвольных вероятностных простран- ства. Иными словами, нам заданы два выборочных пространства @(1) и @(2\ две о-алгебры 31(1) и §1(2) подмножеств ®(1) и ©(2) соот- ветственно и определенные на ?Х(1) и ?1(2) вероятностные меры Р(1) и Р(2). Прямое произведение (©(1\ @(2)) есть множество всех упо- рядоченных пар (х(1), х(2)),;где x{i)—точка пространства ®U). Рас- смотрим в этом произведении множества, являющиеся «прямо- угольниками», т. е. прямые произведения (А(1)ж А(2)) множеств 4(1) Множества такого вида мы наделяем вероятностями согласно правилу умножения- Р{А% А(2>} = Р(1){А^}Р<2>{А<2>}. (6.1) Далее множества, представляющие собой конечные объединения непересекающихся прямоугольников, образуют алгебру 510, на кото- рой с помощью (6.1) единственным образом определяется счетно- аддитивная функция. Таким образом по теореме о продолжении на наименьшей в-алгебре, содержащей все прямоугольники, суще- ствует единственная вероятностная мера Р, такая, что вероят- ности прямоугольников задаются правилом умножения (6.1). Эта наименьшая! содержащая все прямоугольники в-алгебра обозначается
146 Гл. IV. Вероятностные меры и пространства §1(1)Х§1(2\ а определенная мера на ней называется произведением мер. Конечно, на произведении пространств можно определить и дру- гие вероятности, например, в терминах условных вероятностей. Рассматриваемая а-алгебра множеств §1 всегда будет не меньше 3l(1) X?Х(2), и в то же время за пределы ?1(1) х ЗХ(2) приходится вы- ходить весьма редко. Ниже в рассуждении о случайных величинах предполагается, что?Х = 31(1)х§1(2). Понятие случайной величины (измеримой функции) связано с соответствующей cr-алгеброй, и при рассмотрении произведений пространств мы должны различать случайные величины на про- изведении и на пространствах @(1) и @(2). К счастью, отношение между этими тремя классами случайных величин весьма простое. Пусть и и v—случайные величины на ®(1) и @(2), и рассмотрим на произведении пространств функцию w, которая в точке (х(1), х(2)) принимает значение х(2)) = ц (х(1)) г(х(2)). (6.2) Покажем, что класс случайных величин на произведении пространств (@(1), @(2)) совпадает с минимальным классом конечнозначных функ- ций, замкнутым относительно поточечных переходов к пределу и содержащим все линейные комбинации функций вида (6.2). Ясно, во-первых, что каждый множитель в правой части (6.2) является случайной величиной и в том случае, когда он рассмат- ривается как функция на произведении пространств. Следовательно, w есть случайная величина, и поэтому класс случайных величин на (®(1), @(2)) не меньше минимального класса, о котором гово- рилось выше. С другой стороны, случайные величины образуют наименьший класс, замкнутый относительно переходов к пределу и содержащий все линейные комбинации индикаторов прямоуголь- ников. Эти индикаторы имеют вид (6.2), и, следовательно, класс случайных величин не больше минимального класса, о котором говорилось выше. Частный случай произведения двух пространств 51т и Э1п с веро- ятностными мерами F и G неявно встречался в связи с теоремой Фубини (2.11) о повторных интегралах. Теперь мы можем утверж- дать справедливость более общей теоремы, относящейся не только к Э1Г. Теорема Фубини для произведений мер. Интеграл от любой неотрицательной бэровской функции и по произведению мер равен повторным интегралам из формулы (2.11). (При этом имеется в виду, что интегралы могут расходиться. Теорема очевидна для простых функций, а в общем случае полу- чается с помощью повторной аппроксимации.) Обобщение на случай произведения трех и большего числа пространств вполне очевидно и не требует специальных пояснений. Обратимся теперь к проблеме бесконечных последовательностей
§ 6. Произведения пространств 147 случайных величин, с которой мы уже встречались в первом томе в связи с бесконечными последовательностями испытаний Бер- нулли, случайными блужданиями, рекуррентными событиями и т. д., а также в гл. 111 в связи с нормальными случайными процессами. Проблемы не возникает, когда имеется бесконечное множество случайных величин, определенных на заданном вероят- ностном пространстве. Например, действительная прямая с нор- мальным распределением есть вероятностное пространство и {sinnx} есть бесконечная последовательность определенных на нем слу- чайных величин. Нас интересует только та ситуация, когда вероят- ности должны быть определены в терминах заданных случайных величин. Более точно проблема состоит в следующем. Пусть М°° — пространство, точками которого являются беско- нечные последовательности действительных чисел (хх, х2, ...) (т. е. есть счетное прямое произведение действительных пря- мых). Обозначим n-ю координатную величину через Хя (Хя есть функция на Si00, принимающая в точке х = (хр х2, ...) значе- ние хп). Предположим, что нам заданы вероятностные распреде- ления для Хь (Хп Х2), (Хп Х2, Х3), .. и требуется определить соответствующие вероятности в Конечно, заданные вероятно- сти должны быть взаимно согласованы в том смысле, что распре- деления (Xf, Хп) являются частными распределениями для (Хр Хи+1) и т. д. Формализуем теперь интуитивное понятие «события, опреде- ляемого исходом конечного множества испытаний». Скажем, что множество А в зависит лишь от первых г координат, если существует борелевское множество Агв91г, такое, что x=(xt, х2,,..) принадлежит А тогда и только тогда, когда (хь ..., хг) при- надлежит Аг. В теории вероятностей часто встречается ситуация, когда вероятности таких множеств заданы, и задача состоит в рас- ширении этой области определения. Приведем без доказательства принадлежащую А. Н. Колмогорову фундаментальную теорему (доказанную им в несколько большей общности), впервые появив- шуюся в его ставшем теперь классическим аксиоматическом обо- сновании теории вероятностей (1933). Эта работа предвосхитила и стимулировала развитие современной теории меры. Теорема 1. Согласованную систему вероятностных распределе- ний величин Xf. (Хь Ха), (Х„ Х„ X.), ... можно единственным способом продолжить до вероятностной меры на наименьшей о-алгебре 31 множеств в ЗС, содержащей все множества, завися- щие лишь от конечного числа координат А). Весьма важным является то обстоятельство, что все вероят- ности определяются последовательными переходами к пределам, исходя из конечномерных множеств. Каждое множество А из 31 1) Эта теорема справедлива и в более общем случае произведения локально компактных пространств. Например, она справедлива, когда переменные Хй являются векторными переменными (т, е. значения их — точки в
148 Гл. IV. Вероятностные меры и пространства можно аппроксимировать конечномерными множествами в следую- щем смысле. Для любого е > 0 существует п и зависящее лишь от первых п координат множество Ап, такое, что Р{Л-ЛПЛ„}<8, РК-ДГ|ЛЛ<8. , (6.3) Иными словами, множество тех точек, которые принадлежат либо Л, либо Ап, но не принадлежат обоим множествам А и Ап, имеют вероятность, меньшую 28. Отсюда следует, что можно так выбрать множества Ап, чтобы Р{ЛлНР{Л}. (6.4) Теорема 1 позволяет говорить о бесконечной последовательности взаимно независимых случайных величин с произвольными задан- ными распределениями. Такие последовательности уже встречались в первом томе, однако нам приходилось определять интересую- щие нас вероятности с помощью специальных переходов к пре- делу, в то время как теорема 1 является общим результатом, охватывающим все случаи. Это обстоятельство хорошо иллюстри- руется следующими двумя важными теоремами, первая из которых принадлежит А. Колмогорову (1933), а вторая—Э. Хьюиту и Л. Дж. Сэвиджу (1955). Обе они являются типичными вероятност- ными предложениями и играют центральную роль во многих рас- суждениях. Теорема 2. (Закон нуля или единицы для остаточных событий.) Предположим, что случайные величины Xk взаимно независимы и что при каждом п событие А не зависит1) от Хх, ...» Х„2). Тогда или Р{Л} = 0, или Р{Л} = 1. Доказательство. Вообще говоря, случайные величины Xk могут быть определены на произвольном вероятностном пространстве, однако они отображают это пространство в произведение прямых 5Г°, в котором они играют роль координатных переменных. Следова- тельно, не уменьшая общности, можно ограничиться рассмотрением ситуации, описанной в настоящем параграфе. В обозначениях, использованных в (6.3), множества Л и Ап независимы, и поэтому из первого неравенства в (6.3) вытекает, что Р{Л}—Р{Л}Р{Л„} <8. Следовательно , Р {Л} = Р2 {Л}. ► Пример, а) Ряд сходится с вероятностью единица или нуль. Точно так же множество точек, в которых limsupXn = oo, имеет вероятность либо единица, либо нуль. ► Теорема 3. (Закон нуля или единицы для симметричных собы- х) Более точно, А не зависит от любого события, определяемого в терми- нах Xf, ..., Хп. Иными словами, индикатор А есть случайная величина, независимая от Хх, ..., Хп. 2) Предполагается, конечно^ что А определяется последовательностью Xi, Ха, ,»» >—Прим. перев.
§ 7. Нулевые множества. Пополнение 149 пгий.) Предположим, что случайные величины Xk взаимно незави- симы и одинаково распределены. Если множество А инвариантно относительно конечных перестановок координат*), то либо Р {Л}=0, либо Р {Л} = 1. Доказательство. Как и в доказательстве теоремы 2, мы рас- сматриваем Xk как координатные величины и под множествами Ап понимаем то же, что и в (6.3). Пусть Вп—множество, получен- ное из Ап обращением порядка первых 2п координат, в то время как остальные координаты остаются без изменения. В силу сде- ланных предположений соотношения (6.3) остаются справедливыми при замене Ап на Вп. Отсюда вытекает, что множество точек, принадлежащих либо А, либо Ап [\Вп, но не принадлежащих обоим множествам А и Ап[\Вп, имеет вероятность, меньшую 4в. Следо- вательно, . Р{Л„лВ„}->Р{Л}. (6.5) Далее Ап зависит лишь от первых п координат, и поэтому Вп зависит лишь от координат с номерами n-f-1, ..., 2п. Таким образом, Ап и Вп независимы, что вместе с (6.5) приводит к равен- ству Р (Л) = Р2{ А}. ► Пример, б) Положим Sn = Xx+.. . 4-Хп, и пусть X={S„C 16. ч.}, где / — произвольный интервал на прямой. Событие А инвариантно относительно конечных перестановок. [По поводу обозначений см. пример 1, а).] ► § 7. НУЛЕВЫЕ МНОЖЕСТВА. ПОПОЛНЕНИЕ Множеством вероятности нуль обычно можно пренебрегать, и две случайные величины, различающиеся лишь на таком нуле- вом множестве, «практически совпадают». Выражаясь более фор- мально, их называют эквивалентными. Это означает, что если изменить определение случайной величины на нулевом множестве, то все вероятностные соотношения сохраняются без изменения и, следовательно, случайную величину можно считать неопределен- ной на нулевом множестве. Типичным примером является время осуществления первого рекуррентного события: с вероятностью единица оно есть некоторое число, а с вероятностью нуль—не определено (или считается равным оо). Таким образом, мы чаще имеем дело с классами эквивалентных случайных величин, а не с самими случайными величинами. Тем не менее обычно проще выбрать подходящие представители классов и оперировать с ними, а не с классами. С нулевыми множествами связано единственное место в теории т) Более точно, предполагается, что если а=(ах, а2, ...)—точка из А и /ii, п2—два произвольных натуральных числа, то А содержит также точку, у которой /1Гя координата есть аПг, п2-я координата равна ani, а остальные координаты те же, что и у а. Это условие автоматически распространяется на перестановки, включающие k координат# ,
150 Гл. IV. Вероятностные меры и пространства вероятностей, которое идет вразрез с пашей интуицией. Ситуация одна и та же во всех вероятностных пространствах и достаточно описать ее для случая вероятностной прямой. В рамках нашей конструкции вероятности определены лишь на борелевских мно- жествах, но каждое борелевское множество, вообще говоря, содер- жит много неборелевских подмножеств. Следовательно, нулевое множество может содержать подмножества, на которых вероятно- сти не определены, в то время как естественно ожидать, что каждое подмножество нулевого множества само должно быть нулевым множеством. Это несоответствие не является серьезным и легко может быть устранено. В самом деле, введем такой посту- лата если АаВ и P{S} = 0, то Р^Д} = 0. При этом мы должны расширить а-алгебру §1 борелевских множеств до (по крайней мере) наименьшей о-алгебры З^, содержащей все множества из 31 и все подмножества нулевых множеств. Можно дать прямое описание о-алгебры 3XV Именно, множество А принадлежит 3(г тогда и только тогда, когда оно отличается от некоторого борелевского множе- ства А° лишь на нулевое множество1). Область определения вероят- ности можно продолжить с 31 на 31х, просто положив Р{4} = = Р{Д0}. Без труда показывается, что это продолжение единст- венно и дает вполне аддитивную меру на 31г Таким образом, мы построили вероятностное пространство,- которое удовлетворяет введенному постулату и в котором сохранились вероятности боре- левских множеств. Описанная конструкция называется лебеговым пополнением (заданного вероятностного пространства). Использование пополне- ния естественно в задачах, связанных с единственным вероятност- ным распределением. По этой причине длину интервалов в обычно продолжают до лебеговой меры, которая определена не только на борелевских множествах. Однако, когда рассматриваются семейства распределений (например, бесконечные последователь- ности испытаний Бернулли с различными вероятностями р), по- полнение обычно приводит к неприятностям. Именно 3Q зависит от. рассматриваемого распределения, и поэтому случайная вели- чина по отношению к Э1х может не быть таковой, если перейти к другому распределению. Пример. Пусть ai9 а29 ...— последовательность точек в 5J1, имеющих вероятности pi9 р29 ... соответственно, причем 2 Р/г 1- Дополнение к {аД имеет вероятность нуль, и поэтому ЗХх содер- жит все подмножества ЗГ. Каждая ограниченная функция и является при этом случайной величиной с математическим ожи- данием однако, когда рассматриваемое распределение не дискретно, оперировать с «произвольными функциями» стано- вится опасно. ► б Более точно, требуется, чтобы оба множества А— Af| А() а содержались в некотором нулевом множестве.
ГЛАВА V ВЕРОЯТНОСТНЫЕ РАСПРЕДЕЛЕНИЯ В Яг В этой главе изучаются вероятностные распределения в г-мер- ном пространстве Яг. В идейном отношении понятие вероятност- ного распределения основывается на. изложенной в предыдущей главе теории интегрирования, однако, по существу, никаких слож- ных размышлений для понимания настоящей главы не требуется, поскольку вводимые понятия и формулы интуитивно близки к поня- тиям и формулам, уже известным из первого тома и первых трех глав. Новая черта рассматриваемой теории состоит в том, что (в про- тивоположность случаю дискретного .выборочного пространства) не каждое множество имеет вероятность и не каждая функция является случайной величиной. К счастью, эта теоретическая сложность не очень заметна на практике, поскольку можно исхо- дить из интервалов и непрерывных функций и ограничиться соот- ветственно рассмотрением множеств и функций, которые могут быть получены из них посредством элементарных операций и (воз- можно, бесконечно многих) предельных переходов. Этим выде- ляются классы борелевских множеств и бэровских функций. Чита- тели, которых интересуют больше факты, нежели логические связи, могут не беспокоиться по поводу точных определений (приводимых в гл. IV). Им разумнее полагаться на собственную интуицию и считать, что все рассматриваемые множества и функции являются «хорошими». Приводимые теоремы настолько просты1), что для их понимания достаточно знакомства с элементарным анализом. Изло- жение является строгим, если условиться, что слова «множество» и «функция» сокращенно означают «борелевское множество» и «бэров- ская функция» соответственно. х) Следует понимать, что этой простоты нельзя достичь ни в какой тео- рии, использующей лишь непрерывные функции или какой-либо другой класс «хороших» функций. Например, в гл. II, (8.3), мы определили плотность ф бесконечным рядом. Скучно и бессмысленно устанавливать условия, при кото- рых ф является хорошей функцией, однако в простых случаях формула оче- видна, и она всегда имеет смысл, если ограничиваться бэровскими функциями, что и можно считать точным смыслом неопределенного выражения «формула всегда справедлива». Между прочим, будут указаны несколько случаев, где ограничение бэровскими функциями нетривиально [примером такого рода яв- ляется теория выпуклых функций, см. 8, б)],
152 Гл. V. Вероятностные распределения в ГАГ При первоначальном чтении можно ограничиться § 1—4 и 9. Параграфы 5—8 содержат результаты и неравенства, собранные для удобства ссылок. В последних параграфах, посвященных теории условных распределений и математических ожиданий, изложение ведется более полно, чем это необходимо для настоящего тома. В дальнейшем результаты этой теории будут использованы лишь от случая к случаю при рассмотрении мартингалов в гл. VI, 11, и гл. VII, 9. § 1. РАСПРЕДЕЛЕНИЯ И МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Даже совсем безобидное использование термина «случайная величина» может содержать косвенную ссылку на весьма непростое вероятностное пространство или на сложный умозрительный экспе- римент. Например, теоретическая модель может включать в себя положения и скорости 1028 частиц, в то время как нам интересны лишь температура и энергия. Эти две случайные величины ото- бражают исходное выборочное пространство в плоскость 5i2, поро- ждая в ней вероятностное распределение. По существу, мы имеем дело с двумерной задачей, и первоначальное выборочное простран- ство утрачивает ясные очертания и превращается в фон. Конечно- мерные евклидовы пространства 31/ представляют собой, следова- тельно, наиболее важные выборочные пространства, и мы переходим к систематическому изучению соответствующих вероятностных распределений. Рассмотрим сначала случай прямой «Я1. Интервалы, определяе- мые неравенствами а<х<& и обозначим через а, b ।---1 и а, b соответственно. (Мы не исключаем предельный случай замк- нутого интервала, сводящегося к одной точке.) Полуоткрытые ---------------------------1 ।-- интервалы обозначаются а, Ь и а, Ь. В одномерном случае все случайные величины являются функциями координатной перемен- ной X (иными словами, функции, которая в точке х принимает значение х). Все вероятности можно, следовательно, выразить в терминах функции распределения F(x) ——оо<х<оо. (1.1) ——। В частности, интервал I = a, b имеет вероятность Р {1} — F (b)—F (а). Гибкое стандартное обозначение Р{ } становится неудобным, когда рассматриваются различные распределения. Применение новой буквы было бы неэкономичным, а использование обозначения Pf{ } для указания зависимости от F слишком неуклюже. Намного проще использовать одну и ту же букву F как для функции точ- ки (1.1), так и для функции интервала, и в дальнейшем вместо
§ 1. Распределения и математические ожидания 153 Р {/} мы будем писать F {/}. Иными словами, использование фигур- ных скобок { } будет означать, что аргумент в есть интер- - вал или множество и что F представляет собой функцию интер- валов (или меру). Когда используются круглые скобки, аргумент в F (а) есть точка. Соотношение между функцией точки F( ) и функцией интервала F { } выражается равенствами F (х) = F {—оо, 4, F = F(b) — F (а). (1.2) В действительности понятие функции точки F (х) излишне и слу- жит лишь для удобства обозначения и записи. Основным и пер- вичным является наделение вероятностями интервалов. Функция точки F( ) называется функцией распределения функции интерва- лов F\ }. Символы F( ) и F{ } -представляют собой различное выражение одного и того же, и никакой двусмысленности не появляется, когда говорят о «вероятностном распределении F». Следует привыкнуть думать в терминах функций интервалов и мер и использовать функцию распределения только как обозначение* 1). Определение. Определенная на прямой функция точки F есть функция распределения, если она (i) неубывающая, т. е. F(a)^F(b) при а<Ь9 (ii) непрерывна справа*), т. е. F (a)^=F (а+), (ш) удовлетворяет условиям F(—оо) = 0, F(oo)<oo. Функция распределения F, для которой F(oo) = l, называется вероятностной функцией распределения. Функция распределения называется дефектной (или несобственной), если F(oo)<l. Покажем, что каждая функция распределения задает (соответст- вующие ей) вероятности всех множеств на прямой. Первым шагом является наделение вероятностями интервалов. Поскольку F моно- тонна, предел слева F (а—) существует в каждой точке а. Опре- делим функцию интервалов F{I\, положив F (a~"b} — F (b)—F (a), F \~b} = F(b-)-F (а), (1 3) F {a, b\ — F(b)—F (а—), F \а, Ь\ == F (Ь—)—F (а—). I—-I ' Для интервала а, а, сводящегося к единственной точке а, имеем ~ F {a, a} = F (а)—F (а —), 1) Для вводных курсов представляется разумной педантичная тщатель- ность в использовании обозначений, однако автор надеется, что читатели не будут требовать такого рода «состоятельности» и найдут в себе смелость писать без различия F {/} и F (х). Это не повлечет никакой двусмысленности. В лучшей математической литературе стало привычным, к счастью, использо- вать один и тот же символ (в частности, 1 и =) на одной и той же странице в нескольких смыслах. 2) Как обычно, f (а-\-) обозначает предел (если он существует) значе- ний f(x), когда х—>а при условии х > а. Под f (оо) понимается предел f (х) при х —> оо. Аналогично определяются f (а —-) и / (— оо), Эти обозначения рас- пространяются и на многомерный случай.
154 Гл. V. Вероятностные распределения что представляет собой скачок F в точке а. (Вскоре мы увидим, что F непрерывна «почти всюду».) Чтобы показать, что определяемые формулами (1.3) значения вероятностей для интервалов удовлетворяют требованиям теории вероятностей, докажем следующую простую лемму (читатели могут принять ее как интуитивно очевидную). Лемма 1. (Счетная аддитивность.) Если интервал I представ- ляет собой объединение счетного числа непересекающихся интерва- лов , /2, то F{I}~%F{Ik}. (1.4) ---1 ---1 Доказательство. В частном случае, когда I-=a, Ьи /2 = a1; а2, /„ = «„_!, Ь, утверждение леммы тривиально. Про- извольное конечное разбиение / = а, b получается из этого разбие- ния перераспределением> конечных точек ak подынтервалов, так что правило сложения (1.4) для конечных разбиений выполняется. При рассмотрении случая бесконечного множества интерва- лов Ik, не ограничивая общности, можно допустить, что интер- вал I замкнут. В силу непрерывности справа функции распреде- ления F для любого заданного 8>0 можно найти содержащий Ik открытый интервал /*, такой, что Q^F{lt} — F{Ik}^&2~k. Поскольку существует конечная совокупность интервалов покрывающая /, то + + + (1.6) откуда p{i\<£p{ik}- О-6) Обратное неравенство тоже справедливо, так как для каждого п существует конечное разбиение /, содержащее в качестве подын- тервалов интервалы /1? ..., 1п. Тем самым лемма доказана. ► Как уже говорилось в гл. IV, 2, теперь можно определить для любого множества Л, представляющего собой конечное или счетное объединение непересекающихся интервалов Ак. Интуитивно можно ожидать, что любое множество допускает аппроксимацию такими объединениями интервалов, и теория меры это подтверж- дает1). Используя естественные приближения и переходы к пре- х) Следует иметь в виду принятое нами соглашение, согласно которому слова «множество» и «функция» сокращенно означают соответственно «боре- левское множество» и «бэровекая функция».
$ 1. Распределения и математические ожидания 155 делу, можно продолжить определение F на все множества так, чтобы свойство счетной аддитивности (1.7) сохранялось. Это про- должение единственно, и получающаяся в результате функция множеств называется вероятностным распределением или мерой. Замечание о терминологии. Термин «распределение» свободно используется в литературе в различных смыслах, и поэтому здесь уместно точно оговорить, что понимается под распределением в настоящей книге. Вероятностное распределение, или вероятностная мера, есть функция, ставящая в соответствие множествам числа и удовлетворяющая условию счетной аддитивности (1.7) и условию нормировки F{—оо, оо} = 1. Отбрасывая условие нормировки, получаем определение более общей меры (распределения массы). Весьма важным примером такой меры является мера Лебега (или обычная длина). Иногда приходится иметь делос мерами, тэтносительно которых масса всей прямой p = F {—оо, оо} меньше 1 (достаточно вспом- нить теорию рекуррентных событий из первого тома). Меру с та- ким свойством мы называем вероятностной несобственной или дефектной мерой с дефектом, равным 1—р. Иногда с целью стилистической ясности или желая подчеркнуть, что рассматри- вается не мера вообще и не дефектная вероятностная мера, а именно вероятностная мера, мы будем^ называть ее собственной вероят- ностной мерой, хотя прилагательное собственная и излишне. Аргументом меры является множество; при письме буква, обозначающая это множество, заключается в фигурные скобки. Каждой ограниченной мере т соответствует функция распределения, т. е. функция точки, определяемая равенством ----------------1 m(x)=m{— оо, х}. Функция распределения обозначается той же буквой, что и соответствующая ей мера, только аргумент ее заключается в круглые скобки. Двоякое использование одной и той же буквы не вызывает никаких недоразумений, и, более того, термин «распределение» может сокращенно обозначать как вероятностное распределение, так и его функцию распреде- ления. ► В 1, гл. IX, случайная величина была определена как вещест- венная функция на выборочном пространстве. Мы сохраняем здесь это определение. В случае когда выборочным пространством яв- ляется прямая, каждая вещественная функция есть случайная величина. Координатная случайная величина X является основ- ной, и все остальные случайные величины можно рассматривать как функции от нее. Функция распределения случайной вели- чины и. по определению равная P{w(X)C^}, может быть выра- жена в терминах функции распределения координатной случайной
156 Гл. V. Вероятностные распределения в ЗУ величины JX. Например, функция распределения величины X3 есть F (р/х). Функция и называется простой, если она принимает лишь счетное множество значений а±. а2, ... . Пусть и—простая функ- ция и Ап—то множество, на котором и равна ап. Скажем, что математическое ожидание функции и существует и равно E{u)^ahF{Ak\, (1.8) если ряд в правой части (1.8) абсолютно сходится. В противном случае и называется неинтегрируемой по отношению к F. Таким образом, и имеет математическое ожидание тогда и только тогда, когда существует E(|w|). Исходя из (1.8), можно следующим образом определить математическое ожидание произвольной огра- ниченной функции и. Возьмем 8>0 и обозначим через Ап мно- жество тех точек х, в которых (п—1)8 < и(х)^пъ. При любом разумном определении Е(и) должно быть 2 (п- V)fF{AJ < Е («) < £ mF {Ап\. (1.9) (Суммы в (1.9) представляют собой математические ожидания двух аппроксимирующих простых функций ст и о, таких, что и а—сг = 8.) Поскольку функция и, согласно предположению, ограничена, то суммы в (1.9) содержат лишь конечное число отличных от нуля членов. Разность этих сумм равна 8 J] F При замене 8 на 8/2 левая сумма, очевидно, увеличивается, а пра- вая—уменьшается. Отсюда легко вывести, что при 8—>0 обе суммы в (1.9) стремятся к одному и тому же пределу, который и полагается равным Е(и). Для неограниченной функции приме- нимо то же самое рассуждение, если оба ряда в (1.9) абсолютно сходятся; в противном случае Е (и) не определяется. Определенное таким простым способом математическое ожида- ние представляет собой интеграл Лебега—Стильтьеса от функ- ции и по отношению к распределению F. Когда желают под- черкнуть зависимость математического ожидания от F. предпочти- тельно использовать интегральное обозначение Е(и)= $ u(x)F{dx}. (1.10) — 00 За исключением редких случаев, мы будем иметь дело лишь с мо- нотонными функциями и или с кусочно-непрерывными функциями, такими, что для них множества Ап сводятся к объединению конечного числа интервалов. При этом суммы в (1.9) представ- ляют собой, с точностью до порядка суммирования, верхние и нижние суммы, используемые при элементарном определении обычных интегралов. Общий интеграл Лебега—Стильтьеса, обладая основными свойствами обычного интеграла, имеет дополнительное
§ 1. Распределения и математические ожидания 157 преимущество—при обращении с ним меньше приходится забо- титься о законности формальных операций и переходов к пределу. Мы будем использовать математические ожидания лишь в очень простых ситуациях, и никакой общей теории не потребуется для того, чтобы следить за отдельными этапами рассуждений. Чита- тель, интересующийся теоретическим фундаментом и основными фактами, может обратиться к гл. IV. Примеры, а) Пусть F—дискретное распределение, наделяющее точки alf а2, ... массами pif р2, ... . Ясно, что в этом случае математическое ожидание Е (и) функции и, если оно существует, ровно 2 и (ak) Pk, и условием существования Е (и) является абсо- лютная сходимость ряда ^u(a^pk. Это согласуется с определе- нием, данным в 1, гл. IX. б) Для распределений, задаваемых непрерывной плотностью, математическое ожидание и представляет собой интеграл 00 Е(ы)= и (х) f (x)dx, (1.11) — со если только этот интеграл сходится абсолютно. По поводу общего понятия плотности см. § 3. ► Обобщение вышеизложенного на многомерные пространства можно описать в нескольких словах. Точка в 5£2 представляет собой пару действительных чисел x = (xt, х2). Неравенства сле- дует понимать в покоординатном смысле1); так a<Zb означает, что и а2 < Ь2 (или, иными словами, «а лежит юго-запад- нее &»). Это отношение порядка является лишь частичным упо- - рядочением, т. е. две точки а и b не обязаны находиться в одном из двух отношений а < й, а Ь. Интервалами мы называем множества, определяемые четырьмя возможными типами двойных неравенств а < х < b и т. д. Интервалы представляют собой пря- моугольники со сторонами, параллельными осям координат, и могут также вырождаться в отрезки или точки. Единственно новым является то обстоятельство, что если —I —I а, с—двумерный интервал и а < b < с, то а, с не есть объедине- ——I------------1 ние а, b и Ь, с. Каждой функции интервала F {1} можно поста- вить в соответствие отвечающую ей функцию распределения, которая, как и в одномерном случае, определяется равенством ---------------1 ----1 F(x) = F{—оо, х}. Теперь, однако, в выражение F {а, Ь\ в тер- минах функции распределения входят все четыре вершины интер- вала. В самом деле, из рассмотрения дву/ бесконечных полос, параллельных х2—оси и имеющих основания—стороны прямо- 1) Это соглашение было введено в гл. Ill, 5,
158 Гл. V. Вероятностные распределения в *№ — -4 ----1 угольника а, Ь, непосредственно следует, что F {а, Ь} выражается через так называемую «смешанную разность» F {a, = F (&n &2)—F(au b2)—F (bi9 a2)+F(ab a2). (1.12) Для функции распределения F(x) = F(xi, х2) правая часть (1.12) неотрицательна. Отсюда следует монотонность F (хъ х2) по и х2, однако обратное неверно: монотонность F не обеспечи- вает положительности (1.12). (См. задачу 4.) Ясно, что в многомерном случае функции распределения яв- ляются не очень подходящим аппаратом: если бы не соображение аналогии со случаем пространства Si1, все рассмотрения, возможно, велись бы в терминах функций интервалов. Формально определе- ние функции распределения в SZ1 распространяется на Si2, если условие монотонности (1) заменить на условие неотрицательности смешанных разностей (1.12) при а^Ь. Так определенная функция распределения индуцирует функцию интервалов (соотношения подобны (1.3), в случае Si1 нужно лишь обычные разности заме- нить на смешанные). Лемма 1 сохраняется вместе с доказа- тельством х). Одно простое, но существенно важное свойство математических ожиданий принимается иногда как само собой разумеющееся. Любая функция и (X) = == и (Хх, Х2) от координатных переменных является случайной величиной и как таковая имеет функцию распределения G, Математическое ожидание Е (и (X)) можно определить двумя способами—как интеграл от и (х15 г2) по отношению к заданной вероятностной мере на плоскости, а также в терминах функции распределения величины и: со Е(п)= yG {dy}. (1.13) — 00 Оба определения эквивалентны в силу самого определения первого из этих интегралов с помощью аппроксимирующих сумм гл. IV, (4.3) 2). Существен- ным здесь является то обстоятельство, что математическое ожидание случай- ной величины Z (если оно существует) имеет внутренний смысл и не зависит от того, рассматривается ли Z как функция на исходном вероятностном про- странстве S3 или на пространстве, полученном при соответствующем отобра- жении ®; в частности, Z сама отображает 33 на прямую и превращается на ней в координатную величину. и В доказательстве используется тот факт, что при конечном разбиении одномерного интервала подынтервалы имеют естественный порядок слева направо. Столь же хорошее упорядочение имеет место при шахматных раз- биениях двумерного интервала а, 6, т. е. разбиениях на тп подынтервалов, —-Ч получаемых разбиениями отдельно обеих сторон а, b и проведением прямых, параллельных осям, через все точки подразбиений. Доказательство конечной аддитивности для таких шахматных разбиений не меняется, и каждому раз- биению соответствует его шахматное подразбиение. Переход от конечных разбиений к счетным одинаков при любом числе измерений. 2) Специальный случай содержится в теореме 1, гл. IX, 2Д.
§ 1. Распределения и математические ожидания 159 Начиная с этого места, не будет никакой разницы между слу- чаями пространства «%1 и пространства В частности, опре- деление математического ожидания не зависит от числа измерений. Резюмируя, можно сказать, что любая функция распределения индуцирует вероятностную меру на о-алгебре борелевских мно- жеств в Э1Г и тем самым определяет вероятностное пространство. Иначе говоря, мы показали, что вероятностная конструкция дискретных выборочных пространств, а также пространств с рас- пределениями, задаваемыми плотностями, распространяется без формальных изменений на общий случай. Тем самым оправдана вероятностная терминология, использовавшаяся в первых трех главах. Когда мы говорим об г случайных величинах Хх, ..., Хг, то подразумеваем, что все они определены на одном и том же вероят- ностном пространстве, и поэтому существует их совместное веро- ятностное распределение. При этом мы можем, если пожелаем,, рассматривать ХА как координатные величины в выборочном пространстве Э1Г. Вряд ли необходимо объяснять способ распространения таких понятий, как маргинальное (частное) распределение (см. гл. III, 1„ и 1, гл. IX, 1) или независимость случайных величин. Основные утверждения о независимых случайных величинах переносятся с дискретного на общий случай без изменений. (i) Независимость случайных величин X и Y с (одномерными) распределениями F и G означает, что функция совместного распределения (X, Y) задается произведениями F(x1)G(x2). Это может относиться к двум случайным величинам, определенным на заданном вероятностном пространстве, но может также пони- маться и как сокращенное выражение того, что мы вводим пло- скость с X и Y в качестве координатных переменных и определяем вероятности по правилу произведения. Сказанное в равной сте- пени применимо к парам, тройкам и вообще к любому числу случайных величин. (ii) Если совокупность т случайных величин (Хп . Х/л) не зависит от совокупности п случайных величин (Ylf .YJ, то случайные величины и(Х19 ..., XJ и v (Ylt .. .^ YJ независимы^, каковы бы ни были функции и и v. (iii) Для независимых X и Y справедливо равенство Е (XY) — ««Е (X) Е (Y), если только математические ожидания X и Y существуют (т. е. если соответствующие интегралы сходятся аб- солютно). Следующий простой результат часто приходится использовать. Лемма 2. Вероятностное распределение однозначно определяется значениями Е (и) для всех непрерывных функций и, обращающихся в нуль1 вне некоторого конечного интервала. Доказательство. Пусть / — конечный открытый интервал n’v— непрерывная функция^ которая положительна на / и равна нулю
160 Гл. V. Вероятностные распределения в вне /. Тогда r[/v(x)—^l при всех х£1 иА следовательно, Е (]/и) —> F {/}. Таким, образом, значения математических ожи- даний непрерывных функций, обращающихся в нуль вне некото- рого интервала, однозначно определяют значения F для всех открытых интервалов, которые в свою очередь однозначно опре- деляют F. ► Замечание Iг). Теорема Рисса о представлении. В последней лемме мате- матические ожидания определялись в терминах заданного вероятностного распределения. Часто (например, в проблеме моментов, см. гл. VII, 3) нам приходится отправляться от заданного функционала, назначая значения Е (и) некоторым известным функциям и. Вопрос в том, существует ли вероятно- стное распределение F, для которого + со E(u)== J и (х) F {dx}. (1Д4) — а> Оказывается, что следующие явно необходимые^ условия являются также и достаточными. Теорема. Допустим, что каждой непрерывной функции и обращающейся в нуль вне конечного интервала, соответствует число Е (и) со следующими свойствами-. (i) Функционал Е (и) является линейным, т. в. для всех линейных комби- наций выполняется Е (сгщ + с^ — с^ (щ) + с2Е (а2)* (ii) Функционал Е (и) положителен, т. е. E(w)^0 при и^О. (iii) Функционал Е (и) имеет норму 1, т. е. если 1, то Е (и) с 1, но при всяком 8 > 0 существует такая функция и, что и Е (и) > 1—е. Тогда существует единственное вероятностное распределение F, для кото- рого выполняется (1.14). Доказательство. Для произвольных t и h > 0 обозначим через г/, h непре- рывную функцию переменного х, которая равна 1 при x^t, равна 0 при x^t-\-h и линейна на промежуточном интервале t^x^t-\-h. Эта функция не обращается в нуль на бесконечности, но мы можем определить Е (г/, ^) посредством простой аппроксимации. Возьмем функцию ип, |цл|^1, такую, что Е (w„) определено и ип (х) = г/, (х) при ]х|<п. При т > п разность ит — ип внутри интервала —п, п равна тождественно нулю. Поэтому из условия, что Е имеет норму 1, можно легко вывести, что Е (ип—ит)—>0. Отсюда следует, что Е (ц„) сходится к конечному пределу и этот предел оче- видным образом не зависит от конкретного выбора аппроксимирующих функ- ций ип. Таким образом можно законным способом определить Е (г^ /Д = lim Е (ц„). Легко видеть, что даже в пределах расширенной области определения функ- ционал Е обладает тремя свойствами, постулируемыми теоремой. Положим далее F^ (t) = Е (ztt h). При фиксированном h эта функция монотонно меняется от 0 до 1. Она непрерывна, так как при 0 < 6 < h раз- ность Z/+6, ь—имеет треугольный график с высотой д/h и, следовательно, отношение приращений для F^ ограничено величиной \/h. При h—>0 функ- ции Fh монотонно убывают к пределу, который мы обозначим через F. Покажем, что F представляет собой, вероятностное распределение. Очевидно, что F монотонна и F (—оо) = 0. Кроме того, /7(/)^/7л(/—h), откуда следует, 4ToF(oo) = l. Остается показать, что F непрерывна справа. При г) Это замечание относится к вопросу, имеющему принципиальный инте- рес> и не будет использоваться в дальнейшем, Другрй подход см. в гд, IVa 5.
§ 1. Распределения и математические ожидания 161 заданных t и 8 > 0 выберем значение h столь малым, чтобы F (/) > (/)—8. Вследствие непрерывности мы имеем для достаточно малых 6 F (0 > Fh (0-е > Fh (/ + 6)—2s^F (/4-6) — 28, откуда следует непрерывность справа. Пусть и — непрерывная функция, обращающаяся в нуль вне конечного интервала а, Ь. Выберем а = aQ < а± < ... < ап = Ь такими, что внутри каж- дого подынтервала ak_lf а^ колебания значений функции и меньше, чем 8, Если h меньше длины наименьшего среди этих интервалов, то п и (ап) д 2ак~~1,Д1] 0’15) k— 1 * есть кусочно-линейная функция с вершинами в точках ak и a^-\-h. Поскольку и (ak) = uh (ak)> то \и — г/д|=с28 и, следовательно, |Е (zz)—Е (uh) | 28, Однако при h —> 0 п------------------1 Е («л) —> 2 и (ак) F {afe_!, ак}, (1,16) fc=l причем сумма справа в (1.16) отличается от интеграла в (1.14) меньше чем на 8. Таким образом, левая и правая части в (1.14) отличаются меньше чем на 3s, и, следовательно, (1.14) справедливо. Замечание II. О независимости и корреляции. Теория статистической кор- реляции восходит к тому времени, когда формализация теории была еще невозможна и понятие стохастической независимости по необходимости носило мистический характер. Уже тогда понимали, что независимость двух ограни- ченных случайных величин с нулевыми математическими ожиданиями влечет равенство Е (XY) = 0, однако сначала .думали, что это равенство должно быть и достаточным для независимости X и Y. После того как была обнаружена ложность этого заключения, долгое время искали условия, при которых обра- щение в нуль корреляции влечет стохастическую независимость. Как часто случается, история задачи и красота частных результатов затемнили тот факт, что современные методы позволяют дать чрезвычайно простое ее реше- ние. Следующая теорема содержит различные результаты, доказанные ранее трудоемкими методами. Теорема. Случайные величины X zz Y независимы тогда и только тогда, когда Е (и (X) v (Y)) = Е (и (X)) Е v ((Y) (1.17) для всех непрерывных функций и и v, обращающихся в нуль вне конечного ин- тервала. Доказательство. Необходимость условия очевидна. Достаточность его будет доказана, если показать, что для всякой непрерывной функции w (X, Y), равной нулю вне некоторого конечного интервала, математическое ожидание Е (w) совпадает с математическим ожиданием w относительно пары независимых случайных величин, распределенных как X и Y. Но, согласно (1.17), это верно для функций вида ш (X, Y) = zz(X)y (Y). Так как каждую непрерывную функцию wt обращающуюся в нуль вне некоторого конечного интервала, можно равномерно приблизитьJ) линейными комбинациями вида ^скик (X) Oft(Y), то, переходя к пределу, убеждаемся в справедливости нашего утверждения. I) См. задачу 10 в гл. VIII, 10, 6 № 249
162 Гл. V. Вероятностные распределения в $1Г § 2. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ Настоящий параграф посвящен в основном известным или очевидным понятиям и фактам, связанным с функциями распре- деления в «%1. Как и в дискретном случае, &-й момент случайной величины X по определению полагается равным Е(ХЙ). При этом предпола- гается, что интеграл Е(Х*) = $ xkF{dx} (2.1) — 00 сходится абсолютно. Таким образом, Е (Xй) существует тогда и только тогда, когда Е (| X |й) < оо. Величина Е (| X |й) называется абсолютным моментом X порядка k. Она определена и для не- целых k > 0. Так как при 0<а<& имеет место неравенство | х |а | х + 1, то из существования абсолютного момента по- рядка b вытекает существование абсолютных моментов всех порядков а < Ь. Второй момент случайной величины X—т, где т—математи- ческое ожидание X, называется дисперсией X и обозначается VarX: Var (X) = Е ((X—m)2) = Е (X2)—m2. (2.2) В рассматриваемом общем случае дисперсия обладает теми же свойствами и играет ту же роль, что и в дискретном случае. В частности, если X и Y независимы и дисперсии VarX и VarY существуют, то Var (X + Y) - Var X + Var Y. (2.3) [Две случайные величины, удовлетворяющие равенству (2.3),} называются некоррелированными. В 1, гл. IX, 8, было показано^ что существуют зависимые некоррелированные случайные ве- личины.] Вспомним, что мы часто заменяли случайную величину на «нормированную величину» Х* = (Х—mj/a, где т = Е(Х) и о2 = = Var(X). Выражаясь физическим языком, можно сказать, что X* есть запись X в «безразмерных единицах». Вообще переход от X к (X—Р)/а при сс>0 есть изменение начала отсчета и еди- ницы измерения. Функция распределения новой случайной вели- чины равна F(ax + P), и нередко мы имеем дело по существу со всем классом функций распределения этого вида, а не с от- дельным представителем класса. Введем для удобства следующее Определение 1. Два распределения и F2 в 3F называются распределениями одного и того же типа1), если F2(x) == F^ax-j-fi), х) Это понятие было введено Хинчиным, который использовал немецкий термин «Klasse» (класс), однако в английской литературе «класс функций» имеет установившееся значение,
§ 2. Предварительные сведения 163 а > 0. Параметр а называют масштабным множителем, а па* раметр р—центрирующей постоянной (или параметром распо- ложения). Данное определение позволяет использовать выражения вида «F центрировано к нулевому математическому! ожиданию» или «центрирование не меняет дисперсии». Медианой распределения F называется число В, удовлетворяю- щее условиям F (В) > 1 /2 и F(B—) 1/2. Медиана может быть определена неоднозначно; если F(x) = 1/2 при всех х из некото- рого интервала а, Ь, то каждое х из этого интервала есть медиана. Распределение можно центрировать так, чтобы его медиана стала равной нулю. За исключением медианы, все рассмотренные понятия пере- носятся на случай любого конечного числа измерений, или, иными словами, на векторные случайные величины вида Х = (Х15 ..., Хл). Соответствующие векторные обозначения были введены в гл. III, 5, и не требуют никаких изменений. Математическое ожидание X представляет собой в этом случае вектор, а дисперсия X—матрицу. Первое, на что обращается внимание при рассмотрении графика функции распределения,— это разрывы и интервалы постоянства. Нередко приходится оговаривать, что точка не принадлежит интервалу постоянства. Введем следующую удобную терминологию, относящуюся к любому конечному числу измерений. Определение 2. Точка х является атомом, если она имеет положительную массу. Точка х, для которой F{/}>0, каков бы ни был открытый интервал I, содержащий х, называется точкой роста. Распределение F сосредоточено на множестве А, если дополнение А' имеет вероятность = 0. Распределение F называется атомическим, если оно сосредото- чено на множестве своих атомов. Пример. Расположим рациональные числа из отрезка 0, 1 в последовательность г19 г2,... так, чтобы с ростом номера числа рос и его знаменатель. Определим распределение F, положив вероятность каждой точки rk равной 2"^. Распределение F атомичес- I--1 кое, однако все точки замкнутого интервала 0, 1 являются точками роста F. В силу условия счетной аддитивности (1.7) сумма масс атомов не превосходит единицы, так что имеется не больше одного атома с массой > 1/2, не больше двух атомов с массой > 1/3 и т. д. Все атомы, следовательно, можно расположить в простую после- довательность alf а2,. .. так, чтобы соответствующие им массы не возрастали: pi^ р2^.. • . Иными словами, число атомов не более чем счетно. 6*
164 Гл, У. Вероятностные распределения в Распределение, не имеющее атомов, называется непрерывным. Предположим, что распределение имеет атомы с массами р2, ..., и обозначим p — ^Pk- Положим (2-4) ak<x где суммирование распространяется на все атомы из интервала -------1 — оо, %. Функция Еа(х), представляющая собой, очевидно, функ- цию распределения, называется атомической компонентой F. Если р=1, то распределение F является атомическим. При р <1 по- ложим q=l—р. Легко видеть, что [F—pFa]/q = Fc есть непре- рывная функция распределения. Таким образом, имеем F = pFa + qFc, (2.5) т. е. F является линейной комбинацией двух функций распреде- ления Fa и Fc, из которых Fa—атомическая, a Fc—непрерывная. Если F есть атомическая функция распределения, то (2.5) по- прежнему имеет место ср-1, причем в качестве Fc можно взять произвольную непрерывную функцию распределения. При отсут- ствии атомов в (2.5) будет р = 0. Нами доказана, таким образом, Теорема Жордана о разложении. Всякое вероятностное распре- деление является смесью атомического и непрерывного распределений вида (2.5) с р>0, ^>0, р + q = 1. Имеется один класс атомических распределений, из-за которых приходится иногда загромождать простые формулировки перечи- слением тривиальных исключений. Распределения этого класса лишь произвольным масштабным множителем отличаются от распределений, сосредоточенных в целочисленных точках, однако встречаются они весьма часто и поэтому заслуживают специаль- ного названия для удобства ссылок. Определение 3. Распределение F на ЗР называется арифмети- ческим х), если оно сосредоточено на множестве точек вида 0, ± ± 2%, .... Наибольшее число %, обладающее этим свойством, называется шагом F. § 3. плотности Первые две главы были посвящены изучению вероятностных распределений в 5J1, для которых вероятность произвольного Пожалуй, более общепринятым является термин «решетчатое распреде- ление», однако его употребляют в разных смыслах: некоторые авторы под решетчатым распределением понимают распределение, сосредоточенное на множестве а. а ± X, a ± 2А,, ..., где а—произвольно. (Биномиальное рас- пределение с атомами в точках i 1 в нашей терминологии является ариф- метическим распределением с шагом 1, в то время как в упомянутой другой терминологии оно—решетчатое распределения с шагом 2.)
§ 3. Плотности 165 интервала (а, следовательно, и вообще произвольного множества) задается интегралом F{4} = <p(x)dx. (3.1) А Распределения, рассматривавшиеся в гл. III, имеют такой же вид с той лишь разницей, что интегрирование происходит по лебего- вой мере (площади или объему) в 3$г. Если плотность ф в (3.1) сосредоточена на интервале 0, 1, то (3.1) можно переписать в виде F{A}=t ^q>(x)U{dx}, (3.2) А где U обозначает равномерное распределение на 0, 1. Последняя формула имеет смысл для произвольного вероятностного распре- деления U, и, когда F{—оо, оо} = 1, она определяет новое ве- роятностное распределение F. В этом случае мы говорим, что ф есть плотность F по отношению к U. В формуле (3.1) мера U бесконечна, в то время как в формуле (3.2) имеем U {—оо, оо} = 1. Это различие несущественно, поскольку интеграл в (3.1) может быть разбит на интегралы вида (3.2), распространенные на конечные интервалы. Хотя мы будем ис- пользовать (3.2) лишь в случаях, когда U есть либо вероятност- ное распределение, либо мера Лебега, как в (3.1), дадим, однако, следующее общее определение. Определение. Распределение F называется абсолютно непрерыв- ным по отношению к мере U, если для некоторой функции ф имеет место соотношение (3.2). При этом ф называется плот- ностью х) F по отношению к U. Наиболее важным частным случаем является, конечно, тот случай, когда имеет место (3.1), т. е. когда U есть мера Лебега. Функция ф в этом случае называется «обычной» плотностью. Введем теперь следующую сокращенную запись: F {dx} = ф (х) U {dx}. (3.3) Эта запись имеет лишь тот смысл, что для всех множеств вы- полняется равенство (3.2), и никакого специального смысла символу dx придавать не следует. Пользуясь этой сокращенной записью, мы будем записывать (3.1) в виде F {dx} = q(x)dx> и если U имеет обычную плотность и, то (3.2) принимает вид F {dx} = ф (х) и:(х) dx. Примеры, а) Пусть U—вероятностное распределение на со вторым моментом, равным т2. Тогда F{dx} = — x4J {dx} х) В теории меры функция ф называется производной Радона — Никодима распределения F по отношению к U*
166 Гл, V. Вероятностные распределения в 91г есть новое вероятностное распределение. В частности, если U — равномерное распределение на 0, 1, то Г(х)==х3 при 0 < х < 1, а если U имеет плотность £~*(х>0), то F есть гамма-распреде- ление с обычной плотностью -±-х* 2е~х. б) Пусть U — атомическое распределение, наделяющее атомы alt a2i .. . массами plf р2, ... (здесь ^Рь = 0- Распределение F имеет плотность ср по отношению к U тогда и только тогда, когда оно атомическое и все его атомы являются также атомами распределения U. Если F имеет в массу q}-, то плотность ср задается посредством равенства Ч (ak} = qk/pk. Значение ср в точках, отличных от точек а}-, не играет никакой роли, и лучше всего считать <р в этих точках неопределенной. Теоретически подынтегральная функция ср в (3.2) определена неоднозначно. В самом деле, если N—такое множество, что U{N} = 0, то ср можно как угодно изменить на N и при этом (3.2) останется в силе. К этому, однако, и сводится вся неодно- значность в определении ср: плотность определена однозначно с точностью до значений на нулевом множестве х). На практике условиями непрерывности диктуется обычно однозначный выбор плотности, и поэтому, как правило, говорят о некоторой опре- деленной плотности, хотя, конечно, более правильно говорить о некоторой из плотностей. Из (3.3), очевидно, следует, что для любой ограниченной функции v 2). v(x) F {dx\ = v(x) (р (%) U \dx\, (3.4) В частности, если все значения функции ср больше (или меньше) нуля на некоторое число, то, взяв у = получим формулу х) В самом деле, пусть <р и (рг—две плотности F по отношению к U. Рассмотрим множество А всех точек х, для которых ср (х) >(pi(x)4~s. Из равенств F {Л} = J <р (х) U {dx} <рх (х) U {dx} А А следует, что £7 {Л} = 0, и поскольку это верно для любого 8 > 0, то ср (х) = == фх (х) всюду, за исключением множества N, такого, что Е {А/} = 0. 2) Читателям, которых смущает справедливость соотношения (3.4), сле- дует обратить внимание на то, что для непрерывных плотностей (3.4) сво- дится к правилу подстановки для интегралов. Следующее доказательство (3.4) в общем случае использует стандартное рассуждение, применимое и в более общих ситуациях. Формула (3.4) тривиальна, когда v есть простая функция, принимающая лишь конечное число различных значений. Для любой ограниченной ^функции v существуют две простые функции с конечным числом значений р и v, такие, что v < v и v — v < 8, и поэтому из справедливости формулы (3.4) для всех простых функций вытекает ее справедливость в об- щем случае.
§ 3. Плотности 167 обращения для (3.2): t/W=^/7W- (3-5) Полезный критерий абсолютной непрерывности содержится в одной из основных теорем теории меры,, которую мы приведем здесь без доказательства. Теорема Радона—Никодима х). Распределение F абсолютно непрерывно по отношению к мере U тогда и только тогда, когда U {А\ = 0 влечет F{A\ = Q. (3.6) Условие (3.5) можно перефразировать следующим образом: U-нулевые множества являются также F-нулевыми множествами. Приведем одно важное следствие теоремы Радона—Никодима,, которое, однако, нигде в дальнейшем непосредственно исполь- зоваться не будет. Критерий. Распределение F абсолютно непрерывно по отно- шению к мере U тогда и только тогда, когда каждому е > О соответствует б > 0, такое, что для любой совокупности непе- ресекающихся интервалов ..., 1п {Ik\ < б влечет J] F {Ik\ < е. (3.7) 4 1 1 Весьма важным частным случаем выполнения (3.7) является тот случай, когда для всех интервалов F{I}^aU{I\. (3.8) При этом (3.7) выполняется с б = е/а, и, как легко видеть,j плотность F по отношению к U не превосходит а. За. Сингулярные распределения * 2) Условие (3.6) теоремы Радона—Никодима наводит на рас- смотрение случая, прямо противоположного случаю абсолютно непрерывных распределений. Определение. Вероятностное распределение F сингулярно по отношению к U, если оно сосредоточено на множестве N, таком, что U {N\ = 0. Особую роль здесь играет мера Лебега U \dx\ = dx, и когда говорят, что распределение «сингулярно», и не делают при этом дополнительных пояснений, имеют в виду, что оно сингулярно по отношению к мере Лебега. Каждое атомическое распределе- ние сингулярно по отношению к dx, но имеются и непрерывные распределения в ЭР, сингулярные относительно dx: таковым яв- х) Эту теорему нередко называют теоремой Лебега — Никодима. Соотно- шение (3.6) может быть принято в качестве определения абсолютной непре- рывности, и в этом случае теорема будет утверждать существование плотности. 2) Хотя принципиально сингулярные распределения очень важны, они появляются в этой книге лишь между прочим,
168 Гл. V. Вероятностные распределения в Г& ляется канторовское распределение, рассмотренное в примере 11, г) гл. I. Сингулярные распределения не поддаются аналитическому изучению, и их явное представление практически невозможно. Чтобы иметь возможность применять аналитические методы, при- ходится, следовательно, накладывать ограничения, которые обес- печивают либо абсолютную непрерывность, либо атомичность рас- сматриваемых распределений. Сингулярные распределения, однако, играют важную принципиальную роль, и многие статистические критерии основываются на их существовании. Это обстоятельство затемняется бытующим мнением, что «в практике» сингулярные распределения не встречаются. Примеры, в) Испытания Бернулли. В примере 11, в) гл. I было показано, что выборочное пространство последовательностей УУ...Н... (успехов «У» и неудач «Н») можно отобразить на единичный интервал, пользуясь простым приемом замены символов «У» и «Н» на 1 и 0 соответственно. Выборочным пространством становится тогда единичный интервал, и результат бесконечной последовательности испытаний представляется случайной величи- ной Y гДе X*—независимые случайные величины, при- нимающие значения 1 и 0 с вероятностями р и q. Обозначим распределение Y через Fp. Если испытания симметричны, то Fp^F^/z есть равномерное распределение, и модель принимает привлекательный простой вид. По существу эквивалентность сим- метричных испытаний Бернулли со «случайным выбором точки из О, 1» использовалась с самого возникновения теории вероятностей. Далее в силу закона больших чисел распределение Fp сосредо- точено на множестве Np тех точек, в двоичном разложении которых частота цифры 1 стремится к р. При р^=а множе- ство Na имеет вероятность нуль и, следовательно, распре- деления Fp сингулярны по отношению друг к другу. В частности,] при р^= 1/2 распределение Fp сингулярно по отношению к равно- мерному распределению dx. Точного представления для Fp прак- тически не существует,, и поэтому описанная конструкция редко используется при рУ=1/2. Два обстоятельства заслуживают осо- бого внимания. Во-первых, посмотрим, что было бы, если бы частный случай р=1/3 представлял особый интерес или часто встречался в при- ложениях. Мы заменили бы тогда двоичное разложение чисел троичным и ввели бы новый масштаб так, чтобы F1/3 представляло собой равномерное распределение. «Практически» мы по-прежнему имели бы дело лишь с абсолютно непрерывными распределениями,] однако в основе этого лежит скорее выбор подхода, чем истинная природа вещей. Во-вторых, симметричность или несимметричность монеты можно проверить статистическими методами и можно достичь практически определенного решения после конечного числа испы-
§ 4. Свертки 169 таний. Это оказывается возможным лишь благодаря тому, что события, являющиеся правдоподобными при гипотезе р = 1/2,; весьма неправдоподобны при гипотезе р = 1/3. Небольшое размыш- ление показывает, что возможность принять решение после ко- нечного числа испытаний^ основана на сингулярности Fp при р=# 1/2 по отношению к F1/2. Таким образом, существование сингулярных распределений является существенным для статистической практики. г) Случайные направления. В гл. I,, 10, было введено понятие единичного вектора в 5£2 со случайным направлением. Распреде- ление такого вектора сосредоточено на единичной окружности и, следовательно, является сингулярным по отношению к мере Ле- бега (площади) в плоскости. Можно было бы думать, что в этом случае в качестве выборочного пространства следует взять окруж- ность, однако в некоторых практических задачах такой вариант выборочного пространства невозможен [см. пример 4, д)]. Теорема Лебега о разложении. Каждое вероятностное распре- деление F является смесью вида F = pFs + qFac, (3.9) где р^О, р + q = 1, двух вероятностных распределений Fs и Fac, из которых Fs сингулярно, a Fac абсолютно непрерывно по отношению к заданной мере U. Применяя к Fs жорданово разложение (2.5), получаем, что F можно представить в виде смеси трех вероятностных распределений, из которых первое—атомическое, второе—абсолютно непрерывное по отношению к U {dx}, а третье непрерывно, но сингулярно. Доказательство. Множество У, для которого {/{У}=0, бу- дем называть для краткости нулевым множеством. Пусть р есть верхняя грань значений F {Л/} по всем нулевым множествам N. Для каждого п существует нулевое множество Nn, такое, что F{Nn\>p—l/п. При этом F{A}^l/n для всякого нулевого множества Л, лежащего в дополнении У„. Для множества N — = UNn имеем (7{У} = 0 и F{N\ = p, так что никакое нулевое множество, лежащее в дополнении У', не может иметь положи- тельной вероятности. Если р=1, то F сингулярно, тогда как равенство /7 = 0 озна- чает, что F абсолютно непрерывно. При 0 < р < 1 утверждение теоремы выполняется для двух вероятностных распределений, определенных формулами pFs{A} = F{AN\, q-Fac{A\ = F{AN'}. (3.10) § 4. СВЕРТКИ Трудно переоценить важность операции свертки во многих областях математики. Нам придется иметь дело со сверткой с двух точек зрения: и как с операцией, применяемой к распределе-
170 Гл. V. Вероятностные распределения в 91г ниям, и как с операцией, применяемой к распределению и непре- рывной функции. Для определенности мы будем рассматривать распределения в /%1, однако при использовании векторных обозначений § 1 все формулы остаются в силе и для распределений в пространстве любой размерности. Определение свертки на окружности следует схеме, описанной в гл. II, 8, и не требует дополнительных пояс- нений. (Более общие свертки можно определить на произвольных группах.) Пусть F—вероятностное распределение и ср—ограниченная функция точек. (В рассматриваемых нами приложениях ср будет либо непрерывной функцией, либо функцией распределения.) Опре- делим новую функцию и, полагая 00 м(х) = J <р(х—y)F{dy}. (4.1) — 00 Если F имеет плотность f (по отношению к dx), то 00 U(x)= J ф(х—y)f(y) dy. (4.2) — 00 Определение 1. Функция и в (ДА) называется сверткой функции Ф с вероятностным распределением F. Для такой свертки будет использоваться обозначение u = F*q). Если F имеет плотность f, то мы будем писать u = fx-q>. Отметим, что порядок компонент в свертке (4.1) существен: символ ср ★ F, вообще говоря, смысла не имеет. С другой стороны, интеграл в формуле (4.2) имеет смысл для любых интегрируе- мых функций f и ср (даже если f принимает значения разных знаков) и символ * используется в этом обобщенном смысле. Огра- ниченность функции ф была введена конечно, ради простоты и вовсе не является необходимой. Примеры, а) Если F—равномерное распределение на 0, а, то X W(X) = V S <p(s)ds. (4.3) х-а Ясно, что в этом случае функция и непрерывна; если предположить еще, что функция <р непрерывна, то и будет обладать непрерывной производной и т. д. Вообще говоря, и ведет себя лучше, чем <р, так что свертка служит сглаживающим оператором. б) Формулы свертки для экспоненциальных и равномерных распределений [гл. 1, (3.6), и гл. I, (9.1)] являются частными случаями общей формулы. Примеры сверток распределений в 5?2 имеются в гл. Ш, (1.22), и в задачах 15—17 гл. III. >
§ 4. Свертки 171 Теорема 1. Если функция <р ограничена и непрерывна, то свертка u = F ★ ф тоже ограничена и непрерывна. Если ф—веро- ятностное распределение, то и тоже является вероятностным распределением. Доказательство. Если ф—ограниченная непрерывная функция, то, согласно принципу мажорированной сходимости, и (%+/i) —> и (%). По тем же соображениям из непрерывности справа функции ф следует непрерывность справа и. Наконец, поскольку ф монотонно меняется от 0 до 1, то же самое справедливо для и. > Следующая теорема дает вероятностную интерпретацию свертки F Ф, когда ф есть функция распределения. Теорема 2. Пусть X и Y—независимые случайные величины с распределениями F и G. Тогда P{X+Y<4= J G(i — x)F{dx\. (4.4) — 00 Доказательство х). Возьмем 8 > 0 и обозначим через 1п интервал п& < х^(п+ 1)8, /1 = 0, ±1, ... . Появление при некотором /г события {X б Y t—п&} влечет появление события {Х+ Y /}>. Следовательно, поскольку события {X£/W_f, Y /—п&} взаимно исключают друг друга и случайные величины X, Y независимы, имеем P(X + YCO>SG(/-«e)F{/„_ib (4.5) Справа в этой формуле стоит интеграл от ступенчатой функции Ge, которая на /n_j равна G (t—пе). Поскольку Ge (у) G (t—е—у), то P{X + Y</}> J G(t—8—x\F{dx). (4.6) — 00 Аналогичное рассуждение приводит к противоположному нера- венству с 8, замененным на —8. Устремляя 8 к нулю, получаем (4.4). к Пример, в) Пусть распределения F и G сосредоточены на мно- жестве целых неотрицательных чисел 0, 1, 2/ ... , причем соот- ветствующие точке k Массы равны рк и qk. В этом случае интеграл в формуле (4.4) сводится к сумме —£)р&. Функ- ция, представляемая этой суммой, обращается в нуль при /<0 и постоянна на каждом интервале п—1 < t < п. Скачок ее при х) Формула (4.4) представляет собой частный случай теоремы Фубини [гл. IV, (2.11)]. Утверждение, обратное теореме 2, неверно: мы видели в гл. II, 4, д), и в задаче 1 из гл. III, 9, что в исключительных случаях фор- мула (4.4) может иметь место и для пары зависимых случайных величин X и Y
172 Гл. V. Вероятностные распределения в S{r t = n равен S Яп-kPk = ЯпРо + Qn-iPi + • • • + QoPn, (4-7) k=0 что согласуется с формулой свертки [1, гл. XI, (2.1)] для неот- рицательных целочисленных случайных величин. Обе предыдущие теоремы показывают, что свертка двух функ- ций распределения F*G снова приводит к функции распреде- ления U. Из коммутативности сложения X+Y вытекает, что F ★ G^G* F. При совершенной системе обозначений можно было бы ввести новый символ для свертки функций распределе- ния, однако это вряд ли было бы полезнымJ). Конечно, U следует рассматривать как функцию интервалов или меру- для любого интервала 1 = а, b имеем, очевидно, О0 £/{/}=$ G{I—y\F{dy}, (4.8) — 00 где, как обычно, /—у обозначает интервал а—у, b—у. (Эта фор- мула автоматически переносится на произвольные множества.) В силу коммутативности F и G в формуле (4.8) можно поменять местами. Рассмотрим теперь три распределения F2, F3. Из ассоци- ативности сложения случайных величин следует, что (Fj^F2)^F3 = = F± F3). Следовательно, при обозначении свертки трех распределений можно не пользоваться скобками и писать просто Ft ★ F2 ★ F3. Резюмируем сказанное выше в следующих теоремах. Теорема 3. В классе распределений операция свертки комму- тативна и ассоциативна. Теорема 4. Если распределение G непрерывно (т. е. не имеет атомов), то свертка U = F G тоже непрерывна. Если G имеет г) Иными словами, символ А*В используется, когда интегрирование происходит по мере А. Свертка А^В является функцией точки или мерой в соответствии с тем, является ли В функцией точки [как в (4.1)] или мерой [как в (4.8)]. Звездочка * используется для операции между двумя функ- циями, когда интегрирование происходит по лебеговой мере. Мы применяем этот тип свертки почти исключительно к вероятностным плотностям. Можно дать более общее определение свертки двух функций, положив 00 = р (X—у) g (у) т {dy}, — 00 где т — произвольная мера. Суммы вида (4.7) представляют собой частный случай этой формулы, а именно когда т сосредоточена на множестве неот- рицательных целых чисел и каждому такому числу сопоставлена единичная масса. В этом смысле наше теперешнее использование звездочки согласуется с ее использованием для сверток последовательностей в 1, гл. XI, 2,
§ 4. Свертки 173 обычную плотность <р, то U имеет обычную плотность и, зада- ваемую формулой (4.1). Доказательство. Первое утверждение содержится в теореме 1. Если есть плотность распределения G, то, интегрируя (4.1) по интервалу /, справа получим правую часть (4.8), так что и дей- ствительно является плотностью распределения U, определяемого формулой (4.8). Из теоремы, в частности, следует, что если F и G имеют плотности f и g, то свертка F^G имеет плотность h = f *g: + 00 h(x) = $ f (х—у) g(y)dy. (4.9) — оо Вообще говоря, функция h обладает большей гладкостью, чем любая из функций f и g. (См. задачу 14.) Суммы Sn = X1 + ... +ХП " взаимно независимых случайных величин с общей функцией распределения F встречаются очень часто, и поэтому для их распределения удобно ввести специаль- ное обозначение. Распределение суммы Sn есть п-кратная свертка распределения F с собой и обозначается Р2*. Имеем, таким образом, /71 =р9 p(n + D* * F. (4.10) Сумму без слагаемых условно считают равной нулю. В соответ- ствии с этим мы определим Р* как атомическое распределение, сосредоточенное в нуле. Тогда (4.10) будет выполняться и при И?=0. Если F имеет плотность /, то Р2* имеет плотность f * ... (п раз), которую мы обозначим fn*. Эти обозначения согласуются с обозначениями, введенными в гл. I, 2. Замечание. Следующие примеры показывают, что свертка двух сингулярных распределений может иметь непрерывную плотность. Из этих примеров видно также, что можно эффективно вычислять свертки, не используя определяю- щую их формулу. Примеры, г) Равномерное распределение на 0, 1 является сверткой двух сингулярных распределений канторовского типа. В самом деле, пусть Xf, Х2, «<•—взаимно независимые случайные величины, принимающие значения О и 1 с вероятностью 1/2. В примере 11, в) гл. I мы видели, что случайная величина X = 2~“^Xfc имеет равномерное распределение. Обозначим сумму членов ряда с четными и нечетными номерами через U и V соответственно. Очевидно, U и V независимы и X = U-f-V. Следовательно, равномерное распределение есть свертка распределений величин U и V. Ясно далее, что величины U и 2V имеют одинаковые распределения, а величина V лишь обозначением отличается от величины х/з¥ примера 11, г) гл. I. Иными словами, распределения величин U и V лишь масштабными множителями отличаются от рассмотренного в этом примере канторовского распределения. д) Случайные величины в ffi2. Распределение единичного вектора со слу- чайным направлением (см. гл. I, 10) сосредоточено на единичной окружности и, следовательно, сингулярно относительно лебеговой меры на плоскости.
174 Гл. V. Вероятностные распределения в 3jr Тем не менее длина L суммы двух таких независимых векторов имеет распре- _ 2 1 ---- деление с плотностью-----г , сосредоточенное на 0, 2. В самом деле, по- л у 4— г2 закону косинусов L = yr2—2 cos со = 12 sin — со | , где со—угол между двумя векторами. Так как -у со имеет равномерное распределение на 0, л, то Р {L г} = Р Л 2 sin Л=—- arcsin г, 0 < г < 2, (4.11) I I j I Л что и требовалось доказать. (См. задачу 12.) ► 4а. О точках роста Здесь необходимо прервать изложение, чтобы зафиксировать некоторые элементарные факты относительно точек ростка свертки F ★ G. Первая лемма интуитивно понятна, вторая имеет технический характер. Этот материал будет использован лишь в теории восстановления, и потому косвенно в теории слу- чайных блужданий. Лемма 1. Если а и b—точки роста распределений F и G, то а-\-Ь есть точка роста свертки F*G. Если а и b — атомы F и G, то а-[-Ь есть атом F ★ G и каждый атом F it G может быть так получен. Доказательство, Для независимых X и Y имеем P{|X + Y— a — b\ < s/s? || X—а| < 1 е}-р|| Y — М < 4 е}’- Если а и b суть точки роста, то правая часть этого неравенства положительна при любом 8 > 0, и поэтому а-\-Ь тоже является точкой роста F it G. Обозначим Fa и Ga атомические компоненты F и G в жордановом разложении (2.5). Очевидно, атомическая компонента композиции F it G равна FaitGa, и поэтому все атомы F i? G имеют вид «+&, где а и b суть атомы F и G соответственно. ► Внутренняя простота следующей леммы немало теряет из-за той специаль- ной роли, которую играют в ней, с одной стороны, арифметические распре- деления, а с другой — распределения положительных случайных величин. Лемма 2. Пусть F — распределение в и S — множество, образованное точками роста распределений F, Z72*, F3*, .... а) Предположим, что F не сосредоточено на полуоси. Тогда если F не является арифметическим распределением, то S плотно в —оо, оо, а если F—арифметическое распределение о шагом X, то S = {0, ± X, ± 2Х, I---- б) Пусть F сосредоточено на 0, оо, но не сосредоточено в нуле. Если F не является арифметическим распределением, то S «асимптотически плотно на оо» в том смысле, что для любого заданного 8 > 0 при всех достаточно больших х интервал х, х-{-8 содержит точки из S. Если F—арифметическое распределение с шагом к, то S содержит все точки вида пк при достаточно больших п. Доказательство. Пусть а, Ь, 0 < а < Ь,—две точки множества 2, и пусть h — b—а. Будем различать два случая: (i) При каждом 8 > 0 можно выбрать а, b такие, что h < 8. (ii) Существует д > 0 такое, что h д при всех возможных выборах точек а, Ь. Обозначим через 1п интервал na<x^nb. Если п (Ь—а) > а, то этот интервал содержит па, (п-{-\)а в качестве подынтервала и, следовательно, любая точка х > х0 = а2ДЬ—а) принадлежит по крайней мере одному из ин-
§ 5. Симметризация 175 тервалов 11у /2, ••• • По лемме 1 (п+1) точек na-\-kh, k = Q, ... , п, при- надлежат 2, и эти точки разбивают 1п на я подынтервалов длины h. Таким образом, всякая точка х > х0 находится на расстоянии, не превосходящем Zi/2, от точки множества 2. В случае (i) отсюда вытекает, что множество 2 асимптотически плотно I-------------------------------------- на +оо. Если при этом F сосредоточено на 0, оо, то ничего не надо дока- зывать. В ином случае пусть —с < 0 — точка роста F. Для произвольного у и достаточно большого п интервал пс-\-у < х < пс+//+8 содержит точку s множества 2. Поскольку s—пс снова принадлежит 2, то отсюда вытекает, что любой интервал длины 8 содержит какие-либо точки множества 2 и, таким образом, 2 всюду плотно В случае (ii) можно допустить, что а и b были выбраны так, что h < 26. Тогда точками вида na-\-kh исчерпываются все точки множества 2, лежащие внутри 1п. Так как точка (п+1)а находится среди этих точек, это означает, что все точки 2 внутри 1п являются кратными h. Пусть теперь с—произ- вольная (положительная или отрицательная) точка роста F. При достаточно большом п интервал 1п содержит точку вида kh-\-c, а так как она принадле- жит 2, то отсюда вытекает, что с кратно h. Таким образом, в случае (ii) распределение F является арифметическим. ► Один частный случай этой теоремы представляет особый интерес. Каждое число х > 0 можно представить единственным образом в виде х = т + £, где т—целое и 1. Число | в этом представлении называется дробной долей х. Рассмотрим теперь распределение F, сосредоточенное в двух точках —1 и а > 0. Соответствующее множество 2, включая в себя все точки вида па—т1), содержит дробные доли всех чисел а, 2а, ... . Если a = p/q, где р и q — взаимно простые натуральные числа, то F — арифметическое распре- деление с шагом l/q. Мъ\ приходим, таким образом, к следующему результату (в гл. VIII, 6, будет доказана теорема 3 о равномерном распределении, уточ- няющая этот результат). Следствие. Для любого иррационального а > 0 дробные доли чисел а, 2а, За, ... образуют множество, плотное в 0, 1. § 5. СИММЕТРИЗАЦИЯ Пусть X—случайная величина с распределением F. Распреде- ление случайной величины — X мы будем обозначать ~F. В точ- ках непрерывности имеем -F(x)=l—F(—х), (5.1) и это соотношение однозначно определяет "F. Распределение F называется симметричным, если ~F = F. [В случае когда суще- ствует плотность /, симметричность означает, что f(—х) =/(%).] Пусть Хп Х2—независимые случайные величины с одним и тем же распределением F. Случайная величина Хг—Х2 имеет симметричное распределение °F, равное oF = F*-F. (5.2) Из свойства симметрии °F(x) = l—°F (—х) непосредственно сле- х) Множество 2 здесь в точности совпадает с множеством точек па—т, т, п — 0, 1, i8. .— Прим, перев,
176 Гл. V, Вероятностные распределения в дует, что 00 »F(x)= J F(x + y)F{dy}. (5.3) — 00 О распределении °F говорят, что оно получено в результате сим- метризации F. Примеры, а) Симметризация показательного распределения приводит к двустороннему показательному распределению [гл. II, 4, а)]; результатом симметризации равномерного на 0, 1 распреде- ления является треугольное распределение т2 [см. гл. II, (4.1)]. б) Симметричное распределение, имеющее атомы массы 1/2 в точках ±1, не является результатом симметризации никакого распределения. в) Пусть F—атомическое распределение, наделяющее точки О, 1, ... массами р0, pf, .... Тогда симметризованное распре- деление °F тоже является атомическим, имеющим в точках ± я массу <7п=2аЛ+п, = (5.4) /г = 0 В частности, для пуассоновского распределения F при п О имеем 00 , = ^¥ж=е’2“;'г(2а)’ (5’б) где 1п—функция Бесселя, определенная в гл. II, (7.1) (см. за- дачу 9). fc- Применение симметризации позволяет значительно упростить многие рассуждения. В связи с этим весьма важным является то обстоятельство, что хвосты распределений F и °F имеют сравни- мую величину. Более точно это выражено в нижеследующих нера- венствах. Смысл этих неравенств представляется более ясным, когда они выражены в терминах случайных величин, а не в тер- минах самих функций распределения. Лемма 1. Неравенства симметризации. Если Xf, Х2—незави- симые и одинаково распределенные случайные величины, то при t>0 РЦХ,-х2| > 4<2Р^|Х1|>17}. (5.6) Если а^О таково, что Р{Х(-^а}^р и Р{Хг-3>—то Р {| Хх—Х21 > 0 > рР {| Хх I > t + а}. (5.7)
§ 5. Симметризация 177 В частности, когда медиана Ху- равна нулю, имеем (5.8) Доказательство. Неравенство (5.6) является следствием того очевидного обстоятельства, что событие |Х£—Х2|>^ осуществ- ляется лишь тогда, когда осуществляется хотя бы одно из собы- тий | Xf | > -i-t, | Х2 | > -i-1. Для доказательства (5.7) достаточно заметить, что каждое из непересекающихся событий Х3: > t + а, Х2<яи Xf < — t—а, Х2^ — а влечет событие | Xf — Х2|^Л > Симметризация часто используется при оценке сумм независи- мых случайных величин. В этой связи особенно полезно следую- щее неравенство. Лемма 2. Если Xf, ..., Хп—независимые случайные величины с симметричными распределениями, то сумма Sn = Xf + ... + ХИ тоже имеет симметричное распределение и P{|X1+...+X„[>0>yP{max|X/|>0. (5.9) Если Ху. имеют одинаковое распределение F, то P{| xt+ ... +х„ I > (5.10) Доказательство. Пусть М—случайная величина, равная первой из величин среди Xf, ... , Хп, имеющих наибольшее значение по абсолютной величине. Положим T = S„—М. Двумерная случай- ная величина (М, Т) имеет симметричное распределение в том смысле, что все четыре случайные величины (± М, ± Т) имеют одинаковое распределение. Имеем, очевидно, Р{М> 0<P{M> t, Т>0} + Р{М>£, Т<0}. (5.11) Слагаемые справа в (5.11) равны по величине, и поэтому P{S„> Z} = P{M + T> Z}>P{M> t, T>o}>y P{M> 0, (5.12) что равносильно (5.9). Чтобы доказать (5.10), заметим, что во всех точках непре- рывности Р {шах | X,. К t} = (F (/)—F (— OF < w+F<-01, (5.13) в силу того, что 1—х < е~х при 0<х<1. Отсюда сле- дует (5.10).
178 Гл. V. Вероятностные распределения в § 6. ИНТЕГРИРОВАНИЕ ПО ЧАСТЯМ. СУЩЕСТВОВАНИЕ МОМЕНТОВ Известную формулу интегрирования по частям можно приме- нять также к интегралам по распределениям в 511. Если функ- ция и ограничена, имеет непрерывную производную и', то ь+ ь J и(х) F {dx} = и {b) F {Ь)— u(a)F(a) — и' (х) F (x)dx. (6.1) а а Доказательство. Простым преобразованием (6.1) сводится к виду b+ ь [и(Ь)—u(a)]F{dx}— ^u'(x)[F'{x) — F (a)]dx = 0. (6.2) a a Предположим, что |и'|^Л4, и рассмотрим разбиение а, b на конгруэнтные интервалы Ik длины h. Легко убедиться в том, что вклад Ik в левую часть (6.2) по абсолютной величине меньше чем 2MhF {Ik}. Суммируя по всем k, находим, что левая часть в (6.2) по модулю меньше 2Mh, что в свою очередь может быть сделано таким малым, как мы пожелаем. Таким образом, левая часть (6.2) в самом деле равна нулю. В качестве приложения выведем одну часто используемую фор- мулу [обобщающую 1; гл. XI, (1.8)]. Лемма 1. Для любого а > О 00 00 § xaF {dx} = a х^"1 [1 — F (%)] dx, (6.3) о о причем из сходимости одного из этих интегралов следует сходи- мость другого. Доказательство. Поскольку интегрирование в (6.3) происходит по бесконечному интервалу, мы не можем применять (6.1) непо- средственно, однако после тривиальных преобразований при b <оо из (6.1) следует, что ь+ ь 5 xaF {dx} = — ba [1 —F (Ь)] + а xa-1 [1 —F (x)]dx. (6.4) о о Предположим сначала, что интеграл слева сходится при b—>оо. Вклад в предельный интеграл по бесконечному промежутку от интегрирования по Ь, оо не меньше Ьа[1—F (&)], так что первое слагаемое в правой части (6.4) стремится к нулю. Переходя теперь в (6.4) к пределу при Ь—>оо, получаем (6.3). С другой стороны, в (6.4) интеграл слева не превосходит интеграла справа, и, сле- довательно, из сходимости правого интеграла вытекает сходимость левого, что, как мы видели выше, приводит к (6.3).
§ 7. Неравенство Чебышева 179 Для левой полуоси имеет место соотношение, аналогичное (6.3). Комбинируя обе формулы, получаем следующий результат. Лемма 2. Распределение F обладает абсолютным моментом порядка а>0 тогда и только тогда, когда функция |х|а"1Х Х[1—F(x) + F(—х)] интегрируема на 0, оо . В качестве приложения покажем, что имеет место Лемма 3. Пусть X, Y—независимые случайные величины и S = X -f- Y. Математическое ожидание Е = (| S |а) существует тогда и только тогда, когда существуют Е (| X |а) и Е (| Y |а). Доказательство. Поскольку случайные величины X и X —с обладают обсолютными моментами одних и тех же порядков, то, не ограничивая общности, можно предположить, что медианы ве- личин X и Y равны нулю. Но тогда Р {| S | > t} ^4“ {I I > О* и поэтому в силу предыдущей леммы Е (| S |а) < оо влечет за со- бой Е(|Х|а)<оо. Тем самым доказана необходимость. Доста- точность следует из неравенства | S |а С 2а (| X |а +1 Y |а), справед- ливость которого вытекает из того очевидного факта, что во всех точках |S| не превосходит наибольшего из чисел 2|Х| и 21 Y |. § 7. НЕРАВЕНСТВО ЧЕБЫШЕВА Неравенство Чебышева является одним из наиболее часто ис- пользуемых инструментов теории вероятностей. Как само нера- венство, так и его доказательство не отличаются от их дискрет- ного варианта (1; гл. IX, 6) и повторяются здесь главным обра- зом для удобства ссылок. Интересные приложения неравенства будут даны в гл. VII, 1. Неравенство Чебышева. Если существует Е (X2), то Р{|Х|>0<А.Е(№), / > 0. (7.1) В частности, если Е(Х) = т и Var(X) = a2, то Р{|Х-т|>/}<-^<А (7.2) Доказательство. Обозначим распределение величины X через F. Тогда Е(Х2)> $ x2F\dx\^t2 $ F\dx\. Поделив эти неравенства на t2, получаем (7.1). Полезность неравенства Чебышева определяется не его точностью (она неве- лика) , а простотой и тем, что оно особенно удобно в применении к суммам случай- ных величин. Среди многих возможных обобщений неравенства Чебышева ни
180 Гл. V. Вероятностные распределения в Fhr одно не обладает этими ценными его качествами. (Большинство из обобще- ний весьма просты и их лучше выводить по мере надобности. Например, по- лезная комбинация неравенства Чебышева и урезания распределений описана в гл. VII, 7.) Приведем один довольно общий метод получения нетривиальных нера- венств. Если и^Она всей прямой и и (х) > а > 0 при всех х из некоторого интервала I, то (7.3) С другой стороны, если вне I и и^1 на /, то мы получаем обратное неравенство F {1} Е (и (X)). Беря в качестве и многочлены, приходим к не- равенствам, зависящим лишь от моментов F. Примеры, а) Пусть и (х) = (х-|-с)2, где с > 0. Тогда и (х) 0 при всех х и и (х) (^+с)2 при х^ t > 0. Следовательно, р{Х > 0<(7^Е((Х+С)2). (7.4) При Е (Х) = 0 и Е(Х2) = о2 правая часть в (7.4) достигает минимума, когда c = G2!t, и, следовательно, о2 ОО. (7.5) Это важное неравенство было обнаружено независимо многими авторами. б) Пусть X — положительная случайная величина (т. е. F(0) = 0) и Е(Х) = 1, Е(Х2) = 6. Многочлен w(xj=/i~2(x—a) (a-]-2h—х) положителен лишь для а < х < a-\-2h и и (х) 1 при всех х. Если 0 < а < 1, то, как легко видеть, Е (и (X)) [2h (1—а) — b\h~*. Беря h — 6(1—я)”1 и используя замечание, предшествовавшее примерам, получаем Р{Х > а}^(1—(7.6) в) Пусть Е(Х2) = 1 и Е(Х4) = Л4. Применяя последнее неравенство к X2, находим, что при 0 < t < 1 Р {| X | > /}^(1 —^2)2 М-1. (7.7) По поводу обобщения неравенства Чебышева, принадлежащего Колмогорову, (см. пример 8, д). § 8. ДАЛЬНЕЙШИЕ НЕРАВЕНСТВА. ВЫПУКЛЫЕ ФУНКЦИИ Собранные в этом параграфе неравенства широко используются в математике и ни в коей мере не являются специфическими для теории вероятностей. Наиболее общее из них—неравенство Швар- ца. Другие неравенства приведены по причине их применений в теории случайных процессов и математической статистике. (На- стоящий параграф предназначается более для ссылок, чем для чтения.) а) Неравенство Шварца В вероятностной интерпретации это неравенство означает, что для всяких двух случайных величин ср и ф, определенных на од- ном и том же выборочном пространстве, (Е (ф1р))2 Е (<ра) Е №), (8.1)
§ 8. Дальнейшие неравенства. Выпуклые функции 181 если только входящие в неравенство математические ожидания существуют. Равенство в (8.1) осуществляется только тогда, когда некоторая линейная комбинация + величин ф и ф равна нулю с вероятностью единица. Более общим образом, если F — произвольная мера на множестве А, (Ф (*) Ф (*) Г {^}Y $ Ф2 (х) Г {dx} ^ф2 (х) F {dx}, (8.2) ул у л л каковы бы ни были функции ср и ф,- для которых интегралы справа существуют. Беря в качестве F атомическую меру, наде- ляющую единичными массами целочисленные точки, получаем не- равенство Шварца для сумм (2 ш)2 < 2 ф? 2^- (8 -3> Принимая во внимание важность неравенства (8.1), мы дадим два его доказательства, намечающие различные обобщения. Анало- гичные доказательства можно дать для (8.2) и (8.3). Первое доказательство. Можно предположить, что Е (ф2) > 0. Тогда математическое ожидание Е (ф + /ф)2 = Е (ф2) + 2t Е (фф) + /2Е (ф2) (8.4) является квадратным многочленом по t. Этот многочлен^ будучи неотрицательным, имеет либо два комплексных корня, либо двой- ной действительный корень А. Из формулы для решения квадрат- ного уравнения следует, что в первом случае (8.1) выполняется как строгое неравенство. Во втором случае (8.1) является равен- ством и Е (ф-J-Аф)2 = 0д так что ф + Аф = 0, за исключением мно- жества вероятности нуль. Второе доказательство. Поскольку при замене функций ф и гр в (8.1) на их кратные аср и 6ф, где а, b—некоторые числа, получается равносильное неравенство, то достаточно доказать (8.1) в случае, когда Е(ф2) = Е(ф2) = 1. Для получения (8.1) в этом случае достаточно взять математические ожидания от обеих частей неравенства 21 фф | ф2 + ф2. б) Выпуклые функции. Неравенство Йенсена Пусть и — функция, определенная на открытом интервале /, и P = (t, u(Q)—точка ее графика. Проходящая через Р прямая L называется опорной прямой функции и в точке g, если график и целиком лежит над L или на L. (Это условие исключает вертикаль- ные прямые.) На аналитическом языке это означает, что при всех х из / ^W>^(g) + A(x~g), (8.5) где А—тангенс угла наклона L. Функция и называется выпуклой
182 Гл. V. Вероятностные распределения в в интервале /, если в каждой точке х из I существует ее опор- ная прямая, (Функция и называется вогнутой, если выпукла функция —и.) Покажем сначала, что из этого определения вытекают различ- ные свойства выпуклых функций, которые интуитивно ассоции- руются нами с выпуклостью (исходя из примера выпуклых ломан- ных линий). Пусть X —случайная величина с распределением F, сосредо- точенным на /, и с математическим ожиданием Е(Х). Положив 1 = Е(Х) и взяв математическое ожидание от обеих частей нера- венства (8.5), получим Е(ю)>ю(Е(Х)), (8.6) если только математическое ожидание слева существует. Неравен- ство (8.6) известно как неравенство Йенсена. Наиболее важным является тот случай, когда F сосредоточено в двух точках xt и х2 и имеет в них массы 1—Z и t. При этом (8.6) принимает вид (1 — t) и (xj) + tu (х2) и ((1 — t) хг + tx2). (8.7) Это неравенство допускает простую геометрическую интерпрета- цию, которую мы сформулируем в виде следующей теоремы. Теорема 1. Функция и выпукла тогда и только тогда, когда все хорды ее графика лежат не ниже самого графика. Доказательство, (i) Необходимость. Пусть и — выпуклая функ- ция, и рассмотрим хорду под произвольным интервалом xit х2. Когда t меняется от 0 до 1 точка (1—t) -f-tx$ пробегает интер- вал х2, а левая часть (8.7) представляет собой ординату хорды в точке (1 — t)xA+tx2. Таким образом, (8.7) означает, что точки хорды лежат не ниже графика и. (ii) Достаточность. Пусть и обладает указанным в формули- ровке теоремы свойством, и рассмотрим треугольник, образован- ный тремя точками Ръ Р2, Р3 на графике и с абсциссами Xi<x2<x3. Точка Р2 лежит ниже хорды РгР3, и из трех сторон треугольника хорда РгР2 имеет наименьший наклон, а хорда Р2Р3— наибольший. Следовательно, вне интервала х2, х3 график и лежит над прямой Р2Р3. Будем считать теперь, что х3 — переменная точка и пусть х3~*x2-p0. Наклон хорды Р2Р3 при этом моно- тонно убывает, оставаясь ограниченным снизу наклоном хорды РХР2. Таким образом, прямые Р2Р3 стремятся к предельной пря- мой L, проходящей через Р2. Поскольку вне х2х3 график и лежит над прямой Р2Р3, то весь график и лежит не ниже L. Следова- тельно, L является опорной прямой для и в точке х2, и, по- скольку точка х2 произвольна, выпуклостью тем самым доказана.
§ 8. Дальнейшие неравенства. Выпуклые функции 183 Как предел хорд, прямая L является правой касательной. В рассмотренном предельном процессе абсцисса х3 точки Р3 стре- мится к х2, а сама точка Р3 — к некоторой точке на прямой L. Следовательно, Р3—Аналогичное рассуждение применима при приближении^ х2 слева, и поэтому график и непрерывен и обладает правой и левой касательной в каждой точке. Далее эти касательные являются опорными прямыми, и их наклоны меня- ются монотонно. Поскольку монотонная функция имеет не более счетного множества точек разрыва, то нами доказана Теорема 2. Выпуклая функция имеет правую и левую произ- водные в каждой точке. Эти производные являются монотонна не убывающими функциями, совпадающими друг с другом всюду, за исключением, быть может, счетного множества точек. Свойства выпуклых функций, указанные в теореме 2, явля- ются также и достаточными для выпуклости. В частности, если и обладает второй производной, то она выпукла тогда и только тогда, когда ц"^0. Обычно в качестве определения выпуклости функции берется (8.7). При /==1/2 из (8.7) получаем (88> Геометрически (8.8) означает, что середина хорды лежит не ниже соответствующей точки графика и. Если функция и непрерывна, то отсюда вытекает, что график не может пересечь хорду и, сле- довательно, и выпукла. Можно показать, что вообще любая бэ- ровская функция х), обладающая свойством (8.8), выпукла. в) Неравенства для моментов Покажем, что для любой случайной величины X функция ц (/) = log Е (| X |z), />0, (8.9) выпукла по t в каждом интервале, где она конечна. В самом деле, согласно неравенству Шварца (8.1), Е2 (I X |9< Е (I X |'+Л) Е (I X |*~Л), 0 < h < t, (8.10) если только математические ожидания существуют. Положив в (8.10) = /—h, x2 = t-t-h и перейдя к логарифмам, видим, что функция и удовлетворяет условию (8.8) и поэтому выпукла. Поскольку и (0)^0, то тангенс угла наклона t^u^t) пря- мой, соединяющей начало координат с точкой (t, u(t)), меняется монотонно и, следовательно, (E(|X|f))1/z является неубывающей функцией от / > 0. 0 Каждая функция и, удовлетворяющая условию (8.8), либо выпукла, либо она колеблется на каждом интервале от —оо до оо. См.: Харди Г. Г.е ЛиттльвудДж. Е. и Полна Г., Неравенства. — ИЛ, М.г 1948* особенное. 114<
184 Гл. V. Вероятностные распределения в г) Неравенство Гёльдера Пусть р>1, <?>1 и = Тогда для неотрица- тельных функций ф и ф имеет место неравенство Е (Фгр) <(Е (фИ)1/р (Е (гН)1/*, (8.11) если только математические ожидания существуют. (Неравенство (8.1) является частным случаем этого неравен- ства, получающимся из него при р = = Для неравенств (8.2) и (8.3) имеются обобщения, аналогичные (8.11).) Доказательство. При х>0 функция и = log х вогнута, т. е. она удовлетворяет неравенству, обратному (8.7). Потенцируя это неравенство, приходим к соотношению х}"^2 (1 — О + tx2, (8.12) справедливому при х2 > 0. Как при доказательстве неравен- ства Шварца (второе доказательство), чтобы установить (8.11), достаточно ограничиться случаем, когда/ Е (ф^) = Е (ф^) = 1. По- ложим t = q~1 и 1—Z = Подставив в (8.12) х1 = ^р, х2 = ф^ и взяв математические ожидания, получаем Е(фф)^1, что и тре- бовалось доказать. д) Неравенство Колмогорова Пусть Хх, ...,ХП—независимые случайные величины с конеч- ными дисперсиями и с Е(Х^) = 0. Тогда для любого х>0 PjmaxUSd, ..., |SJ]>x}<x-2E(S*). (8.13) Это важнейшее усиление неравенства Чебышева было выведено нами в 1; IX, 7 для дискретных случайных величин. Доказа- тельство сохраняется без изменений, но мы перефразируем его так, чтобы сделалось очевидным, что неравенство Колмогорова применимо и в более общей обстановке к субмартингалам. Мы вернемся к этому вопросу в гл. VII, 9. Доказательство. Положим x2 = i. При фиксированном значе- нии t и / = 1, 2, . ..,п обозначим через событие, заключаю- щееся в том, что S/ > /, но t для всех индексов v < /. Сло- вами можно сказать, что событие Aj состоит в том, что / есть наименьший среди индексов £, для которых S| > t. Конечно, та- кой индекс / не обязательно существует. Объединение событий Aj—это в точности событие, заключенное в левой части неравен- ства Колмогорова. Так как события Aj взаимно исключают друг друга, то неравенство может быть переписано в форме 2 Р{ЖГЕ(8‘). <8.14) / = 1
§ 9. Простые условные распределения. Смеси 185 Обозначим через 1Л индикатор события Лу-, иначе, 1Л есть случайная величина, которая равна 1 на Aj и равна 0 на до- полнении к Aj. Тогда 2 1л1, и поэтому E(S*)> 2 E(S*Uy). (8.15) Покажем, что E(S^by)>E(SJb.). (8.16) Поскольку S; > t всякий раз, когда происходит Лу, то правая часть (8.16) /Р(Л7). Таким образом (8.15) приводит к неравен- ству (8.14). Для доказательства (8.16) заметим, что Sw = S7- + (Sn—Sy), и, следовательно, Е (S* 1Л/) > Е (S}Uy) + 2Е ((S„-Sy) S7.l А.), (8.17) Второе слагаемое в правой части (8.17) обращается в нуль, так как величины Sn — S7. = X/+1 + ... +Х„ и 87.1Л/ независимы, и - поэтому к их математическим ожиданиям применимо правило ум- ножения. Таким образом, (8.17) доказывает утверждение (8.16). ► § 9. ПРОСТЫЕ УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ. СМЕСИ В гл. Ш, 2, мы определили «условную плотность случайной величины Y при фиксированном значении другой случайной ве- личины X» в том случае, когда совместное распределение X и Y имеет непрерывную плотность. Не претендуя на общность, мы введем теперь аналогичное понятие для более широкого класса распределений. (Систематически теория условных распределений и математических ожиданий развивается в § 10 и 11.) Для произвольной пары интервалов Л, В на прямой положим 0(Л, В) = Р(Х6Л Y6B}- (9.1) При этом обозначении для частного распределения X имеем и{Л}=0(Д ^). (9.2) Если > 0, то условная вероятность события {Y£B} при условии {X С Л) равна P{YGB|X(M} = ^^. (9.3) (Если р{Л} = 0, то эта условная вероятность не определена.) Воспользуемся формулой (9.3), когда А есть интервал Лл — = х, x-f-h. Пусть h —> 0 +. При выполнении соответствующих
186 Гл. V. Вероятностные распределения в условий регулярности предел <9'4> существует для всех х и В. В этом случае по аналогии с гл. III, 2, мы обозначаем q(x, B) = P{Y6B|X = 4 (9.5) и называем q «условной вероятностью события {YgB} при ус- ловии Х = х». Рассмотренная конструкция распространяет понятие условных вероятностей на случаи, когда «гипотезы» имеют нуле- вую вероятность. Никаких дальнейших трудностей не возникает, если функция q достаточно регулярна, однако мы не будем зани- маться изучением соответствующих условий регулярности, по- скольку в следующем параграфе рассматривается более общая схема. В частных случаях обычно оказывается достаточным про- стой наивный подход, и вид условного распределения нередко можно найти с помощью интуиции. Примеры, а) Предположим, что пара случайных величин X, Y имеет совместную плотность /(х, у). Для упрощения предпо- ложим, что f непрерывна и строго положительна. Тогда ' в где (х) = q (%, — оо, оо) есть частная плотность X. Другими словами, при фиксированном значении х функция множества q имеет плотность, равную /(х, у)/Л(х). б) Пусть X и Y—независимые случайные величины с распре- делениями F и G соответственно. Предположим для простоты, что X > 0 [т. е. F (0) = 0]. Рассмотрим произведение Z = XY. Имеем, очевидно, p{z<qx = 4 = G(|). (9.6) Интегрируя (9.6) по F, получим функцию распределения U вели- чины Z [см. гл. II, (3.1). Это утверждение представляет собой частный случай формулы (9.8), см. ниже]. В частности, когда ве- личина X распределена равномерно на интервале 0, 1, получаем 1 = (9.7) о Формула (9.7) может быть использована как удобный исходный пункт в теории одновершинных распределений х). 1) Функция распределения U называется одновершинной (унимодальной) с модой в нуле, если на интервале —оо, Оона выпукла, а на интервале 0, оо
§ 9. Простые условные распределения. Смеси 187 Дальнейшие примеры содержатся в задачах 18, 19. ► Следующая теорема, принадлежащая Л. Шеппу, является допускающим простую вероятностную интерпретацию вариантом формального критерия, открытого А. Хинчиным. Теорема. Функция распределения U одновершинна тогда и только тогда, когда ее можно представить в виде (9.7). Иными словами, U одновершинна тогда и только, тогда, когда она является функцией распределения произведе- ния Z=XY двух независимых случайных величин, из которых одна величина* скажем X, распределена равномерно на 0, 1. Доказательство. Возьмем h > 0 и обозначим функцию распределения, график которой является кусочно-линейной функцией, совпадающей с U в точках 0, ± h, ... [т. е. V h (nh) = U (nh) и функция (Уд линейна в интерва- лах между nh и (п+1) h]. Из определения одновершинности непосредственно вытекает, что функция U одновершинна тогда и только тогда, когда одно- вершинны функции Далее, имеет плотность uh, являющуюся ступен- чатой функцией, и каждую ступенчатую функцию с разрывами в точках nh можно записать в виде где f (х) = 1 при 0 < х < 1 и f(x) = O в остальных точках. Функция (*) моно- тонна в интервалах —оо, 0 и 0, оо тогда и только тогда, когда рп^0 при- всех п, и является плотностью, если ^рп = 1 • Но когда и (*) представляет собой плотность распределения произведения Z^=XY^—двух независимых случайных величин X и Yh, из которых X распределена равно- мерно на 0, 1, a Nh имеет арифметическое распределение Р{4h~nh} — pn. Мы, доказали, таким образом, что функция одновершинна тогда и только тогда, когда ее можно представить в виде (9.7) с функцией G, замененной на функцию Gh, сосредоточенную в точках 0, ... . Устремляя теперь h к нулю и используя теорему о монотонной сходимости, получаем нужный резуль- тат. (См. задачи 25, 26 и задачу 10 из гл. XV, 9.) ► При выполнении соответствующих условий регулярности функ- ция q(x, В) при фиксированном х является вероятностным рас- пределением по В и при фиксированном В представляет собой непрерывную функцию по х. При этом Q (Д В) = J q (х,г В) ц \dx}. (9.8) л В самом деле, стоящий справа интеграл задает вероятностное распределение на плоскости, и, дифференцируя его по типу (9.4), получаем q (х, В). Формула (9.8) показывает, как заданное рас- пределение на плоскости можно представить в терминах условного и частного распределений. Пользуясь терминологией гл. 11,5, можно сказать, что формула (9.8) дает представление заданного распределения в виде смеси зависящего от параметра х семейства вогнута [см. 8, б)]. Нуль может быть точкой разрыва U, но вне нуля одно- рершинность предполагает существование у U плотности и, которая монотонна и в —оо, 0, и в 0г оо. (Интервалы постоянства не исключаются).
188 Гл. V. Вероятностные распределения в 31г распределений q(x,B) и распределения р,, играющего роль рас- пределения рандомизированного параметра. На практике описанный процесс нередко обращается. В каче- стве исходного берут «вероятностное (стохастическое) ядро» q, т. е. функцию q(x, В) точки х и множества ВА- такую, что при фиксированном х она является вероятностным распределением, а при фиксированном В—бэровской функцией. При любом задан- ном вероятностном распределении р, интеграл в (9.8) определяет вероятности подмножеств плоскости вида (Л, В) и тем самым определяет некоторое вероятностное распределение на плоскости. Обычно формулу (9.8) выражают в терминах функций точек. Рас- смотрим семейство функций распределения G(0, у), зависящих от параметра 0, и некоторое вероятностное распределение р,. Опре- делим новую функцию распределения с помощью следующей фор- му лы: 00 и (у)= [ G (х, у) ц {dx}. (9.9) — 00 [Эта формула представляет собой частный случай формулы (9.8); ---------------------------------------------------1 она получается из нее при А = —оо, оои(/(х,—оо, у) = G (х, г/).] Смеси подобного рода встречались нам уже в 1, гл. V, и обсуж- дались в гл. 11,5. В следующем параграфе будет показано, что q всегда можно интерпретировать как условное распределение вероятностей. Примеры, в) Для всяких двух распределений Ft и В2 распре- деление pFi + (l—р)Р2 (0 < Р < 1) является их смесью и пред- ставляется формулой (9.9) с распределением р, сосредоточенным в двух точках. г) Случайные суммы. Пусть Xf, Х2, ... —независимые случай- ные величины с одинаковым распределением F, Пусть далее N— независимая от Ху случайная величина, принимающая значения О, 1, ... с положительными вероятностями р0, plf ... Рассмот- рим случайную величину SN = Xj + ... + XN . Условное распреде- ление SN при условии N = ft есть F'1*, и поэтому распределение SN дается формулой и=%рпГп*. (9.10) /1 = 0 представляющей собой частный случай (9.9). В рассматриваемом случае каждое условие N = п имеет положительную вероятность рп, и поэтому мы имеем здесь дело с условными вероятностными рас- пределениями в строгом смысле. Другие примеры имеются в гл. 11,5—7. (См. задачи 21 и 24.)
§ 10. Условные распределения 189 § 10*). УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ Вряд ли было разумным исследовать точные условия, при которых условные вероятности q могут быть получены с помощью процесса дифференцирования типа (9.4). Основные свойства услов- ных вероятностей выражены в соотношении (9.8), представляющем вероятности множеств в терминах условных вероятностей, и проще всего использовать (9.8) в качестве определения условных веро- ятностей. Соотношение (9.8) не определяет q однозначно, так как, если для каждого множества В с точностью до множества р,-меры нуль q (х, В) = q (х, В), то (9.8) по-прежнему остается справедли- вым при замене q на q. Однако указанная неопределенность не- избежна. Например, когда ц сосредоточено на интервале Z, невоз- можно никакое естественное определение q для х, не лежащих в /. В силу самой природы вещей мы имеем дело со всем классом эквивалентных условных вероятностей и должны говорить скорее о каком-то, а не об определенном условном распределении веро- ятностей q. В конкретных же случаях требования регулярности диктуют обычно некоторый определенный выбор условного рас- пределения вероятностей. Для определенности мы будем рассматривать лишь события, задаваемые условиями типа Х^А и N ^В, где X и Y—фиксиро- ванные случайные величины и А, В—борелевские множества на- прямой. Посмотрим сначала, как можно понимать фразу «условная вероятность события {YgB} относительно X». Значение X может быть либо фиксированным числом, либо быть неопределенным. При второй из этих интерпретаций мы имеем функцию от X, т. е. слу- чайную величину, которую будем обозначать Р{В|Х} или q (X, В) и т. д. Когда имеется в виду фиксированное значение X, скажем xg будет, использоваться обозначение P{Y€B|X = x} или q(x,B). Определение 1. Пусть В—фиксированное множество. «Услов- ной вероятностью P{Y(=B|X} события {Yg в} относительно X» называется функция (?(Х, В), такая, что для любого подмноже- ства А прямой Р{Х£Л, Y£B} = J<?(x, В)рМ (10.1) А где ц—частное распределение X. Когда х является атомом распределения р,, условие Х = х имеет положительную вероятность и условная вероятность Р {Y £ В | Х=х} была в этом случае определена нами раньше формулой (9.3), в ко- торой под А следует понимать множество, состоящее из единст- венной точки х. При этом формула (10.1) сводится к (9.3), так что наши прежние и настоящие определения и обозначения со- гласуются друг с другом. *) Этот параграф можно опустить при первом чтении.
190 Гл. V. Вероятностные распределения в 91г Мы видим, что условная вероятность P{Y £ 231X} всегда су- ществует. В самом деле, ясно, что Р]Х£Л, (10.2) Левая часть (10.2), рассматриваемая при фиксированном В как функция множества А, определяет конечную меру, и из (10.2) следует, что эта мера абсолютно непрерывна по отношению к ц (см. теорему Радона—Никодима в § 3). Это означает, что опре- деленная нами мера обладает плотностью q и поэтому (10.1) спра- ведливо. До сих пор множество В было у нас фиксированным, но обо- значение q (х, В) было выбрано с тем расчетом, чтобы впоследствии сделать В переменным. Иными словами, мы хотим теперь рас- сматривать q как функцию от двух переменных—точки х и под- множества В прямой. При этом желательно, чтобы при фиксиро- ванном х функция q была вероятностной мерой. Это означает, что q (х, = 1 и что для любой последовательности непересекаю- щихся множеств Вх, В2, ..., в объединении дающих В, имеет место равенство ^(х, В) = 29(х,В,). (10.3) Если стоящие справа члены представляют собой условные веро- ятности Вк, то их сумма является некоторой условной вероят- ностью множества В, однако у нас имеется дополнительное тре- бование согласованности, состоящее в том, чтобы (10.3) выполня- лось при нашем выборе q при всех х. [Отметим, что определение 1 не исключает абсурдных значений функции q(x, В) в некоторых точках х типа q(x, В) =17.] Как нетрудно видеть, функцию q (х, В) действительно можно выбрать так, чтобы выполнялись все эти требования х). Это означает, что существует условное вероят- х) Проще всего построить такую функцию q, определяя непосредственно значения q (х,В) лишь для множеств В, являющихся интервалами в диадичес- -------------------------------------------------------------1 ком подразбиении 911. Пусть, например, Вх = 0, оо, В2 =— оо, 0. Возьмем в качестве q (х, Вх) любую условную вероятность Вь подчиненную очевидному требованию 0 q (х, Вх) «С 1. Теперь автоматически следует положить q(x, В2)— = 1—q (х, Вх). Разобьем далее Вх на Вхх и В12 и выберем q (х,Вхх) так, чтобы выполнялись неравенства 0 «С q (х, Вхх) «С q (х, Вх). Положим q (х, В12) = = q (•*, Bi)—У (х, £ц)« Процесс измельчения подразбиений продолжается далее неограниченно. Требование аддитивности (10.3) позволяет затем определить q (х, В) для всех открытых множеств В и, следовательно, для всех борелев- ских множеств. Описанная конструкция основывается лишь на существовании так назы- ваемой сети, т. е. разбиении пространства на конечное число непересекаю- щихся множеств, каждое из которых в свою очередь разбивается на конеч- ное число непересекающихся множеств, причем процесс продолжается таким образом, что каждая точка пространства является единственным пределом стягивающейся последовательности множеств, входящих в последовательные разбиения. Рассматриваемое утверждение имеет место, следовательно, в 34 2 и во многих других пространствах.
§11. Условные математические ожидания 191 ностное распределение Y относительно X в смысле следующего определения. Определение 2. Условным вероятностным распределением Y относительно X называется функция q, зависящая от двух пере- менных—точки х и множества В, такая, что (i) при фиксированном множестве В q(X, B) = P{Y£ В|Х} (10.4) является условной вероятностью события {Y £ В} относительно X, (ii) при каждом фиксированном х q есть вероятностное рас- пределение. В действительности условное вероятностное распределение пред- ставляет собой семейство обычных вероятностных распределений, и поэтому вся теория переносится на них без изменений. Так, если q заданох), следующее определение вводит скорее новое обозначение, чем новое понятие. Определение 3. Условное математическое ожидание Е (Y | X) есть функция от X, принимающая в точке х значение оо E(Y|x) = J yq(x, dy). (10.5) — оо При этом предполагается, что интеграл сходится (за исключе- нием, возможно, множества точек х, имеющего вероятность ну ль). Условное математическое ожидание Е (Y | X) является функ- цией от X и, следовательно, представляет собой случайную вели- чину. Для большей ясности значение его в фиксированной точ- ке х иногда предпочитают обозначать E(Y | Х = х). Из определения E(Y|X) непосредственно вытекает, что 00 E(Y)= $E(Y|x)ji{dx) «ли Е (Y) = Е (Е (Y | X)). (10.6) — 00 § 11* *). УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИДАНИЯ Мы определили условные математические ожидания Е (Y | X) в терминах условных вероятностных распределений. Этот подход вполне удовлетворителен, когда имеют дело лишь с одной парой слу- чайных величин X, Y. Однако когда приходится иметь дело с целыми семействами случайных величин, то неединственность ус- ловных распределений приводит к серьезным трудностям. Поэтому замечательно то, что на практике можно обойтись без этой гро- моздкой теории. Действительно, оказывается, что можно постро- ить на удивление простую и гибкую теорию условных матема- тических ожиданий без всякого обращения к условным распреде- *) Более гибкое общее определение приводится в § 11. *) Содержание этого параграфа будет использоваться лишь в связи с мар- тингалами в гл, VI, 12, и гл, VII, 9,
192 Гл. V. Вероятностные распределения в Э1Г лениям. Для понимания этой теории лучше всего начать с более внимательного рассмотрения равенства (10.5). Пусть А—борелевское множество на прямой и 1Л(Х)—слу- чайная величина, равная 1 при X С А и нулю в остальных слу- чаях. Мы интегрируем обе части равенства (10.5) относительно частного распределения р случайной величины X, взяв в качестве области интегрирования множество А. Результат можно записать в следующем виде: + сю Е(У1Л(Х)) = $E(Y|x)|i{dx} = $ 1Дх)Е(У |x)p(dx). (11.1) А — сю Случайная величина X отображает выборочное пространство 6 на действительную прямую, и последний интеграл имеет отношение только к функциям и мерам на прямой. Случайная величина У1Л(Х), однако, определена в исходном выборочном пространстве, и поэтому необходима более подходящая система обозначений. Очевидно, что 1Л(Х) есть индикатор множества В всех таких точек из (£, в которых X принимает значения из множества А. Как мы знаем из гл. IV, 3, множества 5, которые таким образом соответствуют произвольному борелевскому множеству А на пря- мой, образуют о*-алгебру множеств в 6, которая называется ал- геброй. порожденной X. Таким образом, (11.1) утверждает, что U = Е (Y | X) есть функция от X, которая удовлетворяет тождеству E(Y1B) = E(U1B) (11.2) для любого множества В из о-алгебры, порожденной X. Мы уви- дим, что это равенство может быть использовано как определение условных математических ожиданий и поэтому очень важно уметь истолковывать его надлежащим образом. Поясним природу этого равенства на простом примере. Примеры, а) Рассмотрим плоскость с координатными величи- нами X и Y как выборочное пространство и предположим для простоты, что вероятности задаются посредством строго положи- тельной непрерывной плотности f (х, у). Случайная величина X принимает постоянное значение вдоль любой прямой, параллель- ной //-оси. Если А есть множество на х-оси, то соответствующее плоское множество В состоит из всех таких прямых, проходящих через точки множества А. Левая часть (11.2) представляет собой обычный интеграл от yf(x, у) по этому множеству, и он может быть записан как повторный интеграл. Таким образом + 00 E(YlB) = $dx $ yf(x, y)dy. (11.3) А — <л Правая часть (11.2) представляет собой обычный интеграл от функ- ции и(х)Д(х), где —частная плотность X. В таком случае
§ 11. Условные математические ожидания 193 (11.2) утверждает, что + 00 и(x)=7^- J yf(*> у^у (И-4) — 00 в соответствии с определением (10.5) условного математического ожидания и в соответствии с интуицией., б) Продолжение. Покажем теперь, что равенство (11.2) опре- деляет условное математическое ожидание U даже в том случае, когда плотности не существуют и вероятностное распределение на плоскости произвольно. При заданном борелевском множестве А на х-оси левая часть в (11.2) определяет число Очевидно, что есть мера на борелевских множествах х-оси. Другая мера задается посредством частного распределения р слу- чайной величины X, которое определено как р {Л} = Е (1В). Поэтому очевидно, что если р{Л}=0, то и р1{Л} = 0. Иными словами, рх абсолютно непрерывна относительно р, и по теореме Радона— Никодима из § 3 существует функция U, такая, что рх{Л}=^ U(x)p(dx). (11-5) А Это равенство отличается только обозначениями от (11.2). Конеч- но, (И.5) остается справедливым, если U изменить на множестве р-меры 0, но эта неединственность присуща понятию условного математического ожидания. ► Приведенный пример демонстрирует, что (11.2) может быть использовано для определения условного математического ожида- ния U (X) = Е (Y | X) для произвольной пары случайных величин X, У в произвольном вероятностном пространстве [при условии, конечно, что Е (У) существует]. Однако этот подход ведет много дальше. Например, для определения условного математического ожидания Е(У|Хх, Х2) относительно случайных величин Хх, Х2 можно использовать (11.2) без изменений, за тем исключением, что В должно теперь быть произвольным множеством из о-алгеб- ры 53, порожденной Хх и Х2 (см. гл. IV,3). Конечно, U должна быть функцией Хх, Х2, но мы видели в гл. IV, 4, что класс бэровских функций от пары (Хх, Х2) совпадает с классом всех 53-измеримых функций. Таким образом, мы можем охватить все мыслимые случаи с помощью следующего определения, предложенного впервые Дубом. Определение. Пусть (6, §1, Р)—вероятностное пространство, и пусть 53—G-алгебра множеств из 81 (иначе 53cz3Q. ПустьЧ— случайная величина с математическим ожиданием EY. Случайная величина U называется условным математическим ожиданием У относительно 53, если U ^-измерима и (11.2) выполняется для всех множеств B&Q. В этом сличав мы пишем U = E(Y|53). 7 №249
194 Гл. V. Вероятностные распределения в ГАГ В том случае, когда 23 есть о-алгебра, порожденная случай- ными величинами Хп . ..,ХГ, величина U сводится к бэровской функции от Хп . .., Хг и будет обозначаться E(Y |Хп .. Хг). Существование Е (Y | 23) устанавливается способом, указанным в примере б), который использует теорему Радона — Никодима. Укажем основные свойства условного математического ожида- ния U = E(Y |23). Отметим, что соотношение (11.2) выполняется, если 1В заменить линейной комбинацией индикаторов множеств Bj, принадлежащих 23. Но в гл. IV, 3, мы видели, что любая 23-из- меримая функция может быть равномерно приближена с помощью таких линейных комбинаций. Переходя к пределу, убеждаемся, что из (И.2) следует, что для любой 23-измеримой функции Z выполняется Е (YZ) = Е (UZ). Заменяя Z на Z1B и сравнивая с определением (Н.2), мы видим, что для любой ^-измеримой функ- ции I E(YZ |23) = ZE(Y |23). (11.6) Это соотношение чрезвычайно важно. Наконец, рассмотрим о-алгебру 230cz23 и пусть UO = E(Y|23O). При В£23О мы можем толковать (11.2) относительно 23О так же, как и относительно 23, и поэтому мы находим, что Е (Y1B) = Е (U1B) = Е (UO1B). Таким образом, в силу определения Uo = Е (U 123О), и поэтому если 230cz23, то Е (Y 123О) = Е(E(Y 123)2Э0). (11.7) К примеру, 23 может быть алгеброй, порожденной двумя случай- ными величинами Хп Х2, а 23О — алгеброй, порожденной только величиной ХР Тогда (11.7) переписывается как E(Y|XJ = = E(E(Y|X1, X2)|XJ. Наконец, мы отметим, что из (11.2) следует, что для функции, тождественно равной 1, условное математическое ожидание равно 1 независимо от того, как выбрана алгебра 23. Таким образом, из (11.6)' вытекает, что Е (Z 123) = Z для всех ^-измеримых случайных величин Z. Едва ли нужно говорить, что основные свойства математических ожиданий распространяются на условные математические ожидания. § 12. ЗАДАЧИ 1. Пусть X и Y—независимые случайные величины с функциями распре- деления F и G. Найдите функции распределения следующих величин х): а) X (J Y, б) Xf]Y, в) 2XUY, г) X3(J Y. х) Для двух чисел а и b aU& = max(a, b) обозначает наибольшее из них, a «n^ = min(tz, b) — наименьшее. Для функций /(Jg обозначает функцию, ко- торая в точке х принимает значение f (x)UgW (см. гл. IV, 1). Таким обра- зом, X(JY и XПY являются случайными величинами.
§ 12. Задачи 195 2. Смеси. Пусть X, Y, Z — независимые случайные величины, X и Y имеют распределения F и G, а Р {Z — 1} = р, Р {Z —0} = q (p-[-q — 1), Найдите функции распределения следующих величин: a) ZX + (1—Z) Y, б) ZX+(1—Z) (XII Y) в) ZX + (1-Z)(XAY). 3. Показать, что для непрерывной функции распределения F 00 ' 1 F (х) F {dx} = J ydy=^ , — оо О а) используя само определение первого интеграла (разбиение —оо, оо на под- ынтервалы) и б; интерпретируя первый интеграл, как Е(Е(Х)), и пользуясь тем, что F (X) имеет равномерное ^распределение. Показать также, что имеет место общая формула со С Fk (х) G {dx} — , где G (х) ~ Fn (х). J Al-f-Z? — оо 4. Пусть F (х, у) обозначает вероятностное распределение на плоскости. Положим U (х, z/) = 0 при х<0и //<0 и G (х, y)=F (х, у) во всех других точках. Покажите, что U — монотонная функция каждой переменной, но U не является функцией распределения. Указание', рассмотрите смешанные разности. 5. Двумерное распределение с заданными частными распределениями Х). Пусть F и G—функции распределения в F/11 и U (х, у} = F (х) G (у) [1 +а (1-F (х)) (1-G (у})], где | оо | < 1. Доказать, что U есть функция распределения в 5J2 с частными распределениями F и G и что U имеет плотность тогда и только тогда, когда F и G имеют плотности. Указание. Смешанные разности функции w(x, у) = и (х) v (у) [определенные в (1.12)] имеют вид Д&Ду. Отметим также, что Д (Т72) 2ДЛ. 6. Внутри единичного квадрата положим U (х, у) — х при х^у hU (х,у)—у при х^у. Покажите, что U есть функция и что соответствующее ей рас- пределение сосредоточено на биссектрисе (и, следовательно, сингулярно). 7. Максимальное распределение Фреше с заданными частными распределе- ниями. Пусть F и G—функции распределения в 5&1 и U (х, y) = F {x)[\ G (у). Доказать, что a) U есть функция распределения с частными распределениями F и G, б) если V — любая другая функция распределения с частными рас- пределениями F и G, то V [7, в) распределение, отвечающее С, сосредоточено на множестве {(х, у): F (x—)(JG (y—)^F (x)f}G (у)} и, следовательно, син- гулярно. (Задача 6 является частным случаем этой задачи.) 8. Пусть U — равномерное распределение на —h, 0 и Т — треугольное распределение на —h,h [см. гл. II, 4 (б)]. Показать, что плотности распре- делений F ★ U и F равны соответственно h /г-1 [F (x+/i)~Т7 (х)] и h~2 [F (x+y)—F (x—y)]dy. о 9. Если независимые случайные величины X и Y имеют пуассоновские распределения с математическими ожиданиями pt и qt, p-}-q~\, то P{X-Y=£} = е-« j/”(Z)ft/|fe((2Z /w). х> Эта задача содержит новый пример не нормального распределения с нормальными частными распределениями (см. задачи 2 и 3 в гл. III, 9), принадлежащий Е. Дж. Гумбелу»
196 Гл. V. Вероятностные распределения в Л где Ik—функция Бесселя, определенная в гл. II, (7.1). 10. Каждому распределению F, для которого интеграл со ср (а) — eaxF {dx} — оо существует при —а < а < а, сопоставим новое распределение F# посредством формулы ср (a) F# {dx} = eaxF {dx}. Пусть Ft и F2—два распределения, обла- дающие указанным выше свойством, и F = /71^ F2. Доказать, что (исполь- зуются очевидные обозначения) ср (а) = (а) ср2 (а) и F# = F# itFf- 11. Пусть F — атомическое распределение с массами р±, р2, ... в точках «i, а2, ... . Обозначим через р максимальное среди чисел ри р2, ... . Ис- пользуя лемму 1 § 4а, показать, что а) массы всех атомов распределения F ★ F строго меньше р, за исключе- нием того случая, когда F сосредоточено на конечном числе атомов одина- ковой массы; б) для симметризованного распределения °F нуль является атомом с массой = массы остальных атомов QF строго меньше р'. 12. Случайные векторы в Пусть L—длина суммы двух независимых единичных векторов со случайными направлениями (т. е. их концевые точки распределены равномерно на единичной сфере). Покажите, что P{L=c/}=f2/2 при 0 < t < 2 [См. пример 4, д).] 13. Пусть случайные величины взаимно независимы и принимают значения 0 и 1 с вероятностью 1/2 каждое. В примере 4, г) было показано, что случайная величина Х=^2“^Хд, равномерно распределена на 0, 1. По- кажите, что имеет сингулярное распределение. 14. а) Если F имеет плотность f и /2 — интегрируемая функция, то плот- ность f2 свертки F ★ F ограничена. б) Используя теорему об аппроксимации в среднем из гл. IV, 2, покажите, что если f ограничена, то f2 непрерывна. [Если f неограничена в окрестности некоторой точки, то может оказаться, что неограничена при каждом п. См. пример XI, 3, а).] 15. Используя неравенство Шварца, покажите, что если X есть положи- тельная случайная величина, то Е (Х~Д (Е (Х^)) ~1 при всех р > 0. 16. Пусть X и Y — случайные величины с плотностями f и g, такими, что f (х) g (х) при х < а и / (х) g (х) при х > а. Доказать, что Е (X) Е (Y). Далее, если f (х) — g (х) = 0 при х < 0, то Е (Х/г)^ Е (Y*) для всех k. 17. Пусть Xi, Х2, •••—взаимно независимые случайные величины с одинаковой функцией распределения F. Пусть N — положительная случайная величина, принимающая целые значения и имеющая производящую функцию Р (s). Если N не зависит от Ху, то случайная величина max [Хг, ..., XN ] имеет распределение Р (F). 18. Пусть Хг, ..., Хп — взаимно независимые случайные величины с не- прерывным распределением/7. Положим Х= max [Хь ..., Хк] и Y = min [Х1}... Х„]. Тогда р {X <х, Y > г/}= (F (х) — F (у))п при у < х Р {Y > у | Х=х} = [1—F (y)/F(x)]"-i. 19. При каждом фиксированном k^nfb обозначениях предыдущей задачи) f п— \ F (х) n (V I v Л I-----------ПРИ х < P{Xft<x |Х = /}=| п F (I) г V 1 при X Г.
§ 12. Задачи 197 Доказать это а) с помощью эвристического рассуждения, рассматривая событие {Х^ = Х}, и б) формально, используя (9.4). 20. Продолжение. Доказать, что t — 00 21. Случайные суммы. В примере 9, в) случайную величину Хд. положим равной 1 и —1с вероятностями р и q—1—р. Если N имеет пуассоновское распределение с математическим ожиданием t, то распределение SN совпадает с распределением, указанным в задаче 9. 22. Смеси. Пусть распределение G в (9.9) имеет математическое ожидание т (х) и дисперсию о2 (х). Показать, что математическое ожидание и дисперсия смеси U равны СО 00 00 а— т (х) р {dx}, b~ о2 (х) pi {dx} + - (m2 (х)—а2) р. (dx). ' — СО — 00 — оо 23. Применяя очевидные обозначения, имеем Е (Е (Y|X)) = E(Y), но Var (Y) = E (Var (Y | X)) + Var (E (Y | X)). Задача 22 является частным случаем этой задачи. 24. Случайные суммы. В обозначениях примера 9, в) Е (SN) — Е (N) Е (X) и Var (SN) = Е (N) Var (X) + (Е (X))2Var (N). Доказать эти соотношения непо- средственно и показать, что они вытекают из результатов двух предыдущих задач. Замечание. Следующие задачи относятся к сверткам одновершинных рас- пределений, определенных в сноске на с. 186. Была выдвинута гипотеза? что свертка двух одновершинных распределений одновершинна. Противореча- щий этой гипотезе пример был построен К. Л. Чжуном. Задача 25 содержит другой такой пример. Задача 26 показывает, что гипотеза верна для сим- метричных х) распределений (этот результат принадлежит А. Винтнеру). 25. Пусть и (х) = 1 при 0 <х< 1 им(х)=0в остальных точках. Положим / \ 8 / X \ । 1 —8 ( X \ V (х) = — и — Н--г— « т » 7 а \ а ) 1 b \ ь ) где 0 < а < Ь. Если 8 и а малы, а b велико, то плотность v одновершинна? но плотность w=v*v не одновершинна. Указание как избежать вычислений. В результате свертки двух равно- мерных плотностей получается треугольная плотность. Следовательно, w (а) > &2а~\ w (Ь) > &2Ь~1 и интеграл от w в пределах от b до 2Ь больше (1—е)2/2. Отсюда вытекает, что плотность w должна иметь минимум между а и Ь. 26. Пусть F—равномерное, a G — одновершинное распределения. С помощью простого дифференцирования показать, что если F и G симметричны, то свертка F ^G одновершинна. Вывести отсюда (без дальнейших вычислений), что тот же результат получается, когда F есть произвольная смесь симмет- ричных равномерных распределений и что, следовательно, свертка симметри- чных одновершинных распределений одновершинна. х) С трудностями, возникающими в несимметричном случае, можно по- знакомиться в работе И. А. Ибрагимова, Теория вероятностей и ее примене- ния, т. I (1956), с. 283 — 288,
ГЛАВА VI НЕКОТОРЫЕ ВАЖНЫЕ РАСПРЕДЕЛЕНИЯ И ПРОЦЕССЫ Настоящая глава включена в книгу из-за прискорбной необ- ходимости избегать повторений и взаимных ссылок в главах, предназначенных для независимого чтения. Например, теория устойчивых распределений будет изложена независимо на основе полугрупповых методов (гл. IX), анализа Фурье (гл. XVII) и, по крайней мере частично, на основе преобразований Лапласа (гл. XIII). Вынесение определений и примеров в отдельное место дает некоторую экономию и делает возможным тщательное иссле- дование некоторых основных соотношений, не стесненное чистотой используемых методов. Разнообразные темы, которым посвящена настоящая глава, не всегда логически связаны: теория очередей имеет мало общего с мартингалами или с устойчивыми распределениями. Материал главы не предназначен для последовательного чтения; лучше читать тот или иной параграф по мере появления необходимости. Параграфы 6—8 в известной степени связаны между собой, но не зависят от остальной части главы. В них излагается важный ма- териал, не затрагиваемый в других местах книги. § 1. УСТОЙЧИВЫЕ РАСПРЕДЕЛЕНИЯ В Устойчивые распределения играют все возрастающую роль в качестве естественного обобщения нормального распределения. Для их описания удобно ввести следующее сокращенное обозна- чение- если распределения двух случайных величин U и V сов- падают, то мы будем писать d U = V. (1.1) d В частности, соотношение U — aV + b означает, что распределения величин U и V отличаются лишь параметрами расположения и масштабными параметрами [см. определение 1 в гл. V, 2]. Всюду в этом параграфе символы X, Хх, Х2, ... обозначают взаимно независимые случайные величины с одним и тем же распределе- нием /?, a S„ = X1+. +Х„.‘ Определение 1, Распределение Р называется устойчивым
§ 1. Устойчивые распределения в ffi1 199 (в широком смысле), если оно не сосредоточено в нулей для каж- дого п существуют постоянные иуп, такие, что1) S„ = cnX + yn. (1.2) R устойчиво в узком смысле (строго устойчиво), если оно удов- летворяет соотношению (1.2) с уп = 0. Примеры будут приведены в § 2. Весьма поучителен элемен- тарный вывод некоторых основных свойств устойчивых распреде- лений, и мы дадим его здесь несмотря на то, что дальше будут даны другие доказательства этих свойств. Систематическое изло- жение теории устойчивых распределений в гл. IX и XVII не опирается на нижеследующий материал. Теорема 1. Нормирующие постоянные имеют вид сп = пх^с 0<а^2. Постоянная а будет называться характеристическим показателем распределения R. Доказательство. Доказательство значительно упрощается при использовании симметризации. Если распределение R устойчиво, то распределение °/? величины X! — Х2 тоже устойчиво, причем с теми же самыми нормирующими постоянными сп. Достаточно, следовательно, ограничиться случаем симметричного устойчивого распределения R. Заметим сначала, что SOT+n есть сумма независимых случайных величин Sm и —Sw, распределения которых совпадают соот- ветственно с распределениями величин стХ и спХ. Таким обра- зом, для симметричных устойчивых распределений имеем d Ст + п^ = + С\Л2. (1.3) Сумму Srfe можно аналогичным образом разбить на г независимых частей по k членов в каждой, и поэтому crk = crck при всех г и k. Отсюда по индукции заключаем, что если n~rv, то сп = с?. (1.4) Далее положим v = m + n и заметим, что в силу симметрии ве- личин из (1.3) при />0 Р(Х> 0>l{X2>/Cv/C„}. (1.5) Отсюда следует, что при v > п отношения cn/cv остаются огра- ниченными. Для любого целого числа г существует единственное а, такое, что сг = г^а. Для того чтобы доказать равенство сп = пх/а,-доста- точно показать, что из с0 = р1/р вытекает Р = а. В силу (1.4) если n~rJ, то с„ = п1/а, если v = p*, то cv — vx/$. х) В другой форме это определение см. в задаче 1,
200 Гл. VI. Некоторые важные распределения и процессы Но для любого v = р* существует п = Д, такое, что п ^.гп. В таком случае Cv--=V1^^. (т)1^ = г[^С%/®. Так как отношения cn/cv ограничены, то отсюда следует, что Р^а. Меняя г и р ролями, мы аналогичным образом показы- ваем, что ₽>аи, следовательно, [3 = сх. Докажем, что а ^2. Для этого вспомним, что нормальное распределение устойчиво с характеристическим показателем а = 2. В этом случае (1.3) сводится к правилу сложения дисперсий, откуда следует, что любое устойчивое распределение с конечными дисперсиями необходимо соответствует значению а = 2 Для за- вершения доказательства достаточно поэтому показать, что любое устойчивое распределение с а > 2 должно иметь конечную дис- персию. Для симметричных распределений соотношение (1.2) выпол- няется с у„ = 0, и, следовательно, мы можем выбрать t так, что Р {| Sn | > tcn\ < 1/4 для всех п. В силу симметрии отсюда сле- дует, что п[1 — R(tcn)] остается ограниченным [см. V, (5.10)]. Тогда для всех х > t и подходящей постоянной М выполняется ха[1 — /?(х)]</И. Таким образом, вклад интервала 2k~l<Zx^2k в интеграл, определяющий Е(Х2), ограничен величиной /И2<2-а)\ а при а > 2 это является общим членом сходящегося ряда. Значительному упрощению теории устойчивых распределений способствует то приятное обстоятельство, что на практике цен- трирующими постоянными уп можно пренебречь. Это так, потому что мы вольны центрировать произвольным образом распределе- ние /?, т. е. мы можем заменить /?(%) на /?(% + &). Следующая теорема показывает, что, исключая случай а=1, мы можем употребить эту свободу на устранение уп из соотношения (1.2). Теорема 2. Для всякого устойчивого распределения R с харак- теристическим показателем a^l можно выбрать центрирую- щую постоянную Ъ так, чтобы R(x-\-b) было бы строго устой- чиво. Доказательство. Sm, п есть сумма т независимых случайных величин, каждая из которых распределена одинаково с величи- ной спХ-\-уп. Соответственно d d Sm, п = Сп$т + тУп = СпСт X + Спут + Шуп. (1.6) Поскольку т и п играют одну и ту же роль, это означает, что имеет место равенство (с» — «)Тт = (^—(1.7)
$ 1. Устойчивые распределения в Э11 201 При а=1 это утверждение не имеет смысла1), но при а=/=1 отсюда следует, что уп = Ь(сп — п) при всех п. Наконец, из (1.2) видно, 41 о сумма S' п случайных величин, распределенных как d X' —&, удовлетворяет условию S^=cwX'. > Соотношение (1.3) было получено из (1.2) при единственном предположении, что у72 = О, и поэтому оно справедливо для всех строго устойчивых распределений. Это влечет, что d sl/aXi + /1 /ос Х2 = (S + 01/<ХХ (1.8) всякий раз, когда отношение s/t рационально. Простое использо- вание свойства непрерывности2) приводит к следующей теореме. Теорема 3. Для строго устойчивых распределений R с харак- теристическим показателем а соотношение (1.8) выполняется при всех s > 0 и t > 0. Для нормального распределения соотношение (1.8) просто устанавливает правило сложения для дисперсий. Вообще из (1.8) следует, что все линейные комбинации а1Х1-{-а2Х2 принадлежат одному типу. Та важная роль, которую играет нормальное распределение ЭД в теории вероятностей, в значительной мере основана на цент- ральной предельной теореме. Пусть Хх, Хп — взаимно неза- висимые величины с общим распределением F, нулевым матема- тическим ожиданием и единичной дисперсией. Положим Sn = = Х1+...+Х„. Центральная предельная теорема3) утверждает, что распределения случайных величин SZ2/i"1/2 сходятся к ЭД. Если распределения не имеют дисперсий, то можно сформулировать аналогичные предельные теоремы, однако нормирующие постоян- ные должны быть выбраны другими. Весьма интересным является тот факт, что в качестве предельных распределений могут быть получены все устойчивые законы и только они. Введем следую- щую терминологию, которая облегчит дальнейшее обсуждение рассматриваемого вопроса. Определение 2. Скажем, что распределение F независимых случайных величин Xk принадлежит области притяжения распре- деления R, если существуют нормирующие постоянные ani>Q, bn‘, такие, что распределение величины а~г (Sn — bn) сходится к R. Приведенное выше утверждение можно теперь переформули- ровать следующим образом: распределение R имеет область при- х) Случай а=1 см. в задаче 4. 2) По поводу непрерывности устойчивых распределений см. задачу 2. 3) Центральная предельная теорема показывает, что нормальное распре- деление— это единственное устойчивое распределение, обладающее диспер- сией,
202 Гл. VI. Некоторые важные распределения и процессы тяжения тогда и только тогда, когда оно устойчиво. Действи- тельно, из определения устойчивости непосредственно вытекает, что устойчивое распределение R принадлежит своей области притяжения. Тот факт, что никакое неустойчивое распределение не выступает в качестве предельного, можно обосновать с по- мощью рассуждения, использованного при доказательстве тео- ремы 1. Полученные результаты имеют важные и неожиданные след- ствия. Рассмотрим, например, устойчивое распределение, удов- летворяющее соотношению (1.8) с а < 1. Среднее (Хх + . .. + XJ//2 имеет одинаковое распределение с величиной Xi/i-14-1/06. Обратим внимание на то, что множитель /г~1 + 1/а стремится к бесконечно- сти с ростом п. Выражаясь нестрого, можно сказать, что среднее п величин Xk оказывается значительно больше любого фиксиро- ванного слагаемого Xk. Это возможно лишь тогда, когда макси- мальный член М„ = max [Хп растет исключительно быстро и играет основную роль в сумме Sn. Более длительный анализ подтверждает это заключение. В случае положительных случай- ных величин математическое ожидание отношения Sn/Mn стре- мится к (1—а)”1, и это верно также для любой последователь- ности {Хи} с распределением, принадлежащим области притяже- ния рассматриваемого устойчивого закона (см. задачу 26 из