Текст
                    ВЕРОЯТНОСТЬ
и СТАТИСТИКА
в примерах
и задачах
ОСНОВНЫЕ ПОНЯТИЯ
ТЕОРИИ ВЕРОЯТНОСТЕЙ
И МАТЕМАТИЧЕСКОЙ
СТАТ И СТ И К И	ИшЫ

М. я. Кельберт, Ю. М. Сухов ВЕРОЯТНОСТЬ И СТАТИСТИКА В ПРИМЕРАХ И ЗАДАЧАХ Том I Основные понятия теории вероятностей и математической статистики Москва Издательство МЦНМО 2007
УДК 519.21 ББК 22.171 К34 Издание осуществлено при поддержке РФФИ (издательский проект №05-01-14087). Кельберт М. Я., Сухов Ю.М. К34 Вероятность и статистика в примерах и задачах. Т. I: Основ- ные понятия теории вероятностей и математической статистики. М.: МЦНМО, 2007, —456 с.: ил. ISBN 978-5-94057-253-4 Для освоения теории вероятностей и математической статистики тренировка в решении задач и выработка интуиции важны не меньше, чем изучение доказательств теорем; большое разнообразие задач по этому предмету затрудняет студентам пере- ход от лекций к экзаменационным задачам, а от них — к практике. Ввиду того, что предмет этой книги критически важен как для современных приложений (финансовая математика, менеджмент, телекоммуникации, обработка сигналов, биоинформатика), так и для приложений классических (актуарная мате- матика, социология, инженерия), авторы собрали большое количество упражнений, снабженных полными решениями. Эти решения адаптированы к нуждам и умениям учащихся. Необходимые теоретические сведения приводятся по ходу изложения; кроме того, текст снабжен историческими отступлениями. ББК 22.171 Перевод с английского В. Кноповой, Ю. Мишуры, Л. Сахно. На обложке изображены капелла Кингс-колледжа и улица Кингс-парад (г. Кембридж, Великобритания). ISBN 978-5-94057-253-4 (Том 1) © Кельберт М. Я., Сухов ГО. М„ 2007 ISBN 978-5-94057-252-7 © МЦНМО, 2007
Оглавление Введение .................................................... 5 Часть А Вероятность Глава 1. Дискретные пространства элементарных исходов 15 § 1.1. Равномерное распределение..........................15 § 1.2. Условные вероятности. Формула Байеса. Независимые ис- пытания ................................................. 19 § 1.3. Формула включения-исключения. Задача о баллотировке . . 43 § 1.4. Случайные величины. Математическое ожидание, условное математическое ожидание. Совместные распределения ... 50 §1.5. Биномиальное, пуассоновское и геометрическое распреде- ления. Производящие функции распределений, производя- щие функции моментов и характеристические функции ... 75 § 1.6. Неравенства Чебышёва и Маркова. Неравенство Йенсена. Закон больших чисел и теорема Муавра—Лапласа ........96 § 1.7. Ветвящиеся процессы ..............................122 Гл а в а 2. Непрерывные пространства элементарных исходов . 136 §2.1. Равномерное распределение. Плотность распределения ве- роятностей. Случайные величины. Независимость............136 §2.2. Математическое ожидание, условное математическое ожи- дание, дисперсия, производящая функция, характеристиче- ская функция ........................................... 179 §2.3. Нормальное распределение. Сходимость случайных вели- чин и распределений. Центральная предельная теорема . . .213
4 Оглавление Часть В Основы статистики Глава 1. Оценивание параметров..............................241 § 1.1. Предварительные сведения. Некоторые важные вероят- ностные распределения....................................241 § 1.2. Оценки. Несмещенность.............................253 § 1.3. Достаточные статистики. Критерий факторизации ....259 § 1.4. Оценки максимального правдоподобия................263 § 1.5. Нормальные выборки. Теорема Фишера................266 § 1.6. Среднеквадратические ошибки. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао..................................269 § 1.7. Экспоненциальные (показательные) семейства........276 § 1.8. Доверительные интервалы...........................280 § 1.9. Байесовское оценивание............................285 Глава 2. Проверка гипотез...................................298 §2.1 . Вероятности ошибок I и II рода. Наиболее мощные кри- терии ...................................................298 §2.2 . Критерии отношения правдоподобия. Лемма Неймана— Пирсона и комментарии к ней..............................300 §2.3 . Критерии согласия. Проверка гипотез для нормальных рас- пределений. Однородные выборки ..........................310 §2.4 . Критерий Пирсона х2- Теорема Пирсона.............315 §2.5 . Критерии обобщенного отношения правдоподобия. Теорема Уилкса ................................................. 320 §2.6 . Таблицы сопряженности признаков..................330 §2.7 . Проверка гипотез для нормальных распределений. Неодно- родные выборки...........................................337 §2.8 . Линейная регрессия. Оценки метода наименьших квадратов 351 §2.9 . Линейная регрессия для нормальных распределений...355 Глава 3. Задачи кембриджских «Математических треножни- ков» к курсу «Статистика» ................................. 361 Таблицы случайных величин и вероятностных распределений......443 Список литературы...........................................445 Предметный указатель........................................453
Введение Первоначальные побуждения к созданию данной книги были весь- ма личными. Один из авторов в ходе своей педагогической деятельности на факультете математики и математической статистики Кембриджского университета и Колледжа Св. Иоанна в Кембридже часто наблюдал пе- чальную картину, когда хорошие (и даже блестящие) студенты, увлеченные математикой и ее приложениями и отлично завершившие свой первый учебный год, спотыкались или даже проваливались на экзаменах. Это вело к большому разочарованию, которое очень трудно преодолеть в последую- щие годы учебы. Добросовестный преподаватель всегда сочувствует таким неудачам, однако даже тщательное объяснение слабых сторон студента (если таковые имеются) не всегда помогает. Другой автор приобрел по- добный опыт скорее как отец студента Кембриджского университета, чем как преподаватель. Мы почувствовали, что книга, состоящая главным образом из заданий, предложенных на экзаменах по математике в Кембриджском универси- тете, будет полезной большинству студентов. В соответствии с нашими собственными научными и педагогическими устремлениями мы выбрали главной темой вероятность и статистику. Отправным пунктом стало со- держание курса теории вероятностей (I год обучения) и математической статистики (II год обучения). Чтобы отразить полное содержание этих курсов, потребуется еще несколько томов; так или иначе, мы решили реализовать этот проект. Наша основная цель — представить кембриджские курсы вероятно- сти и статистики с помощью экзаменационных заданий, предложенных в предыдущие годы. В процессе написания мы сочли необходимым время от времени включать также некоторые стандартные вопросы из списков задач, иллюстрирующих материал лекций, хотя мы и старались свести их число к минимуму. Конечно, кембриджские экзамены никогда не были легкими. По их результатам испытуемые делятся на классы: первый, второй (он делится на две категории, 2.1 и 2.2) и третий; небольшое число испытуемых про-
6 Введение валивается. (На самом деле составляется более подробный список всех испытуемых по ранжиру, согласно их результатам, но он не оглашается.) Официальное название экзаменов — «Математические треножники», оно происходит от трехногих табуреток, на которых испытуемые и экзаме- наторы восседали (часто на протяжении многих часов) во время устных экзаменов в давние времена. Теперь все экзамены письменные. Первый год трехлетнего курса обучения именуется «часть IА», второй — «часть 1В» и третий — «часть II». В мае—июне 2003 г. студенты-математики первого года обучения сда- вали 4 экзамена; каждый длился 3 часа и состоял из 12 вопросов по двум предметам. На экзамены были вынесены следующие курсы: «Ал- гебра и геометрия», «Числа и множества», «Анализ», «Вероятность», «Дифференциальные уравнения», «Векторное исчисление» и «Механика». Все вопросы по заданному курсу были собраны в одном экзамене, кроме курса алгебры и геометрии, по которому студенты экзаменовались дважды. В каждом экзамене 4 вопроса классифицированы как краткие (по 2 во- проса из каждого курса) и 8 как расширенные (по 4 из каждого курса). Испытуемые должны ответить на все 4 кратких вопроса и не более чем на 5 расширенных, не более чем по 3 из каждого курса; расширенный вопрос приносит в 2 раза больше очков, чем краткий, при условии верного ответа. Расчет показывает: если студент берется за все 9 положенных вопросов (так происходит чаще всего) и правильно распределяет время, то на краткий вопрос нужно ответить за 12—13 минут, а на расширенный — за 24—25 минут. Это нелегко и требует специальной практики; данная книга во многом нацелена на то, чтобы помочь в обретении необходимых «тренировочных» навыков. Экзамены во второй год обучения частично схожи с предыдущими, но имеют свои отличия. В июне 2003 г. проводились 4 экзамена «Математи- ческих треножников» по «части 1В», каждый был рассчитан на 3 часа и содержал 9 или 10 коротких и 9 или 10 расширенных вопросов по предметам, отобранным для данного экзамена. В частности, «Статистика 1В» содержалась в экзаменах 1, 2 и 4, а в целом было 6 вопросов по «Статистике». Конечно, подготовка к экзаменам «части 1В» отличается от подготовки к «части 1А»; мы разберем эти различия в соответствующих главах. Для типичного студента Кембриджа специальная подготовка к экзамену начинается во время пасхального семестра (с середины апреля). В идеале к работе рекомендуется приступать во время предшествующих пятинедель- ных каникул. (Некоторая предэкзаменационная подготовка к «части 1В» и «части II», а именно вычислительные проекты, выполняется в основном на весенних (пасхальных) каникулах.) По мере приближения экзаменов
Введение 7 атмосфера в Кембридже сгущается и становится нервной, хотя делается немало попыток ее разрядить. Многие испытуемые прилагают огромные усилия, пытаясь подсчитать как можно точнее, сколько же труда вложить в тот или иной предмет в зависимости от баллов, которые он приносит, и того, как они сами в этом предмете разбираются, с целью оптимизиро- вать общий уровень подготовки. Можно соглашаться либо не соглашаться с таким подходом, но ясно: если студенты обладают достаточной инфор- мацией по поводу уровня и стиля вопросов к экзаменам «Математические треножники» и способны их усвоить, то у них намного больше шансов мобилизовать свои лучшие качества и способности. В настоящий момент, под гнетом нехватки времени и сил, большинство из них не в состоянии мобилизоваться, и многое отдается на волю случая. Мы будем чрезвычайно рады, если наша книга поможет изменить эту ситуацию, сняв предэкза- менационный стресс и лишив экзамены «Треножники» налета некоторой таинственности, по крайней мере в части учебных дисциплин, рассматри- ваемых здесь. Таким образом, первой из причин появления этой книги было жела- ние облегчить жизнь студентам. Однако во время работы над текстом появилась и вторая причина, и она представляет, по нашему мнению, значительный профессиональный интерес для всех, кто читает курс теории вероятностей и статистики. В 1991/2 учебном году в Кембридже произо- шли большие изменения, касающиеся подхода к чтению вероятностных и статистических курсов. Наиболее значимым в новом подходе оказалось то, что курсы «Вероятность 1А» и «Статистика 1В» были переработаны с целью сделать их привлекательными для широкой аудитории (200 студен- тов первого курса, изучающих «Вероятность 1А», и почти такое же число студентов второго курса, изучающих «Статистику IB»). Для большого числа студентов это единственные курсы теории вероятностей и статисти- ки, которые они слушают на протяжении учебы. Поскольку все большее число специалистов в современном мире имеют дело с теоретическими и (особенно) прикладными задачами вероятностной и статистической при- роды, очень важно, чтобы указанные курсы поддерживали у студентов повышенный интерес. Таким образом, основная цель переместилась с ака- демического введения в предмет на методологический подход, который вооружил бы студентов методами, необходимыми для решения разумных практических и теоретических проблем, возникающих в реальных жизнен- ных ситуациях. Как следствие, акцент в курсе «Вероятность 1А» сместился с сиг- ма-алгебр, интегрирования по Лебегу и Стилтьесу и характеристических функций на прямое рассмотрение различных моделей, как дискретных, так и непрерывных, с целью подготовить студентов к будущим курсам и зада-
8 Введение чам (в частности, к курсу «Статистика 1В» и «Марковские цепи IB/II»). В свою очередь, центральной частью курса «Статистика 1В» стали наи- более популярные практические применения теории оценивания, проверки гипотез и регрессионного анализа. Основным показателем экзаменацион- ной подготовки, относящейся к курсам «Вероятность 1А» и «Статистика 1В», стала способность студентов решать задачи без привлечения глубо- ких теоретических сведений, а лишь путем выбора и анализа подходящей модели и аккуратного выполнения разумного количества вычислений. Конечно, такие изменения (и параллельное развитие других курсов) не были единогласно поддержаны на математическом факультете и вызвали большие дебаты. Однако основная масса студентов поддержала новый подход, и переработанные курсы завоевали большую популярность как в плане посещаемости, так и по числу задач данного курса, выбираемых экзаменуемыми (что является весьма важным моментом в жизни мате- матических факультетов Кембриджа). Кроме того, с увеличением роли компьютеров студенты оказали существенное предпочтение «алгоритми- ческому» стилю лекций и экзаменационных вопросов (по крайней мере, по опыту авторов). В этом отношении представляет определенный интерес следующий опыт, приобретенный одним из авторов. В течение определенного времени он опрашивал выпускников-математиков Колледжа Святого Иоанна, которые трудятся ныне в различных сферах деятельности, о том, какие разделы курса, прослушанного в Кембридже, они считают наиболее важными для их нынешней работы. Оказалось, что наибольшее влияние на большинство респондентов оказали не конкретные факты, теоремы и доказательства (надолго, однако, запоминаются шутки, прозвучавшие на лекциях). Гораздо выше ценится способность построить математическую модель, которая удачно представляет жизненную ситуацию, поставить верно задачу и решить ее аналитически или, чаще, численными методами. Этим подтверждается своевременность предложенного подхода. Вследствие всего вышесказанного уровень и стиль «Математических треножников» претерпел изменения. Строго подразумевается (хотя это и не всегда достигается), что вопросы должны иметь четкую структуру, согласно которой испытуемые переходят от одной части задачи к следую- щей. Курьезным наблюдением многих экзаменаторов является то, что, как бы ни были совершенны задуманные экзаменатором решения, испытуемые следуют им очень редко. Поэтому в книге часто используются студенческие решения. Описанная выше вторая причина внушает нам надежду, что книга будет интересна далеко за пределами Кембриджа. В связи с этим возникает естественный вопрос: каково место данной книги в длинном списке учеб-
Введение 9 ников по теории вероятностей и статистике? Большая часть библиографии в конце этого тома содержит список книг, опубликованных на англий- ском языке после 1991 г., имеющих в названии термины «вероятность» и «статистика» и приобретенных как главной библиотекой Кембриджского университета, так и факультетскими библиотеками (список неполон, по нашему убеждению, и мы извиняемся за все пропуски). Что касается основ теории вероятностей, хочется сравнить нашу книгу с тремя популярными сериями учебников и сборников задач, одна из них принадлежит С. Россу [Rosl]—[Ros5], другая—Д. Стирзакеру [Stl]—[St3], третья — Г.Гримметту и Д.Стирзакеру [GriSI]—[GriS3]. Книги Росса и Стирзакера — хорошее введение в основные понятия. Стиль и уровень изложения книг Росса принят во многих американских университетах. С другой стороны, книги Гримметта и Стирзакера написаны на гораздо более высоком уровне, который можно охарактеризовать как «профессиональный». Уровень нашей книги — это нечто среднее. По нашему мнению, мы ближе к Россу и Стирзакеру, хотя и очень далеки от них в некоторых важных аспектах. Нам кажется, что уровень книг Росса и Стирзакера для Кембриджа недостаточен; его недостаточно для того, чтобы сдать кембриджские квалификационные экзамены с разрядом 2.1 и выше. Книг Гримметта и Стирзакера, конечно, более чем достаточно, однако если по ним готовиться к экзаменам, то основной проблемой будет выбор подходящих примеров из примерно тысячи предлагаемых. Многие из этих книг — прекрасное дополнительное чтение для тех, кто хочет продвинуться в определенном направлении. Отметим лишь некото- рые из них: [Chu], [Durl ], [G], [Go], [JP], [Sc] и [ChaY]. В любом случае, прошло то (ностальгическое) время, когда каждый, кто взялся изучать тео- рию вероятностей, должен был прилежно проштудировать (великолепный) двухтомник Феллера [Fe] (по нашему мнению, Феллера до сих пор никто не превзошел). Что касается статистики, тут картина сложнее. Даже определение предмета статистики — до сих пор нечто спорное (см. введение к части В данного тома). Стиль чтения лекций и проведения экзаменов по основному курсу «Статистики» (и по другим курсам, относящимся к статистике) в Кембридже всегда имел отличительные особенности. Этот стиль всегда сопротивлялся намерениям сделать изложение «абсолютно строгим», несмотря на то что курс читался студентам-математикам. Меньшая часть студентов находила курс слишком сложным, однако для большинства сложностей не было. С другой стороны, уровень строгости курса доста- точно высокий и требует прочных математических знаний. Из новейших изданий к кембриджскому стилю ближе всего, вероятно, [СаВ]. Как пример весьма отличного подхода отметим книгу [Will] (ее стилем мы
10 Введение восхищаемся, но не считаем эту книгу приемлемой для первоначального знакомства с курсом или для подготовки к кембриджским экзаменам). Отличительной чертой данной книги является наличие повторений: некоторые темы и вопросы возникают не единожды, часто в слегка измененной форме, что затрудняет ссылки на предыдущие их появления. Это типичная черта экзаменационного процесса, что становится оче- видным, если читать курс лет десять или около того. Наше персональное отношение к данному вопросу выражается пословицей «повторение — мать учения», популярной (в различных формах) во многих языках. Однако мы извиняемся перед теми читателями, кому некоторые (а может, и многие) из наших повторений покажутся чрезмерными. Книга построена следующим образом. В части А представлен материал курса «Вероятность 1А» (который состоит из 24 одночасовых лекций). В этой части вопросы экзаменов «Треножники» расположены внутри или непосредственно следуют за соответствующими теоретическими сведени- ями. В части В представлен материал курса «Статистика 1В», состоящего из 16 лекций. Здесь вопросы «Треножников» охватывают широкий класс отдельных тем, и мы решили расположить их отдельно от материала курса. Однако отдельные разделы теории всегда представлены в соответствии с той ролью, которую они играют в экзаменационных вопросах. Задачи, представленные в книге, взяты из списков задач к экзаменам по вероятности и статистике разных лет, проводившимся в Кембриджском университете, а также в Университете Свонзи-Уэльс. Некоторые отступления, разбросанные по тексту, позаимствованы из [Ox], [Go], [На], веб-сайтов Университета Святого Андрея http: //www-history. mcs. st-andrews. ас. uk/hist огу/ и Массачусетского университета http://www.umass.edu/wsp/statistics/tales/. Беседы с X. Дэниэлсом, Д. Г. Кендаллом и К. Р. Рао также привели к по- явлению нового материала. Однако ряд историй — это часть фольклора (большинство из них доступно в Интернете); за возможные ошибки несут ответственность авторы этой книги. Фотографии и портреты многих людей, упоминаемых в этой книге, размещены на сайтах Йоркского университета http://www.york.ас.uk/depts/maths/histstat/people/ и (с биографиями) на http: //members. aol. сот/j ayKplanr/images. htm. С появлением Всемирной Сети чрезвычайно быстро стали распростра- няться шутки, юмор. Мы признаем, что немало времени мы посвятили веб-сайтам, посвященным шуткам и забавным цитатам; часть из них ис- пользована в книге. Просим прощения у авторов, оставшихся безымянны- ми (иногда мы даже меняли смысл фраз).
Введение 11 В процессе работы над книгой нас воодушевляла поддержка мно- гих коллег, которые прочли весь текст или его часть. Мы благодарим Чарльза Голди, Оливера Джонсона, Джеймса Мартина, Ричарда Самворса и Аманду Тернер за плодотворные дискуссии и замечания. Особенно мы благодарны Алану Хоксу за бесконечное терпение, с которым он проди- рался через предварительный вариант рукописи. Мы широко использовали конспекты лекций, списки экзаменационных вопросов и другие тексты, подготовленные сотрудниками Статистической лаборатории, в частности Джеффри Гримметтом, Франком Келли, Джеймсом Норрисом, Сюзанной Питтс и Ричардом Вебером. Особая благодарность также Саре Шеи-Си- мондс за тщательное прочтение книги и исправление большого числа сти- листических ошибок. * * * Английское и русское издания этой книги выходят в свет практически одновременно. Тем не менее, текст русского издания был существенно переработан и расширен (перевод был выполнен с рукописи). Авторы благодарят переводчиков — В.Кнопову, Ю. Мишуру и Л.Сахно — за доб- росовестное и вдумчивое отношение к тексту. Мы также признательны Джону Хейгу, указавшему на ряд неточностей в английском издании.
Часть А Вероятность
Глава 1 Дискретные пространства элементарных исходов § 1.1. Равномерное распределение Lest men suspect your tale untrue, Keep probability in view. Дабы люди не сочли ваши истории неправдивыми, Учитывайте вероятность того, о чем говорите. Дж. Гэй (1685—1732), английский поэт В этом параграфе используется простейшая (и наиболее ранняя исто- рически) вероятностная модель, имеющая конечное число т возможностей (часто называемых исходами), каждый из которых имеет одну и ту же веро- ятность \/т. Множество А из k исходов при k т называется событием, и его вероятность Р(Л) равна k/m\ число исходов в событии А (111) общее число исходов ’ V • • / Пустое множество имеет нулевую вероятность, а множество всех исходов имеет вероятность 1. Эта схема выглядит обманчиво простой; в действительности вычисление числа исходов, благоприятствующих дан- ному событию (а иногда и общего числа исходов), может быть достаточно сложным. Задача 1.1.1. Мы с вами подбрасываем монету: если монета падает вверх орлом, я выигрываю очко, если решкой — вы выигрываете очко. Вначале счет нулевой. а) Какова вероятность того, что после 2п бросаний счет будет равным? б) Какова вероятность того, что после 2п + 1 бросания у меня будет на 3 очка больше, чем у вас? Решение. Исходы в п. а) — это последовательности вида ООО.. .О, РОО.. .О, ..., PPP.. .Р, состоящие из 2п последовательных букв О или Р (или, в цифрах, 0 или 1). Общее число-исходов равно т = 22п, вероятность каждого 1/22л. Нас интересуют исходы, для которых число букв О равно (2л)1 числу букв Р. Число k таких исходов равно -—-у (число возможностей
16 Глава 1. Дискретные простраш i-.a элементарных исходов выбрать п мест для О из всех 2п мест). Искомая вероятность равна (2л)! 1 п 0.1 • 7^-. В п. б) исходы — это последовательности длины 2л + 1, всего и! л! 22я (2л+1)! 1 их 22п+1. Вероятность равна („ +2), (д 1); • □ Задача 1.1.2. Теннисный турнир организован для 2п игроков, прово- дится он в л туров, игра идет «на выбывание», последний тур называется финалом, предпоследний — полуфиналом. Двух игроков выбирают случай- ным образом. Найдите вероятность того, что они а) встретятся в первом или втором туре, б) встретятся в финале или полуфинале, в) вообще не встретятся. Решение. Очень важной является фраза «двух игроков выбирают слу- чайным образом». Например, можно считать, что выбор сделан уже после турнира, когда все результаты известны, и это совершенно другая си- туация. Итак, имеется 2Л~| пара игроков в первом туре, 2п~2 пары во втором туре, две в полуфинале, одна в финале, а всего 2Л-1 + 2п~2 + ... ... + 2-1-1= 2Л - 1. Общее число пар, которое можно образовать, рав- 2«-1+2«-2_ 3 2Я-,(2Я—1) ~ 2(2Я —1)’ □ но С|„ = 2п !(2Л — 1). Поэтому ответы таковы: а) 3 2п-'(2"-1)-(2я-1)_______1_ ; 2"-,(2'1-1)’ ' 2'1"1(2'1-1) 2я"1' Задача 1.1.3. В комнате собралось л человек. а) Какова вероятность того, что как минимум двое имеют общий день рождения? Найдите эту вероятность при л = 22 и 23. б) Какова вероятность того, что по крайней мере один человек родился в тот же день, что и вы? Какое значение л делает эту вероятность близкой к 1/2? Решение. Общее число исходов равно 365+ В п. а) число неблагопри- ятных исходов равно 365 • 364 •... • (365 — л + 1). Поэтому вероятность того, что все дни рождения различны, равна (365 • 364 •... • (365 - л + 1 ))/365л, а того, что двое или более людей имеют общий день рождения, равна . 365 • 364 •... • (365 — л + 1) п оо 1------------Для л = 22 имеем Зоэя 0.4927. 365 365 365 а для л = 23 имеем 1 - 365.364. .343- 43 365 365 365 ’ В п. б) число неблагоприятных исходов равно 364", а вероятность равна (364 \ п / 364 \п 1 ) . Если мы хотим, чтобы она была близка к 1/2, то (« -, Зоэ/ । \Зоэ / 2 Т. е. л = ~ 253- D log2 (364/365)
§1.1. Равномерное распределение 17 Задача 1.1.4. Мэри подбрасывает п + 1 монету, а Джон подбрасывает п монет. Какова вероятность того, что у Мэри выпадет больше орлов, чем у Джона? Решение 1. Будем предполагать, что все монеты симметричны (по- скольку не сказано иного). Число исходов для Мэри равно 2л+1 (все возможные последовательности орлов и решек), а для Джона — 2Л; всего имеется 22л+1 равновозможных исходов. Пусть Ом и Рм— число орлов и решек у Мэри, Од и Рд — число их же у Джона; при этом Ом + Рм = = п + 1, Од + Рд = л. События {Ом > Од} и {Рм > Рд} имеют одинаковое число исходов, значит, Р(Ом > Од) = Р(РМ > Рд). С другой стороны, Ом > Од тогда и только тогда, когда п — Ом < п — Од, т. е. Рм — 1 < < Рд, или Рм Рд. Таким образом, событие Ом > Од совпадает с со- бытием Рм Рд, и Р(Рм Рд) = Р(Ом > Од). Но для любого (сов- местного) исхода либо Рм > Рд, либо Рм Рд, т.е. число исходов со- бытия {Рм > Рд} равно разности между 2л+1 и числом исходов собы- тия {Рм Рд}. Поэтому Р(РМ > Рд) = 1 — Р(Рм Рд). Подведем итог: Р(Ом > Од) = Р(Рм > Рд) = 1 — Р(Рм Рд) = 1 — Р(Ом > Од). Отсюда Р(Ом > Од) = 1/2. □ Решение 2. Будем считать, что последнее бросание в игре принадлежит Мэри. Обозначим через х вероятность того, что у Джона и Мэри перед ее последним бросанием одно и то же количество орлов. Тогда в силу симметрии вероятность того, что у Мэри перед ее последним бросанием больше орлов, чем у Джона, равна (1 — х)/2. Тем самым, вероятность того, что у Мэри будет в конце игры больше орлов, чем у Джона, равна (1 - х)/2 + х/2 = 1/2 (Дж. Хейг). □ Решение 3. Поскольку у Мэри на единицу больше бросаний, у нее и в конце игры будет либо больше орлов, либо больше решек, чем у Джо- на. При этом эти два случая исключают друг друга. В силу симметрии вероятность каждого есть 1/2. □ Задача 1.1.5. Вы подбрасываете случайным образом би игральных ку- биков. Покажите, что вероятность того, что каждая грань выпадет ровно п раз, равна (6/г)! /1\6л (и!)Пб/ ’ Решение. Общее число возможных результатов подбрасываний рав- но б6л (шесть для каждого кубика), каждый исход имеет вероятность Мы хотим, чтобы на п кубиках выпала грань «1», на п кубиках — грань «2» и т. д. Чтобы подсчитать число таких исходов, зафиксируем вначале те кубики, на которых выпала грань «1»: эти кубики можно выбрать (би)! п\ (5м)!
18 Глава 1. Дискретные пространства элементарных исходов способами. Выбрав п кубиков, на которых выпала грань «1», мы зафик- сируем среди оставшихся кубиков те, на которых выпала грань «2»: для (5п)! х этого у нас имеется способов, и т.д. Общее количество желаемых 7 л! (4л)! (би)! а исходов равно произведению полученных чисел, что равно Это и дает ответ. □ При решении многих задач очень важное значение имеет нахожде- ние рекуррентных соотношений для мощностей различных событий. На- пример, если fn — это число возможных способов подбрасывания мо- неты п раз, при которых герб никогда не выпадает два раза подряд, то имеет место соотношение fn = fn_\ -I- /л-2, и > 3 (уравнение Фибо- наччи). Задача 1.1.6. а) Определите число gn возможных способов подбра- сывания монеты п раз так, чтобы комбинация ОР никогда не появи- лась. б) Докажите соотношение fn = fn-\ + fn-2 4- /л-з, л > 3, для числа способов подбрасывания монеты п раз, при которых никогда не выпадут три орла подряд. Решение, а) Справедливо равенство gn = 1 + и; один раз появляет- ся последовательность 00... О, и имеется п последовательностей вида Р... РО ...О (включая и последовательность Р ...Р). б) Возможными исходами являются 2Л последовательностей вида (У\, •. •, Уп), состоящие из О и Р. Пусть Ап — это событие {ни разу не выпало три орла подряд в результате п подбрасываний}, тогда fn — это мощность card Ап. Рассмотрим разбиение Ап = U В„2) U В„3), где В{п'} — это событие {ни разу не выпало три орла подряд в результате п подбрасываний, и при последнем подбрасывании выпала решка}, В® = {ни разу не выпало три орла подряд в результате п подбрасываний, и при последних двух подбрасываниях выпало РО} и В„3) = {ни одного раза не выпало три орла подряд после п подбрасываний, и при последних трех подбрасываниях выпало РОО}. Ясно, что Вп} П В^ = 0, 1 3, а также fn = card + card S„2) + + cards'. Опустим теперь последний символ уп: (у\, ..., уп)€ В„^ тогда и только тогда, когда уп = Р, (у\, ..., уп-\) £Ап_\, следовательно, cardB^j Далее, (у\....уп) € В„2) тогда и только тогда, когда уп_\ = В, уп = О и (у\, ..., У п-2) € Ап-2- Это позволяет нам заключить, опуская два по- следних символа, что card В„2) = /л_2. Аналогично card В„3) = /л-з- Отсюда и следует требуемое равенство. □
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 19 § 1.2. Условные вероятности. Формула Байеса. Независимые испытания On voit par cet Essai que la theorie des probabilites n’est au fond que le bon sens reduit au calcul... P.-S. Laplace Теория вероятностей есть не что иное, как здравый смысл, сведенный к вычислениям. П.-С. Лаплас (1749—1827) Clockwork Omega1 (Из серии «Фильмы, которые не вышли на большой экран».) Рассмотрим теперь более общую модель: пусть элементарные события имеют не обязательно равные вероятности р\, ..., рт, рк > 0 и р\ + ... • • • + Рт = 1 • Как и ранее, событие А представляет собой некоторую совокупность элементарных исходов (возможно, и пустое множество); вероятность Р(Д) события А теперь задается формулой Р(Л)= £ Pi (1.2.1) элементарный исход i € А (Р(Д) = 0 для А = 0.) Вероятность всей совокупности элементарных исхо- дов равна единице. Всю совокупность элементарных исходов часто назы- вают полным или достоверным событием и обозначают Q, таким образом, P(Q) = 1. Элементарный исход часто обозначают со, и если р(со) — это его вероятность, то РИ) = £>(<0). (1.2.2) Из этого определения следует, что вероятность объединения вычисля- ется по формуле Р(Д1иЛ2) = Р(Д1) + Р(Д2) (1.2.3) для любой пары несовместных событий Л|, Д2 (т.е. таких событий, что A j П Д2 = 0). В более общем виде Р(Л1и...иЛл) = Р(Л1) + ... + Р(А>) (1.2.4) для любого набора попарно несовместных событий (т.е. таких собы- тий, что Aj П Ajf = 0 V/ /'). Следовательно, а) вероятность Р(ДС) дополнения Ас = Q \ А равна 1 - Р(Д), б) если В С А, то Р(В) Р(Д) 1 Игра слов, ср. «Clockwork Orange» («Заводной апельсин», фильм С. Кубрика).
20 Глава 1. Дискретные пространства элементарных исходов и Р(Д) — Р(В) = Р(Д \ В), в) для любой пары событий А, В выполняется равенство Р(Д \ В) = Р(Д \(Л П В)) = Р(Д) — Р(Д П В). Более того, для объединения любого числа (не обязательно несовмест- ных) событий имеет место соотношение п P(/hU...U,4n)^P(/l,); /=1 более детально вероятность Р (IJA) описывается при помощи формулы включения-исключения (1.3.1). Пусть заданы два события А и В, причем Р(В) > 0. Тогда условная вероятность Р(Д | В) события А при условии, что событие В произошло, определяется как отношение Р(Д |в) = (1.2.5) На данном этапе условные вероятности имеют для нас важное значение благодаря двум формулам. Одна из них — это формула полной веро- ятности'. если В\, ..., Вп являются попарно несовместными событиями, образующими разбиение множества Q, т. е. В/ П Bt = 0 для 1 i < jп и Bi U В% U ... U Вп = Q, и если, кроме того, Р(В<) > 0 для 1 i < и, то . Р(Д) = Р(Д|В1)Р(В1) + Р(Д|В2)Р(В2)4-... + РИ|Вл)Р(Вл). (1.2.6) Доказательство получаем непосредственным подсчетом: ри)= 52 рипв,)= 52 Р(р ^°р(в,)= ^2 ри I Bi) р(в,). ' r (Di) l^i^n \^П Часто именно условные вероятности заданы, а найти необходимо безуслов- ные вероятности; формула полной вероятности также может быть полезной для прояснения природы (безусловной) вероятности Р(Д). Несмотря на свою простоту, эта формула является мощным средством буквально во всех областях, имеющих дело с вероятностями. В частности, значитель- ная часть теории марковских цепей основана на умелом применении этой формулы. Представление вероятности Р(Д) в виде правой части формулы (1.2.6) называют взятием условной вероятности относительно набора событий Bi, ..., Вп. Вторая формула — это формула Байеса (или теорема Байеса), на- званная в честь Т. Байеса (1702—1761), английского математика и свя- щеннослужителя. Она утверждает, что при сделанных предположениях и условии Р(Д) > 0 условная вероятность P(BZ | А) может быть выраже-
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 21 на в терминах вероятностей Р(В|)....Р(Вп) и условных вероятностей Р(Л | В|), ..., Р(Л | Вп) следующим образом: р(В,|Л>- Е РИ|адР(8/). (1-27) Доказательство состоит в непосредственном применении определения и формулы полной вероятности: P(Bf |Л)= Р(ЛпВ/) = Р(Л |Д) Р(В,) иР(Л) = £Р(Л|В7)Р(В7). i Стандартная интерпретация равенства (1.2.7) такова: эта формула свя- зывает апостериорную вероятность Р(В/|Л) (условную вероятность по Л) с априорными вероятностями {Р(В7)} (известными до того, как мы узнаем, что событие Л произошло). При жизни Байес завершил только две работы. Одна из них была по теологии. Вторая носила название «Опыт решения задачи в терминах шансов»; эта последняя содержала теорему Байеса и была опубликована спустя два года после смерти автора. Тем не менее, Байес был избран членом Королевского общества. Теория Байеса (включающая в себя указанную теорему как важную составную часть) долгое время была предметом споров. Его взгляды были полностью признаны (после значительных теоретических разъяснений) только в конце XIX в. Задача 1.2.1. Из мышиного выводка, содержащего двух белых мышей, наугад взяты (без возвращения) четыре мыши. Вероятность того, что взяты обе белые мыши, в два раза больше, чем вероятность того, что не взята ни одна. Сколько мышей в выводке? Решение. Пусть число мышей в выводке равно п. Введем обозначе- ния: Р(2) = Р(выбраны две белые мыши) и Р(0) = Р(ни одна белая мышь не выбрана). Тогда г2 Р(2) = ^- Иным способом Р(2) можно вычислить так: 2 1 2 п-2 1 2 л-2 п-3 1 п-2 2 1 л л - 1 + л л—1 л - 2 + л п—1 л — 2 л — 3 п л — 1 п — 2 л-2 п-3 2 1 л-2 2 п -3 1 _ 12 п л—1 л —2 л —3 л л—1 п —2 л-3 п(п — 1)* С другой стороны, Р(°) = Иначе Р(0) можно вычислить следующим образом: р л — 2 л — 3 п — 4 л — 5 _ (л — 4)(л — 5) ' л п—1л —2п —3 л(п — 1)
22 Глава 1. Дискретные пространства элементарных исходов Решая уравнение 12 (п-4)(п-5) п(п — 1) п(п — 1) ’ 9 ± 5 мы получим п = . Решение п = 2 отбрасываем, поскольку и > 6 (в про- тивном случае вторая вероятность равна 0). Следовательно, п = 7. □ Задача 1.2.2. Лорд Вайл любит выпить виски, количество выпитого за день случайно, но известно, что он может выпить за день п стаканов с вероятностью и = 0, 1, ... Вчера его жена леди Вайл, его сын Лидделл и его дворецкий решили убить лорда. Если он не пил виски в этот день, его должна была убить леди Вайл; если он выпил ровно один стакан, совершение убийства выпадало Лидделлу, в противном случае это должен был осуществить дворецкий. В два раза более вероятно, что леди Вайл прибегнет к отравлению, чем к удушению, дворецкий, напротив, выберет удушение с вероятностью в два раза большей, чем отравление, а Лидделл с равной вероятностью может выбрать любой из этих способов. Вопреки всем их усилиям, нет никакой гарантии, что лорд Вайл наверняка умрет в результате какой-нибудь из попыток убить его, однако в три раза более вероятно, что он станет жертвой удушения, чем отравления. Сегодня лорд Вайл мертв. Какова вероятность того, что его убил дво- рецкий? Решение. Запишем Р(м | у) = Р(мертв | удушен) = Зг, Р(м | о) = Р(мертв | отравлен) = г и Р(не пил виски) = Р (выпил один стакан) = -, 2 Р(выпил два стакана или более) = 1 — Далее, Р (у | л В) = Р (удушен | леди Вайл) = о 2 Р(о | л В) = Р (отравлен | леди Вайл) = -, о 2 Р (у | д) = Р (удушен | дворецкий) = О Р(о | д) = Р (отравлен | дворецкий) = | и Р(у | Лдл) = Р(удушен | Лидделл) = Р(о | Лдл) = Р(отравлен | Лидделл) — i.
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 23 Тогда Р(м|д)Р(д) Р(Д Iм) Р(м I д) Р(д) + Р(м I л В) Р(лВ) + Р(м I Лдл) Р(Лдл) £з^0,3137. что равно Задача 1.2.3. а) Докажите теорему Байеса. 6) На станции находятся три телефонных автомата, которые принимают монеты по 20 пенсов. Один из них никогда не работает, второй работает всегда, а третий работает с вероятностью 1/2. Отправляясь в столицу на целый день, я хотел бы определить, какой из телефонов надежный, чтобы по возвращении я мог им воспользоваться. На станции ни души, и у меня есть всего лишь три монеты в 20 пенсов. Я пробую один телефон, и он не работает, затем два раза подряд пробую звонить по другому телефону, и оба раза он работает. Какова вероятность того, что этот второй телефон является надежным? Решение, б) Пусть А — это рассматриваемое событие: первый из опро- бованных телефонов не работал, а второй дважды работал. Очевидно, что Р(Д | первый надежный) = 0, Р(Д | второй надежный) = Р(первый никогда не работает | второй надежный) + + i • Р(первый работает наполовину | второй надежный) = | | и Р(Д | третий надежный) = i х х Р(второй работает наполовину | третий надежный) = о Тогда искомая вероятность равна 1/3-3/4 _6 1/3-(0 + 3/4+1/8) 7* Задача 1.2.4. В парламенте имеется доля р членов партии лейбористов, которые неспособны менять свое мнение ни в одном вопросе, и доля 1 — р членов партии консерваторов, которые случайным образом, с вероятно- стью г, могут менять свое мнение при последовательных голосованиях по
24 Глава 1. Дискретные пространства элементарных исходов одному и тому же вопросу. Выбранный наудачу парламентарий дважды проголосовал, не меняя своего мнения. Найдите вероятность того, что и при следующем голосовании он будет придерживаться того же мнения. Решение. Введем следующие события: Ai = {выбран лейборист}, А2 = {выбран консерватор}, В = {выбранный парламентарий дважды проголосовал одинаково}. Имеем Р(Д ।) = р, Р(Дг) = 1 - р, Р(В | А1) = 1, Р(В | Д2) = 1 - г. Мы хотим вычислить pm im Р(Д| пВ) Р(Д|)Р(В|Д|) Р(Л1|В)= Р(В) =------------------ и Р(Дг | В) = 1 - Р(Д 1 | В). Запишем Р(В) = Р(Д О Р(В | Aj) + Р(Д2) Р(В | Д2) = Р • 1 + (1 - Р)(1 - г). Тогда Р(Д! I В) =---Р...------Р(Л2 I В) = (1~г)(1~р) ' 11 ' р + (1 -г)(1 -р)' v 21 7 р + (1 — г)(1 -рУ и мы получаем ответ: Р(парламентарий проголосует, не изменяя своего мнения | В) = p + (l -г)2(1 -р) п р + (1-г)(1-р) ‘ Задача 1.2.5. Урновая схема Пойя задается следующим образом. В на- чальный момент времени мы имеем урну, содержащую один белый шар и один черный. Каждую секунду мы наугад извлекаем из урны один шар и возвращаем его обратно, добавляя при этом еще один шар того же цвета. Вычислите вероятность того, что, когда в урне будет находиться п шаров, I из них будут белого цвета. Решение. Обозначим через Р„ условную вероятность при условии, что в урне находится п шаров. При п = 2 и 3 имеем 1, Р„(один шар белый) = । если п — 2, если п = 3, 2’ и Р„(два шара белые) = -, если и = 3. Для доказательства по индукции введем следующее предположение: Pk(i белых шаров) = -- -
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 25 для любых 6 = 2, .п—\ и /= I 1. Тогда после п — 1 шага (когда число шаров в урне равно п) имеем Prl(i белых шаров) = Рл_i(/ — 1 белый шар) • —у + . п / х п - 1 - i 1 . . + Рп_1 (I белых шаров) ---;— =-------- z = 1, ..., n — 1. г п — 1 п — 1 Следовательно, Pn(i белых шаров) = - у, i = 1, 2, ..., п — 1. □ Задача 1.2.6. Имеется п урн, r-я урна содержит г - 1 красных шаров и п — г голубых шаров. Вы наугад выбираете урну (с равной вероятностью любую из урн) и извлекаете два шара без возвращения. Найдите веро- ятность того, что первый шар голубой, и условную вероятность того, что второй шар голубой, при условии, что первый шар красный. Указание. Вам, возможно, понадобится тождество У/(«~ 1) = \п(п - 1)(л - 2). * о /=1 Решение. Каждая урна содержит п — 1 шар, и с равной вероятностью первым может быть извлечен любой шар. Следовательно, мы получаем Р(первый шар голубой) = число голубых шаров _ 1 общее число шаров 2 или, если применить формулу полной вероятности, Р(первый шар голубой)= Р(первый шар голубой | выбрана урна /)х 1^п п-1 1 _ 1 п - I _ 1 _ 1 Х п п п—\ п(п — 1) 2’ /=1 Итак, Р(первый шар красный) = 1 — 1/2 = 1/2. Теперь Р(первый шар красный, второй шар голубой) = = У2 Р (первый шар красный, второй шар голубой | выбрана урна /)•- = 1 . п п 1 (Z-!)(„-/) = 1 (п — 1)(л — 2) п(п— 1)(л-2) 1 Гп(п—1)п (п + 1)п(п—1)1 _ п(п— 1) /П П+1\_1 п(п—1)(п —2) L 2 3 J ” л(п—1)(п —2) \2 3~/6’
26 Глава 1. Дискретные пространства элементарных исходов Следовательно, Р(второй шар голубой | первый шар красный) = _ Р(первый шар красный, второй шар голубой) _ 1 1 _ 1 Р(первый шар красный) 6’2 3’ Задача 1.2.7. Власти Руритании приняли решение помиловать и осво- бодить одного из трех заключенных X, Y и Z, которые содержатся в строгой изоляции в печально известной тюрьме Альказаф. Заключенные знают об этом, однако не могут догадаться, кто же из них этот счастливчик; ожидание мучительно. Сочувствующий, но продажный тюремщик подходит к заключенному X и предлагает, за определенную плату, назвать имя другого заключенного (не X), который приговорен остаться. Тюремщик говорит: «Это уменьшит твои шансы остаться здесь с 2/3 до 1/2: разве это не заставит тебя почувствовать себя лучше?» После неко- торых колебаний X соглашается на предложение; тюремщик называет имя Y. Предположим, что и в самом деле Y не будет освобожден. Определите условную вероятность o/v . х/ ч Р(X и Y остаются) Р(Х остается Y назван) = - --------—- ' 7 P(Y назван) и таким образом проверьте утверждение тюремщика в следующих трех случаях: а) когда тюремщик полностью беспристрастен (т. е. назовет любого из двух, Y или Z, с вероятностью 1/2, если пара Y, Z должна остаться в заключении), б) когда он ненавидит Y и определенно назовет его, если Y должен остаться в заключении, в) когда он ненавидит Z и определенно назовет его, если Z должен остаться в заключении. Решение. В силу симметрии безусловная вероятность определяется так: 1 2 Р(Х освобожден) = -, Р(Х остается) = -, О О и то же самое для Y, Z. Чтобы подсчитать условную вероятность, запишем . v . Р(Х и Y остаются) Р(Х остается Y назван) = 1 P(Y назван) где Р(Х и Y остаются) = 1/3. Теперь для случая а) имеем P(Y назван) = Р(Х и Y остаются) 4- Р(Y и Z остаются) = | -I- Z о и X
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 27 Следовательно, в случае а) получаем 2 Р(Х остается | Y назван) = о и тюремщик неправ: его информация не меняет шансы заключенного X. Для случая б) имеем 2 P(Y назван) = Р(Х и Y остаются) + P(Y и Z остаются) = - о И Р(Х остается | Y назван) = -, и тюремщик прав. Наконец, для случая в) имеем P(Y назван) = Р(Х и Y остаются) = ~. о Таким образом, в этом случае Р(Х остается | Y назван) = 1, и тюремщик неправ. □ Задача 1.2.8. Вы принимаете участие в игровом шоу и должны выбрать одну из трех дверей. За одной из них скрывается автомобиль; за двумя другими — по козе. Вы решили выбрать дверь 1, а ведущий шоу открывает дверь 3, за которой оказывается коза. Ведущий спрашивает, не желаете ли Вы изменить свое решение и выбрать дверь 2. Следует ли Вам менять свое решение? Решение. Общепринято решать эту задачу в предположении, что ве- дущий шоу знает, за какой из дверей находится автомобиль, и поэтому открывает дверь не наугад, а именно одну из тех, за которой находится коза. На самом деле весьма поучительным будет рассмотреть оба случая: 1) когда ведущий знает, где находится автомобиль, и 2) когда он этого не знает. Во втором случае ваши шансы остаются прежними, в противном же случае вам следует менять свое решение. Действительно, рассмотрим следующие события: У/ = {вы выбираете дверь Z}, С/ = {автомобиль находится за дверью /}, Hi = {ведущий открывает дверь /}, Gt = {коза находится за дверью /}. Затем мы хотим подсчитать вероятность р(С, I К| Г) Н3 п Оз) = Р(р^7)^ г3ДГ|)- Н(/7з П Оз | Гj) Если ведущий знает, где находится автомобиль, то Нз С G3 (т. е. он открывает дверь 3, только если за ней коза) и Gj П Нз П У] = Gj A G3 П У|
28 Глава 1. Дискретные пространства элементарных исходов (т. е. если вы выбираете дверь 1, за которой находится коза, то он от- крывает дверь 3 всякий раз, когда за ней находится коза). Также имеем Р(С] | У|) = 1/3 и Р(//з | У1 Г) Ci) = 1/2 в силу симметрии. В этом случае числитель Р(С] Г) Нз П G3 | У|) равен Р(С, Г) Нз | У() = P(Ci | У() Р(Н31 И П Ci) = | ± i О Z о С другой стороны, знаменатель Р(//з A G3 | У1) равен Р(Нз | У,) = P(G 1 П Нз | У]) + Р(С, П Нз | УО = P(G'p(y|3)nr') + Первое слагаемое дает нам P(Gi A G3 A Ti)/P(K|) = Р(С2 | Ti) = 1/3, опять в силу симметрии. Следовательно, Р(С||У1П/73ПОз) = |:(| + |) = |, О \О О/ О и Р(С2 I и А Н3 A G3) = 1 - Р(С, I и А Н3 A G3) = 1 - 1/3 = 2/3. Если ведущий не знает, где находится автомобиль, тогда события Cj, У1 и Н3 независимы. Более того, в силу симметрии Р(С11 У) п Нз П Оз) = т. е. ваши шансы остаются прежними. □ Продолжая наше изложение, введем определение независимых собы- тий. Понятие независимости было важным изобретением в теории ве- роятностей. Оно способствовало формированию теории на раннем этапе и считается одной из главных особенностей, определяющих место теории вероятностей в рамках более общей теории — теории меры. Будем говорить, что события А и В являются независимыми, если Р(Л АВ) = Р(Л)Р(В). (1.2.8) Удобным критерием независимости является следующий: события А и В, для которых, скажем, Р(В) > 0, являются независимыми тогда и только тогда, когда Р(Л \В) = Р(Л), т. е. знание того, что событие В произошло, не меняет вероятности события А. Тривиальные примеры — пустое множество (невозможное событие) 0 и все множество Q (достоверное событие): они являются независимыми от любого события. Для следующего примера рассмотрим четыре элемен- тарных события 00, 01, 10 и 11, которым приписаны вероятности 1/4; события А = {первая цифра равна 1} и В = {вторая цифра равна 0} являются независимыми: Р(Л) = рю + р\\ = 1/2, Р(В) = рю + роо = 1/2 и Р(Л АВ)=рю= 1/4= 1/2-1/2. Также и события {первая цифра равна 0}
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 29 и {обе цифры равны} являются независимыми, тогда как события {первая цифра равна 0} и {сумма цифр > 0} являются зависимыми. Этот пример можно легко переформулировать в терминах задачи о под- брасывании двух симметричных монет. Важным свойством является то, что если А и В независимы, то А и В также независимы: Р(Д П В) = Р(В \ (А П В)) = Р(В) - Р(Д П В) = (в силу независимости) = Р(В) - Р(Д) Р(В) = (1 - Р(Д)) Р(В) = Р(Л) Р(В). Далее, если а) события А\ и В независимы, б) Д2 и В независимы и в) А\ и А2 несовместны, то события А\ U Д2 и В независимы. Если выполняются условия а) и б) и Д1 С Д2» то события В и А2 \ Ai являются независимыми. На интуитивном уровне независимость часто ассоциируется с «отсутствием всякой свя- зи» между событиями. Существует известная шутка, связанная с именем А. Н. Колмогорова (1903—1987), знаменитого русского математика, которого считают отцом современной теории вероятностей. Его монография [Ко], которая первоначально появилась в Германии в 1933 г., сыграла революционную роль в понимании основ теории вероятностей и ее значения для математики и приложений. Когда в 1930-х гг. эта монография была переведена на русский язык, советское пра- вительство заинтересовалось вопросом, какова природа понятия независимости событий. Председатель Совнаркома желал знать, согласуется ли это понятие с материалистическим детерминизмом, ядром марксистско-ленинской философии, а также какие есть примеры таких событий. Колмогоров должен был найти выход из этого затруднительного положения и при этом проявить осторожность, как показывали последующие события (такие как постыдное осуждение властями генетики как «реакционной буржуазной лженауки»). Легенда гласит, что без единой секунды колебаний Колмогоров ответил: «Хорошо, давайте представим, что одна из отдаленных деревень пострадала от длительной засухи. И однажды доведенные до отчаяния местные крестьяне отправились в церковь, и священник предложил им помолиться о дожде. И на следующий день выпал дождь! Вот независимые события». Попытаемся формализовать понятие независимости событий. Полезно посмотреть на понятие независимости как на геометрическое свойство. В вышеприведенном примере четыре вероятности роо, роь Рю и Ри могут быть приписаны вершинам {(0; 0), (0; 1), (1; 0), (1; 1)} единичного квад- рата. Каждую из этих четырех точек можно спроектировать на горизон- тальную и вертикальную оси. Проекциями являются точки 0 и 1 на каждой из осей, и любая вершина единственным образом может быть задана своими проекциями. Если спроектированные точки имеют вероятностную массу 1/2 на каждой из осей, то каждая вершина будет иметь массу ptJ = 1/2 • 1/2 = 1/4, /, / = 0, 1. В этом случае говорят, что четырехточечное вероятностное распределение {1/4, 1/4, 1/4, 1/4} является произведени- ем двух двухточечных распределений {1/2, 1/2}. «Легко представить себе похожую ситуацию, когда существуют т точек по горизонтали и и по вертикали: в этом случае мы имеем тп пар (/, /) (узлы решетки), где
30 Глава 1. Дискретные пространства элементарных исходов i = 0, ..., т - 1, / = 0, ..., п — 1, и каждая пара имеет вероятность 1 /(тп). Более того, равномерное распределение может быть заменено более общим законом: pq = p(^pf\ где р^\ i = 0, ..., т - 1, и pj2), j = 0, ..., п - 1, являются вероятностными распределениями для двух проекций. Тогда лю- бое событие, выраженное в терминах горизонтальной проекции (например, {первая цифра делится на 3}), не зависит от любого события, выраженного в терминах вертикальной проекции (например, {вторая цифра не пре- восходит п/2}). Этот пример является основным (а в некотором смысле и единственным) примером независимости. 1/4 1/4 1/2 1/4 l/4 L ,/2 1/2 1/2 Рис. 1.1 Мы говорим, что события Ль ..., Ап взаимно независимы (или, ко- ротко, независимы), если для любых подсистем Л/,, ..., Ац выполняется равенство Р(Ль П ... П Ah) = Р(Л/,)... Р (Л/z). (1.2.9) Это определение включает в себя всю совокупность Лj, ..., Лл. Важно отличать эту ситуацию от ситуации, когда формула (1.2.9) справедлива только для некоторых подсистем, например для пар Л/, Лу, 1 i < j /г, или для всей системы Л ь ..., Ап (см. задачи 1.2.15 и 1.2.16). Данное выше определение приводит к важной модели — последова- тельности независимых испытаний с двумя или более результатами. Су- ществует много примеров таких моделей, и очень важно разобраться в них в начале нашего курса. До сих пор мы предполагали, что общее число исходов со конечно; в этой главе мы рассмотрим обобщение на случай, когда Q — счетное множество, состоящее из точек Хь *2, •••, скажем, с данными вероятно- стями pi = P({xJ), i = 1, 2, ... Конечно, нумерация результатов может быть различной, например i е Z, где Z — множество целых чисел. Как и раньше, pi 0 для всех /, и = 1. i Мы также можем работать с бесконечными последовательностями со- бытий. Например, уравнения (1.2.6) и (1.2.7) не изменятся: Р(Л)= 52 Р(Л Р(5,|Л) = (1-2.10) 1С/<оо 1</<оо
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 31 Задача 1.2.9. При каждом подбрасывании монетка падает вверх орлом с вероятностью р. Пусть кп — вероятность того, что число орлов после п подбрасываний четно. Показав, что пл+| = (1 - р)кп + р(1 - пл), и > 1, или иным способом найдите кя. (Число 0 будем считать четным.) Решение 1. Как всегда в моделях с подбрасыванием монетки, мы будем считать, что результаты при различных бросках независимы. Положим Ап = {при п-м подбрасывании выпадает орел}, Р(ДЛ) = Р, и Вп = {число орлов после п бросков четно}, = Р(Вп). Тогда при условиях Ап+\ и Д^+1 получим Р(Вл+1) = Р(Вл+1 П An+i) + Р(Вл+1 П Дсл+1) = = Р(Вл+1 | Дл+1) Р(Дл+1) + Р(Вл+1 | Л‘+1) Р(Д‘+1). Далее, Вл+1 П Дл+1 = Всп А Дл+1 и Вл+| А Асп^ =ВппАсп^.В силу неза- висимости Р(ВслАЛ+1) = Р(Всл)Р(Дл+1) и Р(ВппАсп^) = Р(Вп)Р(Асп^ откуда следует, что Р(Вл+1) = Р(Всп) Р(Дл+1) + Р(Вп) Р(Асп^) = (1 - Р(Вп))р + Р(ВЛ)(1 - р), Р(В0)= 1,т.е. пл+1 =(1 -р)кп +р(1 -ял) = (1 -2р)лЛ + р. Подставляя пЛ = а(1 - 2р)п + 6, получим b = 1/2, а при условии no = 1 получим а = 1/2. Тогда пл = ^(1 - 2р)п + Эту рекуррентную формулу можно получить и более коротким путем, взяв условные вероятности относительно Вп и Всп: Лл+i = Р(Вя+1) = Р(Вл+1 И Вп) + Р(Вл+1 А Всп) = = Р(Дл+1 I Вп) Р(Вп) + Р(Дл+1 I Всп) Р(ВЛ) = (1 - р)дЛ 4- р( 1 - л„). Использование рекуррентных уравнений (подобно тому как это было сделано только что) является удобным методом при решении многих задач. Решение 2. (См. это решение после чтения § 1.5.) Пусть Xi = 0 или 1 — результат z-й попытки, a Yn = Х\ + ... + Хп — общее число успехов при п попытках. Тогда производящая функция распределения Yn равна ф($) = (/?$ + (! -р))п. Следовательно, вероятность того, что п попыток дадут четное число успе- хов, равна 1(ф(1) + ф(-1)) = 1{1 +(1 -2р)"]. □
32 Глава 1. Дискретные пространства элементарных исходов Задача 1.2.10. Моя тетя Агата подарила мне на день рождения за- водной апельсин. Я поставил его на середину обеденного стола, длина которого ровно 2 метра. Через минуту после этого апельсин издал громкий жужжащий звук, выпустил облачко зеленого дыма и стал двигаться то на 10 см к левому краю с вероятностью 3/5, то на 10 см к правому краю с вероятностью 2/5. Это продолжается (направление каждого движения не зависит от предыдущего движения) с интервалом в одну минуту, до тех пор пока апельсин не достигнет края стола, с которого он немедленно упадет. Если он упадет с левого края, он разобьет мою вазу времен династии Минь, также подарок тети Агаты. Если он упадет с правого края, он благополучно приземлится в ведро с водой. Какова вероятность того, что ваза уцелеет? Решение. Положим pt = Р(упадет с правого края |был на расстоянии 10£ см от левого края), 1 — pt = Р(упадет с левого края | был на расстоянии 3 2 10£ см от левого края). Тогда ро = 0, Р20 = 1 и pt = + сРг+ь или D о 5 3 Рг+1 = 2^ “ 2^£“ь Иными словами, (р^, pt+\) = (рг-i, Ре)А, где матрица А имеет вид Получаем (Ре, Pe+i) = (Ро, Pi)Ae = (0, pi)Ae, т. е. pt будет линейной комбинацией €-х степеней собственных значений матрицы А. Эти собственные значения равны Xi =3/2 и Х2 = 1, и, таким образом, /3\£ ✓ 3 \ 20 / ✓ 3 \ 20 \ — 1 Так как&I+дг = О и 1 =д| ( +1>2, получаем bi — (( —11 и _/3\10 1 1 - 1 п Задача 1.2.11. Дубровский всю ночь играет в карты с друзьями офице- рами. Каждый раз, когда Дубровский ставит и рублей, есть вероятность г, что он выиграет и получит обратно 2и рублей (включая свою ставку). В начале игры у него было 8000 рублей. Если бы он имел 256000 рублей,
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 33 он бы женился на красавице Наташе, вышел бы в отставку и жил бы в своем загородном имении. В противном случае он покончит с собой. Дубровский решил следовать одной из двух стратегий: а) ставить 1000 рублей каждый раз до конца игры; б) каждый раз ставить все. Посоветуйте ему, что делать, если г = 1/4 и если г = 3/4. Каковы шансы на счастливый конец в каждом случае, если Дубровский будет следовать вашему совету? Решение. Пусть ре — вероятность того, что Дубровский выиграет 256000, если его стартовый капитал был I тысяч рублей, при условии что он следовал стратегии а). Рассуждая так же, как и в задаче 1.2.10, получим Pt = />1Х| +Й2М- 1 1 - г где Л, = —— и Хг = 1 — собственные значения матрицы А = ''о V «1 __ г\ 256 \ -1 -у-) - 1 ) . В случае г = 1/4, (1 - г)/г = 3 Дубровскому следует выбрать страте- гию б), так как З8 - 1 Р% ~ 3256 _ j ’ что очень мало по сравнению с (1/4)5 — вероятностью выиграть 256000 за последовательных раундов, каждый раз ставя на кон все, что он выиграет. В случае г = 3/4, (1 -г)/г = 1/3 имеем рз = I - (1/3)3 1 - (1/3)256 что значительно больше, чем (3/4)5. Поэтому ему следует выбрать стратегию а). □ Замечание. В задачах 1.2.10 и 1.2.11 одно из собственных чисел мат- 5 рицы рекурсии А равно единице. Это не случайно и происходит благодаря тому, что в уравнении (1.2.6) (которое приводит к рассматриваемому урав- нению рекурсии) Р(^/) = 1- / Задача 1.2.12. Я играю в кости против «удачливого» Петти Джея следующим образом. При каждом подбрасывании я бросаю две кости. Если при первом броске я получаю 7 или 11, то я выиграл, а если это 2, 3 или 12, то я проиграл. Если при первом броске я не получил ничего подобного, то я последовательно подбрасываю кости, пока не получу то же число, что и при первом броске; если мне это удастся, то я выиграл, если я в процессе получу 7, то я проиграл. Какова вероятность того, что я выиграю? 2—1104
34 Глава 1. Дискретные пространства элементарных исходов Решение. Запишем Р(я выиграю) = Р(я выиграю при первом броске) + + Р(я выиграю, но не на первом броске). Вероятность Р(я выиграю при первом броске) считается очевидным обра- зом и равна 6 6 52 36^' + / = 7) + 36^' + / =11) = 36 + 36 = 9’ 4=1 4=1 где /(/ + / = /и) равно 1, если i + j = т, и 0 в других случаях. Для второй вероятности имеем Р(я выиграю, но не на первом броске) = PiQt- /=4,5,6,8,9,10 Здесь Pi = Р(при первом броске я получу /) и (?/ = Р(при последовательных бросках я получу i прежде, чем 7| при пер- вом броске я получу i) = = Р(при последовательных подбрасываниях я получу / прежде, чем 7). Тогда для Qi, взяв условные вероятности по результату первого броска, получим Qi =Pi + (\-pi- p7)Qi, т. е. Qi = , pi + Р7 или, что то же самое, Qi =pi + (\-Pi- p7)Pi + (1 - р; - pi)2Pi +... Таким образом, О = 3/36 3 = 1 n _ 4/36 4 _ 2 V4 3/36 + 6/36 3 + 6 ”3’ V5“ 4/36 + 6/36 ~ 4 + 6 “ 5’ и аналогично n 5/36 5 5 _ 2 __l ” 5/36 + 6/36 ” 5 + 6 ” 1Г V8”1T Q9”5’ У10”3’ что дает для Р(я выиграю, но не на первом броске) значение 1 1 | 2 5 А + 1 2 J_ 1 = 134 12’3 + 9*5 + Зб’11+36 11+9‘5+12‘3” 495’
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 35 Тогда 9 144 944 Р(я выиграю) = - + — = Интересно подсчитать среднюю продолжительность игры. Пусть X — результат первого броска. Тогда (см. определение математического ожи- дания в § 1.4) 12 E[AG = 5>E[/V|X = /]. i=2 Заметим, что E[/V |X=z] = 1 для z=2, 3, 7, 11, 12 и E[/V |X = z] = 1 + —J— для i = 4, 5, 6, 8, 9, 10. Отсюда E[/V] = ^«3,38. □ 100 Задача 1.2.13. Двое игроков бросают дротики в мишень, и выигрывает тот, кто попадет в центр первым. При каждом броске вероятность того, что игрок А попадет, равна рд, и вероятность того, что игрок В попадет, равна рв\ результаты разных бросков независимы. Найдите вероятность того, что игрок А выиграет, при условии, что он начал первым. Решение. Рассмотрим диаграмму — Ра^ 1 — Рв^ ~ Рд Ра рв Ра А выиграл В выиграл А выиграл Если Q = Р(Д выиграл), то <? = Рл + (1 - Рл)(1 ~Рв)Ра + (Д -Рл)2(1 ~ Рв)2Ра + = _Ра__________________Ра I - (1 - Рд)(1 - Рв) Ра+Рв- РаРв ’ Или, при условии, что мы знаем результаты первого и второго бросков, имеем уравнение Р(Д выиграл) =рл + (1 - рд)(1 -рд)Р(Л выиграл), решив которое, мы сразу получим требуемый результат. □ Замечание. В задачах 1.2.12 и 1.2.13 мы использовали уравнение для вероятностей Q и ф, которые эквивалентны своим представлениям в виде рядов. Это еще одна полезная идея; например, она позволяет нам не использовать бесконечные пространства результатов (хотя скоро это станет неизбежным). 1 — Рв * В выиграл 2*
36 Глава 1. Дискретные пространства элементарных исходов Задача 1.2.14. Симметричную монету подбрасывают до тех пор, пока не появится или последовательность ООО, что означает мой выигрыш, или последовательность РОО, что означает ваш выигрыш. Какова вероятность того, что вы выиграете? Решение. Вообще говоря, результатом игры может быть мой выигрыш или ваш выигрыш, либо игра будет продолжатся бесконечно. Заметим, что я выигрываю только в том случае, если ООО появится в начале: вероят- ность этого события (1/2)3 = 1/8. Действительно, если ООО появляется не в начале, то должно появится РОО и вы выигрываете. Но рано или поздно с вероятностью 1 появится ООО. Действительно, для любого N событие А = {ООО никогда не произойдет} содержится в событии Ан = {ООО не выпадет среди первых N последовательных троек} (мы разбили первые ЗА/ попыток на W последовательных троек). Таким образом, Р(Д) Р(Лд/). Но Р(Лд/) = (1 - 1/8)^ —> 0 при /V —► оо. Сле- довательно, Р(Д) = 0, и игра не может продолжаться до бесконечности, и вероятность того, что вы выиграете, равна 1 — 1/8 = 7/8. □ Задача 1.2.15. 1. Приведите примеры а) трех событий Д, В, С, которые попарно независимы, но не незави- симы в совокупности; б) трех событий, которые не независимы, но вероятность пересечения всех трех событий равна произведению вероятностей. 2. Три монетки при подбрасывании дают орел с вероятностью 3/5 или решку. При подбрасывании первой монетки дается 10 очков за орла и 2 за решку, для второй монетки — по 4 за орла и решку, и для третьей монетки — 3 за орла и 20 за решку. Вы и ваш соперник выбираете по монетке, причем вы не можете вы- брать одну и ту же монетку. Каждый из вас бросает монетку один раз, и тот, у кого больше очков, выигрывает Ю10 фунтов. Что вы предпочитаете — выбрать монетку первым или вторым? Решение. 1. а) Подбросим две симметричные монетки, и пусть А = = {первый бросок дает О}, В = {второй бросок дает О}, С = {оба броска дают одинаковый результат}. Тогда Р(Д А В) = роо = 1/4 = Р (Л) Р(В), Р(А ПС) = роо = 1/4 = Р(Д) Р(С), Р(В А С) = роо = 1/4 = Р(В) Р(С)
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 37 И Р(А А В А С) = Роо = 1/4 / Р(Л) Р(В) Р(С). Другой способ: подбросим три кости, и пусть А = {первая кость показывает нечетное число}, В = {вторая кость показывает нечетное число}, С — {сумма цифр на обоих костях нечетна}. Тогда Р(А) = Р(В) = Р(С) = 1/2, Р (А А В) = Р(А А С) = Р(В А С) = 1/4, но Р(А А В АС) = 0. б) Подбросим три монетки, и пусть А = {первый бросок дает О}, В = {третий бросок дает О}, С = {ООО, OOP, OPP, PPP} = {нет последовательных РО}. Тогда Р(А) = Р(В) = Р(С) = 1/2, А АВ А С = {ООО} и Р(А А В А С) = 1/8 = (1/2)3. Но А А С = {ООО, OOP, OPP}, Р(А А С) = 3/8 и ВОС = {000} и Р(ВаС) = 1/8. Другой способ (как делает большинство студентов): пусть А = 0, и возьмем любую зависимую пару событий В и С (скажем, В = С, 0<Р(В)< 1). Тогда ДАВ А С = 0 и Р(Д А В А С) = 0 = Р(А) Р(В) Р(С), но Р(ВАС)/Р(В)Р(С). 2. Предположим, что я выбираю первую монетку, а вы — вторую; тогда Р(вы выиграли) = 2/5. Но если вы выбираете третью, то 2 3 2 16 Р(вы выиграли) = - + - . - = — О ОО 2’ Аналогично если я выбираю вторую, а вы первую, то Р(вы выиграли) = = 3/5 > 1/2. Наконец, если я выбираю третью монету, а вы вторую, то Р(вы выиграли) = 3/5 > 1/2. Значит, лучше всегда быть вторым. □ Задача 1.2.16. а) Пусть Aj, ..., Ап — независимые события, и пусть Р(Ау) < 1. Докажите, что существует такое событие В, Р(В) > 0, что В А А/ = 0 для 1 i п. б) Приведите пример трех событий Аь Аг, Аз, зависимых, но таких, что для каждых i / события А, и А, независимы.
38 Глава 1. Дискретные пространства элементарных исходов Решение, а) Обозначим через Ас дополнение события Л; тогда Р(Д! и... и А„) = 1 - Р (Q А А = 1 - П РИ/) < 1. \=1 ' /=1 так как Р(Л-) >0 V/. Поэтому если 8= (U А)С> то Р(^) >0 и ВАЛ/ = 0 V/. б) Положим Л, ={1,4}, Л2 = {2, 4}, Л3 = {3, 4}, где P{k} = 1/4, k = 1, 2, 3, 4. Тогда Р(Л/) = 1/2, i = 1, 2, 3, и /1х2 Р(Л/ А Л,) = Р{4} = = Р (Л/) Р(Л7), 1 i < /Ч з, но Р(Л1ПЛ2ПЛ3) = Р{4}=(0 /(0 =Р(Д1)Р(Д2)Р(Лз). □ Задача 1.2.17. Бросили две симметричные кости. Пусть As означает, что сумма чисел, которые выпали, равна s, и В/ означает, что на первой кости выпало I. Найдите, для каких значений s и i события As и В/ независимы. Решение. Допустимыми значениями для s будут 2, ..., 12, а для i — 1, ..., 6. Имеем v 7 । 1 1 -L(6_(s-6) + l) = ^(13-s), 8^s^l2, < оо оо и р(в,) = |, Очевидно, Р(Л$ А В/) = 1/36, если 1 i 6, i < s < i + 6, и Р(Л5 А В/) = 0 в противном случае. Отсюда Р(Л5 А В/) = Р(Л$) Р(В/), когда или a) s = 7 и 1 i 6, или б) по крайней мере одно из значений s и i недопустимо. □ Замечание. Случай $ = 7 особенный: тут i может принимать все до- пустимые значения 1, ..., 6. Во всех остальных случаях значения s дают ограничения на допустимые значения i (например, если s = 9, то i не может быть равным 1 или 2). Это нарушает независимость. Задача 1.2.18. Пусть п шаров случайно размещены в п ячейках. Най- дите вероятность рп того, что ровно 2 ячейки остались пустыми. Решение. «Случайно» означает, что каждый шарик попадает в ячейку с вероятностью 1/л, независимо от всех остальных шариков. Сначала
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 39 рассмотрим случаи п = 3 и п = 4. Если п = 3, у нас будет одна ячейка с тремя шарами и 2 пустые. Таким образом, Рз сп пП 9. Если п = 4, мы имеем две заполненные ячейки с двумя шарами в каж- дой (с вероятностью р\) или одну заполненную ячейку с тремя шарами (с вероятностью р'[). Поэтому п п' п" Г2 (П~2^ (л 1 П(П~ Щ 21 Р4=Р4+Р4 =Сп —+----------------4---J = 64- Тут 4 означает число способов выбрать три шара, которые попадут в одну ячейку, и п(п — 1 )/4 — число способов выбрать две пары шаров, которые попадут в данные ячейки. В случае п 5 для того чтобы иметь ровно две пустые ячейки, нужно или чтобы нашлись две ячейки, содержащие по два шара, и п - 4 ячейки, содержащие по одному шару, или чтобы нашлась одна ячейка, содержащая 3 шара, и п - 3 ячейки, содержащие по одному шару. Обозначим требуемые вероятности через р' и р” соответственно. Тогда рп = р'п + р"• Далее, п'-г2 1г2г2 п ~ 2 ” 3 1 —Г2Г2 Рп • 2СиЧ-2 • п п - ’п Уп) 4ппЬп^п-2- Здесь первый множитель С„ дает число способов, которыми можно вы- брать две пустые ячейки из п возможных. Второй множитель отвечает за выбор шара, который попадет в ячейку, уже содержащую два /*«11 « п-2п-3 1 шара, а также за выбор ячейки. Наконец, третий множитель —-— ... - означает вероятность того, что п — 2 шара попадут в п - 2 ячейки по одному /1 \2 в каждую, и последний множитель I - j означает вероятность того, что две пары шаров попадут в ячейки, предназначенные для двух шаров. Далее, р'' = С2„(п-2)-С3„^^. Тут первый множитель С„ отвечает за число способов выбрать две пустые ячейки из п возможных, второй множитель (и — 2) дает число способов, которыми можно выбрать ячейку с тремя шарами, третий множитель С?п отвечает за число способов выбрать три шара, которые попадут в эту ячейку, и последний множитель описывает распределение всех шаров по соответствующим ячейкам. □ Задача 1.2.19. Вы играете в теннис с вашим противником, причем каждый раз подает он или вы. Если вы подаете, то вы выигрываете очко
40 Глава 1. Дискретные пространства элементарных исходов с вероятностью р\, а если подает ваш противник — вы выигрываете с ве- роятностью р2- Существует два возможных вида подачи: а) поочередная; б) игрок подает до тех пор, пока не теряет очко. Вы подаете первым, и тот игрок, который выигрывает первым п очков, выигрывает игру. Покажите, что вероятность выигрыша не зависит от правил подачи а) и б). Решение. Обе системы дают равные вероятности выигрыша. Действи- тельно, предположим, что мы продолжим игру за пределы достижения результата, до тех пор пока у вас будет п подач, а у вашего противника п — 1. (Согласно правилу а) вы просто продолжаете поочередные подачи или согласно правилу б) проигрывающий делает недостающее число по- дач.) Затем в любом случае, если вы выигрываете игру, вы выигрываете и продолженную игру, и наоборот (так как у вашего противника недоста- точно очков, чтобы вас обогнать). Следовательно, достаточно рассмотреть продолженную игру. Результатом этой игры будет последовательность со = (coi, ..., С02л—i) из 2п — 1 значений, скажем нулей (что означает, что вы проигрываете очко) и единиц (если вы выигрываете очко). Можно сказать, что coi, ..., — результат ваших подач и сол+ь •••, ^2п-1 —результат подач противника. Введем события Ai = {вы выигрываете вашу f-ю подачу}, Bj = {вы выигрываете его /-ю подачу}. Соответственно индикаторные функции этих событий равны со € Л/, со £ Л/, 1 < i/г, (О G В;, co £Bh 1 < п - 1. В обоих случаях а) и б) событие, состоящее в том, что вы выигрываете продолженную игру, равно < <О = (<О1, .... (02п-|): 52 и вероятность результата со равна 52^(0)) п-'Е 1А.м 52 п-1-52/в/(м Pi (1 — Pl) ' Р2 (I-P2) /л,(со) = { 0’ и
§ 1.2. Условные вероятности. Формула Байеса. Независимые испытания 41 Поскольку это выражение не зависит от выбора правила, в обоих случаях вероятности совпадают. □ Замечание. Запись в терминах со при таком решении была довольно удобной, и мы будем и далее ее использовать. Задача 1.2.20. Ксерокс факультета состоит из трех частей Л, В и С, которые могут поломаться. Вероятность того, что часть А сломается в про- цессе работы, равна 10“5. Вероятность того, что поломается часть В, равна 10’1, если сломается часть Д, и 10“5 в противном случае. Вероятность того, что выйдет из строя часть С, равна 10’1 при условии, что сломается часть В, и 10“5, если этого не произойдет. Сигнал «позвать мастера» загорается, если выйдут из строя две или три части. Если только две части выйдут из строя, я могу сам отремонтировать ксерокс, но если поломаны все три части, мои попытки принесут только вред. Если загорится сигнал «позвать мастера» и я готов рискнуть ухудшить ситуацию с вероятностью не более чем 1%, следует ли мне попытаться отремонтировать ксерокс, и почему? Решение. Исходы имеют вид Дс, Вс, Сс с вероятностью 10~5-10'1 • 10”1 = 10“7, Дс, Вр, Сс с вероятностью 10”5-9 -10“’ • 10“5 = 9- 10~н, Дс, Вс, Ср с вероятностью 10“5-10”1 - 9-10“’ = 9-10”7, Др, Вс, Сс с вероятностью (1 - 10“5) • 10“5 • 10“’ = (1 - 10~5) • 10“6 (мы использовали сокращение «с» для «сломалась» и «р» для «работает»). Значит, Р(три части сломались | две или три сломались) = _ Р(три сломались) __ Р(две или три сломались) Р(Д, В, Сс) “ Р(Д, Вс, Ср) + Р(Д, Сс, Вр) + Р(В, Сс, Др) + Р(Д, В, Сс) “ 10"7 ~ 9 • 10~7 + 9 • 10-п + (1 - 10-5) • 10-6 + Ю-7 ~ _ IO"7 1 1 9 • 10-7 + 10-6 + 10-7 “ 20 > 100* Таким образом, вам не стоит пытаться отремонтировать ксерокс самосто- ятельно: вероятность ухудшить ситуацию составляет примерно 1/20. □ Задача 1.2.21. Я играю с моими родителями в теннис; вероятность того, что я выиграю, играя с мамой (М), равна р, а вероятность того, что я выиграю, играя с папой (П), равна р, где 0 < q <р < 1. Мы договорились
42 Глава 1. Дискретные пространства элементарных исходов сыграть 3 игры, и их порядок может быть ПМП (здесь я играю с папой, потом с мамой, потом опять с папой) или МПМ. Результаты игр незави- симы. При таких порядках игры вычислите вероятности следующих событий: а) я выиграю по крайней мере одну игру, б) я выиграю по крайней мере две игры, в) я выиграю по крайней мере две последовательные игры (т.е. иг- ры 1 и 2, или 2 и 3, или 1, 2 и 3), г) я выиграю ровно две последовательные игры (т. е. игры 1 и 2 или 2 и 3, но не 1, 2 и 3), д) я выиграю ровно две игры (т.е. 1 и 2, или 2 и 3, или 1 и 3, но не 1, 2 и 3). В каждом из случаев а)—д) определите, какой порядок игры максими- зирует вероятность события. В случае д) предположите, что р + q > 3pq. Решение. Имеем соотношения а) РПмп(выиграл > 1) = 1 - (1 - q)2 • (1 - р) < 1 - (1 -р)2(1 - q) = = Рмпм(выиграл > 1); б) Рпмп (выиграл > 2) = 2pq + q2(\ - 2р) < 2pq + р2(1 - 2q) = = Рмпм(выиграл > 2); в) Рпмп(выиграл 2 последовательно) = 2pq - q2p > 2pq - p2q = = Рмпм(выиграл 2 последовательно) г) Рпмп(выиграл 2 последовательно) = 2pq — 2q2p > 2pq — 2p2q = = Рмпм(выиграл 2 последовательно); д) Рпмп(выиграл 2) = 2pq + ?2(1 - Зр), РМпм(выиграл 2) = = 2рр + р2(1 -Зр). При условии р + q> 3pq получаем р2( 1 - Зр) - р2(1 - Зр) = р2 - q2 + Зрр(р - р) = (р - р)(р + р - Зрр) > 0; поэтому г?2(1 -Зр)<р2(1 -3<7) и Рпмп(выиграл 2)<Рмпм(выиграл 2). □ Задача 1.2.22. В сумке лежат четыре монеты, каждая из которых при подбрасывании может приземлиться на любую из двух сторон. У одной из них орел на обеих сторонах, у остальных трех орел на одной стороне. Монетку выбирают случайным образом и три раза последовательно под- брасывают. Какова вероятность того, что при четвертом подбрасывании снова выпадет орел, если при предыдущих попытках тоже выпадал орел? Опишите пространство событий, которое вы используете, и аккуратно поясните вычисления.
§ 1.3. Формула включения-исключения. Задача о баллотировке 43 Решение. Обозначим монетку с двумя орлами через 1, а остальные через 2, 3 и 4. Тогда пространство состояний Q — это декартово произве- дение {1, 2, 3, 4} х {О, Р}\ т.е. множество цепочек /; Si, S2, S3, S4, где i — это номер монеты, a Sn = = О или Р— результат п-го подбрасывания, п = 1, 2, 3, 4. Имеем Р(1; О, О, О, О) = | и P(z; О, О, О, О) = | 1 / = 2,3,4. Это дает нам условную вероятность Р(О, о, о, о I о, о. О) = Рр(0°0°0^ = Р(1; О, О, О, О) + ^Рр; О, О, О, О) 1+3-1.(1)4 Р(1; О, О, О) + Pp; О, О, О) ' |+3-1 • (1)’' *+6'22' § 1.3. Формула включения-исключения. Задача о баллотировке Естественный отбор — это механизм, который генерирует в высшей степени невероятное. Р. А. Фишер (1890—1962), британский статистик Формула включения-исключения помогает вычислить вероятность Р(Л), где А = А\ U Л2... U Ап — объединение данного множества событий Л1, ..., Ап. Мы знаем (см. §1.2), что если события попарно не пересека- ются, то Р(Л) = РИО- В общем случае эта формула более сложна: Р(Л)=Р(Л1)+...+РИл)-РИ1ПЛ2)-РИ1ПЛз)-...-РИл-1ПЛл)+ + Р(Л|ПД2ПД3) + ... + Р(Ля_2ПЛп_|ПЛ„) + ... + (-1)"+1 Р(Д1П...ПЛ„) = = Е (-1»*-' Е Р(ГИ„). (1.3.1) Доказательство проводится прямым подсчетом: в правой части мы счи- таем каждое событие из U Л/ один раз. Но если мы возьмем сум- 1^л МУ И РИО» то те события, которые входят больше чем в одно 1^/^л
44 Глава 1. Дискретные пространства элементарных исходов из Л1,...,Лл, будут посчитаны более чем один раз. Если мы вычтем сумму 22 Р(Л, АЛ;), мы посчитаем точно один раз каждое событие, которое входит в два из событий Ль ..., Ап, но возникнет проблема с теми событиями, которые входят в два и более событий. Поэтому мы должны прибавить 22 Р(Л, А Л,-А ЛД и т.д. I Формальное доказательство проводится индукцией по п. Удобно начать индукцию с и = 2 (для п = 1 формула тривиальна). Для двух событий А и В объединение АиВ совпадает с объединением непересекающихся событий (Л \(Л АВ))и(В\(Л АВ))и(Л АВ). Следовательно, Р(ЛиВ) может быть записано как Р(Л \ (Л А В)) + Р(В \ (Л А В)) + Р(Л А В) = Р(Л) - Р(Л А В) + + Р(В) - Р(Л А В) + Р(Л А В) = Р(Л) + Р(В) - Р(Л А В). По предположению индукции формула справедлива для всех множеств из п или менее событий. Для любого множества Ль ..., An+i из п + 1 / «4-1 \ событий вероятность РI U Л, 1 равна п п k Л-1 р^о-рГии/пл^оУ 1^Л^л 1 <i| Х 1 7 х 1 7 Для последнего слагаемого мы получаем, снова применяя предположение индукции, -р(и<*пл”*|>)= Е <-)* Е р(п<4',пл",>) = х 1 7 1^^л 1Сй<...<1*Сл ' 1 = E'-d* Е р((Пл0пл"+1 1^^л 1^/|<...</*^л хх 1 7 / «4-1 \ Мы видим, что сумма в разложении РI U Л/) включает в себя все воз- X 1 / можные слагаемые из правой части формулы (1.3.1) для 1, причем с правильными знаками, что завершает доказательство. Альтернативное доказательство (поучительное, так как оно показывает связь между разными понятиями теории вероятностей) будет дано в еле-
§ 1.3. Формула включения-исключения. Задача о баллотировке 45 дующей главе, после того как мы введем определение случайной величины и математического ожидания. Формула включения-исключения особенно эффективна при условии независимости и симметрии. Она также дает интересное асимптотическое понимание многих вероятностей. Задача 1.3.1. Известно, что п студентов-физиологов не забыли о том, что надо пойти на семинар о рассеянности. После семинара ни один из них не мог узнать свою собственную шляпу и они взяли шляпы наугад. Далее, каждый из них способен, с вероятностью р и независимо от других, потерять шляпу по дороге домой. Сделав оптимистичное предположение, что они все вернулись домой, найдите вероятность того, что ни один сту- дент в конце концов не имел при себе своей шляпы, и получите, что эта вероятность при больших значениях п приблизительно равна Решение. Пусть Aj = {физиолог j пришел со своей шляпой}, тогда со- бытие А — {никто не пришел со своей шляпой} является дополнением со- бытия U Aj. Благодаря симметрии и формуле включения-исключения имеем Р(Д)= 1 -лР(Л1) + ^-^РИ1ПЛ2)-... + (-1)пР(Л1Г)...Г)Л„). Далее, Р(Л|) = (1-р)^-^, Р(Д,ПД2) = (1-Р)21Г^ Р(Д1П...ПЛЯ) = (1 -Р)п^- Тогда Р(Л) = 1 — (1 — р) + (1 -р)2/2! - ... + (-!)"(! -р)п/п\. а это часть суммы в разложении е (1 р). □ Задача 1.3.2. Выведите формулу включения-исключения для Р(Л i U... ... иЛД Известно, что происходит по крайней мере одно, но не более двух событий Л|,...,ЛП. Зная, что Р(Д)=Р1 для всех i и Р(Л/ П Aj) = р2 для всех /, j (i / /)» покажите, что . п(п - 1) 1 =ИР1 - Получите, что р\ \/п и р2 2/п.
46 Глава I. Дискретные пространства элементарных исходов Решение. Так как Р(Л, П ... П Л/J = 0 для k > 2, формула включе- . п(п - 1) г, ния-исключения дает 1 =пр\------—р2. Поэтому 1 , л- 1 1 Р1 - - + —Р2 > так как р2 0. Наконец, 2 ( Ц/ 2 /. 1\ 2 _ Р2 =----г Pi-----------Г 1---= -♦ □ г п — \\ nJ п - 1 \ nJ п Задача 1.3.3. Собираясь провести долгую ночь в пабе «Заштопанный барабан», п удалых волшебников оставили свое снаряжение в прихожей. Возвратившись, каждый наобум взял свои вещи из общей кучи и, отпра- вившись в свою комнату, попытался произнести заклинание от последствий похмелья. Если юный волшебник произнесет это заклинание в своем сна- ряжении, то он может превратиться в лягушку-быка с вероятностью р. Если он произнесет это заклинание в чужом снаряжении, то он точно превратится в лягушку-быка. Покажите, что вероятность того, что утром работник, перестилающий постели, найдет п недоумевающих лягушек-бы- ков, при больших п приблизительно равна ер~х. Решение. Положим Л, (=Л/(л)) = {волшебник I взял свои вещи}. Тогда Vr = 1, ..., п и 1 1\ < ... < ir п мы имеем Р(Л,-, Г) Л/2 Г)... Г) А,-,) = ~ и существует (п — г)! способов распределить вещи. По формуле включе- / п \ ния-исключения вероятность РI U Л/) равна \/=1 / г=1 г=1 г=0 что стремится к 1 — е~1 при п оо. Аналогичные рассуждения справед- ливы для событий Л/(Л), определенных для данного множества из k вол- шебников, 1 k п. Если Pr(k) = Р(точно г из k волшебников взяли свои вещи), то Pr(k) = Crk{-^-P0(k-r) = ^P0(k-r), Далее, /k—г х k—r po(k - г) = I - Р QJ - r)j = e~'
§ 1.3. Формула включения-исключения. Задача о баллотировке 47 при k оо. Итак, Pr(k) ~ е 1 - для достаточно больших k. Наконец, Р(все превратились в лягушек-быков) = П п г = ^Рг(п)рг =е~'ер = ер~' г=0 г=0 для достаточно больших п. □ п Замечание. Чтобы формально доказать сходимость 52 Рг(п)рг ер~\ г=0 нужна теорема, которая гарантирует, что из почленной сходимости (в на- шем случае Рг(п)рг —> е~1^ для всех г) следует сходимость суммы. Например, подойдет следующая теорема: если ап(т) -* ап Vn при т-ш, |ал(т)| Ьп и 52Ьп < оо, то S(m) = £ап(т) -+^an = S. Тогда Рг(п)рг = п п п =Рп(п — ^^у(=Ьг) и ряд 52 ^7 сходится к ер для всехр (т. е. 52Ьг<оо). г- г- г- г Это вычисление очень популярно, и мы приведем его в еще одной форме. Задача 1.3.4. После вечеринки п гостей взяли куртки случайным обра- зом из общей кучи из п курток. Вычислите вероятность того, что ни один из них не пошел домой в своей куртке. Пусть р(т, п) — вероятность того, что точно т гостей ушли домой в своих куртках. Связав р(т, п) с р(0, п - т) или как-нибудь иначе, определите р(т, п) и покажите, что lim р(т, п) = п—►оо 1 е • т\ ’ Решение. Общее число возможных комбинаций распределения курток равно п\. Пусть Ak = {гость k взял свою куртку}. Тогда Р(Л,- пА(2л...пД,) = ^^ И £ Р(Л, Г) А-,г Г) ... Г) Air) = С'п = i /| </2<-</r Таким образом, Р(по крайней мере один гость ушел домой в своей куртке) = =р(Сй=14+ \=1 7
48 Глава I. Дискретные пространства элементарных исходов и= \=1 7 Р(никто не ушел домой в своей куртке) = 1 - Р при п —* оо. Число случаев, когда никто не ушел в своей куртке, равно л!р(О, п), и р(т, = Таким образом, р(т, п) - —?р(0, = +... + (-1)л-т-——-) -> Де-1 т\ т\\ 1! (n-m)U ml при п —> оо. □ Оставшаяся часть этого параграфа посвящена так называемой задаче о баллотировке. Ее первоначальная формулировка следующая: множе- ство голосующих состоит из т консерваторов и п анархистов, которые голосуют за своих кандидатов, причем т п. Какова вероятность того, что в процессе подсчета голосов представитель консерваторов никогда не будет позади анархиста? Этот вопрос возникал неоднократно (но, как ни странно, не появлялся до сих пор среди вопросов части IA «Математи- ческих треножников»). Тем не менее, в Университете Свонзи эта задача активно обсуждалась, правда, в несколько модифицированной форме, из- ложенной ниже. Пусть т = п. Предлагается 2п напитков, п из них джин и п тоник. В местной популярной игре участник с завязанными глазами выпивает все 2п стаканов поочередно и каждый стакан выбран случайно. Участник провозглашается победителем, если объем выпитого джина ни- когда не превосходит объем выпитого тоника. Мы проверим, что это может произойти с вероятностью \/(п + 1). Рассмотрим случайное блуждание на множестве {—и, —п + 1, ..., /1}, причем частичка движется на один шаг вверх, если выбран стакан тоника, и на шаг вниз, если выбран стакан джина. Блуждание начинается из нуля (еще ничего не выпито) и после 2п шагов возвращается назад (число джинов равно числу тоников). На рис. 1.2 каждая траектория блуждания X(t) начинается в точке (0, 0) и заканчивается в точке (2/1, 0) и каждый раз прыгает или вверх и вправо, или вниз и вправо. Мы ищем вероятность того, что траектория все время находится выше линии X = -1. Общее число траекторий из точки (0, 0) в точку (2/1, 0) равно Число траекторий, расположенных выше этой линии, равно числу тра- екторий из точки (1, 1) в точку (2/1, 0) минус число траекторий из точки (1, -3) в точку (2/1, 0). Действительно, первый шаг из (0, 0) должен быть
§ 1.3. Формула включения-исключения. Задача о баллотировке 49 вверх. Далее, если траектория из точки (0, 0) в точку (2и, 0) касается или пересекает линию X = — 1, то мы можем зеркально отразить ее начальную часть и получить траекторию из точки (1, —3) в точку (2и, 0). Иногда это утверждение называют принципом отражения. Таким образом, вероятность выигрыша равна / (2п - 1)! _ (2гг-1)! \ / (2и)! = _1_ Г _ - 1)1 = 1 \л!(л —1)! (п 4- 1)!(л — 2)!// nlnl 2п L п 4- 1 J п 4- Г Предположим теперь, что количество т тоников больше количества п джинов. Как и ранее, выиграть игру означает, что каждый раз число вы- питых тоников не меньше, чем число выпитых джинов. Тогда общее число траекторий из точки (0, 0) в точку (т 4- л, т — п) равно - Снова первый шаг выигрышной траектории всегда вверх. Общее число траекто- рий из точки (1, 1) в точку (т 4- п, т - п) равно Используя принцип отражения, мы видим, что число проигрышных траекторий рав- но общему числу траекторий из точки (1, —3) в точку (т 4- л, т — и), (т 4- п - 1)! u т.е. —-уу . Наконец, вероятность выигрыша равна (т 4- п - 1)! (ги 4- л - 1)! \ / (т 4- п)\ _ т - п 4- 1 (т— 1)!л! (т 4- 1)! (п — 2)1/ / mini т 4- 1 Применим эти результаты к следующей задаче. Задача 1.3.5. Известно, что п женатых пар должны пересечь речку слева направо по узкому мосту, один за другим. Они решили, что в каждый момент времени на левом берегу не должно быть меньше мужчин, чем женщин; кроме этого требования, порядок пересечения может быть любым. Найдите вероятность того, что каждый мужчина пересечет речку после своей жены.
50 Глава 1. Дискретные пространства элементарных исходов Решение. Положим А = {каждый мужчина пересечет речку после своей жены}, В = {в любой момент число мужчин на левом берегу числа женщин}. Тогда Р(Д|В) = Р(ДПВ)/Р(В) = Р(Д)/Р(В) = ^±1. □ Мы закончим этот параграф другой историей о Колмогорове. Он в юности всерьез занимался историей и в 19 лет завершил работу, посвященную принципам распределения и налогообложения пахотной земли Новгорода в XV и XVI веках. Новгород — древний русский город, княжество и республика в разные периоды существования, полностью или частично независимый,—был присоединен Москвой в 1478 г. В своей работе Колмогоров использовал математическую аргументацию, чтобы ответить на следующий вопрос. Верно ли, что а) вначале облагалась налогом деревня, а потом налог распределялся между домовла- дельцами, или б) наоборот, вначале облагались налогом домовладельцы, а потом платился общий налог с деревни? Источником информации был древние писцовые книги — кадастры и другие официальные рукописи того времени. Поскольку общая сумма, которую собирали с деревни, была всегда целым числом (меняющихся) денежных единиц, Колмогоров доказал, что использовалось правило б). Он доложил о своем результате на семинаре по истории в Московском университете в 1922 г. Тем не менее, руководитель семинара, известный профессор (позже в честь него была названа одна московская улица), сказал, что результат молодого коллеги не может быть принят как окончательный, потому что «в истории каждое утверждение должно быть подкреплено несколькими доказательствами». После этого Колмогоров решил заняться дис- циплиной, в которой «для правильного утверждения достаточно одного доказательства», т.е. математикой. §1.4. Случайные величины. Математическое ожидание, условное математическое ожидание. Совместные распределения Celui qui a entendu dire la chose a douze mille temoins oculaires n’a que douze mille probabilites, egales a une forte probabilite, laquelle n’est pas egale a la certitude. F. M. A. Voltaire (Dictionnaire philosophique, chapitre sur la Verite) 12000 показаний очевидцев — это всего 12000 весьма вероятных суждений, которые, будучи собраны вместе, дают одно очень вероятное суждение, но все еще ничего не доказывают. Ф.М. А. Вольтер (1694—1778), французский философ Этот параграф значительно больше, чем предыдущие: многообразие представленных в нем задач такое, что, прорешав их, студент может счи- тать, что он разобрался в одной трети кембриджского курса «Вероят- ность 1А».
§ 1.4. Случайные величины. Математическое ожидание 51 Определение случайной величины (с. в.) следующее: это функция X на множестве всех событий Q, обычно действительная, иногда комплексная, Х(со), со е Q (во втором случае мы можем рассматривать пару, состоящую из действительной и мнимой частей функции X). Простой (и важный) пример с. в. — это индикаторная функция события: to Е Q1—► 1д (со) = Г 1, 10, если со е Л, если со 0 А. (1-4.1) Очевидно, что произведение IAi(<^)lA2(a) равно 1 тогда и только тогда, когда со е Л| П Л2, т.е. 1А[1д2 = IAiha2- С другой стороны, /л,иЛ2 = /л, + + 1А[ — 1А[г\а2- В случае конечного числа событий любая с. в. является линейной комбинацией индикаторных функций; в случае бесконечного чис- ла событий нужно взять бесконечную линейную комбинацию. Математическое ожидание (или среднее значение, или просто среднее) случайной величины X, принимающей значения Х\, ..., хт с ве- роятностями pi, ..., рт, определяется как сумма ЕХ= £ И х>р(х = х^ 0-4.2) ИЛИ EX=^p(w)X(w). (1.4.3) <oGQ Если X = b есть постоянная с. в., то ЕХ = Ь. Это определение также имеет смысл для с. в., принимающих счетное число значений х{, х2, • • • с вероятностями р\, р2, ...: / при условии, что ряд сходится абсолютно: ^ZpJxJ < оо. (Если Р/1х/| = / / = оо, говорят, что случайная величина X имеет бесконечное математическое ожидание.) Во многих задачах полезно рассматривать математическое ожида- ние ЕХ как положение центра масс системы точек х\, х2, ... с массами Рь Р2, ••• Первое (и очень полезное) наблюдение показывает, что математическое ожидание индикатора события 1А равно вероятности: Е/л = 52 РМ/л(о) = 12 = pw- U-4-4) Далее, если для с. в. X и Y справедливо неравенство X У, то ЕХ ЕУ.
52 Глава I. Дискретные пространства элементарных исходов Математическое ожидание линейной комбинации с. в. равно линей- ной комбинации их математических ожиданий. Кратчайшее доказательство в со-обозначениях таково: E(CjXi + С2Х2) = p(co)(C|Xi (со) 4- C2%2(w)) = <0 = C| 57p(q)X|((O) + С2У^р(СО)Х2(^) =С| EX[ + С2 Е%2- (О (О Этот факт (называемый линейностью математического ожидания) может быть легко распространен на п слагаемых: е Г 52= 52 в частности, если ЕЛ* = (1 для любого k, то Е ^2 X* = pin. Похожее свой- ство справедливо для бесконечной последовательности случайных величин ХЬХ2,...: Е(5>%*) =5>*ех* с-4-5) ' k ' k при условии, что ряд в правой части сходится абсолютно: 52 Iе* ЕХ*| < оо. k (Точная формулировка: если J2|c^EX^| <00, то ряд 52 ckXk определяет k k^\ с. в. с конечным средним, равным сумме 52 ck ЕХ^.) k^\ Для заданной функции g: R —справедливо равенство Egw = 52 pi^gix^))=52 pigM (14.6) <o6Q / при условии, что 52р<|йг(х/)| < оо. Действительно, записывая Y = g(X) и обозначив значения Y через у\, У2, ..., имеем е у=52 у> p(£W=^/)=5> 52 '^=у, р(*=*)• / / i что равно J2Pfg(x/) при условии, что J2pdg(X/)| < 00, так как тогда мы можем суммировать, группируя слагаемые. Замечание. Формула (1.4.6) является дискретной версией форму- лы, известной под названием правило незадачливого статистика. См. формулу (2.2.8) ниже.
§ 1.4. Случайные величины. Математическое ожидание 53 Пусть даны две с. в. X и У, принимающие значения Х(со) и У(со); рас- смотрим события {со: X(co)=xz, У(ы)=У/} (или, коротко, {X = xz, Y = y;}) для любой пары их значений х/ и у/. Вероятность Р(Х = х/, У = у/) озна- чает совместное распределение пары X, У. «Одномерные» вероятности Р(Х = хд и Р(У = yf) получаются при суммировании по всем возможным значениям второй с. в.: Р(Х = х,) = ^Р(Х = х,-, Y = yj), * О-4-7) Р(У = у0 = ^Р(Х = Х1, Y = yjY Xt Мы также можем рассмотреть условные вероятности Р(Х = х,-1 У = у,) = P(Xp(y’Jy^ У>} (1-4-8) Аналогичные правила применяются в случае нескольких с. в. X), Хп. Например, для суммы X + У случайных величин X и У с совместным распределением Р(Х = xz, У = z/7) имеем P(X+Y = u) = Р(Х = х„ Y = yj) = х,-У,: Х;+У!=и = ^Р(Х = х, Y = и - х) = ^Р(Х = и - у, Y = у). (1.4.9) X У Аналогично для произведения ХУ получаем р(хг = М)= 52 р<х=х-Y=yf> = Xi,y,: хм=и = 52P(X = x, Y = u/x) = ^,P(X = u/y, Y = y). (1.4.10) X у Мощным инструментом является формула условного математиче- ского ожидания', если X и N — две с. в., то ЕХ = Е[Е(Х|Л0]. (1.4.11) Тут в правой части внешнее математическое ожидание берется по вероят- ностям P(W = и7), с которыми с. в. N принимает значение пр Е[Е(Х | /V)] = 52 р(^ = «/) Е(* IN = rij). i Внутреннее математическое ожидание берется по отношению к условным вероятностям Р(Х = xz | N = и7) того, что с. в. X принимает значение xz при
54 Глава 1. Дискретные пространства элементарных исходов условии, ЧТО /V = rij\ Е(Х\Ы = П)) = ^ Xi P(X = Xi\N = п,). i Чтобы доказать формулу (1.4.11), мы просто используем определение условной вероятности: Е[Е(Х | /V)] = 22 P(N = ni)^Xi Р(Х = Xi\N = п,) = i i = ^2 Xi P(X = Xi, N = nf) = ^2x> P(X = Xi) = EX. Xi,nj xt Мы видим, что равенства (1.4.11) — просто перефразировка соотноше- ния (1.2.6). Опять-таки заметим, что это есть следствие перехода к услов- ным вероятностям относительно с. в. /V. Следующая формула удобна, когда N принимает неотрицательные це- лые значения: EN = £ Р(^ «)• (1.4.12) п>\ Действительно, 52P(/v^n)=£22p(yv=*) = п^\ п^\k^n =^p(N=k) 22 i=22р(^=^=ЕМ <1-4.13) k^\ \^n^k k>\ Мы говорим, что с. в. X и У, принимающие значения х, и z/7, незави- симы, если для любых пар значений выполняется равенство Р(Х = Х/, У = ///) = Р(Х = х/)Р(У =£/,). (1.4.14) В случае трех случайных величин X, У и Z нужно, чтобы для любой тройки значений было выполнено равенство P(X = xz-, У = //7, Z = Zk) = P(X = Xi) х х Р(У = yj) P(Z = Zk). Это определение может быть обобщено на случай любого числа с. в. Х\, ..., Хп: Vxj, ..., хп имеет место равенство P(Xi=xi,X2 = x2.....х„ = хп) = П Р(Х, = Xi). (1.4.15) /=1 Далее, с. в., образующие бесконечную последовательность, Х\, %2, • • •, на- зываются независимыми, если для любого п величины Х\, ..., Хп незави- симы.
§ 1.4. Случайные величины. Математическое ожидание 55 Возникает вопрос, почему в формуле (1.4.14) достаточно рассматривать п «полное» произведение П» в то время как в определении независимых /=1 событий требовалось, чтобы выполнялось равенство Р(ПА*) =ПРИ**) для любой подсистемы (см. формулу (1.2.9)). Ответ следующий: потому что мы требуем, чтобы формула выполнялась для любой системы зна- чений %|, ..., хп случайных величин Х|, ...,ХЛ. Действительно, если не учитывать некоторые с. в., то нужно взять сумму по всем их значениям: Р(Х2 = х2....Хп = хп) = ^Гр(Х| =Х|, Х2 = х2, .... Х„ = х„), так как события {Х| = хь ..., Хп_\ =хл_|, Хп =хп} попарно несовместны для различных значений Х| и их объединение дает {Х2 = *2, ..., Хл = хп}. п Значит, если P(Xj = Xj, ..., Хп = хп) = П Р(Х, = xz), то /=1 Р(Х2 = х2, ...,Хп =xn) = Y/P(Xi = х|)Р(Х2 = х2)...Р(Х„=хл) = х\ = Р(Х2=х2)...Р(Хл=хл), т.е. подсистема Х2, • Хп автоматически является независимой. Тем не менее, обратное не всегда верно. Например, если в каждой паре (X, У), (X, Z) и (У, Z) с. в. независимы, то необязательно, что и тройка X, У, Z независима. Пример дан в задаче 1.2.16: для решения нужно просто взять /л,, 1а2 И 1Аз. Важное понятие, которое возникло сейчас и будет использоваться в оставшейся части книги, — это понятие независимых одинаково распределенных (н.о. р.) с. в. Х|,Х2, ... Тут вдобавок к независимости предполагается, что вероятности Р(Х/ =х) одинаковы для всех i = 1, 2, ... Хорошей моделью является подбрасывание монеты: Хп может быть функцией результата n-го подбрасывания (т. е. Хп = 1(п-е подбрасывание дает орел)). Вообще, мы можем разбить испытания на непересекающиеся «блоки» данной длины / и рассматривать в качестве Хп функцию событий в n-м блоке. Немедленным следствием этого определения будет то, что для незави- симых с. в. X, У математическое ожидание произведения равно произведе- нию математических ожиданий: Е(ХУ) = ^х.У/ Р(Х = xi, У = yj) ^Х‘У1 р(* = Р(У = У,) = х„У/ xt,yj = £ X. Р(X = X,) Р(У = ^) = EX Е У. (1.4.16) Х< у/
56 Глава 1. Дискретные пространства элементарных исходов Тем не менее, обратное неверно: существуют такие зависимые с. в., что Е(ХУ) = EXE У. Простой пример: -1 О Х = 1 с вероятностью 1/3, с вероятностью 1/3, с вероятностью 1/3, Y=-l+x2- Тут ЕХ = 0, ЕУ = 0, Е(ХУ) =-| ЕХ + ЕХ3 = 0. О Но очевидно, что X и Y зависимы. С другой стороны, невозможно построить пример зависимых случай- ных величин X и У, принимающих каждая по два значения и таких, что Е(ХУ) = EXE У (см. задачу 2.2.20). Дисперсия с. в. X, принимающей действительные значения, со средним EX = [I равна VarX = Е(Х - р)2; (1.4.17) раскрывая скобки, используя линейность математического ожидания и то, что математическое ожидание постоянной равно этой постоянной, получа- ем VarX = Е(Х2 - 2Хц + ц2) = ЕХ2 - 2ц ЕХ + Е(ц)2 = = ЕХ2 - 2(ц)2 + (ц)2 = EX2 - (ЕХ)2. (1.4.18) В частности, если X — постоянная с. в.: X = Ь, то VarX = b2 — Ь2 = 0. Дисперсию считают мерой «отклонения» с. в. X от среднего значения. (Величина х/VarX называется стандартным отклонением или средним квадратическим отклонением.) Из первого определения мы видим, что VarX 0, т. е. (ЕХ)2 ЕХ2. Это частный случай так называемого неравенства Коши—Шварца' | Е(ХУ)|2 Е|Х|2 Е|У|2, (1.4.19) справедливого для любой пары действительных или комплексных с. в. X и У; тут У означает комплексное сопряжение. (Это неравенство пред- полагает, что если математическое ожидание величин |Х|2 и |У|2 конечно, то математическое ожидание величины ХУ также конечно.) Неравенство Коши—Шварца названо в честь двух знаменитых математиков: францу- за О. Л. Коши (1789—1857), который доказал его в дискретном случае, и немца Г. А. Шварца (1843—1921), распространившего неравенство на непрерывный случай. ’В отечественной литературе Коши—Буняковского. — Прим. ред.
§ 1.4. Случайные величины. Математическое ожидание 57 Доказательство неравенства Коши—Шварца может служить элегант- ным алгебраическим упражнением; для простоты мы приведем его для действительных с. в. Заметим, что VX е R случайная величина (X 4- ХУ)2 неотрицательна и, таким образом, Е(Х 4- ХУ)2 0. Представив это мате- матическое ожидание как функцию от X, получим квадратичный полином Е(Х + ХУ)2 = ЕХ2 4- 2Х ЕХУ 4- X2 Е У2. Для того чтобы этот полином был неотрицательным для всех X G R, он должен иметь отрицательный или равный нулю дискриминант, т. е. 4(ЕХУ)2 4 ЕХ2 ЕУ2. Величина, тесно связанная с понятием дисперсии и называемая кова- риацией двух с. в. X и У, определяется как Cov(X, У) = Е(Х - ЕХ)(У - ЕУ) = Е(ХУ) - ЕХЕУ. (1.4.20) Для независимых случайных величин Cov(X, У) = 0. Опять-таки обрат- ное неверно: существуют зависимые случайные величины X и У, для которых Cov(X, У) = 0. Из неравенства Коши—Шварца следует, что |Cov(X, У)|2 (VarX)(Var У). Для дисперсии Var(X 4- У) суммы X 4- У справедливо следующее пред- ставление: Var(X 4-У) = VarX 4-Var У 4-2 Cov(X, У). (1.4.21) Действительно, Var(X + У) = Е((Х - ЕХ) + (У - ЕУ))2 = = Е(Х - ЕХ)2 + 2Е(Х- ЕХ)(У - ЕУ) + Е(У - ЕУ)2, что равно правой части равенства (1.4.20). Важным следствием является то, что дисперсия суммы независимых с. в. равна сумме дисперсий: Var(X 4- У) = VarX + Var У. Этот факт легко обобщается на любое конечное число слагаемых: Var(Xj 4-... 4-Хл) = VarXj 4-... 4-VarXn. (1.4.22) В случае н. о. р. с. в. VarX/ не зависит от I и если VarXz- = а2 (стандартное вероятностное обозначение), то Van Х7) = на2. С другой стороны, если с — действительная постоянная, то Var(cX) = = Е(сХ)2 - (Е(сХ))2 = с2(ЕХ2 - (EX)2) = с2 VarX. Таким образом, Var лХ = = л2 VarX. Это означает, что, суммируя идентичные с. в., мы получим, что
58 Глава 1. Дискретные пространства элементарных исходов дисперсия возрастает квадратично, в то время как суммируя н. о. р. с. в. мы получим только линейный рост. (Средние значения в обоих случаях возрастают линейно.) Постоянная с. в., принимающая одно значение (X = Ь), не зависит от любой другой с. в. (или множества с. в.). Следовательно, Var(X + b) = = VarX + Var6 = VarX. Итак, для независимых случайных величин Xj, Х2, ••• и действитель- ных чисел С|, С2» • • • имеем Уаг С/Х/ = cf VarX/ z i при условии, что ряд в правой части равенства сходится абсолютно. (Более точно, если ^cfVarX/ < оо, то ряд ^CiXi определяет с. в. с конечной i i дисперсией VarX/.) Наконец, в случае независимых случайных величин формулы (1.4.9), (1.4.10) выглядят так: Р(Х+Г = г/) = У2р(х=^-^)р(г=^) = 52Р(Х=х)Р(Г = и-х) (1.4.23) У х И р(ху=и)=р(*=и/у) р(г=у)=У2Р(Х=Р(Г=и/х)- о-4-24) у х Уравнение (1.4.23) часто называют формулой свертки. Замечание. В обозначениях бывают некоторые отклонения: многие ав- торы пишут Е[X], Var[X] и/или Var(X). Так как мы придерживаемся стиля «Математических треножников», такие обозначения также будут иногда появляться в нашей книге. Теперь мы приведем альтернативное доказательство формулы включе- ния-исключения (1.3.1) для вероятности Р(Л) объединения А = U Л/. Используя индикаторные функции, формулу можно записать следующим образом: Е/„= £ (-1)*+1 £ Е(/„, Пусть со е U Л/ и Л/,, ..., Лд —множество событий, содержащих со, т. е. со € Л/, П ... П Ajs и со £ Л/ для всех Л/ не из этого списка. Не ограничивая общности, предположим, что {/|, ...,/$} = {1, ...» $}; в про- тивном случае мы соответственно переобозначим события. Тогда для это-
§ 1.4. Случайные величины. Математическое ожидание 59 го (й правая часть должна содержать Е(/л/( ... /д*) только при 1 k $ и 1 / j <...</* О- Точнее, мы хотим проверить, что |='и,„.м<0)= Е(-1)‘+' Е М“> 1<^<$s 1 <Z| < ...Cifc^s Но правая часть равна Е (-1)*+1С* = 1 - (1+ 52 (-1)*C*} = 1-(1-1)S = 1. Взяв математическое ожидание, мы получим требуемый результат. Задача 1.4.1. Я пришел домой с банкета и пытаюсь открыть мою входную дверь одним из трех ключей, находящихся в моем кармане. (Мы предполагаем, что в точности один ключ откроет дверь, при условии, что он выбран правильно.) Найдите среднее число а попыток, которые я должен сделать, чтобы открыть дверь, при условии, что я выбираю ключ случайно и бросаю его на пол, если он не подходит. Найдите среднее число b необходимых попыток при условии, что я кладу ключ, который не подошел, обратно в карман. Найдите а и b и покажите, что b - а = 1. Решение. Обозначим ключи через 1, 2 и 3 и предположим, что ключи 2 и 3 не подходят. Рассмотрим следующие случаи: а) первый выбранный ключ подошел, б) второй выбранный ключ подошел и в) третий выбранный ключ подошел. Тогда для а получим “ = (з') + (2-5Г2) + (2-ЗГ3)=2- Для нахождения Ь используем разложение по условным вероятностям относительно результата первой попытки: 1 2 b = тг • 1 4- ~ • (1 4- Ь), откуда 6 = 3. О о Множитель (14-6) отображает тот факт, что если первая попытка неудач- на, то ситуация повторяется в силу независимости. □ Замечание. Уравнение для 6 аналогично выведенным ранее уравнени- ям для вероятностей Q и Qz; см. задачи 1.2.12 и 1.2.13. Задача 1.4.2. Пусть — неотрицательная целочисленная случайная величина со средним рц и дисперсией af и Хь Хг, ... —одинаково рас- пределенные случайные величины со средним pt2 и дисперсией а|; предпо- ложим, что величины /V, Х|, Хг, ... независимы. Вычислите среднее и дис- персию с. в. S/v = Х\ 4- Х2 4-... 4- Хд/.
60 Глава 1. Дискретные пространства элементарных исходов Решение 1. Переходя к условным математическим ожиданиям, полу- чим N / п \ N ESn = Е[Е(5л, I /V)] = 52 P(N = п) Е ) = 52 p(N = «)«Н2 = Н1Р2- п=0 4=1 ' n=Q Далее, N z л ч 2 ES2 =E[E(S2,|/V)] = 52P(/V = n)E(52x,) = П=0 4=1 ' Л/ г / П \ / П \2" = 52Р(7У = /г) Var(52x,) + IE52x) = П=0 L 4=1 ' ' z=l ' - Af = 52 p(N = n)[«®2 + («Рг)21 = Ц1О2 + p-l EN2 = pio| + + af). n—0 Поэтому Var(Sw) = ES2N - (ESa/)2 = pioi + pfof. Решение 2. (Читайте решение после §1.5, посвященного производя- щим функциям.) Запишем p(z) = E(zS/‘) = g(ft(z)), где h(z) = Efz*1), g(z) = E(zN). Дифференцирование дает p'(z) = g'(h(z)) х х h' (z), и тогда E(SAZ) = p'(l) = g,(/z(l))A'(l)=g,(l)/z'(l)=pi1pi2. Далее, p"(z) = (h(z))hf (z)2 + g\h(z))h"(\). Получим E(S„($;v - 1)) = H1) =/W'(l)2 + gW"(i) и Var(S/v) = p"( 1) + p'( 1) - (p'( 1 ))2 = p! o| + . □ Задача 1.4.3. Пусть X и Y — неотрицательные целочисленные незави- симые случайные величины с конечными средними. Положим (7=min[X, У] и V = max[X, У]. а) Докажите, что EU = 52р(% > ")р(у > п), п^\ Е V = 52(р(Х > п) + Р(Г п) - Р(Х > п) Р(У п)) п^\
§ 1.4. Случайные величины. Математическое ожидание 61 И EUV = ^2 P(X>n)P(Y^n'). п,п'^ 1 6) Предположим вдобавок, что случайные величины X и Y не явля- ются постоянными и одинаково распределены. Рассмотрев вероятность Р(И х < U) для некоторого х (или как-нибудь иначе), докажите, что U и V — зависимые с. в. Решение, а) Запишем EU = Е min[X, У] = P(min[X, У] > п) = > п) р(у «)• п^\ п>\ Так как U 4- V = X 4- У, мы получаем ЕУ = ЕХ + ЕУ - EU = 52(Р(Х п) + Р(У п) - Р(Х п) Р(У и)). п^\ Аналогично UV = ХУ, и тогда EUV = EXY = ЕХЕУ = Р(Х n)P(Y п'). п,п'^1 б) Для всех х имеем P(V х < U) = 0. Но P(V х) = Р(Х х)2 и P(U > х) = Р(Х > х)2, и тогда если случайные величины X, У не константы, то существует такое х, что Р(Х х), Р(Х > х) > 0. Поэтому Р(У х)Р((/ > х) / 0, и, таким образом, случайные величины U и V зависимы. □ Задача 1.4.4. а) Пусть Х^Хг, . ..,ХЛ— случайные величины. Пока- жите, что Var(Xi + Х2 +... + Хп) = Cov(X,-, X/). 4=1 б) Десять человек сидят в кругу, и каждый подбрасывает симметричную монету. Пусть N — число людей, монетка которых упала той же стороной, что и монетка соседей справа и слева. Найдите Р(М = 9) и P(N = 10). Пред- ставив М как сумму случайных величин (или другим способом), найдите ее среднее и дисперсию. Решение, а) Пусть У/ = Xz - EXZ. Тогда / П X П Var(X, + Х2 + ... + Хп) = Е(У| + ... + У„)2 = Е (£ У, У,) = £ Е(У,У,). \,/=1 7 /,/=1 Но Е(У/Уу) = Cov(Xz, Ху), что и дает требуемый результат.
62 Глава 1. Дискретные пространства элементарных исходов 6) Заметим, что P(/V = 9) = 0. Действительно, не может быть такой ситуации, чтобы результаты бросков девяти человек совпадали с ре- зультатами обоих соседей, а результат десятого не совпадал. Далее, /1\10 P(/V= Ю) = 2(^1 : существует 2 способа зафиксировать сторону / 1 \ ю монетки, и I - } —вероятность того, что все 10 монеток выпадут данной стороной. Наконец, запишем Л/ = 1д} 4-... + /Л|0, где Л/ — событие, состоящее в том, что у двух соседей /-го человека монетки выпали той же стороной, что и у него. В силу симметрии EV = 10Р(Л,) = 10-1 =2,5. Величины /л,, и !д. попарно независимы, если / не сосед /. Действительно, когда / и j не имеют общих соседей, очевидно, что каждая с. в. зависит от непересекающегося множества результатов. Предположим, что у / и j есть (один) общий сосед. Тогда Р(/д = 1, /Л/ = 1) = 1 /32 4-1/32= 1/16. В то же время Р(/Л( = 1) = Р(/Л/ = 1)= 1/4. Таким образом, Var(/V)= 10Var^,)+20Соу(/л,,/л2)= Ю({- (|)2)+20(Е(/д,/4г)-. Далее, Е(/л,/л2) = Р(/д, = 11Ч = 1) Р(/л2 = 1) = | | = |- Таким образом, VarV = 10- А + 20(| - =3,125. □ 10 \О 10/ Задача 1.4.5. Пусть Хь •Хп— независимые одинаково распреде- ленные случайные величины со средним р и дисперсией о2. Найдите сред- нее случайной величины п - -1Л $ = £(Х-Х)2, гДе Z=1 Z=1 Решение. Рассмотрим сначала среднее значение и дисперсию случай- ной величины X: 1 п 1 п 1 EX = i Е У X/ = i У ЕХ/ = - • ли = и, 1=1 /=1 । л 2 VarX = 4 V VarX, = —. /=1
§ 1.4. Случайные величины. Математическое ожидание 63 Далее, es=е (£2? - 2*ibXi+=е (52х<? -2л^2+п*2)= \=1 /=1 ' \=1 ' / п \ П = Е ( 52 X? - пХ2 ) = 52 E%f - л ЁХ2 = л(ц2 + о2) - п((ЕX)2 + VarX) = \=1 ' 1=1 = л(ц2 + а2) - л(ц2 + = o2(n- 1). □ Задача 1.4.6. Пусть (X*)— последовательность независимых одинако- во распределенных положительных случайных величин, причем существу- п ют Е(Х*) = а и ЕХ* = ft. Пусть Sn = Xi- Покажите, что E(Sm/Sn) = т/л, /=1 если т л, и E(Sm/Sn) = 1 4- (т - п)а E(S“!), если т п. Решение. 1. При т п запишем С СХ\ + • • • + Хт С Xi с Х| Е — = Е-----z------= / Е — = тЕ — Эл Эл • Эл /=1 Но при т = п мы имеем 1 - П t л Поэтому = ^. 2. При т > п имеем Е§1 = Е^ + Е V ? = 1+ 52 ЕХ/Е^- = 1+(т-л)аЕ^-. Эл Эл * Эл * »^л /=л+1 /=л+1 Тут важно отметить, что случайные величины Sn и Sm зависимы. Сред- г 1 и 1^1 ГЛ нее Ене превосходит ft, поскольку — —. □ Эл «Ьл А| Задача 1.4.7. Предположим, что X и Y — независимые случайные ве- личины, причем |Х|, |У| при некотором К. Пусть Z = ХУ; покажите, что Var Z = VarX Var У + Var У(ЕХ)2 + VarX(E У)2, указав свойства математического ожидания, которые вы используете. Решение. Запишем Var(XX) = Е(ХУ)2 - (Е(ХГ))2 = ЕХ2 ЕУ2 - (ЕХ)2(ЕУ)2 = = (VarX + (EX)2)(Var У + (ЕУ)2) - (ЕХ)2(Е У)2 = = VarX Var У + (EX)2 Var У + (Е У)2 VarX.
64 Глава 1. Дискретные пространства элементарных исходов Мы использовали линейность математического ожидания, формулы EZ = = ЕХЕУ и EZ2 = EX2 EY2, которые справедливы благодаря независи- мости, и конечность всех средних, которая следует из ограниченности случайных величин X и Y. □ Задача 1.4.8. Пусть а<2, ..., ап — последовательность ежегодного количества дождей в Кембридже в последующие п лет; предположим, что а2, ап — независимые одинаково распределенные случайные величины. Будем говорить, что k — рекордный год, если a,k > сц для всех i < k (таким образом, первый год всегда рекордный). Пусть К = 1, если /-й год рекордный, и Yt = 0, если нет. Найдите распределение случайной ве- личины Y( и покажите, что Y<z, ..., Yn независимы. Вычислите среднее и дисперсию числа рекордных лет за последующие п лет. Решение. Упорядочивая а\, ..., ап в невозрастающем порядке, полу- чаем случайную перестановку множества 1, 2, ..., п. В силу симметрии все такие перестановки равновероятны. Соответственно, упорядочивая пер- вые i количества дождей, получаем случайную перестановку множества 1,2,...,/. Поэтому Р(У,•=!) = }, Р(У,=0) = ^1, ЕУ, = 1, VarK = |-l Заметим, что с. в. ..., Yn независимы. Действительно, положим Xi = место года i среди 1, ..., / после упорядочения и Р(%,. = /) = !, 1 <: / I. Тогда Yi зависит только от Xt. Поэтому достаточно проверить, что все Xt независимы. Действительно, для всех множеств таких попарно различных номеров //, / = 1, ..., п, что Ц /, событие {X/ = //, 1 / ^ п} соответствует единственной перестановке из п\ возможных. Таким образом, 1 = Р(Х; = х„ u i < П) = П Р(Х, = Xi). \^л^п Наконец, п п 1 ^Е^Ер 1 I и / п ч П П Var(E Y‘) = Е Var У, = £(1 - 1). □ V 1 7 /=1 1
§ 1.4. Случайные величины. Математическое ожидание 65 Задача 1.4.9. Чтобы поймать двух диких яков для размножения, в Ги- малаи послали экспедицию. Предположим, что яки бродят по горам в оди- ночестве в случайных направлениях. Вероятность р е (0, 1) того, что пой- манный як — самец, не зависит от предыдущих результатов. Пусть N — число яков, которых необходимо поймать, для того чтобы получить пару. а) Покажите, что математическое ожидание случайной величины N равно 1 4- p/q + q/p, где q = 1 - р. б) Найдите дисперсию случайной величины N. Решение. Ясно, что P(7V = п) = pn~{q 4- qn~xp при п > 2. Тогда ЕМ равно оо оо +рЕ"Ч"~' + (ГТ^]- п=2 п=2 что дает 1 4- p/q + q/p. Далее, VarM = EM(M- 1)4-ЕМ-(ЕМ)2, и EN(N- \) = pq^n(n- \)рп~2 + pq^n(n - \)qn~2 = n=2 n=2 = 2p<? j. 2W = 2p 2<? (l-p)3 +(1-^)3 q^p2- Поэтому Var«=?? + ?S + £ + S + l-(2 + ^+lV = ± + l-£-i-t □ q2 p2 q p \q p J q2 p2 q p Задача 1.4.10. Тарелка спагетти Лиама содержит п штук спагетти. Он выбирает случайным образом два конца и соединяет их вместе. Эту процедуру он проделывает до тех пор, пока не останется свободных концов. Каково математическое ожидание числа колец спагетти в тарелке? Решение. Полагая {1, если не склеивание дало кольцо, 0 иначе, найдем p« = H=2-4,--f (При i-м склеивании мы имеем 2п - 2(1 — 1) несвязанных концов; для выбранного кольца существует 2п — 21 4- 1 возможностей выбрать другой 3 — 1104
66 Глава 1. Дискретные пространства элементарных исходов конец, и только один такой выбор приведет к кольцу.) Таким образом, / П \ п п п— 1 е(£*0=Ер(Х = |) = £5^Ьт = :е^- ° \=1 7 /=1 /=1 /=0 Задача 1.4.11. Сара собирает фигурки из пакетов кукурузных хлопьев. В каждом пакете лежит одна фигурка, и п различных фигурок составляют полный набор. Покажите, что среднее число пакетов, которые должна купить Сара, чтобы собрать полный набор фигурок, равно Решение. Число необходимых пакетов равно Л^ + ^+.-. + Гя-ь где У1 —число пакетов, необходимых для того, чтобы найти вторую фи- гурку, и т.д. Каждое Yj имеет геометрическое распределение: Р(У7 = $) = = (л) и ЕУ) = п/(п - j). Поэтому п-1 I п EN = n\^----т«л1пл. □ п - I / /=0 1 Задача 1.4.12. а) Случайная величина N принимает неотрицательные целые значения. Покажите, что ее среднее значение равно оо E(M = £P(/V>*) *=0 при условии, что ряд сходится. б) Каждый пакет завтрака из пшеничных хлопьев содержит точно од- ну эмблему, и эти эмблемы могут быть трех цветов — голубые, белые и красные. Предположим, что каждая найденная эмблема может быть с одинаковой вероятностью любого цвета и (случайные) цвета разных эмблем независимы. Найдите вероятность того, что, ища среди k пакетов, вы не найдете эмблем всех цветов. Пусть N — число пакетов, необходимых для того, чтобы найти эмблемы всех цветов. Покажите, что E(/V) = 11/2. Решение, а) Запишем ОО z п к оо оо оо ОО =п) £ 1) = 52 Z P<N=r)=Ё р(^ л)=Е p(N > *)• л=1 ' г=1 7 n=l r=n n=l k=Q
§ 1.4. Случайные величины. Математическое ожидание 67 б) Далее, вероятность P(N > k) равна Р(нет всех цветов после k испытаний) = = Р (после k испытаний все эмблемы красные или голубые) + 4- Р(после k испытаний все эмблемы красные или белые) 4- 4- Р(после k испытаний все эмблемы белые или голубые) — - Р(все красные) — Р(все голубые) - Р(все белые) = 3 Тогда Задача 1.4.13. Искатель приключений Дипковский играет в рулетку в казино и использует для игры свой метод. Он ставит 5 долларов на крас- ное, и вероятность выигрыша равна 1/2. Если он выигрывает, он уходит, если нет, он ставит 10 долларов снова на красное. Если он выигрывает, он уходит, если нет, он ставит 20 долларов на красное и потом в любом случае прекращает игру. Результаты всех игр независимы. Какова вероятность того, что, когда он закончит игру, он проиграет? Найдите ЕХ и VarX, если X обозначает величину проигрыша или выигрыша. В общем случае, если Дипковский использует тот же метод, но ставит Si, S2 и S3 в трех раундах, каковы Р(Х < 0), ЕХ и VarX? Покажите, что если он ставит те же суммы, но в другом порядке, то Р(Х < 0) и VarX минимальны, когда меньшая сумма ставится вначале, а большая — в конце. Решение. Составим таблицу: результаты вероятность X выиграла первая ставка 1/2 5 первая ставка проиграла, вторая выиграла 1/4 5 первая и вторая ставки проиграли, третья выиграла 1/8 5 все 3 проиграли 1/8 -35 Тогда Р(проигрыш) = 1/8 и ЕХ — I । 5 35 _ q 2 + 4 + 8 8 U’ v е v2 25 25 25 1225 17[. VarX = EXz = y + y + y4- -у- = 175. В общем случае с у _ Si S2 — Sj S3 — S2 — Si Si 4- S2 + S3 ” ~2 + ~4~ + 8 8 3’
68 Глава 1. Дискретные пространства элементарных исходов в то время как Р(проигрыш) = 5 + |/(S2 < Si) + j/(S3 < S| + S2) О 4 о И v У - S‘ 4. (S2 " S')2 М (S3 ~ S* - S')2 4. <S' + 52 + S3)2 _ c2 . VarA - у + - + g + g - d, + у + - достигает минимума, когда S| < S2 < S3. □ Задача 1.4.14. Дипковский, сорвиголова с Дикого Запада, окружен бандой противника и сражается не на жизнь, а на смерть за свое спасение. У него т > 1 ружей, стреляющих в разных направлениях, и он пытается их использовать последовательно, чтобы создать впечатление, что у него есть сообщники. Когда он оборачивается к следующему ружью и обнаруживает, что оно заряжено, он стреляет с вероятностью 1/2 и переходит к следу- ющему. Если ружье не заряжено, он с вероятностью 3/4 заряжает его или просто переходит к следующему с вероятностью 1/4. Если он решает зарядить его, он стреляет (или не стреляет) с вероятностью 1/2 и после этого в любом случае переходит к следующему ружью. Изначально каждое ружье было заряжено независимо от других с ве- роятностью р. Покажите, что если после каждого перехода это распреде- ление сохраняется, то р — 3/7. Вычислите ЕМ и VarM числа N заряженных ружей при таком распределении. Решение. Уравнение инвариантности для р имеет вид Р । 0~Р) 3 1 2^ 4-2 откуда р = 3/7. Действительно, N = 22 где {1, о, 3 если ружье / заряжено; вероятность -у 4 если ружье / не заряжено; вероятность и эти величины независимы. Тогда ЕХ = у, VarX = EX2-(EX)2 = ||. Таким образом, EN = т EX = Var/V = т VarX = □ Задача 1.4.15. Гамлет, Розенкранц и Гильденстерн подбрасывают мо- неты. «Отличный от других» выигрывает монеты остальных; если все мо- неты одинаковы, ничего не происходит. Найдите среднее число бросков, необходимых для того, чтобы один человек вышел из игры, при условии,
§ 1.4. Случайные величины. Математическое ожидание 69 что первоначально у Гамлета 14 монет, а у Розенкранца и Гильденстерна по 6 монет. Указание. Рассмотрите среднее в виде Klmn, где /, т и п — началь- ные количества монет и К — неизвестная функция от общего числа монет Гамлета, Розенкранца и Гильденстерна, т. е. она зависит только от общего числа монет / 4- т 4- п. Решение. При таких условиях игры общее число монет всегда по- стоянно. Поэтому если Н — число монет Гамлета, R— Розенкранца, G — Гильденстерна, то W 4-/? 4- G = 26. (1.4.25) Такой игре отвечает случайное блуждание на трехмерной решетке, удовле- творяющей равенству (1.4.25), при /7>0, /?>0иб>0. Игра заканчивается тогда, когда по крайней мере одно из неравенств превращается в равенство. Возможны переходы (W, /?, G) -* (Н 4- 2, R - 1, G - 1) с вероятностью |, (//, R, G) -* (Н - 1, R 4- 2, G - 1) с вероятностью |, (//,/?, G) -*(//- 1, /? - 1, G 4- 2) с вероятностью |, (//, /?, G) (//, /?, G) с вероятностью |. Блуждание стартует при Н = 14, R = G = 6. Пусть Eh,r,g — среднее число бросков, необходимое для того, чтобы за- кончить игру, если начальные количества равны /7, /?, G. Тогда по формуле условного математического ожидания ЕнЯЯ = |(1 + ЕнЯЯ) + |(1 + £7/+2,/?-i.G-i) + 4-1(1 4-£h-I,/?-1,G+2) 4- |(1 4- ЕН-\я+2£-\) при условии, что нам известен результат первого броска. Имеем 3 1 -^Еняя - 1 = ^(^4-2,/?-i,G-l 4- Ен-\Я+2£-\ 4- ЕН-\Я- 1.G+2) при граничных условиях Eo,/?,g = Eh,q,g = Еня,о = 0. Предположительный вид искомой функции Енrg — К(Н4- G 4-R)HGR, iz 4 откуда получаем, что К = 3(// + б4.^ 2.2) и Р _ 4- 14-6-6 _ 336 h14-6’6 “ 3 -(26-2) 12
70 Глава 1. Дискретные пространства элементарных исходов Замечание. Плодотворная догадка такова: Eh,r,g является симметрич- ной функцией от Н, Ry G. Поэтому она является функцией симметрических полиномов от Н, /?, G, т. е. // 4- /? 4- G, HG 4- HR 4- G/?, HRG и т. д. Из граничного условия следует, что HRG должно появиться в качестве мно- жителя. • □ Задача 1.4.16. Мы с вами играем в следующую игру с подбрасыванием монетки. Каждый из нас подбрасывает одну (симметричную) монетку; если монетки упадут одинаковыми сторонами, то я получаю обе монетки; если разными, то вы получаете обе монетки. Первоначально у меня т монет и п монет у вас. Пусть Е(/и, п) — средняя продолжительность игры, до тех пор пока у одного из нас не останется монет. Опишите линейную зависимость между Е(ги, л), Е(т- 1, п4-1) и Е(ги4-1, п— 1). Представьте ее как функцию от т 4- п и т - и, получите, что Е(ги, п) — квадратичная функция от т и и, и, таким образом, используя подходящие начальные условия, покажите, что Е(т, п) = тп. Решение. Как и ранее, получим Е(/п, п) = Е(т - 1, п 4- 1) 4- Е(т 4- 1, п - 1) 4- 1. Ответ: Е(/п, п) = тп. □ Задача 1.4.17. Каково среднее значение времени, которое пройдет до тех пор, пока заводной апельсин не упадет со стола в задаче про тетю Агату (см. задачу 1.2.10)? Решение. Продолжая решение задачи 1.2.10, обозначим через Et (условное) математическое ожидание времени падения, если апельсин начинает двигаться с расстояния 10£ см от левого края стола. Тогда Eq = £20 = 0 и £г = |£г_, + |Ег+1 + 1. или Et+i = ^Ее - - |. Векторы ие = (Ее, Ee+i) и v = (0, —5/2) удовлетворяют соотношению at = ие_\А 4- и. Здесь, как и ранее, матрица имеет собственные значения kj = 3/2 и Кг = 1 и собственные векторы е\ = (1, 3/2) и в2 = (1, 1). Заметим, что v = 5(в2 - ej).
§ 1.4. Случайные величины. Математическое ожидание 71 Итерирование дает ие = uqA1 4- v /V, i^/X/-i и если uq = aiei 4- <22^2» то и, = (а,Х( + а2 - 5(£4 - t). ja.Xf + а2 - 5(|- f)). Подставляя в первую компоненту Eq = 0 (для t, — 0), получим Qi 4- #2 = 0» а подставляя во вторую компоненту Е20 = 0 (для t, = 19), получим а< + ^5(®Ы-19Н(^-20). Таким образом, _ 1О((3/2)20 - 1) - 100 _ |П 100 <21 - 0.2 - (3/2)2® _ ( - ,и (3/2)20 _ 1 ' и Ею =(10- <з^т)(®Ю-О-»-»(©'"-') = = 50+10 (©'Ч-О'”-')- ——— — RD (3/2) «о 4- 1 ” 100 (3/2)«о 4- 1 * Грубая оценка дает E\q 48. Замечание. Гораздо более короткое решение (студенты иногда пред- лагают его, чувствуя, что оно правильно, но не могут строго обосновать) следующее. Пусть т обозначает время падения. Как было показано в ре- шении задачи 1.2.10, положение ST в момент т равно с вероятностью с вероятностью 1 (3/2)10 4- 1 ’ (3/2)'о 4- 1 ’ После п продвижений положение равно сумме независимых с. в.: Sn = So 4- Х\ 4-... 4- Хп, где So — начальное положение (в нашем случае равное 10) и Xj — прира- щение при /-м продвижении: + 1 2 с вероятностью □ 3 с вероятностью -. Х< = { -1
72 Глава 1. Дискретные пространства элементарных исходов Записывая Un = So 4- (Xi - Е%!) + ... + (Хп -EXn) = Sn-n ЕХ{, получим EUn = ESo. То же самое справедливо и для случайного момента времени т: Е(/х = ESo, но этот факт основан на теории мартингалов. Поэтому 10 = 20(3/2)10 + 1 “ Ет(б ~ б) и С СП 100 с Ет ” 50 (3/2)'° + I £|0’ как и ранее. □ Аналогичные соображения позволяют дать и короткое решение зада- чи 1.4.15. Обозначим через Нп, Rn и Gn число монет у Гамлета, Розен- кранца и Гильденстерна после п бросаний. Пусть У„ = H„RnG„ + + Rn + G„- 2)п. з Ясно, что -(Нп 4- Rn 4- Gn - 2) = 18, поскольку Нп 4- Gn 4- Rn = 26. Мы оставляем в качестве упражнения проверку того, что условное ожидание равно Е(//я+1 Rn+\Gn+i | Нп> Rn, Gn) = HnGnRn ~~ 18. Тогда ясно, что ЕКл+i = ЕНn+\Rn+\G п+\ 4- 18(л 4-1) = Е[Е(Нп+\Rn+\Gn+i I Нп, Rn, Gn)] 4- 4- 18(zz 4- \) = EHnRnGn 4- 18n = EYn = EYQ= 14 -6 -6 = 504. Ключевой факт (требующий для своего обоснования теории мартинга- лов) состоит в том, что это равенство справедливо и в случайный мо- мент т, когда игра заканчивается (т. е. один из игроков остается без монет): ЕУТ = 504. С другой стороны ЕУХ = 18 Ет, поскольку HXRXGX = 0. Таким образом, Ет = 504/18 = 28. Задача 1.4.18. а) Определите ковариацию Cov(X, Y) случайных вели- чин X и Y. Покажите, что Var(X 4- Y) = VarX 4- Var Y 4- 2 Cov(X, Y). б) Симметричная кость имеет две зеленые стороны, две красные, и две белые; ее подбрасывают один раз.
§ 1.4. Случайные величины. Математическое ожидание 73 Пусть {1, если зеленая сторона сверху, О иначе, {1, если синяя сторона сверху, О иначе. Найдите Cov(X, Y). Решение, а) Положим [1% = EX, pty = ЕУ и Е(Х + Y) = ЕХ + ЕУ. Тогда Cov(X, У) = Е(Х-рх)(У-Иг), Var(X + У) = Е(Х + У - - цг)2 = Е(Х - цЛ)2 + Е(У - Иг)2 + + 2 Е(Х - |1Л)(У - цг) = VarX + Var У + 2 Cov(X, У). 6) Следовательно, Р(зеленая сторона сверху) = Р(синяя сторона сверху) = о поэтому 1 Их = Рг = %- Наконец, Cov(X, У) = EXY - рхру. Но ХУ = 0 с вероятностью 1, поэтому ЕХУ = 0. Таким образом, Cov(X, У) = = -1/9. □ Задача 1.4.19. Такси ездит между четырьмя поселками НУ, X, У, Z, расположенными в углах прямоугольника. Четыре дороги, соединяющие поселки, расположены по сторонам прямоугольника; расстояние от W до X и от У до Z — 5 миль, от МУ до Z и от У до X — 10 миль. После доставки пассажира такси ждет следующего вызова, потом едет за новым пассажиром и привозит его на место назначения. Звонки могут поступать из любого поселка с вероятностью 1/4, и каждый пассажир может ехать в любой из поселков с вероятностью 1/3. Естественно, проезжая между парой соседних поселков, такси выбирает прямую дорогу, иначе (когда такси едет от НУ к У, или от X к Z, или наоборот) это неважно. Расстояния внутри поселков малы. Пусть D — расстояние, которое нужно проехать, чтобы забрать и отвезти одного пассажира. Найдите вероятности, с кото- рыми D принимает свои возможные значения. Найдите ED и VarD. Решение. Пусть стороны прямоугольника равны а = 5, ft = 10, с = 5 и d= 10 миль. Без потери общности предположим, что такси расположено
74 Глава 1. Дискретные пространства элементарных исходов в вершине, смежной с а и Ь, тогда ' 0 + а = 5 0 + 6= 10 а + а = 10 а + b = 15, & b + Ь = 20 2а + b = 20 а + 26 = 25 . 2а + 26 = 30 с вероятностью 1/12, с вероятностью 1/12, с вероятностью 1/12, с вероятностью 1/4, с вероятностью 1/12, с вероятностью 1/6, с вероятностью 1/6, с вероятностью 1/12. Поэтому (в милях) ED = ^ = ^, ЕО2 = ^ = ^, Var£> = ED2-(ED)2 = ^. □ 1 1 w 1 Задача 1.4.20. Пусть X — целочисленная случайная величина с рас- пределением P{X = n) = n-s/^s)1 где s > 1 и ^(s)=ZXs- Л^1 Пусть 1 < р\ < р2 < рз < • • • — простые числа, и пусть Ak — событие {X делится на pk}. Найдите Р(Л^) и покажите, что события А\, А2, ... независимы. Получите, что П(1 -р?) = 1Д($). k=\ Решение. Запишем Р(Л*)= 52 fej= Е fcj=^Efe)=^s- п делится на рк п: n=pkl Г^Л Аналогично \/Л*,, ..., А^ (1 < k\ < ... < kA мы имеем Р(Л*, п... n Aki) = = П рИ*Л /=1 что означает, что события Ль Л2, ... независимы.
§ 1.5. Стандартные дискретные распределения. Производящие функции 75 Наконец, вероятность того, что X не делится на р*, равна 1 - pk s. Тогда оо п (1 - PkS) — это вероятность того, что X не делится ни на одно простое *=1 число, т. е. X = 1. Эта вероятность равна 1Д($). □ Замечание. Функция £(s) — это знаменитая дзета-функция Римана, которая является предметом гипотезы Римана, одной из немногих задач, поставленных в XIX в. и не решенных до сих пор. Задача, сформули- рованная выше, дает представление дзета-функции в виде бесконечного произведения простых чисел. Г. Ф. Б. Риман (1826—1866), замечательный немецкий математик, внес также большой вклад в геометрию (римановы многообразия, риманова метрика). В нашей книге мы будем говорить об интегрировании в смысле Римана, отличающемся от более общего интегри- рования в смысле Лебега; см. ниже. § 1.5. Биномиальное, пуассоновское и геометрическое распределения. Производящие функции распределений, производящие функции моментов и характеристические функции La vie n’est bonne qu’a deux choses: decouvrir les mathematiques et enseigner les mathematiques. Только две вещи придают жизни смысл: математические открытия и преподавание математики. С.-Д. Пуассон (1781 —1840), французский математик Биномиальное распределение естественным образом появляется в за- дачах с подбрасыванием монетки. Рассмотрим случайную величину X, равную числу орлов, выпадающих при п испытаниях с монетками оди- накового типа. Ее удобно представить в виде Х=У1+... + Ул, где с. в. У|, ..., Yn независимы и одинаково распределены, {1, если /-е испытание дает орел, 0, если /-е испытание дает решку. Предполагая, что вероятность того, что выпадет орел, Р(У7 = 1) — р и ве- роятность того, что выпадет решка, Р(У7 = 0) = q = 1 — р, получим Р(Х = k) = Cknpkqn~k, 0 k п. (1.5.1) Такое вероятностное распределение (и сами с. в.) называется биномиаль- ным (или (п, р)-биномиальным), потому что оно связано с биномиальным разложением 52 Cknpkqn~k = (р + q)n = 1.
76 Глава 1. Дискретные пространства элементарных исходов Значения биномиальных вероятностей показаны на рис. 1.3. Благодаря представлению X = /1 + ... + Yn сумма X + X' независимых (и, р)- и (п', р)-биномиальных с. в. X и X' есть ((и + л'), р)-биномиальная с. в. Из этого разложения также следует, что EX = nEKj = пр, VarX = nVar/i = npq. (1.5.2) Мы будем обозначать биномиальную с. в. X следующим образом: X ~ ~ Bin(n, р). Другие хорошо известные разложения также дают полезные вероят- ностные распределения. Например, при подбрасывании монетки до первого появления орла результатами будут числа 0, 1,... (означающие число решек до появления первого орла). Пусть X обозначает число решек до появления первого орла. Тогда P(X = k)=pqk, £ = 0,1,2,..., (1.5.3) что равно вероятности появления последовательности РР...РО, в которой на первых k местах решки Р и на (k + 1)-м месте — орел О. Сумма всех вероятностей (сумма геометрической прогрессии) равна р/(1 — q) = 1. Вероятность «решек» равна Р(Х k) = qk, k 0. Говорят, что с. в. X, дающая число испытаний до появления первого орла, имеет геометрическое распределение (или является геометри-
§ 1.5. Стандартные дискретные распределения. Производящие функции 77 Рис. 1.4. Геометрическое распределение ческой) с параметром q. На рис. 1.4 приведен график геометрического распределения. Среднее значение и дисперсия геометрического распределения вычис- ляются по формулам EX = £(l-?)ty* = £>* = £ (1.5.4) k>\ k>\ р VarX = EX2 - (EX)2 = ~^ = k^i p __ __ 2 = pq2^k{k - l)qk~2 + pq^^k~l ~ h = Л>1 P = na2A.L + l_^.^na2- + ^-^- = ^- + i = ^- (15 5) PQ dq2 p p p2 PP p3 p p2 p2 p p2’ ' ' Отметим особенность геометрической с. в.: для любого т < п выпол- няется равенство Р(Х п | X > т) = Р(Х п - m), (1.5.6) называемое свойством отсутствия памяти. Другой особенностью гео- метрического распределения является то, что min [X, X'] двух независимых геометрических с. в. X и X' с параметрами q и q' также геометрическая с. в., с параметром qq': P(min[X, X'j k) = (qq')k, k 0.
78 Глава 1. Дискретные пространства элементарных исходов Иногда геометрическое распределение определяют при помощи вероят- ностей Pk = pqk~ \ k = 1, 2, ..., соответствующих количеств испытаний до (включительно) первого орла. Это приводит к другому значению среднего 1/р; дисперсия при этом не меняется. Мы будем писать X ~ Geom(^) для геометрической с. в. X (в обоих определениях). Геометрическое распределение появляется во многих ситуациях. На- пример, число взмахов крыльями, которые делает птица, перед тем как взлететь, имеет геометрическое распределение. Обобщением геометрического распределения является отрицатель- ное биномиальное распределение. В этом случае соответствующая с. в. X обозначает число решек до появления r-го орла. Иными словами, Х = Х\ + ... + Хг, где Xi ~ Geom(^) и X, независимы. Прямые вычисления показывают, что P(X = k) = Ckk+f_lprqk, ft = 0,1, 2, ... Действительно, равенство X = k означает, что было k + г испытаний, из которых k раз выпала решка и г раз орел, причем при последнем броске выпал орел. Мы будем обозначать отрицательное биномиальное распределение X ~ NegBin(^, г). Еще один пример — это пуассоновское распределение с параметром X 0; оно появляется в разложении тг и названо в честь k' С.-Д. Пуассона (1781 —1840), выдающегося французского математика и физика. Мы снова приписываем неотрицательным числам вероятности, \k и вероятность, приписанная числу k, равна —Случайная величина X, для которой -к Р(Х = й) = ^.е-\ 6 = 0, 1, 2, ..., (1.5.7) называется пуассоновской. Эти вероятности появляются из биномиаль- ных при п -+ оо и р = \/п —> 0: п\ /Х\*/ _ = n(n-\)...(n-k+\)\k (1 -\/п)п (n-k)\k\\n) \ п) nk k\ (\-\/n)k' X* -X а это выражение стремится к — е Л. Приведенные выше рассуждения объясняют тот факт, что сумма Х + Х' независимых пуассоновских с. в. X и X' с параметрами X и X' также пуас- соновская, с параметром X + X'. Этот факт также может быть доказан непосредственными вычислениями.
§ 1.5. Стандартные дискретные распределения. Производящие функции 79 Рис. 1.5. Распределение Пуассона График значений пуассоновских вероятностей представлен на рис. 1.5. Среднее значение ЕХ и дисперсия VarX пуассоновских с. в. равны X: £ = Х’ £ - Х2 = Х- (1 -5-8) Мы будем писать X ~ Ро(Х) для пуассоновской с. в. X. Пуассоновское распределение широко используется во многих ситуа- циях. Знаменитый (хотя и устрашающий) пример (с которого оба автора начали свое изучение теории вероятностей): число прусских кавалеристов в каждом из шестнадцати корпусов, убитых ударом копыта лошади в каж- дом из 1875—1894 гг. Этот пример идеально подходит под пуассоновское распределение! Удивительно, что он проникал в большинство учебников до конца XX в. и энтузиазм нескольких поколений студентов от этого не угасал. Производящая функция cp(s) (= cp%(s)) распределения случайной вели- чины X, принимающей конечное или счетное число действительных значе- ний Xj с вероятностями р7-, определяется следующим образом: <px(s) = е$х = ^2 PisXi = 52 (1 -5-9) / «еп обычно рассматривают только случай s > 0. Функция ЛМ0 = <рх(е') = Ее'х (1.5.10)
80 Глава 1. Дискретные пространства элементарных исходов называется производящей функцией моментов. Производящие функ- ции распределений и моментов могут не существовать для некоторых зна- чений аргумента (название «производящая функция моментов» происходит оо от представления Mx(t) = Z (EX'1)/"/л!, так как математическое ожидание п=0 EX'1 называется л-м моментом случайной величины X). С другой стороны, характеристическая функция ф(/) (= ф%(/)) определена для всех действительных t: ф(/) = Eettx = '^2fpjeltx> = р(сй)е'/Х(о), (1.5.11) j ljEQ при этом она принимает комплексные значения, по модулю меньшие 1. Полезность этих двух функций видна из следующих свойств. 1. Если X и Y — независимые с. в., то <px+r(s) = <px(s)cpr(s), фх+к(0 = фх(Офг(О- (1-5.12) Действительно, <рЛ+г($) = Esx+r = EsV = Es* Esr = <px(s)<pr (s), и аналогично в случае характеристических функций. 2. Математическое ожидание ЕХ и дисперсия VarX (а также и другие моменты ЕХ7) выражаются в терминах производных функций ср и ф при s = 1 и t = 0 соответственно: ЕХ=г^’1„, = гйИ,.о' ,,5,3> Var*= (^<s> + ~ = ,2 , 2 =(-S^+(5/M)L (L5J4) 3. Функции cpx(s) и фх(/) однозначно определяют распределение с. в.: если cpx(s) = cpy(s) или ф%(/) = фу(О во всей области (т.е. при s > 0 и t G К. соответственно), то с. в. X и Y принимают одинаковые значения с одинаковыми вероятностями. В этом случае мы будем писать X ~ Y. Последнее свойство очень полезно для определения многих распреде- лений, но доказательство этого факта выходит за рамки нашей книги. Тем не менее, если случайная величина X принимает конечное число целых значений п\,...,пт с вероятностями pj,...,pm, то <рх($) = = = s- ^2sn'~-pj = s-(f(s), где л = min П; и <р($)— многочлен. Далее, мы знаем, что если cpx(s) = фу($), то (fx и фг имеют одинаковые коэффициенты при одинаковых степенях $; это и означает, что X ~ Y.
§ 1.5. Стандартные дискретные распределения. Производящие функции 81 Однозначность также справедлива для характеристических функций: если ф%(/) = фу(0, то Г. Если X и Y принимают целые значения, то этот факт имеет отношение к единственности функции с данным разложением Фурье. Опять-таки мы не будем обсуждать это в настоящем томе. Задача 1.5.1. Пусть М— дискретная случайная величина, P(N = k) = (l -p)k~lp, k= 1,2,3,..., где 0 < р < 1. Покажите, что ЕМ = 1 /р. Решение. Справедливо равенство Е|«| = р(|-Р)‘-'Р = -РА(_1_) = 1. Другое решение: Е[7V] = р • 1 + (1 - р)(1 + Е[Лф => Е[TV] = i. □ Задача 1.5.2. а) Предположим, что случайная величина X имеет гео- метрическое распределение, Р(Х = п) = pqn, п = 0, 1, ..., где q = 1 — р, О < р < 1. Покажите, что e(fU = ->- б) Две кости подбрасывают последовательно, до тех пор пока ни на одной из них не выпадает 6. Найдите вероятность того, что при последнем броске по крайней мере на одной из костей выпадет 5. Предположим, что ваш выигрыш — это сумма Y значений, выпавших на двух костях при последнем броске, а время, которое понадобилось, чтобы получить этот выигрыш, равно числу N бросков. у Найдите средний выигрыш ЕУ и средний доход Е—, используя аппрок- .36 И симацию 1п 25 зо- Решение. а) Заметим, что N = X + 1, а вероятность успеха равна р = 25/36. Тогда N q^n q^o qo l~x qpu q P б) В силу симметрии ’ ’ Pit) 2S'
82 Глава 1. Дискретные пространства элементарных исходов где а = (по крайней мере одна пятерка при последнем броске), [3 = (по крайней мере одна пятерка и ни одной шестерки при последнем броске), у = (ни одной шестерки при последнем броске). Мы имеем Y = Kj + У2, где У,— число, выпавшее на /-й кости. Таким образом, ЕУ = 2ЕУ,, ЕУ, = |(1 + 2 + 3 + 4 + 5) = 3, ЕУ = 6. Далее, N ~ Geom(^) с параметром q = 11/36; с. в. Y и N независимы: Р(У = у, N = п) = qn~xp Р(сумма у при л-м броске | нет шестерки) = = P(Y = y)P(N = n). Таким образом, Е = Е Y Е = 6 • In (~ 5. □ /V /V 11 \25/ Задача 1.5.3. 1. Предположим, что X и Y — дискретные с. в. с конеч- ными средними и дисперсиями. Докажите следующие утверждения: а) Е(Х + У) = ЕХ + ЕУ; б) Var(X + У) = VarX + Var Y + 2 Cov(X, У); в) из того, что X и У независимы, следует, что Cov(X, У) = 0. 2. Монетка падает вверх орлом с вероятностью р > 0 и решкой с веро- ятностью q = 1 — р. Пусть Хп — количество подбрасываний, необходимых для получения п орлов. Найдите производящую функцию распределения Xj и вычислите ее среднее значение и дисперсию. Каково среднее и дисперсия для Хл? Решение. 1. а) Справедливы равенства ЕХ = Р(Х = а), ЕУ = = £ftP(y = ft), {w:X = a} = U{w:X = a, У = />}; а ь ь ЕХ + Е/ = ^аР(Х = а, Y = Ь) + ЬР(Х = a, Y = Ь) = а,Ь = 52с ^2 р(х = а’ Y = b) = J\P(X+Y = c) = E(X+Y). с а+ь=с с б) По определению Var(X) = Е((Х — ЕХ)2) = ЕХ2 — (ЕХ)2. Тогда Var(X + Y) = Е(Х + Y - (ЕХ + ЕУ))2 = Е(Х - ЕХ)2 + Е(У - ЕУ))2 + + 2 Е(Х - ЕХ)(У - Е У) = VarX + Var У + 2 Cov(X, У). в) Если случайные величины X, У независимы, то EXy = 52<:FW=:<0 = Z/52P(% = a’ r = fc) = с с ab=c = ^abP(X = a)P(Y = b) = (у^аР(Х = а)\ f'^/bP(Y = b) \ = ЕХЕУ. a,b 'a ' ' b '
§ 1.5. Стандартные дискретные распределения. Производящие функции 83 Если X, Y независимы, то таковыми же являются X - ЕХ, У - ЕУ и, таким образом Cov(X, У) = Е(Х - ЕХ)(У - ЕУ) = 0. 2. Мы имеем P(Xi = k) = pqk \ тогда cp(s) = срх, (s) = Р ч9'. Поэтому и cp'(s) = ЕХ, = ф'(1) = 1 ЕХ? = ф"(1) + ф'(1) = 1±£ и VarX, = 4?. Значит, ЕХ„ = n/p, VarX„ = nq/p2. □ Задача 1.5.4. Каждая из случайных величин U и V принимает значение ± 1. Их совместное распределение имеет вид Р(|/= 1 \U= 1) = Р(1/ = — 1 |(У = -1)=Л о 9 P(V = —1 \и= i) = P(i/= 111/== — 1) = £. а) Найдите вероятность того, что уравнение х2 + Ux + V = 0 имеет по крайней мере один действительный корень. б) Найдите среднее значение большего корня уравнения х2 + Ux + V = 0 при условии, что это уравнение имеет по крайней мере один действитель- ный корень. в) Найдите вероятность того, что уравнение х2 + (U + V)x + U + V = 0 имеет по крайней мере один действительный корень. Решение. Запишем Р((У= 1, i/= 1) = 1 P(t/ = -i, 1/=1) = 1 О О Р([/=1, V = -l) = l P(f/ = -l, 1/ = -1) = 1 о О а) Уравнение х2 + Ux + V имеет действительный корень тогда и только тогда, когда U2 — 4 V 0, что означает, что V = — 1. Ясно, что если V = — 1, то U2 — 4 V = 5. Поэтому вероятность того, что существует действительный корень, равна 1/2. б) Среднее значение большего корня равно -1 2 Р(^= 1 | V = -l)+ P(t/ = -l | V = -l) = 1 /(-1+х/5)1 (1+%/5)1\х/5 1 Р(У=-1Д 2 3 + 2 67 2 6‘
84 Глава 1. Дискретные пространства элементарных исходов в) Уравнение х2 + Wx + W имеет действительный корень, если W2 — — 4 W 0. Если W = U + V, то W принимает значения 2, 0, —2, и уравнение 2 имеет действительный корень, если W = 0 или -2. Тогда P(F = 0) = - о и Р(1Г = 0 или -2) = н- □ О Задача 1.5.5. Читатель может брать из публичной библиотеки не бо- лее т книг за один раз, и вероятность того, что он взял k книг, равна Ckm-^, Z? = 0, 1, ..., т. Когда читатель приходит в библиотеку, он возвращает (или не возвращает) каждую книгу независимо с вероятностью 1/2. При заданном количестве невозвращенных книг г читатель берет п новых книг с вероятностью (I \ п /О\ т—г—п о) (о) « = 0, 1...т-г. О / \О / Докажите, что количество книг у читателя после посещения библиотеки имеет то же самое распределение, что и до посещения. Число читателей, посещающих библиотеку в течение дня, имеет пуас- соновское распределение со средним X, и читатели ведут себя независимо друг от друга. Найдите среднее значение и дисперсию общего числа воз- вращенных и взятых книг в течение дня. Решение. 1. Количество книг, которые взял один читатель до момента визита, равно Bin(m, 1/2) и может быть представлено как А 1 0 с вероятностью - Я= 52 X/, где Х, = < | 1 с вероятностью -. Тогда количество возвращенных книг равно О с вероятностью -, Т= 52 где/?(= < f 1 с вероятностью Значит, Т ~ Bin(/n, 1/4). Количество оставшихся книг равно Q= 52 = Г; поэтому ясно, что Q ~ Т. Наконец, количество книг, взятых во время данного посещения, равно в= 52 (1 -x,(i
§ 1.5. Стандартные дискретные распределения. Производящие функции 85 и общее количество книг у читателя после визита равно S = (Х,(1 -/?,) + (!- Xi(1 - /?,))Z,). 1 где случайные величины Z\, Zm независимы и Z/ О с вероятностью т, о . I 1 с вероятностью - ' «5 независимо друг от друга. Обозначив У/ = Х,(1 -/?/) + (! - Х/( 1 - Ri))Zj, легко увидеть, что Yi п 1 О с вероятностью . 1 1 с вероятностью - также независимо друг от друга. Таким образом, S ~ Н. /1 з\т 2. Мы имеем Mr(t) = EetT = ( -е* + - j . Общее количество возвра- щений имеет производящую функцию моментов M(t), равную Х(Е<?'Г)" = ехр(Х(Ее'Г - 1)) = ехр(х((|е' + |) -1))- Таким образом, Е(общего числа возвращенных книг) = J^Af(/)| = XЕТ = Уаг(общего числа возвращенных книг) = - (X ЕТ)2 = = X ЕТ2 + Х2(ЕТ)2 - (X ЕТ)2 = X ЕТ2 = . d2 / 1 t , 3 \m I \^п х \ rn(rn - 1) , т- = Х—у 7е +7 +Х——:=Х— 1 + —т- d/2\4 4/ 1/=о 4 16 4\ 4 16 3. Для общего числа взятых книг ответ такой же. □ Задача 1.5.6. В последовательности испытаний Бернулли X означает число испытаний до (включительно) а-го успеха. Покажите, что Р(Х = г) = Car~\paqr~a, г = а, а 4- 1, ... Проверьте, что производящая функция этого распределения равна pasa(l - qs)~a. Покажите, что ЕХ = а/р и VarX — aq/p1. Покажите, как случайная величина X может быть представлена в виде суммы а независи- мых одинаково распределенных случайных величин. Используйте это пред- ставление для нахождения среднего и дисперсии случайной величины X.
86 Глава 1. Дискретные пространства элементарных исходов Решение. Мы имеем Р(Х = г) = Р({а — 1 успех при г — 1 испытаниях} А А {успех при r-м испытании}) = C^S11pa“1^r“l“a+1p = = CarZliPa(f~a' r>a. Производящая функция этого распределения равна <p(s) = pasa £ Са~' (qsY~a = pasa £ Сак-’_((qs)k. r^a k^O Заметим, что Cak~]a_{ совпадает с числом способов, которыми можно пред- ставить k в виде суммы а неотрицательных целых чисел: k = k\ 4-... 4- ka. Этот факт может быть подан геометрически следующим образом. Возь- мем k «звездочек» и разделим их а — 1 «черточками», как на диаграмме, приведенной ниже: | * ... *|*|*|||*... * | * . Число звездочек между (/- 1)-й и /-й черточками равно k\ равно числу звездочек до первой черточки, и ka — число звездочек после (а - 1)-й черточки. Но число различных диаграмм равно Используя разложение (!»“=£ Е IK k k\...ka\ j k\+...+ka—k мы получим J2 Ck+a-i^S)11 = = - ^~a k^O \*^0 J и cp(s) = pasa(l - qs)~a. Далее, EX = (pasa(\-qs)-aY\s=i = -p; E(X(X - 1)) = (pas°( 1 - <7s)-a)"|s=I = a(a - 1) + + ^ + 1Ш~Р)2 Таким образом, VarX = EX(X - 1) + EX - (EX)2 = cp"( 1) + <p'( 1) - (<p'( 1 ))2 = _ a(a - l)p2 + 2a2p(l - p) + a(a + 1)(1 - p)2 , 2 _ 2?. — 21 ~ P2 P P2~ P2'
§ 1.5. Стандартные дискретные распределения. Производящие функции 87 Так как cp(s) = где ф($) = ps(\ - qs) \ мы приходим к заклю- а чению, что X может быть представлено суммой где Y\, Ya — /=1 н. о. р. с. в. с производящей функцией ф($). Действительно, Yj равно чис- лу испытаний между /-м и (/4- 1)-м успехами, включая испытание при (/ + 1)-м успехе. Таким образом, ЕХ = аЕУу, VarX = a УагУ). Так как Yj ~ Geom(p), мы получаем ЕУ, = \/р и Уаг(У7) = q/p2. □ Задача 1.5.7. В моем супе случайное число N инородных частиц со средним pi и конечной дисперсией. С вероятностью р выбранная частица является мухой, иначе это паук; типы разных частиц независимы. Пусть F — количество мух и S — количество пауков. а) Покажите, что производящая функция распределения случайной ве- личины F равна cpf(s) = срд< (ps 4- 1 — р). б) Предположим, что случайная величина N имеет пуассоновское рас- пределение с параметром pi. Покажите, что F имеет пуассоновское рас- пределение с параметром ppi, а случайные величины F и S независимы. в) Пусть р= 1/2, и предположим, что F и S независимы. Покажите, что /1 \2 cpA/(s) = срл/( 2^ +s)) • Используя уравнение на функцию //($) = <рд/(1 — s) (или другим путем), убедитесь, что случайная величина N имеет пуассо- новское распределение. Указание. Можно предположить, что (1 + х/п 4- о(п~[))п 6х при п оо. См. также доказательство уравнения (2.3.5). Решение, а) По определению cpf(s)=Esf= ^2 5rtPf(n), Рг(и) = Р(/?=и), и аналогично для (p/v(s). Тогда cPf(s) = 52s'' 52 Ры(т)Сптрп(\-р)т~п = п т^п т = ^PN(m)^CUsp)nU-p)m-n = т п=0 = 52^("О(р$ + (1 -p))m=tpN(ps + (\ -р)), т или, короче, Esf = E[E(sf | /V)J = 52 Р»(т) E(sF | N = m) = m =52/M"O(ps + (i - p»m=<p/v(ps+(i -p)). m
88 Глава 1. Дискретные пространства элементарных исходов б) Если W ~ Ро(ц), то <p/v(s) = ”. Тогда <pf(s) = ^(ps+i-P-D = eW’fs-i), т. е. /?~Po((ip). Аналогично <p5(s)=eli(|_/’)(s_|), т. е. Л~Po([i( 1 — р)). Кроме того, <p/v(s) = <pf(s)cp$(s). Далее, P(F = k, S = I) = P(F = k | N = k + I) P(N = k + I) = = cU-»o = (l' -">f= р(*=*)р<г=о. т. e. случайные величины F и S независимы. Другой путь доказательства того, что F ~ Ръ(р\£}, заключается в том, чтобы прямо записать представление для Р(Л = k)\ L Р(F = * I <V = n) Р(« = „) = ।-Р)-‘= n^k n>k = (ppt)^”^ -p))n~k = (ру.)*е~™ ~ k\ 2^ (п — k)l “ k\ n-k^O в) Благодаря независимости, симметрии и функциональному уравнению cpr(s) = cp/v(p^ + (1 - р)) получим / 1 1 \ 2 <?n(s) = cpf(s)(ps(s) = Cpyv(jS + 1 - 2) • Тогда функция H(s) = ср^(1 — s) удовлетворяет равенствам h(s) = hQ)2 = ... = h(^)2". Таким образом, если z мало, разложение Тейлора дает H(z) = cp/v(l — z) = <рл/(1) - q'N(\)z + о(£) = 1 -[1Z + O(z2). Поэтому при п оо мы получаем ^)=(l-g + o(^))Z-e-^. □ Задача 1.5.8. а) Что такое пуассоновское распределение? б) Предположим, что X и Y — независимые пуассоновские с. в. с па- раметрами X и pt соответственно. Покажите, что X -I- Y есть пуассоновская с. в. с параметром X + pt. Являются ли X и X + Y независимыми? Какова условная вероятность Р(Х = г|Х + У = и)? Решение, а) Пуассоновское распределение приписывает вероятности
§ 1.5. Стандартные дискретные распределения. Производящие функции 89 неотрицательным целым числам г = 0, 1, ... Здесь X > 0 — параметр рас- пределения. б) Производящая функция пуассоновского распределения равна = Es* = e~Xsf7F = r=0 Благодаря независимости cpx+r(s) = cpx(s)cpr(s) = е'Ь+нм*-!), и по теореме единственности X + Y~ Ро(Х + pi). Аналогичный вывод следует из прямых вычислений: P(X+Y = r)= £ P(X = i, Y = j)= £ Р(Х = 0Р(Г = /) = Л/: i+/=r /./: /+/=/’ = е Л е >ц ----------------- У- r'V../ = £--------(Х + нЛ /! /! Тем не менее, случайные величины X и X + Y зависимы, так как Р(Х + У = 2 |Х = 4) = 0. Действительно, V/* = О, 1, ..., п выполняется равенство Р(Х = г|Х+ У = л) = Р(Х = г, Y = п - г) _ Р(Х = г) Р(У = п - г) Р(Х+У = л) ” Р(Х+У = л) е~хХге~*У~гл! _ „г / X V/ pi \”~г е-(Х+ц)(Х + pi)nr! (п - г)! n\X + pi/ \X + pi/ т.е. (X|X+T = n)~Bin(«, □ Задача 1.5.9. а) Пусть X — целочисленная положительная с. в. Обо- значим через (р% ее производящую функцию. Покажите, что если V\ и V?— независимые положительные целочисленные с. в., то (ру,+У2 =<ру1фу2. б) Нестандартная пара костей — это пара шестигранных симметричных костей, грани которых перенумерованы положительными целыми числами в произвольном порядке (например, (2, 2, 2, 3, 5, 7) и (1,1,5, 6, 7, 8)). Покажите, что существует такая нестандартная пара костей А и В, что при их подбрасывании Р (общая сумма на костях А и В равна п) = = Р(общая сумма на обыкновенных костях равна п) для всех л, 2 п 12.
90 Глава 1. Дискретные пространства элементарных исходов Указание. Воспользуйтесь равенством х + х2 + ? + х4 +х5 + хб = = х(х + 1)(1 4- х2 4- х4) = х(1 4- х 4- х2)(1 4- х3). Решение, а) Используем производящие функции: для с. в. V с конеч- ным или счетным числом значений v имеем <ру(х) = Exv = ^xv P(V = v). s Производящая функция однозначно определяет распределение: если (р(Дх) = <р^(х), то U ~ V в том смысле, что P(U = v) = P(V = v). Если V = Vi 4- V2, где случайные величины V; и V2 независимы, то <pv(x) = <ру,(х)сри2(х). б) Пусть S2 — общая сумма, выпавшая при подбрасывании пары стан- дартных костей, тогда . / 6 \2 <р52(х) = <р5(*) = зб(52**) =36Х(1 +*)(! + *2 + х4)х(1 4-х4-х2)(1 4-Х3), 4=1 ' где S — число, которое выпало при подбрасывании одной кости. Если мы возьмем такие кости А и В, что производящая функция чис- ла 7д, выпавшего на кости Л, равна срд(х) = ^х(1 4- х2 4- х4)( 1 4- х3) = ^(х 4- х3 4- х4 4- х5 4- х6 4- х8) и производящая функция числа 7в, выпавшего на кости В, равна Фв(х) = zx(l 4- х 4- х2)( 1 4- х) = |(х 4- 2х2 4- 2х3 4- х4), ’ о о то производящая функция суммы 7д+в равна производящей функции сум- мы S2. Таким образом, нужными костями будут кость А с гранями 1, 3, 4, 5, 6 и 8 и кость В с гранями 1, 2, 2, 3, 3 и 4. □ Задача 1.5.10. а) Вероятность выпадения орла при подбрасывании несимметричной монетки равна р, 0 < р < 1. Покажите, что производящая функция числа орлов при п подбрасываниях равна G(s) = (ps 4-1 - р)п. б) Предположим, что монетку подбросили /V раз, где N — случайная величина со средним и дисперсией а^, и пусть Y — число выпавших орлов. Покажите, что производящая функция Gy(s) с. в. Y равна Gy(s) = G/v(ps 4- 1 -р), где Gyv(s) — производящая функция случайной величины N. Таким спосо- бом (или иначе) найдите ЕУ и VarX. e~xXk Предположим, что P(/V = k) = ———,Z? = 0, 1,2,... Покажите, что слу- чайная величина Y имеет пуассоновское распределение с параметром Хр.
§ 1.5. Стандартные дискретные распределения. Производящие функции 91 Решение, а) Обозначим через X число орлов после п подбрасываний. Тогда X ~ Bin(n, р): P(X = k) = Ckpk(i -р)п~к, k = 0,1......п, И п Gx(s) = Esx = У2 Ck(sp)k(\ - р)п~к = (ps+\- р)п. k=Q б) Далее, Gr(s) = Esr = E[E(sr | /V)] = E(ps + 1 - p)N = GN(ps + 1 - p), где Gn(s) = Е$\ Тогда Gy(s) = pGfN(ps 4- 1 - p), поэтому G'r(l) =pG^(l), т.е. ЕУ = рр1д/. Далее, Gy(s) = p2G'^(ps + I - p), И VarX = p2G„(l) + pG'N(\) - p2y.2N = p2a2N + p.Np( 1 - p). Таким образом, если N ~ Po(X) и Gn(s) = = exp(X(s - 1)), k=Q TO Gy(s) = exp(X(ps + 1 - p - 1)) = exp(Xp(s - 1)) иУ-Ро(Хр). □ Задача 1.5.11. а) Покажите, что если X и Y — независимые пуассо- новские с. в. с параметрами X и (л, то X 4- Y — пуассоновская случайная величина с параметром X 4- (л. б) Я получил от издателей верстку моего трактата о биномиальной тео- реме, который, на мой взгляд, будет иметь европейскую известность. К сво- ему ужасу, я обнаружил, что количество опечаток, сделанное издателями на каждой странице, имеет пуассоновское распределение с параметром X. При вычитывании книги я обнаруживаю каждую опечатку независимо от другой с вероятностью р. Покажите, что если я вычитаю книгу один раз, то количество оставшихся ошибок на каждой странице будет иметь пуас- соновское распределение, и найдите параметр этого распределения. В моей книге 256 страниц, количество опечаток на каждой странице не зависит от других страниц, среднее число опечаток на странице равно 2 и р = 3/4. Сколько раз мне следует вычитать книжку, чтобы вероятность того, что в книге не будет опечаток, была больше 1/2?
92 Глава 1. Дискретные пространства элементарных исходов Решение, б) Мы можем использовать производящие функции k^Q и, аналогично, сру(/) = еи(/“1), где (р%+у(/) = <рх(/)<рг(/) = благо- даря независимости. Тогда в силу единственности X + Y ~ Ро(Х + pi). Другой путь заключается в прямых вычислениях: по формуле свертки p(x + r = r) = £p(x = t)P(r = ,-t) = £^C^ = k=Q k=Q = е~Х~И v f! ?*./-* = е~Х~И<Х + Н)' r\ Lk\(r-k)\ r r\ k=0 Если X — число первоначальных и Z — число оставшихся опечаток, то Z ~ Ро(рХ). Действительно, производящую функцию распределения Pz(t) = E/z можно представить в виде Е[E(/z | X)], и она равна k^O r=0 = + 1 - P)k = ex<-|+'P-₽+l> = k^O Отсюда Z ~ Po(pX). Снова вычисляем непосредственно: P(Z = r) = £p(Z = r|/ = ^)P(/ = ^) = £^-^-/(i-P)fc-r = k^r k>r = e~p\p\Y e-(,"p)X(X(l -p))k-r = e-p\pX)r r\ (k- г)! “ r! k-r^Q Наконец, после n прочтений получаем Z, ~ Po(pnX), 1 / 256, p = 3/4 256 ✓ / 3 \n \ и X = 2. Тогда с. в. R = £ распределена как R ~ Ро^256 • 2 • j j и P(R = 0) = e-512 <W 1. (3\п /3\п - ) In 2, т. е. ( 1п2 -28-, или . 81п2-1п1п2 ПЛ г-ллоп х nt Г-t п —1 /л 20,54939 т. е. и > 21. □
§ 1.5. Стандартные дискретные распределения. Производящие функции 93 Задача 1.5.12. а) Дайте определение производящей функции распре- деления случайной величины. Найдите производящую функцию биноми- альной случайной величины с параметрами п и р и используйте ее для вычисления среднего и дисперсии этой случайной величины. б) Пусть X — биномиальная случайная величина с параметрами пир, Y — биномиальная случайная величина с параметрами тир, причем X и Y независимы. Найдите распределение случайной величины X + Y, т. е. определите вероятности Р(Х + Y = k) для всех возможных значений k. Решение, а) Для X ~ Bin(n, р) производящая функция распределения имеет вид п G(z) = £Сх„рх(\ -py-'z* = {pz+\- р)п, х—0 где EX = G'( 1) = пр, VarX = G"(l) + пр - (пр)2 = пр(\ - р). б) Производящая функция распределения имеет вид = E[z*] х х E[zr] = (pz + 1 - p)m(pz + 1 - p)n = (pz + 1 - p)m+n. Поэтому X + У ~ ~ Bin(/n + n, p). □ Задача 1.5.13. а) Определите биномиальное и пуассоновское распре- деления и соотношение между ними. б) За один розыгрыш лотереи продается в среднем 107 билетов. Чтобы выиграть первый приз, нужно угадать 7 номеров из 50. Предположим, что отдельные ставки независимы и случайны (это весьма нереалистичное предположение). Для заданного п 0 запишите пуассоновскую аппрок- симацию вероятности того, что в данном розыгрыше будет по меньшей мере п выигравших первый приз. Дайте приблизительную оценку этой вероятности для п = 5; 10. (Формулу Стирлинга можно использовать без доказательства.) Решение, а) Равенство означает, что если Хп ~ Bin (п, - j, то ХЛ —► У ~ Ро(Х) при п —► оо. Этот факт используется для аппроксимации различных биномиальных вероятностей. б) В данном примере 1П7 1 1 10? л =10', р = ^г, Ь50 Ь50 Далее, С£о«1О8, Х«0,1, е-х«0,9.
94 Глава 1. Дискретные пространства элементарных исходов Поэтому из равенства Р = Р(число выигравших > п) = е“х « е“х — k=n следует, что если п = 5, то Р « 0,9 • « 7,5 • 10-8, 1 п— ю если п = 10, то Р « 0,9 • « 3 • 10-17. □ о • 1 и° Дж. Стирлинг (1692—1770) был шотландским математиком и инженером. Помимо мно- гочисленных математических достижений (формула Стирлинга — одно из них), он известен своим интересом к таким прикладным задачам, как форма Земли. В решении этих задач он достиг успехов и высоко ценился современниками. Его жизнь была нелегкой, поскольку он был активным якобитом, сторонником Джеймса, претендента на английский престол. Ему пришлось бежать за границу и провести несколько лет в Венеции, где он продолжал свою академическую работу. Задача 1.5.14. а) Пусть Sn = Х\ + ... + Хп, So = 0 и ..., Хп — н. о. р. с. в., ( 1 с вероятностью р, 1 [ -1 с вероятностью р, р > q. Пусть т* = min [и: Sn = &], b > 0, и Т] = т. Докажите, что <р(Х) = Е [е-Хх] = ^(ех - y/e^-^pq) И ЕТб=/?2р^Т’ Var(^) = &(2p^1)3. б) Пусть р <q. Докажите, что Р(т<оо) = Е[е-Хх/х<0О] = - \/е2Х -4р<?) И Е [т/х<0О ] = (1 _р)^_2р)- в) Вычислите Уаг(т/Т<оо). i Решение, а) Запишем т, = 7/> где Л* ~^1 и 7) независимы. Тогда /=1 Ет* = b Ет, Уаг(т^) = b Уаг(т).
§ 1.5. Стандартные дискретные распределения. Производящие функции 95 Далее, пусть х = ср(Х). Тогда х = ре“х 4- q Е[е“Х(1+т где т' и т" независимы и распределены так же, как т. Поэтому х = ре~^ + 4- qe~^x\ или х = —(ех ± \/е2Х - 4pq). Знак 4- нужно отбросить, так как х —► 0 при К —► оо. Более того, 1 / > £^х \ откуда следует, что В качестве альтернативного способа решения можно получить уравнение х = р 4- q(l 4- 2х), из которого следует тот же результат. Используя формулу Уаг(т) = ср" (0) — (ср'(О))2, получим Var(T) = 2(П37) (* - (2^й) + 2(2р- 1)3) “ (2р - 1)2 = __ 8р3 - 20р2 4 14р - 2 4 4р2 - 6р 4 2 _ 4pq 2(1 -р)(2р- 1)3 “ (2р- 1)3’ Рассуждая иным способом, получим для у = Уаг(т) = Е(т - Ет)2 следующее уравнение: У = р(1 - Ет)2 + (1 - р) Е(1 + т2 - Ет)2, где Т2 = т' 4- т", т' и т" независимы и распределены так же, как и т. Отсюда следует, что у = р(\ - Ет)2 4- (1 -р)Е[1 + Ет + (т2 -2Ет)]2 = = /?(! - Ет)2 + (1 — p)[Var(T2) + (1 + Ет)2], поскольку Е(т2 — 2 Ет) = 0. Наконец, заметим, что Уаг(тг) = 2 Уаг(т), и по- лучим б) Вероятность Р(т < оо) является наименьшим решением уравнения я = р 4- ^к2. Уравнение для Е [е”Хт/т<оо] имеет тот же вид х = ре~х 4- qe^x2,
96 Глава 1. Дискретные пространства элементарных исходов откуда следует, что Е[т/Т<00] = -[2(, _р)(1 - = (1 _Р)П -2р)' в) Дифференцируя дважды Е[е-Хт/Т<оо] по X, получим Var(T/x<0O) = 2(1_ J,_2p)3[(l - 2р)3 - 2(1 - 2р)2 + 1] - _ f р V = Р(' -4р2 + 4р3) \(1-р)(1 -2p)J (1 -р)2(1 -2р)3- § 1.6. Неравенства Чебышева и Маркова. Неравенство Йенсена. Закон больших чисел и теорема Муавра—Лапласа Вероятностники это делают с помощью больших чисел. (Из серии «Как они делают это».) Неравенство Чебышева — возможно, самый знаменитый результат из всей теории вероятностей и, наверное, самое выдающееся достижение великого русского математика П. Л. Чебышева (1821 —1894). Согласно этому неравенству для любой случайной величины X с конечными матема- тическим ожиданием и дисперсией и для любого е > 0 мы имеем Р(|Х - ЕХ| > е) 1 VarX. (1.6.1) Неравенство Чебышёва допускает ряд обобщений. Одно из них — нера- венство Маркова, названное по имени автора — ученика Чебышёва А. А. Маркова (1856—1922), другого выдающегося русского математика начала XX столетия. Неравенство Маркова утверждает, что для любой неотрицательной случайной величины Y с конечным математическим ожиданием и любого е > 0 мы имеем Р(У>е)^ЕУ. (1.6.2) Неравенство Чебышёва можно получить из неравенства Маркова, полагая Y = |Х - ЕХ|2 и учитывая, что события {|Х - ЕХ| е} и {|Х - ЕХ|2 е2} тождественные. Имена Чебышёва и Маркова ассоциируются с подъемом русской (точнее, Санкт-Пе- тербургской) школы теории вероятностей. Они оба были неординарными людьми. Чебышев интересовался широким кругом проблем современной ему науки, а также политикой, эконо- микой и социальными вопросами. Кроме того, он изучал баллистику, помогая своему брату, также незаурядному человеку, генералу от артиллерии, служившему в русской царской армии.
§ 1.6. Неравенства Чебышева, Маркова и Йенсена. Закон больших чисел 97 Марков был известным либералом, оппозиционером к царскому режиму: в 1913 г., когда Россия праздновала 300-ю годовщину царствования семьи Романовых, он совместно со своими коллегами организовал празднование 200-й годовщины закона больших чисел, и это было весьма вызывающе. Докажем теперь неравенство Маркова. Это несложно: если значениям %1, • • • соответствуют вероятности Р2> ...» то = XjPj^z 52 Р/ = еР(Х>е)- (1.6.3) j j-x&t j-x^t Это можно записать короче, используя индикаторы: ЕХ Е(Х/х>£) е Е/х>е = е Р(Х > е). (1.6.4) Здесь мы рассуждаем таким образом: сперва заметим, что имеет место неравенство X так как X 0 (и, конечно, 1 /%^с). Значит, EX E(X/j^c). Аналогично из неравенства е/х->с следует, что Е(Х/%>С) Ее/х^с. Последнее выражение равно е Е/%^с, что, в свою оче- редь, равно е Р(Х е). Заметим, что число е > 0 в неравенствах Чебышёва и Маркова не обязательно должно быть большим или малым, неравенство верно для любого положительного числа. Пусть теперь g: R—— монотонно неубывающая функция, X — дей- ствительная случайная величина, причем Eg(X) конечно. Тогда для любого такого х 6 R, что g(x) > 0, мы имеем р(Х>х)<-^Е£(Х); (1.6.5) б V*/ часто рассматривается случай, когда g(x) = еа\ а > 0: Р(^)ф^ (это неравенство Чернова). Область применения этих неравенств очень обширна и не ограничи- вается теорией вероятностей. Мы обсудим одно из применений, а именно закон больших чисел (ЗБЧ). Другим примером выдающегося неравенства, используемого во мно- гих областях математики, является неравенство Йенсена. Оно названо в честь Дж. Л. Йенсена (1859—1925), датского математика, который пер- вым применил это неравенство в статье, опубликованной в 1906 г. На самом деле это неравенство было получено в 1889 г. немецким математиком О. Гёльдером, но по некоторым причинам не было названо его именем (возможно, потому что уже существовало неравенство Гёльдера, чрез- вычайно важное в математическом анализе и теории дифференциальных 4—1104
98 Глава 1. Дискретные пространства элементарных исходов уравнений). Пусть X — случайная величина со значениями в интервале, полуинтервале или отрезке / С R (возможно, неограниченном, т. е. совпа- дающем со всей осью или с какой-либо полуосью). Пусть математическое ожидание ЕХ конечно, a g: J —— выпуклая вниз (вверх) действительная функция с конечным математическим ожиданием Eg(X). В неравенстве Йенсена утверждается, что Eg(X) g(EX) (соответственно Eg(X) g(EX)). (1.6.6) При этом функция g, заданная на /, называется выпуклой вниз (вверх), если для любых точек Х|, ..., хп 6 (а, Ь) и вероятностей р\, ..., рп (р\, ... ... , рп 0 и р\ + ... + Рп = 1) выполняется неравенство ё\У2Р1х1) ^^PiS(Xj) (соответственно ' i ' / 4 / i (1.6.7) (см. рис. 1.6). При наличии этого определения неравенство Йенсена для случайной величины с конечным числом значений тривиально, поскольку неравен- ство (1.6.6) тогда не более чем краткая форма неравенства (1.6.7). Если X принимает бесконечное число значений, то для доказательства нера- венства Йенсена нужны дополнительные аргументы, которые здесь не приводятся (например, нужно использовать тот факт, что выпуклая вниз (вверх) функция g непрерывна на том интервале (полуинтервале, отрез- ке) /, где она определена; она может не быть дифференцируемой, но не более чем в счетном числе точек х Е /, и в каждой точке хе/, где она дважды дифференцируема, g"(x) 0 (^ 0)). Если использовать более слабое определение выпуклости (вогнутости): + 5х2) + х2 €/,
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 99 то еще нужно проверить, что отсюда следует неравенство (1.6.6); это упражнение для студентов 1 курса, изучающих математический анализ (см. задачу 1.6.10). Неравенство Йенсена можно усилить, охарактеризовав те случаи, когда имеет место равенство. Назовем выпуклую вниз (вверх) функцию g строго выпуклой вниз (вверх), если равенство в формуле (1.6.7) достигается тогда и только тогда, когда либо х\ =... = хп, либо все вероятности р;, кроме одной, равны нулю (а эта оставшаяся равна 1). Для такой функции g равенство в формуле (1.6.6) достигается тогда и только тогда, когда X — постоянная случайная величина. Немедленным следствием неравенства Йенсена при g(x) = xs, хе е [0, оо), является то, что для любого $ 1 выполняется неравенство (EX)S EXS для любой случайной величины X 0 с конечным математиче- ским ожиданием EXS. Для $ < 1 в неравенстве меняется знак: (EX)S EXS. Другим следствием при g(x) = Inx, хе (0, оо), является неравенство ^xjPj A™ любых положительных х\,...,хп и вероятностей i i pi, ..., рп. При р\ = ... = рп, получаем знаменитое неравенство между средним арифметическим и средним геометрическим i(xi + ... + x„)>(xi ...хп)'/п. (1.6.8) Обратимся теперь к закону больших чисел (ЗБЧ). Его слабая форма звучит и доказывается очень просто. Пусть ..., Хп — н. о. р. с. в. с ко- нечным средним значением EX; = pt и дисперсией VarX = о2. Положим 5л=Х,+... + Хл. (1.6.9) Тогда для любого е > 0 мы имеем p(|±S. ~ И е) 0 при (1.6.10) Иными словами, усредненная сумма Sn/n н. о. р. с. в. Х\, ..., Хп со средним EX; = pt и VarX; = а2 сходится по вероятности к pt. При доказательстве используется неравенство Чебышёва /=1 -LЛ Varfy'хД = -^-2 У' VarX,- = -г-хпа2 = е2 л2 \ ) е2л2 е2л2 ие2 \=1 ' /=1 а это выражение стремится к нулю при п —► оо. 4*
100 Глава 1. Дискретные пространства элементарных исходов Нелишне отметить, что доказательство проходит, если просто предпо- ложить, что Var(£ = °(л2)- Для н. о. р. с. в. {1 с вероятностью р, 0 с вероятностью 1 — р (орлы и решки, возникающие в результате бросания несимметричной моне- ты) ЕХ/ = р и ЗБЧ говорит, что после большого числа испытаний доля ор- лов будет близка к р, т. е. к вероятности выпадения орла при одном броса- нии. В таком контексте ЗБЧ был известен математикам XVII и XVIII сто- летий, например Якобу Бернулли (1654—1705). Он был одним из предста- вителей выдающейся династии Бернулли фламандского происхождения, давшей миру математиков и естествоиспытателей. Несколько поколений этой династии проживало в Пруссии, России, Швейцарии и других стра- нах. Они во многом определили развитие науки на европейском континенте. На самом деле предположение о том, что дисперсия а2 конечна, не является необходимым для ЗБЧ. В связи с ЗБЧ возникает несколько видов сходимости; некоторые из них будут обсуждаться в последующих параграфах. Сейчас мы упомянем только усиленную форму ЗБЧ: для н. о. р. с. в. Хь Х2, ... с конечным средним pt выполняется равенство р( lim — = u) = 1. \л—*оо п Следующий шаг в изучении сумм вида (1.6.9) — центральная пре- дельная теорема (ЦПТ). Рассмотрим н. о. р. с. в. Хь Хг, ... с конечным средним ЕХ; = а, дисперсией VarX; = о2 и конечным моментом высшего порядка Е|Х; — ЕХ;|2+5 = р для некоторого фиксированного 8 > 0. ЦПТ в интегральной форме утверждает, что имеет место следующая сходи- мость: Vx е R lim Р f <х \ = -у= \ e~y2/2dy. (1.6.11) Отображение Ф:хеКь- -4= e~^2dy (1.6.12) v2k-oo- определяет так называемую стандартную нормальную, или N(0, 1), куму- лятивную функцию распределения Ф(х), объект первостепенной важно- сти в теории вероятностей и статистике. Ее называют также гауссовской функцией распределения, по имени К.-Ф. Гаусса (1777—1855), великого немецкого математика, астронома и физика, существенно повлиявшего на
§ 1.6. Неравенства Чебышева, Маркова и Йенсена. Закон больших чисел 101 ряд областей математики. Он получил это распределение, изучая теорию ошибок астрономических наблюдений. Гауссовское распределение гораз- до лучше описывает ошибки наблюдений, чем двойное экспоненциальное распределение, ранее использовавшееся Лапласом. Значения Ф(х) (или Ф(х) = 1 - Ф(х)) вычислены с большой степенью точности для значений х с очень узким интервалом между ними. Они содер- жатся в вероятностных и статистических таблицах в любом справочнике. X Значения 1 — Ф(х) +0,00 +0,05 0,0 0,5000 0,4801 0,1 0,4602 0,4404 0,2 0,4207 0,4013 0,3 0,3821 0,3632 0,4 0,3446 0,3264 0,5 0,3085 0,2912 0,6 0,2743 0,2578 0,7 0,2420 0,2266 0,8 0,2119 0,1977 0,9 0,1841 0,1711 1,0 0,1587 0,1469 1,1 0,1357 0,1251 1,2 0,1151 0,1056 1,3 0,0968 0,0885 1,4 0,0808 0,0735 X Значения 1 — Ф(х) +0,00 +0,05 1,5 0,0668 0,0606 1,6 0,0548 0,0495 1,7 0,0446 0,0401 1,8 0,0359 0,0322 1,9 0,0288 0,0256 2,0 0,0228 0,0202 2,1 0,0179 0,0158 2,2 0,0129 0,0122 2,3 0,0107 0,0094 2,4 0,0082 0,0071 2,5 0,0062 0,0054 2,6 0,0047 0,0040 2,7 0,0035 0,0030 2,8 0,0026 0,0022 2,9 0,0019 0,0016 Данная таблица содержит значения 1 - Ф(х) для 0 х < 3 с шагом 0,05. На данном этапе полезно отметить четыре факта. 1. Справедливы равенства lim Ф(х) = 0, lim Ф(х) = -7= e~y1^dy = 1 х-*-оо х—*оо у2л (это свойства всех функций распределения). 2. Справедливо равенство Ф(х) = 1 - Ф(—х) Vx е R, откуда следует, что 1 0 1 Ф(0) = -^= § e"y2/2di/ = 2 v2k j 2 (это означает, что медиана стандартного гауссовского распределения рав- на 0). Это свойство следует из свойства 1 и того факта, что подынтеграль- ное выражение е~у2^2— четная функция.
102 Глава 1. Дискретные пространства элементарных исходов 3. Справедливо равенство 1 00 -= 5 z/e“^/2d// = 0 v2k j v —оо (это означает, что среднее значение стандартного гауссовского распреде- ления равно нулю). Это свойство следует из того, что уе~у /2— нечетная функция. 4. Справедливо равенство —^= \ у2е~у2/2 dy = 1 (это означает, что дисперсия стандартного гауссовского распределения равна 1). Это свойство можно получить интегрированием по частям; все понятия и факты, упомянутые, но не объясненные ранее, будут проком- ментированы далее. Доказательство утверждения 1, состоящего в том, что Ф(оо) = 1, т. е. е~*2/2 dx = х/2я, R достаточно элегантно. Если § е”*2/2 dx — G, то R G2 = § е”*2/2 dx е~^!2 dy = $ е-(*2+/)/2 R R R2 что в полярных координатах равно § re~^/2 § dB dr = 2л § re~^^2 dr = 2n^ е~и du = 2л. ООО о Таким образом, G = \/2л. Более того, свойство 4 можно получить так: 5 y2e~y2l2 dy = {-уе~у2/2)\^ 4- § е~у2/2 dy = х/2л. R R Имеет место также ЦПТ в локальной форме, и эта теорема содержит подробный анализ вероятностей р(——= хл) = P(Srt = па + хпОу/п) X Оу/п / для определенных значений хп 6 R. Цель такого анализа — получить 1 ( 1 2\ асимптотику этих вероятностей в виде —- ехр ( — -х„ ), т. е. выразить х/2лла \ 2 / искомые вероятности только через среднее значение а и дисперсию а2.
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 103 Современный метод доказательства ЦПТ основан на том факте, что сходимость в формуле (1.6.11) эквивалентна сходимости характеристиче- ских функций ф(5„-па)/(оУ^)(^ к характеристической функции гауссовского распределения. Мы обсудим этот метод позднее. В оставшейся части данного параграфа сосредоточимся на ЦПТ для упомянутого ранее примера с бросанием монеты, где Г 1 с вероятностью р, z (Ос вероятностью 1 - р. ЦПТ в рамках этого примера была получена еще в XVIII столетии, и ее часто называют теоремой Муавра—Лапласа (тМЛ) в честь двух француз- ских математиков. Один из них, А. де Муавр (1667—1754), бежал в Англию после отмены Нантского эдикта и сделал блестящую исследовательскую и преподавательскую карьеру. Другой, П.-С. Лаплас (1749—1827), внес выдающийся вклад во многие области математики. Он служил также (недолго и не слишком успешно) министром внутренних дел при Наполеоне (Лаплас экзаме- новал юного Наполеона по математике во французском королевском артиллерийском корпусе и дал перспективному офицеру наивысшую оценку). Несмотря на принадлежность к напо- леоновскому окружению, Лаплас первым голосовал во французском сенате за отстранение Наполеона от власти в 1814 г. После реставрации Бурбонов его титул возвысился от графа до маркиза. Первоначальный вариант теоремы был сформулирован в 1733 г. де Муавром. Он был первооткрывателем нормального распределения (оно было названо именем Гаусса сто лет спустя). Говоря неформальным языком, теорема Муавра—Лапласа утверждает, что для последовательности таких н. о. р. с. в. Х\, %2, • • • > что Р(ХУ- = 1) = р, Р(ХУ = 0) = 1 — р и EXj = р, VarXy = р(1 — р), случайная величина приближенно имеет стандартное N(0, 1 ^распределение. На у/пр(\ -р) уровне формального изложения вновь нужно различать локальную и ин- тегральную теоремы Муавра—Лапласа. Для заданного положительного целого числа т п запишем P(S = т) = Р( $"~пр = zn(m)\, где zn(m) = ^~ПР \у/пр(\ -р) ) yjnp(\ -р) Как было сказано ранее, локальная теорема Муавра—Лапласа утвержда- ет, что если и, т -* оо, то P(Sn = m) / ( /о ...... exp(-U(/n)2)) -» 1, (1.6.13) / \у/2кпр(\ - р) \ // если только т — пр = о(п2^3). Говоря точнее, формула имеет место равно- мерно по и, т, для которых выражение (т - ир)и“2/3 содержится в огра-
104 Глава 1. Дискретные пространства элементарных исходов ниченном интервале и стремится к нулю. Напомним, что P(Sn =m) — это вероятность того, что событие, вероятность которого равна р, появится т раз в п независимых испытаний. Как и ранее, интегральная форма теоремы Муавра—Лапласа касается функции распределения и утверждает, что Ух € 1R Пт Р ( .5л ~ пр < х') = \ е"^/2 dy, (1.6.14) «-оо kynp(l-p) / или, что эквивалентно, Уа, b, -оо а < Ь оо, выполняется равенство lim Pfa< <b\ = -}=\e-x2/2dx. (1.6.15) л^оо \ у/пр(\-р) / V2л Хотя интегральная форма теоремы Муавра—Лапласа выглядит бо- лее простой, ее доказательство длиннее доказательства локальной формы (и использует последнюю как свою часть). Ни одна из этих теорем не доказывается формально в кембриджском курсе «Вероятность 1А», хотя они широко используются в последующих курсах (в частности, в курсе второго года «Статистика» и в следующем за ним курсе третьего года «Принципы статистики», а также в ряде магистерских курсов статисти- ки). Доказательство, приведенное ниже, дано для полноты картины. Оно не используется в задачах из этого тома, но проливает свет на то, как нормальное распределение появляется в виде асимптотического распре- деления нормированных должным образом сумм независимых случайных величин. Локальный вариант теоремы Муавра—Лапласа можно доказать пря- мыми рассуждениями. Основной шаг опирается на тот факт, что для любой такой последовательности {тп} натуральных чисел, что тп и, тп -* оо и п — тп -* оо при п -* оо, выполняется соотношение Р(5„ = m„)/ ((2м^(1 - ^))’1/2ехр(-пйт„/п(р))) 1. (1.6.16) Здесь W(P) = In + In (1.6.17) л/ п пр п п(\ - р) что является частным случаем более общего определения: для р* е (О, 1) выполняется соотношение йг(р)=р‘1п^ + (1 -р*)1пу^. (1.6.18)
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 105 Сходимость (1.6.13) получаем теперь для тп — пр = о(п2/3), так как для р*, близких к р, из формулы Тейлора следует равенство hp'(р) = + гЬ){р* - р)2 + 0(|р‘ " р|3) ° -6-19) (поскольку hp. (р)|Р. =р = (р)} | = 0). Замечание. Соотношение (1.6.16), а также показатель —nhp*(p) экспоненты при Р* = ~ и hp*(p)y заданном равенством (1.6.19), важны для асимптотического анализа различных вероятностей, касающихся сумм независимых случайных величин. В частности, формулы (1.6.17)—(1.6.19) играют важную роль в теории информации и теории больших уклонений. Функция hp*(p) называется относительной энтропией вероятностного распределения {р*, 1 — р*} по отношению к распределению {р, 1 - р}. Доказательство равенства (1.6.19) непосредственно вытекает из фор- мулы Стирлинга п\^у/2кпппе-п (1.6.20) (хорошо известно, что у этой формулы есть более точный вариант: п\ = = \/2плгде —г < 0(л) < -Д-, но для наших целей доста- 12л + 1 12л точно и соотношения (1.6.20)). Тогда, опуская индекс п в символе тп, получим, что вероятность Р(5Л = т) равна / л \!/2 пп Стпт(\ - п\п~т » I__-______1 ____-_____от(\ - о\п~т = п ? ' \2пт(л-т)/ тт(п - ? -МО-Пр х exp (-mln — (п - т) In п + т In р + (л — т) ln( 1 — р)). При этом правая часть последнего равенства совпадает со знаменателем в формуле (1.6.16). Чтобы получить интегральную форму теоремы Муавра—Лапласа, рас- смотрим сумму = т)1(а < zn(m) < b) т и интерпретируем ее как площадь фигуры, образованной осью Ох и гра- фиком кусочно постоянной функции Пл: хейм у/пр(\ -р)Р($л = т) для zn(m) ^x<zn(m+ 1)
106 Глава 1. Дискретные пространства элементарных исходов на отрезке zn(rri) ^x^zn(m), где ап и т однозначно определяются условием а ^гп(т)<а + =, b sj zn(m) < b + 1 у/пр(\-р) у/пр(1-р) Очевидно, эта площадь равна интегралу 2„(т) П„(х)с/х. zn(rn) Два обстоятельства затрудняют вычисления: подынтегральное выра- жение Щ и переменные пределы zrl(m) и гп(пг) зависят от п. Для начала рассмотрим случай, когда а и Ь — действительные числа. Тогда zn(rn) —► а и zn(ffi) Ь и предыдущий интеграл отличается от ь §П„(х)б/х а на величину, стремящуюся к нулю. Далее, на интервале (а, Ь) можно при- менить локальную теорему Муавра—Лапласа, согласно которой Пп(х) -* ~^=е~х2/2- v2k С помощью некоторых дополнительных соображений отсюда можно вы- вести, что ь ь Щ(х) dx —► -=е-х2/2 dx. a 1 Для завершения доказательства рассмотрим случай, когда а и/или Ь бесконечны. При этом используется тот факт, что сходимость в локальной теореме Муавра—Лапласа равномерна, если zn(mn) остается в некото- ром конечном интервале, а предельная функция хн> -j=e~x2^ монотонно убывает, когда |х| растет, и является интегрируемой. Детали мы опускаем. Один из важных аспектов центральной предельной теоремы состоит в том, что предельное распределение для всевозможных допредельных — нормальное. Задача 1.6.1. Игральный кубик подбрасывают л раз, Yn — общее число выпавших очков. Покажите, что EYn = у- и VarXn = Используя неравенство Чебышёва, найдите такое и, для которого Pfl— -3,5| >0,Й ^0,1. \1 п I /
§ 1.6. Неравенства Чебышева, Маркова и Йенсена. Закон больших чисел 107 Решение. Запишем Yn = £Х/, где X/— число очков, выпавших при /=1 /-м бросании. Случайные величины Х\, независимы и одинаково распределены, причем Р(Х, = г) = 1/6, г = 1, 2, ..., 6. Поэтому ЕХ,=31. Var(X,) = 2{l ЕУ„ = ^, Уаг(У„) = ^. Неравенство Чебышева можно записать в виде Р(|Х — ЕХ| > е) ^2 VarX, и оно верно для любой случайной величины X с конечным средним и дисперсией. В силу неравенства Чебышева и независимости случайных величин X, мы получаем рГ1~ — Зб1>0 — Р ГIУ — ЕУ 1>0 1л) — Var — 1750 Kkln О.О| > 0,1^ — Н(|Г„ ЬГ„| >и,1Л)- О12.л2 - 001я2 - 6п • Нам нужно неравенство 1750/(6л) ^0,1, откуда получаем п >2920. Отме- тим, что если применить нормальное приближение (теорема Муавра—Ла- 35 пласа), то оценка серьезно понижается: л > — (1,96 • 10)2 « 794. □ Задача 1.6.2. При подбрасывании монеты орел выпадает с вероятно- стью р > 0, а решка — с вероятностью q = 1 - р. Обозначим через Хп число бросаний, необходимое для выпадения л орлов. Найдите производящую функцию распределения случайной величины Xj, ее среднее и дисперсию. Чему равно среднее и дисперсия случайной величины ХЛ? Пусть теперь р = 1/2. Как оценивается P(Xjoo > 400) с помощью нера- венства Чебышева? Решение. Поскольку Р(Х! = k) = pqk~\ производящая функция мо- ментов имеет видg(s) = . Поэтому g'(s) = -qs)2 И Var(Xj) = q/p2. Значит, ЕХ„ = л/р, VarX = nq/p2. Теперь положим р = q = 1/2, ЕХюо = 200, Var(Xioo) = 200 и запишем Р(Х,оо М00) Р(|Х,оо -200| > 200) □ Замечание. Несомненно, Хп имеет отрицательное биномиальное рас- пределение с параметрами (л, q). Задача 1.6.3. В этой задаче и ряде последующих используется термин «выборка» вместо «исход». Эта терминология чаще всего используется в статистике, см. часть В. а) Случайную выборку какого размера с заданным распределением нуж- но образовать для того, чтобы с вероятностью не менее 0,99 выборочное среднее отличалось от среднего значения распределения не более чем на
108 Глава 1. Дискретные пространства элементарных исходов два стандартных отклонения? Используя неравенство Чебышёва, опреде- лите указанный размер выборки независимо от распределения. б) Случайную выборку какого размера с нормальным распределением нужно образовать для того, чтобы с вероятностью не менее 0,99 выбороч- ное среднее отличалось от среднего значения распределения не более чем на стандартное отклонение? Указание. Используйте равенство Ф(2,58) = 0,995. Решение, а) Выборочное среднее X имеет среднее значение pt и дис- персию о2/л. Поэтому в силу неравенства Чебышёва - гг2 I P(|X-pi|>2o)^-^-, = Т-- 1 л(2а)2 4л Таким образом, достаточна выборка объема п = 25. Чем больше извест- но о распределении X/, тем меньший размер выборки достаточен; случай нормального распределения рассмотрен в п. б). б) Если Xi ~ N(pi, о2), то X - pt ~ N (о, и Р(й - Hl о) = р (й - pl / (v)1/2 > ° / (у)1/2) = р(й1 «1/2)> где Z~N(0, 1). Но P(|Z| ^2,58) = 0,99, поэтому нужно потребовать, чтобы выполнялось неравенство л1/2 > 2,58, т. е. л > 7. Как видим, зная, что рас- пределение нормально, можно взять выборку гораздо меньшего размера даже для более узкого интервала. □ Задача 1.6.4. Что означают слова «функция g: (0, оо) -* Ж выпукла вниз»? Пусть функция /: (0, оо) —такова, что функция — f выпукла вниз. Покажите, что J z п и выведите отсюда, что N 1 1 $ f(x) dx > 1) + /(2) + ... + f(N - 1) + для всех целых чисел N 2. Выбирая подходящую функцию /, докажите, что NN+le-(N-l) м для всех целых чисел N 2. Решение. Функция g: (0, оо) —► 1R выпукла вниз, если Vx, у е (0, оо) и р € (0, 1) выполняется неравенство g(px + (1 - р)у) pg(x) + (1 - p)g(y).
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 109 Если функция g дважды дифференцируема, ее выпуклость вниз следует из неравенства g"(x) > 0, х > 0. Если функция — f выпукла вниз, то -f(pn + (1 - р)(п + 1)Н -pf(n) - (1 - p)f(n + 1). Отсюда для х = рп + (1 - р)(п+ 1) = л + 1 - р получаем /(х) + (1 -p)f(n+ 1), а тогда л+1 л+1 5 /(х) dx > § + (• - Р)/(« + •))dx- п п Поскольку dx = —dp = d(\ — р), мы получаем, что л+1 1 . . 5 f(x)dx> $((1 -p)f(n) + pf(n + l))dp = -f(n) + gf(n + 1). n 0 Суммируя эти неравенства от п = 1 до п = N — 1, получим первое нера- венство. Выберем теперь f(x) = In х; тогда f'(x) = 1/х, f"(x) = -1/х2. Значит, функция —f выпукла вниз. Согласно предыдущему неравенству N § In х dx > In 2 + ... + ln(W — 1) + In^1/2), 1 т. е. I 1 \Ы / 1 \ - InW+A lnxdx= - lnW + (xlnx - х) =(W+-)ln/V-(/V-i)^ ln(/V!), z J z 11 \ z/ а это то же, что неравенство /V! /yw+i/2e-ov-i). q Задача 1.6.5. Рассматривается случайная выборка с целью найти долю тех избирателей, кто голосовал за лейбористов. Найдите такой размер выборки, чтобы вероятность того, что ошибка измерения будет меньше 0,04, была не менее 0,99. Ответ. Справедлива оценка 0,04y5z > 2,58х/р7?, где pq 1/4. Таким образом, п ~ 1040. □ Задача 1.6.6. Рассмотрим индикаторную функцию /д события А. п Пусть /, — индикатор события Д/, 1 i л, и пусть N = 52 А —число /=1 тех /, при которых произошло событие Д/. Покажите, что E(/V) = 52Р/, гДе
по Глава 1. Дискретные пространства элементарных исходов Pi = Р(Л,), и выразите VarA/ через вероятности р,/ = Р(Л(Т1/4;). Используя неравенство Чебышева или иные соображения, покажите, что Р(Л/ = 0) < Var/V (Е(\))2‘ Решение. Индикаторная функция события А — это /л(«) = ыеЛ, <оеЖ, причем Е1д = Р(Л). п п Поскольку ЕД = pi, можно записать, что ЕМ = 52 ЕД = 52 Pi (ЕМ)2 = /=1 /=1 ✓ п \ 2 = (zLP/) • Далее, /2 = Д, откуда следует, что Е/2 = pt. Кроме того, ЕДД = р^. Значит, / П \ 2 / \ Е(№) = е(Еч =Ef^/, + 2E 52 /,//)= Ер,+ 12Р.Л Тогда / \ 2 Var N = EN2 - (ЕЛО2 = '£,Pi ~ \JT,Pi] + Е PiP i ' i ' Наконец, P(/V = 0) P(|/V - E(V| > ЕЛО ^7 в силу неравенства Чебышёва. □ Замечание. Событие {М = 0} совпадает с Q/f = Q \ (IM) - По фор- муле включения-исключения получаем PM=|-P |J/f =1-£Р;+ £ Р6-2- - Е Phi-ziz + • • • + (-l)"Pl...n- 1^/| <l2<h<n Здесь для любого /, 1 < I п, и любых индексов /’i, ..., Д, 1 i\ < 12 < • • • ... < ii п, выполняется равенство р/,.../, = Р(А( П ... П Ait). Поэтому полученная выше оценка для Р(М = 0) дает также оценку для знакопере-
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 111 менной суммы, содержащей все piltjt (независимо от их значений), через Pi и Pip / \ — z / / \ мЕл) (Е^_(Е^) \ ; / X i X ; / i-E^< + J2 12 p<iw+•••+(-олР1..л^ 1^/<Л 1^1<*2<Л 1^/|</2<^3<« 2 + Y.PH '#/ Задача 1.6.7. а) Сформулируйте и докажите неравенство Чебышёва. Покажите, что для н. о. р. с. в. Х\, %2, • • • с конечными средним pi и дис- персией с2 справедливо соотношение при п -* оо для всех е > 0. б) Предположим, что У|, Уг, ••• —н.о. р. с. в., причем Р(Уу=4г) = 2“г для всех целых r> 1. Покажите, что Р(хотя бы одна случайная величина У|, Уг, ..., Уг« приняла значение 4Л) —► 1 - е~1 при п —► оо, и выведите отсюда, что для всех К выполняется условие /2" \ р(2-яЕг'>к) 74 °- ' /=1 ' Решение, а) Неравенство Чебышёва имеет вид Р(|Х-ЕХ|>6)^£2 VarX V6 > О, а доказательство его вытекает из следующих соображений: VarX = Е(Х - ЕХ)2 > Е((Х - ЕХ)2/((Х - ЕХ)2 > Ь2)) > > Ь2 Е/((Х - ЕХ)2 > Ь2) = Ь2 Р((Х - ЕХ)2 > Ь2) = Ь2 Р(|Х - ЕХ| > Ь). п Применим неравенство Чебышёва к и-1 52 X/ и получим <=1 1 ( \ 1 ^2 Var - И) = Var(X|) - О \=1 ' при п —* оо.
112 Глава 1. Дискретные пространства элементарных исходов б) Для случайных величин И, Y%, ..., о которых идет речь в задаче, qn := Р(хотя бы одна случайная величина У|, У2, ...» Уг« приняла значение 4") = 2« = 1 - П pw / 4") = 1 - (PW / 4я))2" = /=1 = 1 - (1 - Р(Г| =4"))2" = 1 - (1 -2-'1)2" -*1 -е~'. Поэтому для 2п > К получаем /2" х Р(2""52Г'!>К) -е-' >0. Таким образом, если случайные величины У/ не имеют конечного сред- него, то их среднее арифметическое может не сходиться к конечному значению. □ Задача 1.6.8. а) Предположим, что X и Y — дискретные случайные величины с конечным числом значений. Покажите, что Е(Х+ У) = ЕХ + ЕУ. б) По сухой дороге студент едет на велосипеде на лекцию со скоростью 20 миль в час, по мокрой — со скоростью 10 миль в час. Расстояние между его домом и зданием, где проходят лекции, равно 3 милям, а лекционный курс состоит из 24 лекций, и начинаются они в 9 утра. Вероятность того, что утром дорога сухая, равна 1/2, но нет причин полагать, что сухая и влажная утренняя погода чередуются независимо. Найдите ожидаемое время, необходимое для того, чтобы доехать на велосипеде на одну из лек- ций, и среднее время, затраченное на дорогу, для всего лекционного курса. Приятель этого студента (не математик) предлагает простой ответ: среднее время, затраченное на весь лекционный курс, равно 3 • 24 -j-----j---= 4 часа 48 минут. 2-Ю+г20 Объясните, почему это время меньше истинного. Решение, а) Для случайных величин X и У, принимающих конечное число значений вида х и у соответственно, выполняется равенство Е(Х+Г) = ^(х + 1/)Р(Х = х, Y = у) = Х'У = £Х£Р(% = Х- Y = y) + ^y'£P(X = x, Y = y). х у ух
§ 1.6. Неравенства Чебышева, Маркова и Йенсена. Закон больших чисел 113 Внутренние суммы £2 Р(Х = х, у = ^) и £ Р(Х = х, Y = у) равны соответ- У х ственно Р(Х = х) и Р(У = у). Поэтому Е(Х + Г) = х Р(Х = х) + 521/Р (Г = I/) = ЕХ + Е Г. х у МИН. б) Если Т — время, затраченное на дорогу при поездке на одну из лекций, то Е(время на дорогу) = 3Еf-------= 3(77-77; ' r r J Чскорость/ \2 10 Общее среднее время равно 24 • 13,5 = 5 часов 24 мин. Предположение о зависимости здесь не нужно, так как равенство Е 52 7} = 52 ^7} верно i i в любом случае. «Простой» ответ дает меньшее время 3-24 1 3 • 24 1 3-24 1 1 < 2 10 + 2 20 * 2 10+ -20 Однако средняя скорость не равна | • 10 + | • 20 = 15. Это частный случай неравенства Йенсена для строго выпуклой вниз функции g(x) =-------, х е (0, оо). □ Задача 1.6.9. Пусть Х\, Х^, • • • —независимые пуассоновские случай- ные величины с параметром К > 0. Найдите среднее и дисперсию суммы | п п ~Y^Xj и распределение суммы 52 ^/- Исходя из этого или из других п /=1 /=1 соображений найдите lim у л—оо k\ О^Л^цл для всех положительных X и pt, включая X = р. Решение. Сумма 52^/ независимых пуассоновских величин с парамет- рами (X;) есть пуассоновская величина с параметром ^52 • $п = 52 — пуассоновская величина с параметром (иХ); 1 1 /, п \ 1 Е( I = -/iEX1 =EXi =Х, \ п ' / п 4 /=1 7 / 1 п X 1 л VaruE%/) = Var(Xi) = ~п v /=1 7
114 Глава 1. Дискретные пространства элементарных исходов в силу независимости рассматриваемых случайных величин. Согласно за- кону больших чисел Ve > О p(||s„ - х| S? е) - 1, p(|^S„ — х| > е) — О при п —► оо. Иными словами, Р((-е + Х)п Sn (е + Х)п) -► 1, P(Srt (-е 4- Х)л или > (е + Х)п) —► О при п —► оо. Сумма £2 —тг-е“Хл — это веР0ЯТН0СТЬ Р (~Sn ptV где k' \п j Sn = Х\ + ... 4- Хп и Х\, %2, • • • — н. о. р. с. в., пуассоновские, с парамет- ром К. При этом ESW = VarSn = пк. Тогда по закону больших чисел P(S„ лц)-> Р’ если pi > К, если pt < X. Наконец, в силу центральной предельной теоремы для всех х, у, -оо х < < у оо выполняется условие Р (х < <у \ Ф(*/) - Ф(х) = ~7= в и2/2 du \ VnX / х/2к ~ при n —> оо, откуДа для х = —оо, у = 0 получаем P(S„ nk) = p(h^ о) - Ф(0) = 1 X vnX / 2 Таким образом, для pt = X при п —► оо получаем V' (Хи)* -хи оо k\ 2 0<4^Хл Задача 1.6.10. а) Что такое «функция, выпуклая вниз»? Сформули- руйте и докажите неравенство Йенсена для выпуклой вниз функции от случайной величины, принимающей конечное число значений. б) В частности, докажите, что для неотрицательной случайной величи- ны X с конечным числом значений выполняются неравенства Е[Х] (Е[X2])1/2 (Е[Х3])1/3 .
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 115 Решение, а) Напомним, что функция g на [а, Ь] называется выпуклой вниз, если Vx, у е [a, b], VX е (0, 1) выполняется неравенство g(kx + (1 - Х)у) sj Xg(x) + (1 - X)g(y), или, другими словами, для выпуклой вниз функции g: J —определенной на интервале, полуинтервале или отрезке /CR, для любых хь Х2 6 J и Pi, Р2 £ [0» 1], Pi +Р2 = 1» справедливо неравенство g(P\X\ + р2х2) Pig(xi) + p2g(x2). Далее, в неравенстве Йенсена утверждается, что для любых х\, ..., х/< к ир,, ...,pKe[Q, 1], £р, = 1,мы имеемg(pi*|+...+pkxk)jSpi£(x|) + ... /= I ... + PKgM- Это легко проверить индукцией по /С Действительно, запи- шем Z К ч Ж-\ Ч 22рл) ркё(хк) + (1 - рк)ё( 22 т^х‘) \=1 7 \=1 7 и используем предположение индукции для вероятности вида р,/(1 — рк), 1 i К — 1. Отсюда получаем оценку ж-i ч х-i к ркё(хк) + (1 - pK)g (22 tzt"X/ ) ркё(хк)+22 р^м=22 PisM. \ i— 1 ' i— 1 i= 1 б) Теперь рассмотрим функцию g(x) = х(л+1)/'1, строго выпуклую на J = = [0, оо). В силу неравенства Йенсена (ЕХ)<л+1)/л Наконец, положим Yn = X и получим (ЕУ'1)1/'1 (ЕУя+1),/(л+1). □ Задача 1.6.11. а) Покажите, что для ограниченной случайной величи- ны X выполняется неравенство Р(Х > X) е"х Е(е*). б) С помощью разложения в ряд Тейлора или иным способом докажите, что ch t е/2/2. Покажите, что если У — случайная величина, для которой Р(У = а) = = Р(У = -а) = 1/2, то Е(евг)^еа2»2/2
116 Глава 1. Дискретные пространства элементарных исходов Пусть К|, • • • > Yn — независимые случайные величины, для которых Р(У^ = а/г) = Р(У/г = — ak)= 1/2 и Z = Xi 4- У2 + - • • + Yn. Аккуратно докажите, что E(e0z)^Z92/2, где А2 можно выразить через а*. Используя п. а) или иным способом, покажите, что для X > 0 выпол- няется неравенство P(Z^X)^e(W"2X0)/2 для всех 0 > 0. Найдите значение 0, минимизирующее eH202~2W2, и пока- жите, что P(Z^X)^e-xW\ Объясните, почему P(|Z| X) sj 2е"х2/(2л2). в) Покажите, что если а\ = а2 = • • • = Дл = 1 в п. б), то Р(| Yt + Y2 + ... + Yn\^(2n lne-‘)l/2) s? 2e для любых e > 0. Решение, а) Это неравенство Чернова, и оно доказывается так: Р(Х X) е~х Е[е*/(Х > X)] SS е"х Ее*. ОО /2Л 2/9 00 (/2/2)Я б) Имеет место разложение в ряд ch t = 52 ттгтт и е* /2 = 52 = J 2п л=о(2")! л=0 = 52 21алее> (2л) (2л - 1)... (л + 1) >2л для п >2. Поэтому ch t е/2/2 л=о ^Пп' и Е(еог) = ch(9a) efl2°2/2. Аналогично п п Е(е®>') = Е(ев*+-+М") = ch(0a*) [] еа^ = ^Z2, k=\ k=\ п где А2 = 52 Отсюда следует, что k=\ P(Z^X)^e-xeE(eez)^^2°2-2Xe)/2 для всех 9 > 0. Функция f = е(л202“2Х0)/2 достигает своего минимума при 9 = Х/А2. Поэтому P(Z X) е-*/™2
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 117 Теперь рассмотрим —Z = -(У1 + ... + Ул) = У{ + ... + У', где случайные величины Y'k = -У*, k = 1, ..., п, имеют то же распределение, что и У*, k = 1, ..., п. Тогда P(-Z X) e"xW И P(|Z|^X)^2e“x2/242. в) Если а\ = а2 = ... = ап = 1,тоЛ2 = л и / 2n In £ 1 \ Р(|У1 + У2 + • • + Г„| (2л 1пе-‘)|/2) 2е( 2п '=2е. □ Задача 1.6.12. Пусть {Л*} — последовательность н.о. р. с. в. со сред- ним pi и дисперсией а2. Покажите, что п п - X)2 = £(%* - р)2 - п(Х - И)2, k=\ 6=1 — 1 п где X = - 52 Xk- Докажите, что при условии Е(Х| - pt)4 < 00 для любого п k=\ е > 0 выполняется соотношение ✓ . п х — а2 *=1 при п —> оо. Указание. Согласно неравенству Чебышёва / . п -0. □ х *=1 7 Задача 1.6.13. Пусть xj, Х2, ..., хп — положительные действительные числа. Тогда их среднее геометрическое находится между средним гармо- ническим и средним арифметическим: X/. Докажите эти неравенства. Решение. Для доказательства неравенства между средним арифмети- ческим и средним геометрическим применим индукцию по п. Для п = 2 неравенство имеет вид 4xjX2 (xj 4- Х2)2. Теперь заметим, что это неравенство эквивалентно следующему: « п /. п \
118 Глава 1. Дискретные пространства элементарных исходов Функция In у строго выпукла вверх на [0, оо) (т. е. (In//)" < 0). Поэтому для любого а е [0, 1] и любых у\, у? > 0 выполняется неравенство ln(a//i +(1 — а)//2) > а In у\ +(1 -а)1п//2. 1 п Положим а = 1/п, г/i = Х|, //2 =-- х7 и получим п ~ 1 /=2 In (i V хД — 1 п х 1 4- -—- In ( —Ц- V' хД. \ п п п \п-\^ J 4 1=1 7 4 i=2 7 А теперь применим предположение индукции, согласно которому Чтобы доказать неравенство между средним гармоническим и средним геометрическим, применим предыдущее неравенство к 1/xi, ..., 1/хл: Поэтому Задача 1.6.14. Пусть X — положительная случайная величина с конеч- ным числом значений. Покажите, что Е- > — X ЕХ и что неравенство строгое, за исключением случая, когда Р(Х = EX) = 1. Решение. Пусть величина X принимает значения xj, х2, ..., хл > 0 с вероятностями р,. Тогда искомое неравенство запишем в виде ЕХ п / п \ -I ( ^Pt- ) • (1.6.21) * \ * Xi / 1=1 41=1 7 Докажем следующее обобщение неравенства о среднем арифметическом и среднем геометрическом: п п П (1.6.22) 1=1 1=1
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 119 и, применяя его к числам 1/х,, получим / П \ -1 п \=1 7 Z=1 откуда следует и неравенство (1.6.21). Чтобы доказать неравенство (1.6.22), предположим, что все ху- различ- ны, и применим индукцию по п. Если п = 1, то (1.6.22) является очевидным равенством. Предположим, что неравенство (1.6.22) имеет место для п - 1, и докажем, что Pi 1ПХ,ln( ^PiXi). i=\ 4=\ 7 Для этого вновь используем строгую выпуклость вверх натурального ло- гарифма: ln(az/i +(1 -a)z/2) >alnz/! + (1 -a)lnz/2. 1 п Полагая a = р\, у\ = xj, у% = -j-$2Pjxb получим 1 “ Р' j=2 п / п \ / п \ in52^x,=ln(/’|X| + (* ^pi 1пх>+о -Р1)|п(52р/*<ь z=l x z=2 7 xz=2 7 где —, i = 2, ..., n. Воспользуемся теперь предположением ин- дукции, согласно которому / п n х z=2 7 /=2 и получим требуемый результат. Равенство имеет место тогда и только п тогда, когда либо рi(1 - pi) = 0, либо xj = P'ixi- Перенося рассуждения /=2 на Х2, ..., хп и т. д., убеждаемся, что равенство имеет место тогда и только тогда, когда либо р/(1 — pi) = 0 для некоторого (а значит, для всех) /, либо xj = ... = хп. Согласно условию это означает, что п = 1, т. е. Р(Х = ЕХ) = 1. □ Задача 1.6.15. Пусть b\, ...» Ьп — произвольная перестановка по- ложительных действительных чисел аь • • •, ап. Докажите, что п п а. Указание. Используйте равенство П 77 = 1- □
120 Глава 1. Дискретные пространства элементарных исходов Задача 1.6.16. Пусть X — случайная величина, для которой ЕХ = р. и Е(Х - р)4 = [З4. Докажите, что Р(|Х-И1 > 0 £±. Указание. Используйте неравенство Маркова для |Х - р|4. □ Задача 1.6.17. С помощью неравенства Йенсена докажите неравенство между арифметическим средним и геометрическим средним в виде а1+а<+..-:- + а" ^(а,а2...ап)»/", п где аь а2, >0. (Можно воспользоваться тем, что функция с положительной второй производной выпукла вниз.) Решение. Функция /: (а, Ь) —► К. выпукла вниз, если Vx, х' 6 (а, Ь) и р 6 (0, 1) выполняется неравенство f(px + (1 - р)х') sj pf(x) + (1 - p)f(x'). Неравенство Йенсена для случайных величин с конечным числом зна- чений хь ..., хп утверждает, что для любых таких функций /, как опреде- лено выше, 4=1 ' /=1 Vxt, хп G (а, Ь) и pi, рп G (0, 1), р\ + ... + рп = 1. Для доказательства используем индукцию по п. Для п = 1 неравен- ство тривиально. (Для п = 2 оно эквивалентно определению функции, выпуклой вниз.) Предположим, что неравенство справедливо для неко- торого п. Тогда для п + 1 пусть xj, ..., хл+1 е (а, Ь) и ..., е (0, 1), Р\ + ... + pn+i = 1. Из равенства = pz/(l -рл+1) получаем р\, ..., р'п е 6 (0, 1) и р\ 4-... + р' = 1. Тогда, используя определение функции, выпук- лой вниз, а также предположение индукции, получаем /Л+1 \ z П ч /(52рл) =/((• -рй+1)£^- + рл+1хя+1 ) 4=1 ' ' /=1 ' 7 п \ ^(1 -Pn+l)f( ^хЛ +pn+if(xn+i) 4=i ' п л+1 (1 - рп+\) ^p'JM + рп+1/(хп+|) = /=1 /=1 Следовательно, неравенство справедливо для л + 1, а тогда и для любого п.
§ 1.6. Неравенства Чебышёва, Маркова и Йенсена. Закон больших чисел 121 Для функции /: (0, оо) —► R, f(x) = - Inx, имеем f(x) = — 1/х и f"(x) — = 1/х2 > 0. Поэтому функция f выпукла вниз. Согласно неравенству Йен- сена при р,г = 1/л, i = 1, ..., п, получаем т. е. -1п(|Еа‘Н4Е|па‘’ или Отсюда следует, что Задача 1.6.18. В ящике находятся N фишек, помеченных номерами 1, ..., N. Эксперимент состоит в вытаскивании п из этих фишек из ящика, п N. Предположим, что каждая из фишек может быть вынута равнове- роятно с другими и что вынутые фишки не возвращаются в ящик. Пусть Х\, Хп—случайные величины, причем Xi — число, которым помечена /-я вынутая фишка, i = 1, ..., п. Положим Y = Х\ -I- %2 + • • • + Хп. а) Проверьте, что Var(X,) = (N + 1 )(N — 1 )/12. V ,, А-2 ^+1)(2W+1) Указание. Используйте равенство X, г = —----- /=1 ь б) Проверьте, что Cov(X/, Xj) = ~(N -I- 1 )/12, i / j. в) Используя формулу N Var(K) = Var(X,) + ZL Cov<x- */) /=1 (или иным путем), докажите, что уаг(К) = ^+^-). Решение, а) Очевидно, ЕХ/ = (N + 1 )/2. Тогда v./Yx-Sr*2 /W+l\2_ 1 ЛфУ+1)(2Л/+1) /Л/+1\2_ (У+])(№-!) var(A() N \ 2 ) N 6 \ 2 ) 12 Л=1
122 Глава 1. Дискретные пространства элементарных исходов б) Поскольку Xi и Xj не равны, мы получаем k^s =____!__^+1\уЛ yv+h___________________1 y'fk /v+lV1 2 J 2-Л 2 ) N-xZ-Л 2 ) N' Л=1 s=l *=l Первая сумма равна нулю, а вторая равна —(VarX()/(/V — 1). Поэтому (X,-,X/) = -(/V+l)/12. в) Мы имеем м /V4 (N+\)(N-\) . (W+l) n(N+\)(N-n) Var(K) = tV--- n(n - l)1-^ = ------------------- □ § 1.7. Ветвящиеся процессы Life is a school of probability. Жизнь — это школа вероятности. У. Бэйджхот (1826—1877), британский экономист Ветвящиеся процессы — интереснейший раздел теории вероятностей. Исторически понятие ветвящегося процесса возникло при вычислении вероятности вырождения знатных семейств. Упомянем здесь имена У. Р. Га- мильтона (1805—1865), известного ирландского математика, Ф. Гальто- на (1822—1911), английского ученого и путешественника, и Г. У. Ватсона (1827—1903), английского математика. Начиная примерно с 1940 г. вет- вящиеся процессы интенсивно применялись в различных естественных науках, в частности для расчетов, связанных с продуктами деления атом- ного ядра при цепной реакции (физика), а также для расчетов размера популяции (биология). Позже они нашли широкое Лч применение в компьютерных науках (алгоритмы на / v X. логических деревьях) и в других дисциплинах. / /Л X Модель, приводящая к ветвящемуся процессу, / у Z о^Х пРоста и элегантна. Вначале имеется некая особь ZjX (частица либо биологический организм), производя- щая случайное число потомков, каждый из которых Рис. 1.7 производит случайное число потомков, и т.д. Этот процесс порождает структуру, сходную с «деревом», где имеется связь потомка со своим родителем и несколько его связей со своими потомками (см. рис. 1.7). Каждый узел возникающего (случайного) дерева имеет путь, соединя- ющий его с основным прародителем (называемым началом или корнем
§ 1.7. Ветвящиеся процессы 123 дерева). Длина пути, равная числу отрезков этого пути, измеряет число поколений, предшествующих данному узлу (и особи, которую он представ- ляет). Каждый узел порождает поддерево, растущее из него (некоторые узлы продолжения не имеют, т. е. число потомков равно нулю). Основное предположение состоит в максимальной независимости и од- нородности: число потомков, произведенное данным родителем, не зависит от числа потомков, произведенных другими особями. Говоря точнее, рас- смотрим случайные величины Хо» Xi, Х2, • • •, где Хп — это размер популя- ции в л-м поколении. Тогда Хо = 1, Х\ = число потомков после первого деления, Х2 = число потомков после второго деления, и т.д. Случайные величины Хп и Хл+1 связаны рекуррентно следующим образом: хп Хл+1=£г<я>, (1.7.1) Z=1 где У-л) — число потомков, произведенных i-м представителем л-го по- коления. Случайные величины Y-n) считаются независимыми и одинаково распределенными, и их распределение, собственно, и определяет ветвя- щийся процесс. Первое важное упражнение — вычислить ЕХЛ, т. е. ожидаемую чис- ленность л-го поколения. Используя условные математические ожидания, получим ЕХ„ = Е[Е(Х„ | %„_,)] = ^2 РPG.-1 = т) Е(ХЛ | Хп_{ =т) = т т = 52 Р(Хл_, = т) Е 52 Y,; = 52 P(Xi-i = т)тЕГ, = т i—\m = ЕГ52р(Хл-, = /п)т = ЕУЕХл_|. (1.7.2) т Здесь Y — случайное число потомков заданного родителя, участвующего в ветвящемся процессе, и мы опустим верхний индекс (л — 1) в обозначе- нии у!л”1). Рекуррентный подсчет дает ЕХ1=ЕУ, ЕХ2 = (ЕУ)2, ЕХЛ = (ЕУ)Л, ... (1.7.3) Мы видим, что если ЕУ < 1, то ЕХп —► 0 при л —► оо, т. е. процесс в кон- це концов вырождается. Этот случай часто называют докритическим.
124 Глава I. Дискретные пространства элементарных исходов Наоборот, если ЕУ > 1 (надкритический процесс), то ЕХЛ —>оо. Погра- ничный случай ЕУ = 1 называется критическим. Замечание. При выводе равенств (1.7.3) не использовалось предполо- жение о независимости. Удобной характеристикой ветвящегося процесса является производя- щая функция распределения cp(s) = Esx, общая для случайных величин У-п). Здесь важен тот факт, что если Фп($) = Esx" —производящая функция распределения численности л-го поколения, то Ф1 (s) = cp(s) и, рекуррентно, Фя+1($) = Ф„((р($)), п>\. (1.7.4) См. по этому поводу задачи 1.7.2 и 1.7.9. Иными словами, Фл($) = ср(ср(... <p(s) ...)) = ср о ... о <p(s), (1.7.5) п раз где ср о... о ср означает итерацию отображения s »—> cp(s). В частности, фя+|($) = <р(ф„(«)). Эта конструкция приводит к интересному анализу вероятностей вы- рождения кп := Р(Х„ = 0) = Ф„(0) = <р°"(0). (1.7.6) В силу того что Лл+1 = ср(ял), интуитивно ожидается, что предел я= lim яп п—*оо будет неподвижной точкой отображения Sh-*cp(s), т. е. решением уравнения z = cp(z). Одна такая точка равна 1 (по- скольку ср( 1) = 1), но может быть и другое решение, лежащее между 0 и 1. Здесь ва- жен тот факт, что функция ср выпукла вниз и значение ср(О) находится между 0 и 1. Если ср'(1) > 1, то на интервале (0, 1) уравнение z = cp(z) будет иметь корень. В противном случае z = 1 — наименьший положительный корень (см. рис. 1.8). Нетрудно проверить, что предельная веро- Рис. 1.8 ятность вырождения я существует и п = наименьшее неотрицательное решение уравнения z = cp(z). (1.7.7) Действительно, если существует значение z Е (0, 1), при котором z = cp(z), то оно единственно и, кроме того, 0 < cp'(z) < 1 и 0 < ср(О) = Р(У = 0) < z (поскольку функция ср выпукла вниз и ср(1) = 1). Значит, ср(О) < < ср(ср(О)) < ... < z, поскольку функция ср монотонна и cp(z) = z. Поэтому последовательность срОЛ(0) должна иметь предел, который в силу непре- рывности совпадает с z.
§ 1.7. Ветвящиеся процессы 125 Если наименьшая неотрицательная неподвижная точка — это z= 1, то все предыдущие рассуждения остаются в силе и приводят к равенству л = 1. Значит, если Р(У = 0) > 0, то л > О (на самом деле л > Р(У = 0)). С другой стороны, если ср(О) = 0 (т. е. Р(У = 0) = 0), то вполне тривиально получаем, что л = 0. Таким образом, верно равенство (1.7.7). Мы видим, что даже в надкритическом случае (если cpz( 1) > 1) предельная вероятность вырождения л может быть сколь угодно близка к 1. Небольшая модификация предыдущих рассуждений необходима, если первоначальное число особей больше одной (возможно, случайное чис- ло Хо). Задача 1.7.1. Каждый индивидуум, участвующий в ветвящемся про- цессе, имеет вероятность pk породить ровно k потомков, k = 0, 1, ..., и индивидуумы в каждом поколении производят потомство независимо друг от друга и от индивидуумов в других поколениях. Пусть Хп —численность л-го поколения. Предположим, что %о = 1 и ро > 0, и пусть Fn(s) — производящая функция распределения Хп, т.е. п Fn(s) = Esx" =^рк8к. k=0 а) Докажите, что Fn+i(s) = Fn(Fi (s)). б) Докажите, что для п < т выполняется равенство Г т\у) Решение, а) По определению оо Fn+i(s) = £$*"+> =]TP(X,,+i =k)sk, Л=0 где Хп означает численность л-го поколения. Запишем Es*»+' = E(sx"+' |Х„ = /), / где = Р(Х„ = /), а условное математическое ожидание равно оо E(sx"+' | Хп = /) = 52 Р(Хя+1 = k | Хп = l)sk. k=l Заметим, что Е ($*-+' |X„ = /) = (Esx>)z = (Fl(s))z
126 Глава 1. Дискретные пространства элементарных исходов по двум причинам: 1) при условии Хп = / выполняется равенство / xn+l=Y,xh /=1 где Xj — число потомков, порожденных /-м индивидуумом в п-м поколении; 2) все Xj — н. о. р. с. в., и E(sx' | Хп = /) = EsX| = Fi(s). Из этого равенства следует, что Esx"+' = ^p^F\(s))1 = Fn(F\(s)). б) Обозначим через /<от) случайную величину, заданную как если Am = О, /л — S [ 0 в противном случае. Тогда Р(/(от) = 1) = Е/10т) = Р(Ат = 0) = Fm(0). Кроме того, Е[$х" |Ат = 0] = E(sx"/(om))/Fm(O). Значит, достаточно проверить, что E(s4^ = Fn(sFn_m(0)). Но E(s*"/‘m>) = 52 ? Р(А„ = k, Хт = 0) = ** Р(ХЛ = k) Р(Хт = 01 Хп = k), k k а теперь, поскольку Р(Хт = 01 Хп = k) = Fm_n(0)k, мы получаем E(sx"/<m)) = F„(sFn_m(0)). □ Задача 1.7.2. В лаборатории размещена популяция тли. Вероятность того, что день для конкретной особи пройдет без событий, равна q < 1. При условии, что за день состоятся какие-либо события, с вероятностью г тля производит одного потомка, с вероятностью $ — двух потомков и с ве- роятностью t она умрет от истощения, причем г + s + t = 1. Потомки готовы к воспроизводству на следующий день. Судьбы различных особей независимы друг от друга, так же как и события разных дней. Лаборатория начинает работу, имея одну особь. Пусть Хп — число особей в конце л-го дня. Получите производящую функцию срл (z) распределения величины Хп. Каково ожидаемое значение величины Ад? Покажите, что вероятность вырождения не зависит от q и что в случае, когда 2r+3s^ 1, тли наверняка вымрут. Найдите вероятность вырождения, если г = 1/5, s = 2/5 и t = 2/5.
§ 1.7. Ветвящиеся процессы 127 Решение. Обозначим через срхДг) производящую функцию распреде- ления величины Х\, т.е. числа тлей, порожденных к концу первого дня одной особью (включая эту начальную особь). Тогда <px,(z) = (l -q)t + qz + (\ -q)rz2 + (1 -q)sz3, z>0. Запишем ЕХЛ = (ЕХ1)Л, где ЕХ| = срх|(1) = #4-2(1 — #)r4-3(l -q)s. В самом деле, из равенства cpxn(z) = (pxn_1(cpx1(z)) следует, что ЕХЛ = ЕХЛ_| ЕХЬ или ЕХп = (ЕХ\)п. Вероятность вырождения в конце л-го дня равна <р%л(0). Она не убывает по л и при л —юс стремится к пределу, который и равен вероят- ности вырождения я. Как уже известно, я < 1 тогда и только тогда, когда EXj > 1. Вероятность вырождения я — это наименьший положительный корень уравнения (1 -q)t + qz + (\ -q)rz2 + (1 -q)sz3 = z, или, после деления на (1 - q) (поскольку q < 1), t - z 4- rz2 4- sz3 = 0. Последнее уравнение не зависит от q, значит, и я не зависит от q. Условие EXi 1 эквивалентно неравенству 2г 4- 3s 1. В случае г = 1/5, s = 2/5, t = 2/5 уравнение принимает вид 2z3 4- z2 — 5z 4- 2 = 0. Разделив на (z — 1) (поскольку z= 1 —корень), получим квадратное уравнение 2z2 4-3z-2 = 0, (—3 ± 5) р, v . /о корни которого равны z± = 2—-—Положительный корень равен 1/2, и это есть вероятность вырождения. □ Задача 1.7.3. а) Объясните, что такое «ветвящийся процесс». б) Пусть Хп — численность л-го поколения ветвящегося процесса, в котором численность каждой семьи имеет производящую функцию распределения G, и предположим, что Xq = 1. Покажите, что производящая функция распределения Gn величины Хп удовлетворяет соотношению Сл+1 (s) = G„(G(s)) для л 1. в) Покажите, что G(s) = 1 - а(1 - s)P — производящая функция распределения неотрицательной целочисленной случайной величины, если а, р е (0, 1), и найдите явно Gn при такой функции G. г) Найдите вероятность того, что Хп = 0, и покажите, что при л —► оо она сходится к 1 — Объясните, почему отсюда следует, что вероятность вырождения равна 1 — Решение, а) Ветвящийся процесс — это такая последовательность случайных величин Xi, Х2, • • •, что Z=1
128 Глава 1. Дискретные пространства элементарных исходов где Fi — это независимые копии случайной величины F с неотрицатель- ными целыми значениями, причем F — случайное число потомков одного родителя, Fi не зависят от Хп. 6) Из п. а) следует, что Хл т Gn+X(s) = Е$х"+1 = Es? Fi = E[E(sx”+' | X„)] = £ P(X„ = m) Es? * = m = 52 = m)(EsF)m = 52 P(X„ = m)(G(s))m = G„(G(s)). m m в), г) Запишем G(s) = 1 - a A + 52 = (\ \ I p(^ — P) • • • 0 — 1 “ P) i = (1 - a) -h a 2^ --~—j1-------—s . i Это степенной ряд с положительными коэффициентами, сумма которых равна G(l) = 1. Поэтому G — производящая функция распределения. По индукции Gn(s) = 1 — а,+Р+~+Ря (1 - $)РЯ. Поэтому при п —► оо получаем Р(Х„ = 0) = G„(0) = 1 - ос^ - 1 - anV Наконец, Р(окончательное вырождение) = Р(Х„ = 0 для некоторого п) = = Р (U № = °}) = М = °)’ ' п ' поскольку события {Хп = 0} возрастают по п. □ Задача 1.7.4. В момент времени / = 0 эксперимент начинается с одной красной кровяной клетки. В конце первой минуты красная клетка погибает и заменяется одной из следующих комбинаций с указанными вероятнос- тями: 1 две красные клетки с вероятностью , 2 одна красная, одна белая с вероятностью о * 1 две белые клетки с вероятностью —. Каждая красная кровяная клетка живет одну минуту и порождает потомков таким же образом, как и родительская клетка. Каждая белая кровяная
§ 1.7. Ветвящиеся процессы 129 клетка живет одну минуту и погибает без воспроизведения. Предположим, что индивидуальные клетки ведут себя независимо друг от друга. а) Найдите вероятность того, что ни одной белой клетки еще не по- явилось в момент времени t = п + 1/2 минут после начала эксперимента. б) Найдите вероятность того, что вся колония клеток в конце концов выродится. Решение, а) Событие «до момента времени п + 1/2 не появилось ни одной белой клетки» означает, что общее число клеток равно общему числу красных клеток и равно 2". Тогда, обозначая вероятность этого события рл, получим 1 /1\2Л ро=1, Р1 = 4 И р„+1=/Ц-^ , п>1, откуда следует, что р"=и) W (.J “W • б) Вероятность вырождения п удовлетворяет уравнению 1 2 , 2 , 1 1 2 I , 1 л п = -п+-д + -, или ?к--к+_=0, откуда следует, что 2 . 1 К 3 ± 3‘ Нужно взять наименьший корень п = 1/3. □ Задача 1.7.5. Пусть {Хл}—такой ветвящийся процесс, что Хо = 1, ЕХ| = pt. Докажите, что если Yn = %о +... + ХЛ и для 1 справедливо тождество Фл($) = Е$\ то Фл+1($) = $<р(Фл($)), где cp(s) = EsX|. Проверьте, что для Y = Хп функция Ф($) = Esr удо- влетворяет уравнению Ф($) = 5<р(Ф(s)), 0 0^1. Если pt < 1, докажите, что ЕУ = (1 - pt)”1. Решение. Запишем Ул+1 = 1 + Y\ + ... 4- У*1, где Ул —общее число потомков, порожденное индивидуумом / из первого поколения. Тогда Ул — это н.о. р. с. в. и их производящая функция распределения равна Фл($). 5 — 1104
130 Глава 1. Дискретные пространства элементарных исходов Поэтому / Фп+1 (s) = Esy"+I =s]TP(Xi =/)Цф„(5) = / /=1 = S £ Р(Х, = /)(Ф„($))' = $<р(Ф„($)). / Бесконечный ряд У = £2 имеет производящую функцию распределения Ф($) = lim Фл(5). Поэтому она удовлетворяет уравнению П—+ОО ф($) = $<р(ф($)). По индукции ЕУ„ = 1 + [1 + .. , + [1я. В самом деле, У1 = 1 +Х| и ЕУ| = 1 + pi. Предположим что данная формула верна для п k - 1. Тогда ЕП = (ФИ 1))' = <р(Ф*-1(1)) + <р'(Ф*-1 (1 ))Ф*_ 1 (1) = = 1 + [i(i +ц+ ... + [/"’) = 1 +[1 + [12 + ... + [Л что и завершает индукцию. Итак, ЕУ = (1 - pi)"1. □ Задача 1.7.6. При болезни Грина волосы становятся розовыми, а ног- ти — голубыми, но других симптомов она не имеет. Заболевший может заразить п следующих здоровых людей (п = 0, 1, 2, 3) с вероятностью рп, но не может заразить более трех людей. [Обычные предположения по поводу простых ветвящихся процессов.] Запишите выражение для ожи- даемого числа е индивидуумов, инфицированных одним заболевшим. Найдите вероятность п того, что эпидемия заглохнет, если вначале был один заболевший. Пусть ед и пл —значения е и п при ро = 2/5, р\ = р2 = 0 и рз = 3/5. Пусть ев и ля — значения е и л при ро = Pi = 1/10, р2 = 4/5 и рз = 0. Покажите, что ед > ев, но лд > л#. Решение. Выражение для е имеет вид е = р\ + 2р2 + Зрз. Пусть Xj — число заболевших индивидуумов в /*-м поколении и Xq = 1. Предположим, что каждый заболевший умирает, заразив п 3 других. Обозначим через л вероятность того, что эпидемия прекратится: л = P(^l = k^k = РО + Р1К + Р2К2 + РзЯ3. k Простые вычисления показывают, что ед =9/5, ев = 17/10. Найдем лд как наименьший положительный корень уравнения О = Ро + (Р1 - 1)л + р2я2 +Рзк3 = (л - 1)(|л2 +
§ 1.7. Ветвящиеся процессы 131 Тогда —3 4- \/33 лис =----6----« 0,46. Аналогично — наименьший положительный корень уравнения 0 = («-|)(|л-±), и ив = 1/8. Таким образом, ед > ев. но > п^. □ Задача 1.7.7. Предположим, что (Хг, г 0)— ветвящийся процесс, Хо = 1 и функция распределения вероятностей для Х\ равна G(s). а) Найдите итерационную формулу для производящей функции распре- деления Gr(s) случайной величины Хг. Сформулируйте результат относи- тельно вероятности вырождения в терминах G(s). 6) Предположим, что вероятность того, что особь оставит после себя k потомков в следующем поколении, равна pk = l/2*+I, k 0. Выведите из п. а), что вырождение произойдет с вероятностью 1. Затем докажите, что \ г - (г - l)s и получите вероятность того, что r-е поколение вымрет. в) Предположим, что каждая особь порождает не более трех потомков в следующем поколении и что вероятность рождения k потомков в сле- дующем поколении равна р* = С* • ^, 0 k 3. Какова вероятность вырождения? Решение, а) Пусть У" — число потомков индивидуума I в л-м поколе- нии. Таким образом, Хл+1 = У? + ... + ^, E(sx-+>) = E(E(sx"+' | %„)) = Р(Х„ = k) E(sr"+- +r‘) = *=0 = f; P(X„ = k) E(sY")k = £ P(X„ = k)G(s)k = G„(G(s)), fe=0 fe=0 и Gn+i(s) = Gn(G(s)). Вероятность вырождения — это наименьшее такое s е (0, 1], что s = G(s). б) Вычислим производящую функцию распределения G(s) = 2 + 22s + • • • = Решая уравнение $ = 2“J, ИЛИ (s ” О2 = 0» видим, что вырождение про- изойдет с вероятностью 1. 5*
132 Глава 1. Дискретные пространства элементарных исходов Докажем формулу для Gr(s) по индукции: Gf+i(s) = (г + 1) - rs (r + 2)-(r + l)s’ Поэтому вероятность того, что r-е поколение вымрет, равна Gr(0) = • в) В этом случае G(s) = ^(l + s)3, и, преобразуя это уравнение, получим 23s = (1 + s)3, или (s — l)(s2 + 4s — 1) = 0, значит, решения есть s = 1, s = ±у/5 - 2, а вероятность вырождения равна \/5 — 2 « 0,24. □ Задача 1.7.8. Рассмотрим такой процесс Галътона—Ватсона (т. е. ветвящийся процесс, в котором число потомков случайно и независимо на любом этапе деления), что P(Xj = 0) = 2/5 и Р(Х| = 2) = 3/5. Нужно вычислить распределение случайной величины %2- Для третьего поколения найдите все вероятности Р(Лз = 2£), £ = 0, 1, 2, 3, 4. Найдите вероятность вырождения в этой модели. Решение. Вероятность вырождения л = 2/3, и производящая функция распределения случайной величины %2 равна /ч 2 . 12 , 36 2 , /3\3 4 Ws) - 5 + 125 + 125s + (5) s • Производящая функция распределения имеет вид cpx3(s) = (px2(2/5 + 3s2/5). Тогда р№ = °> = I+ ГЯ- = 2> = 1 Р“-’ = 4> = р»=»>=I+£+1(1)!+©3(1)‘=°'54761; n4 q3 n5 q4 Р(Х3 = 2) = = 0,17142; Р(Хз = 4) = ^ + ^ + ^ = 0,17833; об лЗ Р(Хз = 6) = = 0,07465; 5' /3\7 Р(Хз = 8)= (^) =0,02799. \ О / Задача 1.7.9. Рассматривая вероятность вырождения (или другим пу- тем), решите следующую задачу. Никто, будучи в здравом уме, не захочет остановиться в гостини- це «Виртуальная реальность». Там комнаты пронумерованы от 0 до (3N - 3)/2, где N— очень большое целое число. Если 0 I (З^-1 - 3)/2,
§ 1.7. Ветвящиеся процессы 133 а /= 1, 2, 3, то имеется дверь между комнатами I и 3/ + /, через которую, если она не заперта, гости могут проходить в обоих направлениях. Кроме того, каждая комната с номером, большим чем (3^“’ — 3)/2, имеет открытое окно, через которое гости могут удрать на улицу (и будут так поступать). Других дверей и окон для гостей нет. Рис. 1.9 демонстрирует часть плана этажа гостиницы. Любая дверь гостиницы заперта с вероятностью 1/3 независимо от других. Прибывшего гостя размещают в комнате 0, и он может свобод- но перемещаться, насколько позволяют запертые двери. Покажите, что шансы гостя выбраться близки к (9 - \/27)/4. Решение. Обозначим через Хг число доступных комнат на уровне г удаления от 0. Запишем <рг(/) = Е/Лг, где ср> = ср, <рг+1 (о = Etx^=52 р(хг=п Е(Л+' । =о = =52 р(хг=о(е^)'=52 ₽(хг=/)(<р(о)'=фг(ф(о). Тогда cpr+i (/) = ср(ср(. • • <р(0 ...)) = <р(фг(0) и Р(уровня г нельзя достичь) = = ф(фг(0)). Теперь = (I)3 + 3I G)2'+ 3(1)2§/2 + (1)3/3 = ^ + 6/ + 12'2 + 8'3)- Значит, уравнение <р(/) = t принимает вид 27/= 1+6/+12/2 + 8/3, т.е. 1 - 21/+ 12/2 + 8/3 = 0. Разлагая на множители многочлен 1 — 21/+12/2+8/3 = (/ — 1 )(8/2+20/ — 1), находим корни t = 1, 4
134 Глава 1. Дискретные пространства элементарных исходов Между 0 и 1 находится корень (\/27 - 5)/4. Последовательность срл(0) монотонно возрастает и ограничена сверху. Поэтому она сходится: о/ а \ У27-5 Р(не выбраться) —> — , и Р(выбраться) -> 1 - ^~5 = 9~4^ и 0,950962. □ Задача 1.7.10. а) Зрелый индивидуум производит потомков соглас- но производящей функции распределения Л($). Предположим, что все начинается с популяции, состоящей из k индивидуумов, не достигших зрелости, каждый из которых достигает зрелости с вероятностью р и затем размножается независимо от других индивидуумов. Найдите производя- щую функцию распределения числа индивидуумов (не достигших зрелости) в следующем поколении. 6) Найдите производящую функцию распределения числа зрелых ин- дивидуумов в следующем поколении, если известно, что в родительском поколении имеется k зрелых индивидуумов. Решение, а) Пусть R — общее число (не достигших зрелости) потомков от одного (зрелого) родителя. Положим Л($) = Es\ Пусть Y — общее число (не достигших зрелости) потомков от (не достигшего зрелости) предка. Положим G(s) = Esr. Пусть Л4 = 1 или 0 в зависимости от того, достиг зрелости данный потомок или нет. Тогда g(s) = Es^ = sp + 1 - р. Далее, G(s) = E[E(sr | Af)] = p Es* + (1 - p)s° = (1 - p) + pF(s) = g(F(s)). Наконец, если — общее число (не достигших зрелости) потомков от k не достигших зрелости предков, то X(k} = У| + ... + У*, где случайные величины Уь ..., Yk независимы и распределены так же, как У. Поэтому Gk(s) = Es*” = Esy'+ -+r‘ = (Esr)* = «)]*. б) Пусть U — общее число зрелых потомков одного зрелого родителя. Положим H(s) = Esu = Е[Е($" | /?)]. Но Е($° | R = г) = 57 Скг skpk( 1 - p)r~k = (ps + 1 - p)r, k=Q поэтому H(s) = E(ps + 1 - p)R = F(ps + 1 - p) = F(g(s)).
§ 1.7. Ветвящиеся процессы 135 Наконец, если Z^k} —общее число зрелых потомков от k зрелых родителей, то Z(Zf) = U\ + ... + Uk, где случайные величины (7|, ..., Uk независимы и распределены так же, как U. Поэтому Hk(s) = Esz'“ = Esu>+-+Ut = (Esu)k = □ Задача 1.7.11. Покажите, что распределения в пп. а) и 6) из за- дачи 1.7.10 имеют одинаковое среднее, но не обязательно одинаковую дисперсию. Решение. Поскольку Gf(s) = g'(F(s))F'(s)1 Ис = О'(1) = Л'(1)ё/(/?(1)) = ^ Ун = Н'( 1) = g'( 1 )F'(g( 1)) = = Hg. средние одинаковы. Теперь подсчитаем вторые производные: G"(s) = F//(s)g'(/?(s)) + (F'(s))2g"(F(s)), o£ = G"(l) + G'(l)-(G'(l))2 = = F"( 1 )g'(F( 1)) + (F’( 1 ))2g"(F{ 1)) + = = 1 )R« + ।) + ~ v№g = = (c2f + y2F- + y2F(o2g + у2 - ~ H”(s) = g”{s)F'(g(s)) + {g'(s))2F"{g(s)), 9 9 9 9 ^H = ^FOg + ygOF, а это выражение не обязательно равно = yga2 + Uftfg- В данном при- мере о2 =р(1 -р). □
Глава 2 Непрерывные пространства элементарных исходов §2.1. Равномерное распределение. Плотность распределения вероятностей. Случайные величины. Независимость Probabilists do it continuously but discretely. Вероятностники делают это непрерывно, но прерывисто.1 (Из серии «Как они делают это».) Bye, Bi, Variate2 (Из серии «Фильмы, которые не вышли на большой экран».) После изучения основных вероятностных моделей с дискретными ис- ходами мы в состоянии продвинуться далее и поработать с моделями, в которых участвует несчетное число исходов. Теперь события ассоци- ируются с подмножествами непрерывного пространства (действительная прямая R, интервал (а, Ь), плоскость R2, квадрат и т. д.). Простейший слу- чай— когда пространство исходов Q представимо «хорошим» ограничен- ным множеством и вероятностное распределение соответствует единичной массе, равномерно по нему распределенной. Тогда событие (т. е. подмно- жество) А С Q имеет вероятность РИ) = ^. <2.1.1) где и(Л) — стандартный евклидов объем (либо площадь, либо длина) мно- жества А и u(Q) — то же для Q. Термин «равномерно распределенный» здесь ключевой; как показывает приведенная ниже задача 2.1.2, нужно тщательно разобраться, что это в точности значит в контексте данного примера. Полезное наблюдение состоит в том, что можно работать с плот- ностью равномерного распределения, которая приписывает точке х е Q ’Игра слов: «discretely» означает в англ, языке «прерывисто», a «discreetly» — осторож- но, благоразумно. Непереводимая игра слов.
§2.1. Равномерное распределение. Плотность распределения. Независимость 137 значение (2.1.2) а тогда вероятность события А СП вычисляется как интеграл РИ) = (2.1.3) и мы приходим к тому же ответу, что и в формуле (2.1.1). Поскольку /рП| О и § /пп,(х) dx = 1, вероятность события А С Q всегда находится между 0 и 1. п Заметим, что масса, приписываемая единичному исходу со, представимому в виде точки из Q, равна нулю. Поэтому масса, приписываемая любому конечному или счетному множеству исходов, равна нулю (поскольку это сумма масс, приписываемых каждому исходу); чтобы иметь положитель- ную массу (а значит, и положительную вероятность), событие А должно быть несчетным. Задача 2.1.1. Алиса и Боб условились встретиться в «Медном чай- нике» после своих субботних лекций. Каждый из них появляется там в некий момент времени независимо друг от друга, и это время равномерно распределено между 12 и 13 часами. Каждый ожидает другого в течение s минут, а затем уходит. Найдите наименьшее значение s, для которого вероятность встречи не менее 1/2. Решение. Множество Q — это единичный квадрат 5 с координатами О < х, у < 1 (время измеряется долями одного часа между 12:00 и 13:00). Каждая точка со = (х, у) е Q означает время х прибытия Алисы и у — Боба. Тогда событие «разница между момен- тами прибытия не превосходит s минут» — это полоска вокруг диагонали х = у. Д = {(х, y)&S: |х - у\ Дополнение этого множества состоит из двух 1 / 5 \ 2 треугольников площадью - ( 1 — 1 каждый (см. рис. 2.1). Поэтому площадь ц(А) равна и мы хотим, чтобы эта вероятность была не меньше 1/2. Отсюда получаем s 60 Г1 —« 18 минут. □ Задача 2.1.2. Следующая задача известна как парадокс Бертрана. На круге радиуса г случайным образом выбирается хорда. Найдите веро-
138 Глава 2. Непрерывные пространства элементарных исходов ятность того, что она длиннее, чем сторона равностороннего треугольника, вписанного в круг. Рассмотрим три различных случая: а) середина хорды равномерно распределена внутри круга, б) один конец хорды фиксирован, а второй равномерно распределен по окружности, в) расстояние между серединой хорды и центром круга равномерно распределено на отрезке [0, г]. Решение. В случае а) середина хорды должна находиться внутри круга, вписанного в треугольник. Поэтому пz . площадь вписанного круга яг2/4 1 Р (хорда длиннее) =------------------- площадь исходного круга яг2 4 В случае б) второй конец окружности должен находиться на противопо- ложной трети окружности. Поэтому Р(хорда длиннее) = о Наконец, в случае в) середина хорды должна находиться на расстоянии не больше г/2 от центра. Поэтому Р(хорда длиннее) = ^. □ Задача 2.1.3. Палочку разламывают на две части случайным обра- зом; затем ту часть, что длиннее, вновь разламывают надвое случайным образом. Какова вероятность того, что из трех частей можно образовать треугольник? Решение. Пусть длина палочки £. Если х — точка первого разлома, то 0 < х < I и точка х равномерно распределена на интервале (0, (). Если х £/2, то вторая точка разлома у равномерно распределена на интервале (О, х). См. рис. 2.2. В противном случае точка у равномерно распределена на (х, £). О у х £ Рис. 2.2 Поэтому Q = {(х, у): 0 х, у £\ у < х для х £/2 и х у < £ для х £/2}. Для того чтобы можно было образовать треугольник, точка (х, у) долж- на лежать в области Л, где А = {тах[х, у] > min[x, //] < |х - у\ <
§2.1. Равномерное распределение. Плотность распределения. Независимость 139 В силу симметрии решение дается следующим вычислением: 2 г/2 ! г/2+х 2г/2 Р(треугольник) = - § — $ dydx = - § dx, О £/2 О что приводит к ответу 2 In 2 - 1 ~ 0,3862944. □ Задача 2.1.4. Палочку разламывают в двух заранее намеченных совер- шенно случайным образом по всей ее длине местах. Какова вероятность того, что три полученные части образуют треугольник? Ответ. 1/4. Интересно, что это значение меньше, чем в задаче 2.1.3. Одно из отличий состоит в том, что в последней задаче пространст- во исходов Q есть квадрат (0, £) х (0, £) (см. рис. 2.3), т.е. больше, чем в задаче 2.1.3 (поскольку теперь, возможно, будет разло- мана на две части более короткая часть, что исключалось в предыдущем случае). С дру- гой стороны, интересующее нас событие от- вечает одному и тому же множеству А. Инту- итивно это должно привести к меньшей веро- ятности. И это действительно так, несмотря на то что вероятностная масса распределена в двух задачах по-разному. □ Задача 2.1.5. Монета в один экю — это диск диаметром 4/5. В традиционной игре с бросанием монеты монету бросают случай- ным образом на квадратную решетку, образованную линиями, отстоящими друг от друга на расстоянии 1. Если монета покрывает часть линии, вы теряете свой экю. Если нет — вы все равно теряете свой экю, но автомат исполняет государственный гимн по вашему выбору. Какова вероятность того, что вы получите возможность выбрать для себя государственный гимн? Решение. Не ограничивая общности, предположим, что центр монеты оказался внутри квадрата с вершинами (0; 0), (0; 1), (1; 0), (1; 1). Вы услышите гимн, если центр попал внутрь квадрата 5 вида Поэтому Р(автомат исполнит гимн) = площадь квадрата S = □ Есть ряд серьезных вопросов, возникающих сейчас, а обсудим мы их позже. Один из них — так называемая измеримость: есть странные
140 Глава 2. Непрерывные пространства элементарных исходов множества А С Q (даже если Q — единичный интервал (0, 1)), которые не имеют разумно определенного объема (или длины). Вообще, как измерить объем множества А в непрерывном пространстве? Это не обязательно множество, которое достаточно трудно описать (например, канторовский континуум /С имеет корректно определенную длину), но вычисление объ- ема, площади или длины лежит за границами возможностей стандартного интегрирования по Риману. (На самом деле корректно определенная длина множества /С равна нулю.) Чтобы изложить целостную теорию, необходи- мо прибегнуть к так называемому интегрированию по Лебегу, названному в честь А. А. Лебега (1875—1941), известного французского математика. (Будучи человеком очень простого происхождения, Лебег стал математи- ком высокого класса, что было необычно для того времени. Он славился безупречными и элегантными докладами и статьями.) В свою очередь, для интегрирования по Лебегу необходимы понятия сигма-алгебры и сиг- ма-аддитивной меры, которые глубоко обобщают понятия длины, площади и объема — частные случаи общей концепции меры. Эти вопросы будут обсуждаться в следующих томах. Теперь обсудим такой вопрос: а что будет, если распределение массы неравномерно? Этот вопрос имеет не только теоретический интерес. Во многих практических моделях Q — это неограниченное подмножество ев- клидова пространства Rd и объем этого множества бесконечен (например, это все пространство Rd или R+ = [0, оо) при d = 1). Тогда знаменатель u(Q) в формуле (2.1.1) бесконечен. Выход из этой ситуации следующий: рассмотрим такую функцию 0, что §/(x)dx= 1, и положим Q Р(А) = \f(x)dx, ACQ А (ср. с (2.1.3)). Такая функция f интерпретируется как плотность распре- деления вероятностей (п. р. в.). Далее в задачах возникают следующие естественные и важные примеры. Равномерное распределение на интервале (а, Ь), а < Ь: здесь Q = = (^» Ь) и f(x) = -^l(a<x<b). (2.1.4а) Гауссовское, или нормальное, распределение с Q = R и Z(x) = ^exp(_i(x“^)2)’ xeR- (2L46) Здесь pt € R, о > 0 — параметры, определяющие распределение. Графики нормальных п. р. в. на интервале около начала координат и на удалении от него приведены на рис. 2.4, 2.5.
§2.1. Равномерное распределение. Плотность распределения. Независимость 141 Это известная кривая, о которой великий французский математик А. Пуанкаре (1854— 1912) сказал: «Экспериментаторы думают, что это математическая теорема, а математики верят, что это экспериментальный факт». Рис. 2.4. Плотности нормального распределения, I 0,01 0,02 0,03 0,04 0,05 0,06
142 Глава 2. Непрерывные пространства элементарных исходов Экспоненциальное распределение', здесь Q = R+ и f(x) = Хе-^Цх > 0), X е R. (2.1.4b) Параметр к > 0 определяет распределение. Графики экспоненциальных п. р. в. показаны на рис. 2.6. Рис. 2.6. Плотности экспоненциального распределения Обобщение функции (2.1.4в) — это гамма-распределение. Здесь сно- ва Q = и п. р. в. равна /(%) = j^xa-'e-Xx/(x>0) (2.1.4г) ОО с параметрами а, К > 0. Напомним, что Г(<х) = § х*~{е~х dx (гамма-функ- о ция), здесь это нормирующая постоянная. (Напомним также, что для по- ложительного аргумента Г(л) = (п - 1)!; вообще Г(а) = (а — 1)Г(а - 1) для а> 1.) Гамма-распределение играет выдающуюся роль в статистике и будет часто возникать в последующих главах. Графики гамма-п. р. в. показаны на рис. 2.7. Другой пример — это распределение Коши, для которого Q = R и /(х) = - • -2VT1--• х G R, (2.1,4д) л т2 + (х - а)2 с параметрами а 6 R и т > 0. Интересно, что распределение Коши открыл Пуассон в 1824 г., когда построил контрпример к центральной предельной
§2.1. Равномерное распределение. Плотность распределения. Независимость 143 теореме. Рассказ об этом будет далее. Графики п. р. в. Коши приведены на рис. 2.8. Рис. 2.7. Плотности гамма-распределения 0,05 0,10 0,15 0,20 0,25 0,30 Рис. 2.8. Плотности распределения Коши
144 Глава 2. Непрерывные пространства элементарных исходов Огюстен Коши был стойким роялистом и ревностным католиком и, в отличие от многих выдающихся французских ученых того периода, имел сложные отношения с республиканским режимом. В 1830 г., во время одной из французских революций XIX столетия, он добровольно отправился в ссылку в Турин и Прагу, где давал частные уроки математики наследникам королевской семьи Бурбонов. Его избрание во Французскую академию состоялось лишь в 1838 г., когда он вернулся в Париж. Гауссовское распределение будет подробно изучаться далее. На данном этапе мы только приведем его обобщение на многомерный случай, когда Q = Rd и /(х) = "/— ,1------- ехр(-|(х - И, £-1(* - (2.1.5) 1 (v^HdetS)1/2 Ч 2х v 1 7 Здесь х и pi — действительные d-мерные векторы: (хЛ Л1Л : I pc = I : j е Rd, х^/ \pid/ а Е— обратимая положительно определенная (d х d)-действительная мат- рица с определителем Е > 0 и обратной матрицей Е-1 = (EJ1). (Матрица Е называется положительно определенной, если ее можно представить в виде произведения Е = ДД*, и строго положительно определенной, если в этом представлении матрица А обратима, т. е. существует обратная матрица Л"1 (в этом случае обратная матрица Е*"1 = Д*-1Д-1 также су- ществует). Легко видеть, что положительно определенная матрица Е всегда симметрична (эрмитова), т. е. Е* = Е. Значит, положительно определенная матрица имеет ортонормированный базис из собственных векторов, а ее собственные значения неотрицательны (положительны, если она строго положительно определена).) Далее, ( , ) означает евклидово скалярное произведение в Rd: d (х - (X, Е-‘(х - р,)) = ]Г(х, - - щ). 4=1 Плотность распределения вероятностей указанного вида называется мно- гомерным нормальным или гауссовским распределением. Как и прежде, возникает вопрос: функции f какого вида могут быть п. р. в.? (Типичный пример — функция/(х) = /(хе(0, 1)\/С), где/Сс(0, 1) — канторово множество. Здесь f 0 по определению, но как определить 1 § f(x) dx?) И снова ответ можно найти в теории интегрирования по Лебегу, о К счастью, в «реалистичных» моделях такие проблемы возникают редко и остаются в тени других более практических вопросов.
§2.1. Равномерное распределение. Плотность распределения. Независимость 145 Итак, с этого момента и до конца главы наша базовая модель такова, что исходы со пробегают «дозволенные» подмножества А С Q (такие под- множества называются измеримыми и будут введены позже). Очень часто в качестве Q будет выступать ЕК Вероятность Р(Л) можно вычислить для любого такого множества А (называемого событием из Q) как Р(Д) = \f(x)dx. (2.1.6) А Здесь [ — заданная п.р.в., / ^0 и § /(х) dx = 1. о Как и в дискретном случае, имеется интуитивно приемлемое свойство аддитивности: если Л1,Л2, ... —конечная или счетная последователь- ность попарно не пересекающихся событий, то p(U4/)=Ew <21-7) тогда как в общем случае Р ((J А^ ^^2 Р(Л')- Поскольку P(Q) = 1, получа- ем, что для дополнения Лс = Г2\/4 выполняется равенство Р(ЛС)= 1 — Р(Л), а для теоретико-множественной разности А\В мы имеем Р(Л\В) = Р(Л)- - Р(Л ПВ). Конечно, имеют место и более глубокие факты, упомянутые в дискретной теории, например формула включения-исключения. Неудивительно, что понятие случайной величины возникает в но- вой постановке из своего дискретного аналога: случайная величина — это функция X: ыеПмВД с действительными или комплексными значениями Х(<о) (в комплексном случае вновь рассматривается пара действительных случайных вели- чин, представляющих действительную и мнимую части). Действительная случайная величина должна иметь то свойство, что Ух е R множество {со е Q: Х(<о) < х} — это событие из Q, которому нужно приписать вероят- ность Р(Х <х). Тогда с каждой действительнозначной с. в. ассоциируется ее {кумулятивная) функция распределения (ф. р.) х е R ~ Fx(x) = Р(Х< х), (2.1.8) которая монотонно меняется от 0 до 1, когда х возрастает от -оо до оо (см. рис. 2.9). Величина Fx(x)=\-Fx(x) = P(X>x), (2.1.9) которая описывает хвосты распределения, также используется довольно часто.
146 Глава 2. Непрерывные пространства элементарных исходов х Рис. 2.9 Заметим, что определение (2.1.8) ведет к ф. р. Fx(x), непрерывной слева (на графике она представлена с помощью черных точек). Это означает, что Fx(xn) 7 Fx(x) при хп 7 х. С другой стороны, для любого х предел справа lim Fx(xn) также существует, но равенства этого предела значению Fx(x) хп\х не гарантируется (это отмечено кружочками на графике). Конечно, и хвост распределения Fx(x) непрерывен слева. Однако если принять определение Fx(x) = Р(Х ^х) (в некоторых учеб- никах так и сделано), то функция Fx становится непрерывной справа и то же верно для Л%(х). Пример. Если Х = Ь — это действительная постоянная, то ф. р. Fx — это функция Хевисайда Fx(y) = l(y>b). (2.1.10а) Если Х=1д (т. е. индикатор события Л), то Р(Х<у) равно 0 для £/^0, равно 1 - Р(Л) для 0 < у 1 и равно 1 для у > 1. Обобщим: если X принимает дискретное множество действительных значений, т. е. конечное или счетное множество, без точек накопления на 1R, пусть это у} е 1R, у} < у/+\, то функция Fx(y) постоянна на каждом полуинтервале у/ < х yj+i и имеет скачки в точках у; размера Р(Х = yj). □ Заметим, что все обсуждавшиеся ранее примеры с. в. на дискретных пространствах можно рассмотреть в рамках нынешнего подхода. Напри- мер, если X ~ Bin(n, р), то Fx(y)= £ С^рт(\-р)п-т1(у>0). (2.1.106) 0^.т<у,т^п Если X ~ Ро(Х), ТО Fx(y) = e~l 52 ^J/(i/>0). (2.1.10b) 0^п<у На рис. 2.10 приводятся графики функций Fx ~ Ро(Х). Если X ~ Geom(p), то /?х(//) = Д//>0)(1-<7) 52 qn. (2.1.10г) 0^Л<£/
§2.1. Равномерное распределение. Плотность распределения. Независимость 147 График ф. р. для с. в. X ~ Geom(q) приведен на рис. 2.11 вместе с графиком ф. р. пуассоновской с. в. с К = 1 (обе с. в. имеют одно и то же среднее 1). Рис. 2.10. Функции распределения распределения Пуассона Рис. 2.11. Функции распределения геометрического распределения и распределения Пуассона
148 Глава 2. Непрерывные пространства элементарных исходов Говорят, что случайная величина X имеет равномерное, гауссовское, показательное, гамма-распределение или распределение Коши (с со- ответствующими параметрами), если ф. р. Fx(y) выражается формулой Р(Х < у) = § /(х)/(х < у) dx через соответствующую п. р. в. Например, для равномерного распределения 'О, у^а, Fx(y) =<(//- a)/(b - а), а < у < ft, (2.1.11а) для гауссовского распределения yeK (2.1.116) для показательного распределения Fx(y) = О, у^О, 1 - у > О, для гамма-распределения Fx(y) = щ 'е Xxdx l(y>0), а для распределения Коши W) = ± (arctg(^^) + £), у € R. (2.1.11b) (2.1.11г) (2.1.11д) Соответствующие обозначения таковы: X ~ U(a, b), X ~ N(pt, а2), X ~ ~ Ехр(Х), X ~ Gam(a, К) и X ~ Са(а, т). Ниже приведены некоторые графики этих ф. р. Графики ф. р. нормаль- ного распределения приведены на рис. 2.12. Графики ф. р. показательного распределения показаны на рис. 2.13. Далее, графики ф. р. гамма-распределения показаны на рис. 2.14. Наконец, графики ф. р. для распределения Коши показаны на рис. 2.15. В общем случае говорят, что X имеет п. р. в. f (и пишут X ~ /), если V// е IR имеет место равенство у Р(Х<«/)= $ f(x)dx. (2.1.12) —ОО Тогда Va, b е 1R, а < ft, выполняется равенство ь P(a < X < b) = § /(х) dx, а (2.1.13)
§2.1. Равномерное распределение. Плотность распределения. Независимость 149 и вообще, для любого измеримого множества А с R справедливо равенство Р(ХеД) = \f(x)dx. Рис. 2.12. Функции распределения нормального распределения Рис. 2.13. Функции распределения показательного распределения
150 Глава 2. Непрерывные пространства элементарных исходов Рис. 2.14. Функции распределения гамма-распределения Рис. 2.15. Функции распределения распределения Коши Заметим, что во всех вычислениях с использованием п. р. в. можно пренебречь такими множествами С, что § dx = 0 (множествами меры 0). с
§2.1. Равномерное распределение. Плотность распределения. Независимость 151 Поэтому вероятности Р(а X Ь) и Р(а < X < Ь) совпадают. (Это, вообще говоря, неверно для дискретных с. в.) Медианой т(Х) с. в. X называется такое значение, которое «делит» область значений X на две части одинаковой массы. В терминах ф. р. и п. р. в. это означает следующее: ffi(X) = max[«/: Fx(y) > |] = max у: оо 5 fx(x) dx У (2.1.14) £ 2 Если функция Fx строго монотонна и непрерывна, то, очевидно, медиана т(Х) равна единственному значению у, для которого Fx(y) = 1/2. Иными словами, т(Х) — это единственное значение у, для которого У оо 5 fx(x)dx= §/x(x)dx. — оо У Модой с. в. X с ограниченной п. р. в. fx называется такое значение х, в котором функция fx достигает своего максимума; иногда локальные мак- симумы называют локальными модами. Задача 2.1.6. Мы с моей мамой планируем принять участие в телеви- зионном национальном тестировании коэффициента IQ (IQ — intelligence quotient — коэффициент умственного развития), где нужно ответить на большое число вопросов, вместе с отобранными профессорами математи- ки, модельными парикмахерами, музыкантами духовых оркестров и други- ми представителями различных слоев общества (не забудем и знаменитых личностей, конечно). Коэффициент IQ по-разному определяется для раз- ных возрастных групп. Для меня он равен —801п(1 — х), где х — доля правильных ответов, х—любое число между 0 и 1. Для мамы коэффициент IQ задается формулой -70 In у = -70 In(3/4 - у) + 70 In 3/4, где у — 3/4 ее доля правильных ответов (в ее возрастной группе не предполагается, что у превзойдет 3/4). Каждый из нас хочет получить значение IQ, равное как минимум 110. Какова вероятность того, что у нас это получится? Какова вероятность того, что мой IQ окажется выше, чем мамин? Решение. Мы вновь используем предположение о равномерности рас- пределения. Исход со = (хь хг) предполагается равномерно распределен- ным на множестве П, которое является прямоугольником со сторонами (0, 1) х (0, 3/4) площади 3/4. Имеется пара с. в.: Х(со) = -80 ln( 1 - Х|) для моего IQ, У(«) = -701пЦ-^ для маминого IQ,
152 Глава 2. Непрерывные пространства элементарных исходов и Vz/ > О выполняется соотношение 1 13/4 / IX Р(Х<у) = -Х|) < -^у) dx2dx{ = = dx\ = \- е'^80, т. е. X ~ Ехр( 1/80), о . 1 3/4 . Р(У <</) = — § § /(“и з/4 < уд//) dx2dx\ = 3(1 т.е. У~Ехр(1/70). Далее, P(min[X, У] < у) = 1 - P(min[X, У] у), и I 1 3/4 Q/4- P(min[X, У]^) = —$ 5 /(-ln(l-ln^^^^)dx2dx,= =е-('/8Ое-у/7О=е-зу/112> т.е. min[X, У]~Ехр(3/112). (2.1.15) Поэтому Р(каждый получит не менее 110) = е“3110/112 « е~3 (довольно маленькая вероятность). Чтобы увеличить эту вероятность, нуж- но усердно потрудиться и изменить исходное равномерное распределение на другое, смещенное к большим значениям Х[ и %2, которые равны долям правильных ответов. Для того чтобы вычислить Р(Х > У), рекомендуется использовать д(Х|,*2) м 1 _м,/яо якобиан ——«обратной» замены переменных Х[ = 1 — е М|/ , %2 = = 3(1 -е““2/70)/4 («прямая» замена — это и\ =-80ln(l -Х|), U2 = — 70 х х In -I)/2). Действительно, 3/4 а(х,, х2) з_1_ Ц|/80_1_ Иг/70 0(«ь«2) 4 80 70 ’ и 1 3/4 р(*>У)=ок$ S /(-801п(1 -Х|)>-701пЦ^)йх2йх, = = 374 И d“' = 1 о о 0 «2
§2.1. Равномерное распределение. Плотность распределения. Независимость 153 У В предыдущих примерах ф. р. F или имела вид F(y) = § f(x)dx, //eR, — оо или была кусочно постоянной, с положительными скачками в точках дис- кретного множества X с R. В первом случае говорят, что соответствую- щие случайные величины имеют абсолютно непрерывные распределения с функцией плотности /, а во втором — что они имеют дискретное рас- пределение, сосредоточенное на X. Нетрудно проверить, что абсолютная непрерывность влечет непрерывность функции Л, но не наоборот. Для дискретного распределения функция распределения кусочно постоянна, т. е., без сомнения, разрывна. Возможна, однако, комбинация этих двух типов распределений (см. рис. 2.16). Рис. 2.16 Более того, существуют функции распределения, не принадлежащие ни к одному из указанных типов, но мы не будем обсуждать их здесь (основной пример — канторовская лестница, она непрерывна, но возрастает от О до 1 на множестве /С нулевой меры, см. рис. 2.17). Рис. 2.17 Возвращаясь к случайным величинам, отметим, что во многих случаях не имеет значения, на каком вероятностном пространстве Q задана слу- чайная величина Х(со). Например, нормальные с. в. появляются во многих статистических моделях, но при этом важно только, являются ли они совместно гауссовскими или нет. Точно так же, показательное распределе- ние возникает во многих моделях, например, оно описывает время жизни
154 Глава 2. Непрерывные пространства элементарных исходов индивидуума или время между последовательными изменениями состояния системы, появляется и в чисто геометрическом контексте. Необходимо уметь работать с такими случайными величинами безотносительно кон- кретного вероятностного пространства Q. С другой стороны, стандартный способ представить действительную с. в. X с заданной плотностью Дх), х е R, таков. Вы выбираете Q как носитель плотности f, т. е. множество {х е R: f(x) > 0}, определяете вероятность Р(Д) как ^f(x)dx (см. формулу (2.1.6)) и полагаете Х(со) = со А (или, если желаете, Х(х) = х, х е Q). Действительно, тогда событие {X < у} совпадает с множеством {х е R: /(х) > 0, х < у}, а его вероятность равна у Р(Х<у) = < y)dx= f(x)dx. — ОО В последней части решения задачи 2.1.6 мы в точности это и выпол- нили: замена переменных и\ = -801n(l -Х|), и% = — 701п(3/4 — хг)/(3/4) с обратным якобианом 3 . ±р-«|/80 4 80 ±„-«2/70 70 приводит К полупрямым Н1>0 И «2 > 0 С ПЛОТНОСТЯМИ е “'/^/SO и £-«>/70/70 и множителем 1(и\ > uzY определяющим событие. Чтобы ясно представлять себе равномерную с. в. на интервале (a, ft), рассмотрим модель cQ = (a, ft) и определим функцию f формулой (2.1.4а); для показательного или гамма-распределения Q = R+ (положительная по- луось) и f задается формулами (2.1.4в) и (2.1.4г) соответственно, а для гауссовского распределения или распределения Коши Q = R (вся прямая), a f определяется формулами (2.1.46) и (2.1.4д) соответственно. Во всех случаях стандартное уравнение Х(х) = х определяет с. в. X с соответству- ющим распределением. Такое представление с. в. X с заданной плотностью/функцией рас- пределения особенно полезно, когда приходится иметь дело с функцией У = g(X). См., например, соотношение (2.1.17). До сих пор рассматривались два типа с. в.: или а) с дискретным множе- ством значений (конечным или счетным), или 6) с плотностью (на множе- стве R или С). Эти два типа не исчерпывают всех ситуаций, которые могут возникнуть. В частности, в ряде приложений требуется рассмотреть с. в. X, которая является «смесью» двух вышеупомянутых типов, т. е. положитель- ная часть вероятностной массы сосредоточена в точке или точках, а другая часть распределена с некоторой плотностью на интервале из R. Тогда
§2.1. Равномерное распределение. Плотность распределения. Независимость 155 соответствующая ф. р. Fx имеет в точках ху-, для которых Р(Х = х7) > О, скачки размера Р(Х = х7) и абсолютно непрерывна вне этих точек. Типич- ный пример — функция распределения Fw времени ожидания W в очереди со случайными временами поступления требований и случайными вре- менами обслуживания (популярная интерпретация — парикмахерская, где посетитель ждет, пока парикмахер обслужит предыдущего клиента). Вы можете удачно выбрать момент прихода, когда очередь в парикмахерской отсутствует, тогда время ожидания равно нулю, а вероятность такого собы- тия хоть и мала, но положительна. В противном случае нужно подождать положительное время; при простейших предположениях о временах по- ступлений требований и временах обслуживания функция распределения такова: О, Fw(y) = P(W <у)={ Z/^0, //>0. (2.1.16) 1 — ^е-(Н-Х)£/ р. Здесь X, pt > 0 — интенсивности двух показательных распределений: X — интенсивность поступления требования и pt — интенсивность обслужива- ния. Формула (2.1.16) имеет смысл, если X < р, т. е. скорость обслуживания превышает скорость поступления заявок; тогда есть гарантия, что очередь не переполнится со временем. Вероятность P(U7 = 0) того, что вам не придется ждать, равна 1 — Х/р. > 0, а вероятность того, что время ожидания превысит £/, равна В этом примере распределение величины W имеет дискретную компо- ненту (сосредоточенную в точке 0) и абсолютно непрерывную компоненту (сосредоточенную на (0, оо)). Очень часто нужно найти плотность и функцию распределения слу- чайной величины У, которая является функцией g(X) другой случайной величины X с заданной плотностью или функцией распределения. Задача 2.1.7. Площадь круга имеет показательное распределение с па- раметром X. Найдите плотность распределения радиуса круга. Ответ. Искомая плотность имеет вид fp(y) = 2к\уе~**у21 (у > 0). □ Задача 2.1.8. Радиус круга показательно распределен с параметром X. Найдите плотность распределения площади этого круга. Ответ. Искомая плотность имеет вид g(s) = Д—□ v4ks В этих двух задачах присутствуют два взаимно однозначных отоб- ражения — квадрат и квадратный корень. Для функции g общего вида ответ возникает в результате непосредственных вычислений при помощи обратного якобиана. Точнее, если Y = g(X), то прямая замена переменных
156 Глава 2. Непрерывные пространства элементарных исходов имеет вид у — g(x) и Ш = € Range(g)) 52 <2117) X . g(x)=y Здесь Range(g) — это множество {у: у = g(x) для некоторого х е R} и предполагается, что прообраз точки у — дискретное множество, которое позволяет выполнить суммирование. Уравнение (2.1.17) имеет место, если его правая часть — это корректно определенная плотность распределения (это значит, что g'(x) =0 лишь на «тонком» множестве значений х). Задача 2.1.9. Случайная величина X равномерно распределена на от- резке [0, 1]. Найдите функцию и плотность распределения с. в. У, где Y___а + ЬХ Y “ c — dX' а, by с, d > 0 и d с. Решение. Используя формулу (2.1.17), немедленно получаем, что плотность распределения случайной величины Y равна f , ч bc + ad faa + b\ >Ay)=W^yf- ye\~c'~d)- ° Пример. Если by ceR— постоянные, c^O, то fx+b(y) = fx(y ~b) и fcX(y) = Комбинируя эти две формулы, легко видеть, что нормальное распреде- ление и распределение Коши имеют следующие масштабные свойства: если X ~ N(pt, о2), то -(X - pt) ~ N(0, 1), и если X ~ Са(а, т), то -(X - а) ~ Са(1, 0). Также если X ~ N(pt, о2), то сХ + b ~ N(cpt + b, с2о2), и если X ~ Са(а, т), то сХ + b ~ Са(са + Ьу ст). □ Формула, возникающая в задаче 2.1.7, имеет вид (^(у) = 2ЛИх(У2)1(У > 0) (в предположении, что с. в. X принимает неотрицательные значения). Ана- логично в задаче 2.1.8 мы имеем fx*(y) = ^=(fx(Vy) + fx(~Vy})!{y > 0) (что равно l/(2x/^)/x(x/^)/(t/> 0), если случайная величина X неотрица- тельна).
§2.1. Равномерное распределение. Плотность распределения. Независимость 157 Предполагая, что g — взаимно однозначное отображение, по крайней мере на области значений с. в. X, можно упростить формулу (2.1.17), по- скольку суммирование сводится к одной точке х(у) = g~'(y): Му) = /x(-y(</))|g,(j(y))|/(t/ е Range(g)) = fxW)) k'G/)l !(У e Range(g)). (2.1.18) Рассматривая пару X, Y из общей совокупности случайных величин Хь ..., Хл, удобно использовать понятие совместной плотности рас- пределения и совместной функции распределения (точно так же, как мы использовали совместные вероятности в дискретном случае). Говоря формальным языком, для действительных с. в. Х\....Хп мы полагаем Рх(У\....Уп) = P(Xi <у\, .... Хп <уп) (2.1.19) и говорим, что они имеют совместную плотность распределения /, если Vr/ j, ..., уп е R выполняется равенство У\ Уп Fx(yx....уп)= \ ... \ f(x)dx. (2.1.20) — оо —оо Здесь X = (Х|, ..., Хп) — случайный вектор, образованный случайными величинами Хь ..., Хп, х = (Х|, ..., хп) —точка из и dx = dx\ .. .dxn — элемент евклидова объема. Тогда для заданной совокупности полуинтер- валов [а7, bj), j = 1, ..., и, мы имеем h ьп P{al<Xi<bl,...,an<Xn<bn)=^...\f(x)dx, ап а на самом деле Р(Х е Л) = § f(x) dx для любого измеримого подмножества Ле К". а В части В этой книги, изучая курс «Статистики 1В», мы будем постоян- но использовать обозначение fx для совместной плотности распределения с. в. Х|, ..., Хп, образующих вектор Х\ в случае двух с. в. X, Y пишем fxy(x, у), обозначая совместную плотность распределения, и Fx,y(x, у), обозначая совместную функцию распределения, х, j/eR. Удобная формула Для fxy — это /х.г(х, у) = ^Fx.y(x, у). (2.1.21) Как и ранее, совместная п. р. в. /(х, у) должна только быть неотрица- тельной и иметь интеграл § /(х, y)dydx = 1; она может быть неограни- R2 ченной и разрывной. То же верно для /х(х). Мы пишем (X, У) ~ /, если f = fxy-
158 Глава 2. Непрерывные пространства элементарных исходов В задаче 2.1.6, приведенной выше, совместная функция распределения двух IQ равна Fx.y(x, у) = и({(хь х2): 0^хь х2 < 1, -801n(l -х|)<х, -701п^^<г/})/(х, у>0) = = (1 - е~х/80)(1 - е-у/70)/(х, у > 0) = Fx(x)FY(y). Естественно, совместная плотность распределения также является произ- ведением /х.у(х, У) = <^"х/80/(х > 0)^е-^1(у > 0). oU /и Если нам известна совместная п. р. в. fxy двух с. в. X и У, то их маргинальные плотности fx и fy можно найти интегрированием по допол- нительной переменной: fx(x) = 5 fx.y(x, У) dy, fY(y) = 5 fx.y(x, у) dx. (2.1.22) R R Это равенство интуитивно понятно: мы применяем непрерывный аналог формулы полной вероятности, интегрируя по всем значениям Y и исключая таким образом случайную величину Y из рассмотрения. Точнее, для любого у е R справедливо равенство Fx(y) = Р(Х < у)— Р(Х < у, —оо < У < оо) = У ОО у = $ fx.Y(x,x,)dx,dx= $ gx(x)dx, (2.1.23) —оо —оо —оо где оо gx(x)= 5 /х.у(х, xz) dx/. — ОО С другой стороны, вновь для любого у е R мы имеем у Fx(y)= $ fx(x)dx. (2.1.24) — ОО Сравнивая правые части равенств (2.1.23) и (2.1.24), получим равенство fx = gx, что и требовалось. Пример. Рассмотрим двумерную случайную величину (X, У), имею- щую нормальное распределение. Совместное распределение величин X и У имеет вид (2.1.5) при d = 2. Теперь положительно определенные матрицы
§2.1. Равномерное распределение. Плотность распределения. Независимость 159 S и Е 1 можно записать в виде а? а|О2Л у-i _ 1 ( 1/а? -r/(aia2)\ \a1a2r а2 / 1 - г2 \-г/(О|О2) 1 /а2 / где О|, 02 — ненулевые действительные числа, т.е. of, о| > 0, а г — дей- ствительное число, |г| < 1. Равенство (2.1.5) тогда принимает вид &*-’, = 5^Vf^exp(2ir^x х [lirbf _ 2fU-Hi)<»-W) + у (2.1.25) L of O|O2 05 J/ Мы хотим проверить, что по отдельности X~ N(pt|, of) и X~N([i2, <?2), т.е. вычислить маргинальные плотности распределения. Запишем /*(*) = -------75=5 2nO)O2V 1 - г2 o’ JI _ 1 Г (X — p.!)2 _ g (х-|Х|)(у-Нг) . 2(l-r2)[ a? 0102 J f ovn (_ 1 Г (1 - ^)(x - (ii)2 ' 2(1-r2) I \ 02 O| 1 e-(x-ul)2/2af \/2по| \/2ло2\/1 - г2 где У\=У-Р2, Vi=r^(x-pO. Получим, что ZxW = 1 с-(х-Ц1)2/2а^ V^KOj т. e. X ~ NQjti, of). Аналогично Y ~ N(pt2, o|). □ Вышеупомянутый прием «стандартного представления», когда действи- тельную величину X ~ f интерпретируют как Х(х) = х для х е R, а вероят- ности Р(А) задаются формулой (2.1.8), применим также и для совместных распределений. Метод тот же: если у вас есть пара (X, Y) ~ /, возьмите о = (х, у) е Q = R2, положите Р(А) = § /(х, у) dy dx для А С R2 и определите А Х(со) = х, У(<о) = у. Подобный метод работает и в случае произвольной совокупности Xj, ..., Хп. Ряд задач, приведенных далее, относится к преобразованиям пары (X, Y) в ((/, V), где {/ = Я1(^ И, V = g2(X, Г).
160 Глава 2. Непрерывные пространства элементарных исходов В этом случае для вычисления совместной п. р. в. fuy на основе fxy нужно использовать формулу, подобную (2.1.17). А именно, если замена пере- менных (х, у) н-» (и, и), и =gi(x, у), v = g?(x, у), взаимно однозначна на области значений случайных величин % и У, то fu.v(u, v) = /((u, v) е Range(gi, g2))fx.y(x(u, и), у(и, ^[. (2.1.26) Здесь д(х, у) _ /dx/du dx/dv\ д(и, v) е \ду/ди dy/dv) — якобиан обратного преобразования (и, v) •-* (х, у): d fdx/du dx/dv\ /du/dx ди/ду\ 1 уду/du dy/dv) е \dv/dx dv/dy) Наличие абсолютной величины - ----- I d(u, v) гарантирует, что fu.v(u, v) 0. В частности, плотность распределения суммы X 4- Y и произведения XY вычисляется как fx+y(u) = $ fx.y(x, u-x)dx=^ fx.y(u - у, у) dy (2.1.27) R R fxy(u) = ^fx.y(x, u/x)^-dx = \ fx.y(u/y, y)-±-dy; (2.1.28) R R 1^1 ср. с формулами (1.4.9) и (1.4.10). Для отношения Х/Y формула имеет вид fx/y(u) = 5 \y\fx.y(yu, У) dy. (2.1.29) R Вывод формулы (2.1.27) таков. Если U = X 4- У, то соответствующая замена переменных имеет вид и = х 4- у и, например, v = у, а обратное х лл v) 1 д(х, у) преобразование имеет видx — u-v, y = v. Мы имеем —----- = I = д(х, у) d(u, v) откуда следует, что /%+у;у(ы, v)=fx,y(u — и, v). Интегрируя по dv, получим /\+г(н) = § fxy(u — и, v) dv, что и дает формулу (2.1.27). Средний интеграл можно получить, используя замену переменных и = х + у, v = x (или просто отмечая, что X и У можно поменять местами). Вывод формул (2.1.28) и (2.1.29) аналогичен, величины 1/|х|, 1/|г/| и |г/|, возникают как абсолютные значения соответствующих (обратных) якобианов. Для полноты изложения выведем общую формулу, предполагая, что отображение и\ = gx(x), ..., ип = gn(x) взаимно однозначно на области
§2.1. Равномерное распределение. Плотность распределения. Независимость 161 значений случайных величин Х\........Хп. В этом случае для векторов X = (Х|.....Хп) и U = (U\.....Un), Ui =gi(X), справедливо равенство /с/(И|...ип) = - ’^|/х(Х1(ц), ...,х„(и))х X I(u e Ranged, ..., gn)). (2.1.30) Пример. Для пары с. в. X, У, имеющих совместное нормальное распределение, рассмотрим плотность распределения X 4- Y. Из фор- мул (2.1.25), (2.1.26) следует, что fx+Y(“) = ---------exP( 9/1' '7Л x 2kO|O2V 1 - r2 £ \ A1 - r ) Г(х - ^i)2 9 (X - pi|)(u - x - pt2) , (U - X - pt2)2 X n *1 9 I ™2 O|O2 05 -1 Г xf _ g X|(0| — X|) ( 2(1 - r'2) [of oio2 2лСГ|СГ2’/1 — г2 где Xi = х- U| = и - Ц1 - р2- Выделяя полный квадрат, получим 2 ± _ 9_X!(U| - Xi) (U| -X[)2 _ 9 ”T“ 9 rf O|O2 O$ — I x ^O| 4~ 2ro\02 + O2 _ О|Ч-ГО2 ________________ ~a2 x/af 4- 2roiO2 + o| ) o2 4- 2г<ло2 + o2 Ц|(1 -I2) О|О2 Затем получим, что «I f , , Р[ 2(of+ 2roio2 + o|) IX+y(U) = —-—^=====5— 2л V О| + 2ro I о2 + о2 R — 1 -H2)2/2(af+2rO|O24-O2) \Х2л(о? 4- 2rtj|O2 4- of) Здесь переменная интегрирования равна _ * I + 2гст]О2 4- о| _ Qi 4- ГО2 | \/1 — г2 I 1 a 1 a2 02 Vaf 4- 2raiQ2 4- o| J Видим, что X + Y ~ N(pi + р2. of + 2roiO2 + о2) со средним значением Pi + Ц2 и дисперсией of + 2roiO2 + о2. □ 6 — 1104
162 Глава 2. Непрерывные пространства элементарных исходов P(X^w) § ke“x" du !/+£• _ § ke”Xy dv Определение условной вероятности Р(Л | В) не отличается от дискрет- ного случая: Р(Л | В) = Р(Л П В)/ Р(В). Например, если X — показательная с. в., то Vf/, w > 0 мы имеем Р^Х > и -к tn I X >. пЛ = Р(*^У + а1) _ р^ = е-^ = Р(Х>^). (2.1.31) Это свойство называется свойством отсутствия памяти показатель- ного распределения. Оно является аналогом соответствующего свойства геометрического распределения (см. формулу (1.5.6)). Неудивительно, что показательное распределение является пределом геометрического при р = е~х/л / 1 (и —► оо). А именно, если X ~ Ехр(Х) и ~ Geom(e“x/n), то V// > О мы имеем (1 - е-^) = Р(% < у) = Пт Р(Х(Я) < пу). (2.1.32) п—*оо Говоря об условных вероятностях (в дискретной или непрерывной по- становке), полезно иметь в виду условное распределение вероятностей. Соответственно, в непрерывной постановке можно говорить об условной плотности распределения, см. соотношение (2.1.34). Конечно, формула полной вероятности и формула Байеса остаются верными (не только для конечной, но и для счетной совокупности попарно непересекающихся событий В/, Р(В7) > 0). Другой замечательный факт — это две леммы Бореля—Кантелли, на- званных по имени Э. Бореля (1871 —1956), известного французского мате- матика (и военно-морского министра на протяжении 15 лет), и Ф.П. Кан- телли (1875—1966), итальянского математика (основателя итальянского Института актуариев). Первая лемма состоит в том, что для последо- вательности таких (не обязательно непересекающихся) событий B|, В2, ..., что 52 Р(5/) < оо, вероятность Р(А) равна 0, где А —это i пересечение П U В;. Доказательство немедленно получит тот, кто обу- /1^1 j^n чен основным манипуляциям с вероятностями: если Ап = U В/, то Ап+\ С Ап и A=Q Ап. Тогда AQAn, и потому P(A)^P(Art) Vn. Но Р(АЛ)^ 52 а эта п i^n сумма стремится к 0 при п—юо, потому что 52 Р(В7) <оо. Значит, Р(А) = 0. i Первая лемма Бореля—Кантелли имеет весьма поразительную интер- претацию: если 52 P(S/) < 00, то с вероятностью 1 происходит только ко- /
§2.1. Равномерное распределение. Плотность распределения. Независимость 163 нечное число событий В}. Причина этого в том, что вышеупомянутое пере- сечение А означает, что «происходит бесконечное число событий Bj». Фор- мально говоря, если со е Л, то со е для бесконечного числа индексов j. Вторая лемма Бореля—Кантелли гласит, что для таких независи- мых событий Bj, В2, .что ^P(Bj) = 00, выполняется равенство i Р(Л) = 1. Доказательство вновь получаем непосредственными оценками: ' л>1 Далее, p(^)=p(nsA=np(s/)=expfcin(|-p(B/^exp(-sp(B4 ' j^n ' поскольку ln( 1 — х) —х для х 0. В силу того что 52 Р(S/) = оо, получаем Р(Л£) = 0 Vn. Тогда Р(Лс) = 0 и Р(Л) = 1. Таким образом, если В|, В2,... —независимые события и 52 Р(В/)=оо, / то «с вероятностью 1 происходит бесконечное число этих событий». Например, в задачах 1.4.8 и 2.2.12 события «год k является рекорд- ным» независимы и имеют вероятности \/k. По второй лемме Бореля— Кантелли с вероятностью 1 будет бесконечное число рекордных лет, если продолжать наблюдения неограниченно. В непрерывном случае также можно попробовать работать с условными вероятностями вида Р(Л|Х = х) при условии, что с. в. X с плотностью распределения fx приняла значение х. Известно, что такое событие име- ет нулевую вероятность, поэтому даже совершенно корректные выкладки могут не привести к верным результатам. Фокус состоит в том, чтобы рассматривать не одно значение х, а все х из области значений с. в. X сразу. Говоря формальным языком, мы будем работать с непрерывным аналогом формулы полной вероятности: Р(Д) = $Р(Л \X = x)fx(x)dx. (2.1.33) Эта формула верна при условии, что вероятность Р(Л |Х = х) определена «разумно», что, как правило, возможно во всех естественно возникающих ситуациях. Например, если у) — совместная п. р. в. случайных ве- личин X и У, а А —событие вида {а < Y < Ь}, то Р(Л IX = х) = 5 fx.y(x, y)dy I fx.r(x, у) dyj. 6*
164 Глава 2. Непрерывные пространства элементарных исходов Следующий шаг — ввести условную п. р. в. fy\x(y\x) случайной вели- чины Y при условии {Х = х}: = (2.1.34) 1Х{Х) и записать естественные аналоги формулы полной вероятности и формулы Байеса: [у(У) = \fy I х(У I x)fx(x) dx, fy | x(y I x) = fx.y / $ fx I r(X I z)fy(z) dz. (2.1.35) Как и в дискретном случае, два события А и В называются независи- мыми, если Р(Д П В) = Р(А) Р(В); (2.1.36) в случае произвольной конечной совокупности A i, ..., Ап, п > 2, для неза- висимости требуется, чтобы для любого k = 2, ..., пи для любых i\, ..., 1 < ij < ... < ik п, выполнялись равенства р( П Л'А= П w- (2L37> \ 1^/Х* / 1^/Х* Аналогично с. в. X и У, заданные на одном и том же вероятностном пространстве Q, называются независимыми, если Р(Х < х, Y < у) = Р(Х < х) Р(Г < у) Ух, у е R. (2.1.38) Иными словами, совместная ф. р. Fx,y(x, у) разлагается в произведе- ние Fx(x)Fy(y). Наконец, совокупность случайных величин Х\,...,Хп (снова заданных на одном и том же вероятностном пространстве Q), п > 2, называется независимой (т. е. эти случайные величины независимы в совокупности), если для любого k = 2, ..., п и для любых 1\, ..., ik, 1 < i\ < ... < ik n, выполняются равенства P(X, <У\.....Xlt<№)= П P^<^’ (2.1.39) 1^/X* Замечание. Достаточно, чтобы только равенство (2.1.39) выполнялось для всей совокупности Хь ..., Хп, но при этом нужно разрешить yt при- нимать значение +оо: Р(Х1 < У\, .... Хп <уп) = U P(Xj<yj), yi, .... уп еК = Ки{оо}. 1^/<п (2.1.40) В самом деле, если некоторые случайные величины X/ в формуле (2.1.40) равны оо, это значит, что соответствующее условие yt < оо тривиально выполняется и его можно опустить.
§2.1. Равномерное распределение. Плотность распределения. Независимость 165 Если рассматриваемые случайные величины имеют общую п. р. в. fx.y, или fx, то формулы (2.1.39) и (2.1.40) эквивалентны тому, что эти плотности разлагаются в произведение: /хЖ у) = fx(x)fY(y), fx(x) = fX] (Xj).. ,fXn(xn). (2.1.41) Формальное доказательство этого факта следующее. Разложение Fx,y(y\, Уъ) = Fx(y\)Fy(y2) означает, что для любых у\, у? 6 R мы имеем У\ У2 У\ У1 $ $ fx.r(x, y)dydx = $ fx(x)fY(y)dydx. — 00 —оо —оо —оо Поэтому подынтегральные функции должны совпадать, т. е. fx,y(x, у) = = fx(x)fY(y). Обратная импликация очевидна. Рассуждения для произволь- ной совокупности X = (Xj, ..., Хп) аналогичны. Для независимых с. в. X, Y уравнения (2.1.27)—(2.1.29) принимают вид fx+Y(u) = 5 fx(x)fy(u - x)dx=^fx(u- y)fY(y) dy, (2.1.42) fxY(u) = ^fx(x)fY(u/x)-^dx=yx(u/y)fY(y)^dy (2.1.43) И fx/Y(u) = 5 \y\fx(yu)fY(y)dy. (2.1.44) R Ср. с задачей 2.1.15, приведенной ниже. Как и в дискретном случае, урав- нение (2.1.42) называется уравнением типа свертки (для плотностей). Понятие н. о. р. с. в., изученное в предыдущей главе, будет по-прежнему играть выдающуюся роль, особенно в §2.3. Задача 2.1.10. Случайные величины X и Y независимы и показательно распределены с параметрами X и р. Положим (7 = тах[Х, У], V = min[X, У]. Являются ли случайные величины U и V независимыми? Независима ли случайная величина U от события {X > У} (т. е. от с. в. /(X > У))? Решение. В терминах стандартного представления рассмотрим Q = = {(Xj, Х2): 0 < Xj, Х2 < ОО}, Р(Л) = § Хе-Хх’ ре“ЦХ2 dx2dx\. А Тогда вероятность P(V > у\, U < у2) равна Р(У\ < X, У < z/2) = Р(у\ <Х<у2) Р(у\ < У <У2),
166 Глава 2. Непрерывные пространства элементарных исходов что, в свою очередь, равно (е"Ху| _ e-x«)(e-W1 _ е-^)/(0 < ух < у2). С другой стороны, произведение P(V>yx)P(U<y2) = P(X, Y>yl)P(X, Y<y2) = = е-(Х+и)у.(1 _е-Хй)() явно имеет другое значение. Поэтому случайные величины U и V зависимы. Далее, Р(Х > У) = и произведение Р(Х > У) P(U < у) = - е-^)(1 - е-^) л т р отличается от Р(Х > Y, U < у) = Р(У <Х < у). Значит, U п {X > Y} зави- симы. □ Задача 2.1.11. Случайные величины X и Y независимы и показа- тельно распределены, каждая с параметром X. Покажите, что с. в. X -F Y и Х/(Х 4- Y) независимы, и найдите их распределение. Решение. Рассмотрим с. в. U = X 4- Y и V = Х/(Х -I- У) с областью значений и (0, 1) соответственно. Отображение (х\ / х + у \ (и\ ( ) ( // \ ) -= ( ), х, у G IR, \у) \x/(x + y)J \vj имеет обратное х = uv, у = и( 1 — v) с областью значений {и > О, 0 < и < 1} и якобианом §^ = det(Iu и) = -и. д(иу v) \1 - v -и) Тогда совместная п. р. в. fuy(u> и) равна \2ue~Xul(u > 0)/(0 < v < 1). С другой стороны, = $ fu.vlu, v) dv = X2ue~ul(u > 0), fv(v) = fu.vfu, v) du = /(0 <v < 1). Поэтому fu,v(u, v) = fu(u)fv(v), и случайные величины U и V незави- симы. □ Задача 2.1.12. Спортсмен стреляет по круговой мишени. Вертикальная и горизонтальная координаты точки попадания пули (при условии, что центр мишени — начало координат) — независимые случайные величины, каждая с распределением N(0, 1).
§2.1. Равномерное распределение. Плотность распределения. Независимость 167 Покажите, что расстояние от точки попадания до центра имеет п. р. в. re-f2/2 для г > 0. Найдите медиану этого распределения. Решение. Имеем X ~ N(0, 1), У ~ N(0, 1) и fxy(x, у) — ^-е~(х2+у2)/2, х, у G R. Положим R = \/Х2 + У2 и © = arctg(K/X). Область значений ) ь-+ J — это {г > 0, 6 е (-л, л)}, и якобиан д(г, 0) _ . /дг/дх дг/ду\ д(х, у) ~ [дв/дх дв/ду) равен (х/г у/r \ ( -у/х2 1/х I = Г>О, 0е(-л, л). 1 + (у/х)2 1 + (у/х)2 / Тогда обратное отображение (д) i—> (ху) имеет якобиан этому /л.е(Л 6) = re~r2/2l(r > 0)2-/(-л, л). Интегрируя по d0, получаем 7/?(г) = re^Kr > 0), 0(х, у) п д(г, 0) ” Г' П°' что и требовалось. Чтобы найти медиану m(R), рассмотрим уравнение 0 оо § re“^/2 dr = § re"^2 dr, о у из которого следует, что е”4'2/2 = 1/2. Значит, m(R) = ИгГ4. □ Мы завершим теоретическую часть этого параграфа следующим заме- чанием. Пусть X — с. в. с ф. р. F и у, 0 < у < 1, — значение, принимаемое функцией F, причем Л(х*) = у в точке х* = inf[x е R: Л(х) у]. Тогда P(F(X) <у) = у. (2.1.45а) В самом деле, в этом случае событие {F(X) < у} = {X < х*} имеет ве- роятность P(F(X) < у) = F(x*). В общем случае, если g: R -* R — другая функция и существует единственная такая точка a € R, что F(a) = g(a), < g(x) для x < а и F(x) g(x) для x a, то P(F(X)<g(X))=g(a). (2.1.456)
168 Глава 2. Непрерывные пространства элементарных исходов Задача 2.1.13. Случайная выборка Х|..........X2n+i взята из распреде- ления с п.р. в. /. Пусть Уь..., У2л+1—значения величин Xj...... расположенные в возрастающем порядке. Найдите распределение каждой с. в. Yk, k = 1, ..., 2п + 1. Решение. Если Xj ~ Д то 2/74-1 Ру.(у) = Р(^ < У) = Е С2П+1Р(уУ^ - р(у))2п+'ч> У € R. /=* Плотности fyk, k = 1, ..., 2п + 1, можно получить следующим образом. Случайная величина принимает значение х тогда и только тогда, когда k - 1 значение из Xj, ..., Хг^-ы меньше чем х, 2п + 1 — k значений больше чем х, а одно равно х. Поэтому В частности, если X/ ~ U(0, 1), то плотность выборочной медианы Ул+| равна /n+1W = ^±j!2!(x(|-x))/I. □ Задача 2.1.14. а) Пусть X и Y — независимые случайные величины с непрерывными симметричными распределениями с плотностями fx и fy соответственно. Покажите, что плотность распределения с. в. Z = X/Y равна ft(a) = 2 yfx(ay)fY(y)dy. о б) Пусть X и Y — независимые нормальные случайные величины с рас- пределениями N(0, а2) и N(0, т2) соответственно. Покажите, что случай- ная величина Z = Х/Y имеет плотность h(a) = —х-, где d = о/т ' + а2) ' (плотность распределения Коши). Указание. Используйте формулу Fz(a) = 2§ fx(x)fY(y)dxdy. О —оо Задача 2.1.15. Пусть X и Y — независимые случайные величины с плот- ностями fx и fy. Покажите, что случайная величина Z = Y/Х имеет плот- ность h(z)= fx(x)fY(zx)\x\ dx. —ОО
§2.1. Равномерное распределение. Плотность распределения. Независимость 169 Выведите отсюда, что с. в. Т = arctg(T/X) равномерно распределена на интервале (—я/2, я/2) тогда и только тогда, когда ~ 1 \ fx(x)fY(xz)\x\dx = — ОО ' ' для всех z € R. Проверьте, что это равенство верно, если обе величины X и Y имеют нормальное распределение со средним 0 и ненулевой диспер- сией а2. Решение. Функция распределения с. в. Z равна Fz(u) = P(Z < и) = P(Y/X < и, X > 0) 4- P(Y/X < и, X < 0) = = ^[х(х) 5 fy(y)dydx + 5 fx(x) 5 fy(y)dydx. (2.1.46) 0 — оо —оо их Тогда плотность распределения имеет вид , оо 0 fz(u) = Th,Fz^ = S fx(x)fy(ux)xdx - \ fx(x)fy(ux)xdx = au J 0 —оо = $ fx(x')fY(ux)\x\dx, —ОО что согласуется с формулой, полученной с помощью якобиана. Если случайная величина Т равномерно распределена, то Fz(u) = P(arctgZ arctgw) = arct^^+ Обратно, Zz(M) = ^ibj => /?z(u) = ^arCtgu + i => P(7-^«) = l« + l, или fr(u) = - на (—л/2, л/2). К Наконец, рассмотрим fx(x) = -yL-e~x2/2a2, fY(y) = -^e~!>2/2a2. v2ko v2ko Тогда i 00 5 fx(x)fy(ux)\x\ dx = —^ e-^^-^/^xdx = R 0 _ 1 ( ~g2 I°° _ 1 m ла2\и2+1 /Io rc(l+u2)’
170 Глава 2. Непрерывные пространства элементарных исходов Задача 2.1.16. Пусть Xj, Х2, ... —независимые случайные величины, распределенные по Коши, и каждая имеет плотность = K(rf2 + X2)' Покажите, что случайная величина (Xj + %2 + ••• + Хп)/п имеет то же распределение, что и Х\. Решение. Пусть сначала d= 1, п = 2, /(х) = —:---j-. Тогда случайная X 4-Х я 4* х ) величина |---2- имеет функцию распределения вида G(x) = P(Xj +Х2<2х) с плотностью распределения gW = 2g(2x), g(g> = g_! Теперь используем тождество ? ___________________________1_________ . = л(т + 1) т (1 + У2)(т2 + (х - у)2) У (т+1)2+х2’ которое является простым упражнением на комплексное интегрирование. Получим .. . 2 1 откуда следует, что g(x) = 2g(2x) = х- = ftx). В общем случае, если с. в. имеет вид Y — qX\ +(1 — q)X2, то ее плотность равна (x—qu)/(\—q) $ f(y)dydu = — R —oo R> что в силу того же тождества (с т = (1 - q)/q) равно q2q2 Теперь для d = 1 и произвольного п запишем Sn — П Sn + ^Хл. Базой индукции будет предположение, что ~ /(х). Тогда согласно предыдущим рассуждениям (с двумя слагаемыми 5Л_| и Хп) Sn ~ f(x).
§2.1. Равномерное распределение. Плотность распределения. Независимость 171 Наконец, для произвольного d положим Xt = X-Jd. Тогда Sn ~ /(х) = Замечание. С помощью характеристических функций решение мож- но получить быстрее, см. формулу (2.2.26д). Доказательство см. в зада- че 2.3.19, приведенной ниже. Задача 2.1.17. Докажите, что если X, Y и Z— независимые случайные величины и каждая из них равномерно распределена на (0, 1), то с. в. (XY)Z также равномерно распределена на [0, 1]. Решение. Рассмотрим величину 1п[(ХУ)2] = Z(lnX + In Г). Доказать, что величина (XY)Z равномерно распределена на [О, I], — это то же самое, что доказать, что величина —Z(lnX + lnK) показательно распределена на [0, оо). Величина W = - InX - In Y имеет плотность f ие~у, 0 < у < оо, w” = to. Совместная плотность fz,w(x, у) имеет вид Г Уе у fz.w(x, у) = | 0 если 0<х< 1, 0 < // < оо, в противном случае. Нас интересует произведение ZW. Удобно перейти от х, у к величинам и = ху, v = у/х с помощью обратного якобиана 1/(2и). В терминах но- вых переменных совместная плотность fu,v случайных величин U = ZW и V = W/Z имеет вид fu.v(u, v) = < 2v^ 0 1/2е-(uu)l/2 если и, v > 0, 0 < u/v < 1, в противном случае. Плотность распределения U тогда равна ОО . = ^fu.v(u, v)dv=\ ^(uv)l/2e~(uu),/2 dv = и оо = - 5 d(e-<“u)l/2) = = е~и, и>0, и где fu(u.) = 0 для и < 0. □
172 Глава 2. Непрерывные пространства элементарных исходов Задача 2.1.18. Пусть случайные величины Х\, ..., Хп независимы и по- казательно распределены с одним и тем же параметром X. Используя индукцию по п (или иным способом), покажите, что случайные величины тах[Х|.....Х„] и + 1%2 + ... + имеют то же распределение. Решение. Введем обозначения Yn = max[Xj, ..., Хл], Zn = Xj 4- ^X<i 4-... 4- -Хя. Теперь запишем Р(У„ < у) = (Р(Х, <«/))'’ = (! Для п = 1 имеет место равенство f = Z\. Используем индукцию по л: P(Zn<z/) = P(Zn_l + |xn<i/). Поскольку Хп/п ~ Ехр(пХ), последняя вероятность равна у 5(1 -e~Xz)n-xn\e-n^y-z}dz = о У е*у = п\е~пХу 5eXz(l - e~Xz)n~xе{п~х^г dz = пе~пХу § (и — l)'7“Idw = о 1 еХу-\ = пе~пХу vn-{ dv = e~nXy(eXy - If = (1 -е~Ху)\ □ о Задача 2.1.19. Предположим, что а > 1 и Ха— положительная дей- ствительная случайная величина с плотностью /а(0 = Ла/“-1ехр(-/а) для t > 0, где Ла — постоянная. Найдите Ла и покажите, что при а > 1 и s, t > 0 выполняется неравенство P(Xa^s + /|Xa^/)<P(Xa^s). Как выглядит это соотношение при a = 1?
§2.1. Равномерное распределение. Плотность распределения. Независимость 173 Решение. Должно выполняться равенство § fv(t)dt = 1, откуда сле- дует, что о ^а”1 ехр(-/а) dt = а-1 § exp(-/a)d(/a) = а-1 [е“/в]о° = а-1 о о и Да = а. Если а > 1, то для любых s, t > 0 мы имеем р(ха > s+/и, > о=P(p;/>tf) = ехр(—u“)d(u“) = £-------------= eXefp(/-t°fj = еХр(/“ ’ (S + = § ехр(—ил) diu*) = exp(-sa 4- отрицательные слагаемые) < exp(-sa) = P(Xa > s). Если a = 1, то /“-($ + /)“ = -$ и вышеупомянутое неравенство ста- новится равенством, так как P(Xa t) = ехр(—t). (Это отсутствие памяти у показательного распределения.) □ Замечание. Если интерпретировать Ха как время жизни опреде- ленного устройства, например электрической лампы, то неравенство P(Xa > s 4- /|Ха > /) < Р(^а > 5) подчеркивает «возрастной» феномен, когда старое устройство, бывшее в употреблении в течение времени t, с меньшей вероятностью прослужит еще время $, чем новое. Имеются примеры обратного неравенства: качество устройства (или индивидуума) улучшается в процессе работы (службы, жизни). Задача 2.1.20. Пусть X, У, Z— независимые с. в., каждая из которых равномерно распределена на отрезке [0, 1]. а) Покажите, что с. в. X 4- Y имеет п. р. в. треугольной формы: U, fx+Y(u) = 2 - и. 0, 1, 1 < и 2, и # [0, 2). б) Покажите, что P(Z > X + Y) = 1/6. в) Пусть вам даны три стержня длиной X, Y, Z соответственно. По- кажите, что вероятность того, что из этих стержней можно образовать треугольник, равна 1/2. г) Найдите п. р. в. />+k+z(s) случайной величины X4- Y4- Z для значений s е [0, 1]. Пусть с. в. W равномерно распределена на [0, 1] и не зависит от X, У, Z. Покажите, что вероятность того, что стержни длиной U7, X, У, Z могут служить сторонами некоторого четырехугольника, равна 5/6.
174 Глава 2. Непрерывные пространства элементарных исходов Решение, а) По формуле свертки п. р. в. fx+y(u) равна 1 1 $ fxMfy(u - х) dx = § /(0 и - х 1) dx, о о что приводится к виду и § dx = и, 0 и 1, о < 1 § dx = 2 - и, 1 и 2, < U-1 что и требовалось показать. Замечание. Плотность распределения вероятностей такой треугольной формы соответствует распределению Симпсона. T. Симпсон (1700—1761), английский ученый, внес значительный вклад в теорию интер- поляции и численные методы интегрирования. Он был наиболее выдающимся среди стран- ствующих лекторов и обычно читал лекции в модных лондонских кафе (в Англии в XVIII сто- летии это был популярный способ распространения научной информации). 6) Для вероятности P(Z > X + Y) запишем следующее выражение: ill 11 1 5 SS /(г > х + y)dzdydx = /(х + у < 1) 5 dzdydx = ООО 00 х+у 11-х 1 .1 = 5 5 О -x-y)dydx = ^(l - х)2 dx -к $(1 -x)2dx = 1/6; 0 0 о z о более краткий путь вычислений таков: E[P(Z > X + Y |Х + У)] = Е[(1 -(Х+У))/(Х+У< 1)] = 1 1 1 = $(! - u)fx+Y(u)du = 5(1 -u)udu = ^. о о в) Из трех стержней можно составить треугольник тогда и только тогда, когда ни один из них не длиннее, чем два других, взятых вместе. Таким образом, вероятность дополнительного события равна 3-1/6= 1/2. Отсюда заключаем, что Р (треугольник возможен) = ~.
§2.1. Равномерное распределение. Плотность распределения. Независимость 175 г) Как и в п. а), по формуле свертки находим, что функция равна 1 S 5 fx+Y(x)fz(s -x)dx=\j fx+Y(x)I(0 ^s-x^l)dx=^xdx = s2/2 о о при О О 1. Следовательно, 1 и» 2 1 3 i P(UZ>X+ Y + Z)= И уdsdw = \^dw = ^-. о о 2 о 6 24 Можно рассуждать иначе: вероятность P(UZ > X + Y + Z) равна 1 2 111 E([l - (X + Y + Z)\lx+Y+z<,) = $ bl - S)ds = 1 - 1 = ± Z О о Z4 0 Наконец, находим P(четырехугольник невозможен) = 4 • □ Задача 2.1.21. Пусть точка на плоскости имеет декартовы координаты (X, У) и полярные координаты (/?, 0). Покажите, что если X и У являют- ся независимыми одинаково распределенными нормальными случайными величинами с нулевыми средними, то случайная величина R2 имеет пока- зательное распределение и не зависит от 0. Решение. Совместная плотность распределения fxy равна х х е-(*2+у2)/2а2, а R и О определяются как R2 = T = X2 + Y2, e = arctgv- Л Тогда Mt, 6) = Д.г(х(/, 0), y(t, 0))/(/ > 0)7(0 < 0 < 2я))| |, где обратный якобиан имеет вид д(х, у) d(t, 9) да, бн-1 д(х, у)) = det 2х -У х2 + у2 2у х X2 + у2 / 2х2 + 2 у2 \ _ 1 _ 1 \ х2 + у2 ) " 2’
176 Глава 2. Непрерывные пространства элементарных исходов Следовательно, в) = > 0)1(0 < 6 < 2я) = ^.(t)fe(O), где Mt) = ^e-^Kt > 0), /е(6) = ^/(0 < 6 < 2л). Таким образом, /?2 ~ Ехр(1/2о2), © ~ U(0, 2п), и величины R2 и © неза- висимы. □ Задача 2.1.22. Планета Зог представляет собой шар с центром О. Три космических корабля Л, В и С приземляются наугад на поверхность планеты, местоположения их посадок являются независимыми и равно- мерно распределенными на поверхности планеты. Вычислите плотность распределения угла Z.AOB, образованного прямыми ОА и ОВ. Корабли А и В могут иметь прямую радиосвязь, если Z.AOB < п/2, и аналогично для кораблей В и С и кораблей А и С. При заданном значении угла Z.AOB = у < п/2 вычислите вероятность того, что корабль С может связываться непосредственно либо с Л, либо с В. При заданном значении угла Z.AOB = у > п/2 вычислите вероятность того, что корабль С может непосредственно связываться с обоими кораблями А и В. Заклю- чите отсюда (или из иных рассуждений), что вероятность того, что все три космических корабля могут поддерживать связь друг с другом (таким образом, что, например, Л может выходить на связь с В через С, если необходимо), равна (п + 2)/(4п). Решение. Находим P(Z.AOB 6 (у, у 4- 8у)) ~ By sin у. л Поскольку ^sinydy = 2, плотность распределения угла Z.AOB равна 1 0 /(у) = £ sin у. В зависимости от величины Z.AOB возможны два случая. Если Z.AOB = у < то вероятность того, что С может иметь непосред- ственную связь либо с Л, либо с В, равна (п 4- у)/(2п). Если Z.AOB = у > -, то вероятность того, что С может иметь непосредственную связь с обоими кораблями Л и В, равна (п — у)/(2п). Действительно, корабль С находится «между» Л и В, и теневая зона, где С может общаться только с Л, но не может общаться с В, — это угол у — п/2. Зона, где С может общаться с В, но не может общаться с Л,— это также угол у — п/2. Тогда допустимая зона, т. е. зона «видимости»,— это угол у — 2(у — п/2) = п — у. Это показано на рис. 2.18.
§2.1. Равномерное распределение. Плотность распределения. Независимость 177 Следовательно, Р(все 3 корабля могут поддерживать радиосвязь друг с другом) = л/2 п л/2 = = + = О л/2 О 1 к/2 1 л/2 1г. , . 1 г . , л + 2 _. = 4 } sinYdY + 27 } YSinydy =□ О о Задача 2.1.23. а) Пусть Ль Л 2, Аг— такие случайные события, что Л/ П Л7= 0 при i / /. Покажите, что для числа N наступивших событий выполняется равенство г P(JV = O)=1-£P(A). /=1 б) Планета Зог представляет собой шар с центром О. На поверхность планеты наугад приземляются N космических кораблей, при этом точки их приземления являются независимыми и равномерно распределенными на поверхности сферы. Корабль, находящийся в точке Л, имеет непосред- ственную радиосвязь с другим кораблем в точке В, если Z.AOB < л/2. Вычислите вероятность того, что каждая точка поверхности имеет непо- средственную радиосвязь хотя бы с одним из N кораблей. Указание. Сечение поверхности сферы плоскостью, проходящей через центр сферы, называют большой окружностью. Полезно использовать тот факт, что с вероятностью 1 случайным образом выбранные N больших окружностей разбивают поверхность сферы на /V(/V - 1)4-2 непересека- ющихся областей.
178 Глава 2. Непрерывные пространства элементарных исходов Решение, а) Находим Р(/у = 0) = Р(Д{ П...ПЛ‘) = 1 - р(Ш = 1 -^Р(Л). \= \ ' /=1 6) Положение космического корабля определяет большую окруж- ность— границу зоны его радиопокрытия. Если такая большая окружность задана, то корабль с равной вероятностью может находиться в одной либо другой из полусфер, ограниченных этой окружностью. Пусть положения /V больших окружностей заданы и через Д|, ..., Дд^) обозначены f(/V) = /V(/V- 1) + 2 областей, на которые разбивается поверхность сферы этими большими окружностями. Введем событие Ei = {точки области Д, не имеют радиосвязи ни с одним из N кораблей}. Тогда Р(Е/) = 1/2^. Однако Р{каждая точка имеет радиосвязь хотя бы с одним кораблем} = х f(N) = 1 - = f р(£<) = 1 - = 1 - ( 2?+ , \=1 ' /=1 поскольку Ei П Ej = 0*при i / j. Отметим, что Д/, Д; должны лежать по разные стороны хотя бы от одной большой окружности. Краткое доказательство утверждения, сформулированного в указании, заключается в следующем. Пусть в общем случае /V больших окружностей разбивают сферу на f(N) непересекающихся областей. Введем в рассмот- рение еще одну окружность: в общем случае она будет пересекать каждую из предыдущих окружностей в двух точках. Немедленно получаем, что каждое такое пересечение соответствует разбиению уже существующей области на две. Следовательно, f(N+\) = f(N) + 2N, ftl) = 2. Из этого рекуррентного соотношения находим /(/V) = 2 + 2(1 + ... + /V- 1) = 2 + /V(/V- 1). Выражение «в общем случае» здесь означает «кроме вырожденных слу- чаев»; ясно, что вырождения не возникает с вероятностью 1. □
§2.2. Математическое ожидание, дисперсия, характеристическая функция 179 § 2.2. Математическое ожидание, условное математическое ожидание, дисперсия, производящая функция, характеристическая функция Tales of the expected value1 Сказки об ожидаемых величинах (Из серии «Фильмы, которые не вышли на большой экран».) They usually have difficult or threatening names such as Bernoulli, De Moivre—Laplace, Chebychev, Poisson. Where are the probabilists with names such as Smith, Brown, or Johnson? У них обычно трудные или даже пугающие фамилии, такие как Бернулли, Муавр—Лаплас, Чебышёв, Пуассон. Где же вероятностники с такими фамилиями, как Смит, Браун или Джонсон? (...Иванов, Петров, Сидоров) (Из серии «Почему их не понимают».) Математическое ожидание, или среднее, и дисперсия случайной величины X, имеющей плотность распределения fx, вычисляются анало- гично случаю дискретных величин. А именно, EX=^xfx(x)dx и VarX = $(х- EX)2 fx(x)dx. (2.2.1) Ясно, что VarX = $(х2 - 2х EX + (ЕХ)2)/х(х) dx = = $ x2fx(x) dx - 2 EX 5 xfx(x) dx + (EX)2 § fx(x) dx = = EX2 - 2(EX)2 + (EX)2 = EX2 - (EX)2. (2.2.2) Конечно, эти формулы имеют смысл только тогда, когда интегралы существуют; в случае математического ожидания требуется, чтобы вы- полнялось равенство ^\x\fx(x)dx < оо. В противном случае, т.е. когда 5 \x\fx(*)dx = оо, говорят, что случайная величина X не имеет конечного математического ожидания (или что ЕХ не существует). Аналогично для VarX. Замечание. Иногда проводят дальнейшую классификацию, рассмат- ривая вклад, который вносит в интеграл ^xfx(x)dx каждый из интегралов оо 0 оо О и § . Действительно, § xfx(x)dx соответствует ЕХ+, а § (-x)fx(x)dx О —оо 0 —оо 1 Ср. название популярного в США и Великобритании телесериала «Tales of the Unex- pected».
180 Глава 2. Непрерывные пространства элементарных исходов соответствует ЕХ_, где Х+ = max[0, X] и X- = - min[0, X]. Работать с ин- ое о тегралами § и § проще, так как переменная х сохраняет свой знак 0 —оо на каждом из интервалов (0, оо) и (-оо, 0). Тогда говорят, что ЕХ = оо, оо 0 если § xfx(x) dx = оо и § (—х)/%(х) dx < оо. Аналогично ЕХ = -оо, если 0 —оо оо 0 5 xfx(х) dx < оо, но § (-x)fx(x) dx = оо. 0 — оо Формулы (2.2.1) и (2.2.2) согласуются со стандартным представлением случайных величин, когда полагают Х(х) = х (или Х(со) = со). Действитель- но, мы можем сказать, что для вычисления ЕХ мы интегрируем величины Х(х), а для VarX — величины (Х(х) - ЕХ)2 относительно плотности /%(х), что приводит к полной аналогии с формулами для дискретного случая, в котором ЕХ = ^Х(со)рх(со) и VarX = ^2(Х(со) - ЕХ)2р(со). (О со Пример. Для X ~ U(a, b) среднее и дисперсия имеют вид ЕХ = Цд VarX = (f>]~2a)2. (2.2.3а) Действительно, cv 1 г , 1 /х2\|ь 1 Ь2 - а2 Ь + а ЕХ=--------\xdx=T------Hr =о"Т----------= b-aJ b-a\2J\a 2 b-a 2 а это середина интервала (а, Ь). Далее, 1 С 2 j 63 — а3 1 ,,2 । » 2\ 7---\ X1 dx = —------- = - (bz + ab + ст), b - a J 3(b -a) 3 ' Следовательно, VarX = hb2 + ab + a2) - |(fe + a)2 = . □ 3 4 12 Пример. Для X ~ N(p, a2) мы имеем EX = p, VarX = a2. (2.2.36) Действительно, EX = .— ^xexpf (x - pt)2) dx — 1 2a2 = +h) exp(~i(x - ю2) dx=
§2.2. Математическое ожидание, дисперсия, характеристическая функция 181 и 1 х/2по х exp ^х2) dx 4- ц 1 х/2ко = O + (1^J=- \/2по exp^-^x2) dx = (1 VarX = §(х - ц)2 ехр(—2^2 (х - ц)2} dx = Пример. Для X ~ Ехр(Х) мы имеем ЕХ = |, VarX = ± Л оо . оо EX = X § хе-Хх dx = х хе~х о Л о dx = о2. и оо £ X (2.2.3b) 1 Т 2 -X J 2 X2 Н е dx=x?; о .. v 2 1 1 отсюда следует, что VarX = = ^2 • Пример. Для X ~ Gam(a, К) мы имеем Е*=г Var*=§- О (2.2.3г) .-X _ Г(<х + 2) _ («+ l)ot е ах- х2Г(а) - X2 а Действительно, I-V Xя 'с а-1 -kxj 1 Т а -XJ Г(а4-1) а ЕХ = \ ххл le Kxdx = =7=7-7 \ хае Xdx = \г. . = г. Г(а) J ХГ(а) J ХГ(а) X Далее, ла оо * оо =— х2х*~'е~Ххdx = 2 Г(а) 3 Х2Г(а) 3 w v (а+1)а а2 откуда заключаем, что VarX = —--------\2 = К2 * Пример. Наконец, для X ~ Са(а, т) находим 5 •g---}—--?2 dx = °°» з т2 + (х - а)2 что означает, что ЕХ не существует (не говоря уже о VarX). Таблица некоторых вероятностных распределений приведена в конце книги (благодаря любезности Д. Вишика). (2.2.3д) □
182 Глава 2. Непрерывные пространства элементарных исходов В общем случае, когда распределение случайной величины X имеет дис- кретную и абсолютно непрерывную компоненты, формулы (2.2.1), (2.2.2) необходимо модифицировать. Например, для случайной величины W из формулы (2.1.15) имеем ЕГ = 0Р(Г = 0) + - \xe-^-X)xdx = —Ц-х. И о - х)2 Важным свойством математического ожидания является аддитивность: Е(Х+У) = ЕХ + ЕУ. (2.2.4) Чтобы проверить этот факт, воспользуемся совместной плотностью рас- пределения fx,Y'. EX + Е Y = xfx(x) dx + yfy(y) dy = R R = 5 x S fx.y(x, y) dy dx + 5 У 5 fx.y(x, y) dx dy = R R R R = $ $(x + y)fx,y(x, y) dydx = E(X+ Y). R R Как и в дискретном случае, мы хотим подчеркнуть, что (2.2.4) является общим свойством, которое выполняется для любых случайных величин X и Y. Здесь мы получаем это свойство в предположении, что X и Y име- ют совместную плотность распределения (а в §1.4 это свойство было установлено для дискретных случайных величин), однако свойство адди- тивности имеет место и в общем случае, независимо от того, являются ли X и Y дискретными или имеют маргинальные или совместные плотно- сти распределений. Полное доказательство требует привлечения понятия интегрирования по Лебегу и будет дано в одном из последующих томов. Еще одно свойство состоит в следующем: если с — это некоторая кон- станта, то Е(сХ) = сЕХ. (2.2.5) И вновь для случайной величины, имеющей плотность распределения, доказательство получить легко: для с 0 имеем Е(сХ) = 5 xfcx(x) dx = § х|/%(х/с) dx = с $ х/х(х) dx; R R R при с > 0 последнее равенство получается немедленно, а при с < 0 для получения результата необходимо поменять местами пределы интегриро- вания. Из формул (2.2.4) и (2.2.5), взятых вместе, получаем линейность математического ожидания: Е(с,Х + c2Y) = С! ЕХ + с2 ЕУ. (2.2.6)
§2.2. Математическое ожидание, дисперсия, характеристическая функция 183 Это свойство справедливо и для любого счетного набора случайных ве- личин: Е f 52= 52 с<EXi (2-2-7>> \ i / / при условии, что все средние значения ЕХ/ существуют и ряд £с/ЕХ/ абсолютно сходится. В частности, для таких случайных величин Xj, Х2, ..., что EXf = [1, находим Е (^2 X/) = п[1. \=1 ' Удобной (и часто используемой) формулой является правило неза- дачливого статистика Eg{X) = \g(x)fx(x)dx. (2.2.8) R Эта формула выражает среднее значение величины Y = g(X), т. е. функции от случайной величины X, через плотность распределения величины X. Формула справедлива при условии, что интеграл в правой части суще- ствует, т. е. § |g(x)\fx(x) dx < 00. R Полное доказательство формулы (2.2.8) вновь требует применения ин- тегрирования по Лебегу, но основано оно на простых рассуждениях. Пред- положим вначале, что функция g дифференцируема и g/ > 0 (т. е. g мо- нотонно возрастает и, следовательно, обратима: для любого у из области значений g существует единственное такое значение х = х(у) (=g-1 (у)) е IR, что g(x) = у). Благодаря формуле (2.1.17) мы имеем Еg(X) = $ yfgiX)(у) dy = 5 yfx(x(y))dy. R Range(g) g ' Wf Замена переменных y = g(x), где x(g(x)) =x, приводит последний интеграл к виду $ g'(x)g(x)fx wi dx = 5 g(x)fx(x) dx, R ' R что и дает правую часть формулы (2.2.8). Подобные аргументы применимы и в случае, когда g/ < 0: знак «минус» можно компенсировать перестанов- кой пределов интегрирования —оо и оо. Идея доказательства сохраняется и в случае, когда функция g непре- рывно дифференцируема и ее производная g/ имеет дискретное множество нулей (т. е. конечное или счетное множество, но без точек накопления в R). Это условие охватывает, например, все многочлены. Тогда мы можем разбить прямую R на интервалы, на которых g/ сохраняет знак, и повторить
184 Глава 2. Непрерывные пространства элементарных исходов наши рассуждения на каждом таком интервале. Затем суммирование по всем этим интервалам опять приводит к формуле (2.2.8). Еще одно полезное (и простое) наблюдение состоит в следующем: ра- венство (2.2.8) выполняется для любой кусочно постоянной функции g, принимающей конечное или счетное число значений z/z: в этом случае Eg(X) = ///₽(§(%) = //;) = 52«// g(x) = yj)dx=^g(x)fx(x)dx. i i R Используя свойство линейности, формулу (2.2.8) можно распростра- нить на класс функций g, непрерывно дифференцируемых на конечном или счетном множестве интервалов, образующих разбиение IR, например Этот класс функций охватывает все приложения, которые рассматривают- ся в этом томе. Примерами применения формулы (2.2.8) являются следующие равен- ства: ь Е/(а < X < Ь) = fx(x) dx = Р(а < X < b) а И b ЕХ1(а < X < Ь) = $ xfx(x)dx. а Аналогичная формула справедлива для математического ожидания Eg(X, У), это математическое ожидание можно выразить в виде двумер- ного интеграла по совместной п. р. в. fx,y\ Eg(X, Y) = g(x, y)fx.Y(x, у) dxdy. (2.2.9) R2 Важными примерами функций g являются: а) сумма x + у, для которой Е(Х + У) = § (х + y)fxy(x, у) dxdy = <\j xfx(x) dx + $ yfY(y) dy = EX + E Y R2 R R (cp. (2.2.4)), и б) произведение g(x, у) = xy, для которого получаем Е(ХУ) = xyfx.Y(x, у) dxdy. (2.2.10) R2 Отметим, что имеет место неравенство Коши—Шварца (1.4.18): | Е(ХУ)| (ЕХ2 ЕУ2)’/2,
§2.2. Математическое ожидание, дисперсия, характеристическая функция 185 так как при его доказательстве в §1.4 использовалось лишь свойство линейности математического ожидания. Ковариация Cov(X, У) случайных величин X и У определяется фор- мулой Cov(X, У) = $(х - EX)(i/ - EY)fx.y(x, y)dxdy = Е(Х - ЕХ)(Г - ЕГ) R2 (2.2.11) и совпадает с S S fx.Y(x, у)(ху - EX ЕY)dy dx = E(XY) -EXEY. (2.2.12) R R В силу неравенства Коши—Шварца |Cov(X, У)| (УагХ)!/2(УагУ)!/2, при этом равенство имеет место тогда и только тогда, когда X и У связаны отношением пропорциональности, т.е. X = cY, где с — (действительная) константа. Как и в дискретном случае, Var(X + У) = VarX + Var У + 2 Cov(X, У) (2.2.13) и Var(cX) = с2 VarX. (2.2.14) Если случайные величины X и У независимы и имеют конечные средние значения, то Е(ХУ) = ЕХЕУ. (2.2.15) Доказательство подобно тому, что было приведено для дискретных слу- чайных величин: в силу равенства (2.2.8) мы получаем Е(ХУ) = yxfx^fyiy) dxdy=^ xfx(x) dx § yfY(y) dy = EXE Y. R2 R R Немедленное следствие для независимых случайных величин таково: Cov(X, У) = 0, (2.2.16) значит, Var(X + У) = VarX + Var У. (2.2.17) Однако, как и прежде, ни одно из равенств (2.2.15), (2.2.16) не влечет за собой независимость величин (см. задачи 2.2.1 и 2.2.14). Обобщая, находим, что для любого конечного или счетного набора независимых случайных величин и действительных чисел имеет место фор- мула Var( 52 с,Х;) = 52 Var%< (2.2.18)
186 Глава 2. Непрерывные пространства элементарных исходов при условии, что все дисперсии VarX, существуют и 52 VarX/ < оо. i В частности, для таких н.о. р. с. в. Xj,X2, • ••» что VarX/ = о2, находим Var^5Z = п°2‘ Коэффициент корреляции двух случайных величин X, Y определяет- ся как Согг(Х, Y) = (2.2.19) V VarXv Var Y Поскольку |Cov(X, У)| (VarX)V2(Var У)1/2, справедливы равенства —1 Согг(Х, Y) 1. Более того, Согг(Х, У) = 0, когда X и У независимы (но не «тогда и только тогда», т. е. утверждения эти не являются равносильными), и Согг(Х, У) = 1 тогда и только тогда, когда X = cY и с > 0, и равен -1 тогда и только тогда, когда X = cY и с < 0. Пример. Для пары с. в. X, У, имеющей двумерное нормальное распре- деление с совместной плотностью распределения fx,y вида (2.1.24), пара- метр гб [—1, 1] представляет собой коэффициент корреляции Согг(Х, У). Более точно, VarX = о2, Var У = 02 и Cov(X, У) = ГО|О2. (2.2.20) На самом деле утверждение о дисперсиях получается немедленно, по- скольку X ~ N((i|, о2) и У ~ N(pi2, а|). Далее, для ковариации находим Ст(х- У} = Pl)b"рг)ехр(“2(Г^) х х [<£qii£ _2/«-Ki)to-w) + dj)dx = L Of OiO2 o$ J/ —------1 / „ № xy exp f- -—«- [^2 _ ^r—^— + ^2 D dy dx = 2naia2y/T^ " 2(1 - r2) Lof O|O2 a2]/ y = 2710,02^1^ exp(“2(l-r2) [ (o2 + ) dy dX' где теперь Z/i = У~гх^г- O| Следовательно, Cov(X, Y) = -------1----- ^xe x1/^ 5(^1 + rx^) x 27tO|O2V 1 - Г2 J O\J 2 -i i 2 f' jrl dy\ dx = — 5 ХГХ—е-х2/2а? _ 2o2(l-r2)J V2noi 3 «Л х
§2.2. Математическое ожидание, дисперсия, характеристическая функция 187 Другими словами, те элементы матриц Е и Е”1, что находятся вне диа- гоналей, совпадают с ковариацией. Следовательно, Согг(Х, У) = г. Легко видеть, что если случайные величины X и У независимы, то г = 0 и обе матрицы Е и Е-1 являются диагональными. А совместная плотность пре- вращается в произведение маргинальных плотностей: г / \ 1 / (х-ш)2 0/-Ц2)2\ = Й;---------2^-) = = 1 с-(х-ц,)2/2а? 1 с-(//-Ц2)2/2а^ \/2ла| х/2каг Важно отметить, что верно и обратное: если г = 0, то матрицы Е и Е“! являются диагональными и fx,y(x, у) распадается в произведение. Сле- довательно, для совместно нормальных случайных величин Cov(X, У) = О тогда и только тогда, когда X и У независимы. □ Понятие производящей функции распределения (и производящей функ- ции моментов) также вводится для непрерывных случайных величин сле- дующим образом: cpx(s) = Esx = § sxfx(x) dx, s > 0, R (2.2.21) Mx(Q) = Eeex = e6xfx(x) dx = <px(e°), 6 e R. R Производящая функция оказывается особенно полезной для неотрица- тельных случайных величин. Но даже в этом случае может не суще- ствовать для всех s > 0. Например, для X ~ Ехр(Х) мы имеем °° > > срл(х) = Х § sxe~Xxrfx = x_|ns, Л1х(0) = х—q. о Здесь ср% существует только тогда, когда Ins < X, т.е. s < ех, и М/(9) существует при 9 < X. Для случайной величины X ~ Са(а, т) производящая функция моментов не существует: Ее0х = оо, 9 Е R. В некоторых приложениях вместо аргумента ее используют функцию Lx(9) = Ее"0* = МД-9) = $ e~*xfx(х) dx, 9 Е R, R называют преобразованием Лапласа плотности fx. С другой стороны, характеристическая функция фх(О» определяемая формулой фх(/) = Eeitx = 5 eitxfx(X) dx, t E R, (2.2.22) R существует при любом /eR и любой плотности fx. Более того, фх(0) = Е1 = = 1, и |фх(01 S dx = $ fx(x) dx = 1. (2.2.23)
188 Глава 2. Непрерывные пространства элементарных исходов Кроме того, фх как функция от t является (равномерно) непрерывной на всей прямой R. Действительно, |фх(/ + 8) - фх(01 S |е;,/+8)х - ei,x\fx(x) dx = = 5 | . |g<8* _ ! (Zx(x) dx = $ |e/6x _ , |/x(x) dx Правая часть не зависит от t е R (равномерность) и стремится к 0 при 8->0. Последнее утверждение выполняется, поскольку |е|5х — 1| —>0 и все подынтегральное выражение |ez5x — 1|/д(х) 2/%(х) ограничено интегри- руемой функцией. Формальное доказательство заключается в следующем: зафиксируем е > 0 и выберем А > 0 настолько большим, чтобы выполня- лось неравенство 2 f fx(x)dx+ 2°^ fx(x)dx <^. -ОО А Далее, выбираем 8 таким малым, чтобы выполнялось неравенство |е'8*-1|<А Чх,-А<х<А; 1 1 4А этого можно добиться, поскольку elbx —» 1 при 8 —► 0 равномерно на (—Д, Л). Затем разбиваем весь интеграл на сумму и оцениваем каждое слагаемое отдельно: 5 |е'5х - 1 \fx(x) dx = ( f + $ + $) |?8ж - 1 \fx(x) dx < \-оо -А А' / —А оо\ А ^2( S + \)fx(x)dx + $ X—оо Д / -А Отметим несколько фактов, которые следуют непосредственно из опре- деления. 1. Если Y = сХ + 6, то фг(О = eltbtyx(ct). 2. Как и в дискретном случае, среднее ЕХ, дисперсию VarX и старшие моменты EXk можно выразить через значения производных функции ф% в точке t = 0: Ех = T^’L <2-224> VarX = (2.2.25) 3. Характеристическая функция ф%(/) однозначно определяет плотность распределения /%(х): если ф%(/) = фу(/), то fx(x) = fy(x). (Уточним, что \e*x-\\fx(x)dx^ + ^ = e.
§2.2. Математическое ожидание, дисперсия, характеристическая функция 189 последнее равенство следует понимать так, что fx и fy могут не совпадать на множестве нулевой меры.) Строгое доказательство будет дано в после- дующих томах. 4. Для независимых случайных величин X и Y справедливо равенство фх+У(/) = фх(Офг(0- Доказательство аналогично приведенному для дис- кретного случая. Если X ~ U(a, b), то 1 р .. eitb _ eita 'М(>=Л$‘! dI=w^- <2-2-26a> Если X ~ N((i, a2), to фх(0 = e‘'ix-'V/2 (2.2.266) Для доказательства положим (i = 0, a2 = 1, возьмем производные по t и проинтегрируем по частям: = S eilxe~x2/2 dx = -±= \(ix)eilxe~x2/2 dx = = —т=(—ie~*^2eltx)\-------\ teltxe~**l2 dx = -ЛЬДО- v2k l-oo V2k j Таким образом, (1пфх(0), = -^ следовательно, Inфх(О = ~j + С т.е. фх(О = есе-/2/2- Поскольку фх(0) = 1, мы получаем, что с=0. Характеристическую функцию для случая общих риа2 находим из сформулированного выше свойства 1, так как (X - (i)/a ~ N(0, 1). Производящая функция моментов может быть вычислена тем же спо- собом: Ее0х = евн+<*292/2 Замечание. В силу единственности случайной величины с заданной характеристической функцией мы вновь находим подтверждение уста- новленному ранее факту, что если случайные величины X~N([i|,a2) и N([12» ^2) независимы, то X + У ~ N([i । + (12» a2 + a|)- Если X ~ Ехр(Х), то фх(0 = \°^е“хе~Хх dx = (2.2.26в) О Если X ~ Gam(a, X), то фх(0 = (1-у)~“ (2.2.26г)
190 Глава 2. Непрерывные пространства элементарных исходов Чтобы доказать это утверждение, мы, как и ранее, продифференцируем по t и проинтегрируем по частям: S'hW = й RS Тdx “ RS Jix‘e'“~u‘dx - t. e. (In фх(0)' = (-a ln(X - //))', откуда фЛ(0 = c(k - Поскольку фх(0) = 1, мы получаем, что c = Xa. Это приводит к требуемому результату. Замечание. Используя вновь свойство единственности случайной ве- личины с заданной характеристической функцией, можно видеть, что ес- ли X ~ Gam(a, X), Y ~ Gam(a', X) и величины X и Y независимы, то X + Y ~ Gam(a + a', X). Кроме того, если Х\, ..., Хп являются н. о. р. с. в. и Xi ~ Ехр(Х), то Х\ + ... + Хп ~ Gam(n, X). Для того чтобы найти характеристическую функцию распределения Коши, мы сделаем отступление. В математическом анализе функция t е R § eitxf(x) dx, t е R, R называется преобразованием Фурье функции f и обозначается /. Обрат- ное преобразование Фурье — это функция X 6 К 1- \ e~ilxf(t) dt, х е R. R Если fx является плотностью распределения, т. е. > 0 и ^fx(x)dx = R = 1, и для ее преобразования Фурье f = ф% выполняется неравенство § \f(t)\dt < оо, то обратное преобразование Фурье функции ф% совпадает R С fx' fx(x) = $e~itxtyx(t)dt. R Более того, если нам известно, что п. р. в. fx представляет собой обратное преобразование Фурье некоторой функции ф(/): Мх) = 2л $ е_,7хф(/) dx, R
§ 2.2. Математическое ожидание, дисперсия, характеристическая функция 191 то ф(/) = фх(/). (Это последнее утверждение есть не что иное, как другая формулировка утверждения о единственности плотности распределения, соответствующей заданной характеристической функции.) Преобразование Фурье названо в честь Ж. Б. Ж. Фурье (J. В. J. Fourier) (1768—1830), плодовитого ученого, который играл также активную и выдающуюся роль в политической и административной жизни Франции. Он был префектом нескольких французских департа- ментов. Упомянем в особенности Гренобль, где Фурье был чрезвычайно популярен и где о нем помнят по сегодняшний день. В 1798 г. Фурье отправился с наполеоновской экспедицией в Египет, где принимал активное участие в научной идентификации многих древних сокровищ. К своему несчастью, он был схвачен военными силами Британии и пребывал некоторое время военнопленным. До конца своей жизни он оставался верным бонапартистом. Однако, когда Наполеон в 1814 г. на своем пути от острова Эльба в Париж проходил Гренобль, Фурье развернул активную кампанию, направленную против императора, поскольку он был убежден, что Франции нужен мир, а не очередная военная авантюра. В математике Фурье, изучая задачи о передаче тепла, создал целую область, которая сегодня носит название «анализ Фурье». Анализ Фурье имеет чрезвычайное значение и при- меняется буквально во всех теоретических и прикладных областях. Общепризнанно также, что Фурье является создателем такой области, как современная статистика в социологических науках. Рассмотрим теперь п. р. в. Соответствующая характеристическая функция равна полусумме характе- ристических функций «положительной» и «отрицательной» показательных с. в. с параметром X = 1: - е'7хе_|х|dx = -( — 1 1—'j = —!— 2 J 2\1 -it + 1 +it) 1 + /2’ R что равно, с точностью до скалярного множителя, плотности распределе- ния Коши с параметрами (1, 0). Следовательно, обратное преобразование Фурье функции равно e~itxe"w dt=- 2к J к 1 + х2 Из приведенного выше наблюдения следует, что для с. в. Х~Са(1,0) характеристическая функция имеет вид ф%(/) = Для с. в. X~ Са(а, т) имеем фЛ(/) = е^И> (2.2.26д) так как ^(Х - а) ~ Са(1, 0). Замечание. Тот факт, что у характеристической функции ф%(/) слу- чайной величины X ~ Са(а, т) не существует производной в точке t = 0, отражает то свойство, что с. в. X не имеет конечного математического
192 Глава 2. Непрерывные пространства элементарных исходов ожидания. С другой стороны, если случайные величины X~Ca(oti,Ti) и Ca(ot2, Т2) независимы, то X + Y ~ Ca(ot| + аг, Tj + Т2). Задача 2.2.1. Пусть случайная точка равномерно распределена в кру- ге Z), так что вероятность того, что точка попадает в подмножество А С D, пропорциональна площади этого подмножества. Пусть R — это расстояние от точки до центра круга. Найдите (кумулятивную) функцию распределения FR(x) = P(R < х), математическое ожидание ER и дисперсию Var/? = Е/?2 - (Е/?)2. Пусть 0 — это угол, образованный радиусом круга, проведенным че- рез случайную точку, и горизонтальной прямой. Докажите, что R и 0 — независимые с. в. Введем систему координат с началом в центре круга D. Пусть X и Y — горизонтальная и вертикальная координаты случайной точки. Найдите ковариацию Cov(X, Y) = EXY - ЕХ ЕУ и определите, являются ли величины X и Y независимыми. X Y Вычислите сумму математических ожиданий Е— + i Е—. Покажите, что R R ее можно записать как математическое ожидание Ее^, и определите с. в. Решение. Мы имеем и FR(x) = P(R < х) = если х < О, если х 1, Fr(x) = площадь круга радиуса х _ 2 площадь всего круга если 0 х 1, а п. р. в. равна Мх) = 2х/(0^х^1). Таким образом, ER = 2\x2dx = ER2 = 2 \x3dx = о 2 И VarR = ER2-(ER)2 = ± 1о Площадь, записанная в полярных координатах (р, 0), равна ip/(0 р 1 )/(0 < 0 2п) dp de = /Л(р) dp ge(0) de, откуда следует, что величины R и 0 независимы. Пусть теперь X = R cos 0, Y = R sin 0. Находим ЕХУ = Е(R2 cos© sin0) = Е(R2) Е (1 sin(2O)) = О,
§2.2. Математическое ожидание, дисперсия, характеристическая функция 193 поскольку . 2л Е sin(20) = \ sin(20) d0 = 0. 2л J Аналогично ЕХ = ЕУ = 0. Например, EX = E/?Ecos0 = O. Следова- тельно, Cov(X, У) = 0. Однако величины X и У не являются независимыми: р(х>^, У>^)=0, но Р (х > = Р (у > > 0. Наконец, Е^ + i Ез = Ecos0 + i Esin© = Ee'e, г\ г\ следовательно, £ = 0. □ Задача 2.2.2. Радиоактивный источник испускает частицы в случайном направлении (при этом все направления равновероятны). Этот источник находится на расстоянии d от фотопластины, которая представляет собой бесконечную вертикальную плоскость. а) При условии, что частица попадает в плоскость, покажите, что горизонтальная координата точки попадания (если начало координат вы- бирается в точке, ближайшей к источнику) имеет плотность распределения d/(n(d2 +х2)). (Это распределение известно как распределение Коши.) б) Можно ли вычислить среднее этого распределения? Решение, а) Используем сферические координаты г, ф, 0. Частица по- падает в фотопластинку, если луч вдоль направления испускания частицы пересекает полусферу, касающуюся плоскости; вероятность этого равна 1/2. Условное распределение направления испускания частицы является равномерным распределением в этой полусфере. Следовательно, такой угол ф, что x/d = 1£гф и х/г = 5шф, имеет равномерное распределение на интервале (0, л), и 0 имеет равномерное распределение на интервале (0, 2п), см. рис. 2.19. Таким образом, для обратного отображения g 1: R —► (-л/2, л/2), X -> ф(х), где ф(х) = arctg(J), 7—1104
194 Глава 2. Непрерывные пространства элементарных исходов находим, что абсолютное значение якобиана равно I <9ф I 1 1 _ d I дх I 1 + (x/d)2 d ” d2 + х2 ’ Тогда п. р. в. горизонтальной координаты точки попадания имеет вид „м = 1124| = — е> ’ Had лу’ + х’)' б) Нет, поскольку соответствующий интеграл расходится и на -Foo, и на -оо. □ На самом деле распределение Коши возникает как отношение двух совместно нормальных с. в. А именно, пусть совместная плотность fxy имеет вид (2.1.24). Тогда в силу формулы (2.1.28) п. р. в. fx/y(u) равна М- 2га"’2” + = =______!______Т у exp [ -У2 (4ц!-2га.СТг“±.?).! dy = лО|а2УГ^ J У Р 1.2(1 - г2) J “У = О|О2У^1 ~ Г2 ? -у{ . л(о|и2 — 2roiO2H + of) j где _ у2 а2 и2 - 2гиа\02 + о2 У' ~ 2(1 - г2) Sfo2 ’ Мы видим, что fx/Y(U) = я((и-га^/^+(1-г^/о22)’ (2’2-27) т.е. X/Y~Ca(r—, VT - г2—). Если случайные величины независимы, то \ 02 02/ = '2228> т.е. Х/Y ~ Са^О, Ср. с задачей 2.1.14. Задача 2.2.3. Пусть п приборов одновременно тестируются и времена их безотказной работы — это независимые с. в., имеющие показатель- ное распределение с параметром К каждая. Определите среднее значение и дисперсию промежутка времени до того момента, пока не выйдут из строя (откажут) г приборов.
§2.2. Математическое ожидание, дисперсия, характеристическая функция 195 Решение. Пусть Тг — это рассматриваемая с. в. Тогда Тг = У! + ... + Yr, где У/ — это время между (/— 1)-м и z-м отказом. По свойству от- сутствия последействия (потери памяти) показательного распределения У/ ~ Ехр((и — i + 1)Х) (поскольку мы ищем минимум оставшихся п — (I — 1) независимых экспоненциальных с. в.). Кроме того, случайные величины У1, ..., Yr независимы. Следовательно, ЕY‘ = 1----VarY> = 7------------1.^2' (л-/ + 1)Х (п - i 4- 1)2Х2 E 77 = 52 E У„ Var(77) = Var(r,). □ Z=1 Z=1 Эта же задача представляет интерес и для физики и возникает, на- пример, при расчете атомных часов, работающих на эмиссии фотонов. Осложнение состоит в том, что параметр п является случайным (например, Ро(Х)). Однако основная идея решения все еще применима, см. [KSR]. Задача 2.2.4. Пусть U\, U2, ..., Un — н. о. р. с. в. Расположив эти ве- личины в возрастающем порядке, получим последовательность величин Цо ^ ... ^ (/(Л), которые называются порядковыми статистиками. а) Пусть Zj, Z2, ..., Zn — н. о. р. с. в., имеющие плотность f(x) = е~х, х^О. Покажите, что с. в. Z(d имеет показательное распределение, и опре- делите ее среднее значение. б) Пусть Xj, ..., Хп — н. о. р. с. в., равномерно распределенные на от- резке [0, 1] с плотностью распределения f(x) = 1, О^х^ 1. Проверьте, что совместная п. р. в. случайных величин X(i), Х(2), ..., Х(л) имеет вид ...,xn) = «!/(0Oi 1). в) Пусть Zj, Z2, ..., Zn и Xj, %2> •••» Хп—случайные величины, вве- денные выше. Докажите, что случайные величины X(i), Х(2), ..., Х(Л) имеют то же самое совместное распределение, что и величины 5, Sn «S/i-i-1 5/1-1-1 i где для 1 с.в. 5, равна сумме ^2 ^/, а ^+1 = Sn + Zn+i, Zn+i ~ /=1 ^Exp(l) и Z/i+i не зависит от Zj, ..., Zn. г) Докажите, что совместное распределение введенных выше с. в. Хц), ^(2)> •••> Х(Л) совпадает с совместным условным распределением величин Sj, S2, ..., Sn при условии, что S/i+i = 1.
196 Глава 2. Непрерывные пространства элементарных исходов Решение, а) Мы имеем P(Z(i) > х) = P(Zj > х, ..., Zn > х) = е~пх. Следовательно, Z(j) — показательная с. в. со средним \/п. б) По определению нам необходимо взять значения Хь ..., Хп и упоря- дочить их. Фиксированный набор неубывающих величин xj, ..., хп может быть образован из п\ неупорядоченных выборок. Следовательно, совмест- ная п. р. в. , х„) равна J(xn)/(0^X| 1) = л!/(0^Х1 С - 1) для случая равномерного распределения. в) Совместная п.р.в. /s,/s„+,.5„/5„+,.s„+l случайных величин Si/Sn+l, Sn/Sn+\ и Sn+i вычисляется следующим образом: fs,/s„+,..s„/s„+,.s„+l (*ь х2, ..., х„, t) = = fs-+'{t}dxt...dxn р(s^7 <х'...........st <Хп I 5n+1 = 0 = = fsn+, (0~ P(S| < Х| S„ < x„t I S„+l = /) = их | ...илn = tnfs„+l (t)fs..... (X, x„/1 S„+1 =/) = = tnfs....s„,s„+l(^b •••< txn, t) = = . .«-'"-'’’/(О X! xn 1) = = tne~‘/(O X, ^...^x„ 1). Следовательно, fs,/s„+l.5„/5„+, (*i, X2, ..., x„) = 5 tne ‘ dt /(0 Xi xn 1). 0 Это выражение равно n\ /(0 Xj xn 1), т. e. представляет собой совместную п. р. в. величин Х(ц, Х<2), • • •, Х(п) в силу п. б). г) Совместная п. р. в. fsl.$л+1(Х], ..., xrt4_i) равна fzx..zfl+1Ui, х2-xi, ...,хл+1 -хл)/(0^Х! ^...^хл ^хл+1) = = е“Х|е“(Х2-Х|).. .е“(Хл+,”Хл)/(0 х\ хп хл+|) = = e~(Xn+l}l(0 X! хп хя+|). хп Сумма 5л+1 имеет п. р. в. /$л+1(х) = —е“х/(х^0). Следовательно, условную плотность можно представить как отношение /(S|.s„+1 >(Х|, ..., хл, 1) 1 ------------77--------= п\ /(0 Х1 хп 1). □
§2.2. Математическое ожидание, дисперсия, характеристическая функция 197 Задача 2.2.5. Пусть Xi,%2, • •• —независимые случайные величины, каждая из которых имеет равномерное распределение на [0, 1]. Пусть Un = max X:, Vn = min X;. Рассматривая P(u X\ < v 4- 8u, v X3, ..., Xj-i < и, и < Xn и 4- 8u) при 0 < v < и < 1 (или иным способом), покажите, что пара ((/„, Vn) имеет совместную п. р. в., которая задается формулой г/ f п(п - 1)(# - v)n~2, если 0 v < и < 1, /(«. у) = s „ [О в противном случае. Найдите плотности fun и fyn. Покажите, что Р(1 — \/п Un 1) стремится к ненулевому пределу при п —► оо, и найдите этот предел. Что можно сказать о Р(0 Vn 1/и)? Найдите коэффициент корреляции тл случайных величин Un и Vn. По- кажите, что тл —► 0 при п —* оо. Почему это можно было бы предвидеть? Решение. Совместная ф. р. величин Un и Vn задается формулой P(Un <u,Vn<v) = P(Un <и)- P(Un <u,Vn^v) = = P(Un < и) - P(u Xi < u, ..., v Xn < a) = (F(u))n - (F(u) - F(v))n. Следовательно, совместная п. p. в. имеет вид V) = - (F№ - F^n] = ( п(п — l)(u — v)n~2, если 0 v < и 1, 10 иначе. Маргинальные плотности имеют вид fUn(u) = ^п(п - l)(u - v)n~2 dv = пип~[ о и 1 fvn(v) = § п(п — l)(u - v)n~2du = и(1 - г,)"-1. v Тогда вероятность Р(1 — \/п Un 1) равна 5 fu„(u)du = n «л_| du= 1 - (1 - 1 — \/п 1 — \/п Аналогично Р(0 Vn 1/и) —► 1 - е""1.
198 Глава 2. Непрерывные пространства элементарных исходов Далее, ек=^. И, наконец, последнее утверждение гласит, что C”<U"'V">=(^T2)bw- Действительно, 1 и . Cov((/n, У„)= И/(«, V)(u- -37т) (у - —т) dvdu = g g \ п 4- 1 / \ л 4- 1 / I и = $ $ п(п - 1 )(и - и)"-2 (и - ^1) (и - —) du d« = = п(п - 1) \(и - ) du \(и - v)n~2(v - —) dv = = n(n - 1) \(u----^-4 Г 1 un - --------- 1 if'1! du — J\ n+l/Ln(rt-l) (n - l)(n + 1) J = [—!—u"+2 - 2—-—un+l d-------------—«"]!1 =-------!---- L(n + 2) (nd-1)2 (nd-1)2 J Io (n d-l)2(n d-2)’ Следовательно, г-. /п I/ \ Cov((/„ V„) Corr((/n, V„) = — — vVarl/nVVar Vn ->0 при n —► 00. □ Задача 2.2.6. Две действительные с. в. X и Y имеют совместную п. р. в. Р(х\, х2) = 1 ехр[-( 1/2(1 - r2)^ - 2rxtx2 + х%)], 1 — где -1 < r< 1. Докажите, что каждая из величин X и Y имеет нормальное распределение со средним 0 и дисперсией 1. Докажите, что число г является коэффициентом корреляции величин X и Y. Решение. Кумулятивная ф. р. случайной величины X задается форму- лой / оо Р(Х<0= $ $ р(Х1, x2)dx2dxi.
§2.2. Математическое ожидание, дисперсия, характеристическая функция 199 оо Интеграл § xz^dxz равен следующему выражению: — оо 1 / 1 Г л \ WTZ7? $ ехр(-2?1-7у[(х2-гх1)2 +(1-^])^ = — ОО е-^?/2 °? / j 2\ , *2 ~ ГХ\ = -2Г 5 «р(-2« )“« ™ ’=7Т=7»- — гю v Таким образом, 5 p(xi,x2)dx2 = -Ue х'/2 -оо Это дает нам п. р. в. величины X. Далее находим, что —оо -4=е dx\. т. е. X ~ N(0, 1). Аналогично Y ~ N(0, 1). Следовательно, Согг(Х, У) = Cov(X, У) = Е(ХУ) = xtx2p(xlt x2)dx2dxh — ОО —оо Теперь оо 5 х2р(Х1, x2)dx2 = — ОО 2TCJ-fi J *2 еХР(-2(1^7) [(*2 - Г*')2 + <’ - ) dX2 = Тогда оо / 2 ч е(ХУ) = -4= 5 x?exp^-yj dxi = г. -оо Следовательно, Согг(Х, Y) = г, что и требовалось показать. □ Задача 2.2.7. Пусть X, Y—независимые с. в. со значениями в полупря- мой [0, оо) и одной и той же п. р. в. —=е“Л Пусть U = X2 + У2, V = Y/X. Вычислите совместную п. р. в. fu,v и докажите, что U и V независимы. Решение. Совместная п. р. в. случайных величин X и Y равна fx.y(x. У) = ^е_(?+у2).
200 Глава 2. Непрерывные пространства элементарных исходов Замена переменных и = х2 + у2, v = у/х образует якобиан |^=det( 2/2 2Н =2 + 24 = 2(1 + и2), д(х, У) \-у/х 1/х/ х2 и обратный якобиан равен у) = 1 д(и, v) 2(1+и2)’ Следовательно, совместная п. р. в. имеет вид fu.v(u, V) = fx.Y(x(u, у), у(и, v))= |е~" и > 0, v > 0. Это означает, что случайные величины U и V независимы, U ~ Ехр(1), а V ~ Са(0, 1), но величина V сужена на (0, сю). □ Задача 2.2.8. а) Совместная плотность распределения непрерывных с. в. X и Y задается формулой (т + л + 2)! т п f(X' У}= т\п\ (1~х^ при 0<у^х< 1, где т, п — заданные натуральные числа. Проверьте, что f является действительной плотностью распределения (т.е. что интеграл от этой функции равен единице). Найдите маргинальные распределения величин X и Y. Затем вычислите р(у4Р=1)- б) Пусть X и Y — случайные величины. Проверьте, что Cov(X, У) = Е[1 - X] • Е[У] - Е[(1 - Х)У]. в) Пусть с. в. X и Y такие, как в п. а). Используя вид функции /(х, у), выразите математические ожидания Е[1 -X], Е[У] и Е[(1 -Х)У] в тер- минах факториалов. Используя п. б) (или иным способом), покажите, что ковариация Cov(X, Y) равна выражению (т + 1)(л + 1) (т + п + З)2 (т + п + 4) * Решение, а) Используя формулу В(т, п) = V(m)V(n) г, \ , находим Цт + п) = |" + " + 2)! -L-B(m + 1. п + 2) = <+ + 2>!_!-/”!<" + |>'-, = 1. т\п\ л+1 v ’ т\п\ п + 1 (т + п + 2)!
§2.2. Математическое ожидание, дисперсия, характеристическая функция 201 Следовательно, 6) Прямые преобразования показывают, что Е[ 1 - X] • Е[Г] - Е[(1 - X)У] = Е[ХУ] - Е[Х] Е[У]. в) Используя определение бета-функции (см. пример 1.1.5 в части В), находим Е( 1 - X] = (от + " + 2)! *В(т + 1, п + 2) = ™ + ' 1 J т\ п\ и 4- 1 ' т+п+3 Е (т + п+2)1 1 , з = д+1 1 J mini и + 2 /и + я + 3 и Е [(1 - Х)Г] = (т + " + 2>! ‘В(т + 2, п + 3) = -- 1 1 mini п + 2 (т 4- п + 3)(т + п + 4) Следовательно, r /х Y\ = + _ (т + 0^+ j) = ’ ' (т + п + 3)2 (т + п + 3)(т + п + 4) = (гп 4- 1)(и 4- 1) п (т + п + 3)2(т 4- п 4- 4) ’ В задаче 2.2.9 используются следующие понятия: мода (плотности распределения f) — это точка максимума; и, соответственно, говорят об унимодальной, бимодальной или мультимодальной плотностях. Задача 2.2.9. Производится выстрел по круглой мишени. Вертикальная и горизонтальная координаты точки попадания (за начало координат вы- бирается центр мишени) являются независимыми случайными величинами, каждая из которых N(0, 1)-распределена. а) Покажите, что расстояние от точки попадания до центра имеет плот- ность распределения ге~^^ при г > 0. б) Покажите, что среднее значение этого расстояния равно ^/п/2, медиана равна \/1п 4 и мода равна 1. Решение. (Для п. б); решение п. а) см. в задаче 2.1.12.) По усло- вию задачи X ~ N(0, 1), Y ~ N(0, 1), и совместная п. р. в. имеет вид /(X, у) = ±е~^+^2. zn
202 Глава 2. Непрерывные пространства элементарных исходов Пусть R = \/Х2 + У2, 0 = arctg(z//x). Якобиан д(г, 9) у) fdr/dx дг/ду\ ™\дв/дх дв/ду) был вычислен в задаче 2.1.12 и равен 1/г. Следовательно, Далее, g(r, 9) = > 0)/(0 9 2п, 0 г < оо). д(х, у) д(г, 9) Следовательно, p(r) — re r/2/(r>0), ER^^fie '2/2dr=J^. о * Наконец, чтобы найти медиану х, запишем re”'2/2 dr = § re~f2^2 dr. о х Тогда 1 - e”r?Z2 = е”^/2, значит, х = \/1п4. Чтобы найти моду, запишем f(r) = re~r^2/(r > 0), и из уравнения f'(r) = 0 находим r= 1. Следовательно, мода равна 1. □ Задача 2.2.10. Предположим, что Х2, • • • образуют последователь- ность независимых случайных величин, каждая из которых равномерно распределена на (0, 1). Положим ^ = min{n: Х{ + Х2 + • • • + Хп 1}. Покажите, что EN = е. Решение. Ясно, что N принимает значения 2, 3, ... Тогда EW = ^2 / P(/V = /) = 1 + P(/V /). />2 />2 Далее, P(AZ > /) = P(?G + Х2 + • • • + ^/-1 <0- Наконец, полагая Р(%! + Х2 + ... + Xt < у) = qdy), 0 < у < 1, запишем q\(y) = у и у У qi(y) = ^PXtWqi-dy - U)du= ^qi-i(y - и) du, о о
§2.2. Математическое ожидание, дисперсия, характеристическая функция 203 что приводит к равенствам q%(y) = у2/2!, q$(y) = у2/Ъ\, ... Из предполо- жения индукции о том, что qi-\(y) = yl~x/(I — 1)!, находим ( “с и1-' .у1 0 и получаем, что ЕЛ/ = ]Гф(1) = 1 + <7i+ ;£ + ••• = *• /^1 Или, иным способом, положим N(x) = min{n: Xj + Х% 4- ... 4- Хп х} и т(х) = EN(x). Тогда X т(х) = 1 4- т(и) du, следовательно, т'(х) = т(х). о Интегрируя это обыкновенное дифференциальное уравнение с начальным условием аи(0) = 1, получаем т(\) = е. □ Задача 2.2.11. Случайная величина X имеет логнормальное распре- деление, если с. в. Y = 1пХ нормально распределена. Если Y ~ N(pt, о2), вычислите, чему равны среднее и дисперсия с. в. X. Логнормальное рас- пределение иногда используется для описания размера малых частиц, пре- терпевших процесс дробления, или как модель будущих цен на предметы потребления. Когда частичка расщепляется, то образовавшаяся дочерняя частица может представлять собой некоторую часть от родительской ча- стицы; что касается цен, то их колебания могут выражаться в процентном отношении к исходным ценам; когда цены меняются, изменения можно подсчитывать в процентах. Решение. Мы имеем — ОО Аналогично ЕХ2 = и VarX = е2ц+2а2(1 — е~°2). Или, другим способом, используя производящую функцию моментов, получаем Е(ХГ) = Му(г) = e'V+'V/2. При г = 1, 2 мы немедленно находим выражения для ЕХ и ЕХ2. □ Задача 2.2.12. Пусть Х\, Х2, ... —независимые случайные величины с одной и той же п. р. в. р(х). Будем говорить, что наблюдается рекордное значение в момент времени п > 1, если Хп > max[Xi, ..., Хл_1]. Докажите следующие утверждения. а) Вероятность того, что рекорд зафиксирован в момент времени п, равна \/п.
204 Глава 2. Непрерывные пространства элементарных исходов б) Математическое ожидание числа рекордов до момента времени п равно 52 У1- 1 <i^n в) Пусть Yn— это случайная величина, принимающая значение 1, если в момент и зафиксирован рекорд, и значение 0 — в противном случае. Тогда случайные величины Y%, ... независимы. г) Дисперсия числа рекордов до момента времени п равна Е (i-D//2 * * * *. I <i^n е) Если Т — момент появления первого рекорда после момента време- ни 1, то ЕТ = оо. Решение, а) (Ср. с задачей 1.4.8.) В силу симметрии Р(рекорд достигнут в момент п) = Р(Х, = maxfXj, ..., XJ) = Тогда для И, >2, ••• получаем Р(У„ = 1) = 1 = ЕГ„, УагГя = 1-1 Если положить Zn = ранг Хп среди величин X, ..., Хп, то P(Z,=z) = |, z=l........i. Тогда Yn — это функция от Zn. Но величины Zj, Z2, ... являются незави- симыми. Действительно, если зафиксировать значения Z|, ..., zn величин Zj, ..., Z„, то тем самым мы упорядочим множество величин (определим некоторую перестановку множества величин) Xj, ..., Хп, и наоборот. Но все такие перестановки равновероятны, т. е. P(Z| =Z|, .... Z„ = z„) = ^i = P(Z1 =Z|)...P(Z„ = z„), что и означает независимость, так как P(Zj =Z|) = 1,..., P(Zn = zn) = \/n. Таким образом, У|, Y%, ... являются независимыми. Поэтому Е (число рекордов до момента времени п) = 1</Хл Уаг(число рекордов до момента времени п) = ~ 1«Чл Наконец, Ег=у2Агр(7'=^) =1 + У2Р(7'^п)=о°- п^2 п^2
§2.2. Математическое ожидание, дисперсия, характеристическая функция 205 Действительно, из п. а) следует, что Р(Г^ п) = \/(п - 1). Или, рассуждая иначе, получаем Р(Г п) = Р(2, ..., п — 1 не являются рекордами) = _ 1 2 п-2_ 1 ” * 2 3 лг — 1 — л- 1’ Отсюда следует, что ЕГ = оо. Заметим, тем не менее, что с вероятностью 1 появление рекорда будет зафиксировано бесконечно много раз, если на- блюдения будут продолжаться бесконечно. □ Задача 2.2.13. Когда говорят, что действительные случайные величи- ны X и Y независимы, то что это означает? И как из совместной плотности распределения fxy величин X и Y можно распознать, являются ли эти вели- чины независимыми? Пусть неотрицательные с. в. X и Y имеют совместную п. р. в. fx.y(x, у) = ^(х + у)е~(х+у}1(х, у>0), х, у е R. Найдите п. р. в. fx и выведите отсюда, что с. в. X и Y не являются неза- висимыми. Найдите совместную п. р. в. пары (/X, /У), где t — это поло- жительное число. Предположим теперь, что Т — это случайная величина, независимая от X и У, с п. р. в. f 2/, если 0 < t < 1, р(0 = к [0 в противном случае. Докажите, что ТХ и TY независимы. Решение. Ясно, что 00 I /xW = 5 fx.y(x, y)dy= s(! +х)е_jr, х>0. Аналогично fy(y) = (1 + у)е~у/2, у>0. Следовательно, fxy / fxfy, и слу- чайные величины X и У зависимы. Далее, для /, х, у е R имеем frjc.ytt’ х, у) = t(x + у)е (х+у)/(0 < t < 1 )/(х, у > 0). Чтобы найти совместную п. р. в. случайных величин ТХ и ГУ, мы должны перейти к переменным /, и и и, где и = /х, v = ty. Находим, что якобиан равен х t 0 d(t, и, у) d(t. х, у) /1 = det |0 \0 А 0 // = /2.
206 Глава 2. Непрерывные пространства элементарных исходов Следовательно, [tx.ty(u, V) = 5 р у) dt = 5 t~2t(u + v) ехр(-^-у^) dt. Выполняя замену переменных t -* т = получаем }тх,ту(и, и) = § (и 4- v) ехр (~т(н 4- v)) dx = е”(м+и), и, v > 0. 1 Следовательно, случайные величины ТХ, TY независимы (и имеют показа- тельное распределение со средним 1). □ Задача 2.2.14. Определите ковариацию Cov(X, Y) случайных величин X и Y. Пусть Cov(X, Y) — это ковариация случайных величин X и Y. Докажите или опровергните, приведя контрпример, каждое из следующих утверждений. а) Если Cov(X, Y) = 0, то случайные величины X и Y независимы. б) Для любых случайных величин X, У, Z справедливо равенство Cov(X 4- У, Z) = Cov(X, Z) 4- Соу(У, Z). в) Если X и У — одинаково распределенные, но не обязательно неза- висимые случайные величины, то Cov(X 4- У, X - У) = 0. Решение, а) Утверждение ложно. Рассмотрим Р(Х = I, Y= 1) = 1, Р(Х = —1, У = —]) = 1, Р(Х = 2, У = -1) = |, р(х = -2, У=£) = |. Тогда Cov(X, У) = 0, но Р(Х= 1, У = 1) = 1/4 / Р(Х = 1) Р(У = 1) = 1/16. б) Утверждение верно. в) Утверждение верно. Действительно, Cov(X + Y, X - У) = Е((Х - ЕХ)2 - (У - ЕУ)2) = 0, поскольку X и У одинаково распределены. □ Задача 2.2.15. Фармацевтическая компания производит порошки ле- карств, основанных на химическом веществе аметанол. Эффективность единичной дозы порошка измеряется величиной — ln( 1 — х), где 0 < х < 1 — доля аметанола в этой единичной дозе и 1 -х— доля наполнителя (ней- трального по своему действию)? Вы тестируете выборку из трех единичных доз, которые взяты из трех больших контейнеров. Контейнеры запол- нены смесями из аметанола и наполнителя в неизвестных пропорциях.
§2.2. Математическое ожидание, дисперсия, характеристическая функция 207 Определите совместную кумулятивную ф. р. эффективностей единичных доз этих трех фармацевтических смесей. Найдите кумулятивную ф. р. для минимальной эффективности. Решение. Удобно положить со = (х, у, z), где х, у, zG [0, 1] представ- ляют собой долю аметанола в каждой из единичных доз. Тогда Q представ- ляет собой единичный куб {со = (х, у, z): О^х, у, z^ 1}. ЕслиХ^ Хг> Хз— эффективности этих отобранных единичных доз, то %! (со) = - 1п(1 - х), %2(w) — - ln( 1 - у), Хз((О) = - ln( 1 - Z). Мы предположим, что вероятностная масса распределена равномерно в Q, т.е. доли X, У, Z равномерно распределены на (0, 1). Тогда для любого j = 1, 2, 3 для кумулятивной ф. р. Fxt (х) = Р(Х7 < у) находим 1 1-е-* 5 /(- ln( 1 -x)<y)dx = 5 dxl(y>G) = (\ -e“W>0), о о т.е. Xj ~ Ехр( 1). Далее, P(minX7 < у) = 1 - P(minX7- у), Р (mtnX/ >у) = Р(Х, у, Х2 > у, Хз > У) = J] Р W = е~3у- i Таким образом, minX7 ~ Ехр(З). В этой задаче совместная ф. р. Fxitx2.x3(y\, Уъ Уз) тРех Д°3 лекарства равна объему множества {(х, у, г): О^х, у, z^ 1, — 1п(1 -Х)<У\, — 1п(1 -у)<у2, — 1п(1 -z)<z/3} и совпадает с произведением (1 -е”у,)(1 -е"уз), т. е. с Fxx (У\)Рх2(У2)Рх3(Уз)- Совместная п. р. в. также равна произведению: /х,,х2.х3(*1. х2, Хз) = е~х'е~Х2е~Хз. □ Задача 2.2.16. а) Пусть Хь Х2,... —это последовательность н. о. р. с. в. с производящей функцией моментов Л4(0), и пусть N — неотрицательная целочисленная случайная величина с производящей функцией g(s); пред- положим далее, что W не зависит от последовательности {X/}. Покажите, что производящая функция моментов случайной величины Z = Xi +Х2 +... ... +Хп равна g(M(6)). б) Размеры выплат страховой компании образуют последовательность н. о. р. с. в. с п. р. в. /(х) = е~ху х 0. Число выплат в течение данного года
208 Глава 2. Непрерывные пространства элементарных исходов имеет пуассоновское распределение с параметром К. Покажите, что про- изводящая функция моментов для суммарного объема Т выплат в течение года имеет вид > А Л(0) = exp , 0<1. Отсюда заключите, что Т имеет среднее значение К и дисперсию 2Х. Решение, а) Находим производящую функцию моментов: Mz(0)=Ee0z=E[E(e0(X|+ +*''> ^=п)]=£р^=п)(Мх,(0))'1=^(Л1Л,(0)), л=0 что и требовалось показать. б) Аналогично находим и производящую функцию моментов для с. в. Т: T = Xi +... + X/V, где с. в. Х\, ...,Хп представляют собой размеры выплат, имеют п. р. в. fxt(x) = е~х/(х > 0) и независимы, a N обозначает число выплат и р^ = п) = У?-\ Далее, производящая функция с. в. N равна g(s) = eX(s“I), а произво- дящая функция с. в. Xi — это Л4%.(0) = : —v. Тогда производящая функция 1 — и [/1 \1 г 1 К L g -1)1 =ехр| i _g I, ЧТО и тре- оовалось показать, наконец, й'(0) = ЕТ = К, й"(0) = ЕТ2 = 2Х + X2, иУагТ = 2Х. □ Задача 2.2.17. Пусть X — показательно распределенная с. в. с плотно- стью распределения f(x) = х > 0, где (1 > 0. Покажите, что ЕХ = (1 и VarX = ^t2. В некотором эксперименте получены п независимых наблюдений Xj, ... ... , Хп из показательного распределения со средним (1 и найдена оценка - 1 п X = - 52 X/ величины р. Во втором независимом эксперименте получены п i=\ m независимых наблюдений У|, ..., Ym той же показательной с. в., что - 1 m и в первом эксперименте, и найдена вторая оценка Y = — 52 У/ величины [1. Эти две оценки затем объединяются в одну оценку вида Тр = рХ + (1-р)У, где 0 < р < 1.
§2.2. Математическое ожидание, дисперсия, характеристическая функция 209 Найдите ЕТР и Var Гр и покажите, что для всех е >0 выполняется условие Р(|Тр - р| > е) —* 0 при т, п —* оо. Найдите р — то значение р, которое минимизирует VarT^, и проинтер- претируйте Тр. Покажите, что отношение обратных значений дисперсий X и Y равно р/(1 - р). Решение. Интегрируя по частям, находим ЕХ = - § хе~х^ dx = (-xe“xy^)|^° + § е~х^ dx = [i о о и EX2 = § х2-е~х^ dx = (-x2e“x^)|^° 4- 2(i EX = 2(12, о откуда получаем VarX = 2(i2 - (12 = [12. Далее, 1 п 1 т ЕХ = 1£ЕХ/ = ^, EY = ^EYj = v i=\ /=1 и ЕТр = рЕХ + (1 -p)EY = ^. Аналогично VarX У VarX, = —, Var Y= -L V Var Y-. = n2 n m2 ‘ m i=\ /=1 Var Tp = p2 VarX + (1 - p)2 Var Y = [i2(^- + (1 mP} Из неравенства Чебышёва P(|Z| e) EZ2 получаем Р(|Г, - Ml > S) '• p E(T, - j,)2 = 1 Var T„ = = mW + _o np, Чтобы найти минимум, решим уравнение Var Тр = 2ц2 - 1^) = 0. dp р \п mJ oo.
210 Глава 2. Непрерывные пространства элементарных исходов — это среднее значение всех _ё_ = д 1 — р т Решение имеет вид р = д Поскольку ^Varrd = 2[i2(-+ —) >0, dp2 \р=р т' мы заключаем, что р— точка (глобального) минимума. Тогда Т _ пХ 4- mY • р — ; и п + т п + т наблюдений. Наконец, 1/VarX _ \J?/m _ п И 1/VarУ ~ ~ т' Задача 2.2.18. Пусть Х|, ... —н. о. р. с. в. с плотностью распреде- ления □ f(x)= J (о, где а > 0. Говорят, что последовательность {X/} превышает уровень и в момент / (или что в момент / происходит выход последовательности {X/} за уро- вень и), если Xj > и. Пусть Ци) = min{z 1: Xi > и}, где и > 1 — это момент первого выхода последовательности {X,} за уровень и. Найдите выраже- ние для Р(Ци) = k) при k = 1, 2, ... в терминах а и и. Найдите затем математическое ожидание ЕЛ(и) момента первого выхода за уровень и. Покажите, что EL(u) —* оо при и —* оо. Найдите предел при и -> оо вероятности того, что произойдет выход за уровень и до момента времени EL(w). Решение. Легко видеть, что оо 1 Р(Х, > u) = $ ах-“-' dx = (-х-“)|~ = и Тогда / 1 \1 1 Р(£(М) = Л)=(1-±) ± £=1,2,..., т. е. Ци) ~ Geom(l - l/wa) и ЕЦи) = ил —* оо при и —* оо. Теперь, обозначая через [ • ] целую часть, находим Р(Ци) < ЕЦи)) = Р(Ци) [и*]) = 1 - Р(Ци) > [и*]) = = 1- V = _____!____= \ па/ ua иа \ uaJ l-(l-l/wa) / 1 -I = 1-11 — — ) —* 1 — е при w —> ос. □
§2.2. Математическое ожидание, дисперсия, характеристическая функция 211 Задача 2.2.19. Пусть А и В — независимые с. в., каждая из которых имеет равномерное распределение на отрезке [0, 1]. Пусть U = min{A В} и V = тах{Д, В}. Найдите среднее значение случайной величины (/, а за- тем ковариацию величин U и V. Решение. Найдем хвост распределения для 0 < х 1: 1 - Fu(x) = P(U х) = Р(Д > х, В > х) = (1 - х)2. Отсюда для тех же значений 0 х 1 получаем Fu(x) = 2х — х2 и /1/(х) = F'utxyHQ < х < 1) = (2 - 2х)/(0 < х < 1). Поэтому Е£/= ^х(2 - 2x)dx = (х2 - |х3>)| = |. о V 3 Ло 3 Поскольку (/+У = Л + Ви Е(Д + В) = ЕЛ + ЕВ = 1/2+ 1/2= 1, мы имеем ЕУ = 1 - 1/3 = 2/3. Далее, поскольку UV = АВ, получаем Cov(£/, Ю = Е((/Ю-Е^ = Е(ЛВ)-| = ЕЛЕВ-| = 1-| = 4 □ м <7 * <7 ОО Задача 2.2.20. Случайные величины X и Y принимают значения из множества {0, 1}, и их совместное распределение Р(х, у) = Р(Х = х, Y = у) задается следующим образом: Р(0, 0) = а, Р(0, 1) = &, P(l, 0) = с, P(l, \) = d. Найдите необходимые и достаточные условия для того, чтобы X и Y были а) некоррелированы; б) независимы. Являются ли условия, установленные для п. а) и б), эквивалентными? Решение, а) Находим Р(Х = 0) = а + Ь, Р (Г = 0) = а + с, Р(Х = 1) = с + d, Р(У = 1) = b + d. Далее, Cov(X, r) = d-(c + d)(fe + d). Таким образом, X и Y являются некоррелированными тогда и только тогда, когда d = (с + d)(b + d). б) Из независимости событий А _и В следует независимость событий А и В, событий А и В и событий А и В. Таким образом, X и Y неза- висимы тогда и только тогда, когда Р(Х = 1, Y = 1) = Р(Х = 1) Р(У = 1),
212 Глава 2. Непрерывные пространства элементарных исходов т. е. d = (с 4- d)(b + d). Таким образом, для заданных величин X и Y (в отли- чие от общего случая) условия для а) и б) являются эквивалентными. □ Задача 2.2.21. Случайная величина X имеет плотность распределения с ( сх(1 - х), еслиО^х^!, 7W = i п [О в противном случае. Определите с и найдите среднее значение и дисперсию величины X. Решение. Из равенства находим, что с = 6. Следовательно, ЕХ = 6§х2(1 -x)dx = 6-^ = ^, О ЕХ2 = 6 $ х3(1 -x)dx = 6^ = и v у 3 1 1 Var% 10 4 20’ 1 Замечание. Интеграл ^““‘(l — х)^-1 dx равен значению В(а, [3) бета- о функции. См. пример 1.1.5 в части В. □ Задача 2.2.22. Пусть случайные величины Х\ и Х2 независимы и имеют каждая показательное распределение с параметром К. Найдите совместную плотность распределения величин yI=Xl+X2, У2 = Х1/Х2 и покажите, что Xj и У2 независимы. Чему равна плотность распределения величины У2? Решение. Рассмотрим отображение Г: (xj, х2) »-* (г/j, 4/2), где ух = xj + х2, у2 = у- Х2 и Xj, х2, z/i, у2 0. Обратное отображение Т~[ действует следующим об- разом: Т~' : (z/i, г/2)>-^(Х|, х2). где х( = х2 = 1 + у 2 1 + У 2
§2.3. Нормальное распределение. Центральная предельная теорема 213 и имеет якобиан / У2 У\ У\У2 \ ,, , , . 1 + У2 1 + У2 (1 +У2)2 | J(y\, У2> = det j I = \1+</2 (1 +У2)2 / _ _ У1У2_________У\ _ _ У\ (1+</2)3 (1+1/2)3 (1+</2)2’ Тогда совместная п. р. в. имеет вид /у r (Vl V2)=fxx(-^ -Ml_______________М ГУ,УАУ1, У2) l*i-X2\i+y2’ l+yJ\ (1+г/2)2|- Подставляя fx,.x2(xi, хг) = Xe-Xjr|Xe-x*2, xj, хг > 0, находим /у,.у2(^ь У2) = (Х21ле~Ху|)((| УъУ2> 0. Маргинальные п. р. в. равны /у,(^|)= ^fY,.Y2(yi, У2)Лу2 = \2у{е~'Ку', У\ ^0, о и оо /у2(«/2) = $ /и.Уг^ь У2)Лу\ = О У2 > 0. Так как /уьу2(//ь yi} = /и(^/i)/г2(^2)* случайные величины У| и У2 незави- симы и /у2(№)= 1/(1 +У2)2, У2 > 0. □ § 2.3. Нормальное распределение. Сходимость случайных величин и распределений. Центральная предельная теорема Probabilists do it. After all, it’s only normal. Вероятностники делают это. В конце концов, это только нормально. (Из серии «Как они делают это».) Мы уже изучили некоторые свойства нормального распределения. Важное значение этого распределения было признано еще на ранних этапах развития теории вероятности Лапласом, Пуассоном и, конечно же, Гауссом. Однако дальнейшее осознание особой природы нормального распределения происходило постепенно и требовало привлечения фак- тов и методов из других разделов математики, включая главы анализа
214 Глава 2. Непрерывные пространства элементарных исходов и математической физики (особенно комплексного анализа и дифференци- альных уравнений в частных производных). В наши дни особое значение придается многомерным нормальным распределениям, которые играют фундаментальную роль всюду, где бы ни использовались вероятностные понятия. Несмотря на появление большого разнообразия других инте- ресных примеров, многомерные нормальные распределения продолжают служить прочным базисом для дальнейших разработок. В частности, нор- мальное распределение лежит в основании таких областей, как статистика и финансовая математика. Напомним свойства гауссовского распределения, которые мы уже уста- новили ранее. 1. Плотность распределения N(pi, о2)-с. в. X равна хеК. среднее значение и дисперсия таковы: EX = pi, VarX = а2, (2.3.1) (2.3.2) а производящая функция моментов и характеристическая функция имеют вид Ее0* = e^+(i/2)6V, = e<>(i/2)W 0, / е R. (2.3.3) Если X ~ N((i, а2), то -—- ~ N(0, 1) и для любых b, с е R мы имеем сХ 4- b ~ N(c(i 4- b, с2 а2). 2. Две совместно нормальные с. в. X и У независимы тогда и только тогда, когда Cov(X, У) = Согг(Х, У) = 0. 3. Сумма X 4- У двух совместно нормальных с. в. X ~ N(pb о2) и У~ N((i2, а2) с коэффициентом корреляции Согг(Х, У) = г является нор- мальной с. в. со средним р.14-(12 и дисперсией о24-2га 1024-^ (см- формулу (2.1.30)). В частности, если/ и У независимы, тоX4-y~N([ij4-[i2, of 4-02)- В общем случае, если независимые с. в. Х^Хъ,... таковы, что Х~ ~ N((iz-, о2), то их линейная комбинация удовлетворяет условию с-Л ~ N ( / 4 / / ' Задача 2.3.1. Каким должен быть размер выборки из нормального рас- пределения, чтобы с вероятностью не меньше чем 0,99 можно было утвер- ждать, что выборочное среднее находится в пределах одного стандартного отклонения от (теоретического) среднего значения распределения? Указание. Используйте равенство Ф(2,58) = 0,995.
§2.3. Нормальное распределение. Центральная предельная теорема 215 Замечание. (Ср. с задачей 1.6.3.) Заметим, что знание того, что рас- пределение нормальное, позволяет значительно уменьшить размер вы- борки. □ Как уже было отмечено ранее, основной факт, стимулирующий наш ин- терес к гауссовскому распределению, состоит в том, что это распределение появляется в знаменитой центральной предельной теореме (ЦПТ). Ранняя версия этой теоремы — теорема Муавра—Лапласа — была установлена в § 1.6. Утверждение теоремы Муавра—Лапласа можно распространить на общий случай н.о. р. с. в. Русский математик А. М. Ляпунов (1857—1918) доказал в 1900—1901 гг. следующую теорему. Пусть Xi, %2, • • • — о. р. с. в. с конечным средним EXj = а и дис- персией VarX/ = а2. Если Sn = Х[ + ... + Хп — случайная величина со средним ES,, = па и дисперсией N&cSn = па2, то для любого у е R выполняется равенство lim <У)=Ф(У). (2.3.4) п-+оо \ vVarS, / Ha самом деле сходимость в формуле (Ъ.ЪА) является равномерной по у: lim supIpfS” ф(^)| = о oo^l \ x/VarSn \ А. М. Ляпунов и А. А. Марков были современниками и близкими друзьями. Несмотря на то что Ляпунов был моложе только на год, он считал себя учеником Маркова. Имя Ляпунова стало известным благодаря введенному им классу функций (названных в его честь функциями Ляпунова), широко использующемуся при изучении сходимости к равновесному состоянию в различных случайных и детерминированных системах. Ляпунов погиб трагически, он по- кончил с собой после смерти своей возлюбленной супруги, испытав лишения и террор во время гражданской войны в России. Как и в § 1.6, предельное соотношение (2.3.4) принято называть инте- S — ES гральной ЦПТ, и его часто записывают как п п ~N(0, 1). Здесь мы V Var сформулировали ЦПТ для н. о. р. с. в., но современные методы позволяют распространить эту теорему на более общие случаи и получить также точные ограничения на скорость сходимости. Доказательство ЦПТ для более общих н. о. р. с. в. требует привлечения специальных методов. Один распространенный метод основан на приме- нении характеристических функций, и при этом используется следующий результат, который мы приведем здесь без доказательства. (Это доказа- тельство будет дано в одном из последующих томов.) Если У, Уь Уг, • • • — последовательность с. в. с функциями распределения Fy, FY}, Fy2, ... и ха- рактеристическими функциями фу, фу,, фу2, ..., то из сходимости харак-
216 Глава 2. Непрерывные пространства элементарных исходов теристических функций фг„(О —> фу(/) V/ € К следует, что FYn(y) —► FY(y) во всех точках у е R, где ф. р. в. Fy непрерывна. В нашем случае Y ~ N(0, 1) с функцией распределения Fy = Ф, которая всюду на R непрерывна. Положив У/ = (Sn - ап)/(у/по), мы должны про- верить, что фу„(/) —► /2 V/ е R. Это следует из прямых вычислений, которые мы проводим ниже. Поскольку (Sn — ап)/а = “ а)/а и случайные величины (Х7 — а)/о являются н. о. р., находим Ф(5„-аП)/(^а)(0 = (ф(Х;-а)/а(-^)) ; в последнем равенстве используется то, что Х7 — это н. о. р. с. в. Случайная величина (Х7 - а)/а имеет нулевое среднее и единичную дисперсию. Поэтому ее характеристическая функция допускает следующее разложение в ряд Тейлора в окрестности точки 0: 2 2 ф(«) = ф(0) + иф'(О) + у ф"(0) + o(u2) = 1 - у + о(«2). (Здесь и далее мы опускаем индекс ——-.) Это приводит к соотношению Но тогда Для краткого доказательства формулы (2.3.5) необходимо положить /2 (F\ F Л(=4,,)= В(=В.)=1-5;. тогда сразу можно заметить, что в" —»ё~*г^. Далее, Ап - Вп = Ап~1(А - В) + ДЛ-2(Д -В)В + ... + (А- В)Вп~1, откуда следует, что И” - Д”| (тах[1, А, В])п~11А - В|, а это выражение стремится к 0 при п —► оо. Задача 2.3.2. Ежегодно университет присуждает уровень А приблизи- тельно 16% выпускников-математиков, уровень В и уровень С охватывают примерно по 34%, и к уровню D провалившихся причисляют оставшиеся 16% учащихся. Эти цифры повторяются из года в год, как бы ни менялась действительная успеваемость студентов в каждом году.
§2.3. Нормальное распределение. Центральная предельная теорема 217 Одна выпускница пытается осмыслить такую практику. Она предпола- гает, что итоговый балл, набранный каждым из кандидатов, — это неза- висимые величины Xj, Хп, которые отличаются друг от друга только своими средними значениями ЕХ/, так что «центрированные» величины Xj — EXj являются одинаково распределенными. Далее, она считает, что распределение суммарного балла — приблизительно нормальное N(p, а2). Она приходит к догадке, что вышеописанная практика основана на некото- ром стандартном разбиении значений суммарного итогового балла студен- тов на четыре категории. Уровень А присуждается, когда итоговый балл превышает определенное пороговое значение, скажем а, уровень В — когда итоговый балл находится между значениями b и а, уровень С — когда этот балл попадает между с и Ь, и оставшийся уровень — когда итоговый балл ниже, чем с. Очевидно, что пороговые значения с, b и а могут зависеть от (1 и а. Спустя некоторое время (поразмыслив и воспользовавшись таблица- ми) она убеждается, что ее догадка верна, и ей удается найти простые формулы, дающие разумные приближения значений а, b и с. Можете ли вы воспроизвести ее ответ? Решение. Пусть Xj — итоговый балл кандидата /, Sn = ^2 — сум- марный балл, Sn — ESn = ^2 (Xj ” EX/) — «центрированный» суммарный балл. Предположим, что X/ — ЕХ/ — н. о. р. с. в. (что, в частности, означает, что VarX/ = а2 не зависит от j и VarSrt = па2). Тогда, воспользовавшись 5 _ £5 ЦПТ, получим п ~ N(0, 1). Для суммарного среднего балла Sn/n \/па при больших п должно выполняться условие S, п J / х/п ~ где y~N(0, 1) и H=jES- = j Е ЕЛ'- Найдем такое значение а, что Р(У > а) = 1 — Ф(а) «0,16; это приводит к значению а = 1. Ясно, что Р(У > 1) = Р(5л/и > а/у/п 4- ц). Аналогично из равенства Р(Р < Y < 1) = Ф(1) - Ф(Р) « 0,34 находим р = 0. Вполне естественно заключить, что а = 4- а, 6 = [I и с = р - а. Чтобы обосновать эту догадку, запишем Xj ~ ЕХ/ + а У. Это влечет за собой следующие соотношения: 4= (X/-EXjj+ii п х/п 1 1 1
218 Глава 2. Непрерывные пространства элементарных исходов и Р(^=(Xi - EX,) + [1 > 4= + р) = Р(Х/ > ЕХ/ + а) = 0,16. X V И V п ) Мы не знаем, чему равно ЕХУ, и используем вместо него (1. Таким образом, категории определяются следующим образом: уровень А присуж- дается, когда итоговый балл кандидата превосходит (1 4- а, уровень В — когда он находится между (1 и (1 4- о, С — когда он расположен между (1 — о и р, и D, или провал, — когда итоговый балл меньше чем pt — а. Здесь значения (1 и а2 могут быть приближенно вычислены как средние — и ——г (%/ ~ (см. задачу 1.4.5). □ п П“1 1^%Л п) Задача 2.3.3. (продолжение задачи 2.3.2). Предположим теперь, что все та же студентка пожелала оценить, насколько точной является ее аппроксимация среднего значения ожидаемого балла (1 величиной Sn/n. Предположив, что стандартное отклонение а индивидуального итогового балла Xj не превосходит 10 баллов, определите, каким должно быть и, чтобы гарантировать, что с вероятностью, не превышающей 0,01, величина Sn/n отклоняется от (1 не более чем на 5 баллов. Решение. Необходимо, чтобы выполнялось неравенство p/lS. _ЕЯ.| X ^0,01. \1 п п I / Положив, как и ранее, Y ~ N(0, 1), получаем, что эта вероятность прибли- женно равна p0^5v)' Таким образом, должно выполняться неравенство 2 (0,995)\2 5-^-> Ф (0,995), т.е. -----J , где а2 100. Так как Ф”1 (0,995) = 2,58, находим, что заведомо достаточным будет значение л = 1^(ф-|(0,995))2«27. □ Zu Statisticians do all the standard deviations. Статистики совершают все стандартные отклонения. (Из серии «Как они делают это».) В последующих вычислениях будет удобно использовать другое обо- значение для скалярного произведения: (х - у.)гЕ-1 (X - у.) = (х - у., S-1 (х - у.)) = (xi - У^ц1 (xi - У/Y ‘i=i
§2.3. Нормальное распределение. Центральная предельная теорема 219 Задача 2.3.4. Предположим, что Х\, Хп — независимые случайные величины, Xj ~ N((i/, а2), имеющие одинаковую дисперсию. Рассмотрим случайные величины Уь ..., Уп, определяемые как п Yj^auXi, / = 1.........п, /=1 где А = (aty) —действительная ортогональная матрица размера их п. До- кажите, что с. в. Уь ..., Yn независимы, и найдите их распределения. Прокомментируйте случай, когда дисперсии о2, ..., а2 различны. (Действительная матрица А размера п х п называется ортогональной, если А = (А-1)г.) Решение. В векторных обозначениях /УЛ /М у:= : = АГХ, где Х= I . V-/ \XJ В силу ортогональности матрицы А выполняются равенства АТ = А~[, (Аг)-1 = А. Кроме того, якобианы взаимно обратных линейных отображе- ний (*Л : j \-+у=Атх, j/=| : 1 ^х = Ау, х,уеШп, *п/ \Уп/ равны +1 или —1 (и равны между собой). Действительно, Э(У|,...,уя) = |detAr| Э(Х1,...,хя)I =|detA| d(X|, ..., X„) ' ' d(y........ ' ' и det AT = det A = ±1. Плотность распределения /у,.y„(y) равна плотности fxl....j(„(Ay), кото- рая, в свою очередь, равна
220 Глава 2. Непрерывные пространства элементарных исходов где / — единичная матрица размера п х п. Если обозначить /-ю компоненту вектора Ау через (Аг/)/, то произведение экспонент, записанное выше, можно привести к виду ехР ~2^ К = exp [-^ (Ay - р.)Г(а 21)(Ау - р.)] = = exp[-i(y - Ату.)тАт(о 2I)A(y - Агр.)] • Для тройного произведения матриц находим Ат(а 21)А = о ~2АТА = а 2/. Следовательно, последнее выражение равно ехр[-т>(у-AW0 2/(у-Лгр.)] =ехр[-^ Е ~ (AV)/)2] = = И ехр[-^(у/-(Агр.)/)2], где, как и ранее, (Arpi); = ^2 ач№ обозначает /-ю компоненту век- тора Агрс. Таким образом, случайные величины Xj, ..., Yn независимы, и Yj ~ N((Arpi)/, о2)- В общем случае, когда дисперсии о2 различны, матрицу а 2/ нужно заменить диагональной матрицей /аГ2 0 ... 0 \ 0 а2 2 ... 0 (2.3.6) \ 0 0 ... а’2/ Случайные величины Tj, ..., Yn будут независимы тогда и только тогда, когда АГЕ“'А — диагональная матрица. Например, если А коммутирует с Е~\ т.е. Е-1А = ДЕ"1, то АГЕ“,А = А^Е""1 = Е-1, и в этом случае Yj ~ N((Api)y, о2), т. е. дисперсия не изменяется. □ Задача 2.3.4 приведет нас к такому общему утверждению: случай- ные величины Xj, ..., Хп, имеющие совместное нормальное распределе- ние, независимы тогда и только тогда, когда Cov(X;, Xj) = 0 для любых /, /, 1 i < j п. Это утверждение является частью свойства 4, которое мы формулируем ниже. Ранее мы уже установили, что две случайные величины X, У, имеющие совместное нормальное распределение, независимы тогда и только тогда, когда Cov(X, Y) = 0 (см. формулу (2.1.25)).
§2.3. Нормальное распределение. Центральная предельная теорема 221 нормального вектора X = Напомним (см. формулу (2.1.5)), что п. р. в. /х(х) общего многомерного М : I имеет вид XnJ fx(x) = —=—!--------- expf-|(x - ix, Е“‘(х - lx))Y (2.3.7) ' (^)"(det E)’/2 2х v v 7 где E — обратимая положительно определенная (и, следовательно, сим- метричная) действительная матрица размера их п и detE~* = (det Е)”1. Если X — нормальный вектор, то будем писать X ~ NQx, Е). Продолжая список свойств 1—3, приведенный в начале этого парагра- фа, мы установим еще одно свойство гауссовского распределения. 4. Если X ~ N(pi, Е) и п. р. в. fx задана формулой (2.3.7), то a) Xi ~ NQxz, Ezz), i = 1, ..., и, т. е. каждая компонента имеет среднее [1, и дисперсию Ей—диагональный элемент матрицы Е; б) элементы матрицы Ez/-, расположенные вне диагонали, равны кова- риациям Cov(Xz, Xf) Vz, /, 1 <j'^n. Таким образом, матрицы ЕиЕ"1 яв- ляются диагональными, и, следовательно, п. р. в. fx(x) распадается в про- изведение тогда и только тогда, когда Cov(Xz, Xj) = 0, 1 i < j п. Другими словами, совместно нормальные с. в. Х\, ..., Хп независимы тогда и только тогда, когда Cov(Xz, Xj) = 0, 1 i < j п. Вполне естественно, что вектор pi называют вектором средних значе- ний и матрицу Е — ковариационной матрицей многомерного случайного вектора X. Доказательство утверждений 4 а) и 4 б) использует непосредственно вид (2.3.7) совместной многомерной нормальной п. р. в. fx(x). Обсудим вначале некоторые предварительные факты из алгебры. (На самом деле из них мы выведем еще больше свойств многомерного нормального рас- пределения.) В §2.1 было установлено, что матрица Е, как положительно опре- деленная матрица, может быть приведена к диагональному виду (если базис составлен из собственных векторов этой матрицы), т.е. существу- ет такая ортогональная матрица В = (fr/Д что В = (B"l)r, BDB~X = Е и BD~XB~X =Е1, где /X? 0 ... 0\ /Xj"2 0 ... 0\ I о Xf ... 0 | р-1 = 0 Х2"2 ... о \0 О ... X2/ \ о о ... Хл-2/
222 Глава 2. Непрерывные пространства элементарных исходов и X2, Х|, ..., X2 — (положительные) собственные числа матрицы Е. Отме- тим, что det S = П и (det S)1/2 = П К. Если выполнить ортогональную замену переменных х > у = Вт х, где - n zr d(*i.........хп) обратное отображение имеет вид у^х = Ву и якобиан равен det В = ± 1, то новые случайные величины .... (у\\ /М У= : =ВГ И \Yn) \Хп) имеют п. р. в. fy(y) = fx(By)- Более подробно, Му) = (п exp(-i(By - '(By - у.)) = \=1 = (Й ехр(4(у - BTy.)TBTBD-'B-'B(y - Вту.)) = \=1 1/ = exp^-^(y-BTy.)TD~'(y-BTy.)) = /=1 п = П “Р [-а> w]. Здесь (Вгрс), — это /-я компонента вектора ВТ[к. Мы видим, что случай- ные величины У|, ..., Yn независимы и У/ ~ N((Brpc)/, X2). Таким образом, ковариация равна Т т Г 0, / / /, Cov(r„ Yj) = Е[У, - (Bry.)i][У, - (ВГИ)/] = <к2 . . IX/, 1=}. Фактически переменные У,- помогут нам производить вычисления с ве- личинами Xj. Например, для среднего значения с. в. Xj находим ЕХ, = -------- .—- expf-^((x - и.), S_|(x - u))) dx = ' RJ (2K)"/2x/tetE 2V V’’ ' “ S |2,Xs exP(-5«P - B^- = ’ ,gj. wSferexp(-?«P - D'’<P - B^») = = E (2tc)'/2X, S exP (~ 2X? - (gV)<)2) <ty =
§2.3. Нормальное распределение. Центральная предельная теорема 223 Аналогично находим и ковариацию Cov(X,-, Xj): с (х, - еХр/_ 1 _ pQ Е_|(х - р.))^ dx = RJ (2п)я/2ч/tetS и\ 2х' = \ eXpf _ _ BT[L), D~'(y - Вту.))\ dy = jJ (2jt)n/2v'tetE H\ 2"y ^’4 9 = 52 52 С0У(У/( Ут)М/т = 52 = (^5"% = £//• l^/^л 1^/и^л Это доказывает утверждение 4 6). При i = j получаем дисперсию VarX,. На самом деле еще более мощным средством является совместная характеристическая функция фх(/), определяемая формулой фх(О = Ее‘</д> =Еехр6 J2//X/1 tT = (/ь ...,t„) eRn. (2.3.8) ' /=1 ' Совместная характеристическая функция имеет многие свойства марги- нальной характеристической функции. В частности, совместная характери- стическая функция однозначно определяет случайный вектор X. Для мно- гомерного нормального вектора X совместная характеристическая функция может быть вычислена в явном виде. В самом деле, Ее"Гх = Ее',Гву = Ее'<вГ/)Гу = Ц Е ехр(/(Вг/)/У/). /=1 Здесь каждый сомножитель представляет собой маргинальную характери- стическую функцию: Е ехр(/(Вг0/У/) = ехр(/(Вг0/(В-‘и)/ " (ВгЛ?Х?/2). Так как BDB~X = Е, все произведение в целом равно ехр(«гВВ~'н - ^tTBDB~'i} = exp(z7rpi - Следовательно, ф*(0 = (2.3.9) Отметим существенное различие в матрицах, которые входят в выражения для многомерной нормальной п. р. в. и многомерной нормальной характе- ристической функции: в формуле (2.3.9) это ковариационная матрица Е, а в формулу (2.3.7) входит Е”1. Теперь, чтобы получить маргинальную характеристическую функцию (х. ф.) ф/ДО, подставим вектор t = (0, ..., 0, /, 0, ..., 0) (t на /*-й позиции)
224 Глава 2. Непрерывные пространства элементарных исходов в правую часть формулы (2.3.9): <|%(0 = exp(zpz/ - /2Е/7/2). В силу единственности п. р. в. с заданной х. ф. находим Xj ~ 'Ец), что и требуется для утверждения 4 а). Из вышеприведенных рассуждений немедленно следует еще одно свой- ство. 4в) Если X — вектор, N(pi, Е), то любое подмножество его компо- нент (Xjt) также имеет совместное нормальное распределение с вектором средних значений ([17/) и ковариационной матрицей Для характеристической функции мы получили следующее свойство. 5. Совместная х. ф. фх(0 случайного вектора X ~ N(pi, Е) имеет вид exp(z{/, р.) - Е/)). Наконец, понятия и методы, развитые выше, позволяют проверить, что справедлив следующий результат п 6. Линейная комбинация 52 f Л совместно нормальных с. в. X~N(pi, Е) /=1 имеет нормальное распределение со средним (с, р.) = 52 с№ и диспер- сией (с, Ес) = 52 c^ijCj. В общем случае, если Y — это случайный вектор вида Y = АТХ, полученный из вектора X при помощи линейного преобразования с обратимой матрицей А, то y~N(4V, АГЕА). См. при- мер 1.1.1 в части В. (Это последнее утверждение можно распространить также и на случай преобразований с необратимой матрицей А, но мы оставим этот вопрос для последующих томов.) Задача 2.3.5. Найдите распределение суммы п независимых случайных величин, каждая из которых имеет распределение Пуассона с парамет- ром К. Используя центральную предельную теорему, докажите, что при п оо. Решение. Пусть Х\, ...,Хп — н. о. р. Ро(1)-с.в. Производящая функ- ция имеет вид фх,.($) = Esx< = = е5”1, s е R1. /^о В общем случае, если Y ~ Ро(Х), то фи«) = 52 = eX(s-l)- 1^0
§2.3. Нормальное распределение. Центральная предельная теорема 225 Далее, если Sn = Х\ + ... + Хп, то ф5„(«) =фх, («)••• откуда следует, что Sn ~ Ро(п) и ES„ = Var(SZI) = п. В силу ЦПТ мы имеем Тп = ~г^П' ~ N(0, 1) при больших п. Однако е п п2 2!* о 2’ Задача 2.3.6 (вопрос из курса алгебры). Пусть х\, ..., хп е — это линейно независимые векторы-столбцы. Покажите, что матрица размера п х п вида п является обратимой. п Решение. Достаточно показать, что матрица ^2 xixI не переводит в ну- /=1 левой вектор ни один ненулевой вектор. Предположим, что / п ч где с = (С|, ..., Сп)т е R". Это означает, что п п П, k=\ /=1 ИЛИ что п 1 ^/Ч«. Здесь X/ = I ' , 1 «Ч л. Последнее равенство означает, что п с) = 0. Поскольку векторы х- являются линейно независимыми, коэффициенты (х/, с) равны 0, 1 $ i п. Но это означает, что с = 0. □ 8—1104
226 Глава 2. Непрерывные пространства элементарных исходов Три следующие задачи были позаимствованы из углубленных курсов по статистике; их можно опустить при первом чтении, но они окажутся полезными для тех читателей, которые намереваются достичь лучшего понимания уже на данном этапе. Задача 2.3.7. Пусть Хь ..., Хп — н. о. р. выборка из N(pij, о2) и ... ... , Ym — н. о. р. выборка из N([i2, и предположим, что эти две вы- борки взаимно независимы. Найдите совместное распределение разности X-Y w суммы Ё X + -? Ё У/? а| /=1 а2 /=1 Решение. Находим X ~ -ofj, Y ~ N(pi2, —а2^. Далее, ; i \ / rt X1/2/ АП Ч1/2 / (X-J1|)2 (//~pi2)2\ ^•^’^“Gita2) W}) ехр\ П 2а? 2о2 )’ - — 1 п 1 т п - Мы видим, что обе величины U = X- YnS = — $2 X/ + — 12 ^/ = + а1 /=1 а2 /=1 ai + ^Y представляют собой линейные комбинации (независимых) нормаль- а2 ных случайных величин, а следовательно, и сами являются нормальными. Прямые вычисления показывают, что о 9 г-с п , т \т и та\+псГ2 \т е пт Е(/=И1-р2, ES=^p1 + -5H2. Var(/= ' 2, УагЗ^Ч-^. О| о 2 нш с>| ч>2 Таким образом, t < \ (тлл)'/2 ( [и - (рп - и2)]2 1 _ тп, “ (2л(/па2 + ла2))1/2 еХР I 2(/па2 + па2)/(тл) Г " € R’ И е , ч Q1C2 Г Г ( п . т \12 /2(АИО| +ЛО2)1 ^тп> fs(S) = ---2v\7/2 еХР 1 — ^2) -----2 2' ' Р (2л(/иа| Ч-лс^))1/2 rl L \а, 7J / а|а£ J Наконец, величины U и S являются независимыми, поскольку Cov((/, S) = 0. Следовательно, совместная п. р. в. удовлетворяет условию fu,s(u. s) = fu(u)fs(s). □ Замечание. Из формул для fu(u) и fs(s) следует, что пара ((/, S) образует так называемую «достаточную статистику» для пары неизвестных параметров (pi, [12)- См. § 1.3 в части В. Задача 2.3.8. Пусть Х\, Х2, ..., Хп —случайная выборка из распре- деления N(0, о2), и предположим, что априорное распределение парамет- ра 0 — это распределение N(p, т2), где а2, рит2 известны. Определите апостериорное распределение 0 при заданных Хь Х%, ..., Хп.
§2.3. Нормальное распределение. Центральная предельная теорема 227 Решение. Априорная п. р. в. является гауссовской: 1 <e-u>2 л(0) = -7=^е v2nx и таковой является и (совместная) п. р. в. вектора X при заданном значе- нии 9: ’ГТ 1 (Xj-B)2 Л*; 6) = П’7Г~е vzna Таким образом (знак ос означает «пропорционально»), л(в№;в)«ехр(-»^-Е^) = = “?(-й! <в! - 2Р"в + Л - й? -29 Е ч + 02>) = если отбросить члены, в которые 9 не входит. Тогда апостериорное рас- пределение имеет вид (Q I х _ к(6)/(х; 9) 1 Г (9-^) ( 1 } $л(9')/(х;9'Н9' Н 2т2 где 1-1 +Л — рЛ2 + «х/о2 т2~т2 а2’ 1/т2 + п/о2' Задача 2.3.9. Пусть 0, Хь ... —случайные величины. Предполо- жим, что при условии 0 = 9 случайные величины Х\, ... являются независимыми и величина Xk нормально распределена со средним 9 и дис- персией а|. Предположим, что маргинальная плотность 0 равна к(0)= 1 е-672, 9eR. Вычислите среднее и дисперсию величины О при условии, что Х[ =%i, ... ... , Хп = хп. Решение. Прямые вычисления показывают, что условная плотность /е|Х|....л,(9) — /(9 1*ь • хп) является кратной выражению Г j/ 1А/ Е^2 V exp - 7j (j + 12 Д6 “ 1 + Е 1/of J 8*
228 Глава 2. Непрерывные пространства элементарных исходов с коэффициентом, который зависит от значений xj, ..хп величин Х\, ... ... , Хп. Отсюда следует, что условное среднее имеет вид Е(01Л|......« = / 1 и условная дисперсия вычисляется по формуле Var(0l*'.....= т. е. не зависит от Х\, ..., Хп. □ Задача 2.3.10. Пусть X и Y — н.о. р. с. в. со стандартной нормальной п. р. в. /(х) = ~7=e Л'2/2, \/2^ хе К. Найдите совместную п. р. в. величин U = X+Y и V = Х —Y. Покажите, что величины U и V независимы, и выпишите их маргинальные распределения. Пусть Г |У|, если X > 0, |-|У|, если X < 0. Вычислив P(Z С z) при z < 0 и z > 0, покажите, что величина Z имеет стандартное нормальное распределение. Кратко объясните, почему сов- местное распределение величин X и Z не является двумерным нормальным распределением. Решение. Запишем ([/, V) = Т(Х, Y). Тогда для п. р. в. имеем Ыи, V = Обратное отображение здесь таково: 7- („.„) = (1+1 = \ 2 2 / д(и, v) 2 Следовательно, 1 _ I / <«+?)2 । (И-с)2 \ 1 1 1 Z 2 , 2х fu.vtu, v) = и 4 4 2 = ^е 1 ’ т. е. величины (У, V являются независимыми. Далее, если z > 0, то P(Z < z) = ^(1 + Р(|У| < z)) = Р(У < z), а если z < 0, то P(Z < z) = i Р(-|У| < z) = Р(У > |г|) = Р(Г < z).
§2.3. Нормальное распределение. Центральная предельная теорема 229 Таким образом, величина Z имеет то же самое нормальное распределение, что и Y. Но совместное распределение пары (X, Z) приписывает нулевые массы второму и четвертому квадранту, следовательно, Z и X не являются независимыми. □ Задача 2.3.11. Пусть Х\ и У| —независимые нормальные с. в. со сред- ним 0 и дисперсией а2 > 0, и пусть Х%= Х\, Y2 = (Xj + Y\)/y/*2. а) Выпишите совместные п. р. в. /х,,у, и /х2.г2. б) Случайная величина /V не зависит от Х\, У1 и принимает значения 1 и 2 с вероятностью 1/2. Чему равна совместная плотность пары (Хд/, Уд,)? Найдите ЕХдг, EYN, VarX,v, VarKv и Соу(Хд/, YN) = E(XN - EXN)(YN-EY/^). в) Покажите, что каждая из случайных величин Хд/ и Y^ имеет нормаль- ное распределение. Будет ли пара (X/v, Уд/) иметь совместное нормальное распределение? Решение, а) Прямая замена переменных имеет вид x2 = xi, у2 = ^=(Х1 + //1), а обратная замена *1 = Х2, yi = >/2у2 - Х2, имеет якобиан Следовательно, fx,.Y,(x, у) = 2^2 ехр(-2^>(*2 + */2)) и fx2.Y2(x, у) = ехр(-^2 (х2 + (х/2у - х)2)) = = -ТйЦ- ехр(~2^2 (2*2 - 2ч/2х^ + 2^>)- v2kq2 \ 20 / б) Далее, /= + fx2.Y2) является п. р. в., так как / 0 и $/= KS/х..г, + ^х2у2) = 5 + | = 1- Рассматривая соответствующую пару (X, У), удобно использовать случай- ную величину {1 с вероятностью 1/2, 2 с вероятностью 1/2
230 Глава 2. Непрерывные пространства элементарных исходов и положить (X, Y) = (Хд/, Уд/). Тогда EX = ^(ЕХ| + ЕХ2) = 0; аналогично ЕУ = 0, VarX = ^(VarXi + УагХг) = а2, и то же самое для Var У, Cov(X, Y) = l(Cov(Xt, Ki) + Cov(X2, Т2)) = 1(0 4- Cov(X2, Г2)) = = -l=EXi(X| + У,) = —1=(ЕХ2 + ЕХ| Г1) = -5?=о2. 2^2 2ч/2 1 2Л- в) Интегрирование f(x, у) по х или у приводит к N(0, а2)-п. р. в.: few = 1(/х, (х) + fx2 W) = fx, (х) ~ N(0, о2), и аналогично для /yv(z/). Можно рассуждать и по-другому: рассмотрим Ee^ = ^Ee,Y' + ^Ee,Y^el2a1/2. Это выражение является в точности производящей функцией моментов для с. в. N(0, а2), поскольку EetY2 = ^et(Xi + Yi)/V2 _ ^е/Х|/\/2 EetYi/x/2 _ е/2а2/2 Но пара (Хдг, Уд/) не является совместно нормальной, так как /xv.yv(x, у) не имеет вид плотности двумерного нормального распределения. □ Задача 2.3.12. Проверьте, что стандартная нормальная плотность рас- пределения р(х) = -^=е~х2^ удовлетворяет уравнению v2k хр(х) dx = р(у), у>0. У Используя это уравнение и равенство sinx= ^cos у dy (или иным спо- о собом), докажите, что если X — это N(0, 1)-с. в., то (Е cosX)2 Var(sinX) E(cosX)2. Решение. Запишем , оо , оо z 2ч 1 -у= хе"*^2 dx = —= \ е~^d(^r \ = y/2it j ч/2л J \2jy/2^ Теперь Е sin X = -^= е-*2/2 sin х dx = 0,
§2.3. Нормальное распределение. Центральная предельная теорема 231 поскольку e~*2/2sinx является нечетной функцией. Таким образом, Var(sinX) = E(sinX)2 = § p(x)(sinx)2 dx = § p(x) cosydy^ dx. В силу неравенства Коши—Шварца последний интеграл не превосходит 5 Р(х)|х| §(cosу)2 dydx = о О ' у. оо оо = - 5 (cos У)2 $ ХРW dxdy + (cos у)2 § хр(х) dxdy = — оо -оо О У О оо = 5 p(y)(cos у)2 dy + 5 p(y)(cos у)2 dy = $p(z/)(cos t/)2d# = E(cosX)2. -оо О С другой стороны, поскольку EX2 = 1, мы получаем Var(sinX) = Е(sin X)2 = EX2 E(sinX)2 / х ч 2 (E(XsinX))2 = I ^xp(x)dx §cos у dy j = \ о ' / О У oo oo \ 2 = I - § cosy § xp(x) dx dy + § cosy § xp(x)dxdy ) = ' —oo —oo О У ' = (^p(y) cos у dy) =(EcosX)2. □ Задача 2.3.13. В условиях задачи 2.2.6 докажите, что X и У являются независимыми тогда и только тогда, когда г = 0. Решение. В общем случае, если X и У независимы, то г = ЕХУ = = ЕХЕУ = 0. В гауссовском случае верно и обратное: если г = 0, то совместная п. р. в. имеет вид fx.Yix, у) = ^^_(?+у2)/2 = -7==е-х2/2-^=е"у2/2 = fx[x)fY(y), т. е. X и У являются независимыми. □ Задача 2.3.14. Докажите центральную предельную теорему для неза- висимых одинаково распределенных действительных случайных величин со средним pi и дисперсией а2. Предположим, что ХьХг, ... —это н.о. р.с. в., каждая из которых равномерно распределена на отрезке [0, 1]. Вычислите среднее и диспер- сию In Xj. Пусть 0 а < Ь. Покажите, что P^XiX2...X„)n~'/'ien,/2 е[а, &]) стремится к пределу, и найдите, чему равен этот предел.
232 Глава 2. Непрерывные пространства элементарных исходов Решение. Пусть Х\, . — н. о. р. с. в. со средним ЕХ, = pt и дис- персией Xi = а2. Центральная предельная теорема утверждает, что Va, b, -оо С а < b С оо, выполняется равенство г п/ Х\ + ... + Хп — пи , \ 1 г —х2/2 л lim Р а <--------------т=-------- < b = —= \ е х dx. п—>оо \ \/ПО / v2;t j Более того, если X ~ U(0, 1), то 1 о о Е In X/ = 1пх dx = - § y(de~y) = (-^)|^ + § е~У = О оо оо 10 0 Е(1пХ,)2 = $(lnx)2dx= У2(1(е~у) = “2 $ e~yydy = 2 О оо оо Var(lnX,) = 2 - (—I)2 = 1. Наконец, в силу ЦПТ получаем Р((Х|Х2...А„)п’1/2еп'/2€ [a, ft]) = Р (-j= 1п%, + 6 [Ina, In ft] ) = 'V /=1 ' / . / л \ \ . In b Р ( In Xt; + п \ е [In а, In 6 И —► -= § е-*2/2 dx. □ 4 \=1 7 ' In а Задача 2.3.15. Случайные величины X/, i = 1,2, имеют нормальное V О распределение со средним pi, и дисперсией о,- и являются независимыми. Найдите распределение с. в. Z = а\Х\ + где а], <22 € К. Указание. Вы можете воспользоваться тем, что Ее0Х/ = е0^+|02а,2 Решение. Производящая функция моментов имеет вид <ра,х,+оЛ(6) = Е(е0<а‘х'+аЛ)) = Е(е0а-*'е0аЛ) = = Е(е0а'*') E(e0a^) = <р%1 (а, в)<рЛ2 (а20) в силу независимости. Далее, фх, (fl 10)<рх2 (Я20) = exp(ai9[ii + ^а,02а? + а20ц2 + ^а202а2) = = exp[0(aipi + a2pt!) + ^02(а?о2 + а2а^)] = Л4г(0), где Z ~ N((ai(i] 4- Д2Ц1), 4- В СИЛУ единственности п. р. в. с заданной производящей функцией моментов получаем, что (аЛ + а2Х2) ~ N((aipi + a2pii), (afaf + а2о2)). □
§2.3. Нормальное распределение. Центральная предельная теорема 233 Задача 2.3.16. а) Пусть X — нормально распределенная с. в. со сред- ним 0 и дисперсией 1. Вычислите ЕХГ при г = 0, 1, 2, 3, 4. Пусть Y — нормально распределенная с. в. со средним pt и дисперсией о2. Вычислите ЕУГ при г = 0, 1, 2, 3, 4. Что можно сказать о сумме двух независимых случайных величин? (Сформулируйте без доказательства.) 6) Госпожа президент Статистического общества обычно отдыхает, за- нимаясь рыбной ловлей в чистых водах озера Чебышёва. Количество пой- манных рыбок является пуассоновской случайной величиной с парамет- ром X. Вес каждой из рыбок, плавающих в озере Чебышёва, является независимой нормально распределенной случайной величиной со сред- ним pt и дисперсией о2. (Если считать, что pt намного больше, чем о, то рыбки с отрицательным весом будут попадаться крайне редко и будут очень цениться гурманами.) Пусть Z— это общий вес всего улова. Вычислите EZ и EZ2. Покажите, цитируя все необходимые вам результаты, что вероятность того, что улов президента будет весить меньше чем Xpt/2, не превосходит 4(pt2 4- a2)X-1pi-2. Решение, а) В силу симметрии ЕХ° = El = 1, ЕХ1 = ЕХ3 = 0. Далее, находим ЕХ2 и ЕХ4, применив интегрирование по частям: -^= \х2е~х2^2 dx = -^= [(-хе-*2/2)]00 4- \e~x^2dx\ = 1, л/2к 3 УМ1 3 J —х4^-*2/2 dx = —}= [(-x3e-x2/2)|°° 4- 3 х2е-х2//2 dx] = 3. л/2^ 3 УМ ’-°0 3 -1 Затем находим ЕУ° = Е1 = 1, ЕК1 = Е(оХ 4-pi) = о ЕХ 4-pi El = pt, Е Y2 = Е(а2Х2 4- 2pioX 4- pi2) = о2 4- pi2, Е Y3 = Е(а3Х3 4- 3pio2X2 4- 3pi2oX 4- pi3) = 3pio2 4- pi3 и E У4 = E(o4X4 4- 4pio3X3 4- 6pi2o2X2 4- 4pi3oX 4- pt4) = 3o4 4- 6pi2o2 4- pi4. Теперь если Xj, X2 — независимые нормальные с. в. со средни- ми pij, pt2 и дисперсиями о2, соответственно, то Х\ 4-Х2 является N(pt! 4- pi2, a2 4-O2)‘c-b- б) Таким образом, если Yr — это вес г рыбок, то Yr ~ N(rpi, га2). Наконец, о° \ге~* EZ = Р(поймала г рыбок) ЕУГ = У^ —— rpi = Xpi, r=0
234 Глава 2. Непрерывные пространства элементарных исходов и аналогично ЕГ'Т ГЕ/--Т W = = +рг 12 Ц— г'г - )+н2 J2 =х<°2 + Л+XV- Отсюда следует, что VarZ = EZ2 - (EZ)2 = Х(ст2 + [?). Тогда в силу неравенства Чебышёва можно записать р/7^ о(\7 VarZ 4(а2+[12) Р1/<ТПР1|/-Л!1|>ТП (XjW “ Хи2 Задача 2.3.17. Пусть X и Y — независимые и нормально распределен- ные с. в. с одной и той же плотностью распределения —е-х2/2. \/2д Найдите плотности распределения следующих величин: а)Х+У; б) X2; в) X2 + У2. Решение, а) Для кумулятивной функции распределения запишем Fx+Y(t) = $e~(x2+ff2)/2/(x + y<t)dydx. zn Поскольку п. р. в. е“(х2+^2)/2/2д симметрична относительно вращений, по- следнее выражение равно S е-'?+^>/2/(х < dy dx = $ е-“2/4 du, v v —оо откуда заключаем, что п. р. в. равна Л+Г(х) = ^е-^. 6) Аналогично при t 0 получаем ^x2(0=T" \\е~(х2+у2)^2/(х2<t) dy dx=—^= \ е~х2^2 dx—-^= \ -^е~^2 du, zn v 2n g Vй откуда следует, что fx'^x) = -±=e~x/2l(x > 0). v2kx
§2.3. Нормальное распределение. Центральная предельная теорема 235 в) Наконец, Fp+Y^t) = S е U2+/)/2/(x2 + у2 < dy dx = = + \ ге~'1^1(12 < t) dB dr = \ е~и^ du, J J Z J и п. р. в. имеет вид /хчп(х) = ^/2/(х>0). □ Задача 2.3.18. а) Плотность распределения вероятностей {-распреде- ления с q степенями свободы имеет вид (См. пример 1.1.3 в части В.) Используя свойства показательной функции и тот факт, что при q —► оо, докажите, что /(х; q) стремится к плотности распределения вероятностей нормальной случайной величины N(0, 1). Указание. Можно записать /2 \-«7+0/2 1 + -) q) б) Найдите плотность распределения вероятностей случайной величины Y = Z2, где Z — это N(0, 1)-с. в. в) Плотность распределения вероятностей для F-распределения с (1, q) степенями свободы имеет вид F f 9 ) _ 1 /о / X \ "<<7+1 g(x\q) = zg? ' х 7 (14--) - 0 < х < оо. rGD^ v qJ Используя полученные выше предельные результаты, покажите, что g(x\ q) стремится к плотности распределения с. в. Y при q —► оо. Решение, б) Плотность распределения вероятностей случайной вели- чины Y равна -Д=е“х/2/(х > 0). v2nx в) Применив предельный переход к отношению гамма-функций, нахо- дим А , «7+0/2 Z уч 11 + ?) -еЧ-Н)-
236 Глава 2. Непрерывные пространства элементарных исходов Следовательно, п. р. в. для F-распределения стремится к что и требовалось показать. Этот результат получается вполне естественно. Действительно, из при- мера 1.1.4 из части В следует, что Fj^-распределение связано с отношени- ем X2 / (£ Y?/q), где Хь У|, ..., Yq — н. о. р. N(0, 1)-с. в. Знаменатель q 9 7-1 ^2 Yf/q стремится к 1 при q —* оо по закону больших чисел. □ /=> Задача 2.3.19. Пусть Хь Х%, ... — независимые с. в., каждая из кото- рых имеет распределение Коши с п. р. в. = л(^ + х2)’ Покажите, что случайная величина (Xi +Х% + .. . + Хп)/п имеет то же самое распределение, что и с. в. Х\. Противоречит ли это слабому закону больших чисел или центральной предельной теореме? Указание. Характеристическая функция случайной величины Х\ равна и эту же самую характеристическую функцию имеет и с. в. (Xi +%2 + - • - + Хп)/п. Это следует из того, что характеристическая функция однозначно определяет плотность распределения. Для выполнения ЗБЧ и ЦПТ требуется существование математическо- го ожидания и дисперсии. □ Задача 2.3.20. Пусть X ~ N(p, о2), и предположим, что /г(х), х е R,— гладкая ограниченная функция. Докажите формулу Стейна Е[(Х - р)А(Х)] = а2Е[А'(Х)]- Решение. Не теряя общности, можно положить pt = 0. Тогда Е[ХЛ(Х)] =-?£- Т xh(x)e~x2/2a2 dx = v = * \ ft(x)d(-a2e-r^2<r!) =-Д=- \ ^{х^е-^^2 dx, Л Л что выполняется, поскольку интегралы сходятся абсолютно. □ Задача 2.3.21. Пусть X ~ N(p, о2) и Ф— кумулятивная функция рас- пределения случайной величины N(0, 1). Предположим, что /г(х), xeR,— гладкая ограниченная функция. Докажите, что для любых действительных
§2.3. Нормальное распределение. Центральная предельная теорема 237 чисел 0, а, р выполняются следующие равенства: Е[е0ЛА(Х)] = eu6+<’202/2 Е[Л(Х + 6о2)], Е[Ф(аХ + Р)]=ф(-^+Р ). Wl+aW Решение. Опять, не теряя общности, можно предположить, что [1 = 0. Тогда Е[емА(Х)] = =L- Т e0x-x2/2°2A(x)dx = V2*” Л = -^L- Т e-(x-a20)2/2a2e°202/2ft(x)dx = V2ko _jx = T е-(х-а29)2/2а2Л(х) dx = fW/2 E ™-oo Все интегралы здесь сходятся абсолютно. При доказательстве второй формулы будем рассматривать случай общего (1, для того чтобы изложение было более прозрачным. Если Z ~ N(0, 1) и Z не зависит от X, то Е[Ф(аХ + Р)] = Р(Z аХ + р) = Р(Z - а(Х - (1) а[1 + Р) = = р /Z-ot(X-p) < оцл + Р \ = xJ «И + Р \ п \ у/1 + а2а2 V1 +а2а2/ К V1 4- а2о2 / Задача 2.3.22. Предположим, что пара (X, У) имеет совместное нор- мальное распределение и /г(х) — гладкая ограниченная функция. Докажите следующие соотношения: Е[(У-ЕУ)Х] = Со^/1(Х-ЕХ) var л И Cov[ft(X), Г] = E[ft'(X)] Cov[X, У]. Решение. Опять предположим, что обе с. в. X и У имеют нулевые средние. Для совместной плотности /х,г(х, у) запишем <xexp[-i(x, y)Y.~' , где Е = (Ez/) — это ковариационная матрица размера 2x2. Тогда при условии X = х для плотности fy(y | х) можно записать <xexp[-^((E-')22J/2 + 2xz/(E-')i2)]. Напомним, что Е-1 — матрица, обратная ковариационной матрице Е. Это показывает, что условная плотность fy(y | х) является гауссовской
238 Глава 2. Непрерывные пространства элементарных исходов плотностью, у которой среднее — линейная функция по х. Таким образом, Е[У|Х]=уХ. Для того чтобы найти у, умножим обе части на X и вычислим математиче- ское ожидание. В левой части получим Е(ХУ) = Cov[X, У], а правая часть равна у VarX. Из этого результата в силу формулы Стейна следует второе равенство: Cov[ft(X), Г] = Е[Й(Х)У] = Е[Й(Х) Е(У | X)] = Е[ХЙ(Х)] = = E[/i'(X)]Cov[X, У]. □ В заключение части А заметим, что формула Стирлинга следует из неравенства Чебышёва. Пусть Х\, ..., Хп — независимые одинаково рас- пределенные случайные величины и X, ~ Ехр(1). Ясно, что в этом случае ЕХ/ = VarX/ = 1. В силу неравенства Чебышёва для любого а > 0 имеем 1 - ——х/2 VarXj = 1 - 1. (2.3.10) п па2 а2 ' С другой стороны, 52 ~ Gam(n, 1) с плотностью /=1 Поэтому для достаточно больших п левая часть неравенства (2.3.10) равна, а правая часть не превосходит e~^"ydy = = (п _ 1)! S ехр(-у + >W) dy < 1. ' 7 —а 2 Здесь Ап(у) = (п - 1) In1 + - у/пу + у —> 0 при п —► оо равномерно по у, -а < у < а. Следовательно, правая часть неравенства (2.3.10) равна 1 пп+1/2е~п с 2 /о nn+l/2e~rt с 1---j ------------1-- \ е 2 dy SUP--------------i-- \ е у dy а2 п_оо п\ Д * п\ Д у с */<> /— /—ппЛЛ12ё~п При а —► оо получаем е у /2 dy —► v2n и lim v2n--------------= 1, что -а п—+оо и доказывает формулу (1.6.20).
Часть В Основы статистики
Глава 1 Оценивание параметров § 1.1. Предварительные сведения. Некоторые важные вероятностные распределения Все модели ошибочны, но некоторые из них полезны. Дж. Бокс (1919—), британский статистик Model without a Cause Модель, основанная ни на чем (Из серии «Фильмы, которые не вышли на большой экран».) Во второй части этого тома рассмотрен материал, относящийся к курсу «Статистика» второго года обучения. Этот материал является естествен- ным продолжением курса «Вероятность». Статистика, которую на фа- культете математики Кембриджского университета называют «applicable» (т. е. дисциплиной, тяготеющей к приложениям), в настоящее время зани- мает место где-то между «чистыми» и «прикладными» дисциплинами в об- щей схеме курсов Кембриджа. Согласно одному из современных определе- ний, статистика — это набор процедур и принципов, применяемых для сбора и обработки информации с целью принятия решений в услови- ях неопределенности. Интересно сравнить это определение с более ран- ними интерпретациями термина «статистика» и связанных с ним терминов. Традиционно слова «статистический» (англ, «statistic») и «статистика» (англ, «statistics») происходят от слова «state», взятого в значении «по- литическая форма правления». Действительно, слово «statist» появляется в трагедии Шекспира «Гамлет», акт 5, сцена 21: Hamlet: Being thus benetted round with villainies,— Ere I could make a prologue to my brains, They had begun the play, — I sat me down, Devis’d a new commission; wrote it fair: I once did hold it, as our statists do, 'Перевод M.Лозинского.
242 Глава 1. Оценивание параметров A baseness to write fair, and labour’d much How to forget that learning; but, sir, now It did me yeoman’s service. Wilt thou know Th’ effect of what I wrote? Гамлет: Итак, кругом опутан негодяйством, — Мой ум не сочинил еще пролога, Как приступил к игре, — я сел, составил Другой приказ; переписал красиво; Когда-то я считал, как наша знать, Стыдом писать красиво и старался Забыть искусство это; но теперь Оно мне удружило. Хочешь знать, Что написал я? а затем в пьесе Шекспира «Цимбелин», акт 2, сцена 41: Posthumus: Ido believe, Statist though I am none, nor like to be, That this will prove a war; ... Постум: Хоть не политик я и им не стану, Но полагаю — быть войне. ... Слово «statist», по-видимому, обозначает лицо, выполняющее государ- ственную функцию. (Глоссарий к книге «The Complete Works by William Shakespeare. The Alexander Text» (London и Glasgow: Collins, 1990) по- просту определяет значение этого слова как «государственный деятель».) В подобном значении это же слово используется в произведении Мильтона «Обретенный рай», книга четвертая, строка 355. Многочисленные определения статистики, появившиеся до 1935 г., можно найти в [Wil]; их смысл по сути сводится к такому: «описание прошлой или настоящей политической или финансовой ситуации дан- ного государства». Характерно, что Наполеон описывал статистику как «бюджет вещей». Определение статистики занимало многие умы и позднее, после 1935 г., см. [NiFY], широкий спектр мнений по этому вопросу был представлен раз- личными авторами (а иногда и одним и тем же автором в разные периоды времени). Политические и идеологические факторы вносили свою лепту в эту запутанную ситуацию: авторы советской эпохи сообща атаковали за- падных за описание статистики скорее как методологической, чем матери- 1 Перевод Н.Мелковой.
§1.1. Предварительные сведения. Некоторые важные вероятностные распределения 243 альной науки. Пределом абсурда явилось провозглашение существования «пролетарской статистики», которая противопоставлялась «буржуазной статистике». Первая из них помогала «борьбе рабочего класса против его эксплуататоров», тогда как вторая была «служанкой монополистического капитала». Особым предметом разногласий стал вопрос о месте и роли математи- ческой статистики. Например, Дж. Бокс (1919—), американский матема- тик британского происхождения, начинавший свою карьеру студентом-хи- миком и служивший затем как статистик-практик в британской армии во время Второй мировой войны, писал, что было «ошибкой изобретать термин „математическая статистика44. Этот серьезный промах послужил источником бесчисленных трудностей». Интересно сравнить это с двумя довольно различными высказываниями Дж. У. Тьюки (1915—2000), одного из величайших специалистов всех вре- мен в статистике и во многих областях прикладной математики, которому приписывают, в числе многих других вещей, изобретение терминов «бит» (англ, «bit» — сокращение для «binary digit») и «software» — программное обеспечение. Тьюки, по образованию чистый математик (его докторская степень была получена в области топологии), говорил: «Статистика — это часть сложной и запутанной сети, связывающей математику, научную философию и другие отрасли науки, включая выборочные обследования, с процедурами анализа и, иногда, сбора данных». С другой стороны, Тьюки выразил следующее мнение: «Статистика — это часть прикладной матема- тики, которая имеет дело со случайными процессами (хотя и не только с ними)». Эта точка зрения на статистику была поддержана в значитель- ной части университетов (в том числе в Кембридже), в которых многие сотрудники статистических факультетов или подразделений (включая за- ведующих кафедрами математической статистики) являются на самом деле специалистами по случайным процессам. В этой части книги, посвященной статистике, изучаются различные способы обработки данных (результатов наблюдений) и выводы, сделанные на их основе: точечное оценивание, интервальное оценивание, проверка гипотез, регрессионный анализ. Некоторые из применяемых методов будут опираться на четкое логическое обоснование, а некоторые другие возник- ли ad hoc, т. е. специально для решения конкретных задач, и взяты на вооружение лишь потому, что они дают ответы на важные практические вопросы. Может показаться, что после десятилетий стараний и усилий (особенно в 1940—1970 гг.) все попытки свести современную статистику к единому и строгому обоснованию сейчас почти забыты в большей части академи- ческих кругов. (Возможно, это и преувеличение, но именно так зачастую
244 Глава 1. Оценивание параметров выглядит ситуация с точки зрения неспециалистов.) Однако такой авто- ритетный ученый, как Рао (с именем которого связаны теорема Рао— Блекуэлла и неравенство Крамера—Рао; см. ниже), подчеркивает, что связи между статистикой и математикой становятся все прочнее и мно- гообразнее. С другой стороны, в течение последних 30 лет наблюдается замечатель- ное распространение статистических методов буквально во все области научного анализа, и главным основанием для их применения служит то, что эти методы работают, и работают успешно. С приходом современных вычислительных технологий (включая пакеты SPSS, MINITAB и SPLUS) появилась возможность обрабатывать и анализировать огромные массивы данных и отображать результаты в удобной форме. Можно сказать, что компьютеры освободили статистиков от жесткой необходимости использовать только простые модели, допускающие анализ с помо- щью ручки и бумаги [We]. Необходимо подчеркнуть, что даже (и особенно) на начальном этапе изучения статистики тщательные вычисления «вручную» являются чрезвы- чайно важными для успешной сдачи экзаменов, и мы советуем кандидатам уделять серьезное внимание вычислительной работе. Для изучения курса «Статистика» следует освежить знания некото- рых ключевых фактов из курса «Вероятность». Эти факты охватывают следующие основные понятия: вероятностные распределения, плотности распределения вероятностей, случайные величины, математическое ожи- дание, совместные распределения, ковариация, независимость. В случае дискретных случайных величин удобно рассматривать дискретную функ- цию распределения (д. ф. р.), а в случае непрерывных величин — плотность распределения вероятностей (п. р. в.). Традиционно статистические курсы начинаются с изучения некоторых важных семейств д. ф. р./п. р. в., зави- сящих от параметра (или нескольких параметров, образующих вектор). Например, д. ф. р. распределения Пуассона Ро(Х) зависит от параметра X > 0, так же как и п. р. в. показательного распределения Ехр(Х). Нор- мальные п. р. в. параметризованы парой (р, о2), где [1 € R— это среднее и о2 >0 — дисперсия. «Истинное» значение параметра (или нескольких параметров) считается неизвестным, и нам необходимо разработать сред- ства для его оценивания. Значительная часть курса имеет дело с н. о. р. нормальными N(0,1)-с. в. Xi,%2, ••• и функциями от них. Простейшими функциями являются п линейные комбинации 52 aiXi- /=1 Пример 1.1.1. Линейные комбинации независимых нормальных с. в. Мы уже обсуждали свойства линейности нормальных с. в. в §2.3
§1.1. Предварительные сведения. Некоторые важные вероятностные распределения 245 части А; здесь мы напомним их с некоторыми видоизменениями. Пред- положим, что с. в. Х|, ..., Хп являются независимыми и X/ ~ N(pz, о?). Совместная п. р. в. этих величин имеет вид /х(*) = П^7ехр(-2(х'' Х= I : I 6R". (1.1.1) '=! ' \Хп/ Тогда для любых действительных ., ап мы имеем 52а-,Х, ~ N(У2аЦ11, 52• (1 -1 -2) I 4 / / 7 В частности, если а \ =... = ап = 1/л, рц =... = =pt и Oi =.. . = оп = а, то л 2 1£х,~н(и.2-). 1.3) /=1 В общем случае п / п \ 1/2 52^--н-)/(Ест9 ~n(o. о. Далее, предположим, что А = (Л/7) — это действительная обратимая матрица размера п х и, т. е. det А / 0, и А"1 = (А-у) — обратная матрица. Запишем /хЛ /ГД х= I ; I и у= ; \XnJ \YnJ и рассмотрим взаимно обратные линейные преобразования Y = АТХ и X = = (А-1)ГУ, так что Yt = (АТХ); = ^XiAih Xi = ((A~x)TY)i = £ YjA'j;. /=1 /=1 Тогда с. в. Уь ..., Yn являются совместно нормальными. Более точно, сов- местная п. р. в. fy(y) вычисляется как = jSHi П - ИЛ - (2п)"/2«)е1<Л’’гЛ)>|« ехр[-2^(у “'(У -P’V))]-
246 Глава 1. Оценивание параметров Здесь, как и ранее, (•, •) обозначает скалярное произведение в К", /н.\ /м Л' °2 •• °\ ti= : > у = : еГ и £ = 0 ст2 ... О W \yJ \о' ’о’ai) Напомним, что р. и S — это вектор средних значений и ковариационная матрица вектора X соответственно. Легко видеть, что вектор средних значений вектора Y равен A rpi, а ко- вариационная матрица равна АТИА: ЕYj = £ Ац^, CovCK-, Yj) = ^AkiakkAkj. i=\ k=\ Предположим теперь, что А — это действительная ортогональная мат- рица размера пхпи £Л*/Л^ = 8/;, т. е. АТА — единичная матрица размера k п х п. Тогда det А = ±1. Предположим, что введенные выше с. в. X/ имеют одинаковую дисперсию: о? = ... = о2 = о2. Тогда Cover-, Yj) = Cov[(ATX)i, (ATX)j] = £ Ak.An Cov(X*, Xt) = k,t=\ = a2 52 AkiAijbk,i = a2 52 AkiAkj = k,i k Это означает, что случайный вектор ХтА = Уг имеет независимые компо- ненты У1, ..., Yn и У) - о2). □ Пример 1.1.2. Суммы квадратов', распределение х2. Еще один при- мер, который будет неоднократно использоваться в дальнейшем, — это сумма квадратов. Пусть Xj, Х2, ... —это н. о. р. N(0, 1)-с. в. Распреде- ление суммы п /=1 называют распределением хи-квадрат, или ^-распределением с п степенями свободы, или, сокращенно, х2"РаспРеДелением- Как будет установлено ниже, это распределение имеет п. р. в. /х2, которая сконцен- трирована на положительной полуоси (0, оо): /хг(х) ос хл/2~1е“х/2/(х > 0), где коэффициент пропорциональности равен 1/[Г(л/2)2л/2]. Здесь 00 1 Г(п/2) = ^xn/2~le~x/2dx. о
§1.1. Предварительные сведения. Некоторые важные вероятностные распределения 247 Нетрудно заметить, что х2-распределение является Gam(a, Х)-распре- делением e.v^rt/2, \ = 1/2. С другой стороны, если Х\, ..., Хп — это н. о. р. N((i, a2)-c. в., то п п 52(Х, -ц)2~Оат(|, 2^) и - [Л2 ~Хп- (Ы-4) /=1 /=1 Среднее значение ^-распределения равно и, а дисперсия равна 2п. Все Х2-п. р. в. являются унимодальными. Графики некоторых п. р. в. /хг пред- ставлены на рис. 1.1. Рис. 1.1. Плотности х2-распределения при п = 1, л = 2, л = 4, п = 7, п= 11 Полезным свойством семейства /^-распределений является его замк- нутость относительно независимого суммирования. Это означает, что если с. в. Z ~ Хл и ~ Хи' независимы, то Z + Z' ~ Хл+л'- Конечно, х2-распре- деления унаследовали это свойство от гамма-распределений. Можно легко проверить, что W = fd/a <1 1 -5> если воспользоваться производящей функцией моментов. Производящая функция моментов МЛ2(0) = Ее6*' равна I с ее?е-?/2 dx = 1 с е_0 _2е>^/2 dx = 72л 3 %/2л 3 = J — е-^/2 du = J 2’
248 Глава 1. Оценивание параметров т. е. она является производящей функцией моментов для распределения Gam(l/2, 1/2). Далее, производящая функция моментов МуД/) величины Yn = 52 X2 равна степени (Л4Х2(0))л = (1 - 20)“п/2. Последнее выражение /=1 представляет собой производящую функцию моментов для распределения Gam(n/2, 1/2). Следовательно, fyn ~ Gam(n/2, 1/2), что и требовалось показать. □ Пример 1.1.3. Распределение Стъюдента (t-распределение). Как и выше, пусть Х\, Хг, ... —это н.о. р. N(0, 1)-с.в., тогда распределение отношения Xi+i называется распределением Стъюдента с п степенями свободы или, кратко, t„-распределением. Это распределение имеет п. р. в. f{n, которая определена на всей оси R и является симметричной (четной) относительно инверсии х i-4 —х: 7 Z24-(n-Fl)/2 Л„(/)ос (1 + ^-) где коэффициент пропорциональности равен 1 Г((и+1)/2) у/тгп Г(и/2) Очевидно, при п > 1 это распределение имеет среднее значение 0. При п > 2 дисперсия равна п/(п — 2). Все п. р. в. распределения Стьюдента унимодальны. Образцы графиков п. р. в. Дл показаны на рис. 1.2. Эти п. р. в. похожи на нормальные п. р. в. (и, как показано в зада- че 2.3.18 части A, f{n(t) приближается к e~f при п —> оо). Однако при конечных значениях п «хвосты» плотности Дя более «тяжелые», чем у нормальных п. р. в. В частности, производящая функция моментов для t-распределения не существует (за исключением точки 0 = 0): если X ~ t„, то Ее0х = оо для любого 0 е R \ {0}. Отметим, что если п = 1, то tj-распределение совпадает с распределе- нием Коши. Чтобы получить формулу для п. р. в. f[n для t„-распределения, заметим, что эта плотность совпадает с п. р. в. отношения Т = X/ y/Y/п, где с. в. X и Y независимы и N(0, 1), Y ~ Хл- Тогда 1х.у(х, у) = -^^-^-е-^^у^-'е-^Цу > 0). v2k 1 № п d(t, и) Якобиан преобразования переменных
§1.1. Предварительные сведения. Некоторые важные вероятностные распределения 249 Рис. 1.2. Плотности распределения Стьюдента при п = 1, п = 2, п = 36 равен (м///)1/2, а обратный якобиан равен = Следовательно, а(/, и) ' 00 1/2 Л„(0 = /т(0 = § fx.Y(t(u/n)}/2, u)(~) du = 1 2~п/2 \/2л Г(п/2) оо / х I /2 § e~t2u^2n ип^2~' е~и^2 du = 1 2-я/2 У2^Г(п/2)я'А е-(1+/2/л)и/2ц(п+1)/2-1 du О Последнее подынтегральное выражение равно п. р. в. распределения /Л + 1 1 . \ _ Gam —-—, - + — . Следовательно, \ 2 2 2п J 1 Г((л + 1)/2) / 1 \(Л+В/2 "У™ Г(и/2) Vl+/2/rJ (1.1.6) что и дает вышеприведенную формулу. □ Пример 1.1.4. У-распределение Фишера. Пусть теперь Х\, ..., Хт и Уь ..., Yn — это н. о. р. N(0, 1)-с. в. Отношение £х*/т /=|____ t Y?/n /=i
250 Глава 1. Оценивание параметров имеет распределение, называемое распределением Фишера, или F-pac- пределением с параметрами (степенями свободы) т, п, или, кратко, Fm,n-распределением. Соответствующая п. р. в. f^rnn сконцентрирована на положительной полуоси: /О I / т \ -(w+n)/2 /(х>0), (1.1.7) где коэффициент пропорциональности равен Г((т + п)/2) /т\т^ Г(т/2)Г(п/2) \п) ’ Среднее значение F-распределения равно п/(п - 2) (при п > 2, независимо от значения т), а дисперсия равна 2п2(т + п - 2) т(п - 2)2(л - 4) (для п > 4). Заметим, что если Z ~ t„, то Z2 ~ FLn, а если Z ~ Fm<n, то Z 1 ~ Fnjn Примеры графиков п. р. в. представлены на рис. 1.3. Рис. 1.3. Плотности распределения Фишера при т = 2, п — 2; т = 7, п = 2; т = 21, п = 22; т = 7, п = 22 Распределение Фишера часто называют распределением Снедеко- ра—Фишера. Вышеприведенная формула для п. р. в. может быть
§1.1. Предварительные сведения. Некоторые важные вероятностные распределения 251 установлена аналогично формуле для мы опускаем соответствующие вычисления. □ Пример 1.1.5. Бета-распределение — это вероятностное распреде- ление на интервале (0, 1) с п. р. в. f(x)ocxa~l(l -х)3-'/(0<х< 1), (1.1.8) где ос, р > 0 — параметры. Коэффициент пропорциональности равен Г(сс + 0) 1 Г(ос)Г(0) * В(ос,0)’ где В(ос, Р) — это бета-функция. Мы будем записывать Bet(oc, Р), ес- ли с. в. X имеет указанную выше п. р. в. Бета-распределение используется для описания различных случайных дробей. У этого распределения EX = VarX = ------------- ос + р (а + Р)(а + р+ I) Графики п.р. в. для бета-распределения представлены на рис. 1.4. Рис. 1.4. Плотности бета-распределения при а = 0,5,0 = 1,5; а = 1,2,0 = 0,8; а = 2,0,0 = 4,2 т, V о (т/п)Х тХ Интересно отметить, что если X ~ то 1 = п + тх ~ Bet(m/2, п/2). □ Дальнейшие примеры читатель может найти в таблице вероятностных распределений.
252 Глава 1. Оценивание параметров Важное значение будет придаваться работе с квантилями этих (и дру- гих) распределений. Для заданного у € (0, 1) верхняя у-квантиль (кван- тиль порядка у), или верхняя у-точка, а+(у) для д. ф. р./п. р. в. /, опре- деляется из уравнения 52 /W = Y или fMdx = x- х>а + (у) <2_|_(т> Аналогично нижняя у-квантилъ (нижняя у-точка) а_(у) определяет- ся из уравнения a-(Y) 52 /W = Y или f(x)dx = y. x^a_(Y) —00 Очевидно, что для квантилей п. р. в. a-(Y) = a+(l-Y). 0<у<1. (1.1.9) Для случая д. ф. р. уравнение (1.1.9) необходимо модифицировать, прини- мая во внимание, достигается ли значение а_(у) или нет (т. е. выполняется ли соотношение Да_(у)) > 0 или Да_(у)) = 0). Если у измеряется в процентах, то говорят о процентилях (процент- ных точках) заданного распределения. Квантили и процентили нормаль- ного распределения, х2-, t- и F-распределений можно найти в стандартных статистических таблицах. Современные пакеты дают возможность вычис- лять их с высокой точностью для практически любого заданного распре- деления. Некоторые основные таблицы процентилей приведены с любезного разрешения Р. Вебера (см. с. 295—297). Эти таблицы дают такие значения х, что определенный процент рас- пределения находится слева от х. Например, если X ~ 1з, то Р(% 5,84) = = 0,995 и Р(-5,84 X 5,84) = 0,99. Если X ~ F8.5, то Р(Х 4,82) = 0,95. Таблицы 1.1 —1.4 можно использовать для проверки гипотез с уровня- ми 0,01, 0,05 и 0,10. Для F-распределения представлены только 95-про- центные точки; этого достаточно для применения одностороннего критерия с уровнем 0,05. Таблицы точек с другими процентными значениями могут быть найдены в любой книге по статистике или вычислены при помощи компьютерного программного обеспечения. (Эти таблицы были построены при помощи функций, доступных в Microsoft Excel.) Отметим, что последовательности процентных точек для t„-распре- деления сходятся к соответствующим точкам N(0, ^-распределения при п —* оо.
§ 1.2. Оценки. Несмещенность 253 § 1.2. Оценки. Несмещенность License to Sample You Only Estimate Twice The Estimator1 (Из серии «Фильмы, которые не вышли на большой экран».) Мы начнем этот параграф с введения понятий несмещенности и до- статочности. Основная модель, рассматриваемая в гл. 1 и 2, состоит в следующем: наблюдается выборка заданного объема и, состоящая из значений н. о. р. действительных с. в. Х\, ..., Хп с общей д. ф. р./п. р. в. /(х; 0). Обозначение /(х; 0) вводится, чтобы подчеркнуть, что рассматрива- емая д. ф. р./п. р. в. зависит от параметра 0, значения которого изменяются в пределах некоторой заданной области 0. Совместная д. ф. р./п. р. в. слу- чайного вектора X обозначается 0) или /(х; 0) и равна произведению /ХЛ /хЛ /х(х;0) = /(х1;0).../(хя;0), Х = Г; , х = : . (1.2.1) \ХЛ / \хЛ / Здесь и далее вектор х обозначает выборочное значение вектора X. (Сло- жилась традиция обозначать прописными буквами случайные величины, а строчными буквами — их выборочные значения.) Распределение вероят- ностей, порождаемое функцией /%(•; 0), обозначается Pg, а математическое ожидание и дисперсия относительно Pg обозначаются Eq и Var^. В непрерывной модели, когда мы имеем дело с п. р. в., аргумент х может принимать значения в IR; а точнее, в области, где /(х; 0) > 0 хотя бы для одного 0 € 0. Аналогично х € R" — это вектор из множества, на котором fx(x\ 0) > 0 хотя бы для одного значения 0 € 0. В дискретной модели, когда /(х; 0) — это д. ф. р., х принимает значения в определенном дискретном множестве V с R (например, в множестве целых неотрицательных чисел Z+ = {0, 1, 2, ...} в случае распределения Пуассона). Тогда х € Vn — это вектор, компоненты которого лежат в V. Индекс X в обозначении /*(х; 0) далее часто будем опускать. Точное значение параметра 0 неизвестно; наша цель — «оценить» его на основании выборки х = (хь ..., хп). Это означает, что мы хотим опре- делить функцию 0*(х), зависящую от выборки х, но не зависящую от 0, которую мы могли бы рассматривать как предполагаемое значение 0. Та- кую функцию мы будем называть оценкой параметра 0. Замечание. В англоязычной литературе используют два термина: «estimator» и «estimate». Первый имеет смысл случайной величины, которая является функцией от выборки (рассматриваемой как случайный 1 Ср. названия фильмов: «Licence to Kill», «You Only Live Twice» и «The Terminator».
254 Глава 1. Оценивание параметров вектор), во втором случае рассматривается значение этой функции для конкретного значения выборки (реализации случайного вектора), т.е. кон- кретное число (вектор). В русском языке вместо этих двух терминов упо- требляют один, «оценка», при этом из контекста всегда видно, идет ли речь об оценке как случайной величине либо о ее конкретном значении для каж- дой заданной выборки. Некоторые авторы в англоязычной литературе ис- пользуют термин «ап estimate» вместо «ап estimator», а другие используют термин «а point estimator» или даже «а point estimate» (точечная оценка). Например, в простом случае, если бы параметр 0 принимал только два значения 6о и Oj, оценка 6*(х) приписывала бы значение 6о либо 61 каждой наблюдаемой выборке х. Это вводило бы разбиение выборочного пространства (множества исходов) на две области: одну, на которой оценка принимает значение 6о, и другую, на которой оценка равна Oj. В общем слу- чае, как уже сказано выше, мы предполагаем, что 6 принадлежит заданному множеству значений ©. (Например, значения 6 и 6* могут быть векторами.) Например, хорошо известно, что число взмахов крыльями (прыжков) птицы перед взлетом описывается геометрическим распределением. Далее, эмиссия альфа-частиц радиоактивным источником описывается распреде- лением Пуассона (это легко получить, если предположить, что механизм излучения частиц не зависит от времени). Однако параметр распределе- ния может быть разным, в зависимости от вида птиц или от материала, используемого в эксперименте с эмиссией (и зависеть также и от других факторов). Важно уметь оценить неизвестное значение параметра (q или К) по наблюдаемой выборке Х\, ..., хл, где х, — это число выпущенных частиц за i-й интервал наблюдений. В 1930-х гг., когда методы проведения экспериментов были довольно примитивными, испущенные частицы просто подсчитывали визуально. В Кембриджском университете все еще помнят, как Э. Резерфорд (1871 — 1937), известный физик и директор лаборатории им. Кавендиша, набирая на работу новых сотрудников, задавал два прямых вопроса: «Вы закончили университет с отличием?» и «Умеете ли Вы считать?» Ответ «Да» на оба вопроса был необходимым условием для поступления на работу. В принципе, любая функция от х может рассматриваться в качестве оценки, но на практике нам хотелось бы, чтобы она была «разумной». Нам, следовательно, необходимо выработать критерии, согласно которым оценка считается хорошей либо плохой. Соответствующая область стати- стики называется параметрическим оцениванием. Пример 1.2.1. Пусть ..., Хп — н. о. р. с. в. и X ~ Ро(Х). Оценкой для К = ЕХ является выборочное среднее X, где 1 п X = ^Xi. (1.2.2) /=|
§ 1.2. Оценки. Несмещенность 255 Отметим, что пХ ~ Ро(пХ). Мы немедленно получаем следующие по- лезные свойства выборочного среднего. _ п 1. Случайная величина Х = ^2Х;/и сосредоточена вблизи истинного /=1 значения параметра: ЕХ = ^^ЕХ, = ЕХ1 =Х. (1.2.3а) / Это свойство называется несмещенностью и будет подробно обсуждать- ся ниже. 2. Величина X стремится к истинному значению при л —► оо: Р( lim Х = Х) = 1 (усиленный ЗБЧ). (1.2.36) 'л—юо ' Это свойство называют состоятельностью. Несмещенный и состоятельный статистик? Это дополнение к событию вероятности 1. (Из серии «Почему их не понимают».) 3. Для больших п выполняется условие ^j(X-X)~N(O, 1) (ЦПТ). (1.2.3b) Это свойство часто называют асимптотической нормальностью. Даже если статистики и нормальны, то в большинстве случаев они лишь асимптотически нормальны. (Из серии «Почему их не понимают».) Имеется еще одно важное свойство величины X. 4. Величина X имеет минимальную среднеквадратическую ошибку в широком классе оценок К*: Ех(Х-Х)ЧЕх(Х*(Х)-Х)2. □ (1.2.3г) Пример 1.2.2. Пусть Х\,...,Хп — н.о. р. с. в. и X,Bin(&, р). На- помним, что EX; = kp, VarX; = kp(\ — р). Предположим, что k известно, а значение р = Е_Х;/& Е (0, j_) неизвестно. Оценкой параметра р является такая величина Х/&, что пХ ~ Bin(£n, р). При этом, как и выше, имеют место следующие свойства: 1) EX/k = p (несмещенность); 2) Р( lim X/k = р) = 1 (состоятельность);
256 Глава 1. Оценивание параметров 3) y/kn/[p(\ — p)](X/k — р) ~ N(0, 1) при больших п (асимптотическая нормальность); 4) X/k имеет минимальную среднеквадратическую ошибку в широком классе оценок. Теперь предположим, что мы знаем р, а величина k = 1, 2, ... неиз- вестна. Можно рассматривать величину Х/р в качестве оценки для k (не беспокоясь о том, что она принимает нецелочисленные значения!). И опять можно проверить, что свойства 1—3 выполняются. □ Пример 1.2.3. Часто рассматривается пример, когда Х\, ...,Хп яв- ляются н.о. р. с. в. и Xi ~ N(p, о2). Рассматривая нормальные выборки, различают обычно три случая: (I) среднее pi G R неизвестно, а дисперсия а2 известна (скажем, а2 = 1), (II) pi известно (скажем, равно 0), а дисперсия о2 > 0 неизвестна, (III) оба параметра р и о неизвестны. В случаях (I) и (III) оценкой для pt является выборочное среднее X=-^Xi, при этом ЕХ=-^ЕХ, = ЕХ| =р. (1.2.4) /=1 i Из примера 1.1.1 нам известно, что X ~ N(pt, cP/ri) (равенство (1.1.3)). В случае (II) оценкой для а2 является величина Е2/и, где Ё2 = ^2(X/ - pi)2, ЕЁ2 = 52 “ Р)2 = " Var Xi = па2, (1.2.5) / / и Е(Е2/и) = о2. Из примера 1.1.2 следует, что £2/а2 ~ /2. Что касается оценки для о2 в случае (III), то, полагая п $хх = Е<Х,-Х)2, (1.2.6) /=1 получим e(^ttM = ^TESxx = g2- (L2-7) См. задачу 1.4.5 части А, где этот факт был подтвержден для н.о. р. случайных величин с произвольным распределением. Следовательно, Sxx/(n — 1) является несмещенной оценкой дисперсии а2. Можно установить, что распределение S/x/a2 — это /2_j-распреде- ление; это утверждение является частью теоремы Фишера (которая будет приведена ниже).
§ 1.2. Оценки. Несмещенность 257 Таким образом, в случае (III) пару fx, Al.) можно взять в качестве оценки для вектора ((j, а2), и мы получим аналог свойства 1 (совместная несмещенность): (ЕХ,Е^) = (И, о2). Далее, при л —> оо обе величины X и S%x/(n — 1) стремятся к оценива- емым значениям pi и о2: Р( lim X = li, lim = 1 (вновь усиленный ЗБЧ). \/1—*оо п—^оо п — \ J Тем с_амым получаем аналог свойства 2 (совместная состоятельность). Для X это свойство можно вывести непосредственно из того факта, что X~ N(p, о2/м), а для Sxx/(n— 1) — из того, что Sxx/^2Эти послед- ние утверждения помогают также проверить аналог свойства 3 (совместная асимптотическая нормальность) при п —* оо: ^(X-^-NfO, 1), АП a2) ~N(0, 2) причем эти нормальные величины независимы. Другими словами, пара (^-^^GrV’2)) является асимптотически двумерным нормальным вектором с вектором средних значении LI и ковариационной матрицей Н 2j. При проверке этого факта необходимо установить, что дисперсия Sxx равна 2(и - 1)а4. Аналог свойства 4 также имеет место для данного примера, однако следует быть внимательным при определении минимальной среднеквадра- тической ошибки для векторной оценки. □ Очевидно, конкретный вид распределения с. в. X/ не играет существен- ной роли при установлении свойств 1—4: следует ожидать, что эти свой- ства выполняются во многих ситуациях. Фактически каждое из них — признанное направление статистической теории. Здесь и далее мы прежде всего сосредоточимся на свойстве 1 и будем называть оценку 9* (=9*(х)) параметра 9 несмещенной, если Ее9*(Х) = 9 для любых 9 е 6. (1.2.8) Будут обсуждаться также свойства среднеквадратических ошибок. 9—1104
258 Глава 1. Оценивание параметров Таким образом, подводя итог этого параграфа, заключаем, что для вектора X н. о. р. действительных с. в. Х|, ..., Хп справедливы следующие утверждения. (I) Выборочное среднее 1 п Х = ^£Х‘ (1.2.9) /=| всегда является несмещенной оценкой среднего значения EAj: 1 п EX=-^EXi = EXi. (1.2.10) /=1 (II) В случае, когда среднее значение EXi известно, величина 1ё2 = 1£(Х,-ЕХ;)2 (1.2.11) /=1 является несмещенной оценкой дисперсии VarXj: eQe2) = i^E(X, -EXl)2 = E(Xl - EXO2 = Var^. (1.2.12) /=1 (III) В случае неизвестного среднего величина <L2J3) /=1 является несмещенной оценкой дисперсии VarXj: E(^rM=VarX1, (1-2.14) что было установлено в задаче 1.4.5 части А. Оценки Е2/м и Sjj/(n — 1) называют иногда выборочными дисперси- ями. Statisticians stubbornly insist that the n justifies the means1. (Из серии «Почему их не понимают».) 1 Непереводимая игра слов — «...the end justifies the means» (цель оправдывает средства).
§ 1.3. Достаточные статистики. Критерий факторизации 259 § 1.3. Достаточные статистики. Критерий факторизации Есть два вида статистики: та, которую вы изучаете, и та, которую вы творите сами. Р. Стаут (1886—1975), американский писатель, автор детективов В широком смысле статистика (или выборочная статистика) — это произвольная функция от вектора выборочных значений х или от со- ответствующего случайного вектора X. В параметрической постановке, которую мы рассматриваем, мы будем называть функцию Т от х (возможно, векторнозначную) достаточной статистикой для параметра 9 С если условное распределение случайного вектора X относительно Т(Х) не зависит от 9. Это означает, что для любого множества D С К" значение Ре(Х е D | Т(Х)) = Е(/(Х е D) | Т(Х)) одинаково V9 е @. (1.3.1) Смысл этого понятия состоит в том, что достаточная статистика содер- жит в себе всю информацию о выборке х, необходимую для построения «хорошей» оценки параметра 9. В примере 1.2.1 выборочное среднее / является достаточной статисти- кой для X. Действительно, для любого такого неотрицательного вектора с целочисленными значениями x = (xj, ..., хп) 6 ZZJ_, что ^Xi = nt, услов- ная вероятность F\(X = х | X = t) равна 1 f\(X = x,X = t) = f\(X = x) = ?(Х |/Х'!) (л/)! тт 1 F\(X = O F\(X = O e-"x(nk)n'/(«Z)! пл1 11 х,!’ а это значение не зависит от X > 0. Мы воспользовались здесь тем фактом, что события {Х = х, X = t} и {Х = х} совпадают (в силу очевидного равенства X = /), а также тем, что пХ ~ - Ро(пХ). Таким образом, в общем случае можно записать i * \‘=| ' Конечно, пх = Xi является еще одной достаточной статистикой, и ста- тистики х и пх (или соответствующие им случайные векторы X и пХ) являются, по сути, эквивалентными (так как являются образами друг друга при взаимно однозначном отображении). 9*
260 Глава 1. Оценивание параметров Аналогично в примере 1.2.2 величина х является достаточной стати- стикой для р при неизвестном k. В этом случае для любого вектора хе V с компонентами X/ = 0, 1...k и суммой ^х, = nt условная вероятность Рр(Х = х | X = /) равна ‘ k\ х k_x Рр(Х = х) _ Ох,!(/г-х,)!Р'(1 ~Р) _ (fe!)n (nt)'. (nk - nt)\ P„(X = t) ~ (nk)'. n, ~ (nk)\ nW-*.)! ’ (nt)'. (nk - nt)'.P 1 P) а эта величина не зависит от р е (0, 1). Как и ранее, если £х/ / nt, то Рр(Х = х | X = t) = 0, что опять не зависит от р. 1 Рассмотрим теперь пример 1.2.3, где Х\......Хп — это н.о. р. с. в. и Xi ~ N(p, о2). Тогда (I) если значение а2 известно, то достаточной статистикой для (j явля- ется (II) если значение (1 известно, то достаточной статистикой для а2 яв- ляется ё2 = i (III) если оба значения (J и о2 неизвестны, то достаточной статистикой для (р, а2) является (Л \ /=1 7 Наиболее эффективным средством для проверки этих фактов является критерий факторизации. Критерий факторизации — это утверждение общего характера о до- статочной статистике. Этот критерий гласит следующее. Статистика Т является достаточной для параметра 6 тогда и только тогда, когда д. ф. р./п. р. в. fx(x', 0) может быть представ- лена в виде произведения g(T(x), 6)/z(x), где g и h — некоторые функ- ции. Доказательство для дискретного случая, когда fx(x\ 6) = РеС^ = *), весьма простое. Действительно, для доказательства достаточности предпо- ложим, что указанная факторизация имеет место. Тогда для такого выбо- рочного вектора х е V", что Т(х) = t, условная вероятность Pq(X = х | Г = t)
§ 1.3. Достаточные статистики. Критерий факторизации 261 равна Р9(Х = х, T = t) = Р6(Х = х) = g(T(x), B)h(x) = Р0(Г = /) Ре(Г = 0 £ g(T(x), O)ft(x) xGV": T(x)-t g(t, 6)ft(x) h(x) g(t,B) Y h(x) Y h(x)' x£Vn: T(x)=t х^Уп: T(x)=t Последнее выражение не зависит от 6. С другой стороны, если условие совместимости Т(х) = t не выполняется (т. е. Т(х) /), то Pq(X = х | Т = /) = 0, что опять не зависит от 6. Общая формула имеет вид Р0(Х = х I Т = t) = Л(Х) -1(Т(х) = /). 2-г П\Х) xev«: Г(х)=/ Поскольку правая часть не зависит от 6, величина Т является достаточной статистикой. Для доказательства необходимости предположим, что Pq(X = х\Т = t) не зависит от 6. Тогда вновь для такого х е Vя, что Т(х) = t, запишем fx(x) = Ре(Х = х) = Ре(Х = х | Т = /)Ре(Г = /). Множитель Pq(X = x|T = t) не зависит от 6; мы обозначим его h(x). Затем обозначим множитель Pq(T = t) через g(t, 6) и получим тем самым указанную факторизацию. В непрерывном случае доказательство проводится по аналогичной схеме (однако для формально безупречного доказательства необходимо привлечь некоторые факты из теории меры). А именно, мы запишем услов- ную п. р. в. fx\ т(х | /) в виде отношения и представим п. р. в. 0) в виде интеграла /г(Сб) = $ f(x;&)dx {xeR": T(x)=t} по поверхности уровня {хеКл: Т(х) = /} с элементом площади d(x\t) на этой поверхности. Тогда для доказательства достаточности мы опять используем представление f(x) = g(T(x), B)h(x) и получим равенство {xGR": T(x)=t}
262 Глава 1. Оценивание параметров где правая часть не зависит от 0. Для доказательства необходимости мы просто перепишем /(х; 9) в виде fX\ т(х | 9), где t = Т(х), и положим, как и ранее, h(x) = fx\T(x\t) и g(T(x), 9) = /г(/; 6). Критерий факторизации означает, что Т является достаточной ста- тистикой, если из равенства Т(х) = Т(х') следует, что отношение fx(x; fy/fx(*'\ 9) остается одним и тем же для любого бе©. Следующим шагом является рассмотрение минимальной достаточной статистики, для которой равенство Т(х) = Т(х') эквивалентно тому, что отношение /х(х; 9)//х(х'; 9) остается одним и тем же для любого 0 6©. Это понятие удобно, поскольку любая достаточная статистика является функцией от минимальной статистики. Другими словами, минимальная достаточная статистика имеет самые «широкие» множества уровня, где она принимает постоянное значение, а тогда количество информации, которую мы должны знать о выборке х, минимально. Всякое дальнейшее сужение информации о выборке привело бы к потере достаточности. Во всех примерах, представленных ниже, достаточные статистики яв- ляются минимальными. Идея, лежащая в основе критерия факторизации, восходит к статье 1925 г., написанной Р. А. Фишером (1890—1962), выдающимся британским прикладным математиком, статистиком и генетиком, имя которого будет часто упоминаться в этой части книги. (Некоторые авторы усматривают появление критерия факторизации в его более ранней работе 1912 г.) Это понятие получило дальнейшее развитие в работе Фишера 1934 г. Важную роль сыграла также статья, написанная в 1935 г. Ю. Нейманом (1894—1981), американским статистиком, который родился в Молдавии^ получил образование на Украине, работал в Польше и Великобритании и позднее в США. Имя Неймана также будет появляться в этой части книги по многим поводам, главным образом в связи с леммой Нейма- на—Пирсона (см. далее). Пример 1.3.1. 1. ПустьX, ~U(0, 6) где 9>0 неизвестно. Тогда величи- на Т(х) = тахх/, х = (Х|, ..., хя) е R^_, является достаточной статистикой для 9. 2. Рассмотрим теперь Xf ~U(9, 04-1), 9eR. В этом случае выборочная п. р. в. имеет вид fx(x; 9) = JJ/(9 х,9 + 1) = /(minx, 0)/(тахх/ ^9+1), хе R". i Здесь имеет место факторизация, причем Т(х) является двумерным векто- ром (minx,-, maxx,), g((z/,, z/2). 9) = /(</> ^0)/(g2 ^9 + 1) и h(x) = 1. Сле- довательно, пара (minx,-, maxx,) является достаточной статистикой для 6.
§ 1.4. Оценки максимального правдоподобия 263 3. Пусть Х\, ..., Хп — это случайная выборка из распределения Пуас- сона с неизвестным средним значением 6. Найдите одномерную достаточ- ную статистику для 9. (Ответ. Т(Х) = 52%/.) / 4. Предположим, что X, ~ N(pi, а2), где оба параметра pi 6 Ж и о2 > О неизвестны. Тогда Т(х) = (^Х/, £Х?)—достаточная статистика для 0 = (р, a2). V ‘ 7 □ § 1.4. Оценки максимального правдоподобия Robin Likelihood — Prince of Liars1 (Из серии «Фильмы, которые не вышли на большой экран».) Понятие оценки максимального правдоподобия (о. м. п.) лежит в ос- нове мощного (и красивого) метода построения хороших оценок, приме- няемого повсеместно (и называемого методом максимального правдо- подобия). При этом д. ф. р./п. р. в. /х(х; 6) понимается как функция от 6 е ©, которая зависит от наблюдаемой выборки х как от параметра. Затем ищется значение 9, которое максимизирует эту функцию на множестве ©: 9 (= 9(х)) = argmax[/(x; 9): 9 е ©]. (1.4.1) В этом контексте /(х; 9) часто называют функцией правдоподобия (или, кратко, правдоподобием) для выборки х. Вместо того чтобы находить мак- симум функции /(х; 9), часто предпочитают находить максимум логарифма этой функции £(х; 9) = 1п/(х; 9), который называют функцией логариф- ма правдоподобия или, кратко, логарифмом правдоподобия (л. п.). Тогда о. м. п. определяется как 9 = argmax[^(x; 9): 9 е ©]. Идея о. м. п. возникла в 1921 г. благодаря Фишеру. Часто точка максимума оказывается единственной (хотя и может ле- жать на границе множества допустимых значений ©). Если £(х; 9) является гладкой функцией от 9 6 ©, то можно рассматривать стационарные точки, в которых первая производная обращается в нуль: -4^(х; 6) = 0 (или ^-^(х; 0) = 0, / = 1, d, если 0 = (0,, .... 0J). ио uvj (1-4.2) Конечно, среди корней уравнения (1.4.2) необходимо отобрать точки ло- кального максимума (проверяя знаки -производных второго порядка или 1 Ср. название фильма «Robin Hood: Prince of Thieves».
264 Глава 1. Оценивание параметров каким-либо иным способом) и определить, какая из этих точек является точкой глобального максимума. К счастью, в нижеследующих примерах стационарная точка (если она существует) всегда единственна. В случае, когда параметрическое множество О неограниченно (например, действи- тельная прямая), для того чтобы проверить, что (единственная) стационар- ная точка является точкой глобального максимума, достаточно проверить, что £( •; 6) —> -оо при |6| —> оо. Пример 1.4.1. Найдем о. м. п. для некоторых моделей. 1. Оценка максимального правдоподобия параметра X для ~ Ро(Х). В этом случае для любого х = (xj, ..., хп) е Z'j. с неотрицательными це- лочисленными компонентами х, € Z+ л. п. имеет вид €(х; X) = —пХ + У х/ In X - У 1 п(х,!), X > 0. i i После дифференцирования по X находим ^-£(х; X) = -и + 1 У х,- = О и X = - У х, = х. дХ X п i i 1 При этом ^^£(х; X) = -^2 52х/ < 0. Таким образом, х является точкой (глобального) максимума, откуда видно, что о. м. п. X параметра X совпада- ет с выборочным средним. В частности, эта оценка является несмещенной. 2. Если Xi ~ U(0, 6), 6 > 0, то 6(х) = maxx, является о. м. п. для 6. 3. Пусть X,-~ U(9, 6+1) (ср. с примером 2 в § 1.3). Чтобы найти о. м. п. для 6, снова рассмотрим функцию правдоподобия: /(х; 6) = /(maxx, -1^6^ minx,), 6 е Ж. Если maxx, — 1 < minx, (в согласии с предположением, что выборка х порождается н.о. р. U(6, 6+ 1)-с. в.), то в качестве о. м. п. для 6 можно взять любое значение, лежащее между maxx, — 1 и minx,. Нетрудно догадаться, что несмещенной о. м. п. для 6 будет точка, ле- жащая посередине: 6 = ^(maxx, - 1 + minx,) = ^(тахх, + minx,) - 2. В самом деле, Е6 = ^(Е тахХ,- + Е minX,) - ^ = 1 64" 1 \ । = 2(S *PminX,(xMx+ $ XpmaxXi(x)dxj - 2- \ 0 0 /
§ 1.4. Оценки максимального правдоподобия 265 где Pminx, W = -^~ P(min Xi >х) = --^-(P(Xi > х))л = а л cl л , /0+1 \ п £4 5 dy\ =п(б +1-х)"-', е<х<е +1. \ X / * и аналогично PmaxX. W =П(Х - 0)Л 0 < X < 0 + 1. Тогда 6-Ь 1 04~ I Е minXz- = п § (6 + 1 - x)n~lxdx = -п § (6 + 1 - х)п dx + 0 0 04-1 1 + (6 + 1 )п § (0 + 1 - х)"“1 dx = -п § хп dx + 0 о + (0 + 1)л (х"-' dx = - -+ 0 + 1 = 0 + -J- (1.4.3) j п + 1 п + 1 и аналогично ЕтахХ, = -\ + 0, (1.4.4) п + 1 откуда и следует, что Е0 = 0. □ Оценки максимального правдоподобия имеют ряд полезных свойств. 1. Если Т — достаточная статистика для 0, то £(х; 0) = 1п§(Г(х), 0) + + 1пЛ(х). Тогда отыскание максимума правдоподобия относительно 0 сво- дится к отысканию максимума функции §(Г(х), 0) или ее логарифма. Это означает, что о. м. п. 0 будет функцией от Т(х). 2. При незначительных ограничениях на распределение величин X/ о. м. п. являются асимптотически несмещенными (или могут быть выбраны таковыми) при п —> оо. Более того, о. м. п. 0 часто являются асимпто- тически нормальными. В случае скалярного параметра это означает, что х/й(0 — 0) ~ N(0, ц), где дисперсия v является минимальной среди всех возможных дисперсий несмещенных оценок параметра 0. 3. Принцип инвариантности для о. м. п.: если 0 является о. м. п. для 0, то при переходе от параметра 0 к параметру Г) = н(0), где отображение и является взаимно однозначным, величина u(Q) будет о. м. п. параметра т).
266 Глава 1. Оценивание параметров § 1.5. Нормальные выборки. Теорема Фишера Слышали ли вы о статистике, которого заключили в тюрьму? У него сейчас 0 степеней свободы. (Из серии «Почему их не понимают».) Пример 1.5.1. В этом примере рассмотрим о. м. п. для пары (р, о2) в случае н. о. р. нормальной выборки. Пусть X/ ~ N(p, а2), тогда логарифм правдоподобия равен ((X- р, а2) = !п(2п) - 11п(а2) - - И)2- /=| (Х|\ ; j е К", [1 е к, о2 > О, Хп) откуда следует, что ^Х- р, о2) = 1 ^(х, - р), р, о2) = -7^2 + 2^4 52(X, - р)2. i Стационарная точка, для которой д£/д}Л = д(./да2 = 0, единственна: * - *2 1 с Ц = х, о = -Sxx, причем, как и в уравнении (1.2.6), Sxx {= Sxx(x)) = £>, - х)2. (1.5.1) i (Иногда вместо Sxx употребляют обозначение S2X или даже S2X.) Точка (р, о2) = (х, Sxx/ri) является точкой глобального максимума. Это вид- но, например, из того, что £(х; р, о2) —> -оо при |р| —► оо и о2 —> оо, а также £(х; р, а2) —> -оо при о2 —> О при каждом р. Поэтому (х, Sxx/ri) не может быть точкой минимума (или седловой точкой). Следовательно, она является точкой глобального максимума. При этом оценка X явля- ется несмещенной, а оценка Sxx/n смещена: ES^x/n = (п — 1)а2/и < а2. См. уравнение (1.2.5) и задачу 1.4.5 части А. Однако при п-^оо смещение пропадает: ESxx/n-^o2. (Несмещенной оценкой для а2 является, конечно, 5хх/(и-1).) □ Важный факт содержится в следующем утверждении, которое часто называют теоремой Фишера.
§ 1.5. Нормальные выборки. Теорема Фишера 267 Для н. о. р. нормальной выборки о. м. п. (pi, о2) = (X, Sxx/ri) образо- вана независимыми с. в. X и Sxx/n, где X~n([1, (т.е. ~N(0, о2)) и Sxx 9 Sxx о ~ Хл-i ~ где Yi ~ N(0, 1) — независимые с. в.). i=\ Из теоремы Фишера следует, что с. в. (Sxx -(п- 1)о2)/(о2\/2п) явля- ется асимптотически N(0, 1)-с. в. Тогда, очевидно, VnQSxx - о2) ~ N(0, 2о4). Чтобы доказать теорему Фишера, запишем сначала равенство - ц)2 = £(Х, - X + X - И)2 = £(Х, - X)2 + п(Х - ц)2, /=| /=1 /=1 п _ _ « _ поскольку 52 № — Х)(Х — pt) = (X — pt) 52№ — X) = 0. Другими словами, ПХ-И)2 = 5хх + п(Х-ц)2. ЗатеиГиспользуем общий факт: если компоненты вектора /Х,\ /1\ х-ц1 = ; -р Г \Х„/ \1 / являются н. о. р. с. в., причем Х(- — [i~N(0, о2), то для любой ортогональной матрицы А размера п х п компоненты вектора /Г.\ ; =лг(х-И1) W будут опять н. о. р. с. в. Yi ~ N(0, а2) (см. задачу 2.3.4 части А). Возьмем любую ортогональную матрицу Л, у которой первый столбец имеет вид /1/^\ V/W ’ получим ее, дополнив этот столбец такими столбцами, которые образуют ортогональный базис в Например, для этой цели подойдет семейство
268 Глава 1. Оценивание параметров в2, ..., ел, где у &-го столбца первые k — 1 компонент равны \jk(k - 1) , -(*-!) , я-я компонента равна — . , а затем следуют п - k нулевых: \/k(k - 1) Тогда Tj = (АТ(Х - pt1))i = \/п(Х - pt) и Y?, ..., Yn не зависят от У^ Поскольку ортогональная матрица сохраняет длину вектора, мы полу- чаем п п п = £(Х, - ц)2 = п(Х - ю2 + £(Х, - X)2 = у2 + s2x, Z=1 Z=1 Z=1 n S n Y2 t. e. Sxx = Z2 Следовательно, = ^2 “7 ~ Xn-i> и эта оценка не /=2 ° i=2 ° зависит от Уь Замечание. Некоторые авторы называют статистику с / $ХХ Sxx=\l^ (1.5.2) выборочным стандартным отклонением. Термин стандартная $ХХ V ошибка часто используют для величины -^=, которая является оценкой для Мы будем следовать этой традиции. Статистики делают все стандартные отклонения. Статистики делают все стандартные ошибки. (Из серии «Как они делают это».)
§ 1.6. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао 269 § 1.6. Среднеквадратические ошибки. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао Статистика свидетельствует, что из тех, кто приобрел привычку есть, лишь немногие выживают. В. Ирвин (1876—1959), американский писатель и издатель Рассматривая оценку 6* параметра 6, полезно вычислить ее средне- квадратическую ошибку (с. к. о.), которая определяется как Ее(0*(Х)-0)2; (1.6.1) для несмещенной оценки эта величина представляет собой дисперсию Vare0*(X). В общем случае Е9(0‘(Х)-0)2=Е9(0‘(Х)-Е90*(Х)+Е90‘(Х)-0)2= =Е9(0*(Х)-Е90‘(Х))2+(Е90‘(Х)-0)2+2(Е90‘(Х)-0) Е9(0‘(Х)-Е90‘(Х))= =Var90‘(X)+(Bias90‘(X))2, (1.6.2) где Biaso 6* = Eq0* - 0. Вообще говоря, существует простой способ уменьшить с. к. о. заданной оценки. Этот способ основан на использовании теоремы Рао—Блекуэлла (Р-Б). Если Т — достаточная статистика и 0* —оценка параметра 0, то для оценки V* = Е(0* | Т) выполняется неравенство Е(0‘-0)ЧЕ(0*-0)2, 0€0. (1.6.3) Более того, если Е(0*)2 < оо для некоторого 0 € ©, то для этого 0 выполняется строгое неравенство, за исключением тех случаев, когда 0* является функцией от Т. Доказательство короткое: поскольку Е0* = Е[Е(0* | Г)] = Е0*, обе оценки 0* и 0* имеют одинаковое смещение. По формуле для условной дисперсии находим Var0* = E[Var(0* | Т)] + Var[E(0* | Г)] = Е[Var(0* | Т)] + Var0*. Следовательно, Var0* Var0*, и, таким образом, Е(0* — 0)2 Е(0* — 0)2. Равенство достигается тогда и только тогда, когда Var(0* | Т) = 0. 1. Величина Е(0* | Т) зависит от значения 0*(х), но не зависит от 0. Следовательно, оценка 0* определена корректно. 2. Если 0* —несмещенная оценка, то таковой является и 0*. 3. Если 0* сама является функцией от Т, то 0* = 0*.
270 Глава 1. Оценивание параметров Теорема Р—Б носит имена двух выдающихся ученых. Д. Блекуэлл (1919—) —американ- ский математик, один из основных сторонников применения методов теории игр в статистике и других дисциплинах. Блекуэлл — один из первых американских математиков африканского происхождения, который был принят на работу в ведущий университет США. С. Р. Рао (1920—) — индийский математик, который обучался в Индии и Британии (он получил степень доктора наук в Кембриджском университете и был единственным официальным аспирантом Фишера по статистике), долгое время работал в Индии и в настоящее время проживает и работает в США. Пример 1.6.1. 1. Пусть Xi ~ U(0, 6). Тогда величина 2х = 2^Xi/n является несмещенной оценкой для 9 и 1 — 4 02 Var(2X) = - VarXj = ^-. п Зп Мы знаем, что достаточная статистика Т имеет вид Т(Х) = max X с п. р. в. i fr(x) = n^rl(0<x<Q). Следовательно, 0* = Е(0* | Т) = -п ]ГЕ(Х,-| Л = 2Е(*, I Т) = = 2(тахХ, • ' + = \ п 2 п / п и с. к. о. оценки 9* должна быть не больше, чем у 9*. Как это ни удиви- тельно, но, отбрасывая значительную часть информации, содержащуюся х । п “ \т а* (л + l)2(VarT) в выборке, мы улучшаем с. к. о.! Действительно, Varо =2где г г"-1 п /? г"-1 Var Г = х2 dx - I —xdx ) = о vo / * 92 92 Таким образом, Var 9* = -г—.-т-т, а эта величина меньше — при п 2 г [п(п + 2)] Зп г и стремится к 0 при п оо. 2. Пусть Xi ~ U(9, 9+1). Тогда 0 = - 52 - является несмещенной оценкой для 9; при этом z VarX = - VarXi = п 12л Такая оценка появится, если приравнять величину 9+ 1/2 к выборочному п X среднему 52 Подобный трюк лежит в основе так называемого метода моментов в статистике. Метод моментов был популярным в прошлом, но в настоящее время уступил место методу максимального правдоподобия.
§ 1.6. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао 271 Нам известно, что достаточная статистика Т имеет вид (minX/, max/,). Следовательно, б* = Е(б | Г) = 1 £ Е(Х; | Т) - 1 = Е(Х, | Т) - 1 = + тахХ,- - 1). Оценка 9* является несмещенной: и ее с. к. о. должна быть не больше, чем у 9*. Опять игнорируя дополни- тельную информацию относительно X, уменьшаем с. к. о. Действительно, дисперсия Var9*' = - Var(minXz 4- max/,) равна | E(minXz 4- max/,)2 - |(E minX, 4- E maxXz)2 = . 04-1 04-1 . = 4 § $ /minX„maxX((x, y)(X + y)2 dy dx - -(26 + I)2. 0 x Ср. с равенствами (1.4.3) и (1.4.4). Здесь ZminX„maxX,(X, у) = ~ Х)” = П(П - 1)(// - Х)п~2, 9 < X < 0 < 9 + 1. Обозначив 04-1 04-1 I = $ $ {у - х)"-2(х + у)2 dy dx, е х находим, что 1и(п-1)/ = 92 + е+ 4 х 4(п + 1)(л 4- 2) При п 3 получим соотношение ут а* л2 4-Зл 4-4 1 1 1 VarX ” 4(л4- 1)(л+ 2) - 4 ” 2(л + 1 )(л 4-2) 12л “ В самом деле, введенный выше интеграл / равен 04* 1 04* 1 5 § («/ - *)я-2[('/ - х)2 + 4x(z/ - х) + 4х2) dydx = 0 X _ ес1Г (0 + 1 -х)л+1 4х(0 + 1 - х)я 4х2(0+ 1 -х)'1-1'! dx = ~"^[л4-1 п л-1 J 0 = (»-l№‘+l)(n + 2)"(" ~ ” + 4в(Л - + 2) + + 4(п- 1) + 402(л+ 1)(л + 2) + 86(л + 2) + 8].
272 Глава 1. Оценивание параметров Следовательно, - 1)/ = 02 + 0 + п \;49\> 4 4(/2 + 1)(л + 2) что и утверждалось выше. □ Пример 1.6.2. Предположим, что Х|, ..., Хп — независимые случай- ные величины, равномерно распределенные на (0, 20). Требуется найти двумерную достаточную статистику Т(Х) для параметра 0. Покажем, что несмещенной оценкой параметра 0 является 0 = 2X1/3. Найдем несмещенную оценку параметра 0, которая является функцией от Т(Х) и ее с. к. о. не больше, чем у 0. В этом примере функция правдоподобия равна /(х; 0) = ГТ |/(0 < Xi < 20) = ^-/(minxz- > 0, maxxz < 20), Z=1 и, следовательно, в силу критерия факторизации статистика Т = (minXz, maxXz) является достаточной. Очевидно, EXi = 30/2, таким образом, величина 2X1/3 является несмещенной оценкой. Определим оценку а с Г2 Vi • v v J 2а 2b n-22a + b а + Ь в = Е[5Х, | m.nX, = a. m?xX, = *| = ^ + s + —5— = —. Последнее равенство можно обосновать так: Х\ равно а либо b с ве- роятностями, равными \/п для каждого значения; в противном случае (т. е. когда Х\ а, Ь, что выполняется с вероятностью (п — 2)/л) условное математическое ожидание величины Х\ равно (а + Ь)/2 в силу симметрии. Следовательно, по теореме Р—Б величина 0 = |(minXz -f- max/;) является искомой оценкой. □ Конечно, хотелось бы получать оценки с минимальной с. к. о. (ми- нимальные с. к. о-оценки). Эффективное средство для отыскания таких оценок предоставляет нам неравенство Крамера—Рао (К—Р), или гра- ница К—Р. Предположим, что п.р.в./д.ф.р. f(-; 0) является гладкой функ- цией параметра 0 и выполняется следующее условие: для любых 0 € О справедливо равенство $^/(x;9)dx = 0 или ^2^/(х;9) = О. (1.6.4) x€V
§ 1.6. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао 273 Рассмотрим нормальные одинаково распределенные наблюдения X = = (Х|, ..., Хп) с совместной п.р.в./д.ф.р. f(x; 0) = /(Xi; 9).. .f(xn\ 0). Пусть 0*(Х) — несмещенная оценка параметра 0, удовлетворяющая следующему условию', для любых 0 е О справедливо равенство 5 0*(x)^/(x; 0)dx= 1 или 0*(х)^/(х; 0) = !. Тогда для любой такой оценки имеет место неравенство Var0* 1Q , пА(0) где или ' xev ' (1.6.5) (1.6.6) (1.6.7) Величину Л(0) часто называют количеством информации по Фише- ру, и она возникает во многих областях теории вероятностей и статис- тики. Замечание. На практике условие (1.6.4) означает, что мы можем по- менять местами дифференцирование Д и интегрирование/суммирование в (очевидном) равенстве ^5лх:0)^х=° или ]Е7(х: 0)=°- x€V Это равенство выполняется, поскольку § /(х; 0) dx = 1 или /(х; 0) = 1. x€V Достаточным условием для такой перестановки операций является следу- ющее условие: SI 0) Idx <00 или 521 ^(х''0) | < °°’ x€V которое часто предполагается выполненным по умолчанию. Аналогично неравенство (1.6.5) означает, что можно менять порядок дифференциро- вания X и интегрирования/суммирования в равенстве O\J поскольку Е0*(Х) = 0*(х)/(х; 0) t/x или 0*(х)/(х; 0). R" xgV"
274 Глава 1. Оценивание параметров Э df(x-. 0) Заметим, что производную можно записать в виде (1.6.8) /=! /=1 Мы докажем неравенство (1.6.6) только в непрерывном случае (для доказательства в дискретном случае потребуется заменить интегралы сум- мами). Положим О(х, 0) = ^1п/(х; 0). В силу условия (1.6.4) выполняется равенство 5 /(х; 0)О(х, 0) dx = О, и мы получаем, что V9 6 0 я 5 /(х; 0) ^2£*(*,. 6) dx = п 0) dx = 0. i=\ С другой стороны, в силу соотношения (1.6.8) равенство (1.6.5) можно записать в виде 5 0*(х)/(х; 0) £ °(х<> 9) dx = 1, 0 е 0. R" <=1 Из последних двух равенств следует, что 5 (0‘ (х) - 0) &)/(*;Q) dx = 1, 0 е е. R" /=1 В дальнейшем будем опускать область интегрирования JRrt в л-мерных интегралах по dx (интегралы по dx будут, конечно, одномерными). По- следнее равенство можно интерпретировать как g2) = К где {gi. g2> = $ £1 М^2(Х)Т)(Х) dX обозначает скалярное произведение, n gi(x) = e*(x)~e, g2(x) = ^D(Xi,Q) и T)(x) = f(x; 0) 0 /=! (t)(x) — весовая функция, которая определяет скалярное произведение). Используем теперь неравенство Коши—Шварца ((gi, g2))2 (gi, gi) х X §2)- Мы ПОЛУЧИМ, ЧТО 1^ ffi(x)-Q)2f(x;Q)dx ^2 D(Xi, 0) 1 f(x; 0) dx
§ 1.6. Теорема Рао—Блекуэлла. Неравенство Крамера—Рао 275 Здесь первый сомножитель представляет собой Var9*(X). Второй со- множитель равен в точности пА($). Действительно, / п х 2 п § (52 D^Xi' ) f(x’dx=52 S D(Xi’ dx+ \=l ' /=1 + 2 52 5г>(хГ|, 0)П(х,2, 0)Z(x; О)^ЛГ. 1^/| </2^Л Каждое слагаемое в первой сумме равно А(9), поскольку 5 О(х„ 0)2Дх; 0) dx = 5 D(x, 0)2/(х; 0) dx. Каждое слагаемое во второй сумме равно нулю, так как § D(x, Q)f(x; 0) dx= 5 D(x„, 0)O(x„, 0)/(x; 0) dx = D(x, 0)f(x; 0) dx)* = 0. Это и завершает доказательство. В заключение этого параграфа расскажем кратко о пребывании Рао в Кембридже. Рао прибыл в Кембридж в 1945 г. для проведения в университетском музее археологии и антропологии работ по анализу объектов (человеческих черепов и костей), насчитываю- щих тысячи лет, которые были доставлены британской экспедицией из Северной Африки с раскопок на стоянке первобытного человека. Он должен был тщательно измерять их и, привлекая к расчетам расстояние по Махаланобису, делать выводы об антропологических характеристиках древнего населения. Рао было тогда 25 лет, и у него насчитывалось 18 работ, уже опубликованных или принятых к публикации. Его первая статья, которая тогда как раз была напечатана, уже содержала в себе и теорему Р—Б и неравенство К—Р. Вскоре после прибытия в Кембридж Рао встретил Фишера и начал работать также и в генетиче- ской лаборатории, руководимой Фишером. Изучал он различные характеристики мышей; он должен был разводить мышей, спаривать их определенным образом и фиксировать генети- ческие параметры производимого потомства (форма хвостов, гладкость шерсти и пропорции туловища должны были меняться от поколения к поколению). Как описывается в биографии Рао [Кг], его заключительной обязанностью в каждом эксперименте было ликвидировать мышей, которые были больше не нужны для дальнейшей работы. Молодых мышей усыпляли эфиром, зрелым особям разбивали головы ударом об стол (практика, которая в наши дни несомненно вызвала бы протесты со стороны активистов общества защиты животных). Рао был слишком чувствителен, чтобы выполнять эту часть работы, но у него были друзья, которые делали это за него; во всем остальном он был чрезвычайно доволен своей работой (и своей жизнью) в Кембридже. Одним из его друзей был Абдус Салам, будущий нобелевский лауреат в области физики, а в то время студент колледжа Святого Иоанна. Салам сомневался в будущих результатах своих исследований и, наблюдая твердый выбор Рао, проявил живой интерес к статистике. Однако именно Рао убедил его не менять область исследований. Работа в лаборатории Фишера послужила основой для докторской диссертации Рао, которую он успешно защитил в 1948 г. К тому времени у него уже насчитывалось 40 опуб- ликованных работ. После получения докторской степени в таком престижном университете, как Кембридж, он становился желанным женихом для многих богатых семейств в Индии. Однако, спустя месяц по возвращении домой из Кембриджа он был помолвлен со своей будущей женой, которой было тогда 23 года, тоже имеющей ученую степень. Брак был
276 Глава 1. Оценивание параметров устроен матерью Рао, которая была очень прогрессивной женщиной и не возражала против высокообразованной жены, хотя в то время общепринято было считать таких невест не очень желанными в семьях с престижными сыновьями. Их брак оказался в высшей степени счаст- ливым, что заставляет задуматься, почему никем не устраиваемые браки других известных статистиков в Европе и Америке (включая тех, имена которых неоднократно упоминаются в этой книге) были неудачными. Вклад Рао в статистику сейчас повсеместно признан. Такое признание пришло не сразу, особенно в отношении теоремы Р—Б. Даже в 1953 г., спустя восемь лет после появления статьи Рао и пять лет после выхода статьи Блекуэлла, некоторые статистики ссылались на метод, предоставляемый этой теоремой, как на «блекуэллизацию» («Blackwellisation»). Когда Рао подчеркнул, что он первым открыл этот результат, один из лекторов сообщил, что такой термин легче произносить, чем термин «раоизация» («Raoisation»). Однако в более поздней статье упомянутый статистик предложил использовать термин «рао-блекуэллиза- ция» («Rao-Blackwellisation»), который и используется в настоящее время. Что же касается неравенства Крамера—Рао (термин был предложен Нейманом), Рао вспоминает случай, когда в одном из полетов пропала часть его багажа и звонивший ему служащий тегеранского аэропорта сказал: «У нас хорошие новости, господин Крамер Рао, мы нашли вашу сумку». Рао нравится подходить с юмором к серьезным ситуациям. В Индии, как и во многих странах, важным является контроль за рождаемостью, и одна из постоянных задач мест- ных и центральных властей — убедить женщин в необходимости ограничивать количество детей. В одной из своих статей по этому вопросу Рао отмечает, что каждый четвертый новорожденный в мире — китаец, и делает следующее заключение для своей индийской аудитории: «Задумайтесь, прежде чем вы решитесь завести еще одного ребенка, имея уже троих. Ведь четвертый будет китайцем!» Надеемся, что читатели найдут это поучительным при использовании выборочного среднего... § 1.7. Экспоненциальные (показательные) семейства Sex, Lie, and Exponential Families1 (Из серии «Фильмы, которые не вышли на большой экран».) Интересно выяснить, когда же достигается граница, указанная в нера- венстве К—Р (1.6.6). Здесь вновь решающую роль играет неравенство Коши—Шварца. Известно, что для достижения равенства необходимо, чтобы функции gj и g2 были линейно зависимыми: g\(x) = Xg2W- Тогда $ gl (*)g2(x)T)W dx = * $ g2(x)2T)(x) dx. В нашем случае ^gi{x)g2(x)r](x) dx = 1 и, следовательно, X=($g2(x)2T)(x)dx) ' = ^. Таким образом, получаем соотношение * п 1=1 1 Ср. название фильма «Sex, Lie, and Video Таре».
§ 1.7. Экспоненциальные (показательные) семейства 277 ИЛИ п п л /=1 /=1 Левая часть последнего равенства не зависит от 9. Следовательно, и каждое слагаемое 9 + D(Xi, 9)/Д(9) не должно зависеть от 9: 0+£^г=с«- Другими словами, О(х, 9) = Л(9)(С(х) - 9), 9еО, (1.7.1) и оценка 9* имеет вид суммы: 1 п О‘(х) = ;УС(х,). (1.7.2) /=1 Теперь, решая уравнение (1.7.1), т. е. уравнение вида Д 1п/(х; 0) = Д(0)[С(х) - 9], где Л(9) = В"(9), мы получаем In Дх; 9) = В'(9)[С(х) - 9] + В(9) + /Дх). Поэтому Дх; 9) = ехр[В'(9)[С(х) - 9] + В(9) + Н(х)]. (1.7.3) Такие семейства (п. р. в. или д. ф. р.) называют экспоненциальными. Следовательно, имеет место такое утверждение. В неравенстве К—Р знак.равенства достигается тогда и толь- ко тогда, когда семейство {Дх; 9)} является экспоненциальным, т.е. задается формулой (1.7.3), где В"(0) > 0. В этом случае оценка параметра 9 с минимальной с. к. о. задается формулой (1.7.2) и ее дисперсия равна \/(пВ,г($)). Таким образом, информация по Фишеру равна В"(§). Пример 1.7.1. Пусть X — это н.о. р. N(pi, о2)-с. в. с заданной дис- персией о2 и неизвестным pt. Обозначим с = -[1п(2тю2)]/2 (что является константой при фиксированном о2). Тогда . . (х - pt)2 , и(х - pi) , pi2 х2 1п/(х;ц)- 2ст2 +с- + 2cf2 2а2+с'
278 Глава 1. Оценивание параметров Мы видим, что семейство п. р. в. /(•; ^) является экспоненциальным; в этом случае С(х)=х, = В'(Ю = §. 1 г2 Д(И) = В"(Н) = tf(x) = -^ + c. Отметим, что здесь Д(^) не зависит от Следовательно, в классе таких несмещенных оценок 9*(х), что V <; е*(х) (х, ~и) exof- У dx = 1 2_> wa2(2zo2)"/2 Р\ 2а2 ) ’ /=| 4 / оценкой с минимальной с. к. о. для параметра (J. является т. е. выборочное среднее с дисперсией VarX = <з2/п. □ Пример 1.7.2. Если X,— это н. о. р. N(p, а2)-с.в. с заданным сред- ним р и неизвестной дисперсией о2, то вновь семейство п. р. в. /(•; с2) является экспоненциальным: Inftx; а2) = ~2^((х ~ рО2 - °2) ~ 1п(2по2) - где С(х) = (х-ц)2, В(ст2) = -^1п(а2), В'(о2) = -^2, Л(а2) = В"(о2) = 1(^)2 и Н(х) = —(1п(2п) + 1 )/2. Мы приходим к заключению, что в классе таких несмещенных оценок 9*(х), что оценкой для с2 с минимальной с. к. о. является Е2/и, где S2 = 52(х, - pi)2 / и Var(E2/n) = 2а4/п. □ Пример 1.7.3. Пуассоновское семейство, для которого f\(k)=e~*'\k/k\> также является экспоненциальным: In /Х(Л) = k In X - ln(Jfe!) - X = (k - X) In К + X(ln X - 1) - ln(*!)
§1.7. Экспоненциальные (показательные) семейства 279 И C(k) = k, B(X) = X(lnX— 1), В'(Х) = 1пХ, Д(Х) = В"(Х) = |, H(k) = — 1п(&!). Таким образом, оценка с минимальной с. к. о. имеет вид X = -V*„ VarX = -. П п /=1 Предоставляем читателю определить, в каком классе оценок обеспечива- ется минимальная с. к. о. □ Пример 1.7.4. Семейство с. в. X, ~ Ехр(Х) является экспоненциальным, но относительно 0 = 1/Х (что и неудивительно, поскольку ЕХ/ = 1/Х). Действительно, в этом случае Дх; 9) = |exp(-g(x - 9) - In 9 - 1)]/(х > 0) и С(х)=х, B(0) = -ln0, B'(0) = -g, Д(0) = В"(0) = Х, Н(х) = -\. и tr Следовательно, в классе несмещенных оценок 9*(х) параметра 1/Х, для которых У^ § 9*(х)(Х2х/ - Х)Х” ехр(-Х»,) dx = 1, /=1 к; ' / ' выборочное среднее х = ^2х//и является оценкой с минимальной с. к. о., i и ее дисперсия VarX = 92/г? = 1/(пХ2). □ Важным свойством является то, что для экспоненциальных семейств оценка с минимальной с. к. о. 9*(х) совпадает с о. м. п. 9(х), т. е. 0(х) = ^С(х,). (1.7.4) i Точнее, запишем уравнение для стационарной точки в виде я п ^(0; x) = £D(x„ 0)/(х;0) = О. Z=1 При условии Дх; 9) > 0 оно превращается в условие п £D(x„0) = O. (1.7.5) Z—1 В случае экспоненциального семейства, для которого f(x; 0) = ехр(В'(0)[С(х) - 0] + В(0) + В(х)),
280 Глава 1. Оценивание параметров получаем О(х, 0) = In Дх; 0) = В"(0)(С(х) - 0). п Видим, что для 9* = 9*(х) = ^2 С(х/)/гг выполняется равенство /=1 D(xz, 9*) = B"(9*)[C(xz) - 9*] = S"(9*) С(х() - I 52 С(х/) / следовательно, п п п Г 1 1 £о(х,-,0*) = в"(0*)£ C(Xi)-^C(Xj) =о. Таким образом, оценка с минимальной с. к. о. 9* является решением урав- нения для стационарной точки. Значит, если экспоненциальное семейство {Дх; 6)} таково, что любое решение стационарного уравнения (1.4.2) яв- ляется точкой глобального максимума для функции правдоподобия, то оценка 9* является о. м. п. Неравенство К—Р названо в честь Г. Крамера (1893—1985), выдающегося шведского теоретика анализа, теории чисел, а также вероятностника и статистика, и в честь С. Р. Рао. Одна из историй гласит, что неравенство в своей окончательной форме было доказано Рао в то время, когда он был молодым и неопытным лектором в Индийском статистическом институте в 1943 г., причем за одну ночь, в ответ на вопрос студента о некоторых неясных местах лекции, прочитанной накануне. § 1.8. Доверительные интервалы Статистикам можно доверять на 95%, когда они делают это. (Из серии «Как они делают это».) До сих пор мы развивали идеи, относящиеся к точечному оценива- нию. Другая полезная идея состоит в рассмотрении интервальных оце- нок, когда работают с доверительными интервалами (д. и.) (в случае векторного параметра 9 G — с доверительными множествами, такими как квадраты, кубы, круги или эллипсы, шары и т. п.). При заданном у € (0, 1) определим 100у%-д. и. для скалярного параметра 9 € 0 С R как любую пару таких функций а(х) и Ь(х), что для любого 9 € О выполняется равенство Рь(а(Х)^е^Ь(Х)) = у. (1.8.1) Мы хотим подчеркнуть следующее: а) случайными здесь являются конеч- ные точки интервала а(х) < Ь(х), но не 9, б) а и b не должны зависеть
§ 1.8. Доверительные интервалы 281 от 0. Доверительный интервал может выбираться разными способами, но естественно, что всегда интересуются наиболее «короткими» интервалами. Пример 1.8.1. Первый стандартный пример — это доверительный ин- тервал для неизвестного среднего нормального распределения с известной дисперсией. Предположим, что X ~ N(p, а2), где дисперсия а2 известна и необходимо оценить pt €R. Мы хотим найти 99%-д. и. для р. Нам извест- но, что у/п(Х - pt)/a ~ N(0, 1). Следовательно, если мы выберем z_ < z+ такими, что Ф(г+) — Ф(г_) = 0,99, то равенство Р (г_ < ^-(Х - ц) < z+) = 0,99 можно переписать в виде Р (X - < LI < X - = 0,99, \ y/П 1 у/П / т. е. мы получаем интервал \ у/п х/П J с центром в точке X - (z_ + г+)а/(2^/п), имеющий ширину (z+ - г_)а/^/п. У нас есть разные возможности для выбора точек z_ и z+; чтобы получить самый короткий интервал, мы хотели бы выбрать z+ = —z_ :=z, поскольку п. р. в. N(0, 1)-с. в. симметрична и имеет максимум в начале координат. Тогда интервал приобретает вид (х-^х + ^) \ х/п >/ П ) и z — это верхняя 0,005 точка стандартного нормального распределения, так что Ф(г) = 1 — 0,005 = 0,995. Из таблиц процентных точек нормального распределения находим z = 2,5758. Следовательно, получаем ответ fy 2,5758a у 2,5758a\ I Л — --7= , л “Г -7= I • I—I \ х/п х/п ' Пример 1.8.2. В данном примере необходимо определить д. и. для неизвестной дисперсии нормального распределения, когда среднее зна- чение известно. Предположим, что X ~ N(p, а2), где pt известно и тре- буется оценить а2 > 0. Мы хотим найти 98%-д. и. для а2. Известно, что 52(X - Ц)2/^2 ~ X2- Обозначим через Fx2 ф. р. Р(Х < х) случайной вели- чины Х~/2. Выберем h~ <h+ такими, что Лх2(/г+) - = 0,98. Тогда условие Р (h~ < (У^Х, - ц)2} < h+\ = 0,98
282 Глава 1. Оценивание параметров можно переписать в виде /Е(Х,-н)2 Е(Х<-Н)2\ РI гт-------< а2 < —т---------) = 0,98, \ h+ h~ / что приводит к интервалу ^{Xi ~ ^)2’ F ~ ^)2) • 4 i i ' Опять у нас есть возможности для выбора h~ и й+; намереваясь полу- чить симметричный (или имеющий равные «хвосты») интервал, мы возьмем /^(Л-) = 1 - F^h+) = (1 - 0,98)/2 = 0,01. Из таблиц процентных точек распределения х2 для и = 38 получаем h~ =20,69, h+ = 61,16. См., напри- мер, [LiS, с. 40—41] (это стандартный источник статистических таблиц, который используется во многих примерах и задачах, рассматриваемых ниже). □ В примерах 1.8.1 и 1.8.2 нам удалось найти с. в. Z = Z(T(X), 9), которая является функцией от достаточной статистики и неизвестного параметра 9 ([1 в примере 1.8.1 и а2 в примере 1.8.2) и распределение которой не зависит от этого параметра. А именно, Z = \/п(Х - (i)/a ~ N(0, 1) в примере 1.8.1 и Z = У^(Х/ - pt)2/o2 ~ Хл в примере 1.8.2. Затем мы нашли такие значения и а+, что Р(а_ < Z < а+) = у, и корни 9/ = 9/(7, а±) уравнения Z(Ty 9) = а±. Не всегда удается найти их непо- средственно в явном виде, в некоторых случаях могут быть полезными их приближения. Пример 1.8.3. В этом (более сложном) примере все та же идея раз- вивается далее. Пусть X/~ Ро(Х) и мы хотим найти 100у%-д. и. для X. Нам известно, что пХ ~ Ро(иХ), где все еще сохраняется зависимость от X. Функция распределения F = F* случайной величины X имеет скачки в точках k/n, 6 = 0, 1, ..., и представима в виде 1ЛХГ . г F(x; Х) = /(х>0)^е-пХ^-( г=0 (1.8.2) где для значений у > 0 мы обозначили М= (у- 1. ( [z/| (целая часть числа у), если у целое, если у не является целым.
§ 1.8. Доверительные интервалы 283 Эта функция дифференцируема и монотонно убывает по X: Таким образом, отыскание пределов а < X < Ь эквивалентно решению функциональных неравенств F(x, b) < F(x\ X) < F(x; а) для всех положи- тельных х вида k/n, k = 1, 2, ... Мы хотим, чтобы а и b были функциями от х, а точнее, от выборочного среднего х. Симметричный,_или имеющий равные «хвосты», 100у%-д. и. имеет такие концы а(Х) и Ь(Х), что Р(Х<а(Х)) = Р(Х > Ь(Х)) = Запишем Р(X > Ь(Х)) = P(F(X; X) < F(X; Ь(Х)) и используем следующий факт (который является некоторой модификацией формул (2.1.45а ,б) из гл. 2 части А). Если для ф.р. F с. в. X и функции g: Ж—>Ж существует един- ственная такая точка с е Ж, что F(c) = g(c), F(y) < g(y) при у < с w F(y) > g(y) при у^с, то P(F(X)<g(X)) = g(c). (1.8.3) Далее, в силу равенства (1.8.2) получаем P(F(X; X) < F(X; b(X))) = F& при условии, что существует такое k, что F(k/n\ X) = F(k/n\ b(k/ri)). Дру- гими словами, если выбрать Ь = Ь(х) так, чтобы выполнялось равенство (1.8.4) /=0 то Р(Х > b(X)) (1 — у)/2. Аналогично выбор такого а = а(х), что = (1.8.5) 1—пх будет гарантировать, что Р(Х < а(Х)) < (1 - у)/2. Следовательно, интервал (а(Х), Ь(Х)) является 100у%-д. и. для X (имеющим равные «хвосты»). Распределения величин а(Х) и Ь(Х) могут быть определены в терминах квантилей распределения /2. Действительно, V& = 0, 1, ... мы имеем £ Z '-Г Т.
284 Глава 1. Оценивание параметров где У1 ~ /2^- Это означает, что ^2 е s^l/l\ = P(Ki < 2s). Мы видим, что k^l<oo 2па = /гт_((1 - У)/2). а это нижняя (1 - у)/2-квантиль ^-распределения с т~ = 2пХ степенями свободы. Аналогично s Е Н= Е = 0^* 0^* для Y2 ~ xL+2- Таким образом, P№>2s)= £ Это означает, что 2nb = h^+((\ — у)/2), а это верхняя (1 - у)/2-квантиль ^-распределения с т+ = 2пХ + 2 сте- пенями свободы. Такой ответ выглядит несколько громоздко. Однако для больших п можно считать, что X~N(X, Х/л), т.е. xAA(*->0~N(0, 1). Затем, выбрав у = 0,99 и, как и ранее, —а- = а+ = 2,5758, мы получим, что р(а_ < ^(Х-Х) <а+) «0,99. Это уравнение можно решить относительно К (или, точнее, относительно х/Х). Действительно, (X — Х)/\А убывает по К, и из уравнения Х-Х = а± х/Х ~ xfn находим Д± 2у/п ’ т. е. = / Г2------ \2 ( а± | V ___ \ VV 4n 2y/Hj (отрицательные корни нужно отбросить). Следовательно, вероятность ((Я^Гх - < х < (Л 4п 2у/п J yv 4n 2у/п J J
§ 1.9. Байесовское оценивание 285 будет приближенно равна 0,99. Значит, интервал + х- 2,5758\ 2 / /2,57582 , ? 2,5758\ 2\ 2-,/n J ’ 4л + 2y/ii J J дает приближенный ответ, точность которого возрастает вместе с п. Доверительным интервалам для среднего значения распределения Пуассона уделяется особое внимание во многих книгах, начиная с [Bio]. В этой книге используется термин «доверительная полоса», чтобы под- черкнуть зависимость интервала от п и X одновременно. □ § 1.9. Байесовское оценивание Bayesian Instinct, Trading Priors1 (Из серии «Фильмы, которые не вышли на большой экран».) Полезной альтернативой вышеизложенному методу оценивания являет- ся такой подход, при котором параметр 9 интерпретируется как случайная величина со значениями в 0, имеющая некоторую (заданную) априорную п.р. в. или д. ф. р. п(9). Получив в результате наблюдений выборку х, можно найти апостериорную п. р. в. или д. ф. р. п(9|х). На основании теоремы Байеса п(9|х) определяется как п(9 |х) ос п(9)/(х; 9). (1.9.1) Более точно, п(0|х) = ^я(0)/(х;0), (1.9.2) где f(x) = 5 л(0)/(х; 9) <Z0 или 0)- в Оее Образно говоря, (апостериорная п. р. в.) ос (априорная п. р. в.) х (правдо- подобие), где коэффициент пропорциональности выбирается так, чтобы нормировать общую массу к 1. Замечание. Отметим, что функция правдоподобия /(х; 9) в форму- лах (1.9.1) и (1.9.2) рассматривается как условная п. р. в./д. ф. р. величи- ны X при заданном 9. Такова байесовская интерпретация функции правдо- подобия, что противоположно фишеровской интерпретации, когда функция правдоподобия рассматривается как функция от 9 при фиксированном х. В примерах 1.9.1 —1.9.4 мы вычислим апостериорные распределения для некоторых моделей. 1 Ср. названия фильмов: «Basic Instinct» и «Trading Places».
286 Глава 1. Оценивание параметров Пример 1.9.1. Пусть X/~Bin(m,0) и априорное распределение для 0 — это Bet(a, /^-распределение с некоторыми известными а, Ь: n(0)oc0a“1(l -0)d"I/(O<0< 1) (см. пример 1.1.5). Тогда для апостериорного распределения получим я(9|х) ос0S^+«-'(1 - e)nm-^x'+ft-|/(0<9< 1), а это выражение представляет собой Bet(£x, + а, пт — = = Bet(nx + а, п(т - х) + Ь). Другими словами, априорное бета-распре- деление порождает апостериорное бета-распределение. Говорят, что се- мейство бета-распределений является сопряженным для биномиальных выборок. □ The Unbelievable Conjugacy of Beta1 (Из серии «Фильмы, которые не вышли на большой экран».) Пример 1.9.2. Семейство бета-распределений является сопряженным также и для выборок из отрицательного биномиального распределения, когда Xi ~ NegBin(r, 0) с известным г. Действительно, в этом случае апо- стериорное распределение тг(9 |х) ос 9'ir+a-l(l - 9)'Ii+fr_| представляет собой Bet(nr + а, пх + /^-распределение. □ Пример 1.9.3. Еще один распространенный пример сопряженного семейства — это гамма-распределения для пуассоновских или показа- тельных (экспоненциальных) выборок. Действительно, если X/ ~ Ро(Х) и n(k) ockx”1e-X/<x, то апостериорное распределение П(Х |х) ОС Х"5+т-1е-Х(а«+1)/а имеет п. р. в. Gam(T + пх, (на + 1 )/а). Аналогично если Xt ~ Ехр(Х) и к(Х) ос Кх”1е“Ха, то апостериорное рас- пределение опять имеет п. р. в. Gam(T + п, пх + а). □ Пример 1.9.4. Нормальные распределения также проявляют себя как сопряженное семейство. А именно, предположим, что X/ ~ N(p, о2), где о2 известно и n(pt) ос ехр(—(pt — а)2/(2/?2)) с некоторыми известными а е R и Ь > 0. Тогда, воспользовавшись решениями задач 2.3.8 и 2.3.9 из части А, ’Ср. с названием фильма «The Unbearable Lightness of Being» («Невыносимая легкость бытия»).
§ 1.9. Байесовское оценивание 287 получим, что апостериорная плотность к(ц | х) пропорциональна « ехр[4(£ + + (ё + “ еХр[-2^ - а 1 )2]’ где Следующим шагом является введение функции потерь (ф. п.) для измерения потерь, к которым приводят ошибки при оценивании заданного параметра 0. Это такая функция L(0, а), 0, а е 0, которая зависит от истинного значения параметра 0 и от его предполагаемого значения а. Например, квадратическая ф. п. L(0, а) = (0 - а)2, ф. п., равная абсо- лютной ошибке а) = |0 - а|, и т. д. Рассмотрим апостериорные средние потери /?(х, a) = ^k(0|x)L(0, a)dB или У^п(0|х)Д(0, а) (1.9.3) при принятии значения а. Мы хотим выбрать значение а = а(х), миними- зирующее /?(х, а): а = argmin/?(x, а). (1.9.4) а Эта точка минимума а называется оптимальной байесовской оцен- кой или, кратко, оптимальной оценкой. (Некоторые авторы употребляют термин «оптимальная точечная оценка».) Для квадратической функции потерь /?(х, а) = к(01 х)(0 - a)2 d0. е Продифференцировав, находим, что /?(х, а) достигает минимума в точке а = 0к(01 х) d0, е которая представляет собой апостериорное среднее Е(0 |х). Более того, минимальная величина апостериорных средних потерь равна rnin/?(x, а) = /?(х, а) = §[0 - Е(0 |x)]2rc(0 |x)d0, т.е. равна апостериорной дисперсии Е[(0 — Е(0 |х))2 |х]. Для функции потерь, равной абсолютной ошибке, /?(х, а) = п(01 х)|0 - а| dft = § л(01 х)(а - 0) dQ + § п(01 х)(0 - a) df), 0 —оо а
288 Глава 1. Оценивание параметров а это выражение минимизируется апостериорной медианой, т. е. значе- нием а, для которого § п(9 | х) dti = § я(9 | х) dti = 1 /2. — оо а Важное замечание, немедленно вытекающее из изложенного, состоит в том, что в общем случае а(х) минимизирует также и безусловные средние потери на множестве всех оценок d: хн4 0. В данной ситуации полезно несколько изменить терминологию: оценку можно трактовать как решаю- щее правило (вы наблюдаете выборку х и принимаете решение: значение параметра равно d(x)). При заданном значении 9 и решающем правиле d величина r(6, d) = E0L(9, d(X)) = { 'ЩО, d(x))f(x\ 9), X > 5 Ц9, d(x))f(x\ 9) dx представляет собой риск при принятии решения d, если истинное значение параметра равно 9. Мы хотим минимизировать байесовский риск ^(d) = r(0, d)n(9) d0 или г(9, б/)п(9). (1.9.5) е е Таким образом, наше замечание сводится к тому, что а = arg min ^(d). (1.9.6) d По этой причине оптимальная байесовская оценка называется также оп- тимальным правилом. Формально в уравнении (1.9.4) находят минимизирующее значение при каждом заданном (фиксированном) х, тогда как в уравнении (1.9.6) мини- мизируют сумму или интеграл, взятые по всем значениям х. Важно понять, что обе процедуры приводят к одинаковому ответу. В вышеприведенном замечании мы утверждаем, что точка минимума в уравнении (1.9.4) будет точкой минимума и для rB(d). А что можно сказать об обратном утвер- ждении? Будет ли каждое решающее правило, минимизирующее rB(d), совпадать с оптимальной байесовской оценкой? Оказывается, и это верно: меняя порядок суммирования/интегрирования по х и 9, запишем г(9, d) = Еп(0| x)L(0, d(x))f(x)dx или Еп(б |х)М0. d(*))/(x). (1.9.7) Здесь /(х) — это маргинальная п. р. в./д. ф. р. вектора X: /(х) = ^2 л;(0)/(лг; 9) = $ л(9)/(х; 9) J9, е е а п(91 х) — это апостериорная п. р. в./д. ф. р. для 9 при фиксированном х.
§ 1.9. Байесовское оценивание 289 Поскольку /(х) > 0, минимум по d суммы/интеграла в правой части ра- венства (1.9.7) может достигаться только тогда, когда суммируемые вели- чины или подынтегральное выражение En(e ।x)i(0, d(x)) достигают своего минимума по d. А это и означает, что минимизирующее решающее правило равно а. Пример 1.9.5. В этом примере мы вычислим байесовские оценки для некоторых моделей. Стандартным примером является случай, когда Xi ~ N(pi, о2) и дисперсия о2 известна, a pt имеет априорное распределение N(0, т2) с известным т2 > 0. Для апостериорного распределения л(р I х) ос п(ц)/(х; ц) ос ехр [-~ Р)2] ’ ехР [“] <* Г 1 zn ^Х,/ст2 Y1 aex4“HS5+T + ] Это означает, что п(р I х) ~ N ^„/а2+ [Д2- „/О2 + !Д2 J • Среднее значение нормального распределения равно его медиане. Таким образом, для обеих ф. п., и квадратической, и абсолютной ошибки, полу- чаем, что оптимальная байесовская оценка для pt равна ЕФ2 л/а2 + 1/т2’ Если априорным распределением является N(v, т2) с произвольным средним v, то байесовская оценка для pi для обеих ф. п., и квадратической, и абсолютной ошибки, равна v/t2 + Z^Xi/a2 n/а2 + 1/т2 ‘ ° Пример 1.9.6. Далее, пусть X/ ~ Ро(Х), где априорное распределение для X является показательным с известной интенсивностью т > 0. Апосте- риорное распределение п(Х |х) ос е лХХ ' е хХ, т. е. это распределение Gam(j2xz + 1, л + т). При квадратической ф. п. оптимальная байесовская оценка равна + 1 10—1104
290 Глава 1. Оценивание параметров С другой стороны, для ф. п., равной абсолютной ошибке, оптимальная байесовская оценка равна значению X > 0, при котором (п+т)£х‘+1 г х' е_(„+Т)Х 1 □ (?Х')! ° Пример 1.9.7. Часто предполагается, что априорным распределением является равномерное распределение на заданном интервале. Например, пусть Х\, ..., Хп — н. о. р. с. в. с равномерным распределением на интер- вале (9- 1, 9+ 1), и пусть априорное распределение параметра 9 является равномерным распределением на (а, Ь). Тогда апостериорное распределе- ние имеет вид п(9 |х) ос 1(а < 9 < b)l(maxxi - 1 < 9 < minx, + 1) = = /(а V (maxх, - 1) < 9 < b Л (min X/ + 1)), где а V Р = тах[а, [3], а Л [3 = min[a, [3]. Таким образом, апостериорное распределение является равномерным на этом интервале. Тогда квадрати- ческая ф. п. и ф. п., равная абсолютной ошибке, приводят к одной и той же байесовской оценке 9 = V (maxxz - 1) + b Л (minx/ + 1)]. В качестве еще одного примера рассмотрим параметр 9 с равномерным распределением на (0, 1), и пусть с. в. Х\, ..., Хп принимают два значения 0 и 1 с вероятностями 9 и 1 — 9. Здесь апостериорное распределение имеет вид n(0|x)oc0^Xi(l -0)n-z\ т. е. является бета-распределением Bet (+ 1, п - £х(- + 1): аЕ'Ч! -0)"_£х- тс(01X) ос л(0)/(х; 9) = 7^—i, 0 < 0 < 1. $0£х'(1 -0)"“£xid6 о Таким образом, для квадратических потерь £(0, d) = (0 - d)2 оптималь- ная байесовская оценка определяется как 0'+l(l -9)"-'d0 5 5 = (/+ 1)!(и -/)!(«+ 1)! = /+ 1 Л 1 (п + 2)!/!(п - /)! п + 2’ S 0'(1 -0)я-'</6 о
§ 1.9. Байесовское оценивание 291 Здесь t := и мы использовали тождество / $ хт~1 (1 - х)п-1 dx = 1)! , J (т 4- п - 1)! которое выполняется для всех целых тип. □ Следующее замечание касается еще одного класса функций потерь, а именно потерь типа 0-1, когда L(9, а) = 1 - 8о>а, т.е. L(9, а) = 0 при 9 = а и 1 в противном случае. Такую функцию естественно использовать в случае, когда множество 0 возможных значений параметра 9 конечно. Например, предположим, что 0 состоит только из двух значений, скажем, 0 и 1. Пусть априорные вероятности равны ро и р\ и соответствующие д. ф. р./п. р. в. равны /о и f\. Апостериорные вероятности п(- |х) равны п(0 | X) = Pof^~- П(11 х) = —ГГТТ^ТГХ' Poh(x) + p\f\(x) Po/o(x)+pi/i(x) и байесовская оценка а, принимающая значения 0 и 1, должна минимизи- ровать средние апостериорные потери п(1 - а |х). Это означает, что П = /°’ если К(°1Х) >к(1 Iх)» t 1, если п(1 |х) > п(0|х); в случае, когда п(0 |х) = п(1 |х), любой выбор будет давать одно и то же значение 1/2 для средних апостериорных потерь. Другими словами, а = 1, 0 если к(1 |х) = P\f\(x) j f\(x) k = Po л(0|х) ро/о(х) ’ * 7о(х) Pl’ (1.9.8) в противном случае. Здесь появляется «отношение правдоподобия» f\(x)/fo(x); мы будем встречать его неоднократно и в следующей главе. Для завершения темы байесовского оценивания рассмотрим следую- щую модель. Пусть с. в. Х[, ..., Хп таковы, что X/ ~ Ро(9,): fix /(х; е,) = х = 0’1’-- Здесь параметр 9/ сам является случайным и имеет ф. р. В (на = (0, оо)). Мы хотим оценить 9/. Классическим приложением этой модели является случай, когда X/ — это число дорожных происшествий за указанный год, в которые был вовлечен водитель i. Пусть вначале нам известна функция В, тогда оценка 77(Xj, ...,ХЛ) параметра 9/, минимизирующая среднеквадратическую ошибку Е(7} - 9/)2, не зависит от Xj при j / i. Tl(X^....Xn) = T(Xi). io*
292 Глава 1. Оценивание параметров Здесь T(x) = $9/(x; 9)dB(9) / g(x) И g(x) = $/(x; 9)dB(9). Подставляя пуассоновское распределение вместо /(х; 9), получаем Т(х) = (х+ l)g(x't'1), х = 0, 1,... £(*) Следовательно, TitXi, .... Хп) = (X,: + 1)^УД (1.9.9) g\Ai) А что будет в случае, когда мы не знаем функцию В и ее необходимо оценить на основании выборки (Хь ..., Хп)? Естественный ответ — заменить В ее выборочной гистограммой В(9) = card{z: Xt,< 9}, 9 > О, т. е. функцией, имеющей скачки величины Ь(х) — пх/п в целых точках х, где пх = card{z: Xt = х}, х = 0, 1,... (1.9.10) Затем подставим Ь(х) вместо g(x). Это приводит к следующей оценке для 9Z: ТАХ1,...,Хп) = (Х' + 1)^. (1.9.11) «Л, Эта идея (которую некоторые источники приписывают британскому математику А. Тьюрингу (1912—1954)) работает на удивление хорошо (см. [Е2], [LS]). Удивляет это потому, что оценка Л построена с ис- пользованием наблюдений Xj, j / z, т. е. без привлечения информации относительно X (за исключением, разумеется, того факта, что все наблю- дения имеют пуассоновское распределение и одну и ту же априорную ф. р.). Это наблюдение послужило исходным пунктом для так называемой эмпирической бай- есовской методологии, развитой Г. Роббинсом (1915—2001), еще одним выдающимся аме- риканским статистиком, который начинал свою карьеру как чистый математик. Подобно Дж. Тьюки, Роббинс написал свою докторскую диссертацию в области топологии. В 1941 г. вместе с Р. Курантом он опубликовал книгу [CouR], которая и по сей день необходима всем тем, кто интересуется математикой. В 1955 г. Роббинс напечатал статью [Rob], где он обосновал оценку —--- < 0(л) < — для остаточного члена в формуле Стирлинга; 12л 4- 1 12л см. формулу (1.6.20) в части А. Роббинсу приписывают также множество афоризмов и шуток (одна из них та, что «ни одно доброе дело не остается безнаказанным»).
§ 1.9. Байесовское оценивание 293 Роббинс использовал формулу (1.9.11) для получения надежной оцен- ки числа So происшествий, которые произойдут в следующем году с те- ми по водителями, у которых не было ни одной аварии за данный наблю- даемый год. Ясно, что число 0 было бы здесь недооценкой для числа So (поскольку это предполагает, что будущее идентично прошлому). С другой стороны, число по = ini является переоценкой, поскольку Хо не вносит Z€Z+ никакого вклада в сумму Хорошей оценкой для So является Х\, т.е. число водителей, для которых зафиксировано только одно происше- ствие. В общем случае величина (/ + l)n,+i является точной оценкой для числа 5/ происшествий, которые произойдут в будущем году с п, водителя- ми, для которых зарегистрировано i происшествий в данном наблюдаемом году. Роббинс ввел понятие «число пропущенных объектов». Например, можно подсчитать число пх слов, использовавшихся в точности х раз в известном нам собрании сочинений Шекспира, х= 1, 2, ...; эти данные приведены в следующей таблице (см. [ETh 1 ]). х\пх 1 2 3 4 5 6 7 8 9 10 0+ 14376 4343 2292 1463 1043 837 638 519 430 364 10+ 305 259 242 223 187 181 179 130 127 128 20+ 104 105 99 112 93 74 83 76 72 63 Таким образом, 14376 слов появились лишь по одному разу, 4343 слов появились дважды, и т.д. А 2387 слов появлялись более чем по 30 раз каждое. Общее число всех различных слов, использовавшихся в этих произведениях, равно 31534 (при этом, например, для слов «tree» (де- рево) и «trees» (деревья) число их появлений подсчитывалось отдельно). Пропущенные объекты здесь — это слова, которые Шекспир знал, но не использовал; пусть их число равно по. Тогда общее число слов, которые знал Шекспир, равно, очевидно, п = 31534 + по- Длина всего собрания сочинений (т.е. число всех слов, подсчитанных столько раз, сколько они появлялись в тексте) равна N = 884647. Предположим, как и ранее, что число появлений слова i в текстах всех произведений X/ ~ Ро(0/), где параметр 0/ является случайным. И вновь, если ф. р. В параметра 9 известна, то апостериорное среднее значение Е(0/ |Х/ =х) для 0, дает оценку, минимизирующую среднеквадратическую ошибку, и равно (x+l)g(x+1^, (1.9.12) g(x) где g(x) = 5^e-9dB(0), х = 0, 1,...
294 Глава 1. Оценивание параметров Если В неизвестно, то мы подставляем (пока неизвестную) гистограмму В(0) = ^ card{r 0, < 0}, 0^0. Оценка для 0/ тогда принимает вид Ё(0,|Х,=х) = (х+1)^. (1.9.13) Их Для х = 1 это дает следующее значение для математического ожидания: Ё(0,- |Х;: = 1) = 2 • = 0,604. Отсюда мы немедленно заключаем, что слова, появлявшиеся лишь один раз, здесь представлены избыточно, в том смысле, что если'бы где-либо существовало новое собрание сочинений Шекспира, равное по объему рассмотренному, то 14376 слов, которые появляются только один раз в рассмотренном случае, в новом собрании сочинений появятся всего лишь 0,604-14376 = 8683 раз. Далее, положим го = ^0./(Х,=О)/^Ог. /=! /=1 Числитель оценим выражением Ё(0, |Xi = 0)п0 = -п0 = nt = 14376, По а знаменатель — числом N = 884647. Тогда 14376 ПП1С Г° ~ 884647 “ °’° 6’ Таким образом, полет фантазии приводит к заключению, что если бы появился новый шекспировский текст, то вероятность того, что первое слово из этого текста отсутствовало в уже существовавших ранее текстах, равна 0,016; это же утверждение верно и для второго слова, и т. д. В 1985 г. Боделианская библиотека в Оксфорде действительно объявила, что най- дена прежде неизвестная поэма, авторство которой некоторые эксперты возводят к Шекспиру. Вышеизложенный анализ был применен к этому случаю (см. [ETh2]) и привел к интересным заключениям.
§ 1.9. Байесовское оценивание 295 Таблица 1.1. Процентные точки распределения п 0,995 0,99 0,975 0,95 1 63,66 31,82 12,71 6,31 2 9,92 6,96 4,30 2,92 3 5,84 4,54 3,18 2,35 4 4,60 3,75 2,78 2,13 5 4,03 3,36 2,57 2,02 6 3,71 3,14 2,45 1,94 7 3,50 3,00 2,36 1,89 8 3,36 2,90 2,31 1,86 9 3,25 2,82 2,26 1,83 10 3,17 2,76 2,23 1,81 11 3,11 2,72 2,20 1,80 12 3,05 2,68 2,18 1,78 13 3,01 2,65 2,16 1,77 14 2,98 2,62 2,14 1,76 15 2,95 2,60 2,13 1,75 16 2,92 2,58 2,12 1,75 17 2,90 2,57 2,11 1,74 18 2,88 2,55 2,10 1,73 19 2,86 2,54 2,09 1,73 20 2,85 2,53 2,09 1,72 21 2,83 2,52 2,08 1,72 22 2,82 2,51 2,07 1,72 23 2,81 2,50 2,07 1,71 24 2,80 2,49 2,06 1,71 25 2,79 2,49 2,06 1,71 26 2,78 2,48 2,06 1,71 27 2,77 2,47 2,05 1,70 28 2,76 2,47 2,05 1,70 29 2,76 2,46 2,05 1,70 30 2,75 2,46 2,04 1,70 40 2,70 2,42 2,02 1,68 60 2,66 2,39 2,00 1,67 120 2,62 2,36 1,98 1,66
296 Глава 1. Оценивание параметров Таблица 1.2. Процентные точки распределения N(0, 1) 0,995 0,99 0,975 0,95 0,90 2,58 2,33 1,96 1,645 1,282 Таблица 1.3. Процентные точки 9 распределения п 0,99 0,975 0,95 0,9 1 6,63 5,02 3,84 2,71 2 9,21 7,38 5,99 4,61 3 11,34 9,35 7,81 6,25 4 13,28 11,14 9,49 7,78 5 15,09 12,83 11,07 9,24 6 16,81 14,45 12,59 10,64 7 18,48 16,01 14,07 12,02 8 20,09 17,53 15,51 13,36 9 21,67 19,02 16,92 14,68 10 23,21 20,48 18,31 15,99 11 24,73 21,92 19,68 17,28 12 26,22 23,34 21,03 18,55 13 27,69 24,74 22,36 19,81 14 29,14 26,12 23,68 21,06 15 30,58 27,49 25,00 22,31 16 32,00 28,85 26,30 23,54 17 33,41 30,19 27,59 24,77 18 34,81 31,53 28,87 25,99 19 36,19 32,85 30,14 27,20 20 37,57 34,17 31,41 28,41 30 50,89 46,98 43,77 40,26 40 63,69 59,34 55,76 51,81 50 76,15 71,42 67,50 63,17 60 88,38 83,30 79,08 74,40 70 100,4 95,02 90,53 85,53 80 112,3 106,6 101,8 96,58 90 124,1 118,1 113,1 107,5 100 135,8 129,5 124,3 118,5
§ 1.9. Байесовское оценивание 297 Таблица 1.4. 95%-точки распределения Fm,n 1 2 3 4 5 6 8 12 16 20 30 40 50 1 161,4 199,5 215,7 224,5 230,1 233,9 238,8 243,9 246,4 248,0 250,1 251,1 251,7 2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,43 19,45 19,46 19,47 19,48 3 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,74 8,69 8,66 8,62 8,59 8,58 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,84 5,80 5,75 5,72 5,70 5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,68 4,60 4,56 4,50 4,46 4,44 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,92 3,87 3,81 3,77 3,75 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,49 3,44 3,38 3,34 3,32 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,20 3,15 3,08 3,04 3,02 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,99 2,94 2,86 2,83 2,80 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,83 2,77 2,70 2,66 2,64 11 4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,79 2,70 2,65 2,57 2,53 2,51 12 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,69 2,60 2,54 2,47 2,43 2,40 13 4,67 3,81 3,41 3,18 3,03 2,92 2,77 2,60 2,51 2,46 2,38 2,34 2,31 14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,53 2,44 2,39 2,31 2,27 2,24 15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,48 2,38 2,33 2,25 2,20 2,18 16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,42 2,33 2,28 2,19 2,15 2,12 17 4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,38 2,29 2,23 2,15 2,10 2,08 18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,34 2,25 2,19 2,11 2,06 2,04 19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,31 2,21 2,16 2,07 2,03 2,00 20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,28 2,18 2,12 2,04 1,99 1,97 22 4,30 3,44 3,05 2,82 2,66 2,55 2,40 2,23 2,13 2,07 1,98 1,94 1,91 24 4,26 3,40 3,01 2,78 2,62 2,51 2,36 2,18 2,09 2,03 1,94 1,89 1,86 26 4,23 3,37 2,98 2,74 2,59 2,47 2,32 2,15 2,05 1,99 1,90 1,85 1,82 28 4,20 3,34 2,95 2,71 2,56 2,45 2,29 2,12 2,02 1,96 1,87 1,82 1,79 30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,09 1,99 1,93 1,84 1,79 1,76 40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,00 1,90 1,84 1,74 1,69 1,66 50 4,03 3,18 2,79 2,56 2,40 2,29 2,13 1,95 1,85 1,78 1,69 1,63 1,60 60 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,92 1,82 1,75 1,65 1,59 1,56 70 3,98 3,13 2,74 2,50 2,35 2,23 2,07 1,89 1,79 1,72 1,62 1,57 1,53 80 3,96 3,11 2,72 2,49 2,33 2,21 2,06 1,88 1,77 1,70 1,60 1,54 1,51 100 3,94 3,09 2,70 2,46 2,31 2,19 2,03 1,85 1,75 1,68 1,57 1,52 1,48
Глава 2 Проверка гипотез §2.1. Вероятности ошибок I и II рода. Наиболее мощные критерии Статистики делают это с вероятностью лишь 5% быть отвергнутыми. (Из серии «Как они делают это».) Проверка статистических гипотез, или просто проверка гипотез. является еще одним способом сделать заключение о распределении (п. р. в. или д. ф. р.) «наблюдаемой» случайной величины X или выборки X = (Х|, ..., Хп). По сложившейся здесь традиции говорят о нулевой и альтернативной гипотезах. В простейшем случае нам необходимо выбрать одну из двух возможностей: п. р. в./д. ф. р. f величины X равна /о или /1. Мы говорим, что утверждение f = /о представляет собой простую нулевую гипотезу, a f = f\ — простая альтернатива. При таком подходе изначально имеется некоторое неравноправие между /о и Д, которое будет проявляться также и в последующем. Предположим, что наблюдаемое значение с. в. X равно х. «Научный» подход заключается в том, чтобы разбить множество значений величины X (пусть это будет R) на две непересекающиеся области СиС = 1К\Сиот- вергать гипотезу Но (т.е. принимать гипотезу Н\). когда хе С. а принимать гипотезу Но в том случае, когда х е С. Следовательно, критерий проверки гипотезы определяется областью С (которая называется критической областью). Другими словами, для проверки гипотез мы хотим применить решающую функцию d с двумя значениями (индикатор множества С), и при d(x) = 1 будем отклонять нулевую гипотезу, а при d(x) = 0 будем принимать эту гипотезу. Предположим, что беспокоиться нам нужно прежде всего о том, чтобы не отвергнуть гипотезу Но (т.е. чтобы не принять Н\) в случае, когда Но верна: мы полагаем, что это представляет собой главную опасность. В этом случае (когда гипотеза Но верна, но отклоняется) мы говорим, что совершена ошибка I рода, и мы хотели бы, чтобы ошибки такого рода
§2.1. Вероятности ошибок I и II рода. Наиболее мощные критерии 299 были довольно редки. Менее опасной была бы ошибка II рода: принять гипотезу Hq в случае, когда она ложна (т.е. справедлива гипотеза Н\): мы хотим, чтобы такие ошибки появлялись в разумных пределах, если уже есть гарантии того, что ошибка I рода непременно будет совершаться редко (что является нашей главной целью). Формально мы фиксируем некоторое пороговое значение для вероятности ошибки I рода (в. о. р. I), ае (0, 1), и затем пытаемся минимизировать вероятность ошибки II ро- да (в. о. р. II). В такой ситуации часто говорят, что Hq — это консервативная гипоте- за, которая отвергается лишь при наличии явных доказательств против нее. Например, если вы врач и изучаете гистологические данные своего па- циента, то вы рассматриваете гипотезу о том, что у этого пациента имеется опухоль, при этом альтернативой является гипотеза о том, что опухоли нет. При выполнении гипотезы Н\ (опухоли нет) данные должны быть сгруппи- рованы вблизи «нормальных» средних значений, тогда как при гипотезе Hq (опухоль есть) данные смещаются к некоторым «анормальным» значениям. Принимая во внимание то, что при тестировании точность измерений не достигает 100%, данные следует считать случайными. Вы хотите разра- ботать научный метод диагностики заболевания. И ваша первостепенная задача — не пропустить пациента с опухолью, поскольку это может иметь серьезные последствия. С другой стороны, если вы совершите ошибку 11 рода (поднимете ложную тревогу по поводу здорового пациента), то это может привести лишь к некоторым относительно мелким неприятностям (повторное тестирование, возможная короткая госпитализация). Дальнейший вопрос заключается в том, как же выбрать критическую область С. При заданной области С в. о. р. I равна Ро(С) = $fo(x)l(xeC)dx или ^/0(х)/(хеС) (2.1.1) X и называется размером критической области С (а также размером кри- терия). Требование, чтобы вероятность Ро(С) не превосходила заданного значения а (называемого уровнем значимости), не определяет область С единственным образом: мы можем найти много таких областей. На ин- туитивном уровне понятно, что область С должна содержать исходы х, для которых значения /о(*) малы, независимо от местоположения х. Но нам хотелось бы достичь большей точности (определенности). Напри- мер, если п. р. в. /о, соответствующая гипотезе Hq, является нормальной N(pto, Оо)-плотностью, то может ли С содержать точки, лежащие вблизи среднего значения pto, в которых п. р. в. /о достигает относительно высоких значений? Или же область С должна быть полубесконечным интервалом (pio + c, оо), или (—оо, ptQ — с), или, возможно, их объединением? Например,
300 Глава 2. Проверка гипотез мы можем выбрать с таким, чтобы интегралы . ОО . -=— \ е-(х-цо)2/2ао dx или — f е-(^~Но)2/2ао rfx v2koo Ио+с v2nao -оо или их сумма не превышали а. На самом деле, оказывается, именно аль- тернативная п. р. в./д. ф. р. позволяет сузить возможности для выбора С (и определить эту область по сути однозначно), поскольку мы стремимся минимизировать в. о. р. II P1(C) = $fi(x)l(x#C)dx или ^Л(х)/(х0С) (2.1.2) X при заданном уровне значимости. Вероятность дополнения P|(C) = $fi(x)l(xeC)dx или ^2/1(х)/(хеС) (2.1.3) X называется мощностью критерия; ее необходимо максимизировать. Критерий, имеющий максимальную мощность среди всех критериев размера не выше а, называют наиболее мощным (н. м.) критерием для заданного уровня значимости а. В разговорной речи такой критерий на- зывают н. м. критерием размера а (поскольку, как мы покажем далее, его размер и в самом деле равен а). § 2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона и комментарии к ней Статистики нуждаются в верных выводах, поскольку во времена их молодости многие из их гипотез были отвергнуты. (Из серии «Почему их не понимают».) Одна естественная (и элегантная) идея проверки гипотез состоит в рас- смотрении отношения правдоподобия (о. п.): = (2-2.1) Если для заданного х о. п. велико, то мы склоняемся к тому, чтобы считать гипотезу Но маловероятной, т. е. к тому, чтобы отклонить Но; в противном случае мы не отклоняем Но. Следующая идея, которая приходит на ум,— это идея, что следует рассматривать области вида {x.AH}tHo(x)>k} (2.2.2) и выбирать k так, чтобы удовлетворить такому требованию: размер критерия равен а. Скаляр х е К. здесь может быть заменен на вектор
§2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона 301 х= (х,, ..., xn) еR" с п. р. в. /о(х) = П fo(Xi) и /| (х) = П/|(*/)• Критическая область С в этом случае превращается в подмножество Такая идея работает в основном неплохо, что показывает известная лемма Нейма- на—Пирсона (лемма Н—П), приводимая ниже. Эта лемма названа в честь Ю. Неймана и Е. С. Пирсона (1895—1980), выдающегося британского статистика. Пирсон был сыном К. Пирсона (1857—1936), которого принято считать создателем современного статистиче- ского мышления. Оба они, и отец, и сын, оказали огромное влияние на статистическую литературу того времени; их имена неоднократно будут появляться в этой части книги. Интересно сравнить жизненные пути авторов леммы Н—П. Пирсон провел всю свою активную жизнь в Лондонском университетском колледже, где был последователем своего отца. Нейман, напротив, жил в период гражданских волнений, революции и войны на терри- тории Российской империи (см. [Rei]). В 1920 г. на Украине он был брошен в тюрьму как поляк и ожидал сурового приговора (в то время шла война с Польшей, и его подозревали в шпионаже). Он был спасен в результате длительных переговоров его жены с одним больше- вистским чиновником, который в прошлом был студентом медицины под руководством тестя Неймана; в конце концов ему предоставили возможность бежать в Польшу. В 1925 г. Нейман прибыл в Лондон и начал работать с Е. С. Пирсоном. Одним из их совместных результатов была лемма Н—П. О своем сотрудничестве с Пирсоном Нейман писал: «Инициатором совместных иссле- дований был Пирсон. К тому же, по крайней мере на ранних этапах, он был лидером. Наша совместная работа велась посредством обширной переписки и во время нечастых встреч, некоторые из которых были в Англии, некоторые — во Франции, еще некоторые — в Польше. Это сотрудничество продолжалось в течение десяти лет с 1928 по 1938 год». Постановка задачи в лемме Н—П состоит в следующем: предполо- жим, что необходимо проверить гипотезу Н$: f = fo против альтернативы Н\: / = Д, где f\ и /о — это две различные п. р. в./д. ф. р. Лемма Н—П утверждает следующее. Для любого k>0 критерий с критической областью С = {х: /j (х) > > kfo(x)} имеет наибольшую мощность Pi (С) среди всех критериев (т. е. критических областей С*) размера Ро(С*) < а = Ро(С). Другими словами, критерий с областью С = {/t (х) > A/oW} является н. м. критерием среди всех критериев с уровнем значимости а = Ро(С). Здесь а оказывается функцией от й: а = а(£), k > 0. Доказательство. Обозначая через 1с и /с* индикаторные функции для С и С*, запишем 0^(/с(х) - /с-(*))(Л(х) - */0(х)), поскольку выражения в скобках никогда не будут иметь противоположных знаков (при хе С выполняются неравенства /i(x) > kfo(x) и /с(х) > /с*(х), тогда как для х 0 С мы имеем f\ (х) kfo(x) и /с(х) 1с* (х)). Тогда о $(/с(х) - /с- (*))(fi (*) - kfo(x)) dx ИЛИ о £>(*) - /с- (х))(А(х) - kf0(x)).
302 Глава 2. Проверка гипотез Но правая часть равна Pt(C) - PJC*) - Л(Ро(С) - Ро(С*)). Таким образом, Pi(C) - Pi(C*) Л(Ро(С) - Ро(С*)). Следовательно, если Ро(С*) Ро(С), то Pi (С*) Р|(С). □ Критерий с критической областью С = {х: f\x) > kfo(x)} часто назы- вают критерием отношения правдоподобия (к. о. п.) или критерием Неймана—Пирсона (Н—П). Замечания. 1. Утверждение леммы Н—П остается в силе, если нера- венство /1(х) > Л/oW заменить неравенством Д(х) > Л/о(*)« 2. На практике нам необходимо решать «обратную» задачу: для за- данного а е (0, 1) мы хотим найти н.м. критерий размера не больше а. Это означает, что мы хотим построить k как функцию от а, а не как-либо иначе. Во всех (тщательно подобранных) примерах этой главы это сделать несложно, поскольку функция k а(£) является взаимно однозначной и допускает прямое обращение k = £(а). Значит, для заданного а всегда можно найти такое k > 0, что Р(С) = а для С = {Д(х) > kfo(x)} (и отыскание такого k является частью задачи). Однако во многих примерах (особенно относящихся к дискретному случаю) критерий Н—П может не существовать для всех значений (разме- ра) а. Чтобы обойти эту трудность, мы должны рассмотреть более общие рандомизированные критерии, у которых решающая функция d может принимать не только значения 0, 1, но также и промежуточные значения из интервала (0, 1). При этом если наблюдается значение х, то мы откло- няем гипотезу Hq с вероятностью d(x). (Фактически «рандомизированная» лемма Н—П гарантирует, что всегда будет существовать критерий Н—П, у которого d принимает не более чем три значения: 0, 1 и, возможно, еще одно значение между этими двумя.) Действуя формально, мы хотим вначале расширить понятия в. о. р. I и в. о. р.П, что можно сделать прямым обобщением уравнений (2.1.1) и (2.1.2): Ро(б/) = 5 d(x)fo(x) dx ИЛИ ^2</(х)/о(х) (2.2.3) X И Р](^) = §(1 - d(x))f\(x)dx или ^Г(1 - d(x))fi(x). (2.2.4) X Мощность критерия с решающей функцией d равна Pi(d) = $</(x)A(x)dx или ]Td(x)fi(x). (2.2.5) X
§2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона 303 Затем, как и ранее, фиксируем а 6 (0, 1) и, рассматривая все рандомизи- рованные критерии d размера не больше а, ищем среди них тот, который максимизирует Pj(d). Рандомизированный вариант леммы Н—П таков. Для любой пары п. р. в./д. ф. р. fa и f\ и любого а € (0, 1) существу- ют единственное такое k>0 и вида такое р е [0, 1], что для критерия ^np(x) = р, 0, Л(х) > £/0(х), Л(х) = *Д>(х), /i (х) < £/о(х), (2.2.6) выполняется равенство Po(dNp) = a- Этот критерий имеет наиболь- шую мощность среди всех рандомизированных критериев размера а: P1(dNP) = max[P1(d*): P0(d*)^a]. (2.2.7) Таким образом, d^p является н.м. рандомизированным критерием размера не больше а для проверки гипотезы Hq: f = fo против аль- тернативы Н\\ f = fi. Как и ранее, критерий Jnp, описанный в формуле (2.2.6), называют (рандомизированным) критерием Н—П. Мы хотим еще раз подчеркнуть, что константа р может совпадать (и часто совпадает) с 0 или 1 и в этом случае критерий Jnp становится нерандомизированным. Доказательство рандомизированной леммы Н—П несколько длиннее, чем в нерандомизированном случае, но по-прежнему сохраняет свою эле- гантность. Предположим вначале, что мы имеем дело с непрерывным слу- чаем и п. р. в. /о и /1 таковы, что для любого k > 0 выполняется равенство $ (х) = й/о(х)) dx = 0. (2.2.8) В этом случае значение р будет равным 0. Действительно, рассмотрим функцию о: k W 5 /о(х) > й/0(х)) dx. Такая функция G(k) является монотонно невозрастающей по k, поскольку область интегрирования сужается с ростом k. Далее заметим, что функ- ция G является непрерывной справа: lim G(r) = G(£) для любого k > 0. В самом деле, при г \ k+ мы имеем /(А(х)>г/о(х))//(Л(х)>^о(х)), так как каждая точка х, для которой f\(x) > kfo(x), попадет в конце концов в семейство (расширяющихся) областей {/i(х) > г/о(х)}. Тогда сходимость интегралов является следствием стандартных теорем анализа. Более того,
304 Глава 2. Проверка гипотез аналогичным образом можно доказать, что G имеет левосторонние преде- лы, т. е. G(k-) = lim G(/) 17k- существуют для любого k > 0 и равны $ /о(х)/(/1 (х) й/о(х)) dx. Если выполнено предположение (2.2.8), то разность G(k~) - G{k) = $ (х) = Л/0(х)) dx стремится к нулю и функция G является непрерывной. Наконец, мы заме- чаем, что G(0+) = lim G(£) = l, G(oo) = lim G(fe) = 0. (2.2.9) Z?-*0+ Z?—*oo Следовательно, график функции G пересекает каждый уровень а е (0, 1) в некоторой точке k = k(a) (возможно, не единственной). Тогда (нерандо- мизированный) критерий,у которого NPX to, /|(х)СЛ/о(х). имеет размер Po(d) = G(k) = а и соответствует формуле (2.2.6) при р = 0. Этот критерий является н. м. критерием с уровнем значимости а. Дей- ствительно, пусть d* —это любой другой (возможно, рандомизированный) критерий размера Po(d*) а. Мы вновь получаем, что для любого х вы- полняется неравенство 0 (dNP(x) - d*(x))(A(x) - fe/oW), (2.2.10) поскольку если 6?npW = 1, то обе скобки неотрицательны, а если 6?npW = 0» то обе они положительны. Значит, о §(</np(x) - 4/*(х))(Л(х) - £(<x)fo(x)) dx, но здесь правая часть опять равна Pi(d) — Pi(d*) — &(Po(d) — Po(d*)). Отсюда следует, что Pj (J) - Pl (6/*) > k(PQ(d) - Po(d*)), T. e. Pl (d) > Pi (d*), если P0(d) Po(d*). Мы теперь готовы перейти к общему случаю, т. е. отказаться от пред- положения (2.2.8). Опять рассмотрим функцию G: 5/oWz(/i(x) > kfo(x))dx или ^/0(х)/(/|(х) >kf0(x)). (2.2.11)
§2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона 305 Она по-прежнему монотонно не возрастает по k, непрерывна справа и име- ет левосторонние пределы. (Существует удобный термин французского происхождения «cadlag» (continue a droite, limits a gauche).) Также и урав- нение (2.2.9) остается верным. Однако разность G(k—) — G(k) может быть положительной, так как она равна интегралу или сумме $ /о(х)/(/1 (х) = kfo(x)) dx или £2 /о(х)/(/| (х) = kfo(x)), которые не обязательно стремятся к нулю. Значит, при заданном а е (0, 1) можно только гарантировать существование такого k = fe(a) > 0, что G(£—) >ос G(fc). Если G(k-) = G(k) (т. е. функция G непрерывна в точке k), то применимы предыдущие рассуждения. В противном случае положим Q = a - G(k) Р G(k-) - G(k)’ (2.2.12) Тогда р е [0, 1] и мы можем задать критерий Jnp формулой (2.2.6). (Если р = 0 или 1, критерий dw> является нерандомизированным.) См. рис. 2.1. G(k-) - G{k) - Рис. 2.1 Размер критерия Po(dNp) = $ fo(x)dNp (х) dx равен $ /о(х) > kfo(x)) dx + р 5 /о(x)/(/t (х) = fe/oW) dx = Остается проверить, что ^np является н. м. критерием размера не больше а. Это осуществляется так же, как и выше, поскольку неравен- ство (2.2.10) по-прежнему выполняется. Имеет место полезное следствие рандомизированной леммы Н—П.
306 Глава 2. Проверка гипотез Лемма 1. Если d(x) является н.м. критерием размера а = Po(d), то его мощность [3 = P|(d) не может быть менее а. Доказательство. Действительно, рассмотрим (рандомизирован- ный) критерий, у которого d*(x) = а. Для него Po(d*) = а = P|(d*). По- скольку d является н. м. критерием, мы получаем [3 > Р| (d*) = а. □ Критерий Н—П применим и для некоторых задач со сложными (т.е. не простыми) нулевыми гипотезами и альтернативами. Типичный пример сложной гипотезы: пусть © = R, Hq: 6 9о и Н\: 9 > 0о для некоторого заданного 9о. Довольно часто одна из гипотез Hq или Н\ является простой (например, Hq: 9 = 9о), а другая сложной (9 > 9о, или 9 < 9о, или 9 / 9о). В общем случае пара сложных гипотез задается как гипотеза Hq : 9 G ©о против альтернативы Н\: 9 G ©i, где ©о и ©] являются непересекающими- ся подмножествами параметрического множества ©. Для построения кри- терия нам необходимо опять выбрать такую критическую область С С R", что гипотеза Hq отклоняется, когда хе С. Как и в случае простых гипотез, вероятность Ре (С) = Ре (отклонить Hq), В е ©о, (2.2.13) трактуется как в. о. р. I. Аналогично вероятность Ро(С) = Ро(принять Hq), 9g©i, (2.2.14) трактуется как в. о. р. II, а Ре(С) = Ре(отклонить Hq), 9 G ©1, (2.2.15) трактуется как мощность критерия с критической областью С. Здесь все эти величины являются функциями от параметра 9, принимающего зна- чения либо в ©о, либо в ©|. (Уравнения (2.2.13) и (2.2.15) определяют фактически одну и ту же функцию 9 >-♦ Р0(С), рассматриваемую на паре взаимодополняющих друг друга множеств ©о и ©|.) Для постановки задачи мы используем ту же идею, что и ранее. А именно, фиксируем уровень значимости aG (0, 1) и ищем такой критерий (т.е. критическую область), что а) справедливо неравенство Р0(С) a, 0G ©о, (2.2.16) б) для любого критерия с критической областью С*, удовлетворяющей условию (2.2.16), выполняется неравенство Ре(С) > Р0(С*), 9g©i. (2.2.17)
§2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона 307 Такой критерий называется равномерно наиболее мощным (р. н. м.) кри- терием уровня а (для проверки гипотезы Hq: 0 е ©о против альтернативы Wj:9e©i). Важным понятием, относящимся к данной теме, является понятие се- мейства п. р. в./д. ф. р. /(•; 0), 0 6 0 С R, имеющих монотонное отно- шение правдоподобия (м. о. п.). Для такого семейства мы требуем, чтобы для любой пары 01, 02 G ©, 0| < 02, выполнялось соотношение лб2.е,(х) = = ё^'(Г(Х))’ (2.2.18) где Т — это действительнозначная статистика (т. е. скалярная функция, зависящая только от х) и gQ2^(y)— монотонно неубывающая функция (ge2,0i(у) ge2,ei(yf) при у у'). В этом определении мы также можем требовать, чтобы gQ2tQ{(y) являлась монотонно невозрастающей функцией от у\ здесь важно только то, что вид монотонности должен быть одним и тем же для любой пары 0j < 02. Пример 2.2.1. Гипергеометрическое распределение Hyp(/V, D, п). Предположим, вы рассматриваете множество из N изделий и выбираете из них для проверки п изделий случайным образом без возвращения, n<N. Если это множество содержит D W бракованных изделий, то число бракованных изделий в отобранной выборке имеет д. ф. р. /о(х) = °» х == тах(0> п + D - N], ..., min[D, п]. (2.2.19) Здесь 0 = 0. Отношение /d+i (х) _ 0+1 N - D - п + х fD(x) ~N-D D+l-x является монотонно возрастающим по х; следовательно, это семейство является семейством с м. о. п. и Т(х) = х. Гипергеометрическое распределение обладает рядом интересных свойств и находит применение в нескольких областях теоретической и прикладной теории вероятностей и статистике. В данной книге это распределение появ- ляется только в этом примере. Однако мы приведем здесь полезное уравне- ние для производящей функции распределения Es% с. в. X ~ Hyp(/V, О, п): р х _ (-£>)*(-«)* (1 - s)k В этой формуле 0 < max[n, D] < N и (a)k — это так называемый символ Покхаммера: (a)k = а(а + 1)... (а + k — 1). Ряд в правой части может быть
308 Глава 2. Проверка гипотез записан как 2^1 (-D, —п; — /V; 1 - s) или 2^1 где 2^1 — ги" пергеометрическая функция Гаусса. В [GriS2] дается другой (элегантный) способ вычисления производящей функции распределения Hyp(/V, D, п). Как это ни удивительно, но во многих книгах область, на которой зада- ется гипергеометрическое распределение (т. е. множество значений х, для которых [d(x) >0), представлена довольно противоречиво (что, возможно, забавно). В частности, левый конец (п + D — AQ+ = max[0, n + О — /V] часто даже и не упоминается (или, что еще хуже, заменяется нулем). В других случаях правый и левый концы интервала значений х появляются в конце концов как результат рассуждений, и создается впечатление, что они получаются в процессе вычислений (что по сути неверно). □ Пример 2.2.2. Биномиальное распределение Bin(/?, 9). В этом при- мере изделие после проверки возвращается обратно. Тогда /(х; 9) = С£9Х(1 -9)л-\ х = 0, 1, ...,и, где 9 = D/N € [0, 1 ]. Это семейство имеет м. о. п., и опять Т(х) = х. □ Пример 2.2.3. В общем случае любое семейство п. р. в./д. ф. р. вида /(х; 9) = C(9)W(x) exp[Q(9)/?(x)], где Q является строго возрастающей или строго убывающей функцией от 9, имеет м. о. п. Тогда L i J и правая часть монотонна по Т(х) = 52/?(xz). В частности, семейство нор- мальных п. р. в. с фиксированной дисперсией имеет м. о. п. (относительно 9 = р G R), та^ же как и семейство нормальных п. р. в. с фиксированным средним (относительно 9 = а2 > 0). Еще одним примером является семей- ство показательных п. р. в. /(х; 9) = 9е“0х/(х > 0), 9 > 0. □ Пример 2.2.4. Пусть X — это с. в. и рассматривается нулевая гипотеза Hq: Х~ N(0, 1) против альтернативы Н\ \ Х~ f(x) = |е“И/2 (двойное экс- поненциальное распределение). Нас интересует н. м. критерий размера а, а < 0,3. В этом случае находим, что f(x I \Н0) = СexpQ(x2 - И)). Следовательно, f(x | H\)/f(x | Hq) > К тогда и только тогда, когда х2 - |х| > > что, в свою очередь, выполняется тогда и только тогда, когда |х| > t или |х| < 1 - t для некоторого t > 1/2.
§2.2. Критерии отношения правдоподобия. Лемма Неймана—Пирсона 309 Мы хотим, чтобы значение а = Р//0(|Х| > /) + Р//0(|Х| < 1 - t) было меньше 0,3. Если t 1, то РНо(|Х| > t) > Р„0(|Х| > 1) = 0,3174 > а. Таким образом, чтобы получить а = Р„о(|Х|>/) = Ф(-/) + 1-Ф(О, нужно взять неравенство t> 1. Следовательно, / = Ф-1(1 -а/2), и критерий отклоняет гипотезу Hq, если |Х| > t. Мощность критерия равна РН1(|Х|>/) = 1-1 ^e~M/2dx = e-,/2. □ -t Следующая теорема распространяет лемму Н—П на семейства с м. о. п. для случая односторонней нулевой гипотезы Hq: 9 0о и односторонней альтернативы Н\: 0 > 0о. Пусть f(x; 0), 0 е R, — это семейство п. р. в./д. ф. р. с м. о. п. За- фиксируем 0о 6 R, k > 0, и выберем любое 0i > 0о. Тогда критерий проверки гипотезы Hq против альтернативы Н\ с критической об- ластью С = {х: /(х; 00 > Л/(х; 0О)} (2.2.20) является р. н.м. критерием с уровнем значимости а = Р0О(С). Это утверждение выглядит несколько неожиданным, поскольку роль параметра 0| не ясна. На самом деле, как мы увидим далее, значение 0| требуется только для определения критической области и размера а. Более точно, в силу м. о. п. множество С будет представимо в виде {/(*; 6')> W(*;9o)} для любого 0' > 0о при подобранном надлежащим образом £(0'). Этот факт будет играть решающую роль при доказательстве теоремы. Доказательство. Не теряя общности, предположим, что все функции gQ2 Qx в определении м. о. п. являются монотонно неубывающими. Отметим, во-первых, что в силу леммы Н—П критерий (2.2.20) является критерием Н—П размера не больше а = Р0О(С) для проверки простой нулевой гипотезы / = /(-;0о) против простой альтернативы / = /(.; 0|). Это означает, что Р0,(С) > Ре, (С*) для любого С* и Р0о(С*)^а. (2.2.21) В силу свойства м. о. п. критерий (2.2.20) эквивалентен критерию С = {х: Т(х)>с}
310 Глава 2. Проверка гипотез для некоторого значения с. Но тогда, опять в силу свойства м.о. п., для любого 9' > 9о критерий (2.2.20) эквивалентен критерию С = {/(х;9')>й(9')/(х;0о)} (2.2.22) для некоторого значения 6(9'). И вновь в силу леммы Н—П крите- рий (2.2.22) (а следовательно, и критерий (2.2.20)) является н. м. критерием размера не больше Р0О(С) = а для проверки простой нулевой гипотезы [ = 9о) против простой альтернативы / = /(-; 9')- Таким образом, Р0,(С) > Р0,(С*) для любых таких областей С*, что Р0О(С*) а. Другими словами, мы установили, что критерий (2.2.20) является р. н. м. критерием с уровнем значимости а для проверки простой нулевой гипотезы / = /(•; 9о) против односторонней альтернативы / = /(•; 9') для некоторого 9' > 9о. Формально говоря, Ро'(С) > Рв'(С*) при всех 9'>90 и Р0о(С*)^а. Но тогда это же неравенство будет выполняться и при дополнительном ограничении (относительно С*), что Р0(С*) а для всех 9 90. Этот факт и означает в точности, что критерий (2.2.22) (а, следовательно, и крите- рий (2.2.20)) представляет собой р. н. м. критерий с уровнем значимости а для проверки гипотезы Hq: 9 9о против альтернативы Н\: 9 > 9о- □ Анализируя доказательство, можно увидеть, что это же утверждение выполняется и в случае, когда в гипотезе Hq предполагается, что 9 < 90, а Н\ : 9 9о. Как и в случае простых гипотез, обратная задача (найти константы 9' > 9о, для заданного а е (0, 1)) требует рандомизации критерия. Имеет место соответствующее утверждение, гарантирующее су- ществование рандомизированного р. н. м. критерия с решающей функцией, принимающей не более чем три значения. § 2.3. Критерии согласия. Проверка гипотез для нормальных распределений. Однородные выборки Fit, Man, Test, Woman1 (Из серии «Фильмы, которые не вышли на большой экран».) Лемма Н—П и ее модификации являются скорее примерами тех ис- ключительных ситуаций, когда задача проверки гипотез может быть ре- шена эффективно. Другие (практически важные) примеры — это те, когда с. в. являются нормально распределенными. Для таких случаев проверка гипотез тоже проводится эффективно (хотя и в несколько неполной по- !Ср. название фильма «Eat, Drink, Man, Woman».
§2.3. Критерии согласия. Проверка гипотез для нормальных распределений 311 становие). Эта проверка основывается на теореме Фишера о том, что если Х\, ..., Хп — это выборка н. о. р. с. в. X, ~ М(ц, а2), то ^(Х — ц) ~ N(0, 1), ~ Хп-i и эти с- в- независимы. Здесь X = ^Х{/п и Sxx = £2(Х/ - X)2, см. § 1.5. Выборка /Х,\ Х = \ \ , где X, ~ NQ1, а2), \Х«/ называется однородной нормальной; неоднородные нормальные выбор- ки — это такие выборки, что X/ ~ N(p/, о2), т. е. параметры распределения с. в. X, различны при разных L Проверка гипотезы о среднем значении при неизвестной дис- персии. Рассмотрим однородную нормальную выборку Х = (Хь ..., Хп) и нулевую гипотезу Hq: pt = Цо с альтернативой Н\: pt / pto- Здесь pto — заданное число. Наш критерий будет основан на {-статистике Стъю- дента ____ у/н(Х цо)/о ____у/Л{Х Цо) (231) 1 ” V$xx/(n- 1)а2 где Sxx — выборочное стандартное отклонение (см. уравнение (1.4.2)). Согласно определению t-распределения в примере 1.1.3 (см. равен- ство (1.1.6)) T(X)~tn_\ при Hq. Здесь замечательно то, что для вычисления Т(х) не требуется знать а2. Следовательно, этот критерий будет работать 9 независимо от того, знаем мы о или нет. Следовательно, вполне естественно сделать заключение, что если при выполнении гипотезы Hq абсолютное значение |Т(х)| t-статистики Т(х) велико, то гипотезу Hq следует отклонить. Более точно, для заданного у 6 (О, 1) обозначим через trt_i (у) верхнюю у-точку (квантиль) t„_|-рас- пределения, определяемую как значение а, для которого Vt„_,Wdx = Y а (нижней у-точкой будет, конечно, -t„_|(y)). Тогда мы отклоняем гипоте- зу Hq, если при ц = Цо получаем, что |Т(х)\ > trt_i(a/2). Описанная процедура называется критерием Стъюдента или {-кри- терием (t-распределение также часто называют распределением Стью- дента). Критерий был предложен В. С. Госсеттом (1876—1937), британ- ским статистиком, который работал в Ирландии и Англии и писал под псевдонимом «Стьюдент» (англ. «Student»).
312 Глава 2. Проверка гипотез Госсетт работал на пивоварне Гиннесса, где отвечал за экспериментальное пивоварение (по образованию он был химиком). Находясь на этой должности, он провел учебный год в биометрической лаборатории К. Пирсона в Лондоне, где изучал статистику. Госсетт был известен как мягкий и застенчивый человек; ходила шутка, что он был единственным челове- ком, которому удавалось поддерживать дружеские отношения и с К. Пирсоном, и с Фишером одновременно. (Фишер был знаменит не только благодаря своим научным результатам, но также прославился как очень раздражительный и вспыльчивый человек. Когда ему предъ- являлись претензии (или даже просто вопросы в мягкой форме) по поводу противоречий или неясностей в изложенном или сказанном им, он зачастую приходил в ярость и покидал аудиторию. Однажды Тьюки (который и сам был знаменит своими «дерзостями») пришел в офис Фишера и затеял дискуссию относительно некоторых его суждений. Спустя пять минут, когда разговор стал накаляться, Фишер сказал: «Хорошо. А теперь Вы можете покинуть мой кабинет.» Тьюки ответил: «Нет, я этого не сделаю, потому что слишком Вас уважаю». «В таком случае», — отвечал Фишер, — «уйду я».) Вернемся к t-критерию: возникает вопрос, что же делать, когда |/| < trt_|(a/2). Ответ довольно дипломатичный: в этом случае гипотеза Hq не отклоняется при уровне значимости а (поскольку эта гипотеза будет все еще считаться консервативной). Можно использовать t-статистику также и для построения доверитель- ного интервала (д. и.) для pt (опять не имеет значения, известно о2 или нет). Действительно, в уравнении p(-tn_,(a/2) < < t„_t (a/2)) = 1 - a неравенства можно переписать относительно р: р (% - 1 (a/2) < р < X + -^Sxxin-1 (a/2)) = 1 - a. Здесь P обозначает на самом деле Рца2, распределение н.о. р. выборки с Xi ~ N(pt, а2). Это означает, что симметричный 100(1 - а)%-д. и. для pt имеет вид (% - -l=sxxin-iW, X + -±=sxxtn-i(<*/2)). (2.3.2) Some statisticians don’t drink because they are t-test totallers. Некоторые статистики не пьют крепкого только потому, что они зациклены на критерии Стьюдента1. (Из серии «Почему их не понимают».) Пример 2.3.1. Пусть необходимо проверить долговечность двух мате- риалов а и д, используемых для изготовления подошвы в женских туфлях. Каждой из 10 добровольцев была предложена смешанная пара туфель, где 1 Игра слов: tea-totaller — абсолютный трезвенник (пьет только чай), t-test totaller — абсолютный приверженец критерия Стьюдента.
§2.3. Критерии согласия. Проверка гипотез для нормальных распределений 313 одна подошва была изготовлена из материала а, а другая — из материала Ь. Износ (в соответствующих единицах) показан в таблице 2.1. Таблица 2.1 Доброволец 1 2 3 4 5 6 7 8 9 10 а 14,7 9,7 11,3 14,9 11,9 7,2 9,6 11,7 9,7 14,0 b 14,4 9,2 10,8 14,6 12,1 6,1 9,7 11,4 9,1 13,2 Разность 0,3 0,5 0,5 0,3 -0,2 1,1 -0,1 0,3 0,6 0,8 Предположив, что разности Xj, ..., Хю являются н. о. р. N(p, о2)-с. в. с неизвестными pt и а2, проверяют гипотезу Hq: [1 = 0 против альтернативы Н\: pi / 0. Здесь х = 0,41, Sxx = 52 х2 — их2 = 1,349 и t-статистика равна i t = 710 • 0,41/71,349/9 = 3,35. В случае критерия размера 0,05 гипотеза Hq отклоняется, так как t9(0,025) = 2,262 < 3,35, и приходят к заключению, что средний износ материалов а и b различен. Это t-критерий для парных сравнений, и 95%-доверительный интервал для среднего значения разности имеет вид / _ 0^. 2.262 2.2624 = \ УТб УТб / v Исторически изобретение t-критерия явилось важной вехой в развитии предмета статистики. В сущности, проверка аналогичной гипотезы о дис- персии нормального распределения является более простой задачей, так как мы можем использовать только статистику Sxx- Проверка гипотезы о дисперсии при неизвестном среднем. Возь- мем опять однородную нормальную выборку Х = (Х|, ..., Хп) и рассмотрим нулевую гипотезу Hq: а2 = против альтернативы Н\: о2 / Од, где о2 — это заданное значение. Как было сказано выше, критерий основан на статистике 4$хх = i ~ ~ при н°- <2-3-3> ао ао z- Следовательно, при заданном а 6 (0, 1) мы отклоняем гипотезу Hq в сим- метричном двустороннем критерии с уровнем а, когда значение Sxx/<5q либо меньше чем ft”_j(a/2) (что будет свидетельствовать в пользу того, что а2 < а2), либо больше чем (в этом случае более вероятно, что а2 > Од). Здесь и в дальнейшем А^(у) обозначает верхнюю у-точку (квантиль) распределения т-е- такое значение а, что оо $/x2(x)dx = Y.
314 Глава 2. Проверка гипотез Аналогично hm(y) — это нижняя у-точка (квантиль), т.е. значение а, для которого а 5/X2(x)dx = Y; О как было отмечено выше, hm(y) = й+(1 — у)» 0 < у < 1. Здесь и далее мы обозначаем через /^(х) п. р. в. ^-распределения с т степенями свободы. Этот критерий называют нормальным критерием /2. Его применение никак не связано со значением р, которое может быть известным или неизвестным. Нормальный критерий /2 позволяет построить доверительный интервал для а2 независимо от того, знаем мы pi или нет. А именно, перепишем равенство Р (<х/2) < ^Sxx < h+n_{ (а/2)) = 1 - а в виде $ХХ < Q2 < $ХХ а (здесь под Р подразумевается Рцст2, выборочное распределение для Xi ~ ~ N(pi, а2)). Тогда очевидно, что симметричный 100(1 - а)%-д. и. для а2 имеет вид ( $хх $хх А (2.3.4) Пример 2.3.2. Менеджер нового телефонного центра желает удосто- вериться, что время ожидания клиентами ответов на свои звонки не явля- ется слишком длительным. Выборка, состоящая из 30 звонков в дневное бизнес-время, приводит к значению среднего времени ожидания, равно- му 8 секундам (что считается приемлемым). В то же время, выборочное значение Sxx/(n — 1) равно 16, что значительно превосходит значение 9, полученное для других телефонных центров. Менеджер проверяет гипотезу Hq \ а2 = 9 против альтернативы Н\: а2 > 9 в предположении, что времена ожидания ответа на звонок являются н.о. р. N(pi, а2)-с. в. (идеализиро- ванная модель). Воспользуемся критерием /2. Мы имеем Sxx/a2 = 29-16/9 = 51,65. Для а = 0,05 и и = 30 верхняя а-точка Л+_](а) равна 42,56. Следовательно, при уровне 5% мы отклоняем гипотезу Hq и заключаем, что дисперсия в новом телефонном центре превосходит 9. Доверительный интервал для а2 имеет вид так как (0,025) = 45,72 и h + (0,975) = 16,05. □
§2.4. Критерий Пирсона /2. Теорема Пирсона 315 Оба критерия, t-критерий и нормальный критерий х2, являются при- мерами так называемых критериев согласия. Здесь нулевая гипотеза Hq соответствует «узкому» подмножеству ©о параметрического множества ©. В примерах 2.3.1 и 2.3.2 это подмножество представляло собой полупря- мую {pi = pio, а2 > 0 произвольное} или всю прямую {pi Е R, о2 = а^}, лежащую на полуплоскости © = {pi е R, а2 > 0}. Нужно найти статистику критерия (в этих примерах—Т или Sxx). имеющую «стандартное» рас- пределение при Hq. Тогда мы отклоняем гипотезу Hq при заданном уровне значимости а, если значение статистики не попадает в область высокове- роятных значений, определенную для этого а (см. рис. 2.2). Такая область была интервалом (а/2), tn_,(a/2)) для t-критерия и интервалом для х2-критерия. В этом случае говорят, что данные значимы на уровне а. В противном случае данные не считаются значимыми и гипотеза Hq не отклоняется. __________________flll[IlTnTTiiTn| » Лл_|(1 — а/2) Лл_|(а/2) Рис. 2.2 § 2.4. Критерий Пирсона х2. Теорема Пирсона Statisticians do it with significance. Статистики делают это со значением. (Из серии «Как они делают это».) Исторически идея построения критериев согласия для проверки гипотез восходит к Пирсону и датируется 1900 г. Свое дальнейшее развитие эта идея получила в 1920-е гг. в виде так называемого критерия Пирсона хи-квадрат, или критерия Пирсона, или у^-критерия, который ос- новывается на хи-квадрат статистике Пирсона, или статистике Пирсона, или х2-статистике. Характерной чертой критерия Пирсона
316 Глава 2. Проверка гипотез является его «универсальность» в том смысле, что он может быть ис- пользован для проверки гипотезы о принадлежности случайной выборки X вероятностному распределению с любой заданной п. р. в./д. ф. р. Гипотеза отклоняется, если значение статистики Пирсона не попадает в интервал высоковероятных значений. Универсальность проявляется в том, что фор- мула для статистики Пирсона и распределение этой статистики не зависят от вида проверяемой д. ф. р./п. р. в. Однако мы платим за это: критерий является только асимптотически точным, когда объем выборки п стремит- ся к оо. Предположим, что мы проверяем гипотезу о том, что н. о. р. выборка X = (Xi, ..., Хп) принадлежит вероятностному закону с п. р. в./д. ф. р. /°. Разобьем пространство R значений с. в. X/ на k непересекающихся мно- жеств (например, интервалов) Dj, ..., и вычислим вероятности р?=§/°(*мх или 52 f0^- <2-41> Di D, Нулевая гипотеза Но состоит в том, что для любого I вероятность Р(Х/ GO/) равна значению р^, заданному формулой (2.4.1). Альтернативой здесь является утверждение, что эти вероятности произвольные (но такие, что р/ 0 и Pj + ... + р* = 1). Для х= (xj, ..., хп) /2-статистика Пирсона определяется как & / ч2 = (2.4.2) /=1 1 где и/ (= л/(х)) — это число значений jq, попавших в множество О/, и П\ 4-... 4- rik = и, а в/ = пр^ — это среднее значение при гипотезе Hq. Символ Р используется в честь Пирсона. Пусть задано аЕ (0, 1), тогда мы отклоняем нулевую гипотезу при уровне значимости а, если значение к статистики Р превосходит Л^_|(ос), верхнюю а-квантиль /^-распреде- ления. Обоснование этого метода — следующая теорема Пирсона. Предположим, что Х|, Х2, ... —это последовательность н.о.р. с. в. Пусть D\, ..., Dk — это разбиение пространства R на попарно непересекающиеся множества. Положим qi = Р(Х, е £>/), где pi 4-... 4- qk = Г Затем для любого I = 1, ..., k и п^ 1 определим Ni,n = число с. в. Xi среди таких Х\, ..., Хл, что Xi е О/, где N^n 4-... 4- Nk,n = п, и Рп=^ (N,'nnq"qi}i (2.4.3)
§2.4. Критерий Пирсона /2. Теорема Пирсона 317 Тогда для любого а > 0 выполняется равенство lim Р(РП > а) = /у2 (x)dx. (2.4.4) п—»ОО J а Доказательство. Воспользуемся тем фактом, что соотноше- ние (2.4.4) эквивалентно сходимости характеристических функций ф/>я(/) = = EeltPn: lim фРя(/)= § f^2 ^x)eltxdx, t е R. (2.4.5) n->o° 0 Положим Г/.я = N,n^qt, так что Pn^Yl (2.4.6) И k / \ 52-nq'} = Tfa[52Ni-n_"52^')=0- <2-4-7) /=1 Yn l Vn\ j j / Наша цель — определить предельное распределение случайного век- тора fYln\ Yn = ! . Возьмем единичный вектор (Jq\\ I Vw и рассмотрим действительную ортогональную матрицу А размера k х k с fe-м столбцом х. Такая матрица всегда существует: нужно просто допол- нить вектор х до ортогонального базиса в R* и использовать этот базис в качестве столбцов матрицы А. Рассмотрим случайный вектор / zn = ; , / определяемый равенством Zn=ATY,
318 Глава 2. Проверка гипотез Его последний элемент обращается в нуль: k k Zk.n = Y У1мА1л = Y Yi.ny/oi = 0. /=1 /=1 В то же время, в силу ортогональности матрицы А мы имеем k k-\ Pn = YZb = YZ^- (2-4-8) /=1 /=1 Формула (2.4.7) демонстрирует структуру с. в. Рп. Мы видим, что для доказательства предельного соотношения (2.4.4) достаточно проверить, что с. в. Zu, ..., Zk-\,n будут асимптотически независимыми N(0, 1)-с. в. Вновь используя х. ф., достаточно проверить, что совместная х. ф. сходится к произведению: 6-1 lim = ГТ е~‘^/2. (2.4.9) п—*оо А А /=1 Чтобы доказать соотношение (2.4.9), вернемся к с. в. Nitfl. Запишем Р(^,п = nk) = • • •# для любых таких неотрицательных целых чисел ди, ..., п*, что П\ 4- ... ... 4- rik = п. Тогда совместная х. ф. имеет вид ' 52 Ее ' = V П\\ Л| пк: У rii=n i Переходя к величинам У1Л, ..., *Y ~i> Ее 1 =е и In Ее ' =nln( '/=i ="'"О+ 4 V /=1 „1 / * \n ' =\Yqie‘,,j Yk,n, находим 4=i ' ) -'V«y ^л/о7 = ' / - Y +°(«-3/2)^ - Yti^1 = = -^У ti + UY ti'^4 +o(n~,/2) /=1 '/=1 ' в силу разложения Тейлора.
§2.4. Критерий Пирсона /2. Теорема Пирсона 319 При п —► оо полученное выражение сходится к k-\ Ai\ -|ни12+|(д^=-5ИМ2+|(л^=-|Е<лГ^ *= И ёкя. /=1 W Здесь А — это введенная выше ортогональная матрица размера k х k, для которой Ат = А~[, и ||-||2 обозначает квадрат нормы (или длины) вектора из Ж* (так что ||/||2 = 52 и IH^H2 = 52ИГО?)- / / k Следовательно, поскольку (/, Yn) = 52 мы получаем /=1 k-\ lim Ее/('’Уя) = ГТ е”(лГ°//2. (2.4.10) п—>оо /=1 Тогда для с. в. Z/trt в тех же обозначениях имеем *52 hZi.n т £е i _ ^ei(t,Zn} = ^ei(t,ATYn) = Eei(At,Yn) В силу равенства (2.4.9) последнее выражение должно сходиться при п —* оо к е-(ДГЛП?/2 = ]р-'?/2. /=1 /=1 Подчеркнем еще раз, что /2-критерий Пирсона становится точным только в пределе при п —► оо. Однако, поскольку скорость сходимости до- статочно высока, этот критерий используют и при умеренных значениях и, обосновывая это ссылкой на теорему Пирсона. Интересно отметить, что К. Пирсон был также крупным ученым в области философии. В его книге «Грамматика науки» (1891 г.) дано яркое изложение научной философии венской школы конца XIX в. Критический обзор этой книги был дан в работах Ленина (которые оба автора данного задачника должны были изучать в студенческие годы). Однако Ленин проводил четкое различие между Пирсоном и Махом, являвшимся основным представителем этого философского течения (и выдающимся физиком того времени), и определенно считал Пирсона выше Маха. Пример 2.4.1. В своих знаменитых экспериментах Мендель скрестил 556 мужских растений круглого желтого гороха с женскими растениями морщинистого зеленого гороха. В полученном потомстве мы обозначим A/j = число круглых желтых горошин, Л/2 = число круглых зеленых горошин, Л/3 = число морщинистых желтых горошин, Л/4 = число морщинистых зеленых горошин
320 Глава 2. Проверка гипотез и рассмотрим следующую нулевую гипотезу о значениях пропорций: и . ( \ ( 9 3 3 1 \ Но- (Pl, Р2, РЗ, Pi) - (j6, 16> 16> 16J, как это предсказывает теория Менделя. Альтернатива состоит в том, что 4 Pi любые, но pi 0 и Pi = 1- /=1 На основании наблюдений было получено, что (п\, п,2, пз, п4) = (301, 121, 102, 32) и е = (312,75; 104,25; 104,25; 34,75), Р = 3,39888, а верхняя 0,25-точка равна й^(0,25) = 4,10834. Следовательно, у нас нет оснований отвергнуть предположение Менделя, даже при уровне 25%. Отметим, что рассмотренная выше нулевая гипотеза о том, что f = fQ, полностью задает вероятности р®. Во многих случаях нужно следовать менее точной нулевой гипотезе о том, что р® принадлежит некоторому заданному семейству {р^(0), 0е@}. В этой ситуации применяем описанную процедуру, после того как оценим значения параметра по той же самой выборке. Это означает, что х2-статистика вычисляется в виде ?(*) = £ V • (2.4.11) /=1 1 где в/ = np®(Q) и 0 (= 0(х)) — это оценка параметра 0. k Обычно в качестве 0 берут о. м. п. Тогда значение к= 52(п/“ ^)2/^ /=1 статистики Р сравнивают не с ft^_j(a), а с где |©|— это раз- мерность множества О. Таким образом, при уровне значимости a G (0, 1) мы отклоняем гипотезу Hq: р® принадлежит семейству {pf(0), 0 е О}, если к> й^_!_|е|(а). (Обычно значение й^ (ос) выше, чем й^(а) при k\ > Й2-) Такая процедура основывается на модифицированной теореме Пирсона, которая аналогична приведенной выше. □ § 2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса Silence of the Lambdas1 (Из серии «Фильмы, которые не вышли на большой экран».) Идея об использовании о. м.п. для вычисления статистики критерия получает свое дальнейшее развитие при рассмотрении так называемого 1 Ср. название фильма «The Silence of the Lambs».
§2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса 321 критерия обобщенного отношения правдоподобия. В этом случае рассмат- ривают нулевую гипотезу Hq о том, что 0 е ©о» где ©о С ©, и общую альтернативу Н\: 0 е ©. Частным примером является случай Hq\ f = /(0), когда точно заданы вероятности p^ = P(D/); в этом случае © — множе- ство всех возможных д. ф. р. (pi, рД а ©о сводится к одной точке (Р|0), р^0)). Более общим является случай, когда р^ зависят от пара- метра 0. Будем действовать аналогично предыдущему: рассмотрим макси- мумы тах[/(х; 0): 0 е ©о] и тах[/(х; 0): 0 е ©] и введем их отношение (которое будет не меньше 1): л , . _ тах[/(х;0):0е©] . п - тах[/(х; 0): 0 е ©о] ’ (2 51) Отношение называют обобщенным отношением правдоподобия (о. о. п.) для Hq и Н\; иногда знаменатель называют правдоподобием гипотезы Hq, а числитель — правдоподобием гипотезы Н\. В некоторых случаях распределение о. о. п. Л/у, ;/у0 можно найти. В об- щем случае вводят величину /? = 21пЛн1;н0(Х). (2.5.2) Тогда если при заданном осе (0, 1) значение г величины R в формуле (2.5.2) превосходит верхнюю точку йр(а), то при уровне а гипотезу Hq отклоня- ют. Здесь число степеней свободы р распределения х2 равно разности |©| — |©о| размерностей множеств © и ©о. Описанная процедура называется критерием обобщенного отно- шения правдоподобия (к. о. о. п.) и основывается на теореме Уилкса, которая является обобщением теоремы Пирсона об асимптотических свой- ствах х2-статистики. Неформально это теорема состоит в следующем. Пусть Х — (Х\, ..., Хп) — случайная выборка с н. о. р. компонента- ми Xi и с п.р. в./д. ф. р. f(-\ 0), зависящей от параметра 0 е©, где © — это открытая область размерности |©| в евклидовом простран- стве. Предположим, что о. м. п. 0(Х) является асимптотически нор- мальной с. в. при п —► оо. Зафиксируем подмножество ©о С © так, чтобы ©о было открытой областью в евклидовом пространстве меньшей размерности |©о|- Пусть нулевая гипотеза Hq состоит в том, что 0 Е ©о- Тогда (как в теореме Пирсона) при выполнении ги- потезы Hq с. в. R, заданная формулой (2.5.2), имеет асимптотически 11 — 1104
322 Глава 2. Проверка гипотез ^-распределение с р = |0| — |©оI степенями свободы. Более точно, для любых 6 е 0о и h>0 справедливо равенство lim Ре(/? > й) = fyC2(x)dx. П-^OQ J h Существует также вариант теоремы Уилкса для независимых, но неоди- наково распределенных с. в. Х\, Х%, ... Эта теорема была названа в честь С. С. Уилкса (1906—1964), американского статистика, который некоторое время работал вместе с Фишером. Мы не будем доказывать теорему Уилк- са, но проиллюстрируем ее роль в нескольких примерах. Пример 2.5.1. Один простой пример — это случай, когда Xi ~ N(p, а2), где дисперсия а2 известна или неизвестна. Предположим сначала, что дис- персия известна. Как и в предыдущем параграфе, фиксируем значение pto и проверим гипотезу Hq: pi = pi0 против альтернативы Н\: pi / pto- Тогда при выполнении гипотезы Н\ значение х является о. м. п. для pi и тах[/(х; pi): pi где Sxx = - х)2, / в то время как при выполнении гипотезы Hq мы имеем /(Х; Ио)=(у'2£а)"еХР(-*Ю’ где i Следовательно, 2 In Лн,;«0 = (Е20 - Sxx) = - |i)2 ~ Xi• В этом примере величина 2 In Л//|://0(Х) имеет в точности /2-распределение (т. е. утверждение теоремы Уилкса выполняется точно, а не асимптотиче- ски). Согласно к. о. о. п. мы отклоняем гипотезу Hq при уровне а, если 21пЛ//1;//0(А:) превосходит й+(а), верхнюю а-квантиль /^-распределения. Это эквивалентно тому, чтобы отвергать гипотезу Hq, когда |х — у^у/п/а превосходит z+(a/2), верхнюю a/2-квантиль нормального N(0, 1 ^распре- деления.
§2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса 323 Если дисперсия а2 неизвестна, нужно использовать о. м. п. о2, которая равна Eg^/n при Hq и Sxx/n при Н\. В этой ситуации а2 рассматривается как мешающий параметр: он не входит в нулевую гипотезу, однако все же должен приниматься во внимание. Тогда при Н\ имеем тах[/(х; а2): И е R, а2 > 0] = (2n5J/n)n/2e-"/2, а при Hq имеем тах|/(х; |«. а2) о’>0| = Следовательно, и мы отклоняем гипотезу Hq, когда п(х — (1о)2/5Хх велико. Но это вновь в точности совпадает с t-критерием, и у нас нет необходимости привлекать теорему Уилкса. Мы видим, что t-критерий можно рассматривать как (важный) пример к. о. о. п. □ Пример 2.5.2. Пусть теперь (1 известно и мы проверяем гипотезу Hq: а2 = og против альтернативы а2 / ag. Оценка максимального прав- доподобия для а2 равна Е2/и, где Е2 = — [1)2. Следовательно, при Н\ имеем max[f(x; р, а2): а2 > a тогда при Hq имеем /(ж;11,а2) = ?^72ехр[-^Е2], а _ (Пао\п/2 Г п _1_ Е21 Awi;w0-^e2J ехр|^ 2 + 2cqJ И _v*2 v2 v*2 „—2 2 In Л/у|Л) = n In -JL- - n + -J- = —n In —? + —-5 = Zu qq по0 o0 = _л1п(1 + Е^) + Е^_ \ nag J ag Мы знаем, что при Hq Е2/а2 ~Хи- ® силу ЗБЧ отношение Е2/и при Hq сходится к E(%i - (л)2 = VarXj = ag. Следовательно, при больших п от- ношение (Е2 — nag)/nag близко к 0. Воспользуемся разложением Тейлора п*
324 Глава 2. Проверка гипотез для логарифма и найдем [V2 ^z,.2 1 / V2 ~~2 \ 2-1 V2 ~~2 +£_Z_2£o = nag 2 \ nag 7 J og _ n /S2 - hqq\2 _ / £2 - nap \ 2 "П no* 7 \ ) * Следующий факт состоит в том, что в силу ЦПТ при я —► оо выполняется условие V2 и/т2 £ _2g° ~ N(0, 1), V2"CTo поскольку с. в. Е2(Х) представляет собой сумму н. о. р. с. в. (X, — pi)2 с Е(Х, - pi)2 = а2 и Var(X, - pi)2 = 2oq. Следовательно, при Hq и п оо имеем (V2 \ 2 ~7--° I ~Х?> т-е- 21пЛн,;н0~Х|- что согласуется с теоремой Уилкса. Мы видим, что при больших п к. о. о. п. состоит в том, чтобы отверг- нуть Hq при уровне а, когда Конечно, в этой ситуации есть лучший способ действий: можно использо- вать тот факт, что Е2 2 ^~Хп- ао Следовательно, мы отклоняем гипотезу Hq, когда E2/qq > Л+(а/2) или E2/qq < ft7(a/2). Здесь используется та же статистика, что и в к. о. о. п., но с другой критической областью. С другой стороны, можно рассмотреть ао п _ где Sxx = Z2№ “ А)2. В этом примере нормальный критерий х2, который z=l предписывает отвергнуть Hq, если -^Sxx > (<х/2) или -^Sxx < (сс/2), ао ао опять является более точным, чем к. о. о. п.
§2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса 325 Аналогичным образом исследуется и случай, когда Hq: о2 = и Н\: а2 / Qq, а (1 неизвестно (т. е. является мешающим параметром). В этом случае р. = х, а2 = Sxx/n, при Н\ имеем при Hq имеем тах[/(х; о2): И 6 R, о2 > 0] = тах[/(х; р. <^): Ц б R] = exp(-^2S«). и статистика о. о. п. имеет вид л„1Я.= Мы видим, что велико, когда Sxx/ao велико или близко к 0. Сле- довательно, согласно к. о. о. п. гипотеза Hq отклоняется, если Sxx/Qq «либо велико, либо мало. Но Sxx/ao~Xn-r В этом пРимеРе стандартный крите- рий х2 и к. о. о. п. приводят к использованию одних и тех же таблиц (однако работают с разными критическими областями). □ Еще одним аспектом к. о. о. п. является его связь с критерием Пирсо- на х2- Рассмотрим нулевую гипотезу Hq: pi=pj(Q), 1 для некоторого параметра 0 G ©о, где множество ©о имеет размерность (число независи- мых координат) |©о| = kQ < k — 1. Альтернативная гипотеза Н\ состоит в том, что вероятности р/ являются произвольными (лишь с тем ограниче- нием, что р,0 и 52 р, = 1). / Пример 2.5.3. Предположим, что имеются с. в. Х\, ..., Хт ~ N(px, а^) и У|, ..., Yn ~ N(piy, а2), где все параметры pix, Рг и aY неизвестны. Пусть гипотеза Hq состоит в том, что а2 = а2, а гипотеза /Л состоит в том, что > а2. Необходимо построить к. о. о. п. и определить распределение соответствующей статистики. В этом случае Lxy(H0) - max[fx(x; о2)/у(у; Цу, о2): € R, [1у б R, о > 0] = [1 ( Sxx 4“ Syy \ л! ехр I—ы~) ° > °] • Отметим, что для g(x) = xae~bx, где а, b > 0, выполняется равенство Следовательно, / ш \ _ ______J_____-(т+л)/2 а2 _ $хх 4- Syy ^(Wo)- (2лд2)И+я)/2е ’ °0- т+п •
326 Глава 2. Проверка гипотез Аналогично при Н\ имеем Lxy(H\) = тах[Д(х; [Дх, о|)/у(«/; цу, <тр): цх, ру€Й, о%, оу>0] = _________!_________р-(т+п)/2 (2да2)”/2(2ла2)"/2 где д2х = Sxx/m, а2 = Syy/n (при условии, что д2х > д2у). В результате получаем, что Sxx если — т то л = (Sxx + Syy){т+п}/2 (Sxx Гт/2(Syy~п/2 п ' \ т + п ) \ т ) \ п ) а если — —, то Л = 1. т п Далее, если |^>-,то21пЛ = с + /(|^\ ^уу п X Ьуу ' Здесь [(и) = (т + п) ln( 1 + и) - т In и, а с — константа. Находим далее, что г'/.л _ т + п т _ пи ~ т ' (U’ ~ 1 + и “ 7 ” и(\ + и)’ т. е. f возрастает, когда растет и > т/п. Следовательно, мы отклоняем гипотезу Hq, если Sxx/Syy велико. При гипотезе Hq имеем 9 9 9 Sxx 9 Suu 2 = ay = cr и ~ Xm-1 ’ ~ Xn-1 ’ и эти величины независимы. Следовательно, SXx/(m — 1) р г—। Пример 2.5.4. Пусть заданы k + 1 вероятностей pq, ..., pk. Нулевая гипотеза Hq состоит в том, что эти вероятности имеют вид р,(6) = С‘Л0'( 1 - О s; Z о, где 0 е (0, 1). (Здесь |©о| = 1-) Альтернатива Н\ состоит в том, что эти вероятности образуют ^-мерное многообразие. Оценка максимального правдоподобия при Hq максимизирует сум- k му 52 ni 1пр/(0), где rii — это число появлений значения z, z = 0, ...,£. /=° а Пусть 0 — точка максимума. Простые вычисления показывают, что при
§2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса 327 выполнении гипотезы Hq мы имеем 0 = ^52 / (fen). При выполнении гипотезы Н\ о. м. п. — это Д = n-Jn, где п = по + ... + пь. Получаем сле- дующее выражение для логарифма о. о. п.: k Пр? 21пЛ = 21пт^------ П(Р/(9))л' /=0 =2 57 п> in п, пр,(В) Число степеней свободы равно k + 1 - 1 - j€>o| = k — 1. Мы отклоняем гипотезу Но. когда 21пЛ > /£_,(«). Запишем лр,(0) = е,. 8, = л, - е,, 0 < i < k, где 228, = 0. С помощью простых вычислений получаем ' 2 In Л = 257п< *п ~ = 257(ei + &0 In (1 + ~ i i i Это в точности х2-статистика Пирсона. □ Следует сказать, что, вообще говоря, к. о. о. п. остается универсальным и мощным средством для проверки согласия. Мы рассмотрим два примера, где этот критерий используется для проверки гипотезы однородности для неоднородных выборок. Пример 2.5.5. Пусть Х|, ..., Хп — независимые случайные величины, Xi ~ Ро(Х/) с неизвестным средним Xz, i = 1, ..., п. Требуется найти ста- тистику обобщенного отношения правдоподобия для проверки гипотезы Hq : =... = Хп и показать, что это выражение можно аппроксимировать п _ _ _ п величиной Z = 52 (X/ - Х)2/Х, где X = и"1 52 X*- Принимается ли гипоте- /=1 /=1 за Hq, если для п = 7 получено значение этой статистики, равное 26,9? Решение. Если Xz ~ Po(Xz), то п \Xi Ы«;Х) = П^е-х'. /=1 При Но о. м. п. X параметра X — это х = 22х,/л, а при Hi мы имеем X, =х,-. Тогда о. о. п. имеет вид ' Л//, ;//„(*) = /(х;Х.......Х„) V ' /(х;Х) П*х' i
328 Глава 2. Проверка гипотез И 21пЛ//|Лв(х)=2^х,1п^=2^[х+(х(-х)]1п(1 + ^)«^^^, i i i поскольку ln( 1 + x) « X - X2/2. Наконец, нам известно, что для 2~Хб выполняются равенства EZ = 6 и VarZ = 12. Значение 26,9 оказывается слишком большим. Таким обра- зом, нам следует отклонить гипотезу Hq. □ Пример 2.5.6. Предположим, что задан набор пр независимых слу- чайных величин, представленных в виде п выборок, каждая длины р: = (Хц, .... Х1р). Х(2) = (Х2|, Х2р), Xw = (Xn........,Хпр). Случайная величина Хц имеет распределение Пуассона с неизвестным па- раметром Х7, 1 Требуется проверить гипотезу о том, что Х| =.. . = ХР, против альтернативы, что хотя бы два значения Х7 различны, выписать выражение для статистики критерия отношения правдоподобия, показать, что ее можно аппроксимировать величиной р J W где и объяснить, как проверяется гипотеза однородности при больших п. В этом примере правдоподобие достигает максимума при X = х, если гипотеза Hq справедлива, и это максимальное значение пропорционально величине е-прххпрх. При спра- ведливости гипотезы Н\ мы имеем Х7=х7 и максимальное значение про- _ - Р порционально произведению е прх Ц х- Следовательно, Ля1;«о = ^П^- /=1
§2.5. Критерии обобщенного отношения правдоподобия. Теорема Уилкса 329 Мы отклоняем гипотезу Но, когда 2 In Л/у,;/у0 принимает большие значения. Далее находим, что In Л//ь//0 имеет вид - npxlnx = п У^(х/ In Ху — X/ In х) L / = « + - х)1п(—— L / = п У?(х + xj ~х) 1п(1 + Х/- L / При выполнении гипотезы Но мы имеем nXj ~ Ро(лХ) и прХ ~ Ро(лрХ). В силу ЗБЧ обе величины Xj и X сходятся к константе X, следовательно, (Xj — Х)/Х сходится к 0. Это означает, что для достаточно больших п можно взять в качестве хорошей аппроксимации логарифма его разло- жение до первого порядка включительно. Следовательно, если п велико, то 21пЛ//ь/70 приближенно равно (X/ - X)2 X i=\ Заметим, что отношения У/л = (X/ - Х)/\/Х напоминают отношения У/л из определения (2.4.6). На самом деле можно проверить, что при п оо мы имеем x/n^-^~N(0, 1). vX (Это составляет основную часть теоремы Уилкса.) Как и в уравнении (2.4.7), величины У/л удовлетворяют линейному соотношению р _ _ 52Г/.П<Х = 22(Х/-Х) = О. /=1 /=1 Аналогично доказательству теоремы Пирсона при п оо получаем 21пЛЯ|До~Хр-1- п Завершая этот параграф, мы приведем пример типичного вопроса в стиле кембриджских «Математических треножников». Пример 2.5.7. Что понимают под критерием обобщенного отношения правдоподобия? Подробно объясните, как применять такой критерий. Решение. Критерий обобщенного отношения правдоподобия предна- значен для проверки гипотезы Но: 6 6 ©о против общей альтернативы
330 Глава 2. Проверка гипотез Н\: 0 е 0, где ©о С 0. При этом используют о. о. п. л м = тахИ(х; 0): е е е] = Г. > тах[Дх; 9): 9ее0]’ Д I : \хл/ Критерий обобщенного отношения правдоподобия отклоняет гипотезу Hq при больших значениях Если случайная выборка X имеет н. о. р. компоненты Х\, ...,Хп и п велико, то при Hq мы имеем 2 In Л//1;//0(Х) где число степеней свободы р = |0| - |0О| (теорема Уилкса). Следовательно, для заданного ос е (0, 1) мы отклоняем гипотезу Hq с помощью критерия размера а, если 21пЛ//,;//0(х) >й+(а). □ Интересно заметить, что к. о. о. п. был предложен Ю. Нейманом и Э. Пирсоном в 1928 г. Однако лемма Н—П была доказана лишь в 1933 г. § 2.6. Таблицы сопряженности признаков Статистики делают это при помощи таблиц, если могут. (Из серии «Как они делают это».) Распространенным примером применения к. о. о. п. является случай, когда пытаются проверить независимость различных «категорий» или «признаков», приписываемых нескольким типам индивидуумов или вещей (объектов). Пример 2.6.1. Проводится IQ-тест (IQ — intelligence quotient — ко- эффициент умственного развития) с целью приблизительно классифици- ровать людей по трем категориям согласно уровням: превосходный (А), хороший (В), посредственный (С). Тестирование проводилось в трех вы- бранных районах в Андлии, Гельсе и Грогландии, и число людей, получив- ших степени А, В и С соответственно, представлено в табл. 2.2. Таблица 2.2 Район А В С Всего П[+ Андлия 3009 2832 3008 8849 Гельс 3047 3051 2997 9095 Грогландия 2974 3038 3018 9030 Всего 9030 8921 9023 26974 Требуется построить к. о. о. п. для проверки независимости этой клас- сификации.
§2.6. Таблицы сопряженности признаков 331 Здесь значения е,; = n^n+j/n++ равны 2962,35 2926,59 2960,06 3044,7 3007,95 3042,34 3022,94 2986,45 3020,6 Значение статистики Пирсона (которая определена ниже формулой (2.6.3)) равно 4,56828 + 1,29357 + 1,68437 = 7,54622, и число степеней свободы равно (3 — 1) • (3 — 1) = 4. При уровне 0,05 находим, что (0,05) = 9,488. Следовательно, при таком уровне (а тем более при уровне 0,01) нет оснований отклонить гипотезу о том, что все группы однородны. □ В общем случае задана таблица сопряженности признаков с г стро- ками и с столбцами. Пусть р^ — это вероятность того, что объект /-го типа попадает в категорию /, или имеет признак /; независимость означает, что рц имеет вид ot/P;, где г с ;=1 /=1 Это составляет нашу нулевую гипотезу Hq. Альтернативе Н\ соответствуют г с общие ограничения р/;- > 0 и ^2 52 Р'ч — 1- Положим /=1/=! Р<+=52^7» = И ^++ = Pi+ ~ P+j1 / i i i (эти обозначения сложились исторически). В основе примера 2.6.1 лежит следующая модель: имеется п объектов или индивидуумов (26974 в этом примере), и л/; из них попадают в ячейку (/,/) таблицы, так что ^2Ш] = п. (Сравнивая с примером 2.2.1, видим, ч что мы имеем дело с моделью выбора с возвращением, которая обобщает пример 2.2.2.) Положим riij, n+j = пч и «++ = / ‘ ' / Случайные величины имеют совместное мультиномиальное распре- деление с параметрами (л; (р,/)): Р (Ы„ = п„ Vi, j) = п! П (2-6.1) Y^ni+=zLn+i=n. п‘+=К
332 Глава 2. Проверка гипотез (Pij часто называют «вероятностями ячеек»). Нетрудно распознать здесь основания для применения к. о. о. п., где |0|| = гс — 1 (так как р++ = 1) и |©о| = г — 1 + с - 1, следовательно, lej-ieolMr-iMc-i). При выполнении гипотезы Н\ о. м. п. для рц равна рц = п-ц/п. Дей- ствительно, для любых таких Пц, что гг++ = и, д. ф. р. (т. е. правдоподобие) равна Ам7)((«<7); (рц)) = «! П Hi]. Ч и логарифм правдоподобия равен ^((«</); (Pi/)) = 52 n‘iln P‘i + |п<л!) _ 52 ln(rt,7!)- 4 4 Необходимо максимизировать £ no рц при ограничениях р<7>°, 52^/ = ’• ч Пренебрегая выражением ln(rt!) - £W), ч выпишем функцию Лагранжа £=52 n‘i|п рч ~х (52 рч -1\ Ч \ ч J Ее максимум достигается, когда для любых /, j выполняется равенство /-С = ^ - х = о, dpij Рц т. е. когда рц = Пц/\. Принимая во внимание ограничение = 1, находим X = п. При выполнении гипотезы Hq о. м. п. для а, равна dz =nz+//i; о. м. п. для р; — это — Действительно, в этом случае правдоподобие равно (а,), (₽/)) = л! П = п' П а"'+ П РГ' / П Ч i i j Ч и логарифм правдоподобия равен ^((«<7); (а.), (Р/)) = £л/+|па; + Ел+/|пр; + 1п(л!) -521п(«</!).
§2.6. Таблицы сопряженности признаков 333 Необходимо максимизировать это выражение по az и (3,- при ограничениях а„0/>О, £л = 52р/=1. 'l i Лагранжиан теперь равен £=I2/2-+lnai+I2/2+/|n₽/_xf22a'_ -н(52₽/_ i i \ ' / \ / / (здесь мы опять пренебрегаем выражением [1п(л!) - 52 Пл/;!)]). Условие для стационарных точек Лс=^£ = 0, octi upj приводит к оценкам az = nz+/X и р; = л+/7(1. Применение ограничений приводит к равенствам X = pi = п. Тогда о. о. п. имеет вид ^=n(?)7n(7"*nm"" Ч I j и статистика 2 In равна 2 £ «,7 In - 2 5>+ In - 2 £ n+j In = 2 In (2.6.2) Ч i i ч 4 где eq = (rii+n+j)/n. Представив в виде nz/ = ez, + 8Z/ и записав разло- жение для логарифма, находим, что правая часть равна 2 +м 1п0+|)=2 5>/+- й+• • •) ’ /,/ 4 ч 4 z/ что приблизительно равно (S//)2 _ (гщ - ez/)2 ч /=1 /=| в силу той же аппроксимации, что и ранее. Следовательно, мы можем повторить обычную процедуру проверки, основанную на к. о. о. п.: составляем статистику 21пА=^2£2 (ni/7/'7)2 (2-6-3) и отклоняем гипотезу Hq при уровне а, когда значение статистики превос- ходит Л£_1)(с_|)(а) — верхнюю a-точку х2_|)(с_1)-распределения.
334 Глава 2. Проверка гипотез Таблицы сопряженности приводят также к другой модели, когда фик- сируют не только общее число наблюдений п++, но также и некоторые компоненты, например все суммы элементов по строкам (или часть таких сумм). Тогда случайные величины Njj в Z-й строке с фиксирован- ным п,+ будут иметь мультиномиальное распределение с параметрами (п/+; ..., PiC) и будут независимыми от остальных частот. В этом слу- чае нулевая гипотеза состоит в том, что pz/- = р7, т. е. не зависит от номера строки i для любых j = 1, ..., с. Альтернатива состоит в том, что Pi/ произвольные, но = 1, i = 1, ..., г. Эта ситуация возникает в связи с проверкой гипотезы об однородности. Пример 2.6.2. В эксперименте 150 пациентов разбили на три группы по 45, 45 и 60 человек. В двух группах пациенты принимали новое ле- карство в разной дозировке, а пациенты третьей группы получали плацебо (безвредное, не лекарственное вещество, буквально «пустышка» (лат.)). Результаты приведены в табл. 2.3. Таблица 2.3 Улучшение Без изменений Ухудшение Плацебо 16 20 9 Половина дозы 17 18 10 Полная доза 26 20 14 Введем гипотезу Wo- вероятности /^улучшение, Рбез изменений И /^ухудшение одинаковы для всех трех групп пациентов и гипотезу Н\ \ эти вероятности могут быть разными для разных групп. Тогда при выполнении гипотезы Н\ правдоподобие равно А^)((л(7) I (Ра)) = П • --Pic ill j; . . . flic- /=1 и л. п. равен £((л,;); (Р</)) ~ У? пч 1нРч + (члены, не зависящие от р,7). ч Здесь о. м. п. pij для р^ равна nzy/n/+. Аналогично при выполнении гипо- тезы Hq л. п. равен €((л//); = У? п-ь/ Р/ + (члены’ не зависящие от р7) /
§2.6. Таблицы сопряженности признаков 335 и о. м. п. pj для pj равна Тогда, как и ранее, о. о. п. равно 21„ Л„л = 2 £In & = 2^ п, In а « £ Pl еЧ еч hl hl 1.1 где eij = (п/+п+/)/п++. Число степеней свободы равно (г - 1)(с - 1), так как |0j | = г(с — 1) (имеется с — 1 независимая переменная pz/- в каждой из г строк) и |©оI = с — 1 (переменные в столбцах остаются постоянными). В рассматриваемом примере г = 3, с = 3, (г - 1 )(с — 1) = 4, (0,05) = = 9,488. Массив данных приведен в табл. 2.4, а полученные средние зна- чения показаны в табл. 2.5. Таблица 2.4 «</ Улучшение Без изменений Ухудшение Плацебо 16 20 9 45 Половина дозы 17 18 10 45 Целая доза 26 20 14 60 59 58 33 150 Таблица 2.5 еа Улучшение Без изменений Ухудшение Плацебо 17,7 17,4 9,9 Половина дозы 17,7 17,4 9,9 Целая доза 23,6 23,2 13,2 Итак, вычисляется следующим образом: (2,4)г . (1.7)2 , (0,7)2 (2,6)2 , (0,6)2 , 23,6 17,7 17,7 17,4 17,4 (3.2)2 (0^ (0^ (0^ 23,2 9,9 9,9 + 13,2 ’ следовательно, оно незначимо при уровне нужно отвергнуть. □ Это значение меньше 9,488, значимости 5%, и гипотезу Н\ Мы завершим этот параграф кратким обсуждением часто наблюдаемо- го парадокса Симпсона, который демонстрирует, что таблицы сопряжен- ности признаков — это деликатный объект и они могут быть искажены, когда данные объединяются. Однако никакой мистики в этом нет. Рас- смотрим следующий пример. Появилась возможность применять новое сложное лечение для потенциально смертельной болезни. Неудивительно, что врачи решили применять его главным образом в наиболее серьез- ных случаях. Вследствие этого новые данные охватывают намного больше
336 Глава 2. Проверка гипотез именно таких случаев, в противоположность предыдущим [старым] дан- ным, которые равномерно охватывали широкий круг пациентов. Это может приводить к обманчивой картине (см., например, табл. 2.6). Таблица 2.6 Не выздоровевшие Выздоровевшие Выздоровление, % Предыдущее лечение 7500 5870 43,9 Новое лечение 12520 1450 10,38 Можно подумать, что новое лечение в четыре раза хуже, чем старое. Однако все дело в том, что новое лечение применялось значительно чаще, чем старое, в больницах, имеющих дело с наиболее серьезными случаями. С другой стороны, в тех клиниках, где обычно имеют дело с менее се- рьезными случаями, новое лечение применялось реже. Соответствующие данные приведены в табл. 2.7 и 2.8. Таблица 2.7 Больницы Не выздоровевшие Выздоровевшие Выздоровление, % Предыдущее лечение 1100 70 5,98 Новое лечение 12500 1200 8,76 Таблица 2.8 Клиники Не выздоровевшие Выздоровевшие Выздоровление, % Предыдущее лечение 6400 5800 47,54 Новое лечение 20 250 92,60 Теперь очевидно, что новое лечение дает лучшие результаты для обеих категорий пациентов. Вообще говоря, метод, основанный на таблицах сопряженности, не лишен логических трудностей. Предположим, что рассматриваются данные табл. 2.9, относящиеся к 100 семьям с двумя детьми. Таблица 2.9 1-й ребенок Мальчик Девочка о Мальчик 30 20 50 2-и ребенок п г Девочка 20 30 50 50 50 100 Рассмотрим две нулевые гипотезы: Hq. вероятность того, что в семье есть мальчик, равна 1/2, и пол одного ребенка не зависит от пола другого ребенка;
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 337 Н%: пол одного ребенка не зависит от пола другого ребенка. Каждая из этих гипотез проверяется против альтернативы: эти вероятности произвольны (точнее, вероятности рмм, рмд, рдм, Рдд подчинены только ограничениям р.. ^0 И Рмм + £мд + Рдм + Рид — 1; при этом случай возможной зависимости тоже охватывается). Значение статистики Пирсона равно (30 - 25)2 (20 - 25)2 (20 - 25)2 (30 - 25)2 _ 25 + 25 + 25 + 25 Число степеней свободы в случае гипотезы Hq равно 3, а 5%-квантиль равна 7,815. В случае гипотезы Hq число степеней свободы равно 1; та же квантиль равна 3,841. Мы видим, что при уровне значимости 5% нет оснований, чтобы от- вергнуть Hq, однако есть серьезные основания, чтобы отвергнуть Hq, хотя логически Hq влечет за собой Hq. Мы благодарим А.Хокса за этот пример (см. [Haw]). § 2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки Variance is what any two statisticians are at. Разногласие — это то, что существует между любыми двумя статистиками. (Из серии «Почему их не понимают».) Рассмотрим типичную ситуацию: имеется несколько (в простейшем случае две) выборок из нормального распределения, которые могут от- личаться своими параметрами. Задача состоит в проверке гипотезы о том, что заданный параметр имеет одно и то же значение для всех выборок. 1. Проверка гипотез для двух нормальных выборок. Рассмотрим случай двух независимых выборок /хА /Г|\ х = | ; I и у= ; , \XmJ \YnJ где Xi — н. о. р. N([ii, of)-с. в., а У) — н. о. р. N(pt2, в- 1а. Проверка гипотезы о равенстве средних при известной об- щей дисперсии. В этой модели предполагают, что дисперсия of = о| = = а2 известна, и проверяют гипотезу Hq: рц = против альтернативы Н\: pt| / pi2. Используют для этого к. о. о. п. (который работает доста- точно хорошо). При выполнении гипотезы Н\ функция правдоподобия
338 Глава 2. Проверка гипотез fx(x; рь o2)fy(y; Ц2, о2) равна ('/2^-еК|>[~^Ф*' “ Р,)! “ = = (^)-f exp[-i(S" + "«х - lJ| >' + 5« + "W - №)2)] и достигает максимума при ftI=x и р2 = 0, где x = ±Y,Xi’ У={пЦу>- При выполнении гипотезы Hq функция правдоподобия fx(*\ р, а2)/у({/; [1, о2) равна (^а}^п ехР [- 2^(S- + + $уу + ^У~ И)2)] и достигает максимума при А тх + пу ц = — 1 т 4- п Тогда о. о. п. имеет вид А / 1 тп(х-у)2\ Л»1;«0-ехр(2ст2 т + п J, и мы отклоняем гипотезу Hq, если |х — у\ велико. При выполнении гипотезы Hq мы имеем x_?~N(o, о=(1 + 1)). следовательно, ¥ _ у Z= * \=~N(0, 1), 0y/\/m 4- \/п и мы отклоняем гипотезу Hq при уровне значимости а, если |Z| > z+(a/2) = = Ф“1(1 — а/2). Этот критерий называют нормальным z-критерием. От- метим, что в этом случае распределение в теореме Уилкса является не асимптотическим, а точным. В дальнейшем z+(y) будет обозначать верхнюю у-точку (квантиль) нормального N(0, 1 ^распределения, т.е. значение, для которого Как было отмечено, это значение равно Ф 1 (1 — у), 0 < у < 1.
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 339 16. Проверка гипотезы о равенстве средних при неизвестной об- щей дисперсии. Предположим теперь, что дисперсия of = = а2 неиз- вестна и, следовательно, является мешающим параметром. Здесь опять рассматривают гипотезы Hq: [ij = [12 и Н\: (jtj /[12- Как мы увидим, в ре- зультате будет получен t-критерий. При выполнении гипотезы Н\ нам необходимо максимизировать (^а)т+п exp[-2^(S" + “ ^1)2 + + П(3 ~ ^2)2)] по pi, [12 и о2. Как и ранее, pii =х, р2 = У- Оценка максимального прав- доподобия для а2 равна гДе Sxx = Jjx,-- х)2, Syy = ^У, - У)2- < / (Соответствующие вычисления аналогичны тем, которые привели к оцен- ке а2 = Sxx/n в случае одной выборки.) Следовательно, при выполнении гипотезы Н\ мы имеем max[/(x; a2)f(y; pt2, о2): ptb pt2 6 Ж, о2 > 0] = = (2^ + sy»Y(m+n}/2c-^/2 \ т + п ) При выполнении гипотезы Hq о. м. п. для pt будет, как и ранее, иметь вид А _ тх + пу т 4- п ' 2 а о. м. п. для ст является величина «2=(1> - w2+L - »2)=(s“+s-+~ s’2) < i Следовательно, при выполнении гипотезы Hq мы имеем тах[/(х; pt, о2)/(у; pt, о2): pt € R, о2 > 0] = — ( (S -1-5 -и тП (х — Й)2)^ (т+"^2 -(т+п)/2 + + т + п'Х У})) е Это приводит к следующему выражению для о. о. п.: д _ ((т + n)(SXx + Syy) + тп(х — у)2 \ (т+л)/2 _ А/Л;Я0-^ (m + «)(Sxx + Sw) ) _ тп(х — у)2 х(т-|-п)/2 — \ (т + n)(Sxx +Syy))
340 Глава 2. Проверка гипотез Таким образом, применяя к. о. о. п., мы отклоняем гипотезу Hq, если 1-у — р| y/(Sxx + Sw)(l/ffi + 1/n) велико. Удобно умножить последнее выражение на у/п + т — 2. Это при- водит к следующей статистике: V гп 4- п — 2 \т nJ Действительно, при выполнении гипотезы Hq мы имеем и эти величины независимы. Поэтому Sxx + 2 а2 ~ Хт+п-2- Утверждение теоремы Уилкса, конечно, выполняется асимптотически при т, п —> оо, но этого нам здесь и не потребовалось. Пример 2.7.1. Семена некоторого вида растений случайным образом высеивали либо в обогащенную почву (опытная группа), либо в стандарт- ную (контрольная группа). В определенный срок все растения были собра- ны, высушены и взвешены, полученный вес в граммах указан в табл. 2.10. Таблица 2.10 Контрольная группа 4,17 5,58 5,18 6,11 4,50 4,61 5,17 4,53 5,33 5,14 Опытная группа 4,81 4,17 4,41 3,59 5,87 3,83 6,03 4,89 4,32 4,69 Здесь контрольные наблюдения Х\, ..., Хт являются н. о. р. N(px, q2)“ с. в., а опытные наблюдения У|, ..., Yn — н.о. р. N(pty, о2)-с. в. Проверя- ется гипотеза Hq- [1% = Цу против альтернативы Н\: Цх / (ly. Находим т = п = 10, х = 5,032, Sxx = 3,060, у = 4,661, Syy = 5,669. Тогда .2 = Sxx + = 85 т + п - 2
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 341 Iх — = 1,19. у/д1 2(\/т 4- \/п) Получив значение tis(0,025) = 2,101, мы не отклоняем гипотезу Hq при уровне 95%, утверждая, следовательно, что различные условия выращи- вания растений не приводят к различным значениям среднего веса. Предположим теперь, что значение дисперсии а2 известно и равно 0,480 и не оценивается по выборке. Вычисляя величину находим значение z— 1,1974. Поскольку Ф(г) = 0,8847, что меньше чем 0,975, у нас все еще нет оснований отклонить Hq. □ 1в. Проверка гипотезы о равенстве дисперсий. Вначале рассмотрим случай, когда рц и [12 известны (но не обязательно равны между собой). Рассмотрим нулевую гипотезу Hq : о2 = а| и альтернативу Н\: of При выполнении гипотезы Hq функция правдоподобия /(х; [ij, о2)/(у; [12» °2) достигает максимума при о2 = (S2X + Т^у)/(т + и), и это максимальное значение равно |-2n(SL+ £*,)] -<">+«)/2 п)/2 L т + п J Здесь Е2Х = £(х; - Ц|)2 и Е2у = - pt2)2. < / При выполнении альтернативной гипотезы Н\ функция правдоподобия /(х; (ij, о2)/(у; ст2) достигает максимума при о2 = £2х//п, о2 = ^уу/п и максимальное значение равно 2kSxx т!2 2кЕуу Тогда о. о. п. имеет вид Н,’Н° (т + «><'"+'>/21 £2, ) \ ^ ) ^ ОС 5kV/2fi д. 5"V/2 E?J + Последнее выражение велико, когда Е|у/Е2х велико или мало. А при выполнении гипотезы Hq мы имеем 1 2 1 хп2 2 ^хх ~ ^yy ~ Хи» и эти величины независимы.
342 Глава 2. Проверка гипотез Таким образом, при выполнении гипотезы Hq получаем ^.уу/^хх ~ Fn,m- Следовательно, мы отклоняем гипотезу Hq при уровне значимости а, если значение Y?yy/Y?xx либо больше чем <р+ш(а/2), либо меньше чем <р“ш(а/2). Здесь и далее (р+ш(у) обозначает верхнюю, a <р7,ш(у)— нижнюю у-точку (квантиль) распределения Фишера FrttZZZ, т.е. значение а, для которого оо а $ М dx = 4 или 5 (X) dx = 4, а О И вновь строгое применение к. о. о. п. приводит к несколько иной кри- тической области (двустороннему несимметричному критерию). Предположим теперь, что рц и р.2 — неизвестные мешающие парамет- ры, и проверим гипотезу Hq \ a2 = q| против альтернативы Н\: of При выполнении гипотезы Hq функция правдоподобия /(х; рц, о2)/({/; р.2, а2) достигает максимума в точке р, = X, р2 = У, ст2 = + Syy) и максимальное значение равно /2п$хх+$уЛ-<'п+п>/2 \ т + л ) При выполнении гипотезы Н\ функция правдоподобия равна f(x; pi,, a2)f(y; pt2, a|). Ее максимальное значение достигается при р| = X, р2 = У, 6? = df = ^Syy и равно Тогда «/2 е-(т+п)/2 Sxx+Syy\m/2 /Sxx + Swy/2 mml2nnl2 Syy / (m + я)('п+'»)/2 ’ \ ^хх / и мы отклоняем гипотезу Hq, если т/2 велико. X <Dyy J X Oxx / Однако, как следует из примера 1.1.4 (см. уравнение (1.1.7)), Sxx/(m - 1) „ SYY/(n- 1)
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 343 Таким образом, при уровне значимости а мы отклоняем гипотезу Hq, ис- пользуя «верхний» односторонний критерий, когда (Я - l)Sxx + / ) (т - 1)SW а при использовании «нижнего» одностороннего критерия — когда (т - 1)$уУ + (и - 1)5хх Эти критерии определяются верхними a-точками соответствующих F-pac- пределений. Мы также можем использовать «двусторонний» критерий, при котором гипотеза Hq отклоняется, если, скажем, 0/2) или [ГЛ — 1)Оуу \П 1)Охх В каждом конкретном случае выбор критической области мотивируется видом графика п. р. в. [?тп для заданных значений тип (см. рис. 1.3 на с. 250). F-критерий для проверки равенства дисперсий был предложен Фи- шером. Замечание. Можно повторить эту процедуру проверки гипотез в слу- чае, когда альтернатива Н\ состоит не в том, что о1 2 * * * * * В / а в том> что о2 > а2 (в этом слУчае говорят о сравнении дисперсий). Тогда о. о. п. Л//1;н0 имеет вид ( Sxx + Syy \ m/2 / Sxx + Syy \ "/2 m^W2- k Sxx ) k Syy ) + если "“‘Sxx > m n yy 1 e 1 e если xx < m n yy и при уровне значимости а мы отклоняем Hq, когда (П - l)Sxx (т — \)Syy Аналогичная модификация существует и для других случаев, рассмот- ренных выше. F-критерий полезно применять в случае, когда X берется из распре- деления Ехр(Х), a Y — из распределения Exp(pt) и проверяется гипотеза Hq.X = v. В контексте к. о. о. п. F-критерий появляется также и в случае, когда мы проверяем гипотезу Hq : pij = .. . = [1Л, где X, ~ N(pi,, а2) — нормальные с. в. с одной и той же дисперсией а2. Пример 2.7.2. Для определения концентрации никеля в растворе ис- пользуют спирт (спиртовой метод) или воду (водный метод). Необходимо
344 Глава 2. Проверка гипотез проверить, приводит ли использование спирта к большей дисперсии, чем использование воды. Полученные значения концентрации никеля (в деся- тых долях процента) показаны в табл. 2.11. Таблица 2.11 Спиртовой метод 4,28 4,32 4,25 4,29 4,31 4,35 4,32 4,33 4,28 4,27 4,38 4,28 Водный метод 4,27 4,32 4,29 4,30 4,31 4,30 4,30 4,32 4,28 4,32 Здесь рассматривается следующая модель: величины Xi, ..., Х12» полученные при применении спиртового метода, и У1,...,Ую, полу- ченные при применении водного метода, независимы, и Xi ~ N(pt%, о2), У7 ~N(pty, Оу). Проверяется нулевая гипотеза Hq: о2 =о2 против альтер- нативы Н\ \ о^ > Оу. При этом т = 12, х = 4,311, SXx = 0,01189 и п = 10, у = 4,301, Syy = 0,00269. Находим (Sxx/1 l)/(S^/9) = 3,617. Из процентных таблиц для ^-распре- деления (р*19(0,05) = 3,10 и (рц9(0,01) = 5,18. Таким образом, мы откло- няем гипотезу Hq при уровне значимости 5%, но принимаем ее при уровне значимости 1%. Это дает некоторые основания утверждать, что о2 > Оу, но чтобы достичь большей степени определенности, необходимы дальнейшие исследования. Например, так как (р^ 9(0,025) ~ 3,92, гипотезу Hq следует принять при уровне 2,5%. □ 2. Неоднородные нормальные выборки. Пусть выборка Х= (Хь ... ... , Хп) имеет компоненты Xt ~ N(p,, о2) с параметрами, которые меня- ются от одной величины к другой. 2а. Проверка гипотезы о равенстве средних значений при извест- ных дисперсиях. Предположим, что of, ..., of известны (не обязательно равны между собой) и мы проверяем гипотезу /70: Ц1 = ... = цл против Н\: pt/ е R произвольные. Воспользуемся опять к. о. о. п. При выполнении гипотезы Н\ функция правдоподобия равна f(x; щ.....af,.... о2п 1 \rt/2 1 Г 1 \2 / 2 п^ехрп£(х--^)/ст- •
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 345 Она достигает максимума при = xz, и ее максимальное значение равно (2п)-«/2 / (По<). При выполнении гипотезы Hq функция правдоподобия равна К*, Ц, G], л/2 1 Г 1 \2 / 2 Па?ехр -2Х^-н/а/ и достигает максимального значения Ш"72 п s“pH «М i i при значении взвешенного среднего р=р(х)=^2 / 52 / / Тогда о. о. п. равно AW|;Wo = exp ^2(х, - ft)2/a? Мы отклоняем гипотезу Hq, если сумма 52 (х, — [i)2/^ принимает большие значения. Более точно, z 91пЛ у№-№)2 .....2 о Хл-1 (еще один случай, когда распределение в теореме Уилкса является точным, а не приближенным). Таким образом, при уровне значимости а гипотеза Hq отклоняется, когда 52(*/ — pt(x))2/o2 превышает h+_x (а), верхнюю a-точку распределения Хп-г 26. Проверка гипотезы о равенстве средних значений при неиз- вестных дисперсиях. Отношение статистика к дисперсии напоминает отношение евангелиста к греху; он видит его всюду, в большей или меньшей степени. (Из серии «Почему их не понимают».) Рассмотрим те же нулевую гипотезу /70: Ц1 = -.. = Цп и альтернативу Н\: произвольные в случае неизвестных дисперсий (которые могут быть равны или не рав- ны между собой). Тогда при Н\ мы должны максимизировать функцию
346 Глава 2. Проверка гипотез правдоподобия и по о2 тоже. Это означает, что в дополнение к условию pt, =Х/ мы должны положить di =0, что нереалистично. Это пример, когда процедура, основанная на о. о. п., неприменима. Предположим, однако, что нормальная выборка X была разбита на несколько групп так, что хотя бы в одной из них имеется более чем одна с. в., и что известно, что в пределах группы средние значения одинаковы. Вдобавок пусть дисперсия будет одинакова для всех с. в. X/. Тогда можно использовать процедуру, называемую ANOVA (analysis of variance — ана- лиз дисперсии), для проверки нулевой гипотезы о том, что все средние значения одинаковы. По сути, это является обобщением критерия, рас- смотренного выше в п. 2а. Итак, предположим, что имеется k групп, по nt наблюдений в группе I, и п = П\ + ... + nk. Положим Xq = pt/ + tij, /=1, Предположим, что рц, ..., щ — это фиксированные неизвестные констан- ты и величины Zq ~ N(0, о2) независимы. Дисперсия о2 неизвестна. Рас- сматривается нулевая гипотеза Hq: pti = ... = pt* = pt и альтернатива Н\: pt/ произвольны. При выполнении гипотезы Н\ функция правдоподобия (2кст2)п/2 еХР достигает максимума при (I,- = х,+, а2 = i ^2 52^x‘i ~ х,+^' где х,+ = ъ 52 x‘i- I 7 7 Максимальное значение равно Г 1 1 ~п/2 2к;5252<х-7-^+)2 е~п/2- L / 7 J Удобно обозначить si = 52 52(х,7 - х'+)2; ' j эту сумму называют внутригрупповой суммой квадратов. Если пред- положить, что хотя бы одно из чисел п\, ..., п*, скажем и/, больше 1, то со- ответствующая сумма Y^Xij — Х/+)2 будет положительной с вероятностью 1. 7 -2^52£<х'7-^)2
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 347 Тогда случайная величина Si = — Х/+)2» соответствующая внутриг- рупповой сумме квадратов, будет также положительной с вероятностью 1. При выполнении гипотезы Hq функция правдоподобия 1 / 1 k ni \ (2^* ех₽( "2^ Z" Н)2 ) 4 /=1 /=1 ' достигает максимума при Р = •*++. д2 = ^^(х,7-х++)2, ' I и это максимальное значение равно (2кй S 52 <х"- х++)2) е~п/2> ' i / 7 где х++ = п 52 х'/- Обозначим So = - х++)2; это общая сумма квадратов. Обобщенное отношение правдоподобия равно Л//ь//о Запишем sq в виде ^2 Y^x‘i ~ х‘+ + Х/+ ” х++)2 = ^x‘i ~ х‘+)2 + 52 л'<х'+ “ х++>2 /=1 /=1 /,/ i (поскольку 52(Х/у — х,+) = 0 для всех i = 1, ..., й, сумма попарных произ- ведений обращается в нуль). Затем обозначим s2 = J2rt,(x/+ -х++)2; i эту сумму называют межгрупповой суммой квадратов. Следовательно, so = $i + $2, и w.=0^r
348 Глава 2. Проверка гипотез Таким образом, мы отклоняем гипотезу Hq, когда sz/s\ принимает большие значения, или, что, эквивалентно, когда величина s2/(fc - 1) Si/(n - k) принимает большие значения. Теперь анализ распределений величин Х/7-, и ^++ распадается на три этапа. Во-первых, для любого i при справедливости обеих гипотез Hq и Н\ мы имеем л, ^2 Е^'7 - й+)2 ~ X2-I 7=1 согласно теореме Фишера (см. § 1.5). Затем, суммируя независимые с. в., имеющие ^-распределение, находим fH^EE^/-W~x2-*- i / Далее, для любого i и при Hq, и при Н\ мы вновь получаем, что п, _ _ 52(Х/У — Х/+)2 и Х/+ независимы, /=1 на основании теоремы Фишера. Тогда Sj = 52(Xf/ - Х/+)2 и 5г = №+ - Х++)2 независимы. ij * Наконец, если выполняется гипотеза Hq, то являются н. о. р. N(pi, о2)-с. в. Тогда X++~n(h, и ^(X++-ti)2~x2- Далее, Х/+ — это независимые N(p, a2/rzz)-c. в. и m(Xi+ - pt)2/a2 ~ /г Следовательно, Е^(й+ -ьо2~х1- i Более того, величины Х++ и Х/+ - Х++ независимы, поскольку они явля- ются совместно нормальными с. в. и Cov(X++, - Х++) = 0. Записав £ ^(х,+ - и)2 = Е п^‘+ ~ *++)2 + - ь1)2’ / i приходим к заключению, что в правой части ^2 Е"'(*'+ -*++)2 = ^l~xLi и ^(Х++ -Ц)2~Х2
§2.7. Проверка гипотез для нормальных распределений. Неоднородные выборки 349 и эти величины независимы. С другой стороны, запишем S% в виде •$2 = 52 л<((^+ “ Н<) + (н< - й) + (й - *++))2, / где р = Тогда прямые вычисления показывают, что ES2 = {k- 1)а2 + ^«,((1,- - й)2- i Приходим к заключению, что при справедливости гипотезы Н\ величина имеет тенденцию к увеличению. В итоге видим, что статистика S2/(fe-l) V S,/(n - k) распределена при Hq как F^-i.^-Aj и будет принимать большие значения при Н\. Следовательно, при уровне значимости а мы отклоняем Hq, когда значение Q больше величины л_Л(а), верхней a-точки F^-i.n-^-pac- пределения. Итог представлен в табл. 2.12. Таблица 2.12 Степени свободы Сумма квадратов Среднее квадратичное Между группами k- 1 52 52/(Й-1) Внутри групп п — k 51 S\/(n - k) Общее значение п — 1 50 Пример 2.7.3. При проведении психологического исследования мето- дов обучения математике в школе 45 учеников случайным образом были разбиты на 5 групп по 9 человек. Группы А и В обучались в отдель- ных классах обычным методом, а группы С, D и Е обучались вместе. Ежедневно каждого ученика из группы С публично хвалили, каждого уче- ника из группы D публично порицали, а учеников из группы Е вообще игнорировали. В конце эксперимента все ученики прошли тестирование и их результаты, выраженные в процентном отношении к высшему баллу, показаны в табл. 2.13. Таблица 2.13 А (контроль) 34 28 48 40 48 46 32 30 48 В (контроль) 42 46 26 38 26 38 40 42 32 С (похвала) 56 60 58 48 54 60 56 56 46 D (порицание) 38 56 52 52 38 48 48 46 44 Е (игнорирование) 42 28 26 38 30 30 20 36 40
350 Глава 2. Проверка гипотез Психологов интересует вопрос, есть ли существенная разница между группами. Величины Xq предполагаются независимыми, и Xq ~ N(ptz, о2), i = 1, ..., 5, j = 1, ..., 9. Рассматривается нулевая гипотеза Hq : р, = pt и альтернатива Н\: pt, произвольные. На основании результатов тестирования составим табл. 2.14 и 2.15. Таблица 2.14 Всего X Е(х<7 “ х<+)2 7 А 354 39,3 568 В 330 36,7 408 С 494 54,9 192,9 D 422 46,9 304,9 Е 290 32,2 419,6 Таблица 2.15 Степени свободы Сумма квадратов Среднее квадратичное F-отношение Между группами 4 2891,48 722,869 722,869/47,33= 15,273 Внутри групп 40 1893,3 47,33 Общее значение 44 4784,78 Наблюдаемое значение статистики Q равно 15,3. Так как ср+40(0,001) = = 5,7, это значение попадает в глубину области отклонения гипотезы при уровне а = 0,001. Следовательно, гипотеза Hq отвергается, и мы прихо- дим к заключению, что психологическое воздействие на детей оказывает сильное влияние на их успехи в математике. □ Statisticians аге fond of curvilinear shapes and often own as a pet a large South American snake called ANOCOVA. Статистики увлекаются искривленными формами и поэтому часто держат дома большую южноамериканскую змею под названием АНОКОВА. (Из серии «Почему их не понимают».) Nowadays in any Grand Slam you will be tested by an -Ova. В наше время, чтобы выйти в финал, нужно пройти проверку на -ова. (Разговор о русских спортсменках в кулуарах Уимблдонского женского турнира.) 2в. Проверка гипотезы о равенстве дисперсий при известном среднем значении. Предположим теперь, что pti = ... = = pt известно. Попытаемся проверить гипотезу Hq: о2 = ... = о2 против альтернативы
§2.8. Линейная регрессия. Оценки метода наименьших квадратов 351 Н\\ о2 >0 не связаны ограничениями. При выполнении гипотезы Н\ функция правдоподобия равна ц, а?. Л/2 ! П^ехр и достигает максимума ___________!___________е-»/2 (2л)"/2 (П(*< - И)2) 72 при a2 = (х/ — pi)2. При выполнении гипотезы Hq функция правдоподобия достигает максимума при о2 = J2(xz- - (1)2/п и максимальное значение равно __________!__________е-п/2 (2х)"/2(^(х,-!л)2/л)''/2 Это приводит к о. о. п. / П(х,-Н)2 \-'/2 I "7 ‘ хТГ I -^)2/л) / Трудность здесь заключается в отыскании распределения о. о. п. при справедливости гипотезы Hq. Вследствие этого не существует эффективно- го критерия проверки нулевой гипотезы. Однако эта задача является очень важной во многих приложениях, в частности, в современной финансовой математике. В финансовой математике дисперсия приобретает большое значение (и рассматривается как существенно мешающий фактор). § 2.8. Линейная регрессия. Оценки метода наименьших квадратов Ordinary Least Squares People1 (Из серии «Фильмы, которые не вышли на большой экран».) Нашей следующей темой будет линейная регрессия. В рассматри- ваемой модели интересующая нас величина Y имеет вид Y = g(x) 4- е, где а) е — с. в. с нулевым средним (например, е ~ N(0, а2) с известной или неизвестной дисперсией), б) g(x) = g(x, 6) — функция заданного ви- да (например, линейная функция у + fix или экспоненциальная функция 1 Ср. название фильма «Ordinary People».
352 Глава 2. Проверка гипотез keax (которая превращается в линейную после логарифмирования), при этом все или некоторые компоненты параметра 6 неизвестны), и в) х— заданное значение (или, иногда, случайная величина). Главным образом будем рассматривать многомерную постановку задачи, при которой Y и е заменяются случайными векторами /УЛ АЛ У = : и е = I • 1 , \YJ \tJ а функция g(x) заменяется векторной функцией g(x) векторного аргу- мента х. Наша цель — определить функцию g(x) или g(x), т.е. оценить значения неизвестных параметров. Интересный пример того, как можно использовать линейную регрес- сию, связан с таким фактом из астрономии, как закон Хаббла о линейном расширении. В 1929 г., Е.П. Хаббл (1889—1953), американский астроном, опубликовал важную статью, в которой утверждалось, что Вселенная рас- ширяется (т. е. что галактики удаляются от Земли и чем более отдаленной от Земли является галактика, тем с большей скоростью она удаляется). Коэффициент пропорциональности, который появляется в этой линейной зависимости, был назван постоянной Хаббла, и его вычисление стало одной из центральных задач в астрономии: знание его позволило бы нам оценить возраст Вселенной. Для решения этой задачи используют линейную регрессию, поскольку имеющиеся данные весьма скудны; соответствующие измерения относи- тельно галактик являются длительной процедурой и имеют свои ограниче- ния. Начиная с 1929 г. несколько раз проводились тщательные вычис- ления, и значение постоянной Хаббла несколько раз переоценивалось. Каждый новый цикл вычислений давал в результате все более ранний возраст возникновения Вселенной; было бы интересно увидеть, сохранится ли такой тренд и в дальнейшем. Сосредоточимся главным образом на простой линейной регрессии, когда каждая компонента У/ вектора Y определяется равенством yz=y + pxz + ez, i =1,..., и, (2.8.1) и ei....ел — это н. о. р. с. в. с Ее, = 0, Varez = о2. Здесь у и [3 неиз- вестны, а х = (Х|, ..., хп) — заданный вектор. Случайные величины ez интерпретируются как «шум», и их часто называют ошибками (наблюдений или измерений). Тогда, конечно, Y[,...,Yn независимы, Е У/ = у -f- [3xz и Varez=a2. Удобно ввести новую параметризацию в уравнении (2.8.1) следующим образом: Yi = a + p(xz — х) + £z-, i = 1, ..., п, (2.8.2)
§2.8. Линейная регрессия. Оценки метода наименьших квадратов 353 где х = а = у + 0х и ^(х,-х) = 0. / / В такой модели получаем данные (хь £/i), ...» (х„, уп), причем зна- чения х, известны, а значения £// — это реализации с. в. У/. Определить значения у и р (или, что эквивалентно, значения аир) означает нарисовать линию регрессии у = у + р% (или у = a 4- р(х - х)), что является наилучшей аппроксимацией имеющихся данных. В случае, когда у = 0, имеют дело с линией регрессии, проходящей через начало координат. Вполне естественно возникает идея рассмотреть пару оценок метода наименьших квадратов (МНК-оценок) аир для аир, т.е. значения, минимизирующие сумму ^(1/,• - а - 0(х,- - х))2. Эта сумма является мерой отклонения данных (Х|, у\), ..., (хл, уп) от тео- ретической прямой у = (а — рх) 4- Рх. Решая уравнения для стационарных точек 52^'-a~~х»2=°- 52~а~Р(х<-х))2=°’ находим, что МНК-оценки имеют вид & = У, Р = ^. (2.8.3) Здесь у=152У'' Sxx=52(х/ -х)2> ; ' (2.8.4) Sxy = 2_SX‘ - x)yi = Е<х' ” Х^У‘ ~ у} i i иу = а-рх = 1/ - Sxyx/Sxx. Очевидно, нужно предположить, что Sxx О, т. е. не все значения х, равны между собой. Отметим, что у = у 4- рх, т. е. (х, у) лежит на линии регрессии. Кроме того, аир являются линейными функциями от у\, ..., уп. ^12—1104
354 Глава 2. Проверка гипотез Из последнего замечания непосредственно следует ряд свойств МНК- оценок, которые перечислены в нижеследующих утверждениях: a) Ed = а, Е{3 = Р; 6) Vara = —, Varp = в) Cov(d, Р) = 0; г) пара WdK-оценок (а, р) является наилучшей линейной несмещен- ной оценкой (используется также аббревиатура BLUE — от англ, «best linear unbiased estimator») для (a, P), т.е. несмещенной оценкой с наи- меньшей дисперсией среди всех несмещенных оценок, линейных от- носительно Yn. Действительно, утверждение а) следует из соотношений Еа = + р(х,- - х)) = а И ЕР = J- V(x,- - х) Е Yi = ХУх; - х)(а + Р(х,- - х)) = р. *->хх Эхх i i Далее, утверждение б) получим так: Vard = V Var У, = — п2 п и Vai-p = V (х,- - х)2 Var У, = С>хх эхх I Утверждение в) есть следствие равенств Cov(a, Р) = Cov(r„ (х, - х)У,) = ^о2 “ *) = °- i Наконец, докажем утверждение г): пусть А = ^CiYj и В = Yi — это линейные несмещенные оценки для аир соответственно, ^2с,(а + Р(х,-х)) = а и ^d,(a+ Р(х,- -х)) =р. i I Тогда должны выполняться равенства 52^ = 1, ^d(Xl- х) = 0, 22^/= 0 и y^dj(Xj - х) = 1.
§2.9. Линейная регрессия для нормальных распределений 355 Минимизация Var/4 = а2 52 и VarB = a2 52 ПРИ указанных выше огра- i i ничениях сводится к минимизации функций Лагранжа £i(ci....сп; a) = о- £с? - 1 j -[J^2c((x, - х) i Х i ' i И £2(</ь .... dn\ P) = a2^d2 -X^d; -p/]Td,(x( -х) - 1Y / / ' i ' Значения, при которых достигается минимум обеих функций С\ и £2, таковы: Ci = di = 2а2(Х + ^Х/ ~ Х))- Принимая во внимание соответствующие ограничения, получим, что с, = - и di = х‘ *, т. е. А = а и В = В. П £>хх § 2.9. Линейная регрессия для нормальных распределений Statisticians must stay away from children’s toys because they regress easily. Статистикам следует держаться подальше от детских игрушек, потому что они легко впадают в детство. (Из серии «Почему их не понимают».) Отметим, что до сих пор не введено никаких предположений о виде сов- местного распределения ошибок Ci, ..., ел. Например, если е, ~ N(0, а2), то пара МНК-оценок (6с, Р) совпадает с о. м. п. Действительно, в этом случае Yj ~ N(ot 4- Р(х/ - х), а2) и минимизация суммы Y^yi - а - Р(х, - X))2 i эквивалентна максимизации логарифма правдоподобия £(х, у; р, а2) = — ^ 1п(2по2) - ~ а “ Р<х-' “ х))2- i У112*
356 Глава 2. Проверка гипотез Этот факт объясняет те аналогии с приведенными ранее утверждениями (например, теоремой Фишера), которые появляются при более детальном рассмотрении нормальной линейной регрессии. В самом деле, предположим, что е, ~ N(0, а2) и величины е, независи- мы. Рассмотрим минимальное значение суммы ^(У, - а — Р(х, - х))2: i /? = ^(У,-а-р(х,-х))2. (2.9.1) Его называют остаточной суммой квадратов (о. с. к.). Имеет место следующая теорема: a) a~N(a, у); 6)₽~N(₽, g); г) величины а, р и R являются независимыми; д) -—- является несмещенной оценкой для о. Для доказательства утверждений а) и б) заметим, что аир являются линейными комбинациями независимых нормальных с. в. У/. Для доказа- тельства утверждений в) и г) мы придерживаемся той же стратегии, что и при доказательстве теорем Фишера и Пирсона. Пусть А —действительная ортогональная матрица размера п х л, у ко- торой первый и второй столбцы имеют вид /(Х| - x)/y/S^\ \\/у/п) \(хп - x)/y/S^J а остальные столбцы произвольные (выбранные так, чтобы матрица была ортогональной). Такая матрица всегда существует: первый и второй столб- цы являются ортогональными в силу равенства ]Г(Х/ — х) = 0, и всегда i можно добавить к ним еще п — 2 вектора так, чтобы получить ортогональ- ный базис в Рассмотрим теперь случайный вектор Z = ATY с первыми двумя компонентами Zj = у/п Y = \/йа ~ N(\/7za, a2) и z2 = -/U£>,• - x)Yi = x/S^p ~ N(x/S^p, a2). V ^xx
§2.9. Линейная регрессия для нормальных распределений 357 В силу ортогональности матрицы А все компоненты Zj, ..., Zn являются независимыми нормальными с. в. с одинаковой дисперсией. Более того, п п /=1 /=1 С другой стороны, п п п =Еz? - zi - zi=Еу'2 - м2 - м2= /=3 /=1 /=1 = Е<у< - 7)2+P2s« - E<r- - “ - - *»2= i=\ /=1 Следовательно, величины а, [3 и R являются независимыми. Пусть А = (Д//), тогда, во-первых, для любого / > 2 выполняется ра- венство 52 А/ = 0, так как столбцы с номерами 2, ..., п являются ортого- нальными к первому столбцу, и, во-вторых, для любого / > 3 выполняется равенство 52 АДх/ — х) = 0, так как столбцы с номерами 3, ..., п являются ортогональными ко второму столбцу. Значит, для любого / > 3 мы имеем EZ/ = 52 Е = 52<а + №Xi ~ х^Ач = а 52 Ач + р 52<Х/ ” *)Ач = 0 i i i i И Var Z; = a2 V а? = а2. / Z </ i Следовательно, Z3, ..., Zn ~ N(0, о2) и Z/, I = 3, ..., и, независимы. Но тогда /?/о2 ~ Хп-2' Отсюда немедленно следует утверждение д): ER = = (п - 2)а2. Полезно помнить, что R = У2 Y? - па2 - sxxp2. (2.9.2) /=1 Теперь можно проверить нулевую гипотезу //о - Р = Ро против альтер- нативы Н\: р / р0. Действительно, получаем, что при выполнении гипоте- зы Hq справедливы утверждения: независимы. 12—1104
358 Глава 2. Проверка гипотез Тогда jR/y/ln - 2)SXX (2.9.3) Следовательно, критерий размера а отклоняет гипотезу Hq в случае, когда значение t величины |Т| превосходит t„_2(a/2), верхнюю a/2-точку (кван- тиль) 1л_2~распределения. Часто Ро = 0, а тогда мы проверяем, нужен ли вообще член Р(х/ - х). Аналогично можно использовать статистику a - а0 jR/^n - 2)п (2.9.4) для проверки гипотезы Hq: ql = qlq против альтернативы Н\: a 7^ ао. Изложенные выше критерии приводят к 100(1 — у)%-доверительным интервалам для а и |3: (а - t„-2(Y/2), а + t„_2(Y/2)), (2.9.5) \ у/(п - 2)л У(п - 2)л / (Р " 7^Г1п-2(у/2)’ Р + 7(n^s Ь-2^/2))- (2-9.6) ' V (Я “ 2)Ъхх у (И — 2)Ьхх ' Аналогичная конструкция применима и к сумме a + [3. В этом случае a + |3~N(a + p, а2 (^ + $—)) и а +|3 не зависит от R. Тогда __ a + р - (а + Р) Следовательно, / / /1 1 \ \ (a + p-tn_2(Y/2)((i + £)/?/(n-2)) , «I 1 \ \ !/2\ n + ^)R/{n~2)) ) (2-97) — 100(1 - у)%-л. и. для a + р. Далее, зафиксируем значение х и построим так называемый интервал предсказания для случайной величины Y ~ N(a + Р(х — х), о2), которая не зависит от И, ..., Yn. Здесь х = (j2*<) / п, xt, ..х„ — это точки, в которых были получены наблюдения У|, ..., Yn, а х рассматривается как
§2.9. Линейная регрессия для нормальных распределений 359 новая точка (в которой ранее не было наблюдений). Вполне естественно рассмотреть значение У = а + Р(х - х) как прогноз для У в нашей модели, при этом ЕУ = а + Р(х-х) = ЕУ (2.9.8) и Var(K - У) = Var У + Var У = Vara + (х - х)2 Var[3 + а2 = + i + (2-9-9) Следовательно, У- r~N(0, а2(1 + - + -Г—))’ \ \ п Sxx )) и мы получаем, что 100(1 — у)%-интервал предсказания для У имеет центр в точке У и длину 2 у + п + Sxx где д = \/R./(n - 2). Наконец, построим д. и. для линейной комбинации а + /0. В этой ситу- ации, применяя аналогичные рассуждения, получим, что / - л/р Г V * л/р Г\ \ (& + /0 - -Д= J i + t„_2(y/2), а + /0 + ~^= + t„_2 (Y/2) \ V л — 2 у п охх v п — 2 у п Ьхх J (2.9.10) является 100(1 - у)%-Д- и. для а + /0. В частности, если выбрать I = х — х, то получим д. и. для среднего значения ЕУ в заданной точке наблюдения х, т.е. a + 0(x-x), x=^J2xh i Возникает естественный вопрос: насколько точно построенная линия регрессии приближает данные? Плохое приближение может возникнуть из-за больших значений о2, но значение а2 нам не известно. Чтобы оценить точность приближения, выполняют несколько наблюдений Уи, ..., У/т. для каждого значения xz: Yq = а + P(xz - х) + е/7, j = 1, ..., mt. i = 1.п. (2.9.11) 12*
360 Глава 2. Проверка гипотез Тогда нулевая гипотеза Hq о том, что среднее значение ЕУ.. зависит ли- нейно от х, проверяется следующим образом. Усреднение равно а + Р(х/ - х) + где ё,+ ~ N (0, — }. При выполнении гипотезы Hq измеряем «отклонение от линейности» величиной о. с. к. тДУ/+ - а - р(х/ - х))2, которая удовлетворяет соот- ношению “2 S т^+ “ х))2 ~ Х*-2- (2.9.12) i Далее, независимо от того, верна гипотеза Hq или ложна, для любого i = 1, ..., п получаем, что ^^У,-,-^)2^-. (2.9.13) / и эта сумма не зависит от У1+, ..., Ул+. Следовательно, 1 £(У,7 - Е+)2 ~ (2.9.14) ч и эта сумма не зависит от Уц_, ..., УЛ+. При выполнении гипотезы Hq получаем, что Е т,(У+ - а - fat - х))2/(п - 2) ~ 7~/ \ ~ Fn-2.mi+...+m„-n. (2.9.15) Е(у<7-У+)2/ (Е Тогда при заданном a G (0, 1) гипотезу Hq отклоняют, когда значение ста- тистики (2.9.15) будет больше чем +тп_п(а).
Глава 3 Задачи кембриджских «Математических треножников» к курсу «Статистика» Статистики, вероятно, сделают это. (Из серии «Как они делают это».) Манипулирование статистическими формулами не заменяет понимания того, что делается. Г. М. Блалок (1926—), американский социолог Задачи и решения, представленные ниже, следуют в обратном хроно- логическом порядке (однако порядок в пределах каждого года сохраня- ется). Задача 1. Используя критерий обобщенного отношения правдоподо- бия, получите t-критерий Стьюдента для проверки гипотезы о равенстве средних значений двух популяций. Вам следует тщательно объяснить пред- положения, на которых основан этот критерий. Решение. См. §2.7, п. 1в. □ Задача 2. а) Сформулируйте и докажите теорему Рао—Блекуэлла. б) Предположим, что Х\, •••, Хп— н.о. р.с. в., имеющие распреде- ление Р(Х| =г) =/-'(! -р), г=1,2, .... где р, 0 < р < 1, является неизвестным параметром. Найдите одномерную достаточную статистику Т для р. в) Найдите несмещенную оценку для р, которая является функцией от Г, отыскав для этого сперва простую несмещенную оценку для р (или иным способом). Решение, б) Функция правдоподобия равна fr(x; р) = (1 - р? Пр*-' = +Хл. Х = (х,, .... хп), Xi =1,2,... п Следовательно, Тп(х) = является достаточной статистикой.
362 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика в) Простая несмещенная оценка параметра р имеет вид j п p=l--Y^x‘=^ /=1 для нее । п . " E^=1-iEp<x' = 1) = 1 -p) = i - i+p=p- /=1 /=1 Тогда для и, t = 2, 3, ..., п /, мы имеем / . п р* = Е(р|т; = 0 = Е 1-1у п =1 - i Е р(Л- =11 ?« = о = 1 - ctf/c1-} = (в предположении, что С"_22 = 1 для t п = 2). Таким образом, статистика Рао—Блекуэлла имеет вид р‘ = Е(/(Х1>1|7’„) = -^. В самом деле, _ (1-р)Р(Гя,=/-1) Р(ГЛ = /) Е р1~' . ,г„_ 1 = 1,2,...: Г|4-...4-гя_1=/—1 Р(Х, = 1 | тп = t) = Р(Х;- ’ —II Р(ГЛ = /) = р'- П....г„=1,2,...: г । +...+/„=/ Наконец, для / О 2 мы имеем Е i=c;4. Е i=c7s,'. О.....Гл_ 1 = 1,2,...: п..../•„=!,2....: г\ 4-...4-rrt_|=/— 1 Г|4-.„4-гЛ=/ поскольку представление натурального числа m в виде суммы s положи- тельных слагаемых соответствует следующей задаче: расположить s - 1 «голубя» в m — 1 «гнезде» так, чтобы в каждом гнезде находилось не более одного голубя (см. рис. 3.1). Для п = 1 оценка р уже является функцией от Тп. □
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 363 1 2 т I 1*1 I 1*1 I ... J*M Г\ Г2 rs Рис. 3.1 Задача 3. При исследовании 60 мужчин и 90 женщин все они были классифицированы в зависимости от цвета глаз, что привело к следующим цифрам. Таблица 3.1 Голубой Карий Серый Мужчины 20 20 20 Женщины 20 50 20 Объясните, как бы вы проанализировали эти результаты. Точно укажи- те все предположения, на которых вы будете основывать свои суждения. При дальнейших исследованиях 150 человек были классифицированы по двум признакам: по цвету глаз и по тому, является ли человек левшой или правшой. Была получена следующая таблица. Таблица 3.2 Голубой Карий Серый Левша 20 20 20 Правша 20 50 20 Как изменится ваш анализ в этом случае? Опять укажите точно все предположения, на которых вы основываетесь. Возможно, вы пожелаете воспользоваться приведенными ниже процентилями ^-распределения. Таблица 3.3 Xi Х2 Хз Х4 Xs Хе 95%-квантиль 3,84 5,99 7,81 9,49 11,07 12,59 99%-квантиль 6,64 9,21 11,34 13,28 15,09 16,81 Решение. Мы опустим стандартные неравенства, задающие парамет- ры как неотрицательные. При первом исследовании (мужчины/женщины) таблица сопряженности признаков имеет следующий вид. Таблица 3.4 Й1 Й2 Лз <h Q3
364 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Выбирается нулевая гипотеза Hq: hi = qiyi= 1, 2, 3 (строки одинаковы), и альтернатива Н\: h\ + hz + h$ = 1, q\ + qz + Яз = 1. При выполнении гипотезы Hq мы имеем г 4 л 7 л 4 /11 15> л2 15> Лз 15- Таблица средних значений имеет следующий вид. Таблица 3.5 16 28 16 24 42 24 Таким образом, значение статистики Пирсона равно 42 82 42 42 82 42 Тб + 28 + Тб + 24 + 42 + 24~ 7’33’ Число степеней свободы равно 2. Сравнивая полученное значение с верх- ней 5%-квантилью распределения мы отвергаем гипотезу Hq на уровне значимости 95%, а сравнивая с верхней 1%-квантилью, видим, что нет оснований отклонить гипотезу Hq на уровне 99%. При втором исследовании (левши/правши) рассматривается нулевая гипотеза Hq: hq = h\ 4- hz 4- Лз = 1, Я\ 4- qz = 1, и альтернатива H\: hq произвольно с ограничением £ hq = 1. При выполнении гипотезы Hq имеем Ы 6 . 9 q' ~ 15’ Я'2 ~ 15 и hi, i = 1, 2, 3, такие же, как и раньше. Средние значения и статистика критерия те же, что и раньше, и, следовательно, выводы те же, что и при первом исследовании. Некоторые студенты рассматривают другие нулевые гипотезы и аль- тернативы. Например, при гипотезе Hq : цвет глаз не зависит от пола и имеет равномерное распределение число степеней свободы равно пяти. Эта гипотеза отклоняется при уровне 99% (а тем более при уровне 95%). Замечание. В этом примере две процедуры проверки гипотез основа- ны на разных моделях данных. При первом исследовании число мужчин и женщин фиксировано, а при втором исследовании 150 человек выбраны случайным образом. Кроме того, проверяются различные нулевые гипоте- зы и альтернативы. Однако средние значения и применяемые статистики одинаковы в обоих случаях, а следовательно, одинаковы и выводы. □
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 365 Задача 4. а) Точно определив необходимые понятия, сформулируйте и докажите лемму Неймана—Пирсона. 6) Пусть X — это одно наблюдение из распределения с плотностью /(х; 0) = —оо < х < оо, с неизвестным параметром 0. Найдите наилучший критерий размера а, 0<а< 1, для проверки гипотезы Hq: 0 = 0о против альтернативы Н\: 0 = О|, где > 0О. Если а = 0,05, то для каких значений Оо и 0| мощность наилучшего критерия будет не менее чем 0,95? Решение. 6) Функция правдоподобия /(х; ер _ е-1'-9'1 Н'-Нй f(x; 0о) e_lx-9ol принимает большие значения, когда величина -|х-0|| + |х-0о| велика. Логарифм правдоподобия имеет вид ' 0i - 9о, lnAW|.Wo(x) = 2х-(0о + 0|), X > 0|, 0о<х<0|, х^0о; 0о — 0|, см. рис. 3.2. Мы отвергаем нулевую гипотезу при больших значениях 1пЛньн0. Рас- смотрим функцию, которая задает в. о. р. I: b е R - B(b) = | 5 е-1'-9°l/(ln Aw„Wo(x) > b) dx;
366 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика она имеет вид b > 9i - 0О, 0о - 91 О < 01 - 6о, b < 0о - 01. Следовательно, 1) при 0 а е0о“е,/2 мы отклоняем гипотезу Hq, если X 00 + In 0ь 2а ясно, что в этом случае мощность будет не больше 1 /2; 2) при е0о“е,/2 < а 1/2 мы отклоняем гипотезу Hq, если OQo + ln^; действительно, решая уравнение В(Ь) = а, мы получаем для этого случая, что b = 0о - 01 + In 1/(2а); 3) при а 1/2 мы отклоняем гипотезу Hq, если х » 9»~2(Г^)- Следовательно, единственный случай, представляющий для нас инте- рес,— это случай 2. Мощность наилучшего критерия уровня а = 0,05 будет не менее чем 0,95, когда 1 + 1(1 -ес-9')> 0,95, где с = 9о + 1п^. Это эквивалентно неравенству ехр(-0о - In + 0j) 10, г\ 2а 7 или 91 - 6о - In tJ- > In 10, 2а т. е. 01 - 0О > In 100. □ Задача 5. Предположим, что ., Yn — это такие независимые слу- чайные величины, что Yt имеет нормальное распределение со средним рх, и дисперсией а2, где р, а2 неизвестны, a xj, ..., хп — известные константы. Найдите МНК-оценку для р.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 367 Подробно объясните, как проверить гипотезу Hq: р = 0 против альтер- нативы Н\: р / 0. Решение. См. §2.9. □ Задача 6. Требуется оценить неизвестный параметр 9 по единственно- му наблюдению с. в. X с плотностью распределения вероятностей /(х; 9); параметр 9 имеет априорное распределение с плотностью л(9), и функция потерь равна L(9, а). Покажите, что оптимальная байесовская точечная оценка минимизирует апостериорные средние потери. Предположим далее, что /(х; 9) = 9е“Ох, х > 0, и л(9) = pte—tt0, 9 > 0, где pt > 0 неизвестно. Определите апостериорное распределение 9 при заданном X. Найдите оптимальную байесовскую точечную оценку параметра 9 в случае, когда a) L(9, а) = (9 - а)2, 6) £(9, а) = |(9 - а)/9|. Решение. Что касается первой части, см. § 1.9. В данном примере апостериорная п. р. в. п(9 |х) равна f(x; 9)л(9) ос 9е-0хе-^/(6 > 0). Это означает, что л(91 х) = (х 4- pi)29e“(x+H)0/(9 > 0), где мы воспользовались равенством 9e"(x+ix)0 49 = о 1 (X + pi)2 ’ Наконец, в случае а), когда Ц9, а) = (9 — а)2, оптимальная байесовская точечная оценка параметра 9 равна d* (х) = § 9л (9 | х) dQ = о 2 x4-pi (т.е. среднему значению п. р. в. (pt + х)29е <х+^°/(9 > 0)), а в случае 6), когда L(9, а) = |9 - а|/9, она имеет вид d*(x) = argrnin § |9 - а|е”(и+х)0 dft = (т. е. равна медиане п. р. в. (pt 4- х)е“(и+х)0/(9 > 0)). □ Задача 7. а) Найдите МНК-оценки а и (3 для коэффициентов модели простой линейной регрессии У, = а 4- Р(х, - х) 4- £/, / = 1, ..., я,
368 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика п где Xi, ...» хп — заданные константы, х = и”1 xz, z = 1, ..., и, а величи- /=| ны е; независимы, Ее/= 0, Var£/ = a2, z=l,...,n. б) Производитель оптического оборудования располагает следующими данными о стоимости (в фунтах стерлингов за каждую единицу) некоторых изготовленных на заказ линз и количестве единиц в каждом заказе: Кол-во единиц х. 1 3 5 10 12 Стоимость единицы z/z 58 55 40 37 22 Предположим, что выполнены условия, при которых применим простой линейный регрессионный анализ. Оцените коэффициенты регрессии и вос- пользуйтесь полученным уравнением регрессии, чтобы спрогнозировать стоимость одной единицы в заказе, состоящем из 8 таких линз. п Указание. Для вышеприведенных данных Sxy = 52 (х/ - x)z/z = -257,4. /=1 Решение, а) МНК-оценки а и |3 минимизируют сумму п s = - a - (3(х, - х))2 /=1 и, следовательно, являются решениями уравнений -na = 0, / ₽ 522х' - х)2=52(*i - x)yi=52 (Xi - x)(y-, - y). i i i Другими словами, 6c = z/, P = (очевидно, что эта стационарная точка является точкой минимума). б) Проведем вычисления: 1 212 у = 2(58 + 55 + 40 + 37 + 22) = ^ = 42,4, о □ х=^(1 + 3 + 5+ 10+ 12) = ^. = 6,2, 5 5 Sxx = 5,22 + 3,22 + 1,22 + 3,82 + 5,82 = 86,8. В результате получаем a = у = 42,4, В = « —2,965 и находим, •Ьхх 00,0 что z/(x) = 42,4 - 2,965(х - 6,2). При х = 8 мы получаем z/(8) ~ 37,063. □ Задача 8. Предположим, что 6 наблюдений ..., %б извлечены слу- чайным образом из нормального распределения, у которого оба параметра,
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 369 среднее ptx и дисперсия с^, неизвестны, но найдено, что Sxx = ^(xt- — х)2 = а 11 1 6 = 30, где х = - 52 xi- Предположим также, что 21 наблюдение Y\, ..., У21 б 1 извлечено случайным образом из другого распределения, у которого и среднее pty, и дисперсия а2 неизвестны и найдено, что Syy = 40. Получите критерий отношения правдоподобия для проверки гипотезы Hq: о2 = Су- против альтернативы Н\ \ а2х > о2 и примените его к указанным данным при уровне значимости 0,05. Указание. Распределение x2 Хб X20 X21 F5.20 Рб.2| 95%-квантиль 11,07 12,59 31,41 32,68 2,71 2,57 Решение. Мы имеем ..., Хт ~ с|), Уь ..., Yn ~ N(pty, Су). При выполнении гипотезы Hq получаем ох = gy и» следовательно, Lxy(H0)=su^ fx(x; цх, o2)fy(y; ст2)=sup (2n(j2)\„+m)/2 exp^5"^). Заметим теперь, что для g(x) = xae bx (а, b > 0) выполняется соотношение sup £(%)=£ х>0 а е~а Следовательно, / (На} = 1 g-(m+n)/2 а2 = Sxx + Syy ху' ° (2пс^)(ш+л)/2 ’ 0 т + п ' Аналогично при выполнении гипотезы Н\ имеем = <?,“<£.Ш °!г) = Ux4*y Л = \ 1 Если > byy где = (ПРИ условии, что ст2 > о2). В результате получаем / Sxx + Syy \ ( Sxx \ -Ш/2 / 5УУ "Я/2 „е „и s« 5уу I--------1 I — I I — I » если — , m + n J \m J \ n / m n в противном случае. m —, то n 21пЛ = Const где g(z) = (m + n) ln(l + z) — m\nz.
370 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика ~ . т + п т nz - т , . . Тогда g (г) = j - -- = ± т. е. если функция g(z) возрастает при z > т/п, то гипотеза Hq отвергается при условии, что велико. При Ьуу выполнении гипотезы Hq мы имеем а2 = а2 = а2, ~ Хт-i» ~ Хл-1 и эти величины независимы; следовательно, Sxx/(m - 1) Syy/(п ~~ О Для рассматриваемых данных правая часть будет равна 30/5 _ з 2> 2 71 40/20 d>2’ZI (здесь используется распределение F5.20), и, таким образом, гипотезу Hq следует отклонить при заданном уровне. □ Задача 9. Пусть ..., Хп — случайная выборка из N(9, (/^-распре- деления, и предположим, что априорным распределением для 9 является N(pt, т2), где а2, р, т2 известны. Определите апостериорное распределение для 9 при заданных Х\, ..., Хп и наилучшую байесовскую оценку пара- метра 9 при квадратической функции потерь и функции потерь, равной абсолютной ошибке. Решение. По поводу первой части см. задачи 2.3.8, 2.3.9 части А. Вто- рая часть задачи: как было показано в задаче 2.3.8 части А, апостериорное распределение имеет вид .(0 |= с W* °> Д = ' ехр [_ <^1. я(9')/(х; 9') t/9' >/2п Н L 2т£ J где 1 _ 1 , п _ X2 Q2 Т2~Т2 G2’ 1 Л’ Т2 + О2 Так как нормальное распределение является симметричным относительно своего среднего значения, наилучшей оценкой для обеих функций потерь будет Е(0|х) = ц„. □ Задача 10. Проведено исследование уровня знаний старшеклассников, при котором в каждом из двух городов было рассмотрено по 500 учени- ков и уровень знаний каждого классифицировался согласно шкале низ- кий-средний-высокий. Результаты приведены в таблице: Низкий Средний Высокий Город А 103 145 252 Город В 140 136 224
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 371 Получите критерий однородности и проверьте гипотезу о том, что распре- деления уровней знаний учеников одинаковы для обоих городов. Указание. Распределение Xi Х2 Хз Х5 Хб 99%-квантиль 6,63 9,21 11,34 15,09 16,81 95%-квантиль 3,84 5,99 7,81 11,07 12,59 Решение. Составим таблицы Иц Л|2 И13 Иц. Л21 Л 22 ^23 ^2+ n+l И+2 И+з И+4_ Р11 Р12 Р13 р2\ Р22 Р23 При выполнении гипотезы Hq мы имеем (Mi, N&, N^) ~ Mult(n/+, рь Р2, Рз), где Pj = p\j = р2/, / = 1, 2, 3, р+ = 1 и |©0| = 2. Далее, In Л = Const 4- и+/ In pj. / Следовательно, р, = ^-. |е0|=з-1=2. ' л++ При выполнении гипотезы Н\ мы имеем (N\\, N\z, Мз)~МиН(И1+, рн, Р12, Р13) (мультиномиальное распределение с параметрами (ni+, рн, Р12, Р13)) и (М?Ь А/22, Л^2з)~^иИ(П24-, Р2Ь Р22, Р23), Р\ \ +Р12+Р13 =Р21 +Р22+Р23= 1- Таким образом, |©j | = 4. Далее, при рц = и ец = и1+и+/7и++ полу- чаем 2 In Л = 2 £ п„ ln(p,7/j>;) = 2 In = = 2 Е »«S = 2 так как |©i | - |©о| = 2, мы сравниваем 2 In Л с х|- В данном примере имеем L м H А 103 145 252 500 В 140 136 224 500 n+i 243 281 476 1000 eii 121,5 140,5 238 riij - et i для A -18,5 4,5 14 ng - gj j для В 18,5 -4,5 -14
372 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Следовательно, 2 In Л = 2((18*5) I (4,5) О4) \ ~ у rgg 21пЛ 2^ 121 5 + (40 5 + 238 ) ~ /,569. Значение значимо на уровне 5% и не значимо на уровне 1%: 2 In Л = 7,569 < Хг(0.99) = 9,21 и 21пЛ > $0,95) = 5,99. □ Задача 11. Следующая таблица содержит распределение, полученное в результате 320 подбрасываний 6 монет, и соответствующие ожидаемые (теоретические) частоты, вычисленные по формуле биномиального распре- деления с параметрами р = 0,5 и п = 6. Число гербов 0 1 2 3 4 5 6 Наблюдаемые частоты 3 21 85 НО 62 32 7 Теоретические частоты 5 30 75 100 75 30 5 Примените критерий согласия с уровнем 0,05 для проверки нулевой гипо- тезы о том, что все монеты правильные. Указание. Распределение Хб Хб Х7 95%-квантиль 11,07 12,59 14,07 Решение. Необходимые данные для применения критерия согласия запишем в таблице: Число гербов п е п — е 0 3 5 -2 1 21 30 -9 2 85 75 10 3 НО 100 10 4 62 75 -13 5 32 30 2 6 7 5 2 6 Вычислим статистику Т = - ez)2/ez-: Z=1 т 4 81 100 100 169 4 4 1 , C-OQ , . _пч о Г-5 + 30+ 75 + 100 + 75 + 30 + 5 “ 150(240 + 425 + 538+ 150)—9,02. Находим |0|| =6, |0о| =0, Хб = 12,59 при уровне 0,05; таким образом, Т < xi, и нет оснований отвергать гипотезу Hq. □ Задача 12. а) Сформулируйте и докажите теорему Рао—Блекуэлла. 6) Пусть Х|, ..., Хп — независимые случайные величины, равномерно распределенные на (9, 39). Найдите двумерную достаточную статистику
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 373 Т(Х) для 9. Покажите, что 9 = Aj/2 является несмещенной оценкой пара- метра 9. Найдите несмещенную оценку параметра 9, которая является функцией от Т(Х) и среднеквадратическая ошибка которой не больше, чем средне- квадратическая ошибка оценки 9. Решение, а) Теорема Р—Б: пусть Т — это достаточная статистика для 9, а 9 — несмещенная оценка для 9, у которой Е92 < оо при всех 9. Определим 9 = Е[9| Т]. Тогда для всех 9 выполняется неравенство Е[(б -0)2] Е[(6 -G)2]. Неравенство будет строгим, если 9 не является функцией от Т. По формуле условного математического ожидания Е[9] = Е[Е(91 Г)] = Е9, следовательно, 9 и 9 имеют одинаковое смещение. По формуле условной дисперсии Var(9) = E[Var(9 | Т)] + Var[E(91 Т)] = E[Var(9 | Т)] + Var(9). Следовательно, Var(9) Var(9), и равенство выполняется, только если Var(9 | Т) = 0. б) Относительно второй части задачи: ср. ее с примером 1.6.2. □ Задача 13. а) Сформулируйте критерий факторизации для достаточной статистики и докажите его в дискретном случае. б) Пусть Xi, ..., Хп — это случайная выборка из распределения Пуас- сона и значение параметра 9 неизвестно. Найдите одномерную достаточную статистику для 9. Решение, б) Если Х\, ..., Хп — независимые Ро(9)-с. в., то /=1 4 i 7 Следовательно, Т(Х) = Xi является достаточной статистикой. □ i Задача 14. Предположим, что мы опросили 50 мужчин и 150 женщин, являются они «жаворонками», «совами» или же не принадлежат ни к од- ному из этих типов (неопределенный тип). Полученные данные содержатся
374 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» в следующей таблице. Жаворонки Совы Неопределенный тип Всего Мужчины 17 22 11 50 Женщины 43 78 29 150 Всего 60 100 40 200 Получите критерий независимости классификации в терминах (обоб- щенного) отношения правдоподобия. Каким будет результат применения этого критерия при уровне 0,01 ? Указание. Распределение xf Х2 Хз Xs Хб 99%-квантиль 6,63 9,21 11,34 15,09 16,81 Решение. Мы проверяем гипотезу /70: P// = «iP/, а,-, 0/^0, /=1,2; /=1,2,3; ^а,- = ^0/ = 1, против альтернативы - рц > о, ^2p,7=i. При выполнении гипотезы Но о. м. п. имеют вид а,- = 2i±, = Iti, п г/ п п;+ = n+j = Y^riij и оцениваемые элементы равны 1 1 ~ ~ m+n+j ец = npi+p+j = Таблица полученных оценок такова: е(7- Жаворонки Совы Неопределенный тип Всего Мужчины 15 25 10 50 Женщины 45 75 30 150 Всего 60 100 40 200 Далее, 2 з 21пЛ = 2^252л,71п^. /=1 /=1 4 Поскольку разности bij=riij•-ez/- относительно малы (|8zy/rzz/| ^2/15^0,133) и |©i | — |©о| = (2 — 1) • (3 — 1) = 2, можно записать 2 3 / \2
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 375 Проведем вычисления: 2 3 <ф!> |(.|г=оя * ~ сц 1U £О I О lu OU 1= 1 /= 1 Полученное число меньше чем = 9,21. Таким образом, при задан- ном уровне мы не отвергаем гипотезу Hq. □ Задача 15. а) Объясните, что понимают под равномерно наиболее мощным критерием, его функцией мощности и размером. б) Пусть У|, ..., Yn — независимые одинаково распределенные слу- чайные величины с общей плотностью ре~ру, у 0. Укажите равномерно наиболее мощный критерий для проверки равенства р = ро против альтер- нативы р < ро и определите функцию мощности критерия. Решение, а) Пусть Х\, ..., Хп — н. о. р. с. в. со значениями в У и общей п. р. в./д. ф. р. /, зависящей от параметра 0 е ©. Предположим, что нам необходимо проверить гипотезу Hq: 0е©о против альтернативы Н\: 0€©i, где ©о П ©| = 0, ©о U ©| = ©. Определим критическую область С С Уп так, что гипотеза Hq отвергается, когда хе С, и принимается, когда х£С. Тогда вероятность отклонить гипотезу Hq при заданном 0 е © равна ш(0) (= Ш(0, С)) = Р0(ХеС). Чтобы оценить размер критерия, возьмем а (= а(С)) = sup[ay(0, С): 0 G ©о]. Функцию мощности определим как сужение w на ©ь Разность 1 - ш(0) для 0 е ©1 равна в. о. р. II, т. е. вероятности принять гипотезу Hq, когда она ложна. Критерий с критической областью С называют р. н. м. критерием размера а (для проверки гипотезы Hq против альтернативы Н\), если 1) а(С) а и 2) для любого критерия с такой критической областью С*, что а(С*) а, выполняется следующее неравенство: ш(0, С)^ш(0, С*), 0€©i. б) Для рассматриваемых с. в. Уь ..., Yn мы воспользуемся монотонным отношением правдоподобия. Для начала рассмотрим гипотезу Hq против простой альтернативы //Pl: p = pi, где р| —некоторое выбранное значение, меньшее ро. Тогда о. п. равно P?exp(-pi2>,) г 1 Aw₽,;w0(y) =---т----= (^) exp (р0 - pi)^//, • pgexp(-poS>) VP»' L V -I
376 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Критическая область имеет вид > k} и, следовательно, не зависит от выбора pi < ро. Тогда для любого k > 0 критерий с такой критической областью является р. н. м. критерием размера а(й) = РРо(53 У1 > £)• Функцию мощности найдем так: поскольку 2рК ~ Ехр( 1/2), мы имеем 2р ^2 ~ Gam(n, 1/2) ~ у^п. Размер критерия равен «(*) = Р₽о (Е > *) = > 2ро Ar), k > 0; это соотношение позволяет записать обратную функцию 6(a), 0 < a < 1. Следовательно, при заданном а функция мощности критерия имеет вид рр (Е У1 > *(«)) = P4i (X > 2p*(a)), р < ро. □ Задача 16. Для десяти стальных слитков, полученных в результа- те некоторого производственного процесса, были произведены измерения степени твердости, и результаты таковы: 73,2, 74,3, 75,4, 73,8, 74,4, 76,7, 76,1, 73,0, 74,6, 74,1. В предположении, что распределение степени твердости достаточно хоро- шо описывается нормальной функцией, получите оценку среднего значения твердости. Производитель утверждает, что он поставляет сталь с показателем твердости 75. Получите критерий (обобщенного) отношения правдоподо- бия для проверки этого утверждения. Пусть известно, что для указанных данных п $™=Е<х'-*)2 = |2’824- /=| Каким тогда будет результат, полученный при применении этого критерия с уровнем значимости 5%? Указание. ___________________________________ Распределение <9 tio 95%-квантиль 1,83 1,81 97,5%-квантиль 2,26 2,23 Решение. Удобно перенормировать данные: Z; = 10(х, - 73), что при- водит к значениям = 2, 13, 24, 6, 14, 37, 31, 0, 16, 11, Ez-= 156- Е2? = 3716 И 2=iЕ2'- =15’6’ s-=Е2? - KE2*)2=3716 - ^ =1282Л
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 377 Рассмотрим оценки X — ± £2Х,~М(ц, о2/п) и a2 = Sxx/(n — 1), где д2/а2~ ~Х2_Г Вычислим их значения: х = 73+ z/10 = 74,56, « 1,425. Мы хотим проверить гипотезу Hq: ц = ц0 = 75 против альтернативы Н\: pt / 75, полагая X/ ~ N(p, а2) с неизвестным а2. Совместная п. р. в. имеет вид Я* и, <*2) = (2^/г exp["i Е(х- ~ ^)2] • Правдоподобие гипотезы Hq равно p — nfc sup[/(x; цо, о2): а2 > 0] = ^)я/2, где Од = ~ - Цо)2 = ±$хх + (х - Цо)2- Аналогично правдоподобие гипотезы Н\ равно р—п/2 sup[/(x; о2): И е R, о2 > 0] = (2^)а/2, * 2 1 с где af = -Sxx. 1 п Тогда Л„,^) = (1 + =^Г- Полагая t = 2^2^—Р°), где Sxx — y/Sxx/(n - 1), мы отклоняем гипотезу Hq Sxx при больших значениях Л//,д0, т. е. когда |/| велико. Замечание. Для решения задачи нам не потребовалось привлекать о. о. п. Л//|;//о- Действительно, при выполнении гипотезы Hq мы имеем у/п(Х - цо) . 1 =-----1-----~ 1Л_1. Sxx Таким образом, применяя критерий размера а, мы отклоняем Hq, если |/| > tn_i (а/2). Вычислим значение И = л/Г0|х - 75| = / 10 \1/2,0 44яз J 166 /М9 \ 1,425/ это число меньше tg(0,025) = 2,26. Следовательно, гипотеза Hq не отвер- гается при уровне значимости а = 0,05. □ Задача 17. Из каждой сотни бетонных смесей выбирают шесть бло- ков-образцов, которые проходят тестирование на прочность, и число тех блоков из шести, которые не прошли тест, заносят в таблицу: число х блоков, не прошедших тест число смесей, в которых х блоков не прошло тест 0 1 2 3 4 5 6 53 32 12 2 1 0 0
378 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика В предположении, что вероятность не пройти тест одинакова для всех блоков, получите несмещенную оценку этой вероятности и объясните, как получить 95%-доверительный интервал для этой вероятности. Решение. В этом примере рассматриваются п = 100 н.о. р. с. в. X/ ~ 1 6 ~ Bin(6, р). Несмещенной оценкой для р является р = — £2 knk, и ее значение равно *=° 1-32 + 2-12 + 3-2 + 4-1 _ 66 _ 600 “ 600 “ 1 6 В силу ЦПТ мы имеем Р = — £2 kNk ~ N(p, р( 1 - р)/(6л)) при до- Ьп k=0 статочно больших и, так что запишем (Р~Р) Ъп Р(1 -Р) ~N(0, 1). Поскольку р « р, = ЛЛЛ * (о.о 128)!. 6л 6л 600 Для N(0, 1 ^распределения имеем 20,975 ~ 1,96, следовательно, приближен- ный доверительный интервал имеет вид ( !р(\-р) А . /Р(1-Р) - 20.975 у 6п , Р + 20.975 у «(0,11-1,96 0,0128, 0,11 + 1,96-0,0128)«(0,085, 0,135). □ Задача 18. а) Объясните, что понимают под априорным распределени- ем, апостериорным распределением и байесовской оценкой. Как связана байесовская оценка с апостериорным распределением при выборе квад- ратической функции потерь и при функции потерь, равной абсолютной ошибке? б) Пусть Х\, ..., Хп — независимые одинаково распределенные случай- ные величины с равномерным распределением на интервале (0 — 1, 0+ 1), и пусть априорное распределение параметра 0 является равномерным на интервале (20, 50). Вычислите апостериорное распределение параметра 0 при заданном х = (xj, ..., хп) и найдите оптимальную байесовскую оценку для 0 при квадратической функции потерь и при функции потерь, равной абсолютной ошибке. Решение, а) Байесовская оценка минимизирует средние апостериор- ные потери h(a). Для квадратической ф. п. имеем h(a) = - 0)2я(01 х) d0.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 379 Следовательно, минимум функции h достигается в такой точке а, что hr(a) = 0, т. е. а я(01 х) М = 0я(01 х) dft. Таким образом, а(х) = § 0п(0 | х) db, т. е. это апостериорное среднее. Для функции потерь, равной абсолютной ошибке, h(a) = |а - 0|к(0 \x)dti, и h'(a) = 0, когда § п(0 | х) dti = § п(01 х) dti = —оо а т. е. в апостериорной медиане. б) Если апостериорная плотность я(0) равна —/(20< 0 < 50), то функ- ция правдоподобия принимает вид п п Лх;б)=(0 ПШ-9|<1) /=| и апостериорная плотность такова: к(0 |х) ос /(20 < 0 < 50)/(тахх/ - 1 < 0 < minx, + 1) = = /(20 V (тахх/ - 1) < 0 < 50Л (minx, + 1)), где а V b = тах{а, b}, а /\Ь = min{a, Ь}. Таким образом, апостериорное распределение является равномерным на этом интервале. Следовательно, обе функции потерь, и квадратическая, и абсолютной ошибки, приводят к одной и той же байесовской оценке 0 = ^[20 V (тахх/ - 1) + 50 Л (minx, + 1)]. □ Задача 19. Пусть ..., Хп — независимые одинаково распределен- ные N(p, Ц2)-с. в., pt > 0. Найдите двумерную достаточную статистику для р, цитируя при этом все необходимые вам результаты. Чему равна оценка максимального правдоподобия параметра р? Решение. Мы имеем п ( 1 п 1 п \ Кх, р) = П/(х„ ц)осехр( —2 ]ьх-? + й 52х'_/г1п^)- /=1 ' /=1 /=1 ' (П П \ £х?, является ^ста- точной статистикой для pt. /=1 /=I
380 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: Оценка максимального правдоподобия максимизирует функцию /(х; р) или Н) = -2^27'2 + ^Т| -л1пц. Решая уравнение = 0, находим p = ^(-T1 + ^7’f + 4n7-2). □ Задача 20. а) Что называют простой гипотезой? Определите понятия размера и мощности для критерия проверки простой гипотезы против простой альтернативы. Сформулируйте (без доказательства) лемму Ней- мана—Пирсона. б) Пусть X — случайная величина с распределением F. Рассмотрим нулевую гипотезу Hq : F является стандартным нормальным распределением N(0, 1) против альтернативы /71: F — двойное экспоненциальное распределение с плотностью х е R. 4 Найдите критерий размера а, а< 1/4, имеющий наибольшую мощность, и покажите что его мощность равна e“z/2, где Ф(/) = 1 — и Ф — функция нормального распределения N(0, 1). Указание. Используйте соотношение Р//0(|Х| > 1) = Ф(— 1) + 1 - Ф(1) = = 0,3174. Решение. См. пример 2.2.4. □ Задача 21. Предположим, что одномерная случайная величина X имеет равномерное распределение на отрезке [0, 0] и требуется оценить 9 при функции потерь ^(9, а) = с(9 - а)2, где с > 0. Найдите апостериорное распределение для 9 и оптимальную байе- совскую оценку относительно априорного распределения с плотностью п(9) = 9е“е, 9 > 0. Решение. Мы хотим минимизировать по а средние потери h(a) = п(9 | х)€(9, a) d§. Здесь апостериорная плотность равна п(91 х) ос п(9)/(х; 9) = 9е“е^/(0 х 9) = е“е/(9 х 0). и
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 381 Значит, h(a) = с е-е(0 - a)2 dti; для отыскания минимума мы решаем уравнение h'(a) = 0, т.е. § e~e0d0 = а § dft или (х + \)е~х = ае~х. X X Следовательно, а = х + 1. □ Задача 22. а) Что такое критерий обобщенного отношения правдопо- добия? Объясните, как применяют такой критерий. б) Пусть Х\, ...,Хп — независимые случайные величины и X/ имеет распределение Пуассона с неизвестным средним X/, i = 1, ..., п. Найдите вид статистики обобщенного отношения правдоподобия для проверки гипотезы Hq : Xi =... = Хп и покажите, что его можно аппрокси- мировать выражением 1 п ±Р%;-Х)2, где Х = n~l X- /=1 Если для п = 7 вы определили, что значение этой статистики равно 27,3, то следует ли вам принять гипотезу Hq? Обоснуйте свой ответ. Решение. См. примеры 2.5.5 и 2.5.6. □ Задача 23. Рассмотрим линейную модель регрессии У, = 0х, + е(, i= 1, ..., и, гдеXj, ..., Хп — заданные константы, a cj, ..., гп — независи- мые одинаково распределенные N(0, о2)-с. в. с неизвестной дисперсией а2. Найдите МНК-оценку р для р. Укажите (без доказательства) распре- деление оценки р и опишите, как бы вы проверяли гипотезу Hq\ р = р0, где Ро — заданное значение. Решение. Заметим, что У/ ~ N(Bxz, а2). МНК-оценка р минимизирует сумму 52(У/ - ЕУ,)2 = ^2(У/ - Р*/) • Продифференцировав по р, находим / / (2 \ Положим теперь R = YjYi -£х')2~а2Хл-1-
382 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» Тогда R не зависит от [3. Чтобы проверить гипотезу Hq, вычислим значение Р - ро /у^ 2 ^/(n-DVV 1 и сравним его с где t,I_|(a/2) ищется из соотношения Pt„_,(X < < t„_i(a/2)) = 1 — a/2. Двусторонний критерий состоит в том, чтобы от- вергнуть гипотезу Hq, если t > t„_|(a/2) или t < -t„_i(a/2). □ Задача 24. а) Пусть Х\, ..., Хп — независимые одинаково распреде- ленные N(p, о2)-случайные величины, где р и а2 неизвестны. Найдите оценки максимального правдоподобия р, а2 параметров р, о2, основываясь на Х\, ..., Хп. Покажите, что р и а2 независимы, и найдите их распределения. б) Предположим, что требуется построить интервал предсказания 1(Х\, ..., Хп) для N(p, а2)-случайной величины Хо, независимой от предыдущих. Потребуем, чтобы выполнялось ограничение Р{ХОеДХ1......Х„)} = 1-а на совместное распределение Xq, Х\, ..., Хп Пусть ...,Хп) = Н1- yd^l + [1 + ya У1 + i n /v -х / (- /«+ Рассмотрев распределение с. в. (Xq — р) / I о И -—- \, найдите значение у, для которого Р{Хо в ^(Хь • • •» %п)} = 1 — <*• Решение, а) Запишем п f(x; [j, a2) = IJftx,; ц, о2) = (2яо2)"п/2 /=! ехр "i&' -l1)2 • Для того чтобы найти о. м. п., решаем уравнение In /(х; р, о2) = In /(*; р, о2) = О и получаем, что р = х, a2 = -Sxx, где Sxx = £(х/ - х)2. п / б) Утверждается, что X ~ N^p, ~ Хп-\ и эти с- в- незави- симы. Действительно, запишем £(Х, - р)2 = J2(XZ - X)2 + п(Х - р)2. / /
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 383 Пусть А—такая действительная ортогональная матрица размера п х и, что вектор Y = АТ(Х — р) имеет первую компоненту У1 = \/п(Х — р). Ком- поненты Уь Yn вектора Y являются н.о. р. N(0, а2)-с. в. Поэтому п Е1-? ~а2Хл-1 и эта сумма не зависит от Xj. /=2 п п Более того, £2 У2 = Z2 № “ ц)2. Следовательно, /=1 /=1 п п п п = ^г2-у2 = £(Х,-(1)2-п(Х-^)2 = £(Х,-%)2. /=2 /=1 /=1 z—1 Далее, ~ N(0, 1), и эта величина не зависит от Д-Sxx ~ у2 .. / 1 74/7 1 V1 + -° V п Поскольку sxx = ду/п/(п — 1), видим, что ~ tn_i. Тогда вероят- ность Р(Хо Ely) Равна Отсюда получаем т = У^?Т^1(а/2)- п Задача 25. Сформулируйте и докажите лемму Неймана—Пирсона. В своем ответе вам следует точно определить следующие понятия: размер, критическая область, вероятность ошибки II рода. Решение. Пусть необходимо проверить простую нулевую гипотезу Hq : f = /0 против альтернативы Н\: f = fi, где fa и fi > 0 заданы в одной и той же области и непрерывны. Лемма Неймана—Пирсона гласит: среди всех критериев размера не больше а критерий с наименьшей в. о. р. II (т.е. ошибкой принять гипотезу Hq, когда верна гипотеза Н\) задается критической областью С = {х: A(x)/foW > К}, где К опре- деляется соотношением а = Р(Х G С | Hq) = § /о(х) dx. с Доказательство леммы Н—П: см. §2.2. □ Задача 26. Пусть Х\, ..., Хп — независимые одинаково распределен- ные N(p, о2)-с. в., где дисперсия а2 неизвестна.
384 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика а) Укажите (без доказательства) вид совместного распределения вели- _ п п _ чинХ = А7-1^Х/ и5хх = ^(Х/-Х)2. /=1 /=| 6) Подробно опишите t-критерий Стьюдента для проверки нулевой гипотезы Hq: pi = pt0 против альтернативной гипотезы Н\: pt ф pt0- в) Что понимают под критерием обобщенного отношения правдоподо- бия? Подробно объясните, как применять этот критерий. Постройте критерий обобщенного отношения правдоподобия для про- верки гипотезы Hq: pt = pio и покажите, что этот критерий является экви- валентным критерию из п. б^. 2 । Решение, а) Мы имеем X~N^pi, и ^Sxx^Xn-i’ и эти величины независимы. б) По определению t-распределения находим, что Т(Х) = (X - р) / yRsxx = / V по- Sxx где Sxx = y/Sxx/(n ~ !)• Следовательно, Т(Х) ~ tn_i при Hq. Таким обра- зом, мы отвергаем гипотезу Hq в критерии размера а, если наблюдаемое значение t статистики Т либо больше чем верхняя квантиль t*_j (ос/2), либо меньше чем — t+_j(a/2). в) Предположим, что необходимо проверить гипотезу Hq : 0 € ©о против общей альтернативы Н\: 0 € ©, где © D ©о- Положим _ sup[/(x; в): AWi;Wo(x)- sup[/(x.e).0€0op при этом число степеней свободы р = |©| - |©о|. Критерий обобщенного отношения правдоподобия отклоняет гипоте- зу Hq при больших значениях Л/у, ;/у0. Так как выборка Х=(Х\, .. .Хп) имеет н. о. р. компоненты Х\, ..., Хп, при больших п мы имеем 2 In Л/У|;/у0(Х) ~/2 при Hq. Следовательно, мы отклоняем гипотезу Hq, применяя критерий размера (приблизительно) а, если 21пЛ//1;//0(х) > с, где Р()(р > с) = а. При выполнении гипотезы Н\ функция правдоподобия имеет вид /(х; pt, о2) = (2по2) л/2 ехр 1 п “I “2q2 52(Х/ “ ’ /=! J Эта функция достигает максимума по pt, о2 в точке pi = х и о2 = -Sxx. При выполнении гипотезы Hq зафиксируем pt = pio и найдем максимум по а2. 1 п Получим а2 = - 52 (х/ - pio)2.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 385 Таким образом, при выполнении гипотезы Н\ имеем sup[/(x; ц. о2): ц е R, а2 > 0] = (2к5хх/п)~п^2е~п^2, а если верна гипотеза Но, то / \-п/2 sup[/(x; pi0> а2): а2 > 0] = (2л^(х, - Цо)2) е~п/2. ' i ' Следовательно, Л„Л w = = L Охх J L Oxx J г1 + г«гМ]"« = л + L «Sxx J \ л — 1 / Мы отвергаем гипотезу //о Для больших значений Л//1;//о (или 2 In Л//|;//о), т. е. когда /2 (или |/|) велико, что совпадает с критерием из п. б). □ Задача 27. а) Объясните, что понимают под достаточной статистикой. Сформулируйте (без доказательства) критерий факторизации для доста- точной статистики. б) Пусть Хь..., Хя — независимые одинаково распределенные с. в. с общей плотностью /(х; 0) = 9e“0x+I, х и Найдите двумерную достаточную статистику для 0. Решение, а) Статистика Т = Т(х) является достаточной для парамет- ра 0, если условное распределение случайной выборки X при условии Т = t не зависит от 0 при каждом /. б) Совместная п. р. в. величин Х\, ..., Хп равна 9) = П9е~0Х'+,/(х'’ > fj) '=* /(minxz > gj. /=1 /=1 (л к minx/, £xj является /=1 7 достаточной статистикой для 9. □ Задача 28. Найдите выражения для оценок максимального правдопо- добия а, Р и о2 в линейной модели регрессии У/ = а + Рх/ + е/, 1^/0, где ei,...,en — независимые одинаково распределенные N(0, а2)-с. в. и Е xi = °- /=|
386 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Найдите совместное распределение оценок максимального правдопо- добия а, р, о2. Подробно объясните, как а) проверить гипотезу Hq: р = Ро против альтернативы Н\: р / Ро, б) построить 95%-доверительный интервал для а + р. Решение. Оценка максимального правдоподобия максимизирует по а, Рио2 функцию правдоподобия /(•; а, р, а2) для величин У1...Ул, ко- торая равна произведению п г П П f(y;\ а, р, о2) = (2ла2)"я/2 exp - а - 0х,)2 /=| L /=1 Ясно, что о. м. п. для аир минимизируют - а - р*/)2; они имеют вид а = Y и р = SxY/Sxx, где /=| Y = n-'^Yh S,r = £>y,-, Sxx = Y,x?. Тогда о2 = -/?, где п • I и отметим, что /? = ^ У2 — лУ2 — (хгх)Р2. Чтобы Хп/ 1 найти совместное распределение, рассмотрим действительную ортогональ- ную матрицу А = (A if) размера п х п вида А = /1/х/п (хтх) 1/2 Х\ ....... \/у/п (ХТХ)~1/2Х2 ......... \1/х/п (ХГХ)~'/2Хп ........ где все столбцы начиная с третьего выбраны произвольным образом, но так, чтобы матрица А была ортогональной. Такая матрица существует, поскольку два указанных столбца (1/\/Й\ /(ХГХ)“,/2Х| 1/л/л/ \(xrx)",/2x„ являются ортонормальными (они ортогональны, так как ^2 = 0)-
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 387 Положим Z = ЛГУ, где Zz = 52 Тогда Z ~ N(/4г(ос 1 + рх), а2/), (1\ : I, а I — единичная матрица. Таким образом, случайные ве- 1/ личины Zi, ..., Zn независимы, и Z; ~N((Ar(a1 + |3х)),, а2). Поскольку Zj = y/iia ~ N(v^oc, о2), мы получаем а ~ N(a, а2/и). Аналогично, по- скольку Z2 = (xrx)1/2p~N((xrx)1/2p, а2), имеем p~N(p, а2/(хгх)). Далее, Z3.....Zn - N(0, о2). В силу ортогональности матрицы А выполняется равенство £Z? = При этом, с одной стороны, для я > 3 получаем 1 * п = п&2 + (хгх)02 + ^2 i 3 а с другой стороны, Y2 = R + nY2 + (хгх)02. Следовательно, ст2 п^2 - а2 ~ а2 52 ~ Хп-2- 3 и эта величина не зависит от Z\ и Z%, т.е. от а и р. Рассмотрим теперь п. а): если гипотеза Но верна, то „ ($-ро)(хгх)|/2 (R/(n -2))'/2 ~ п~2' Таким образом, мы отвергаем гипотезу Hq в критерии размера а, если значение t статистики Т будет больше trt_2(a/2), верхней a/2-точки рас- пределения trt-2, или меньше —trt-2(a/2). Далее рассмотрим п. б): запишем a + p-N^ + p^^ + jy); эта сумма не зависит от R. Таким образом, a + ^-(a + P) //1 1 „л1/2 Следовательно, Р (-t„_2(a/2) < (ос + *3) /2 < tn_2(a/2A = 1 - a,
388 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Т. е. Р (а + ₽ - t„_2(a/2)((l + -!-)/?/(„ - 2)) '/2 < а + ₽ < < а + 0 + t„_2(a/2)((l + - 2)) '/2) = 1 - а. Это означает, что (а + р - t„_2(0,025)((l + ^)R/(n - 2)) а + р + t„_2(0,025)(Q + -*-)/?/(« - 2)) '/2) является 95%-доверительным интервалом для а + |3. □ Задача 29. а) Что понимают под 2 х 2-таблицей сопряженности при- знаков? Опишите две выборочные схемы, которые приводят к такой таб- лице. б) Подробно объясните, как применяется критерий /2 для проверки независимости строк и столбцов в таблице сопряженности признаков раз- мера 2x2. Кратко прокомментируйте, как влияет выборочная модель на проверку независимости. Решение, а) Таблица сопряженности признаков размера 2x2 пред- ставляет собой 2 х 2-массив частот, полученных (например) при пере- крестной классификации совокупности объектов (или индивидуумов) по двум признакам, где каждый из признаков имеет две ступени (разряда, уровня), Признак I уровень 1 уровень 2 Признак II уровень 1 а ь уровень 2 с d где а — число объектов, принадлежащих уровню 1 по признаку I и уровню 1 по признаку II, и т. д. Рассматривают два случая: 1) фиксируется общая сумма п = а 4- b + + c + d, и тогда совместное распределение величин (Л, В, С, D) мультино- миальное с вероятностями ячеек рц, pi2, Р21, Р22, или 2) фиксируют две частные суммы (например, суммы элементов по строкам а + b и с + d), и тогда имеют дело с двумя независимыми биномиальными распределени- ями, например А ~ Bin(a + ft, рц), С ~ Bin(c 4- d, Р21)- б) Для проверки гипотезы о независимости в случае 1) выбирают ну- левую гипотезу рц = a/Pz-, /, j = 1, 2, а в случае 2) нулевая гипотеза состоит
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 389 в том, что р\ \ = Р2\ = р. Рассматривают статистику вида £2 _ (наблюдаемое — ожидаемое)2 ожидаемое ячейки где ожидаемая частота ячейки (/, /) равна (сумма элементов f-й строки) х (сумма элементов /-го столбца)/^. При нулевой гипотезе Z2 ~ /2. Следовательно, (приблизительный) крите- рий размера а отклоняет нулевую гипотезу, когда Z2 превосходит h\(а), верхнюю а-точку распределения Хг Выборочная модель не влияет на проверку гипотезы о независимости, поскольку статистика и ее асимптотическое распределение при нулевой гипотезе имеют один и тот же вид для обоих случаев. □ Задача 30. а) Объясните термины «априорная» и «апостериорная» плотность, которые используются при байесовской методологии оценива- ния параметра 0. При заданной функции потерь ^(9, d), которая определяет потери, по- несенные при оценивании интересующего нас параметра 9 величиной d, опишите процедуру вычисления оптимальной байесовской оценки пара- метра 9. Найдите общий вид точечной оценки, если £(9, d) = (9 — d)2. б) Пусть Х\, ..., Хп — независимые одинаково распределенные отно- сительно 9 с. в. и Р(Х| = 1 19) = 1 - P(Xi = 019) = 9. Предположим, что априорное распределение параметра 9 является равномерным на интерва- ле (0, 1). Найдите оптимальную байесовскую оценку для функции потерь £(9, d) = (9 — d)2. Чему равна оценка максимального правдоподобия пара- метра 9? Покажите, что оптимальная байесовская оценка 9 является смещенной, а оценка максимального правдоподобия является несмещенной. Указание. При целых а и b выполняется равенство 1 -x)b~'dx = (a- !)!(£>— 1)!/(а + 6- 1)! о Решение, а) При байесовском оценивании параметр 9 рассматрива- ется как случайная величина. Априорное распределение выражает на- ши первоначальные предположения относительно 9 в виде определен- ной п. р. в./д. ф. р. я(9). Апостериорная плотность распределения имеет п. р. в./д. ф. р. тх(9 | х); она уточняет наши предположения о 9 в свете на- блюдаемой выборки х: Ti(9 |х) ос п(9)/(х; 9). Оптимальная байесовская оценка d выбирается так, чтобы миними- зировать (по d) средние апостериорные потери Ех£(9, d), где Ех — это
390 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика математическое ожидание (по 0) относительно апостериорной плотности тс(- |х): d(=d(x)) = arg min ^£(9, d)n(9|x)d9 или У^1(9, d)n(9 |х). Если £(Q, d) = (9 — d)2, то минимум достигается при d = § 9л(91 х) dft ИЛИ ^9п(9|х), е т. е. при апостериорном среднем. б) В данном примере выборка х = (хь ..., хп) имеет вид х, = и f(x; 9) = jjftx,; 9) = Д9Л'(1 - 9)1-*' = 9^ Xi( 1 - 9)n"E Af. /=1 /=1 Тогда п(9 |х) ос п(9)/(х; 9) ос 9^ х,(1 - 9)"“^ х\ т. е. апостериорным распределением является Bet(/ + 1, п — t + 1 ^распре- деление: к(9 |х) ос п(9)/(х; 9) = } ——--------, 0 < 9 < 1, § 9'(1 -9)"-'t/9 о где t := £х,. Таким образом, оптимальная байесовская оценка при £(9, d) = (9 — d)2 задается формулой \9'+,(1 dB = о= (/ + 1)! (и - /)! (л + 1)! = /-bl = £х/ + 1 । (л 4-2)!/! (л - /)! п + 2 п + 2 $9'(1 -9)"-'</9 о (здесь использовано указание). С другой стороны, максимизируя 1п/(х; 9) по 9, находим 9 = х = ^х//л. Оценка максимального правдоподобия имеет среднее Е(9) = 9, т. е. явля- 1 п + 2 ется несмещенной. А среднее Ed = (л9 4- 1) отлично от 9, и, следо- вательно, d является смещенной оценкой. □ Задача 31. Пусть Х\, ...,Хб — выборка из равномерного распреде- ления на отрезке [0, 9], где 9 е [1, 2] — неизвестный параметр. Найдите несмещенную оценку параметра 9 с дисперсией, меньшей чем 1/10.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 391 Решение. Положим Л4 = тах[Х|.....Хб]. Тогда М является достаточной статистикой для 0, и мы можем использо- вать ее для построения несмещенной оценки для 0. Находим Рм(У'. 9) = Ре(М < у) = Ре(Х| < у, ..., Х6 < у) = 6 = ПРе(Х,<у) = (Л/(//;е))6, /=1 Плотность распределения вероятностей случайной величины М имеет вид /«(</; 9) = ^0/; 9) = ^, 00=^9, а среднее значение равно с.. с 6/ , 6/1° 60 Е?М - де d-У 70610 7 • Таким образом, несмещенной оценкой для 0 будет величина 7Л4/6. Далее, 7М С(7М\2 fc7M\2 г72-6/ , 02 7202 fl2 О2 VarV = EU) -(Ev) =F6-e -48- Если 0 е [1, 2], то ?_ е fl 1] 48 148* 12 J ’ т.е. 02/48 < 1/10, как и требовалось. Следовательно, получен ответ: требуемая оценка = тах[Х|, ..., Хб]• □ Задача 32. Пусть Х|, ..., Хп — выборка из равномерного распределе- ния на [0, 0], где 0 е (0, оо) — неизвестный параметр. а) Найдите одномерную достаточную статистику М для параметра 0 и постройте 95%-доверительный интервал для 0, основываясь на М. б) Предположим теперь, что 0 — это случайная величина с априорной плотностью 71(0) ос /(0 а)0“\ где а > 0 и k > 2. Вычислите апостериорную плотность для 0 и найдите оптимальную байесовскую оценку 0 при квадратической функции потерь (9 - 9)2-
392 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Решение, а) Положим M = max[Xi......Хл]. Тогда М является достаточной статистикой для 0. Действительно, функция правдоподобия имеет вид /(х;0) = /^’ 0>Хтах’ [О в противном случае. Таким образом, имея 0 и хтах, можно вычислить /(•; 0). Это означает, что М является достаточной статистикой. (Формально это следует из критерия факторизации.) Далее, Pq(0 Л4) = 1. Следовательно, мы можем построить довери- тельный интервал с левым концом Л4 и таким правым концом Ь(М), что Р(0 Ь(М)) = 0,95. Запишем Р(0 Ь(М)) = 1 - Р(Ь(М) < 0) = 1 - Р(М < (г'(0)) = 1 - 0,05; так как п. р. в. равна Mt; 0) = п^-/(0 < х < 0), мы получаем J00 = 0,05, следовательно, Ь~[ (0) = 0(0,05)|/п. и" Тогда из равенства М = 0(0,05)’^ получаем 0 = Л4/(0,05),/л. Итак, 95%-д. и. для 0 имеет вид (Л4, Л7/(О,О5) ^). б) Из формулы Байеса $ /(* I ф)М<р> d(f> следует, что апостериорная п. р. в. имеет вид п(0 I х) ос /(х; 0)п(0) ос q3_/(0 с), где с = с(х) = тах[а, хтах]. Таким образом, тс(0 | х) = (п 4- k - 1)сл+*-10“л“*/(0 с). Далее, при квадратической ф. п. нужно минимизировать § л(0 |х)(0 - 0)2 dft.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 393 Отсюда апостериорное среднее равно 0* = arg min § л(01 х)(0 - О)2 d0 = § 0л(01 х) df). В Поскольку ^Q_n_ft+ld0 = С 1 Д-п-Л+2 -n-k + 2 1 r2-n-k n + k-2 после нормировки получим а* £ + л - 1 & + л - 1 г . _ 8 ..................................... ° Задача 33. Кратко опишите стандартную процедуру, которую стати- стики применяют для проверки гипотез. В своем изложении вам нужно объяснить, в частности, почему нулевую гипотезу рассматривают иначе, чем альтернативу, а также описать, что понимают под критерием отношения правдоподобия. Решение. Пусть даны наблюдения '• I Хп) из п. р. в./д. ф. р. f. Мы формулируем две взаимоисключающие гипотезы относительно f: Hq (нулевая гипотеза) и Н\ (альтернатива). Эти гипотезы имеют разный статус. Гипотеза Hq трактуется как консер- вативная гипотеза, которая отклоняется только при явных свидетельствах против нее. Например, a) Hq: f = fQ против альтернативы Н\: / = Л; обе функции /о и f\ заданы (этот случай охватывает лемму Неймана—Пирсона); б) Hq: f = /о против альтернативы Н\: / //о; функция /о задана (этот случай включает в себя теорему Пирсона, которая приводит к Крите- рию х2); в) f = /(•; 0) определяется значением параметра; Hq: 0 е ©о против Н\: 0 е 0|, где ©о И ©I = 0 (например, семейства с монотонным отно- шением правдоподобия); г) Hq : 0 6 ©о против Н\: 0 е 0, где ©о С 0 и 0 имеет большую раз- мерность, чем 00- Критерий задается такой критической областью С, что если х е С, то гипотеза Hq отклоняется, тогда как при х^С она не отклоняется (что от- ражает консервативную природу гипотезы Hq). Ошибку I рода совершают, когда гипотеза Hq отклоняется, в то время как она верна. Далее, вероят- ность ошибки I рода определяется как Р(С) при выполнении гипотезы Hq: 13 — 1104
394 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика мы говорим, что критерий имеет размер а (или а), если max Р(С) а. Мы Hq выбираем а по своему усмотрению (например, 0,1, 0,01 и т. д.), устанавли- вая тем самым допустимый шанс отвергнуть гипотезу Но, когда она верна. Затем мы ищем критерий заданного размера а, который минимизирует вероятность ошибки II рода 1 — Р(С), т.е. максимизирует мощность Р(С) при гипотезе Н\. Чтобы определить соответствующую критическую область, рассматри- вают отношение правдоподобия max f(x | Н\) max f(x | Hq) ’ где максимумы берут от п. р. в./д. ф. р. для гипотез Hqh Н\ соответственно. Критическую область определяют как множество выборочных значений х, для которых отношение правдоподобия принимает большие значения, учи- тывая заданный размер а, как указано выше. □ Задача 34. а) Сформулируйте и докажите лемму Неймана—Пирсона. Объясните, что понимают под равномерно наиболее мощным критерием. б) Пусть Х\, ..., Хп — выборка из нормального распределения со сред- ним 0 и дисперсией 1, где О 6 R— неизвестный параметр. Найдите р. н. м. критерий размера 1/100 для проверки гипотезы Hq : 9 0 против Н\: 0 > 0, выразите ответ в терминах соответствующей функции распределения. По- дробно объясните, почему критерий действительно является равномерно наиболее мощным критерием размера 1/100. Решение, а) Лемма Н—П применима, когда обе гипотезы, и нуле- вая, и альтернатива, являются простыми, т.е. Hq: f = fo, f = f\, где /1 и /о — две п. р. в./д. ф. р., заданные в одной и той же области. Лемма Н—П утверждает: для любого k > 0 критерий с критической областью С = {х: f\(x) > kfo(x)} имеет наибольшую мощность Р](С) среди всех критериев (т.е. критических областей) размера Р(С). Доказательство леммы Н—П см. в §2.2. Равномерно наиболее мощный критерий размера а для проверки гипо- тезы Hq: 9 G ©о против альтернативы Н\: 9 G ©i имеет такую критическую область С, что 1) тах[Ре(С): 0 е ©о] а и 2) для любой такой области С*, что тах[Ре(С*): 0 е ©о] cl, мы имеем Ро(С) Ро(С*) для всех 0 е ©|. б) В этом примере, когда ~ N(0, 1), Hq: 9 0 и Н\: 9 > 0, мы зафиксируем 91 > 0 и рассмотрим простую нулевую гипотезу о том, что 9 = 0, против простой альтернативы: 9 = 9ь Логарифм правдоподобия i
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 395 принимает большие значения, когда сумма 52 х, принимает большие зна- i чения. Выберем k\ > 0 так, что та = р»(Е*>‘') ' i ' т.е. k\/yfn = z+(0,01) = Ф ‘(0,99). Тогда < юо для всех 0 < 0. Таким образом, критерий с критической областью С= {х: ^2%, >й. имеет размер 0,01 для случая, когда Hq: 0^0. Далее, для любого 0' > 0 область С можно записать в виде при некотором k' = й'(О') > 0. По лемме Н—П мы имеем Р^/ (С*КРе,(С), для любых таких областей С*, что Ро(С*) 0,01. Аналогичным образом проверяется, что для любого 0' > 0 выполняется неравенство Pq/(С*) РИС) для любых таких областей С*, что Р0(С*) Yqq для любых 0^0. Таким образом, С = |х: 52^’ > определяет р. н. м. критерий размера 0,01 для проверки гипотезы Hq против Н\. □ Задача 35. Студенты-математики большого университета во время ито- гового экзамена за год получают оценки, выраженные в процентах к выс- шему баллу. В выборке из девяти студентов зафиксированы следующие оценки: 28 32 34 39 41 42 42 46 56. Студенты-историки также получают оценки в процентах. В выборке из пяти студентов зафиксированы следующие оценки: 53 58 60 61 68. Свидетельствуют ли эти данные в поддержку гипотезы о том, что оценки математиков варьируются больше, чем оценки по истории? Подтвердите свои заключения вычислениями. Прокомментируйте выбор модели. 13ш
396 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» Указание. Распределение N(0, 1) F9.5 F8.4 Хн Х13 Х12 95%-квантиль 1,65 4,78 6,04 23,7 22,4 21,0 Решение. Рассмотрим независимые с. в. X,(=^)~N(H1,o2), 9, r/(=r/)~N(p2,ai), /=1,...,5. Если О2 = о2> то 9 z 5 ч F=s D* -«7(1-Г)2) ~ Fs<' /=1 ' /=1 ' где i / Находим X = 40 и значения, показанные в табл. 3.6. Таблица 3.6 Xi 28 32 34 39 41 42 42 46 56 Xi-X -12 -8 -6 -1 1 2 2 6 16 (Xi-X)2 144 64 36 1 1 4 4 36 256 При этом - X)2 = 546. i Аналогично У = 60, и мы находим значения, показанные в табл. 3.7. Таблица 3.7 Yi_ 53 58 60 61 68 Yi-Y -7 -2 0 1 8 (Yi - У)2 49 4 0 1 64 При этом £(У7 - У)2 = 118. Тогда / о * 546 273 F=~i-----= Til w2’3L 1-118 118 4 Однако <^g4(0,05) = 6,04. Таким образом, нет причин отвергнуть гипотезу Hq: при уровне 95%, т.е. мы не принимаем гипотезу о том, что о2 > о|. □
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 397 Задача 36. Рассмотрим линейную модель регрессии У,-= а + |3х, + Е,- ~ N(0, а2), « = п где xj, хп известны и 52 х, = 0 и где а, Р G R и о2 6 (0, оо) неизвестны. /=1 Найдите оценки максимального правдоподобия а, [3, а2 и выпишите их распределения. Рассмотрите следующие данные: х/ -3 -2 0 1 2 3 К-5 0 3 4 3 0 -5 Согласуйте с этими данными линейную модель регрессии и объясните, является ли она приемлемой. Решение. Случайная величина К имеет п. р. в. fy\y\ р, о2) = (2по2)“1/2е“(//”"а“^х')2/2°2, и ШМу; «. ₽.□*)=. 4 i Чтобы найти о. м. п. а и р, рассмотрим стационарные точки: %- 52 (у> -а - ₽х<)2 = ~2п(у - / откуда получаем а = У; ° = Jjj ^{У, - а - Рх<)2 = -2 52 Х^У‘ “ а - Рх')’ откуда получаем р = где У = £ Sxr = 22 х< и $хх = Тот •>хх ,• , , факт, что в этих точках достигается глобальный максимум, следует из единственности стационарной точки и из того, что /у(у; а, р, о2) —>0, если любой из параметров а, р или а2 стремится к оо или когда о2 —> 0. л Положим /? = 52(К — а — рх,)2, тогда в точке а2 имеем /=1 а д ( п. 2 \ п R -2^ 0=a^l-2lno = + откуда полУчаем а =„• Распределения оценок следующие: £~М0, о2/53хП и /?/°2~Х2-2-
398 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика ^yi В данном примере Y = 0 и Sxy = 0, от- <• куда следует, что а = (3 = 0. Далее, R = 84, • • т. е. о2 = 14. Эта модель не особенно хороша, так как данные (х,, К) демонстрируют параболиче- ------•---------хГ скую форму, а не линейную (см. рис. 3.3). □ Задача 37. Независимые наблюдения Х\, %2 распределены как пуассоновские случай- ные величины с такими средними значениями pii, pt2 соответственно, что Inpti = а, Рис. 3.3 1 , Q In [12 = а + р, где а и р — неизвестные параметры. Выпишите функцию логарифма прав- доподобия €(а, (3) и затем найдите д^ д^ д^ а) да2’ да др’ др2’ б) оценку максимального правдоподобия [3 параметра р. Решение, а) Для любых целых х\, Х2 0 находим логарифм £(хь X2i а, Р)=1пГе“и,^“е“И2^~-^=--еа4-Х1а-еа+^+х2(аР)-1п(х|!х2!). Таким образом, —=-еа(1 4-ер) 1 = -еа+Р —^ = -еа+0 да2* ец+е), е , е б) Рассмотрим уравнение для стационарной точки: ~^ = 0 %|+х2 = еА + ей4А J-^ = 0 => Х2 = ей+^. Следовательно, a = In Xi, В = In —. r X| Стационарная точка доставляет глобальный максимум, так как она един- ственна и I —* -оо при |а|, |р| -* оо. □ Задача 38. Срок службы некоторого электронного устройства описы- вается показательной п. р. в. /(/; 9) = | ехр(-для О, где t — выборочное значение величины Т.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 399 Пусть t\, .... tn — случайная выборка из распределения с указанной плотностью. Основываясь на лемме Неймана—Пирсона, найдите наиболее мощный критерий размера 0,05 для проверки гипотезы А/о - 0 = 6о против Н\ \ 0 = 01, где Оо и 01 заданы и Оо < 0ь Введем функцию « tn-\ Покажите, что мощность этого критерия равна 1 - Оя(|2Оя-*(1 -а)), где а = 0,05. Если для п = 100 наблюдается значение 52 Ь/п = 3,1, то принимается ли гипотеза Hq: 0о = 2? Обоснуйте свой ответ, используя асимптотическое распределение величины (7\ + ... + Тп)/п. Решение. Функция правдоподобия для выборочного вектора f Е R" имеет вид /(t0) = ^-exp(-|^26J/(min/,>O), t= j : ' ' ' \tn По лемме Н—П н. м. критерию размера а будет соответствовать такая критическая область $/ео(ПЛ = О.О5. С Поскольку область С имеет вид ! *
400 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика для некоторого с > 0. При выполнении гипотезы Hq имеем 1 п X = ^£7}~Gam(n, 1) и Р9о(Х < и) = G„(u). /=1 Следовательно, чтобы получить н. м. критерий размера 0,05, выберем с так, чтобы выполнялось равенство l-G„(^)=0,05, т.е. ^ = G7'(0,95). Тогда мощность критерия равна что равно 1 - G„[|Gn-'(0,95)], как и требовалось. Поскольку ЕТ/ = 0 и Var7} = лО2, для больших п имеем Е Ti - лО в силу ЦПТ. При выполнении гипотезы Hq: Oq = 2 получаем Е Ъ - л0о г =5,5. Ооул С другой стороны, z+(0,05) = 1,645. Так как 5,5 > 1,645, мы отвергаем гипотезу Hq. □ Задача 39. Рассматривается модель Z/,-=00+ 01Х,-+02Х?+ £;, 1 < i п, гдехь ..., хп — заданные значения, причем £х, = 0, и ej, ..., — неза- / висимые нормальные ошибки, имеющие нулевое среднее и неизвестную дисперсию о2. а) Получите уравнения для оценок максимального правдоподобия (ро, pi, рг) для (Ро, Pi, Рг). Не пытайтесь решать эти уравнения. б) Получите выражение для оценки максимального правдоподобия р* параметра Р! в упрощенной модели Но У< = 0о + 01 Xi + Ei, 1 i sS п, где 52 х,- = 0 и Е|, ..., Еп распределены так же, как и ранее.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 401 Решение, а) Так как с. в. У, ~ N(Po + PiX, + 02Х1 2, о2) независимы, функция правдоподобия имеет вид f(y I Ро, Р1, р2, о2) = П ехр[~2^'' " ₽° ~ Р|Х'’ " ^)2]= /=1 п 1 \"/2 2ло2/ 1 ж ехр "2^ 52^' “ Р° “ Р|Х; “ Р2Х^)2 • Найдем уравнения для стационарной точки логарифма правдоподобия: л । п dQog = ^2 “ I3» “ Р|Х; " М) = 0’ /=1 Я 1 п ~ Р° ” P>Xi ” = 0’ /=1 Я I п QQ-/ = ^2 52 Х<2^' “ Р° “ Р1Х; “ М) = °- /=1 Замечание. В принципе о2 также должно фигурировать здесь как па- раметр. Полученная система уравнений все же содержит о2, но, к счастью, уравнение dt/да2 = 0 можно опустить. б) Эти же рассуждения справедливы и для упрощенной модели. Ответ имеет вид где Sxy = 52%/У/, Sxx = $2 х2, т. е. получены точные значения. И здесь опять / / о2 не появляется в выражении для рь □ Задача 40. Пусть (хь ..., хп) — случайная выборка из распределения V V О с нормальной п. р. в. со средним pt и дисперсией сг. а) Выпишите функцию логарифма правдоподобия £({л, о2). б) Найдите пару достаточных статистик для неизвестных параметров (у, о2), сославшись на соответствующую теорему. в) Найдите оценку максимального правдоподобия (р, о2) для (у, о2). Используя стандартные распределения, постройте 95%-доверительный интервал для р. Решение, а) Логарифм правдоподобия имеет вид 1 п €(х; (1, о2) = - | 1п(2ло2) - ^^(х, “ Н)2- /=1
402 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» б) В силу критерия факторизации Т(х) является достаточной статисти- кой для ([1, о2) тогда и только тогда, когда £(х; ц, о2) = lng(7(x), (1, о2) + + lnft(x) для некоторых функций g и h. Запишем 1(х\ р, а2) = 1п(2по2) - 2^2 - х) + (х - ц)]2. i Следующие вычисления касаются только суммы -2^12[(х'_х)2+2(Х/_х)(х~^+(х_Н)21=-2^2 Z?x'~ х)2+п(х-[1)2 , Z=1 L/—1 п поскольку 52 (Х< - х) = 0. /=1 Таким образом, выбор Т(Х) = (X, 52№ -X)2 ] удовлетворяет критерию 4 i ' факторизации (при h = 1). Значит, Т(Х) = (х, 52№ “ ^)2} —достаточная статистика для ([д, о2). в) Оценки максимального правдоподобия для (р, о2) находятся из уравнений —£ = —£ = 0 д[1 д<^ и и имеют вид pi = х, д2 = ^, где Sxx = £(х,-х)2. Известно, что X~n(^) и 4>$хх~Х2-1- Поэтому Следовательно, если tn_ 1(0,025) — это верхняя точка распределения trt_i (Ptrt_,(X > tn_j (0,025)) = 0,025), то (х - -±=sxxtn-i(0,025), х + -UxxU)(0,025)) \ уя vп ' является 95%-д. и. для [д. Здесь sxx = y/Sxx/(n - 1). □ Задача 41. Предположим, что при заданном действительном пара- метре 0 наблюдение X имеет нормальное распределение со средним 0 и дисперсией и, где v известно. Пусть априорная плотность для 6 равна п(0) ос ехр(-(9 - (до)2/2уо),
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 403 где ро и vo заданы. Покажите, что апостериорная плотность для 6 равна л(0 | х), где п(91 х) ос ехр(—(0 - р,)2/2о|), a [di и ui определяются равенствами = [1р/ур + x/v 1 = 1 + 1 г4 l/v0 4- 1/v * Vj Ур у' Сделайте набросок типичных графиков кривых п(0) и л(0|х), отметив pto и х на 0-оси. Решение. Заметим, что /(х; 0) ос exp [- (х - 0)2j, -оо < х < оо. Поэтому п(0 I х) ос /(х; 0)л(0) ос ехр [- (х - 0)2 - (0 - р0)2]. Запишем {X - 6)2 + (6 - ро)2 = И + J_\g2 _ 20 Г- _|_ ЕМ + Eo + = У V0 \v"v0/ \V Vo/ Vo У = fl + _LWfi _ -г/аН-РоЛА2 _ (x/v + Ho/vo\2 , Po , x^ = \v Vo/ \ 1/vo 4- 1/v / \ 1/vo 4- 1/v / "v0 v = ^-(0 — pti)2 4- члены, не содержащие 0, где ui —искомые значения. Таким образом, n(0|x)ocexp|~2^(0 -р,)2 - ос ехр[-^-(0 - р,)2]. Обе п. р. в. п(0) и п(- |х) являются нормальными п. р. в.; как видно из рис. 3.4, дисперсия величины к больше, чем дисперсия величины п(- |х). □ Рис. 3.4
404 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Задача 42. а) Пусть (п^) — значения частот для таблицы сопряженно- сти признаков размера г х с, п = 22 nib i=\j=\ Е(п/7) = npih 1 i г, 1 j с. и, таким образом, = 1. ' i При обычном предположении о том, что (п/у) — это выборка из муль- тиномиального распределения, покажите, что статистика отношения прав- доподобия для проверки гипотезы Hq: рц = а,ру для всех (/, /) и для некоторых векторов а = (осi, ..., аг) и [3 = (|31, ..., [3J имеет вид D = 2^2^n,7ln(n///e//), i=i /=1 причем (eZy) необходимо определить. Покажите далее, что для малых зна- чений \riij — ец\ статистику D можно аппроксимировать величиной z2=ZLZL^'7-e'7)2/e'/- /=| /=1 б) В 1843 г. Уильям Гай собрал данные, приведенные в табл. 3.8, о 1659 бывших пациентах некоторого госпиталя, определяющие уровень их физических усилий во время работы и вид заболевания (туберкулез легких или другое заболевание). Таблица 3.8 Уровень усилий во время работы Вид заболевания Туберкулез легких Другое заболевание Незначительное 125 385 Среднее (периодическое) 41 136 Постоянное 142 630 Значительное 33 167 Оказалось, что для этих данных значение Z2 равно 9,84. Какой отсюда можно сделать вывод? (Заметим, что на этот вопрос можно ответить и без применения каль- кулятора или статистических таблиц.)
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 405 Решение, а) Пусть обозначают частоты в таблице сопряженности. Положим Л = 52 52 «I/, Е(п//) = лр//, 1 5? iг, 1^/4 с, i=l /=1 с ограничением = 1. Далее, ч //о • Pij = а/ = 5У Р/ = 1; И\' Pij произвольные, У^ рц = 1. ' / ч При выполнении гипотезы Н\ и при мультиномиальном распределении вероятность наблюдать выборку (п,;) равна Пр^/п^.. Логарифм прав- доподобия как функция аргументов р^ равен ^(р//)=52"//|пл7+л’ ч где А = — 52 ln(nz/!) не зависит от ру. Следовательно, при ограничениях ч ^2 Pij = 1 функция I достигает максимума в точке При выполнении гипотезы Hq логарифм правдоподобия равен ^(а,-, Р;) = 52 ni+ |п а< + 52 n+i1п Р/+ В' ' / где В не зависит от а/, 0/ и «<+=52/1//’ л+/=52п‘7- / i При ограничениях 22 а/ = 22 Р/ = 1 функция I достигает максимума при Таким образом, — &ij fti+n+j Pii = -L, где = Тогда статистика о. п. тах[г(ру): Х>, = 1] 2|П тахК(а„р;): Еа, =ЕР/ = 1] = 2"'7 совпадает с D, что и требовалось показать.
406 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Обозначив riij — etj = 8,7, запишем О = 2£(е// + 8<7)1п(1 + |р. ч Опуская индексы, видим, что это выражение приближенно равно Поскольку 52 8 = 0, мы имеем __ *2 D«V^ = Z2. etj б) Для указанных данных находим Z2 = 9,84. Так как г = 4, с = 2, используем распределение /2. Значение 9,84 слишком велико для рас- пределения Хз< следовательно, мы отклоняем гипотезу Hq. Замечаем, что с увеличением уровня физической нагрузки число случаев заболевания туберкулезом уменьшается быстрее, чем другими болезнями. □ Задача 43. Рассмотрена большая группа молодых супружеских пар, и найдено, что стандартное отклонение для возраста мужа относительно среднего возраста в группе мужчин равно четырем годам, а для возраста жены — трем годам. Пусть D обозначает разность возрастов супругов в паре. При каких условиях можно ожидать, что стандартное отклонение для величины D для рассматриваемой группы супружеских пар будет равно приблизительно 5 годам? Предположим, что стандартное отклонение для D оказалось равным 2 годам. Одно возможное объяснение такого расхождения — случайная изменчивость. Найдите еще одно объяснение. Решение. Записав D = Н - Wy видим, что если величины Н и W независимы, то VarD = VarH + Var W = 42 + 32 = 52 и стандартное отклонение равно 5. В противном случае следует ожидать, что VarD / 5, и, таким образом, значение 5 получают при независимости величин Н и W. Альтернативное объяснение возможности получить значение 2 состоит в том, что величины Н и W являются коррелированными. Если Н = aW + е, где W и е независимы, причем Var// = 16 и Var W = 9, то Var//= 16 = a2 Var№ + Vare, Var(/7 - W) = 4 = (а - I)2 Var W + Vare.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 407 Следовательно, 12 = (a2-(a — I)2)) Var UZ, и а = 7/6. □ Задача 44. Предположим, что ..., Хп и ..., Ym представляют собой две независимые выборки, первая из них — из показательного рас- пределения с параметром К, вторая — из показательного распределения с параметром [Л. а) Постройте критерий отношения правдоподобия для проверки гипо- тезы Hq: \ = pi против альтернативы Н\: К / р. б) Покажите, что критерий для п. а) может основываться на статистике п ЕХ- т= п ЕХ + ЕГ/ /=| /=1 в) Опишите, как квантили распределения статистики Т при гипотезе Hq можно определить при помощи квантилей F-распределения. Решение, а) Поскольку X, ~ Ехр(Х), Yj ~ Ехр([л), функция /(х; К) = П А 1 п = >0) достигает максимума при X”1 = - при этом 1=1 ~ п 1=1 max[f(x; X): X > 0] = Хпе~п. m Аналогично функция f(y, Ji) = П (^е“И!/,)/(тт yj 0) достигает максимума । m 1 при (Л-1 = — УН ПРИ этом max[f(r/; рО: ^л > 0] = [лте”т. При выполнении гипотезы Hq функция правдоподобия равна /(*: 0)/(у; 9); п m \ £>< + £'//. и /=1 /=1 / max[/(x; 0): 0 > 0] = Тогда согласно критерию гипотеза Hq отвергается, если отношение она достигает максимума при 0 1 = п_^т принимает большие значения.
408 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: 6) Логарифм имеет вид (и + ап) 1п( — т In У2 У} 4 / / 7 i j плюс члены, не зависящие от х, у. Основной частью является — И In ‘--------т In Т=ч—-—— = — И In Т — m 1п( 1 - Т). i i i / Таким образом, критерий и в самом деле основан на статистике Т. При этом гипотеза Но отвергается, если Т близко к 0 или 1. в) При гипотезе Но мы имеем К = (1 = 0 и 29£x,~XL ^YYi-xln- i i Следовательно, E Yi/(2m) i Таким образом, симметричная критическая область равна объединению С = (о, (1 + ^2+m.2n(a/2))"‘) U ((1 + ^<p2m,2n(a/2))_|, 1) и определяется квантилями распределения ?2т,2п- О Задача 45. Объясните, что понимают под достаточной статистикой. Рассмотрим независимые случайные величины Х\, Х2,Хп, где Xi ~ N(a + (Зс,, 0) с заданными константами g, i = 1, 2, ..., п, и неиз- вестными параметрами а, (3 и 0. Найдите три выборочных характеристики, которые, взятые в совокупности, образуют достаточную статистику. Решение. Статистика Т = Т(х) является достаточной статистикой для параметра 0, если /(х; 0) = g(T, 0)А(х). Для выборочного вектора х с компонентами Х|, ..., хп находим /(*; 0) = ПЫХ;) = П у=ехр[-^(х,--а-₽с<)2] = /=] /=1 = (2^Аехр(-^ ^х?-2^х,(а + рс,) + ^(а + рС|)2 ) = = (2л9)"/2 еХр “20 52^ + ё + 6 Z2X,C/ “ 20 + РС')2 ’
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 409 Таким образом, вектор и*) = 4 / / i ' является достаточной статистикой. □ Задача46. Пусть— случайная выборка изМ(0, а2)-рас- пределения, и предположим, что априорное распределение для 0 — это нормальное NQ1, т2)-распределение, где a2, pt и т2 известны. Найдите апо- стериорное распределение для 9 при заданных Х\, Х2, Хп и оптималь- ную оценку параметра 0 при а) функции квадратичных потерь и б) функции потерь, равной абсолютной ошибке. Решение. По поводу первой половины задачи см. задачи 2.3.8 и 2.3.9 части А. Решение для второй части задачи: как было показано в зада- че 2.3.8 части А, апостериорная плотность распределения равна л(0)/(х; 0) _ 1 Г (0-ц„)21 (6 1 } ~ $ п(0')/(х; 0') d0' " Р [ 2т2 1 ’ где 1 _ 1 ( п _ pi/т2 4- лх/о2 + “ 1/т2+/2/а2 ‘ Поскольку нормальное распределение является симметричным относи- тельно своего среднего значения, наилучшей оценкой при каждой из функ- ций потерь а) и б) будет Е(0 | х) = □ Задача 47. Пусть Х<^ .Хп — случайная выборка из равномер- ного распределения на интервале (—0, 20), где значение положительного параметра 0 неизвестно. Найдите оценку максимального правдоподобия для параметра 0. Решение. Функция правдоподобия /(х; 0) равна ^^/(-0 < Х|......хп < 20) = < minx,)/(maxx, < 20). Следовательно, о. м. п. имеет вид 0 = maxminx,, |таххф □ Задача 48. а) Статистику /2 часто используют как меру расхождения между наблюдаемыми (эмпирическими) частотами и ожидаемыми (теоре- тическими) частотами при выполнении нулевой гипотезы. Опишите стати- стику х2 и критерий согласия х2-
410 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: Число звонков, поступающих ежедневно в справочное бюро, подсчи- тывают в течение К недель. Можно предположить, что число звонков в любой день имеет распределение Пуассона, что число звонков в один день не зависит от числа звонков в другой день и что ожидаемое число звонков зависит только от дня недели. Пусть п,, / = 1, 2, ..., 7, — это общее число звонков, поступивших соответственно в понедельник, вторник, ..., воскресенье. Постройте приближенный критерий проверки гипотезы о том, что звон- ки поступают с одинаковой интенсивностью во все дни недели, за исклю- чением воскресенья. б) Найдите также критерий для проверки второй гипотезы о том, что ожидаемое число принятых звонков одинаково для трех дней недели со вторника по четверг и что ожидаемое число принятых звонков одинаково для понедельника и пятницы. Решение, а) Пусть мы наблюдаем л, — число появлений состояния i = 1, ..., п и ei — ожидаемые (теоретические) частоты этих состояний. Статистика х2 задается формулой Л 9 р (Ж-е,)2 /=1 е‘ Критерий согласия х2 применяют для проверки гипотезы Hq: pt = Pi(Q), 0 6 0, против альтернативы Н\: pt произвольные, где pt — вероятность появления состояния I. В данном примере предполагаем, что доля звонков, поступивших за все дни недели, кроме воскресенья, является фиксированным числом (и вы- числяется на* основании данных). Такое предположение является вполне естественным при наличии больших объемов данных. Однако доля звон- ков, поступивших в заданный день с понедельника по пятницу, являет- ся разной для разных дней, и мы поступим следующим образом. Пусть е* = + + = + ^4), е$ = + л5). При гипотезе Hq: с понедельника по субботу звонки поступают с одинаковой интенсивностью выбирается статистика /=1 которая асимптотически имеет Хб-распределение. (Здесь число степеней свободы равно пяти, поскольку подгоняется один параметр.) б) Во втором варианте гипотеза Hq состоит в том, что во вторник, среду и четверг звонки поступают с одной интенсивностью, а в по-
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 411 неделъник и пятницу — с другой интенсивностью. В этом случае рассматривается статистика которая асимптотически имеет Хз-распределение. □ Задача 49. а) Произведены воздушные наблюдения х\, х2, хз, *4 зна- чений внутренних углов 0Ь 02, 9з, 04 некоторого четырехугольника, рас- положенного на земле. Предполагается, что эти измерения выполнены с незначительными независимыми ошибками, имеющими нулевые средние и общую дисперсию о2. Найдите МНК-оценки для 01, 02, 0з, 04- б) Найдите несмещенную оценку а2 в ситуации, описанной в части а). в) Предположим теперь, что известно, что рассматриваемый четырех- угольник— это параллелограмм, у которого 0| = 0з и 02 = 04. Какими теперь будут МНК-оценки величин углов? Найдите несмещенную оцен- ку а2 в этом случае. 4 Решение, а) МНК-оценки должны минимизировать сумму 22(0/ -х/)2 4 ,=1 при условии, что 22 0/ = Для функции Лагранжа /=1 L = 52(e,-x,)2-x(52e,-2n находим 7^-Л = 0 при 2(0,-- х,) - X = О, т.е. 0,=х, + ^. Out 2 Воспользовавшись тем, что 22®/ = 2л, получаем К = — 22 х/) и 6| = Xi + | f 2л - ^2 X,J • б) Применим метод наименьших квадратов. Случайные величины X/, i = 1, 2, 3, 4, имеют средние значения 0/, дисперсию а2, и они независимы. Запишем Е(Х,—0,)2 = Е 1(2л-£Х.) = Var /Д = -j^ • 4а2 = 16 / 16 4 х i 7
412 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Следовательно, Е^(Х,-0,)Л=о2, и — б/)2 является несмещенной оценкой для о2. i в) Если 9| = 0з и 02 = 04, то ограничение принимает вид 2(01 + 02) = 2л, т. е. 01 + 02 = п. Тогда функция Лагранжа L = (01 - Х1)2 + (02 - х2)2 + (01 - Х3)2 + (02 - х4)2 - 2Х(01 + 02 - л) имеет производные = 2(0, -х1) + 2(0| -х3)-2Х, ^L = 2(02 -х2) + 2(02 -х4)-2Х и достигает минимума при 01 = + *з + X), ^2 = 2^2 + *4 + X). Ограничение 0j + 02 = л затем приводит к равенству К = (л — 52х//2^, и 61 = ^(Х1 +х3) +Ц2л-^2хН ={(*1 +*з-*2 ~х4) + ' i ' Аналогично 02 = 4U2 + Х4 - Х| - Х3) + Далее, Эти же рассуждения справедливы для i = 2, 3, 4. Следовательно, 52(х/ - 0/)2/3 — несмещенная оценка для а2. □ Задача 50. а) Пусть Xi, %2, • •, — случайная выборка из распреде- ления с плотностью №;в) = Р^, 0О.6, (0 в противном случае, где значение положительного параметра 0 неизвестно. Найдите оценку максимального правдоподобия медианы этого распределения.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 413 б) Среди руководства компании «Надежные двигатели» общепринятой является точка зрения, что число X дефектных автомобилей, производимых ежемесячно, имеет биномиальное распределение P(X = s) = Csnps(i -p)n-s (s = 0, 1, ..., и; О^р^ 1). Существуют, однако, некоторые разногласия относительно параметра р. Генеральный директор полагает, что априорное распределение параметра р является равномерным (т. е. имеет п. р. в. fp(x) = /(0 х 1)). Более пес- симистично настроенный менеджер производства полагается на априорное распределение с плотностью fp(x) = 2х/(0 х 1). Обе п. р. в. сосредото- чены на (0, 1). За один месяц произведено s дефектных автомобилей. Пусть функция потерь генерального директора имеет вид (р — р)2у где р — это оценка генерального директора, ар — истинное значение. Покажите, что тогда наилучшей оценкой для р, полученной генеральным директором, будет оценка Менеджер производства несет несколько иную ответственность, чем генеральный директор, и его функция потерь имеет вид (1 — р)(р — р)2. Найдите наилучшую оценку для р с точки зрения менеджера производства и покажите, что эта оценка превосходит ту, которая получена генеральным директором, если только для $ не будет выполняться неравенство s п/2. Указание. Для неотрицательных целых а, [3 выполняется равенство Решение, а) Если т — медиана, то из уравнения г2х , 3 Q2 ах “ 0210 - 2 находим, что т = 0/\/2. Тогда функция /(х; пг/2) = • £*-- = -^2, 0 х т\/2, ' ’ (у/2т)2 достигает максимума при /и, равном х/л/2, и произведение /(х; т\/2) = — П/(хь mV2) достигает максимума при 1 т = —= тахх/. V2
414 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика 6) Поскольку Рр(Х = s) ос ps(l — р)л s, s = О, 1, .. .п, апостериорная плотность для оценки генерального директора (ГД) равна кгд(р I s) <х ps( 1 - p)n~s 1(0 < р < 1), а апостериорная плотность для оценки менеджера производства (МП) равна лмп(р I s) ос pps(l - р)п~Ч(0 < р < 1). Тогда средние потери для ГД минимизируются в точке, равной апосте- риорному среднему: 1 1 ргд = 5 PPS( 1 - P)n~s dp A ps( 1 - p)n~s dp = 0 ' 0 _ (s 4-1)! (n — $)! (n — s 4- s 4- 1)! _ $4-1 (n - s 4-s + 2)! s!(n-s)! n + 2* Для МП средние потери §(1 -p)(p-a)2 * * snMn(p|s)dp О минимизируются при а= - p)nMn(p\s)dp / ^(1 - p)izMn(p\s)dp, О о откуда находим, что 1 1 рмп = 5p(1 -p)pps(l — p)n~s dp / $/?(! -p)pps(\ -p)n~sdp = О ' о _ ($ 4- 2)! (n - s 4- 1)! (n - $ 4- s 4- 3)! _ s 4- 2 (n - s 4-s4-4)! (s 4-1)! (и - s 4-1)! л 4-4’ Видим, что (s 4- 2)/(n 4- 4) > (s 4- l)/(n 4- 2) тогда и только тогда, когда s < п/2. □ Задача 51. а) Что такое простая гипотеза? Определите понятия разме- ра и мощности критерия для проверки простой гипотезы против простой альтернативы. Сформулируйте и докажите лемму Неймана—Пирсона. 6) Производится одно наблюдение над случайной величиной X, имею- щей п. р. в. f(x). Постройте наилучший критерий размера 0,05 для проверки нулевой гипотезы H0:f(x) = ^
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 415 против альтернативы //,:/(х) = |(1-х2) (-l^x^l). Вычислите мощность этого критерия. Решение, а) Простая гипотеза относительно параметра 0 — это ги- потеза вида Но'. О = Оо- Размер критерия равен вероятности отклонить гипотезу Но, когда она верна. Мощность равна вероятности отклонить гипотезу Но, когда она неверна; для простой альтернативы Н\: 0 = 01 мощ- ность— это число (в общем случае это функция параметра, пробегающего параметрическое множество, соответствующее гипотезе Н\). Утверждение леммы Н—П для проверки гипотезы Но’. f = fo против альтернативы Н\ \ f = f\ заключается в следующем. Среди всех критериев размера не больше а критерий с наиболь- шей мощностью задается критической областью С = {х: f\(x) > > kfo(x)}, где k таково, что Р(Х с С | Но) = § /oW dx = а. с Замечание. Для любого k > 0 критерий, который состоит в том, чтобы отвергнуть гипотезу Но, когда f\(x) > kfo(x), имеет наибольшую мощность среди критериев с размером не больше а := Pq(/i (X) > &/о(Х)). Доказательство леммы Н—П дано в §2.2. б) Составим отношение правдоподобия f\(x)/fo(x) = 3(1 - х2)/2; мы отклоняем гипотезу Но, если о. п. не меньше k, т.е. |х| (1 — 2&/3)1/2. Необходимо, чтобы выполнялось равенство 0,05 = Р(|Х| С (1 - у) 72 | Wo) = (1 - у)'/2. Это означает, что условие |х| С (1 — 2&/3)1/2 равносильно условию |х| 0,05. В силу леммы Н—П критерий, при котором гипотеза Но отклоня- ется, когда |х| 0,05, является наиболее мощным критерием размера 0,05. При этом мощность критерия равна ~ 0.05 P(|X|^0,05|W1) = J $ (\-x2)dx = Ux- -0,05 10,05 v) «0,075. 3 / Io □ Задача 52. а) Пусть Xj, ..., Xm и Y\, ..., Yn — независимые случайные выборки из распределений N(pti, а2) и N(pt2, а2) соответственно. Здесь все параметры рц, [12 и а2 неизвестны. Опишите, как бы вы проверяли гипотезу Но ’. рц = [12 против альтернативы Н\: рц / [12. б) Пусть X], ..., Хп — случайная выборка из распределения с п. р. в. Дх; 0) = е“(х“е), 0 < х < оо,
416 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» где 0 имеет в качестве априорного распределения стандартное нормальное распределение N(0, 1). Найдите апостериорное распределение парамет- ра 0. Предположим, что необходимо оценить 0 при функции потерь, равной абсолютной ошибке, т. е. при Ца, 0) = |а — 0|. Найдите оптимальную байе- совскую оценку и выразите ее в терминах функции сл(х), которая задается равенством 2Ф(сл(х) - п) = Ф(х - и), -оо < х < оо, где Ф(х) = —±= { e~yll2 dy — стандартная нормальная функция распределения. Решение, а) Поскольку Х= а2/т) и У = Yi ~ N(p2, о2/п), i i при выполнении гипотезы Hq мы имеем 1 - - ( 1 IX”1/2 1(Х- Г)(1 + 1) ~N(0, 1). о \т п/ Положим т п Sxx = - X)2 ~ а2Хт-и 5Гу = ^(Г/ - У)2 ~ а2х2_1- i=i /=| Тогда ^2 (Sxx + Syy) ~ Xm+«-2 И t-IX Y\( 1 -к 1 Vl/2 I f Sxx + Srr \ 1/2 , При н. m. критерии размера а гипотеза Hq отвергается, когда |/| превышает U+«-2(a/2), верхнюю a/2 точку 1т+л_2-распределения. б) По формуле Байеса находим, что -02/2+л0-Е X, п(0 |х) ос п(0)/(х; 0) ос е '' /(0<minx,), где коэффициент пропорциональности имеет вид , _бг/2+яе-Е^ \-1 ехр(-п2/2 + Ех,) Це ' /(0 < minх£)б/0 J = —=— ------------4—. / у2л Ф(гп1пх/-п)
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 417 При функции потерь, равной абсолютной ошибке Ца, 0) = |а - 0|, оп- тимальная байесовская оценка равна апостериорной медиане, т. е. это то значение s, при котором s . min х, $ e-'e-n>72d0= 1 $ e-(6-n)2/2d0> — OO —oo или, что эквивалентно, 2Ф($ - п) = <£>(minxz- - п) и s = cn(minx/), что и требовалось показать. □ Задача 53. а) Пусть Х\..Хп — случайная выборка из распределения с п. р. в. О у = 00<0. Найдите оценку максимального правдоподобия М параметра 0 и покажите, что (Л4, М/(\ — у)1/2л) является 100у%-доверительным интервалом для 0, где 0 < у < 1. б) Пусть Xi, ..., Хп — независимая случайная выборка из равномер- ного распределения на отрезке [0, 0J, и пусть Уь ..., Yn — независимая случайная выборка из равномерного распределения на отрезке [0, 02]. Выведите критерий отношения правдоподобия для проверки гипотезы Hq: 01 =02 против альтернативы Н\: 01 7^ 02 и выразите этот критерий в терминах статистики max (Мх, MY) min (Mj, My) ’ где Mx = max Xi и My = max Заметив, что при гипотезе Hq распределение статистики Т не зависит от 0 = 0, =02, воспользуйтесь этим для того, чтобы точно указать критическую область для критерий размера а (или найдите эту критическую область иным способом). Решение, а) Функция правдоподобия /(*; 9) = 0Jx,)/(maxx, 0) имеет вид g(M(x, 0))h(x), где М(х) = maxx,. Следовательно, М = М(Х) = = тахЛ/ является достаточной статистикой. Эта величина является также и о. м. п., при этом р(ми) = (Р(х,<и))п = (£fn,
418 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: Тогда р(м 0= р<0(' -т)|/(2л) м 6) = = 1 - Р(Л4 < 0(1 - т)‘/,2л)) = 1 - ( ° -($,-- = 1 - (1 - Y) = Y- Следовательно, (М, М/(\ - у)1/(2л)) является 100у%-д. и. для 0. б) При выполнении гипотезы Hq функция / 1 \ 2п /х.у=^) ДО О............. У1....уп^В), достигает максимума во.м.п. 9 = тах(Мх, Му). При выполнении гипоте- зы Н[ функция /х.у=(^-) /(0 Х|....х„ 0|)/(О Х|...........х„^92) достигает максимума в о. м. п. (91, 62) = (Мх, Му). Далее, отношение Л/^нДх, у) равно (м^) (м?) _ [max(M%, My)]2n = Гтах(Мл, Му)j” _ „п г_____1___12л (МхМу)п L min(Mx, Му) J Lmax(Mj, Му)J Следовательно, мы отклоняем гипотезу Hq, если Т(х, y)^k при некотором k>\. Далее, при выполнении гипотезы Hq мы имеем (г\л \/х\п 1 , т.е. [мх(х) = п^^ , и аналогично для Му. Тогда для 0 < а < 1 и k 1 мы требуем, чтобы а было равно следующей вероятности: Р(Г > * I = 1S р®"’1 ©'"'S^T * didx = 1 XIk 1 „ 1 = 2и2 dydx^Zn ^xrt”1^-dx = оо о Таким образом, k = и.~^п, и критическая область для критерия размера а имеет вид С = {х,у: 7’>а_|/'1}. □ Задача 54. а) Сформулируйте и докажите лемму Неймана—Пирсона.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 419 6) Пусть Х\, ...» Хп — случайная выборка из N(p, а2)-распределения. _ п _ Докажите, что случайные величины X (выборочное среднее) и - X)2 /=1 ((и — 1) х (выборочная дисперсия)) являются независимыми, и найдите их распределения. Предположим, что Хи, ... Х|л, Х2|, ... Х2л, Х/л!, ... Хтп являются независимыми случайными величинами и Xz/ имеет N(ptz, (^-рас- пределение для 1 и, где рц, ..., ptm, о2 — неизвестные константы. Сославшись на предыдущий результат, объясните, как бы вы проверили гипотезу Hq: рц = ... = ptm. Решение. (Только для части б).) Мы утверждаем, что l)X = EX,/n~N(pta2/n); i 2) величины X и Sxx = 52 (X, — X)2 независимы; 3)SXx = E(X,-X)2/a2~XLi- Для доказательства утверждения 1 заметим, что линейная комбинация нормальных с. в. является нормальной с. в., и в силу_независимости этих величин получаем, что X ~ N(pt, а2/п). Кроме того, (X - pt)2/a2 ~ Хг Для доказательства утверждений 2 и 3 заметим, что - И)2 = £[(Х,- - X) + (X - р)]2 = i i = ]р(Х, - X)2 + 2(Х,- - Х)(Х - р) + (X - р)2] = Sxx + п(Х - И)2. i Пусть А — ортогональная матрица размера п х п. Положим /ХА /УЛ Х = : , У = : , причем У = Лг(Х-р1). \х„/ \yJ Мы хотим выбрать А так, чтобы первая компонента имела вид Xj = = у/п(Х - pi). Тогда матрица А должна иметь вид /1/v^........\ А=Ь МЛ/й........./
420 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика где остальные столбцы выбираются так, чтобы образовать ортогональную матрицу. Теперь Ki = - pt) ~ N(0, а2) и Kj не зависит от У2, • • •, Уп- По- скольку 52 ^2 = 52 № ~ Р)2» мы получаем п п = £(Х,- - ц)2 - п(Х - ц)2 = Sxx- i=2 i=\ Следовательно, Sxx= 52 У?* где ^2» • • •, Уп — н. о. р. N(0, о2)-с. в. Поэтому /=2 Wo2~xLi- Рассмотрим с. в. Xij. Для проверки гипотезы Hq: pij = ... = ptm = pt против H\ : «гипотеза Hq неверна» используем анализ дисперсий (ANOVA). Запишем W = тп и = pt; 4- е,;, / = 1, ..., и, i = 1.т, где ezy — н. о. р. с. в. N(0, о2). Применим к. о. о. п.: само о. п. Ahi;h0((xv)) Равно max (2па2) "/2ехр[-£(х,/- ц,)2/(2а2)] Hi..Нт .а2______________L <./_______________ /Sq\ ' тах(2ла2)-Л//2 ехр[— 52(*// - pi)2/(2a2)l \5| / ц.о2 L i,j J Здесь So = - х++)2, S. = 52<*<7 - х,+)2 i-i i-i П х.. и х/+ = 52 — —среднее значение для i-й группы (и о. м. п. для pt/ при Н\), /=1 п х++ = 52 = 52 — глобальное среднее (и о. м. п. для pt при Hq). Критерий состоит в следующем: гипотеза Hq отклоняется, когда принимает большие значения. Далее, So Si т п So=52 52 ^хч ~ х‘++х‘+ ~ *++)2 = <=1 /=1 т п =52 52 - Xi+>>2+^хч ~ х^х‘+ - *++)+&+ ~ *++)2] = ;=1 /=1 =52^‘>_ х‘+?+п 52^,+ ~х++>>2=5i + 5г, i-i i где s2=л52и<+ - х++)2.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 421 Таким образом, величина So/Sj принимает большие значения, когда S2/S1 принимает большие значения. Величина Si называется внутригруп- повой, a S2 — межгрупповой суммой квадратов. Далее, независимо от того, верна гипотеза Hq или нет, получаем 52(X,z -X,+)2~a2x2_i Vi, поскольку EXij зависит только от L Следовательно, S, ~а2х^,_т, так как выборки при разных i независимы, а также для любого i сумма — Х/_|_)2 не зависит от Х/+. / Поэтому Si не зависит от S2. Если гипотеза Hq верна, то S2~O2Xm-l- Далее, если гипотеза Hq неверна, то S2 имеет среднее значение ES2 = (т - 1)а2 + п 52(Ц/ - Й)2> где [1 = £ Н<7т- Более того, при выполнении гипотезы Н\ значение S2 увеличивается («раздувается»). Таким образом, если гипотеза Hq верна, то S^N-m) Гт-^~т' тогда как при Н\ значение Q увеличивается. Таким образом, при размере критерия а мы отвергаем Hq, когда значение статистики Q больше чем ср^-1 где <p+_1/v_m(a)— значение верхней а-квантили распреде- ления □ The Private Life of C. A. S. Anova Частная жизнь К. А.З.Анова (Из серии «Фильмы, которые не вышли на большой экран».) Задача 55. а) В трех ресторанах на одной фешенебельной улице в один и тот же час было замечено 43, 41 и 30 посетителей соответственно. Описав предположения, которые вам необходимы, объясните, как про-
422 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика верить гипотезу о том, что все эти три ресторана пользуются одинаковой популярностью, против альтернативной гипотезы, что популярность этих ресторанов различна. б) Объясните значение следующих терминов в контексте проверки ги- потез: 1) простая гипотеза; 2) сложная гипотеза; 3) вероятности ошибок I и II рода; 4) размер критерия; 5) мощность критерия. Пусть Х\,...,Хп— выборка из N(p, ^-распределения. Постройте наиболее мощный критерий размера а для проверки гипотезы Hq: р = ро против альтернативы Н\: pt = рц, где рц > pio. Найдите критерий, который минимизирует наибольшую из двух веро- ятностей ошибок. Обоснуйте ваш ответ. Решение, а) В общей сложности замечено 114 посетителей. Пред- положив, что каждый из посетителей независимо от другого выбирает рестораны с вероятностями р\, р2, рз, получим мультиномиальное распре- деление. Нулевая гипотеза Hq: р\ = р2 = Рз = 1/3, при этом ожидаемое число посетителей 38. Значение /2-статистики Пирсона таково: р _ (наблюдаемое — ожидаемое)2 _ 25 + 9 + 64 _ 98 _ 9 ожидаемое 38 - 38 - ’ При заданном a G (0, 1) мы сравниваем значение Р с й^(а), верхней а-квантилью х2“РаспРеДеления- Критерий размера а отклоняет гипоте- зу Hq, когда Р> (а). б) 1. Простая гипотеза Hq состоит в том, что п. р. в./д. ф. р. имеет вид f = /о» где /о — заданная функция, что дает возможность вычислить все необходимые вероятности. 2. Сложная гипотеза имеет вид f G множеству п. р. в./д. ф. р. 3. Вероятность ошибки I рода — это Р(отклонить Hq | Hq верна), а веро- ятность ошибки II рода — это Р(принять Hq | Hq ложна). В случае простой гипотезы Hq в. о. р. I — это число, а в случае сложной гипотезы Hq — это функция (аргумент которой изменяется в пределах параметрического множества, соответствующего гипотезе Hq). Вероятность ошибки II рода имеет аналогичный смысл. 4. Размер критерия равен максимальному значению, которое в. о. р. I достигает на параметрическом множестве, соответствующем гипотезе Hq. Если гипотеза Hq простая, то размер критерия попросту равен в. о. р. I. 5. Аналогично мощность равна 1 минус в. о. р. II и рассматривается как функция на параметрическом множестве, соответствующем гипотезе Н\.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 423 Для построения н. м. критерия используем лемму Н—П. Отношение правдоподобия Дх; ио) =ехр(~$ Hi)2”(х<-Но)2]') =exp[«(pi -р0)х+ |(pg-р?)] принимает большие значения, когда х велико. Таким образом, критическая область н. м. критерия размера а имеет вид С = {х: х > с}, где а = Рц0(Х > с) = 1 - Ф(х/п(с - ро)), т. е. 1 J 00 2 с = ро + —^z+(a), где —= e~x^2dx = a. Критерий, минимизирующий наибольшую из вероятностей ошибок, должен опять быть критерием Н—П; в противном случае существовал бы лучший критерий. Для размера а в. о. р. II как функция от а равна Р(а) = Рц> (X < с) = Ф(?+(а) + х/п(р0 - рО), где и+(а) — верхняя а-квантиль распределения N(0, 1). Ясно, что макси- мум тах{а, Р(а)} будет достигать минимального значения при а = р(а), см. рис. 3.5. Мы знаем, что когда а возрастает, z+(a) убывает. Выберем а так, чтобы выполнялось равенство a = Ф(з+(а) + v/n(p0 - рО), т.е. z+(a) = -^(ро - pi). Отсюда находим I/ \ Но + рч г-i с = Ро~ g(Ho-pi)= - g□
424 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: Задача 56. а) Пусть Х\, ..., Хт — это случайная выборка из N(р.i, of)- распределения и У|, ..., Yn — независимая выборка из N([i2, о|)-распре- деления. Параметры [12, af и о^ неизвестны. Объясните, как проверить гипотезу Hq: of = о| против альтернативы Н\: of / о|. б) Пусть Уь Yn— независимые случайные величины, где У/ име- ет N(P%Z-, о2)-распределение, i = 1, ..., п. При этом Xj, ..., хп известны, а р и о2 неизвестны. Требуется 1) найти оценки максимального правдоподобия (р, о2) параметров (р. а2); 2) найти распределение оценки [3; 3) показав, что с. в. У; — pxz и [3 независимы, найти совместное распре- деление величин р и о2 (или найти это распределение иным способом); 4) объяснить, как проверить гипотезу Hq: р = Ро против альтернативы Н\: Р/ро- Решение, а) Положим т 1 Sxx = £(Х,- - Х)2, при ЭТОМ -jSxx ~ Хт-1. i=l 1 И п ! sw = У'Ат-у)2’ при этом ~Хп-i- /=1 2 Более того, величины Sxx и Syr независимы. Тогда при выполнении гипотезы Hq мы имеем 1 •. Sxx / -“Ц-Syy ~ т — 1 / п — 1 и в критерии размера а гипотеза Hq отклоняется, если значение (Sxx/(m - \))/(Syy/(n - 1)) будет либо меньше ср“_] „.^а/2), либо больше ср*-! п_](а/2), где (р±_, п_}(а/2)— верхняя/нижняя квантиль распределения б) Функция правдоподобия имеет вид /р.а2(У) = еХР[~2о2 “ 0Х/)2]‘ / 1. Оценки максимального правдоподобия (р, о2) для (Р, о2) находят из уравнений ^ММП = -£ + ^Е<Ъ-|Мг = 0.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 425 и эти оценки таковы: I 1 На этих значениях достигается глобальный максимум, поскольку мы ми- нимизируем выпуклую квадратичную функцию — 1п/ра2(У). 2. Мы имеем |3 ~ NQ3, а2 / 12 х2), так как Р является линейной ком- бинацией независимых нормальных с. в. 3. Поскольку величины [3 и У/ — [Зх,- имеют совместное нормальное распределение, они являются независимыми тогда и только тогда, когда их ковариация равна нулю. Так как Е(У, — [Зх/) = 0, мы получаем Соу(У, - (Зх;> 0) = Е(У, - 0х,)|3 = Е(У,р) - х,- Е(02), что равно нулю, поскольку ЕУ,ЕЬ£х2 Е(У,р) = £ху----р^—х,- = x,(Varp + (Ep)2) = x,E(p2). Аналогично можно проверить, что Ti -[3xi, ..., Yn -(3x„, [3 являются неза- висимыми и нормальными с. в. Тогда величины д2 и |3 независимы. Далее, сумма 22(У/ — [3xz)2 равна ру( - (Зх, + (Р - р)х,]2 = £(У, - рх,)2 + fcxf )(р - Р)2- / / х i ' Поскольку ^2 52W - Рх')2 ~ и i fcx?)(P - Р)2 ~ X2- мы заключаем, что д2п/о2 ~ Хл-1- 4. При выполнении гипотезы Hq мы имеем (р-ро)УБ^ T= -t i f—~u,. Поэтому критерий состоит в следующем: гипотеза Hq отвергается, если |Т\ >t„_j(a/2), где t„_i(a/2) — верхняя а/2 точка t„_]-распределения. □ 14_Ц04
426 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Задача 57. а) Пусть X — случайная величина с п. р. в. /(х; 0) = е~(х~е\ 0 < х < оо, где 0 имеет априорное показательное распределение со средним значени- ем 1. Найдите апостериорную плотность распределения 0. Найдите оптимальную байесовскую оценку параметра 0 для с. в. X при квадратической функции потерь. б) Пусть Х\, ..., Хп — выборка из распределения с п. р. в. f(x\ X, у) = < г—!—е х/\ X + р Г-!— X + р х > О, х < О, где X > 0 и р > 0 — неизвестные параметры. Найдите (простую) достаточ- ную статистику для (X, р) и оценки максимального правдоподобия (X, р) параметров (X, р). Предположим теперь, что п = 1. Будет ли X несмещенной оценкой для X? Обоснуйте свой ответ. Решение, а) Запишем для апостериорной п. р. в. п(01 х) ос е-бе-(х-б)/(х > 0 > 0) ос /(0 < 0 < х). Таким образом, апостериорным распределением является U(0, х)-распре- деление. При квадратической функции потерь оптимальной оценкой является апостериорное среднее, т. е. х/2. б) Мы имеем f(x; X, р) = (Х J ехр - £2 xif(xi > °)А + 52 < 0)/Н • Следовательно, Т(х) = (S+, S"), $+ = 52 Х1/(Х' > °)’ S” = 52 xi^xi < °)’ i / является достаточной статистикой. Для того чтобы найти о. м. п. (X, р), находим производные функции фс; X, р) = In f(x\ X, р): = + V = 01
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 427 откуда получаем X = - (S+ + X/-S-S+), u = - (-S- + >/-S-S+), п ' п что является единственным решением. При этих значениях £ достигает максимума, т. е. они являются о. м. п. для (К, (1), поскольку t, —> -оо, если К или [1 стремятся к 0 или оо. Эти рассуждения применимы в случае, когда S+, -S" >0. Если одна из этих величин равна 0, то соответствующий параметр оценивают значени- ем 0. Таким образом, вышеприведенная формула справедлива для любых выборок х е R" \ {0}. При п = 1 оценка X имеет вид X = х/(х 0). Так как значение 1 ? ЕХ = Г-^— хе dx о зависит от [1, оно не может быть равным К. Таким образом, оценка X является смещенной. Исключением является случай, когда [1 = 0. Тогда EX = X и оценка является несмещенной. В общем случае ES+ = лХ2/(Х + [1). Таким образом, ЕХ = X2 X 4- [1 + - EV-S-S+. п Второе слагаемое неотрицательно при п > 1, если только не выполнены равенства [1 = 0 и S" =0. Таким образом, в исключительном случае, когда (1 = 0, EX = X для всех п 1. □ Задача 58. а) Пусть xj, ..., хп — выборка из нормального распределе- ния с неизвестным средним [1 и известной дисперсией о2. Покажите, как построить наиболее мощный критерий заданного размера а € (0, 1) для проверки нулевой гипотезы Hq: р = (i0 против альтернативы Н\: [i = [ij (Po/pi)- При каком значении а мощность этого критерия равна 1/2? б) Сформулируйте и докажите лемму Неймана—Пирсона. В случае простой нулевой гипотезы и простой альтернативы какой критерий вы бы предложили, чтобы минимизировать сумму вероятностей ошибок I и II рода? Обоснуйте свой ответ. Решение, а) Поскольку обе гипотезы простые, н. м. критерий размера не больше а — это критерий о. п. с критической областью L / (х | //о) ) 14*
428 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика где k таково, что вероятность ошибки I рода Р(С | Hq) = а. Находим п 1 п f(x I Wo) = П f(x I W,) = П х , у2ка v2ko /=1 /=1 и AW,;MO(X) = In - Hi)2 - (Xi - Ho)2] = i = 2J2 IWi - Ho) - (H? - Ho)]' Случай 1: [i| > [Ло. Отклоняем гипотезу Hq, если x > k, где a = = P(X > k I Hq). При выполнении гипотезы Hq имеет место соотноше- ние X ~ N([io, о2/п), так как Xi ~ М([ло, а2) и X/ независимы. Тогда у/п(Х — [Ло)/а ~ N(0, 1). Таким образом, мы отклоняем гипотезу Hq, когда х > [1о + аг+(а)/у/й, где z+(a) = Ф-1(1 - а) — верхняя а-точка N(0, 1 ^распределения. Мощность критерия равна < е-<У-^г/(2агП) d • С e-f^dy, aVnz+(a)+nyLQ 2+(а)+х/п([к0-уц)/а что равно 1/2 при z+(a) = ([Л1 - ^)\/п/о, т.е. . оо a = -/= § е~у1/2 dy. \/w(Hi-цо)Л Случай 2: [Л1 < [ло. Отклоняем гипотезу Hq, если х < р — oz+(a)/у/п, в силу аналогичных аргументов. Мощность равна 1/2, когда Следовательно, мощность равна 1/2, когда a = -j= е~у2/2 dy. б) (Отвечаем только на вторую часть вопроса.) Рассмотрим непре- рывный случай: /(• | Hq) и /(• | Ну) — п. р. в. Рассмотрим критерий с кри- тической областью С = {х: f(x | Hi) > [(x\Hq)} и вероятностями ошибок
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 429 Р(С | Hq) и 1 - Р(С | Н\). Тогда для любого критерия с критической обла- стью С* сумма вероятностей ошибок равна Р(С* |//0) + 1 - Р(С* | Hi) = 1 + \[f(x\H0)-f(x\HC)]dx = С* = 1+5 [/(x|/70)-Z(x|//1)]dx+ 5 lf(x\HQ)-f(x\Hi)]dx^ С*ПС с*\с ^1+5 [f(x\H0)-f(x\Hl)]dx, С*ПС поскольку значение интеграла по С* \С будет неотрицательным. Далее, 1+ 5 [f(x\H0)-f(x\Hl)]dx = С*Г\С = l + ^[f(x\H0)-f(x\Hl)]dx- [f(x\H0)-f(x\Hl)]dx^ с с\с* 1 + 5[/(х|/7о)-Лх|//1)]йх = Р(С|Но) + 1 - Р(С|Н,). С поскольку значение интеграла по С \ С* будет отрицательным. □ Следует сказать, что развитие статистики после леммы Неймана—Пирсона было омра- чено затянувшимися на долгие годы спорами и дискуссиями среди статистиков, к которым примешивалась значительная доля личной вражды. Наиболее известным (и серьезным вви- ду своих последствий) был, возможно, спор Фишера—Неймана, завязавшийся публично в 1935 г. и продолжавшийся даже после смерти Фишера в 1962 г. (одна из статей Неймана была озаглавлена «Серебряный юбилей моего спора с Фишером»), Две авторитетные книги по истории статистики, [FiB] и [Rei], приводят различные версии того, с чего все началось и как развивалось. Согласно [FiB, с. 263], это Нейман в 1934—1935 гг. «критиковал Фи- шера на своих лекциях и раздувал неугасимое пламя непонимания и разногласий между кафедрами Фишера и К. Пирсона в Лондонском университетском колледже с очевидным желанием посеять раздоры». С другой стороны, в книге [Rei] явно возлагается вина на Фишера, в обоснование этого цитируются мнения многих людей, таких как Р. Оппенгеймер (в будущем руководитель атомного проекта в Лос-Аламосе), который, как предполагают, сказал о Фишере в 1936 г.: «Я лишь раз взглянул на него и решил, что не хочу общаться с ним» (см. [Rei, с. 144]). В этой ситуации права была, возможно, Ф.Н. Дэвид (1909—1993), выдающийся британский статистик, которая знала все стороны, вовлеченные в конфликт, и говорила: «Они (Фишер, Нейман, К. Пирсон, Э. Пирсон) все завидовали друг другу и опа- сались, как бы кто-нибудь из них не опередил других». В частности, касаясь леммы Н—П, она утверждала: «Госсету не была свойственна зависть. Он поставил задачу. Э. Пирсон до некоторой степени перефразировал вопрос Госсета, выразив его на языке статистики. Нейман решил задачу математически» ([Rei, с. 133]). Согласно [FiB, с. 451], лемма Н—П «первоначально составляла часть работы Фишера», но вскоре «выделилась из нее. Она стала повсеместно признанной и всеми (широко) изучаемой, особенно в Соединенных Штатах. Это не вызвало одобрения у Фишера... ». Дэвид была одной из внучатых племянниц Флоренс Найтингейл. Интересно отметить, что Дэвид была первой женщиной — профессором статистики в Британии, а Флоренс Найтингейл
430 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика была первой женщиной — членом Королевского статистического общества. В конце своей карьеры Дэвид переехала в Калифорнию, но еще десятилетия содержала коттедж и садик на юго-востоке Англии. Отметим, что продолжительные дискуссии и рассуждения по поводу леммы Н—П, теории и практики, произраставших из нее, сводятся, по сути, к следующему основному вопросу. Предположим, что наблюдается выборка (jq, ..., хя). Что бы вы могли (аргументированно) сказать о предполагаемом случайном механизме, лежащем в основе этой выборки? Согласно сложившемуся мнению, методы Фишера будут занимать видное место в будущем разви- тии статистических наук (см., например, [Е1 ]). Но даже признанные лидеры современной статистики не претендуют на то, что они располагают ясным видением этого вопроса (см. дис- куссию, следующую за основным изложением в [Е1 ]). Однако это не должно отвлекать нас от наших скромных целей. Задача 59. а) Объясните, что означает построить доверительный ин- тервал для неизвестного параметра 0 по заданной выборке Х|,...,хя. Пусть задано следующее семейство плотностей распределения вероятно- стей Дх; 9), -оо < 9 < оо: Г е~(х~е) х > 9 «-Ч». ' Ч Пусть п = 4 и х\ = — 1,0, %2 = 1,5, хз = 0,5, Х4 = 1,0. Постройте 95%-дове- рительный интервал для 9. б) Пусть Дх; [1, о2) — семейство нормальных п. р. в. с неизвестным средним [1 и неизвестной дисперсией о2 > 0. Объясните, как построить 95%-доверительный интервал для [1 по выборке Х1,...,хя. Обоснуйте необходимые при этом требования относительно распределений. Мой левый хвост1 (Из серии «Фильмы, которые не вышли на большой экран».) Решение, а) Для построения 100(1 — у)%-д. и. необходимо найти две такие оценки а = а(х), b = Ь(х), что Р(а(Х) 9 b(X)) > 1 - у. В данном примере - Е Xi+nG f(x;G) = e 1 /(xz>9Vz). Следовательно, minXz является достаточной статистикой, и minXz — 9 ~ Ехр(и). Тогда можно взять а = Ь — 8 и = minx,, где § пе~пх dx = е~пЪ = у. б При у = 0,05, п = 4 и min xz = — 1 находим следующий д. и.: Г _ In 20 1 L 4 ’ J’ 1 Ср. название фильма «Му Left Foot».
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 431 Возможно и другое решение. Рассмотрим г-пО ~ Gam(n, 1) или 2У^(Х/ - 9) ~ /=1 /=1 Следовательно, можно взять а = “ ^(т/2)} /п, b=^Xi - jп, где Л^(у/2) — верхняя/нижняя у/2-квантиль Х2«"РаспРеде,ления- При у = 0,05, и = 4 и х, = 2 находим Г1 Л+(0,025) 1 Л8" (0,025)1 L2 8’2 8 J' Точное выражение для первого интервала: [-1,749, —1], а для второго: Г1 _ RJ530, 1 _ 2^01 = [_] б912 0 2275]. L2 о 2 о J Правая точка 0,2275 оказывается, конечно, бесполезной, поскольку мы знаем, что 0 Х] = -1,0. Заменив 0,2275 на —1, получим более короткий интервал, имеющий вид [—1,6912, —1]. б) Положим \ п 1 п Р = »! = — /=1 /=1 Тогда 1) - рО/о ~ N(0, 1) и 2) (п - 1 )д2/а2 ~ Хл-р и эти величины независимы, откуда следует, что Следовательно, симметричный д. и. имеет вид [ft - А1я_1(о,О25), p + ^t„_,(0,025)], где 1л_1(а/2) — a/2-квантиль критерия t^-i, a = 0,05. Обоснование утвер- ждений 1, 2 было приведено выше. □ Задача 60. а) Сформулируйте и докажите критерий факторизации для достаточной статистики в случае дискретных случайных величин. б) Величину, заданную линейной функцией у = Ах + В с неизвестны- ми коэффициентами А и В, многократно измеряют в различных точках хь ...» Xk'. сначала П\ раз в точке хь затем лг раз в точке хг и т.д.; и, наконец, раз в точке х*. Результатом z-й серии измерений является
432 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика выборка уцу ..., у;п., i = 1, ..., k. Ошибки при всех измерениях являются независимыми нормальными величинами с нулевыми средними и диспер- сией 1. Необходимо оценить Л и В по всей выборке у1П 1 nz, 1 ik. Докажите, что оценки максимального правдоподобия и МНК-оценки пары (Л, В) совпадают, и найдите их. Обозначим через Л оценку максимального правдоподобия параметра Л и через В— оценку максимального правдоподобия параметра В. Найдите распределение пары (Л, В). Решение, б) Определим S Xin‘ х=-^- i И Ui = Xi - X, причем (urt) = Uini = 0, {и2п} = U2ni > 0. / / Пусть а = А, р = В + Ах, тогда у у = au, + Р + Е,-, и Уц ~ N(au,- + р, 1), т. е. = ~7?г ехр(-|^'7 “ “ Р)2)- V 2К X z / Для того чтобы найти о. м. п., необходимо минимизировать произведение П ехр (-^<7 — ctUi — Р)2). Это эквивалентно отысканию минимума квад- ратичной функции 52(///7 — ctUi — Р)2. Последняя задача приводит в точности ij к МНК-оценкам. Следовательно, о. м. п. и МНК-оценки совпадают. Для отыскания МНК-оценок решим уравнения А-₽-««,)* = о ₽ = /./ /./ да 52(^ ~ Р ~= о 52 Y'^Uiy ij i,j где p~Nfp, -M, a~N(a, Г V {n)J \ (U2n)J Таким образом, A = Л-Т У YijUi-xfA, Л-v). {u2n) ’ \ (u2n)J B = Ya ~ У Y‘iui ~N(s’ + 7^)- U ij
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 433 Заметим, что величины (Л, В) совместно нормальны с ковариацией Е п>х‘ Cov(4, В) =---------. □ Задача 61. а) Пусть х\, ..хп —случайная выборка из распределения с п. р. в. Дх; 9). Что имеют в виду, когда говорят, что /(xi, ..., хп) является достаточной статистикой для 9? Пусть и предположим, что п = 3. Пусть у\ < У2 < Уз —упорядоченные значения xj, Х2, х3. Покажите, что у\ является достаточной статистикой для 9. 6) Покажите, что распределение Tj — 9 является показательным рас- пределением с параметром 3. Ваш заказчик предлагает рассматривать в качестве возможных оценок параметра 9 следующие величины: 9i =х3 - 1, 02 = У\. 03 = g (Х1 + Х2 + х3) ~ 1 • Что бы вы ему посоветовали? Указание. Следует сформулировать общие теоремы, которые вы ис- пользуете, но доказывать их не обязательно. Решение, а) Величина Т(х) является достаточной статистикой для параметра 9 тогда и только тогда, когда условное распределение выбор- ки X при заданном Т(Х) не содержит параметра 9. Это означает, что Ре(Х 6 В\ Т = t) не зависит от 9 для любой области В, принадлежащей выборочному пространству. Критерий факторизации утверждает, что Т яв- ляется достаточной статистикой тогда и только тогда, когда выборочная п. р. в. имеет вид /(х; 9) = g(T(x)y 9)/i(x) для некоторых функций gn h. Для указанной функции Дх; 9) при п = 3 и х = (xj, Х2, х3) имеем 3 -Е*« f(x; 0) = П e“(x'”0)/(xz > 0) = e3Qe ‘ /(min xz > 9). /=1 Таким образом, Т = minX, := Y\ является достаточной статистикой: здесь л - Е g(y, В) = ^l(y >Q), h(x) = е ' .
434 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: б) Для любого у > 0 выполняется равенство з Ре(У1 - е > у) = Ре(Хь Х2, Х3 > у + 9) = П > У + 6) = е-Ч /=1 Следовательно, У| ~ Ехр(З). Находим Е(Х3 - 1) = Е(Х3 - 9) + 9 - 1 = 9, VarX3 = 1. Далее, У| = minX, является о. м. п., которая максимизирует Дх; 9) по 9; эта оценка является смещенной, так как ег, = Е(г, _0) + е = ^ + е. о Дисперсия Var92 равна 1/9. Наконец, +Х2 + Л3)- 1) =е, Varfhx! +Х2 + Хз)- 1) = |. Мы видим, что У1 имеет наименьшую дисперсию среди всех трех ве- личин. Мы бы посоветовали заказчику использовать оценку 9г, помня о смещении. Однако наилучшим выбором является 9г — 1/3. □ Замечание. Теорема Р—Б предлагает использовать оценку 9 = = Е(91 19г = 0 = Е(93 19г = /). Прямые вычисления показывают, что 9 = = t - 1/3. Следовательно, Е9 = 9 и Var9 = 1/9. Таким образом, процедура Р—Б дает возможность избежать смещения и уменьшает дисперсию до минимума. Задача 62. а) Получите оценки максимального правдоподобия для па- раметров а, р и о2 в линейной модели Yi = а -I- Рх, -I- е/, 1 iи, где е ~ N(0, о2) и ^2 х, = 0. /=1 б) Определите совместное распределение оценок максимального прав- доподобия а, Р и о2. Постройте 95%-доверительный интервал для 1) а2, 2) а -I- р. Решение, а) Очевидно, что У, ~ N(a -I- Рх,, о2). Тогда f(y, a, р, a2) = ^=L=- exp (-^5 - a - 0xf)2} И £(y; a, p, a2) = Infty; a, p, a2) = - ^ ln(2na2) - - a - Px,)2.
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 435 Минимум достигается, когда а, 0, а2) = ^£(у; а, 0, а2) = а, 0, а2) = О, т. е. при « = £• 0=(P^j’ = где ё( = У,-а-0х,-. i 6) Далее, 9 9 а~м(«.2-). |S~N(p.^). Кроме того, Cov(a, 0) = СоуМ^2у„ ~ Пхтх 52 х‘ Cov<y' ’ Г<) “ пхтх 52 х‘ ~ °- Z 7 Cov(a, ё,) = Cov(a, У, - а - рх,) = ± 57(^7 “ ”) Соу(У/, У7) = 0 7=1 и Cov(p, ё,) = Cov(p, У, - а - рх,) = = х/к 52х/ (&'/ “ РхХ,’Х/) ^ov^/’ = Рх^Х/ ~ Х/^ = 0* 7=1 Следовательно, величины а, р и ёь ..., ёл независимы. А значит, а, р и а2 также независимы. 1) Мы покажем, что 95%-д. и. для о2 имеет вид /ла2 пд2\ Л77/’ где h~ — нижняя, а — верхняя 0,025-точка распределения Хл-2- 2) Мы имеем » + ₽~N(« + P. o2(j + ^)). и a + 0 не зависит от о2. Значит, (a + 0)-(a + 0) /А / п /1+ T"/qV^2 tn-2- V 72 XrX
436 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Следовательно, 95%-д. и. для а + [3 имеет вид fa + р - tdJ- + а + Р + taj- + , \ г уп х'хуп — 2 г уп xTxyn — 2J где t — это верхняя 0,025-квантиль 1я_2-распределения. □ Задача 63. а) Кратко опишите процедуру отыскания байесовской то- чечной оценки в статистическом эксперименте. Включите в это описание определения следующих понятий: 1) априорное распределение; 2) апосте- риорное распределение. 6) Пусть Xj, ..., Хп — независимые одинаково распределенные слу- чайные величины, имеющие распределение Gam(£, X). Предположим, что k известно, а априорное распределение параметра X является пока- зательным с параметром pt. Пусть потери, понесенные при оценивании параметра X значением а, имеют вид (а — X)2. Вычислите апостериор- ное распределение параметра X и найдите его оптимальную байесовскую оценку. Решение, а) Пусть задана выборка из распределения с п. р. в./д. ф. р. /(х; 0) и задана априорная п. р. в./д. ф. р. п(0) параметра 0. Тогда мы рас- сматриваем апостериорное распределение п(0 |х) ос п(9)/(х; 0), нормированное так, чтобы общая масса равнялась 1. Байесовская оценка определяется как точка, минимизирующая средние потери Ек(9|Х)Ца, 0), где L(a, 0) — заданная функция, определяющая потери, понесенные при оценивании параметра 0 значением а. 6) При квадратичных потерях, когда Ца, 0) = (а - О)2, байесовская оценка равна апостериорному среднему. В данном примере апостериорным является гамма-распределение: п(Х | х) ос e~^Xkn Л е“Хх' ~ Gam (kn + 1, pt + У^х,У i 4 i 7 Следовательно, байесовская оценка задается как среднее значение этого распределения (kn + l)/(pt + □ Задача 64. Пусть Xj, Х2, ..., Хп — независимая выборка из нормаль- ного распределения с неизвестными средним значением pt и дисперсией о2. Покажите, что пара (X, S2), где /=1 /=1 — это достаточная статистика для (pt, о2).
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 437 При заданном К > 0 рассмотрим XS2 в качестве оценки параметра о2. При каких значениях К оценка XS2 является а) оценкой максимального правдоподобия, 6) несмещенной оценкой? Какое значение К минимизирует среднеквадратическую ошибку E(XS2-o2)2? Решение. Функция правдоподобия имеет вид /(Х; °2)= (\/2ка^)Л еХР [~ = L t=l J / 1 V Г 1 - - 2 ехр + = L /=1 J / 1 V Г 1 V^z -\2 п /- \2 е*Р “2tf&-'> L /=! J Следовательно, в силу критерия факторизации (X, S2) является достаточ- ной статистикой. Отыскание максимума по pt и о2 эквивалентно решению уравнений In ftx; р, а2) = ^2 In /(ж; р, а2) = О, что приводит к значениям pt = х, о2 = J2(x, — х)2/л. Следовательно, a) XS2 является о. м. п. при X = 1. ' Для п. 6) находим EnS2 = £ ВД' - *)2 = Z E<Xi - Н)2 - « Е(* - Ю2 = /=1 /=1 = п VarX — VarX = (п - 1)о2. Следовательно, XS2 является несмещенной оценкой при Х = п/(п - 1). Наконец, положим <р(Х) = E(XS2 — о2)2. После дифференцирования получим ср'(Х) = 2 E(XS2 - a2)S2. Далее, nS2 ~ (У2 + ... + У2_,), где У, ~ N(0, а2) и yt независимы. Следо- вательно, Е(52)2 = и-2Е(У2 + ...+ У2_1)2 = п-2[(и-1)ЕУ/ + (п-1)(и-2)(ЕУ2)2] = = л“2[3(п - 1)а4 + (п - 1)(п - 2)а4] = п~2(п2 - 1)о4.
438 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика Поскольку ES2 = (п — 1)а2/п, из уравнения ср'(Х) = 0 находим X — °2 Е52 _ п ~ E(S2)2 ~ и + Г что, как легко видеть, является точкой минимума. □ The Mystery of Mean Mu and Squared Sigma1 (Из серии «Фильмы, которые не вышли на большой экран».) Задача 65. Пусть задан набор из пр независимых случайных величин, представленный в виде п выборок длины р каждая: X"» = (X......х|р), Х(2) = (Х2|, ...,х2д Х(П’ = (ХП1...Х„р). Случайная величина X/ имеет распределение Пуассона с неизвестным параметром X/, 1 р. Требуется проверить гипотезу о равенстве Xj = ... = Хр против альтернативы, что хотя бы два значения X; различны. Найдите выражение для статистики критерия отношения правдоподобия. Покажите, что ее можно аппроксимировать величиной где • п \ п р i=l /=1 /=1 Объясните, как бы вы могли проверить гипотезу при больших значениях п. Решение. См. пример 2.5.6. □ Задача 66. Пусть X, Хг, ..., Хп — независимая выборка из нормаль- v «О ного распределения с известным средним pt и неизвестной дисперсией о , принимающей одно из двух значений о2 или а2. Объясните подробно, как построить наиболее мощный критерий размера а для проверки гипотезы а = oi против альтернативы а = аг- Существует ли н. м. критерий разме- ра а, имеющий мощность, строго меньшую чем а? Обоснуйте свой ответ. Решение. В силу леммы Н—П, поскольку обе гипотезы простые, н. м. критерий, имеющий размер не больше а, — это критерий отношения прав- доподобия, при котором отклоняется гипотеза Hq: а = ai и принимается 1 Ср. названия фильмов: «The Mystery of the Crystal Orb» и «Него Squared».
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 439 Н\: о = аг, если (2ла|)-"/2 exp [- - р)2/(2сф] (2по2)-"/2 exp [- £(х, - р)2/(2а2)] где k > 0 подобрано так, что в. о. р. I равна а. Такой критерий всегда суще- ствует, поскольку нормальная п. р. в. f(x) монотонна по |х| и непрерывна. Переписав о. п. в виде легко видеть, что если аг > ai, то гипотеза Hq отклоняется в критической области С+ = {5>,-Н)2>*+}. i ' а если oi > аг» то критической областью является Более того, ^2 “ ^)2 ~ Хл при //о 1 i 4^2(Х,-р)2~х2 при//,. °2 i Плотность распределения вероятностей x« имеет вид = Г(п/2) 2^Х”/2 'е Х/2^Х > °)’ Тогда если аг > аь то выбираем так, чтобы для размера критерия выполнялось соотношение Р<С+1«»>= Т *+/<7* ' Z 7 а если aj > аг, выбираем k~ так, что Р(С-|Я0)= $ r^2^xn/2-'e-x/2dx = a. В случае, когда аг > аь мощность равна Р = Р(С*|Я,)= $ <г"2Лх. b+/n? V ' 7
440 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика а в случае О| > 02 мощность равна ₽ = Р(С’1Н'>= S Мы видим, что если 02 > Оь то k+/а^ < ^+/п2 и J3 > а. Аналогично если oi > 02, то k~> k~ /а\ и опять р > а. Таким образом, неравенство Р < а невозможно. □ Gamma and Her Sisters1 Гамма и ее сестры (Из серии «Фильмы, которые не вышли на большой экран».) Задача 67. Пусть £1,62,— независимые случайные величи- ны, имеющие N(0, 1 ^распределение, а Х\,Хъ ...,хп—фиксированные действительные числа. Пусть случайные величины Уь У2, • • •» Yn заданы в виде К/ = ос + р%/ -|- ое,, 1 < z п, где а, р е R и о2 е (0, оо) — неизвестные параметры. Найдите выражение для оценки наименьших квадратов (МНК-оценки) пары (а, Р) и определите ее распределение. Объясните, как проверить гипотезу о том, что р = О, против альтернативы р 0 и как построить 95%-доверительный интервал для р. (Сформулируйте (не приводя доказательства) те общие факты, которые используются при решении этой задачи.) Решение. Положим ! п х = - X/, а = а + Р* и Uj =Х[ - х, /=1 так что = 0 и Y, = а+ + аг,. i Пара МНК-оценок для (а, Р) минимизирует сумму квадратов R = п п = (К - ЕУ/)2 = 22(К - - Р^/)2, т.е. является решением уравнений Отсюда d = У ~ N fa + Рх, —, а ~ N fa, —) X г п 7 \ п 7 1 Ср. название фильма Вуди Аллена «Hannah and Her Sisters».
Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика» 441 И и эти величины независимы в совокупности. Далее, R = У'М - d - рх,)2 = V У2 - nY2 - Urup2 ~ a2Xn-2, так как оценки для двух параметров уже найдены. Таким образом, R/(n - 2) — несмещенная оценка для о2. Рассмотрим теперь гипотезы Hq: [3 = р0 = О, Н\: [3 / Ро- Тогда |3~n(o, или N(0, 1), еслиР = 0, т. е. при Hq. Таким образом, Следовательно, при заданном а мы отвергаем Hq, когда значение |Т| пре- восходит tn-2(a/2), верхнюю a/2-точку 1л_2-распределения. Наконец, чтобы построить симметричный 95%-д. и. для р, возьмем tn_2(0,025). Тогда из неравенств -t„_2(0,025) < < t„_2(0,025) А/(я - 2) находим, что искомый интервал имеет вид Каждый из нас занимается статистикой всю свою жизнь в том смысле, что каждый из нас со дня рождения то и дело извлекает выводы из эмпирических наблюдений. В. Крускал (1919—), американский статистик * * * Мы завершаем этот том историей о Ф. Иэйтсе (1902—1994), выдающемся британском статистике и сподвижнике Фишера (история взята из [ Wi, с. 204—205]). В студенческие годы, проведенные в колледже Святого Иоанна в Кембридже, Иэйтс увлекался одним местным видом спорта, передававшимся от поколения к поколению в течение длительного времени. Состоял этот вид спорта в умении взбираться на крыши и башни зданий колледжей в ночное время. (Ощущение было тем более захватывающим, что при этом нужно было не только преодолеть трудности такого восхождения, но и ускользнуть от бдительного ока смотрителей колледжа.) Массивная башня часовни в неоготическом стиле колледжа Святого Иоанна была, в частности, украшена статуями святых, и Иэйтсу было очевидно, что статуи только
442 Глава 3. Задачи кембриджских «Математических треножников» к курсу «Статистика: выиграют, если должным образом нарядить этих святых в стихари (церковную одежду). Однажды ночью он взобрался наверх и осуществил эту затею; на следующее утро результат привел всех в восторг. Однако администрация колледжа не оценила этого и начала искать пути, как бы освободить святых от новообретенных одежд. Это оказалось нелегко — до статуй нельзя было добраться с помощью обычных лестниц. Попытки сбросить стихари вниз, используя веревки с крюками на концах, не увенчались успехом, так как Иэйтс, предвидя такую возможность, закрепил стихари кусками проволоки в виде петли вокруг шеи каждой статуи. Дело не двигалось с места, и тогда наконец Иэйтс вышел вперед и, не признаваясь в том, что это он водрузил стихари на святых, вызвался взобраться наверх при свете дня и снять их. Что он и сделал, вызвав восхищение собравшейся толпы. Мораль этой истории в том, что, возможно, статистика способна не только обслуживать интересы других наук, но самостоятельно ставить проблемы, которые вызывают живейший интерес широкой публики... (Наблюдательный прохожий заметит, что в настоящее время у двух статуй на башне часовни колледжа Святого Иоанна посохи окрашены в бледно-зеле- ный цвет, что, очевидно, не соответствует первоначально задуманному убранству. Возможно, так практиковались представители следующего поколения последователей школы Фишера, прежде чем внести свой вклад в развитие статистики XXI века.)
Таблицы случайных величин и вероятностных распределений Некоторые полезные дискретные распределения Семейство Обозначение Область определения Вероятности Р(Х = г) Среднее Дисперсия Производящая функция Esx Пуассона Ро(Х) 0, 1, ... Хге~х г! X X — 1) Геометрическое Geom(p) 0, 1, 2, ... р(1 -рУ 1 -р Р 1 -Р Р2 Р 1 — $(! -р) Биномиальное Bin(n, р) 0, ... л Сг„р'(1 — рУ~г пр пр(1 -р) [ps + (l -р)]я Отрицательное биномиальное NegBin(p, k) 0, 1, ... С'г+„_^-рУ fe(I-P) Р *(1 -р) Р2 Г Р 1* L 1 -S(l - P) J Ги пергеометричес кое Hyp(/V, D, п) (п + D - N)+, ..., Df\n гг пп-г ^D^N-D пР N nD(N — D)(N — п) №(N- 1) (-N l~-s) Равномерное U[l,n| 1, ...л п п 4- 1 2 л2-1 12 s(l-sn) Л(1 -s) Некоторые полезные непрерывные распределения, 1 Семейство Обозначение Область определения Плотность fx(x) Среднее Дисперсия П. ф. м. Ее1Х X. ф. EeitX Равномерное U(a, b) Ь) 1 b—а а+Ь (Ь-д)2 12 Q J 1 J t (окончание на следующей странице)
444 Таблицы случайных величин и вероятностных распределений (окончание) Показательное (экспоненциальное) Ехр(Х) X 1 X2 X Х-/ X Х-/7 Гамма Gam(a, X) Х«?-'е-« Г(а) а X а X2 Нормальное N(pi, a2) R ехр[~2^(х~И)2] у/2по'2 И а2 ехр(/ц+^/2а2) exp(/7pi — ^/2а2) Многомерное нормальное N(n, Е) Rn exp[-£(x-p)rE-,(x-p)] И Е exp(rtrpi-itrSr) 0(2л)л det Е Коши Са(а, т) R т л(т2 + (х —а)2) не опре- делено не опре- делено Е(е/Х)=оо при /00 E(ez/x)=exp(/7a —|/|т) Некоторые полезные непрерывные распределения, 2 Семейство Обозначение Область Распределение Примечания Хи-квадрат Хп R+ x2~EN(0, о2 । X2~Gam(^, Стьюдента tn R t N(0, 1) да t, ~Ca(0, 1); EX = 0, n > 1; VarX = -2-, n >2 n - 2 Фишера Fгп,п R+ F Xm/"1 x2„/« EX=^.n>2: 2n2(m + n - 2) Var%= т(п-2)2(П-4)’ П> 4 Вейбулла Weib(a) R+ f(x) = axa~le~x* Weib(a) ~ Exp(l)'/“ Бета Bet (г, s) [0, 11 xr~1 (1 - x)s_| fix\ = _—i_—tl— M ' B(r, s) \ Gam(r, X) / EX = — r + s Логистическое Logist R “ (1 +ex)2 Logist log(Par(l) — 1); E(<?'*) = B(1 +/, 1 -t) Парето Раг(а) [1. оо) f(x) = ax“(a+,) Par(oc) ~ Bet(a, 1)_|; EX = oo, a 1; VarX = oo, a 2
Список литературы [A] D. Applebaum. Probability and Information: an Integrated Approach. Cambridge: Cambridge University Press, 1996. [ArBN] B.C. Arnold, N.Balakrishnan, H. N. Nagaraja. A First Course in Order Statistics. New York: Wiley, 1992. [As] R.B.Ash. Probability and Measure Theory / With contributions from C. Do- leans-Dade. 2nd ed. San Diego, CA: Harcourt/Academic; London: Academic, 2000. [AuC] J. Аипбп, V.Chandrasekar. Introduction to Probability and Random Pro- cesses. New York—London: McGraw-Hill, 1997. [Az] A.Azzalini. Statistical Inference: Based on the Likelihood. London: Chapman and Hall, 1996. [BE] L. J. Bain, M. Engelhardt. Introduction to Probability and Mathematical Statis- tics. 2nd ed. Boston, MA: PWS-KENT, 1992. [BaN] N. Balakrishnan, V.B. Nevzorov. A Primer on Statistical Distributions. Hoboken, New York—Chichester: Wiley, 2003. [BarC] O.E.Barndorff-Nielsen, D.R.Cox. Inference and Asymptotics. London: Chapman and Hall, 1994. [BartN] R.Bartoszynski, M. Niewiadomska-Bugaj. Probability and Statistical In- ference. New York—Chichester: Wiley, 1996. [Be] J. O. Berger. Statistical Decision Theory and Bayesian Analysis. 2nd ed. New York: Springer, 1985. [BerL] D. A. Berry, B. W.Lindgren. Statistics, Theory and Methods. Pacific Grove, CA: Brooks/Cole, 1996. [Bi] P. Billingsley. Probability and Measure. 3rd ed. New York—Chichester: Wiley, 1995. Перев. на рус. яз.: П. Биллингсли. Сходимость вероятностных мер. М.: Наука, 1977. [Bio] Biometrika Tables for Statisticians / Editors E. Pearson, H.O. Hartley. Vol. 1. Cambridge: Cambridge University Press, 1966. [Во] V.S.Borkar. Probability Theory: an Advanced Course. New York—London: Springer, 1995. [Bor] А. А. Боровков. Математическая статистика. M.: Наука, 1984. [BD] G.E.P.Box, N. R. Draper. Evolutionary Operation: a Statistical Method for Process Improvement. New York—Chichester: Wiley, 1998.
446 Список литературы [BL] G.E.P.Box, A.Luceno. Statistical Control by Monitoring and Feedback Ad- justment. New York—Chichester: Wiley, 1997. [BTi] G.E.P.Box, G.C.Tiao. Bayesian Inference in Statistical Analysis. New York: Wiley, 1992. [Box] Box on Quality and Discovery: with Design, Control, and Robustness / Ed.- in-chief G. C. Tiao; Editors S. Bisgaard et al. New York—Chichester: Wiley, 2000. [СК] M.Capinski, E.Kopp. Measure, Integral and Probability. London: Springer, 1999. [CZ] M. Capinski, T. Zastawniak. Probability through Problems. New York: Springer, 2000. [CaB] G. Casella, J. O. Berger. Statistical Inference. Pacific Grove, CA: Brooks/Cole, 1990. [CaL] G. Casella, E.L. Lehmann. Theory of Point Estimation. New York—London: Springer, 1998. [ChKB] C.A.Charalambides, M.V.Koutras N. Balakrishnan. Probability and Statistical Models with Applications. Boca Raton, FL—London: Chapman and Hall/CRC, 2001. [ChaHS] S. Chatterjee, M.S.Handcock, J.S.Simonoff. К Casebook for a First Course in Statistics and Data Analysis. New York—Chichester: Wiley, 1995. [ChaY] L. Chaumont, M. Yor. Exercises in Probability. A Guided Tour from Measure Theory to Random Processes, via Conditioning. Cambridge: Cambridge Univer- sity Press, 2003. [ChoR] Y. S. Chow, H. Robbins, D. Siegmund. The Theory of Optimal Stopping. New York—Dover—London: Constable, 1991. Перев. на рус. яз.: Г. Роббинс, Д. Сигму нд, И. Чао. Теория оптимальных правил остановки. М.: Наука, 1977. [ChoT] Y. S. Chow, Н. Teicher. Probability Theory: Independence, Interchangeability, Martingales. 3rd ed. New York—London: Springer, 1997. [Chu] /<. L. Chung. A Course in Probability Theory. 3rd ed. San Diego, CA—London: Academic Press, 2001. [CIC] G. M. Clarke, D. Cooke. К Basic Course in Statistics. 4th ed. London: Arnold, 1998. [CoH 1 ] D. R. Cox, D. V. Hinkley. Theoretical Statistics. London: Chapman and Hall, 1979. Перев. на рус. яз.: Д.Кокс, Л.Хинкли. Теоретическая статистика. М.: Мир, 1978. [СоН2] D.R.Cox, D. V. Hinkley. Problems and Solutions in Theoretical Statistics. London: Chapman and Hall, 1978. Перев. на рус. яз.: Д.Кокс, Л.Хинкли. Задачи по теоретической статистике с решениями. М.: Мир, 1981. [CouR] R.Courant, Н. Robbins. What Is Mathematics? An Elementary Approach to Ideas and Methods. Oxford: Oxford University Press, 1996. Перев. на рус. яз.: Р. Курант, Г. Роббинс. Что такое математика? Элементарный очерк идей и методов. Изд. 2-е. М.: Просвещение, 1967. Изд. 3-е, испр. и доп. М.: МЦНМО, 2001. [СгС] J. Crawshaw, J. Chambers. A Concise Course in Advanced Level Statistics: with Worked Examples. 4th ed. Cheltenham: Nelson Thornes, 2001.
Список литературы 447 [DS] M.N. DeGroot, M.J.Schervish. Probability and Statistics. 3rd ed. Boston» MA—London: Addison-Wesley, 2002. [De] J. L. Devore. Probability and Statistics for Engineering and the Sciences. 4th ed. Belmont, CA—London: Duxbury, 1995. [DorSSY] А.Я.Дороговцев, Д. С. Сильвестров, А. В. Скороход, M. Й. Ядренко. Теория вероятностей: Сборник задач. К.: «Выша школа», 1980. [Du] /?. М. Dudley. Real Analysis and Probability. Cambridge: Cambridge University Press, 2002. [Durl] R. Durrett. The Essentials of Probability. Belmont, CA: Duxbury Press, 1994. [Dur2] R. Durrett. Probability: Theory and Examples. 2nd ed. Belmont, CA—Lon- don: Duxbury Press, 1996. [El] B. Efron. R. A. Fisher in the 21st century // Statistical Science. 1998. V. 13. P. 95—122. [E2] B. Efron. Robbins, empirical Bayes and microanalysis // Annals of Statistics. 2003. V. 31. P. 366—378. [EThl] B. Efron, R.Thisted. Estimating the number of unseen species: How many words did Shakespeare know? // Biometrika. 1976. V. 63. P. 435—447. [ETh2] B. Efron, R.Thisted. Did Shakespeare write a newly-discovered poem? // Biometrika. 1987. V. 74. P. 445—455. [ETi] B. Efron, R. Tibshirani. An Introduction to the Bootstrap. New York; London: Chapman and Hall, 1993. [EHP] M. Evans, N .Hastings, B. Peacock. Statistical Distributions. 3rd ed. New York—Chichester: Wiley, 2000. [FV] R. M. Feldman, C. Valdez-Flores. Applied Probability and Stochastic Process- es. Boston, MA—London: PWS Publishing Company, 1996. [Fe] W. Feller An Introduction to Probability Theory and Its Applications. V. 1,2. 2nd ed. New York: Wiley; London: Chapman and Hall, 1957—1971. Перев. на рус. яз.: В. Феллер. Введение в теорию вероятностей и ее приложения. Т. 1,2. М.: Мир, 1984. [FiB] J. Fisher Box. R. A. Fisher. The Life of a Scientist. New York—Chichester— Brisbane—Toronto: Wiley, 1978. [Fer] T.S. Ferguson. Mathematical Statistics: a Decision Theoretic Approach. New York—London: Academic Press, 1967. [Fr] J. E. Freund. Introduction to Probability. New York: Dover, 1993. [FreP] J. E. Freund, B.M. Perles. Statistics: a First Course. 7th ed. Upper Saddle River, NJ: Prentice Hall; London: Prentice-Hall International, 1999. [FriG] B. Fristedt, L. Gray. A Modem Approach to Probability Theory. Boston, MA: Birkhauser, 1997. [G] J. Galambos. Advanced Probability Theory. 2nd ed., rev. and expanded. New York: M. Dekker, 1995. [Gh] S.Ghahramani. Fundamentals of Probability. 2nd ed. International ed. Upper Saddle River, NJ: Pearson/Prentice-Hall, 2000. [Gi] J. D. Gibbons. Nonparametric Statistics: an Introduction. Newbury Park, CA— London: Sage, 1993.
448 Список литературы [Gn] Б. В. Гнеденко. Курс теории вероятностей. 6-е изд. М.: Наука» 1988. [Go] Н. Gordon. Discrete Probability. New York—London: Springer, 1997. [Gr] A. Graham. Statistics: an Introduction. London: Hodder and Stoughton, 1995. [GriS 1 ] G. R. Grimmett, D. R.Stirzaker. Probability and Random Processes: Prob- lems and Solutions. Oxford: Clarendon Press, 1992. [GriS2] G. R. Grimmett, D. R. Stirzaker. Probability and Random Processes. 3rd ed. Oxford: Oxford University Press, 2001. [GriS3] G. R. Grimmett, D. R.Stirzaker. One Thousand Exercises in Probability. Oxford: Oxford University Press, 2003. [GrinS] С. M. Grinstead, J. L. Snell. Introduction to Probability. 2nd rev. ed. Provi- dence, RI: American Mathematical Society, 1997. [H] J.Haigh. Probability Models. London: Springer, 2002. [Ha] A.Hald. A History of Mathematical Statistics from 1750 to 1930. New York— Chichester: Wiley, 1998. [Has] K. J. Hastings. Probability and Statistics. Reading, MA—Harlow: Addison- Wesley, 1997. [Haw] A. G. Hawkes. On the development of statistical ideas and their applications: Inaugural lecture at the University of Wales, Swansea, 1975. [Hay] A.J.Hayter. Probability and Statistics for Engineers and Scientists. Boston, MA—London: PWS, 1996. [He] L.L. Helms. Introduction to Probability Theory: with Contemporary Applica- tions. New York: WH. Freeman, 1997. [Ho] J. Hoffmann-Jorgensen. Probability with a View toward Statistics. New York— London: Chapman and Hall, 1994. [HogT] R. V.Hogg, E.A. Tanis. Probability and Statistical Inference. 6th ed. Upper Saddle River, NJ: Prentice Hall International, 2001. [JPI J.Jacod, P.Protter. Probability Essentials. 2nd ed. Berlin—London: Springer, 2003. [JaC] R. Jackson, J. T. Callender. Exploring Probability and Statistics with Spread- sheets. London: Prentice Hall, 1995. [Je] H. Jeffreys. Theory of Probability. 3rd ed. Oxford: Oxford University Press, 1998. [K] O.Kallenberg. Foundations of Modern Probability. 2nd ed. New York—London: Springer, 2002. [KSR] M.Kelbert, Г Sazonov, A. G. Wright. Exact expression for the variance of the photon emission process in scintillation counters Ц Nucl. Instruments and Methods in Phys. Research, ser. A. 2006. V. 564, № 1. P. 185—189. [Ki] S. Kim. Statistics and Decisions: an Introduction to Foundations. New York: Van Nostrand Reinhold; London: Chapman and Hall, 1992. [Kinn] J. J. Kinney. Probability: an Introduction with Statistical Applications. New York—Chichester: Wiley, 1997. [Kit] L. J. Kitchens. Exploring Statistics: a Modern Introduction to Data Analysis and Inference. 2nd ed. Pacific Grove, CA: Duxbury Press, 1998. [KIR] D.A.Klain, G.-C.Rota. Introduction to Geometric Probability. Cambridge: Cambridge University Press, 1997.
Список литературы 449 [Ко] А. Н. Колмогоров. Основные понятия теории вероятностей. М.—Л.: ОНТИ, 1936; 2-е изд. М.: Наука» 1974; 3-е изд. М.: Фазис, 1998. [KS] L. В. Koralov, Y. G. Sinai. Theory of Probability and Random Processes. 2nd ed. New York: Springer-Verlag, 2006. [Kr] N.Krishnankutty. Putting Chance to Work. A Life in Statistics. A biography of C.R.Rao. State College, PA: Dialogue, 1996. [LS] T. L. Lai, D. Siegmund. The contributions of Herbert Robbins to Mathematical Statistics // Statistical Science. 1986. V. 1. P. 276—284. [La] J .W. Lamperti. Probability: a Survey of the Mathematical Theory. 2nd ed. New York—Chichester: Wiley, 1996. Перев. на рус. яз.: Дж.Ламперта. Вероятность. М.: Наука, 1973. [Lan] W.Н. Lange. Study Guide for Mason, Lind and Marchal’s Statistics: an In- troduction. 5th ed. Pacific Grove, CA—London: Duxbury Press, 1998. [LarM] R. J. Larsen, M.L.Marx. An Introduction to Mathematical Statistics and its Applications. 3rd ed. Upper Saddle River, NJ: Prentice Hall; London: Prentice Hall International, 2001. [LawC] G. Lawler, L.N. Coyle. Lectures on Contemporary Probability. Providence, RI: American Mathematical Society, 1999. [Le] P.M.Lee. Bayesian Statistics: an Introduction. 3rd ed. London: Arnold, 2004. [Lehi] E.L.Lehmann. Testing Statistical Hypotheses. 2nd ed. New York—London: Springer, 1997. Перев. на рус. яз.: Э. Леман. Проверка статистических гипотез. 2-е изд., испр. М.: Наука, 1979. [Leh2] Е. L. Lehmann. Theory of point estimation. New York: Wiley, 1983. Перев. на рус. яз.: Э. Леман. Теория точечного оценивания. М.: Наука, 1991. [LiS] D. V. Lindley, W.F. Scott. New Cambridge Statistical Tables. 2nd ed. Cam- bridge: Cambridge University Press, 1995. [M] P. Malliavin. Integration and Probability I In cooperation with H. Airault, L. Kay and G.Letac. New York—London: Springer-Verlag, 1995. [MaLMl] R.D. Mason, D. A. Lind, W.G.Marchal. Statistics: an Introduction. 5th ed. Pacific Grove, CA—London: Duxbury Press, 1998. [MaLM2] R.D. Mason, D. A. Lind, W.G.Marchal. Instructor’s Manual for Statis- tics: an Introduction. 5th ed. Pacific Grove, CA—London: Duxbury Press, 1998. [McCIS] J. T. McClave, T. Sincich. A First Course in Statistics. 7th ed. Upper Saddle River, NJ: Prentice Hall; London: Prentice-Hall International, 2000. [McCo] J. H. McColl. Probability. London: Edward Arnold, 1995. [MeB] W.Mendenhall, R. J. Beaver, B.M. Beaver. Introduction to Probability and Statistics. 10th ed. Belmont, CA—London: Duxbury, 1999. [MiM] /. Miller, M. Miller. John Freund’s Mathematical Statistics with Applica- tions. 7th ed. Upper Saddle River, NJ: Pearson Prentice-Hall Education, 2004. [MT] F.Mosteller, J. W. Tukey. Data Analysis and Regression: a Second Course in Statistics. Reading, MA—London: Addison-Wesley, 1977. Перев. на рус. яз.: Ф.Мостеллер, Дж. Тьюки. Анализ данных и регрессия: В 2-х вып. М.: Фи- нансы и статистика, 1982.
450 Список литературы [N] Е. Nelson. Radically Elementary Probability Theory. Princeton, NJ: Princeton University Press, 1987. [NiFY] Е.П. Никитина. В.Д.Фрейдлина. А.В.Ярхо. Коллекция определений термина «статистика». М.: Изд-во Московского государственного уни- верситета им. М. В. Ломоносова, 1972. (Межфакультетская лаборатория статистических методов; Вып. 37). [OF] A. O'Hagan. J. Forster. Kendall’s Advanced Theory of Statistics. Vol. 2B. Lon- don: Hodder Arnold, 2004. [Oc] M.K.Ochi. Applied Probability and Stochastic Processes: in Engineering and Physical Sciences. New York—Chichester: Wiley, 1990. [OtL] R.L.Ott. M.Longnecker. An Introduction to Statistical Methods and Data Analysis. 5th ed. Australia—United Kingdom: Duxbury, 2001. [Ox] The Oxford Dictionary of Statistical Terms / Editors Y. Dodge et al. 6th ed. Oxford: Oxford University Press, 2003. [Pi] J. Pitman. Probability. New York: Springer-Verlag, 1993. [Pol] D. Pollard. A User’s Guide to Measure Theoretic Probability. Cambridge: Cam- bridge University Press, 2002. [Por] S. C. Port. Theoretical Probability for Applications. New York—Chichester: Wi- ley, 1994. [Ra] C.R.Rao. Linear Statistical Inference and Its Applications. 2nd ed. New York: Wiley, 2002. Перев. на рус. яз.: С. Р. Рао. Линейные статистические методы и их применения. М.: Наука, 1968. [R] S. Rasmussen. An Introduction to Statistics with data Analysis. International student ed. Pacific Grove, CA: Brooks/Cole, 1992. [Re] A. G. Rencher. Linear Models in Statistics. New York—Chichester: Wiley, 2000. [Rei] C. Reid. Neyman — from Life. New York—Hedelberg—Berlin: Springer-Verlag, 1982. [Res] S. I. Resnick. A Probability Path. Boston, MA: Birkhauser, 1999. [Ri] J. A. Rice. Mathematical Statistics and Data Analysis. 2nd ed. Pacific Grove, CA—London: Duxbury Press, 1995. [Rob] G. Robbins. A remark on Stirling’s formula // Amer. Math. Monthly. 1955. V. 62. P. 26—29. [Ro] J.Rosenblat. Basic Statistical Methods and Models for the Sciences. Boca Raton, FL—London: Chapman and Hall/CRC, 2002. [Rosl] S. M.Ross. Solutions Manual for Introduction to Probability Models. 4th ed. Boston, MA: Academic, 1989. [Ros2] S. M.Ross. Introductory Statistics. New York—London: McGraw-Hill, 1996. [Ros3J S. M.Ross. Introduction to Probability Models. 7th ed. San Diego, CA— London: Harcourt/Academic, 2000. [Ros4] S. M.Ross. Introduction to Probability and Statistics for Engineers and Sci- entists. 2nd ed. San Diego, CA—London: Harcourt/Academic, 2000. [Ros5] S.Ross. A First Course in Probability. 6th ed. Upper Saddle River, NJ— London: Prentice Hall, 2002.
Список литературы 451 [Ros6] S.M.Ross. Probability Models for Computer Science. San Diego, CA— London: Harcourt Academic Press, 2002. [RotE] V.K.Rothagi, S.M.Ehsanes. An Introduction to Probability and Statistics. 2nd ed. New York—Chichester: Wiley, 2001. [Rou] G. G. Roussas. A Course in Mathematical Statistics. 2nd ed. San Diego, CA— London: Academic, 1997. [Roy] R. M. Roy all. Statistical Evidence: a Likelihood Paradigm. London: Chapman and Hall, 1997. [S] R. L. Scheaffer. Introduction to Probability and Its Applications. 2nd ed. Belmont, CA—London: Duxbury, 1995. [Sc] R. B.Schinazi. Probability with Statistical Applications. Boston, MA: Birkhau- ser, 2001. [SeS] P.K.Sen, J. M. Singer. Large Sample Methods in Statistics: an Introduction with Applications. New York—London: Chapman and Hall, 1993. [Sh] A. H. Ширяев. Вероятность: В 2-х кн. 3-е изд. М.: МЦНМО, 2004. [SiM] A. F. Siegel, С. J. Morgan. Statistics and Data Analysis: an Introduction. 2nd ed. New York—Chichester: Wiley, 1996. [Sin] Я.Г. Синай. Курс теории вероятностей. М.: Изд-во МГУ, 1985. 2-е изд. 1986. [SpSS] M.R. Spiegel, J. J. Schiller, R. A. Srinivasan. Schaum’s Outline of Theory and Problems of Probability and Statistics. 2nd ed. New York—London: McGraw- Hill, 2000. [Stl ] D. Stirzaker. Elementary Probability. Cambridge: Cambridge University Press, 1994. [St2] D. Stirzaker. Solutions Manual for Stirzaker’s Elementary Probability. Cam- bridge: Cambridge University Press, 1994. [St3] D. Stirzaker. Probability and Random Variables: a Beginner’s Guide. New York: Cambridge University Press, 1999. [St4] D. Stirzaker. Probability Vicit Expectation // Probability, Statistics and Opti- mization. Chichester: Wiley, 1994. P. 31—41. [Sto] J. M. Stoyanov. Counterexamples in Probability. 2nd ed. Chichester: Wiley, 1997. Перев. на рус. яз.: Й. Стоянов. Контрпримеры в теории вероятностей. М.: Факториал, 1999. [Str] D.W.Strook. Probability Theory: an Analytic View. Cambridge: Cambridge University Press, 1993. [T] K. Trivedi. Probability and Statistics with Reliability, Queueing, and Computer Science Applications. 2nd ed. New York—Chichester: Wiley, 2002. [Tu] H.C. Tuckwell. Elementary Applications of Probability Theory: with an Intro- duction to Stochastic Differential Equations. 2nd ed. London: Chapman and Hall, 1995. [Tuk] J. W. Tukey. Exploratory Data Analysis. Reading, MA: Addison-Wesley, 1977. Перев. на рус. яз.: Дж. Тьюки. Анализ результатов наблюдений. Разведочный анализ. М.: Мир, 1981.
452 Список литературы [WMM] R.E. Walpole, R.H. Myers, S.H. Myers. Probability and Statistics for En- gineers and Scientists. 6th ed. Lipper Saddle River, NJ—London: Prentice Hall International, 1998. [We] R. Weber. IB Statistics: Lecture Notes, 2003. Электронная версия доступна по адресу http://www.statslab.cam.ac.uk/Dept/People/weber.html. [Wh] Р. Whittle. Probability via Expectation. 4th ed. New York: Springer, 2000. Перев. на рус. яз.: П. Уиттл. Вероятность. М.: Наука, 1982. [Wi] М. V. Wilkes. Memoirs of a Computer Pioneer. Cambridge, MA: MIT Press, 1985. [Wil] W. F. Willcox. Definitions of Statistics // ISI Rev. 1935. V. 3, № 4. P. 388—399. [Will] D. Williams. Weighingthe Odds: a Course in Probability and Statistics. Cam- bridge: Cambridge University Press, 2001. [WisH] G.L. Wise, E.B.Hall. Counterexamples in Probability and Real Analysis. New York—Oxford: Oxford University Press, 1993.
Предметный указатель ANOVA, или анализ дисперсии 346 Вероятность апостериорная 21 — априорная 21 — вырождения 124 — ошибки I рода 299 ---II рода 299 — условная 20 выпуклость вверх 98 — вниз 98 Гипотеза альтернативная 298 ---простая 298 — консервативная 299 — нулевая 298 ---простая 298 — односторонняя 309 Дзета-функция Римана 75 дисперсия 56, 179 — выборочная 258 Задача о баллотировке 48 закон больших чисел слабый 99 -------усиленный 100 Интервал доверительный 280 Канторовская лестница 153 квантиль верхняя 252 — нижняя 252 ковариация 57, 185 количество информации по Фишеру 273 коэффициент корреляции 186 критерий наиболее мощный 300 — обобщенного отношения правдопо- добия 321 — отношения правдоподобия Нейма- на—Пирсона 302 — Пирсона хи-квадрат 315 — равномерно наиболее мощный 307 — согласия 315 — Стыодента, или t-критерий 311 — факторизации 260 Лемма Бореля—Кантелли вторая 163 --- первая 162 Математическое ожидание 51, 179 матрица ортогональная 219 — положительно определенная 144 медиана 151 — апостериорная 288 метод максимального правдоподобия 263 — моментов 270 — наименьших квадратов 353 мода 151 момент и-й 80 мощность 300 Независимость 28, 164 независимые одинаково распределенные случайные величины 55
454 Предметный указатель неравенство Йенсена 97 — Коши—Шварца 56 — Крамера—Рао 272 — Маркова 96 — между средним арифметическим и средним геометрическим 99 — Чебышёва 96 — Чернова 97 несмещенность 255 нормальность асимптотическая 255 носитель плотности 154 Область критическая 299 отклонение стандартное выборочное 268 отношение правдоподобия 300 ----монотонное 307 ----обобщенное 321 оценивание параметрическое 254 — точечное 280 оценка 253 — BLUE, или наилучшая линейная несмещенная оценка 354 — интервальная 280 — максимального правдоподобия 263 — минимального среднеквадратическо- го отклонения 272 — оптимальная байесовская 287 ошибка I рода 298 — II рода 299 — абсолютная 287 — среднеквадратическая 255, 269 — стандартная 268 Парадокс Симпсона 335 плотность бимодальная 201 — мультимодальная 201 — распределения вероятностей апосте- риорная 285 -------априорная 285 ---- совместная 157 ---- условная 162 — унимодальная 201 полоса доверительная 285 потери средние апостериорные 287 потери типа 0-1 291 правило незадачливого статистика 52, 183 — решающее 288 преобразование Лапласа 187 — Фурье 190 ---обратное 190 принцип отражения 49 проверка гипотез 298 процентиль 252 процесс ветвящийся 122 ---докритический 123 --- критический 124 --- надкритический 124 — Гальтона—Ватсона 132 Размер 299 распределение абсолютно непрерывное 153 — бета 251 — биномиальное 75 — вероятностей условное 162 — гамма 142 — гауссовское, или нормальное 100, 140 — геометрическое 76 — гипергеометрическое 307 — Коши 142 — многомерное нормальное 144 — мультиномиальное 331 — отрицательное биномиальное 78 — пуассоновское 78 — равномерное 136 — Симпсона 174 — совместное 53 — Стьюдента, или t-рас пределение 235, 248 — Фишера 249 — хи-квадрат 246 — экспоненциальное 142 регрессия линейная 351 ---простая 352 риск байесовский 288
Предметный указатель 455 Свойство отсутствия памяти 77, 162 семейство сопряженное 286 — экспоненциальное 277 случайная величина 51, 145 событие 19 состоятельность 255 среднее апостериорное 287 стандартное отклонение 56 статистика 259 — достаточная 259 ----минимальная 262 — Стьюдента 311 статистики порядковые 195 степень свободы 235 сумма квадратов внутригрупповая 346 ----межгрупповая 347 ----общая 347 ---- остаточная 356 Таблица сопряженности признаков 331 теорема Байеса 20 — Муавра—Лапласа интегральная 104 ---- локальная 104 — Пирсона 316 — Рао—Блекуэлла 269 теорема Уилкса 321 — Фишера 266 — центральная предельная 100 ------- локальная 102 Уровень значимости 299 Формула Байеса 20 — включения-исключения 43 — полной вероятности 20 — свертки 58 — Стирлинга 105 — условного математического ожида- ния 53 функция логарифма правдоподобия 263 — моментов производящая 80 — потерь 287 --- квадратическая 287 — правдоподобия 263 — распределения кумулятивная 145 --- совместная 157 — характеристическая 80 ---совместная 223 Энтропия 105
Келъберт Марк Яковлевич Сухов Юрий Михайлович ВЕРОЯТНОСТЬ И СТАТИСТИКА В ПРИМЕРАХ И ЗАДАЧАХ Том I. Основные понятия теории вероятностей и математической статистики Подписано в печать 04.06.2007 г. Формат 60 х 90 !/1б- Бумага офсетная № 1. Печать офсетная. Печ. л. 28,5. Тираж 1000 экз. Заказ № 1104 Издательство Московского центра непрерывного математического образования 119002, Москва, Большой Власьевский пер., д. 11. Отпечатано с готовых диапозитивов в ППП «Типография ,,Наука“». 121099, Москва, Шубинский пер., д. 6. Книги издательства МЦНМО можно приобрести в магазине «Математическая книга», Большой Власьевский пер., д. 11. Тел. (495)241-72-85. E-mail: biblio@mccme.ru
Сведения из теории вероятностей и математической статистики становятся все более необходимыми в социологии, менеджменте финансовой математике и во многих других отраслях знаний. В книге собрано большое количество задач, снабженных полными решениями. Необходимые теоретические сведения приводятся по ходу изложения.