Текст
                    УДК 519.2@78.5)
ББК 22.171+22.172
Б 86
Бочаров П. П., Печинкин А. В. Теория вероятностей. Матема-
Математическая статистика. - 2-е изд. - М.: ФИЗМАТЛИТ, 2005. - 296 с. -
ISBN 5-9221-0633-3.
В первой части рассматриваются основные понятия теории вероятностей,
при этом используются относительно простые математические конструкции,
но, тем не менее, изложение ведется на основе аксиоматического построения,
предложенного академиком А. Н. Колмогоровым. Во второй части излагают-
излагаются основные понятия математической статистики. Рассматриваются наиболее
часто встречающиеся задачи оценивания неизвестных параметров и проверки
статистических гипотез и описываются основные методы их решения. Каж-
Каждое приведенное положение иллюстрируется примерами. Излагаемый материал
в целом соответствует государственному образовательному стандарту.
Студентам, аспирантам и преподавателям вузов, научным работникам раз-
различных специальностей и желающим получить первое представление о теории
вероятностей и математической статистике.
© ФИЗМАТЛИТ, 2005
ISBN 5-9221-0633-3	© П. П. Бочаров, А. В. Печинкин, 2005


ОГЛАВЛЕНИЕ Предисловие Введение . . I. Теория вероятностей Глава 1. Вероятностное пространство 15 1. Пространство элементарных исходов 15 2. События, действия над ними 16 3. сг-алгебра событий 21 4. Вероятность 25 Глава 2. Классическая и геометрическая вероятности 29 1. Классическая вероятность 29 2. Элементы комбинаторики в теории вероятностей 30 3. Геометрическая вероятность 36 Глава 3. Условная вероятность. Независимость событий. Форму- Формулы полной вероятности и Байеса 40 1. Условная вероятность 40 2. Формула умножения вероятностей 42 3. Независимость событий 44 4. Формула полной вероятности 47 5. Формула Байеса 48 Глава 4. Схема Бернулли 52 1. Формула Бернулли 52 2. Формула Пуассона 53
Оглавление 3. Формулы Муавра-Лапласа 54 4. Применение приближенных формул Пуассона и Муавра-Лапласа 57 5. Теорема Бернулли 62 6. Вычисление определенных интегралов методом Монте-Карло .... 63 7. Полиномиальная схема 67 Глава 5. Случайные величины и их распределения 69 1. Случайная величина 69 2. Функция распределения случайной величины 71 3. Дискретные случайные величины 74 4. Непрерывные случайные величины 11 5. Функции от случайной величины 84 Глава 6. Многомерные случайные величины и их свойства 89 1. Многомерная случайная величина 89 2. Совместная функция распределения 90 3. Дискретные двумерные случайные величины 92 4. Непрерывные двумерные случайные величины 95 5. Условные распределения 101 6. Независимые случайные величины 105 7. Функции от многомерных случайных величин 108 Глава 7. Числовые характеристики случайных величин 114 1. Математическое ожидание случайной величины 114 2. Математическое ожидание функции от случайной величины. Свой- Свойства математического ожидания 117 3. Дисперсия. Моменты высших порядков 120 4. Ковариация и корреляция случайных величин 125 5. Условное математическое ожидание. Регрессия 129 6. Другие числовые характеристики случайных величин 133 Глава 8. Предельные теоремы теории вероятностей 137 1. Неравенство Чебышева. Закон больших чисел 138 2. Усиленный закон больших чисел. Закон повторного логарифма . . . 140 3. Характеристическая функция 143 4. Центральная предельная теорема 150 Список литературы 152
Оглавление II. Математическая статистика Глава 1. Общие сведения 155 1. Задачи математической статистики 155 2. Основные понятия математической статистики 158 3. Простейшие статистические преобразования 160 4. Основные распределения математической статистики 169 Глава 2. Оценки неизвестных параметров 173 1. Статистические оценки и их свойства 173 2. Достаточные оценки 183 3. Метод моментов 191 4. Метод максимального правдоподобия 193 5. Метод минимального расстояния 198 6. Метод номограмм 199 7. Доверительные интервалы 201 Глава 3. Проверка статистических гипотез 207 1. Статистическая гипотеза. Критерий 207 2. Простые гипотезы 212 3. Однопараметрические гипотезы. Равномерно наилучшие критерии 223 4. Многопараметрические гипотезы 232 5. Критерии согласия 238 6. Критерии однородности двух выборок 246 Глава 4. Некоторые задачи, связанные с нормальными выборками 252 1. Общая характеристика задач 252 2. Критерии согласия 253 3. Критерии равенства дисперсий 256 4. Выборочная корреляция 260 5. Общая линейная модель, метод наименьших квадратов 263 6. Регрессионный анализ 271 7. Дисперсионный анализ 278 8. Планирование эксперимента 285 Список литературы 292 Приложение 293
Предисловие Предлагаемое учебное пособие написано на основе курсов по теории вероятностей и математической статистике, читаемых авторами в те- течение ряда лет студентам самых различных специальностей, начиная от инженерных и кончая прикладной математикой. Для его изучения достаточно знание математики в объеме стандартного курса высшей математики для втузов. Следует обратить внимание читателя на то, что хотя теория ве- вероятностей и математическая статистика выступают в роли единой математической дисциплины, ее первая часть — теория вероятностей — существенно более проста для понимания. Гораздо сложнее вторая часть — математическая статистика, причем необходимым условием для ее изучения является хорошее знание теории вероятностей. Этим объясняется определенное различие в стиле изложения первой и второй частей. Материал первой части, ориентированный на детальную прора- проработку основных понятий теории вероятностей, достаточно однороден, в то время как во второй части применен «многоуровневый» подход к изложению: доказательства и более глубокие сведения, которые можно опустить при первом знакомстве с математической статистикой, выделены более мелким шрифтом. В пособие включено большое количество примеров, иллюстрирую- иллюстрирующих приведенные положения. В книге принята раздельная нумерация параграфов, примеров, фор- формул, рисунков и таблиц по главам. При ссылке на объект из другой главы добавляется номер главы (например, «см. пример 3 из гл. 2»). В части 2 («Математическая статистика») имеются ссылки на часть 1 («Теория вероятностей»), и тогда добавляется «часть 1» (например, «см. часть 1, гл.2, параграф 3»). В книге приняты следующие соглашения об использовании матема- математических знаков равенства и приближенного равенства. Соотношение / = д означает тождественное равенство функций /ид при всех значениях аргумента. Запись а ~ b означает асимптотическое равен- равенство а и Ъ при использовании предельных формул и эквивалентна математическому соотношению а = Ъ + о(\). Наконец, запись а = Ъ означает равенство а и Ь с точностью до ошибок округления. В книге приводятся отдельные списки литературы для первой и вто- второй частей. При этом принят следующий порядок: сначала по возрас- возрастанию сложности идут учебники, затем — дополнительная литература для тех читателей, кто желает более глубоко ознакомиться с тем
Предисловие или иным разделом, и, наконец, также по возрастанию сложности приводятся задачники. При написании настоящей книги были использованы материалы учебника Б. В. Гнеденко и задачника Л. Д. Мешалкина (см. [8] и [17], литература к части 1). Кроме того, хотя в приложении и приводятся таблицы значений распределения Пуассона, плотности нормального распределения и интеграла Лапласа, для решения примеров по ма- математической статистике необходимо иметь статистические таблицы Л. Н. Большева и Н.В. Смирнова ([1], литература к части 2). Авторы благодарны всем лицам, оказавшим помощь при подготовке настоящего издания. Бочаров П. П., Печинкин А. В. 2005 г.
Введение Теория вероятностей и математическая статистика относится к чис- числу прикладных математических дисциплин, поскольку она направлена на решение прикладных задач и возникла из чисто практических по- потребностей, а использует математические методы. В свою очередь двой- двойное название дисциплины говорит о том, что в ней можно выделить два направления: теорию вероятностей и математическую статистику. Если попытаться кратко объяснить, чем занимаются каждое из направлений, то это будет выглядеть так: теория вероятностей производит пересчет заданных вероятностей «простых» событий в вероятности «сложных» событий, а математическая статистика по наблюденным данным вос- восстанавливает вероятности событий или проверяет, правы ли мы в своих предположениях относительно этих вероятностей. Постараемся подробнее остановиться на том, какие закономерности изучает теория вероятностей и математическая статистика и какое отношение это имеет к практике. Начнем с первого направления — теории вероятностей. Уже само название наводит на мысль, что основная задача теории вероятнос- вероятностей — изучение численных закономерностей в опытах, результаты кото- которых не могут быть предсказаны однозначно до проведения испытаний. Для того чтобы лучше понять существо дела, выясним подробнее тот смысл, который вкладывается в понятия «вероятно», «маловероят- «маловероятно», «весьма вероятно». Первое необходимое условие употребления этих понятий заклю- заключается, как уже говорилось, в невозможности предсказания исхода некоторого действия. Так, мы не можем предсказать, какой стороной упадет подброшенная монета, сколько очков выпадет на игральной кости, сколько времени проработает электрическая лампочка, какое вещество образуется в результате определенной химической реакции (если, конечно, результат не предопределен известной нам теорией), сколько частиц будет зарегистрировано счетчиком Гейгера-Мюллера за заданный промежуток времени, какой номер телефона у знакомого, какая будет погода 1 июня 2010 г. и т.д. Однако погоду 1 июня 2010 г. мы не будем знать до этого дня, а после наступления 1 июня 2010 г. она будет полностью определена. Поэтому применение слов «маловероятно», «весьма вероятно» к погоде именно 1 июня 2010 г. некорректно из-за невозможности повторения испытания и погодой 1 июня 2010 г. до этого дня занимается метео- метеорология, а после — история, но никак не теория вероятностей. Итак, второе необходимое условие — возможность повторения испытания
Введение с первоначальным комплексом исходных данных, причем, хотя бы теоретически, бесконечное число раз. Далее, выяснив номер телефона знакомого, мы сколько бы раз его ни спрашивали, новых цифр не добьемся. Аналогично, определив исход химической реакции, а затем проведя ее снова при тех же условиях, мы, естественно, нового вещества не получим. Отсюда вытекает третье необходимое условие — невозможность точного предсказания резуль- результатов не только первого испытания, но и каждого последующего. Таким образом, в приведенных выше примерах высказывания «ма- «маловероятно», «весьма вероятно» в наиболее точном их смысле можно отнести только к подбрасыванию монеты, бросанию игральной кости, испытанию электрической лампочки и регистрации частиц счетчиком Гейгера. Попробуем теперь формализовать понятие «вероятного», связывая с ним числовую характеристику. Очевидно, эпитет «маловероятно» мы приписываем событиям, доля появления которых в общем числе испы- испытаний мала, и, наоборот, «весьма вероятно» — событиям, происходя- происходящим практически во всех испытаниях. Введем количественную оценку понятия «вероятного». Для этого рассмотрим частоту /д = Na/N появ- появления некоторого события А, где Na — число появлений этого события, а N — общее число испытаний. Оказывается, как было установлено опытным путем, с ростом числа испытаний N для довольно широко- широкого класса явлений частота /а стабилизируется, т. е. стремится к некоторому предельному значению Ра, которое естественно при- принять в качестве вероятности события А. К явлениям подобного рода относятся события, связанные с выпадением «герба» или «цифры» при подбрасывании монеты, с выпадением определенного числа очков при бросании игральной кости, с работой электрической лампочки в определенных границах времени, регистрацией частиц счетчиком и многие, многие другие. Такие события разумно назвать случайными. Поскольку в настоящем курсе другие события встречаться не будут, то прилагательное «случайное» мы будем для краткости опускать. Эмпирический закон предельного постоянства частоты является той основной физической предпосылкой, которая необходима для практиче- практического применения методов теории вероятностей. Более того, хотя совре- современная теория вероятностей и строится на аксиоматическом определе- определении вероятности (см. ниже), при осмыслении полученных результатов мы рекомендуем всегда пользоваться частотной интерпретацией. Так, если после вычислений Вы получили, что вероятность некоторого события А равна 0,15, то это нужно трактовать следующим образом: при многократном повторении соответствующего опыта на каждые 100 испытаний приходится 15 появлений события А. Однако попытка отождествить вероятность с частотой не выдержи- выдерживает никакой более или менее существенной критики. Частота меняет- меняется от испытания к испытанию, а бесконечного числа испытаний, как известно, никто не проводил и вряд ли проведет в обозримом будущем.
10 Введение Математика же привыкла иметь дело с точными, логически безупреч- безупречными понятиями, и частотное определение ее никак не устраивает. Поэтому выдающимся математиком прошлого века Андреем Николае- Николаевичем Колмогоровым было предложено аксиоматическое определение вероятности, основанное на общем понятии меры. При этом аксиомы Колмогорова отражают три основных свойства частоты, перенесенных им на вероятность. 1. Частота появления случайного события неотрицательна — акси- аксиома неотрицательности вероятности. 2. Частота появления достоверного события, т. е. события, происхо- происходящего в каждом испытании, равна единице — аксиома норми- рованности. 3. Если два события не могут одновременно произойти в одном и том же испытании (несовместны), то частота появления хотя бы одного из них совпадает с суммой частот появления каждо- каждого — аксиома сложения вероятностей. Если теперь сопоставить каждому событию вероятность, т. е. число, удовлетворяющее трем вышеперечисленным аксиомам, то, оказывается, можно построить весьма содержательную теорию. При этом един- единственное добавление, необходимое для обеспечения математической строгости, заключается в замене аксиомы сложения вероятностей 3 расширенной аксиомой сложения вероятностей: 3х. Вероятность суммы равна сумме вероятностей не только для двух, но и для произвольного счетного (т. е. такого, которое можно пересчитать с помощью чисел натурального ряда) числа несовместных событий. Аксиоматический подход позволяет не только описать хорошо из- известные явления, но и найти закономерности более общего типа. Так, вспомним пример с подбрасыванием монеты. Естественно предполо- предположить (и это подтверждается неоднократными опытами), что частоты выпадения «герба» и «цифры» одинаковы, и приписать каждому из этих двух событий одинаковую вероятность 1/2. Однако при акси- аксиоматическом построении теории вероятностей мы вправе приписать выпадению «герба» любую вероятность р, заключенную между нулем и единицей, а тогда выпадению «цифры» мы обязаны сопоставить ве- вероятность q = 1 — р. Такое определение вероятности описывает случай несимметричной монеты. В свою очередь, последовательное подбрасы- подбрасывание несимметричной монеты (или аналогичный опыт) носит в теории вероятностей название последовательности независимых одинаковых испытаний или схемы Бернулли и является одной из наиболее часто применяемых на практике «базовых» моделей, позволяющих наглядно представить себе основные задачи этой теории. Теперь мы можем привести примеры простейших задач, которые решает теория вероятностей. Так, считая, что при бросании игральной
Введение 11 кости падение ее на любую грань одинаково вероятно, нужно найти вероятность того, что выпадет четное число очков. Или, зная вероят- вероятность р выпадения «герба» при одном подбрасывании несимметричной монеты, необходимо определить вероятность выпадения ровно одного «герба» при двух подбрасываниях этой же монеты. Вернемся к примерам, рассмотренным в самом начале введения. При первом прочтении мы отбросили высказывания о погоде, ре- результате химической реакции, номере телефона знакомого. При более детальном рассмотрении оказывается, однако, что и к ним можно применить методы теории вероятностей. Заменяя, например, выска- высказывание «погода 1 июня 2010 г. будет солнечная» высказыванием «погода 1 июня будет солнечная» (не указывая, какого именно года), мы уже вправе использовать вероятностные соображения. Аналогично, в результате химической реакции могут появиться побочные продукты, объем которых может оказаться случайным. Предоставим читателю самому придумать постановку задачи о номере телефона знакомого, для решения которой также можно было бы применить вероятностные методы. Перейдем ко второму направлению — математической стати- статистике. В теории вероятностей игнорируется вопрос: откуда берутся исходные вероятности? Они считаются заданными «извне» или опреде- определенными какой-либо теорией. Однако в реальной жизни при примене- применении методов теории вероятностей постоянно приходится сталкиваться с ситуациями, когда эти вероятности нам неизвестны. Конечно, при отсутствии всякой информации давать какие-либо прогнозы — вещь весьма опасная. Поэтому подумаем, как можно выйти из создавшейся ситуации. Обратимся к примеру. Пусть нам предлагают играть в «орлянку» неизвестной монетой, о которой мы не знаем, как часто выпадает «герб» и как часто — «цифра». Осторожный человек, прежде чем «бросаться головой в омут», всегда посмотрит, как это делают другие. Поэтому он сначала понаблюдает за ходом игры и только потом, оценив для себя шансы, будет ставить на тот или иной исход. Именно задачами восстановления на основе предварительных на- наблюдений данных, недостающих для расчетов методами теории вероят- вероятностей, и занимается математическая статистика. Очевидно, что в си- силу случайности результатов наблюдений сделать достоверные выводы о параметрах того явления, которое мы далее собираемся исследовать, невозможно. Тем не менее у нас есть определенная зацепка: это тот же самый эмпирический закон предельного постоянства частоты (однако, если мы работаем в рамках аксиоматического подхода, мы должны этот закон доказать строго математически!). В соответствии с ним: чем дольше производить наблюдения, тем более точные выводы можно получить. Математическая статистика как раз и учит тому, как нужно обрабатывать наблюдения, чтобы «выжать» из них наиболее полную
12 Введение информацию, и как оценить степень достоверности полученных вы- выводов. Вернемся к игре в «орлянку». Понаблюдав за игрой, мы можем задать себе такой вопрос: что можно сказать на основе полученных данных о вероятности выпадения «герба»? Или спросить себя: а дей- действительно ли вероятности выпадения «герба» и «цифры» одинаковы, как это нам обещают? Именно эти два вопроса и определяют два ос- основных направления в математической статистике. Первое направление связано с оценкой неизвестного параметра (в частности, вероятности выпадения «герба»), а второе — с проверкой определенных предполо- предположений, или гипотез (в нашем примере — гипотезы о равновероятности выпадения «герба» и «цифры»). Правильность исходных предпосылок теории вероятностей и ма- математической статистики, как и всякой другой прикладной теории, проверяется практикой. На сегодняшний день трудно найти такую область человеческих знаний, где в той или иной мере не применялись бы методы теории вероятностей и математической статистики. Сюда, наряду с естественными отраслями науки и техники, такими, как физика, химия, инженерия, можно отнести и, казалось бы, далекие от математики области: историю, медицину, генетику, социологию, лингвистику и т. д. На базе теории вероятностей и математической статистики сформи- сформировались и выросли такие разделы, как теория случайных процессов, теория массового обслуживания, математическая теория надежности и т. д. В свою очередь теория вероятностей и математическая статисти- статистика опираются на другие математические дисциплины: функциональный анализ, алгебру, аналитическую геометрию, теорию функций комплекс- комплексного переменного, дифференциальные уравнения и др. В заключение скажем несколько слов об истории развития теории вероятностей и математической статистики. Возникновение теории ве- вероятностей обычно относят к XVII в. и связывают с комбинаторными задачами азартных игр. Хотя азартные игры и нельзя рассматривать как серьезный объект для изучения, именно они привели к решению задач, не укладывавшихся в рамки существовавших тогда математи- математических моделей, и способствовали появлению новых понятий и идей. Эти новые элементы можно встретить уже у Я. Бернулли, П. С. Ла- Лапласа, К. Ф. Гаусса и целого ряда других видных математиков того времени. Как самостоятельный раздел математики дисциплина «Теория вероятностей и математическая статистика» сложилась в конце XIX — начале XX веков, причем если говорить о математической статистике как об отдельном направлении, то ее бурное развитие началось лишь в прошлом столетии. Окончательное становление теории вероятностей и математической статистики, как уже говорилось, связано с именем А. Н. Колмогорова.
Часть I ТЕОРИЯ ВЕРОЯТНОСТЕЙ
Глава 1 ВЕРОЯТНОСТНОЕ ПРОСТРАНСТВО Взяв практически любую статью по теории вероятностей, мы увидим, что либо она начинается словами: «Пусть (О, 03, Р) — вероятностное простран- пространство», либо в одной из первых же фраз написано: «где (Г2, 03, Р) — вероят- вероятностное пространство». Иногда добавляется: «О — пространство элементарных исходов, 03 — сг-алгебра (сигма-алгебра) событий, Р — вероятностная мера (или вероятность)». Естественно, у неискушенного читателя пропадает всякое желание читать эту статью дальше. Однако понятие вероятностного про- пространства является весьма естественным математическим обобщением хорошо известных физических понятий: исход опыта, случайное событие, вероятность события. В настоящей главе мы попытаемся, насколько это возможно, дать читателю, знакомому только с основами высшей математики, разъяснение этого основополагающего для теории вероятностей понятия. 1. Пространство элементарных исходов Рассмотрим простейший вариант случайного испытания — подбра- подбрасывание монеты. Если отвлечься от чисто гипотетических возможно- возможностей — падения монеты на ребро или вообще исчезновения монеты, то возможны только два исхода: выпадение «герба» и выпадение «цифры». Эти два исхода в рамках данного опыта уже нельзя разбить на более мелкие составляющие, т. е. они являются в некотором роде «элементар- «элементарными». При бросании игральной кости такими неделимыми исходами являются: выпадение одного очка, выпадение двух очков, ..., выпаде- выпадение шести очков. Значит, мы имеем уже 6 элементарных исходов. Более сложный пример получим, если рассмотрим падение идеальной (т. е. не имеющей размера) частицы на плоскость. Тогда результат испытания представляет собой попадание частицы в определенную точку плос- плоскости и его можно отождествить с двумерным вектором в некоторой системе координат на плоскости. Аналогично, если проанализировать любое испытание со случай- случайным исходом, можно заметить, что его результат представляет собой один из множества допустимых исходов. Поскольку в математике при- принято абстрагироваться от несущественных деталей, то всегда можно рассматривать все возможные в данном опыте исходы как некоторое множество О, которое и носит название пространства элементар- элементарных исходов или пространства элементарных событий. Сами эле- элементарные исходы будем обозначать строчной буквой оо, снабжая ее при необходимости индексами.
16 Гл. 1. Вероятностное пространство Пример 1. При подбрасывании монеты пространство элементарных ис- исходов О состоит всего из 2 исходов: ш\ — выпадение «герба» и и2 — выпадение «цифры». ? Пример 2. При бросании игральной кости возможны б элементарных исходов: и\ — выпадение одного очка, и;2 — выпадение 2 очков, ...,ujq — выпадение б очков. ? Пример 3. При подбрасывании двух монет пространство элементарных исходов О содержит уже 4 исхода. Перечислим их: и\ — пара «герб»-«герб», UJ2 — «герб»-«цифра», из — «цифра»-«герб», uj\ — «цифра»-«цифра». При подбрасывании трех монет возможны 8 элементарных исходов типа «герб»- «цифра»-«герб» и т. д. ? Пример 4. При определении времени жизни элементарной частицы про- пространство элементарных исходов О представляет собой полупрямую [0, оо). ? Следует отметить, что в практических исследованиях существует определенный произвол в описании пространства элементарных ис- исходов О. Так, однократное подбрасывание монеты (пример 1) мож- можно рассматривать как часть более сложного опыта, заключающегося в подбрасывании двух или более монет (пример 3). При определении времени жизни частицы (пример 4) можно также рассматривать типы получившихся после распада частиц и т.д. Очевидно, при решении практических задач разумно выбирать всегда наиболее простой вариант пространства элементарных исходов, необходимый для решения стоя- стоящей перед исследователем задачи. 2. События, действия над ними Понятие «событие» лингвистически отличается от понятия «элемен- «элементарное событие» только отсутствием прилагательного «элементарное». Естественно поэтому определить событие так же, как исход испытания, но только не обязательно неделимый. Пример 5. При бросании игральной кости (см. пример 2) событиями являются: выпадение четного числа очков (это событие происходит тогда и только тогда, когда появляется один из элементарных исходов и2, ил, ujq,); выпадение нечетного числа очков (элементарные исходы uj\, us, 1^5); выпадение не менее двух очков (элементарные исходы и2, и3, uja, uj$, ujq) и т. д. ? Пример 6. При подбрасывании двух монет примерами событий будут: падение обеих монет на одну и ту же сторону (появлению этого события благоприятствуют элементарные исходы ш\ и и а из примера 3); падение монет на разные стороны (элементарные исходы и2 и из); выпадение, по крайней мере, одного «герба» (элементарные исходы и\, U2 и ш$) и т. п. ? Пример 7. При определении времени безотказной работы электрической лампочки можно привести следующие примеры событий: безотказная работа лампочки до момента Т; отказ лампочки до момента Т; отказ лампочки между моментами Т\ и Т2 и т. д. Здесь так же, как и в примере 4, пространство элементарных исходов О представляет собой полупрямую [0, оо). Тогда первому событию соответствует множество точек на полупрямой [Т, оо), второму — на интервале [О, Т), третьему — на интервале (ТьТг)- ?
2. События, действия над ними П Вспоминая, что в результате опыта может произойти один и только один элементарный исход ио из пространства элементарных исходов п, мы приходим к теоретико-множественному определению события как произвольного набора элементарных исходов или, иными словами, произвольного подмножества множества элементарных исходов ft. События будем обозначать прописными латинскими буквами, снабжен- снабженными при необходимости индексами: А, В, С\, Н% и т.д. Заметим, что приведенное выше определение события не всегда позволяет построить логически безупречную аксиоматику теории вероятностей. Поэтому в следующем параграфе мы уточним поня- понятие «событие». Сейчас же наша цель состоит в описании теоретико- множественных операций над событиями, и нам удобно отказаться от несущественных пока деталей. Часто бывает полезным наглядное представление событий в виде так называемой диаграммы Эйлера-Венна. Будем изображать все пространство элементарных исходов прямоугольником (рис. 1). Тогда каждый элементарный исход ио соответствует точке внутри прямоуголь- прямоугольника, а каждое событие А отождествимо с некоторой областью. Само пространство элементарных исходов О представляет собой событие, состоящее из всех возможных исходов, т. е. происходящее всегда (при любом элементарном исходе ио), и носит название досто- достоверного события. Таким образом, пространство элементарных исходов выступает в двух качествах: в качестве собственно множества всех элементарных исходов и в качестве достоверного события. Для дальнейшего нам удобно ввести еще одно событие 0, называе- называемое невозможным. Невозможное событие не происходит никогда, т.е. не содержит ни одного элементарного исхода. Пример 8. При бросании игральной кости событие «выпадение не менее одного очка» является достоверным (О), событие «выпадение более б очков» — невозможным @). ? Над событиями как над подмножествами фиксированного множе- множества можно производить действия, которые мы сейчас опишем. Пересечением {произведением) двух событий А и В называется событие С, происходящее тогда и только тогда, когда наступают одно- одновременно оба события А и В, или, иными словами, состоящее из тех элементарных исходов, которые принадлежат и А, и В (рис. 2). Рис. 1 Рис. 2
18 Гл. 1. Вероятностное пространство Пересечение событий А и В записывается следующим образом: С = АПВ или С = А • В = АВ. Аналогично определяется пересечение трех и более событий. Пример 9. Событие А — при подбрасывании двух монет падение их одной стороной, событие В — выпадение хотя бы одного «герба». Пересечением событий А и В является событие С, состоящее в выпадении двух «гербов». ? Пример 10. Событие А — выпадение четного числа очков при бросании игральной кости, событие В — выпадение не менее 3 очков. Пересечение А и В — событие С, состоящее в выпадении 4 или б очков. ? События А и В называются непересекающимися или несовмест- несовместными, если их пересечение является невозможным событием, т. е. АП В = 0 (рис.3). Для трех и более событий понятие несовместности можно опреде- определить разными способами. Мы будем, в основном, пользоваться следу- следующим понятием несовместности п событий, которое также называется попарной несовместностью событий: события А\,...,Ап называются (попарно) несовместными, или (попарно) непересекающимися, если Ai П Aj = 0 для любых г и j при г ф j. Пример 11. Событие А — выпадение четного числа очков при бросании игральной кости, событие В — выпадение нечетного числа очков. События А и В несовместны. ? Нетрудно видеть, что справедливы следующие простейшие формулы для пересечения двух событий, одно из которых достоверно или невоз- невозможно: Аи = А, А0 = 0. Объединением (суммой) двух событий А и В называется собы- событие С, происходящее тогда и только тогда, когда наступает хотя бы одно из событий А или В, т. е. состоящее из тех элементарных исходов, которые принадлежат хотя бы одному из множеств А или В (рис. 4). Рис. 3 Рис. 4 Для объединения событий А и В применяется запись С = Аи В.
2. События, действия над ними 19 Пример 12. Событие А — выпадение 1 или 3 очков при бросании игральной кости, событие В — выпадение 3 или 5 очков. Объединением событий А и В является событие С, состоящее в выпадении нечетного числа очков. ? Для объединения двух событий, одно из которых достоверно или невозможно, имеют место следующие формулы: В том случае, когда события Aw В несовместны, наряду со знаком «U» для их объединения употребляют знак «+». Обычно знак «+» применяют тогда, когда заведомо известно, что А и В несовместны, и это особо хотят подчеркнуть. В частности, поскольку невозможное событие несовместно с любым событием А, то Аналогично определяется объединение трех и более событий. При этом знак «+» используется в случае попарной несовместности входящих в объединение событий. Разностью двух событий А и В называется событие С, про- происходящее тогда и только тогда, когда происходит событие А, но не происходит событие В, т. е. со- состоящее из тех элементарных ис- исходов, которые принадлежат А, но не принадлежат В (рис. 5). Разность событий А и В запи- Рис. 5 сывается в виде С = А\В. Пример 13. Событие А — выпадение хотя бы одного «герба» при под- подбрасывании двух монет, событие В — падение обеих монет одной стороной. Разность С событий А и В представляет собой событие, заключающееся в выпадении ровно одного «герба». ? Справедливы следующие формулы для разности двух событий, одно из которых достоверно или невозможно: А\п = А\0 = А, 0\А = Кроме того, если А и В несовместны (АВ = 0), то А \ В = А. Симметрической разностью двух событий А и В (обозначается знаком А или о) называется событие С, представляющее собой объ- объединение событий А \ В и В \ А: С = А Л В = (А \ В) U (В \ А).
20 Гл. 1. Вероятностное пространство Поскольку события А\В и В\А несовместны (рис.6), симметриче- симметрическую разность можно записать также в виде Нетрудно заметить, что симметрическая разность есть объединение собы- событий А и В без их общей части: AaB = (AuB)\(BdA). Пример 14. Событие А — выпадение не менее 2 очков при бросании игральной кости, событие В — выпадение не более 4 очков. Симметрической разностью событий А и В является событие С, заключающееся в выпадении 1, 5 или б очков. ? Рис. 6 Если А и В несовместны, то А АВ = Рис. 7 В. Дополнением события А (обычно обозначается А) называется со- событие, происходящее тогда и только тогда, когда не происходит собы- событие А (рис. 7), или, иными словами, А = п\А. Пример 15. Событие А — выпадение четного числа очков при бросании игральной кости. Дополнительное событие А — выпадение нечетного числа очков. ? Справедливы формулы: А = А. Если некоторое событие записано в виде нескольких действий над различными событиями, то сначала вычисляются дополнения, затем выполняются умножения и, наконец, сложения и вычитания событий. Так, формула _ _ С = А{А2В{ UA3B2\B3 эквивалентна формуле С = {[A1(A2)B1]U[A3(B2)}}\B3.
3. о-алгебра событий 21 Пользуясь диаграммой Эйлера-Венна, нетрудно показать справед- справедливость следующих формул {формулы де Моргана)'. АпВ = Аи В, Аи В = АП В. Формулы де Моргана элементарно переносятся на произвольное число событий. В частности, для п событий А\,... ,Ап они имеют вид: А П ... П Ап = А\ U ... U Ап, A U ... U Ап = А\ П ... П Ап. Следует отметить, что все действия над событиями можно полу- получить с помощью только двух действий — объединения и дополнения (или пересечения и дополнения). Основанием для этого утверждения служат формулы де Моргана, а также соотношение А \ В = АВ. Кроме вышеперечисленных действий над событиями нам в дальнейшем понадобится поня- понятие включения. Событие А при- принадлежит (содержится в, включа- включается в) событию В (записывает- Рис. 8 ся А С В), если появление собы- события А обязательно влечет за собой наступление события В (рис. 8) или, иными словами, каждый элементарный исход и, принадлежа- принадлежащий А, обязательно принадлежит и В. Ясно, что включение А С В эквивалентно выполнению равенства АВ = А. Используют и обратное понятие: событие В содержит (включает) событие А (В D А), если А с В. Пример 16. Событие А — выпадение четного числа очков при бросании игральной кости, событие В — выпадение не менее 2 очков. Событие А принадлежит событию В, поскольку если выпало четное число очков B, 4 или 6), то обязательно выпало не менее 2 очков. ? Следующие включения очевидны: 0 с А с п. Кроме того, если А с В, то AUB = B, А\В = 0, ААВ = В\А. 3. сг-алгебра событий Итак, мы назвали событием произвольное подмножество простран- пространства элементарных исходов О. Такое определение прекрасно работает, когда О конечно или даже счетно (т. е. его можно пересчитать с по- помощью чисел натурального ряда). Однако если О более чем счетно,
22 Гл. 1. Вероятностное пространство то, вообще говоря, мы уже не сможем построить логически непроти- непротиворечивую теорию, называя событием произвольное подмножество п. Причина этого заключается в существовании так называемых неизме- неизмеримых множеств, что в свою очередь кроется в топологической струк- структуре классических рассматриваемых пространств (прямой, плоскости, трехмерного пространства и т.д.). Поэтому приходится отказаться от, казалось бы, естественного желания назвать событием любое под- подмножество пространства элементарных исходов О и выделить среди всех подмножеств некоторый класс подмножеств 53. Именно толь- только подмножества из выделенного класса 53 и будут называться событиями. Интуитивно ясно, что описанные в предыдущем пункте теоретико-множественные операции над событиями не должны приво- приводить к подмножествам, не являющимся событиями. С точки зрения повседневной практики подмножества пространства элементарных исходов п, не являющиеся событиями, представляют собой чистую математическую абстракцию и в реальной жизни никогда не встречаются. Даже само доказательство их существования пред- представляет весьма сложную задачу. Поэтому читателю, не желающему вдаваться в математические тонкости, мы рекомендуем пропустить параграф, посвященный сг-алгебре событий, и в дальнейшем под собы- событием понимать произвольное подмножество элементарных исходов О, а под сг-алгеброй — систему всех этих подмножеств. Любознательному читателю мы предоставляем возможность познакомиться со строгим определением последнего понятия, излагаемым ниже. Алгеброй событий 21 назовем непустую систему подмножеств п, удовлетворяющую следующим аксиомам: А1. Если подмножество А принадлежит 21 (является событием), то дополнение А также принадлежит 21 (является событием). А2. Если подмножества А и В принадлежат 21 (являются собы- событиями), то и объединение A U В принадлежит 21 (является событием). Как мы знаем, любую из рассмотренных нами операций над под- подмножествами можно получить с помощью только двух операций: до- дополнения и объединения. Поэтому пересечение и разность двух со- событий также будут событиями. Поскольку п = Аи А и 0 = п, то все пространство элементарных исходов п и пустое подмножество 0 обязательно являются событиями в любой алгебре событий. Очевидно также, что объединение и пересечение любого конечного числа собы- событий снова будет событием. Иными словами, алгебру событий 21 можно определить как систему подмножеств пространства элементарных
3. (т-алгебра событий 23 исходов п, замкнутую 0 относительно конечного числа теоретико- множественных операций. Однако понятие алгебры событий также оказывается недостаточ- недостаточным для аксиоматического построения теории вероятностей в том случае, когда пространство элементарных исходов О не является конеч- конечным. Интересы общей теории меры требуют, чтобы аксиома А2 была заменена на более сильную, и мы приходим к новому определению: а-алгеброй событий 33 назовем систему подмножеств из п, удо- удовлетворяющую аксиоме А1 и аксиоме 21. Если подмножества А\, А^,..., Ап,... принадлежат 33 {являют- {являются событиями), то и их (счетное) объединение А\ U A% U ... U U An U ... также принадлежит 33 (является событием). Основываясь на формулах де Моргана, нетрудно показать, что пере- пересечение счетного числа событий снова будет событием. Таким образом, сг-алгебру событий 33 можно определить как систему подмножеств пространства элементарных исходов п, замкнутую относительно счетного числа теоретико-множественных операций. Любая сг-алгебра событий является одновременно и алгеброй со- событий. Обратное, вообще говоря, не верно, т.е. существуют алгебры событий, не являющиеся сг-алгебрами. Однако если пространство эле- элементарных исходов О конечно, то любая алгебра событий будет также и сг-алгеброй событий, т. е. в этом случае понятия алгебры событий и сг-алгебры событий эквивалентны. сг-алгебра событий является второй компонентой вероятностного пространства (О,53,Р). Пример 17. Для любого пространства элементарных исходов О, со- содержащего хотя бы один исход, семейство подмножеств, состоящее всего из двух подмножеств О и 0, является сг-алгеброй. Ясно, однако, что на такой сг-алгебре, состоящей всего из достоверного и невозможного событий, сколь- нибудь содержательную теорию построить невозможно, и мы ее в дальнейшем рассматривать не будем. ? Пример 18. Пусть пространство элементарных исходов О содержит по крайней мере два исхода. Возьмем в О некоторое подмножество А, отлич- отличное от 0 и О. Тогда система из четырех подмножеств 0, А, А и О будет являться сг-алгеброй 03. Поскольку в дальнейшем мы будем рассматривать только события, а других событий, кроме перечисленных четырех, сг-алгебра 03 не содержит, то естественно отождествить ее с сг-алгеброй, определенной на пространстве элементарных исходов п', состоящем всего из двух элементарных исходов: ш[ = А и uj'2 = А, и содержащей подмножества 0, {ш[}, {ш^} и О. Здесь мы имеем дело с тем принципом упрощения пространства элементарных исходов, о котором говорилось в параграфе 1. 1) Система подмножеств замкнута относительно операции, если в результа- результате применения этой операции получаем подмножество, снова принадлежащее этой системе.
24 Гл. 1. Вероятностное пространство В качестве иллюстрации рассмотрим время работы электрической лампоч- лампочки. Первоначально пространство элементарных исходов представляет собой полупрямую [0, оо). Однако если наблюдателю доступна только информация, произошел отказ за фиксированное время Т (событие А) или нет (событие А), то он фактически имеет дело с двумя элементарными исходами: и[ = A и (л>2 = А; соответствующая сг-алгебра состоит из четырех событий, описанных выше. В этом случае наблюдение за работой электрической лампочки с точки зрения числа возможных элементарных исходов ничем не отличается от на- наблюдения за подбрасыванием монеты. ? Пример 19. Пусть пространство элементарных исходов О содержит конечное (О = Ц,а;2,... ,ип}) или счетное (О = Ц,Ш2,... ,ип, • • •}) число исходов. Такое пространство называется дискретным. В качестве сг-алгебры 03 возьмем систему всех подмножеств. Именно эту сг-алгебру мы всегда будем рассматривать в дальнейшем в случае дискретного пространства элементарных исходов. Нетрудно видеть, что любое событие А можно отождествить с после- последовательностью из 0 и 1, причем 0 на г-м месте означает, что элементарный исход Ui не принадлежит событию А. В частности, невозможному событию 0 соответствует последовательность 0,0,... , а достоверному О — 1,1,... Ясно, что если число исходов п конечно, то ст-алгебра 03 содержит 2П событий (на каждом из п мест последовательности может стоять одно из двух чисел: 0 или 1). В случае дискретного О сг-алгебру 03 можно определить исходя и из других предпосылок. Для этого достаточно объявить событиями все элементарные исходы и%. Поскольку в случае дискретного О любое его подмножество будет содержать не более счетного числа элементарных исходов, то в соответствии с аксиомой А2; оно обязательно будет событием. Таким образом, сг-алгебру 03 можно трактовать как а-алгебру, порожденную всеми элементарными ис- исходами. В частности, в случае конечного О сг-алгебра 03 порождается конечным числом элементарных исходов и поэтому совпадает с алгеброй 21, порожденной всеми элементарными исходами и%. Однако в случае счетного О алгебра 21, порожденная всеми элементарными исходами и%, уже не будет совпадать с сг-алгеброй 03, поскольку она будет содержать только подмножества, состо- состоящие из конечного числа элементарных исходов (как объединения событий в соответствии с аксиомой А2) или подмножества, состоящие из всех эле- элементарных исходов за исключением их конечного числа (как дополнения к подмножествам первого типа в соответствии с аксиомой А1). ? Пример 20. Пусть пространство элементарных исходов О представляет собой прямую (—оо, оо). И здесь система всех подмножеств будет представлять собой сг-алгебру. Однако оказывается, что такая «максимальная» сг-алгебра в наиболее интересных случаях представляет собой негодный объект для даль- дальнейших исследований. Дело в том, что введение понятия сг-алгебры являет- является вспомогательным процессом, необходимым для дальнейшего определения собственно вероятности, и, если бы только было возможно, никто не стал бы «городить огород» ради, разве что, красивого названия. О невозможности использования «максимальной» сг-алгебры мы еще ска- скажем несколько слов, когда будем рассматривать геометрическую вероятность. Сейчас попробуем построить другую сг-алгебру, опираясь на более умерен- умеренные запросы. Итак, что бы мы хотели от сг-алгебры на прямой? Разумеет-
4. Вероятность 25 ся, основное требование к ней заключается в том, чтобы ей принадлежали всевозможные интервалы [a,b], [a,b), (a,b\, (a,b). Минимальная сг-алгебра, удовлетворяющая этому требованию, носит название борелевской а-алгебры и является тем объектом, на котором без всяких логических противоречий можно построить математически строгую теорию. Все сказанное относительно прямой в полной мере относится и к простран- пространствам элементарных исходов, представляющим собой плоскость, трехмерное пространство и пространства более высоких размерностей, а также их невы- невырожденные части (отрезки, многоугольники, круги, шары и т.д.). В теории вероятностей такие пространства элементарных исходов называются непрерыв- непрерывными. ? 4. Вероятность Приступим теперь к аксиоматическому определению последней со- составляющей вероятностного пространства @,53, Р) — вероятности или, как иногда говорят, вероятностной меры Р. Предположим сначала, что пространство элементарных исходов ко- конечно. Пусть каждому событию А (т. е. подмножеству А пространства элементарных исходов О, принадлежащему сг-алгебре 53) поставлено в соответствие число Р(А). Числовая функция Р(А) (заданная на сг-алгебре 53) называется вероятностью, если она удовлетворяет сле- следующим аксиомам: Р1. Р(А) ^ 0 (аксиома неотрицательности); Р2. Р(С1) = 1 (аксиома нормированности); РЗ. Р(А + В) = Р(А) + Р(В) (аксиома сложения), если А, В е 53 и AUB = 0. Как говорилось во введении, аксиомы вероятности представляют собой не что иное, как математическое отражение основных свойств частоты. Из аксиом Р1-РЗ можно вывести ряд очевидных свойств вероят- вероятности. Поскольку О = А + А, то по аксиоме сложения Р(С1) = Р(А) + Р(А) или, с учетом аксиомы нормированности, 1. Р(А) = 1 — Р(А) (вероятность дополнительного события). Далее, поскольку А = А + 0, то из аксиомы сложения имеем 2. Р@) =0 (вероятность невозможного события). Пусть А с В. Тогда В = А + (В \ А), по аксиоме сложения Р(В) = = Р(А) + Р(В \А), и из аксиомы неотрицательности получаем 3. Р(А) ^ Р(В) («большему» событию соответствует большая вероятность).
26 Гл. 1. Вероятностное пространство В частности, так как всегда А С О, то, с учетом аксиомы неотри- неотрицательности, 4. О ^ Р(А) ^ 1 (вероятность заключена между 0 и 1). Наконец, поскольку Аи В = А + (В \ А) и В = (В \ А) + АВ, то из аксиомы сложения находим: Р(А U В) = Р(А) + Р(В \ А) и Р(В \ А) = = Р(В) - Р(АВ). Следовательно, 5. Р(А U В) = Р(А) + Р(В) - Р(АВ) (вероятность объединения двух событий). Последнее свойство допускает очевидное, но весьма полезное обоб- обобщение на случай произвольного числа слагаемых 6. Р(А, U ... U А,) = Р(А{) + ... + Р(Лг) - Р(А{А2) - Р(А 4$) "... ... - P(A»-iA») + Р(А,А2А3) + ... + (-1)П+1Р(А,А2... Ап). Свойство 6 доказывается индукцией по п. Так, для трех событий А, В и С Р(А U В U С) = Р(А) + Р(В U С) - Р(А(В U С)) = = Р(А) + Р(В) + Р(С) - Р(ВС) - Р(АВ U ВС) = = Р(А) + Р(В) + Р(С) - Р(ВС) - Р(АВ) - Р(АС) + Р(АВС). Из свойств 6 и 2 имеем для любого числа п (попарно) непересека- непересекающихся событий А\,..., Ап 7. Р(А, + ... + Ап) = Р(А,) + ... В случае, когда О содержит конечное число п элементарных исхо- исходов, вероятность можно определить конструктивно. Действительно, с одной стороны, пусть на пространстве элемен- элементарных исходов О задана некоторая вероятность Р(А). Обозначим через р\,..., рп вероятности элементарных исходов ui\,..., иоп. Тогда по аксиоме сложения РЗ вероятность любого события А определяется формулой Р(А) = ^2 Р(^г) — 5^Рг> ГДе суммирование ведется по всем индексам г, соответствующим входящим в событие А элементарным исходам. В силу аксиом неотрицательности Р1 и нормированности Р2 числа р\,...,рп являются неотрицательными и удовлетворяют свой- свойству р\ + ... +рп = 1. С другой стороны, пусть р\,..., Рп — любой набор неотрицательных чисел, таких, что р\ + ... -\-рп = 1. Поставим в соответствие каждому элементарному исходу Ui (г = 1,...,п) число Р(^) = Pi, а любому событию А — число Р(А) = ^ Р(^) = ^Рг, где суммирование ве- ведется по всем индексам г, соответствующим входящим в событие А элементарным исходам. Очевидно, достоверному событию О мы долж- должны сопоставить число Р(О) = р\ -\- ... -\-рп = 1. Нетрудно видеть, что определенная таким образом функция Р(А) удовлетворяет аксиомам Р1-РЗ, т.е. является вероятностью.
4. Вероятность 27 Итак, существует взаимно однозначное соответствие между всеми вероятностями Р(А) на п и наборами р\,...,рп неотрицательных чи- чисел, удовлетворяющими условию р\ + ... -\-рп = 1. В частности, мы можем всем элементарным исходам Ui приписать одну и ту же вероятность pi = \/п (г = 1,..., п). В этом случае реали- реализуется так называемый принцип классической вероятности, о котором мы подробно поговорим в следующей главе. В случае произвольного (не обязательно конечного) пространства элементарных исходов п аксиому РЗ необходимо заменить более силь- сильной расширенной аксиомой сложения справедливой для счетного числа попарно несовместных событий. Именно аксиомы Р1, Р2 и РЗХ и определяют аксиоматическое поня- понятие вероятности. Очевидно, что свойства вероятности 1-7 сохраняются и в этом случае. Пример 21. Пусть О состоит из счетного числа элементарных исхо- исходов ил,..., ип,... И в этом случае любую вероятностную меру Р(А) мож- можно получить, задав вероятности р\ = Р(ил),..., рп = Р(оЛг),... элементар- элементарных исходов, причем последовательность р\,..., рп,... должна удовлетворять только условиям неотрицательности pi ^ 0 (г = 1,2,...) и нормированности рх + ... + рп + ... =1. По-прежнему вероятность любого события А опре- определяется как сумма ^Рг вероятностей всех входящих в А элементарных исходов ил, однако если событие А содержит бесконечное число элементарных исходов, то и сумма будет бесконечной. ? Пример 22. Пусть пространство элементарных исходов О представляет собой прямую (—оо,оо) с борелевской сг-алгеброй на нем (см. пример 20). Теперь уже в наиболее интересных случаях мы не можем приписать каждому элементарному исходу и иной вероятности, кроме Р(ш) = 0, и, следовательно, определить вероятность любого события на основе вероятностей входящих в него элементарных исходов. Тем не менее и сейчас вероятность можно задать конструктивно. Для того чтобы показать это, предположим сначала, что она каким-то об- образом уже задана для всех событий (элементов борелевской сг-алгебры), и рас- рассмотрим функцию F(x) = Р(АХ), равную вероятности события Ах = (—оо,ж), состоящего из всех точек полупрямой (—оо,ж). Как вероятность функция F(x) обязана обладать определенными свойствами, которые мы сейчас опишем. Во-первых, значения функции F(x) как вероятности должны лежать между 0 и 1. Во-вторых, так как для любых х\ < Х2 событие (—oo,xi) содержится в событии (—оо,Ж2), то F(x\) ^ F(x2). Иными словами, F(x) — неубывающая функция аргумента х. В-третьих, поскольку событие (—оо, — оо) невозможно, а событие (—оо, оо) достоверно, то F(—оо) = lira F(x) = 0, F(oo) = lira F(x) = 1. x—*> — оо Наконец, так как событие (—оо,ж) представляет собой объединение счет- счетного числа событий (—оо,ж— 1/п), то из расширенной аксиомы сложения
28 Гл. 1. Вероятностное пространство и монотонности F(x) можно вывести (см. параграф 2 гл. 5), что F(x) — непрерывная слева функция. Зная функцию F(x), можно определить вероятности любых других собы- событий. В частности, вероятность события А= [х\,Х2) {х\ < х^) определяется формулой Р(А) = F(x2) - F(xi). Таким образом, любая вероятность на прямой полностью определяется своей функцией F(x), которая удовлетворяет перечисленным выше свойствам. Справедливо и обратное. Любая неубывающая непрерывная слева функция F(x), удовлетворяющая условиям F(—оо) = 0 и F(oo) = 1, задает некоторую вероятность на прямой (—оо, оо). Действительно, достаточно сопоставить каж- каждому событию Ах = (—оо,ж) число Р(АХ) = F(x), а событию А = [х\,Х2) — число Р(А) = F(x2) — F(x\). Можно показать, что определенная таким обра- образом для всех событий А = [х\,Х2) числовая функция Р(А) будет удовлетво- удовлетворять трем аксиомам вероятности. Для любых других событий, составляющих борелевскую сг-алгебру на прямой, вероятность определяется единственным образом с помощью так называемой теоремы о продолжении меры. ?
Глава 2 КЛАССИЧЕСКАЯ И ГЕОМЕТРИЧЕСКАЯ ВЕРОЯТНОСТИ В этой главе мы рассмотрим некоторые вероятностные пространства, объ- объединенные интуитивным понятием симметрии или «равновероятности». В соот- соответствии с тем, какое пространство элементарных исходов рассматривается — конечное или непрерывное, понятие «равновероятности» реализуется в двух схемах: классической и геометрической вероятности. Как всегда, право на жизнь вышеперечисленных схем определяется практикой. В различных учебниках приводятся результаты многочисленных статистических опытов, подтверждающих корректность понятия «равновероятность». 1. Классическая вероятность Понятие классической вероятности мы рассмотрим сначала на при- примере нашей «палочки-выручалочки» — монеты. Предположим, что опыт состоит в однократном подбрасывании монеты. Как мы теперь зна- знаем, пространство элементарных исходов п содержит два элементар- элементарных исхода: ио\ — выпадение «герба» и ^ — выпадение «цифры», а сг-алгебра *В насчитывает 4 события: 0, {ui\}, {с^} и О. Ясно, что обычная монета обладает свойством симметрии, так как у нас нет оснований предпочесть «герб» «цифре», т.е. элементарный исход и\ элементарному исходу uj^- Поэтому естественно сопоставить обоим элементарным исходам одинаковую вероятность P(c<;i) = Pf^)- Так как согласно аксиоме сложения Р(О) = P(c<;i) + Pf^), а в силу аксиомы нормированности Р(О) = 1, то получаем P(c<;i) = Р^) = 1/2. Таким образом, каждому из четырех имеющихся в сг-алгебре *В событий мы ставим в соответствие вероятности: Р@) = 0, P(^i) = Р(^2) — 1 /2, Р(«) = 1. Перейдем теперь к общему случаю. Пусть пространство элементар- элементарных исходов О состоит из конечного числа п равнозначных исходов и\, CJ2,..., иоп (сг-алгебра событий содержит 2п событий). Тогда каж- каждому элементарному исходу Ui (i = l,...,n) поставим в соответствие одну и ту же вероятность Р(с^) = 1/п. Ясно, что в силу аксиомы сложения для определения вероятности любого события А необходимо подсчитать число т элементарных исходов ш, содержащихся в А, и затем положить ^ Р(А) = ^. П Таким образом, в классической схеме вероятность любого собы- события А определяется как отношение числа т благоприятных для события А элементарных исходов к общему числу элементарных исходов п.
30 Гл. 2. Классическая и геометрическая вероятности Пример 1. Определим вероятность выпадения на игральной кости четно- четного числа очков (событие А). В этом случае общее число элементарных исходов п = б (сг-алгебра <В состоит из 26 = 64 событий), а число благоприятных исходов т = 3 (выпадение«двойки», «четверки» и «шестерки»). Искомая веро- вероятность Р(А) = 3/6 = 1/2. ? Пример 2. Производится трехкратное подбрасывание монеты. Опреде- Определим вероятность события А, заключающегося в выпадении «герба» хотя бы один раз. Выпишем все элементарные исходы: oji = «герб»-«герб»-«герб», и^ = «герб»-«цифра»-«герб», сиз = «герб»-«герб»-«цифра», ио\ = «герб»-«цифра»-«цифра», ооь = «цифра»-«герб»-«герб», uoq = «цифра»-«цифра»-«герб», ил = «цифра»-«герб»-«цифра», us = «цифра»-«цифра»-«цифра». Всего имеем п = 8 элементарных исходов (сг-алгебра <В состоит из 28 = 256 событий). Благоприятными из них для события А являются т = 7 исходов: ио\, UO2,..., 007- Значит, Р(А) = 7/8. Вероятность Р(А) можно подсчитать и другим способом. Дополнительным к А будет событие А, заключающееся в невыпадении ни одного «герба». Собы- Событие А состоит только из одного элементарного исхода ои%, поэтому Р(А) = 1/8. Переходя снова к событию А, имеем Р(А) = 1 — Р(А) = 7/8. Отметим, что при- привлечение дополнительного события позволяет иногда существенно упростить численный подсчет вероятности. ? Пример 3. Найдем вероятность того, что при бросании двух игральных костей в сумме выпадает не менее четырех очков (событие А). Посколь- Поскольку при бросании двух игральных костей может выпасть от 2 до 12 очков, а рассматриваемое событие А состоит в выпадении 4, 5, ...,12 очков, то удобно перейти к дополнительному событию А — выпадению двух или трех очков. Пространство элементарных исходов состоит из 36 исходов — пар A,1), A,2), B,1), A,3) и т.д. (заметим, что пары A,2) и B,1) представляют собой разные элементарные исходы, поскольку выпадение одного очка на первой кости и двух на второй — не то же самое, что двух очков на первой кости и одного очка на второй). Благоприятными для события А будут элемен- элементарные исходы A,1), A,2) и B,1). Значит, тА = 3, Р(А) = 3/36 =1/12 и Р(А) = 1 -Р(А) = 11/12. ? Пример 4. Из колоды в 36 игральных карт наудачу выбирается одна. Определим вероятность того, что она окажется тузом (событие А). Из колоды мы можем выбрать любую из 36 карт (п = 36). Тузов в колоде 4 (т = 4). Таким образом, Р(А) = А/36 = 1/9. ? 2. Элементы комбинаторики в теории вероятностей Примеры, рассмотренные в предыдущем параграфе, имели ту харак- характерную особенность, что для них нетрудно было подсчитать как общее число элементарных исходов, так и число исходов, благоприятных для данного события. Однако именно этот подсчет и представляет наиболь- наибольшую трудность при решении более сложных задач на классическую вероятность. Для того чтобы иметь некоторые стандартные приемы при
2. Элементы комбинаторики в теории вероятностей 31 расчетах по схеме классической вероятности, приведем основную фор- формулу комбинаторики и рассмотрим понятия перестановки, размещения и сочетания. Пусть имеется к групп элементов, причем г-я группа состоит из щ элементов. Выберем по одному элементу из каждой группы. Тогда общее число N способов, которыми можно произвести такой выбор, определяется соотношением N = щ • щ • • • пь, называемым основной формулой комбинаторики. Для доказательства этой формулы рассмотрим сначала случай к = 2 и перенумеруем все элементы первой группы числами от 1 до щ, а второй — от 1 до щ. Тогда каждый возможный способ выбора двух элементов отождествим с парой чисел (i,j), где г = \,...,п\, j = \,... ,щ. Очевидно, что таких пар щщ. Для окончания доказатель- доказательства достаточно воспользоваться методом математической индукции. Так, для к = 3 всевозможные способы выбора трех элементов мож- можно отождествить с тройками (i,j,l). Поскольку первые два элемента можно выбрать п\П2 способами, то все три элемента можно выбрать N = (п\П2)щ = п\П2Щ способами. В том случае, когда все группы состоят из одинакового числа элементов, т.е. щ = п^ = ... = п&, можно считать, что каждый раз выбор производится из одной и той же группы, причем элемент после выбора снова возвращается в группу. Тогда число всех способов выбора равно пк. Такой способ выбора носит название выборки с возвраще- возвращением. Перестановкой из п элементов называется любой упорядоченный набор этих элементов. Так, всевозможными перестановками чисел 1, 2, 3 являются: A,2,3), A,3,2), B,1,3), B,3,1), C,1,2) и C,2, 1). Для определения числа различных перестановок из п элементов, которое мы будем обозначать через Рп, заметим, что на первом месте переста- перестановки может стоять любой из п элементов, на втором — любой из п — 1 оставшихся, на третьем — любой из остальных п — 2 и т. д. В силу основной формулы комбинаторики (в данном случае мы имеем п групп элементов размеров п, п — 1,..., 1) получаем Рп = п(п-\)...2-\=п\. Размещением из п элементов по т называется любой упорядочен- упорядоченный набор из т различных элементов, выбранных из общей совокупно- совокупности в п элементов. Выпишем для примера все размещения из четырех чисел 1, 2, 3, 4 по два: A,2), A,3), A,4), B,1), B,3), B,4), C,1), C,2), C,4), D,1), D,2), D,3). Число размещений (п)т (используется также запись А™) подсчитывается точно так же, как и число перестановок: на первом месте может находиться любой из п элементов, на втором — любой из п — 1 оставшихся,..., на т-м месте — любой из п — т + 1 элементов. Снова воспользовавшись основной формулой комбинатори-
32 Гл. 2. Классическая и геометрическая вероятности ки (выбор осуществляется из групп размеров п, п — 1,..., п — т + 1), имеем (п)т = п(п - 1)... (п - т + 1) = \- —— = '-^т. (п — т)(п — т — 1)... 2 • 1 (п — ту Заметим, что способ выбора, приводящий к перестановкам и разме- размещениям, носит название выборки без возвращения. Сочетанием из п элементов по т называется любой неупоря- неупорядоченный набор из т различных элементов, выбранных из общей совокупности в п элементов. Сочетаниями из четырех чисел 1, 2, 3, 4 по два являются: A,2), A,3), A,4), B,3), B,4) и C,4). Для определения / п \ числа сочетаний ( 1 (употребляется также запись С™) заметим, \ ТП / что сочетание от размещения отличается только тем, что входящие в него элементы неупорядочены. Но, как мы знаем, га элементов можно упорядочить га! способами. Значит, каждое сочетание соответствует га! размещениям. Поэтому (п)ш = гам ) или \ ТП / Kmj ml (n — m)\m\ ' Вооружившись знанием формул для чисел перестановок, разме- размещений и сочетаний, продолжим рассмотрение задач на классическую вероятность. Пример 5. На четырех карточках написаны буквы в, л, к и о. Карточ- Карточки перемешиваются и выкладываются в ряд. Найдем вероятность того, что образовавшееся слово будет «волк» (событие А). В соответствии с комбина- комбинаторными принципами для определения общего числа элементарных исходов нужно подсчитать число упорядоченных наборов из четырех букв. Мы имеем дело с числом перестановок, поэтому число элементарных исходов п = 4! = 24. Слово «волк» образует только одна перестановка, т. е. число благоприятных для события А элементарных исходов m = 1. Поэтому Р(А) = 1/24. ? Пример 6. Из колоды в 36 игральных карт вынимаются наудачу 3 карты. Найдем вероятность того, что все эти 3 карты будут одной масти (событие А). Для большей наглядности приведем два решения. В первом решении будем предполагать, что выбор производится последова- последовательно по одной карте и нужно учитывать его порядок. Тогда результат выбора отождествим с размещением из 36 карт по 3, и общее число элементарных исходов п = (Зб)з = 36 • 35 • 34. Для подсчета общего числа благоприятных ис- исходов предположим сначала, что мы последовательно вынимаем карты пиковой масти. Поскольку «пик» в колоде 9, то число способов, которыми мы можем последовательно вынуть 3 карты пиковой масти, равно числу размещений из 9 карт по 3, т. е. (9)з = 9-8-7. Но благоприятными для нас будут также такие ситуации, при которых мы вынимаем 3 «трефы», 3 «бубны», 3 «червы». Поэтому для определения общего числа благоприятных исходов нужно число размещений из 9 по 3 умножить на 4: m = 4 • (9)з = 4 • 9 • 8 • 7. Значит, Р(А) = 4 • (9)з/C6K = 4/85. Во втором решении мы не будем учитывать порядок выбора карт. Тогда общее число элементарных исходов определяется уже как число сочетаний из
2. Элементы комбинаторики в теории вероятностей 33 оа о f3Q\ 36-35-34 36 карт по 3, т. е. п = ( 1 = . Однако и при подсчете числа благо- \ о / [ ' Z ' о приятных исходов мы должны помнить, что порядок выбора несуществен, т. е. , /9\ 4- 9-8 • 7 тт _/ ., т = 4 • ( ) = . Нетрудно видеть, что окончательное значение Р(А) \ О / 1 • Z • О будет тем же самым, что и в первом решении. Рекомендуем любознательному читателю еще раз разобрать этот пример и объяснить, почему в обоих случаях получился один и тот же ответ. ? В заключение этого параграфа мы рассмотрим некоторые наиболее часто встречающиеся в физической практике задачи о распределении частиц по ячейкам. Гипергеометрическое распределение. Предположим, что имеется п = щ + ... + Пк различных частиц, причем из них щ частиц первого типа, П2 — второго типа,..., Пк — к-го типа. Случайным образом из этих п частиц выбирается т = т\ + ... + rrik частиц. Найдем веро- вероятность того, что среди выбранных окажется ровно гп\ ^ п\ частиц первого типа, тп^ ^ щ — второго типа,..., rrik ^ Пк — к-го типа (собы- (событие А). Поскольку порядок выбора несуществен, то при определении общего числа исходов и числа благоприятных исходов мы должны пользоваться числом сочетаний. Общее число элементарных исходов есть число сочетании из п частиц по m — . Далее, гп\ частиц \mj первого типа мы можем выбрать ( 1 J способами, rri2 частиц второго типа ( 2 ) способами,..., гпь частиц fc-ro типа ( к ) способами. При \гп2) \тпк) этом любой способ выбора частиц определенного типа комбинирует с любыми способами выбора частиц остальных типов и, значит, число /* /* л ( Ш \ ( П2 \ ( Пк \ гт благоприятных событию А исходов равно • • • • По- \m\J \тп2/ \rnkJ этому ' \ ( \ ( пк П Определенные последней формулой вероятности Р(т\,... ,mk) но- носят название гипергеометрического распределения. Пример 7. Найдем вероятность того, что в «Спортлото б из 49» х) будет угадано 3 номера (событие А%), 4 номера (Aj), 5 номеров (А5) и б номеров (Aq). Мы имеем дело с гипергеометрическим распределением, в котором п = 49, 1) В конце прошлого столетия в нашей стране были широко распространены разные варианты игры «Спортлото», наиболее популярным из которых являлся вариант «Спортлото б из 49». Купив карточку за 30 коп. (что примерно соответствует нынешним 30 руб.), нужно было вычеркнуть б номеров из 49 возможных. Аналогично, во время розыгрыша из 49 шаров выбирались б. Угадавший от 3 до б номеров, мог получить выигрыш, который для всех б угаданных номеров составлял 10000 тыс. руб. 2 П. П. Бочаров, А. В. Печинкин
34 Гл. 2. Классическая и геометрическая вероятности к = 2, П\ = б, 712 = 43 И 771 = 6. ДЛЯ СОбыТИЯ А3 7711 = 3 И 7712 = 3, ДЛЯ события At mi = 4 и Ш2 = 2, для события А$ тщ = 5 и Ш2 = 1 и, наконец, ДЛЯ СОбыТИЯ Aq 7711 = б И 7712 = 0. ПоЭТОМу Ail- o,oi76, р(^) = Ц^ 6 ) (Ь\ (\Ъ\ /б\/43\ ^0,000018, Р(Л) = 6 A =7- 10~8 ? Статистика Бозе-Эйнштейна. Предположим, что п неразличимых частиц распределяются по т ячейкам. Различными считаются рас- распределения частиц по ячейкам, отличающиеся только числом попав- попавших в каждую ячейку частиц. Такое распределение носит в физике название статистики Бозе-Эйнштейна. Найдем общее число различ- различных размещений в статистике Бозе-Эйнштейна (число элементарных исходов). Для этого рассмотрим последовательность из п + т — 1 элементов (рис. 1) и выберем из них т — 1 «черный» элемент. Если 1 2 3 771- 1 о#ооо««о-о • 12 3 4 5 6 7 7i + m- 1 Рис. 1 считать «белый» элемент частицей, а «черный» — перегородкой, то, как нетрудно видеть, существует взаимно однозначное соответствие между способами выбора т — 1 «черного» элемента и размещениями частиц в статистике Бозе-Эйнштейна. Так, на приведенном рисунке в первую ячейку попала одна частица, во вторую — три, третья оказалась пустой,..., последняя, т-я ячейка также оказалась пустой. т-г ^ - /П + 771— 1\ тт о Поэтому общее число размещении равно Найдем те- V 771—1 ) перь вероятность попадания в фиксированную ячейку ровно к частиц (событие А). Заметим, что если в этой фиксированной ячейке уже находится к частиц, то остальные п — к частиц должны быть распре- распределены по оставшимся т — 1 ячейкам, а это, как мы знаем, можно сде- (п-к + т-\-\\ (п + т- к - 2\ . ^ лать = ^ способами. Следовательно, V 771—1 — 1 ) \ т — 2 ) п/ л\ (п + т — к — 2\ /(п + т—\\ ~ ^ Р(А) = ^ / . Отметим, что статистике Бозе- V ш — 2 у / V т — 1 ) Эйнштейна подчиняются фотоны, атомные ядра и атомы, содержащие четное число частиц. Статистика Ферми-Дирака. В статистике Ферми-Дирака так же, как и в статистике Бозе-Эйнштейна, п неразличимых частиц распре-
2. Элементы комбинаторики в теории вероятностей 35 деляются по га ячейкам (n ^ га), однако в каждой ячейке не может находиться более одной частицы. Число различных размещений (эле- (элементарных исходов) совпадает с числом способов, которыми мы можем выбрать (без учета порядка выбора) п занятых ячеек из общего числа ячеек га, т. е. равно ( т ) . Пусть событие А — заняты фиксированные к V га / ячеек (к ^ п). Тогда оставшиеся га — к ячеек должны быть заполнены п — к частицами, а это можно сделать ( . ) способами. Поэтому \п — к ) т\{ w /га —АЛ //га\ г, ^ тт Р(А) = 7 / . Статистике Ферми-Дирака подчиняются элек- \п-к) I \п ) троны, протоны и нейтроны. Статистика Максвелла-Больцмана. Предполагая, что п различ- различных частиц распределяются по га ячейкам без ограничений на число попавших в каждую ячейку частиц, получаем статистику Максвелла- Больцмана. Поскольку каждая из п частиц может попасть в любую из га ячеек, то общее число элементарных исходов равно гап. Собы- Событие А заключается в том, что в первую ячейку попало п\ частиц, во вторую — щ частиц,..., в га-ю — пш частиц (п\ + ... + пш = п). Число благоприятных для события А исходов подсчитаем следующим образом. В первую ячейку могут попасть любые щ частиц из п имею- имеющихся первоначально. Поскольку порядок выбора частиц несуществен, то это можно сделать способами. Как только первая ячейка \П\) заполнена, у нас остается п — щ частиц, и вторую ячейку мы можем заполнить I п Щ) различными способами. Продолжая эту процедуру и используя основную формулу комбинаторики, получаем, что число благоприятных событию А способов равно п \ (п — 7ii \ / п — rai — ... — ram_iч 711 / V 712 / " ' \ Пш _ п\ (га —rai)! (га — rai — ... — ram_i)! _ п\ rai! (га — rai)! гаг! (га — rai — гаг)! '" 7im!0! га^гаг! ...ram! ' Таким образом, Р(Л) = nl К } 7ii!7i2!...7im!-ran ' Отметим, что статистика Максвелла-Больцмана представляет со- собой частный случай так называемой полиномиальной схемы, которую мы рассмотри в параграфе 7 гл. 4. Статистике Максвелла-Больцмана подчиняется идеальный газ. Пример 8. Поток из 4 частиц поступает в счетчик, состоящий из трех датчиков. Каждая частица с одинаковой вероятностью может попасть в один и только один из этих датчиков. Поток считается зарегистрированным, ес- если он отмечен хотя бы двумя датчиками. Найдем вероятность события А,
36 Гл. 2. Классическая и геометрическая вероятности заключающегося в том, что поток будет зарегистрирован. Удобно перейти к дополнительному событию А, которое происходит тогда и только тогда, когда все 4 частицы попадают либо в первый, либо во второй, либо в третий датчик. Но вероятность всем 4 частицам попасть в первый датчик определяется статистикой Максвелла-Больцмана, причем п = 4, т = 3, щ = 4, п^ = О, пз = 0. Учитывая, что вероятность попадания всех 4 частиц во второй и третий датчики точно такая же, как и в первый, получаем Р(А) = 3 • - • -А_ = 1 v ; З4 4!0!0! 27 и Р(А) = 1 - 1/27 = 26/27. ? 3. Геометрическая вероятность Пусть теперь рассматривается непрерывная вероятностная схема, т. е. пространство элементарных исходов представляет собой некоторую ограниченную область (отрезок, многоугольник, круг, параллелепипед, шар и т. п.) /с-мерного пространства (прямой, плоскости, трехмерного пространства и т.д.). Естественно желание обобщить принцип рав- равновероятности элементарных исходов классической вероятности и на эту схему. Однако в непрерывном случае число элементарных исходов бесконечно и, воспользовавшись принципом равновероятности, мы не смогли бы приписать каждому элементарному исходу иной вероят- вероятности, кроме нуля. Поэтому подойдем к определению геометрической вероятности по-другому. Рассмотрим сначала отрезок [0, 1] и предпо- предположим, что идеальная частица равномерно бросается на этот отрезок. Понятию равномерности придадим следующий смысл. Каждому отрез- отрезку [а, Ь] @ ^ а ^ Ь ^ 1), независимо от его расположения, поставим в соответствие одинаковую вероятность попадания частицы на этот отрезок, равную его длине: Р[а, Ъ] = Ъ — а, а затем эту вероятность попытаемся с помощью трех аксиом Р1, Р2 и РЗХ продолжить на любое подмножество точек отрезка [0, 1]. Очевидно, что вероятность попадания частицы в любую точку х равна нулю, вероятность по- попадания на любой интервал (а, Ъ) или полуинтервал (a, b], [a,b) (на отрезке [0, 1]) равна b — а, вероятность попадание в любое множество точек на отрезке [0, 1], состоящее из конечного и даже счетного объ- объединения непересекающихся отрезков, интервалов и полуинтервалов равна сумме их длин, т.е. «длине», или лучше сказать, мере этого множества. В частности, вероятность попадания частицы в множество рациональных точек равна нулю. Однако, как уже говорилось, имеется препятствие к такому продол- продолжению, связанное с существованием подмножеств, которым разумным образом с сохранением трех аксиом вероятность мы никак не сможем приписать. Поэтому приходится ограничиваться только элементами борелевской а-алгебры 53, порожденной всевозможными интервалами (т.е. подмножествами, имеющими меру), что, впрочем, более чем до- достаточно для практических потребностей.
3. Геометрическая вероятность 37 В общем случае геометрическая вероятность определяется совер- совершенно аналогично. Пусть О — некоторая область, имеющая меру /i(O) (длину, площадь, объем и т.д.), такую, что 0 < /jl(CI) < оо. Скажем, что точка равномерным образом попадает в п (реализуется принцип геометрической вероятности), если вероятность Р(А) попадания ее в каждую область А, являющуюся подобластью О, пропорциональна мере этой области fi(A) или в силу аксиомы нормированности Пример 9. В круг радиусом R = 1 равномерно бросается точка. Найдем вероятность события А, заключающегося в попадании этой точки в круг радиусом г = 1/2 с тем же центром (рис. 2). Рассмотрим два способа решения этой за- ...--¦""""~*~"~~"---,. дачи: /" ..¦/, 1) вероятность Р(А) определяется как от- _ ] , / .. -.;¦-¦¦ ^ч \ ношение площади внутреннего круга к площа- ' / ^ i . ;.',. . ¦" ди внешнего: | ¦ '¦'"':[. ¦ - ; \ \ 2) заметим, что в силу принципа геометри- /<¦ | \..._ f ......' ческой вероятности как угол ср, так и рассто- -——- яние р от точки и до центра О должно быть рис ^ распределено равномерно. Поскольку точки, равноотстоящие от центра, все либо одновременно принадлежат меньшему кругу, либо нет, то вероятность попадания в этот круг равна отношению радиусов: Р(А) = r/R = 1/2. Итак, мы получили в одной и той же задаче два разных ответа. Причина кроется в том, что понятие геометрической вероятности не инвариантно отно- относительно преобразований рассматриваемой области О. В частности, в нашем примере при втором способе решения мы считаем, что равновероятно попада- попадание точки в области А\ и А^ заштрихованные на рис. 3. Но с точки зрения обычного понятия площади, используемого при пер- _....-..„_... вом СП0С05е решения, это не так. Значит, вероят- / ""'¦.. ность существенно зависит от способа определения / ..--¦-¦ ' ( \ понятия «равновероятно» или, иными словами, от \ ''' \ того, как мы задали меру /jl(A). Именно на неинва- ! ; ': | риантности понятия геометрической вероятности от- i '. (' / носительно преобразований основаны многочислен- / ные парадоксы, часто приводимые в различных учеб- учебниках. "'¦"---- —--''" Возвращаясь к рассматриваемому примеру, отме- отметим, что в приведенной постановке задачи предпо- Рис. 3 чтительным нужно считать первый способ. Однако не следует думать, что второе решение относится к числу математических фокусов. Представляемая этим решением модель сиг- сигнала с равномерно распределенными фазой (углом) и амплитудой (радиусом) находит широкое применение в статистической радиофизике. ?
38 Гл. 2. Классическая и геометрическая вероятности Пример 10. На Землю параллельно плоскости экватора падает поток метеоритов. Найдем вероятность того, что упавший метеорит попадет меж- между 15° и 45° северной широты (событие А). Естественно предполагать, что поток метеоритов равномерно распределен на плоскости, перпендикулярной плоскости экватора. Если мы теперь спроецируем земной шар на эту плоскость (рис. 4), то получим, что вероятность наступления события А пропорциональна площади fi(A) заштрихованной области А. Определим /х(А): тг/4 г ц{А) = 2R% cos ip dsin cp = 2 тг/12 Окончательно получаем Р(А) = тг/4 тг/2 cos2 ip dip = ЩA + cosip) dip = Rl(- + -\ тг/12 7г/6 -^-^- = — + - ~ 0,246. тгЯо 4тг б П Рис. 4 Рис. 5 Пример 11. Поступление каждого из двух сигналов в приемник рав- новозможно в любой момент промежутка времени Т. Найдем вероятность того, что приемник будет «забит» (событие А), что происходит в том случае, когда промежуток времени между моментами поступления обоих сигналов меньше т. Для этого обозначим моменты поступления сигналов через х и у. Ясно, что для наложения сигналов необходимо и достаточно, чтобы \х — у\ < т. Изобразим х и у как точки внутри квадрата со сторонами Т (рис. 5). Тогда исходы, благоприятные для наложения сигналов, представятся заштрихованной областью А. В силу принципа геометрической вероятности искомая вероят- вероятность равна отношению площади заштрихованной фигуры к площади всего квадрата: Р(А) = Т ~^Т~Т^ = 1 - A - -) . ? Пример 12 (задача Бюффона). Плоскость разграфлена параллельными прямыми, отстоящими друг от друга на расстояние 2а. На плоскость наудачу бросается тонкая игла длиной 21 (I < а). Найдем вероятность того, что игла пересечет какую-нибудь прямую (рис. 6). Для этого прежде всего решим, что в данном случае соответствует понятию «наудачу». Ясно, что если игла бросается с достаточной высоты и ее начальное положение случайно, то под словом «наудачу» естественно подразумевать следующее: во-первых, центр иглы наудачу попадет на отрезок длиной 2а, во-вторых, угол ip между иглой и прямой равномерно распределен на [0, тг] и, в-третьих, на величину угла
3. Геометрическая вероятность 39 I | /ZZ ZZ У/, ZZZZ'/'x Рис. 6 Рис. 7 не влияет расстояние от центра до прямой. Поэтому изобразим результат бросания точкой с координатами (ср,х), лежащей внутри прямоугольника со сторонами тг и а (рис. 7), где х — расстояние от центра иглы до ближайшей прямой. Из рис. 6 видно, что пересечение иглы с прямой происходит тогда и только тогда, когда х < Ism ср. Искомая вероятность равна отношению площади заштрихованной области А к площади прямоугольника: Р(А) = — атг Задача Бюффона может быть использована для экспериментального опре- определения числа тг. Так, Вольф (Цюрих) бросал иглу 5000 раз и получил 2532 пересечения с прямыми; при этом 2а = 45 мм, 21 = 36 мм. Заменяя теперь Р(А) частотой пересечения прямых / = 2532/5000 = 0,5064, получаем эмпи- эмпирическое значение числа тг: тг= — = 3,1596. Более точное определение числа тг таким путем вряд ли возможно, поскольку, с одной стороны, здесь влияют физические особенности опыта (толщина иглы, неточность при определении факта пересечения и т.д.), с другой стороны, как мы увидим дальше, необходимо производить очень большое число испы- испытаний. ?
Глава 3 УСЛОВНАЯ ВЕРОЯТНОСТЬ. НЕЗАВИСИМОСТЬ СОБЫТИЙ. ФОРМУЛЫ ПОЛНОЙ ВЕРОЯТНОСТИ И БАЙЕСА Одним из основных понятий при аксиоматическом построении теории ве- вероятностей является понятие условной вероятности. Именно условная вероят- вероятность оценивает то изменение в степени уверенности о наступлении некоторого события, которое происходит после получения дополнительной информации. С помощью условной вероятности определяется независимость событий, фор- формализующая понятие не связанных между собой опытов. Использование услов- условной вероятности в ряде случаев позволяет существенно упростить решение задачи (формулы умножения вероятностей, полной вероятности и Байеса). 1. Условная вероятность Рассмотрим два события А и В. Пусть известно, что событие А наступило, но неизвестно, какой конкретно из элементарных исходов ш, составляющих событие А, произошел. Что можно сказать в этом слу- случае о вероятности наступления события В? Пример 1. Событие А — выпадение четного числа очков на игральной кости, событие В — выпадение нечетного числа очков. Поскольку события А и В несовместны, то при наступлении события А событие В уже не может произойти и ему естественно приписать условную вероятность 0. ? Пример 2. Событие А — выпадение 4 или б очков на игральной кости, событие В — выпадение четного числа очков. Так как событие А принадлежит событию В, то при наступлении события А событие В обязательно произойдет, т.е. событие В имеет условную вероятность 1. ? Пример 3. Событие А — выпадение четного числа очков на игральной кости, событие В — выпадение не менее 5 очков. Если событие А наступило, то произошел один из трех элементарных исходов: выпало 2, 4 или б очков. Но из этих трех исходов только один исход (выпадение «шестерки») влечет за собой появление события В. В соответствии с принципом классической вероятности в данном случае естественно определить условную вероятность события В числом 1/3. Заметим, что в этом примере условная вероятность появления события В совпадает с безусловной. ? Из приведенных примеров видно, что условная вероятность мо- может как совпадать с безусловной вероятностью, так и быть меньше или больше нее. Саму же условную вероятность Р(В | А) события В при условии события А в рамках классической схемы естественно определить как отношение числа исходов глав, благоприятных для
/. Условная вероятность 41 совместного осуществления событий А и В, к числу исходов тпа, благоприятных для события А, т. е. ) ТПА Поделим теперь числитель и знаменатель полученного выражения на общее число п элементарных исходов: глав А) - ~~^~ - ?{АВ) Последняя формула уже может служить общим определением условной вероятности при аксиоматическом подходе. Итак, условной вероятно- вероятностью события В при условии события А (Р(А) ф 0) называется отношение вероятности пересечения событий Аи В к вероятности события А: Нетрудно видеть, что условная вероятность обладает всеми свой- свойствами безусловной вероятности. Так, P(fi | А) = 1, Р@ | А) = 0, Р(С + В | А) = Р(С | А) + Р(В Иногда бывает полезным равенство Р(В\А) = 1 -Р(В\А), вытекающее из соотношения \А) = Р(В | А) + Р(В | А). Пример 4. При переписи населения Англии и Уэльса в 1891 г. оказалось, что темноволосые отцы и темноволосые сыновья составляют 5% обследован- обследованных, темноволосые отцы и светловолосые сыновья — 7,9%, светловолосые отцы и темноволосые сыновья — 8,9%, светловолосые отцы и светловолосые сыно- сыновья — 78,2%. Найдем условные вероятности рождения светловолосого сына у темноволосого и светловолосого отцов. Пусть событие А означает, что в слу- случайно выбранной паре отец-сын светловолосым является отец, событие В — светловолосый сын. Тогда событие А — темноволосый отец, событие В — темноволосый сын и из результатов переписи следует, что Р{АВ) = 0,05, Р(АВ) = 0,079, Р{АВ) = 0,089, Р{АВ) = 0,782. Поэтому Р(А) = Р(АВ) + Р(АВ) = 0,871, Р(А) = 0,129, и условная вероятность у темноволосого отца родиться светловолосому сыну - 0,612. ' P(A) 0,129 а у светловолосого —
42 Гл. 3. Условная вероятность. Независимость событий Пример 5. При трехкратном подбрасывании симметричной монеты вы- выпало два «герба» (событие А). Определим условную вероятность того, что при втором подбрасывании выпал «герб» (событие В). В этом случае со- событие АВ состоит в выпадении двух «гербов», один из которых выпал при втором подбрасывании, т. е. содержит глав = 2 элементарных исхо- исходов: «герб»-«герб»-«цифра» и «цифра»-«герб»-«герб». Поскольку всего у нас п = 8 элементарных исходов и мы находимся в рамках классической схе- схемы, то Р(АВ) = 1/4. Аналогично, событию А благоприятствуют 3 исхода, и Р(А) = 3/8. Итак, искомая вероятность Н. Пример 6. Электрон может быть с вероятностью 0,6 обнаружен на одной из четырех орбит атома, причем с равной вероятностью — на любой из них, и с дополнительной вероятностью 0,4 не обнаружен вообще. На первых трех орбитах электрон не обнаружен (событие А). Найдем вероятность обнаружить его на четвертой орбите (событие В) при этом условии. Поскольку вероятность обнаружить электрон на каждой орбите равна 0,6/4 = 0,15, то вероятность не обнаружить электрон на первых трех орбитах Р(А) = 1 — 3-0,15 = 0,55. Событие АВ — электрон не обнаружен на первых трех орбитах и обнаружен на четвертой орбите — совпадает просто с событием В — электрон находится на четвертой орбите и имеет вероятность Р(АВ) = Р(В) = 0,15. Искомая вероятность, равная условной вероятности события В при условии события А, в этом случае имеет вид Р(В\А) = Р(В)/Р(А) = 3/11. ? 2. Формула умножения вероятностей На практике часто происходит так, что известны или достаточно просто определяются именно условные вероятности и с их помощью необходимо вычислить безусловную вероятность некоторого события. Простейшей формулой для решения задач такого типа является фор- формула умножения вероятностей. Пусть имеются события А\, А%,... ,Ап. Тогда, используя понятие условной вероятности, можно написать 2 . . . Ап) или, умножая на Р(А\А2 ...Ап-\), P(AiA2...An) = P(AiA2...An.i)-P(An\AiA2...An.i). Аналогичным образом Р{АХА2 ... А.-0 = Р(А,А2 ... Ап_2) ¦ Р(А,_, | АХА2... Ап_2). Продолжая эту процедуру, получаем ,А2 ...Ап) = Р^ОРОШОР^А,А2)... Р(АП|А,А2... Лп_,). Последнее соотношение носит название формулы умножения вероят- вероятностей.
2. Формула умножения вероятностей 43 Пример 7. На 7 карточках написаны буквы л, л, о, о, о, т, т. Из них последовательно выбираются 4 и кладутся слева направо. Найдем вероятность того, что в результате образуется слово «лото» (событие А). Это — задача на классическую вероятность, и ее можно было бы решить стандартным образом, вычисляя общее число элементарных исходов и число благоприятных для со- события А исходов. Однако гораздо проще воспользоваться формулой умножения вероятностей. Введем события: А\ — на первой вынутой карточке написана буква л, А2 — на второй — буква о, Аз — на третьей — буква т и А\ — на четвертой — буква о. Тогда событие А представляет собой пересечение событий А\, А2, Аз и А\ и по формуле умножения вероятностей Р(А) = Р(АхА2АзАА) = P(Ai) Р(А21 Ах) Р(А31 АХА2) Р(АА \ АХА2А3). Заметим теперь, что в соответствии с принципом классической вероятности безусловная вероятность Р(А\) определяется как отношение числа карточек, на которых написана буква л, к общему числу карточек, т.е. Р(А\) = 2/7. Далее, если событие А\ произошло, то у нас осталось б карточек и на трех из них написана буква о. Поэтому Р(А2 \ А\) = 3/6. Аналогично, если произошли события А\ и А2, то из пяти оставшихся карточек на двух написана буква т, и, значит, P(A3|AiA2) = 2/5. Наконец, P(At|AiA2A3) = 1/2, поскольку из четырех оставшихся карточек на двух написана буква о. Окончательно полу- получаем 2 12 1 1 Любознательному читателю предлагаем решить эту задачу с помощью комбинаторных методов. ? Пример 8. В некоторых сельских местностях России существовало когда-то следующее гадание. Девушка зажимает в руке шесть травинок так, чтобы концы травинок торчали сверху и снизу; подруга связывает эти травинки попарно между собой сверху и снизу в отдельности. Если при этом все шесть травинок оказывались связанными в одно кольцо, то это должно было означать, что девушка в текущем году выйдет замуж. Найдем вероятность того, что травинки при связывании наудачу образуют кольцо (событие А). Для этого предположим сначала, что связаны верхние концы травинок. Тогда у нас образуется 3 пары травинок, и нижние концы этих пар будем последовательно связывать. Пусть событие А\ означает, что при первом связывании у нас не образуется кольцо (рис. 1), т.е. не будут связаны между собой нижние концы одной и той же пары. Событие А2 — после второго связывания не образуется кольцо. Тогда событие А представляет собой пересе- чение событий А\ и А2, и по формуле умно- умножения вероятностей Р(А) = Р(А\) Р(А2 \А\). Теперь заметим, что при первом связывании событие А\ происходит только тогда, когда мы не свяжем между собой концы одной па- пары, а это возможно в 4 случаях из 5. Поэтому Рис- ! Р(А\) = 4/5. Если событие А\ произошло, то для наступления события А2 необходимо связать построенную цепь и остав- оставшуюся пару, что в свою очередь можно сделать 2 способами из 3. Значит, Р(А21 Ах) = 2/3 и Р(А) = 4/5 • 2/3 = 8/15. Предоставляем читателю возможность решить эту задачу для 2п тра- травинок. ?
44 Гл. 3. Условная вероятность. Независимость событий 3. Независимость событий Следующим важным понятием теории вероятностей является неза- независимость событий. События А и В называются независимыми, если условная вероятность события В при условии А совпадает с безусловной вероятностью события Б, т. е. Р(Б | А) = Р{В). Введенное таким образом понятие скорее можно было бы назвать независимостью события В от события А. Покажем, что на самом деле понятие независимости симметрично относительно перестановки событий А и В, т. е. если событие В не зависит от события А, то событие А также не зависит от события В. Для этого подставим вместо условной вероятности Р(В\А) ее значение Р(В\А) = Р(АВ)/Р(А). Тогда независимость событий Aw В эквивалентна выполнению равен- равенства Р(АВ) = Р(А)Р(В), откуда и следует симметричность понятия независимости. Отметим, что последнюю формулу также можно было бы взять в качестве определения независимости. Этим определением можно пользоваться даже в том случае, когда вероятность события А или В равна нулю. Если событи_я А и В независимы^™ независимыми являются также пары событий АиВ,АиВ,АиВ. В частности, Р(А\В) = \-Р(А\В) = \- Р(А) = Р(А), что означает независимость событий А и В. Аналогично доказывается независимость остальных пар событий. Пример 9. Проводится опыт, состоящий из двукратного подбрасывания симметричной монеты. Событие А — выпадение «герба» при первом подбра- подбрасывании, событие В — выпадение «герба» при втором. В этом случае, как мы знаем, пространство элементарных исходов О состоит из четырех исходов. Событию А благоприятствуют два исхода, событию В — два исхода и событию АВ - один исход. Значит, Р(А) = Р(В) = 1/2, Р(АВ) = 1/4. События А и В независимы, поскольку Р(АВ) = Р(А) Р(В). ? Этот пример подтверждает с точки зрения классической вероят- вероятности интуитивный принцип «несвязности» результатов испытаний такого типа, как подбрасывание монеты, бросание игральной кости и т.д. Однако на практике поступают обычно обратным образом. Пусть имеются два различных испытания, причем в первом из них с вероятностью Р(А) может произойти событие А, а во втором с ве- вероятностью Р(В) — событие В. Рассмотрим «обобщенный опыт», результатами которого являются пары АВ = (А, В), АВ = (А, В), АВ = (А, В) и А В = (А, В). Если априори известно, что результа- результаты испытаний не связаны между собой, то вполне естественно счи- считать события А и В независимыми и положить Р(АВ) = Р(А) Р(В), Р(АВ) = Р(А)Р(В) и т.д. В частности, в рассмотренном приме-
3. Независимость событий 45 ре, исходя из двух однократных подбрасываний монеты и незави- независимости результатов подбрасываний, нужно положить для события АВ — выпадение «гербов» при обоих подбрасываниях вероятность Р(АВ) = Р(А) Р(В) = 1/2 • 1/2 = 1/4. Пример 10. Известно, что вероятность двум близнецам быть одного пола примерно равна 0,64, причем вероятность рождения мальчика близка к 0,51. Найдем вероятность того, что второй из близнецов — мальчик (со- (событие В), при условии, что первый из них — также мальчик (событие А). Так как пары мальчик-девочка и девочка-мальчик равновероятны, то вероят- вероятность события А — первый ребенок будет мальчиком, а второй — девочкой равна Р(АВ) = A_- 0,64)/2 = 0,36/2 = 0,18. Поскольку из условия задачи Р(А)=0,51,то Р(В\ А) = 0,18/0,51 =6/17 и Р(В\А) = \-Р(В\А) = 11/17, т. е. условная вероятность появления второго мальчика при условии появления первого мальчика существенно больше безусловной вероятности рождения мальчика. Поэтому гипотезу о независимости событий А и В следует признать ошибочной. С точки зрения генетики это связано с рождением так называемых однояйцевых близнецов. ? Определим теперь понятие независимости событий в совокупности. Назовем события А, В и С независимыми (в совокупности), если Р(АВ) = Р(А) Р(В), Р(АС) = Р(А) Р(С), Р(ВС) = Р(В) Р(С) и, кро- кроме того, Р(АВС) = Р(А) Р(В) Р(С). Аналогично определяется понятие независимости в совокупности и большего числа событий: вероятность пересечения любых двух различных событий равна произведению веро- вероятностей этих событий; вероятность пересечения любых трех событий равна произведению их вероятностей;...; вероятность пересечения всех событий равна произведению вероятностей. Из независимости событий в совокупности вытекает их попарная независимость. Однако из по- попарной независимости, вообще говоря, независимость в совокупности не следует, как показывает следующий простой пример (С. Н. Берн- штейн). Пример 11. Три грани правильного тетраэдра раскрашены в синий, красный и зеленый цвета, а в раскраске четвертой грани присутствуют все эти цвета. Событие А — тетраэдр упал на грань, в раскраске которой при- присутствует синий, событие В — красный и событие С — зеленый цвет. По- Поскольку каждый цвет присутствует в раскраске двух граней из четырех, то Р(А) = Р(В) = Р(С) = 1/2. Далее, два цвета присутствуют в раскраске одной грани. Поэтому Р(АВ) = Р(ВС) = Р(АС) = 1/4, и события А, В и С попарно независимы. Однако все три цвета присутствуют в раскраске также только одной грани и, значит, Р(АВС) = 1/4 ф Р(А) Р(В) Р(С) = 1/8. Таким образом, хотя события А, В и С попарно независимы, они зависимы в совокупности. ? Заметим, что когда говорят о независимости событий А\,..., Ап, то подразумевают именно независимость событий в совокупности в отли- отличие от попарной независимости событий А\,..., Ап. В заключение этого параграфа приведем формулу для вероятности объединения независимых событий. Пусть А = А\ U ... U Ап. Тогда в соответствии с формулой де Моргана А =_А\ ...Ап. Если события А\,...,Ап независимы, то события А\,...,Ап также независимы и,
46 Гл. 3. Условная вероятность. Независимость событий значит, Р(А) = Р(А\)... Р(Ап). Отсюда окончательно получаем для вероятности объединения независимых событий формулу Пример 12. Пусть некоторое техническое устройство состоит из п эле- элементов. Назовем соединение этих элементов последовательным (рис. 2), если отказ любого элемента влечет за собой отказ всего устройства. Пусть Аг 1 — _ ... _ it Рис. 2 (г = 1,..., п) — событие, заключающееся в отказе г-ro элемента. Тогда событие А — отказ всего устройства может быть записано в виде А = А\ U ... U Ап. Предполагая, что отказы отдельных элементов независимы, получаем для вероятности отказа всего устройства выражение Наряду с последовательным соединением элементов применяется также параллельное соединение (рис. 3), при котором отказ устройства происходит только при отказе всех элементов. Очевидно, что при параллельном соединении событие А — отказ | всего устройства представляет собой пересечение | событий Ai (i=\,...,n) — отказов отдельных 1 элементов, и в случае независимости отказов Рис. 3 Разумеется, надежность реальных технических устройств определяется более сложными структур- структурными схемами, чем последовательное или парал- параллельное соединение элементов. Однако довольно ча- часто встречаются устройства, структурную схему надежности которых можно представить в виде отдельных компонентов, содержащих только последователь- последовательные или только параллельные соединения элементов. В таком случае расчет на- надежности устройства можно произвести поэтапно, объединяя на каждом этапе либо последовательно, либо параллельно соединенные элементы и заменяя их од- j ним «обобщенным» элементом. Например, пусть нужно определить вероятность отказа состоящего из трех элементов устройства, структурная схе- схема надежности которого приведена на рис. 4. Известно, что элементы отказыва- отказывают независимо друг от друга и вероятно- рИС- \ сти отказов элементов 1, 2, 3 за заданное время работы равны соответственно P(Ai) = Р(А2) =0,1, Р(А3) = 0,01. Для нахождения вероятности Р(А) отказа всего устройства заменим сначала парал- параллельно соединенные элементы 1 и 2 «обобщенным» элементом 4, вероятность отказа которого в соответствии с приведенным ранее правилом равна Р(А4) = P(Ai) Р(А2) = ОД2 = 0,01.
4. Формула полной вероятности 47 Теперь осталось заметить, что структурная схема надежности всего устройства представляет собой последовательное соединение элемента 3 и «обобщенного» элемента 4. Значит, Р{А) = 1 - [1 - Р(А3)][1 - Р(А4)] = 1 - A - 0,01J ^ 0,02. Отметим, что при вычислении вероятности отказа устройства мы фактиче- фактически пользовались следующим представлением события А: А = (А{А2)иА3. Отсюда в силу формул де Моргана для события А — безотказной работы устройства на заданном промежутке времени — получаем выражение А=(А1иА2)А3, где событие Аг (г = 1,2,3) — безотказная работа г-ro элемента. 4. Формула полной вероятности Предположим, что в результате опыта может произойти одно из п событий, во-первых, несовместных и, во-вторых, составляющих пол- полную группу событий Hi, т. е. HiHj = 0 при г ф j' и Н\ + ... + Нп = О. События, удовлетворяющие этим двум требованиям, будем называть / ¦ ¦ • ¦ 1 ;. \п . //¦¦ Рис.5 гипотезами. Пусть также имеется некоторое событие А, и нам извест- известны Р(Н\),..., Р(ЯП), Р(А\Н\),..., Р(А\Нп). Задача состоит в опреде- определении безусловной вероятности Р(А). Для решения представим собы- событие А в следующем виде: А = Аи = А(НХ + ... + Нп) = АНХ (см. рис. 5). Тогда АНп По формуле умножения вероятностей Р(АЩ) = Р(Н1)Р(А\Щ), ..., Р(АНп) = Р(Нп)Р(А\Нп). Поэтому = P(Hl)P(A\Hi) + ... + P(Hn)P(A\Hn).
48 Гл. 3. Условная вероятность. Независимость событий Выведенная формула носит название формулы полной вероятно- вероятности. При всей своей простоте она играет весьма существенную роль в теории вероятностей. Пример 13. Частица пролетает мимо трех счетчиков, причем она может попасть в каждый из них с вероятностями 0,3, 0,2 и 0,4. В свою очередь, если частица попадает в первый счетчик, то она регистрируется с вероятностью 0,6, во второй — с вероятностью 0,5 и в третий — с вероятностью 0,55. Найдем вероятность того, что частица будет зарегистрирована (событие А). В нашем случае гипотеза Н\ — частица попадает в первый счетчик (Р(Н\) = 0,3), Н^ — во второй (Р(Я2) = 0,2) и Я3 - в третий (Р(Я3) = 0,4). События Яь Я2 и Яз не пересекаются, однако они не составляют полной группы событий. Для того чтобы получить полную группу событий, нужно добавить событие Hi, заключающееся в том, что частица не попадет ни в один счетчик. Ясно, что Р(Я4) = 1 - Р(Я0 - Р(Я2) - Р(Я3) = 1 - 0,3 - 0,2 - 0,4 = 0,1. Условные вероятности события А при условии каждой гипотезы равны: Р(А\Н\) = 0,6, Р(А | Я2) = 0,5, Р(А | Я3) = 0,55 и Р(А | Я4) = 0. По формуле полной вероят- вероятности имеем Р(А) = 0,3 • 0,6 + 0,2 • 0,5 + 0,4 • 0,55 + 0,1 • 0 = 0,5. ? 5. Формула Байеса Во многих приложениях теории вероятностей встречается следую- следующая задача. Пусть до опыта имеются гипотезы Н\,..., Нп. После опыта становится известной информация о его результатах, но не полная. А именно, результаты наблюдений показывают, не какой конкретно элементарный исход и из пространства элементарных исходов п про- произошел, а что наступило некоторое событие А. Считая, что до опы- опыта были известны (априорные) вероятности гипотез Р(Н\),..., Р(ЯП) и условные вероятности Р(А\Н\),..., Р(А\Нп), необходимо опреде- определить (апостериорные) вероятности гипотез Р(Я1 | А),..., Р(ЯП | А). Для решения поставленной задачи вспомним, что по определению условной вероятности Р(Н А) - Р{АНг) р№ А) - и по формуле умножения вероятностей Поэтому Полученное выражение носит название формулы Байеса.
5. Формула Байеса 49 Подставляя вместо вероятности Р(А) ее значение, вычисленное по формуле полной вероятности, формулу Байеса можно переписать также р(н , Л) = Р(Нг)Р(А\Нг) ЯО + ... + Р(Нп)Р(А | Я„) * Формула Байеса находит широкое применение в математической статистике. Пример 14. Три завода выпускают одинаковые изделия, причем первый завод производит 50%, второй — 20% и третий — 30% всей продукции. Пер- Первый завод выпускает 1% брака, второй завод — 8% и третий — 3%. Наудачу выбранное изделие оказалось бракованным (событие А). Найдем вероятность того, что оно изготовлено на втором заводе. У нас имеется три гипотезы: Н\ — изделие изготовлено на первом заводе, Я2 — на втором заводе и Я3 — на третьем. По условию задачи Р(Н\) = 0,5, Р(Я2) = 0,2, Р(Я3) = 0,3, Р(А | Я0 = 0,01, Р(А | Я2) = 0,08, Р(А | Я3) = 0,03. Условная вероятность того, что бракованное изделие изготовлено на втором заводе, определяется формулой Байеса: Р(Я2)Р(А|Я2) Р(Я2 | А) = Р(Н{)Р(А | Я0 + Р(Я2)Р(А | Я2) + Р(Я3)Р(А | Я3) 0,2 • 0,08 0,5-0,01+0,2-0,08+ 0,3-0,03 15 Итак, несмотря на то что продукция второго завода составляет 1/5, его доля в браке больше половины. ? Пример 15. Два охотника одновременно стреляют одинаковыми пулями в медведя. В результате медведь был убит одной пулей (событие А). Как охот- охотники должны поделить шкуру убитого медведя, если известно, что вероятность попадания у первого охотника 0,3, а у второго — 0,6? Снова воспользуемся формулой Байеса. Однако предварительно определим гипотезы. Гипотеза Н\\ попал первый охотник, второй промахнулся; гипотеза Я2: попал второй, первый промахнулся. События Н\ и Я2 несовместны, однако не составляют полной группы событий. Поэтому введем еще две гипотезы: Яз — попали оба охот- охотника и На — оба промахнулись. Заметим, что событие А может происходить тогда и только тогда, когда произошла либо гипотеза Н\, либо гипотеза Я2, т. е. Р(А | Я0 = Р(А | Я2) = 1, Р(А | Я3) = Р(А | Я4) = 0. Кроме того, делая естественное предположение, что попадания охотников в медведя не зави- зависят друг от друга, получаем: Р(Я3) = 0,3 • 0,6 = 0,18, Р(Я4) = A - 0,3) х х A - 0,6) = 0,28, Р(Я0 = 0,3 • A - 0,6) = 0,12, Р(Я2) = A - 0,3) х х 0,6 = 0,42. Теперь мы в состоянии применить формулу Байеса, согласно которой А) ' Р(Я21 А) = 0,12 • 1 + 0,42 • 1 + 0,18 • 0 + 0,28 -0 9 ' 0,42 -1 _ 7 0,12- 1+0,42- 1+0,18-0 + 0,28-0 ~ 9 ' Таким образом, при справедливом дележе первый охотник должен получить 2/9 шкуры, т.е. меньше 1/4, в то время как, на первый взгляд, казалось, что ему причитается 1/3 шкуры. ?
50 Гл. 3. Условная вероятность. Независимость событий Пример 16. В группе 15 студентов. Из них: 5 «отличников», 7 «четвероч- «четверочников» и 3 «троечника». Известно, что «отличник» с вероятностью 0,9 получает на каждом экзамене «отлично» и с вероятностью 0,1 — «хорошо». Аналогично, «четверочник» с вероятностью 0,1 получает «отлично», с вероятностью 0,7 — «хорошо» и с вероятностью 0,2 — «удовлетворительно». Наконец, «троечник» получает с вероятностью 0,1 «отлично», с вероятностью 0,2 — «хорошо» и с ве- вероятностью 0,7 — «удовлетворительно». Один из студентов из этой группы получил на первом экзамене «хорошо». Найдем вероятность того, что на следу- следующем экзамене он получит «отлично». Итак, опыт состоит в последовательной сдаче двух экзаменов. Событие А — студент сдал первый экзамен на «хорошо», событие В — второй экзамен на «отлично». Ясно, что в качестве гипотез надо взять: Н\ — студент «отличник», Я2 — «четверочник» и Щ — «троечник». Ес- Если бы нам необходимо было найти просто безусловную вероятность события В, то нужно было бы воспользоваться формулой полной вероятности, в которой P(Hi) = 5/15 = 1/3, Р(Я2) = 7/15, Р(Я3) = 3/15 = 1/5, Р(В | Hi) = 0,9, Р(В | Н2) = 0,1 и Р(В | Яз) = 0,1. Однако нас интересует условная вероятность события В при условии А, поэтому мы сначала с помощью формулы Байеса найдем условные вероятности гипотез Н\, Я2 и Яз при условии А. Поскольку Р(А | Hi) = 0,1, Р(А | Я2) = 0,7 и Р(А | Я3) = 0,2, то имеем: Р(Н1\А) = Г0'1 ^.0,7 1.0,2 1 12 ' Р(Я21 А) = 49 60 ' Р(Я31 А) = 1 - Р(Я1 | А) - Р(Я21 А) = ± . Таким образом, по полученной на первом экзамене оценке мы обязаны при- приписать нашему студенту новые вероятности 1/12, 49/60 и 1/10 того, что он «отличник», «четверочник» и «троечник». Теперь для вычисления условной вероятности Р(В \ А) воспользуемся формулой полной вероятности: Р(В | А) = P(Hi | А) Р(В | Hi А) + Р(Я21 А) Р(В \ Н2А) + Р(Я31 А) Р{В \ Н3А), в которой вместо вероятностей Р(В) и Р(Я^) (г = 1,2,3) взяты условные вероятности Р(В \ А) и Р(Яг | А), а вместо условных вероятностей Р(В \ Hi) — условные вероятности Р(В \ HiA) (справедливость этой формулы мы предлага- предлагаем читателю проверить самостоятельно). Тогда, предполагая, что для студента одной успеваемости результат следующего экзамена не зависит от результата предыдущего, т. е. Р(В \ НгА) = Р(В \ Hi), получаем окончательно Р(В | А) = P(Hi | А) Р(В | Hi) + Р(Я21 А) Р(В | Я2) + Р(Я31 А) Р(В \ Я3) =
5. Формула Байеса 51 Для лучшего усвоения этого примера рекомендуем читателю построить пространство элементарных исходов О (в данном случае оно будет состоять из 27 «троек» — «успеваемость-оценка на первом экзамене-оценка на втором экзамене») и определить на нем вероятность. При определении вероятности нужно учитывать, что оценки на каждом экзамене для студентов одной успе- успеваемости независимы. Вообще говоря, можно отказаться и от условия независимости оценок на каждом экзамене. Тогда в формуле полной вероятности нужно вместо условных вероятностей Р(В \ Hi) использовать условные вероятности Р(В\АНг), т.е. учитывать не только успеваемость студента, но и его предыдущую оценку. Разумеется, модель экзаменов должна быть тоже более тонкой, т. е. необходимо задать для студента каждой успеваемости вероятность получения им любых оценок на двух последовательных экзаменах. ?
Глава 4 СХЕМА БЕРНУЛЛИ Во введении мы говорили, что теория вероятностей имеет дело с таки- такими явлениями, при которых испытания можно повторять, по крайней мере теоретически, бесконечное число раз, и при этом появление или непоявление некоторого наблюдаемого события в каждом испытании не будет зависеть от исходов предыдущих испытаний. Сейчас мы рассмотрим более подробно эту схему, носящую в теории вероятностей название последовательности независимых одинаковых испытаний, или схемы Бернулли, основываясь на аксиоматическом определении вероятности и уже введенном нами понятии независимости событий. Итак, опыт состоит в n-кратном повторении одинаковых испытаний, в каж- каждом из которых может с вероятностью р наступить некоторое событие (будем говорить в этом случае, что произошел «успех») или с вероятностью q = 1 — р не наступить (произошла «неудача»). Результат каждого опыта можно записать в виде последовательности УНН.. .У, состоящей из п букв У и Н, причем буква У (или Н) на г-м месте означает, что в г-м испытании произошел успех (или неудача). Пространство элементарных исходов О состоит из 2п исходов, каждый из которых отождествляется с определенной последовательностью УНН...У (cr-алгебра событий <В включает 22 событий!). Заметим теперь, что в силу независимости испытаний мы обязаны сопоставить каждому элемен- элементарному исходу и = ... вероятность Р(и) = Р(...) = pqq... р, причем буква р (или q) в произведении повторяется столько раз, сколько раз произошел успех (или неудача). Типичным представителем схемы Бернулли является п-кратное подбрасывание несимметричной монеты, причем, например, «успех» означает выпадение «герба», а «неудача» — «цифры». 1. Формула Бернулли Вычислим вероятность Рп(т) получить в п испытаниях ровно т успехов. Событие Ат — в п испытаниях произошло ровно т успе- успехов — состоит из тех элементарных исходов, в которых буква У по- появляется ровно т раз. Для того чтобы подсчитать число таких исхо- исходов, заметим, что оно совпадает с числом способов, которыми можно расставить т букв У на п местах. Поскольку порядок, в котором мы расставляем буквы, нас не интересует, то мы имеем дело с со- /* ( П \ Г- четаниями и число способов равно .С другой стороны, каждый элементарный исход, в котором интересующая нас буква У встречается ровно т раз, как мы знаем, имеет вероятность pmqn~m. Окончательно получаем для вероятности Р(Ат) = Рп(т) наступления т успехов в п независимых испытаниях формулу Бернулли: Pn(m)=(n)pmq mqn-m
2. Формула Пуассона 53 Данное выражение носит также название биномиального закона, по- поскольку Рп{т) можно получить как коэффициент при zm разложения по степеням z бинома (pz + q)n. Заметим, что последнее выражение представляет собой производящую функцию (^-преобразование) для биномиального закона (см. параграф 3 гл. 8); аппарат производящих функций широко используется в теории вероятностей. Пример 1. В шаре радиусом R находится п молекул идеального газа. Вычислим вероятность того, что ровно т из них будут находиться на рассто- расстоянии, меньшем р = XR @ < А < 1) от центра этого шара. Поскольку каждая из п молекул может находиться в любой точке шара независимо от остальных, искомая вероятность определяется с помощью формулы Бернулли. При этом для вычисления вероятности р попадания одной молекулы в шар радиусом р (успех) можно воспользоваться схемой геометрической вероятности, т. е. Тогда по формуле Бернулли окончательно получаем тA-\3)п-т. а Пример 2. Частица пролетает последовательно мимо б счетчиков. Каж- Каждый счетчик независимо от остальных отмечает ее пролет с вероятностью р = 0,8. Частица считается зарегистрированной (событие А), если она отмечена не менее чем двумя счетчиками. Найдем вероятность зарегистрировать части- частицу. В соответствии с аксиомой сложения искомую вероятность Р(А) можно представить в виде Р(А) = Р(А2) + Р(А3) + Р(А0 + Р(А5) + Р(Аб), где Ai — событие, заключающееся в том, что частица отмечена ровно г счетчиками. Теперь для определения Р(Аг) можно было бы воспользоваться формулой^ернулли, однако мы предварительно перейдем к дополнительному событию А — частица либо не отмечена ни одним счетчиком, либо отмечена только одним. Тогда Р(Л) = Р(Ао) + P(Ai) = Р6@) + Р6A) = q + [jPQ = @^2)b + 6 • 0,8 • @,2)" = 0,0016 P(A) = 1 - P(A) = 0,9984. ? 2. Формула Пуассона Предположим, что мы хотим определить вероятность выпадения ровно 5100 «гербов» при 10000 бросаний монеты. Ясно, что при таком большом числе испытаний использование формулы Бернулли весьма затруднительно с точки зрения вычислений. Поэтому возникает есте- естественное желание иметь простые, но достаточно точные приближен- приближенные формулы для вычисления Рп(т) при больших п. Такие формулы
54 Гл. 4. Схема Бернулли существуют и определяются теоремой Пуассона, а также локальной и интегральной теоремами Муавра-Лапласа. Начнем с наиболее простой из них — формулы Пуассона. Формула Пуассона применяется тогда, когда наряду с большим значением числа испытаний п мала вероятность успеха р. Рекомендации по применению предельных формул (в том числе и формулы Пуассона) мы дадим ниже. Сейчас же сформулируем теорему Пуассона. Строго математиче- математически теорема Пуассона опирается на довольно сложное понятие схемы серий, поэтому ниже мы приведем «инженерную» интерпретацию этой теоремы. Теорема Пуассона. Пусть число испытаний п в схеме Бернулли велико, а вероятность успеха р в одном испытании мала, причем мало также произведение А = пр. Тогда Рп(т) определяется по приближен- приближенной формуле (формула Пуассона) Pn(rn) ~ ^Te~A (m = 0, 1,2, ...,п). Доказательство. Запишем формулу Бернулли Pn(m) = ( n )pm(l - py~m = n(n-l)...(n-m+l) m _ n_m \m/ ml m или, с учетом обозначения Л = пр, Am/1 A\nn-1 га-2 п-т+\ A Pn{m) = —- A - m! V n/ n n л A I1-- n V n Как известно, A — A/n)n ~ e~x при больших п. Кроме того, если п велико, то (га- 1)/п« 1, (га-2)/га« 1,..., (га - т + 1)/га « 1 и A - Л/п)"т « 1. Поэтому 771! что и требовалось доказать. ? Совокупность вероятностей Р(га; А) = Ame~A/m! (m = 0, 1,...) называется распределением Пуассона. Значения функции Р(т; А) для некоторых А приведены в табл. 1 приложения. Отметим, что формула Пуассона справедлива также по отношению к числу неудач, но только в том случае, когда мало Ах = щ. 3. Формулы Myавра-Лапласа Если в схеме Бернулли наряду с числом испытаний и велики также значения пр и щ, то следует применять формулы Муавра-Лапласа — локальную или интегральную. При этом локальную формулу Муавра- Лапласа, как следует из самого названия, необходимо применять в том случае, когда нас интересует вероятность получить ровно т успехов в п испытаниях, а интегральную — если определяется вероятность получить число успехов, заключенное в пределах от т\ до т^.
3. Формулы My авр а-Лаплас а 55 Так же, как и теорема Пуассона, локальная и интегральная теоремы Муавра-Лапласа приводятся в «инженерной» трактовке. Локальная теорема Муавра-Лапласа. Если в схеме Бернулли число испытаний п велико, то для всех m справедлива приближенная формула (локальная формула Муавра-Лапласа) fnpqPn(m) где х = (га — np)/Jnpq , a ip(x) = 2тг Одно из первых доказательств теоремы было основано на известной из курса математического анализа формуле Стирлинга п!епп"пBтгп) 1. Не вдаваясь в математические подробности доказательства, изложим основную его суть. Считая, что п и n — га достаточно велики, и под- подставляя в формулу Бернулли вместо п!, га! и (п —га)! их приближен- приближенные значения, вычисленные по формуле Стирлинга, получаем /npq Pn(m где А = тш(п-т)п-ш Положим х = (га — np)jsjnpq. Тогда га = np + x^npq , п — т = nq — — x^Jnpq. Логарифмируя теперь А, имеем 1пА = -< (np + xJnpq) In ( 1 -\-x.l— ) + iv v J V V np / + (na — Хл/npq ) In I — xA — v V Vng P Поскольку л/qJJjip) и y/p/(nq) малы при больших п, разложим лога- логарифмы в ряд Маклорена по степеням ж до второго члена. Тогда In А « — Хл/npg )\xx — --s-- — Следовательно,
56 Гл. 4. Схема Бернулли Наконец, учитывая, что т/(пр) « 1 и (п — m)/(nq) « 1 при фиксиро- фиксированном х и больших п, получаем n2pq п — т) откуда и вытекает утверждение теоремы. Значения функции (р(х), которую называют плотностью стан- стандартного нормального, или гауссова, распределения, для некото- некоторых х приведены в табл. 2 приложения. Поскольку функция ip(x) является четной, то при определении ip(x) для отрицательных х нужно воспользоваться равенством (р(х) = ip(—x). Интегральная теорема Муавра-Лапласа. Если в схеме Бернул- ли число испытаний п велико, то для вероятности ?{тп\ < /i < 1712} того, что число успехов /i заключено в пределах от тп\ до ТП2, спра- справедливо приближенное соотношение (интегральная формула Муавра- Лапласа) Р{ТП\ ^ \1 ^ Vfl2\ ? где х\ = (mi — пр)/\jnpq , х^ = (rri2 — np)j X Ф(х)= J Доказательство теоремы проведем, опираясь на локальную теорему Муавра-Лапласа (здесь мы также опускаем отдельные технические детали доказательства). Если an —»> 00 при п -^ оо, то в силу теоремы о среднем и равномерной непрерывности функции <р(х) x + \/Ban) г ip(x) - an cp(y) dy —> 0 J n^oo x-l/Ban) равномерно по х. Поэтому, полагая an = y/npq, из локальной теоремы Муавра- Лапласа находим п() ф) y/npq где ж = (m — np)/y/rvpq. Суммируя по всем т от mi до Ш2, окончательно получаем P{mi < fi < m2} = ^ Pn(m) Тем самым утверждение теоремы доказано. ? Отметим, что интегральная теорема Муавра-Лапласа является следствием более общей центральной предельной теоремы, которую мы докажем другим, более простым способом в гл. 8.
4. Применение приближенных формул Пуассона и Муавра-Лапласа 57 Функция Ф(х), фигурирующая в интегральной формуле Муавра- Лапласа, носит название функции стандартного нормального, или гауссова, распределения. В силу четности ip(x) функция стандартного нормального распределения обладает свойством Ф(—х) = 1 — Ф(х). По- Поэтому в табл. 3 приложения приведены значения не Ф(х), а интеграла X Лапласа Фо(#) = J <p(y) dy и только для положительных х. Ясно, что о Фо(#) является нечетной функцией, т.е. Фо(—х) = — Фо(#) и, кроме того, Ф(х) = Фо(#) + 1/2. В терминах интеграла Лапласа интегральная формула Муавра-Лапласа имеет вид P{mi < fi < га2} « Фо(^2) - Фо(я1). Именно этой формулой мы будем пользоваться при расчетах в приме- примерах следующего параграфа. Замечание. Распределение Пуассона, плотность и функция стан- стандартного нормального распределения играют в приложениях столь су- существенную роль, что таблицы их значений содержатся практически в любом справочнике, учебнике или задачнике по теории вероятно- вероятностей или математической статистике (см. также приложение). Одна- Однако следует еще раз обратить внимание на то, что довольно часто в таблицах приводятся не значения функции стандартного нормального распределения, а значения интеграла Лапласа Фо(#) или даже функции сю Ф*(х) = J (p(y) dy = 1 — Ф(х). Поэтому, прежде чем пользоваться таб- табес лицей, необходимо внимательно посмотреть, значения какой функции даны в этой таблице. 4. Применение приближенных формул Пуассона и Муавра-Лапласа В этом параграфе мы дадим некоторые рекомендации (носящие, вообще говоря, условный характер) по применению приближенных формул и рассмотрим примеры расчетов с их помощью. Если число испытаний п = 10—20, то приближенные формулы используются для грубых прикидочных расчетов. При этом формула Пуассона применяется в том случае, когда X = пр или А' = щ изменя- изменяются в пределах от 0—2 (при п = 10) до 0—3 (при п = 20); в противном случае необходимо пользоваться формулами Муавра-Лапласа. Если п = 20—100, то приближенные формулы уже можно ис- использовать для прикладных инженерных расчетов. Формулу Пуассона рекомендуется применять, когда А или А' заключены в следующих пределах: 0-3 (п = 20) - 0-5 (п = 100). Если п = 100—1000, то практически при любых инженерных рас- расчетах можно обойтись приближенными формулами. Формула Пуассона
58 Гл. 4. Схема Бернулли используется, когда Л или А' изменяются в следующих пределах: 0—5 (п= 100) - 0-10 (п= 1000). Наконец, при п > 1000 даже специальные таблицы рассчитываются с помощью приближенных формул (правда, для увеличения точности используют специальные поправки). В этом случае для применения формулы Пуассона необходимо, чтобы Л или У лежали в пределах 0—10 и более. Прежде чем переходить к рассмотрению примеров, скажем несколь- несколько слов о погрешностях, возникающих при использовании приближен- приближенных формул. Для этого отметим, что знак « приближенного равенства использовался нами в том смысле, что при увеличении п разность между величинами, связанными этим знаком, стремится к нулю. Ины- Иными словами, приближенные формулы гарантируют только малую аб- абсолютную погрешность, но относительная погрешность, т. е. от- отношение величин, связанных знаком «, может быть сколь угодно большой. Так, при использовании формулы Пуассона для вычисления биномиальных вероятностей Рп(т) относительная погрешность име- имеет тенденцию к увеличению с ростом га. Аналогично, в формулах Муавра-Лапласа относительная погрешность увеличивается с ростом абсолютного значения \х\ = |(га — пр)/\fnpq |, причем в интегральной формуле Муавра-Лапласа такое увеличение происходит только в том случае, когда х\ = (mi — np)j ^Jnpq и х% = (rri2 — np)j ^Jnpq имеют одинаковый знак. Читатель сможет убедиться в этом из рассмотренных ниже примеров. Следует отметить, что к настоящему времени доказаны теоремы, позволяющие не только получать более точные приближения биноми- биномиальных вероятностей Рп(тп), но и оценивать возникающие при этом погрешности. Однако эти результаты довольно сложны и весьма редко используются в инженерной практике. Пример 3. Счетчик регистрирует попадающие в него частицы с веро- вероятностью р = 0,9. Найдем вероятность Рю(гп) того, что он зарегистрировал m (m = 0, 1,..., 10) частиц при условии, что в него попало 10 частиц. Воспользуемся сначала точной формулой Бернулли, в соответствии с которой Р\о(т) = ( ) 0,9тA — 0,9I0~т. Результаты расчетов приведены V т J в табл. 1 в графе «Точное значение Рю(ш)». Постараемся применить теперь приближенные формулы. В нашем случае А = пр = 9 велико, однако А; = nq = 1 мало и, значит, рекомендации советуют воспользоваться формулой Пуассона, но по отношению к незарегистрирован- незарегистрированным частицам. В соответствии с этой формулой Рю(т) « ю_т = Р(Ю - ш; 1). По табл. 1 приложения находим РюA0) « Р@; 1) = 0,36788, Рш(9) « РA; 1) = 0,36788 и т. д. Приближенные значения приведены в табл. 1 в графе «Значение, вы- вычисленное по формуле Пуассона». Для сравнения полученных результатов
4. Применение приближенных формул Пуассона и Муавра-Лапласа 59 в эту же таблицу включена графа «Погрешность». Анализируя приведенные в этой графе числа, видим, что максимальная абсолютная погрешность 0,01954 невелика, чего нельзя сказать о максимальной относительной погрешности. В частности, приближенное значение 0,00051 вероятности РюD), вычисленное по формуле Пуассона, почти в 4 раза больше истинного значения 0,00014 этой вероятности. Наконец, покажем, как воспользоваться локальной формулой Муавра- Лапласа, хотя здесь это и не рекомендуется делать. Тогда Р\о(т) мы должны заменить числом (р(хт)/у/10 • 0,9 • 0,1 , где хш = (т - 10 • 0,9)Д/10 • 0,9 • 0,1, а (р(х) — плотность стандартного нормального распределения. Результаты вычислений с использованием табл. 2 приложения приведены в табл. 2. Как и следовало ожидать, локальная формула Муавра-Лапласа дает существенно большие погрешности. ? Таблица 1 т 0 1 2 3 4 5 6 7 8 9 10 Точное значение Рю(т) 0,00001 0,00014 0,00149 0,01116 0,05740 0,19371 0,38742 0,34868 Значение, вычислен- вычисленное по формуле Пуассона 0,00001 0,00007 0,00051 0,00307 0,01533 0,06131 0,18394 0,36788 0,36788 Погрешность 0,00001 0,00006 0,00037 0,00158 0,00417 0,00391 -0,00977 -0,01954 0,01920 Таблица 2 т 0 1 2 3 4 5 6 7 8 9 10 Точное значение Рю(т) 0,00001 0,00014 0,00149 0,01116 0,05740 0,19371 0,38742 0,34868 -9,49 -8,43 -7,38 -6,32 -5,27 -4,22 -3,16 -2,11 -1,05 0,00 1,05 0,00006 0,00271 0,04307 0,22988 0,39894 0,22988 Значение, вычисленное по локальной формуле Муавра-Лапласа 0,00006 0,00286 0,04540 0,24231 0,42052 0,24231 Погрешность -0,00001 -0,00014 -0,00143 -0,00830 -0,01200 0,04860 0,03310 -0,10637
60 Гл. 4. Схема Бернулли Пример 4. Производится 10 подбрасываний симметричной монеты. Най- Найдем вероятность того, что выпадет ровно т (ш = 0, 1,..., 10) «гербов». Так же, как и в предыдущем примере, сначала по формуле Бернулли Р\о(т) = ( ) 0,5ю вычислим точные значения этих вероятностей (см. табл. 3, \т/ графа «Точное значение Рю(га)»). Воспользуемся теперь приближенными формулами. В данном примере Л = 5 и Л; = 5, поэтому применим формулу Муавра-Лапласа. Так как нас ин- интересует вероятность выпадения ровно т «гербов», то необходимо применить локальную формулу Муавра-Лапласа, в которой fnpq = л/10-0,5-0,5 ^ 1,5811, и для т «гербов» т — 5 т — 5 -0,5-0,5 1,5811 Результаты вычислений также приведены в табл. 3. Из табл. 3 видно, что и в этом случае максимальная абсолютная погрешность 0,00622 по отношению к максимальному значению РюE) = 0,24609 вероятности Р\о(т) достаточно мала. Таблица 3 т 0 1 2 3 4 5 6 7 8 9 10 Точное значение Рю(т) 0,00098 0,00977 0,04395 0,11719 0,20508 0,24609 0,20508 0,11719 0,04395 0,00977 0,00098 -3,16 -2,53 -1,90 -1,26 -0,63 0,00 0,63 1,26 1,90 2,53 3,16 0,00271 0,01625 0,06562 0,18037 0,32713 0,39894 0,32713 0,18037 0,06562 0,01625 0,00271 Значение, вычисленное по локальной формуле Муавра-Лапласа 0,00171 0,01028 0,04150 0,11408 0,20690 0,25231 0,20690 0,11408 0,04150 0,01028 0,00171 Погрешность 0,00073 0,00051 -0,00245 -0,00311 0,00182 0,00622 0,00182 -0,00311 -0,00245 0,00051 0,00073 Читателю советуем самостоятельно применить формулу Пуассона и убе- убедиться в том, что она дает существенно большие погрешности. ? Пример 5. В тираже «Спортлото 6 из 49» участвуют 10000000 карточек. Найдем вероятность события А — хотя бы в одной из этих карточек зачерк- зачеркнуты 6 выигрышных номеров (максимальный выигрыш). Естественно сразу же перейти к дополнительному событию А — ни на одну карточку не выпадет мак- максимальный выигрыш. Считая, что в каждой из карточек номера зачеркиваются случайным образом и независимо от остальных, видим, что число карточек, на которые выпал максимальный выигрыш, подчиняется биномиальному закону с параметрами п = 10000000 и р = 7 • 10~8 (см. пример 7 в гл. 2). Поскольку А = пр = 0,7, то для определения вероятности Р(А) воспользуемся формулой Пуассона. Тогда Р(А) = Рюоооооо(О) ~ Р@;0,7). Из табл. 1 приложения имеем
4. Применение приближенных формул Пуассона и Муавра-Лапласа 61 Р@;0,7) = 0,49659, и, значит, Р(А) « 0,50341. Таким образом, вероятность того, что хотя бы одна из 10000000 карточек окажется выигрышной, чуть больше 1/2. ? Пример 6. Для определения числа тг экспериментальным путем (см. при- пример 12 в гл.2) производится п = 10000 бросаний иглы длиной I = а/2. Значение тг определяется при этом формулой тг = п//л, где /л — число пе- пересечений иглой одной из прямых. Найдем вероятность того, что опреде- определенное таким образом приближенное значение тг будет заключено в преде- пределах от 3,14 до 3,15 (событие А). Событие А происходит тогда и только тогда, когда число пересечений будет лежать в пределах от т\ =3175 до тг = 3184. Вероятность успеха (пересечения иглой одной из прямых при I = а/2) р = 1/тг = 0,3183, неудачи — q = 1 — р = 0,6817. Поскольку п, пр и nq велики, а по условию задачи нас интересует вероятность попадания на интервал, воспользуемся интегральной формулой Муавра-Лапласа, в кото- которой хх =¦ C175 - 3183)/V/2l69 ^ -0,17 и х2 = C184 - 3183)/V/2l69 ^ 0,02. По табл. 3 приложения получаем, что Фо(х\) = —0,06749, Фо(#2) = 0,00798, и, значит, Р{3175 < /х < 3184} « Ф0(ж2) - Фо(ал) = 0,07547. Отсюда можно сделать вывод: 10000 бросаний иглы явно мало для того, чтобы определенное экспериментально число тг с достаточно большой вероятностью лежало в пре- пределах от 3,14 до 3,15. ? Пример 7. В сосуде содержится п = 5,4 • 1022 молекул газа. В некото- некоторый момент времени сосуд делят непроницаемой перегородкой на две части одинаковых объемов. Считая, что каждая молекула с одинаковой вероятностью (р = q = 1/2) может находиться в любой из двух частей, определим вероят- вероятность события А — в одной из частей сосуда будет содержаться молекул по крайней мере на 10~8% (от общего числа молекул в сосуде) больше, чем в дру- другой. Перейдем к дополнительному событию А, которое, как нетрудно видеть, состоит в том, что число молекул в первой части сосуда заключено в преде- пределах от mi = 2,7A022 - 1012) до ш2 = 2,7A022 + 1012). Поскольку тг весьма велико, a mi и гаг различны, воспользуемся интегральной формулой Муавра- Лапласа, в которой х\ = —23, 3 и Х2 = 23,3. Следовательно, Р(А) ~ ФоB3,3) — — Фо(—23,3) = 2ФоB3,3). В табл. 3 приложения, как и в большинстве других таблиц, значения функции Фо(ж) приводятся для х, не превосходящих 5. Учитывая монотонное возрастание функции Фо(ж), можно сделать следующую оценку для вероятности Р(А): Р(А) > 2Ф0E) = 2-0,4999997 = 0,9999994. Значит, Р(А) < 1 — 0,9999994 = 6 • 10~7. Более точные расчеты показывают, что 2ФоB3,3) < 10~100. Как мы видим, вероятность числу молекул в одной части сосуда отличаться от числа молекул в другой даже на 10~8% ничтожно мала. ? Пример 8. Определим, какое число п подбрасываний симметрич- симметричной монеты надо произвести, чтобы наблюденная частота / = /л/п выпа- выпадения «герба» отличалась от вероятности р = 1/2 выпадения «герба» не более чем на 0,01 с вероятностью 0,99. Предположим, что мы произве- произвели п испытаний. Тогда число \i выпадений «герба» должно быть заклю- заключено в пределах от тп\ = п/2 — 0,01п до Ш2 = п/2 + 0,01п. Восполь- Воспользуемся интегральной формулой Муавра-Лапласа, в которой р = q = 1/2, xi = -0,01га/@,5-v/n) = -0,02^/п, х2 = 0,01/1/@,5^) = 0,02^. Тогда P{mi < /х < ш2} « Ф0@,02у/п) - Ф0(-0,02у/гг) = 2Ф0@,02л/п). Посколь- Поскольку из условия задачи известно, что Р{тп\ < /л < т2} = 0,99, то получаем
62 Гл. 4. Схема Бернулли Фо(О,О2л/гг) = 0,495. Из табл. 3 приложения находим 0,02л/п = 2,58. Отсюда следует, что л/п = 129 и п = 16 641. Таким образом, необходимо произвести около 17 000 подбрасываний. Определим теперь, сколько нужно произвести подбрасываний симметрич- симметричной монеты, чтобы частота выпадения «герба» отличалась от вероятности не более чем на 0,005 (а не на 0,01) с той же вероятностью 0,99. Иными слова- словами, считая, что наблюденная частота / выпадения «герба» является оценкой вероятности р = 1/2 выпадения «герба», мы хотим узнать, во сколько раз нужно увеличить число испытаний, чтобы повысить точность оценки в два раза. Производя аналогичные вычисления, получаем фг = 258 и п = 66 564. Значит, число подбрасываний нужно увеличить в 4 раза. Если бы мы захотели повысить точность оценки в 3 раза, то нам пришлось бы увеличить число подбрасываний уже в 9 раз. Нетрудно видеть, что выведенный закон присущ схеме Бернулли с любой вероятностью успеха р: оценивая вероятность р с помощью наблюденной частоты /, для улучшения оценки в а раз мы должны увеличить число наблюдений в а2 раз. ? 5. Теорема Бернулли Предположим, что мы произвели большое число п испытаний Бер- Бернулли с вероятностью успеха р. По числу полученных успехов fi опре- определим наблюденную частоту / = fi/n. Спрашивается, как сильно может отличаться наблюденная частота успеха / от вероятности успеха р? Ясно, что, вообще говоря, частота / может принимать любые значения от 0 до 1. Так, мы вполне можем получить в п испытаниях одни неудачи. Но, как мы знаем, вероятность такого события равна qn, и при больших п она будет весьма мала. Поэтому естественно ожидать, что при больших п частота / с большой вероятностью группируется вокруг вероятности р, что мы сейчас и установим, исходя из интегральной теоремы Муавра-Лапласа. Пусть г > 0 — любое сколь угодно малое число, а событие А заклю- заключается в том, что наблюдаемая в п испытаниях частота / отличается от вероятности по модулю не больше чем на е. Иными словами, событие А происходит тогда и только тогда, когда число успехов в п испытаниях заключено в пределах от т\ = пр — пг до т^ = пр + пе. Теперь, если п велико, то мы можем воспользоваться интегральной теоремой Муавра- Лапласа, в которой х\ = —Sy/n/(pq), х^ = ?\/n/(pq), и, значит, Р(А) Но с ростом п х\ —> —оо, а х% —> оо. В свою очередь, Ф(—оо) = О, Ф(оо) = 1. Поэтому, каково бы ни было г > 0, с ростом п вероятность того, что частота f отличается от вероятности р не более чем на г, стремится к 1. Установленный нами факт предельного постоянства частоты впер- впервые был обнаружен Я. Бернулли, он носит название (слабого) закона больших чисел или теоремы Бернулли. Закон больших чисел и его многочисленные обобщения являются звеном, позволяющим связать
6. Вычисление определенных интегралов методом Монте-Карло 63 аксиоматическое построение теории вероятностей с эмпирическим за- законом постоянства частоты, с которого мы начали путешествие в тео- теорию вероятностей. Именно он позволяет обосновать то широкое при- применение методов теории вероятностей на практике, которое мы имеем в настоящее время. Однако если произвести более строгий логический анализ, то ока- окажется, что слабый закон больших чисел также не вполне удовлетворяет нашим исходным предпосылкам, поскольку когда мы говорим о ста- стабильности частоты, то имеем в виду процесс, протекающий во времени. Слабый закон больших чисел утверждает только, что при большом, но фиксированном числе испытаний частота мало отличается от вероят- вероятности. Слабый закон больших чисел еще не исключает значительных, но редких отклонений частоты от вероятности при последовательном проведении испытаний. Здесь мы пока только отметим, что имеет место усиленный закон больших чисел, который в определенной степе- степени устраняет это логическое несовершенство слабого закона больших чисел. Более подробно закон больших чисел, как и интегральная теорема Муавра-Лапласа, будут обсуждены нами в гл. 8, посвященной предель- предельным теоремам теории вероятностей. 6. Вычисление определенных интегралов методом Монте-Карло В этом параграфе мы рассмотрим применение предельных теорем для вычисления многократных интегралов. Начнем с повторения материала, излагаемого в любом курсе мате- математического анализа. Пусть непрерывная элементарная (т. е. выраженная в элементарных функциях) функция у = f(x), заданная на отрезке [а, Ь], ограничена снизу и сверху числами с и С соответственно, и необходимо вычис- ъ лить определенный интеграл §f(x)dx. Поскольку линейные замены а и = (х — а)/(Ъ — а) и v = (у — с)/(С — с) приводят к интегрирова- интегрированию функции, заданной на отрезке [0, 1] и ограниченной снизу нулем и сверху единицей, то в дальнейшем будем считать, что а = О, Ъ = 1 и 0< f(x) < 1. 1 Для вычисления определенного интеграла jf(x)dx, как должно о быть известно читателю, необходимо сначала найти какую-либо пер- первообразную F(x) функции f(x) и затем воспользоваться формулой 1 Ньютона-Лейбница, согласно которой j f(x) dx = F(\) — F@). о Однако хорошо известно и то, что интеграл далеко не от всякой элементарной функции f(x) может быть выражен также в элемен-
64 Гл. 4. Схема Бернулли тарных функциях. Тем не менее к настоящему времени разработаны методы приближенного численного интегрирования (простейшими из них являются формулы трапеций и Симпсона), для применения кото- которых нужно вычислить значения функции f(x) в определенных точках х\,..., хт (узлах интегрирования) и затем сложить полученные резуль- результаты с некоторыми весовыми коэффициентами. Обычно для достиже- достижения требуемой точности достаточно взять весьма небольшое число т узлов интегрирования. Пусть, например, т = 10. Тогда, даже если f(x) задается сложным аналитическим выражением, современная ЭВМ легко справится с поставленной задачей и почти мгновенно подсчитает значение определенного интеграла. Усложним задачу и предположим, что нужно вычислить /с-крат- ный интеграл J* • • • J /(#ь • • • Д^) dx\ .. .dxk, где f(x\,... ,Хк) так- же заключена между 0 и 1. Теперь уже для применения численных методов необходимо взять т узлов интегрирования хц,... ,Xim для каждой переменной интегрирования Xi (i = 1,..., к) и найти значения функции f(x\,..., Хк) для всех комбинаций x\jx,..., хщк (общих узлов интегрирования). Поскольку х^г для каждого г может принимать т различных значений, то всего общих узлов интегрирования будет тк. В частности, если т = 10, то для вычисле- вычисления 10-кратного интеграла необходимо подсчи- подсчитать значения f(x\,... ,х\о) в 1010 точках, что представляет собой уже весьма трудоемкую зада- задачу даже для самых современных ЭВМ. \/ v '/У //. Попробуем теперь решить те же самые зада- [---'У /У /У" ^ чи, привлекая вероятностные соображения. Для () I J ' этого снова вернемся к однократному интегралу 1 Рис- 1 J f(x)dx и вспомним, что геометрически он пред- о ставляет собой площадь области А, ограниченной графиком функции f(x) (рис. 1). Проведем опыт, заключающийся в бросании случайным образом (т. е. в соответствии с принципом геометрической вероятности) двух точек на отрезок [0, 1]. Обозначим координату одной из них через ?, а другой — через г] и отложим ? и г] по осям абсцисс и ординат со- соответственно (см. рис. 1). Проверим выполнение неравенства г] < /(?). Справедливость этого неравенства означает, что точка (?, rj) попала в область А. Но в соответствии с принципом геометрической вероятно- вероятности вероятность Р(А) попадания точки (?, rj) в область А есть отноше- 1 ние площади А к площади единичного квадрата, т. е. Р(А) = J f(x) dx. о Повторим описанный выше опыт п раз и по результатам наблюде- наблюдений определим частоту / = па/п появления события А, т. е. попадания точки (?, г]) в область А. Поскольку по теореме Бернулли частота /
6. Вычисление определенных интегралов методом Монте-Карло 65 с ростом п стремится к вероятности Р(А), то, подставляя вместо вероятности Р(А) ее значение, получаем приближенное равенство которое и служит для оценки интеграла по результатам случайных испытаний. Описанный метод приближенного вычисления определенного ин- интеграла носит название метода статистических испытаний или метода Монте-Карло (город Монте-Карло — место сосредоточения всемирно известных игорных домов). Название «метод Монте-Карло» связано с тем, что проводимые испытания очень напоминают подбра- подбрасывание монеты, бросание игральной кости или игру в рулетку. Имеется существенное качественное различие между погрешностя- погрешностями, возникающими при применении методов численного интегрирова- интегрирования и метода Монте-Карло. В первом случае при выполнении соответ- соответствующих условий можно дать гарантированную оценку точности, т. е. указать достоверные границы, в которых обязательно будет заключено истинное значение вычисляемого интеграла. Во втором случае гаранти- гарантированную оценку нельзя дать в принципе, а можно сказать только, что отклонение значения интеграла, вычисленного методом Монте-Карло, от истинного значения этого же интеграла не превосходит некоторой величины с определенной вероятностью. Для определения количественного значения погрешности при при- применении метода Монте-Карло обычно пользуются интегральной фор- формулой Муавра-Лапласа. Пусть истинное значение интеграла 1 f(x)dx = P(A)=p. о Тогда для заданного г событие {приближенное значение / = па/п интеграла удовлетворяет неравенству |/ — р\ < г} совпадает с событием {число успехов п в схеме Бернулли с вероятностью успеха р удовле- удовлетворяет неравенству \па — пр\ < гп} или, что то же самое, с событием {число успехов па заключено в пределах от пр — гп до пр + гп}. Воспользовавшись теперь интегральной формулой Муавра-Лапласа, 1 получаем, что вероятность р? того, что значение интеграла J f(x)dx, о вычисленного методом Монте-Карло, отличается от истинного значе- значения р этого интеграла не более чем на г, задается выражением р 3 П. П. Бочаров, А. В. Печинкин — -Ф -eJ— =2Ф0[eJ— . ) \ ) \ )
66 Гл. 4. Схема Бернулли Из последней формулы видно, что если мы хотим уменьшить погреш- погрешность г в а раз с сохранением той же вероятности р?, то мы должны произвести в а2 раз больше опытов (см. пример 8). При вычислении вероятности р? часто возникает затруднение, свя- связанное с тем, что значение р нам неизвестно. В этом случае обычно идут двумя путями. Первый путь заключается в том, что величина pq заменяется ее верхней оценкой 1/4. Второй путь состоит в замене в формуле для р? вероятности р ее приближенным значением /. Более точную оценку погрешности при применении метода Монте- Карло можно получить на основе результатов математической стати- статистики (раздел «Доверительные интервалы»). Метод Монте-Карло очевидным образом переносится и на тот слу- случай, когда нужно вычислить /с-кратный интеграл f(xu...,xk) dxx ...dxk. Единственное отличие заключается в том, что на отрезок [0, 1] необ- необходимо бросать уже не две, а к + 1 точек ?ь...,?ь?7 и проверять выполнение неравенства г] < /(?ь ...,?&). Все остальные результаты, в том числе окончательное выражение J...J f(x\,...,Xk) dx\...dxk~ f = ПА п для приближенного значения интеграла и формула для оценки вероят- вероятности р? погрешности, полностью сохраняются и в этом случае. Естественно, возникает вопрос: в каких случаях следует приме- применять методы численного интегрирования, а в каких — метод Мон- Монте-Карло? Для этого вернемся к началу параграфа и снова предполо- предположим, что для достижения заданной точности вычисления однократного интеграла необходимо взять т = 10 узлов интегрирования Xi, т.е. фактически произвести 10 «обобщенных» операций, состоящих в опре- определении f(xi). Опыт показывает (см. также пример 8), что для дости- достижения аналогичной точности методом Монте-Карло требуются десятки, а то и сотни тысяч испытаний. Пусть для определенности необходимое число испытаний п = 105. Поскольку, как правило, основное время при вычислениях занимает нахождение значения /(?), то трудоемкость метода Монте-Карло оценивается 105 «обобщенными» операциями, т.е. метод Монте-Карло существенно уступает численным методам. Перей- Перейдем к вычислению интеграла кратности к. Тогда, как мы уже говорили, при применении численных методов трудоемкость вычислений составит уже \0к операций. Однако использование метода Монте-Карло ведет лишь к незначительному увеличению трудоемкости. В частности, при вычислении 5-кратного интеграла трудоемкость обоих методов прак- практически совпадает, а при вычислении интегралов большей кратности
7. Полиномиальная схема 67 численные методы уже начинают проигрывать методу Монте-Карло, причем тем больше, чем больше кратность интеграла. Резюмируя изложенное выше, можно сказать, что применение ме- метода Монте-Карло оправдано только при вычислении кратных интегра- интегралов, причем в случае большой кратности метод Монте-Карло просто не имеет конкурентов со стороны методов численного интегрирования. К достоинствам метода Монте-Карло можно отнести и то, что погрешность при вычислении интеграла с его помощью вообще не зависит от свойств гладкости функции f(x), в то время как для полу- получения заданной точности при численном интегрировании необходимо выполнение ограничений на производные функции f(x). В частности, метод Монте-Карло с одинаковым успехом применим для интегрирова- интегрирования как непрерывных функций, так и функций, терпящих разрывы. Конечно, при вычислении интегралов методом Монте-Карло никто не производит физического бросания точки на отрезок. Для этой цели служат специальные программы или датчики случайных или, точнее говоря, «псевдослучайных» чисел. Следует обратить внимание на то, что метод Монте-Карло не позволяет беспредельно уменьшать погрешность вычислений. И дело здесь даже не в том, что необходимо проводить очень большое число испытаний. «Псевдослучайные» числа, как вытекает из их названия, не удовлетворяют полностью свойству случайности. Поэтому, прежде чем использовать какой-либо датчик «псевдослучайных» чисел, обычно производят многочисленные проверки (на отсутствие периодичности, на равномерность, на независимость и т.д.) с помощью различных критериев. Однако даже выдержавшие самые строгие проверки дат- датчики генерируют числа, которые не могут быть отнесены к разряду «случайных» в полном смысле этого слова. 7. Полиномиальная схема В заключение скажем несколько слов о так называемой полиноми- полиномиальной схеме. Если схема Бернулли интерпретируется как подбрасыва- подбрасывание несимметричной монеты, то полиномиальную схему можно тракто- трактовать как обобщение статистики Максвелла-Больцмана на тот случай, когда вероятности попадания каждой частицы в различные ячейки неодинаковы. Итак, предположим, что опыт состоит из п независимых одинаковых испытаний, в каждом из которых может произойти одно и только одно из т несовместных событий А\,... ,Ат, причем собы- событие Ai наступает с вероятностью щ. Тогда вероятность Р(п\,... ,пт) того, что в п испытаниях событие А\ произойдет ровно щ раз, событие Ат произойдет ровно пт раз (п\ + ... + пт = п), определяется выражением
68 Гл. 4. Схема Бернулли Последняя формула носит название полиномиального распределе- распределения. Ее вывод аналогичен выводу формулы Бернулли с учетом ком- комбинаторных соотношений, используемых при рассмотрении статистики Максвелла-Больцмана, и любознательный читатель вполне может про- провести его самостоятельно. Полиномиальную вероятность Р(п\,... ,пт) можно получить также как коэффициент при х^1 ...х7^1 в разложении полинома (р\х\ + ...+ РтХт)п в ряд по степеням х\,... ,хт. Полиномиальная схема обладает теми же предельными свойствами, что и схема Бернулли. Так, если устремить п к бесконечности, то вероятность Р(п\,... ,пт) приближенно вычисляется с помощью так называемой многомерной нормальной плотности. Вводя в рассмотрение вектор (/i,..., fm) наблюденных частот появлений событий А\,..., Ат, можно доказать, что при большом числе испытаний п этот вектор мало отличается от вектора вероятностей (рь ... ,рт). Пример 9. В магазине висит 1 костюм второго роста, 2 костюма тре- третьего роста, 3 костюма четвертого роста. Костюм второго роста спрашивается с вероятностью 0,2, костюм третьего роста — с вероятностью 0,3, костюм четвертого роста — с вероятностью 0,5. В магазин обратились 3 покупателя. Найдем вероятность того, что хотя бы один из них ушел без покупки (событие А). Представим событие А в виде суммы несовместных событий: А = Аш + А2ю + ^201 + АОзо, где Aijk означает, что i покупателей спросили костюм второго роста, j — третьего роста и к — четвертого. Воспользовавшись теперь полиномиальным распределением, получаем Р(А) = РC,0,0) + РB, 1,0) + РB,0, 1) + Р@, 3,0) = Таким образом, искомая вероятность Р(А) = 0,131. ?
Глава 5 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ РАСПРЕДЕЛЕНИЯ В предыдущих главах мы рассмотрели аксиоматическое построение веро- вероятностного пространства (О, 03, Р), а также разобрали некоторые простейшие вероятностные схемы. Однако теория вероятностей не достигла бы такого расцвета и не была бы столь широко используема на практике, если бы занималась только лишь случайными событиями. Возвращаясь к истокам воз- возникновения теории вероятностей, вспомним, что уже в азартных играх интерес играющих вызывает не наступление случайного исхода, а связанный с ним выигрыш или проигрыш, т. е. определенная числовая величина, поставленная в соответствие этому исходу. Вполне естественно такую числовую величину назвать случайной величиной. Изучением последнего понятия мы сейчас и зай- займемся. 1. Случайная величина Рассмотрим вероятностное пространство (О,53,Р), т.е. простран- пространство элементарных исходов О, сг-алгебру событий 53 из О и определен- определенную на ней вероятность Р. Случайной величиной ? называется функция, ставящая в соот- соответствие каждому элементарному исходу ио число ? = ?(о;). Для того чтобы такое определение было математически корректным, необходи- необходимо добавить следующее требование: для любого числа х множество {ио: ?(о;) < х} элементарных исходов ио, для которых ^{ио) < х, явля- является событием, или, иными словами, принадлежит сг-алгебре 53 (это свойство носит название измеримости функции ? = ?(и) относительно сг-алгебры 53). Таким образом, с точки зрения функционального анали- анализа случайная величина представляет собой не что иное, как обычную числовую функцию, заданную на пространстве элементарных исхо- исходов п (и измеримую относительно сг-алгебры 53). Специфика теории вероятностей проявляется в том, что на О задана также вероятность Р. Случайные величины будем обозначать греческими буквами, снабжая их при необходимости индексами: ?, щ, ^ и т.д. Для краткости условимся в дальнейшем вместо записи {со: ?(ш) < < х} использовать запись {?,(оо) < х}, если необходимо подчеркнуть связь случайной величины с пространством элементарных исходов О, или даже запись {? < х}, если не акцентируется внимание на этой связи.
70 Гл. 5. Случайные величины и их распределения Пример 1. Два игрока играют в «орлянку» на следующих условиях: если при подбрасывании монеты выпадает «герб», то первый игрок платит второму 1 руб., если «цифра», то второй игрок платит первому 2 руб. Опишем случайную величину ?, равную выигрышу первого игрока в этой игре (при одном подбрасывании монеты). Как мы знаем, пространство элементарных исходов О состоит из двух исходов: ш\ — выпадение «герба» и и2 — «цифры», сг-алгебра событий 03 насчитывает 4 события: 0, {оо\}, {с^} и О. Предполагая, что монета симметричная, найдем вероятности всех событий из 03: Р@) = 0, P(cji) = Р(^2) = 1/2, Р(О) = 1. Итак, вероятностное пространство (О, 53, Р) нами определено. Осталось заметить, что случайная величина ? принимает значение —1, если выпал «герб» (?(ол) = — 1), и 2, если выпала «цифра» (?(ct;2) = 2). Измеримость функции ?(и) очевидна, поскольку при х < — 1 множество {^(оо) < х} является невозможным событием 0, при —1 < х < 2 множество {?(о;) < ж} состоит из элементарного исхода ил и, наконец, при х > 2 множество {?(о;) < ж} состоит из двух исходов ил и U2, т. е. представляет собой достоверное событие О. ? Пример 2. Рассмотрим схему Бернулли с вероятностью успеха р. Сопо- Сопоставим каждому элементарному исходу и =УНН...У функцию /i(u;), равную числу успехов при этом исходе, т. е. числу букв У, содержащихся в последова- последовательности УНН.. .У. Измеримость функции n(uf) проверяется точно так же, как в предыдущем примере. Таким образом, \i — случайная величина. Отметим, что значения \i(uS) совпадают для тех элементарных исходов и, при которых произошло одинаковое число успехов. ? Пример 3. Случайными величинами будут число очков, выпавших при бросании игральной кости, а также суммарные числа очков, выпавших при бросании двух, трех и более костей. Советуем читателю для этого примера самостоятельно построить пространство элементарных исходов О, сг-алгебру 03, вероятность Ри определить случайную величину ?. ? Пример 4. На отрезок [0, 1] в соответствии с принципом геометрической вероятности падает идеальная точка. Пусть ?(и;) = и — координата ее падения. Пространство элементарных исходов О в данном случае совпадает с отрезком [0, 1], сг-алгебра 03 является борелевской (порожденной всевозможными ин- интервалами) сг-алгеброй на этом отрезке, а вероятность попадания на каждый интервал внутри отрезка [0, 1] равна его длине. Измеримость функции ?(о;) вытекает из того, что множество {?(о;) < х} при х ^ 0 пусто, при 0 < х ^ 1 совпадает с интервалом [0, ж) (а все интервалы, как мы знаем, принадлежат борелевской сг-алгебре) и, наконец, при х > 1 совпадает со всем отрезком [0,1], т.е. является достоверным событием. Таким образом, ? — случайная величина. Отметим, что в этом примере мы имеем дело с интересным явлением: значение случайной величины ? = ?(о;) для каждого элементарного исхода и совпадает с самим этим исходом (в данном случае, наверное, лучше было бы сказать с «номером» этого исхода). Оказывается, такая ситуация встречается очень часто и связано это с тем, что, как правило, исследователь наблюдает именно случайную величину и, значит, для него понятие «элементарный исход» отождествлено с понятием «значение случайной величины». ? Пример 5. На плоский экран падает частица. Будем считать, что нам известна вероятность попадания частицы в каждое (измеримое) множество на экране. Случайными величинами в данном случае будут, например, расстояние
2. Функция распределения случайной величины 71 от центра экрана до точки падения, квадрат этого расстояния, угол в полярной системе координат и т. д. ? Прежде чем перейти к дальнейшему изучению случайных величин, отметим, что все известные из курса математического анализа функ- функции, как и вообще все функции, встречающиеся в реальной жизни, являются измеримыми. Поэтому в дальнейшем понятие измеримости мы нигде больше использовать не будем. 2. Функция распределения случайной величины Функцией распределения {вероятностей) случайной величины ? называется функция F(x), значение которой в точке х равно вероят- вероятности события {? < х}, т. е. события, состоящего из тех и только тех элементарных исходов и, для которых ?(и) < х: F(x) = Р{? < х}. Обычно говорят, что значение функции распределения в точке х рав- равно вероятности случайной величине ? принять значение, меньшее х. Правда, в таком определении имеется маленькая стилистическая неточ- неточность, связанная с тем, что слово «вероятность» мы обязаны употреб- употреблять только вместе со словом «событие». Выведем некоторые очевидные свойства функции распределения. Так как, по определению, функция распределения является вероятно- вероятностью, то 1. O^F(x) < 1. Далее, если х\ < Х2, то событие {? < х\} принадлежит событию {? < %2} и> значит, 2. F(x\) ^ F(x2) при х\ < Х2 (F(x) — неубывающая функция). Положим F(-oo) = lim F{x) и F(+oo) = lim F(x). x^ — 00 ж^оо Поскольку событие {? < —oo} является невозможным, а {? < оо} — достоверным, то имеем 3. F(-oo)=0, F(oo) = 1. Событие {? < Х2} при х\ < Х2 представляет собой объединение двух непересекающихся событий: Ц < х\} — случайная величина ? приня- приняла значение, меньшее х\, и {х\ ^ ? < Х2} — случайная величина ? приняла значение, лежащее в интервале [х\,Х2). Поэтому из аксиомы сложения получаем 4. ?{xi < ? < х2} = F(x2) - F(x\).
72 Гл. 5. Случайные величины и их распределения Наконец, пусть х\,... ,хп,... — возрастающая последовательность чисел, сходящаяся к х. Тогда событие А = {? < х} является счетным объединением несовместных событий т. е. В силу расширенной аксиомы сложения Р(А) = P(Ai) + Р(А2) + ... + Р(Ап) + ...= = F(Xi) + [F(x2) -F(Xl)} + ... + [F(xn) -F(arn_,)] + ... = = lim F(xr n^oo Следовательно, 5. F(x) = F(x — 0) (F(x) — непрерывная слева функция). Типичный вид функции распределения приведен на рис. 1. Fir) 1 О Рис. 1 Заметим, что, зная функцию распределения F(x), можно однознач- однозначно определить вероятность попадания случайной величины ? не только на интервал [х\,Х2), но и в любое измеримое (борелевское) множество на прямой. Итак, с любой случайной величиной связана ее функция распре- распределения. Отметим, что справедливо и обратное. Любая неубываю- неубывающая непрерывная слева функция F(x), удовлетворяющая условиям F(—оо) = 0 и .F(oo) = 1, является функцией распределения некоторой случайной величины ?. Действительно, можно рассмотреть падение идеальной точки на прямую (—оо,оо), которая в этом случае принима- принимается в качестве пространства элементарных исходов (см. также пример 22 в гл. 1). Поставим в соответствие каждому событию, заключающе- заключающемуся в том, что точка попала на интервал (—оо,ж) на прямой, число Fix), а событию, заключающемуся в попадании точки на интервал [#ь#2)> ~~ число F(x2) — F(x\). Определенная таким образом для всех событий, связанных с попаданием точки на интервал [х\,Х2), числовая функция будет удовлетворять трем аксиомам вероятности. Для любых
2. Функция распределения случайной величины 73 других событий, составляющих сг-алгебру борелевских множеств на прямой, вероятность определяется единственным образом с помощью теоремы о продолжении меры. Если теперь взять в качестве случайной величины ? координату падения, т. е. положить ?(и) = ио, то F(x) будет являться функцией распределения ?. В дальнейшем иногда для того, чтобы подчеркнуть, какой именно случайной величине принадлежит функция распределения F(x), будем к функции распределения приписывать нижний индекс, обозначающий эту случайную величину: F^(x) = Р{? < х}. В некоторых учебниках функцией распределения называют вероят- вероятность события {? < х}. Такое определение ничего не меняет в наших рассуждениях. Единственное изменение касается свойства 5: функция F(x) будет непрерывна справа. Обычно (и мы будем также придерживаться этой традиции) для того, чтобы избежать сложного для неподготовленного читателя по- понятия интеграла Стилтьеса, при знакомстве с теорией вероятностей ограничиваются изучением так называемых дискретных и непрерывных случайных величин. Дискретную случайную величину вкратце можно охарактеризовать как случайную величину, все возможные значения которой можно пересчитать. В свою очередь, для непрерывной случай- случайной величины вероятность попадания на «малый» интервал [х, х + А) приближенно пропорциональна длине этого интервала А с коэффици- коэффициентом пропорциональности р(х), зависящим от х и носящим название плотности распределения. Однако существуют случайные величины, не относящиеся ни к од- одному из этих двух типов. Простейшим примером такой случайной величины является время работы электрической лампочки. Купленная лампочка может с ненулевой вероятностью оказаться бракованной, т. е. время ее работы будет равно нулю, и в этом смысле его необходимо отнести к дискретным случайным величинам. Если же лампочка ока- окажется исправной, то мы не сможем пересчитать все моменты времени, в которые она может отказать, и тогда время ее безотказной работы естественно считать непрерывной случайной величиной. Для данного примера можно сказать, что мы имеем дело со «смесью» дискретной и непрерывной случайных величин. Существуют и более сложные примеры, в которых случайные вели- величины уже не являются «смесью» дискретной и непрерывной компонент, но с точки зрения практики эти примеры представляют собой матема- математическую абстракцию. Часто поведение случайной величины удобно характеризовать не с помощью функции распределения, а как-то иначе. Если при этом возможно однозначно восстановить функцию распределения, то такая характеристика называется законом распределения (или просто рас- распределением) случайной величины. Примерами законов распределения являются ряд распределения и плотность распределения, которые мы рассмотрим в следующих параграфах.
74 Гл. 5. Случайные величины и их распределения 3. Дискретные случайные величины Как уже говорилось, дискретной называется случайная величина, которая каждому элементарному исходу uj ставит в соответствие одно из конечного (или в общем случае счетного) набора чисел Х\, Х2,..., Хп (Х\, Х2,..., Хп,...). Дискретную случайную величину удобно характеризовать рядом распределения. Рядом распределения (вероятностей) дискретной случайной ве- величины называется таблица (табл. 1), состоящая из двух строк: в верх- верхней строке перечислены все возможные значения случайной величины, а в нижней — вероятности pi = Р{? = Xi} того, что случайная вели- величина примет эти значения. Таблица 1 р хх Р\ х2 Р2 Хг Pi хп Рп Иногда для того, чтобы подчеркнуть, что ряд распределения от- относится именно к случайной величине ?, будем наряду с записью pi употреблять запись р^. Рассмотрим некоторые наиболее часто встречающиеся на практике распределения дискретных случайных величин. Биномиальное распределение. Дискретная случайная величина fi распределена по биномиальному закону, если она принимает значе- значения 0, 1, 2,..., п в соответствии с рядом распределения, представлен- представленным в табл. 2, где 0 < р, q < 1 и р -\- q = 1. Таблица 2 р 0 qn 1 г ('•>v- п Рп Биномиальное распределение является не чем иным, как распре- распределением числа успехов /i в п испытаниях Бернулли с вероятностью успеха р и неудачи q = 1 — р (см. пример 2). Пуассоновское распределение. Дискретная случайная величина ? распределена по закону Пуассона, если она принимает целые неотри- неотрицательные значения с вероятностями, представленными рядом распре- распределения в табл. 3, где Л > 0 — параметр пуассоновского распределения. С распределением Пуассона мы тоже уже встречались в предель- предельной теореме Пуассона. Распределение Пуассона носит также название закона редких событий, поскольку оно всегда появляется там, где производится большое число испытаний, в каждом из которых с ма-
3. Дискретные случайные величины 75 р 0 е"л 1 Ле"л Л2 2! 2 Лп Таблица п 3 лой вероятностью происходит «редкое» событие. По закону Пуассона распределены, например, число вызовов, поступивших на телефонную станцию; число метеоритов, упавших в определенном районе; число распавшихся нестабильных частиц и т. д. Геометрическое распределение. Снова рассмотрим схему Бернул- ли. Пусть ? — число испытаний, которое необходимо провести, прежде чем появится первый успех. Тогда ? — дискретная случайная величи- величина, принимающая значения 0, 1, 2,..., п,... Определим вероятность события {? = п}. Очевидно, что ? = О, если в первом же испытании произойдет успех. Поэтому Р{? = 0} = р. Далее, ? = 1 в том слу- случае, когда в первом испытании произошла неудача, а во втором — успех. Но вероятность такого события, как мы знаем, равна qp, т. е. Р{? = 1} = qp. Аналогично, ? = 2, если в первых двух испытаниях произошли неудачи, а в третьем — успех, и, значит, Р{? = 2} = qqp. Продолжая эту процедуру, получаем ряд распределения, представлен- представленный в табл. 4. Таблица 4 р 0 р 1 qp 2 q2p п Случайная величина с таким рядом распределения называется рас- распределенной по геометрическому закону. Покажем теперь, как по ряду распределения дискретной случайной величины построить ее функцию распределения F(x). Пусть ? — дискретная случайная величина, заданная своим рядом распределе- распределения, причем значения Х\, Х2,..., Хп расположены в порядке возрас- возрастания. Тогда для всех х ^ Х\ событие {? < х} является невозможным и поэтому в соответствии с определением F(x) = 0 (рис. 2). Если '"_' "Г" Р А", ... -, / Л": + /':«( » 1— :? ^ Рис I # 2 .. /^
76 Гл. 5. Случайные величины и их распределения Х\ < х < Х2, то событие {? < х} состоит из тех и только тех элемен- элементарных исходов и;, для которых ?(о;) = Х\, и, следовательно, F(x) = р\. Аналогично, при Х2 < х ^ Х$ событие {? < х} состоит из тех эле- элементарных исходов и, для которых либо ?(о;) = Х\, либо ?(о;) = Х2, т. е. {?, < х} = {{; = Х\} -\- {{; = Х2}, а, значит, F(x) = р\ + р2 и т. д. Наконец, при х > Хп событие {? < х} достоверно и F(x) = 1. Та- Таким образом, функция распределения дискретной случайной величины является кусочно-постоянной функцией, принимающей на интервале (—оо, Xi] значение 0, на интервалах (Xi,Xi+\] A < г < п) — значение р\ + ... -\-pi и на интервале (Хп,оо) — значение 1. Пример 6. На зачете студент получил п = 4 задачи. Вероятность решить правильно каждую задачу р = 0,8. Определим ряд распределения и построим функцию распределения случайной величины ц — числа правильно решенных задач. В данном случае мы имеем дело с биномиальным законом. Подставляя в ряд распределения, заданный табл. 2, п = 4, р = 0,8 и q = 0,2, получаем ряд распределения и функцию распределения, представленные в табл. 5 и на рис. 3. ? Таблица 5 р 0 0,0016 1 0,0256 2 0,1536 3 0,4096 4 0,4096 П.г) Рис. 3 Пример 7. Вероятность получить заданный эффект в физическом опы- опыте р = 0,4. Определим ряд распределения и построим функцию распределе- распределения случайной величины ?, равной числу «пустых» опытов, которые должен произвести экспериментатор, прежде чем он получит необходимый эффект. Случайная величина ? распределена по геометрическому закону. Поэтому, воспользовавшись табл. 4, имеем ряд распределения и функцию распределения, представленные в табл. 6 и на рис. 4. ? Таблица 6 р 0 0,4 1 0,24 2 0,144 3 0,0864
4. Непрерывные случайные величины 11 Fix Рис. 4 Пример 8. Выпишем ряд распределения случайной величины ? — чис- числа угаданных номеров в «Спортлото б из 49». Как мы знаем (см. при- пример 7 в гл. 2), число угаданных номеров распределено по гипергеометриче- гипергеометрическому закону. В этом же примере были найдены р3 = Р{? = 3} = Р(А3), Р4 = Р{? = 4} = Р(А4}, р5 = Р{? = 5} = Р(А5} и р6 = Р{? = 6} = Р(Л). Аналогично определяются и вероятности ро = Р{? = 0} — не угадать ни одного номера, р\ = Р{? = 1} — угадать ровно один номер и р2 = Р{? = 2} — угадать ровно два номера: 43Л -^ ^ 0,4360, 6\ /43^ 1 / V 5 j ^0,4130, ;х 43 > ^ 0,1324. Таблица 7 р 0 0,4360 1 0,4130 2 0,1324 3 0,0176 4 0,00097 5 2- 10~5 6 1-\0~8 Окончательно получаем ряд распределения, представленный в табл. 7. ? 4. Непрерывные случайные величины Непрерывной называется случайная величина ?, функцию рас- распределения которой F(x) можно представить в виде F(x)= p{y)dy. Функция р(х) называется плотностью распределения (вероятно- (вероятностей) случайной величины ?. Так же, как и прежде, иногда для того, чтобы подчеркнуть принадлежность плотности распределения случай- случайной величине ?, будем наряду с записью р(х) употреблять запись р$(х). Отметим, что все реально встречающиеся плотности распределения яв- являются непрерывными (за исключением, быть может, конечного числа
78 Гл. 5. Случайные величины и их распределения точек) функциями и, следова- следовательно, для них плотность распределения р(х) представля- представляет собой производную функ- функции распределения F(x), т.е. р(х) = F'(x). Для простоты изло- изложения в дальнейшем будем рас- рассматривать только такие плотно- плотности распределения. Типичный вид плотности распределения изобра- изображен на рис. 5. Выведем простейшие свойства плотности распределения. Поскольку плотность распределения является производной от функ- функции распределения, а функция распределения — неубывающая диффе- дифференцируемая функция, то Рис.5 Далее, Р{х\ ^ ? < х^\ = F(x2) — F(x\). Значит, в силу определения непрерывной случайной величины 2. = \p(y)dy. хх Таким образом, вероятность попадания случайной величины на интер- интервал [х\,Х2) численно равна площади криволинейной трапеции, заштри- заштрихованной на рис. 5. В частности, если х\ = —оо, х% = оо, то событие {—оо < ? < оо} является достоверным, и поэтому сю 3. [ p(x)dx = 1. Иными словами, площадь, целиком заключенная под всей кривой, изображающей плотность распределения, равна единице. Наконец, часто бывает полезна следующая трактовка плотности распределения. Как видно из рис. 5, если А мало, то вероятность попадания на интервал [х, х + А) приближенно совпадает с площадью прямоугольника со сторонами А и р(х). Значит, с точностью до о(Д) 4. ?{х < ? < х + А} « р(х)А. Отсюда, в частности, следует, что 5. Р{? = х} = О, т. е. вероятность попадания в любую (заданную до опыта) точку для непрерывной случайной величины равна нулю. Здесь снова возникает кажущееся логическое противоречие: до опыта каждому возможному значению непрерывной случайной величины мы можем приписать толь- только вероятность, равную нулю, однако после опыта случайная величина все же принимает некоторое значение. Решение этого противоречия
4. Непрерывные случайные величины 79 опять связано с непрерывной структурой числовой прямой. Для того чтобы гарантировать ненулевую вероятность попадания в некоторое подмножество прямой, необходимо, чтобы это подмножество содержало более чем конечное и даже более чем счетное число точек. Из свой- свойства 5 вытекает также, что в свойствах 2 и 4 знак ^ можно заменить на знак строгого неравенства <. Например, свойство 2 можно переписать в виде 2'. = \p(y)dy. Рассмотрим некоторые наиболее важные распределения непрерыв- непрерывных случайных величин. Равномерное распределение. Равномерно распределенная на от- отрезке [а, Ь] случайная величина имеет плотность распределения р(х) = , если а ^ х если х < а или х > Ь. Легко видеть, что функция распределения в этом случае определяется выражением О, если х < а, F(x) = ¦, если а ^ х ^ Ь, Ъ-а 1, если х > Ъ. Графики плотности распределения р(х) и функции распределения F(x) приведены на рис. 6 и рис. 7. О Ь Рис. 6 О h Рис.7 Вероятность попадания равномерно распределенной случайной ве- величины на интервал (х\,Х2), лежащий внутри отрезка [а, Ь], равна F(x2) — F(x\) = (х2 — х\)/(Ъ — а), т.е. пропорциональна длине этого интервала. Таким образом, равномерное распределение реализует прин- принцип геометрической вероятности при бросании точки на отрезок [а, Ь].
80 Гл. 5. Случайные величины и их распределения Заметим, что в примере 4 случайная величина ? равномерно распреде- распределена на отрезке [0, 1]. Экспоненциальное распределение. Случайная величина подчи- подчиняется экспоненциальному (показательному) закону, если она имеет плотность распределения р(х) = Г о, если х < 0, Ле Хх, если х ^ 0, где Л > 0 — параметр экспоненциального распределения. Для функции распределения в данном случае нетрудно получить следующее выра- выражение: j О, если х < О, 1 1 — е~Хх, если х ^ 0. Графики плотности распределения и функции распределения экспо- экспоненциальной случайной величины приведены на рис. 8 и рис. 9. FU) О т» г Рис. 8 О У» Г Рис. 9 Экспоненциально распределенная случайная величина может при- принимать только положительные значения. Экспоненциальному распре- распределению подчинено время распада атомов различных элементов. При этом число Т = 1/А носит название среднего времени распада. Кро- Кроме того, употребляют также число То = 1п2/Л, называемое периодом полураспада. Название «период полураспада» основано на следующем физическом соображении. Пусть у нас первоначально имелось п атомов вещества. Тогда через время То каждый атом распадется с вероятно- вероятностью р = F(T0) = 1 - e~Aln2/A = 1 - 1/2 = 1/2. Поэтому в силу неза- независимости отдельных распадов число распавшихся за время То атомов имеет биномиальное распределение с р = q = 1/2. Но как мы знаем из теоремы Бернулли (см. параграф 5, гл.4), при больших п это число будет примерно равно п/2, т. е. период полураспада То представляет собой не что иное, как время, в течение которого распадается половина имеющегося вещества. Экспоненциально распределенная случайная величина ? облада- обладает весьма важным свойством, которое естественно назвать omcym-
4. Непрерывные случайные величины 81 ствием последействия. Трактуя ? как время распада атома, рас- рассмотрим событие А = {х\ < ? < х\ + х^} и найдем условную вероят- вероятность этого события при условии выполнения события В = {? > х\}. По определению условной вероятности Р(А | В) = Р(АВ)/Р(Б). Но со- событие АВ, как нетрудно видеть, совпадает с событием А. Поэтому Р(А | В) = Р(А)/Р(В). Далее, Р(А) = Р{х{ <?<Ж1 Р(В) = Значит, 9{А | Б) = Мы получили, что вероятность распада атома за время х^ при условии, что перед этим он уже прожил время х\, совпадает с безусловной вероятностью распада того же самого атома за время ж2- Именно это свойство и представляет собой отсутствие последействия. Допуская некоторую вольность речи, отсутствие последействия можно тракто- трактовать как независимость остаточного времени жизни атома от того, сколько он уже прожил. Можно показать и обратное: если случай- случайная величина ? обладает свойством отсутствия последействия, то она обязана иметь экспоненциальное распределение. Таким образом, от- отсутствие последействия является характеристическим свойством экспоненциально распределенных случайных величин. Практика показывает, что экспоненциальное распределение имеют и другие физические величины, например времена между падениями метеоритов в определенный район, времена между соседними поступ- поступлениями вызовов на телефонную станцию и т. д. Экспоненциальное распределение тесно связано с распределением Пуассона, а именно: если времена между последовательными наступлениями некоторого события представляют собой независимые (определение независимости случайных величин будет дано в гл. 6) экспоненциально распреде- распределенные (с одним и тем же параметром Л) случайные величины, то число наступлений этого события за время t распределено по закону Пуассона с параметром At. Отметим также, что дискретным аналогом экспоненциального распределения является геометрическое распреде- распределение. Нормальное распределение. Случайная величина распределена по нормальному, или гауссову, закону, если она имеет плотность распре- распределения (х-тJ (~°° < т < °°> ^ > 0).
82 Гл. 5. Случайные величины и их распределения Нормальное распределение зависит от двух параметров: т — мате- математического ожидания, или среднего значения, нормального закона, и а — среднего квадратичного отклонения. Графики плотности <^m>cr(#) и функции Фт^а(х) нормального распределения в зависимости от т и а приведены на рис. 10 и рис. 11. ш = fT = = 11 1 \ lit = fT = : 1 ¦> -2 -1 Г/ 1 2 :] -г Рис. 10 -2 -1 О" 1 2 Рис. 11 Как видно из этих рисунков, параметр т определяет положение центра плотности нормального распределения, а а — разброс отно- относительно центра. Если т = 0, а = 1, то такой нормальный закон называется стандартным и его функция распределения обозначается через Ф(х). С плотностью и функцией стандартного нормального рас- распределения мы уже встречались в локальной и интегральной теоремах Муавра-Лапласа. Нормальный закон также очень часто встречается на практике. Как мы увидим в гл. 8, посвященной предельным теоремам, он обычно возникает в явлениях, подверженных действию большого числа малых случайных воздействий. Распределение Вейбулла. Случайная величина распределена по закону Вейбулла, если она имеет плотность распределения р(х) = если х < 0, если х > 0 (а>0, Нетрудно проверить, что функция распределения в этом случае опре- определяется следующим выражением: F(x) = 0, 1-е-с если х < 0, если х ^ 0. Семейство распределений Вейбулла является двухпараметрическим и описывает положительные случайные величины. Графики плотности и функции распределения Вейбулла представлены на рис. 12 и рис. 13. Считается, что распределению Вейбулла подчиняются времена без- безотказной работы многих технических устройств. Если /3 = 1, то рас- распределение Вейбулла превращается в экспоненциальное распределение, а если /3 = 2 — в так называемое распределение Рэлея.
4. Непрерывные случайные величины 83 р\ ,г) \F{.r) Рис. 12 Рис. 13 Гамма-распределение. Другим распределением, также достаточно хорошо описывающим времена безотказной работы различных техни- технических устройств, является гамма-распределение с плотностью распре- распределения р(х) = ГG) если х < О, е~Хх, если х ^ О (Л > 0, 7 > 0)> где ГG) = J х1 хе х dx — гамма-функция Эйлера (следующие свой- о ства гамма-функции являются весьма полезными при изучении гамма- распределения: ГG + 1) = 7^G) и Г(п) = (п — 1)! для целых п). Графики плотности и функции гамма-распределения изображены на рис. 14 и рис. 15. г h_[J2 ( J> //Л = f J о о Рис. 14 Рис. 15 Как видно из рисунков 12-15, распределение Вейбулла и гамма- распределение весьма близки между собой. Основным преимуществом распределения Вейбулла перед гамма-распределением является то, что его функция распределения выражается в явном виде. Поэтому рань- раньше, когда ЭВМ еще не были достаточно распространены, распределе- распределение Вейбулла использовалось гораздо чаще, чем гамма-распределение. Хотя в общем случае гамма-распределение и не выражается в явном виде, оно обладает некоторыми весьма важными свойствами. Так, если 7 = к, т. е. 7 принимает целые значения, то мы получаем распределение
84 Гл. 5. Случайные величины и их распределения Эрланга, находящее важные применения в теории массового обслужи- обслуживания. Если же 7 = к/2 — полуцелое, а Л = 1/2, то гамма-распреде- гамма-распределение превращается в так называемое распределение %2 (хи-квадрат), роль которого в математической статистике невозможно переоценить; параметр к называется в этом случае числом степеней свободы рас- распределения х2. Наконец, при 7 — 1 мы имеем дело все с тем же экс- экспоненциальным распределением. Гамма-распределение имеет и другие интересные особенности, которых мы здесь не будем касаться. 5. Функции от случайной величины Пусть на вероятностном пространстве @,*В, Р) задана случайная величина ? = ?(о;). Возьмем обычную (измеримую) числовую функцию д(х) числового аргумента х. Сопоставляя каждому элементарному ис- исходу и число г)(и) по формуле г)(и) = д (?(ш)), мы получим новую случайную величину rj, которую естественно назвать функцией д(?) от случайной величины ?. Функция г] = д(?) от дискретной случайной величины также яв- является дискретной случайной величиной, поскольку она не может принимать больше значений, чем случайная величина ?. Очевидно, что, если случайная величина ? имеет ряд распределения, представленный в табл. 1, то ряд распределения случайной величины г] = д(?) опреде- определяется табл. 8. Таблица 8 Г] р Pi 9(Х2) Р2 9(Хп) Рп При этом, если в верхней строке табл. 8 появляются одинаковые значения g(Xi), то соответствующие столбцы надо объединить в один, приписав им суммарную вероятность. Пример 9. Снова рассмотрим игру «Спортлото б из 49». Поставив на некоторые фиксированные номера, мы в результате розыгрыша получим слу- случайную величину ? — число угаданных нами номеров (напомним, что про- пространство элементарных исходов состоит из всевозможных сочетаний по б но- номеров из 49), причем каждому элементарному исходу ш в соответствии с прин- принципом классической вероятности сопоставлена вероятность P(uj) = 1 49 (ряд распределения случайной величины ? представлен в табл. 7). Однако сама случайная величина ? нас не интересует, для нас представляет инте- интерес выигрыш, связанный с числом угаданных номеров ?. Рассмотрим идеа- идеализированный вариант игры, при котором, не угадав ни одного или угадав один или два номера, мы проигрываем (с учетом платы за билет) 0,3 руб., угадав 3 номера, получаем выигрыш 2,7 руб., угадав 4 номера — 54,7 руб., 5 номеров — 699,7 руб. и б номеров — 9999,7 руб. Выигрыш rj зависит
5. Функции от случайной величины 85 только лишь от числа угаданных номеров, т. е. представляет собой функцию от случайной величины ?: rj = g(?), причем числовая функция д(х) определена формулами: д@) = д(\) = дB) = -0,3, дC) = 2,7, #D) = 54,7, #E) = 699,7 и дF) = 9999,7. Ряд распределения случайной величины г/ получается из ряда распределения ? (табл.7) заменой в верхней строке чисел г = 0, 1,..., 6 на соответствующие значения д(г) (табл. 9). Таблица 9 Г] р -0,3 0,4360 -0,3 0,4130 -0,3 0,1324 2,7 0,0176 54,7 0,00097 699,7 2- 10~5 9999,7 7-Ю-8 Осталось заметить, что в табл. 9 три первых столбца имеют одинаковые значения г], равные —0,3. Поэтому их надо объединить в один. Окончательный ряд распределения представлен в табл. 10. Г] р -0,3 0,9814 0 2,7 ,0176 0 54,7 ,00097 699,7 2- 10~5 Таблица 9999,7 7-Ю-8 10 Реально при игре в «Спортлото» выигрыш г/ зависит от числа играющих, поставивших на ту или иную комбинацию, и в этом случае его нельзя счи- считать функцией от числа угаданных номеров ?, а необходимо рассматривать более сложную модель, учитывающую вероятности (частоты) использования различных комбинаций номеров. В частности, мы не можем (без обращения к «потусторонним» силам) изменить вероятность угадывания определенного числа номеров, но мы можем увеличить выигрыш, ставя на «непопулярные» комбинации, которые хотя и появляются с той же частотой, что и остальные, но приносят больший выигрыш. Поиск «непопулярных» комбинаций относится к сфере психологии, а не теории вероятностей. ? Функция г] = д(?) от непрерывной случайной величины ? может быть как непрерывной, так и дискретной (дискретной она будет, на- например, если множество значений функции д(х) не более чем счетно). Найдем функцию распределения Fv(x) по заданной плотности рас- распределения р^{х). По самому определению, Frj(x) представляет собой вероятность события {г] < х}, состоящего из тех элементарных исхо- исходов и, для которых g(i(uo)) < x. В свою очередь, вероятность события {д(?(и>)) < х} можно определить, используя аксиому сложения веро- вероятностей, «просуммировав» вероятности всех возможных значений у случайной величины ?, для которых д(у) < х. Поскольку, как мы знаем, вероятность случайной величине ? принять значение в промежутке от у до у + dy приближенно равна p^(y)dy, то, заменяя сумму на интеграл, получаем Fv(x) = J р$(у) dy. д{у)<х
86 Гл. 5. Случайные величины и их распределения Последняя запись означает, что интегрирование производится по всем тем значениям у, для которых д(у) < х. Пример 10. Случайная величина ? распределена по стандартному нор- нормальному закону. Найдем распределение случайной величины г/ = ?2. В данном случае д(у) = у , поэтому Fr,(x) = р$(у) dy = —j= e~y/2dy. У2<х y2<x Поскольку при ж < 0 нет ни одного у, для которого у2 < ж, или, что то же самое, не существует ни одного и, для которого д (?(о;)) < ж, то Fr](x) = 0 при ж < 0. Если же ж > 0, то область {у2 < ж} совпадает с областью {—у/х < у < и, значит, или в силу четности р^( Z7T /5!'.. 0 ,,2 Делая теперь замену z = у , окончательно получаем при х > 0 о Нетрудно видеть, что случайная величина г\ имеет плотность распределения {0, если х < 0, 1 _ /9 р х/ , если ж > 0, л/2^ являющуюся плотностью гамма-распределения с параметрами Л = 1/2, 7 — = 1/2, или, иными словами, г] распределена по закону х2 с одной степенью свободы. Именно как распределение квадрата стандартной нормальной случай- случайной величины и появляется распределение % в математической статистике. ? Особенно просто находится функция распределения случайной величины г] = #(?), если д(х) — монотонно возрастающая функ- функция. В этом случае событие {д (?(о;)) < х} эквивалентно событию {?(<*;) < д~1(х)}, где ^-1(ж) — функция, обратная д(х), и, значит, Fv(x) = Р{д(О <х} = Р{? < д~\х)} = F? (g-\x)). Пример 11. Пусть плотность р(х) распределения случайной величины ? положительна для всех ж. Рассмотрим случайную величину г/ = F(?), где F(x) — функция распределения ?. В силу сделанного предположения F(x) — монотонно возрастающая функция, принимающая значения от 0 до 1, и, еле-
5. Функции от случайной величины 87 довательно, {О, если х < О, F(F-l(x)) =х, если 0 < х < 1, 1, если х > 1. Таким образом, случайная величина г/ распределена равномерно на отрез- отрезке [0,1]. Полученный результат находит широкое применение при моделировании случайных величин с заданной функцией распределения F(x). Дело в том, что практически все используемые в настоящее время датчики случайных (более правильно, «псевдослучайных») чисел инициируют величины г], распределен- распределенные равномерно на отрезке [0, 1]. Тогда, если функция F(x) имеет достаточно просто вычисляемую обратную функцию F~l(x), то, полагая ? = F~l(rj), получаем случайную величину ? с заданной функцией распределения F(x). Отметим, что такой способ может быть применен даже для моделирования некоторых дискретных случайных величин. ? Если же, кроме того, ? — непрерывная случайная величина, а д~1(х) имеет производную (д~1(х)^) , то г\ является также непрерыв- непрерывной и ее плотность распределения определяется с помощью формулы дифференцирования сложной функции: pv{x) = F» = F\ {g-l(x)) {g-\x))'=Pi (g-\x)) (g-\x))'. Случай монотонно убывающей функции д(х) предоставляется разо- разобрать читателю. Пример 12. Случайная величина ? распределена по нормальному закону с параметрами m и а. Найдем распределение случайной величины г] = el В данном примере д(х) = ех, g~l(x) = In ж. В силу свойства экспоненци- экспоненциальной функции случайная величина г] может принимать только положитель- положительные значения. Далее, при х > 0 функция д~1(х) дифференцируема, причем (д~х(х))' = (\пх)' = 1/х. Таким образом, @, если х ^ 0, 1 _{\nx-rnf 7= е 2<т2 , если х > 0. / Распределение с плотностью prj(x) носит название логноршального (поскольку логарифм случайной величины rj распределен по нормальному закону). Двух- параметрическое логнормальное семейство наряду с распределением Вейбулла и гамма-распределением также довольно часто используется при описании времени безотказной работы различных технических устройств. ? Пример 13. Положительная случайная величина ? распределена по экс- экспоненциальному закону с параметром Л = 1/2 (распределение х2 с двумя сте- степенями свободы). Покажите самостоятельно, что случайная величина т\ = у^ имеет распределение Вейбулла с параметрами а = 1/2, /3 = 2 (распределение Рэлея). Воспользуйтесь монотонностью функции д(х) = л/х при х > 0. ?
Гл. 5. Случайные величины и их распределения Часто в дальнейшем нам будут встречаться линейные преобразова- преобразования случайных величин: г] = а? + Ъ (а ф 0). Тогда д(х)=ах + Ь, д~\х) = - , (д~\х))г = - а а и, значит, при а > 0 Пример 14. Случайная величина ? распределена по стандартному нор- нормальному закону. Найдем распределение случайной величины rj = сг? + т (а > 0). Тогда в формулах для линейного преобразования а = а, Ь = m и Итак, из случайной величины ?, распределенной по стандартному нормальному закону, с помощью линейного преобразования rj = сг? + т получается нормаль- нормально распределенная случайная величина с произвольными параметрами т и а. Читателю предоставляем показать обратное: если rj — нормально распре- распределенная случайная величина с параметрами m и сг, то случайная величина ? = (rj — т)/сг распределена по стандартному нормальному закону. Из послед- последнего свойства, в частности, следует т / \ г-чг ч г-ч Г ?7 — т х — тЛ _ Г. х — тЛ ^ {х — т\ ФшАх) = Р{г]<х} = Р\ -!¦ < = Р ? < = Ф ( • Эта формула позволяет вычислять значение функции нормального распределе- распределения Фт>а{х) при любых значениях параметров т и а через значение функции стандартного нормального распределения Ф(ж) и оправдывает тот факт, что во всех справочниках приведены только таблицы значений функции стандартного нормального распределения. ?
Глава 6 МНОГОМЕРНЫЕ СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ИХ СВОЙСТВА Разумеется, на каждом вероятностном пространстве (П,*В,Р), содержащем хотя бы один элементарный исход и, можно определить не одну случайную величину. На практике необходимость учета непредсказуемых воздействий так- также весьма редко приводит к рассмотрению только одной случайной величины. Обычно выделяют несколько случайных компонент и на их основе строят модель исследуемого явления. Классическим примером такого рода, описанным многими великими художниками слова, снова являются азартные игры. Игрок, даже имея самое твердое намерение сыграть только один раз, впадал в азарт (откуда и пошло само название «азартные игры») и, как правило, не уходил из-за игорного стола, пока совсем не разорялся. Здесь суммарный выигрыш игрока состоит из отдельных случайных величин — выигрышей его в каждой партии. Итак, в этой главе мы обобщим результаты предыдущей главы на случай нескольких случайных величин. Естественно, для того чтобы над случайными величинами можно было производить различные действия (сложение, вычи- вычитание, умножение и т.п.), необходимо их задание на одном вероятностном пространстве. 1. Многомерная случайная величина Пусть на одном и том же вероятностном пространстве @,*В, Р) задано п случайных величин ?i = ?i(o;),..., ?n — ?п(^0- Совокупность случайных величин (?i,...,?n) назовем многомерной (п-мерной) слу- случайной величиной или случайным вектором. В дальнейшем для сокращения записи будем пользоваться также обозначением ? = (?i,..., ?п). Пример 1. На скачках, в которых участвуют 2 лошади, п человек заключают пари (между собой, группами и т.д.). Считая, что результат скачек случаен, причем с вероятностью Р(шг) происходит элементарный исход ил {г = 1,2) — к финишу первой пришла лошадь с номером г, получаем, что каж- каждому элементарному исходу ил соответствует вектор (?\(шг),... ,?п(^г)), ком- компонентами которого являются выигрыши 1-го, ..., п-го участников пари. ? Пример 2. Рассмотрим схему Бернулли, состоящую из п испытаний. Каждому элементарному исходу ш = ... поставим в соответствие число /Хг, равное нулю, если в последовательности УНН...У на г-м месте стоит буква Н (в г-м испытании произошла неудача), и единице, если стоит буква У (про- (произошел успех). Тогда случайная величина /Хг есть не что иное, как число успехов в г-м испытании. Совокупность случайных величин (/xi,... ,/хп) пред- представляет собой гг-мерный случайный вектор. Нетрудно видеть, что в данном
90 Гл. 6. Многомерные случайные величины и их свойства случае существует взаимно однозначное соответствие между элементарными исходами ш и значениями случайного вектора (/xi,... ,/хп). Действительно, элементарному исходу и = ... соответствует значение A,0,0,..., 1) случай- случайного вектора (/xi,... ,/хп) и, наоборот, случайный вектор (/xi,... ,/хп) прини- принимает значение A,0,0,..., 1) только для элементарного исхода и = Ясно также, что суммарное число успехов /х в п испытаниях Бернулли (см. при- пример 2 в гл. 5) представляет собой сумму чисел успехов в каждом испыта- испытании: /х = /xi + ... + /хп. ? Пример 3. Двумерной случайной величиной является вектор (?ь?2), гДе ?i — сумма очков, выпавших при бросании двух игральных костей, а ?2 — сумма их квадратов. В этом случае различным элементарным исходам могут соответствовать одинаковые значения случайного вектора (?ь?2)- Например, двум элементарным исходам ш\ = B,3) и оо^ = C,2) соответствует одно и то же значение вектора (?1(^1)» ?2(^1)) — (?1(^2), ?2(^2)) = E,13). ? Пример 4. Двумерными случайными величинами являются декартовы (?ь?г) или полярные G71,772) координаты точки падения частицы на плоский экран (см. пример 5 в гл.5). Случайные величины (?ь?г) и G71,772) связаны соотношениями: ?i = 771 cos 772, ?2 = 771 sin772. ? Пример 5. Широта ?i и долгота ?2 места падения метеорита на Землю представляют собой двумерный случайный вектор (?ь?2)- В эту модель можно ввести также третью координату ?з — время от начала наблюдений до момента падения первого метеорита на Землю ((?ь?2) — координаты падения этого метеорита), если рассматривать процесс, протекающий во времени. ? 2. Совместная функция распределения Функцией распределения (п-мерного) случайного вектора ? = = (?ь ..., ?п) называется функция F(x\,..., хп) = -^?ь...,?те(#ь • • • > %п)> значение которой в точке (х\,... ,хп) равно вероятности совместного осуществления (пересечения) событий {?i < х\}, ..., {?п < хп}, т. е. F(xi,...,xn) =Fsu...?n(xi,...,xn) = P{?i <жь...,?п <хп}. Функцию F(x\,... ,хп) называют также совместной функцией рас- распределения случайных величин ?ь ..., ?п- Для сокращения записи в дальнейшем для функции распределения F(x\,... ,хп) = F?Ummm?n(x\,... ,хп), будем использовать также обозна- обозначения .F(x) и -F§(x). Далее мы будем в основном рассматривать двумерный случай. В большинстве приводимых далее результатов переход от двумерно- двумерного к общему n-мерному случаю не должен вызвать каких-либо труд- трудностей, а там, где могут возник- нуть затруднения, приводятся до- дополнительные пояснения. ¦' // ¦ У У "У У ' У У . ' У У у^^/^уУ-Ш- .'¦ •••"/ •'././• ././ //у'/у Х'/У'У/-'//~/<о ••//• у/ ••//' //' •/ • ' .¦•¦' -• У У •' / .-•¦'' . / /'' ' . '¦ -; У у /'/ ••/'/'• /'/' '/, s- .-• у/ ¦¦//¦¦ У/ ¦ //.-/,- ¦¦¦У ''/У''/У ''¦/У УУ¦ •''/.У ''/ ' // у У У У У У У у" s/y-yyty:. /УУ/'УУУУА ¦П * У У у' У .У ¦ / / у'у у •***/ ' у / У У v / . У У-' У у ''У/уУУуу'У'. '/,¦' У У у '/ У'" У"\
2. Совместная функция распределения 91 Совместная функция распределения двумерной случайной вели- величины (?ь?2), по определению, представляет собой не что иное, как вероятность попадания точки с координатами (?ь?2) B область, за- заштрихованную на рис. 1. Выведем свойства совместной функции распределения, аналогичные свойствам функции распределения одномерной случайной величины. Как и прежде, поскольку F(x\,x2) — вероятность, то Следующее свойство является очевидным обобщением свойства 2 функции распределения одномерной случайной величины: 2. F(x\,x2) — неубывающая функция по каждому из аргумен- аргументов Х\ U Х2- Поскольку события {?i < —00} и {^2 < —оо} невозможны, а в результате пересечения невозможного события с любым событием, как мы знаем, также получается невозможное событие, то 3. F(-oo,x2) =F(x\,-00) = 0. События {?i < 00} и {^2 < оо} так же, как и их пересечение, достоверны. Значит, 4. F(oo,oo) = 1. Найдем вероятность попада- попадания двумерной случайной ве- величины (?ь?2) B прямоуголь- прямоугольник \а,\ ^ х\ < Ь\, d2 ^ Х2 < ^2} (рис. 2). Для этого сначала опреде- определим вероятность попадания в по- Рис. 2 ЛуПОЛОСу {х\ < Ь\, U2 ^ X2 < ^}- Но эта вероятность представляет собой вероятность попадания в квад- квадрант {х\ < b\, X2 < ^2} за вычетом вероятности попадания в квадрант {#1 < b\, X2 < CL2}, т. е. Р{6 <Ь\, п2 ^ & < ^2} = F(bi,b2) — F(b\,a2). Теперь осталось заметить, что вероятность попадания в прямоугольник {а\ < х\ < Ъи п2 < Х2 < Ъ2\ есть вероятность попадания в полуполосу {х\ < Ъи п2 < Х2 < Ъ2}, из которой вычтена вероятность попадания в полуполосу {х\ < а\, п2 ^ Х2 < ^}, равная F(aub2) — F(aua2). Окончательно получаем 5. P{ai < ?1 < Ьь a2 < ?2 < b2} = F(buh) -F(b\,a2) - F(a\,b2) + + F(ai,a2). Подобно одномерному случаю доказывается и следующее свойство: 6. F(x\,x2) — непрерывная слева по каждому из аргументов х\ и Х2 функция. Наконец, последнее свойство устанавливает естественную связь между распределением случайного вектора (?ь?2) и распределениями
92 Гл. 6. Многомерные случайные величины и их свойства случайных величин ?i и ?2- Событие {& < оо} достоверно, поэтому {6 < х\} П {^2 < оо} = {?i < х\}. Аналогично {?i < оо} П {& < ^2} = — {& < Х2}- Значит, 7. Fzu?2(x,oo) = Рф), Fzub(oo,x) = Fb(x). Отметим, что, в отличие от одномерного случая, не любая функ- функция F(x\,X2), удовлетворяющая условиям 2-4 и 6, может являться совместной функцией распределения некоторой двумерной случайной величины. Для того чтобы это было возможно, необходимо потребовать также выполнение для любых х\, у\, Х2, г/2, х\ < у\, х^ < У2, следующего дополнительного условия: F(yi,y2) ~ F(yux2) - F(xuy2) + F(xux2) < 0. 3. Дискретные двумерные случайные величины Двумерная случайная величина (?, rf) называется дискретной, если каждая из случайных величин ? и rj является дискретной. Ясно, что если случайная величина ? может принимать только зна- значения Х\,..., Хп (для простоты мы ограничимся только конечным множеством значений), а случайная величина г] — значения Yi,... ,Ym, то двумерный случайный вектор (?, rj) может принимать только пары значений (Х^, lj) (г=1,...,п, j=l,...,m). Так же, как и в одномерном случае, распределение двумерной дискретной случайной величины естественно описать с помощью пе- перечисления всевозможных пар (Xi,Yj) значений случайного вектора (?, rj) и соответствующих вероятностей, с которыми эти пары значений принимают случайные величины ? и г\. Такое перечисление удобно реализовать таблицей (табл. 1) с двумя входами. В верхней строке этой таблицы перечислены все возможные значения Y\,...,Ym случайной величины ту, а в левом столбце — значения Х\,..., Хп случайной величины ?. На пересечении столбца «Yj» со строкой «JQ» приведена вероятность pij = Р{^ = Xi,rj = Yj} совместного осуществления собы- событий {^ = Xi} и {г] = Yj}. К этой таблице обычно добавляют еще одну строку «Р^» и столбец «Р^». На пересечении столбца «Р^» со стро- строкой «Xi» записывают число р^ = рц + ... +Ргш. Но р^ представляет собой не что иное, как вероятность случайной величине ? принять значение Xi, т. е. р^ = Р{^ = Xi}. Таким образом, первый и последний столбцы таблицы дают нам ряд распределения случайной величины ?. Аналогично в строке «Р^» pvj = p\j + ... +pnj, а первая и последняя строки в совокупности задают ряд распределения случайной величи- величины г]. Для контроля правильности составления таблицы рекомендуется просуммировать элементы последней строки и последнего столбца. Если хотя бы одна из этих сумм не будет равна единице, то это означает, что при составлении таблицы была допущена ошибка.
3. Дискретные двумерные случайные величины 93 Таблица 1 х1 х2 хп р, Г] Yx Р\\ Р2\ Рп\ рщ Y2 Р\2 Р22 Рп2 Рф у 1 т Р\гп Р2гп Риги Рг]гп Ре Pei PZ2 Р^п \. 1 1 \^ По табл. 1 нетрудно определить функцию распределения Ясно, что для этого необходимо просуммировать чрц по всем тем значениям г и j, для которых Xi < x, Yj < у. Иными словами, F(x,y) = ]Г Pij. Таблица 2 Пример 6. В схеме Бернулли производится 2 испытания с вероятностью успеха р и вероятностью неудачи q = 1 — р. Выпишем распределение двумер- двумерного случайного вектора (/хь/хг), где \ii (г = 1,2) — число успехов в г-м испы- испытании (см. пример 2). Каждая из случайных величин /xi и /Х2 может принимать 2 значения: 0 или 1. Числа успехов в обоих испытаниях равны нулю тогда, когда произойдут две неудачи, а это в силу независимости испытаний проис- происходит с вероятностью q • q. Поэтому Р{/л\ = 0, \i2 = 0} = q2 и на пересечении столбца «0» со строкой «0» нужно написать q2 (табл. 2). Далее, ц\ = 1 и \±2 = 0, если в первом испытании произошел успех, а во втором — неудача, и, значит, P{/xi = 1, 1л2 = 0} = pq. Аналогично заполняется второй столбец: P{/xi = 0, \i2 = 1} = qp, P{/ii = l,/i2 = 1} = p2- Наконец, на пересе- пересечении столбца «РМ1» и строки «0» должно стоять P{/ii = 0} = q2 + gp = g(g + p) = q, а на пересечении столбца «РМ1» и строки «1» — P{fjLi = 1} = pq + p2 = p(q + p) = p. Таким же образом выписываем послед- последнюю строку: Р{/Х2 = 0} = q + pq = q, P{/i2 = 1} = qp + p2 = p. Проверяем пра- правильность составления таблицы: сумма элементов последнего столбца p + q = 1, последней строки р + g = 1. Значит, есть надежда, что таблица составлена правильно. Построим теперь совместную функцию распределения F(x\,X2) = = P{/ii < х\,^2 < х2} случайных величин ц\ и /х2. Поскольку при х\ < 0 или Ж2 < 0 нет ни одного элементарного исхода ш, для которого /л\(и) < х\ или /хг(^) < Х2, то событие {/xi < х\,/^2 < x2} невозможно и, значит, F(x\,X2) = 0 при х\ < 0 или Ж2 < 0. Далее, если 0 < х\ < 1 и 0 < Х2 < 1, то событие {ц\ < х\,Ц2 < Х2) эквивалентно событию {ц\ = 0,/i2 = 0}, которое, как Ml 0 1 р М2 0 0 pq q 1 Р2 р q р ^^^ 1 1 \^
94 Гл. 6. Многомерные случайные величины и их свойства видно из табл.2, происходит с вероятностью q2, и F(x\,X2) = q2- Если же О < х\ < 1, а Х2 > 1, то событие {/xi < x\,\l<i < х^} совпадает с объединением Рис. 3 непересекающихся событий {ц\ = 0, /Х2 = 0} и {/xi = 0, \i^ = 1}, тогда -F(xi,X2) = q2 + qp = q. Аналогично, F(x\,X2) = q2 -\- pq = q при х\ > 1 и 0 < Ж2 < 1. Наконец, если х\ > 1 и #2 > 1, то событие {/xi < xi,/i2 < ^2} достоверно и, значит, i^(xi,X2) = 1. Функция распределения F(x\,X2) представляет собой поверхность в трехмерном пространстве, и ее не очень удобно изображать графически. Тем не менее такая попытка предпринята на рис. 3. ? Пример 7. Игральная кость размечена таким образом, что сумма очков на противоположных гранях равна 7 (т.е. 1-6, 2-5, 3-4). Случайная величина ? — число очков, выпавших на верхней грани, случайная величина г/ — на нижней. И случайная величина ?, и случайная величина г/ могут принимать любые целые значения от 1 до б с одинаковой вероятностью 1/6. Однако если случайная величина ? приняла значение 1 (на верхней грани выпало 1 очко), то единственным значением случайной величины г] может быть только б (на нижней грани обязательно выпадет б очков). Значит, строка «1» табл. 3 будет состоять из нулей, за исключением пересечения со столбцом «б»: на этом месте обязана стоять вероятность 1/6. Аналогично, строка «2» будет иметь единственный отличный от нуля элемент на пересечении со столбцом «5», Таблица 3 1 2 3 4 5 6 Г] 1 0 0 0 0 0 1/6 1/6 2 0 0 0 0 1/6 0 1/6 3 0 0 0 1/6 0 0 1/6 4 0 0 1/6 0 0 0 1/6 5 0 1/6 0 0 0 0 1/6 6 1/6 0 0 0 0 0 1/6 Ре 1/6 1/6 1/6 1/6 1/6 1/6 \. 1 1 ^\
4. Непрерывные двумерные случайные величины 95 также равный 1/6 (на верхней грани выпало 2 очка, на нижней 5) и т.д. Столбец «Р^» и строку «Р^» находим, суммируя соответствующие строки и столбцы; как и должно было быть, мы получаем в них одинаковые значения 1/6, соответствующие принципу классической вероятности. Предоставляем интересующемуся читателю самостоятельно построить сов- совместную функцию распределения случайных величин ? и г]. ? 4. Непрерывные двумерные случайные величины Непрерывной двумерной случайной величиной (?, rj) называется такая двумерная случайная величина (?,7/), функция распределения которой F(x\,x2) = Р{? < x\,rj < x2} может быть представлена в виде F(xux2) = II р(уиу2) dyx dy2. -оо<у\<х\, Здесь имеется в виду двукратный интеграл по области {у\ < х\, У2 < х2}\ имеет место теорема Фубини, которая говорит, что этот двукратный интеграл можно представить в виде повторного, причем в любом порядке: Х\ Х2 Х2 Х\ F(xux2)= J dyx J p(y\,y2) dy2 = J dy2 J p(yuy2) dyx. — oo — oo —oo —oo Функция р(х\,х2) = p^trj(xi,x2) называется совместной плотно- плотностью распределения случайных величин ? и rj. Так же, как и в одномерном случае, будем предполагать, что р(х\,х2) непрерывная (или «почти» непрерывная) функция по обоим аргументам. Тогда совместная плотность распределения представляет собой смешанную производную совместной функции распределения: Нетрудно вывести следующие свойства совместной плотности рас- распределения: 1. р(х\, х2) ^ 0. Ьх Ъ2 Г Г 2. Р{а\ < ? < Ь\, а2 < г\ < b2} = dx\ p(x\,x2) dx2. а\ а2 оо оо 3. р(х\, х2) dx\ dx2 = 1. — оо —оо 4. Р{х\ < ? < х\ + Аь х2 < г] < х2 + А2] 5.
96 Гл. 6. Многомерные случайные величины и их свойства Кроме этих свойств, повторяющих свойства плотности распределе- распределения одномерной случайной величины, укажем дополнительные свой- свойства совместной плотности распределения. Пусть D — некоторая область на плоскости (рис.4). Тогда, как следует из свойства 4, вероятность попадания двумерной случайной величины (?,rj) в малый прямоугольник {а < ?i <а + Дь Ъ < Х2 < Ъ + А2} приближенно равна р(а,Ъ)А\А%. Поскольку попадания в непе- непересекающиеся прямоугольники являются несовместными событиями, то, для того что- чтобы найти полную вероятность попадания двумерной случайной величины (?, rj) в об- область D, нужно просуммировать вероятности попадания во все «малые» прямоугольники, входящие в область D. Переходя к пределу, G D} — вероятности попадания (?,rj) в об- Рис. 4 получаем для ласть D — формулу 6. D Далее, из свойства 7 совместной функции распределения и опреде- определения совместной плотности распределения имеем X ОО J dy\ J dy2, Fv(x) = откуда, дифференцируя по х, получаем выражения для одномерных плотностей распределения случайных величин ? и г] сю сю 7. р$(х)= J Ps,r,(x,y)dy, Pn(y)= J Пример 8. Предположим, что в соответствии с принципом геометриче- геометрической вероятности мы бросаем точку случайным образом в круг радиусом R с центром в начале координат (см. пример 10 в гл. 2). Пусть случайная величина ? — абсцисса точки падения, а г\ — ордината. Естественно, по- поскольку точка не может попасть за пределы круга, то p(xi,X2) = 0 при х\ + xl > R2. Для каждой области внутри круга (в частности, прямоугольника {а < ? < а + А\, b < г] < b + A2}) вероятность попадания пропорциональна площади этой области (равна АА\А2, где А — коэффициент пропорциональ- пропорциональности). Поэтому из свойства 4 совместной плотности распределения имеем: р(х\, Х2) = А при х\ + х\ ^ R2, т. е. плотность распределения постоянна внутри
4. Непрерывные двумерные случайные величины 97 круга. Для определения постоянной А воспользуемся свойством 3 совместной плотности распределения. Поскольку р(х\,Х2) = 0 при х\+х\> R2, то оо оо р(х\,Х2) dx\ dx2 = A dx\ dx2 = тгAR2 = 1 — оо —оо и, значит, А = 1/(ttR2). Итак, Го, если х\ + х\ > R2, —Цг, если х\ + х\ < R2. ' 7r.fr Нетрудно найти плотность распределения случайной величины ?: = p(x,y)dy = Г О, если х\ > R, tzR2 если ж R. Аналогичное выражение получается и для Для нахождения совместной функции распределения F(x\,X2) заметим, что в силу определения совместной плотности распределения F(xi,x2) = ^2 JJ dyi dV2> D где область D представляет собой пересечение квадранта {у\ < х\, у% < х^) и круга х\ + х\ < R2, т. е. F(x\,X2) с точностью до множителя \/(ttR2) совпа- совпадает с площадью области D, имеющей двой- двойную штриховку на рис. 5. Мы думаем, читатель достаточно хорошо знаком с основами интегрального исчисления и может определить площадь области D для различных х\ и ж2 самостоятельно. Предложенный выше вариант определе- ния совместной плотности распределения р(х\,Х2), которую естественно назвать рав- номерной плотностью распределения внутри \ \ 2 круга х\ + х\ < R2, реализует первое реше- решеРис.5 ние примера 10 в гл. 2. Во втором решении вероятность попадания одна и та же для областей, имеющих одинаковые при- приращения полярных координат: радиуса Ар и угла Аср. Переходя к декартовым координатам, получаем, что совместная плотность распределения ? и г/ в этом случае должна иметь вид 0, в если х\ + х\ > R2, если х\ + х\ ^ R2. Предоставляем читателю определить нормировочную константу В, а также плотности распределения случайных величин ? и г] и совместную функцию распределения F^t7](x\,X2). ? 4 П. П. Бочаров, А. В. Печинкин
98 Гл. 6. Многомерные случайные величины и их свойства В заключение этого параграфа рассмотрим наиболее часто встреча- встречающееся на практике распределение непрерывной n-мерной случайной величины. Многомерное нормальное (гауссово) распределение. Пусть А = = (dij) — положительно определенная симметрическая квадратная мат- матрица порядка п (т.е. а^ = а^, а все собственные значения матрицы А положительны). Обозначим через А~х матрицу, обратную матрице А, а через А~1(х,х) — квадратичную форму, порожденную матрицей А~\ т.е. A-1(x,х) = ^2 aij xixj> гДе aij ~ элементы матрицы А~\ a Xi — г-я координата вектора х= (х\,... ,хп). Пусть также задан n-мерный вектор m = (т\,..., тпп). Скажем, что n-мерный непрерывный случайный вектор ?, = (?i,...,?n) распределен по (невырожденному) нормальному закону, если его совместная плотность распределения р(х\,... ,хп) (определяется точно так же, как и совместная плотность распределения одномерной случайной величины: задается формулой (Здесь \А\ — определитель матрицы А.) Матрица А носит название ковариационной матрицы (матрицы ковариаций), а вектор m — вектора средних. Если матрица А (а значит, и матрица А~х) совпадает с еди- единичной матрицей /, а вектор m = @,..., 0), то Такая плотность распределения по аналогии с одномерным случаем на- называется плотностью стандартного n-мерного нормального распределе- распределения (соответственно F(x\,... ,хп) — функция стандартного п-мерного нормального распределения). Пусть (?i,...,?n) — n-мерный случайный вектор, распределенный по (произвольному) нормальному закону. Тогда п — 1-мерный случай- случайный вектор (?ь ... ,?n-i) распределен также по нормальному закону с вектором средних (mi,... ,mn_i) и ковариационной матрицей Af, получаемой из матрицы А вычеркиванием последних строки и столб- столбца (это можно показать непосредственно с помощью многомерного аналога свойства 7 совместной плотности распределения двумерной
4. Непрерывные двумерные случайные величины 99 случайной величины: однако существенно проще для этой цели воспользоваться аппаратом характеристических функций, который частично будет рассмотрен на- нами в гл. 8). В частности, каждая из случайных величин ?г- распределена по нормальному закону со средним тпг и средним квадратичным откло- отклонением Gi = л/ап. Рассмотрим теперь уравнение р(х\,...,хп) = с, которое для плотно- плотности распределения n-мерного нормального распределения эквивалентно уравнению А~1(х - т, х - т) = а = -2In (сBтг)п/2|А|1/2)- Для всех с\ > О это уравнение в силу положительной определенности матрицы А~х представляет собой уравнение n-мерного эллипсоида, называемого эллипсоидом рассеи- рассеивания; его главные оси называются осями рассеивания (рис.6). Будем трактовать п-мерный случайный вектор (?i,..., ?п) как координаты случайной точки % в n-мерном пространстве. Тогда, если мы выберем в n-мерном про- пространстве новую ортонормирован- ную систему координат х\,...,х'п, связанную с главными осями, то в этой системе новые координаты (?|,...,<^) случайной точки ? снова будут описываться n-мерным нормальным законом, имеющим нуле- нулевой вектор средних т1 и диагональную матрицу ковариаций Af, при- причем диагональные элементы of матрицы А будут пропорциональны квадратам коэффициентов растяжения кг эллипсоида рассеивания по соответствующим осям рассеивания. Еще раз вводя новые коорди- координаты уг- = С{х\, получаем, что в этой последней системе у\,...,уп координаты случайной точки ? будут распределены по стандартному нормальному закону. Таким образом, делая обратные преобразования, можно трактовать (невырожденный) нормально распределенный век- вектор ? с произвольными вектором средних m и матрицей ковариаций А как координаты случайной точки ?, имеющей стандартное нормальное распределение, в некоторой (вообще говоря, не ортонормированной и даже не ортогональной) системе координат. Разумеется, встречаются многомерные случайные величины, кото- которые нельзя отнести ни к дискретному, ни к непрерывному типу. Так, у двумерной случайной величины (?, rj) одна координата (допустим rf) может быть дискретной, а другая ? — непрерывной. Такую двумер-
100 Гл. 6. Многомерные случайные величины и их свойства ную случайную величину удобно характеризовать набором функций Pi(x) = <9Р{? < х, г] = Yi}/dx. Пример 9. Придя в кассу «Аэрофлота», клиент застает очередь из г] человек. Ясно, что rj — дискретная случайная величина, принимающая значе- значения 0, 1, 2,... Наряду с длиной очереди rj естественно рассмотреть и непре- непрерывную случайную величину ? — общее время, проведенное клиентом в кассе. Если интервалы времени между приходами клиентов независимы (см. па- параграф 6) и имеют одно и то же экспоненциальное распределение с пара- параметром Л, а длительность обслуживания каждого клиента кассиром также распределена экспоненциально с параметром /х, то, как показано в теории массового обслуживания, совместное распределение случайных величин ? и rj в установившемся режиме работы задается функциями Рг(х) = ?р{? < х, т? = г} = A - р) рг ^f- е-»* х > 0, г = 0, 1,2,...; р=-<1, Л,/х>0. Ряд распределения случайной величины rj находим, проинтегрировав рг(х) = Р{г] = г} = J рг(х) dx = (\- р)рг | ^le-^dx = A - р) р по х: рщ J -оо 0 (г = 0, 1,2,...). Итак, длина очереди rj распределена по геометрическому закону. Аналогично, плотность распределения случайной величины ? получаем, суммируя рг(х) по г: оо г-\-\ г Pi(x) = Fi(x) = ЕA -Р)Р1 И^-е-»* = A-р)^е-^-^ (х > 0), г=0 1' т. е. время ? пребывания клиента в кассе имеет экспоненциальное распределе- распределение с параметром ц A — р). ? Еще более интересные явления возникают, если рассматривать слу- случайные величины, имеющие явную функциональную зависимость. Пример 10. Пусть ? — непрерывная случайная величина с функцией распределения F(x) и плотностью распределения р(х). Рассмотрим двумерный случайный вектор (?, ?) с одинаковыми координатами ? и совместной функ- функцией распределения F^{x\,X2) = Р{? < жь? < х^}. Ясно, что вектор (?,?) не является дискретным. Покажем, что (?,?) не может быть и непрерывной двумерной случайной величиной. Для этого заметим, что при х\ < Х2 событие {? < жь? < Х2} совпадает с событием {? < х\} и, значит, F^{x\,X2) = F(x\). Но тогда ри(хих2) = dxidX2Ftdx^x2) = о при х\ < х2. Аналогично, F^^(x\,x2) = F(x2) и ) = О дх\дх2 при х2 < х\.
5. Условные распределения 101 Таким образом, если бы у вектора (?, ?) существовала плотность распреде- распределения, то она равнялась бы нулю всюду, кроме биссектрисы х\ = х2, и, значит, LXJ LXJ dx\ dx2 = 0, что противоречит свойству 3 совместной плотности распределения. Ясно, что причина этого явления кроется в том, что значения двумерного случайного вектора (?, ?) полностью сосредоточены на биссектрисе х\ = х2. ? 5. Условные распределения О Рассмотрим двумерную случайную величину (?, rj) с совместной функцией распределения F^{x,y). Пусть известно, что случайная ве- величина г] приняла значение у. Естественно задать вопрос: а что можно сказать при этом условии о распределении случайной величины ?? Ответ на этот вопрос дает условная функция распределения случайной величины ? при условии г] = у. Как видно из самой постановки задачи, понятие условного распределения весьма схоже с понятием условной вероятности, разобранным в параграфе 1 гл. 3. Именно исходя из понятия условной вероятности, мы введем понятие условного распре- распределения. Начнем с наиболее простого случая. Пусть случайная величи- величина г] является дискретной. Назовем условной функцией распределения F^(x \ rj = Yi) случайной величины ? при условии rj = Yi условную вероятность события {? < х} при условии события {rj = Yi}, т.е. в со- соответствии с определением условной вероятности, Fi(x | ц = Yi) = Условная функция распределения обладает всеми теми свойствами, которые присущи обычной (безусловной) функции распределения. Пример 11. Найдем условное распределение времени пребывания ? кли- клиента в кассе «Аэрофлота» (пример 9) при условии, что в момент прихода он застает очередь rj из г человек. В этом случае, как мы знаем, X Р{? < x,V = i} = A - р) рг j ?-?е-"У dy, ?{q = г} = A - р)р\ о Таким образом, 1) Результаты настоящего параграфа в дальнейшем нигде, кроме парагра- параграфа 5 гл. 7, использоваться не будут, и при первом прочтении его можно пропустить.
102 Гл. 6. Многомерные случайные величины и их свойства и, значит, условная функция распределения F$(x \ rj = г) имеет условную плотность распределения #|г+1„г ре(ж г] = г) = Fc(x | 77 = г) = —— е м , представляющую собой плотность гамма-распределения с параметрами /х, г + 1 или, что то же самое, плотность распределения Эрланга порядка г+ 1. П Если ? — также дискретная случайная величина, причем Р{? = Xi, т? = У^} = р^-, то удобно рассматривать условную вероятность ъц того, что случайная величина ? примет значение Xi при условии г] = Yj, определяемую как условную вероятность события {? = Xi} при условии события {ц = Yj}, т. е. r]-YJ] - Обычно условное распределение дискретной случайной величины ? при условии дискретной случайной величины г] описывает табл. 4. Ясно, что элементы тг^- табл. 4 получаются из элементов табл. 1 по формуле Kij = Pij/pVj И, Наоборот, р^ = Таблица 5 Таблица 4 Xi Х-2 Хп р. V Yx 7Г|| 7Г21 TTnl Y2 7Г12 7Г22 7Гп2 Рф Ym 7Г2m Prjm Ре ^-\ 1 1 ^\ Ml 0 1 РМ2 M2 0 q p q l q p p q p \. l l ^\ Пример 12. Условное распределение случайной величины ц\ (числа успехов в первом испытании) при условии \i^ = j (j = 0,1) (числа успехов во втором испытании) из примера б задается табл. 5. ? Пример 13. Условное распределение случайной величины ? (числа оч- очков, выпавших на верхней грани игральной кости) при условии г/ = j (j = 1,... ..., 6) (числа очков, выпавших на нижней грани игральной кости) из примера 7 представлено в табл. 6. ? В общем случае условную функцию распределения случайной ве- величины ? при условии г] = у также естественно было бы определить формулой *№ W-у)- р{г] = у} ¦ Однако это не всегда возможно (например, событие {rj = у} для непре- непрерывной случайной величины имеет нулевую вероятность: Р{г] = у} = = 0). Поэтому попытаемся воспользоваться предельным переходом,
5. Условные распределения 103 Таблица б 1 2 3 4 5 б Г] 1 0 0 0 0 0 1 1/6 2 0 0 0 0 1 0 1/6 3 0 0 0 1 0 0 1/6 4 0 0 1 0 0 0 1/6 5 0 1 0 0 0 0 1/6 6 1 0 0 0 0 0 1/6 Ре 1/6 1/6 1/6 1/6 1/6 1/6 \. 1 1 \С^ рассматривая вместо события {г] = у} событие {у ^ г] < у + А} и устремляя А к нулю. Итак, определим сначала условную вероятность < х \у < г] < у + А} = Р{У <: г] < у + A} Fv{y + А) - Fv{y) и назовем условной функцией распределения F^(x | т\ = у) предел Fc(x \ г] = у) = lim Р{? <х\у^г]<у-\- А}. Оказывается, такой предел всегда существует (правда, в определенном смысле: это производная Радона-Никодима одной меры по другой. Производная Радона-Никодима определяется не однозначно, а с точно- точностью до множества точек на прямой, вероятность попадания в которое случайной величины т\ равна нулю. Впрочем, с неоднозначностью опре- определения условной функции распределения мы фактически уже встре- встречались в случае дискретной случайной величины т\\ действительно, условную функцию распределения F^(x \ г] = у) мы определяли только для у = Yi, для остальных значений у мы могли бы задать F^(x \ г] = у) совершенно произвольным образом, поскольку все равно случайная величина г] такие значения не принимает). Если же случайная величина г] непрерывна, то условную функцию распределения можно определить следующим выражением: д формально получаемым, если в выражении для Р{^ < х \ у ^ т\ < < у + А} поделить числитель и знаменатель на А и устремить А к нулю. Пример 14. Найдем условное распределение длины очереди rj в кассу «Аэрофлота» в момент прихода клиента при условии, что общее время ?, прове-
104 Гл. 6. Многомерные случайные величины и их свойства денное им в кассе, составило х (пример 9). Ответ дадим в терминах условного ряда распределения Р{г] = г \ ? = х). Тогда в обозначениях примера 9 Таким образом, условное распределение очереди г] при условии ? = х представ- представляет собой распределение Пуассона с параметром Хх. ? В наиболее важных для приложений случаях вектор (?, rj) представ- представляет собой двумерную непрерывную случайную величину с совместной плотностью распределения p^r]{x,y). Тогда dv du, — du — оо —оо и, значит, du rj = y) = Нетрудно видеть, что условная функция распределения F^(x\rj = у) имеет производную по х, т. е. существует условная плотность распре- распределения случайной величины ? при условии rj = у: ч д ^ / Пример 15. Найдем условную плотность распределения случайной вели- величины ? — абсциссы точки падения (из примера 8) при условии, что ордината rj приняла значение у. Тогда, как мы знаем, ГО, если \х\ > л/Я2 - У2, и при \у\ < R Таким образом, случайная величина ? при условии rj = у равномерно распреде- распределена на отрезке [— л/R2 — у2, л/R2 — у2]. Если \y\>R,TO условная плотность распределения р^(х\г] = у) не определена; но это нас не должно волновать, поскольку случайная величина г/ не может принимать значение, по модулю большее R. Рекомендуем читателю самостоятельно решить эту задачу для второго варианта определения плотности распределения из примера 8. ?
6. Независимые случайные величины 105 Пример 16. Пусть (?,7?) — двумерный нормальный вектор с матрицей ковариаций А=[ 9 ) (о-ьо-2 > 0, -\<р< 1) г2 сг2 ) и вектором средних G711,7712). Найдем условную плотность распределения случайной величины ? при условии г/ = у. Для этого сначала определим \А\ и А~1: 1 A~l = _ чG1G2A - P ) Теперь мы можем выписать совместную плотность распределения случайных величин ? и т]\ _ 1 Г(а: —тгц) _ 2pQ-m1)(y-m2) (y-m2) I / \ ^ 20-/9^) L сг^ СГ1 его /j2 J Р?,Г1\Х,У) — / е ! 2 2?ГG1G2л/ 1 — р2 Далее, как нам известно, и, значит, Таким образом, условное распределение ? при условии 7/ = у снова является нормальным со средним значением т\ + peri (у — гп2)/сг2 и средним квадратич- квадратичным отклонением а\\/\ — р1. ? 6. Независимые случайные величины Назовем случайные величины ? и г] независимыми, если сов- совместная функция распределения F^v(x,y) представляется в виде произведения одномерных функций распределения F^(x) и Frj(y): Понятие независимости случайных величин представляет собой пере- перенос понятия независимости событий на случайные величины и опять- таки отражает отсутствие связи между случайными величинами ? и ту (хотя, повторяем еще раз, и ?, и г] заданы на одном и том же вероятностном пространстве (п, 53, Р) и в совокупности определяют двумерный случайный вектор (?, г/))- Иными словами, независимость случайных величин ? и г] можно охарактеризовать следующим образом: зная значение, которое приняла случайная величина г], мы никакой новой информации о распределении случайной величины ? не полу- получим. Отметим, что обычно независимость случайных величин вводится
106 Гл. 6. Многомерные случайные величины и их свойства несколько иначе; в этом случае приведенное здесь определение высту- выступает в роли необходимого и достаточного условия независимости. Совершенно аналогично определяется независимость произвольного числа случайных величин. Случайные величины ?ь...,?п называют- называются независимыми {в совокупности), если Fdu...?n (x\,...,xn)= Ffr (х\) ... F$n (xn). Разумеется, так же, как и для событий, из попарной независимости не следует независимость случайных величин в совокупности. Пример 17. Свяжем с бросанием правильного раскрашенного тетраэдра (пример 11 в гл. 3) три случайные величины: ?i, ?2 и ?3, каждая из которых может принимать значения 0 или 1, причем ^ = 1, если тетраэдр упал на грань, в раскраске которой присутствует синий цвет, и ?i = 0 в противном случае. Аналогично, ^ характеризует наличие красного цвета, а ?3 — зеленого. Нетрудно видеть, что случайные величины ?i, ?2 и ?3 будут попарно независи- независимы, но зависимы в совокупности. ? Пример 18. Рассмотрим широту ?i, долготу ?2 места падения метео- метеорита на Землю и время ?3 от начала наблюдений до момента его падения (см. пример 5). Предполагая, что каждый падающий метеорит имеет случайное направление, мы должны считать случайные величины ?1, ?2 и ?3 независи- независимыми. Однако если Земля проходит через метеоритный поток определенного направления, уже нельзя пользоваться моделью с независимыми ?i, ?2 и ?3, поскольку долгота места падения связана с тем, какой стороной к потоку метеоритов обращена Земля, т. е. в конечном счете со временем. Тем не менее и в этом случае широта ?i не будет зависеть от времени ?3, т-е- имеет место независимость случайных величин ?i и ?3, хотя случайные величины ?1, ?2 и ?3 зависимы в совокупности. Предоставляем читателю самостоятельно пораз- поразмышлять над вопросом: какое направление должен иметь поток метеоритов, чтобы были независимыми между собой случайная величина ?i и случайный вектор (?2,?з) (широта не зависит от долготы и времени падения). ? Пусть ? и г] — независимые случайные величины. Рассмотрим событие {х\ < ? < Х2}, связанное со случайной величиной ?, и событие {у\ ^ V < У2}, связанное со случайной величиной г]. В силу независи- независимости ? и г] ? < х2, У\ ^ V < У2} = = F(x2,y2)-F(xi,y2)-F(x2,yi)+F(xi,yi) = = P{^i < ^ < x2}P{yi ^r]< y2}. Таким образом, для независимых случайных величин независимы меж- между собой не только события, связанные с попаданием случайных вели- величин ? и г] на интервалы (—оо,ж) и (—оо,у), но и на любые интервалы [#i,#2) и [2/1 > 2/г) и> более того, в любые (измеримые) одномерные множества А и В.
6. Независимые случайные величины 107 Для проверки независимости компонент многомерных дискретных и непрерывных случайных векторов обычно бывают удобными дру- другие эквивалентные определения независимости (доказательство экви- эквивалентности приводимых ниже определений предоставляем читателю). Так, дискретные случайные величины ? и rj независимы, если для всех возможных значений Xi и Yj = Yj} = piiPvj. Пример 19. В схеме Бернулли с двумя испытаниями (см. пример 6) P{/xi = 0, /х2 = 0} = q = P{/xi = 0}P{/x2 = 0}, =0,/z2= \} = qp=P{[ii =0}P{/x2= 1}, = UfJL2=0}=pq=P{fJii = 1}P{/X2=O}, = 1,M2 = 1} = V = P{Mi = 1}P{M2 = 1}. Таким образом, числа успехов /ii и /i2 в первом и втором испытаниях представ- представляют собой независимые случайные величины. Впрочем, иного и нельзя было ожидать из самого определения схемы Бернулли. Читатель может самостоя- самостоятельно убедиться в том, что независимы в совокупности случайные величины /ii,..., [in — числа успехов в первом,..., n-м испытаниях Бернулли. ? Непрерывные случайные величины ? и rj независимы, если для всех х и у Pt,ri(x,y) =Р?(х)рг,(у). Отметим здесь же, что если независимые случайные величины ? и г] непрерывны, то и двумерная случайная величина (?, rf) обязана быть непрерывной (ср. с примером 10). Пример 20. Координаты двумерного нормального случайного вектора (см. пример 16) независимы тогда и только тогда, когда р = 0, т.е. матрицы А~х и А — диагональные. В этом можно без труда убедиться, сравнивая выражения для p^,v{x,y) с произведением р^(х)рТ](у). Аналогично, случайные величины ?i,..., ?п, имеющие совместное n-мерное нормальное распределение, независимы (в совокупности) тогда и только тогда, когда матрица А~\ а зна- значит, и ковариационная матрица А диагональны. Интересно отметить, что по- попарная независимость всех компонент ^ и ?j нормального вектора (?i,...,?n) влечет за собой независимость случайных величин ?i,..., ?n в совокупности (ср. с примером 17). ? Для читателя, ознакомившегося с понятием условного распределе- распределения (параграф 5), приведем еще один критерий независимости случай- случайных величин ? и г]\ случайные величины ? и rj независимы тогда и только тогда, когда условное распределение {функция распределе- распределения F^(x | г] = у), плотность распределения р$(х \ rj = у)) случайной величины ? при условии rj = у совпадает с безусловным распреде- распределением (функцией распределения F^(x), плотностью распределения р$(х)) случайной величины ? при всех значениях х и у. В частности, дискретные величины ? и г] независимы тогда и только тогда, когда все условные вероятности тг^- = Р{? = Xi \ г] = Yj} совпадают с без- безусловными вероятностями р^ = Р{? = Xi}, т.е. все столбцы табл.4 совпадают с последним.
108 Гл. 6. Многомерные случайные величины и их свойства Пример 21. В схеме Бернулли с двумя испытаниями (см. пример 6) числа успехов ц\ и р2 в первом и втором испытаниях независимы, поскольку в табл. 5 все три столбца совпадают. Этот факт нами уже был установлен другим способом в примере 19. ? Пример 22. Число очков ?, выпавших на верхней грани игральной кости, и число очков rj на нижней грани (см. пример 7) — зависимые случайные величины, поскольку вообще ни один из первых шести столбцов табл. 6 не совпадает с последним. ? Пример 23. В примере 11 показано, что условное распределение времени пребывания ? клиента в кассе «Аэрофлота» (см. пример 9) при условии, что в момент прихода он застает очередь rj из г человек, является распределением Эрланга порядка г-\- 1, в то время как случайная величина ? распределена по экспоненциальному закону. Таким образом, ? и rj — зависимые случайные величины. ? Пример 24. Условная плотность распределения случайной величины ? (абсциссы точки падения при равномерном бросании в круг, см. пример 8) при условии г/ = у (ординаты точки падения), как следует из примера 15, равномерна, в то время как безусловная плотность распределения случайной величины ? таковой не является. И в этом примере случайные величины ? и rj зависимы между собой. ? 7. Функции от многомерных случайных величин Функция от многомерной случайной величины определяется точ- точно так же, как и функция от одномерной. Рассмотрим это поня- понятие на примере двумерной случайной величины. Пусть на вероят- вероятностном пространстве (О,2$, Р) задана двумерная случайная величи- величина (?ь?2)- Предположим, что у нас имеется (измеримая) числовая функция д(х\,Х2) числовых аргументов х\ и х^. Случайную величину V = 9(?i>&) — #(?1(^0» ?2^)) назовем функцией от двумерной случай- случайной величины (^i,^2)- Функция #(?ь?2) от двумерной дискретной случайной величины (?ь?2) снова является дискретной случайной величиной, принимающей значения g(Xi,Yj) с вероятностью чрц = P{^i = ^Q,?2 = Yj}, где Xi — значения случайной величины ?ь a Yj — случайной величины ?2- Разумеется, для того чтобы построить ряд распределения случайной величины г] = <7(?ь?2), необходимо, во-первых, исключить все те зна- значения g(Xi,Yj), которые принимаются с вероятностью, равной нулю, а, во-вторых, объединить в один столбец все одинаковые значения g(Xi,Yj), приписав этому столбцу суммарную вероятность. Пример 25. Рассмотрим случайную величину ц — суммарное число успехов в двух испытаниях Бернулли. Тогда ц = ц\ + Ц2 (см. пример 2) и д(х\,Х2) = х\ + Х2- Поскольку случайные величины ц\ и \i2 принимают только два значения 0 или 1, то случайная величина \i может принимать 4 значения: #@,0) = 0 + 0 = 0, #A,0) = 1+0=1, #@,1) = 0+1 = 1 идA,1) = 1 + 1 = 2с вероятностями (см. пример 6) q2, pq, qp и р2 соответ- соответственно (табл. 7). Осталось заметить, что двум средним столбцам соответству-
7. Функции от многомерных случайных величин 109 Таблица 7 Рд Я(О,О) = 0 fl(l.O) = 1 pq 5@,1) = 1 qp ff(l,l) = 2 о P ет одно и то же значение 1 случайной величины \i и их необходимо объединить. Окончательно получаем ряд распределения случайной величины /х, представ- представленный в табл. 8. Естественно, мы получили, что суммарное число успехов \i в двух испыта- испытаниях имеет распределение Бернулли. ? Таблица 8 Таблица 9 Рм 0 1 2pq 2 v2 с Рс 7 1 Пример 26. Пусть ? — число очков, выпавших на верхней грани иг- игральной кости, а г/ — на нижней (пример 7). Рассмотрим случайную величину С — С + "Ц — суммарное число очков, выпавших на верхней и нижней гранях (д(х,у) = х + у). Тогда ( может принять любое целочисленное значение от 2 до 12. Так, например, значению ( = 4 соответствует выпадение 1-3, 2-2 и 3-1 очков на верхней и нижней гранях. Однако нетрудно видеть из табл. 3, что все значения, кроме значения, равного семи, случайная величина ( принимает с вероятностью, равной нулю, и их необходимо изъять из ряда распределения, а значение 7 случайная величина ( принимает в б случаях A-6, 2-5, 3-4, 4-3, 5-2 и 6-1), причем каждый из этих случаев реализуется с вероятностью 1/6. Поэтому случайная величина ( может принимать всего одно значение — 7 с вероятностью, равной единице, т. е. она имеет ряд распределения, представ- представленный в табл. 9. Собственно говоря, это было очевидно с самого начала, поскольку играль- игральная кость размечена таким образом, что сумма очков на противоположных гранях равна семи. ? В том случае, когда (?ь?2) — двумерная непрерывная случайная величина с плотностью распределения р^и^2(х\,Х2), функция распреде- распределения случайной величины г] = ^(?ь?2) определяется формулой Fv(x) = dx\ dx2. g(x[,x2)<x Область интегрирования в последней формуле состоит из всех х\ и х2, для которых д(х\,х2) < х. Пример 27. Пусть (?ь?2) — двумерный случайный вектор, распределен- распределенный по стандартному нормальному закону. Найдем распределение случайной величины г/ = y?j + ?|. В этом случае д(х\,Х2) = \ х\ + х\ • Очевидно, что
ПО Гл. 6. Многомерные случайные величины и их свойства Fv(x) = О при х < О, а при х > О Fv(x)= Последний интеграл удобно вычислить, переходя к полярным координатам р и (р. Тогда х\ + х\ = р2, dx\ dx% = pdcpdp, а область интегрирования превра- превращается в круг р < х: ^e-Xzp2pdip= \pe-l2p2 dp= l-e~x2/2 (x > 0). 2?r J 0 0 0 Это уже известное нам распределение Рэлея. Полученный результат допускает многочисленные физические трактовки. Приведем одну из них. Если движущаяся в плоскости частица имеет слу- случайные составляющие скорости, распределенные по двумерному стандартному нормальному закону, то абсолютная величина скорости распределена по закону Рэлея. Трехмерным аналогом распределения Рэлея (абсолютная величина ско- скорости частицы, движущейся в трехмерном пространстве, причем составляющие скорости распределены по трехмерному стандартному нормальному закону) является распределение Максвелла, представляющее собой распределение слу- случайной величины г/ = -\/|\ гДе С ~~ случайная величина, распределенная по закону х с тремя степенями свободы. ? Особо важным для теории вероятностей представляется случай, когда (i и B - независимые случайные величины, а г\ = ?i + ^2 — их сумма. Тогда д(х\,Х2) = х\ + х^ и в силу независимости ?i и ?2 ,Х2) dx\ dx2 = \ 00 p^(x2)dx2= J F?2(x-y)p?l(y) dy. Дифференцируя последнюю формулу под знаком интеграла, получаем выражение для плотности рГ](х) распределения суммы ?i и <^2 Рп(х)= J Последнее выражение носит название формулы свертки и должно быть хорошо известно читателю, знакомому с элементами теории пре- преобразований Фурье. Пример 28. Случайные величины ?i и ^2 независимы и имеют гамма- распределения с параметрами Л, 71 и Л, 72 соответственно. Найдем плотность распределения суммы rj = ?1 + ?2- Ясно, что поскольку ?i и ?2 — положи- положительные случайные величины, то случайная величина г\ также положительна
7. Функции от многомерных случайных величин 111 и Рг]{х) = 0 при х < О. При х > О, учитывая, что р^(у) = О при у < О и Р?2(ж — у) = О при у > х, имеем по формуле свертки ГG2)ГG1) "' О Г(ж) введена в гл. 5, параграф 4. Делая замену у = xz, получаем 1 „ („\ — Л 71 +72-71 +72 -lp-Аж Г A ~ ^O2 ^7l , J ГG2)ГG1) О Интеграл, стоящий в последнем выражении, представляет собой так называ- называемый /3-интеграл, хорошо известный в теории специальных функций. Однако мы для его вычисления воспользуемся просто условием нормировки Pr](x) dx = 1, о откуда п _ 1 dz = ГG2)ГG1) ГG1+72) ' О и получаем окончательно, что случайная величина г/ также имеет гамма- распределение с параметрами Л, 71 +72- Отсюда, в частности, следует: если независимые случайные величины имеют распределения Эрланга порядков к\ и /с2 соответственно (с одинаковым параметром Л), то их сумма также рас- распределена по закону Эрланга порядка к\ + к^ (также с параметром Л); если независимые случайные величины имеют распределения х2 с /ci и кч степенями свободы, то их сумма также имеет распределение х2 с &i + &2 степенями свободы. ? Пусть теперь с двумерным случайным вектором (?1,^2) связана не одна, а две (можно рассматривать и большее количество) случайные величины 7/1 = #i(?i,?2) и Ш = ^2F^2)• Тогда мы можем определить совместную функцию распределения случайных величин rj\ и 772- Так, для непрерывного двумерного случайного вектора (?1,^2) JJ Р?1&(уиУ2) dyi dy2 1 B/Ь2/2) <ЖЬ Если д\(х\,Х2) и д2(х\,Х2) задают взаимно однозначное преобра- преобразование плоскости саму в себя (или в некоторую область G), причем обратные преобразования h\(y\,y2) и /12B/1,2/2) имеют непрерывные частные производные по у\ и у2, то плотности распределения случай-
112 Гл. 6. Многомерные случайные величины и их свойства ных векторов (?1,^2) и (ш^ш) связаны между собой соотношениями Рт,т(у\,У2) =: где — якобиан преобразования [/мB/ь2/2)>/^(з/ьЗ/г)]- Это свойство вытекает из того факта, что Р{у\ < rj\ < у\ + Аь г/2 < щ < У2 + A2}, с одной стороны, приближенно равна pr}ur}2(yi,y2)A\A2, а с другой — прибли- приближенно равна р?ь?2 (h\(y\,y2),h2(yi,y2))S, где S — площадь прообраза прямоугольника со сторонами (у\,у\ + Ai) и B/2,2/2 + А2), которая, как известно из курса математического анализа, в свою очередь прибли- приближенно равна \J\ A1A2. В частности, пусть gi(x\,X2) = Ьцх\ + Ьг2#2 + сь * — 1>2, т.е. преобразование линейное, причем матрица В = (Ь^) невырожденная. Тогда где Б — обратная к В матрица, а ||Б || — модуль определителя матрицы В. Пример 29. Пусть ? = (?i,...,?n) — (невырожденный) n-мерный слу- случайный вектор, распределенный по нормальному закону с матрицей ковари- аций А$ и вектором средних ггц = @,..., 0) (этого всегда можно добить- добиться, вводя случайный вектор ?* = ? — т). Введем новый случайный вектор tj = (?7i,... ,г]п) = ?>?, где В — некоторая невырожденная квадратная матрица порядка п (в этом случае случайные величины гц = Ьц^х + ... + Ьгп^п задаются линейными функциями gi(x\,... ,хп) = Ьцх\ + ... + binxn). Тогда случайный вектор г[ имеет плотность распределения т. е. также распределен по нормальному закону с нулевым вектором средних ггц и матрицей ковариаций Ац = ВА^В, где 5 — матрица линейного преоб- преобразования (bij)j а В — транспонированная к В матрица. Из курса линейной алгебры известно, что всегда можно подобрать невырожденное преобразова- преобразование В таким образом, чтобы матрица Ац была единичной, т. е. вектор ц имел бы стандартное нормальное распределение. Таким образом, мы нашли второй способ (ср. с результатом параграфа 4) задания n-мерного нормального случайного вектора ?, имеющего произвольный вектор средних m и матрицу ковариаций А, с помощью n-мерного стандартного нормального вектора ц: ^ = B~lir\ + m. Отметим также, что если матрица В~х вырождена, то мы получаем так называемый вырожденный нормальный закон. ?
7. Функции от многомерных случайных величин 113 В дальнейшем нам понадобится следующее почти очевидное свой- свойство функций от случайных величин. Пусть случайные величины ?i и <^2 независимы, а функции д\(х\,х2) и д2(х\,х2) таковы, что д\(х\,х2) = д\(х\) и д2(х\,х2) = д2(х2). Тогда случайные величины т = 9i(€i>&) = 9i(€i) и 772 = 02(?ь&) = #2 F) ^акже независимы. Действительно (предполагая, например, что ?i и ^2 — непрерывные случайные величины), имеем JJ dy\ dy2 = р&Ш dy\ dy2 = )[ \ j =Fm(xi)Fm(x2). gi(yi)<X\ 92( Как и все остальные свойства, рассмотренные в настоящем параграфе, это свойство без всяких комментариев переносится на случай произ- произвольной размерности п случайного вектора ?• Пример 30. Пусть ?i,..., ?п — независимые случайные величины, рас- распределенные по стандартному нормальному закону. Тогда случайные величины ?,1,..., ?,п также независимы и распределены по закону х2 с одной степенью свободы (см. пример 12 в гл. 5) и, как следует из примера 28, случайная величина rj = ?? + ... + ^ имеет распределение х2 с п степенями свободы. Извлекая квадратный корень из г/, получаем при п = 2 и п = 3 распределения Рэлея и Максвелла (см. пример 27). ?
Глава 7 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН Мы теперь знаем, что каждая случайная величина характеризуется своей функцией распределения. С точки зрения наблюдателя, две случайные вели- величины, имеющие одинаковые функции распределения, неразличимы, несмотря на то, что они могут быть заданы на различных вероятностных пространствах и описывать разные явления. Так, при игре в «орлянку» все равно, какая (симметричная) монета бросается, и, если кто из играющих и пытается сменить монету, то это скорее дань предрассудку, нежели возможность поправить свои дела. Однако в том случае, когда случайные величины имеют различные функции распределения и их необходимо сравнить, возникает определенная трудность. Иногда эта трудность легко преодолима. Например, если в схеме Бернулли нас интересует число успехов, то из двух схем Бернулли естествен- естественно выбрать ту, в которой больше вероятность успеха. В общем же случае непонятно, как сравнивать две функции распределения, а поэтому хотелось бы характеризовать каждую случайную величину некоторым (неслучайным) числом (возможно, несколькими числами), которое и позволило бы произвести упорядочение случайных величин в определенном смысле. Такие числовые характеристики будут рассмотрены нами в этой главе. Отметим, что основную роль на практике играют математическое ожидание, характеризующее «центральное» значение случайной величины, и дисперсия, характеризующая «разброс» вокруг математического ожидания; их роль более подробно будет выяснена в следующей главе. Среди остальных характери- характеристик можно выделить те, которые применяются в специальных вероятностных дисциплинах (например, квантили широко используются в математической статистике), и те, которые носят ярко выраженный теоретический характер (моменты высших порядков). 1. Математическое ожидание случайной величины Математическим ожиданием (средним значением) Щ дискрет- дискретной случайной величины ? называется сумма произведений значе- значений Xi случайной величины на вероятности р^ = Р{? = Xi}, с кото- которыми эти значения принимаются: При этом, если случайная величина ? принимает счетное число значе- значений, то необходимо, чтобы г=1
/. Математическое ожидание случайной величины 115 в противном случае говорят, что математическое ожидание случайной величины ? не существует. Математическое ожидание дискретной случайной величины имеет аналог в теоретической механике. Пусть на прямой расположена си- система материальных точек с массами pi и пусть Xi — координата г-й точки. Тогда центр тяжести системы будет иметь координату совпадающую с математическим ожиданием М? случайной величины ?. Пример 1. Пусть ? — число угаданных номеров в «Спортлото б из 49» (см. пример 8 в гл. 5). В соответствии с рядом распределения в табл. 7 гл. 5 имеем Щ = 0 • р0 + 1 • Р\ + 2 • р2 + 3 • р3 + 4 • рА + 5 • р5 + б • р6 ^ ^ 0 • 0,436 + 1 • 0,413 + 2 • 0,1324 + 3 • 0,0176 + 4 • 0,00097 + + 5-2- 10 + 6 • 7 • 10"8^ 0,735. Таким образом, среднее число угаданных номеров равно 0,735. ? Пример 2. Найдем математическое ожидание случайной величины /х, распределенной по биномиальному закону (число успехов в п испытаниях Бернулли с вероятностью успеха р)\ A) г=0 г=0 г=0 п-1 = пр^2 Pn-i(j) = np. D Пример 3. Пусть ? имеет распределение Пуассона. Тогда оолг сю \г—1 °° \3 M? = Yi±-e-x = \Y ^—- е"л = \У *- е"А = AeVA = A. г=0 ^ г=1 ^ ^- j=0 J- Таким образом, параметр Л пуассоновского распределения совпадает с матема- математическим ожиданием. ? Пример 4. Математическое ожидание геометрически распределенной случайной величины ? имеет вид ?
116 Гл. 7. Числовые характеристики случайных величин Пример 5. Положительная целочисленная случайная величина ? имеет закон распределения pi = Р{? = г} = 1/[г (г + 1)] (г = 1,2,...). Тогда 5пи гн и, значит, математическое ожидание случайной величины ? не существует. ? Для определения математического ожидания непрерывной случай- случайной величины ?, имеющей плотность распределения р(х), заметим, допуская некоторую вольность изложения, что случайная величина ? принимает значение х с вероятностью р(х) dx. Заменяя сумму на ин- интеграл, получаем: математическим ожиданием (средним значением) М? непрерывной случайной величины ? называется интеграл оо г Щ = хр(х) dx. В этом случае условием существования математического ожидания яв- является ^ \х\р(х) dx < оо. Так же, как и в дискретном случае, математическое ожидание непре- непрерывной случайной величины можно интерпретировать как центр тяже- тяжести стержня, плотность массы которого в точке х равна р(х). Пример 6. Найдем математическое ожидание равномерно распределен- распределенной на отрезке [а, Ь] случайной величины ?. Поскольку в этом случае р(х) = О при х < а и х > Ь, то 7 / ч , _ Г х _ 1 1 ( 2 _ 2)_Ь + а J хр[Х) х — j ь_а х—ь_а 2^ <*> ) — 2 -оо а Как и следовало ожидать, М? совпадает с центром отрезка [а, Ь]. ? Пример 7. Математическое ожидание случайной величины ?, распре- распределенной по нормальному закону со средним т и средним квадратичным отклонением а, определяется формулой Делая замену у = (ж — т)/а, получаем оо оо J V2^ У J 72^ У J /2^ — ОО оо оо Г - 2/2 Г уе у ' dy + m \ <р(у) dy. J J
2. Математическое ожидание функции от случайной величины 117 Нетрудно видеть, что первый интеграл равен нулю, а второй равен единице как интеграл от плотности стандартного нормального распределения. Таким образом, Щ = ш, откуда и пошло название параметра т — среднее значение (второе название математического ожидания). ? Пример 8. Пусть ? — случайная величина, распределенная по закону Вейбулла. Тогда, поскольку р(х) = 0 при х < О, то оо оо М?= [ xp(x)dx= [ аРхРе~ах/3 dx. -оо О Делая замену у = ах^3, получаем j оо j f l/i3 ^ ? X dy = сГД f yl/i3e-y dy = «"ДГ(-^ + l). о о Пример 9. Математическое ожидание случайной величины ?, имеющей гамма-распределение, задается выражением оо О Делая замену у = Аж, получаем о Пример 10. Случайная величина ? имеет плотность распределения Коши р(х) = 1/[тгA +хJ]. Тогда оо х\ dx 7ГA+Х2) — оо и математическое ожидание ? не существует. ? В общем случае математическое ожидание случайной величины задается выражением ^ М? = [ х dF(x), — сю где интеграл понимается в так называемом смысле Стилтьеса. Посколь- Поскольку мы рассматриваем только дискретные и непрерывные случайные величины, последнее выражение можно трактовать как обобщенную запись формул для математических ожиданий дискретной и непрерыв- непрерывной случайных величин. 2. Математическое ожидание функции от случайной величины. Свойства математического ожидания Прежде чем переходить к описанию свойств математического ожи- ожидания случайной величины, позволяющих, как будет видно из приме- примеров, в ряде случаев существенно упростить его вычисление, определим математическое ожидание функции от случайной величины (случайно-
118 Гл. 7. Числовые характеристики случайных величин го вектора). Итак, пусть г] = д(?) — функция от случайной величины. Для определения Мт? = М#(?) можно было бы сначала по формулам параграфа 5 гл. 5 найти распределение случайной величины г] и за- затем уже, воспользовавшись определениями предыдущего параграфа, вычислить Mr]. Однако мы применим другой, более удобный подход. Рассмотрим сначала дискретную случайную величину ?, принимаю- принимающую значения Х\,... ,Хп. Тогда случайная величина г\ = #(?), как мы знаем, принимает значения д(Х\),... ,д(Хп) с теми же вероятностями Pi = Р{? = Xi}, и ее математическое ожидание определяется формулой г=\ Если случайная величина ? принимает счетное число значений, то математическое ожидание ? определяется формулой г=1 но при этом для существования математического ожидания необходимо выполнение условия f г=1 Пример 11. Определим математическое ожидание выигрыша rj в «Спорт- «Спортлото б из 49» (см. пример 9 в гл. 5). Поскольку rj является функцией от случайной величины ? — числа угаданных номеров, то, воспользовавшись формулой для математического ожидания функции от случайной величины и рядом распределения в табл. 7 из гл. 5, имеем О)Р{е = 0} + яA)Р{? = 1} + #B)Р{е = 2} + = 3} + дD)Р{? = 4} + #E)Р{е = 5} + дF)Р{? = 6} - ^ -0,3 • @,436 + 0,413 + 0,1324) + 2,7 • 0,0176 + 54,7 • 0,00097 + + 699,7 • 2 • 10~5 + 9999,7 • 7 • 10~8 ^ -0,179. Таким образом, математическое ожидание выигрыша отрицательно и равно примерно 18 коп., а это значит, что играющий в среднем проигрывает больше половины стоимости билета C0 коп.). Естественно, мы получим то же зна- значение М?7, если воспользуемся рядом распределения случайной величины г], представленным в табл. 10 из гл. 5. ? Аналогично, для непрерывной случайной величины ?, имеющей плотность распределения р(х), математическое ожидание случайной величины г] = #(?) определяется выражением = J g(x)p(x)dx,
2. Математическое ожидание функции от случайной величины 119 причем и здесь должно быть выполнено условие \g(x)\p(x) dx < оо. В дальнейшем, чтобы каждый раз не оговаривать условие суще- существования математического ожидания, будем предполагать, что соот- соответствующие сумма или интеграл сходятся абсолютно. Математическое ожидание функции от многомерной случайной ве- величины определяется точно так же. Так, математическое ожидание М77 функции tj = д(^\,^2) от дискретной и непрерывной двумерных случайных величин (?1,^2) задается выражениями Mr] = M#(?i,?2) = f f g(x,y)p^,^2(x,y)dxdy. — сю —сю Теперь мы в состоянии вывести свойства математического ожи- ожидания. Если случайная величина ? принимает всего одно значение с с ве- вероятностью, равной единице (т. е. по сути дела является неслучайной величиной), то 1. Мс = с • 1 = с. Далее, найдем математическое ожидание случайной величины г] = а? + Ь (д(х) = ах + Ь). Рассматривая, например, непрерывный случай, имеем сю сю сю г г г Mr] = М(а? + Ь) = (ах + h)pAx)dx = а жр^(ж) cb + Ъ\ pt(x)dx, J J J — сю —сю —сю т. е. Аналогично свойство 2 доказывается для дискретной случайной величины ?. Пусть теперь г] = ?i +?2 (#(#ь#2) — ^1 +^2)- Тогда (теперь уже на примере дискретной случайной величины) М?7 = M(?i + ?2) — JZ(^ ^ Yj)pij =^2 Xipij + ^ I} p^- = Лг Z^ Pij * 1^ 3 2.^ Pij = 2^ iP^i * 2.^ J РЫ i j j i i j и, значит, К свойству 3 можно сделать следующее замечание: математическое ожидание суммы случайных величин может существовать даже тогда,
120 Гл. 7. Числовые характеристики случайных величин когда математические ожидания обоих слагаемых не существуют. Так, М(? ~~ 0 = МО = 0 несмотря на то, что М? может и не существовать. Очевидно также, что свойство 3 обобщается на случай произвольного числа п слагаемых. Наконец, если ?i и <^2 независимы, то для математического ожида- ожидания их произведения г\ = <^2 (д(х\,Х2) — Х\Х2) имеет место формула (снова обращаясь к непрерывному случаю) — сю —сю сю сю [ [ — сю —сю Поэтому 4» М(^1^) = M^iM^2 для независимых случайных величин ?1 ^ ^2- И это свойство допускает обобщение на произведение любого числа независимых (в совокупности) сомножителей. Пример 12. Математическое ожидание случайной величины ?, распре- распределенной по стандартному нормальному закону, имеет вид [ хф)с1х= \ J J л/2тг = 0. В примере 13 из гл. 5 показано, что случайная величина rj = at; + m рас- распределена по нормальному закону с параметрами m и а. Таким образом, по свойству 2 математического ожидания М77 = сгМ? + m = m и соответственно параметр m нормального закона является математическим ожиданием. Этот же результат был нами получен прямыми вычислениями в примере 7. ? Пример 13. Представим число успехов /х в схеме Бернулли из п ис- испытаний в виде /х = /xi + ... +/хп, где /Хг — число успехов в г-м испытании. Нетрудно видеть, что М/Хг = 0 • q+ I • р = р. Значит, по свойству 3, М/х = M/xi + ... + М/хп = пр, что совпадает с результа- результатами примера 2, но получено с минимальными вычислениями. ? 3. Дисперсия. Моменты высших порядков Математическое ожидание не всегда является достаточно удовле- удовлетворительной характеристикой случайной величины. Например, играть в орлянку можно по копейке, по рублю и даже по 1000 руб. При любой (одинаковой) ставке игроков и симметричной монете математическое ожидание выигрыша каждого игрока равно нулю, однако далеко не каждый не только рискнет, но и просто сможет вверить «глупой»
3. Дисперсия. Моменты высших порядков 121 монете 1000 руб. Поэтому наряду со средним значением нужно иметь и число, характеризующее «разброс» случайной величины вокруг свое- своего среднего. Такой характеристикой обычно служит дисперсия. И дело тут не только в том, что дисперсия является единственной мерой степени разброса (существует бесконечно много таких характеристик, в частности, центральные моменты любого четного порядка, которые также будут определены в этом параграфе; кроме того, сама дисперсия не всегда является хорошим показателем степени разброса). Использо- Использование дисперсии и других характеристик второго порядка (ковариаций) позволяет применить в теории вероятностей сильно развитый аппарат гильбертовых пространств. Особо важную роль этот аппарат играет в теории так называемых стационарных в широком смысле случайных процессов, которые в свою очередь являются основной математической моделью в ряде практических приложений. Вторым (начальным) моментом т^ случайной величины ? назы- называется математическое ожидание квадрата ? (д(х) = х2)\ для дискретной величины ? и сю т2 — М^2 = х2р(х) dx — сю — для непрерывной. Дисперсия D^ дискретной и непрерывной случайных величин определяется соответственно формулами (д(х) = (х — СЮ = М(? - ЩJ = f О - ЩJр(х) dx. Дисперсия Dt; представляет собой второй момент случайной величи- величины ?, из которой вычтено ее математическое ожидание М?, т. е. цен- центрированной (имеющей нулевое математическое ожидание) случайной величины ? = ? — М?. Поэтому иногда дисперсию называют вторым центральным моментом. Дисперсия также имеет аналог в теоретической механике — цен- центральный (относительно центра тяжести) момент инерции, характери- характеризующий разброс массы относительно центра тяжести. Выведем некоторые свойства дисперсии. Если случайная величина ? с вероятностью, равной единице, прини- принимает всего одно значение с, то из свойства 1 математического ожидания (М? = с) получаем
122 Гл. 7. Числовые характеристики случайных величин 1. D? = M(?-cJ = (c-cJ- 1 =0. Можно показать, что справедливо и обратное: дисперсия случайной величины ? равна нулю тогда и только тогда, когда ? с вероятностью, равной единице, принимает всего одно значение. Определим дисперсию случайной величины г] = at^ + Ъ. Используя свойство 2 математического ожидания, имеем Dr] = М(г]-Мг]J = М[< + 6-М« + 6)]2 = М« + Ь - аЩ - ЬJ = = М [а(? - М^)]2 = М [а2(? - М^J] = а2М(? - 2 Поэтому 2. D« + 6) = a2D?. Далее из свойств 2 и 3 математического ожидания получаем D? = M(f - М^J = М [?2 - 2^М^ + (М^J] = М^2 - 2(М^J т. е. 3. D^ = ш2 - (МО2. Свойство 3 дает весьма удобную формулу для расчета дисперсии дискретной случайной величины с помощью ЭВМ или микрокалькуля- микрокалькулятора. Действительно, если бы мы производили вычисления дисперсии по первоначальной формуле, нам пришлось бы два раза суммировать по г\ первый раз при подсчете математического ожидания и второй — дисперсии. Свойство 3 позволяет обходиться одним циклом: мы можем одновременно суммировать с весами pi и сами значения случайной величины, и их квадраты. Наконец, пусть ? и г] — независимые случайные величины. Тогда, используя независимость случайных величин ? = ? — М^ и f) = г] — Mr], а также свойства 2-4 математического ожидания, получаем г]) = М[? + г] - М(? + г])}2 = М[(? - М?) + (ту - Mr?)]2 = - М?J + 2M[(f - МО (г/ - Mr/)] + М(т/ - Mr?J = Значит, 4. D(? + 77) = D? + Dry ^тгя независимых случайных величин ?, и г]. Очевидно, что свойство 4 справедливо для суммы не только двух, но и любого числа п попарно независимых слагаемых. Заметим, что дисперсия D? имеет размерность квадрата размер- размерности случайной величины ?. Для практических же целей удобно иметь меру разброса, размерность которой совпадает с размерностью ?. В качестве такой меры естественно использовать а = у/Щ, которую на- называют средним квадратичным отклонением случайной величины ? (иногда также стандартом или стандартным отклонением).
3. Дисперсия. Моменты высших порядков 123 Пример 14. Найдем дисперсию случайной величины ?, распределенной по закону Пуассона. Для этого воспользуемся свойством 3 дисперсии. Мате- Математическое ожидание Щ = Л было найдено в примере 3. Определим второй момент: оо\г о° \г—1 °° \? л л/-2 \~^ -2 ^ —Л л V^1 -А —X Л v-^1 / • , i\ ^ —Л м? =Ег -fe =лЕгт—rve =A5> + 1)-re = г=0 и г=1 (l 1>- j=0 J- 3=0 3=0 J' Таким образом, D? = Л2 + Л - Л2 = Л и, значит, дисперсия ?, так же, как и математическое ожидание, совпадает с параметром Л. ? Пример 15. Пусть ц — число успехов в п испытаниях Бернулли. Дисперсию /х можно подсчитать так же, как в примере 2 было подсчитано математическое ожидание: воспользовавшись непосредственным определением дисперсии. Однако мы поступим другим образом. Для этого снова (см. при- пример 13) представим ц в виде суммы ц = ц\ + ... + цп. Дисперсия каждого слагаемого равна D/x, = @- MfizJq+ (I - MfizJp=(-pJq+(\-pJp = = p2q + qp = pq(p + q)= pq. Учитывая, что \ii независимы, и воспользовавшись свойством 4 дисперсии, получаем D/x = D/xi + ... + D/in = npq. ? Пример 16. Дисперсия равномерно распределенной на отрезке [а,Ь] случайной величины ? определяется формулой _ 1 Г/ 6 + а\3 / 6 + а\31 _ ~ 3F-а) 1Л ~ 2 ) ~ \а ~ 2 ) \ ~ F-аK _ (Ъ - аJ I—I 3F- а) LV 2 У V 2 ) \ 12F-а) 12 Пример 17. Дисперсия случайной величины ?, распределенной по нор- нормальному закону с параметрами т и а, имеет вид (ж — га) () е сгл/2тг —оо Г 2 Г (ж га) D? = (х-т) (pmtG(x)dx= -—^=-е 2а2 dx. J J / — оо Делая замену у = (ж — т)/а, получаем
124 Гл. 7. Числовые характеристики случайных величин Полагая v = у/л/2тг, du = уе~у /2 dy и интегрируя по частям, находим Таким образом, дисперсия нормально распределенной случайной величины сов- совпадает с квадратом второго параметра. Этого и следовало ожидать, поскольку а носит название среднего квадратичного отклонения. ? Пример 18. Для определения дисперсии случайной величины ?, имею- имеющей гамма-распределение, воспользуемся свойством 3 дисперсии. Тогда О или после замены у = Хх оо е у dy = —У = о—- • Л2ГG) Л2 и Вспоминая (см. пример 9), что М? = ^у/Х, окончательно получаем и Л Л Л Пример 19. Пусть ? — случайная величина, имеющая дисперсию D?. Введем новую случайную величину rj = ? — а. Найдем число а, доставляющее минимум Mrj. Воспользовавшись свойствами 2 и 3 дисперсии, имеем Mr]2 = D77 + (Мт?J = D? + (Mf - аJ. Первое слагаемое от а не зависит, а второе принимает минимальное значение, равное 0, при а = М?. Таким образом, в качестве а нужно взять М?, а само минимальное значение М772 совпадает с дисперсией D?. ? В некоторых теоретических исследованиях встречаются моменты высших порядков. Моментом т^ порядка к (к-м моментом) называется матема- математическое ожидание k-й степени случайной величины ? (д(%) = хк): оо f xkp(x) dx, если ^ — дискретная случайная величина, и оо 171k = M?fc = — сю если ? непрерывна. Иногда к-и момент называют также начальным моментом fc-ro порядка. Центральным моментом rhk порядка к (к-м центральным момен- моментом) называется математическое ожидание k-й степени случайной величины ? = ? — М? (д(х) = (х — M?)fc): rhk = M (? -
4. Ковариация и корреляция случайных величин 125 rhk = М (? - M?f = [ (х - M?f p(x) dx — оо соответственно для дискретной и непрерывной случайных величин ?. Момент первого порядка совпадает с математическим ожиданием, центральный момент первого порядка равен нулю, центральный момент второго порядка является дисперсией. Отметим также, что в теорети- теоретических изысканиях рассматриваются моменты не обязательно целого порядка к. 4. Ковариация и корреляция случайных величин Пусть (?ь?2) — двумерный случайный вектор. Будем называть ковариацией cov({;\,{;2) случайных величин ?i и ?2 математиче- математическое ожидание произведения центрированных случайных величин ?\ =6 "Мб ui2 = ?, -М?2: cov(?i,&) = М&& = М [F - M?i)(& - М&)] ¦ Как обычно, выпишем последнее выражение для дискретного и непрерывного случайных векторов (?ь?2): сю сю — oo —oo Ковариация обладает следующими свойствами: Если ?i и ^2 независимы (и имеют математические ожидания), то и, значит, 2. covF,6) — 0 ^л независимых случайных величин ?\ и б- Как видно из свойства 2, ковариация независимых случайных вели- величин равна нулю. Однако обратное, вообще говоря, неверно. Существу- Существуют зависимые случайные величины, ковариация которых также равна нулю. Далее, пусть rj\ = а\?\ + Ь\, щ = а2^2 + &2- Тогда cov(r/i,r/2) = M[(r/i - M?7i)(r72 - М772)] = + Ь\ - а\Щ\ -
126 Гл. 7. Числовые характеристики случайных величин Поэтому 3. cov(?7i, 772) — aia2 cov(^b ?2)- Наконец, рассмотрим дисперсию случайной величины г]х = х?\ — <^2, где х — произвольное число. По свойствам дисперсии Drjx = x2D^ - 2zcov(?i,?2) + D6- Как функция от х дисперсия Drjx представляет собой квадратный трех- трехчлен. Но дисперсия любой случайной величины не может быть меньше нуля, а это означает, что дискриминант [2cov(?i,^2)]2 ~4D?iD<^2 квад- квадратного трехчлена Drjx неположителен, т. е. 4. -VD&D& < cov(?b?2) < VD&D& . Более того, если дискриминант равен нулю, то уравнение 2 ?2) + D?2 = О имеет решение х$. Тогда Dr]Xo = 0 и, значит, г]Хо = с, ^2 = ^od — с- В этом случае нетрудно видеть из свойства 3, что если коэффициент пропорциональности xq положителен, то cov(?i,?2) — л/^^i^^2 > а если отрицателен, то cov(^i,^2) — ~л/^1^2 • Таким образом, 5. cov(^i,^2) = ±a/D^iD^2 тогда и только тогда, когда случай- случайные величины ?1 ^ <^2 линейно зависимы. Наконец, раскрывая скобки в формуле, определяющей ковариацию, и используя свойства математического ожидания, получаем Последнее свойство часто бывает полезным при численном подсчете ковариации. Заметим теперь, что введение ковариации позволяет выписать вы- выражение для дисперсии произвольных (а не только независимых) слу- случайных величин и к четырем уже известным свойствам дисперсии (см. параграф 3) можно добавить еще одно: 5. D(? + г]) = D^ + D77 + 2 cov(^, 77), справедливое для произвольных (а не только независимых) случайных величин ? и г]. В общем случае n-мерного случайного вектора (?i,...,?n) матри- матрицей ковариации (ковариационной матрицей) называется матрица А = (cov(?i,?j)), состоящая из ковариации случайных величин ^ и ?j. Пример 20. Рассмотрим двумерную случайную величину (?,77), распре- распределенную по нормальному закону (см. пример 16 в гл. 6). Тогда cov(?, г]) = 2 2р(х-т{)(у-т2)
4. Ковариация и корреляция случайных величин 127 Делая замену и = (ж — т\)/(т\, v = (у — гп2)/сг2, получаем оо оо /- \ Г Г UV -7771 2\(u2-2puv+v2) ?, 77) = GiG2 p. 2U-p ) dudv = = G1G2 —j= в 2 __ e 2(l-p ) dvdUm — oo —oo V Внутренний интеграл равен pi/. Поэтому oo _ , f W2 _^ , COV(?, 77) = p G1G2 в 2 dU = p(J\(J2- J л/2тг — 00 Поскольку D? = <7i, D77 = erf, то матрица А представляет собой ковариацион- ковариационную матрицу (в данном случае название «ковариационная матрица» мы ввели раньше, нежели выяснили смысл этого понятия). Аналогично, в общем случае n-мерного нормального случайного вектора (?ь--->?п) элементы ац ковариационной матрицы А являются ковариациями случайных величин ^ и ?j. ? Пример 21. Пусть ?i — число очков, выпавших на одной игральной кости, а ^2 — на другой. Рассмотрим случайные величины 771 = ?i + ?2 (сумма очков на обеих костях) и 772 = ?i — ?2 (разность очков). Тогда cov(t7i, 772) = М [(?i + ?2 — M?i — M^X^i ~ ^2 ~~ M?i + M^)] — = М Случайные величины ^i и ^2 одинаково распределены (и даже независимы), и, значит, D?i = D^2, 0(^G71,772) — 0- Однако несмотря на это, 771 и 772 зависимы, поскольку, например, из равенства 771 = 2 (такое может произойти только при выпадении по одному очку на каждой кости) обязательно следует равенство 772 = 0. ? Итак, ковариацию можно считать мерой независимости случайных величин (хотя и не очень хорошей, так как можно ввести другие, заведомо лучшие показатели независимости; оправданием повсемест- повсеместного применения ковариации служит то, что она также относится к числу характеристик второго порядка). Существенным недостатком ковариации является то, что ее размерность совпадает с произведением размерностей случайных величин. Естественно, нужно иметь безраз- безразмерную характеристику независимости. Ее очень просто получить, для этого достаточно поделить ковариацию на произведение средних квадратичных отклонений. Коэффициентом корреляции случайных величин ? и rj называет- называется число р = р(?,г]), определяемое выражением Л_ cov(f,77) Коэффициент корреляции является уже безразмерной величиной.
128 Гл. 7. Числовые характеристики случайных величин Выпишем его свойства, аналогичные свойствам ковариации: Если ? и г] независимы (и существуют D(>0 и Dry > 0), то 2.Ж.»?) = 0. Далее, пусть щ = а\^\ + Ьь 7/2 — а2^2 + ^2 (а1 7^ 0» а2 7^ 0)- Тогда 3. /0G71,772) =aia2cov(?i,?2)/yai D?i • а| D^2 = ±Жь<Ы- При этом знак плюс надо брать тогда, когда а\ и а2 имеют одинаковые знаки, и минус — в противном случае. Наконец, 4. -1<Ж^)<1. 5. p(?,rj) = ±1 тогда и только тогда, когда случайные величи- величины ? и г] линейно зависимы. Можно сказать, что коэффициент корреляции р отражает степень линейной зависимости случайных величин ? и ту. С возрастанием ? случайная величина ту имеет тенденцию к увеличению при р > 0 и к уменьшению при р < 0. Поэтому при р > 0 говорят о положи- положительной корреляционной зависимости ? и ту, при р < 0 — об отри- отрицательной. Например, рост и вес человека связаны положительной корреляционной зависимостью, а температура и время сохранности продукта — отрицательной. Если р = 0, то случайные величины ? и ту называются некоррелированными. Пример 22. Найдем коэффициент корреляции случайных величин ? — числа очков, выпавших на верхней грани игральной кости, и rj — на нижней (пример 7 из гл. 6). Для этого сначала вычислим М?, М77, D?, D77 и cov(?, 77). Воспользовавшись табл. 3 из гл. 6, имеем: D? = Dt? = A - 3,5J • i + B - 3,5J • I + C - 3,5J • i + 0 0 0 + D-3,5J-i + E-3,5J-i + F-3,5J-i = g, cov(?, г]) = A - 3,5)A - 3,5) • 0 + B - 3,5)A - 3,5) • 0 + ... + + F - 3,5)A - 3,5) • - + A - 3,5)B - 3,5) • 0 + ... + б + E - 3,5)B - 3,5) • - + (б - 3,5)B - 3,5) • 0 + ... + 6 + D - 3,5)C - 3,5) . I + ... + C - 3,5)D - 3,5) • i + ... + о о + B - 3,5)E - 3,5) . 1 + ... + A - з,5)F - 3,5) -\ = ~- Таким образом, р = (—35/12)/C5/12) = — 1. Впрочем, это мы могли бы уста- установить и без всяких вычислений по свойству 5 коэффициента корреляции, если
5. Условное математическое ожидание. Регрессия 129 бы вспомнили, что сумма чисел очков на противоположных гранях равна семи и, значит, ? = 7 — rj (? и 7/ связаны линейной зависимостью с отрицательным коэффициентом пропорциональности). ? Пример 23. (Задача о наилучшем линейном прогнозе). Пусть (?1,^2) ~~ двумерная случайная величина. Рассмотрим новую случайную величину rj = = &-(zfi+a). Попытаемся подобрать числа ж и а, доставляющие Mr]2 минимальное зна- значение. Из свойств дисперсии и математического ожидания имеем Mr]2 = Щ + (Мт?J = [Dfi -2хсоя{?и&)+х2Щ + [Щ2 - (хЩ2 + a)]2. Дифференцируя D77 no x и приравнивая производную нулю, получаем, что минимальное значение Dr/ достигается при хо = cov(?i,?2)/D?2 и равно Полагая теперь ао = М^2 — ^oM?2, получаем минимальное значение второго слагаемого, равное нулю. Окончательно имеем: минимальное значение Mr]2, равное достигается при Таким образом, коэффициент корреляции тесно связан с задачей наи- наилучшего линейного приближения одной случайной величины другой, о чем говорилось выше. ? Замечание. Рассмотренная задача имеет очень простую трактовку в тер- терминах наилучшего линейного прогноза. Действительно, пусть нам известно значение случайной величины ?i и мы хотим построить по этому значе- значению наилучший в смысле среднего квадратичного отклонения линейный про- прогноз ?2 случайной величины ?г- Тогда этот прогноз определяется формулой V = жоб + ^о, где хо и ао определены выше и выражаются только через моменты случайных величин ?i и ?2 первого и второго порядка. В частности, при р(?ь?2) = 1 прогноз будет точным (М772 = 0), а при р(?ь?2) = 0 — состоит только в указании среднего значения ао = М?2 (жо = 0)- Это еще раз подтверждает тезис о том, что коэффициент корреляции является мерой линейной зависимости случайных величин ?i и ?2. 5. Условное математическое ожидание. Регрессия Пусть (?,7/) — двумерная случайная величина. В соответствии с результатами параграфа 5 гл. 6 (так как мы рекомендовали при первом прочтении пропустить этот параграф, то необходимо вернуться к нему и изучить изложенный там материал) можно определить услов- условную функцию распределения случайной величины ? при условии, что случайная величина г] приняла определенное значение у. Поскольку условная функция распределения обладает всеми свойствами обычной (безусловной) функции распределения, то по ней можно определить 5 П. П. Бочаров, А. В. Печинкин
130 Гл. 7. Числовые характеристики случайных величин математическое ожидание, которое естественно назвать условным ма- математическим ожиданием. Для простоты изложения ограничимся здесь только случаями дискретной и непрерывной двумерных случай- случайных величин (?, г]). Начнем со случая дискретной случайной величины (?,rj). Пусть случайная величина ? может принимать только значения Х\,... ,Хп, а случайная величина г] — только значения Y\,... ,Ym. При каж- каждом j рассмотрим условные вероятности тг^- = Р{? = Xi \ г] = Yj} = = Р{? = Xi,r] = Yj}/P{tj = Yj} = Pij/pvj случайной величине ? при- принять значение Xi при условии r\ = Yj (см. параграф 5 гл. 6). Назовем значением условного математического ожидания случайной величи- величины ? при условии rj = Yj число г=1 По аналогии с (безусловным) математическим ожиданием значение условного математического ожидания при условии rj = Yj описывает «среднее» значение случайной величины ?, но только при условии, что случайная величина г] приняла значение Yj. Из приведенного определения видно, что значение М(? | г] = Yj) условного математического ожидания зависит только от значения Yj случайной величины г\. Поэтому само условное математическое ожи- ожидание случайной величины ? относительно случайной величины г\ естественно определить как функцию М(? | r\) = g(rj) от случайной величины, т. е. тоже как случайную величину. Область определения функции д(у) совпадает со значениями Y\,...,Ym случайной величи- величины г], а каждому значению Yj аргумента у ставится в соответствие число g(Yj) = M(Z\ г, = Yj). Пример 24. Пусть ц\ и \i^ — числа успехов в первом и втором испыта- испытаниях Бернулли с вероятностью успеха р. Найдем M(/xi | /х2). Воспользовавшись табл. 5 из гл. 6, имеем 2 =0) =0-q+l -p = p, 2=l)=O-q+l-p = p. D Пример 25. Найдем условное математическое ожидание М(?|7у) случай- случайной величины ? — числа очков, выпавших на верхней грани игральной кости, относительно случайной величины г] — числа очков, выпавших на нижней грани (см. пример 13 из гл. 6). В соответствии с приведенной там же табл. 6, получаем: М(?|т7 = 6) = Ы+2-0 + 3-0 + 4-0 + 5-0 + 6-0=1. ? Условное математическое ожидание М(?|7/) обладает следующими свойствами:
5. Условное математическое ожидание. Регрессия 131 1. М(с| rj) = с. 2. М« + 6| г]) = Они аналогичны свойствам безусловного математического ожидания (разумеется, арифметические действия понимаются теперь уже не как действия над числами, а как действия над функциями, определенными для всех значений случайной величины rf). Свойство 4- M(?,-&|»?) = M(?i|»j)MF|r?) также имеет место, но при этом требование независимости случайных величин ?i и ?2 нужно заменить требованием, которое называется условной независимостью случайных величин ?i и & при условии случайной величины г]. Кроме того, справедливы дополнительные свойства: 5. М? = 6. М[/@ • h(ri) | г]} = Л(г/)М[/(О | г/], где /@ ^г h{rj) - {произволь- {произвольные) функции от случайных величин ? и rj. 7. М(? 177) = М^, если ? и rj независимы. Докажем последние три свойства. Действительно, из определений математического ожидания и услов- условного математического ожидания имеем i=\ что доказывает свойство 5. Далее, случайная величина /(^) • h(rj) принимает значение f(Xi) x х h(Yj), когда ? принимает значение Xi и г] — значение Yj, и, следова- следовательно, для каждого j v = yj\ = 2_ n = h(Yj) J2 /№) mi = KYjMm i v = Yj}, откуда вытекает свойство 6. 5*
132 /л. 7. Числовые характеристики случайных величин Наконец, используя условие независимости случайных величин ? и ту, выраженное в терминах условного распределения (см. параграф 6 гл. 6), находим откуда следует справедливость свойства 7. Пример 26. Еще раз вычислим M(/xi|/x2) (см. пример 24), но теперь уже воспользуемся свойством 7 условного математического ожидания. Тогда, поскольку ц\ и /х2 независимы, то M(/xi | /х2) = M/xi = р. П Пример 27. Снова обратимся к примеру 25. Так как сумма очков на противоположных гранях игральной кости равна 7, то ? = 7 — ту. Представим ? в виде ? = 1 • G — ту). Воспользовавшись теперь свойством б, в котором поло- положено f(x) = 1, h(y) = 7 — у, получаем М(? | rj) = М[1 • G — rj) | rj\ = G — гу)МA | ту) = 7 — ту, т. е. мы пришли к тому же результату, что и ранее, но практически без вычис- вычислений. ? В случае непрерывной двумерной случайной величины (^г]) зна- значение условного математического ожидания случайной величины ? при условии г] = у определяется формулой М(? | tj = у) = хрАх \ tj = у) dx, — сю где р^(х \ rj = у) = p(x,y)/pv(y) — условная плотность распределения случайной величины ? при условии ту = у. И в этом случае условное математическое ожидание М(? | ту) случайной величины ? относительно случайной величины ту определяется как функция g(r]) = М(?| ту) от случайной величины ту, принимающая значение д(у) = М(? | ту = у) при г] = у. Читателю советуем самостоятельно проверить, что свойства условного математического ожидания, выведенные для дискретного случая, остаются справедливыми и в непрерывном. Пример 28. Пусть (?, ту) ~ двумерная нормальная случайная величина (пример 16 из гл. 6). Найдем условное математическое ожидание М(?|ту). То- Тогда, как было показано в том же примере, условное распределение ? при усло- условии ту = у является нормальным со средним значением т\ + рсг\(у — ттг2)/сг2 и, согласно определению, М(? | ту) = тп\ + рсг\(г] — ш2)/сг2. ? Резюмируя вышеизложенное, можно сказать, что зависимость по- поведения «в среднем» случайной величины ? от значения случайной величины г] характеризуется функцией д(у) = М(? | г] = у). Функция д(у) называется также функцией регрессии или просто регрессией случайной величины ? на случайную величину ту, а ее график — линией регрессии (случайной величины) ? на (случайную величину) г]. Линия регрессии дает наглядное изображение зависимости «в среднем» случайной величины ? от значения случайной величины г].
6. Другие числовые характеристики случайных величин 133 Пример 29. Регрессия д(у) = М(? \ rj = у) случайной величины ? на случайную величину rj для двумерной нормальной случайной величины (?,7?) (см- пример 28) является линейной функцией а + by, где а = т\ — — m2p<J\/(J2, а 6 = рст\/G2- Очевидно, линия регрессии ? на г\ представляет собой прямую. ? 6. Другие числовые характеристики случайных величин В этом параграфе мы дадим краткое описание некоторых других применяемых на практике числовых характеристик случайных вели- величин. Отметим, что эти характеристики, как и все остальные, рассмат- рассматриваемые в настоящей главе, по сути дела являются характеристика- характеристиками распределений случайных величин. Асимметрией 71 случайной величины ? называется отношение третьего центрального момента тз к кубу среднего квадратичного отклонения а: 71 = тз/сг3. Нетрудно видеть, что (при условии суще- существования третьего момента) для симметрично распределенной отно- относительно математического ожидания (Р{? < М? — х} = Р{? > М? + х} для любого х) случайной величины ? асимметрия равна нулю. Эксцессом 72 случайной величины ? называется отношение чет- четвертого центрального момента т^ к квадрату дисперсии за вычетом числа 3: 72 — ш^/аА — 3. Ясно, что асимметрия и эксцесс являются безразмерными величи- величинами. Пример 30. Вычислим асимметрию и эксцесс нормального закона. По определению, Г = (ж — т) J ОО ОО г, Г 4 Г (х — т)А - (ж~т) = (х — Ш) (Рт,а(х) dx = в 2сг2 (ix. J ' J (тл/2тг ?7l4 — оо —оо Делая замену у = х — т, имеем оо 1 f 3-/ Ш3 = —= \ У в 2а откуда в силу нечетности подынтегральной функции следует, что тз = 0 и асимметрия 71 — 0. Для того чтобы найти Ш4, применим формулу интегрирования по частям. Полагая и = (х — 7пK/л/2тг и dv = (х — т)е~(х~ш^ ^2cr ^dx/a, имеем
134 Гл. 7. Числовые характеристики случайных величин Воспользовавшись теперь результатом примера 17, окончательно получаем, что 7714 = Зсг4 и, следовательно, эксцесс 72 = 0. Таким образом, для нормального закона асимметрия и эксцесс равны нулю. В математической статистике асимметрия и эксцесс обычно служат для первой проверки распределения случайной величины на нормальность. ? а-квантилъю Qa @ < а < 1) случайной величины ? называется число, удовлетворяющее неравенствам Р{? < Qa} < а и Р{? > Qa} < < 1 — а. Квантили находят самое широкое применение в математиче- математической статистике при построении доверительных интервалов и проверке статистических гипотез. 1/2-квантиль называется также медианой М случайной величины ?. Пример 31. Найдем а-квантиль экспоненциального распределения. В этом случае Qa представляет собой решение уравнения F(Qa) = а, т.е. уравнения 1 — e~XQcx = а (рис. 1). Поэтому Qa = — ln(l — а)/Х. Ясно, что медиана экспоненциального распределения М = 1п2/А. Если трактовать экспо- экспоненциальное распределение как распределение времени распада атома (см. па- параграф 4 гл. 5), то медиана представляет собой период полураспада. ? /¦V) 11 Чч ¦' о 1 .г Рис. 1 Рис. 2 Пример 32. Пусть случайная величина \i представляет собой число успехов в одном испытании Бернулли с вероятностью успеха р. Тогда (рис. 2) Qa = 0 при 0 < а < q, Qa = 1 при q < a < 1, а g-квантилью является любое число от 0 до 1. Этот пример показывает, что, во-первых, квантили могут совпадать для разных а, во-вторых, для некоторых а соответствующие квантили могут опре- определяться неоднозначно. ? Модой непрерывной случайной величины называется точка (ло- (локального) максимума плотности распределения р(х). Различают уни- унимодальные (имеющие одну моду), бимодальные (имеющие две моды) и мулыпимодальные (имеющие несколько мод) распределения. Для определения моды дискретной случайной величины предполо- предположим сначала, что ее значения Х\,... ,Хп расположены в порядке воз- возрастания. Тогда модой дискретной случайной величины называется такое значение Xi, что p^-i < Pi и Рг+i < Pi- И в дискретном случае распределения могут быть унимодальными, бимодальными и мульти- модальными. Наивероятнейшим значением называется мода, доставляющая гло- глобальный максимум вероятности (дискретной случайной величины) или
6. Другие числовые характеристики случайных величин 135 плотности распределения (непрерывной случайной величины). Если распределение унимодально, то мода также будет наивероятнейшим значением. Мода и наивероятнейшее значение введены скорее для наглядности, чем для каких-то практических целей. Пример 33. Плотность нормального распределения имеет единственный максимум в точке т. Поэтому мода нормального закона совпадает с матема- математическим ожиданием. Она же является наивероятнейшим значением и меди- медианой. ? Пример 34. Найдем моду биномиального распределения. Для этого за- заметим, что Рп(г+1) ( V+1 п(г+1) (п-г)р Отсюда нетрудно вывести, что отношение Рп(г)/Рп(г +1) меньше 1 при г < пр — q и больше 1 при г > пр — q. Таким образом, если пр — q не является целым, то максимальное г, для которого г > пр — q, является модой и наиверо- наивероятнейшим значением. Если же пр — q — целое, то биномиальный закон имеет две моды и два наивероятнейших значения: пр — q и пр — q+ I. ? Энтропия Н = Н(?) дискретной случайной величины ? определя- определяется формулой г=1 Отметим, что энтропия не зависит от значений Xi случайной ве- величины ?, а зависит только от вероятностей pi, с которыми эти значения принимаются. Энтропия является мерой априорной неопре- неопределенности случайной величины. Максимальное значение Ятах = Inn энтропия дискретной случайной величины достигает тогда, когда все п возможных значений случайная величина принимает с одной и той же вероятностью pi = 1/п, минимальное Нт[п = 0 — когда случайная величина принимает единственное значение с вероятностью, равной единице. Энтропия Н({;,г]) двумерной дискретной случайной величины (?, г]) определяется формулой Поскольку для независимых случайных величин lnp^- = H-lnp^j, то, как нетрудно видеть, энтропия случайной величины (?,rj) с независимыми компонентами ? и г\ представляет собой сумму эн- энтропии: Я(?, 7/) = Н(?) + H(rj)\ в случае зависимости ? и г] энтропия Я(?,7?) всегда меньше суммы Я(?) + H(rj). Энтропия играет важную роль в теории информации, она в некото- некотором смысле представляет собой минимальный объем памяти, необхо- необходимый для записи информации, содержащейся в случайной величине.
136 Гл. 7. Числовые характеристики случайных величин Поскольку информация записывается обычно в двоичной системе, то основанием логарифма берется число 2. Энтропия Н = Н(?) непрерывной случайной величины ? и эн- энтропия H(?,rj) двумерной непрерывной случайной величины (?,rj) задаются выражениями сю # = #(?) = - J Pi(x)lnPi(x)dx, сю сю г г — сю — сю И в непрерывном случае энтропия Н(?, rj) двумерной случайной ве- величины совпадает с суммой Н(?) + Н(г]) энтропии компонент тогда и только тогда, когда ? и г] независимы; иначе H(?,rj) < Н(?) + H(rj). Однако в отличие, например, от математического ожидания энтро- энтропию непрерывной случайной величины нельзя получить предельным переходом от дискретного случая. Отметим также, что при заданной дисперсии а2 максимальную энтропию In л/2тге<72 имеет нормально распределенная случайная величина.
Глава 8 ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ На практике довольно часто встречается ситуация, когда многократно наблюдается, как сказал бы не знакомый с теорией вероятностей человек, «одна и та же» случайная величина, а конечный результат представляет собой сумму наблюденных в каждом испытании значений этих величин. Наряду с уже упоминавшимися азартными играми сюда можно отнести: повторные замеры одного и того же параметра с последующим осреднением результатов с целью повышения точности измерений; многократное воздействие однородных причин на некоторый протекающий во времени физический процесс и т. д. Пройденный нами путь по теории вероятностей и приобретенный при этом опыт применения основных ее понятий позволяют подойти к описанию всех этих явлений с еди- единых вероятностных позиций на основе следующей схемы: имеется последова- последовательность независимых одинаково распределенных случайных величин и из нее образуется среднее арифметическое первых п членов. Спрашивается, как будет вести себя это среднее арифметическое, если п велико? Оказывается, при большом п оно теряет свойство случайности и приближается к математическо- математическому ожиданию каждого слагаемого (отсюда второе название математического ожидания — среднее значение). Этот факт носит название закона больших чисел. Собственно говоря, с частным случаем закона больших чисел мы уже встречались, когда рассматривали схему Бернулли (теорема Бернулли). Следуя исторической традиции, доказательство закона больших чисел мы сначала проведем, опираясь на неравенство Чебышева, которое является родоначаль- родоначальником многих других неравенств, широко применяемых в современной теории вероятностей. Дальнейшее уточнение закона больших чисел происходило в двух на- направлениях. Первое связано с динамикой поведения средних арифметических. К основным результатам этого направления следует отнести усиленный закон больших чисел и закон повторного логарифма, полученные А. Н. Колмогоро- Колмогоровым. Исходным пунктом второго направления, называемого иногда централь- центральной предельной проблемой, являются теоремы Муавра-Лапласа. Решение цен- центральной предельной проблемы позволило описать класс всех распределений, которые могут выступать в качестве предельных для функций распределения сумм независимых случайных величин в том случае, когда вкладом каждого слагаемого можно пренебречь, найти необходимые и достаточные условия схо- сходимости к каждому распределению этого класса, оценить скорость сходимости. Простейшим примером результатов такого типа является центральная предель- предельная теорема для одинаково распределенных слагаемых, имеющих дисперсию, которую мы докажем в параграфе 4. Основным математическим аппаратом при решении центральной предельной проблемы служит преобразование Фурье, носящее в теории вероятностей название характеристической функции, хотя в последнее время все чаще применяются другие методы.
138 Гл. 8. Предельные теоремы теории вероятностей 1. Неравенство Чебышева. Закон больших чисел Рассмотрим случайную величину ?, имеющую дисперсию D^ = a2. Мы уже говорили, что дисперсия является показателем разбро- разброса ? вокруг математического ожидания М^. Однако с точки зре- зрения исследователя разброс естественнее характеризовать вероятностью Р{\?, — М^| ^ г} отклонения случайной величины ? от М^ на величину, большую некоторого заданного г. Следующее неравенство позволяет оценить эту вероятность через дисперсию а1. Неравенство Чебышева. Для каждой случайной величины ?, име- имеющей дисперсию Dt; = а2, при любом г > О справедливо неравенство Доказательство проведем для непрерывной случайной величины с плотностью распределения р(х). По определению, оо = [ (ж - М?Jр(ж) dx. — оо Поскольку подынтегральное выражение неотрицательно, то при уменьше- уменьшении области интегрирования интеграл может только уменьшиться, поэтому ?-е оо [ (ж - М?Jр(х) dx+ [ (ж - М?Jр(х) dx [ (ж - dx. -оо Учитывая теперь, что (ж — М?J ^ s2, если \х — М?| ^ е, получаем (ж - М?Jр(ж) dx ^ г2 [ р(х) dx. Остается заметить, что последний интеграл представляет собой вероятность события |? — М?| ^ ? и, значит, откуда и вытекает неравенство Чебышева. Аналогично неравенство Чебышева доказывается и для дискретного слу- случая, при этом нужно только заменить интеграл на сумму. ? Ясно, что применять неравенство Чебышева имеет смысл только тогда, когда г > а; в противном случае оно дает тривиальную оценку. Пример 1. Пусть случайная величина ? имеет плотность распределения р(х) = е~'ж'/2- Тогда Щ = 0, а2 = D? = 2. Воспользовавшись неравенством Чебышева, оценим р? = Р{|?| ^ г} для ? = 2; 5; 10. В результате получим Р2 < 0,5, р5 < 0,08, рю < 0,02. С другой стороны, поскольку р? = 1 — F(s) + F(—s) = е~6, имеем р2 = 4т = 0,1353, р5 = \ = 0,0067, р10 = 4тт = 0,000045. е2 е5 е10
/. Неравенство Чебышева. Закон больших чисел 139 Таким образом, в этом примере неравенство Чебышева дает очень грубую оценку вероятности р?. ? Пример 2. Пусть случайная величина ? принимает только два значения 1 и —1 с одинаковыми вероятностями 1/2. Тогда М? = 0, а2 = D? = 1. Приме- Применяя неравенство Чебышева, получаем р\ = Р{|?| ^ 1} ^ 1. С другой стороны, поскольку оба возможных значения ? равны по модулю единице, то pi = 1. Этот пример показывает, что если не делать никаких дополнительных предположений относительно случайной величины ?, то неравенство Чебышева дает неулучшаемую оценку р?. ? Рассмотрим теперь последовательность ?i, ?г> • • • > ?п> • • • независи- независимых одинаково распределенных случайных величин (так как случай- случайные величины & одинаково распределены, то все их числовые харак- характеристики, в частности математические ожидания и дисперсии, равны между собой). Скажем, что эта последовательность удовлетворяет (слабому) закону больших чисел, если для некоторого а и любо- любого г > О щ* -а Иными словами, выполнение закона больших чисел отражает предель- предельную устойчивость средних арифметических случайных величин: при большом числе испытаний они практически перестают быть случайны- случайными и с большой степенью достоверности могут быть предсказаны. Иногда вместо выражения «последовательность ?ь ?2» • • • > ?п> • • • УД°~ влетворяет закону больших чисел» говорят «среднее арифметическое случайных величин ?ь ?г> • • • > ?п>• • • сходится по вероятности к неко- некоторой предельной постоянной а». Теорема (закон больших чисел). Если последовательность ?ь &> • • • > ?п> • • • независимых одинаково распределенных случайных величин такова, что существуют М^п = m и D^n = а2, то для любого е > О г 1 . >> —> 0. г=1 Доказательство является элементарным следствием неравенства Че- Чебышева. Действительно, по свойствам математического ожидания и дисперсии \п ) \п г=1 г=1 Воспользовавшись теперь неравенством Чебышева, получаем, что для любо- любого е > 0 n 2 { У>-т ^г)< ^ —.0. П L—/ > пе ™^оо г=1 Таким образом, мы показали, что для последовательности ?ь?2> • •• >?п> • •• выполняется закон больших чисел, причем постоян- постоянная а совпадает с математическим ожиданием М^п = т.
140 Гл. 8. Предельные теоремы теории вероятностей Пример 3. Пусть \ii — число успехов в г-м испытании Бернулли п (см. пример 2 в гл. 6). Тогда fn = Yl /^г/п представляет собой частоту успехов г=1 в п испытаниях. Как мы знаем, М/Хг = Р и D/Хг = pq- Таким образом, в силу доказанной теоремы Но последнее соотношение есть не что иное, как теорема Бернулли (см. пара- параграф 5 гл. 4). ? Замечание. Вообще говоря, существование дисперсии является достаточным, но не необходимым условием для выполнения закона больших чисел. В дальнейшем (пример 15) будет показано, что до- достаточным условием является просто существование математического ожидания, которое в этом случае выступает в качестве предельной постоянной а. Более того, существуют последовательности независи- независимых одинаково распределенных случайных величин, даже не имеющих математического ожидания, но тем не менее удовлетворяющих закону больших чисел. 2. Усиленный закон больших чисел. Закон повторного логарифма Пусть по-прежнему ?ь?2> ••• >?п> ••• — последовательность незави- независимых одинаково распределенных случайных величин, к которой при- применим закон больших чисел, т. е. при больших п среднее арифмети- п ческое r]n = Y1 <^/п «почти совпадает» с некоторой постоянной а. Од- г=1 нако если мы будем последовательно наблюдать случайные величины ?7ь ??2> • • • > ?7п> • • • > то закон больших чисел еще не гарантирует, что г]п будет стремиться к а для любого элементарного исхода ио. Пример 4. Рассмотрим схему Бернулли с равными вероятностями успеха и неудачи р = q = 1/2, в которой производится бесконечное число испытаний. Тогда последовательность /xi,/i2, • • • ,Мп, • • • , где /Хг — число успехов в г-м испытании, будет представлять собой простейший вариант последовательно- последовательности независимых одинаково распределенных случайных величин, для которой в соответствии с теоремой Бернулли выполнен закон больших чисел и при этом а = М/Хг = р = 1/2. Пространство элементарных исходов О состоит из всевозможных (беско- (бесконечных) последовательностей УНН...УН... В отличие от случая конечного числа испытаний О уже не будет дискретным (более того, О «почти» эквива- эквивалентно отрезку [0, 1] с равномерной вероятностью на нем; для доказательства этого достаточно отождествить последовательность /xi, /Х2, • • •, Мп,... с двоич- двоичным представлением некоторого числа, заключенного между нулем и едини- единицей), и каждый элементарный исход и имеет вероятность Р(и) = 1/2 • • • 1/2 х х ... = 0. Возьмем элементарный исход ио =УУ...У... Ясно, что для него 7?1 (о;о) = г]2(ооо) = ... = 1, т. е. средние арифметические равны единице и не мо- могут стремиться к а = 1/2. Читатель без труда может привести примеры и дру-
2. Усиленный закон больших чисел. Закон повторного логарифма 141 гих элементарных исходов, для которых последовательность г]\,г]2,... ,г]п,... либо будет сходиться к отличному от 1/2 числу, либо вообще не будет схо- сходиться. ? Из приведенного выше примера видно, что могут существовать элементарные исходы, для которых rjn(u) не сходится к а. Выделим эти элементарные исходы в отдельное событие А. Хотелось бы, что- чтобы при выполнении закона больших чисел вероятность события А равнялась нулю; в этом случае говорят, что для последовательности ?ь &> • • • > ?п> • • • выполнен усиленный закон больших чисел. Но это не всегда так. Если заранее не предполагать существование математи- математического ожидания M?i, то можно привести примеры последовательно- последовательностей независимых одинаково распределенных случайных величин, для которых выполнен закон больших чисел, но не выполнен усиленный закон больших чисел (более подробно об этом см. ниже, пример 15). Условие выполнения усиленного закона больших чисел содержится в следующей теореме, доказанной А. Н. Колмогоровым. Теорема (усиленный закон больших чисел). Существование ма- математического ожидания является необходимым и достаточным усло- условием выполнения усиленного закона больших чисел для последова- последовательности независимых одинаково распределенных случайных величин ?ь?2> • •• >?п> • •• Постоянная а в этом случае совпадает с математиче- математическим ожиданием М<^. Доказательство теоремы Колмогорова мы здесь не приводим. Отметим, что выполнение усиленного закона больших чисел есте- естественно влечет за собой выполнение закона больших чисел. Если теперь перейти от средних арифметических к накопленным суммам Sn = ?i + ... + ?п, то усиленный закон больших чисел гласит, что последовательность Sn — nm для почти всех элементарных исходов при любом г > О может находиться выше уровня пе или ниже уровня —пе не более конечного числа раз. Зададим теперь вопрос: нель- нельзя ли указать более точные границы изменения последовательности Sn — nm? Естественно, если мы хотим больше получить, то мы долж- должны также больше потребовать от случайных величин <^. А именно, будем предполагать, что ^ имеют математическое ожидание М<^ = т и дисперсию D?i = а2. Для простоты изложения предположим, что а2 = 1 и т = 0. Более того, будем считать, что абсолютные значения случайных величин ^ ограничены, т. е. существует такое число X, что ?г(^0 < X для всех элементарных исходов их). Из последнего пред- предположения, в частности следует, что случайные величины ^ имеют не только математическое ожидание и дисперсию, но и моменты всех порядков. х) Можно потребовать выполнение менее ограничительных условий, однако они более сложно формулируются.
142 Гл. 8. Предельные теоремы теории вероятностей Для произвольного г обозначим через В'?, В" и В? собы- события, состоящие соответственно из тех элементарных исходов ш, для которых Sn(u) > A +?)л/2п1п inn бесконечное число раз, Sn(u) < —A +г)л/2п1п Inn бесконечное число раз и \Sn(u;)\ > > A +?)л/2п1п Inn бесконечное число раз. Теорема (закон повторного логарифма). Р(В?) = Р(В?) = Р(В?) = О для любых е > О и Р(В?) = Р(В?) = Р(В") = 1 для любых е < 0. Доказательство теоремы опирается на очень тонкие (так называемые показательные) вероятностные неравенства и также здесь не приводятся. Смысл закона повторного логарифма заключается в следующем. Для любого сколь угодно малого г > 0 накопленные суммы Sn, начи- начиная с некоторого п, будут лежать в пределах от —A + е)\/2п\п. Inn до A + ?)л/2п1п Inn. В то же время суммы Sn будут бесконечное число раз выходить за границы области, находящейся между кривыми — A — ?)л/2п1п Inn и A — ?)л/2п1п Inn, причем как вверх, так и вниз (рис. 1). [00-1 ___ —— '^ ~ ___ ——- \/'2п In In ft — ~2__I— .•—--——— ~~~ ' " ' ( I — г I -\/it In Iu it 2000 3000 — нмн ~~~ —— —__. \ ~' — М 4" - ) V - ft In 1ч t* Рис. 1 Для читателя, знакомого с понятием верхнего и нижнего пределов (limsup и liminf) последовательности, можно предложить следующую формулировку закона повторного логарифма: для почти всех элемен- элементарных исходов и Hm sup п^ш' — = 1 v2nln Inn hm inf v у г = -1. v 2n In In n Отметим, что само название «закон повторного логарифма» проис- происходит от выражения In Inn.
3. Характеристическая функция 143 3. Характеристическая функция Для дальнейших исследований нам понадобится понятие характери- характеристической функции. Характеристической функцией f(t) = f$(t) слу- случайной величины ? называется математическое ожидание случай- случайной величины elt?, где г = д/^Т — мнимая единица, at — произвольное (действительное) число. Здесь мы имеем дело с комплексной случай- случайной величиной, которая определяется так же, как и действительная, с той лишь разницей, что каждому элементарному исходу ставится в соответствие комплексное число, а не действительное. Используя общее правило вычисления математического ожидания и формулу Эй- Эйлера, получаем з з з для дискретной величины ? и сю сю сю f(t) = Melt^ = eltxp(x) dx = cos (tx) p(x) dx + г sin (tx) p(x) dx — ею —сю —сю для непрерывной. Поскольку \eltx\ = 1, то характеристическая функ- функция существует при всех (действительных) t для каждой случайной величины. Отметим, что характеристическая функция определяется не собственно случайной величиной, а ее функцией распределения, т. е. по существу характеризует именно распределение случайной величи- величины. Читатель, знакомый с преобразованием Фурье, сразу же заметит, что характеристическая функция непрерывной случайной величины отличается от преобразования Фурье плотности распределения этой случайной величины только лишь отсутствием множителя 1/л/2тг, что, как будет видно из дальнейшего, представляет определенное удобство при действиях над случайными величинами. Пример 5. Найдем характеристическую функцию случайной величи- величины /х, распределенной по биномиальному закону. Поскольку ц — дискретная случайная величина, принимающая значения 0, 1,..., п, то П / \ П / \ 3=0 ^J ' j=0 ^J ' Пример 6. Характеристическая функция случайной величины ?, распре- распределенной по экспоненциальному закону, имеет вид оо оо f(t) = eltx\e~Xx dx = Л е(г*~Л)ж dx = . П J J A — it О О
144 Гл. 8. Предельные теоремы теории вероятностей Пример 7. Пусть случайная величина ? распределена по стандартному нормальному закону. Тогда оо /(*)= [ еггхф)с1х= J — оо Делая замену у = х — it, получаем + ОО- f(t)= \ +оо — it +00 — it 1 _('1/z_i . 2тг л/2тг — оо — it —00 — it Из теории функций комплексного переменного известно, что -\-oo-it — со —it Поэтому окончательно получаем № = e~t2/2. D Выведем некоторые почти очевидные свойства характеристических функций. 1. /@) = 1, /(?) — непрерывная функция. В самом деле (рассмотрим, например, дискретный случай) Непрерывность f(t) следует из непрерывности функции eltXj и абсо- абсолютной сходимости ряда ^Pj. з 2. Если г] = а?> + Ъ, то fv(t) = f^(at)eibt. Действительно, из определения характеристической функции и свойств математического ожидания вытекает, что fv(t) = Meitr] = Meit(a^+6) = eibtMeiatt = eibtf^(at). Пусть ?i и ^2 — независимые случайные величины и ^ = ?i + ^2- Тогда В самом деле, поскольку ?i и ?2 независимы, то независимы случайные величины е^1 и ег^2. Отсюда следует, что Meitv = Meit«i+&) = М (е^е^2) = Ме^Ме^2. Именно свойство 3 является тем основным свойством, благодаря ко- которому характеристические функции нашли такое широкое применение в теории вероятностей. При суммировании независимых случайных ве- величин их плотности распределения преобразуются по формуле свертки.
3. Характеристическая функция 145 Но формула свертки весьма неудобна для исследования, гораздо проще заменить ее простым перемножением характеристических функций. Если случайная величина ? имеет момент n-го порядка тп, то ха- характеристическая функция ? дифференцируема п раз, причем для к ^ п 4. /(fc)@) =ikmk. В самом деле, формальное дифференцирование характеристической функции к раз (к ^ п) дает (например, в непрерывном случае) ^fceltep(a;) da:. Законность дифференцирования определяется тем фактом, что сю сю f xkettxp(x)dx < f \xk\p(x)dx, — сю —сю и существованием момента п-ro порядка. Заметим, что при четном п справедливо и обратное: если характеристическая функция имеет про- производную /(п)@), то существуют моменты га& всех порядков к до п-го включительно и т& = i~kf(k\0). Пример 8. Как мы знаем, если случайная величина ? распределена по стандартному нормальному закону, то случайная величина г] = сг? + т распре- распределена по нормальному закону с параметрами т и а. Тогда характеристические функции fm,a(t) и f(t) случайных величин rj и ? связаны по свойству 2 соотношением /т,^) = егт*/И) или, если учесть результат примера 7, Пример 9. Вычислим момент n-го порядка случайной величины ?, распределенной по экспоненциальному закону. Воспользовавшись свойством 4 и результатом примера б, получаем Пример 10. Найдем еще раз характеристическую функцию числа успе- успехов II в п испытаниях, однако в отличие от примера 5 воспользуемся тем, что \i = \i\ + ... + /хп, где hj — число успехов в j-м испытании. Тогда fH(t)=qeit0+Peul=q + Peu и, значит, по свойству 3 ( и)п. О Важнейшей особенностью характеристической функции /(?) явля- является тот факт, что она однозначно определяет функцию распределе- распределения F(x). А именно, справедлива следующая формула.
146 Гл. 8. Предельные теоремы теории вероятностей Формула обращения. Для любых точек непрерывности х\ и функции распределения F(x) приращение F(X2)-F(Xl) = | -т Отметим, что формула обращения справедлива и в точках разры- разрыва F(x), если считать, что в этих точках F(x) = [F(x + 0) — F(x — )]/ Не давая строгого математического доказательства, покажем, что по своей сути формула обращения представляет собой разновидность обратного преобразования Фурье. Действительно, формально применяя обратное преобразование Фурье к характеристической функции /(?), получаем следующее выражение для плотности распределения р(х): Далее, вспоминая соотношение между плотностью распределения р(х) и функцией распределения F(x), имеем Х2 Х2 СЮ F(x2) - F(Xl) = | р(х) dx=^\dx\ e~itxf{t) dt. Еще раз производя формальную операцию — перестановку интегралов, получаем Х2 F(x2) - F(Xl) = ± | /(*) *|е-г'ж dx = ±j e~e/W dt. — сю xx —сю Хотя каждая из произведенных формальных операций, вообще гово- говоря, математически необоснована (в частности, дискретные случайные величины вообще не имеют плотности распределения), как это часто бывает, конечный результат верен, если только понимать последний интеграл в том смысле, как написано в формуле обращения (в смысле главного значения). Определение характеристической функции вместе с формулой об- обращения устанавливают взаимно однозначное соответствие между функцией распределения и характеристической функцией. Пример 11. Пусть ?i и ?2 — независимые случайные величины, распре- распределенные по нормальному закону с параметрами т\,сг\ и Ш2,сг2 соответствен- соответственно. Рассмотрим случайную величину rj = ?i + &• Тогда, как было показано в примере 8, /Cl(t) = e^*-*7?*2/2, fe(t) = eirn^-^t2/2 и по свойству 3 ха- характеристических функций получаем, что /^(t) = ег(т1+т2)*-К+ст2)* /2. Но ха-
3. Характеристическая функция 147 рактеристическую функцию fv(t) имеет случайная величина, распределенная по нормальному закону с параметрами т\ + Ш2, Jо\ + а\ . Поэтому в силу взаимно однозначного соответствия между функцией распределения и харак- характеристической функцией случайная величина г] также распределена нормально (с параметрами тп\ + Ш2, Jст\ + сг|). ? Пример 12. Рассмотрим независимые случайные величины ?i и ?2, распределенные по закону Пуассона с параметрами Ai и Л2. Их характеристи- характеристические функции задаются формулами Д, (t) = ? е«" ^ е"А' = е"А' п=0 ' п Пусть ?7 = ?i +?2- Тогда /"^(t) = e(Al+A2^e* ~l"> и опять-таки в силу взаимно однозначного соответствия между функцией распределения и характеристи- характеристической функцией случайная величина rj распределена по закону Пуассона с параметром Ai + Л2. ? Основную роль при решении центральной предельной проблемы иг- играет теорема о связи сходимости последовательности функций распре- распределения со сходимостью последовательности соответствующих харак- характеристических функций, или теорема непрерывности. Однако прежде чем перейти к формулировке этой теоремы, скажем несколько слов во- вообще о сходимости функций распределения. Будем говорить, что после- последовательность функций распределения F\ (х),..., Fn(x),... сходит- сходится к предельной функции распределения F(x), если Fn(x) —> F(x) n—s-oo для любых х, являющихся точками непрерывности F(x). Такая сходимость называется слабой сходимостью функций распределения (обозначается Fn(x) =^ Fix)). Слабая сходимость является наиболее п^оо естественной для функций распределения, и в дальнейшем мы будем рассматривать только ее. К определению слабой сходимости можно сделать несколько заме- замечаний. Во-первых, из слабой сходимости последовательности функций рас- распределения еще нельзя сделать вывод о какой-либо сходимости по- последовательности самих случайных величин, так как даже одинаково распределенные случайные величины могут быть заданы на совершен- совершенно разных вероятностных пространствах. Во-вторых, требование сходимости в любой точке непрерывно- непрерывности F(x) нельзя заменить более сильным требованием сходимости во всех точках х. Это подтверждает следующий пример. Пример 13. Пусть на одном и том же вероятностном пространстве (О, <В, Р) задана последовательность случайных величин ?ь &, • • •, ?п, • • • , при- причем каждая случайная величина ?п принимает всего одно значение — \/п. То- Тогда последовательность ?ь ?г, • • •, ?п, • • • будет сходиться к случайной величине
148 Гл. 8. Предельные теоремы теории вероятностей ? = О для любого элементарного исхода ш (причем даже равномерно). Тем не менее, F^n{0) = 1 при всех п, но i^@) = 0. ? Приведенный пример показывает, что F^n@) не стремится к -F^(O), хотя естественно было бы ожидать сходимости F^n(x) к F%(x) в любой точке х, поскольку ?п(и) —> ?(и) при всех элементарных исходах ио. п—*-оо Разгадка этого парадокса заключается в том, что 0 является точкой разрыва F^(x), а при определении слабой сходимости функций распре- распределения сходимости в таких точках мы не требовали. Наконец, если последовательность функций распределения F\(x), F2(x),..., Fn(x),... сходится к некоторой функции F(x) в каждой точ- точке непрерывности последней, то это не гарантирует слабой сходимости, поскольку F(x) может вообще не быть функцией распределения. Пример 14. Пусть ?п = п для всех и. Тогда F^n(x) —> F(x) = 0 при каждом х. Но F(x) не является функцией распределения, так как F(oo) = = 0/1. ? Значит, при определении слабой сходимости обязательно нужно требовать, чтобы предельная функция являлась функцией распреде- распределения. Теперь мы можем привести (без доказательства) формулировку теоремы непрерывности. Теорема непрерывности. Для того чтобы последовательность функций распределения F\(x),F2(x),..., Fn(x),... слабо сходилась к функции распределения F(x), необходимо и достаточно, чтобы по- последовательность характеристических функций f\ (?), /2@,..., /n(t),... сходилась к характеристической функции f(t) равномерно на любом отрезке [-Т,Т]. Теорема непрерывности является тем краеугольным камнем, ко- который позволяет свести задачу изучения предельного поведения рас- распределений сумм независимых случайных величин к задаче изучения предельного поведения характеристических функций этих сумм. От- Отметим, что в разных учебниках приведены различные эквивалентные формулировки теоремы непрерывности; данная здесь формулировка наиболее естественна для наших дальнейших рассуждений. Пример 15. Пусть ?ь?2, ••• ,?п, ••• — последовательность независимых одинаково распределенных случайных величин, имеющих характеристические функции f^n(t) = /i(?). Рассмотрим последовательность средних арифметиче- п ских rjn = ^2 ii/n и найдем в терминах характеристических функций необ- г=1 ходимое и достаточное условие для выполнения (слабого) закона больших чисел. Используя определение, можно показать, что закон больших чисел эквивалентен слабой сходимости последовательности функций распределе- распределения FT][(x),Frl2(x),... ,FTln(x),... к предельной F(x), представляющей собой функцию распределения случайной величины г], принимающей единственное значение а. Но г/ имеет характеристическую функцию /(?) = emt, и в силу
3. Характеристическая функция 149 теоремы непрерывности необходимым и достаточным условием для выполнения закона больших чисел является сходимость fVri(t) к /(?) равномерно на любом интервале [—Т,Т]. В свою очередь, используя свойства характеристических функций, имеем Логарифмируя fnn(t) (это можно сделать, поскольку fVn(t) —> /(?) равномер- но на любом интервале [—Т,Т], a /(?) не обращается в нуль), получаем следу- следующее необходимое и достаточное условие: n\nf\(t/n) —> iat равномерно на любом интервале [—Т,Т]. Последнее условие, в свою очередь, эквивалентно условию In /i ( — ) « га- . \nJ п Разлагая логарифм в ряд Маклорена до первого члена, получаем Наконец, полагая h = t/n, окончательно находим, что необходимым и доста- достаточным условием для выполнения закона больших чисел является суще- существование предела Umia п^оо h или, иными словами, существование в нуле производной /[@) характери- характеристической функции /i(t), причем постоянная а, фигурирующая в определе- определении закона больших чисел, вычисляется через эту производную по форму- формуле а = -if{@). Таким образом, с использованием аппарата характеристических функций нам удалось чрезвычайно просто найти необходимое и достаточное условие выполнения (слабого) закона больших чисел для последовательности незави- независимых одинаково распределенных случайных величин ?ь ?2» • • •»?п, • • • Скажем еще несколько слов о связи слабого и усиленного законов больших чисел. Из свойств характеристических функций следует, что если случайная величина ?п имеет математическое ожидание М?п = а, то производная /[(О) существует и равна га. Значит, для последовательности ?ь?2> ••• >?п, ••• вы- выполнен слабый закон больших чисел и не выполнен усиленный тогда и толь- только тогда, когда М?п не существует, но тем не менее существует производ- производная /|@) = га. ? В заключение этого параграфа отметим, что наряду с характеристи- характеристическими функциями в теории вероятностей используются также пре- преобразования Лапласа-Стилтьеса f(s) = Me~s^ (для неотрицательных случайных величин ?) и производящие функции f*(z) = M^^ (для неотрицательных целочисленных случайных величин ?). Ясно, что пре- преобразование Лапласа-Стилтьеса f(s) и производящая функция f*(z) связаны с характеристической функцией той же самой случайной ве- величины соотношениями: /(?) = f(—it), f(t) = f*(elt). Преобразование Лапласа-Стилтьеса и производящая функция, по сути дела, имеют те же самые свойства, что и характеристическая функция, но с ними существенно проще обращаться уже хотя бы потому, что они являются действительными функциями.
150 Гл. 8. Предельные теоремы теории вероятностей 4. Центральная предельная теорема Рассмотрим последовательность независимых одинаково распреде- распределенных случайных величин ?ь ?г> • • • > ?п> • • • > имеющих математическое ожидание Щп = га. Предположим также, что существует дисперсия D^n = а2. Закон больших чисел для этой последовательности можно представить в следующей форме: г=1 где сходимость можно понимать как в смысле сходимости по веро- вероятности (слабый закон больших чисел), так и в смысле сходимости с вероятностью, равной единице (усиленный закон больших чисел). Однако сразу же возникает вопрос: поскольку от случайных ве- величин <^п мы потребовали существования не только математического ожидания, но и дисперсии, то нельзя ли получить более «тонкую» предельную теорему, позволяющую точнее описать предельное пове- поведение распределений центрированных сумм Sn — пга? Такая теорема имеется и носит название центральной предельной теоремы. При этом нормировка Sn — пт осуществляется величиной л/п, а не п, т. е. после- последовательностью постоянных, стремящейся к бесконечности медленнее, чем п. Центральная предельная теорема. Пусть ?ь?2> ••• >?п> ••• — по- последовательность независимых одинаково распределенных случайных величин, M^n = га, D^n = а2. Тогда (напомним, что Ф(х) — функция стандартного нормального распреде- распределения). Доказательство. Прежде всего заметим, что поскольку функция стан- стандартного нормального распределения Ф(ж) является непрерывной, то сходи- сходимость к ней последовательности функций распределения в каждой точке пред- представляет собой слабую сходимость и, значит, для доказательства центральной предельной теоремы можно воспользоваться теоремой непрерывности. Обозна- Обозначим через /i(t) характеристическую функцию случайных величин ?п, а через gn(t) — характеристическую функцию случайной величины (Sn — nm)/Vna2. Воспользовавшись теперь свойствами 2 и 3 характеристических функций, имеем 9n(t)= /1-7% |_ \ V na2 Поскольку /i (?) имеет производные первых двух порядков (свойство 4 характе- характеристических функций), то ln/i(t/Vncr2) можно равномерно на любом отрезке [—Т,Т] разложить в ряд Маклорена по степеням l/л/п до второго члена:
4. Центральная предельная теорема 151 (Л(О)Г • х 2.2 imt a t ( 1 Л (-) Чга/ л/пG2 2па< и, значит, 2 lnpn(t) « -— , 9n(t) ^^е~ь /2. Но е~* I2 есть не что иное, как характеристическая функция /(?) стандартного нормального распределения (см. пример 7). Тем самым завершается доказа- доказательство теоремы. ? Центральная предельная теорема выявляет ту роль, которую иг- играет нормальное распределение. Оно обычно возникает в явлениях, подверженных большому количеству малых случайных воздействий. Уже само название «нормальный закон» объясняется тем широким распространением, которое он находит на практике в самых различных областях научных исследований. Пример 16. Рассмотрим п испытаний по схеме Бернулли с вероятно- вероятностью успеха р и вероятностью неудачи q = 1 — р в каждом. Пусть fij — число успехов в j-м испытании. Тогда M/Xj = p, D/ij = pq. Обозначим через Sn = Mi + • • • + Мп суммарное число успехов в п испытаниях. В силу цен- центральной предельной теоремы с ростом п распределения случайных величин (Sn — np)/yjnpq сходятся к стандартному нормальному закону, т.е. —> Ф(х). I y/npq Это утверждение представляет собой не что иное, как интегральную теорему Муавра-Лапласа (см. параграф 3 гл.4). ? Пример 17. Для определения скорости v движения объекта выполняет- выполняется п измерений v\,...,vn, причем j-e измерение производится со случайной ошибкой ?j (т.е. Vj = v + ?j). Предполагая, что ошибки измерений ^- незави- независимы и одинаково распределены с математическим ожиданием М^- = 0 (отсут- (отсутствуют систематические ошибки наблюдений) и дисперсией D^- = а2, оценим вероятность того, что средняя наблюденная скорость vcp = (v\ + ... + vn)/n будет отличаться от истинной скорости v не более чем на е. Тогда пГ ^ V\ ~\- ... -\-Vn — UV Л 'по1 Считая теперь, что число п измерений велико, воспользуемся центральной пре- предельной теоремой, по которой случайная величина (v\ + ... + vn — пу)/у/п(г2 распределена приближенно по стандартному нормальному закону. Значит, где значение интеграла Лапласа Фо(ж) приведено в табл. 3 приложения. ?
Список литературы 1. Гмурман В.Е. Теория вероятностей и математическая статистика. — М.: Высшая школа, 1972. 2. Вентцель Е.С. Теория вероятностей. — М.: Наука, 1969. 3. Пугачев B.C. Теория вероятностей и математическая статистика. — М.: Наука, 1979. 4. Розанов Ю.А. Лекции по теории вероятностей. — М.: Наука, 1986. 5. Башарин Г. П. Введение в теорию вероятностей. — М.: Изд-во УДН, 1990. 6. Чистяков В. П. Курс теории вероятностей. — М.: Наука, 1987. 7. Севастьянов Б. А. Курс теории вероятностей и математической статисти- статистики. - М.: Наука, 1982. 8. Гнеденко Б.В. Курс теории вероятностей. — М.: Наука, 1988. 9. Климов Г. П. Теория вероятностей и математическая статистика. — М.: Изд-во МГУ, 1983. 10. Боровков А. А. Курс теории вероятностей. — М.: Наука, 1976. 11. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. — М.: Наука, 1985. 12. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1,2. — М.: Мир, 1984. 13. Лоэв М. Теория вероятностей. — М.: ИЛ, 1962. 14. Гмурман В.Е. Руководство к решению задач по теории вероятностей и ма- математической статистике. — М.: Высшая школа, 1979. 15. Сборник задач по теории вероятностей, математической статистике и тео- теории случайных функций / Под ред. А. А. Свешникова. — М.: Наука, 1970. 16. Агапов Г. И. Задачник по теории вероятностей. — М.: Высшая школа, 1986. 17. Мешалкин Л. Д. Сборник задач по теории вероятностей. — М.: Изд-во МГУ, 1963.
Часть II МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Глава 1 ОБЩИЕ СВЕДЕНИЯ Так же как и теория вероятностей, математическая статистика имеет свои ключевые понятия, к которым относятся: генеральная совокупность, теоретиче- теоретическая функция распределения, выборка, эмпирическая функция распределения, статистика. Именно с определения этих понятий, а также с установления связи между ними и объектами, изучаемыми в теории вероятностей, мы начнем изложение математической статистики, предварительно дав краткое описание задач, которые собираемся решать. Кроме того, в последнем параграфе главы остановимся на некоторых распределениях, наиболее часто встречающихся в математической статистике. 1. Задачи математической статистики Математическая статистика, являясь частью общей прикладной математической дисциплины «Теория вероятностей и математическая статистика», изучает, как и теория вероятностей, случайные явления, использует одинаковые с ней определения, понятия и методы и основа- основана на той же самой аксиоматике А. Н. Колмогорова. Однако задачи, решаемые математической статистикой, носят спе- специфический характер. Теория вероятностей исследует явления, задан- заданные полностью их моделью, и выявляет еще до опыта те статистиче- статистические закономерности, которые будут иметь место после его проведения. В математической статистике вероятностная модель явления опреде- определена с точностью до неизвестных параметров. Отсутствие сведе- сведений о параметрах компенсируется тем, что нам позволено проводить «пробные» испытания и на их основе восстанавливать недостающую информацию. Попытаемся показать различие этих двух взаимосвязанных дис- дисциплин на простейшем примере — последовательности независимых одинаковых испытаний, или схеме Бернулли (часть 1, гл.4). Схему Бернулли можно трактовать как подбрасывание несимметричной моне- монеты с вероятностью выпадения «герба» (успеха) р и «цифры» (неудачи) q = 1 — р. В теории вероятностей р и q задаются «извне» (например, для симметричной монеты р = q = 1/2). Методы теории вероятностей позволяют, зная р и q, определить вероятность выпадения т «гербов» при п подбрасываниях монеты (биномиальное распределение, часть 1, гл. 4, параграф 1), найти асимптотику этой вероятности при увели- увеличении числа подбрасываний (теоремы Пуассона и Муавра-Лапласа,
156 Гл. 1. Общие сведения часть 1, гл.4, параграфы 2-4) и т.д. В математической статистике значения р и q неизвестны заранее, но мы можем произвести серию подбрасываний монеты. Цель проведения испытаний как раз и заклю- заключается либо в определении р и q, либо в проверке некоторых априорных суждений относительно их значений. Таким образом, судя уже по это- этому простейшему примеру, задачи математической статистики являются в некотором смысле обратными задачам теории вероятностей. В математической статистике обычно принято выделять два основ- основных направления исследований. Первое направление связано с оценкой неизвестных параметров. Возвращаясь к нашему примеру, предположим, что мы произвели п подбрасываний монеты и установили, что в \± из них выпал «герб». То- Тогда наиболее естественной оценкой вероятности р является наблюден- наблюденная частота р* = /i/n. Как известно из закона больших чисел Бернулли (часть 1, гл. 4, параграф 5), с увеличением числа испытаний частота р* стремится к вероятности р, т. е. р* является состоятельной оценкой вероятности р. Оказывается, наряду с простотой и естественностью оценка р* будет и наилучшей с многих точек зрения, т. е. она обла- обладает свойством эффективности. Однако если нам заранее определено число п подбрасываний монеты, то сказать со 100%-й гарантией что- либо об истинном значении р мы не можем (за исключением разве что тривиальных суждений типа «если выпадет хотя бы один „герб" то вероятность выпадения „герба" не может равняться нулю»). Поэтому наряду с точечными оценками в математической статистике принято определять интервальные оценки или, иными словами, доверитель- доверительные интервалы, опираясь при этом на «уровень доверия», или довери- доверительную вероятность. Второе направление в математической статистике связано с провер- проверкой некоторых априорных предположений, или статистических гипо- гипотез. Так, до опыта мы можем предположить, что монета симметрична, т.е. высказать гипотезу о равенстве р = q = 1/2. Противоположное предположение, естественно, будет состоять в том, что р ф 1/2, и тоже представляет собой гипотезу. Принято называть одну из этих гипотез (как правило, более важную с практической точки зрения) основной Hq, а вторую — альтернативной или конкурирующей Н\. В приве- приведенном выше примере нужно проверить основную гипотезу Щ: р = 1/2 против конкурирующей гипотезы Н\\ рф 1/2. Заметим, что в нашем случае основная гипотеза Hq полностью определяет вероятностную мо- модель подбрасывания монеты, т. е. является простой (состоит из одной точки), в отличие от конкурирующей гипотезы Н\, являющейся слож- сложной (состоит из более чем одной точки). Задача проверки статистиче- статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить (по возможности, наилучшим образом) справедливость этих гипотез и принять одну из них. Так же, как и при оценке неизвестных параметров, мы не застрахованы от неверного решения; в математической статистике они подразделяются
/. Задачи математической статистики 157 на ошибки первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу ifь в то время как справедлива основная гипотеза Щ; аналогично определяется ошибка второго рода. Возвращаясь к примеру с монетой, приведем следующий критерий проверки двух перечисленных гипотез: основную гипотезу ifo (р = 1/2) будем принимать в том случае, если наблюденная частота р* удовлетворяет неравенству |р* — 1/2| < г; в противном случае считаем верной конкурирующую гипотезу Н\. Вероятность ошибки первого ро- рода (принять симметричную монету за несимметричную) в этом случае определяется как вероятность выполнения неравенства \р* — 1/2| ^ е в схеме Бернулли с равновероятными исходами. Вероятность ошиб- ошибки второго рода (принять несимметричную монету за симметричную) также определяется из схемы Бернулли, но с неравновероятными ис- исходами и будет зависеть от истинного значения р. Далее мы увидим, что задача проверки статистических гипотез наиболее полно решается для случая двух простых гипотез. Можно поставить и задачу проверки нескольких гипотез (в примере с монетой можно взять, например, три гипотезы: Щ: р = 1/2, Н\\ р < 1/2, if2: p > 1/2), однако мы такие задачи рассматривать не будем. Условно математическую статистику можно подразделить на иссле- исследование байесовских и небайесовских моделей. Байесовские модели возникают тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Примене- Применение байесовского подхода фактически сводится к использованию фор- формулы Байеса (см. часть 1, гл. 3, параграф 5), откуда, собственно говоря, и пошло его название. Байесовский подход нами будет применяться только как вспомогательный аппарат при доказательстве некоторых теорем. Небайесовские модели появляются тогда, когда неизвестный па- параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели мы будем рассматривать в дальней- дальнейшем изложении. В заключение этого параграфа отметим, что в математической статистике употребляют также понятия параметрических и непарамет- непараметрических моделей. Параметрические модели возникают тогда, когда нам известна с точностью до параметра (скалярного или векторного) функция распределения наблюдаемой характеристики и необходимо по результатам испытаний определить этот параметр (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача провер- проверки статистических гипотез). Все приведенные выше примеры с подбра- подбрасыванием монеты представляют собой параметрические модели. При- Примеры непараметрических моделей мы рассмотрим позже.
158 Гл. 1. Общие сведения 2. Основные понятия математической статистики Основными понятиями математической статистики являются: ге- генеральная совокупность, выборка, теоретическая функция распреде- распределения. Генеральная совокупность. Будем предполагать, что у нас имеют- имеются N объектов, каждому из которых присуще определенное значение некоторой числовой характеристики X. Характеристика X, вообще го- говоря, может быть и векторной (например, линейные размеры объекта), однако для простоты изложения мы ограничимся только скалярным случаем, тем более что переход к векторному случаю никаких трудно- трудностей не вызывает. Совокупность этих N объектов назовем генеральной совокупностью. Поскольку все наши статистические выводы мы будем делать, осно- основываясь только на значениях числовой характеристики X, естественно абстрагироваться от физической природы самих объектов и отожде- отождествить каждый объект с присущей ему характеристикой X. Таким образом, с точки зрения математической статистики генеральная сово- совокупность представляет собой N чисел, среди которых, конечно, могут быть и одинаковые. Выборка. Для того чтобы установить параметры генеральной со- совокупности, нам позволено произвести некоторое число п испытаний. Каждое испытание состоит в том, что мы случайным образом выбираем один объект генеральной совокупности и определяем его значение X. Полученный таким образом ряд чисел Х\,..., Хп будем называть (слу- (случайной) выборкой объема п, а число Xi — г-м элементом выборки. Заметим, что сам процесс выбора можно осуществлять различ- различными способами: выбрав объект и определив его значение, изымать этот объект и не допускать к последующим испытаниям (выборка без возвращения); после определения его значения объект возвращается в генеральную совокупность и может полноправно участвовать в даль- дальнейших испытаниях (выборка с возвращением) и т. д. Разумеется, если бы мы смогли провести сплошное обследование всех объектов генеральной совокупности, то не нужно было бы приме- применять никакие статистические методы и саму математическую статисти- статистику можно было бы отнести к чисто теоретическим наукам. Однако та- такой полный контроль невозможен по следующим причинам. Во-первых, часто испытание сопровождается разрушением испытуемого объекта; в этом случае мы имеем выборку без возвращения. Во-вторых, обыч- обычно необходимо исследовать весьма большое количество объектов, что просто невозможно физически. Наконец, может возникнуть такое по- положение, когда многократно измеряется один и тот же объект, но каждый замер производится со случайной ошибкой, и цель после- последующей статистической обработки заключается именно в уточнении характеристик объекта на основе многократных наблюдений; при этом
2. Основные понятия математической статистики 159 результат каждого наблюдения надо считать новым объектом гене- генеральной совокупности (простейшим примером такой ситуации является многократное подбрасывание монеты с целью определения вероятности выпадения «герба»). Следует помнить также, что выборка обязательно должна удовлетворять условию репрезентативности или, говоря более простым языком, давать обоснованное представление о генеральной совокупности. С ростом объема N генеральной совокупности исчезает различие между выборками с возвращением и без возвращения. Мы, как обычно это делается в математической статистике, будем рассматривать случай бесконечно большого объема генеральной совокупности и поэтому, употребляя слово «выборка», не будем указывать, какая она — с воз- возвращением или без него. Теоретическая функция распределения. Пусть Х\ — выборка единичного объема из заданной генеральной совокупности. Поскольку сам процесс выбора производится случайным образом, то Х\ является случайной величиной и, как и всякая случайная величина, имеет функцию распределения F(x) = Р{Х\ < х}. Нетрудно видеть, что если объем N генеральной совокупности конечен, то при случайном выбо- выборе объекта мы находимся в рамках схемы классической вероятности (часть 1, гл.2, параграф 1) и значение функции распределения F(x) совпадает с отношением Nx/N, где Nx — число тех объектов генераль- генеральной совокупности, значения которых меньше х. В случае выборки Х\,... ,Хп произвольного объема п каждый эле- элемент Xi выборки также будет иметь функцию распределения F(x), причем для выборки с возвращением наблюдения Х\,... ,Хп будут независимы между собой (чего нельзя сказать о выборке без воз- возвращения). Поскольку, как уже говорилось, мы будем рассматривать выборки из генеральной совокупности бесконечно большого объема, а в этом случае исчезает различие между выборками разного типа, мы приходим к интерпретации (с точки зрения теории вероятностей) выборки Х\,...,Хп как п независимых одинаково распределенных с функцией распределения F(x) случайных величин или, допуская некоторую вольность речи, как п независимых реализаций наблюдае- наблюдаемой случайной величины X, имеющей функцию распределения F(x). Функция распределения F(x) называется теоретической функцией распределения. Однако теоретическая функция распределения F(x) либо неизвестна, либо известна не полностью, и именно относительно F(x) мы будем делать наши статистические выводы. Заметим, что в соответствии с общими положениями теории вероятностей совмест- совместная функция распределения Fxu...,xn(x\,... ,хп) выборки Х\,...,Хп задается формулой irxlf...fxn(xb...,xn) = P{Xi <xu...,Xn<xn} = F(xi)...F(xn).
160 Гл. 1. Общие сведения В дальнейшем, как правило, мы будем предполагать, что F(x) является функцией распределения либо дискретной, либо непрерывной наблюдаемой случайной величины X. В первом случае будем опериро- оперировать рядом распределения случайной величины X, записанным в виде табл. 1, а во втором — плотностью распределения р(х) = F'(x). Таблица 1 X р Ъ\ Pibx) ь2 Р(Ь) Ьь Р(Ьь) 3. Простейшие статистические преобразования Прежде чем переходить к детальному анализу наблюденных ста- статистических данных, обычно проводят их предварительную обработку. Иногда результаты такой обработки уже сами по себе дают наглядную картину исследуемого явления, в большинстве же случаев они служат исходным материалом для получения более подробных статистических выводов. Вариационный и статистический ряды. Часто бывает удобно пользоваться не самой выборкой Х\,... ,Хп, а некоторой ее модифика- модификацией, называемой вариационным рядом. Вариационный ряд X*,..., X* представляет собой ту же самую выборку Xi,...,Xn, но располо- расположенную в порядке возрастания элементов: X* < Х| < ... < X*. Та- Такое преобразование не приводит к потере информации относитель- относительно теоретической функции распределения F(x), поскольку, переста- переставив элементы вариационного ряда Х*,...,Х* в случайном порядке, мы получим новый набор случайных величин Х(,...,Х^, совместная функция распределения Fx1 ,х'п(х\,... ,хп) которых в точности сов- совпадает с функцией распределения FXu...,xn(x\, ...,xn) первоначальной выборки Хь ... ,Хп. Для X* и X* употребляют название «крайние члены вариационного ряда». Пример 1. Измерение проекции вектора скорости молекул водорода на одну из осей координат дало (с учетом направления вектора) результаты (хЮ4 м/с), представленные в табл. 2. Вариационный ряд этой выборки приведен в табл. 3. Крайними членами вариационного ряда Xf,..., X* являются Xf = 2,33 и Х50 = 3,47. ? Если среди элементов выборки Xi,...,Xn (а значит, и среди элементов вариационного ряда Х*,...,Х^) имеются одинаковые, что происходит при наблюдении дискретной случайной величины, а так- также довольно часто встречается при наблюдении непрерывной случай- случайной величины с округлением значений, то наряду с вариационным рядом используют представление выборки в виде статистического
3. Простейшие статистические преобразования 161 Таблица 2 хх -1,04 Хп -1,60 х2Х -0,08 Хы -2,33 Х41 -0,05 -1,06 *12 -1,29 Х22 0,54 -^32 -0,72 х42 -0,27 х3 1,06 -0,10 х23 1,02 -^33 0,14 х43 0,65 х4 -0,53 х14 1,27 Х2А 1,68 Хза -0,98 х44 3,47 хъ -1,58 Х15 0,01 Х2ъ 1,12 Х35 0,74 Х45 2,19 X, 0,01 х16 0,60 х26 -0,01 Х36 -1,32 Х46 0,40 х7 0,41 х17 2,25 Х27 2,15 -^37 -1,46 х47 0,52 Х8 -0,79 -^18 -0,88 Хоя 0,96 -^38 0,35 Х48 -0,28 х9 -0,18 -^19 0,01 Х2$ -0,80 -^39 0,32 Х4д -1,57 Х\о -0,52 Х2о 0,30 -^30 -0,50 -^40 0,35 -^50 1,92 Таблица 3 хг -2,33 хп -0,90 *2*1 -0,10 *31 0,35 ^4*1 1,02 х2 -1,60 ^1*2 -0,88 ^Л-22 -0,08 0,35 ^4*2 1,06 Х3* -1,58 ^Гз -0,80 -^2*3 -0,05 ^33 0,40 -^43 1,12 х: -1,57 Х*А -0,79 ^-24 -0,01 ^34 0,41 х44 1,27 Х5* -1,46 -0,72 ^2*5 0,01 ^35 0,52 ^4*5 1,68 Х6* -1,32 -0,53 ^2*6 0,01 Х$ь 0,54 ^4*6 1,92 х; -1,29 хг7 -0,52 -^2*7 0,01 х;7 0,60 Х47 2,15 А8 -1,06 -^1*8 -0,28 -^2*8 0,14 ^38 0,65 -^48 2,19 Х9* -1,04 -^1*9 -0,27 Х29 0,30 ^39 0,74 -^49 2,25 -0,98 ^2*0 -0,18 Хзо 0,32 ^4*0 0,96 Х$о 3,47 ряда (табл.4), в котором Z\,...,Zm представляют собой расположен- расположенные в порядке возрастания различные значения элементов выборки Х\,...,Хп, а п\,... ,пт — числа элементов выборки, значения которых равны соответственно Z\,..., Zm. Пример 2. В течение минуты каждую секунду регистрировалось чис- число попавших в счетчик Гейгера частиц. Результаты наблюдений приведены в табл. 5. Статистический ряд выборки представлен в табл. 6. ? б П. П. Бочаров, А. В. Печинкин
162 Гл. 1. Общие сведения Таблица 4 Zx П\ Z2 П2 Zm Таблица 5 хх 1 Хп 1 Х2Х 3 Хзх 3 Ха\ 2 хъх 4 4 Х12 1 ^22 0 -^32 1 -^42 0 Х$2 5 х3 3 ххз 4 Х23 6 х33 4 -^43 4 Х53 4 х4 5 х14 2 Х24 1 Х34 3 Х44 1 х54 1 3 ххъ 3 х25 2 Х35 5 х45 1 3 х6 5 -^16 1 Х26 2 -^36 4 -^46 4 -^56 2 0 х17 5 х27 4 Х37 4 Х47 5 Х57 1 5 х18 3 -^28 2 Х38 5 х48 2 Х58 3 х9 0 -^19 1 Х29 4 -^39 2 -^49 3 -^59 9 4 Х2о 4 -^30 3 -^40 1 -^50 2 -^60 5 Таблица б 0 4 1 12 2 9 3 11 4 13 5 9 б 1 9 1 Статистики. Для получения обоснованных статистических выво- выводов необходимо проводить достаточно большое число испытаний, т. е. иметь выборку достаточно большого объема п. Ясно, что не только использование такой выборки, но и хранение ее весьма затруднительно. Чтобы избавиться от этих трудностей, а также для других целей, полезно ввести понятие статистики, общее определение которой форму- формулируется следующим образом. Назовем статистикой S = (S\,..., Sk) произвольную (измеримую) /с-мерную функцию от выборки Х\,... ,Хп:
3. Простейшие статистические преобразования 163 Как функция от случайного вектора (Х\,... ,Хп) статистика S также будет случайным вектором (см. часть 1, гл. 6, параграф 7), и ее функция распределения определяется для дискретной наблюдаемой случайной величины X формулой F и для непрерывной — формулой Fsu...,sk (хи • • •, хк) = J.. Jp(m) • • -Р(Уп) dyx... dyn, где суммирование или интегрирование производится по всем возмож- возможным значениям у\,...,уп (в дискретном случае каждое у^ принадле- принадлежит множеству {Ь\,... ,Ьь}), для которых выполнена система нера- неравенств S\(yi,...,yn) <х\, ..., Sk(yi,...,yn) < %к- Пример 3. Пусть выборка Х\,... ,Хп произведена из генеральной со- совокупности с теоретической функцией распределения F(x) = Ф(х;т,сг2), яв- являющейся нормальной с математическим ожиданием (средним значением) т и дисперсией а2. Рассмотрим двумерную статистику (S\,S2), где Тогда }] Bna2)-n'2e-2b^-mJ+-+^-mJUyi ...dyn. Si=(yi+...+yn)/n<xi, s2=(y\-S\J+---+(yrb-s{J<x2 Мы, однако, не будем вычислять записанный интеграл, а воспользуемся тем фактом (см. пример 29, часть 1, гл. 6, параграф 7), что любое линейное преобразование переводит нормально распределенный вектор в вектор, снова имеющий нормальное распределение, причем ортогональное преобразование переводит вектор с независимыми координатами, имеющими одинаковые дис- дисперсии, в вектор с также независимыми и имеющими те же самые дисперсии координатами. Из курса теории вероятностей известно, что статистика S\ имеет нормаль- нормальное распределение со средним т и дисперсией а /п. Положим Х[ = Хг-т, S[ = -(X[ + ... + X^. Ti Очевидно, что Si = т + S[, S2 = (X[ - S[J + ... + (X - S(J. Пусть теперь А — линейное ортогональное преобразование пространства Rn, ставящее в соответствие каждому вектору х = (х\,...,хп) вектор у = = (у\,... ,уп) = Ах, где yi = (х\ + ... + хп)/л/п (как известно из курса линейной алгебры, такое преобразование всегда существует). Тогда, если Х; = (Х[,... ,Хп), то (Yi,... ,Yn) = Y = АХ.' будет нормально распреде-
164 Гл. 1. Общие сведения ленным случайным вектором, имеющим независимые координаты Yi с нуле- нулевым средним и дисперсией а2. Кроме того, Y\ = у/п S[. Далее, рассмотрим S2 = J2 (XIJ — квадрат длины вектора Х;. Простейшие преобразования пока- г=1 зывают, что S2 = J2(X'i - S[J + n(S[J = S2 + n(S[J. г=1 С другой стороны, в силу ортогональности преобразования А г=1 Отсюда, в частности, следует, что S2 = Y22 + ... + Y2, т. е. S2/a2 представляет собой сумму квадратов п — 1 независимых случайных величин, распределенных по стандартному нормальному закону. Вспоминая теперь, что случайные величины Y\ = у/п S[, Y2,..., Yn независимы, получа- получаем окончательный ответ: статистики Si и S2 независимы (Fs{,s2(xux2) = = i^sfj (x\) Fs2(x2)), статистика S\ распределена по нормальному закону с па- параметрами т и <72/п, а случайная величина S2/a2 (в том случае, когда дисперсия а неизвестна, отношение S2/a не является статистикой, поскольку зависит от неизвестного параметра а2) — по закону х2 с п — 1 степенями свободы (см. также параграф 4). ? Отметим, что проведенные рассуждения будут нами постоянно использо- использоваться в гл. 4, посвященной статистическим задачам, связанным с нормально распределенными наблюдениями. Важный класс статистик составляют так называемые достаточные статистики. Не давая пока строгого математического определения, скажем, что статистика S является достаточной, если она содержит всю ту информацию относительно теоретической функции распределе- распределения Fix), что и исходная выборка Х\,... ,Хп. В частности, вариаци- вариационный ряд всегда представляет собой достаточную статистику. Более сложными примерами достаточных статистик являются число успехов в схеме Бернулли и двумерная статистика S из примера 3 для выборки из генеральной совокупности с нормальной теоретической функцией распределения. В современной математической статистике достаточные статистики играют очень важную роль. Эмпирическая функция распределения. Пусть мы имеем выборку Х\,... ,Хп объема п из генеральной совокупности с теоретической функцией распределения Fix). Построим по выборке Х\,..., Хп аналог теоретической функции распределения F(x). Положим F*(x) = п где jjlx — число элементов выборки, значения которых Xi меньше х. Поскольку каждое Xi меньше х с вероятностью рх = F(x), а сами Xi
3. Простейшие статистические преобразования 165 независимы, то fix является целочисленной случайной величиной, рас- распределенной по биномиальному закону: Р{Мж =т} = Р„(ш) = [1) [F(x)]m [1 - F(x)]n-m . Функция F*(x) носит название эмпирической (выборочной) функции распределения. Ясно, что при каждом х значение эмпирической функ- функции распределения F*(x) является случайной величиной, принимаю- принимающей значения 0, 1/п,..., 1; если же рассматривать F*(x) как функцию от х, то F*(x) представляет собой случайный процесс. Построение эмпирической функции распределения F*(x) удобно производить с помощью вариационного ряда Х*,...,Х*. Функция F*(x) постоянна на каждом интервале (Х*,Х*+1], а в точке X* увели- увеличивается на 1/п. Пример 4. График эмпирической функции распределения, построенной по вариационному ряду из табл. 3, приведен на рис. 1. ? Если выборка задана статистическим рядом (см. табл. 4), то эм- эмпирическая функция распределения также постоянна на интервалах (Zi, Zi+\], но ее значение в точке Zi увеличивается на щ/п, а не на 1/п. -¦] -2 О 2 -1 ¦'" О 2 i G 8 •'" Рис. 1 Рис. 2 Пример 5. График эмпирической функции распределения, построенной по статистическому ряду из табл. 6, приведен на рис. 2. ? Гистограмма, полигон. Для наглядности выборку иногда преоб- преобразуют следующим образом. Всю ось абсцисс делят на интервалы [xi,Xi+\) длиной Ai = #i+i — Xi и определяют функцию р*(х), посто- постоянную на г-м интервале и принимающую на этом интервале значение р*(х) = Vi/(nAi), где Vi — число элементов выборки, попавших в ин- интервал [xi,Xi+\). Функция р*(х) называется гистограммой. При наблюдении дискретной случайной величины вместо гисто- гистограммы часто используют полигон частот. Для этого по оси абсцисс откладывают все возможные значения Ь\,...,Ьь наблюдаемой величи- величины X, а по оси ординат, пользуясь статистическим рядом, либо числа
166 Гл. 1. Общие сведения v\,...,vL элементов выборки, принявших значения Ь\,...,Ьь (полигон частот), либо соответствующие наблюденные частоты (полигон относительных частот). Для большей наглядности соседние точки соединяются отрезками прямой. Для непрерывной наблюдаемой случайной величины полигоном от- относительных частот иногда называют ломаную линию, соединяющую середины отрезков, составляющих гистограмму. Пример 6. Построим гистограмму и полигон относительных частот вы- выборки, представленной в табл. 2. Для этого выберем интервалы одинаковой длины Аг = 1,00. Числа щ и значения р*(х) на каждом интервале приведены в табл. 7. Гистограмма выборки показана на рис. 3 сплошной линией, а полигон относительных частот — штриховой линией. ? Таблица 7 р*(х) -4,-3 0 0 -3,-2 1 0,02 -2,-1 8 0,16 -1,0 15 0,30 0,1 16 0,32 1,2 6 0,12 2,3 3 0,06 3,4 1 0,02 А -4 О Рис. 3 4 -г О 10 Рис. 4 Пример 7. Построим полигон относительных частот выборки, приведен- приведенной в табл. 5. Возможные значения наблюдаемой случайной величины X (числа частиц, попавших в счетчик Гейгера) представляют собой неотрицательные целые числа. Воспользовавшись статистическим рядом из табл. 6, получаем полигон относительных частот, изображенный на рис. 4. ? Предельное поведение эмпирической функции распределения. Предположим, что по выборке Х\,... ,Хп мы построили эмпирическую функцию распределения FL\(x) (здесь и в дальнейшем в том слу- случае, когда нам важна зависимость какой-то характеристики от объема выборки п, будем снабжать ее дополнительным нижним индексом (п)). Как мы уже говорили, число \±х = п??Лх) элементов выбор- выборки, принявших значение, меньшее х, распределено по биномиальному закону с вероятностью успеха рх = F(x). Тогда при п —> оо в силу усиленного закона больших чисел (часть 1, гл. 8, параграф 2) значения
3. Простейшие статистические преобразования 167 эмпирических функций распределения FTAx) сходятся при каждом х к значению теоретической функции распределения F(x). В. И. Гли- венко и Ф. П. Кантелли обобщили этот факт и доказали следующую теорему. Теорема Гливенко-Кантелли. При п —> оо с вероятностью, рав- равной единице, \{()()\0 Смысл теоремы Гливенко-Кантелли заключается в том, что при увеличении объема выборки п у эмпирической функции распределения исчезают свойства случайности и она приближается к теоретической функции распределения. Аналогично, если п велико, то значение гистограммы р1п\(х) в точ- точке х приближенно равно F(xj+i) - F(xj) А, где Xi, Xi+\ — концы интервала, в котором находится х, а А^ = = #г+1 — Xi есть длина этого интервала. Если теоретическая функция распределения имеет плотность распределения р(х) и при этом длины интервалов А^ малы, то гистограмма р1п\(х) достаточно хорошо вос- воспроизводит эту плотность. Выборочные характеристики. Эмпирическая функция распреде- распределения F*(x), построенная по фиксированной выборке Х\,..., Хп, об- обладает всеми свойствами обычной функции распределения (дискретной случайной величины). В частности, по ней можно найти математиче- математическое ожидание (среднее) m* = -(Xi+... + Xn), п второй момент # А / -у2 г г ~у2 \ дисперсию 2* = I [(X, m*f + + (Х m*J момент fc-ro порядка а2* = I [(X, - m*f + ... + (Хп - m*J] = m*2 - (m*f ? ( + +), центральный момент А;-го порядка ц% = ^ [(Х{ - m*)k + ... + (Хп - m*)k] и т. д. Соответствующие характеристики называются выборочными (выборочное среднее, выборочный второй момент, выборочная диспер-
168 Гл. 1. Общие сведения сия и т.п.). Ясно, что выборочные характеристики как функции от случайных величин Х\,... ,Хп сами являются случайными величи- величинами, причем их распределения определяются в соответствии с об- общими положениями теории вероятностей (см. часть 1, гл.6, пара- параграф 7). Так, функция распределения выборочного среднего т* для случая дискретной наблюдаемой случайной величины определяется формулой где суммирование ведется по всем х\,...,хп, принимающим значе- значения {Ь\,..., Ьь} и удовлетворяющим неравенству (х\ + ... + хп)/п < х, а функция распределения выборочного второго момента т\ для непре- непрерывного случая — формулой .. . р(х\) ...p(xn)dx\ ...dxn. Наряду с выборочной дисперсией <т2* часто используют и другую характеристику разброса выборки вокруг среднего: - ш*J] = ^-х а2*. 2] = ^-х Характеристику s2* также будем называть выборочной дисперсией, а для того чтобы не путать <т2* и s2*, каждый раз будем указывать, о какой именно выборочной дисперсии идет речь. Выборочная диспер- дисперсия 52* отличается от выборочной дисперсии а2* только лишь нали- наличием множителя п/(п— 1), который с увеличением объема выборки п стремится к единице, и, казалось бы, нет смысла вводить две практи- практически одинаковые величины. Однако, как мы увидим из дальнейшего, s2* является несмещенной оценкой теоретической дисперсии а2, чего нельзя сказать о выборочной дисперсии а2*, хотя стандартные методы приводят именно к а2*. Пример 8. Подсчитаем выборочное среднее и выборочные дисперсии для выборки, приведенной в табл. 2: т* = — (—1,04— 1,06+ 1,06-...- 1,57+ 1,92) = 0,082, сг2* = — [(-1,04 - 0,082J + (-1,06 - 0,082J + ... + A,92 - 0,082J1 = 1,34, 50 L J S2* = ^a2* = l,37. 49 Для подсчета выборочной дисперсии сг2* можно было бы воспользоваться также формулой сг2* = т\ — (т*J. ?
4. Основные распределения математической статистики 169 4. Основные распределения математической статистики Наиболее часто в математической статистике используются: нор- нормальное распределение, %2-распределение (распределение Пирсона), t-распределение (распределение Стьюдента), F-распределение (распре- (распределение Фишера), распределение Колмогорова и ^-распределение. Все эти распределения связаны с нормальным. В свою очередь, широ- широкое распространение нормального распределения обусловлено исклю- исключительно центральной предельной теоремой (см. часть 1, гл.8, па- параграф 4). Ввиду их особой важности все названные распределения затабулированы и содержатся в различных статистических таблицах, а также, частично, в большинстве учебников по теории вероятностей и математической статистике. Наиболее полными из известных и до- доступных читателю в нашей стране являются таблицы Л. Н. Большева и Н. В. Смирнова [1], на которые мы и будем ссылаться в даль- дальнейшем. Нормальное распределение. Одномерное стандартное нормаль- нормальное распределение {стандартный нормальный закон) задается своей плотностью распределения (см. часть 1, гл. 5, параграф 4) Значения функции Ф(х) и плотности <р(х) стандартного нормаль- нормального распределения, а также квантилей (ра (функции (ра, обратной функции стандартного нормального распределения) приведены в [1], табл. 1.1-1.3 (см. также табл. 2 и 3 приложения). Общее одномерное нормальное распределение характеризуется двумя параметрами: средним (математическим ожиданием) т и дис- дисперсией а2. Его можно трактовать как распределение случайной вели- величины г] = т + <^v<72, где случайная величина ? подчинена стандартному нормальному зако- закону. Плотность распределения и функцию распределения общего нор- нормального закона будем обозначать через (р(х;т,а2) и Ф(х;т,а2). Многомерное (k-мерное) нормальное распределение (часть 1, гл.6, параграф 4) определяется вектором средних m = (т\,... ,rrik) и мат- матрицей ковариаций А = (pij). X2-распределение (см. часть 1, гл.5, параграф 4, а также приме- примеры 28 и 30, часть 1, гл. 6, параграф 7). Пусть ?ь ... ,?п ~~ независимые случайные величины, распределенные по стандартному нормальному закону. Распределение случайной величины х2 = ? + ... + ?
170 Гл. 1. Общие сведения носит название у2-распределения с п степенями свободы. %2-распреде- ление имеет плотность распределения h(x) = Н'{х) = —prl xn/2-le~x/2 (х > 0), V J V J 2п/2Г(п/2) V J где Г(-) введено в параграфе 4 гл. 5. Значения функции %2-распределения и а-процентных точек (а-про- центная точка %2-распределения представляет собой A — а/100)-кван- тиль Xi-a/юо) Х2"РаспРеДеления приведены в [1], табл. 2.1а и 2.2а. В дальнейшем нам будет полезно следующее свойство. Пусть ?ь • • • > ?п ~~ независимые случайные величины, распределенные по нормальному закону с одинаковыми параметрами т и а2. Положим Тогда случайная величина имеет %2-распределение, но с п — 1 степенями свободы. Доказательство этого факта содержится в примере 3. Еще одна схема, в которой появляется х2-распределение — полино- полиномиальная схема (см. часть 1, гл.4, параграф 7). Пусть производится п независимых одинаковых испытаний, в каждом из которых с вероятно- вероятностью pi может произойти одно из событий А\ (I = 1,..., L). Обозначим через v\ число появлений события А\. Тогда из многомерного аналога интегральной теоремы Муавра-Лапласа следует, что случайная вели- величина 2 2 = (>i -npi) + + (yL -прь) пр\ прь при п -^ оо асимптотически распределена по закону %2 с L — 1 степе- степенями свободы. t-распределение. Пусть ( и f - независимые случайные вели- величины, причем ? распределена по стандартному нормальному закону, а х2 имеет х2~РаспРеДеление с п степенями свободы. Распределение случайной величины называется t-распределением с п степенями свободы, t-распределение имеет плотность распределения A) V2
4. Основные распределения математической статистики 171 Значения функции ^-распределения и а-процентных точек (A — а/100)-квантилей ?i_q,/ioo) ^-распределения приведены в [1], табл. 3.1а и 3.2. Далее, пусть ?i,...,?n ~~ независимые одинаково распределенные случайные величины, подчиненные нормальному закону со средним т. Положим Тогда случайные величины г] и ( независимы, а случайная величина т имеет t-распределение с п — 1 степенями свободы (доказательство этого см. в примере 3). F-распределение. Пусть xf и х\ ~ Две независимые случайные величины, имеющие %2-распределения с щ и щ степенями свободы. Распределение случайной величины носит название F-распределения с параметрами щ и щ. F-распреде- ление имеет плотность распределения +П2 гЬ(х) - ФХЫ - V 2 У ni/2 п2/2 щ/2-1 VY/ VY/ Значения а-процентных точек (A — а/100)-квантилей (р\-а/\оо) F-распределения приведены в [1], табл. 3.5. Распределение Колмогорова. Функция распределения Колмого- Колмогорова имеет вид К(х)= J^ (-\)je-2jx (x>0). j=-oo Распределение Колмогорова является распределением случайной вели- величины г}= sup где ?(t) — броуновский мостик, т. е. винеровский процесс с закреплен- закрепленными концами ?@) = 0, ?A) = 0 на отрезке 0 < t < 1 (см. [11]). Значения функции распределения Колмогорова приведены в [1], табл. 6.1. Квантили распределения Колмогорова будем обозначать че- через ка.
172 Гл. 1. Общие сведения и;2-распределение. Функция ио2 -распределения задается формулой 1 Здесь Iy(z) — модифицированная функция Бесселя, и;2-распределение представляет собой распределение случайной величины где ?(?) — броуновский мостик. Значения функции и;2-распределения приведены в [1], табл. 6.4а. Квантили и;2-распределения будем обозначать через аа.
Глава 2 ОЦЕНКИ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ Как уже говорилось в гл. 1, одним из двух основных направлений в мате- математической статистике является оценивание неизвестных параметров. В этой главе мы дадим определение оценки, опишем те свойства, которые желательно требовать от оценки, и приведем основные методы построения оценок. Завер- Завершается глава изложением метода построения доверительных интервалов для неизвестных параметров. 1. Статистические оценки и их свойства Предположим, что в результате наблюдений мы получили выборку Х\,... ,Хп из генеральной совокупности с теоретической функцией распределения F(x). Относительно F(x) обычно бывает известно толь- только, что она принадлежит определенному параметрическому семей- семейству F(#;#), зависящему от числового или векторного параметра #. Как правило, для простоты изложения будем рассматривать случай числового параметра # и лишь иногда обращаться к векторному па- параметру 9= (#ь ... ,#&); в векторном случае будем использовать за- запись F(x; #ь ..., #fc). Для большей наглядности будем все неизвестные параметры (за исключением теоретических моментов га&, а2 и ц^) обозначать буквой # (снабжая их при необходимости индексами), хотя в теории вероятностей для них обычно приняты другие обозначе- обозначения. Наша цель состоит в том, чтобы, опираясь только на выборку Х\,... ,Хп, оценить неизвестный параметр #. Оценкой неизвестного параметра #, построенной по выборке Х\,... ,Хп, назовем произвольную функцию Г =Г(Х,,...,Х„), зависящую только от выборки Х\,... ,Хп. Ясно, что как функция от случайной величины (Х\,... ,Хп) оценка #* сама будет являться случайной величиной и, как всякая случайная величина, будет иметь функцию распределения F#*(x), определяемую в дискретном случае формулой где суммирование ведется по всем переменным х\,...,хп, принимаю- принимающим значения {Ь\,... ,Ьь} из ряда распределения наблюдаемой случай-
174 Гл. 2. Оценки неизвестных параметров ной величины X и удовлетворяющим неравенству и в непрерывном случае — формулой ... ,хп) < х, г F#*(x) = \... dx\ --dxn, где интегрирование ведется по области, выделяемой неравенством #*(#!,... ,хп) < х. Как уже говорилось, иногда для того, чтобы под- подчеркнуть зависимость оценки от объема выборки п, будем наряду с обозначением #* употреблять обозначение ^пу Нужно четко пред- представлять себе, что зависимость оценки #* от неизвестного пара- параметра $ осуществляется только через зависимость от $ выборки Х\,... ,Хп, что в свою очередь реализуется зависимостью от $ функ- функции распределения F$*(x) = F$*(x; #). Приведенное выше определение отождествляет понятие оценки $* (вектора оценок 9* = (#*, ...,#?)) с одномерной (/с-мерной) статистикой. Пример 1. Предположим, что проведено п испытаний в схеме Бернулли с неизвестной вероятностью успеха #. В результате наблюдений получена вы- выборка Х\,...,Хп, где Хг — число успехов в г-м испытании. Ряд распределения наблюдаемой величины X — числа успехов в одном испытании представлен в табл. 1. Таблица 1 X р 0 1 -tf 1 В качестве оценки $* рассмотрим наблюденную частоту успехов = — = т , п где = Х\ Хп представляет собой суммарное число успехов в п испытаниях Бернулли. Ста- Статистика \i распределена по биномиальному закону с параметром #, поэтому ряд распределения оценки #* имеет вид, приведенный в табл. 2. ? Таблица 2 р 0 A -$)п 1/га г/п G)^A-*)»-* 1 Пример 2. Выборка Х\,..., Хп произведена из генеральной совокупно- совокупности с теоретической функцией распределения F(x) = Ф(х;$, а2), являющейся нормальной с неизвестным средним #. В качестве оценки $ снова рассмотрим выборочное среднее Г = ш* = - п + ¦Хп)
/. Статистические оценки и их свойства 175 Функция распределения F$*(x) задается формулой F«.(x)= J...J B7га2)e-M^-^+-+^-»ndxi...dXn. ^-(ж1+...+жгг)<ж Однако вместо непосредственного вычисления написанного n-мерного интегра- интеграла заметим, что статистика S = Xi + ...+Xn распределена по нормальному закону с параметрами rvd (математической ожи- ожидание) и па2 (дисперсия). Значит, оценка $* = S/n распределена также по нормальному закону с параметрами $ и а2/п. ? Разумеется, на практике имеет смысл использовать далеко не лю- любую оценку. Пример 3. Как и в примере 1, рассмотрим испытания в схеме Бернулли. Однако теперь в качестве оценки неизвестной вероятности успеха # возьмем Г = Г(Х,,...,ХП) = 1. Такая оценка будет хороша лишь в том случае, когда истинное значение $ = = 1/2; ее качество ухудшается с увеличением отклонения $ от 1/2. ? Приведенный пример показывает, что желательно употреблять только те оценки, которые по возможности принимали бы значения, наиболее близкие к неизвестному параметру. Однако в силу случайно- случайности выборки в математической статистике мы, как правило, не застра- застрахованы полностью от сколь угодно большой ошибки. Значит, гаранти- гарантировать достаточную близость оценки #* к оцениваемому параметру д можно только с некоторой вероятностью и для того, чтобы увеличить эту вероятность, приходится приносить необходимую жертву — увели- увеличивать объем выборки п. Опишем теперь те свойства, которые мы хотели бы видеть у оценки. Главное свойство любой оценки, оправдывающее само название «оценка», — возможность хотя бы ценой увеличения объема выборки до бесконечности получить точное значение неизвестного параметра #. Оценка #* называется состоятельной, если с ростом объема выбор- выборки она сходится к оцениваемому параметру д. Можно рассматривать сходимость различных типов: по вероятности, с вероятностью единица, в среднем квадратичном и т. д. Обычно рассматривается сходимость по вероятности, т.е. состоятельной называется такая оценка #* = $1п\, которая для любого г > О при всех возможных значениях неизвестного параметра # удовлетворяет соотношению Отметим, что правильнее было бы говорить о состоятельности по- последовательности оценок $(п), поскольку для каждого значения п объема выборки оценка $1^ может определяться по своему правилу. Однако в дальнейшем мы будем употреблять понятие состоятельности
176 Гл. 2. Оценки неизвестных параметров только для оценок, построенных по определенным алгоритмам, поэтому будем говорить просто о состоятельности оценки. Пример 4. Оценка $* из примера 1 является состоятельной оценкой неизвестной вероятности успеха #. Это является прямым следствием закона больших чисел Бернулли. ? Пример 5. Пусть выборка Х\,... ,Хп произведена из генеральной сово- совокупности с неизвестной теоретической функцией распределения F(x). Тогда в силу закона больших чисел выборочный момент сходится к теоретическому моменту nik = МХк и, значит, представляет собой состоятельную оценку rrik- Аналогично, выборочные дисперсии сг2* и s2* и вы- выборочные центральные моменты ц% являются состоятельными оценками теоре- теоретической дисперсии о2 и теоретических центральных моментов Цк. Отметим, что поскольку в этом примере не предполагается принадлежность теоретиче- теоретической функции распределения F(x) какому-либо параметрическому семейству, то мы имеем дело с задачей оценки неизвестных моментов теоретической функции распределения в непараметрической модели. ? Пример 6. Выборка Х\,... ,Хп произведена из генеральной совокуп- совокупности с теоретической функцией распределения F(x), имеющей плотность распределения Коши Р(х) = -fT—, ^2Т с неизвестным параметром #. Поскольку плотность распределения Коши сим- симметрична относительно #, то казалось бы естественным в качестве оценки #* параметра # взять выборочное среднее ¦в* =т* = -(Х1 + ... + Хп). п Однако #*, как и сама наблюдаемая случайная величина X, имеет распреде- распределение Коши с тем же параметром $ (это легко установить с помощью харак- характеристических функций, см. часть 1, гл.8, параграф 3), т.е. не сближается с параметром #, а значит, не является состоятельной оценкой параметра #. ? Из курса теории вероятностей известно (см. часть 1, гл. 7, пара- параграф 1), что мерой отклонения оценки #* от параметра д служит разность М$* — #. В математической статистике разность М>&* ->& = 5A}) называется смещением оценки #*. Ясно, что в дискретном случае и 5(#) = ... [&*(xi,..., хп) — д] р(х\\ д) • • -р(хп; $) dx\ • • • dxn в непрерывном, где суммирование или интегрирование ведется по всем возможным значениям х\,...,хп.
/. Статистические оценки и их свойства 177 Оценка #* называется несмещенной, если = О при всех #, т. е. ее среднее значение М$* совпадает с оцениваемым параметром #. Пример 7. Оценка $* неизвестной вероятности успеха # из примера 1 является несмещенной. Действительно, Mtf* = - M(Xi + ... + Хп) = - (MXi + ... + МХп) = MX = ti. П п п Пример 8. Выборочные моменты т% являются несмещенными оценками теоретических моментов гпк, поскольку Mml = i M(Xf + ... + X*) = i (MX,fc + ... + MX*) = MXfc = mk. Вычислим теперь математическое ожидание выборочной дисперсии сг2*: Ma2* = M (i [(X, - m*J + ... + (Xn - m*J]) 1 п 9 = - > MX. — — > Щт Хг) + М(ш ) = 2п п * п п ^— 77Т/9 — — / / 1*11 AjA'j I \~ — У У 1*1 ( У\.i,-Л.-у 1 ^-^ м х^2 1 v^ м/'vv^ тг—1 1^ 2 п2 f^x n2 fj j п п2 fr п — 1 га — 1 2 гг— 12 = 7712 ТП = СГ . п п п Таким образом, ст2* является смещенной (хотя и состоятельной, см. при- пример 5) оценкой дисперсии сг2 Поскольку 2* П 2* s = сг , га- 1 то Ms = сг и s2* представляет собой уже несмещенную оценку сг2 Можно показать также, что выборочные центральные моменты /4 (& ^ 3) являются смещенными оценками теоретических центральных моментов /Лк- ? Пример 9. Пусть Xi,...,Xn — выборка из генеральной совокупности с теоретической функцией распределения F(x) = Ф(ж;#, сг2), являющейся нор- нормальной с неизвестным средним #. Поскольку MX = #, то оценка V = V (Ль ...,АП) = Х\ является несмещенной. Очевидно, однако, что она не является состоя- состоятельной. ? Примеры 8 и 9 показывают, что состоятельная оценка может быть смещенной и, наоборот, несмещенная оценка не обязана быть состоя- состоятельной.
178 Гл. 2. Оценки неизвестных параметров Рассматривая несколько оценок неизвестного параметра #, мы, ра- разумеется, хотели бы выбрать из них ту, которая имела бы наименьший разброс, причем при любом значении неизвестного параметра д. Ме- Мерой разброса оценки #*, как и всякой случайной величины, является дисперсия Ш* = М(Г - МГ J (дисперсия, как и распределение оценки, зависит от неизвестного параметра #). Однако для смещенной оценки #* дисперсия служит мерой близости не к оцениваемому параметру if, ак математическому ожиданию М$*. Поэтому естественно искать оценки с наименьшей дисперсией не среди всех оценок, а только среди несмещенных, что мы и будем делать в дальнейшем. Для несмещенных оценок дисперсия определяется также формулой Имеется несколько подходов к нахождению несмещенных оценок с минимальной дисперсией. Это связано с тем, что такие оценки су- существуют не всегда, а найти их бывает чрезвычайно сложно. Здесь мы изложим понятие эффективности оценки, основанное на неравенстве Рао-Крамера. Теорема 1 (неравенство Рао-Крамера). Пусть $1^ — несмещенная оценка неизвестного параметра #, построенная по выборке объема п. Тогда (при некоторых дополнительных условиях регулярности, нало- наложенных на семейство F(x;$)), где I = 7(i?) — информация Фишера, определяемая в дискретном случае формулой L /=1 а в непрерывном — формулой Прежде чем переходить к доказательству теоремы, заметим, что по неравенству Рао-Крамера дисперсия любой несмещенной оценки не может быть меньше \/{nI). Назовем эффективностью е = е($) несмещенной оценки #* величину 1
/. Статистические оценки и их свойства 179 Ясно, что эффективность любой оценки #* при каждом # заключена между нулем и единицей, причем чем она ближе к единице при каком- либо #, тем лучше оценка #* при этом значении неизвестного пара- параметра. Несмещенная оценка #* называется эффективной (по Рао-Краме- ру), если е(#) = 1 при любом #. Доказательство теоремы 1. Доказательство этой и всех остальных теорем будем проводить (если не сделано специальной оговорки) для непрерыв- непрерывного случая. Это связано с тем, что непрерывный случай, как правило, более сложен, и читатель, усвоивший доказательство для непрерывного случая, легко проведет его для дискретного. Как мы увидим из хода доказательства, условия регулярности семейства F(x;$), упомянутые в формулировке теоремы, есть не что иное, как условия, гарантирующие законность дифференцирования под знаком интеграла в фор- формулах A) и C). В разных книгах сформулированы различные достаточные условия. Мы упомянем одно из них, приведенное в [11]: функция р(х\ $) для всех (точнее, для почти всех) х непрерывно дифферен- дифференцируема по #, информация Фишера 1($) конечна, положительна и непрерывна по #. Приступим теперь к собственно доказательству теоремы. Заметим прежде всего, что, дифференцируя тождество оо [ p(x;$)dx= 1 A) — оо (в силу сформулированного условия это можно делать), получаем 0. B) Далее, в силу несмещенности оценки $*n) = #*n)(Xi,... ,ХП) имеем оо оо М#*п) = ••• l&*n)(xi,...,xn)p(xi;tf)---p(xn;'&)dxi---dxn = '&. C) — оо —оо Дифференцируя это равенство по # и учитывая очевидное тождество оо оо ... rdp(xu'd)---p$(xi\'d)---p(xn\'d)dx\---dxn = O, — оо —оо полученное из A) и B), находим )---pv(xi;$)---p(xn;$)\ dxx---dxn = -оо -оо -оо -оо
— оо —оо оо оо 180 Гл. 2. Оценки неизвестных параметров Воспользовавшись неравенством Коши-Буняковского оо оо г г ... a(x\,...,xn)b(x\,...,xn)p(xu'd)---p(xn;'d)dx\---dxn ^ ... а (х\,..., хп)р{хи Ф)'' -р(хп\ Ф) dx\ • • • dxn\ x — оо —оо оо оо х ••• Ъ2{х\,...,хп)р{х\\Ф) •••p(xn',fi)dxi •••dxn\ — оо —оо при п -' а(х\,..., хп) = ^(п) (х\,..., хп) - #, Ь(х\,..., хп) = 2 1/2 имеем оо оо 1 < L v v"'y ' J J V^ p{Xi;V) у — -• - — - • - - -j — оо — оо г~[ E) Заметим теперь, что в силу тождества B) оо оо -оо -оо Тогда неравенство E) можно переписать в виде 1 < n/Di?*^, откуда и следует неравенство Рао-Крамера. ? Замечание 1 к теореме 1. Для превращения используемого при доказа- доказательстве теоремы 1 неравенства Коши-Буняковского, в равенство необходимо и достаточно существование таких функций #*(ж) аргумента х и с(#) аргумен- аргумента #, что ; При этом оценка #*n)(xi,... ,хп) должна иметь вид #*П)(Ж1, ... ,Хп) = - [&*(xi) + .. . + ^*(хп)] . Обозначая tf*(x) = S(x), АШ = | сШ d$, B($) = -\i J J и интегрируя уравнение F), получаем, что необходимым условием существо- существования эффективной оценки является возможность представления плотности распределения р(х\ Ф) в виде где h(x) и S(x) — функции, зависящие только от х, а А($) и В($) — функции, зависящие только от #.
/. Статистические оценки и их свойства 181 Аналогичное представление для ряда распределения Р(х\ #) должно иметь место и в дискретном случае. Семейство плотностей или рядов распределения такого вида носит название экспоненциального. Экспоненциальные семейства играют в математической статистике важную роль. В частности, как мы показали, только для этих семейств могут суще- существовать эффективные оценки, которые к тому же определяются формулой $(n) = -^[S(Xl) + ... + S(Xn)} (8) (появление множителя \/д связано с неоднозначностью определения функций h(x), A($), В($) и S(x) в представлении G)). Однако следует помнить, что не для всякого экспоненциального семейства существует эффективная оценка (в принятом нами смысле), поскольку эффективная оценка по опре- определению должна быть несмещенной, что, вообще говоря, нельзя сказать об оценке (8) в случае произвольного экспоненциального семейства. Впрочем, из тождества A) вытекает весьма простой способ проверки несмещенности (8) непосредственно по А($) и В($), заключающийся в выполнении равенства Замечание 2 к теореме 1. Неравенство Рао-Крамера можно обобщить на случай смещенных оценок: И в этом случае неравенство превращается в равенство только тогда, когда семейство распределений экспоненциально. Пример 10. Рассмотрим оценку #* неизвестной вероятности успеха $ в схеме Бернулли из примера 1. Как показано в примере 7, эта оценка несмещенная. Дисперсия #* имеет вид Найдем информацию Фишера (напомним, что в данном случае наблюдаемая величина X принимает всего два значения 0 и 1 с вероятностями Р@;#) = = 1-1?иРA;1?) = ^ соответственно): Таким образом, е(#) = 1 и, значит, оценка #* эффективная. П Пример 11. Рассмотрим оценку $* неизвестного среднего нормального закона из примера 2. Поскольку эта оценка представляет собой выборочное среднее, то в соответствии с результатами, полученными в примере 8, она является несмещенной. Найдем ее эффективность. Для этого прежде всего заметим, что DX а2 Далее, >) = In ip(X; #, а2) = — In л/2?
182 Гл. 2. Оценки неизвестных параметров ) ] = \ 22 DX 22 ) И в этом примере оценка #* является эффективной. П Пример 12. Оценим неизвестную дисперсию ft = DX нормального зако- закона при известном среднем т. Плотность нормального распределения предста- вима в виде где S(x) = (х-тJ, А(&) = —-, т. е. по отношению к неизвестной дисперсии $ принадлежит экспоненциаль- экспоненциальному семейству. Поэтому эффективная оценка $* дисперсии $ должна по формуле (8) иметь вид Г = -1 [S(Xi) + ... + S(Xn)] = -1 JT(Xi - m)\ С другой стороны, нетрудно видеть, что ФА'^Ф) = —В'^), откуда следует несмещенность оценки и, значит, ее эффективность. Впрочем, эффективность оценки $* легко уста- установить и на основе неравенства Рао-Крамера. Пусть теперь мы оцениваем не дисперсию, а среднее квадратичное отклоне- отклонение $ = л/DX . И в этом случае имеет место представление G), только теперь ^ , (&) = - In Поэтому равенство дФА'^Ф) = —В'^) не превращается в тождество ни при каком выборе д, и, значит, эффективной (в смысле Рао-Крамера) оценки среднего квадратичного отклонения нормального закона не существует. Рас- Рассмотрим оценку равную корню квадратному из оценки дисперсии с точностью до постоянного множителя л/п/2 Г(п/2)/Г((п+ 1)/2). Читателю предлагается проверить, что оценка #* несмещенная. Кроме того, в следующем параграфе будет показано, что среди всех несмещенных оценок среднего квадратичного отклонения $ она имеет минимальную дисперсию (хотя и не является эффективной). ? Пример 13. Пусть выборка Х\,..., Хп произведена из генеральной со- совокупности с равномерным на интервале @, $) теоретическим распределением. Оценим неизвестный параметр #. Обозначим через X* максимальный член вариационного ряда. В качестве оценки параметра # возьмем Q* п + 1 * V = Хп.
2. Достаточные оценки 183 Функция распределения Fx*(x) статистики X* задается формулой Fx*(x) = P{X*<x} = P{Xl <x,...,Xn <х} = <х}---Р{Хп<х}= ^ Тогда п+ 1 Г хп~х пх —— dx = 'д. п о Значит, оценка $* несмещенная. Далее, га;", пх ——- dx = гг(гг О п (п - Мы видим, что дисперсия оценки $* при п —»> оо убывает, как 1/п2. Та- Такая оценка оказалась более эффективной, поскольку дисперсия эффективной оценки убывает только, как 1/п. Разгадка парадокса чрезвычайно проста: для данного семейства не выполнены условия регулярности, необходимые при доказательстве неравенства Рао-Крамера. Используя понятие достаточной статистики, в следующем параграфе мы докажем минимальность дисперсии данной оценки. ? В заключение этого параграфа отметим, что эффективные по Рао- Крамеру оценки существуют крайне редко. Правда, как мы увидим в параграфе 4, эффективность по Рао-Крамеру играет существенную роль в асимптотическом анализе оценок, получаемых методом макси- максимального правдоподобия. Кроме того, существуют обобщения неравен- неравенства Рао-Крамера (например, неравенство Бхаттачария [7]), позволяю- позволяющие доказывать оптимальность более широкого класса оценок. В следующем параграфе мы рассмотрим другой подход к определе- определению оценок с минимальной дисперсией, базирующийся на достаточных статистиках. Наиболее распространенные методы нахождения оценок приводятся в параграфах 3-6. Наконец, в параграфе 7 описан подход к построению доверительных интервалов для неизвестных параметров. 2. Достаточные оценки Первый шаг в поисках другого (не основанного на неравенстве Рао-Крамера) принципа построения оценок с минимальной дисперсией состоит во введении понятия достаточной статистики (отметим, что достаточные статистики играют в современной математической ста- статистике весьма важную роль, причем как при оценке неизвестных
184 Гл. 2. Оценки неизвестных параметров параметров, так и при проверке статистических гипотез). Назовем /с-мерную статистику S=(Su...,Sk) = (Sl(Xu...,Xn),...,Sk(Xu...,Xn)) достаточной для параметра #, если условное распределение Fxu...,xn(x\, ...,xn\S = s) выборки Х\,... ,Хп при условии S = s не зависит от параметра #. Пример 14. Пусть Хг — число успехов в г-м испытании Бернулли (см. пример 1). Рассмотрим статистику S = Xi + ... + Xn — общее число успехов в п испытаниях Бернулли. Покажем, что она является достаточной для вероятности успеха #. Для этого найдем условное распре- распределение P{Xi = х\,...,Хп = хп | S = s}. Воспользовавшись определением условной вероятности, получаем Р{Х, = хи...,Хп = хп\ S = s} =HXl=xl, Xn = xn,S = s} (9) Если х\ + ... + хп = s, то вероятность P{Xi = х\,..., Хп = xn,S = s} совпа- совпадает с вероятностью P{Xi = х\,... ,Хп = хп}, т. е. (напомним еще раз, что каждое Хг может принимать здесь только значение О или 1, причем х\ + ... + хп = s). Поскольку вероятность P{S = s} определя- определяется формулой Бернулли то из (9) получаем, что P{Xl=xu...,Xn = x т. е. не зависит от #. Если же х\ + ... + хп ф s, то P{Xi = xi,..., Xn = xn,S = s} = 0, откуда Р{Хх=хх,...,Хп = хп \S = s} = 0, т. е. опять-таки не зависит от #. Таким образом, S — достаточная стати- статистика. ? Очевидно, что использовать приведенное выше определение для проверки достаточности конкретных статистик весьма сложно, особен- особенно в непрерывном случае. Простой критерий достаточности задается следующей теоремой. Теорема 2 (факторизационная теорема Неймана-Фишера). Для того чтобы статистика S = S(X\,..., Хп) была достаточной для пара- параметра $, необходимо и достаточно, чтобы ряд распределения Р(хх,..., хп\ 1?) = Р{х\\ #) • • • Р(хп; 1?) в дискретном случае или плотность распределения р(х\,...,хп;'&)= р(х\; 1?) • • • p(xn;i?)
2. Достаточные оценки 185 в непрерывном случае выборки Х\,... ,ХП были представимы в виде Р(хи ..., жп; #) = A(xi,..., xn) B(S\ #), p(xi,...,xn;i?)=A(xi,...,xn)BE;i?), ( ] где функция А(х\,... ,хп) зависит только от х\,...,хп, а функция B(s; #) — только от s и д. Доказательство. Для простоты изложения ограничимся только дис- дискретным случаем. По определению условной вероятности, Р{Х\ = х\,...,Хп = хп Ь = s\ = — _ -. (И) Р|Ь _ s) Очевидно, что числитель в правой части A1) совпадает с вероятностью P{Xi = х\,... ,ХП = хп} в том случае, когда s = S(x\,... ,хп), и равен нулю в противном. Поскольку событиями нулевой вероятности можно пренебречь, то ограничимся случаем s = S(x\,..., хп) и запишем A1) в виде Р{Х, =xu...,Xn=xn\S = s}= P{Xl = ^'g '1' ^" = Хп} . A2) Теперь, если S — достаточная статистика, то левая часть A2) не зависит от #. Обозначая ее через А(х\,... ,xn), a PIS' = s} — через B(s;$), приходим к A0), что доказывает необходимость A0). И наоборот, пусть выполнено A0). Тогда = ]Г P(xu...,xn;&) = x\,...,xn: S{x\,...,xn) = s Подставляя последнее равенство в A2), имеем y\,...,yn: S(yi,...,yn) = s т. е. не зависит от #, а значит, статистика ? является достаточной. П Замечание к теореме 2. Очевидно, что представление A0) справедливо с точностью до функции g = g(S), зависящей только от S = S(x\,... ,хп). Пример 15. Пусть Х\,... ,ХП — выборка из генеральной совокупности с теоретической функцией распределения, являющейся нормальной со сред- средним #i и дисперсией #2- Покажем, что (двумерная) статистика ? = (S\, S2), где 5, = -(Xi + ... + Xn), S2 = (Xl-SlJ + ... + (Xn-SlJ, n является достаточной для (двумерного) параметра $ = (#ь#2) (см. также пример 3 из гл. 1). Действительно, плотность распределения р(х\,..., хп;$) выборки Х\,..., Хп представима в виде _S2+n(S[-$[J p(xu...,xn;$) = Bтг^2)"п/2е 2^ т.е. имеет вид A0), где
186 Гл. 2. Оценки неизвестных параметров Пример 16. Пусть Х\,...,Хп — выборка из генеральной совокупности с равномерным на интервале @,#) теоретическим распределением (см. при- пример 13). Покажем, что максимальный член вариационного ряда s = s(xu...,xn) = xn является (одномерной) достаточной статистикой для #. Действительно, вспо- вспоминая, что плотность р(х;$) равномерно распределенной на интервале @, #) величины равна 1/# при х G @, #) и нулю в противном случае, получаем для плотности распределения выборки Х\,...,Хп выражение ( — ) , если 0 < Хг < 'д для всех г; 0 в противном случае. В частности, область изменения каждого аргумента х% при отличной от нуля плотности распределения зависит от параметра #. Рассмотрим функцию S = S(x\,..., хп) = max xi И ПОЛОЖИМ Г / ] \п () если 0< S <$; в противном случае, { если Хг > 0 для всех г; О в противном случае. С учетом введенных функций р(хх 1...1xn\'S) = А(хх,...,хп) B(S\S). Здесь уже при определении функции А(х\,... ,хп) на Хг сверху не наложено никаких ограничений, поскольку они автоматически ограничены своим мак- максимальным значением S, которое в свою очередь не превосходит #. Но это означает, что функция А(х\,..., хп) не зависит от параметра 1?ив сответствии с теоремой 2 статистика S = S(Xi Хп) = Х*п является достаточной для параметра #. П Пример 17. Покажем, что для экспоненциального семейства G) суще- существует одномерная достаточная статистика. Этот факт легко установить, если подставить выражение G) в формулу для плотности распределения выборки Xi,...,Xn: р(х\,... ,ж„;#) = p(xi;-&) ¦¦¦р{хп\д) = = h(x1)---h(xn)els(x<) Полагая теперь А(х\,... ,хп) = h(x\) •••h(xn), S = S(x\,..., xn) = S(x\) + ... + S(xn) видим, что одномерная статистика
2. Достаточные оценки 187 является достаточной для параметра #. ? Как уже говорилось в гл. 1, смысл достаточной статистики S заклю- заключается в том, что она включает в себя всю ту информацию о неизвест- неизвестном параметре #, которая содержится в исходной выборке Х\,...,Хп. Интуиция подсказывает нам: оценка с наименьшей дисперсией (если она существует) должна зависеть только от достаточной статистики S. И действительно, следующий наш шаг будет заключаться в переходе от произвольной оценки #* к оценке #?, зависящей только от достаточной статистики S, причем этот переход совершится таким образом, чтобы дисперсия оценки $*s не превосходила дисперсии исходной оценки #*. Начиная с этого момента и до конца параграфа будем для простоты предполагать, что неизвестный параметр $ является одномерным. Пусть имеется некоторая оценка #* этого параметра, а также (про- (произвольная) статистика S. Рассмотрим условное математическое ожи- ожидание М(#* | S) случайной величины #* при условии S (см. часть 1, гл. 7, параграф 5). Следующее утверждение, играющее основную роль в наших рассуждениях, было получено независимо Д. Блекуэлом, М.М. Рао и А. Н. Колмогоровым. Теорема 3 (улучшение оценки по достаточной статистике). Пусть S — достаточная статистика, af - несмещенная оценка парамет- параметра #. Тогда условное математическое ожидание $*s = М(#* | S) является несмещенной оценкой параметра #, зависящей только от достаточной статистики S и удовлетворяющей неравенству Dd*s < Dtf* A3) при всех #. Доказательство. В силу достаточности статистики S условное распре- распределение, а значит, и условное математическое ожидание оценки #* при усло- условии S не зависит от неизвестного параметра # (для произвольной статистики S функция #?, вообще говоря, может зависеть от #), т.е. #? представляет собой оценку параметра #, причем зависящую только от S. Далее, из равенства для условного математического ожидания немедленно следует несмещенность оценки #?. Наконец, 2M [№ Используя опять свойство условного математического ожидания, получаем М [{0% - ЩГ - П)} = М (М [@% - $)($* - 0%) | S)}) = = М(@?-1?)М[@*-1??) |5])=0. Поэтому D?* Dtf* М(Г - i?s) ^ Di?s- ?
188 Гл. 2. Оценки неизвестных параметров Замечание 1 к теореме 3. Неравенство A3) превращается для неко- некоторого 'д в равенство тогда и только тогда, когда #* = $% (почти всюду по мере F(x\'d)). Замечание 2 к теореме 3. Утверждение теоремы остается в силе и для смещенной оценки $*. В частности, М$* = M#J. Смысл теоремы 3 заключается в том, что взятие условного мате- математического ожидания, т.е. переход к оценке #?, зависящей только от достаточной статистики S, не ухудшает любую оценку #* при всех значениях неизвестного параметра #. Пример 18. Пусть Х\,...,Хп — выборка из нормально распределенной генеральной совокупности с неизвестным средним $ и известной дисперси- дисперсией а . В примере 9 было показано, что оценка •&* = Х\ даже не является состоятельной оценкой #, хотя она и несмещенная. Рассмотрим статистику Нетрудно показать, что статистика S является достаточной для параметра #. Поэтому мы можем определить новую оценку $*s = M($* \S). Для ее вычис- вычисления заметим, что величины #* = Х\ и S = Х\ + ... + Хп имеют двумерное нормальное распределение со средними М$* = $ и М5 = ш?, дисперсиями Ы* = а2 и DS = па2 и ковариацией cov(tf*, S) = M[(i?* - #)(? - гм?)] = а2. Но тогда, как известно из курса теории вероятностей, условное распределе- распределение #* при условии S = s также является нормальным со средним значением 'д + р\[о (s — п^/у/гкг2, как раз и представляющим собой значение М(#* | б') при S = s. Поскольку коэффициент корреляции р = cov(^*, S)/y/D'd*DS = = l/л/п, то среднее значение условного распределения $* совпадает с s/n и окончательно получаем #*s = - = -(Xi +...+Xn)=m*. п п Иными словами, мы из совсем плохой оценки #* = Х\ получили эффективную (см. пример 11) оценку #J — m*- ^ Рассмотренный пример приоткрывает нам те возможности, которые несет с собой теорема 3. Однако, прежде чем сделать последний шаг, введем еще одно определение. Назовем статистику S = S(X\,... ,Хп) полной для семейства распределений F(x;i!)), если из того, что = Mg(S(Xi,...,Xn)) = — сю —сю при всех $ (мы для простоты предположили существование плотности распределения р(х;$)), следует, что функция g(s) тождественно равна нулю. Теперь мы в состоянии сформулировать окончательный итог наших поисков.
2. Достаточные оценки 189 Теорема 4 (минимальность дисперсии оценки, зависящей от полной достаточной статистики). Пусть S — полная достаточная статистика, ад*— несмещенная оценка неизвестного параметра д. Тоща #% = М(Г | S) является единственной несмещенной оценкой с минимальной диспер- дисперсией. Доказательство теоремы немедленно вытекает из предыдущих ре- результатов. Действительно, в силу теоремы 3 оценка с минимальной дисперсией обязательно должна находиться среди оценок, зависящих только от достаточ- достаточной статистики S; в противном случае ее можно было бы улучшить с помощью условного математического ожидания. Но среди оценок, зависящих только от S, может быть максимум одна несмещенная. В самом деле, если таких оценок две: #* = fi*(S) и #? = #2(^)> то функция g = g(S) = #Г - #2 имеет при всех значениях # математическое ожидание Mg(S) = М$* - Mi?2 = $ - $ = О, что в силу полноты статистики S влечет за собой равенство g(s) нулю. Само же существование несмещенной оценки $*s = М(#* | S), зависящей только от S, гарантируется существованием просто несмещенной оценки #*. П Перейдем к обсуждению полученных результатов. Условие полноты статистики S, как мы видим, сводится к един- единственности несмещенной оценки #*, зависящей только от статистики S. Нам не известно общих теорем, которые давали бы простые правила проверки полноты произвольной статистики S. Однако, как мы увидим из примеров, в конкретных случаях кустарные способы обычно дают хорошие результаты. Сравнение размерностей полной статистики S и оцениваемого па- параметра $ дает право говорить, что, как правило, статистика S должна иметь ту же размерность, что и #, а поскольку мы ограничились одномерным параметром #, то S также должна быть одномерной. Это приводит к следующим полезным определениям. Оценка #* называ- называется достаточной, если она является достаточной как одномерная статистика. Аналогично, назовем оценку #* полной, если она является полной статистикой. Сформулируем очевидное следствие из теоремы 4, которое удобно применять во многих частных случаях. Следствие из теоремы 4. Если оценка #* несмещенная и зависит только от полной достаточной статистики S, то она имеет минималь- минимальную дисперсию. Пример 19. Пусть Х\,... ,ХП — выборка из генеральной совокупности, распределенной по нормальному закону с известным средним m и неизвестным средним квадратичным отклонением $ (# > 0). Нетрудно показать, что стати- статистика 0 0 S = (Xi - mf + ... + (Xn - mf
190 Гл. 2. Оценки неизвестных параметров является достаточной для параметра #. Покажем, что она также полная. Для этого вспомним (см. параграф 4 гл. 1), что случайная величина \2 — 2 имеет х2-распределение с п степенями свободы, а значит, статистика S = имеет плотность распределения Ps{x) = ^ Пусть теперь д(х) — такая функция, что Mg(S) = 0 при всех #. Положим 2-n/2xn/2-l Тогда = 0, О где pi(o;) — преобразование Лапласа функции д\(х). Отсюда, в частности, следует, что gi(u) = 0 для всех ш > 0. Но из теории преобразований Лапласа известно, что в этом случае оригинал д\(х), а значит, и функция д(х) также должны тождественно равняться нулю, что и доказывает полноту статисти- статистики S. Рассмотрим теперь оценку 5  (см. пример 12) неизвестного среднего квадратичного отклонения #. Эта оценка несмещенная и зависит только от полной достаточной статистики S. Поэтому по следствию из теоремы 4 она имеет минимальную дисперсию, хотя, как было показано в примере 12, и не является эффективной по Рао- Крамеру. ? Пример 20. Рассмотрим оценку параметра $ равномерного на интервале @, #) распределения (см. пример 13). В примере 13 показано, что эта оценка несмещенная. Статистика X* является достаточной (см. пример 16). Покажем, наконец, что X* — полная статистика. Действительно, для любой функции д(х) о о Отсюда, в частности, следует, что если Mg(S) = 0 при всех $, то = 0 О при всех х. Поэтому д(х) = 0 и статистика X* полная. Таким образом, в силу следствия из теоремы 4 и в этом примере оценка #* имеет минимальную дисперсию. ?
3. Метод моментов 191 3. Метод моментов Пусть мы имеем выборку Х\,... ,Хп из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей fc-na- раметрическому семейству F(x\ #i,... ,$k) c неизвестными параметра- параметрами i?i,..., #*., которые нужно оценить. Поскольку нам известен вид теоретической функции распределения, мы можем вычислить первые к теоретических моментов. Эти моменты, разумеется, будут зависеть от к неизвестных параметров #i, ...,#&: т\ = MX = mi(#i,...,#fc), m2 = Суть метода моментов заключается в следующем: так как выборочные моменты являются состоятельными оценками теоретических моментов (см. пример 8), мы можем в написанной системе равенств при боль- большом объеме выборки п теоретические моменты тп\, ..., га& заменить на выборочные га*,...,га?, а затем, решая эту систему относительно #1,..., #ь найти оценки неизвестных параметров. Таким образом, в ме- методе моментов оценки #*,...,#? неизвестных параметров #i ,...,#*. определяются из системы уравнений т\ = Можно показать, что при условии непрерывной зависимости решения этой системы от начальных условий m*,...,m? оценки, полученные методом моментов, будут состоятельными. Более того, справедлива следующая теорема. Теорема 5 (асимптотическая нормальность оценок, полученных ме- методом моментов). При некоторых условиях, наложенных на семейство F(x\ #ь ..., #&), совместное распределение случайных величин при п —> оо сходится к (многомерному) нормальному закону с нуле- нулевыми средними и матрицей ковариаций, зависящей от теоретических моментов mi,..., m2/c и матрицы (drrii/d'dj). Доказательство. Будем полагать, что выполнены следующие условия: а) параметры rd\,...,idk однозначно определяются своими моментами 7711, . . . , ГПк\
192 Гл. 2. Оценки неизвестных параметров б) существует теоретический момент т^к порядка 2к (это эквивалентно существованию дисперсий у выборочных моментов т*,..., т%)\ в) функция дифференцируема по 0 = (#!,...,#&) с отличным от нуля якобианом Доказательство теоремы проведем для одномерного случая, предоставляя общий случай читателю. Оно является комбинацией следующих результатов: теоремы о дифференцируемости обратного отображения и центральной пре- предельной теоремы. Действительно, поскольку существует дисперсия DX, то при каждом истинном значении $ параметра $ в силу центральной предельной теоремы выборочное среднее m* = -(Xi + ... + Xn) п асимптотически при п —*> оо распределено по нормальному закону с парамет- параметрами т = mi(#) и а2 /п = [гп2{гв) — (mi(#)J]/n. С другой стороны, сама оценка #* записывается в виде Г =m[)(m*), где т\~х\х) — обратная к mi(#) функция. В силу сделанных предположений обратное отображение т\~х\х) в окрестности точки т приближенно пред- представляет собой линейную функцию ?711 (ж) = а (х — т) + Ь, причем а = \/т' (Ъ). Но тогда и случайная величина #* как приближенно линейное преобразование приближенно нормальной случайной величины ш* распределена приближенно по нормальному закону со средним Ь и дисперсией а2а2/п. Это доказывает утверждение теоремы. ? Пример 21. Найдем методом моментов оценку неизвестной вероятности успеха $ в схеме Бернулли. Поскольку в схеме Бернулли только один неиз- неизвестный параметр, для его определения необходимо приравнять теоретическое математическое ожидание числа успехов в одном испытании т = 7ti(#) = # выборочному среднему ш* = (Х\ + ... + Хп)/п: ш* = &*. Итак, оценка #*, полученная методом моментов, представляет собой наблю- наблюденную частоту успехов. Свойства этой оценки были нами достаточно полно исследованы в примерах 1, 4, 7 и 10. ? Пример 22. Выборка Х\,..., Хп произведена из генеральной совокупно- совокупности с теоретической функцией распределения, имеющей гамма-плотность р(х) = р(х;#i,#2) = 2Г(А) е~^х (х > 0) с двумя неизвестными параметрами #i и $2- Первые два момента случайной величины X, имеющей гамма-распределение, задаются формулами: тх = MX = —- , m2 = MX =
4. Метод максимального правдоподобия 193 Отсюда для определения оценок #* и $% неизвестных параметров $\ и #2 получаем систему двух уравнений: решение которой имеет вид / *\2 * G G Вообще говоря, в методе моментов не обязательно использовать первые к моментов. Более того, можно рассматривать моменты не обя- обязательно целого порядка. Иногда для использования в методе моментов привлекают более или менее произвольные функции д\(х),... ,дк(х), сравнивая выборочные средние ™*i = -\9i(Xi) + ---+9i(Xn)], •••> гп*к = -\9k(Xi) + ...+9k(Xn)] функций д\(Х),... ,дк(Х) с теоретическими средними Пример 23. Пусть выборка Х\,..., Хп произведена из нормальной гене- генеральной совокупности с известным средним т и неизвестной дисперсией #. Попробуем для оценивания $ применить метод моментов, взяв выборочное среднее т*. Но теоретическое среднее т\ = т не зависит от параметра #. Это означает, что использование выборочного среднего для оценивания неизвест- неизвестной дисперсии неправомочно и нужно привлекать моменты других порядков. В частности, применяя второй выборочный момент т\ и вспоминая, что 77i2 = $ + тп , получаем оценку $* = Ш2 — Ш2. П Следует отметить, что оценки, полученные методом моментов, обычно имеют эффективность существенно меньше единицы и даже являются смещенными. Иногда из-за своей простоты они используются в качестве начального приближения для нахождения более эффектив- эффективных оценок. 4. Метод максимального правдоподобия Метод максимального правдоподобия является наиболее распро- распространенным методом нахождения оценок. Пусть по-прежнему выборка Х\,... ,Хп произведена из генеральной совокупности с неизвестной теоретической функцией распределения F(x), принадлежащей извест- известному однопараметрическому семейству F(x\'&). Функция в дискретном случае и L(Xx,...,Xn) = L(Xx,...,Xn;'d)=p(xx;ti)---p(xn;'d) 7 П. П. Бочаров, А. В. Печинкин
194 Гл. 2. Оценки неизвестных параметров в непрерывном называется функцией правдоподобия. Отметим, что в функции правдоподобия L(X\,... ,Хп; #) элементы выборки Х\, ...,Хп являются фиксированными параметрами, а # — аргументом (а не истинным значением неизвестного параметра). Функция правдоподобия по своей сути представляет собой не что иное, как ве- вероятность (в непрерывном случае плотность распределения) получить именно ту выборку Х\,...,Хп, которую мы реально имеем, если бы значение неизвестного параметра равнялось #. Естественно поэтому в качестве оценки неизвестного параметра # выбрать #*, доставляющее наибольшее значение функции правдоподобия L(X\,... ,Хп; #). Оценкой максимального правдоподобия называется такое значение #*, для которого L(XX,..., Хп\ Г) = maxL(Xi,..., Хп\ j}). При практической реализации метода максимального правдоподо- правдоподобия удобно пользоваться не самой функцией правдоподобия, а ее лога- логарифмом. Уравнением правдоподобия называется уравнение Если функция правдоподобия дифференцируема по i? в каждой точке, то оценку максимального правдоподобия $* следует искать сре- среди значений #, удовлетворяющих уравнению правдоподобия или при- принадлежащих границе области допустимых значений #. Для наиболее важных семейств F(x\ #) уравнение правдоподобия имеет единственное решение #*, которое и является оценкой максимального правдоподобия. Пример 24. Найдем оценку неизвестной вероятности успеха $ в схеме Бернулли, но теперь уже в отличие от примера 21 методом максимального правдоподобия. Поскольку Р{Х\гд) = #, если X = 1, и Р{Х\гд) = 1 — #, если X = 0, то функцию правдоподобия можно записать так: L(XU ..., Хп- •&) = Р{Хх\-д) • • • Р{Хп\-д) = ?ГA - ^)п~м, где /jl = Х\ -\- ... -\- Хп — суммарное число успехов в п испытаниях. Тогда уравнение правдоподобия принимает вид ц (п-ц)]пA-0% = J - ^ =0. Решая это уравнение, имеем Поскольку = ^ = т*. п то lnL(Xi,..., Xn'i'ff) представляет собой выпуклую вверх функцию #. Значит, $* доставляет максимум функции правдоподобия L(X\,... ,Хп\гд), т.е. явля- является оценкой максимального правдоподобия. Эта оценка представляет собой, как и в примере 21, наблюденную частоту успехов. ?
4. Метод максимального правдоподобия 195 Оказывается, имеется тесная связь между эффективными оценка- оценками и оценками, полученными методом максимального правдоподобия. А именно, справедлива следующая теорема. Теорема 6 (совпадение эффективной оценки с оценкой максималь- максимального правдоподобия). Если (естественно, при условиях регулярности теоремы 1) существует эффективная оценка #*ф, то она является оценкой максимального правдоподобия #*р. Доказательство теоремы б представляет собой дальнейшее уточнение доказательства теоремы 1. Действительно, как следует из замечания 1 к теоре- теореме 1, из существования эффективной оценки ^*ф вытекает F) и (8) (с g = 1). Отсюда и из D) следует равенство Поэтому из условия строгой положительности информации / вытекает строгая положительность с(#), которая в свою очередь влечет за собой единственность решения уравнения правдоподобия г=1 ^v г' > г=1 Это решение совпадает с эффективной оценкой ^*ф и задает единственный максимум функции правдоподобия L(X\,..., Хп; $). ? В общем случае оценка максимального правдоподобия может быть не только неэффективной, но и смещенной. Тем не менее она обладает свойством асимптотической эффективности в следующем смысле. Теорема 7 (асимптотическая эффективность оценки максималь- максимального правдоподобия). При некоторых условиях на семейство F(x\d) уравнение правдоподобия имеет решение, при п —> оо асимптотически распределенное по нормальному закону со средним д и дисперсией \/(nI), где I — информация Фишера. Доказательство. Сначала сформулируем условия теоремы (см. [9]), которые, как мы увидим далее, гарантируют возможность дифференцируемости под знаком интеграла и разложения дЫр(х\'д)/д'д по ^ в ряд Тейлора до первого члена: а) для (почти) всех х существуют производные б) при всех 'д справедливы неравенства . г* ( \ д2р(х; < G2(x), где функции G\(x) и G2(x) интегрируемы на (—оо,оо) и J H(x)p(x;rd)dx < М, — оо причем М не зависит от #; в) информация / конечна и положительна для всех Ф.
196 Гл. 2. Оценки неизвестных параметров Обозначим через Ь истинное значение неизвестного параметра #. В силу условий теоремы справедливо следующее разложение (Ыр(х;$))$ в окрестно- окрестности &. д д - д2 1^2 д'д ' д'д ' ¦&=& dfi2 ' i?=$ 2 причем |7| < 1. Тогда после умножения на \/п уравнение правдоподобия можно записать в виде п д'д •>•>•> 2 где случайные величины ?о> ?i и & определяются выражениями Рассмотрим поведение ^о, Сь Ь при больших п. Дифференцируя A) по получаем J on on Поэтому М =-7 =- ОО МЯ(Х) = f Н(х) р(х; д) dx < М. — оо Вернемся к уравнению A4) и воспользуемся сначала тем фактом, что при п —»> оо в силу закона больших чисел ?о —>О, $i —^ —/ и ^2 —> Mi7(x), причем, согласно условиям теоремы, / > 0. Тогда можно показать, что уравнение A4) будет в некоторой окрестности $ иметь асимптотически единственное реше- решение #*, которое к тому же определяется приближенной формулой Величина ?о, по центральной предельной теореме, при п -^ оо имеет асимп- асимптотически нормальное распределение с нулевым средним и дисперсией I/п.
4. Метод максимального правдоподобия 197 Поэтому оценка #* также асимптотически распределена по нормальному зако- закону с параметрами Ь и \/(п1). ? Замечание к теореме 7. Доказанная теорема гарантирует, что среди всех решений уравнения правдоподобия существует по крайней мере одно #*, обладающее свойством асимптотической эффективности в указанном смысле. Более того, такое решение асимптотически единственно в некоторой окрест- окрестности точки 'д (т. е. вероятность того, что в этой окрестности имеется другое решение уравнения правдоподобия, с ростом п стремится к нулю) и именно оно доставляет локальный максимум функции правдоподобия в этой окрестности. Но с самого начала мы назвали оценкой максимального правдоподобия оценку, доставляющую глобальный максимум функции правдоподобия. Такая оценка, вообще говоря, может не совпадать ci?* и даже быть неединственной. Однако если семейство распределений F(x\ Ф) удовлетворяет естественному свойству разделимости, смысл которого сводится к тому, что для достаточно удаленных друг от друга $ и $ распределения F(x\ Ф) и F(x\ Ф) также достаточно хорошо отличаются друг от друга, то любая оценка максимального правдопо- правдоподобия будет состоятельной, т. е. стремиться к оцениваемому параметру. Вкупе с доказанной теоремой это означает асимптотическую единственность оценки максимального правдоподобия и совпадение ее с #*, что позволяет при асимп- асимптотическом анализе свойств оценки максимального правдоподобия говорить не об одном из решений уравнения правдоподобия или даже не об одной из оценок максимального правдоподобия, а просто об оценке максимального правдоподобия #*. Детальный разбор этого явления можно найти в [11]. Там же показано, что для оценки близости распределений удобно использовать расстояние Кульбака-Лейблера оо ^ p(F{x;d),F{x;d))= | [in g^j] ф-J) dx, — ОО поскольку в силу закона больших чисел именно к расстоянию Кульбака- Лейблера при п —*> оо сходится с точностью до знака, постоянной J \г\.\р(х\Ф)\р{х\Ф) dx и множителя \/п логарифм функции правдоподобия i,..., Хп- Ф) = ]np(Xi;#) + ... + Ыр(Хп; 0); здесь 'д — аргумент функции правдоподобия, а Ь — истинное значение неиз- неизвестного параметра. В случае, когда семейство F(x\$\,...,#&) зависит от нескольких неизвестных параметров Ф\,..., #&, при использовании метода макси- максимального правдоподобия нужно искать максимум функции правдоподо- правдоподобия или ее логарифма по к аргументам #i, ...,#&. Уравнение правдопо- правдоподобия превращается в систему уравнений ^,,...,*„;#,,...,i?fc)=0,
198 Гл. 2. Оценки неизвестных параметров Пример 25. Выборка Х\,...,Хп произведена из нормальной генеральной совокупности с неизвестными параметрами #i (среднее) и #2 (дисперсия). Найдем их оценки #* и ^ методом максимального правдоподобия. Логарифм функции правдоподобия задается формулой Система уравнений правдоподобия имеет вид ,...,Х„;0Ы?2)) ИЛИ Xi + ... + Хп - rvdi = О, (Xi - tfiJ + ... + (Xi - tfiJ - ntf2 = 0. Таким образом, ^ = -(Xi+... + Xn) = mm, П $1 - [(Xi - m*J + ... + (Xn - m*Jl = a2 n L J Читателю предлагается самостоятельно показать, что #* и ^ доставляют максимум функции правдоподобия Ь(Х\,... ,Хп; 1^1,1^2)- Оценки $* и $% параметров $\ и $2 совпадают с выборочным средним ш* и выборочной дисперсией а . Отметим, что оценка "д\ неизвестного матема- математического ожидания #i является эффективной (см. пример 11), чего нельзя сказать об оценке #? неизвестной дисперсии $%, которая, как мы знаем, является даже смещенной. Оказывается, однако, что если мы в качестве оценки параметра $2 рас- рассмотрим выборочную дисперсию s2*, то эта оценка будет уже не только несме- несмещенной, но и иметь минимальную дисперсию среди всех несмещенных оценок параметра $2- Последний факт вытекает из неравенства Бхаттачария [7], обобщающего неравенство Рао-Крамера, а также может быть установлен из свойств многомерных достаточных оценок [11]. ? 5. Метод минимального расстояния Суть этого метода заключается в следующем. Предположим, что любым двум функциям распределения F\(x) и i^(^) поставлено в со- соответствие число p = p(Fi(x),F2(x))>0, называемое расстоянием, причем p(F{x),F(x)) = 0. Пусть теперь, как обычно, задана выборка Х\,... ,Хп из генеральной совокупности с тео- теоретической функцией распределения F(x), принадлежащей параметри- параметрическому семейству F{x\'d). Вычислим расстояние между эмпирической функцией распределения F*(x) и функциями распределения F{x\'d) из данного семейства. Оценкой, полученной методом минимального расстояния, называется такое значение #*, для которого р (F*(x),F(x; Г)) = minp (F*(x), F(x; 1?)),
6. Метод номограмм 199 т. е. такое значение #*, которое определяет ближайшую к F*(x) в смыс- смысле расстояния р функцию распределения из семейства F(x\'d). Приведем примеры некоторых наиболее часто встречающихся в ма- математической статистике расстояний. Равномерное расстояние (расстояние Колмогорова) определяется формулой (F()F())\F()F()\ Расстояние со2 имеет вид оо p0Ji(Fi(x),F2(x)) = | [ВД - F2{x)f dF2(x). — оо Расстояние %2 употребляется для функций распределения F\(x) и F2(x) дискретных случайных величин ?i и <^2, принимающих одина- одинаковые значения Ь\,..., Ь^, и задается выражением где вероятности Р\(Ь{) = P{^i = bi} и P2(h) = P{^2 = h} определяются рядами распределения случайных величин ?i и ^2- Использование приведенных выше расстояний для получения оце- оценок весьма сложно в вычислительном плане, и поэтому они употребля- употребляются крайне редко. Здесь мы упомянули об этих расстояниях только потому, что применение оценок, полученных с их помощью, позволяет упростить вычисление уровней значимости критериев при проверке сложных непараметрических статистических гипотез, поскольку такие оценки естественным образом связаны с соответствующими критерия- критериями (см. параграф 5 гл. 3). 6. Метод номограмм Еще одним методом, позволяющим, пользуясь только номограмма- номограммами (специальным образом разлинованными листами бумаги, которые в математической статистике носят название вероятностной бумаги), весьма просто и быстро оценить неизвестные параметры, является метод номограмм. Его сущность состоит в следующем. Пусть мы имеем выборку Х\,... ,Хп из генеральной совокупности с неизвестной теоретической функцией распределения, принадлежащей двухпарамет- рическому семейству F(x; $i, $2)- Предположим теперь, что каким-то чрезвычайно простым способом удалось построить функцию распреде- распределения Р(х;$*{,Щ) из семейства F(#;#i,#2)> достаточно хорошо при- приближающую эмпирическую функцию распределения F*(x). Тогда д\ и #9 будут являться оценками неизвестных параметров д\ и $2> ПРИ~
200 Гл. 2. Оценки неизвестных параметров чем в силу теоремы Гливенко-Кантелли состоятельными при весьма слабых условиях, накладываемых на семейство F(x;$\,$2)- Казалось бы, мы пришли к не менее сложной задаче: найти «чрезвы- «чрезвычайно простой» способ приближения эмпирической функции распреде- распределения функцией распределения из семейства Ffafli,^)- Оказывается, однако, что графики функций распределения тех семейств F(x\d\,d2), в которых #i и $2> по сути дела, связаны с параметрами «сдвига» и «масштаба» (к таким семействам относятся, например, нормальное, логнормальное и т.д.), можно с помощью некоторых нелинейных пре- преобразований координат превратить в семейство прямых линий. Тогда, построив в этих новых координатах график эмпирической функции распределения F*(x), нетрудно визуально провести прямую, которая достаточно хорошо приближает F*(x), а затем уже по коэффициен- коэффициентам проведенной прямой найти оценки Щ и Щ неизвестных парамет- параметров #i и ^2- Практическая реализация метода номограмм происходит следую- следующим образом. Сначала выборку Х\,... ,Хп преобразуют в вариацион- вариационный ряд Х*,...,Х^ и на номограмме для соответствующего семей- семейства F(x;$\,$2) откладывают точки Ai (г = 1,...,п) с координатами (Х*,Bг— 1)/Bп)), абсциссы которых X* представляют собой точ- точки скачков эмпирической функции распределения F*(x), а ординаты Bг — 1)/Bп) — середины этих скачков. Затем «на глаз» проводят прямую линию, проходящую как можно ближе ко всем точкам А^. На- Наконец, с помощью пояснений к номограмме по коэффициентам прямой находят оценки Щ и Щ неизвестных параметров #i и #2- Пример 26. Предполагая в примере 1 из гл. 1, что проекция векто- вектора скорости молекул водорода распределена по нормальному закону, оценим с помощью метода номограмм неизвестное математическое ожидание #i и дис- дисперсию #2- Воспользовавшись вариационным рядом выборки, найдем коорди- координаты точек Аг (табл. 3). Отложим точки Ai на номограмме для нормального распределения (на нормальной вероятностной бумаге) и прове- проведем «на глаз» прямую А, зада- задаваемую уравнением у = kx + a (рис. 1). Оценка #* математического ожидания #i совпадает с точкой пересечения прямой А с осью абсцисс, т. е. #* = а = 0,06. Для того чтобы найти оценку $% дисперсии #2, определим значе- значение коэффициента к: к = 0,90. Тогда Щ = 1/к2 = 1,23. Для сравнения приведем значения Рис. 1 оценок этих же параметров, по- полученные методом максималь-
Доверительные интервалы 201 Таблица 3 Аг х{ = X* 2г- 1 CSI М xi = X* 2i- 1 2n Аг xt = X* 2i - 1 Уг In Аг Xi — Af 2i- 1 Vi 2n At x% — л- 2i- 1 Уг ~ 2n Ax -2,33 0,01 An -0,95 0,21 A2X -0,10 0,41 Азх 0,35 0,61 Mx 1,02 0,81 A2 -1,60 0,03 AX2 -0,88 0,23 A22 -0,08 0,43 A32 0,35 0,63 AA2 1,06 0,83 Аз -1,58 0,05 Ахз -0,80 1,25 А23 -0,05 0,45 А33 0,40 0,65 ААз 1Д2 0,85 А4 -1,57 0,07 Аи -0,79 0,27 А24 -0,01 0,47 А34 0,41 0,67 А44 1,27 0,87 А5 -1,36 0,09 Ах, -0,72 0,29 А25 0,01 0,49 А35 0,52 0,69 А45 1,68 0,89 А6 -1,32 0,11 Ai6 -0,53 0,31 А26 0,01 0,51 А36 0,54 0,71 А46 1,92 0,91 А7 -1,29 0,13 А17 -0,52 0,33 А27 0,01 0,53 А37 0,60 0,73 А47 2,15 0,93 А8 -1,06 0,15 Ai8 -0,28 0,35 А28 0,14 0,55 А38 0,65 0,75 А48 2,19 0,95 А9 -1,04 0,17 Ai9 -0,27 0,37 А29 0,30 0,57 А39 0,74 0,77 А49 2,25 0,97 Ахо -0,98 0,19 А20 -0,18 0,39 А3о 0,32 0,59 А40 0,96 0,79 А50 3,47 0,99 ного правдоподобия (см. пример 18, а также пример 8 из гл. 1): #* = 0,082, $2 = 1,34. Как видим, оценки весьма близки. ? Следует отметить, что с помощью метода номограмм можно судить также о правильности выбора семейства Ffafii,^)- Действитель- Действительно, по множеству точек Ai сразу видно, группируются они вокруг некоторой прямой или нет. Если нет, то возникают серьезные со- сомнения в принадлежности теоретического распределения F(x) семей- семейству F(x\ #1, #2)- 7. Доверительные интервалы Полученные в предыдущих параграфах оценки неизвестных пара- параметров естественно называть точечными, поскольку они оценивают неизвестный параметр одним числом или точкой. Однако, как мы знаем, точечная оценка не совпадает с оцениваемым параметром и бо- более разумно было бы указывать те допустимые границы, в которых может находиться неизвестный параметр # при наблюденной выборке
202 Гл. 2. Оценки неизвестных параметров Х\,...,Хп. К сожалению, в подавляющем большинстве важных для практики случаев при любой выборке Х\,...,Хп достоверная область, в которой может находиться неизвестный параметр #, совпадает со всей возможной областью изменения этого параметра, поскольку такую выборку мы можем получить с ненулевой вероятностью (или плот- плотностью распределения) при каждом значении #. Поэтому приходится ограничиваться нахождением границ изменения неизвестного парамет- параметра с некоторой наперед заданной степенью доверия или доверительной вероятностью. Доверительной вероятностью назовем такую вероятность а, что событие вероятности 1 — а можно считать невозможным. Разумеется, выбор доверительной вероятности полностью зависит от исследователя, причем во внимание принимаются не только его личные наклонности, но и физическая суть рассматриваемого явления. Так, степень доверия авиапассажира к надежности самолета, несомненно, должна быть выше степени доверия покупателя к надежности электрической лампочки. В математической статистике обычно используют значения доверитель- доверительной вероятности 0,9, 0,95, 0,99, реже 0,999, 0,9999 и т.д. Задавшись доверительной вероятностью а, мы уже можем по вы- выборке Х\,... ,Хп определить интервал [#' = д'(Х\,... ,Хп), д" = = д"(Х\,..., Хп)], в котором будет находиться неизвестный пара- параметр #. Такой интервал называется доверительным интервалом (ино- (иногда также говорят «интервальная оценка») доверительной вероятно- вероятности а для неизвестного параметра #. Отметим, что доверительная вероятность а ни в коей мере не является вероятностью неизвест- неизвестному параметру # принадлежать доверительному интервалу [$/,'#//], поскольку, как мы предположили с самого начала, априорные сведения о параметре #, в частности о его распределении, отсутствуют. Когда говорят, что неизвестный параметр # не может выйти за границу доверительного интервала [§','&"], констатируют только, что если при любом истинном значении # в результате эксперимента получена вы- выборка Х\,... ,Хп, а затем по ней построен доверительный интервал [$/,'#//], то этот интервал с вероятностью а накроет значение #. Доверительные интервалы определим, следуя Ю. Нейману, опи- опираясь на точечные оценки. По заданной оценке #* доверительные интервалы доверительной вероятности а можно построить различными способами. На практике обычно используют два типа доверительных интервалов: симметричные и односторонние. Ограничимся описани- описанием процедуры построения симметричных доверительных интервалов. Односторонние доверительные интервалы находятся совершенно ана- аналогично. Итак, пусть у нас имеется выборка Х\,...,Хп из генеральной сово- совокупности с неизвестной теоретической функцией распределения F(x), принадлежащей однопараметрическому семейству F(x\d). Предполо- Предположим также, что нами выбрана некоторая оценка #*, по которой мы хо- хотим построить симметричный доверительный интервал доверительной
7. Доверительные интервалы 203 вероятности а. Для этого возьмем произвольное значение # и найдем функцию распределения F$*(x;i!}) оценки #*. Определим х\ = х\{$) и ^2 = #2($) из решения уравнений (см. рис. 2): 7-1/ П\ 1 ~Г С^ 7-1/ П\ -I С^ (напомним, что #i и #2 носят название A +а)/2- и A — а)/2-кванти- лей функции распределения F#*(#;#)). Таким образом, при заданном # оценка $* будет с вероятностью а заключена в интервале [#2>#i]> причем вероятность попадания #* как влево, так и вправо от интервала [#2>#i] имеет одно и то же значение A —а)/2 (отсюда происходит название «симметричный»). Откладывая теперь на графике рис.3 по оси абсцисс значение параметра #, а по оси ординат — соответству- соответствующие ему значения х\ и Х2, получим кривые #i(#) и #2($)- В си- силу принципа невозможности события, происходящего с вероятностью 1 —а, заключаем, что все возможные пары (#,#*) могут находиться только внутри области G между кривыми #i(#) и #2($)- Для окончания построения доверительного интервала остается заметить, что, получив по выборке Х\,... ,Хп оценку #*, мы вправе сделать вывод: неизвест- неизвестный параметр $ обязан лежать внутри интервала [$/,$//], где $' и $" определяются из решения уравнений Именно интервал [$', $"] и является симметричным доверительным интервалом доверительной вероятности а. /У" Рис. 2 Рис. 3 Пример 27. Построим симметричный доверительный интервал довери- доверительной вероятности а для неизвестной вероятности успеха $ в схеме Бернул- ли. Естественно в качестве оценки $* взять наблюденную частоту где /х — суммарное наблюденное число успехов (см. пример 24). При малом объеме выборки п процедура построения доверительных ин- интервалов трудоемка, поскольку она практически сводится к перебору значений неизвестного параметра. Поэтому существуют специальные таблицы (см. [1], табл. 5.2), которые по наблюденным значениям числа успехов \i и числа неудач п — ц дают границы доверительного интервала доверительной вероятности а.
204 Гл. 2. Оценки неизвестных параметров При больших объемах выборки п пользуются тем фактом, что в силу интегральной теоремы Муавра-Лапласа оценка $* распределена приближенно по нормальному закону со средним $ и дисперсией # A — $)/п. Тогда решения уравнений F ( • $) - l+a F ( • $) - 1~а 2 '2 связаны с A + а)/2- и A — а)/2-квантилями <?(i+a)/2 и ^(i_a)/2 (см. [1], табл. 1.3) стандартного нормального закона формулами хх = Х2 = 1 - п «*. if Рис. 4 имеет вид Учитывая, что вых xi(fi) и лентной форме +a)/2 = —^(i-a)/2, уравнения кри- криможно записать в единой эквива- эквиваПоследнее уравнение, как нетрудно видеть, пред- представляет собой уравнение эллипса (рис. 4) (физиче- (физически непонятный выход эллипса за полосу 0 ^ х ^ 1 связан с тем, что при #, близких к нулю или еди- единице, необходимо в соответствии с теоремой Пуас- Пуассона использовать не нормальную, а пуассоновскую аппроксимацию оценки #*). Уравнение для опре- определения границ $' и $" доверительного интервала откуда окончательно получаем п/,// _ 4п п Пример 28. Построим симметричный доверительный интервал довери- доверительной вероятности а для неизвестного среднего # нормального закона при известной дисперсии а2. Эффективной оценкой $* параметра #, как мы знаем (пример 18), является выборочное среднее о* * 1 / лл I I лл \ П Оценка ??* также распределена по нормальному закону с параметрами $ и а /п. Поэтому / ^\ п . I С Хх = т.е. ?i(#) и жг(^) представляют собой уравнения двух параллельных прямых (рис. 5). Решая урав- уравнения
7. Доверительные интервалы 205 получаем границы доверительного интервала ИЛИ, уЧИТЫВаЯ, ЧТО Пример 29. Как и в предыдущем примере, предположим, что выборка Х\,... ,Хп произведена из нормальной генеральной совокупности, но с неиз- неизвестной дисперсией #, а среднее известно и равно т. В качестве оценки $* неизвестной дисперсии $ возьмем выборочную дисперсию (Хп - m ] . Тогда случайная величина \2 — гид*/^ будет иметь х2"РаспРеДеление с степенями свободы, а значит, решения уравнений определяются формулами Х2 = — hi-a П —2~ где ha — а-квантиль табл. 2.26). Уравнения -распределения с п степенями свободы (см. [1], Х\ = х2 = п представляют собой уравнения двух лучей, исходящих из начала координат (рис. 6), и, значит, границы симметричного довери- доверительного интервала доверительной вероят- вероятности а для неизвестной дисперсии $ зада- задаются формулами h П Рис. 6 l + a Пример 30. Рассмотрим, наконец, случай, когда в выборке из нормаль- нормальной генеральной совокупности неизвестны оба параметра: среднее $\ и дис- дисперсия #2- В качестве их оценок воспользуемся выборочным средним &\ * (Х + + Х) и выборочной дисперсией 02 = *2* = - m J] (см. пример 25). Построение доверительного интервала [^ь^/] для неизвестного средне- среднего #i начнем с определения случайной величины
206 Гл. 2. Оценки неизвестных параметров которая, как говорилось в параграфе 4 гл. 1, имеет ^-распределение сп-1 степенями свободы. Обозначим через ?(i+a)/2 и t^_ay2 A + а)/2- и A — — а)/2-квантили ^-распределения (см. [1], табл. 3.2). Тогда значение оценки среднего #* с вероятностью а будет лежать в пределах от ж2 = #i + ti-g \— ДО xi = ^_ Продолжая рассуждения, как и в случае известной дисперсии, и учитывая ра- равенство ?A+а)/2 = —?A-а)/2» получаем окончательные выражения для границ #i и #'/ симметричного доверительного интервала доверительной вероятно- вероятности а: I—- I—- ^1 = ^* — t l+a у — , 'б'х = ft* + ti+a у — . Доверительный интервал [^2^2] доверительной вероятности а для неиз- неизвестной дисперсии $2 строится точно так же, как и в примере 29: fc l + a hl-g При этом нужно учитывать, что квантили /&(i+a)/2 и /i(i-a)/2 берутся для Х2-распределения с п — 1 степенями свободы, поскольку одна степень свободы уходит на определение неизвестного среднего #ь ? В заключение отметим, что в современной математической стати- статистике доверительные интервалы строят так же, основываясь на крите- критериях значимости.
Глава 3 ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ В этой главе мы обратимся ко второму направлению в математической статистике — проверке статистических гипотез. Сначала определим понятия статистической гипотезы и критерия, а затем рассмотрим некоторые наиболее часто встречающиеся на практике гипотезы и приведены критерии для их проверки. 1. Статистическая гипотеза. Критерий Снова предположим, что в результате эксперимента мы получили выборку Х\, ...,Хп из генеральной совокупности с неизвестной теоре- теоретической функцией распределения F(x). Статистической гипотезой (в дальнейшем для краткости вместо «статистическая гипотеза» будем говорить просто «гипотеза») назовем любое предположение о виде теоретической функции распределения F(x). Так, в схеме Бернулли гипотезами будут являться следующие предположения: «вероятность успеха равна 1/2»; «вероятность успеха больше 1/3»; «вероятность успеха заключена между 0,4 и 0,7» и т. д. С нормальным распределени- распределением можно связать такие гипотезы: «теоретическая функция распреде- распределения нормальна со средним, равным нулю»; «теоретическая функция распределения нормальна с дисперсией, не превосходящей квадрата среднего значения», и т.д. Все перечисленные выше гипотезы являются параметрическими, поскольку в них предположения делаются отно- относительно области изменения неизвестного параметра (или нескольких параметров) для заданных параметрических семейств функций рас- распределения. Примерами непараметрических гипотез служат высказы- высказывания: «теоретическая функция распределения является нормальной»; «теоретическая функция распределения не является нормальной»; «тео- «теоретическая функция распределения имеет положительное математиче- математическое ожидание». Гипотезы будем обозначать буквой Я, снабжая при необходимости индексами. Всюду в дальнейшем будем предполагать, что у нас имеются две непересекающиеся гипотезы: Яо и Н\. Гипотезу Щ будем называть основной, а гипотезу Н\ — конкурирующей или альтернативной. Выбор названия условен, но, как правило, удобно основной гипоте- гипотезой Яо называть более конкретное предположение о виде теоретиче- теоретической функции распределения или предположение, влекущее за собой более важные практические последствия. Задача проверки статисти-
208 Гл. 3. Проверка статистических гипотез ческих гипотез состоит в том, чтобы на основе выборки Х\,...,Хп принять (т.е. считать справедливой) либо основную гипотезу Щ, либо конкурирующую гипотезу Н\. Различают простую и сложную гипотезы. Простая гипотеза пол- полностью определяет теоретическую функцию распределения F(x). Так, простыми будут гипотезы: «вероятность успеха в схеме Бернулли рав- равна 1/2»; «теоретическая функция распределения является нормальной с нулевым средним и единичной дисперсией». Гипотеза, не являющаяся простой, носит название сложной. Примерами сложных гипотез будут: «вероятность успеха в схеме Бернулли заключена между 0,4 и 0,7»; «теоретическая функция распределения является нормальной с нуле- нулевым средним, но произвольной дисперсией»; «теоретическая функция распределения не является нормальной». Сложная гипотеза среди воз- возможных функций распределения выделяет некоторое подмножество J-'q, содержащее более одной функции распределения. При этом если мы имеем сложную параметрическую гипотезу, то заранее в силу каких-то уже проверенных соображений ограничиваемся рассмотрением неко- некоторого параметрического семейства функций распределения F(x\ $) с неизвестным параметром (или параметрами) #, а сама гипотеза выделяет среди всех функций распределения данного семейства те, у которых ^ G 0о, где во в свою очередь — некоторое подмножество области в всех возможных значений неизвестного параметра д. Статистическим критерием (или просто критерием) называет- называется правило, позволяющее, основываясь только на выборке Х\,..., Хп, принять либо основную гипотезу Щ, либо конкурирующую Н\. Каждый критерий характеризуется допустимой областью WA, т. е. областью в n-мерном пространстве Rn, попадание в которую выбор- выборки Х\,..., Хп влечет за собой принятие основной гипотезы Щ. До- Дополнительная область WK = Rn \ WA, попадание в которую выборки Х\,... ,Хп приводит к принятию конкурирующей гипотезы Н\, носит название критической области. Предположим теперь, что у нас имеется две гипотезы Щ и Н\, т. е. в множестве всех функций распределения выделены два непере- непересекающихся подмножества Т§ и Т\\ при этом основная гипотеза Щ заключается в том, что выборка Х\,...,Хп произведена из генеральной совокупности с теоретической функцией распределения F(x), принад- принадлежащей подмножеству Т§, а конкурирующая гипотеза Н\ — с тео- теоретической функцией распределения F(x), принадлежащей подмноже- подмножеству Т\. Пусть также задан критерий для проверки этих гипотез, т.е. разбиение n-мерного пространства Rn на две области: допустимую WA и критическую WK = Rn \ WA. В силу случайности выборки какой бы критерий мы не взяли, обязательно возможно появление ошибок двух родов. Ошибка первого рода возникает тогда, когда имеет место ос- основная гипотеза Щ, но выборка Х\,... ,Хп попадает в критическую область WK и мы принимаем конкурирующую гипотезу Н\. Вероят-
/. Статистическая гипотеза. Критерий 209 ность а ошибки первого рода называется уровнем значимости крите- критерия и определяется формулой в дискретном случае и а = Р{(Хи ..., Хп) е WK} = J.. JpOi) • -р(хп) dxx--- dxn в непрерывном, где Р(х) или р(х) — ряд распределения или плот- плотность распределения наблюдаемой случайной величины X при условии справедливости основной гипотезы Щ, а суммирование или инте- интегрирование, как обычно, ведется по всем точкам (х\,... ,хп) ? WK (в дискретном случае каждое Х{ может принимать только значения Ь\,... ,Ьь). В случае, когда гипотеза Щ сложная, уровень значимости а = a(F(x)), естественно, будет зависеть от реальной теоретической функции распределения F(x) из подмножества Т§- Кроме того, если ги- гипотеза Щ параметрическая, т. е. подмножество Т§ представляет собой параметрическое семейство функций распределения F{x\°&\ зависящее от неизвестного параметра $ с областью изменения во, являющейся подобластью области в всех возможных значений параметра #, то будем вместо записи a(F(x)) употреблять запись а(#), предполагая при этом, что # G во- Пусть теперь справедлива конкурирующая гипотеза Н\, но выборка Х\,... ,Хп попала в допустимую область WA и мы приняли основ- основную гипотезу Hq. Тогда мы имеем дело с ошибкой второго рода. Вероятность ошибки второго рода /3х носит название оперативной ха- характеристики критерия. Однако обычно в статистике предпочитают иметь дело с мощностью критерия C = 1 — /3х (т. е. вероятностью того, что при справедливой конкурирующей гипотезе Н\ мы ее примем), задаваемой формулой 13 = Р{(хь..., хп) е wK} = J2 РЫ ¦ ¦ ¦ Р(х„) в дискретном случае и C = Р{(Хи...,Хп) е WK} = J... J j>(ari) - - - г?(ж„) dari -dxn в непрерывном, где так же, как и при определении уровня значимости, суммирование или интегрирование ведется по всем (х\,... ,хп) ? WK, однако ряд распределения Р(х) или плотность распределения р(х) берутся при условии справедливости конкурирующей гипотезы Н\. Разумеется, в случае сложной гипотезы Н\ мощность C = /3(F(x)) будет зависеть от реального теоретического распределения F(x) из подмножества Т\. Если конкурирующая гипотеза Щ параметрическая, то вместо /3(F(x)) будем писать /3(#), считая при этом, что $ е вь где 01 — область изменения неизвестного параметра # при условии справедливости гипотезы Н\.
210 Гл. 3. Проверка статистических гипотез Таким образом, и уровень значимости, и мощность критерия за- задаются одной и той же формулой и их различие состоит в том, что уровень значимости a(F(x)) определяется только для теоретиче- теоретических функций распределения Fix), принадлежащих подмножеству То, а мощность /3(F(x)) — подмножеству Т\. Впрочем, иногда эти два понятия объединяют в одно, называя функцией мощности крите- критерия C = /3(F(x)) величину, равную уровню значимости a(F(x)) при Fix) ? J-q и мощности /3(F(x)) при Fix) ? T\. Отметим, что уровень значимости и оперативная характеристика критерия могут иметь совер- совершенно разную физическую природу. Так, пропуск партии бракованных изделий влечет за собой, как правило, более тяжелые последствия, чем выбраковка партии годных изделий. Естественное желание каждого исследователя состоит в предостав- предоставлении ему такого критерия, который позволил бы как можно реже делать ошибки и первого и второго рода (в идеале — совсем не ошибаться!), т.е. минимизировал бы и уровень значимости а, и опера- оперативную характеристику /3х. Но такое желание невыполнимо, поскольку требование делать реже ошибку первого рода влечет за собой уве- увеличение допустимой области WA, в то время как требование реже делать ошибку второго рода предписывает увеличить критическую область WK. Поэтому обычно поступают следующим образом: фикси- фиксируют уровень значимости (как более важный с практической точки зрения) и среди нескольких критериев, имеющих заданный уровень значимости, предпочтение отдают более мощному. Остановимся на этом несколько подробнее. Назовем размером кри- критерия ао максимальное значение вероятности ошибки первого рода при использовании данного критерия, т. е. а0 = sup a(F(x)). Отметим, что в дальнейшем нам довольно часто будут встречаться кри- критерии, уровень значимости a(F(x)) которых не зависит от конкретной функции распределения F(x) (из подмножества То) и, естественно, совпадает с размером критерия oiq. В таких случаях мы будем говорить просто об уровне значимости, не связывая его с конкретным распреде- распределением F(x), а в скобках писать «размер». Равномерно наиболее мощным критерием заданного размера ао будем называть критерий, имеющий среди всех критериев разме- размера ао наибольшую мощность C = /3(F(x)) при любом распределе- распределении F(x) ? T\. Равномерно наиболее мощные критерии существуют в крайне редких случаях, наиболее известными из которых являются случай простых гипотез Яо и Н\ и случай односторонней и двусто- двусторонней параметрических гипотез для некоторых однопараметрических семейств F{x\d) (см. параграфы 2 и 3 данной главы). В ряде задач, хотя и не существует равномерно наиболее мощ- мощный критерий, можно построить равномерно наиболее мощный несме-
/. Статистическая гипотеза. Критерий 211 щенный критерий. Критерий называется несмещенным, если его уро- уровень значимости ни в коем случае не превосходит мощности, т. е. /3(F(x)) ^ ао для любых Fix) ? T\ (невыполнение требования несме- несмещенности ведет к парадоксальной ситуации: в некоторых случаях мы будем чаще браковать партии годных изделий, чем негодных). Кри- Критерий, имеющий при любом Fix) ? J-\ наибольшую мощность среди всех несмещенных критериев размера ао, носит название равномерно наиболее мощного несмещенного критерия размера ао. Естественно, равномерно наиболее мощный критерий является также равномерно наиболее мощным несмещенным, что вытекает из сравнения его с три- тривиальным рандомизированным критерием (о понятии рандомизирован- рандомизированного критерия см. ниже), который независимо от выборки Х\,... ,Хп предписывает случайным образом с вероятностью ао принять конку- конкурирующую гипотезу Н\; очевидно, и мощность, и уровень значимости такого критерия тождественно равны а$. Наконец, еще один класс критериев представляют так называемые инвариантные критерии. Критерий называется инвариантным относи- относительно группы преобразований G выборки Х\,..., Хп, если он не зави- зависит от преобразований из этой группы. В частности, от любых крите- критериев, проверяющих гипотезы о теоретической функции распределения Fix), разумно потребовать инвариантность относительно всех пере- перестановок элементов выборки Х\,... ,Хп, иначе сам критерий зависел бы от того, в каком порядке проводились наблюдения. Обычно группа преобразований G естественным образом определяется рассматривае- рассматриваемыми гипотезами Щ и Н\, и поэтому говорят просто об инвариантных критериях. Критерий, имеющий при заданном размере ао наибольшую мощность среди всех инвариантных критериев, называется равномерно наиболее мощным инвариантным критерием. Поскольку понятие ин- инвариантного критерия является сложным, мы в дальнейшем в основном тексте не будем его использовать, отсылая читателя к специальной литературе (например, [11, 12]), хотя это понятие и прояснило бы смысл построения некоторых критериев. В общем случае, когда не существует ни равномерно наиболее мощ- мощного, ни даже равномерно наиболее мощного несмещенного или рав- равномерно наиболее мощного инвариантного критерия, критерии обычно строят, опираясь на интуитивные соображения разумности. К таким соображениям относятся: простота и наглядность критерия, незави- независимость уровня значимости критерия от вида теоретической функции распределения, асимптотическая эффективность критерия и т.д. Как правило, критерии строят, основываясь на статистике кри- критерия. Пусть S = S(X\,... ,Хп) — произвольная (одномерная) ста- статистика. Тогда неравенство S > С определяет критерий, критическая область которого WK состоит из всех точек (х\,... ,хп) п-мерного пространства Rn, для которых S{xx,...,xn) > С.
212 Гл. 3. Проверка статистических гипотез Заставляя критическое значение пробегать все числа от —оо до оо, получим семейство критериев, имеющих различные уровни значимости и мощности. Теперь, если, например, мы хотим получить критерий заданного размера ао, то должны выбрать такое значение С, которое давало бы нам критерий требуемого размера а$. Обычно критерии строят таким образом, чтобы статистика S при условии справедливости основной гипотезы Щ имела (хотя бы асимптотически при п —> оо) одно из распределений, описанных в параграфе 4 гл. 1. Тогда критиче- критическое значение С определяется как A — ао)-квантиль соответствующего распределения. Разумеется, как уже говорилось ранее, статистика S должна по возможности обеспечивать меньший уровень значимости и большую мощность построенного на ее основе критерия. В заключение этого параграфа скажем несколько слов о рандо- рандомизированных критериях. Рандомизированные критерии возникают (обычно в случае дискретной наблюдаемой случайной величины X) тогда, когда критерий, определяемый неравенством имеет размер больше требуемого, а неравенством S(Xl,...,Xn)>C — уже меньше требуемого. В этом случае наряду с критической WK и допустимой WA областями вводят область рандомизации Wp; при попадании выборки Х\,... ,Хп в область Wp производят дополни- дополнительное испытание типа подбрасывания несимметричной монеты и по его исходу принимают либо основную гипотезу Щ, либо конкури- конкурирующую Н\. Здесь в основном тексте мы не будем рассматривать рандомизированные критерии. 2. Простые гипотезы Изучение статистических критериев начнем со случая двух простых гипотез. Пусть выборка Х\,... ,Хп произведена из генеральной сово- совокупности с теоретической функцией распределения F(x), относительно которой имеются две простые гипотезы: основная Щ: F(x) = F${x) и конкурирующая Н\\ F(x) = F\(x), где Fo(x) и F\(x) — известные функции распределения. Поскольку гипотезы Щ и Н\ простые, уро- уровень значимости и мощность каждого критерия для проверки этих гипотез будут представлять собой два числа: а и C. Оказывается, в данном случае существует наиболее мощный критерий (при двух простых гипотезах вместо «равномерно наиболее мощный критерий» говорят просто «наиболее мощный критерий»), т.е. критерий, имеющий при заданном уровне значимости а наибольшую мощность /3. Этот критерий называется критерием отношения правдоподобия и описы- описывается следующим образом.
2. Простые гипотезы 213 Введем статистику Л — \( Y Y \ — -^С^Ь ••• ,Хп) А - ЛАь ...,Лп) - -—— —- , L(Ai,... ,Хп) где Lo(Xu...,Xn) = Po(Xl)-Po(Xn) в случае дискретной наблюдаемой величины X и Lo(Xu...,Xn)=po(Xi)-Po(Xn) в случае непрерывной X представляет собой функцию правдоподобия при условии справедливости гипотезы Щ, а в дискретном случае и L1(Xu...,Xn)=pl(X1)-p1(Xn) в непрерывном — ту же самую функцию правдоподобия, но при условии справедливости гипотезы Н\. Статистика Л носит название отношения правдоподобия и является отношением вероятностей (или плотностей распределения) получить выборку Х\,... ,Хп при условиях справедливости гипотез Н\ и if о- Естественно предположить (и это подтверждается леммой Неймана-Пирсона, которую мы докажем ни- ниже), что чем больше отношение правдоподобия, тем большее предпо- предпочтение мы должны оказать гипотезе ifi. Таким образом, критиче- критическая область WK критерия отношения правдоподобия состоит из всех тех точек (х\,... ,хп), для которых А(х\,... ,хп) больше кри- критического значения С. Критерий отношения правдоподобия подобен рачительной хозяйке, которая всегда на имеющиеся деньги старается купить как можно больше товаров. Теорема 1 (лемма Неймана-Пирсона). Среди всех критериев за- заданного уровня значимости а, проверяющих две простые гипотезы Щ и Н\, критерий отношения правдоподобия является наиболее мощным. Доказательство. Пусть критерий отношения правдоподобия уровня значимости а для проверки Щ и Н\ задается критической областью WK. Рассмотрим любой другой критерий того же уровня значимости для проверки тех же ги- гипотез и обозначим через WK; его критиче- критическую область. Тогда при попадании выборки Х\,..., Хп в область V = WK\ WK; мы должны принять гипотезу Н\ по критерию отношения правдоподобия, но отвергнуть в соответствии со вторым критерием, а при попадании в об- область V' = Wi \WK — наоборот, отвергнуть по критерию отношения правдоподобия, но принять в соответствии со вторым критерием ис' (рис. 1). Тогда, поскольку оба критерия имеют одинаковый уровень значимости,
214 Гл. 3. Проверка статистических гипотез то вероятности попадания выборки Х\,...,Хп в области V и V' при условии справедливости основной гипотезы Щ равны, т. е. Р{(Хи...,Хп) e = P{(Xi, ...,Xn)?V' | Ho} = ... po(x\) ...po(xn)dx\ ...dxn = 7. A) v Далее, мощность f3 критерия отношения правдоподобия задается как сум- суммарная вероятность попадания выборки в пересечение областей WK и Wl и область V при условии справедливости конкурирующей гипотезы Н\\ f3 = P{(Xu...,Xn) eWKnWl \Hi} + [.^pi(xi)...pi(xn)dxi...dxn. B) v Аналогично определяется мощность второго критерия: /3' = P{(Xl,...,Xn) eWKnW^\Hl} + [..^Pl(xl)...Pl(xn)dxl...dxn. C) V Вспоминая теперь, что по построению критерия отношения правдоподобия отношение правдоподобия A_Pi(Xi)...pi(Xn) P0№)...P0(*n) в области V больше С, а в области V' не превосходит С, получаем из A)-C): C > p{Xi ,..., хп е wK п wi | нх} + с7 > 0. Значит, мощность второго критерия не больше мощности критерия отношения правдоподобия. ? Замечание 1 к теореме 1. Нетрудно видеть, что мощности критерия отношения правдоподобия и второго критерия совпадают тогда и только тогда, когда 7 = О, Т- е. вероятности попадания в области V и V' при условии спра- справедливости как основной, так и конкурирующей гипотез равны нулю. Поэтому критерий отношения правдоподобия единственен (с точностью до множества, вероятность попадания в которое равна нулю). Замечание 2 к теореме 1. Мы рассмотрели критерий отношения прав- правдоподобия, критическая область которого задается неравенством Л > С. Ана- Аналогично можно было бы ввести критерий отношения правдоподобия с критиче- критической областью Л ^ С, имеющий то же самое свойство оптимальности. Пусть нам теперь нужно построить наиболее мощный критерий заданного уровня значимости а. Может случиться так, что, определив критическое значе- значение С, мы придем к следующей ситуации: критерий, задаваемый неравенством Л > С, будет иметь уровень значимости а' меньше а {а' < а), а задаваемый неравенством Л ^ С — уровень значимости а" уже больше а (а" > а). Возможный способ устранить возникшее затруднение — добавить к кри- критической области WK, задаваемой неравенством Л > С, некоторую «лишнюю» подобласть \?л области Wp, определяемой равенством Л = С, с таким расчетом, чтобы вероятность попадания в Wn при справедливой Щ равнялась а — а'. Нетрудно видеть, что если это удастся сделать, то построенный критерий будет наиболее мощным критерием уровня значимости а. Но, с одной стороны, подобласть Wn, вообще говоря, можно выбрать не единственным способом, поэтому могут появляться различные наиболее мощ-
2. Простые гипотезы 215 ные критерии, отличающиеся друг от друга только при попадании в область Wp. С другой стороны, в дискретном случае этого, как правило, вообще нельзя сделать, поскольку область Wp состоит из конечного числа точек. Поэтому обычно идут более простым путем: при попадании выборки Х\,...,Хп в об- область Wp, которую называют областью рандомизации, проводят дополнитель- дополнительный независимый эксперимент с двумя исходами типа подбрасывания несим- несимметричной монеты с вероятностью выпадения «цифры» (а — а')/{а" — а'). При этом если выпадает «герб», то принимают гипотезу Щ, «цифра» — гипотезу Н\. Такой критерий называется рандомизированным. В соответствии с формулой полной вероятности уровень значимости рандомизированного кри- критерия равен Ы + {а" — а')(а — а')/{а" — а') = а. Очевидно также, что ран- рандомизированный критерий отношения правдоподобия будет наиболее мощным. Естественно, в наше время при дополнительном эксперименте не бросают монету, а моделируют на ЭВМ псевдослучайное число. В дальнейшем, как уже говорилось, мы не будем рассматривать рандоми- рандомизированные критерии, хотя это и вызовет у нас определенные трудности при формулировке и доказательстве некоторых результатов. При практической реализации критерия отношения правдоподобия обычно удобно пользоваться не отношением правдоподобия Л, а его логарифмом Л = In Л. В этом случае мы должны принять гипотезу Щ, если Л = Х(Х\,..., Хп) ^ с = In С, и отвергнуть ее (принять гипотезу Н\), если Л > с. В соответствии с общим правилом уровень значимо- значимости а и мощность /3 критерия отношения правдоподобия в зависимости от критического значения с определяются формулами в дискретном случае, где сумма берется по всем значениям х\,..., хп, принадлежащим множеству {Ь\,...,Ьь} и удовлетворяющим условию Х(х\,... ,хп) > с, и а = а(с) = Р{Х(Хи • • •, Хп) > с \ Яо} = Х(х\,...,хп)>с Pi(xi)---pi(xn)dxi -"dxn \{x\,...,Xn)>C в непрерывном. В этих формулах запись P{S(X\,..., Хп) > С \ Hi} (г = 0,1) обозначает вероятность статистике S(X\,...,Xn) принять значение больше С при условии справедливости гипотезы Hi. Если задан уровень значимости а, то критическое значение с опре- определяется из решения относительно с уравнения а = а(с). Аналогично поступают и в том случае, когда задана мощность /3.
216 Гл. 3. Проверка статистических гипотез Наконец, встречаются задачи, в которых одновременно заданы и уровень значимости а, и мощность /3, а требуется определить мини- минимальный объем выборки п, при котором можно разделить гипотезы Щ и Н\ с такими значениями а и /3. В этом случае заметим, что функции а(с) = а(с, п) и /3(с) = /3(с, п) зависят, разумеется, и от объема вы- выборки п. Необходимый объем выборки определяется как минимальное значение п, при котором существуют решения неравенств а > а(с, п) Пример 1. Пусть выборка Х\,... ,Хп произведена из нормальной гене- генеральной совокупности с известной дисперсией а2 и неизвестным средним $, относительно которого имеются две гипотезы: основная Щ: $ = $о и конкури- конкурирующая Н\\ $ = $i (для определенности пусть $\ > $о)- Построим критерий отношения правдоподобия для проверки гипотез Щ и Н\. Для этого выпишем функции правдоподобия Lq(X\, ..., Хп) nLi(Xu...,Xn): L0(Xu...,Xn)= ( X V V2тг<72 L1(X1,...,Xn) = /27ГG2 и определим логарифм отношения правдоподобия Таким образом, мы должны принять гипотезу Щ, если или, вводя обозначение с* = са'2 + ^ 7?1 - 7?0 2 если Xi + ... + Хп < с* и отвергнуть в противном случае. Для того чтобы при заданном с* найти уровень значимости критерия а, за- заметим, что при условии справедливости гипотезы Щ статистика Х\ + ... + Хп распределена по нормальному закону с параметрами wOq и па2. Поэтому Но} = 1 - Ф(с*;п$о,па2) = V пег2 / V v пег2 где, как обычно, Ф(ж) — функция стандартного нормального распределения. Аналогично определяется мощность критерия C >с* | Hi}= 1 -Ф(с*;п^1,псг2) =
2. Простые гипотезы 217 Если задан уровень значимости а, то критическое значение с* определяется формулой * где (ра — а-квантиль стандартного нормального закона. Наконец, если заданы уровень значимости а и мощность J3 и требуется найти минимальный объем выборки п, позволяющий разделить гипотезы Щ и Н\ с такими а и C, то с* должно удовлетворять двум равенствам: С* = ?7/#о — (favnCT2 , С* = rvd\ — (f/3 V71<72 . Вычитая второе равенство из первого, получаем или п = Разумеется, реальный объем выборки должен быть ближайшим к п сверху целым числом. ? Зададим вопрос: а можно ли для проверки двух простых гипо- гипотез Щ и Н\ построить критерий с заданным уровнем значимости а и мощностью C, который потребовал бы меньшего объема выборки, чем критерий отношения правдоподобия? Очевидно, среди критериев с фик- фиксированным объемом выборки такого нет. Однако можно рассматривать последовательные критерии, в которых испытания проводятся после- последовательно, и после каждого испытания мы вправе либо прекратить испытания и принять одну из гипотез Щ или Н\, либо продолжить на- наблюдения. При последовательном проведении испытаний после первого же испытания могут появиться столь серьезные основания в пользу той или иной гипотезы, что дальнейшие наблюдения становятся просто бессмысленными. Так, хороший врач по одному ярко выраженному признаку может поставить точный диагноз пациенту. Ясно, что у после- последовательного критерия число наблюдений случайно и поэтому вместо объема выборки следует оперировать средним числом наблюдений, которое, естественно, будет различным при условиях справедливости гипотез Но и Н\. Оказывается, среди последовательных критериев также существует наилучший, который мы сейчас и опишем. Последовательный критерий отношения правдоподобия (крите- (критерий Вальда) строят, опираясь на логарифм отношения правдоподобия (и это естественно, поскольку отношение правдоподобия — наиболее объективная мера различия гипотез). Сама процедура принятия ре- решения реализуется следующим образом. Задаются критические значе- значения со и с\ (со < с\). Проводят первое испытание и по его результа- результату Х\ определяют логарифм отношения правдоподобия в дискретном случае или
218 Гл. 3. Проверка статистических гипотез в непрерывном. Если A(Xi) > c\, то принимают гипотезу Н\, если A(Xi) ^ со — гипотезу Щ, если же со < A(Xi) < c\, то проводят второе испытание. Снова определяют логарифм отношения правдоподобия и сравнивают его с с\ и со. Если A(Xi,X2) ^ с\, то принимают гипоте- гипотезу Н\, если A(Xi,X2) < со — гипотезу Щ, если со < A(Xi,X2) < c\, то переходят к третьему испытанию, по результатам которого определяют Х(ХХ, Х2, Х3) = Х(ХХ) + Х(Х2) + Х(Х3) и т.д. Графическая схема проведения испытаний приведена на рис.2. Нахождение уровня значимости а и мощности C последовательного Оп/ШГТЪ ПРИНЯТИЯ П11П>Тс:Ш Hi / испытания On.iiini, принятия nunn'<'-.\j.j I(-{, Рис. 2 критерия отношения правдоподобия представляет собой весьма слож- сложную задачу (задача выхода случайного блуждания из полосы), все имеющиеся решения которой (за исключением некоторых частных случаев) нужно признать неудовлетворительными в смысле методов вычисления. Обычно используют следующие приближенные оценки: 1 - ес° . еС1A-ес°) а ~ „с, со > Р ~ „ - ес° ' r eCl - ес° ' точность которых, как правило, увеличивается с ростом с\ и уменьше- уменьшением со- Из этих оценок можно при заданных а и /3 найти приближен- приближенные выражения для критических значений со и с\\ 1 п п с0 « In 1 — а а Другими важными характеристиками последовательного критерия отношения правдоподобия являются средние числа наблюдений Щ и N\ при условиях справедливости гипотез Щ и Н\, которые можно приближенно вычислить по формулам at ^ aci + A - а)с0 АТ _ j3c\ + A М[А(Х)|Я0] ' l M[X(X)\Hi]
2. Простые гипотезы 219 где в дискретном случае и оо М[\(Х)\Н0} = J — сю сю М[АрО|Я,]= J в непрерывном. Оптимальные свойства последовательного критерия отношения правдоподобия задаются следующей теоремой. Теорема 2 (Вальда). Среди всех критериев (последовательных или нет) с заданными уровнем значимости а и мощностью C и конеч- конечными средними числами наблюдений Щ при условии справедливости гипотезы Hq и N\ при условии справедливости гипотезы Н\ последо- последовательный критерий отношения правдоподобия минимизирует как Щ, так и N\. Доказательство теоремы наиболее просто получается с использова- использованием байесовского подхода. Пусть гипотезы Щ и Н\ появляются случайным образом с известными вероятностями тг появления гипотезы Щ и 1 — тг гипотезы Н\. Пусть также задана стоимость d каждого наблюдения и при неправильном отклонении гипотезы Щ (Н\) мы несем потери wq (w\). Тогда для любого (в том числе последовательного) критерия К общий байесовский риск (общие средние потери) R(tt, К) определяются формулой R(ir,K) = ir(aowo + dN0) + A -7r)(aiwi +dN{), D) где ao (ai) — вероятность неправильного отклонения гипотезы Щ (Н\), а No (N\) — среднее число наблюдений при условии справедливости гипоте- гипотезы Но (Hi). Доказательство состоит из двух основных частей. Первая часть, представ- представленная леммой 2.1, определяет байесовскую процедуру, минимизирующую D). Отметим, что интерпретация D) как байесовского риска помогает лучше по- понять доказательство и приводит к задачам, представляющим самостоятельный интерес. Прежде чем сформулировать лемму 2.1, произведем некоторые дополни- дополнительные рассмотрения. Обозначим через р(тг) минимальный байесовский риск для всех критериев, требующих хотя бы одного наблюдения (класс таких
220 Гл. 3. Проверка статистических гипотез критериев обозначим через /С). Тогда в силу линейности байесовского риска R(tt, К) по тг для К е 1С и любого 7 @ < 7 < 1) справедливо соотношение A — 7)^2, К) = = inf [7Д(тг,, К) + A - 7) Д(тг2, К)} > GГьХ) + A-7) inf R(tt2,K) =7p( К ?/С Следовательно, р(тг) — выпуклая (вверх) функция (рис. 3). /?! тт. Рис. 3 Рассмотрим критерий Ко (К\), отвергающий Но (Н\) без проведения ис- испытаний. Имеем R(tt, Ко) = Если W\ то определим тг; и тг/; из решения следующих уравнений (см. рис. 3): в противном случае положим / // 7Г = 7Г = E) F) В силу свойств выпуклости и положительности функции р(тг) числа тг; и тг/;, удовлетворяющие уравнениям E) или F), определяются единственным об- образом. Лемма 2.1. Если 0 < тг; < тг/; < 1, то при всех тг (тг; < тг < тг/;) байесовский риск D) минимизирует последовательный критерий отношения правдоподобия с критическими значениями Л П 1 ( П 1-7г"\ , ^ , / ТГ 1-ТГ;\ , v со = In Со = In — , ci = In Ci = In -j— . G) ТГ / 1 -7Г 1 -7Г Доказательство леммы 2.1. Заметим прежде всего, что если тг < тг; или тг ^ тг/;, то вообще не имеет смысла проводить испытания. Поэтому оп- оптимальный критерий состоит в следующем поведении на первом шаге: мы принимаем гипотезу Но, если тг < тг;, отвергаем, если тг ^ тг/;, и производим первое наблюдение, если тг; < тг < тг/;.
2. Простые гипотезы 221 Доказательство леммы 2.1 завершается теперь по индукции. Действитель- Действительно, если уже сделано п наблюдений Х\,...,Хп, то мы попадаем в ту же ситу- ситуацию, что и перед первым наблюдением: либо не производить дополнительные наблюдения и принять Щ или Н\ с потерями wq или w\ в случае неправиль- неправильного решения, либо произвести (п + 1)-е наблюдение. Наличие предыдущих наблюдений в силу аддитивности потерь никак не влияет на решение задачи, поскольку их вклад в общие потери последующими испытаниями уже нельзя ни увеличить, ни уменьшить. Итак, процедура принятия решения прежняя: если тг ^ тг; или тг ^ тг", то испытания прекращаются и принимается Щ или Н\, а если тг; < тг < тг", то производится дополнительное наблюдение. Однако при этом мы должны оперировать уже не априорной вероятностью тг, а апостериорной вероятностью тг(Х\, ... ,Хп) справедливости гипотезы Щ при условии выборки Х\,... ,Хп, определяемой формулой Байеса (X X ) = Trpo(Xi) •••po(Xn) Оптимальный байесовский критерий, таким образом, требует продолжения наблюдений только в случае тг; < тг(Х\,... ,Хп) < тг" или после проведения элементарных преобразований в случае г тт 1 -тг" pi(X{)---pi(Xn) тг 1 -тг; ° 1-тг' тг" < Po(Xi)-Po(Xn) 1-тг' тг' °Ь Вторая часть доказательства теоремы 2 устанавливает связь между пара- параметрами основной и байесовской задач и состоит в доказательстве следующей леммы. Лемма 2.2. Для любых тг; я тг" @ < тг; < тг" < 1) найдутся числа w (О < w < 1) и d > 0, такие, что решение байесовской задачи с по- потерями wo = 1 — w, w\ = w, стоимостью одного испытания d и априорной вероятностью тг появления гипотезы Щ задается последовательным критерием отношения правдоподобия с границами _, тг 1 — тг" ~ тг 1 — тг; ^0 = • 77— ' ^1 = • -t— . 1 — тг тг 1 — тг тг Доказательство леммы 2.2 представляет, по сути дела, доказатель- доказательство существования обратного отображения для двумерного вектора (тг;,тг") как функции от w и d. Оно носит чисто аналитический характер и осно- основывается на таких почти очевидных свойствах тг; и тг", как монотонность, непрерывность и т.д. Поэтому мы его здесь не приводим, отправляя заинте- заинтересованного читателя к [12]. Отметим, что требование леммы wq + w\ = 1 нисколько не ограничивает общности задачи, поскольку этого всегда можно добиться линейной заменой «масштаба цен» («денежной реформой»). ? Для окончания доказательства теоремы 2 рассмотрим последовательный критерий отношения правдоподобия с границами Со и С\ (Со < 1 < С\). Для любого числа тг положим / _ ТГ // _ ТГ CiA-tt)+tt' ^ ~ С0A-тг)+тг' Эти значения удовлетворяют равенствам G) и неравенствам 0 < тг; < тг" < 1. Поэтому, по леммам 2.1 и 2.2, найдутся такие w @ < w < \) и d > 0, что рассматриваемый критерий будет являться решением байесовской задачи с априорной вероятностью тг, потерями u>o=l — w и w\ = w и стоимостью одного наблюдения d. Обозначим через ao, a\, Nq и N\ вероятности ошибок
222 Гл. 3. Проверка статистических гипотез и средние числа наблюдений данного последовательного критерия отношения правдоподобия. Кроме того, рассмотрим любой другой критерий для проверки гипотез Но и Н\ с ^вероятностями ошибок ао ^ ао и а\ ^ а\ и средними чис- числами наблюдений Щ и N\. Поскольку последовательный критерий отношения правдоподобия минимизирует байесовский риск, то применяя к байесовской задаче и второй критерий, имеем тг[A - w)a0 + dN0] + A - 7r)(wai + dNi) < < тг[A - w)a0 + dN0] + A - 7г)(гуЙ1 + dNi), откуда получаем ttN0 + A - tt)Ni < ttN0 + A - ir)Ni. Из справедливости последнего неравенства при всех тг @ < тг < 1) вытекают, в частности, соотношения Щ ^ Щ и N\ ^ N\, что и доказывает теорему. ? Замечание к теореме 2. Анализируя доказательство леммы 2.1, нетруд- нетрудно заметить, что если на первом шаге тг = тг; (тг = тг"), то у нас имеются две (а с учетом рандомизации и больше) идентичные с точки зрения байесовского риска возможности: принять Щ (Н\) или продолжить испытания; такая же ситуация может возникнуть и после любого наблюдения. В том случае, когда отношение правдоподобия ...р\{Хп) может равняться Со (С\) только с нулевой вероятностью, последнее обстоя- обстоятельство не влияет на последовательный критерий отношения правдоподобия. Если же эта вероятность не равна нулю, то можно предложить, по крайней мере, две модификации критерия, одна из которых будет предписывать прекра- прекращение испытаний при равенстве отношения правдоподобия соответствующей константе, а другая, наоборот, продолжение наблюдений. Обе эти модифика- модификации, как уже говорилось, имеют одинаковый байесовский риск. Однако другие характеристики для них будут различными; в частности, вторая модификация требует большего числа наблюдений. Впрочем, никакого противоречия с из- изложенной теорией здесь нет, поскольку увеличение количества наблюдений компенсируется уменьшением уровня значимости и увеличением мощности. Поэтому для построения последовательного критерия отношения правдоподо- правдоподобия, имеющего заданные уровень значимости и мощность, необходимо, вообще говоря, привлекать рандомизацию. Подробнее на этом мы останавливаться не будем. Пример 2. Пусть наблюдается нормально распределенная случайная ве- величина X с известной дисперсией а2 и неизвестным средним #, относительно которого имеются две простые гипотезы: Щ: $ = #о и Н\\ $ = fix (#о < Л)- Как показано в примере 1, отношение правдоподобия имеет вид Л(Л\, ... ,Лп) = g I Ai + .. . + Xn — При применении последовательного критерия отношения правдоподобия наблюдения продолжаются, пока со < Х(Х\,... ,Хп) < с\\ в противном случае принимается либо гипотеза Щ (если Х(Х\,... ,Хп) < со), либо гипотеза Н\ (если A(Xi,... ,Хп) > с\).
3. Однопараметрические гипотезы. Равномерно наилучшие критерии 223 Вычислим М[А(Х)|Я0] и M[X(X)\Hi]. Поскольку М(Х|Я0) = #0, а М(Х\Н{) =#и то М[Л(Х)|Я0] = - (X — —!——- Я о] - - #0 2G2 Х- Предположим теперь, что заданы конкретные значения: а = 0,05, C = 2 = 0,9, а2 = 1, = 0,5. Тогда с0 = -2,25, с\ = 2,89, М[А(Х)|Яо] = —0,5, М[А(Х)|Я1] =0,5, откуда определяем средние числа наблюдений No ~ 4 и iVi ~ 4,75. Для сравнения, подставив в примере 1 значения </?0,9 = 1,281552 и ^О)о5 = —1,644854 ([1, с. 136]), находим, что при использовании обычного критерия отношения правдоподобия для разделения гипотез Но и Н\ с уровнем значимости а = 0,05 и мощностью C = 0,9 необ- необходимо иметь выборку объема п = 9. Значит, применение последовательного критерия отношения правдоподобия в случае справедливости гипотезы Яо позволяет в среднем сократить число наблюдений более чем в 2 раза, а в случае справедливости гипотезы Н\ — почти в 2 раза. ? У последовательного критерия отношения правдоподобия можно отметить два основных недостатка. Первым является невозможность одновременного проведения нескольких испытаний. Второй связан с тем, что если произошла ошибка в определении ги- гипотез Но и Н\ и истинная теоретическая функция распределения F(x) заключена между гипотетическими Fq(x) и F\(x), to потребуется очень большое число наблюдений, поскольку логарифм отношения правдопо- правдоподобия будет колебаться вокруг нуля, не выходя ни на одну из границ со или с\. Для того чтобы компенсировать этот второй недостаток, на практике часто принудительно ограничивают число наблюдений. 3. Однопараметрические гипотезы. Равномерно наилучшие критерии Пусть выборка Х\,... ,Хп извлечена из генеральной совокупности с теоретической функцией распределения F(x), принадлежащей одно- параметрическому семейству F(X; #) с неизвестным параметром #, об- область возможных значений которого будем обозначать через в (обыч- (обычно в представляет собой либо всю прямую (—оо, оо), либо полупрямую (а, оо) или (—оо, а), либо отрезок [а, Ь]). Предположим, что в в выде- выделено некоторое подмножество во; дополнение к нему в в обозначим через Bi = в \ во- Относительно неизвестного параметра # имеются две гипотезы: основная Щ: # G во и конкурирующая Н\\ $ ? @\. Зада-
224 Гл. 3. Проверка статистических гипотез ча состоит в построении критерия для проверки двух (вообще говоря, сложных) однопараметрических гипотез Щ и Н\. Отметим, что если подмножество во состоит всего из одной точки $q, to критерии для проверки гипотез Щ и Н\ называют обычно критериями значимости. В этом параграфе мы рассмотрим те случаи, в которых существу- существуют равномерно наиболее мощные несмещенные критерии. Построение критериев в остальных случаях можно проводить по общему рецепту, приведенному для (много) параметрических гипотез в следующем па- параграфе. Односторонние гипотезы. Пусть подмножество во состоит из всех д ^ #о; соответственно подмножество в1 будет содержать все д > #о- Таким образом, мы имеем две односторонние гипотезы: основную Щ: # ^ $q и конкурирующую Н\\ $ > #о- Возьмем произвольные #' < $" и составим отношение правдоподобия где в дискретном случае и L(Xu...,Xn;0)=p(X1;0)-p(Xn;0) в непрерывном — функция правдоподобия. Теорема 3 (односторонние гипотезы). Предположим, что существу- существует (одномерная) статистика S = S(X\,..., Хп), такая, что для любых $' < д" отношение правдоподобия можно представить в виде причем A(S,$f,$/f) — неубывающая функция от S. Тогда существует равномерно наиболее мощный критерий для проверки гипотез Щ и Н\, критическая область WK которого состоит из всех точек (х\,... ,хп), удовлетворяющих неравенству S(x\,..., хп) > С, а уровень значимости a = а(#) и мощность C = /3(i?) являются неубывающими функциями от $ я, как обычно, определяются формулами S(x{,...,xn)>C = P{S(Xu...,Xn)>C\ti}= Y, P{xl;0)...P{xn;0) S(xly...,xn)>C
3. Однопараметрические гипотезы. Равномерно наилучшие критерии 225 в дискретном случае и a(j}) = P{S(Xu...,Xn >C\ti} = = ... p(x\;i&)---p(xn;i&)dx\---dxn (# < #o), S(xu...,xn)>C p(x\;#)••• p(xn;#) d^i • • • dxn в непрерывном. Здесь Р{5 > С | $} — вероятность статистике S = = S^Xi,...,Xn) принять значение больше С при условии, что истин- истинное значение неизвестного параметра равно #. Доказательство. Используем тот факт, что предложенный критерий является наиболее мощным для проверки простых гипотез Щ: $ = $ и Н[\ $ = $' при всех $' < $". Действительно, для гипотез Щ и Н[ критерий отношения правдоподобия определяется неравенством или, что в силу предположений теоремы то же самое, неравенством S(Xu...,Xn)>C = A{-l\C0), где А^~1\у) — обратная к A(S) = A(*Sf;/^/,'^//) функция, причем поскольку критерий отношения правдоподобия является несмещенным, то уровень зна- значимости о! и мощность C' для этого критерия удовлетворяют неравенству а' = /3(^;) < J3' = /3(^/;), где /3(#) — функция мощности (т.е. обобщенная запись а(#) и /З(^), см. параграф 1). Таким образом, мы доказали, что а(#) и /3(#) являются неубывающими функциями от i^, откуда, в частности, следу- следует: а0 = а(^о)- Далее, из сказанного также вытекает, что рассматриваемый критерий яв- является наиболее мощным уровня значимости ао для проверки простых гипо- гипотез Щ: 1? = ^иЯь^ = #, где ft' — любое число, большее #о- Но тогда он является равномерно наиболее мощным критерием размера ао для проверки изначальных гипотез Щ: $ ^ $о и Н\: $ > $q. Действительно, любой другой критерий размера ао должен в точке #о (как и в любой другой точке $ < #о) иметь уровень значимости с/^о) ^ «о- Значит, и мощность /3/('#) этого другого критерия при любом $' > #о не должна превосходить мощности наиболее мощного критерия уровня значимости ао для проверки простых гипотез Щ: $ = $о и Н\\ $ = $', т.е. должна удовлетворять неравенству (З1^) < Р($)- Последнее неравенство и доказывает теорему. ? Замечание 1 к теореме 3. Как обычно, чтобы соблюсти необходи- необходимую строгость приведенного доказательства, нужно привлекать рандомиза- рандомизацию. Кроме того, если потребовать, чтобы функции распределения F(x;rd/) и F(x;$") были различными для разных $' и $", то утверждение теоремы о монотонности функций а(#) и /3(#) можно усилить до строгой монотонности. Наконец, заметим, что семейство распределений F(x;$) с указанным в услови- 8 П. П. Бочаров, А. В. Печинкин
226 Гл. 3. Проверка статистических гипотез ях теоремы свойством называют обычно семейством с монотонным отношением правдоподобия. Замечание 2 к теореме 3. Нетрудно видеть, что при заданном размере «о = а($о) рассматриваемый критерий наряду с максимизацией мощности /3($) при каждом 'д > #о минимизирует также уровень значимости а(#) при любом 'д < $о. Поэтому обращенный критерий S(X\,... ,Хп) < С, используемый для проверки основной гипотезы Щ: $ ^ $о против конкурирующей гипотезы Н\\ 'д < $о, будет также равномерно наиболее мощным. Пример 3. Пусть выборка Х\,...,Хп произведена из нормальной гене- генеральной совокупности с известной дисперсией а и неизвестным средним #, относительно которого имеются две гипотезы: основная Щ: $ ^ $о и конкури- конкурирующая Н\\ $ > #о- Определим отношение правдоподобия Вводя статистику S = S(Xu...,Xn)=Xi + ...+X видим, что Х$/$") 2 S+ ^ = A(S,$',$"), причем при 'д' < 'д" функция A(S, 'д','д") является неубывающей по S. Зна- Значит, существует равномерно наиболее мощный критерий для проверки ги- гипотез Но и Н\, критическая область которого WK задается неравенством х\ + ... +жп > С. Для того чтобы определить уровень значимости а = а($) и мощность C = /3($) этого критерия, заметим, что статистика S = Х\ + ... + Хп распре- распределена по нормальному закону с параметрами rvd и пег. Тогда Хп > С | tf} = 1 - Ф(С; п-д, па2) = =Ф = ?{Х{ + ... + Хп > С | tf} = 1 - Ф(С; rvd, па2) = Поскольку а{$) — возрастающая функция от #, то размер критерия а0 = /па2 Теперь, если, наоборот, нужно построить критерий заданного размера ао, то критическое значение С определяется выражением С = пд0 - сраопа2, где (ра — а-квантиль стандартного нормального закона. ? Двусторонняя основная гипотеза. Рассмотрим двустороннюю ос- основную гипотезу Щ\ д ^ до или д ^ д\ {до < #i). Соответственно конкурирующая гипотеза Щ имеет вид: до <д <д\. Пусть существуют возрастающая функция А{д) и функции h(x), В{д) и S(x), такие,
3. Однопараметрические гипотезы. Равномерно наилучшие критерии 227 что плотность распределения р(х; #) любой функции распределения из семейства F(x; #) (чтобы не рассматривать рандомизированные крите- критерии, мы ограничимся здесь только непрерывным случаем) представима р(х; 0) = h{x) eA^ SW+BW (принадлежит экспоненциальному семейству, см. гл. 2, параграф 1). Введем статистику Определим для любых двух чисел С\ и С^ (С\ < С2) вероятности q0 = qo(Ci,C2) = Р{СХ < S(Xu...,Xn) < С2 \ $0} = Ci<S(xi,...,xn)<C2 = J...J р(х\]д\)'-р(хп]д\) dx\ -"dxn. Cx<S{xx,...,xn)<C2 Теорема 4 (двусторонняя основная гипотеза). При сделанных пред- предположениях существует равномерно наиболее мощный критерий разме- размера ао для проверки гипотез Щ и Н\, критическая область WK которого задается неравенствами Сх <S{xx,...,xn)<C2, где С\ и С2 определяются из уравнения qo(CuC2)=qi(CuC2)=ao. (8) Уровень значимости a = а(#) и мощность C = /3(i?) задаются форму- формулами: S{Xu...,Xn) < С2 | 1?} = )'-p(xn]$) dx\ -"dxn (#<#o или O#i), L.f p(xu$)'-p(xn]$) dx\ -"dxn Доказательство. Для доказательства теоремы нам понадобится сле- следующая лемма. Лемма 4.1. Система уравнений (8) при любом а0 @ < «о < 1) имеет решение.
228 Гл. 3. Проверка статистических гипотез Доказательство леммы 4.1, как и доказательство леммы 2.2, носит аналитический характер, и мы его здесь не приводим (см. [11]). Представим функцию правдоподобия в виде L(Xu...,Xn^)=p(Xu^)---p(Xn^)=c^)eAWSh(Xu...,Xn), (9) где S = S(XU ...,Xn) = S(Xi) + ... + S(Xn). Рассмотрим теперь следующую байесовскую постановку задачи. Пусть основ- основная «смешанная» гипотеза Щ состоит в том, что выборка Xi,... ,Хп произве- произведена из генеральной совокупности с теоретической плотностью распределения р(х;$о), появившейся с вероятностью q, или с теоретической плотностью рас- распределения р(х;$\), появившейся с вероятностью 1 — q, а конкурирующая ги- гипотеза Н[ — из генеральной совокупности с теоретической плотностью распре- распределения р(х;гд/), где $ — произвольное, но фиксированное число, #о < $ < $ь Соответственно гипотезы Щ и Н[ имеют априорные вероятности тг и 1 — тг. Нетрудно видеть, что мы фактически имеем дело с двумя простыми гипотеза- гипотезами, причем по формуле полной вероятности гипотеза Hq приписывает выборке Х\,..., Хп плотность распределения Ро(х\,... ,хп) = qp(x\\ #о)'' 'Р(%п', $о) + A ~ о)р(х\', $\) • • • р(хп;гд\), а гипотеза Н[ — плотность распределения Байесовский риск R (вероятность принятия неправильной гипотезы) имеет вид R = тг ... ро(х\, ...,xn)dx\ '"dxn + A - тг) ... pi(xi, ...,xn)dx\ --dxn, w w где Wr и W'a — критическая и допустимая области принятия Щ. Можно показать, что по аналогии с критерием отношения правдоподобия оптимальный байесовский критерий предписывает принять Щ при д//у х- \ Р\(Х\, ¦¦¦ ,Хп) А{Хи...,Хп) = —— — < < po(Xi,...,Xn) A -тг) и отвергнуть в противном случае. В силу (9) неравенство для попадания выборки в критическую область можно переписать в виде п сЩ [A($0)-A($')]S , /1 _ „\ CW [A(^)-A(^)]S < * -тг суд ) суд) тг Нетрудно видеть, что из-за монотонности А($) левая часть этого неравен- неравенства — выпуклая вниз функция, неограниченно возрастающая при S —>> ±оо. Поэтому его можно переписать в виде с\ < S < oi, где с\ = ci(g,7r), c2 = с2(д,тг), причем при с\ < С2 существует обратное преобразование q = q(c\,c2), тг = тг(с1,с2). П В соответствии с леммой 4.1 для любого ао существует решение уравнения (8), а значит, найдутся такие q = q(ao) и тг = тг(ао), при которых оптимальный байесовский критерий для проверки гипотез Щ и Н[ имеет при ^0 и fix равные вероятности ошибки (уровни значимости) а(#о) — c^(^i) — <^о-
3. Однопараметрические гипотезы. Равномерно наилучшие критерии 229 Но этот же критерий можно применить и в небайесовской модели для проверки основной сложной гипотезы Щ: $ = #о или $ = $i против простой гипотезы Н\\ $ = #'. Ясно, что полученный критерий представляет собой имен- именно тот критерий, о котором говорится в утверждении теоремы. Покажем, что он является равномерно наиболее мощным размера ао для проверки гипотез Щ и Н\. Для этого рассмотрим любой^другой критерий размера не больше ао и обозначим через й(#о)> 5(#i) и /3(#') его уровни значимости в точках #о Hi?i и мощность соответственно. Тогда a(tf0) < «о = а(#о), 5(tfi) < а0 = a(#i). (Ю) Снова считая, что оба критерия (основной и только что введенный) являются байесовскими, вычислим для них байесовские риски R и R: R = тг [ва@о) + A - g)a@i)] + A - тг) [1 - /3@')] = = 7гао + A-тг) [1-/3@')], (И) Д = тг [дй@о) + A " q) 5@i)] + A - тг) [1 - Д@')]. A2) Вспоминая теперь, что при q = q(ao), тг = тг(ао) первый из этих критериев яв- является оптимальным байесовским, получаем неравенство R ^ R, или с учетом A0)-A2)/3@') >Д(Л- В силу произвольности выбора ^; (#о < ^; < ^i) предложенный критерий является равномерно наиболее мощным размера ао для проверки сложных гипотез Яо: $ = &о или $ = &i и Яь $0 < $ < ^ь Совершенно аналогично показывается, что построенный критерий является при ^ < #о (^ > ^i) наиболее мощным для проверки гипотезы Я^: ^ = $' против гипотезы Н": $ = $о или i^ = $1 среди всех критериев, для которых /3"@О) = а@о) > «о, /8"(^i) = «(^1) < «о (/8"@о) = а@о) < «о, /3"(^i) = a(t?i) > «о), откуда, в частности, следует, что a(i^) ^ ао для любого # < i^o (^ > ^i)- Значит, размер построенного критерия в точности равен ао. Для окончания доказательства теоремы осталось заметить, что поскольку построенный критерий имеет размер ао при проверке изначальных гипотез Яо: $ < $о или ft ^ #1 иЯь^о<^<Л и является равномерно наиболее мощным размера ао при замене основной гипотезы Яо на «упрощенную» Яо: # = #о или # = #i, то он (см. окончание доказательства теоремы 3) является также равномерно наиболее мощным для проверки гипотез Яо и Н\. ? Замечание 1 к теореме 4. Вообще говоря, уравнение (8) имеет решение только в тех случаях, когда вероятности событий при истинных значениях #о и ^i параметра $ равны нулю. В общем случае (в частности, при дискретных наблюдениях), как обычно, нужно использовать рандомизацию, т. е. выбирать наряду с С\ и С% вероятности р\ и р2 принятия гипотезы Н\ при условиях S = С\ и S = С^. Замечание 2 к теореме 4. Фактически при доказательстве теоремы было показано больше, чем требовалось. А именно, рассматриваемый критерий
230 Гл. 3. Проверка статистических гипотез минимизирует уровень значимости а($) среди всех критериев, удовлетворяю- удовлетворяющих соотношениям а(#0) = a(#i) = «о- Это замечание нам понадобится при рассмотрении двусторонней конкурирую- конкурирующей гипотезы. Замечание 3 к теореме 4. Можно показать, что (при некотором несу- несущественном условии, которое мы не приводим) функция мощности /3(#) (т. е. мощность /3(#) и уровень значимости а(#)) построенного критерия будет иметь вид кривой 1 на рис. 4: существует такое значение #, что при $ < $ о Рис. 4 функция мощности строго возрастает, а при # > #, наоборот, строго убывает. В силу утверждения теоремы 4 любой другой критерий для проверки Щ и Н\, удовлетворяющий условию будет иметь функцию мощности, задаваемую кривой типа 2, т. е. лежащей не ниже кривой 1 при # < #о и $ > $i и не выше кривой 1 при $0 < $ < $ь Наконец, если потребовать, чтобы просто размер критерия равнялся ао, то для некоторых # уровень значимости может оказаться меньше а($) (кривая 3). Пример 4. Выборка Х\,...,Хп произведена из нормальной генеральной совокупности с известной дисперсией а и неизвестным средним #, относи- относительно которого имеются две гипотезы: двусторонняя основная гипотеза Щ: 'д < 'до или •д ^ •дх ('до < #i) и конкурирующая гипотеза Яь i^o < ^ < $ь Полагая видим, что плотность нормального распределения представима в виде причем A($) — возрастающая функция от 'д. Поскольку статистика распределена по нормальному закону с параметрами пд и па2, то вероятности qo(C\,Ci) и q\{C\,C2) определяются выражениями: <ft(C,, C2) = P{Ci < X, + ... + Хп < С2 - Ф Vпег2
3. Однопараметрические гипотезы. Равномерно наилучшие критерии 231 qi(CuC2) = ?{Ci <Xl + ...+Xn<C2\$l} = гг$1,псг2)=Ф V пег2 ) V V п Рассмотрим уравнение ф Vna2 ) \ Vna2 относительно неизвестного С. Это уравнение численно можно решить, напри- например, методом последовательных приближений. Полагая теперь п (??1+т?о) Ci С, С2 +С и вспоминая тождество Ф(ж) = 1 — Ф(—ж), убеждаемся, что Ci и Сг удовле- удовлетворяют равенствам Таким образом, равномерно наиболее мощный критерий размера ао предписы- предписывает нам отвергнуть гипотезу Но, если С\ < Х\-\- ... + Хп < Сч, и принять ее в противном случае. Уровень значимости а(#) и мощность /3($) критерия задаются формулами /па2 / V Vпа' (#0 < $ < fix). П Двусторонняя конкурирующая гипотеза. Пусть теперь двусто- двусторонней является конкурирующая гипотеза Н\\ д < $q или # > $\ (#о < $i)> а основная гипотеза имеет вид Щ: $q ^ $ ^ $\. Предпо- Предположим также, что все допущения относительно семейства функций распределения F(x;$), принятые при рассмотрении двусторонней ос- основной гипотезы, остаются в силе. Таким образом, мы только поменяли местами основную и конкурирующую гипотезы. Казалось бы, от такой замены ничего не должно измениться и равномерно наиболее мощный критерий для проверки основной двусторонней гипотезы будет таковым и для проверки двусторонней конкурирующей гипотезы. Однако это не так. Более того, для двусторонней конкурирующей гипотезы вооб- вообще не существует равномерно наиболее мощного критерия. Причина такого «неравноправия» кроется в том, что в определение равномерно наиболее мощного критерия уровень значимости и мощность входят несимметрично: от уровня значимости требуется только, чтобы он при каждом $ G во не превосходил размера ао, в то время как мощность при каждом 1? G ©1 должна быть максимальна. Тем не менее, имеет место следующая теорема. Теорема 5 (двусторонняя конкурирующая гипотеза). Пусть допол- дополнительно к условиям теоремы 4 функция А($) является непрерывной.
232 Гл. 3. Проверка статистических гипотез Тогда для проверки гипотез Щ и Н\ существует равномерно наибо- наиболее мощный несмещенный критерий, который в точности совпадает с равномерно наиболее мощным критерием для проверки двусторонней основной гипотезы, за исключением того, что меняются местами кри- критическая и допустимая области. Доказательство. Можно показать, что из условия непрерывности А(#) следует непрерывность функции мощности любого критерия, которая в свою очередь для несмещенного критерия влечет за собой равенство уровня зна- значимости в точках #о и $i размеру ао. Таким образом, равномерно наиболее мощный несмещенный критерий можно искать только среди критериев, для которых а@о) = <*№) = «о- A3) С другой стороны, как вытекает из замечания 2 к теореме 4, «обращен- «обращенный» критерий теоремы 5 является наиболее мощным для проверки основной гипотезы Hq\ $ = $о или # = #i против конкурирующей гипотезы Н\\ $ < $о или # > #1 среди всех критериев, удовлетворяющих A3). Но из самого утверждения теоремы 4 следует, что рассматриваемый критерий при каждом $ ($о < $ < fix) имеет уровень значимости а(#) < ао, т.е. является несмещенным, а значит, он будет также равномерно наиболее мощным и среди всех несмещенных критериев для проверки гипотез Но и Н\, поскольку, как уже показывалось при доказательстве теорем 3 и 4, наличие дополнительных ограничений может привести только к уменьшению мощности критерия. ? На рис. 5 (кривая 1) приведен типичный график функции мощности равномерно наиболее мощного несмещенного критерия размера ао для Рис. 5 проверки двусторонней конкурирующей гипотезы. Кривая 2 изобража- изображает функцию мощности другого критерия, имеющего тот же размер ао, а при # > #i — мощность, большую, чем равномерно наиболее мощный несмещенный критерий. Однако этот другой критерий является сме- смещенным, поскольку при $ < $о его мощность меньше размера ао. 4. Многопараметрические гипотезы Пусть выборка Х\,... ,ХП произведена из генеральной совокупно- совокупности с теоретической функцией распределения F(x), принадлежащей параметрическому семейству F(x;Q) = F(x\ #ь ..., $&), зависящему от
4. Многопараметрические гипотезы 233 неизвестного векторного параметра 9 = ($ь ...,$&). Множество воз- возможных значений параметра 9 будем обозначать через в. Не вдаваясь в подробное описание в, скажем только, что в представляет собой либо все /с-мерное пространство Rk, либо достаточно «большую» его часть (например, в случае двух неизвестных параметров #i и #2 множество в может быть полуплоскостью, полосой, прямоугольником и т.д.). Предположим теперь, что в множестве в выделено некоторое подмножество во- Как обычно, дополнение к во в в будем обозначать через Bi = в \ во- Нам нужно проверить две сложные параметриче- параметрические гипотезы: основную Щ: 9 ? во против конкурирующей Н\\ 9 G &\. Основным методом для проверки таких гипотез является метод отношения правдоподобия, представляющий естественное обобщение критерия отношения правдоподобия (см. параграф 2). Этот метод за- заключается в следующем. Рассмотрим функцию правдоподобия в дискретном случае или в непрерывном и определим два ее максимальных значения как функ- функции от аргументов #i, ...,#&: ее Go еее (очевидно, что Lq(X\, ... ,Хп) не превосходит L*(X\,..., Хп)). Так же, как и в методе максимального правдоподобия (см. па- параграф 4 гл.2), для нахождения значений 9q = (#*,... ,#^) и 9* = (#*, ...,#?), доставляющих максимум функции правдоподобия L(X\,..., Хп; #i,..., #д.) в подмножестве во и множестве в, обычно используют систему уравнений правдоподобия О с соблюдением соответствующих ограничений. Определим теперь отношение правдоподобия Л - Л(Ль ... ,Лп) - JT7T? Интуитивно ясно, что если Л мало отличается от единицы, то это говорит в пользу основной гипотезы if о- Полагая Л = 2 In Л, получим следующий критерий для проверки двух сложных параметрических гипотез: мы должны принять гипотезу if о, если Л = Х(Х\,... ,Хп) < С, и отвергнуть в противном случае, где С — критическое значение критерия.
234 Гл. 3. Проверка статистических гипотез Хотя уровень значимости а и мощность /3 полученного критерия и определяются, как обычно, формулами их нахождение для конкретных семейств _F(#; $1,..., #&) представляет, как правило, сложную в вычислительном плане задачу. Поэтому огра- ограничимся выписыванием приближенного значения уровня значимости а, справедливого при большом объеме выборки п. Теорема 6 (асимптотическое свойство метода отношения прав- правдоподобия). Пусть во есть тп-мерное (не обязательно линейное) подпространство Rk (га < к). Тогда (при некоторых дополнитель- дополнительных предположениях относительно семейства F(X; #1,..., #&)) стати- статистика Х(Х\,... ,Xk) при условии, что истинное значение параметра 9 = (#i,..., #&) ? во, асимптотически при п —> оо имеет у2-распреде- у2-распределение с к — m степенями свободы. Доказательство теоремы б, которое мы здесь не приводим, в идейном плане состоит из двух частей. Первая часть устанавливает асимптотическую нормальность оценок 0* и 0q и является многомерным аналогом теоремы 7 гл. 2. Вторая часть заключается в подстановке полученных в первой части асимпто- асимптотически нормальных оценок в квадратичную форму, приближенно описываю- описывающую отношение правдоподобия вблизи истинного значения параметра 0. ? Таким образом, уровень значимости критерия определяется прибли- приближенной формулой a = Р{х2 > С}, где %2 — случайная величина, имею- имеющая %2-распределение с к — m степенями свободы (см. [1, табл. 2.1а]), и, что следует отметить особо, уровень значимости при большом объе- объеме выборки практически не зависит от истинного значения параметра 9. Если же, наоборот, задан уровень значимости а, то критическое зна- значение С приближенно совпадает с h\-a — A — а)-квантилью %2-рас- пределения с к — га степенями свободы [1, табл. 2.2а]. Пример 5. Выборка Х\,...,ХП произведена из нормальной генераль- генеральной совокупности с неизвестными средним #i и дисперсией #2- Требуется построить критерий уровня значимости а для проверки сложной основной гипотезы Щ\ #i = mo против сложной конкурирующей гипотезы Н\\ fix ф то. В этом примере множество всех возможных значений параметров #i и #2 пред- представляет полуплоскость i^2 > 0, а гипотеза Щ выделяет в этой полуплоскости полупрямую #i = чщ. Функция правдоподобия имеет вид L(Xl Xn,^2) Для определения значения 0* = (#*,#2)' доставляющего максимум функции правдоподобия в множестве в, обратимся к примеру 25 из гл. 2. Тогда #* = 771*, #2 = ° *>
4. Многопараметрические гипотезы 235 где т* и а2* — выборочные среднее и дисперсия, и, значит, само максимальное значение = / V Найдем теперь tfg = (#* ,#2 ), максимизирующее функцию правдоподобия в подмножестве Во. Для этого заметим, что поскольку #i = mo, то система уравнений правдоподобия превращается в одно уравнение (lnL(Xi,...,Xn;mo,tf2))l = - тоJ + ... + (Хп - тоJ] )^ = = а2* решая которое, получаем ^;(°) = ш0, <0) = i [(X, - т0J + ... + (Х„ - т0J] Таким образом, ЩХи...,Хп) = = ( ' \Пр-ф,[(Х1-т0)Ч... + (Хп-т0J} = ( 1 ^ \/2жа2* ' \ \/2жа2* Отношение правдоподобия имеет вид = ЩХи...,Хп) а сам критерий предписывает нам принять гипотезу Щ, если Л = 2 In Л < С, и отвергнуть ее, если Л > С. Поскольку множество в имеет размерность к = 2, а подмножество во — размерность т = 1, то критическое значение С ~ h\-a, где /га — a-квантиль ^-распределения с одной степенью свободы. Полученный критерий удобно записать в несколько ином виде. Действи- Действительно, производя элементарные преобразования, имеем сг * = а * + (т* — то) . Используя теперь монотонность функции f(x) = In ж, видим, что неравенство 2А = nln (<72*/сг2*) < С эквивалентно неравенству п(т* — moJ < Cfs2*, где С2 = (п — 1)(еС//п — 1), или, что то же самое, неравенству у/п \т* — то\ < Иными словами, мы пришли к естественному критерию: принять гипоте- 7-7- |ггг* — mol ^ зу Щ, если -— ' < С\, и отвергнуть в противном случае. у s2*/n Поскольку статистика _ лДг (ш* - т0) Vs2* имеет t-распределение (см. гл. 1, параграф 4), то критическое значение С\ при размере критерия а0 представляет собой ti_ao/2 — A — ао/2)-квантиль t-распределения сп- 1 степенями свободы.
236 Гл. 3. Проверка статистических гипотез Отметим [12], что построенный критерий является равномерно наиболее мощным несмещенным для проверки гипотез Но и Н\. ? Пример 6. Предположим, мы произвели опыт, состоящий из п испы- испытаний, а результат каждого испытания характеризуется двумя случайными факторами (показателями), причем первый фактор может принимать значения (уровни действия фактора) 1,2, ...,mi, а второй — 1,2,..., rri2. Результаты опыта можно представить в виде табл. 1, где уц — число испытаний, в которых первый фактор подействовал на уровне г, а второй — на уровне j. Наша задача — проверить, действуют ли эти факторы независимо (гипотеза Hq) или между ними существует зависимость (гипотеза Н\). Таблица 1 Уровень первого фактора 1 Э 7712 Уровень второго фактора 1 V\\ VXj V\m2 г у%\ Щз ^ггп2 Vrnxj Vm\m2 Здесь мы имеем дело с так называемой двухфакторной (mi, 7772)-уровневой моделью. Опишем эту модель. Прежде всего, если не делать предположения о независимости факторов, то имеется m\m2 неизвестных параметров #^ — вероятностей того, что первый фактор подействует на уровне г, а второй — на уровне j. Значит, множество В представляет собой (гуцт^ — 1)-мерное подпространство пространства i?mim2? выделяемое соотношениями #^- > О, т\ ггг-2 о = ^ (в СИЛУ послеДнего равенства размерность пространства В равна — 1, а не ?711?7i2). В свою очередь, в силу независимости факторов подмножество Во является [(ттц — 1) + (ш2 — 1)]-мерным подпространством пространства i?mim2? задаваемым ограничениями B) гп2 ¦в\1> > о, ¦&?> > о, Выпишем логарифм функции правдоподобия гп\ ггг-2 п П С = Е Е
4. Многопараметрические гипотезы 237 Поскольку $ij удовлетворяют уравнению связи ^ ^ $ij = 1, то для вычис- г=\ j = \ ления максимального значения L* определим лагранжиан \ т2 и в соответствии с общими правилами нахождения максимума будем искать flij из системы уравнений Несложные подсчеты показывают, что $*,- = Vijjn. Таким образом, Аналогично поступим, если 0 = {'dij) G Во- Тогда / т\ ГП2 \ т\ т^ = in д П {41)^РГ') = Е Е П Л / V^ qU) 1 \ G = *-7i E^'-l " ^ г=1 и, значит, г=1 j = l 7ТТ-2 где i/}1^ = ^2 vii ~ суммарное число наблюдений, в которых первый фактор тх подействовал на уровне г, a vf^ = ^ Vi3- — суммарное число наблюдений, г=1 в которых второй фактор подействовал на уровне j. Выписывая отношение правдоподобия т2 пи. '3 \ A) B) получаем окончательно, что мы должны принять гипотезу Щ, если Л = = 2 In Л < С, и отвергнуть в противном случае. Критическое значение С приближенно совпадает с A — а)-квантилью h\-a х2-распределения с т\гп2 — — т\ — 7712 + 1 = (тп\ — 1){тп2 — 1) степенями свободы, где а — уровень значимости. Отметим, что при практической реализации описанного критерия число на- наблюдений 71 должно быть существенно больше mxm^ и, более того, достаточно большими должны быть все уц (обычно рекомендуется не менее 5). ?
238 Гл. 3. Проверка статистических гипотез 5. Критерии согласия Предположим, что выборка Х\,..., Хп произведена из генераль- генеральной совокупности с неизвестной теоретической функцией распределе- распределения, относительно которой имеются две непараметрические гипотезы: простая основная Щ: F(x) = F${x) и сложная конкурирующая Н\\ F(x) т^ Fq(x), где Fq(x) — известная функция распределения. Иными словами, мы хотим проверить, согласуются эмпирические данные с нашим гипотетическим предположением относительно теорети- теоретической функции распределения или нет. Поэтому критерии для про- проверки гипотез Щ и Н\ носят название критериев согласия. Приведем три наиболее часто употребляемых критерия согласия. Критерий Колмогорова. Уже говорилось (параграф 3 гл. 1), что в силу теоремы Гливенко-Кантелли эмпирическая функция распреде- распределения F*(x) представляет собой состоятельную оценку теоретической функции распределения F(x). Поэтому можно сравнить эмпирическую функцию распределения F*(x) с гипотетической Fo(x) и, если мера расхождения между ними мала, то считать справедливой гипотезу Щ. Наиболее естественной и про- простой из таких мер (будем предпо- предполагать, что Fq(x) — непрерывная функция) является равномерное расстояние Pr = Pr{F*(x),F0(x)) = = sup \F*(x)-F0(x)\ — оо<ж<оо (рис.6 и параграф 5 гл.2). Од- Однако при построении критерия Колмогорова более удобно пользоваться нормированным расстоянием Р = V™ PR- Итак, рассмотрим статистику p = p(Xi,...,Xn) = y/Ji sup \F*(x)-F0(x)\. — ОО<Ж<ОО Критерий Колмогорова предписывает принять гипотезу Щ, если р < С, и отвергнуть в противном случае, где С — критическое значение кри- критерия. Если гипотеза Щ справедлива, то распределение статистики р не зависит от гипотетической функции распределения Fq(x) (доказа- (доказательство этого факта следует из инвариантности статистики критерия Колмогорова относительно монотонных преобразований, в частности преобразования g(x) = Ff~x\x), где Ff~x\x) — обратная к Fq(x) функ- Рис. 6 ция; преобразование д(х) приводит выборку Х\,... ,Хп к равномерно распределенной на отрезке @,1)). Поэтому можно рассчитать таблицы,
5. Критерии согласия 239 которые по заданному объему выборки п и критическому значению С позволяют определить уровень значимости критерия а. Поскольку на практике обычно, наоборот, считают известными уровень значимости а и объем выборки п, а затем по ним определяют критическое значе- значение С, то именно такая таблица приведена в [1, табл. 6.2]. При п —> оо распределение статистики р сходится к распределению Колмогорова [1, табл. 6.1], и критическое значение С при большом объеме выборки практически совпадает с A — а)-квантилью к\-а рас- распределения Колмогорова. При практической реализации критерия Колмогорова сначала по выборке Xi,...,Xn составляют вариационный ряд Х*,...,Х^. Затем находят Fq(X*) и определяют значения статистики р по формуле да;)-2* р = wn max 2п Наконец, сравнивают полученное значение р с критическим значени- значением С для заданного уровня значимости а и принимают или отвергают гипотезу Щ. Критерий оо2. Пусть F\(x) — некоторая функция распределения, не совпадающая с Fq(x). Критерий Колмогорова хорошо разделя- разделяет выборки (имеет большую мощность) из генеральных совокупно- совокупностей с теоретическими функциями распределения Fo(x) и F\(x), если \Fq(x) ~ Fi(x)\ достаточно велико хотя бы на малом интервале из- изменения х. Встречается и обратная ситуация, когда \F$(x) — F\(x)\ мало, но постоянно на достаточно большом интервале изменения х. В этом случае для разделения гипотез Щ и Н\ естественно пользовать- пользоваться каким-либо интегральным расстоянием, например расстоянием и2 (см. параграф 5 гл. 2). Статистика ио2 критерия ио2 задается выражением [F*(x)-Fo(x)}2po(x)dx ) (мы предполагаем, что гипотетическая функция распределения Fq(x) имеет плотность распределения ро(х)), а критическая область WK со- состоит из всех тех точек (х\,..., хп), для которых и2 > С, где С — кри- критическое значение критерия. Используя вариационный ряд X*,...,X*, статистику и2 можно записать в более удобном для практических расчетов виде 2г-П2 Распределение статистики со2 при условии справедливости гипоте- гипотезы Hq также не зависит от гипотетической функции распределения Fq(x) (это доказывается точно так же, как и инвариантность распре-
240 Гл. 3. Проверка статистических гипотез деления статистики критерия Колмогорова) и при увеличении объема выборки сходится к ^-распределению. Поэтому уровень значимости критерия а определяется по критическому значению С приближенной формулой 1 где А(х) — функция ^-распределения [1, табл. 6.4а]. Если же задан уровень значимости а критерия, то критическое значение С практиче- практически совпадает с A — а)-квантилью а\-а и;2-распределения. Практическая реализация критерия и2 происходит в той же по- последовательности, что и критерия Колмогорова: сначала по выборке Х\,..., Хп определяется вариационный ряд X*,..., Х?, затем находят- находятся Fq(X*) и вычисляется значение статистики со2 и, наконец, полу- полученное значение и2 сравнивается с критическим значением С и либо принимается, либо отвергается гипотеза Щ. В литературе иногда критериями со2 называют целое семейство критериев, основанных на интегральных расстояниях с различными весовыми функциями. Критерий х2 (Пирсона). Критерий %2 является аналогом крите- критерия ио2 для дискретной наблюдаемой величины X, хотя и применяется как в дискретном, так и в непрерывном случае. Начнем с дискретного случая. Пусть наблюдаемая случайная ве- величина X может принимать только значения {Ь\,... ,Ь^} с неизвест- неизвестными вероятностями #ь ...,#?. Основная гипотеза Щ выделяет сре- среди всех распределений случайных величин, принимающих значения {Ь\,..., Ьь}, одно фиксированное распределение, для которого значения вероятностей $/ известны и равны Р\. Обозначим через v\ (I = 1,..., L) число тех элементов выборки Х\,... ,Хп, которые приняли значе- значение hi. Поскольку в силу закона больших чисел наблюденная частота Щ = vi/п с ростом объема выборки п стремится к вероятности #/, мы должны признать гипотезу Щ справедливой, если все Щ мало отличаются от Р/. Введем теперь статистику С одной стороны, эта статистика является мерой равномерной близости всех #* к Pi, с другой стороны, как говорилось в параграфе 4 гл. 1, она асимптотически при п —> оо независимо от гипотетических вероят- вероятностей Pi имеет х2-распределение с L — 1 степенями свободы. Таким образом, критерий %2 предписывает принять гипотезу Щ, если %2 < С, и отвергнуть, если %2 ^ С, где С — критическое значение критерия. Из сказанного выше следует, что при заданном С уровень значимо- значимости а критерия %2 определяется приближенной формулой а^ 1 -Н(С),
5. Критерии согласия 241 где Н(х) — функция х2-распределения с L — 1 степенями свободы [1, табл. 2.1а]. Наоборот, если задан уровень значимости а, то кри- критическое значение С примерно совпадает с A — а)-квантилью h\-a Х2-распределения [1, табл. 2.2а]. При практической реализации критерия %2 нужно следить за тем, чтобы объем выборки был велик, иначе неправомочна аппроксимация Х2-распределением распределения статистики %2. Обычно считается, что достаточным условием для этого является выполнение неравенств v\ ^ 5 при всех /; в противном случае маловероятные значения Ь\ объединяются в одно или присоединяются к другим значениям, причем объединенному значению приписывается суммарная вероятность (разу- (разумеется, уменьшается число степеней свободы при определении уровня значимости или критического значения С). Следует отметить, что при п —> оо критерий %2 асимптотически совпадает с параметрическим критерием для проверки основной гипо- гипотезы Яо: 9 = Р (9 = (#ь ..., #l)> Р = (Р\,... ,Pl)) против сложной конкурирующей гипотезы Н\\ 9 ф Р, построенным по методу отно- отношения правдоподобия, хотя эти критерии и основаны на совершенно различных идеях. В общем случае (не обязательно дискретной наблюдаемой величи- величины X) поступают следующим образом. Сначала всю прямую разбивают на L непересекающихся интервалов (—oo,g?i), [d\,d2),..., [dL-i,oo). Затем определяют гипотетические вероятности Р/ = Fo(di) — Fo(di-\) попадания в интервал [d/_i,d/) и числа щ элементов выборки, попав- попавших в эти интервалы. Наконец, вычисляют значение статистики 2 = Л (^ - nPif х к nPi и сравнивают его с критическим значением С. Как и в дискретном случае, маловероятные интервалы объединяют. Разумеется, для того чтобы улучшить качество критерия %2 (увеличить его мощность), необ- необходимо уменьшать интервалы разбиения, однако этому препятствует ограничение на числа попавших в каждый интервал наблюдений. При применении критерия %2 удобно пользоваться полигоном ча- частот или гистограммой (см. параграф 3 гл. 1). Часто требуется проверить не совпадение теоретической функ- функции распределения F(x) с известной функцией распределения Fq(x), а принадлежность F(x) заданному параметрическому семейству F(x;Q) = F(#;#i,... ,#fc) функций распределения, зависящему от /с-мерного неизвестного параметра 9 = (#ь ..., #&), т.е. разделить сложные непараметрические гипотезы Яо: F(x) ? {F(x;Q)} и Н\\ F(x) $jL {F(x;Q)}. Для того чтобы воспользоваться вышеописанными критериями, нужно из семейства F(x;Q) выделить ту функцию распре- распределения Fq(x) = F(x;Qo), с которой уже и будет производиться сравне- сравнение эмпирической функции распределения F(x) выборки Х\,... ,Хп.
242 Гл. 3. Проверка статистических гипотез Поэтому сначала, предполагая, что верна основная гипотеза Яо, нахо- находят оценку 9* = (#*,..., #?) неизвестного векторного параметра 9, а за- затем, полагая Go = 9* с помощью выбранного критерия согласия прове- проверяют простую основную гипотезу Яо: F(x) = Fq(x) = F(x;Q*) против сложной конкурирующей гипотезы Н\\ F(x) ^ Fq(x) = F(x;Q*). Ясно, что в качестве оценки 9* лучше всего брать такое значение парамет- параметра 9, которое доставляло бы минимальное значение статистике соот- соответствующего критерия (см. параграф 5 гл. 2). Однако эти естествен- естественные оценки, как правило, весьма сложны в вычислительном плане, и поэтому обычно пользуются более простыми оценками (полученны- (полученными методами моментов или максимального правдоподобия). Скажем еще несколько слов об уровне значимости критериев со- согласия при проверке сложной гипотезы Щ: F(x) ? {F(x;Q)}. Вообще говоря, даже асимптотически при п —> оо уровень значимости критерия будет зависеть и от семейства F(x\ 9), и от выбранной оценки 9*, и даже от истинного значения неизвестного параметра 9. Обычно на практике для критериев Колмогорова и и2 считают уровень значимости таким же, как и в случае простой гипотезы if о- При использовании доста- достаточно «хороших» оценок (например, оценки максимального правдопо- правдоподобия) истинный уровень значимости, как правило, будет даже меньше подсчитанного таким образом. Что касается критерия %2, то для него при определении уровня значимости просто уменьшают число степеней свободы %2-распределения на число неизвестных параметров к. Здесь мы делаем обратную ошибку: объявляем уровень значимости меньшим, чем он есть на самом деле, правда, обычно несущественно. Отметим, что в последнее время в специальной литературе появились работы, в которых выводятся асимптотические разложения уровней значимости (и даже мощностей при «близких» гипотезах) критериев по степеням \/Л/п, причем для некоторых критериев и типов распределений вычисляются также значения первых коэффициентов этих разложений. Пример 7. Проверим с помощью критерия Колмогорова гипотезу Щ о том, что проекция X вектора скорости молекулы водорода на ось координат (см. пример 1 из гл. 1) распределена по нормальному закону. Проверку про- произведем для уровня значимости a = 0,05. Параметры нормального закона не заданы, значит, мы имеем дело со сложной гипотезой Щ и сначала должны оценить среднее #i и дисперсию #2- Поскольку мы будем пользоваться кри- критерием Колмогорова, хотелось бы оценки #* и $% неизвестных параметров #i и $2 выбрать таким образом, чтобы они доставляли минимальное значение статистики критерия Колмогорова 2n 2n где X{\...,X* — вариационный ряд выборки Х\,... ,Xn, приведенный в табл. 3 гл. 1, а Ф(х;т, а2) = Ф((ж — т)/а ) — функция распределения нормального закона с параметрами т, а. Однако искать минимум р как функции от #i и $2 — весьма сложная в вычислительном плане задача, так как Ф(ж) даже не выражается в элементарных функциях. Поэтому в качестве оценок #* и #? используем оценки максимального
р = Wn max 5. Критерии согласия 243 правдоподобия #* = ш* = 0,082 и #? — ^ = 1>34 (см. примеры 8 из гл. 1 и 15 из гл. 2). Теперь с помощью критерия Колмогорова будем проверять простую гипотезу Яо : F(x) = F0(x) = Ф(ж;#*,#2) = Ф(ж;0,082, 1,34). Вычислив сначала Y* = (X* — fl*)/л/Щ и воспользовавшись равенством Ф(Х*; #*,#?) = Ф((-^г* — $*)/\/Щ )' последовательно находим затем значения Ф(>7) [1, с. 112-117], F* = Bг- 1)/Bп) и Si = \Ф(У*) - F?\ (табл.2). Наконец, определяя значение статистики критерия Колмогорова tfi,tf2) - ^—^ + —1 = 0,07V50 = 0,49 (максимальное значение *% равно 0,06) и сравнивая его с 0,95-квантилью распределения Колмогорова /со,95 — 1?3б ([1], с. 346), видим, что р < /со,95- Значит, мы должны принять гипотезу Яо и считать распределение проекции вектора скорости молекулы водорода нормальным. ? Пример 8. Проверим ту же гипотезу Яо о нормальности проекции вектора скорости молекулы водорода с тем же уровнем значимости а = 0,05, но теперь для проверки Яо воспользуемся критерием ои2. Поскольку и в этом случае мы будем пользоваться оценками максимального правдоподобия неиз- неизвестных среднего #i и дисперсии $2 нормального закона, то все этапы вычис- вычислений, вплоть до нахождения Si, для критериев Колмогорова и и полностью совпадают. Остается только определить значение статистики и2 (см. табл. 2): п ^ ^ ~ hi i ^ ~ ' ' ' боо ~ ' и сравнить найденное значение и2 = 0,05 с 0,95-квантилью ^-распределения ао,95 = 0,46 [1, с. 348]. Таким образом, критерий и2 также подтверждает спра- справедливость гипотезы Яо. ? Пример 9. Воспользовавшись выборкой из примера 2 гл. 1, проверим с уровнем значимости а = 0,1 гипотезу Яо о том, что число X регистрируемых ежесекундно счетчиком Гейгера частиц имеет распределение Пуассона. Слу- Случайная величина X, распределенная по закону Пуассона, принимает значения / = 0, 1,... с вероятностями где 'д — математическое ожидание X (см. часть 1, гл.5, параграф 3). Вви- Ввиду дискретности случайной величины X для проверки гипотезы Яо следует использовать критерий х2- Поскольку значение параметра $ неизвестно, мы имеем дело со сложной гипотезой Яо и должны сначала оценить #. Восполь- Воспользовавшись методом моментов, получаем оценку Г = ш* = - (Xi + ... + Хп) = -!- A + 4 + ... + 5) = 2,92 п 60 (читателю предоставляется возможность убедиться, что оценка максимального правдоподобия также будет совпадать с выборочным средним). В табл. 3 выпи- выписаны гипотетические вероятности Pi = P(l;ti) = iM?Le'92 (/ = 0,1,...), а также числа щ элементов выборки, принявших значение I, взятые из стати- статистического ряда выборки (табл. 6 гл. 1). Из табл. 3 видно, что числа элементов выборки, принявших значения 0, б, 7, 8 и т.д., меньше 5. Поэтому объединим
244 Гл. 3. Проверка статистических гипотез Таблица 2 х; Y* 4YC) F* Si х; Y? ФA?) F* Si х; Y? 4Y?) F* Si X* Y* ФA?) F* Si х* Y* Ф(*7) F* Si -2,33 -2,08 0,02 0,01 0,01 -0,90 -0,85 0,20 0,21 0,01 -0,10 -0,16 0,44 0,41 0,03 0,35 0,23 0,59 0,61 0,02 1,02 0,81 0,79 0,81 0,02 -1,60 -1,45 0,07 0,03 0,04 -0,88 -0,83 0,20 0,23 0,03 -0,08 -0,14 0,44 0,43 0,01 0,35 0,23 0,59 0,63 0,04 1,06 0,85 0,80 0,83 0,03 -1,58 -1,43 0,08 0,05 0,03 -0,80 -0,76 0,22 0,25 0,03 -0,05 -0,11 0,46 0,45 0,01 0,40 0,28 0,61 0,65 0,04 1,12 0,90 0,82 0,85 0,03 -1,57 -1,43 0,08 0,07 0,01 -0,79 -0,75 0,23 0,27 0,04 -0,01 -0,08 0,47 0,47 0,00 0,41 0,29 0,61 0,67 0,06 1,27 1,03 0,85 0,87 0,02 -1,46 -1,33 0,09 0,09 0,00 -0,72 -0,69 0,25 0,29 0,04 0,01 -0,06 0,48 0,49 0,01 0,52 0,38 0,65 0,69 0,04 1,68 1,38 0,92 0,89 0,03 -1,32 -1,21 0,11 0,11 0,00 -0,53 -0,53 0,30 0,31 0,01 0,01 -0,06 0,48 0,51 0,03 0,54 0,40 0,66 0,71 0,05 1,92 1,59 0,94 0,91 0,03 -1,29 -1,18 0,12 0,13 0,01 -0,52 -0,52 0,30 0,33 0,03 0,01 -0,06 0,48 0,53 0,05 0,60 0,45 0,67 0,73 0,06 2,15 1,79 0,96 0,93 0,03 -1,06 -0,98 0,16 0,15 0,01 -0,28 -0,31 0,38 0,35 0,05 0,14 0,05 0,52 0,55 0,03 0,65 0,49 0,69 0,75 0,06 2,19 1,82 0,97 0,95 0,02 -1,04 -0,97 0,17 0,17 0,00 -0,27 -0,30 0,38 0,37 0,01 0,30 0,19 0,58 0,57 0,01 0,74 0,57 0,72 0,77 0,05 2,25 1,87 0,97 0,97 0,00 -0,98 -0,92 0,18 0,19 0,01 -0,18 -0,22 0,41 0,39 0,02 0,32 0,21 0,58 0,59 0,01 0,96 0,76 0,78 0,79 0,01 3,47 2,93 1,00 0,99 0,01 нулевой и первый столбцы, а шестой и последующие столбцы присоединим к пятому (табл. 4). Производя последовательно вычисления, представленные в табл. 4, определяем значение статистики X2 = У = 0,88 + 1,67 + 0,44 + 106 + 0,04 = 4,09.
5. Критерии согласия 245 Так как число столбцов L = 5, а число неизвестных параметров к = 1, то Х2-распределение, используемое для приближенного нахождения критического значения С, имеет L — к — 1 = 3 степени свободы. В [1, с. 167] находим 0,9-квантиль х2-распределения с тремя степенями свободы /го,9 = 6,251. Срав- Сравнивая значение % = 4,09 с /io,9 — 6,251, констатируем, что следует признать справедливость гипотезы Щ о пуассоновости распределения регистрируемых счетчиком Гейгера частиц. ? Таблица 3 1 щ Pi 0 4 0,054 1 12 0,157 2 9 0,230 3 11 0,224 4 13 0,163 5 9 0,095 6 1 0,046 7 0 0,019 8 0 0,007 9 1 0,0023 10 0 0,0007 11 0 0,0002 Таблица 4 1 Pi VI nPi (yi ~ nPif (yi - nPifl(nPi) < 1 0,211 16 12,66 11,16 0,88 2 0,230 9 13,8 23,04 1,67 3 0,224 11 13,44 5,95 0,44 4 0,163 13 9,78 10,37 1,06 > 5 0,172 11 10,32 0,46 0,04 Пример 10. Еще раз обратимся к проверке гипотезы Щ о нормально- нормальности проекции X вектора скорости молекулы водорода (см. примеры 7 и 8). Воспользуемся критерием \2- Для этого разобьем всю прямую на 8 интер- интервалов: (-оо,-3), (-3,-2), (-2,-1), (-1,0), @,1), A,2), B,3) и C,оо). Однако поскольку в первые два интервала попало всего одно наблюдение (см. табл. 7 гл. 1), объединим их с третьим интервалом. Аналогично седьмой и восьмой интервалы присоединим к шестому. Окончательно получим 4 интер- интервала с числами щ попавших в них наблюдений, приведенными в табл. 5. По- Поскольку оценки $* = 0,082 и #? — 1,34 неизвестных среднего $\ и дисперсии $2 нами уже получены, найдем, воспользовавшись [1, с. 112-113], гипотетиче- гипотетические вероятности Pi попадания наблюдаемой величины X в рассматриваемые интервалы: ZS) =ф(-1~^82\ = Ф(-0,935) = 0,175, Р2 = Р4= 1 - = Ф(-0,071) - Ф(-0,935) = 0,472 - 0,175 = 0,297, ,1?2*) = = Ф@,793) - Ф(-0,071) = 0,786 - 0,472 = 0,314, ,#0 = 1 -Ф@,793) = 1 -0,786 = 0,214.
246 Гл. 3. Проверка статистических гипотез Таблица 5 Интервал Pi v\ nPi {yi ~ nPif (ух - nPifUnPi) (-oo,-l) 0,175 9 8,7 0,09 0,001 (-1,0) 0,297 15 14,8 0,04 0,003 @,1) 0,314 16 15,7 0,09 0,006 (l,oo) 0,214 10 10,7 0,49 0,046 Теперь определим значение статистики X = У (Ul~nPl> = 0,001 + 0,003 + 0,006 + 0,046 = 0,056. Число степеней свободы х2"РаспРеДеления равно единице (число интервалов наблюдения L = 4, число неизвестных параметров к = 2). Сравнивая получен- полученное значение х2 — 0,056 с 0,95-квантилью х2-распределения с одной степенью свободы /го,95 = 3,841 [1, с. 167], видим, что и критерий х2 подтверждает гипотезу Щ. ? 6. Критерии однородности двух выборок В этом параграфе мы обратимся к постановке задачи, несколько отличной от изучавшихся ранее. А именно, будем рассматривать две выборки и проверять гипотезу о том, что эти выборки извлечены из одной и той же генеральной совокупности. Итак, пусть мы имеем независимые выборки: Х\,... ,Хп, произведенную из генеральной сово- совокупности с неизвестной теоретической функцией распределения F\(x), и Y\,... ,Ym, произведенную из генеральной совокупности с неизвест- неизвестной теоретической функцией распределения ^(ж). Проверяются две сложные непараметрические гипотезы: основная Щ: F\(x) = i^(^) и конкурирующая Н\\ F\(x) Ф F^[x\ Будем предполагать, что функции F\{x) и F<i{x) непрерывны. Поскольку справедливость гипотезы Щ, по сути дела, означает, что выборки Х\,... ,Хп и Y\,... ,Ym произведены из одной и той же генеральной совокупности, критерии для проверки гипотез Яо и Н\ называются критериями однородности двух выбо- выборок. Приведем два таких критерия. Критерий Смирнова. Критерий Смирнова использует ту же идею, что и критерий Колмогорова, но только если в критерии Колмогорова эмпирическая функция распределения сравнивается с гипотетической, то в критерии Смирнова между собой сравниваются две эмпирические функции распределения. Статистика критерия Смирнова задается вы- выражением \f?(x)-f;(x)\, р = sup — оо<ж<оо
6. Критерии однородности двух выборок 247 где F*(x) и F^x) — эмпирические функции распределения, постро- построенные по выборкам Х\,... ,Хп и Y\,...,Ym соответственно. Критерий Смирнова предписывает принять гипотезу Щ, если р < С, и отвергнуть в противном случае. При условии справедливости гипотезы Щ распределение статисти- статистики р (а значит, и уровень значимости а) не зависит от распределения F\(x) = F2(x) (доказательство этого факта слово в слово повторя- повторяет доказательство инвариантности статистики критерия Колмогорова). При малых объемах выборок (п, m ^ 20) критические значения С для заданных уровней значимости (размеров) критерия а приведены в табл. 6.5а [1]. При п,т —> оо распределение статистики р сходит- сходится к распределению Колмогорова К(х), что позволяет приближен- приближенно вычислять уровень значимости критерия Смирнова по формуле а = 1 — К (С) (распределение Колмогорова К(х) приведено в табл. 6.1 [1]) и, наоборот, определять критическое значение С при заданном уровне значимости а как A — а)-квантиль распределения Колмогорова К(х). Пример 11. На двух реакторах были проведены сходные эксперименты, в результате которых возникли новые частицы. Для анализа эксперименталь- экспериментальных данных были замерены энергии п = 631 частицы, полученной на первом реакторе, и т = 839 частиц, полученных на втором реакторе, и построены эмпирические функции распределения энергии частиц F*(x) и F%(x). Когда F*(x) и ^2*(ж) сравнили, оказалось, что sup \F*(x) — i?(x)l — 0,042. — оо<ж<оо Проверим с помощью критерия Смирнова уровня значимости (размера) а = 0,2 гипотезу Но о том, что на обоих реакторах возникали одни и те же частицы. Для этого вычислим значение статистики критерия Р = sup 631 -839 631+839 0,042 = 0,80 П-\-ТП -оо<ж<оо и сравним полученное значение р с 0,8-квантилью распределения Колмогорова ко,8 = 1,07 [1, с. 346]. Поскольку р < ко,8, то у нас есть основания считать гипотезу Но справедливой. ? Критерий Вилкоксона. Образуем из выборок Х\,... ,Хп и Y\,... ,Ym один общий вариационный ряд (табл.6) и отметим последовательные порядковые номера (ранги) п,Г2,... ,rm элементов выборки Y\,...,Ym в общем вариационном ряду (в табл.6 рангами г\,Г2,... ,гт будут 2,3,... ,п-\-т— 1). Таблица б 1 Si 2 3 Х2* 4 S4 5 6 «6 П + 771-1 Sn+ra-1 х* п + т Sn+m
248 Гл. 3. Проверка статистических гипотез Критерии, позволяющие только на основе рангов г\,...,гт прини- принимать или отвергать гипотезу Щ, называются ранговыми критериями. Их достоинством является чрезвычайная простота. Поскольку при условии справедливости гипотезы Щ все возможные комбинации рангов г\,...,гт равновероятны (всего таких комбинаций /п т и то уровень значимости (размер) рангового критерия не за- зависит от распределения F\(x) = F^x). Обычно в качестве статистики рангового критерия используют сум- МУ /(ri) + • • • + f(rm), гДе f(r) — некоторая функция, определенная для всех г = 1, 2,... ,п + т. Мы рассмотрим один тип ранговых критериев — критерий Вилкоксона. Пусть (s\, 52,..., sn+m) — одна из (п + га)! возможных перестано- перестановок чисел 1, 2,..., п + га (т. е. расположенные в произвольном порядке числа 1,2,... , п + га). Положим f(r) = sr (см. табл.6). Статистика критерия Вилкоксона задается формулой w = sri + ... + srm. Односторонний критерий Вилкоксона предписывает принять гипо- гипотезу Но, если w > С, и отвергнуть, если w ^ С, где С — критическое значение одностороннего критерия Вилкоксона. При использовании двустороннего критерия Вилкоксона мы долж- должны принять гипотезу Щ, если С\ < w < С^ (С\ < Су), и отвергнуть ее, если либо w > С2, либо w < C\. Нижнее С\ и верхнее С^ критические значения двустороннего критерия Вилкоксона связаны между собой соотношением С\ + С^ = N, где 7V = га(га + п + 1). Выбор перестановки (si,S2,... ,sn+m) осуществляется до опыта та- таким образом, чтобы по возможности наилучшим образом разделить выборки Х\,..., Хп и Y\,..., Ym при наименее благоприятном со- соотношении между теоретическими функциями F\(x) и i^(^) или, иными словами, чтобы при заданном соотношении между F\(x) и F^{x) мощность критерия была бы максимальна. Так, если к наиболее опас- опасным последствиям ведет отождествление наблюдаемых величин X и Y в случае, когда Y систематически меньше X (т.е. F\(x) < F^x) при всех х), то естественно положить sr = г и воспользоваться односторон- односторонним критерием Вилкоксона. Если же одинаково пагубными представля- представляются и случай X систематически меньше Y, и случай Y систематиче- систематически меньше X (т.е. одновременно для всех х либо F\(x) < F2(x), либо F2(x) < F\(x)), то опять-таки нужно взять sr = г, но использовать дву- двусторонний критерий Вилкоксона. Или еще пример: из каких-то сооб- соображений стало известно, что наблюдаемые величины X и Y в среднем приблизительно одинаковы (MX = МУ), и нужно проверить основную гипотезу Щ: разброс случайных величин X и Y одинаков против конкурирующей гипотезы Н\\ разброс Y больше разброса X. При выполнении гипотезы Н\ наблюдаемые значения величины Y (выборка Y\,... ,Ym) будут в основном сосредоточиваться в начале и в конце
6. Критерии однородности двух выборок 249 общего вариационного ряда и весьма разумным представляется выбор перестановки s\ = 1, sn+m = 2, sn+m_i = 3, s2 = 4, s3 = 5, 5n+m_2 = 6 и т.д. Если верна основная гипотеза Яо: Fi(#) = F2(x), то распределе- распределение статистики критерия Вилкоксона зависит лишь от объемов вы- выборок п и га и не зависит от конкретно используемой перестановки (si, 52,..., sn+m). Поэтому в соответствии с принципом классической вероятности уровень значимости (размер) а одностороннего критерия Вилкоксона для критического значения С определяется как число тех сочетаний (г\,... ,гт) из п + га элементов по га, для которых ^ гч s » (п + т\ г\ -\- ... -\- гт ^ С, отнесенного к общему числу сочетании ( 1. Поскольку обычно, наоборот, по уровню значимости а определяют критическое значение С, то именно такая таблица приведена в [1] (табл. 6.8). Уровень значимости двустороннего критерия Вилкоксона находится как удвоенный уровень значимости одностороннего критерия с С = С\. Для вычисления критических значений С\ и С2 двустороннего крите- критерия с уровнем значимости а мы должны по табл. 6.8 определить кри- критическое значение С одностороннего критерия с уровнем значимости а/2, а затем положить С\ = С и С2 = N — С\ (N = т(п + га + 1)). Наконец, если объем хотя бы одной из выборок Х\,... ,Хп или Y\,...,Ym велик, можно воспользоваться асимптотической нормаль- нормальностью статистики Вилкоксона w со средним N/2 и дисперсией гап(га + п + 1)/12; в этом случае при заданном уровне значимости а следует положить для одностороннего критерия ^ _ N тп(т-\-п-\- 1) 12 а для двустороннего N где </?а — а-квантиль стандартного нормального закона ([1], табл. 1.3). Пример 12. Для сравнительного анализа надежности крепежных бол- болтов, выпускаемых двумя заводами, были проверены на разрыв п = 24 изделия первого завода и т = 20 изделий второго. Силы натяжения (хЮ5 Н), при которых произошли разрывы изделий первого и второго заводов, приведены в табл.7 и 8. Таблица 7 хх 2,49 Хи 1,01 х2 2,81 Хи 2,60 х3 3,09 ххъ 4,60 хА 2,50 -^16 1,18 2,20 Хи 3,12 2,90 *18 3,58 2,89 -^19 4,48 Xs 2,17 1,26 х9 2,63 1,17 1,72 х22 1,71 2,45 Х23 3,75 Х12 3,31 х24 3,23
250 Гл. 3. Проверка статистических гипотез Таблица 8 3,37 Yii 2,12 Y2 3,08 У12 3,57 Y3 4,79 У13 1,60 YA 3,71 Уи 5,48 3,06 Vl5 5,76 3,86 Vie 4,43 3,77 У17 4,59 2,80 Yl8 4,11 Y9 3,70 У19 2,36 4,83 Y20 2,33 Проверим с помощью критерия Вилкоксона уровня значимости (размера) а = 0,01 гипотезу Щ о том, что надежность изделий обоих заводов одинакова. Для того чтобы воспользоваться критерием Вилкоксона, нужно сначала задать перестановку (s\,..., sn+m). Анализируя условия задачи, видим, что наименее благоприятным будет случай, когда надежность болтов, выпускаемых одним заводом, систематически меньше надежности аналогичных изделий другого завода, и, значит, в качестве перестановки (s\,..., su) естественно выбрать перестановку A, 2,... ,44), причем из-за отсутствия априорных предпосылок предпочесть изделия какого-либо завода мы должны воспользоваться двусто- двусторонним критерием Вилкоксона. Образуем теперь общий вариационный ряд выборок Х\,..., Х24 и Yi,..., У20 (табл. 9) и определим значение статистики w критерия Вилкоксона w = 5 + 8+ 11 + ... + 43 + 44 = 571. Так как мы используем двусторонний критерий Вилкоксона, то нижнее крити- критическое значение С\ при уровне значимости а = 0,01 совпадает с критическим значением С = 341 одностороннего критерия Вилкоксона, имеющего уровень Таблица 9 х13 1,01 1 Vl9 2,36 12 х2 3,08 23 Y7 3,77 34 х21 1,17 2 Хп 2,45 13 х3 3,09 24 Y6 3,86 35 х16 1,18 3 хх 2,49 14 Yn 3,12 25 Vie 4,11 36 -^20 1,26 4 х4 2,50 15 Х24 3,23 26 lie 4,43 37 Yl3 1,60 5 Хи 2,60 16 х12 3,31 27 -^19 4,48 38 х22 1,71 6 х9 2,63 17 Yi 3,37 28 У17 4,59 39 Х\о 1,72 7 ^8 2,80 18 хХ2 3,57 29 х15 4,60 40 Ун 2,12 8 х2 2,81 19 -^18 3,58 30 Y3 4,79 41 Х8 2,17 9 х7 2,89 20 YA 3,71 31 V10 4,83 42 х5 2,20 10 X, 2,90 21 -^23 3,75 32 Yu 5,48 43 F20 2,33 11 хъ 3,06 22 Y9 3,76 33 Vl5 5,76 44
6. Критерии однородности двух выборок 251 значимости 0,005 [1, с. 360], а верхнее критическое значение С% определяется формулой С2 = N - Сх = 20 B4 + 20 + 1) - 341 = 900 - 341 = 559. Сравнивая значение статистики w = 571 с критическими значениями С\ и Сг, видим, что w > С%. Таким образом, гипотезу Щ об одинаковой на- надежности крепежных болтов, выпускаемых обоими заводами, нужно признать не соответствующей результатам проверки, а для практических потребностей рекомендовать изделия второго завода как более надежные. ?
Глава 4 НЕКОТОРЫЕ ЗАДАЧИ, СВЯЗАННЫЕ С НОРМАЛЬНЫМИ ВЫБОРКАМИ Мы уже не раз указывали на ту важную роль, которую играет в теории вероятностей и ее приложениях нормальный закон. Естественным отражением этой роли в математической статистике является наличие специальных ме- методов, ориентированных на нормально распределенные выборки. Некоторые из этих методов и будут рассмотрены в настоящей главе. Однако сразу же условимся, что сюда не будут включены такие задачи, как оценка неизвестных параметров нормального закона и построение для них доверительных интерва- интервалов, проверка гипотез о параметрах нормального закона и т.п., поскольку они решаются общими методами, изложенными в предыдущих главах. 1. Общая характеристика задач Прежде чем приступить к описанию задач, рассматриваемых в дан- данной главе, заметим, что хотя всюду в этой главе и будет предпо- предполагаться нормальность всех выборок, предлагаемые методы с разной степенью обоснованности можно применить и к выборкам, отличаю- отличающимся от нормальных. В частности, полученные по методу наимень- наименьших квадратов оценки параметров линейной и регрессионной моделей, для нормального случая являющиеся эффективными, в случае про- произвольно распределенной выборки также будут иметь минимальные дисперсии, но в классе линейных (т. е. выражаемых линейно через элементы выборки) оценок. Однако применение t- и %2-распределений для построения доверительных интервалов и проверки гипотез в тех же моделях ведет к существенным ошибкам в выводах, причем при отклонениях теоретического распределения от нормального использо- использование t-распределения, как правило, приводит к меньшим ошибкам, чем использование х2-распределения. Здесь мы сталкиваемся с важной проблемой чувствительности (или, как сейчас модно говорить, роба- стости) статистических процедур к воздействиям определенного типа. Интерес к этой тематике усиливает еще и то, что в реальной жизни вряд ли можно встретить «100%-чистое» нормальное распределение. Саму проблему робастости мы здесь не рассматриваем, отсылая заин- заинтересованного читателя к специальной литературе. Материалы настоящей главы можно условно разбить на две части. В первой части (параграфы 2-4) рассматриваются некоторые специ- специальные критерии согласия (параграф 2), критерии равенства дисперсий нескольких выборок (параграф 3) и задачи, связанные с выборочным
2. Критерии согласия 253 коэффициентом корреляции (параграф 4). Изложенные здесь результа- результаты можно применять как вспомогательные при анализе моделей второй части, но они представляют и самостоятельный интерес. Вторая часть главы (параграфы 5-8) предназначена для первона- первоначального знакомства читателя с общей линейной моделью (иногда го- говорят «гипотезой», однако мы предпочитаем употреблять слово «гипо- «гипотеза» только в первоначальном смысле), регрессионной моделью и за- задачами дисперсионного анализа. По сути дела, эти три раздела столь близки между собой, что задачи, формулируемые в одном из них, легко переформулировать в терминах другого; кроме того, объединяющим их стержнем является метод наименьших квадратов. Собственно го- говоря, параграфы 5-7 дают тройной пересказ практически одинакового материала. Однако мы сознательно позволяем себе такую роскошь, поскольку, во-первых, читатель должен научиться ориентироваться в проблемах математической статистики и ему нужно дать хотя бы минимальные сведения о всех наиболее важных возможных подходах, а во-вторых, каждый подход обладает своей «изюминкой». В частности, общая линейная модель позволяет геометрически наглядно выяснить причину появления метода наименьших квадратов, регрессионная мо- модель обладает простым физическим смыслом, а дисперсионный анализ проясняет ту роль, которую играет правильная группировка состав- составляющих выборочной дисперсии при проверке гипотез об отсутствии действия различных факторов. Наконец, последний параграф главы дает некоторое представление о планировании эксперимента в диспер- дисперсионном анализе, т. е. о методах, позволяющих при минимальном числе наблюдений получить по возможности наиболее обоснованный ответ на вопрос о существовании воздействия факторов на рассматриваемое явление. В этой связи отметим важную роль, которую играет в пла- планировании эксперимента теория Галуа. Однако поскольку не предпо- предполагается знакомство читателя с этой теорией, мы ограничились здесь общей постановкой задачи и выписыванием простейших планов. Последнее замечание касается принятых в этой главе обозначений. Мы вернемся к использованным нами в курсе теории вероятностей обозначениям т и а1 параметров нормального закона, поскольку из постановки задачи всегда будет видно, значение какого из этих параметров известно, а какого — нет. 2. Критерии согласия Рассматриваемые в этом параграфе критерии согласия проверяют сложную основную гипотезу Щ: теоретическая функция распределе- распределения F(x) является нормальной (т. е. выборка Х\,..., Хп произведена из нормальной генеральной совокупности с неизвестными параметрами т и а2) против сложной альтернативной гипотезы Н\\ теоретическая функция распределения не является нормальной. Разумеется, приве- приведенные в гл. 3 критерии согласия (Колмогорова, uj1 и %2) применимы
254 Гл. 4. Некоторые задачи, связанные с нормальными выборками и в этом случае, однако на практике проверку на нормальность часто начинают с использования более простых, хотя, вообще говоря, менее мощных критериев, основанных (кроме критерия исключения резко выделяющихся наблюдений) на сравнении эмпирических и теоретиче- теоретических моментов выборки. Естественно, поскольку мы не интересуемся конкретными значениями среднего т и дисперсии а2, а они являются определяющими параметрами нормального закона, во всех предложен- предложенных ниже критериях будут использоваться их оценки: выборочное п у п / у *\2 среднее га* = ^ — и выборочная дисперсия s2* = ^ — —^—. г=\ г=\ Выборочный момент первого порядка (выборочное среднее) га* = га* для построения критерия согласия мы использовать не можем, поскольку он уже применен в качестве оценки среднего нормального закона (по аналогичной причине не используется выбо- выборочный второй момент), однако мы можем обратиться к выборочному абсолютному центральному моменту первого порядка. Рассмотрим статистику Нетрудно показать, что при условии справедливости гипотезы ifo распределение статистики /i* зависит только от объема выборки п и не зависит от параметров га и а2 нормального закона, а в силу закона больших чисел и состоятельности л/s2* как оценки среднего квадратичного отклонения сама статистика /i* при п —> оо сходится к первому абсолютному моменту /i стандартного нормального распре- распределения (равному примерно 0,8). Естественно, если значение статисти- статистики /i* сильно отличается от /i, следует отклонить гипотезу ifo. Значит, гипотеза ifo принимается, если С\ < /i* < С*}. При заданном уровне значимости (размере) а обычно для симметрии полагают С\ = fia/2 и Съ = /ii-a/2, где /ia — а-квантиль статистики /i* построенной по выборке объема п при условии справедливости гипотезы ifo. Значения lia для некоторых п и а можно найти в табл. 4.7а из [1]. Следующий критерий согласия основан на выборочном коэффици- коэффициенте асимметрии а*= J- Поскольку нормальный закон имеет симметричную относительно сред- среднего га плотность распределения, то при условии справедливости гипо- гипотезы ifo плотность распределения выборочного коэффициента асиммет- асимметрии симметрична относительно нуля, и, значит, естественно использо- использовать критерий, инвариантный относительно замены знака а* на про- противоположный. Кроме того, при условии справедливости гипотезы ifo распределение выборочного коэффициента асимметрии зависит только
2. Критерии согласия 255 от объема выборки пине зависит от т и а2. Сравнивая выборочный коэффициент асимметрии а* с нулем, получаем с учетом вышесказан- вышесказанного следующий критерий: принимаем гипотезу Щ, если —С < а* < С, где при уровне значимости (размере) а нужно положить С = а\_а/2, а аа — а-квантиль статистики а* при условии, что выборка объема п произведена из нормальной генеральной совокупности. Значения аа для некоторых п и а приведены в табл. 4.76 из [1]. Еще один критерий согласия проверяет близость выборочного экс- эксцесса к теоретическому эксцессу 7 — М(Х — MXL/(DXJ, равному 3 для нормального закона. По-прежнему, критерий уровня значимости а предписывает принять Щ, если 7а/2 < 7* < 7i-a/2> гДе 1а — а-кван- тиль статистики 7*» построенной по нормальной выборке объема п. Значения 7а для некоторых п и а содержатся в табл. 4.7в из [1]. Наконец, последний приводимый здесь критерий согласия осно- основан на минимальном и максимальном значениях элементов выборки (крайних членах вариационного ряда). Часто этот критерий называют критерием исключения резко выделяющихся наблюдений, поскольку он обычно применяется, когда в выборке наряду с элементами нормаль- нормальной генеральной совокупности присутствуют отдельные «засоряющие» элементы, не принадлежащие этой генеральной совокупности, и их необходимо исключить по результатам анализа выборки. Критерий ос- основан на том, что плотность нормального распределения весьма быстро стремится к нулю при удалении от среднего. Следовательно, наличие очень больших или очень маленьких значений наблюдений в выборке говорит о том, что эта выборка не может принадлежать нормальной генеральной совокупности. Статистика критерия имеет вид max \Xi — га* I. Гипотеза Щ принимается с уровнем значимости а, если х* < х\-а, где ха — а-квантиль статистики х* при условии нормальности выборки; значения ха для некоторых п и а приведены в табл. 4.8в из [1]. Пример 1. В примерах 7, 8 и 10 гл. 3 мы уже проверяли гипотезу Щ о нормальности проекции X вектора скорости молекулы водорода (выборка Х\,..., Х5о приведена в табл. 2 гл. 1). Вновь вернемся к этой гипотезе и прове- проверим ее при уровне значимости а = 0,02 с помощью описанных выше критериев. Вычисления дают следующие значения соответствующих статистик (значе- (значения ш* и s2* найдены в примере 8 гл. 1): /л* = 0,79, а* = 0,57, 7* — 3,14, ж* = 2,90. Сравнивая эти значения с критическими значениями /xo,oi = 0,7291, д099 = 0,8648, <2о,99 = 0,787 ([1, с. 258]; значения /xo,oi и /хо,99 взяты для объема выборки п = 51 как ближайшего к 50), 70,01 = 1,95, 70,99 = 4,92 (там же, с. 259), жо,98 — 3,370 (там же, с. 262), убеждаемся, что и проверка по этим четырем критериям подтверждает гипотезу Щ. ?
256 Гл. 4. Некоторые задачи, связанные с нормальными выборками Предостережение. Итак, гипотезу о нормальности проекции вектора ско- скорости молекулы водорода мы проверили с помощью семи (!) критериев. Соб- Собственно говоря, мы действовали как сверхосторожный исследователь, придер- придерживающийся принципа «семь раз отмерь, один раз отрежь». Такой исследо- исследователь, испытав все известные ему критерии (допустим для определенности, что их к), принимает основную гипотезу Щ только тогда, когда все они дают положительный результат, или, по сути дела, использует некий «обобщенный» критерий. Предполагая, что уровни значимости отдельных критериев равны а\,...,ак, вычислим уровень значимости а «обобщенного» критерия. Если статистики отдельных критериев независимы, то по формуле умножения веро- вероятностей a=l-(l-ai)---(l-afc). В том случае, когда статистики зависимы, общий уровень значимости может достигать даже величины а\ + ... + а&. Это нужно учитывать при использо- использовании «обобщенного» критерия и задавать для каждого отдельного критерия уровень значимости, меньший, чем при использовании только одного критерия. Разумеется, это предостережение относится не только к критериям проверки выборки на нормальность, но и к критериям, проверяющим любую статистиче- статистическую гипотезу. У читателя, ознакомившегося с материалами настоящего параграфа, может возникнуть естественное желание использовать подобного вида критерии согласия, основанные на простейших статистиках типа вы- выборочных моментов, для проверки гипотез о принадлежности теорети- теоретической функции распределения другим параметрическим семействам, например, семейству гамма-распределений. Следует сразу же преду- предупредить читателя о возможных трудностях, которые могут встретиться на этом пути. Во-первых, для большинства семейств распределения простейших статистик зависят от истинных значений неизвестных параметров, что делает невозможным построение универсальных для всего семейства критических областей. Во-вторых, хотя мы и говорим о «простейших» статистиках, нахождение их распределений представ- представляет собой, как правило, весьма сложную в вычислительном плане задачу. Наконец, для физического обоснования принадлежности тео- теоретического распределения определенному семейству исследователю обычно приходится затратить такие усилия, что экономия на стати- статистической проверке правильности выбранной модели и использование маломощных критериев просто бессмысленны. 3. Критерии равенства дисперсий В моделях, исследуемых в дальнейшем в этой главе, предполага- предполагается, что имеется несколько нормальных выборок с возможно раз- различными средними, но одинаковыми дисперсиями. Естественно, факт равенства дисперсий необходимо обосновать. Для этой цели обычно используют критерии Бартлетта, Кокрена и Фишера.
3. Критерии равенства дисперсий 257 Итак, пусть имеется т независимых выборок Х\\,... ,Х\П1, ^тЬ • • • > -^mrim объемов п\,...,пт, произведенных из различных нормальных гене- генеральных совокупностей с неизвестными средними mi,..., тт и также неизвестными дисперсиями <т2,... , <7^. Основная гипотеза Щ состо- состоит в том, что дисперсии во всех генеральных совокупностях равны: а\ = ... = <т^; естественно, конкурирующая гипотеза Н\\ некоторые дисперсии могут быть различными. Статистика критерия Бартлетта задается выражением где ы — S^(r)- — \\ я2* — — г=1 i i=\ ""' г=1 (смысл введения статистики 6 заключается в том, что она позволяет привести задачу проверки гипотезы о равенстве дисперсий нормальных выборок к задаче проверки гипотезы о равенстве средних приближенно нормальных выборок; для строго нормальных выборок эта задача будет решена в параграфе 7). Если гипотеза Щ верна и все щ ^ 6, то отно- отношение распределено приближенно по закону %2 с т — 1 степенями свобо- свободы. Поэтому критерий Бартлетта, имеющий уровень значимости (раз- (размер), примерно равный а, предписывает принять гипотезу Щ, если 8 < Xi-ск' и отклонить в противном случае. Здесь, как обычно, через Х^ обозначена а-квантиль х2-распределения с т — 1 степенями свобо- свободы (см. [1, табл. 2.2а]). Уточнение критерия Бартлетта на случай, когда хотя бы одно из щ может быть меньше 6, можно найти в [1]. Там же содержатся таблицы (табл. 4.3), необходимые для использования уточненного критерия. Если все выборки имеют одинаковый объем (щ = ... = пт = п), то для проверки гипотезы Щ против гипотезы Н\ можно воспользоваться, вообще говоря, менее мощным, но зато более простым критерием Кокрена. Статистика критерия Кокрена задается формулой s2* G = —^—^^—^ , 9 П. П. Бочаров, А. В. Печинкин
258 Гл. 4. Некоторые задачи, связанные с нормальными выборками где 5^ах = max s2*. Критерий Кокрена предписывает принять Щ с уровнем значимости а, если G < Ga, где Ga — а-квантиль распре- распределения статистики G при условии справедливости основной гипоте- гипотезы Щ; приближенные значения Ga для некоторых а, т и v = п — 1 приведены в [1, табл. 4.36]. Наконец, если т = 2 (щ и щ могут быть различными), то для проверки гипотезы Щ о равенстве дисперсий двух выборок лучше всего использовать критерий Фишера. Статистика критерия Фишера определяется формулой = 4* ^ 2* ' О2* где sf* и sz2* ~ выборочные дисперсии первой и второй выборок. Поскольку при условии справедливости Щ статистики (п\ — \)s\* и (п2 — 1)<§2* с точностью до одного и того же сомножителя g\ = сг| = = <т2 имеют %2-распределения с ni — 1 и щ — 1 степенями свободы, то статистика к имеет F-распределение с параметрами п^ — 1 и ni — 1. Односторонний критерий Фишера проверяет основную гипотезу Щ: о\ = а\ против конкурирующей гипотезы Н\\ о\ < а\\ критическая область одностороннего критерия Фишера при уровне значимости а задается неравенством к > (р\-а. Двусторонний критерий Фишера проверяет основную гипотезу Щ: а\ = а\ против конкурирующей гипотезы Н\\ а\ ф а\\ его допустимая область определяется двумя неравенствами: ipa/2 < я < tp\-a/2- Здесь (ра — а-квантиль F-распределения с параметрами щ — 1 и щ — 1. Можно показать, что односторонний критерий Фишера является равно- равномерно наиболее мощным несмещенным критерием. Двусторонний критерий Фишера также будет обладать этим свойством, если критическую область выбирать в виде С\ < к < С%, где С\ и С% — определяемые специальным образом постоянные (см. [12]). Правда, сложность подбора постоянных С\ и С% обычно не оправдывает незначительного увеличения мощности критерия от замены (fa/2 и ipi-a/2 на С\ и С^- Заметим также, что с помощью распределения Фишера нетрудно опре- определить и мощности одностороннего и двустороннего критериев Фишера; эти мощности зависят только от отношения дисперсий g\ и g\. В дальнейшем (параграфы 5-8) односторонний критерий Фишера станет нашим основным рабочим инструментом, хотя использоваться он будет для проверки несколько иных гипотез. Пример 2. Прибор, измеряющий скорость элементарной частицы, был опробован на пучке летящих с одинаковой (но неизвестной) скоростью элек- электронов и на пучке летящих с одинаковой (но также неизвестной) скоростью протонов. Результаты измерения скорости 11 электронов Xij,..., Х^п и 11 протонов Х2д,... ,Х2,ц (х107м/с) приведены в табл.1 и 2. Проверим при уровне значимости a = 0,05 гипотезу Щ о том, что абсолютные точности измерения скоростей как электрона, так и протона совпадают. Естественно, мы предполагаем, что ошибки измерения скоростей как электронов, так и протонов
3. Критерии равенства дисперсий 259 независимы, распределены по нормальному закону с нулевым средним, но, вообще говоря, разными дисперсиями о\ и о\. Гипотеза Щ как раз и состоит в том, что эти дисперсии совпадают: о\ = <j\. ? Таблица 1 Ххл 7,554 Xh2 7,550 Таблица 0,820 Х22 0,802 *1,3 7,557 2 Х>а 0,821 *1,4 7,601 Хо4 0,805 *1,5 7,595 0,843 Х\$ 7,587 Хо, 0,818 Xij 7,591 0,842 ^1,8 7,592 Х2 8 0,830 ^1,9 7,599 Х<2 9 0,786 ^1,10 7,570 ^2,10 0,828 7,609 -^2,11 0,799 Воспользуемся сначала критерием Бартлетта. Вычислим выборочные дис- дисперсии s\* и sf>* гщ = ^ G,554 + ... + 8,609) = 7,582, ml = — @,820 + ... + 0,799) = 0,818, sf = ^ [G,554 - 7,582J + ... + G,609 - 7,582J] = 0,000433, 4* = — [@,820 -0,818J + ... + @,799 -0,818J] =0,000327 и значения статистик Ь и В Ъ = 20In (^ A0 • 0,000433 + 10 • 0,000 327)) - - A0 In 0,000 433+ 10 In 0,000 327) = 10 In 1,01984 = 0,196, Сравнивая значение статистики В = 0,187 со значением хо,95 — 3,841 0,95-квантили х2-распределения с одной степенью свободы [1, с. 167], делаем вывод, что гипотеза Но должна быть принята. Применим для этой же цели критерий Кокрена (это можно сделать, по- поскольку объемы выборок одинаковы). Значение статистики критерия Кокрена G = = 0,570. 0,000433 + 0,000 327 Сравнение статистики G с 0,95-квантилью распределения статистики Кокрена Со,95 = 0,7880 ([1], с. 243) показывает, что критерий Кокрена также предпи- предписывает принять гипотезу Щ. Наконец, мы имеем дело с двумя выборками и, значит, можем исполь- использовать критерий Фишера, причем, поскольку не известно заранее, какая из дисперсий сг2 или а\ больше, то мы должны проверять двустороннюю конку- конкурирующую гипотезу Н\\ о\ ф о\. Вычислив значение статистики _ 0,000433 _ К~ 0,000 327 ~ '
260 Гл. 4. Некоторые задачи, связанные с нормальными выборками и сравнив его с 0,025- и 0,975-квантилями распределения Фишера с пара- параметрами A0,10) <?о,О25 = 0,2690 и <?о,975 = 3,7168 ([1], с. 207), мы опять-таки приходим к необходимости принять гипотезу Щ. Интересно отметить, что в данном случае (две выборки одинакового объ- объема) все три критерия (Бартлетта, Кокрена и Фишера) совпадают и нам достаточно было воспользоваться только одним из них. 4. Выборочная корреляция В этом параграфе мы обратимся к постановке задачи, несколь- несколько отличной от рассматривавшихся ранее. Будем считать, что вы- выборка Xi,...,Xn является двумерной, причем элементы выборки Х^ = (Xi\,Xi2) представляют собой двумерные случайные величины, имеющие совместное нормальное распределение со средними т\ и Ш2, дисперсиями а\ и а\ и коэффициентом корреляции р. Как известно из курса теории вероятностей, коэффициент корреляции изменяется в пределах от —1 до +1, причем в случае нормального распределения равенство коэффициента корреляции нулю эквивалентно независимо- независимости компонент выборки Хц и Х^. Довольно часто встречаются задачи, в которых необходимо либо проверить гипотезу о независимости компонент Хщ и Х@) наблю- наблюдаемого вектора X (т.е. равенстве нулю коэффициента корреляции), либо найти оценку и построить доверительный интервал для коэффи- коэффициента корреляции. Именно эти задачи мы рассмотрим в настоящем параграфе. Отметим, что корреляционный статистический анализ, о ко- котором пойдет сейчас речь, обычно предшествует рассмотрению задач регрессионного и дисперсионного анализа (см. далее), а иногда даже полностью заменяет регрессионный анализ. Очевидно, что наиболее естественной оценкой коэффициента корреляции р является выбороч- выборочный коэффициент корреляции р* = где - т*J J2(Xj2 - т*J г=1 г=1 Можно показать, что распределение статистики р* зависит только от объема выборки п и коэффициента корреляции р и не зависит от остальных параметров нормального вектора Х = (Х^,Х^)), а сама статистика р* является состоятельной асимптотически эффективной (в смысле теоремы 7 из гл. 2) оценкой коэффициента корреляции р.
4. Выборочная корреляция 261 Разумным представляется и критерий проверки гипотезы Щ: р = 0 о независимости Хщ и Х^) против гипотезы Н\\ р ^ О {компоненты Х^ и Х^) зависимы), предписывающий принять гипо- гипотезу Но в том случае, когда ра/2 < р* < Р\-а/2- Здесь ра — а-кван- тиль выборочного коэффициента корреляции при условии справедли- справедливости гипотезы Щ (р = 0); в силу симметрии имеет место тождество Ра — —pi-a- Значения а-квантилей выборочного коэффициента корре- корреляции приведены в табл. 4.5а из [1]. Можно показать [12], что приведенный критерий является равномерно наиболее мощным несмещенным критерием. Пример 3. В табл. 3 приведены значения роста (см) X\t\,...,Х5од и веса (кг) Х\?, • •• ,^50,2 50 выбранных случайным образом мужчин. Считая, что рост и вес мужчины подчинен двумерному нормальному закону и используя выборочный коэффициент корреляции, проверим гипотезу Щ о независимости роста и веса. Уровень значимости (размер) критерия a = 0,05. ? Таблица 3 г Хц г Хп хг2 г Xtl хг2 г Хп хг2 г Хг1 хг2 1 168,1 77,24 11 171,1 68,41 21 173,8 81,85 31 171,8 72,00 41 165,8 69,80 2 159,1 64,48 12 170,6 69,92 22 175,5 71,01 32 171,7 73,03 42 175,7 71,46 3 171,3 77,93 13 153,9 58,18 23 179,8 76,69 33 169,2 73,98 43 176,0 82,41 4 179,6 72,51 14 175,3 79,16 24 167,8 68,97 34 166,2 73,70 44 170,5 77,08 5 166,9 72,08 15 170,6 73,34 25 163,7 65,41 35 161,7 69,90 45 163,0 63,77 6 162,9 70,02 16 173,8 71,66 26 177,4 75,28 36 162,7 72,33 46 170,4 66,78 7 182,8 79,91 17 181,4 84,04 27 176,4 83,33 37 167,7 78,63 47 172,1 88,15 8 166,3 67,22 18 174,2 77,41 28 178,1 75,73 38 170,5 83,05 48 181,0 73,60 9 174,4 68,42 19 170,4 73,36 29 170,2 70,43 39 171,7 80,46 49 180,2 77,54 10 177,8 76,20 20 163,0 72,94 30 179,2 73,01 40 184,5 82,73 50 157,4 56,84 Вычислим значение выборочного коэффициента корреляции р*: т* = -!-A68,1 + ... + 157,4) = 171,3,
262 Гл. 4. Некоторые задачи, связанные с нормальными выборками ml = — G7,24 + ... + 56,84) = 73,66, 59 50 ,! - m\f = A68,1 - 171,3J + ... + A57,4 - 171,3J = 2266,5, г=1 50 ]Г(Х;2 - mlJ = G7,24 - 73,66J + ... + E6,84 - 73,66J = 1991,0, г=1 50 ^2(Хц -m*)(Xi2-mZ) = 1391,2, р* =0,655. г=1 Сравнивая р* с 0,975-квантилью выборочного коэффициента корреляции Ро,975 = 0,273 [1, с. 248], видим, что гипотеза Щ о независимости роста и веса должна быть отвергнута. Что касается построения доверительных интервалов для коэффи- циета корреляции р, то Р. Фишер предложил преобразование " 2 ш 1 - р- ' которое при п ^ 20 приводит к статистике z с близким к нормальному распределением. При этом М^ - 1 1„ 1 + Р I Р 2(п-3) 6(п-3J Таким образом, величина (z — Mz)/VDz распределена практически по стандартному нормальному закону и при построении доверительного интервала для коэффициента корреляции можно воспользоваться стан- стандартным методом, изложенным в параграфе 6 гл. 2. Значения самого преобразования Фишера содержатся в табл. 4.56 из [1]. Кроме того, в табл.4.5в [1] приведены графики квантилей выборочного коэффици- коэффициента корреляции р* в зависимости от р и п. Эти графики позволяют определить доверительные границы для коэффициента корреляции без всяких вычислений. Пример 4. В условиях предыдущего примера определим границы двусто- двустороннего симметричного доверительного интервала доверительной вероятности а = 0,95 для коэффициента корреляции роста и веса мужчины. Как мы вычислили ранее, значение выборочного коэффициента корреляции р* = 0,655. Воспользуемся графиком, приведенным в [1, с. 250]. Проводя вертикаль через точку р* = 0,655 и вычисляя ординаты ее пересечения с кривыми для п = 50, получаем р = 0,45, р" = 0,79. ?
5. Общая линейная модель, метод наименьших квадратов 263 5. Общая линейная модель, метод наименьших квадратов Пусть имеется последовательность наблюдений Х\,...,Хп, однако в отличие от ранее использовавшегося понятия выборки будем пола- полагать, что хотя наблюдения Х\,...,Хп независимы, они не обладают свойством одинаковой распределенности. А именно, Х{ распределены нормально с одинаковой (неизвестной) дисперсией а2, но с различными (неизвестными) средними. Вектор средних (т\,... ,тп) будем обо- обозначать через т. Общая линейная модель заключается в априорном предположении, что вектор m лежит в некотором линейном подпро- подпространстве L размерности / < п пространства Rn. Именно относительно вектора m мы будем делать наши статистические выводы. Следует отметить, что использование общей линейной модели поз- позволяет в случаях, когда имеется нормальность или даже асимптоти- асимптотическая нормальность определенных характеристик, получить многие результаты предыдущих глав [12]. Однако цель этого параграфа гораз- гораздо скромнее: выяснить, какое место в исследовании линейной модели занимает метод наименьших квадратов. Как и раньше, статистические задачи, возникающие при анализе общей линейной модели, можно отнести к двум типам: оценка неиз- неизвестных параметров и проверка статистических гипотез. Задачу оценки неизвестных параметров можно поставить сле- следующим образом. Из курса линейной алгебры известно, что любой вектор m из линейного подпространства L можно представить в виде линейной комбинации / m = ]Г i^d» г=1 линейно независимых (базисных) векторов di,...,d/. Необходимо по наблюдениям Х\,... ,Хп оценить коэффициенты ^ разложения век- вектора m по базисным векторам d^ и построить для ^ доверительные интервалы. Пример 5. Пусть зависимость некоторой переменной х от времени опи- описывается линейной функцией х = x(t) = $\ -\- #2^, причем параметры #i и $2 неизвестны. Для их определения в моменты t\,...,tn производятся наблюде- наблюдения, однако в силу случайных ошибок вместо x{U) результатами наблюдений являются величины Xi =x(U)+?i, где ошибки Si независимы и распределены по нормальному закону с нуле- нулевым средним и неизвестной дисперсией а (здесь мы имеем дело с простой линейной регрессией; общее понятие регрессии будет введено в следующем параграфе). Требуется найти оценки #* и Щ неизвестных параметров Ь\ и #2 и построить для #i и $2 доверительные интервалы.
264 Гл. 4. Некоторые задачи, связанные с нормальными выборками Опишем поставленную задачу в терминах общей линейной модели. Для этого заметим, что m = Ц,... ,тп) представляет собой вектор средних значений m наблюдений Xiy т.е. в силу сделанных предположений ГГЦ = МХг = x(U) = #1 + -&2U- Но тогда, полагая получаем, что все допустимые значения вектора m описываются векторами #idi +^d2, т.е. представляют собой двумерное линейное подпространство L, натянутое на векторы di и d2. Итак, мы привели рассматриваемую задачу к задаче оценки неизвестных параметров в линейной модели. ? Задача проверки статистических гипотез предполагает, что в ли- линейном подпространстве L содержится некоторое линейное подпро- подпространство I/, имеющее размерность V < I. Проверяемая гипотеза Щ заключается в том, что вектор m лежит не только в подпространстве L, но и в подпространстве I/. Пример 6. Для проверки гипотезы Щ о том, что результат неко- некоторого эксперимента не зависит от определенного фактора, была проведе- проведена серия из п = п\ + 7i2 наблюдений, причем сам фактор действовал толь- только в последних п^ наблюдениях. Считается, что результаты наблюдений Х\,... ,Хщ,Хп1+\,... ,Хп представляют собой независимые случайные вели- величины, распределенные по нормальному закону с одинаковой (неизвестной) дисперсией о1 и (неизвестными) средними т' при отсутствии и т" при наличии действия фактора. Таким образом, MXi = ... = МХП1 =т\ МХщ+1 = ... = МХп = т", и гипотеза Щ состоит в равенстве средних т' и т" (это так называемая одно- факторная двухуровневая модель дисперсионного анализа; общее определение многофакторной многоуровневой модели будет дано в параграфе 7). В терминах общей линейной модели вектор m = (mi,... ,тп) = (т ,..., т ,т ,...,т ) априори лежит в двумерном подпространстве L, порожденном векторами di = A,..., 1,0,..., 0) и d2 = @,..., 0, 1,..., 1), а проверяемая гипотеза Щ состоит в том, что m лежит также в одномерном подпространстве L', порож- порожденном вектором d; = (l,...,l). ? Начнем с задачи проверки статистических гипотез. Выберем в пространстве Rn новый ортонормированный базис е[,...,е^, такой, что первые V базисных векторов е/,..., е/, порождают подпространство I/, следующие / — V векторов е/,+1,... ,е/ дополняют подпространство V до L и, наконец, оставшиеся п — 1 векторов е/+1,... ,е^ допол- дополняют L до Rn. Линейное преобразование, переводящее стандартный базис ei = A,0,... ,0), ... ,еп = @,... ,0, 1) в базис е[,... ,е^, является ортогональным. Поэтому вектор Xх = (Х[,... ,Х/Г1), представляющий собой вектор Х= (Х\,... ,Хп), записанный в новом базисе е[, ...,е^, будет также состоять из независимых координат Х[,... ,Х'п, распреде- распределенных по нормальному закону с одинаковой дисперсией а2 и вектором средних mx = (m[,... ,rnfn). Однако в силу априорного предположения
5. Общая линейная модель, метод наименьших квадратов 265 о принадлежности вектора m подпространству L справедливо соотно- соотношение m'l+x = ... = т'п = 0, а проверяемая гипотеза Щ о принадлежно- принадлежности V заключается в том, что равны нулю также координаты вектора mx с номерами V -\- 1,...,/, т. е. т^,+1 = ... = т[ = 0. Определим теперь статистики л п л I 2* е2* — ST (Y'\2 е2* — ST (Y'\2 is — Sl Статистики 5q* и s\* являются независимыми, и, как говорилось в па- параграфе 4 гл. 1, случайная величина (n — 1)sq*/а2 имеет %2-распреде- ление сп — / степенями свободы. Кроме того, если справедлива основная гипотеза Щ, то величина s\*2 2 (/ — l')s\*/а2 также распределена по закону %2 с / — V степенями свобо- свобо2 ды; статистики Sq* и s2* представляют в этом случае две независимые несмещенные оценки неизвестной дисперсии а2. Однако если справедлива конкурирующая гипотеза Н\, то несме- несмещенной оценкой а2 будет только статистика Sq*, а статистика s2* будет систематически больше а2 (ее распределение представляет собой так называемое нецентральное х2-распределение), т.е. иметь положитель- положительное смещение 5 = Ms2* — а2, тем большее, чем больше отклонение вектора m от линейного подпространства V. Поэтому для проверки ги- гипотезы Но естественно применить односторонний критерий Фишера, предписывающий принять Щ, если к < С, и отвергнуть в противном случае. При заданном уровне значимости критерия а критическое значение С совпадает с A — а)-квантилью ip\-a F-распределения с па- параметрами / — V и п — I [1, табл. 3.5]. Построенный критерий является равномерно наиболее мощным инвариант- инвариантным для проверки гипотез Щ и Н\. Заметим, что нецентральное F-распределение [1, табл. 4.12] можно исполь- использовать для вычисления мощности построенного критерия; это же замечание справедливо для всех решаемых далее задач настоящей главы, в которых применяется критерий Фишера. Однако предложенный подход обладает существенным недостатком. Обычно линейные подпространства L и V задаются неортонормиро- ванными системами базисных векторов. Поэтому, чтобы применить по- полученный критерий, необходимо сначала выбрать ортонормированный базис и произвести линейное преобразование вектора наблюдений X, что, как правило, представляет собой весьма трудоемкую в вычисли- вычислительном плане задачу. И здесь на помощь приходит метод наименьших квадратов, позволяющий при определении Sq* и 5i* заменить задачу нахождения линейного преобразования существенно более простой за- задачей поиска минимума квадратичного функционала. Для теоретического обоснования метода наименьших квадра- квадратов полезна простейшая геометрическая интерпретация статистики (п — /Mо* как кваДРата расстояния от точки (Х\,... ,ХП) до подпро-
266 Гл. 4. Некоторые задачи, связанные с нормальными выборками странства L, а статистики (/ — l')s2* — как квадрата проекции векто- вектора X на ортогональное дополнение V до L. Сам метод наименьших квадратов заключается в следующем. Пусть (т\,... ,тп) — произвольная точка в Rn. Рассмотрим квад- п рат расстояния S2 = ^2(Xi — rriiJ от точки (Х\,... ,Хп) до точки г=1 (mi,... ,тп) и найдем минимальное значение S2 для всех (т\,... ,шп), принадлежащих подпространству L, которое и будет совпадать с квад- квадратом расстояния от точки (Х\,... ,Хп) до подпространства L, т.е. s20* = —!— min S2. Tl — I (mi,...,mn)EL Аналогично, статистика S22 = min / S2 представляет собой квадрат расстояния от точки {Х\,... ,Хп) до под- подпространства I/, а значит, 2* _ Si - (п- l)sp* Теперь для применения критерия Фишера, проверяющего гипотезу Щ, осталось составить отношение "=€ so и сравнить его с критическим значением С = <р\-а. Как уже говорилось, при практической реализации критерия под- подпространства L и V задаются системой базисных векторов di = (б?ц, ..., 6?in),..., d/ = (d/i, . ..,din) и d[ = (dii,..., d[n),..., d// = (d//i,..., d[ln). Тогда задача нахождения 5q* сводится к задаче нахождения миниму- минимума квадратичного функционала: п (п — 1)sq* = min ^2(Xi — $\d\i — ... — $iduJ = min S2(rd\,... ,$i). Значение Sq* достигается при подстановке в S2(rd\,... ,$i) коэффициен- коэффициентов #*, ...,#*, определяемых из системы линейных уравнений, которые получаются дифференцированием S2($i,... ,$i) no $1 и приравнивани- приравниванием производных нулю:
5. Общая линейная модель, метод наименьших квадратов 267 Аналогично вычисляется значение статистики Sf. Для этого сначала решается система A), в которой вместо #* и dij подставлены д'* и d[j, а затем полагается S| = S2($'*,..., #/*). Пример 7. Обратимся к решению поставленной в примере б задачи. Как мы уже говорили, подпространство L задается двумя базисными век- векторами: di = A,..., 1,0,... ,0), d2 = @,... ,0, 1,..., 1). Система уравнений A) в данном случае имеет вид т-дХ = ]Г Xjy tit = — jr Xj = m'\ п2Г2= ± Х3, Г2 = ±- ± Х3=т"\ 3=Щ+1 2 з=щ+1 Поэтому ^ = ^Гп52№,^) = ^[Е№-т'*J+ ± ( Lj = l j=rn + l Аналогично, подпространство V порождается вектором d' = (i,...,i), а система A) состоит из единственного уравнения (гы + п2)-д'С = it Хз> ^i* = - Е Xi = m*' j=i П j=i Отсюда п q2 ( г о2 • о2 / а/ \ \~^ / лг *\2 2* *^9 ~~ ^ ~~ ^ S2 = mmS (^) = 22(Xj - т ) , sx = Простейшие подсчеты показывают, что статистику s\* можно записать также в виде: S\* = П\(т* — 771*) + П2(т/* — 771*) . Сам критерий уровня значимости а заключается в следующем: мы должны принять гипотезу Щ, если ж = Si*/s2* < <?i-a, где ipa — а-квантиль i^-pac- пределения с параметрами 1 и п — 2 [1, табл. 3.5], и отвергнуть в противном случае. ? Перейдем к задаче оценки неизвестных параметров. Напомним ее постановку. Пусть вектор m представим в виде суммы m = ? #«!<, г=1 где сЦ — известные базисные векторы подпространства L, а ^ — неизвестные параметры. Задача заключается в оценке ^ и построении для них доверительных интервалов. И эта задача решается наиболее просто в случае, когда d^ представ- представляют собой ортонормированную (или хотя бы ортогональную) систему
268 Гл. 4. Некоторые задачи, связанные с нормальными выборками векторов. Действительно, выбирая новый ортонормированный базис и вводя в рассмотрение новый вектор Xх = (Х[,...,Х^), состоящий из координат вектора X в новом базисе е|,... ,e^, получаем, что величины Х[ являются независимыми и нормально распределенными с неизвестной одинаковой дисперсией а2 и средними Как известно (см. пример 25 в гл. 2), эффективные оценки #* парамет- параметров ^ задаются простейшей формулой $* = Х{. Однако для построения доверительных интервалов для ^ необходимо знать дисперсию а2 нормального закона или хотя бы ее оценку. Но такая оценка Sq*, не зависящая от #*,...,#* и с точностью до множителя (п — 1)/а2 рас- распределенная по закону х2 с п — I степенями свободы, легко находится из рассмотрения координат Х'1+х,..., Х'п\ 1 п я2* - ST (Х'\2 Таким образом, величина имеет t-распределение с п — I степенями свободы, а симметричный доверительный интервал доверительной вероятности а для ^ задается (см. пример 30 в гл. 2) границами: где ta — а-квантиль t-распределения с п — I степенями свободы. Как и при проверке статистических гипотез, трудности возникают тогда, когда векторы di,...,d/ не являются ортогональными, и эти трудности также легко обходятся с помощью метода наименьших квад- квадратов. По-прежнему, рассмотрим квадратичный функционал г=1 зависящий от некоторых (абстрактных) аргументов $i,...,?V Оценки #*,...,#* до методу наименьших квадратов параметров #i ,...,#/ получаются как значения аргументов i?i,... ,i?/, доставляющих мини- минимум квадратичному функционалу ?2($ь ..., #/), т.е. определяются из системы линейных уравнений A). Перечислим основные свойства оценок, полученных по методу наименьших квадратов.
5. Общая линейная модель, метод наименьших квадратов 269 1. Оценки #* являются линейными, т.е. выражаются в виде линей- линейной комбинации от наблюдений Х\,... ,Хп, и нормально распределенными как линей- линейные комбинации нормально распределенных наблюдений Х\,... ,Хп. 2. Оценки д* являются эффективными, в частности, несмещенными и имеющими минимальную дисперсию среди всех возможных оценок. Свойство 2 показывает, что оценки #* могут быть получены мето- методом максимального правдоподобия, что нетрудно выявить и прямыми вычислениями; впрочем, это мы фактически и делали в случае орто- нормированных векторов di,...,d/. Следует отметить также, что если векторы di,..., d/ неортогональ- неортогональны, то оценки #*,..., Щ зависимы. Одномерные доверительные интервалы для неизвестных парамет- параметров #i, ...,#/ строятся следующим образом. Как было показано, стати- статистика представляет собой несмещенную оценку неизвестной дисперсии а2, не зависящую от #*, ...,#* и с точностью до множителя (п — 1)/о~2 имею- имеющую %2-распределение с п — I степенями свободы. Далее, поскольку то дисперсия оценки #* задается формулой с% = a'cf- B) Значит, величина имеет t-распределение с п — I степенями свободы, а границы симмет- симметричного доверительного интервала доверительной вероятности а для ^ имеют вид ^ Q^ C) где, как обычно, ?а — а-квантиль t-распределения с п — I степенями свободы.
270 Гл. 4. Некоторые задачи, связанные с нормальными выборками Пример 8. Решим сформулированную в примере 5 задачу. Найдем сна- сначала оценки $* и #2 неизвестных параметров #i hi?2- Система уравнений A) принимает в данном случае вид 3=1 3=1 откуда где для краткости введены обозначения: п п п Е f2k - fj Etfc nt^ ~ Etfc fc=l k=\ k=\ *-E» Отметим, что вычисления оценок #* и $% существенно упрощаются, если п в качестве начала отсчета выбрано время to = Е ^з /п- Приступим теперь к построению доверительных интервалов доверительной вероятности а для неизвестных параметров fix и #2- Статистика Sq* (назы- (называемая также остаточной дисперсией) с точностью до множителя (п — 2)/сг2 имеет х2-распределение с п — 2 степенями свободы и задается формулой Значения коэффициентов с^ и Сз определяются из общей формулы B): а нижняя и верхняя границы симметричного доверительного интервала дове- доверительной вероятности а для параметра ^ задаются формулой C), в которой ta — а-квантиль распределения Стьюдента с п — 2 степенями свободы. ? Несомненным достоинством метода наименьших квадратов являет- является то, что он применим для оценки неизвестных параметров и в том случае, когда наблюдения Х\,...,Хп распределены не обязательно по нормальному закону. Более того, наблюдения Х\,...,Хп могут быть разнораспределенными и даже зависимыми. Необходимо только, что- чтобы Xi имели одинаковую дисперсию а2 и были некоррелированны- некоррелированными. Естественно, процедура построения оценок остается неизменной. Свойства 1 и 2 оценок #*,..., #*, полученных по методу наименьших квадратов, заменяются в этом случае на следующие: Iх. Оценки #* являются линейными. 2х. Оценки #* являются несмещенными и имеют минимальную дисперсию в классе всех линейных оценок.
6. Регрессионный анализ 271 Разумеется, в случае наблюдений Х\,...,Хп, распределенных не по нормальному закону, использование F-распределения и t-распреде- ления для проверки гипотез и построения доверительных интервалов неправомочно. 6. Регрессионный анализ Прежде чем переходить к рассмотрению простейших статистиче- статистических задач регрессионного анализа, попробуем разобраться в самом понятии «регрессия». Для этого возвратимся к терминам теории веро- вероятностей и рассмотрим двумерную случайную величину (?,7/). Пусть случайная величина т\ приняла значение у. Что в этом случае можно сказать о значении случайной величины ?? Из курса теории вероятно- вероятностей известно (см. часть 1, гл.6, параграф 4), что при этом условии случайная величина ? имеет условную плотность распределения (для простоты предположим, что существует совместная плотность распределения P?v(x,y)). Изменение этой плотности распределения как функции от аргумента у характеризует зависимость ? от rj. Однако если мы хотим указать зависимость ? от у «в целом», то мы должны обратиться к какой-либо числовой характеристике случайной величи- величины ? и рассматривать зависимость этой числовой характеристики от значения у случайной величины rj. Такая зависимость носит название регрессии ? на rj. Поскольку наиболее важной числовой характери- характеристикой случайной величины является математическое ожидание, то для этой цели обычно используют именно его и под простой (т. е. зависящей от одного параметра) регрессией ? на rj подразумевают зависимость условного математического ожидания сю т(у) = М(? \rj = y)= \ хр^(х \rj = y)dx — сю от значения у случайной величины rj. Для простоты изложения мы под регрессией будем понимать не только факт зависимости т(у) от у, но и саму функцию т(у) (иногда функцию т(у) называют функцией регрессии). График регрессии т(у) носит название линии регрессии (см. также часть 1, гл. 7, параграф 5). Пример 9. Пусть (?,7?) — двумерная случайная величина, распределен- распределенная по нормальному закону с параметрами т\ = М?, m^ = Mr/, a\ = D?, а\ = D?7 и р = р(?, ту) = cov^rj)/у/ЩЩ. Определим регрессию т(у) вели- величины ? на rj. Из курса теории вероятностей известно, что условное распре- распределение ? при условии г/ = у является нормальным со средним значением mi + р(у — vA2)Jg\Ig\ . Таким образом, регрессия т(у) является линейной: т(у) = # 1 + 1%,
272 Гл. 4. Некоторые задачи, связанные с нормальными выборками где #i = mi - Отметим также, что условное распределение случайной величины ? — т(у) при условии rj = у нормально с нулевым средним (поскольку мы из ? вычли ее математическое ожидание т(у)) и постоянной (не зависящей от у) дисперсией (i-pV?- ? Заметим теперь, что случайную величину rj обычно можно трак- трактовать как независимый параметр, значение которого у нам известно и которым в ряде случаев мы даже можем управлять. Тогда регрес- регрессия представляет собой функцию, описывающую зависимость среднего значения случайной величины ? от независимой переменной у. Понятие регрессии часто возникает и из следующих соображений. Пусть некоторое физическое явление описывается двумя параметрами: (неслучайным) независимым параметром у и связанным с ним функ- функциональной зависимостью х = х(у) (также неслучайным) зависимым параметром х. Однако если мы наблюдаем за поведением зависимого параметра х, то в результате действия различных случайных причин (влияние неконтролируемых параметров, ошибки измерений и т.д.) мы получаем функцию х(у) со случайными ошибками. Обычно считают, что эти ошибки имеют нулевое среднее, или, как говорят, отсутствуют систематические ошибки наблюдений. Тогда функцию х(у) также есте- естественно назвать регрессией. Примером такой модели может служить определение радиолокатором координат движущейся цели (самолета, корабля и т. п.). Все сказанное выше можно отнести и к случаю нескольких неза- независимых переменных (тогда говорят о множественной регрессии), и к случаю векторного зависимого параметра (многомерная регрессия). Мы, однако, ограничимся случаем простой регрессии, причем для удобства будем отождествлять независимую переменную со временем. Итак, приступим к описанию той регрессионной модели, которую мы будем рассматривать далее. Предположим, что некоторое физи- физическое явление проистекает во времени и описывается параметром х = x(t), изменяющимся по закону причем f\(t),..., fi(t) — известные функции, a i?i,... ,i?/ — неизвест- неизвестные параметры. Пусть в моменты t\,...,tn производятся измерения параметра x(t) с ошибками е\,...,еп, относительно которых известно, что они независимы и распределены по нормальному закону с нулевым средним и одинаковой неизвестной дисперсией а2. Таким образом, результаты измерений можно представить в виде
6. Регрессионный анализ 273 Рассмотрим следующие задачи. 1. Оценка неизвестных параметров id\,...,idi и построение для них (одномерных) доверительных интервалов. 2. Проверка гипотезы о равенстве некоторых ^ нулю. 3. Нахождение оценки x*(t) регрессии x(t) в произвольный мо- момент t и построение для x(t) доверительных интервалов. Прежде чем переходить к решению задач 1-3, наложим на пара- параметры регрессии некоторые естественные ограничения. Во-первых, будем считать, что число наблюдений п больше числа I неизвестных параметров. Действительно, если п < I, то число опреде- определяемых параметров больше числа наблюдений; случай же п = I не дает возможности учесть элементы случайности в рассматриваемой модели. Во-вторых, векторы должны быть линейно независимыми, иначе одинаковые траектории x(t\),... ,x(tn) можно было бы получить при разных значениях пара- параметров #!,...,#/. Решения поставленных задач используют метод наименьших квад- квадратов. Поскольку решения задач 1 и 2 полностью повторяют решения соответствующих задач для общей линейной модели, дадим только их краткое описание со ссылкой на предыдущий параграф. Задача 1. Рассмотрим сумму квадратов г=1 Оценки #*, ...,#* неизвестных параметров #i,...,#/ находятся из усло- условия минимальности функции S2. Дифференцируя S2 по #ь ...,#/ и при- приравнивая производные нулю, получаем для определения #* следующую систему линейных уравнений: 0* Е МЬ) Л (Ь) + • • • + 0* Е МЬ) Шз) = Е ^Л(^)- D) Оценки i?*,...,??* удовлетворяют свойствам 1 и 2, приведенным в па- параграфе 5. Если отказаться от требования нормальности ошибок Е{ и считать только, что они некоррелированы, имеют нулевое среднее и одинако- одинаковую дисперсию а2, то оценки #*,...,#* будут удовлетворять свойствам Iх и 2х, приведенным в параграфе 5.
274 Гл. 4. Некоторые задачи, связанные с нормальными выборками Симметричные доверительные интервалы доверительной вероятно- вероятности а для неизвестных параметров #!,...,#/ определяются своими границами C), где 9* 1 • п9 / п п \ S i'&y , ... .fit) 9 \г^ 9 S/(t?1"-tfl) = n-i ' с* =gc^' Qj — коэффициенты в представлении п #* = Е cuXi' a ta — а-квантиль t-распределения с п — I степенями свободы. Система уравнений D) наиболее просто решается в том случае, когда векторы f (/(*) л (*)) ортогональны, т.е. при к фг. Тогда D) распадается на отдельные уравнения В этом случае дополнительно к свойствам 1 и 2 оценки #* будут также независимыми (если не предполагать нормальности ?^> то дополнитель- дополнительно к Iх и 2' оценки #* будут некоррелированными). Задача 2. Сформулируем задачу следующим образом. Пусть 0 < ^ V < I. Проверяемая гипотеза Щ состоит в том, что #//+i = ... = $i = = 0. Физически это означает, что мы перестраховались и ввели в мо- модель лишние воздействия, задаваемые функциями ///+i(t),..., //(?), ко- которые на самом деле на исследуемое явление не влияют. Для решения задачи 2 определим, как и раньше, 4* = —Ц min S2(tfb...,tfz), S\= min S2(tfb ... ,#//,0,... ,0). Положим 2 2* _ S2 — (п — l)s Гипотезу Яо следует принять с уровнем значимости (размером) а, если к < ipi-a, где у?Q, — а-квантиль F-распределения с параметрами / — V и п — I.
6. Регрессионный анализ 275 Задача 3. Очевидно, что оценку x*(t) регресии x(t) проще всего получить, подставляя в x(t) вместо ^ их оценки: Ясно, что x*(t) является линейной, нормально распределенной и несме- несмещенной оценкой регрессии x(t). Можно показать также, что она эф- эффективна. Для построения доверительного интервала для x(t) вспомним, что #* представляются в виде Значит, дисперсия Dx*(t) оценки регрессии x(t) задается формулой [ j=\ г=1 и случайная величина x*(t)-x(t) распределена по стандартному нормальному закону. Поскольку стати- статистика 5q* не зависит от x*(t) и ее дисперсия равна <т2, то случайная величина #ЛЛ ,. = х (t) - x(t) имеет t-распределение, а симметричный доверительный интервал дове- доверительной вероятности а для регрессии x(t) задается границами x\t) = x*(t) - ti+a^c2(tM2*, x"(t) = x*(t) где ta — а-квантиль t-распределения с п — I степенями свободы. Пример 10. Рассмотрим простую линейную регрессию x(t) = fii + fiit. Собственно говоря, исследование этой модели уже началось в примерах 5 и 8, в которых она представлялась в виде частного случая общей линейной модели. Поскольку там мы оценили неизвестные параметры fix и #2 и построили для них доверительные интервалы, а решение этой же задачи в терминах регрес- регрессионной модели, очевидно, полностью совпадает с ее решением в терминах общей линейной модели, то здесь остановимся только на решениях задач 2 и 3. 1°. Задачу 2 сформулируем в следующем виде. Будем проверять незави- независимость x(t) от времени, т.е. гипотезу Щ: $2 = 0. Значение статистики Sq*, необходимой для применения критерия Фишера, уже было вычислено в приме- примере 8. Определим *Sf. В соответствии с общими принципами мы в выражении S2 = ^(^i,^) должны положить ^2 = 0и искать минимум S2 = S2(rd\,O) как
276 Гл. 4. Некоторые задачи, связанные с нормальными выборками функции от одной переменной #ь Уравнение D) для определения значения $*, доставляющего минимум S2, имеет вид nti'i=f2Xi> #'* = ~itXi=m*> а значение S2 задается формулой Поэтому 2* _ S2-(n- 2)s0! S\ — - 2-1 и, значит, мы должны принять гипотезу Щ, если ж = s2*/si* < (f\-a, где ipa — а-квантиль i^-распределения с параметрами 1 и п — 2. 2°. Обратимся к решению задачи 3. Оценка x*(t) регрессии x(t) имеет вид X*(t) = $* + 7^2 t. Далее, коэффициент c2(t) определяется формулой 3 = 1 3 = 1 3 = 1 3 = 1 где c\j и C2j найдены в примере 8. Таким образом, границы симметричного до- доверительного интервала доверительной вероятности а для линейной регрессии задаются выражениями: x'{t) = #*+ $lt - t i+a \/sl*(b0 + bit + b2t2) , 2 V x"(t) =ti\+ $lt + ti±cL^s20*(b0 + bit + b2t2) , где tot — а-квантиль t-распределения с п — 2 степенями свободы. Отметим еще один факт, который нетрудно установить простейшими вычислениями: минимальная ширина доверительного интервала (т. е. наиболее точная оценка п регрессии x(t)) получается при ?, равном среднему арифметическому ^ U/n всех моментов наблюдений. г~ 3°. Применим полученные результаты к анализу регрессии веса Х2 на рост Х\ мужчины (см. пример 3). Как следует из примера 9, в силу совмест- совместной нормальности Х\ и Х2 в данном случае можно использовать линейную регрессионную модель. В качестве независимой переменной выберем рост. Начнем с задачи оценки неизвестных параметров #i и гд2 линейной регрес- регрессии и построения для них доверительных интервалов. Используя результаты примера 8, находим ^Г = -31,48, #2 =0,6138. Доверительные интервалы для #i и гд2 будем строить при доверительной веро- вероятности а = 0,9. В [1] на с. 178 находим значение ?о,95 = 1,6772 0,95-квантили t-распределения с 48 степенями свободы. Вычисления значений статистики Sq* и коэффициентов с2 и с22 (см. пример 8) дают: 4* = 23,69, с\ = 12,97, с2 = 0,000441 2. Поэтому доверительные границы для #i и $2 имеют вид $[ = -60,88, < = -2,08, tf2 = 0,4423, $" = 0,7853.
6. Регрессионный анализ 277 Проверим гипотезу Щ о независимости веса от роста, которую в рамках регрессионной модели сформулируем как гипотезу о равенстве нулю пара- параметра $2- Уровень значимости (размер) критерия а положим равным 0,05. Используя известное из примера 3 значение среднего веса ш* = 73,66, находим значения статистик Sf = 1991,0, s\* = 853,9 и вычисляем отношение 2* к = Ц- = 36,0. Сравнивая полученное значение к с 0,95-квантилью </?о,95 = 4,05 ([1, с. 208]; поскольку значения </?о,95 для п2 = 48 в таблице нет, воспользуемся линейной интерполяцией) i^-распределения с параметрами 1 и 48, убеждаемся, что гипотеза Щ должна быть отвергнута. Наконец, найдем оценку x*(t) веса x(t) при известном росте t и построим симметричный доверительный интервал для x(t) доверительной вероятности а = 0,9. Оценка x*(t) имеет вид x*(t) = -31,48 + 0,61381 Вычисления дают следующие значения коэффициентов: 6о = 12,9606, &i = -0,1511, Ъ2 = 0,01045. В [1] на с. 178 находим 0,95-квантиль ?о,95 = 1,6772 t-распределения с 48 степенями свободы. Поэтому доверительные границы задаются формулами: x'(t) =-31,48 + 0,6138*- 1,6772^307,04 - 3,57961 + 0,0104512 , x"(t) = -31,48 +0,61381+ 1,6772^307,04 - 3,57961 + 0,0104512 . Графики кривых x*(t), x'(t) и x"(t) приведены на рис. 1. Рис. 1 4°. Интересно сравнить результаты корреляционного (см. пример 3) и ре- регрессионного анализа. Оба метода отвергают гипотезу Щ о независимости веса от роста. Однако в споре, какой из двух критериев лучше: критерий, основанный на выборочном коэффициенте корреляции, или критерий, основан- основанный на регрессионной модели, — пальму первенства нужно отдать первому, как равномерно наиболее мощному; это естественно, поскольку он использует дополнительную информацию о нормальности независимой переменной Х\ — роста индивидуума. Далее, воспользовавшись результатом примера 9 о функ- функциональной зависимости #2 = рд/crf/сг| коэффициента $2 линейной регрессии от коэффициента корреляции р и дисперсий о\ и о\ и подставляя вместо р,
278 Гл. 4. Некоторые задачи, связанные с нормальными выборками о\ и о\ их оценки р* = 0,655, sf* = 40,63 и s\* = 46,26 (см. пример 3), получаем оценку $% = 0,614 параметра #2, которая, как мы видим, совпадает с оценкой #2> полученной в регрессионной модели (это можно установить и прямыми вычислениями). Однако с доверительными границами для $2 и р такая манипуляция не проходит; этому опять-таки мешает дополнительная информация о нормальности независимой переменной в регрессионной мо- модели. ? В заключение этого параграфа вкратце остановимся на проблеме выбора функций fi(t). Разумеется, их выбор целиком лежит на совести исследователя и определяется физическим анализом изучаемого явле- явления. Обычно хороший результат дает линейная регрессия x(t) = tfi +#2*, рассматривавшаяся в примерах. Реже используется квадратичная ре- регрессия x(t) = tf 1 + d2t + $st2, еще реже — полиномиальная регрессия более высоких степеней. В ряде явлений, таких, как рост популяций, радиоактивный распад веществ и т.п., имеет смысл применять экспоненциальную регрессию вида x(t) = tf I + tf2e7t. Часто в этом случае считают, что и дисперсия ошибок измерения e(t) зависит от времени: De(t) = a2b(t), где b(t) — известная функ- функция, и применяют модифицированный метод наименьших квадратов, в котором сумма квадратов берется с весовыми коэффициентами. На- Наконец, при исследовании закономерностей, носящих ярко выраженный периодический характер (изменчивость в течение суток, недели, года), естественно обратиться к периодической регрессии, в которой исполь- используются разложения в ряд Фурье. Впрочем, как уже знает читатель, решение задачи проверки статистических гипотез (задачи 2) в регрес- регрессионном анализе позволяет подобрать адекватную модель и избавиться от «лишних» факторов. 7. Дисперсионный анализ Задачи, которые рассматриваются в этом и следующем параграфах, дают некоторое представление о разделе математической статистики, называемом дисперсионным анализом и основанном на сравнении выборочных дисперсий. Начнем с простейшей задачи. Пусть имеется / независимых вы- выборок Х" Х , ... ,Х\Щ,
7. Дисперсионный анализ 279 произведенных из нормальных генеральных совокупностей с неизвест- неизвестными средними mi,...,m/ и также неизвестными, но одинаковыми дисперсиями а2. Проверяются две сложные параметрические гипотезы: основная Щ: тп\ = ... = га/, состоящая в том, что все теоретические средние га^ равны между собой, и конкурирующая Н\\ некоторые теоретические средние rrii могут быть различными. Построение критерия для проверки гипотез Щ и Н\ начнем с рас- рассмотрения отдельных внутригрупповых выборочных дисперсий где Пг з=1 — выборочное среднее выборки Хц,... ,Xirii. Как известно (см. пара- параграф 4 гл. 1), случайная величина (щ — \)s2A/a2 имеет %2-распределе- ние с щ — I степенями свободы. Определим статистику 9* называемую (общей) внутригрупповой или остаточной (выборочной) дисперсией. Поскольку выборки независимы, случайная величина I 5о* Е (n^ ~~ ^)l<j2 также распределена по закону %2, но с числом сте- г=1 I пеней свободы ^(щ — 1), а статистика Sq* представляет собой несме- г=1 щенную оценку неизвестной дисперсии а2. Обозначая через I I ГЦ г=1 г=1 общее выборочное среднее обобщенной выборки, образуем новую ста- статистику г=1 которая представляет собой межгрупповую выборочную дисперсию и не зависит от Sq*. Кроме того, при условии справедливости гипоте- гипотезы Hq случайная величина s2*(l — 1)/<т2 имеет %2-распределение с / — 1
280 Гл. 4. Некоторые задачи, связанные с нормальными выборками степенями свободы, а статистика s2* является еще одной несмещенной оценкой дисперсии а2. Однако если гипотеза Щ не верна, то s2* будет иметь положительное смещение 5 = Ms2* — о~2 (т. е. иметь нецентраль- нецентральное х2-распределение), тем большее, чем больше расхождение между теоретическими средними mi,...,m/. Поэтому естественно применить для проверки гипотезы Щ односторонний критерий Фишера, предпи- предписывающий принять гипотезу Щ, если к = s2*/s^* < С. Статистика к при условии справедливости гипотезы Щ, как уже не раз говорилось, имеет F-распределение, а значит, при заданном уровне значимости а критическое значение С совпадает с A — а)-квантилью (f\-a F-pac- I пределения с параметрами / — 1 и ^{щ — 1) [1, табл. 3.5]. Можно показать, что критерий Фишера является равномерно наи- наиболее мощным несмещенным критерием для проверки гипотез Щ и Н\. Практическая реализация критерия происходит следующим обра- образом. Сначала вычисляют внутригрупповые выборочные средние ш* и общее выборочное среднее т*. Затем находят внутригрупповую и межгрупповую выборочные дисперсии Sq* и s2*. Наконец, определяют значение статистики к и сравнивают его с соответствующей кванти- лью F-распределения; в зависимости от результатов сравнения либо принимают гипотезу Щ, либо отвергают ее. Иногда полезно бывает ввести еще одну статистику являющуюся выборочной дисперсией объединенной выборки. Тогда справедливо соотношение > " 0 = о 1 J i=\ Пример 11. Для определения процентного содержания вредных приме- примесей в минерале были взяты образцы одинаковой массы из трех различных месторождений: 3 образца из первого месторождения, 2 из второго и 4 из третьего. Результаты химического анализа (процент содержания вредных при- примесей) приведены в табл. 4-6. Считая процентное содержание примесей в каж- каждом образце распределенным по нормальному закону с одинаковой дисперсией, проверим при уровне значимости a = 0,05 гипотезу Щ о том, что среднее содержание примесей во всех трех месторождениях одинаково.
7. Дисперсионный анализ 281 Таблица 4 Таблица 5 Таблица б Хп 8,35 ^12 5,40 -^13 7,16 4,52 ^22 6,24 8,91 -^32 7,47 -^33 9,08 хм 9,94 Воспользуемся критерием Фишера. Вычислим внутригрупповые выбороч- выборочные средние т\ = - (8,35 + 5,40 + 7,16) = 6,97, о т\ = Х- D,52 + 6,24) = 5,38, з = Х- (8,91 + 7,47 + 9,08 + 9,94) = 8,85 и общее выборочное среднее 1 т* = - (8,35 + 5,40 + ... + 9,94) = 7,45. Найдем внутригрупповую выборочную дисперсию 2* 1 so = [((8,35 - б,97J + E,40 - б,97J + G,16 - б,97J) + 2+1+3 + (D,52 - 5,38J + F,24 - 5,38J) + + ((8,91 - 8,85J + G,47 - 8,85J + (9,08 - 8,85J + (9,94 - 8,85J)] = 1,50 и межгрупповую выборочную дисперсию - ГзF,97 - 7,45J + 2E,38 - 7,45J + 4(8,85 - 7,45J] = 8,54. *? = 3- Значение статистики >zr = 8,54/1,50 = 5,69. Параметры i^-распределения, ис- используемого для нахождения критического значения С, равны 3—1 = 2 и C - 1) + B - 1) + D - 1) = 6. В [1, с. 208] отыскиваем 0,95-квантиль ^о,95 = 5,1433 i^-распределения с параметрами 2 и б, совпадающую с крити- критическим значением С критерия Фишера. Поскольку ж > <?о,95, есть серьезные основания отвергнуть гипотезу Щ о равенстве среднего содержания примесей в минералах всех трех месторождений. ? Прежде чем переходить к дальнейшему изложению, придадим рас- рассмотренной задаче несколько иную формулировку. Будем считать, что имеется некоторый фактор, который может действовать на I уровнях. При этом действие на анализируемое явление фактора на г-м уровне определяется математическим ожиданием чщ. Такая модель в диспер- дисперсионном анализе называется однофакторной /-уровневой (предостере- (предостережение: не надо путать с факторной моделью, расмотренной в парагра- параграфе 4 гл. 3, где сам фактор являлся случайным и мог появляться с опре- определенной вероятностью в каждом наблюдении на каком-то одном из уровней). Задача заключалась в том, чтобы проверить гипотезу Щ об одинаковом действии фактора на всех уровнях или, по-другому, об от- отсутствии влияния на результат эксперимента уровня действия фактора. Рассмотрим теперь случай действия двух факторов, причем первый фактор может действовать на 1\ уровнях, а второй — на 1% уров- уровнях (двухфакторная A\, ^-уровневая модель дисперсионного анализа).
282 Гл. 4. Некоторые задачи, связанные с нормальными выборками Предположим, что произведено пц наблюдений, в которых первый фактор подействовал на г-м уровне, а второй — на j-м. Результаты наблюдений Хцъ представляют собой независимые нормально распре- распределенные случайные величины с одинаковой (неизвестной) дисперси- дисперсией а2 и, вообще говоря, с различными (также неизвестными) средними rriij. Будем опять-таки проверять гипотезу Щ об отсутствии вли- влияния (уровней действия) первого и второго факторов на результаты наблюдений, т.е. о равенстве всех т^. Поскольку действие двух факторов на уровнях 1\ и 1% соответствен- соответственно можно отождествить с действием одного фактора на I\l2 уровнях, то для проверки гипотезы Щ воспользуемся однофакторной /^-уров- невой моделью и в соответствии с построенным для нее критерием \ вычислим значения статистик Sq* и s где тЬ = Z~. E Xijk гз к=\ — среднее по наблюдениям, в которых первый и второй факторы подействовали на уровнях г и j, U U riii — общее среднее всех наблюдений. Теперь, если н = s\*/s^* < ip\-a, h к где (ра — а-квантиль F-распределения с параметрами ^ ^2(nij ~ О и I\l2 — 1, то мы должны с уровнем значимости а принять гипотезу Щ о полном отсутствии влияния уровней действия обоих факторов. Однако можно произвести более детальный анализ модели. Будем предполагать, что выполнено условие п^ = п (общий случай раз- различных riij исследуется несколько более сложным образом). Введем
статистики 7. Дисперсионный анализ 283 1 h n I l\ n „г Е Е хчь тл2) = ^ Е Е хуь j = \ k=\ г=1 /с=1 г=1 2* '* v^ V^ / * * * i *^2 A2) /j ]}(! 1 ^ J J ^J ^0) JB) ' г=1 j=l Эти статистики имеют весьма простой смысл: т*,^ (т*,2\) — выбо- выборочное среднее при условии, что первый (второй) фактор подействовал на уровне г (j); s?J\ EB)) ~~ выборочная дисперсия, связанная с действием первого (второго) фактора; s2^2\ — выборочная дисперсия взаимодействия факторов. Статистики s?J\, sfy и s2,*2\ являются неза- независимыми. Следующая гипотеза, которую мы рассмотрим, — гипотеза Н^ о линейности действия факторов, т. е. о возможности представления теоретического среднего в виде ш^- = т\ + т^ , где т\ (т^ ) — неизвестное среднее значение, вносимое первым (вторым) фактором при действии на уровне г (j). Естественно, гипотеза Щ верна далеко не всегда, поскольку довольно часто существенное влияние на результат эксперимента факторы оказывают только при совместном их действии на определенных уровнях (например, урожайность сельскохозяйствен- сельскохозяйственной культуры высока только при внесении необходимых удобрений в предписанных количествах; при любых отклонениях от агротехниче- агротехнических норм эффект от внесения удобрений существенно уменьшается). Оказывается, при условии справедливости линейной гипотезы Н^ дис- дисперсия взаимодействия s2^ также является несмещенной оценкой а2, с точностью до множителя A\ — 1)(?2 — 1)/о~2 распределенной по за- закону х2 с (Zi — 1)(^2 — 1) степенями свободы; в противном случае эта оценка имеет положительное смещение. Поэтому критерий принятия линейной гипотезы Hq при заданном уровне значимости а заключается в выполнении неравенства к = S/jW^o* ^ ^i-ск* гДе Ра — а-квантиль F-распределения с параметрами (l\ — l)(h — 1) и lifofo — 1). Если линейная гипотеза считается выполненной (по результатам проверки или в силу априорных предположений), то можно прове- проверять гипотезы щ' и щ' об отсутствии действия первого или второго факторов. В частности, если справедлива гипотеза Щ . т\' = ... = Щх\ то статистика s?J\ опять-таки будет являться несме- несмещенной оценкой а2, с точностью до множителя A\ — \)/сг2 имеющей Х2-распределение с 1\ — 1 степенями свободы. Значит, мы можем срав-
284 Гл. 4. Некоторые задачи, связанные с нормальными выборками нить ее или с остаточной дисперсией Sq*, или с дисперсией взаимодей- взаимодействия S/12), или, еще лучше, с объединенной дисперсией 2„_ 5°б hhn-h-h образованной остаточной дисперсией и дисперсией взаимодействия, и воспользоваться критерием Фишера. В частности, если мы пользуем- пользуемся объединенной дисперсией s^jj, то должны принять гипотезу щ* при выполнении неравенства к = s2,\J' s20l < (f\-a, где, как обычно, (ра — а-квантиль F-распределения с параметрами 1\ — 1 и Ixl^n — 1\ — 1% + 1. Аналогично проверяется гипотеза Щ . т\) = ... = щ }. Отметим, что проверку гипотезы Щ о (полном) отсутствии дей- действия обоих факторов можно производить только в том случае, когда хотя бы одно riij больше единицы; в противном случае мы не смогли бы определить остаточную дисперсию Sq* и не имели бы «эталонной» оценки дисперсии а2. Если же все пц равны единице, то возможны два пути: либо потребовать, чтобы была известна теоретическая диспер- дисперсия а2 наблюдений Хц, либо априори считать справедливой линейную гипотезу, тогда «эталонной» оценкой дисперсии а2 будет дисперсия взаимодействия S/*2)- Совершенно аналогично рассматривается случай действия трех и более факторов. Однако здесь появляется новое осложнение: если имеется к факторов, причем г-й фактор действует на U уровнях, то для того, чтобы произвести хотя бы по одному наблюдению со всевозмож- всевозможными комбинациями уровней действия факторов, необходимо в общей сложности l\...lk наблюдений. В частности, при четырех факторах и пяти уровнях действия каждого из них необходимо 625 наблюдений. Ясно, что на практике такое количество наблюдений обычно нереаль- нереально. Поэтому следует так спланировать эксперимент, чтобы, с одной стороны, число наблюдений было разумным, а с другой стороны, мы бы получили достаточно аргументированные статистические выводы. Возможные методы решения этой задачи мы рассмотрим в следующем параграфе, сейчас же еще раз заметим, что в общей модели нельзя уменьшить число наблюдений с сохранением достаточной мощности критерия, поскольку влияние факторов может проявиться только при определенной комбинации уровней их действия, а так как эта комбина- комбинация нам заранее не известна, необходимо испробовать все возможные комбинации. Значит, нужно отказаться от общей постановки задачи. В дальнейшем мы будем рассматривать только линейную модель, т. е. МОДеЛЬ, В КОТОРОЙ Шгь...,гг = Щ^ + ... + Ш^.
8. Планирование эксперимента 285 8. Планирование эксперимента Прежде чем переходить к рассмотрению задач планирования экспе- эксперимента, сделаем замечание по поводу использования самого термина «планирование эксперимента». Дело в том, что разные специалисты под ним понимают различные проблемы вплоть до того, что неко- некоторые авторы называют «планированием эксперимента» фактически всю прикладную математику, усердно сдобренную практическими ре- рекомендациями по применению того или иного математического метода. Мы будем придерживаться традиционного определения «планирования эксперимента» как части дисперсионного анализа. Напомним общую постановку задачи. Пусть имеется / факторов, причем г-й фактор может действовать на любом из щ уровней, а вы- выбор уровня действия фактора находится целиком в руках экспери- экспериментатора. Действие всех / факторов на уровнях j\,...,ji приводит к тому, что результат наблюдения является нормально распределенной случайной величиной с неизвестным средним щи...,^ и неизвестной дисперсией а2, не зависящей от уровней действия факторов. Всюду далее будем предполагать, что факторы действуют линейно (часто говорят независимо), т.е. Требуется так спланировать эксперимент, т. е. указать все возможные комбинации (ji,... ,ji) уровней действия факторов, для которых нужно произвести наблюдения, чтобы, с одной стороны, количество наблюде- наблюдений не было бы большим, а, с другой стороны, результаты эксперимен- эксперимента достаточно хорошо проверяли бы гипотезы об отсутствии действия каждого фактора, т.е. гипотезы щ . гщ = ... = rrinl- Естественно, планом эксперимента будем называть сам перечень всех наборов (ji,..., j/) уровней действия факторов, для которых необходимо про- произвести наблюдения. При этом будем предполагать, что для каждого набора (ji,..., ji), входящего в план эксперимента, производится толь- только одно наблюдение Xjx. Отметим, что план эксперимента, состоящий из всех возможных комбинаций (j\,...,ji) уровней действия факторов и рассмотренный в параграфе 7, называют (полным) факторным пла- планом. Однако, как уже говорилось, факторный план требует слишком большого количества наблюдений. Разумным представляется потребовать от плана эксперимента, что- чтобы результаты эксперимента можно было бы достаточно просто обрабо- обработать. С этим мы уже столкнулись в параграфе 7, когда в двухфактор- ную модель пришлось ввести условие одинакового числа наблюдений при каждом наборе уровней действия обоих факторов. Ортогональ- Ортогональность планов или сбалансированность блоков, которые будут исполь- использоваться далее, не только упрощают расчеты, но и приводят к неза- независимости статистик, служащих для проверки отсутствия действия
286 Гл. 4. Некоторые задачи, связанные с нормальными выборками отдельных факторов, что в свою очередь избавляет от неприятной ситуации, когда принятие или отклонение гипотезы об отсутствии дей- действия одного фактора зависит от аналогичного решения относительно остальных факторов. Кроме того, такие планы обладают некоторыми специальными свойствами оптимальности, которых мы здесь касаться не будем. Рассмотрим способы построения планов эксперимента. Начнем со случая, когда число уровней действия факторов одинаково для всех факторов, т. е. щ = ... = щ = п. Потребуем, чтобы для любых фак- факторов i\ и ^2 и уровней их действия j^ и ji2 в план эксперимента входил, по крайней мере, один набор, содержащий пару j^ и ji2, т.е. хотя бы в одном наблюдении фактор i\ подействовал на уровне j^, а фактор г^ — на уровне ji2. С другой стороны, для минимизации числа наблюдений резонно ограничиться только планами, в которых каждая пара (ji{,ji2) уровней действия факторов ii и Z2 встречается не более одного раза. Суммируя эти два требования, получаем, что каждая пара (.7*1».7*2) уровней действия факторов %\ и i% должна входить в план эксперимента ровно один раз. Такие планы назовем ортогональными. Нетрудно видеть, что любой ортогональный план содержит ровно п2 наблюдений и его можно представить в виде квадратной таблицы (табл.7), в которой j\ х 2^ (г = 3,...,/) — числа от 1 до п. Этот план заключается в следующем. В первом наблюдении первый и второй факторы действуют на уровне 1, третий — на уровне j^U ,..., 1-й — на уровне j\ ,..., в п-м наблюдении первый фактор действует на -, о .(П1) 7 о уровне п, второй — на уровне 1, третий — на уровне j^ ,..., 1-й — на уровне jj ,..., в п2-м наблюдении первый и второй факторы действуют на уровне п, третий — на уровне j% ,..., 1-й — на уровне j(nn\ В силу требования ортогональности плана в каждой строке и в каждом столбце табл.7 на любом месте каждое из чисел 1,...,п должно встречаться ровно один раз; для любых чисел к\ и к% от 1 до п и %\ и г^ от 3 до / ровно один раз должны встречаться клетки, в которых на грм месте стоит к\, а на г2-м — к^. Пример ортогонального плана при числе действующих факторов / = 6 и числе уровней действия каждого фактора п = 5 приведен в табл. 8 (в этой и во всех дальнейших таблицах для сокращения записи первый столбец и первая строка опущены). Обратимся к конкретным значениям числа факторов /. При / = 2 ортогональный план представляет собой не что иное, как факторный план, рассмотренный в параграфе 7, в котором мы должны произвести по одному наблюдению с каждой комбинацией (jb J2) уровней действия первого и второго факторов. При / = 3 любой ортогональный план задается так называемым латинским квадратом n-го порядка, т. е. квадратной таблицей размера
S. Планирование эксперимента 287 Таблица 7 Уровень действия второго фактора 1 п Уровень действия первого фактора 1 j3A1)...^A1) п Н ---Ji Ann) .(пп) h ---Ji Таблица 8 1111 2345 3524 4253 5432 2222 3451 4135 5314 1543 3333 4512 5241 1425 2154 4444 5123 1352 2531 3215 5555 1234 2413 3142 4321 п х п, в которую вписаны числа от 1 до п таким образом, чтобы в каждой строке и каждом столбце любое из этих чисел встречалось ровно один раз. Пример ла- латинского квадрата, полученного цикли- циклическим сдвигом первой строки на едини- единицу, приведен в табл. 9. Критерий для проверки отсутствия действия факторов строится следующим образом. Пусть в результате эксперимента по предложенному плану мы получили наблюдения Х\\,...,Хп\, 1 2 3 4 5 2 3 4 5 1 Таб ли 3 4 5 1 2 4 5 1 2 3 ца 9 5 1 2 3 4 1п> Обозначим п 2 E E ,*\2 i=\j=\ Статистика S2 представляет собой сумму квадратов отклонений на- наблюдений от общего выборочного среднего га* Используя свойство латинского квадрата, ее можно переписать в виде
288 Гл. 4. Некоторые задачи, связанные с нормальными выборками 2 tt i - <(D - ™Л2) - Ч(з) + 2т*J + + Е nK(i) - т*J + Е ПКB) - ™*J + Е п«(з) - г=1 j=l fc=l = (n2 - Зп + 2M2*23) + (n - 1L*) + (n - 1L*) + (n - 04*)' где in 1 n inn j = l г=1 i=lj = l Статистики ra*/^ и ш*/2ч являются выборочными средними при усло- условии действия первого или второго фактора на уровне г или j. Такой же смысл имеет и статистика mL3), поэтому при определении mL3) суммирование должно производиться только по тем наблюдениям, в ко- которых третий фактор действовал на fc-м уровне или, в терминах ла- латинского квадрата, по тем клеткам, в которых стоит цифра к. Заметим теперь, что в силу линейности действия факторов (которую мы предпо- предположили с самого начала) статистики S/*23)> 5m> 5B) и 5(з) независимы, а 5/*23) является несмещенной оценкой дисперсии а2, с точностью до множителя (п2 — Зп + 2)/<т2 имеющей %2-распределение с п2 — Зп + 2 степенями свободы. Теперь, если отсутствует влияние первого факто- фактора, то статистика 5/*ч с точностью до множителя (п — 1)/<т2 также распределена по закону %2 с п — 1 степенями свободы и, значит, для проверки гипотезы об отсутствии влияния первого фактора можно при- применить критерий Фишера, предписывающий принять эту гипотезу, ес- если x(i) = 5/*ч/5/*23) < С. Аналогично, по статистикам ^\ и Х(з) = 5(з)/5(г23) пРовеРяются гипотезы об отсутствии действия вто- второго и третьего факторов. Пусть теперь / = 4. Назовем два латинских квадрата ортогональ- ортогональными, если при наложении их друг на друга каждый набор (ij) встретится ровно один раз. Пример наложения двух латинских квад- квадратов пятого порядка приведен в табл.10. Таким образом, задача построения ортогонального плана сводится к задаче нахождения двух ортогональных латинских квадратов. Однако ортогональные латинские квадраты существуют не для всех п. В частности, они, как извест- известно, не существуют при п = 6 (задача Эйлера о 36 офицерах). Если же ортогональные латинские квадраты существуют, то ортогональный план задается их наложением. Сама процедура проверки гипотез об отсутствии действия факторов остается той же, что и в случае / = 3, и опирается на представление статистики S2 в виде S2 = (п2 -4п + 3)sff234) + (п - l)sft +
S. Планирование эксперимента 289 Таблица 10 1 2 3 4 5 2 3 4 5 1 3 4 5 1 2 4 5 1 2 3 5 1 2 3 4 1 3 5 2 4 2 4 1 3 5 3 5 2 4 1 4 1 3 5 2 5 2 4 1 3 11 23 35 42 54 22 34 41 53 15 33 45 52 14 21 44 51 13 25 32 55 12 24 31 43 Нетрудно теперь понять, что возможность построения ортогональ- ортогонального плана эксперимента при / > 4 сводится к возможности построения / — 2 ортогональных латинских квадратов. Оказывается, в любом слу- случае нельзя построить более п — 1 ортогональных латинских квадратов. Система, содержащая максимальное для заданного п число ортогональ- ортогональных латинских квадратов, называется полной. Ясно, что любая система из п — 1 ортогональных латинских квадратов является полной. Покажем, как можно построить полную систему в случае про- простого п. Первая строка всех п — 1 латинских квадратов состоит из записанных подряд чисел 1,...,п. Вторая строка первого латинского квадрата получается циклическим сдвигом первой строки на единицу влево, третья — циклическим сдвигом второй строки на единицу влево и т.д. Вторая строка второго латинского квадрата получается цикли- циклическим сдвигом первой строки влево на два, третья — циклическим сдвигом второй строки влево на два и т. д. Полная система из четырех латинских квадратов пятого порядка приведена в табл. 11. Таблица 11 1 2 3 4 5 2 3 4 5 1 3 4 5 1 2 4 5 1 2 3 5 1 2 3 4 1 3 5 2 4 2 4 1 3 5 3 5 2 4 1 4 1 3 5 2 5 2 4 1 3 1 4 2 5 3 2 5 3 1 4 3 1 4 2 5 4 2 5 3 1 5 3 1 4 2 1 5 4 3 2 2 1 5 4 3 3 2 1 5 4 4 3 2 1 5 5 4 3 2 1 Для читателя, знакомого с комплексными числами, опишем рас- рассмотренный выше метод построения ортогональных латинских квад- квадратов в терминах корней n-й степени из единицы. Пусть z\ = \/Т — какой-либо (отличный от 1) корень n-й степени из 1. Положим z^ = z\, ..., zn = zf = 1. Отождествим число г с Z{. Тогда первая строка любого квадрата отождествима с z\,...,zn. Каждая последую- последующая строка первого латинского квадрата получается из предыдущей 10 П. П. Бочаров, А. В. Печинкин
290 Гл. 4. Некоторые задачи, связанные с нормальными выборками умножением на z\, второго — умножением на z^ и т.д. Таким об- образом, существует тесная связь приведенной процедуры с корнями n-й степени из единицы, которые в свою очередь являются одним из основополагающих понятий теории Галуа. Оказывается, использование теории Галуа позволяет построить полную систему из п — 1 латинских квадратов и в том случае, когда п = р\ где р — простое число. Кроме того, с ее помощью можно построить к ортогональных латинских квадратов в общем случае п = р\1 ...pqq, причем к представляет собой минимальное из чисел р? — 1. С соответствующей процедурой читатель может ознакомиться в специальной литературе [15, 16]. Вернемся к случаю, когда факторы могут действовать на разных числах уровней щ. Рассмотрим двухфакторную модель. Если мы про- продолжаем настаивать на том условии, чтобы каждый уровень i\ первого фактора обязательно хотя бы в одном наблюдении подействовал с лю- любым уровнем г^ второго фактора, то, как мы знаем, минимальный план эксперимента представляет собой факторный план, содержащий щщ наблюдений. Однако можно уменьшить число наблюдений, если отка- отказаться от этого требования и заменить его на более слабое условие: уровни действия i\ и г^ первого и второго факторов встречаются не более одного раза. Потребуем также, чтобы каждый уровень действия первого фактора встречался во всех экспериментах 1\ раз, а второ- второго — 1% Раз- Естественно, числа щ, щ, 1\ и 1% должны быть связаны соотношением n\l\ = n^h — п, гДе п — общее число наблюдений. План такого эксперимента можно записать в виде таблицы (табл. 12), элементы которой представляют собой числа 1,...,П2, расставленные таким образом, чтобы в каждом столбце любое из них встречалось не более одного раза, а во всей таблице — ровно 1% раз. Отметим, что столбцы таблицы, представляющие собой те уровни, на которых в планируемом эксперименте должен подействовать второй фактор при условии, что на соответствующем уровне действует первый фактор, носят названия блоков. Таблица 12 Номера наблюдений 1 -т- П\ (h - l)ni + 1 ^rl\n\ Уровень действия первого фактора 1 ?-(п) 7-0*i) 2 П\ 2 12 Потребовав также, чтобы каждая пара i\,ii, встречающаяся хотя бы в одном блоке, встречалась во всех блоках ровно к раз, полу- получаем неполный сбалансированный блок. Нетрудно подсчитать, что
Планирование эксперимента 291 для неполного сбалансированного блока l^ilx — 1) = k(n\ — 1). Если п\ = П2, то неполный сбалансированный блок называется симметрич- симметричным неполным сбалансированным блоком. В табл. 13 приведен пример симметричного неполного сбалансированного блока для щ = п^ = 15, Таблица 13 1 2 5 3 8 б 11 1 2 5 7 9 12 4 1 2 5 10 15 13 14 1 3 б 4 13 10 7 1 3 б 9 12 14 15 1 8 11 9 10 12 13 1 7 4 8 11 15 14 2 б 11 4 9 13 15 2 б 11 7 10 12 14 2 7 12 3 8 13 15 2 8 3 4 9 10 14 3 4 10 5 11 12 15 3 5 11 7 9 13 14 4 5 12 б 8 13 14 5 б 7 8 9 10 15 При построении неполных сбалансированных блоков также исполь- используется теория Галуа. Описание самого метода их построения и проце- процедуры применения плана для проверки гипотез об отсутствии действия факторов читатель может найти в [15, 16]. Случай трех и более факторов можно исследовать методом смеши- смешивания экспериментов [15, 16]. Мы рассмотрели здесь возможность применения задач планирова- планирования эксперимента к дисперсионному анализу. Однако в последнее вре- время эти задачи находят широкое применение в множественном и много- многомерном регрессионном анализе для получения наилучших в некотором классе оценок параметров регрессии и для проверки гипотез о значи- значимости отличия этих параметров от нуля. Обычно планы экспериментов выбирают таким образом, чтобы оценки или статистики критериев были независимыми, что приводит к необходимости рассматривать ортогональные планы или их обобщения. Характерной особенностью применения методов планирования эксперимента к регрессионному анализу является также тот факт, что наибольшую информацию несут наблюдения, в которых аргументы регрессии принимают крайние (ми- (минимальное и максимальное) значения. Поэтому в задачах регресси- регрессионного анализа очень часто все факторы действуют только на двух уровнях, которые для симметрии обозначаются — 1 и +1, что, однако, не сильно упрощает сами планы из-за большого числа действующих факторов. Задачи планирования эксперимента в регрессионном анализе мы здесь не рассматриваем, а отсылаем заинтересованного читателя к специальной литературе.
Список литературы 1. Большее Л.Н., Смирнов И. В. Таблицы математической статистики. — М.: Наука, 1983. 2. Гмурман В.Е. Теория вероятностей и математическая статистика. — М.: Высшая школа, 1972. З.Пугачев B.C. Теория вероятностей и математическая статистика. — М.: Наука, 1979. 4. Худсон Д. Статистика для физиков. — М.: Мир, 1967. 5. Севастьянов Б. А. Курс теории вероятностей и математической статисти- статистики. - М.: Наука, 1982. 6. Климов Г. П. Теория вероятностей и математическая статистика. — М.: Изд-во МГУ, 1983. 7. Ивченко Г.И., Медведев Ю.И. Математическая статистика. — М.: Высшая школа, 1984. 8. Ван дер Варден. Математическая статистика. — М.: Мир, 1975. 9. Крамер Г. Математические методы статистики. — М.: Мир, 1975. 10. Уилкс С. Математическая статистика. — М.: Наука, 1967. 11. Боровков А. А. Математическая статистика. — М.: Наука, 1984. 12. Леман Э. Проверка статистических гипотез. — М.: Наука, 1979. 13. Валъд А. Последовательный анализ. — М.: Физматгиз, I960. 14. Шеффе Г. Дисперсионный анализ. — М.: Физматгиз, 1963. 15. Дюге Д. Теоретическая и прикладная статистика. — М.: Наука, 1972. 16. Ермаков СМ., Жиглявский А.А. Математическая теория оптимального эксперимента. — М.: Наука, 1987. 17. Гмурман В.Е. Руководство к решению задач по теории вероятностей и ма- математической статистике. — М.: Высшая школа, 1979. 18. Сборник задач по теории вероятностей, математической статистике и тео- теории случайных функций / Под ред. А. А. Свешникова. — М.: Наука, 1970. 19. Агапов Г. И. Задачник по теории вероятностей. — М.: Высшая школа, 1986. 20. Емельянов Г.В., Скитович В.П. Задачник по теории вероятностей и мате- математической статистике. — Л.: Изд-во ЛГУ, 1967. 21. Севастьянов Б. А., Чистяков В.П., Зубков A.M. Сборник задач по теории вероятностей. — М.: Наука, 1980. 22. Мешалкин Л. Д. Сборник задач по теории вероятностей. — М.: Изд-во МГУ, 1963.
Приложение Am Таблица 1. Значения функции Р(т;Х) = е т 0 1 2 3 4 5 6 7 8 Л 0,1 0,90484 09048 00452 00015 0,2 81873 16375 01637 00109 00005 0,3 74082 22225 03334 00333 00025 00002 0,4 67032 26813 05363 00715 00072 00006 0,5 60653 30327 07582 01264 00158 00016 00001 0,6 54881 32929 09879 01976 00296 00036 00004 0,7 49659 34761 12166 02839 00497 00070 00008 00001 0,8 44933 35946 14379 03834 00767 00123 00016 00002 0,9 40657 36591 16466 04940 01111 00200 00030 00004 1,0 36788 36788 18394 06131 01533 00307 00051 00007 00001 т 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Л 1,5 0,22313 33470 25102 12551 04707 01412 00353 00076 00014 00002 2,0 13534 27067 27067 18045 09022 03609 01203 00344 00086 00019 00004 00001 2,5 08208 20521 25652 21376 13360 06680 02783 00994 00311 00086 00022 00005 00001 3,0 04979 14936 22404 22404 16803 10082 05041 02160 00810 00270 00081 00022 00006 00001 3,5 03020 10569 18496 21579 18881 13217 07710 03855 01687 00656 00230 00073 00021 00006 00001 4,0 01832 07326 14653 19537 19537 15629 10420 05954 02977 01323 00529 00192 00064 00020 00006 00002 4,5 01111 04999 11248 16872 18981 17083 12812 08236 04633 02316 01042 00426 00160 00055 00018 00005 00002 5,0 00674 03369 08422 14037 17547 17547 14622 10444 06528 03627 01813 00824 00343 00132 00047 00016 00005 00001 5,5 00409 02248 06181 11332 15582 17140 15712 12345 08487 05187 02853 01426 00654 00277 00109 00040 00014 00004 00001 6,0 00248 01487 04462 08924 13385 16062 16062 13768 10326 06884 04130 02253 01126 00520 00223 00089 00033 00012 00004 00001
294 Приложение Таблица 2. Значения функции ip(x) = 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4, 5, 0 0,39894 39695 39104 38139 36827 35207 33322 31225 28969 26609 24197 21785 19419 17137 14973 12952 11092 09405 07895 06562 05399 04398 03547 02833 02239 01753 01358 01042 00792 00595 00443 00327 00238 00172 00123 00087 00061 00042 00029 00020 1 39892 39654 39024 38023 36678 35029 33121 31006 28737 26369 23955 21546 19186 16915 14764 12758 10915 09246 07754 06438 05292 04307 03470 02768 02186 01709 01323 01014 00770 00578 00430 00317 00231 00167 00119 00084 00059 00041 00028 00019 0 0,000 33 8 0000015 2 39886 39608 38940 37903 36526 34849 32918 30785 28504 26129 23713 21307 18954 16694 14556 12566 10741 09089 07614 06316 05186 04217 03394 02705 02134 01667 01289 00987 00748 00562 00417 00307 00224 00161 00115 00081 00057 00039 00027 00018 3 39876 39559 38853 37780 36371 34667 32713 30563 28269 25888 23471 21069 18724 16474 14350 12376 10567 08933 07477 06195 05082 04128 03319 02643 02083 01625 01256 00961 00727 00545 00405 00298 00216 00156 00111 00079 00055 00038 00026 00018 Сотые доли х 4 39862 39505 38762 37654 36213 34482 32506 30339 28034 25647 23230 20831 18494 16256 14146 12188 10396 08780 07341 06077 04980 04041 03246 02582 02033 01585 01223 00935 00707 00530 00393 00288 00210 00151 00107 00076 00053 00037 00025 00017 Десятые 2 0000 589 5 39844 39448 38667 37524 36053 34294 32297 30114 27798 25406 22988 20594 18265 16038 13943 12001 10226 08628 07206 05959 04879 03955 03174 02522 01984 01545 01191 00909 00687 00514 00381 00279 00203 00146 00104 00073 00051 00035 00024 00016 ДОЛИ X 4 0000 249 6 39822 39387 38568 37391 35889 34105 32086 29887 27562 25164 22747 20357 18037 15822 13742 11816 10059 08478 07074 05844 04780 03871 03103 02463 01936 01506 01160 00885 00668 00499 00370 00271 00196 00141 00100 00071 00049 00034 00023 00016 7 39797 39322 38466 37255 35723 33912 31874 29659 27324 24923 22506 20121 17810 15608 13542 11632 09893 08329 06943 05730 04682 03788 03034 02406 01888 01468 01130 00861 00649 00485 00358 00262 00190 00136 00097 00068 00047 00033 00022 00015 6 0000101 8 39767 39253 38361 37115 35553 33718 31659 29431 27086 24681 22265 19886 17585 15395 13344 11450 09728 08183 06814 05618 04586 03706 02965 02349 01842 01431 01100 00837 00631 00470 00348 00254 00184 00132 00094 00066 00046 00031 00021 00014 9 39733 39181 38251 36973 35381 33521 31443 29200 26848 24439 22025 19652 17360 15183 13147 11270 09566 08038 06687 05508 04491 03626 02898 02294 01797 01394 01071 00814 00613 00457 00337 00246 00178 00127 00090 00063 00044 00030 00021 00014 8 0000040
Приложение 295 Таблица 3. Значения интеграла Лапласа Фо(ж) = е * /2 <it 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 L3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4, 5, 0 0,00000 03983 07926 11791 15542 19146 22575 25804 28814 31594 34134 36433 38493 40320 41924 43319 44520 45543 46407 47128 47725 48214 48610 48928 49180 49379 49534 49653 49744 49813 49865 49903 49931 49952 49966 49977 49984 49989 49993 49995 1 00399 04380 08317 12172 15910 19497 22907 26115 29103 31859 34375 36650 38686 40490 42073 43448 44630 45637 46485 47193 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49869 49906 49934 49953 49968 49978 49985 49990 49993 49995 0 0,499 968 3 4 999 997 2 00798 04776 08706 12552 16276 19847 23237 26424 29389 32121 34614 36864 38877 40658 42220 43574 44738 45728 46562 47257 47831 48300 48679 48983 49224 49413 49560 49674 49760 49825 49874 49910 49936 49955 49969 49978 49985 49990 49993 49996 3 01197 05172 09095 12930 16640 20194 23565 26730 29673 32381 34850 37076 39065 40824 42364 43699 44845 45818 46638 47320 47882 48341 48713 49010 49245 49430 49573 49683 49767 49831 49878 49913 49938 49957 49970 49979 49986 49990 49994 49996 Сотые доли х 4 01595 05567 09483 13307 17003 20540 23891 27035 29955 32639 35083 37286 39251 40988 42507 43822 44950 45907 46712 47381 47932 48382 48745 49036 49266 49446 49585 49693 49774 49836 49882 49916 49940 49958 49971 49980 49986 49991 49994 49996 Десятые 2 4 999 867 5 01994 05962 09871 13683 17364 20884 24215 27337 30234 32894 35314 37493 39435 41149 42647 43943 45053 45994 46784 47441 47982 48422 48778 49061 49286 49461 49598 49702 49781 49841 49886 49918 49942 49960 49972 49981 49987 49991 49994 49996 ДОЛИ X 4 4 999 946 6 02392 06356 10257 14058 17724 21226 24537 27637 30511 33147 35543 37698 39617 41308 42786 44062 45154 46080 46856 47500 48030 48461 48809 49086 49305 49477 49609 49711 49788 49846 49889 49921 49944 49961 49973 49981 49987 49992 49994 49996 7 02790 06749 10642 14431 18082 21566 24857 27935 30785 33398 35769 37900 39796 41466 42922 44179 45254 46164 46926 47558 48077 48500 48840 49111 49324 49492 49621 49720 49795 49851 49893 49924 49946 49962 49974 49982 49988 49992 49995 49996 6 4 999 979 8 03188 07142 11026 14803 18439 21904 25175 28230 31057 33646 35993 38100 39973 41621 43056 44295 45352 46246 46995 47615 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49897 49926 49948 49964 49975 49983 49988 49992 49995 49997 9 03586 07535 11409 15173 18793 22240 25490 28524 31327 33891 36214 38298 40147 41774 43189 44408 45449 46327 47062 47670 48169 48574 48899 49158 49361 49520 49643 49736 49807 49861 49900 49929 49950 49965 49976 49983 49989 49992 49995 49997 8 4 999 992
Учебное издание БОЧАРОВ Павел Петрович ПЕЧИНКИН Александр Владимирович ТЕОРИЯ ВЕРОЯТНОСТЕЙ. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Оригинал-макет: В.В. Худяков Оформление переплета: А.Ю. Алехина ЛР №071930 от 06.07.99. Подписано в печать 11.07.05. Формат 60x90/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 18,5. Уч.-изд. л. 22,6. Заказ № Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117997, Москва, ул. Профсоюзная, 90 E-mail: fizmat@maik.ru, fmlsale@maik.ru; http://www.fml.ru Отпечатано с готовых диапозитивов в ОАО «Чебоксарская типография № 1» 428019, г. Чебоксары, пр. И. Яковлева, 15 ISBN 5-9221-0633-3 985922 106337