Текст
                    УДК 519.2
ББК 22.17
П88
Пугачев B.C. Теория вероятностей и математическая статис-
статистика: Учеб. пособие.— 2-е изд., исправл. и дополи.— М.: ФИЗМАТ ЛИТ,
2002.- 496 с— ISBN 5-9221-0254-0.
В книге изложены основы теории вероятностей и математической ста-
статистики. В первых пяти главах дается достаточно строгое изложение основ
теории вероятностей в рамках конечномерных случайных величин на осно-
основе традиционных курсов математического анализа и линейной алгебры. В
последующих пяти главах изложены основы математической статистики:
точечное и интервальное оценивание параметров распределений, плотно-
плотностей и функций распределения, общая теория оценок, метод стохастических
аппроксимаций, методы построения статистических моделей.
Первое издание — 1979 г.
Книга предназначена для студентов и аспирантов факультетов при-
прикладной математики вузов и для инженеров.
Табл. 7. Ил. 38. Библиогр. 135 назв.
Учебное издание
ПУГАЧЕВ Владимир Семенович
ТЕОРИЯ ВЕРОЯТНОСТЕЙ
И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
Редактор Е.Ю. Ходан
Оригинал-макет Д. В. Горбачева
Оформление обложки А.Ю. Алехиной
ЛР №071930 от 06.07.01. Подписано в печать 23.05.02. Формат 60x90/16.
Бумага офсетная №1. Печать офсетная. Усл. печ. л. 31. Уч.-изд. л. 34,1.
Тираж 5000 экз. Заказ №
Издательская фирма
«Физико-математическая литература»
МАИК «Наука/Интерпериодика»
117864 Москва, ул. Профсоюзная, 90
Отпечатано с готовых диапозитивов
в РГУП «Чебоксарская типография № 1»
428019, г. Чебоксары, пр. И. Яковлева, 15
ISBN 5-9221-0254-0 © Jf^^nn
© B.C. Пугачев, 2002


ОГЛАВЛЕНИЕ Предисловие ко второму изданию 5 Из предисловия к первому изданию 6 Глава 1. Вероятности событий 11 1.1. Случайные явления 11 1.2. Статистический подход к описанию случайных явлений . 15 1.3. Непосредственное определение вероятностей 22 1.4. Действия над событиями 26 1.5. Аксиомы теории вероятностей 30 1.6. Условные вероятности 36 1.7. Вероятности сложных событий 41 1.8. Повторение опытов 43 1.9. Распределение Пуассона 48 Глава 2. Случайные величины 53 2.1. Общие определения. Дискретные случайные величины . 53 2.2. Непрерывные случайные величины. Плотность случайной величины 56 2.3. Обобщение понятия плотности 64 2.4. Функция распределения 69 2.5. Энтропия распределения 80 Глава 3. Числовые характеристики случайных величин . . 91 3.1. Математическое ожидание 91 3.2. Моменты второго порядка 95 3.3. Моменты второго порядка случайных векторов 102 3.4. Канонические разложения случайных векторов 112 3.5. Другие числовые характеристики случайных величин . . 121 3.6. Одномерное нормальное распределение 125 Глава 4. Проекции случайных векторов и их распределения 132 4.1. Распределения проекций случайного вектора 132 4.2. Условные распределения проекций случайного вектора . 138 4.3. Условные числовые характеристики 147 4.4. Характеристические функции случайных величин .... 151 4.5. Многомерное нормальное распределение 161 4.6. Информация, содержащаяся в случайных величинах ... 174 Глава 5. Функции случайных величин 182 5.1. Моменты функций случайных величин 182 5.2. Функция распределения функции случайного аргумента 187
Оглавление 5.3. Плотность функции случайного аргумента 199 5.4. Предельные теоремы 220 5.5. Информация, содержащаяся в функциях случайных ве- величин 223 Глава 6. Оценивание параметров распределений 239 6.1. Основные задачи математической статистики 239 6.2. Оценивание статистических характеристик 244 6.3. Частота как оценка вероятности 252 6.4. Оценки математического ожидания и дисперсии случай- случайной величины 255 6.5. Оценки математического ожидания и ковариационной матрицы случайного вектора 266 6.6. Проверка гипотез о параметрах распределений 276 Глава 7. Теория оценок 281 7.1. Общие свойства оценок 281 7.2. Основные методы нахождения оценок 293 7.3. Рекуррентное оценивание корня уравнения регрессии . . 300 7.4. Рекуррентное оценивание точки экстремума регрессии . . 307 Глава 8. Оценивание распределений 313 8.1. Оценки плотности и функции распределения 313 8.2. Приближенное представление распределений 322 8.3. Проверка гипотез о распределениях 334 8.4. Метод статистического моделирования 345 Глава 9. Статистические модели, I 351 9.1. Математические модели 351 9.2. Регрессионные модели 354 9.3. Оценивание регрессий 366 9.4. Проверка гипотез о регрессии 379 9.5. Дисперсионный анализ 387 Глав а 10. Статистические модели, II 400 10.1. Модели, описываемые разностными уравнениями 400 10.2. Оценивание величин, определяемых разностным уравне- уравнением 404 10.3. Факторные модели 425 10.4. Модели распознавания 432 10.5. Модели принятия решений 448 Приложение 460 1. Импульсная дельта-функция и ее производные 460 2. Некоторые определенные интегралы 463 3. Таблицы 468 Цитированная литература 479 Список дополнительной литературы 486 Основные обозначения 487 Предметный указатель 490
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Во втором издании книга подверглась несущественной переработ- переработке. В нее включены все дополнения, вошедшие в английское издание книги*), уточнен материал приложения 2, дополнен список литера- литературы. В связи с тем, что базовые методы теории вероятностей и ма- математической статистики содержатся во всех широко доступных математических библиотеках и статистических пакетах программ, в соответствующих разделах книги сняты ссылки на программы на языке Фортран-4 [94]. И.Н. Синицыным и В.И. Синицыным написан материал, содержа- содержащий элементы теории информации (разд. 2.5, 4.6, 5.5, пп. 3.6.6, 4.5.10), а также в соответствии с [131] переработано изложение: — теории канонических разложений и ее применения (разд. 3.4, 10.3, п. 9.2.6); — теории характеристических функций (разд. 4.4); — теории нормального распределения (разд. 3.6, 4.5); — методов теории статистического моделирования; — методов приближенного представления плотностей распределе- распределений (разд. 8.2). Все опечатки и неточности, замеченные в первом издании и в ан- английском издании, исправлены. *) Pugachev V.S. Probability Theory and Mathematical Statistics for Engineers.— Oxford: Pergamon Press, 1984.
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ Книга написана на основе курсов лекций, читанных автором на протяжении ряда лет студентам факультета прикладной математики Московского авиационного института им. С. Орджоникидзе (МАИ). Книга рассчитана на студентов и аспирантов факультетов приклад- прикладной математики университетов и высших технических учебных заве- заведений. Однако она может быть полезной и для инженеров и научных работников, которым приходится пользоваться статистическими ме- методами в прикладных исследованиях, а также для математиков, спе- специализирующихся в области теории вероятностей и математической статистики. Книга ориентирована в первую очередь на прикладников. Это определило ее структуру и характер. В ней дано достаточно строгое изложение основ теории вероятностей и математической статистики в рамках конечномерных случайных величин без применения теории меры и функционального анализа. За основу построения теории вероятностей принята система ак- аксиом А.Н. Колмогорова. Однако аксиомы вводятся лишь после изу- изучения свойств частот событий и подхода к понятию вероятности как абстрактному понятию, отражающему экспериментально наблюдае- наблюдаемую закономерность в поведении частот событий — их устойчивость. В результате такого подхода аксиомы теории вероятностей вводятся как естественное распространение свойств частот событий на вероят- вероятности. При изучении случайных величин почти везде, особенно в задачах математической статистики, рассматриваются сразу векторные слу- случайные величины. Это усиливает прикладную направленность книги, так как в большей части задач практики приходится иметь дело с многомерными случайными векторами (конечными множествами ска- скалярных случайных величин). Первоначально книга была задумана только как учебное пособие по одноименному курсу, однако затем возникла необходимость вклю- включить дополнительный материал по математической статистике, необ- необходимый для выполнения студентами курсовых и дипломных работ, а также обеспечения студенческих научно-исследовательских работ. В результате книга, кроме основ теории вероятностей, содержит крат-
Из предисловия к первому изданию 7 кое изложение всех основных разделов математической статистики (применительно к конечномерным случайным величинам). Кроме традиционных вопросов точечного и интервального оцени- оценивания и общей теории оценок, в книге изложены метод стохастических аппроксимаций, многомерный регрессионный анализ, дисперсионный анализ, факторный анализ, теория оценивания неизвестных парамет- параметров в стохастических разностных уравнениях, основы теории распо- распознавания и проверки гипотез, элементы общей статистической теории решений, основы метода статистического моделирования. В главе 1 изучаются основные свойства частот событий, дается частотный подход к понятию вероятности и рассматриваются слу- случаи, когда вероятности событий можно вычислять непосредствен- непосредственно из соображений равновозможности (равновероятности) различных исходов опыта. После этого дается понятие элементарного события, формулируются основные аксиомы теории вероятностей, вводятся понятия вероятностного пространства, распределения вероятностей, условной вероятности, зависимости и независимости событий и выво- выводятся основные формулы, непосредственно вытекающие из аксиом, в том числе формулы, определяющие биномиальное и полиномиальное распределения. Затем выводится распределение Пуассона. Во главе 2 рассматриваются случайные величины и их распреде- распределения, изучаются основные характеристики распределений конечно- конечномерных случайных величин — плотность и функция распределения. Показывается, что плотность как обобщенная функция, содержащая линейную комбинацию 5-функций, существует для всех трех типов случайных величин, встречающихся в задачах практики, — непре- непрерывных, дискретных и непрерывно-дискретных. Приводится пример случайной величины, не имеющей плотности такого типа. В главе 3 изучаются числовые характеристики случайных вели- величин. Сначала дается определение математического ожидания и изу- изучаются основные свойства математических ожиданий. Потом дается определение моментов второго порядка и изучаются их свойства. По- После этого определяются моменты любых порядков для действитель- действительных случайных величин. Кроме моментов, для действительных ска- скалярных случайных величин даются понятия медианы и квантилей. Глава заканчивается изучением одномерного нормального распреде- распределения. В главе 4 изучаются распределения и условные распределения проекций случайного вектора. Выводятся формулы для определения плотности проекции случайного вектора и ее условной плотности при данном значении проекции случайного вектора на дополнительное подпространство по данной плотности случайного вектора. Даются понятия зависимости и независимости случайных величин. Опреде- Определяются условные моменты. Изучаются многомерное нормальное рас- распределение и характеристические функции случайных величин.
Из предисловия к первому изданию В главе 5 излагаются методы нахождения распределений функции случайных величин по данным распределениям величин-аргументов. Рассматриваются общий метод определения функций распределения функций случайных величин, два метода определения плотностей — метод сравнения элементов вероятности и метод 5-функций — и ме- метод определения характеристических функций. Дается доказатель- доказательство предельной теоремы для сумм независимых случайных величин в случае одинаково распределенных слагаемых. В качестве примеров применения общих методов приводится вывод основных распределе- распределений, встречающихся в математической статистике. В главе 6 сначала дается постановка основной задачи математи- математической статистики — задачи оценивания неизвестных вероятностей событий, распределений случайных величин и их параметров. За- Затем рассматриваются основные виды сходимости последовательно- последовательностей случайных величин, даются общие определения, касающиеся оце- оценок и доверительных областей, и излагаются основные методы нахож- нахождения доверительных областей для неизвестных параметров. После этого изучаются частота как оценка вероятности события и оценки моментов, получаемые с помощью выборочных средних. Глава закан- заканчивается изложением основных методов проверки гипотез о парамет- параметрах распределений. В главе 7 излагается общая теория оценок параметров распреде- распределений и основные методы нахождения оценок — метод максимума правдоподобия и метод моментов. Изучается рекуррентное оценива- оценивание корня уравнения регрессии и точки экстремума регрессии мето- методом стохастических аппроксимаций. В главе 8 излагаются основные методы оценивания плотностей и функций распределения случайных величин и методы приближенно- приближенного аналитического представления распределений. Излагаются мето- методы проверки гипотез о распределениях по критериям К. Пирсона, А.Н. Колмогорова и Н.В. Смирнова и рассматривается оценивание параметров распределений методом минимума х2. В последнем пара- параграфе дается краткое изложение метода статистического моделиро- моделирования как метода приближенных вычислений и как метода научного исследования. В главе 9 изучаются регрессионные статистические модели. Сна- Сначала излагается общий метод определения средней квадратической регрессии в заданном классе функций, в частности линейной средней квадратической регрессии. Потом излагаются методы оценивания ли- линейных регрессий (регрессионный анализ) и методы проверки гипотез о регрессиях. Наконец, из общей теории построения линейных регрес- регрессионных моделей выводятся основы теории дисперсионного анализа. В главе 10 изучаются статистические модели других видов. Сна- Сначала рассматриваются модели, описываемые разностными уравнения- уравнениями, в частности, модели авторегрессии, излагается метод оценивания
Из предисловия к первому изданию 9 последовательностей случайных величин, определяемых разностны- разностными уравнениями, и неизвестных параметров в разностных уравне- уравнениях и применение этого метода к линейным и нелинейным моде- моделям авторегрессии. Затем изучаются некоторые методы построения факторных моделей (элементы факторного анализа) и модели рас- распознавания. Показывается общность некоторых задач распознавания и задач проверки гипотез о параметрах распределений. В послед- последнем параграфе дается краткое изложение элементов статистической теории решений (методов построения моделей процессов принятия решений). Ссылки на литературу даны номерами соответствующих литера- литературных источников в приложенном в конце книги списке, заключен- заключенными в квадратные скобки. Автор ни в какой мере не претендует на полноту приложенного списка литературы. В нем указаны только те источники, на которые даются ссылки в тексте. Для удобства читателей формулировки всех основных результатов и предложений выделены курсивом. Начало и конец выводов, дока- доказательств и рассуждений, приводящих к определенным результатам, отмечены треугольными указателями \> и <|. В главах 6-10 дано лишь краткое изложение основных методов современной математической статистики конечномерных случайных величин. Для более глубокого и полного изучения математической статистики можно рекомендовать книги Г. Крамера [45], М. Кендалла и А. Стьюарта [35], С. Уилкса [103], СР. Рао [86], Т. Андерсона [1], а также книги по различным разделам математической статистики, на которые даны ссылки в главах 6-10. Для изучения математических основ теории вероятностей реко- рекомендуем книги М. Лоэва [51], Ж. Неве [64] и П.Л. Хеннекена и А. Тор- тра [119]. Для справок по математическому анализу рекомендуем книги В.И. Смирнова [96, т. 1, т. 2], Г.М. Фихтенгольца [109], СМ. Николь- Никольского [69], по линейной алгебре — книги В.И. Смирнова [96, т. 3, ч. 1], А.И. Мальцева [56], Л.Н. Головиной [18], по теории матриц — книги Ф. Гантмахера [16], П. Ланкастера [48], М. Маркуса и X. Минца [57]. Последний параграф главы 8 («Метод статистического моделиро- моделирования») и главы 9, 10 написаны при активном участии И.Н. Синицы- на, который помог также отредактировать всю рукопись. Без его помощи книга, вероятно, еще не скоро была бы написана. Считаю своим приятным долгом выразить И.Н. Синицыну глубокую приз- признательность за его неоценимую помощь. Глубокую благодарность приношу также Н.И. Андрееву и Н.М. Сотскому за ценные замечания и дискуссии, способствовавшие значительному улучшению рукописи, И.В. Синицыной, взявшей на се- себя труд неоднократной перепечатки различных вариантов рукописи, Н.С. Беловой, О.В. Тимохиной, А.С. Пиунихину, И.Д. Силуяновой и
10 Из предисловия к первому изданию Н.Т. Чулюкановой за помощь в оформлении рукописи, С.Я. Вилен- кину за консультации по вычислительным аспектам изложенных в книге методов и за организацию вычислений на ЭВМ для ряда примеров. Москва т> п тт Апрель 1978 г. В.С.Пугачев
Глава 1 ВЕРОЯТНОСТИ СОБЫТИЙ 1.1. Случайные явления 1.1.1. Примеры случайных явлений. Человек в своей прак- практической деятельности на каждом шагу встречается со случайными явлениями. Без них не протекает ни один процесс. Простейшим при- примером случайных явлений служат ошибки измерений. Мы знаем, что абсолютно точных измерений не существует, и чем точнее измери- измерительный прибор, тем это более заметно. Измеряя один и тот же пред- предмет, например, взвешивая его на аналитических весах много раз, мы всегда получаем близкие, но различные результаты. Это объясняется тем, что результат каждого измерения содержит случайную ошибку и результаты разных измерений содержат различные ошибки. Предви- Предвидеть, какова будет ошибка данного конкретного измерения, или даже определить ее после измерения принципиально невозможно. Произ- Производя экспериментальное исследование какого-либо явления и систе- систематизируя результаты в виде графических зависимостей, мы убежда- убеждаемся в том, что экспериментальные точки, если их достаточно много, никогда не ложатся на одну кривую, а всегда заполняют некоторую полосу, т.е. имеет место случайный разброс экспериментальных точек. Этот разброс объясняется как ошибками измерений, так и действием других случайностей. Вторым примером случайных явлений может служить рассеива- рассеивание снарядов. Снаряды никогда не ложатся в одну и ту же точку, да- даже тогда, когда прицеливание производится по одной точке. Казалось бы, условия одинаковы для всех выстрелов. Однако снаряды летят по разным траекториям и попадают в различные точки. Предвидеть за- заранее, в какую именно точку попадет данный снаряд, принципиально невозможно потому, что мы не можем абсолютно точно знать пара- параметры состояния атмосферы во всех точках траектории, по которой летит снаряд, а от этих параметров зависят аэродинамические силы и их моменты, действующие на снаряд. В качестве третьего примера случайных явлений укажем отказы различных технических устройств. Как бы совершенна ни была совре- современная техника, иногда происходят отказы тех или иных приборов. Отказ прибора — случайное явление. Невозможно заранее предви- предвидеть, откажет он или нет, и если откажет, то в какой момент времени. К случайным явлениям относятся также шумы при приеме радио- радиопередач. Так называемый «эфир» всегда насыщен различными элек-
12 Гл. 1, Вероятности событий тромагнитными излучениями, источниками которых служат электри- электрические разряды в атмосфере, движение атмосферного электричества, работающие электрические устройства, созданные человеком, и т.п. Поэтому, как бы мы ни настраивали приемник на излучение интере- интересующей нас станции, в него всегда попадают посторонние излучения, которые мешают слушать станцию, особенно удаленную. Это прояв- проявляется в том, что наряду с принимаемой передачей мы слышим в репродукторе шум и потрескивания. Это хорошо знакомое всем явле- явление тоже представляет собой случайное явление, так как невозмож- невозможно заранее предсказать, когда и какое постороннее электромагнитное излучение попадет в приемник. Избежать же попадания посторонних излучений в приемник принципиально невозможно, раз он предназна- предназначен для приема слабых электромагнитных излучений. Испытываемая нами иногда при полете на самолете «болтанка» — тоже случайное явление. Она представляет собой случайные колеба- колебания самолета, вызываемые случайными порывами ветра в неспокой- неспокойной атмосфере. 1.1.2. Природа случайных явлений. Как и всякие явления, случайные явления вызываются вполне определенными причинами. Все явления окружающего нас мира взаимно связаны и влияют од- одно на другое (закон всеобщей связи явлений). Поэтому каждое на- наблюдаемое явление связано причинной зависимостью с бесчисленным множеством других явлений и течение его зависит от бесчисленно- бесчисленного множества факторов. Проследить все это бесконечное множество связей и определить действие каждой из них принципиально невоз- невозможно. Поэтому, изучая то или иное явление, человек ограничивает- ограничивается лишь основными факторами, определяющими его течение, и пре- пренебрегает огромным количеством второстепенных явлений. Это да- дает возможность глубже проникнуть в сущность явления, установить его закономерность. Вместе с тем, поступая так, человек обедняет явление, схематизирует его. Иными словами, он заменяет изучаемое явление подходящей упрощенной его моделью. Вследствие этого лю- любой закон науки отражает сущность изучаемого явления, но он всегда значительно беднее, уже самого явления. Никакой закон не может ха- характеризовать явление всесторонне, во всей полноте и многообразии. Наблюдаемые в реальном явлении отклонения от закономерности, вы- вызываемые совместным действием бесчисленного множества неучтен- неучтенных факторов, и представляют собой случайные явления. При экспериментальном изучении какого-либо явления с целью установления его закономерностей приходится наблюдать его много- многократно в одинаковых условиях. При этом под одинаковыми условия- условиями мы понимаем одинаковые значения всех количественных характе- характеристик контролируемых факторов. Все неконтролируемые факторы будут при этом различными. Вследствие этого действие контролируе- контролируемых факторов будет практически одинаковым при разных наблюде-
1.1. Случайные явления 13 ниях одного и того же явления. В этом как раз и проявляются законы данного явления. Случайные же отклонения от закономерности, вы- вызванные действием неконтролируемых факторов, будут различными при разных наблюдениях, причем предвидеть заранее, какими они бу- будут при данном конкретном наблюдении, принципиально невозможно. Роль случайностей в разных явлениях различна. В некоторых яв- явлениях случайные отклонения от закономерностей настолько малы, что их можно не учитывать. Однако есть и такие явления, в кото- которых невозможно подметить никаких закономерностей, и случайность играет основную роль. Примером такого явления может служить дви- движение малой частицы твердого вещества, взвешенной в жидкости, так называемое броуновское двиэюение. Под действием толчков огромного количества движущихся молекул жидкости частица движется совер- совершенно беспорядочно, без всякой видимой закономерности. В подобных явлениях сама случайность является закономерностью. При многократном наблюдении случайных явлений в них самих можно заметить определенные закономерности. Изучив эти законо- закономерности, человек получает возможность в известной степени управ- управлять случайными явлениями, ограничивать их влияние, предсказы- предсказывать результаты их действия и даже целенаправленно использовать их в своей практической деятельности. Так, например, можно проек- проектировать измерительные системы, обладающие максимальной доступ- доступной точностью, радиоприемные устройства с максимальной помехоза- помехозащищенностью, обладающие минимальным уровнем шумов, системы управления движением летательных аппаратов, обеспечивающие наи- наибольшую возможную точность навигации или наименьшее действие «болтанки» на летательный аппарат. Можно также проектировать технические системы, обладающие заданной надежностью. 1.1.3. Массовые случайные явления. Из сказанного ясно, что закономерности случайных явлений могут проявляться только при их многократном наблюдении. Отсюда можно сделать вывод, что изучению поддаются только такие случайные явления, которые мож- можно, по крайней мере принципиально, наблюдать много, практически неограниченное число раз. Такие случайные явления называются мас- массовыми. Здесь следует заметить, что для изучения массовых случай- случайных явлений нет никакой необходимости в том, чтобы все их мож- можно было фактически наблюдать много раз. Изучив закономерности простейших случайных явлений и построив на основе этого изучения соответствующую теорию, можно после этого теоретически изучать и более сложные случайные явления, в том числе и такие, которые не поддаются непосредственному наблюдению (но которые принципи- принципиально мыслимо наблюдать неограниченное число раз). Так, например, в процессе проектирования космического корабля, предназначенно- предназначенного для одного-единственного полета, можно исследовать надежность всего комплекса средств, обеспечивающих полет, произвести их рас-
14 Гл. 1. Вероятности событий чет так, чтобы получить практическую уверенность в том, что все эти средства будут работать безотказно и полет пройдет благополуч- благополучно. Сила науки в том и состоит, что, будучи основана на небольшом числе простейших положений, взятых из непосредственного наблюде- наблюдения, она позволяет открывать и предсказывать новые факты теоре- теоретическим путем, без непосредственных наблюдений. 1.1.4. Предмет теории вероятностей. Изучением закономер- закономерностей массовых случайных явлений занимается особая математиче- математическая наука — теория вероятностей. Методы теории вероятностей, называемые вероятностными или статистическими, дают возмож- возможность производить расчеты, позволяющие делать определенные прак- практические выводы относительно случайных явлений. Как и всякая прикладная наука, теория вероятностей нуждается в исходных экс- экспериментальных данных для расчетов. Раздел теории вероятностей, изучающий методы обработки результатов опытов и получения из них необходимых данных, называется математической статистикой. Теория вероятностей является мощным инструментом исследова- исследования, и поэтому она находит большое число самых разнообразных применений в различных областях науки и инженерной практики. Об- Области ее применения непрерывно расширяются. В прошлом веке тео- теория вероятностей получила применение в теории измерений, в теории стрельбы и в физике. В нашем веке она постепенно проникла в аэроди- аэродинамику и гидродинамику, радиотехнику, теорию управления, динами- динамику полета, теорию связи, строительную механику, теорию механизмов и машин, теорию волнения моря и качки кораблей, метеорологию и во многие другие области знания. Сейчас трудно назвать отрасль науки, которая не пользовалась бы вероятностными методами. В современ- современной теории процессов управления, в теоретической радиотехнике тео- теория вероятностей стала основным инструментом исследований. Вся теория современных сложных систем и процессов управления основа- основана на применении статистических методов. Теория вероятностей слу- служит фундаментом для теории надежности технических систем и для многих других прикладных научных теорий. Этот процесс непрерывного расширения областей применения тео- теории вероятностей вполне естествен и легко объясняется. Дело в том, что в начале развития каждой отрасли науки человек стремится от- открыть основные законы этой науки и ему достаточно довольно гру- грубого совпадения результатов расчета с данными опытов. Кроме то- того, техника эксперимента на начальной стадии несовершенна и не может обеспечить высокую точность измерений. По мере развития науки требования к точности расчетов повышаются, техника экспе- эксперимента совершенствуется, и случайные явления, которыми можно было пренебрегать в начале развития данной отрасли науки, начина- начинают играть все более и более значительную роль. В результате старая теория начинает во многом расходиться с экспериментальными дан-
1.2. Статистический подход к описанию случайных явлений 15 ными и возникает необходимость обратиться к теории вероятностей. Теория вероятностей во всех таких случаях неизменно дает новую теорию, более точно описывающую изучаемые явления и обеспечива- обеспечивающую совпадение результатов теоретических расчетов с эксперимен- экспериментальными данными. Так случилось в начале тридцатых годов с тео- теорией турбулентности в аэродинамике и в сороковых годах с теорией автоматического управления и радиотехникой, а потом и с другими прикладными научными теориями. Особенность вероятностных методов состоит в том, что они рас- рассматривают исследуемое явление в целом, изучают результаты сово- совокупного действия всех причинных связей, которые невозможно про- проследить по отдельности. 1.2. Статистический подход к описанию случайных явлений 1.2.1. Опыт, событие, случайная величина. Исходным пунк- пунктом для построения теории вероятностей, как и любой другой тео- теоретической науки, служат некоторые экспериментальные факты, на основе которых формируются соответствующие абстрактные поня- понятия. Чтобы рассказать об этих фактах, необходимо ввести некоторые термины. Будем называть опытом наблюдение какого-нибудь явления при выполнении некоторого комплекса условий и действий, который дол- должен каждый раз строго выполняться при повторении данного опыта. Наблюдение того же явления при другом комплексе условий и дейст- действий будет уже другим опытом. Результаты опыта можно характеризовать качественно и коли- количественно. Качественная характеристика опыта состоит в регистрации како- какого-нибудь факта, т.е. в определении того, обладают результаты опыта каким-либо свойством или нет. Любой такой факт называется собы- событием. При этом говорят, что «событие появилось (произошло)» или «событие не появилось (не произошло)» в результате опыта. Примерами событий могут служить отказ прибора в данном ин- интервале времени, попадание и промах при выстреле, получение т по- попаданий при п выстрелах. События обозначаются прописными латинскими буквами, обычно начальными, например А, В, С. Количественная характеристика опыта состоит в определении зна- значений некоторых величин, полученных в результате опыта. Такие ве- величины, которые могут принимать в результате опыта различные зна- значения, причем до опыта невозможно предвидеть, какими именно они будут, называются случайными величинами. Примерами случайных величин могут служить ошибки и резуль- результаты измерений, время безотказной работы прибора или системы,
16 Гл. 1. Вероятности событий рост и вес наугад выбранного человека, координаты точки попадания (разрыва снаряда) при выстреле, число попаданий при п выстрелах. Мы будем обозначать случайные величины прописными буквами, преимущественно из конца латинского алфавита, а их конкретные значения — соответствующими малыми буквами. Например, случай- случайные величины будем обозначать X, У, Z, а их конкретные значения, получаемые в результате опыта, — соответственно ж, у, z. Эти зна- значения называются возможными значениями или реализациями слу- случайных величин X, У, Z. С каждой случайной величиной можно связать различные собы- события. Типичным событием, связанным со случайной величиной, явля- является событие, состоящее в том, что эта случайная величина примет в результате опыта какое-нибудь значение, принадлежащее данному множеству, безразлично какое именно. Такое событие коротко назы- называется попаданием случайной величины в данное множество. 1.2.2. Частота события. Естественно сравнивать события по тому, как часто каждое из них появляется при повторении данного опыта. Если при повторении опыта одно событие появляется чаще, чем другое, то говорят, что первое вероятнее второго. Ясно, что для сравнения событий необходимо предположить, что данный опыт можно производить сколько угодно раз. В дальнейшем будем гово- говорить для краткости «производится п опытов» вместо «данный опыт производится п раз». Частотой события называется отношение числа его появлений к числу всех произведенных опытов. Таким образом, если при п опытах событие А появилось га раз, то его частота в данной серии опытов равна т/п. 1.2.3. Условные частоты. В некоторых случаях частоту собы- события приходится определять при дополнительном условии, что произо- произошло некоторое другое событие. Чтобы определить частоту события А при условии, что произошло событие В, необходимо учитывать не все произведенные опыты, а только те из них, в которых произошло со- событие В. Таким образом, если из п произведенных опытов событие В появи- появилось в га опытах, причем в к из этих га опытов появилось и событие А, то частота события А при условии, что произошло событие В, рав- равна к/т. Эта частота, как правило, не совпадает с частотой события А, вычисленной с учетом всех п произведенных опытов. Частота события А, вычисленная с учетом только тех из произве- произведенных опытов, в которых появилось событие В, называется условной частотой события А относительно события В. 1.2.4. Свойства частот. Событие называется невозможным и обозначается 0, если оно не может произойти в результате данного опыта. Событие называется достоверным и обозначается П, если оно
1.2. Статистический подход к описанию случайных явлений 17 обязательно происходит в результате данного опыта, т.е. не может не произойти. События Ai,..., Ап называются несовместными в данном опыте, если в результате этого опыта никакие два из них не могут появиться вместе. Например, попадание и промах при одном выстреле, выпаде- выпадение 1 очка, 2 очков и 3 очков при одном бросании игральной кости. Два события, несовместные в одном опыте, могут оказаться сов- совместными в другом опыте. Например, попадание и промах несовмест- несовместны при одном выстреле. Однако они совместны, если за один опыт считаются два выстрела. После приведенных определений можно перейти к изучению ос- основных свойств частот событий. 1) Частота любого события представляет собой неотрицательное число, не превосходящее 1, причем частота невозможного события равна 0, а частота достоверного события равна 1. 2) Частота появления одного из несовместных событий, безразлич- безразлично какого именно, равна сумме их частот. Это следует непосредствен- непосредственно из того, что число появлений сложного события, представляющего собой появление какого-нибудь из несовместных событий, равно сум- сумме чисел появлений этих событий. 3) Частота совместного появления двух событий А и В равна ча- частоте одного из них, умноженной на условную частоту другого. Для доказательства достаточно заметить, что если при п опытах А появи- появилось га раз, а В — к раз, причем I раз вместе с А, а к - / раз без А, то частота совместного появления А ж В равна l/п, частота А рав- равна га/n, а условная частота В относительно А равна 1/т. Очевидно, что если частота события в данной серии опытов рав- равна 0 (или 1), то из этого не следует, что событие невозможно (до- (достоверно). Так, например, если при пяти бросаниях монеты герб не появился ни разу, то из этого не следует, что появление герба невоз- невозможно. 1.2.5. Вероятность события. Замечательный эксперименталь- экспериментальный факт — основная закономерность, наблюдаемая в массовых слу- случайных явлениях, — устойчивость частот событий при большом числе опытов. Если при малом числе опытов частота события принимает со- совершенно случайно различные значения, то при неограниченном уве- увеличении числа опытов она проявляет тенденцию стабилизироваться около некоторого характерного для данного события значения. Допустим, что некоторый опыт неограниченно повторяется и по- после каждого опыта вычисляется частота события с учетом всех уже произведенных опытов. При этом обнаруживается, что вначале, ко- когда число произведенных опытов мало, случайный результат каждого опыта существенно изменяет частоту события. Однако по мере возрас- возрастания числа опытов влияние результата каждого нового опыта умень- уменьшается. Так, например, результат тысячного опыта изменяет частоту
18 Гл. 1. Вероятности событий меньше, чем на 0,001. Частота как бы стремится перестать быть слу- случайной и стабилизироваться около некоторого значения. Устойчивость частот событий дает основание считать, что с каж- каждым событием связано некоторое число — вероятност/ь этого собы- события, — около которого стремится стабилизироваться его частота. Так, например, частота появления герба при бросании монеты, очевидно, должна стабилизироваться около 1/2. Следовательно, вероятность по- появления герба равна 1/2. Вероятность события А обозначается Р(А). Это, конечно, не ис- исключает применения сокращенных обозначений, например Р(А) = р и т.п. Понятие вероятности события является первичным в теории ве- вероятностей и поэтому не нуждается в определении. Оно представ- представляет собой результат абстракции, необходимой для построения лю- любой теории. Отвлекаясь от сложных и несущественных колебаний частоты при неограниченном повторении опытов и оставляя основ- основную, существенную закономерность, наблюдаемую в данном явле- явлении, — устойчивость частоты, — мы и вводим абстрактное понятие вероятности события. Вероятность события в данном опыте — его объективная харак- характеристика. Она имеет вполне определенное значение независимо от того, собираемся мы производить опыты или нет. 1.2.6. Выборочное среднее. Основная задача эксперименталь- экспериментального изучения случайных величин состоит в том, чтобы установить, как распределяются экспериментальные точки на числовой оси, на плоскости или в пространстве. Совокупность значений наблюдаемых величин, полученных в ре- результате опытов, называется выборкой. Получив выборку, необходимо прежде всего определить положе- положение значений случайной величины на числовой прямой и их рассеи- рассеивание, т.е. размеры занимаемой ими области. За характеристику положения экспериментальных точек обычно принимают среднее арифметическое значение случайной величины, называемое выборочным средним. Предположим, что случайная ве- величина X приняла в результате п опытов значения xi,... ,хп. Тогда выборочное среднее определяется формулой п s = ±^>. (l.i) k=l 1.2.7. Выборочные дисперсия и среднее квадратическое отклонение. За экспериментальную характеристику рассеивания значений скалярной случайной величины обычно принимают среднее арифметическое значение квадратов отклонений экспериментальных значений случайной величины от выборочного среднего. Эта харак- характеристика называется выборочной дисперсией случайной величины.
1.2. Статистический подход к описанию случайных явлений 19 Если в результате п опытов случайная величина X приняла зна- значения xi,..., жп, то ее выборочная дисперсия определяется формулой ¦к-х)\ A.2) Недостатком выборочной дисперсии с практической точки зре- зрения является отсутствие наглядности — она имеет размерность квад- квадрата случайной величины. Поэтому за практическую характери- характеристику рассеивания значений случайной величины обычно принима- принимают выборочное среднее квадратическое отклонение, представляющее собой положительный квадратный корень из выборочной диспер- дисперсии, сг* = + yfd*. Для практических расчетов формуле A.2) часто придают более удобную форму. Имея в виду, что на основании A.1) п п п п k=l k=l k=l k=l можем переписать A.2) в виде п d* = а*2 = — У^ж2 — ж2. A-3) При этом, чтобы избежать разности больших чисел, в случае необ- необходимости из всех экспериментальных значений х\,..., хп вычитают произвольное число, расположенное в середине интервала, занимае- занимаемого этими значениями (правило «ложного нуля»). 1.2.8. Метод наименьших квадратов. При совместном изуче- изучении нескольких случайных величин, кроме их выборочных средних и дисперсий, необходимо определить еще какие-то характеристики за- зависимости между ними. Для отыскания приближенных зависимостей между изучаемыми экспериментально величинами обычно пользуются методом наимень- наименьших квадратов. Предположим, что требуется найти зависимость между наблю- наблюдаемыми величинами хну (не обязательно случайными). Для это- этого обычно выбирают подходящую функцию, зависящую от некото- некоторых параметров, (р(х\ ci,..., сдг), например, линейную комбинацию N определенных функций с неопределенными коэффициентами, и под- подбирают параметры с\,..., сдг так, чтобы сумма квадратов ошибок приближенной зависимости у — ср(х; ci,..., сдг) во всех эксперимен- экспериментальных точках была минимальной: п 5 = ^^[Ук - (р(хк, ci,... ,сдг)]2 = min. В этом и состоит метод наименьших квадратов.
20 Гл. 1. Вероятности событий Для минимизации S можно пользоваться различными методами отыскания экстремума функции в зависимости от способа задания функции и сложности ее вычисления. В частности, можно приме- применить обычный метод приравнивания нулю первых производных S по ci,..., с/у и решения полученных уравнений относительно с\,... ..., сдг с последующим исследованием поведения функции 5 в окрест- окрестности найденного решения. 1.2.9. Выборочные ковариация и коэффициент корреля- корреляции. Предположим, что случайные величины X и Y приняли в ре- результате п опытов пары значений xi, у\,..., жп, уп. Чтобы найти под- подходящую характеристику зависимости между величинами X и Y, подберем методом наименьших квадратов наилучшую линейную за- зависимость Y от X вида у -у = с(х -х), A.4) где х и у — выборочные средние величин X и Y соответственно. Для определения коэффициента с в A.4) методом наименьших квадратов приравниваем нулю производную по с суммы квадратов ошибок во всех экспериментальных точках k=l Решив полученное уравнение относительно с, находим в силу A.2) п с = ^Ц^ = ^7 ^2(хк - х)(Ук - V). к=1 Величина п к=1 называется выборочной ковариацией величин 1иУ. За меру зависи- зависимости между X и Y принимают безразмерную величину * _ kxy _ кху , . называемую выборочным коэффициентом корреляции величин X и Y. Так как п п п п ^2(хк -х)(ук - у) = ^2,хкУк -х^ук-у^хк+пху = к=1 к=1 к=1 к=1 k=l
1.2. Статистический подход к описанию случайных явлений 21 то формулу A.5) можно переписать в виде A.7) k=i Этой формулой обычно и пользуются на практике. При этом в случае необходимости из координат всех экспериментальных точек вычитают соответствующие координаты какой-нибудь точки, расположенной в середине области, занятой точками, чтобы избежать разностей близ- близких величин. Пять чисел ж, у, d*, d*, k*y rxy служат гру- грубой характеристикой распределения экспериментальных точек на плоскости. Точно так же распределение экспериментальных точек в га-мерном пространстве, полученное в результате совместного наблю- наблюдения га случайных величин, можно характеризовать выборочными средними, дисперсиями (средними квадратическими отклонениями) и ковариациями (коэффициентами корреляции). 1.2.10. Гистограмма. Чтобы получить более полное представ- представление о распределении экспериментальных точек, обычно разбива- ъ g replacements Рис. 1.1 ют занятую ими область на интервалы (прямоугольники, паралле- параллелепипеды) и вычисляют частоты попадания в эти интервалы (пря- (прямоугольники, параллелепипеды). Разделив эти частоты на длины ин- интервалов (площади прямоугольников, объемы параллелепипедов), по- получают относительные плотности экспериментальных точек в соот- соответствующих частях области, занятой экспериментальными точками. Полученное таким образом распределение экспериментальных точек можно изобразить графически, построив на каждом интервале прямо- прямоугольник, высота которого равна значению относительной плотности экспериментальных точек в этом интервале (рис. 1.1). Полученная в результате ступенчатая кривая называется гистограммой.
22 Гл. 1. Вероятности событий При вычислении гистограммы интервалы (прямоугольники, па- параллелепипеды) рекомендуется выбирать так, чтобы в каждом ин- интервале было по меньшей мере 10 точек (для обеспечения этого мож- можно брать интервалы разной длины). Легко понять, что гистограмму можно построить только при достаточно большом числе эксперимен- экспериментальных точек (для одномерной гистограммы не меньше 100). 1.2.11. Группированная выборка. Если одновременно с по- построением гистограммы определяются выборочные средние, диспер- дисперсии и ковариации, то для упрощения вычислений обычно считают все экспериментальные точки в данном интервале (прямоугольнике) сов- совпадающими с его центром. Полученная таким путем новая выборка называется группированной выборкой. Если пользоваться группированной выборкой, то формулы A.1)- A.3), A.5) и A.7) можно записать в виде г х —- у Pi/Xy^ г рЛх» ~ %? = ^Pvxl - ж2, A.8) г/=1 v=\ где г — число интервалов, содержащих экспериментальные точки, на каждой из осей х,у, х±,..., жг, yi,..., уг — координаты центров ин- интервалов на соответствующих осях, pi,... ,р^ — частоты попадания в интервалы оси ж, а р^ (//, v — 1,..., г) — частоты попадания в пря- прямоугольники, на которые разбита плоскость ху. Так же как частота события лежит в основе абстрактного понятия вероятности события, рассмотренные экспериментальные характери- характеристики случайных величин лежат в основе соответствующих абстракт- абстрактных понятий теории вероятностей. 1.3. Непосредственное определение вероятностей 1.3.1. Равновозможные исходы опыта. Приведенный в кон- конце п. 1.2.4 пример опыта с бросанием монеты показывает, что вероят- вероятности некоторых событий легко определяются непосредственно. Рас- Рассмотрим общую схему таких опытов. Допустим, что опыт имеет п возможных исходов, так что каждое конкретное его осуществление обязательно заканчивается одним и только одним из этих п исходов, причем нет никаких оснований считать, что при неограниченном по- повторении опыта какой-нибудь один исход может появляться чаще, чем
1.3. Непосредственное определение вероятностей 23 любой другой. В этом случае вероятность каждого исхода, очевидно, равна 1/п, так как их частоты должны стабилизироваться при повто- повторении опыта около одного и того же числа, а в сумме они должны дать 1. Иными словами, данный опыт имеет п равновозможных ис- исходов. В нашем примере с бросанием монеты таких равновозможных исходов два — появление герба и появление цифры, — и вероятность каждого из них равна 1/2. 1.3.2. Схема случаев. Допустим теперь, что при п равновоз- равновозможных исходах опыта нас интересует некоторое событие А, связан- связанное с т из этих п исходов так, что при любом из этих т исходов оно обязательно появляется и не может появиться ни при одном из остальных п — т исходов. В таком случае, как легко сообразить, ве- вероятность события А равна отношению т/п. Принято говорить, что в данном опыте имеется п случаев и из них т благоприятствуют со- событию А. Тогда вероятность события А равна отношению числа слу- случаев, благоприятствующих событию А, к числу всех равновозможных несовместных случаев: Р(А) = т/п. Пример 1.1. Опыт состоит в бросании игральной кости, имеющей форму куба, на каждой грани которого проставлено соответствующее чис- число очков от 1 до 6. В данном опыте имеется 6 случаев: появление одного очка, двух, трех, четырех, пяти и шести. Так как нет никаких оснований предполагать, что, например, два очка могут появляться чаще, чем пять очков; поэтому вероятность появления каждого данного числа очков, на- например двух, равна 1/6. Рассмотрим теперь событие А — появление чет- четного числа очков, событие В — появление числа очков, кратного трем, и событие С — появление не меньше трех очков. Событию А благопри- благоприятствуют три случая — появление двойки, четверки и шестерки; поэтому Р(А) = 3/6 = 1/2. Событию В благоприятствуют два случая — появление тройки и шестерки; поэтому Р(В) = 2/6 = 1/3. Событию С благоприят- благоприятствуют четыре случая — появление тройки, четверки, пятерки и шестерки; поэтому Р{С) = 4/6 = 2/3. Пример 1.2. В урне 10 одинаковых шаров. Из них 3 белых и 7 черных. Шары тщательно перемешивают и после этого из урны вынимают один шар. Найти вероятность появления белого шара. В данном случае нет никаких оснований предполагать, что при повто- повторении опыта какой-нибудь определенный шар будет появляться чаще, чем любой другой. Например, если шары пронумерованы от 1 до 10 так, что определить номер шара на ощупь невозможно, то нет никаких оснований предполагать, что шар № 1 может появляться при повторении опыта чаще, чем шар № 2, шар № 3 и т.д. Поэтому в данном опыте имеются 10 возможных случаев. Из них 3 благоприятствуют появлению белого шара, а 7 — появле- появлению черного шара. Поэтому вероятность появления белого шара равна 0,3, а вероятность появления черного шара равна 0,7. 1.3.3. Геометрические вероятности. В некоторых случаях, когда опыт имеет бесконечное (несчетное) множество равновозмож- равновозможных исходов, вероятности некоторых событий можно определять гео-
24 Гл. 1. Вероятности событий 2а replacements метрически как отношения длин отрезков, или площадей, или объе- объемов соответствующих фигур. Пример 1.3. Поезда метро идут в данном направлении с интервалом 1 мин. Какова вероятность того, что пассажиру придется ждать поезда не больше 20 с? В данном случае нет никаких оснований считать какой-нибудь один момент прихода пассажира в интервале между поездами более вероятным, чем любой другой. Интересующему нас событию А — ожиданию меньше 20 с — благоприятствуют все моменты интервала длительностью 1 мин, отстоящие от его конца меньше чем на 20 с. Поэтому вероятность события А можно определить как отношение длительностей двух интервалов времени: Р(А) = 20/60 = 1/3. Пример 1.4. Космический аппарат пересекает поток небольших ме- метеоритов. Некоторые части аппарата являются уязвимыми для метеоритов, поэтому столкновение любой из этих частей с метеоритом ведет к разру- разрушению космического аппарата и гибели экипажа. Столкновение с любой другой частью аппарата не опасно, и аппа- аппарат может продолжать полет. Площадь про- проекции аппарата на плоскость, перпендикуляр- перпендикулярную относительным траекториям метеоритов равна s = 100 м2. Площадь проекции уязви- уязвимых частей аппарата на ту же самую плос- плоскость равна si=12m2. Найти вероятность катастрофы р, когда один из метеоритов уда- ударяется об аппарат. В этом случае существует бесконечное множество равновозможных исходов опы- опыта — попадание метеорита в различные точ- точки проекции аппарата. Поэтому вероятность катастрофы может быть вычислена как от- отношение площади проекции уязвимых частей к площади проекции всего аппарата. В результате получим р = s\/s = 12/100 = 0,12. Пример 1.5. На плоскость с нанесенными на ней параллельными прямыми на расстоянии 2а одна от другой случайно бросается прямоли- прямолинейный отрезок длины 21. Найти ве- вероятность того, что отрезок пересе- пересечет хотя бы одну из прямых (задача Бюффона об игле). Положение отрезка относитель- относительно прямых можно характеризовать двумя координатами: расстоянием х его центра от ближайшей прямой, 0 ^ х ^ а, и углом в его наклона к прямым, 0 ^ в ^ тг/2 (рис. 1.2). Оче- Очевидно, что отрезок пересекает хотя бы одну из прямых тогда и только тогда, когда х ^ /sin(9. Если рассматривать в и х как прямоугольные декартовы 2а Рис. 1.2 Рис. 1.3
1.3. Непосредственное определение вероятностей 25 координаты точки на плоскости, то область всех возможных пар @, х) будет представлять собой прямоугольник со сторонами а и тг/2 (рис. 1.3). Собы- Событие А — выполнение неравенства х ^ Ism в — произойдет тогда и только тогда, когда точка ((9, х) попадет в заштрихованную область, ограничен- ограниченную снизу синусоидой х = Ism в (на рис. 1.3 показан случай I < а). Считая все положения точки ((9, х) в пределах прямоугольника равновероятными, можем вычислить искомую вероятность пересечения отрезка с одной из прямых как отношение площади заштрихованной области к площади пря- прямоугольника. При I ^ а это даст Р(А) = 21/тга. Предлагаем читателю само- самостоятельно решить эту задачу при I > а. В этом случае можно поставить задачу определения вероятностей пересечения двух, трех и т.д. прямых. 1.3.4. Вычисление условных вероятностей в схеме слу- случаев. Точно так же вычисляются в таких случаях условные вероят- вероятности. Пример 1.6. В урне 10 шаров — 3 белых и 7 черных. Один шар вынули и отложили в сторону. Он оказался белым. Найти вероятность того, что второй вынутый шар окажется белым. Пусть событие А — первый вынутый шар оказался белым, В — второй вынутый шар оказался белым. В данном случае нас интересует условная вероятность события В относительно А. Учитывая условие — появилось событие Д т.е. один шар вынут и он оказался белым, — приходим к выводу, что имеется 9 возможных случаев и из них 2 благоприятствуют событию В. Поэтому Р(В | А) = 2/9. Пример 1.7. Видоизменим теперь условия предыдущего примера. Предположим, что один шар из урны вынули и, не глядя, положили в другую урну. Найти вероятность того, что второй вынутый шар окажет- окажется белым. Здесь, несмотря на то, что один шар из урны вынут, возможны 10 слу- случаев, так как неизвестно, какой именно шар отсутствует. Из них 3 благопри- благоприятствуют появлению белого шара. Следовательно, вероятность появления белого, шара остается равной 3/10. Чтобы сделать это совершенно ясным, предположим, что не один, а 9 из 10 шаров переложили, не глядя, в другую урну. В урне остался один шар, но он может быть любым из 10. Поэтому, несмотря на то, что в урне всего один шар, возможных случаев 10, а бла- благоприятствующих появлению белого шара 3. Таким образом, несмотря на удаление части шаров, речь в данной за- задаче идет о безусловной вероятности появления белого шара. Объясняется это тем, что нет никакого дополнительного условия для данного опыта, вследствие чего вероятность появления белого шара не изменилась после удаления из урны части шаров. Условием, изменяющим вероятность собы- события, при котором она заменяется условной вероятностью, всегда служит появление некоторого события или предположение о том, что это событие появилось. Поэтому удаления части шаров недостаточно для того, чтобы можно было говорить об условных вероятностях. Необходимо еще произве- произвести наблюдение и определить, какие именно шары удалены из урны, или сделать предположение о том, какие шары отсутствуют. Пример 1.8. В урне 10 шаров — 3 белых и 7 черных. Один шар из урны вынут, он оказался белым. После этого шар вернули в урну и все
26 Гл. 1. Вероятности событий шары тщательно перемешали. Найти вероятность того, что во второй раз появится белый шар. В данном случае имеется вполне определенное условие — появилось событие А — первый вынутый шар оказался белым. Поэтому можно гово- говорить об условной вероятности события В — второй вынутый шар оказался белым. Однако число возможных случаев осталось равным 10, а число слу- случаев, благоприятствующих событию В, осталось равным 3. Следовательно, в данном случае Р(В\А) = Р(В) = 3/10. AUB 1.4. Действия над событиями 1.4.1. Объединение двух событий. Объединением или сум- суммой двух событий А и В называется сложное событие, состоящее в появлении хотя бы одного из событий А и В. Объединение собы- событий А и В обозначается A U В. Для несовместных событий А и В приме- применяется также обозначение А + В. Для иллюстрации на рис. 1.4 пока- показано объединение двух событий А и В для случая, когда событие А представ- представляет собой попадание случайной точки в область, обозначенную буквой Л, а со- событие В — попадание в область, обозна- обозначенную буквой В. Событие A U В в этом случае представляет собой попадание в область, граница которого обведена жирной линией. На рис. 1.4 пока- показан случай, когда области А и В имеют общую часть (пересекаются), Рис. 1.4 AUB AUB Рис. 1.5 Рис. 1.6 т.е. когда события А и В совместны. На рис. 1.5 и 1.6 показаны слу- случаи, когда области А и В не пересекаются, т.е. когда события А и В несовместны. 1.4.2. Пересечение двух событий. Пересечением или произ- произведением двух событий А и В называется их совместное появление. Пересечение событий А и В обозначается А П В или, короче, АВ.
1.4- Действия над событиями 27 На рис. 1.4 дана иллюстрация пересечения событий А и В в слу- случае, когда событие А представляет собой попадание в область Л, а событие В — попадание в область В. Пересечение А В событий А и В представляет собой попадание в отмеченную двойной штриховкой об- общую часть областей А и В. Приведенные определения объединения и пересечения событий легко распространяются на любое число событий. 1.4.3. Объединение и пересечение любого множества со- событий. Объединением или суммой множества событий AS7 s ? S, которое обозначается U As или ^ As (для несовместных собы- sts ses тий), называется появление хотя бы одного из событий As, sGS. Пересеченглем или произведением множества событий As, sG5, которое обозначается П AS1 называется совместное появление всех ses этих событий. Множество S значений индекса s в этих определениях может быть конечным, счетным или несчетным. Если, например, событие As представляет собой попадание слу- случайной точки в интервал (s,s + 1) числовой оси, a S — конечное мно- множество {0,1/2,1, 3/2, 2}, то U As представляет собой попадание в ко- конечное объединение интервалов @,1) U A/2,3/2) U A, 2) U C/2, 5/2) U B,3), т.е. в интервал @,3). Если S — счетное множество {2~р}^10, то U As представляет собой попадание в счетное объединение интер- ses (X) валов U B~р,2~р + 1), т.е. в интервал @,2). Наконец, если S — ин- тервал @,1/2), то U As представляет собой попадание в несчетное ses объединение интервалов (s,s + 1) при всех s G @,1/2), т.е. в интер- интервал @,3/2). 1.4.4. Свойства объединений и пересечений. Операции объединения и пересечения событий обладают рядом свойств, анало- аналогичных свойствам сложения и умножения чисел. Например, объеди- объединение и пересечение событий коммутативны: AUB = BUA, АВ = В А. Объединение и пересечение событий ассоциативны: (A U В) U С = A U (В U С) = (A U С) U В = A U В U С, (АВ)С = А(ВС) = (АС) В = ABC.
28 Гл. 1. Вероятности событий Наконец, объединение и пересечение событий дистрибутивны: Все эти свойства непосредственно следуют из определений объе- объединения и пересечения событий. Так, (AU В)С представляет собой совместное появление события С с событием А, или с событием В, или с А и В вместе. Событие AC U ВС тоже состоит в появлении или С вместе с Л, или С вместе с 5, или С вместе с АВ. Однако не все законы сложения и умножения чисел справедли- справедливы для объединения и пересечения событий. Так, например, собы- события A U А и А А, очевидно, совпадают с А. Следовательно, A U А = АА = А для любого события А. 1.4.5. Противоположные события. Для дальнейшего изуче- изучения действий над событиями необходимо ввести еще понятие проти- противоположных событий. Событием, противоположным событию А, называется непоявле- непоявление Л, которое обозначается А. _ Легко видеть, что событие А противоположно событию А: 2 = А. Примерами противоположных событий могут служить попадание и промах при выстреле, отказ прибора в данном интервале времени и его исправная работа в том же интервале времени. Очевидно, что противоположные события несовместны, а их объе- объединение представляет собой достоверное событие: Ясно также, что AU0 = A, Л0 = 0, 4Uft = ft5 Ап = А. 1.4.6. Свойства действий над событиями. Легко видеть, что для любых событий А и В событие A U В противоположно собы- событию АВ: AUB = АВ. Действительно, A U В есть появление хотя бы одного из событий А и .??, что равноценно непоявлению АВ. И вообще для любого мно- множества событий As, s ? 5, Uis=fl As. s?S sES
1.4- Действия над событиями 29 Событие А В представляет собой совместное появление А и В, т.е. противоположно появлению хотя бы одного из событий А или В: = AUB. И вообще для любого множества событий As, s ? S, П3.,= U Aa. ses ses Последние четыре формулы выражают принцип двойствен- двойственности: операции объединения и пересечения меняются местами при переходе к противоположным событиям. Из установленных свойств операций пересечения и объединения следует, что для любых событий А и В А = Аи = А(В U В) = АВ U АВ. A.9) Эта формула дает разложение любого события А на два непересе- непересекающихся события. Если событие А обязательно происходит при появлении некоторо- некоторого другого события В, то говорят, что событие В представляет собой часть или подсобытие события А и пишут В С А или A D В. Если события А и В могут появиться или не появиться только вместе, т.е. В С А и А С В, то они называются эквивалентными, что обозначают равенством А = В. Если В С А, то АВ = В и формула A.9) принимает вид A = BUAB. A.10) 1.4.7. Элементарные события. Читатель, знакомый с элемен- элементами теории множеств, легко заметит, что операции над события- событиями тождественны операциям над множествами. Эта аналогия между событиями и множествами объясняется тем, что каждое событие связано с определенным множеством исходов опыта так, что оно обязательно происходит при появлении одного из исходов, принад- принадлежащих этому множеству, и не происходит при появлении одного из и сходов, не принадлежащих этому множеству. Так, например, в схеме случаев п. 1.3.2 событие представляет собой объединение всех благо- благоприятствующих ему случаев. В схеме геометрических вероятностей п. 1.3.3 исходом каждого опыта является попадание в определенную точку, а каждое событие представляет собой попадание на определен- определенное множество точек. Чтобы поставить эти факты на строгую математическую основу, вводят понятие элементарного события.
30 Гл. 1. Вероятности событий Элементарным событием называется событие, не содержащее ни- никаких подсобытий, кроме невозможного события и самого себя. Ины- Иными словами, элементарное событие представляет собой событие, кото- которое не разделяется на несовместные события, ни одно из которых не является невозможным. 1.5. Аксиомы теории вероятностей 1.5.1. Пространство элементарных событий. Мы пришли к понятию вероятности, отправляясь от понятия частоты события. По- Поэтому естественно считать, что вероятности должны обладать всеми свойствами частот, вытекающими из их определения. Для вероятно- вероятностей эти свойства в общем случае не могут быть выведены *). Поэто- Поэтому основные свойства вероятностей приходится принять как аксиомы. На основании изложенного в разд. 1.2 и 1.4 мы приходим к следую- следующей модели случайных явлений. С данным опытом связано некоторое множество элементарных событий, так что в результате опыта обяза- обязательно появляется одно и только одно элементарное событие. Кроме того, с данным опытом связано некоторое множество событий, для которых определены вероятности. Множество всех элементарных событий, связанных с данным опы- опытом, называется пространством элементарных событмй и обыч- обычно обозначается О. При этом любое элементарное событие — точка пространства О — обозначается буквой ио. Каждое событие представляет собой некоторое множество элемен- элементарных событий. В частности, любое элементарное событие со пред- представляет собой множество, состоящее из одного элемента (одноточеч- (одноточечное множество). Достоверное событие представляет собой множество всех элементарных событий О. Невозможное событие представляет собой пустое множество 0. 1.5.2. Поле событий. Множество событий, для которых опреде- определены вероятности, будем называть полем событий и обозначать 5?. Чтобы принятая модель случайных явлений могла служить для построения теории вероятностей, поле событий 5? должно обладать определенными свойствами. Во-первых, если вероятность определена для некоторого собы- события Л, то естественно потребовать, чтобы она была определена и для противоположного события А. Следовательно, множество У должно содержать вместе с_любым входящим в него событием А и противо- противоположное событие А, т.е. если i G У, то и i G У. *) Для вероятностей эти свойства можно вывести только в частном случае конечного числа равновозможных несовместных исходов опыта, рас- рассмотренном в п. 1.3.2.
1.5. Аксиомы теории вероятностей 31 Во-вторых, если вероятность определена для некоторых собы- событий А и В, то естественно потребовать, чтобы она была определена и для их пересечения АВ, чтобы можно было определить условные вероятности. Поэтому множество У должно содержать наряду с лю- любыми двумя входящими в него событиями А и В и их пересечение АВ, т.е. если А, В е У, то и АВ е У. Множество событий, обладающее перечисленными двумя свой- свойствами, называется алгеброй событий. Таким образом, поле собы- событий У должно быть алгеброй событий. Изучим основные свойства поля событий, вытекающие из его опре- определения как алгебры событий. Пусть А и В — любые два события, принадлежащие полю У. По определению противоположные события А и В и их пересечение А В также принадлежат полю У. Но тогда и событие А В, противополож- противоположное событию А В принадлежит полю У. Но событие, противополож- противоположное пересечению А В, согласно принципу двойственности совпадает с объединением событий, противоположных событиям А и .??, т.е. с со- событием AU В, А В = AU В. Следовательно, поле У содержит наряду с любыми двумя входящими в него событиями А и В и их объедине- объединение AU В. Из этого свойства следует, что поле событий У содержит до- достоверное событие О. Действительно, для любого события ЛеУ иАеУ. Следовательно, и AUA = U e У. В силу ассоциативности операций пересечения и объединения со- событий поле событий У содержит любые конечные пересечения и объединения входящих в него событий. Наконец, поле У содержит невозможное событие 0 как противо- противоположное достоверному событию О. Рассмотренные свойства поля достаточны для большей части при- применений теории вероятностей. Однако для решения некоторых слож- сложных задач, выдвигаемых практикой, необходимо потребовать, чтобы поле событий У обладало еще одним свойством, а именно, оно должно содержать не только конечные, но и все счетные объединения входя- входящих в него событий, т.е. ОО 1)АкеУ, если АкеУ {к = 1,2,...). к=1 Алгебра событий, обладающая таким свойством, называется а-алгеб- а-алгеброй или борелевским полем событий. Очевидно, что сг-алгебра содержит также все счетные пересечения входящих в нее событий. Это непосредственно вытекает из принципа двойственности для случая счетного множества событий.
32 Гл. 1. Вероятности событий В простейших задачах п. 1.3.2 все элементарные события принад- принадлежат полю событий У. В общем случае поле событий может содер- содержать, а может и не содержать элементарные события. 1.5.3. Аксиомы. Перейдем к основным аксиомам теории веро- вероятностей. Аксиома 1. Каждому событию А Е У соответствует неот- неотрицательное число — вероятность этого события Р(А). Аксиома 2. Вероятность достоверного события равна 1: = 1. Аксиома 3 (аксиома сложения вероятностей). Вероятность объединения несовместных событий равна сумме их вероятностей: п п р( U А{)=У^Р(А{), если АкАкф® при кфк. A.11) \г=1 / T~i. г=1 Это справедливо как для конечного числа событий А\,..., Anj так и для счетного множества событий {А^} (при п — оо) *). Для простейших задач теории вероятностей, к которым относят- относятся, в частности, все задачи с конечным множеством равновозможных исходов опыта, рассмотренные в п. 1.3.2, достаточно принять аксио- аксиому сложения вероятностей только для любого конечного множества событий А\,..., Ап. Однако уже для задач с геометрическими веро- вероятностями, рассмотренных в п. 1.3.3, несмотря на их простоту, необ- необходимо принять аксиому сложения вероятностей для любых счетных множеств событий {А&}. Построение теории вероятностей на осно- основе сформулированных трех аксиом принадлежит А.Н. Колмогорову, работы которого положили начало созданию современной теории ве- вероятностей как строгой математической науки [39, 40]. 1.5.4. Вероятность как функция множества — мера. По- Поскольку каждое событие iG У представляет собой множество эле- элементарных событий, вероятность Р(А) представляет собой функцию множества А, определенную на поле множеств 5?. Функции множества, обладающие свойством A.11) при всех конеч- конечных п, называются аддитивными. Функции множества, обладающие свойством A.11) при п = оо, называются счетно-аддитивными или, короче, а-аддитивными или мерами. Любая а-аддитивная функция *) Ясно, что свойство сложения частот справедливо только для конеч- конечного числа событий Ai,..., Ап, так как при любом конечном числе опытов может появиться только конечное число несовместных событий. Распро- Распространение соответствующего свойства вероятностей на счетное множество событий необходимо для построения достаточно общей теории, охватываю- охватывающей все задачи, встречающиеся на практике.
1.5. Аксиомы теории вероятностей 33 множества является аддитивной, однако не всякая аддитивная функ- функция множества сг-аддитивна. В силу аксиом 1 и 3 вероятность Р(А) представляет собой неотри- неотрицательную сг-аддитивную функцию множества, т.е. неотрицательную меру. 1.5.5. Вероятностное пространство. Пространство элемен- элементарных событий П с заданной в нем алгеброй или сг-алгеброй мно- множеств 5? и определенной на 5? вероятностью — неотрицательной ме- мерой Р(А), A Е <5^, называется вероятностным пространством и обо- обозначается (О, 5?, Р). Таким образом, математической моделью любого случайного явления в современной теории вероятностей служит веро- вероятностное пространство. Соответствие между событиями некоторого множества событий и их вероятностями обычно называют распределением вероятностей. Таким образом, вероятность Р(А) как функция множества А Е 5? определяет распределение вероятностей на 5?. Пример 1.9. В любой задаче определения геометрических вероятно- вероятностей пространством элементарных событий Q служит множество всех точек соответствующего пространства (в частности, прямой или плоскости), в ко- которые возможно попадание. Так, в примере 1.3 ft есть интервал @,60с), в примере 1.4 О есть проекция космического аппарата на плоскость, перпен- перпендикулярную траектории космического аппарата, в примере 5 Q есть пря- прямоугольник, образованный интервалом [0, а] на оси х и интервалом [0, тг/2] на оси в. Полем 5? в этом случае служит множество всех подмножеств А множества О, имеющих меру (длину, площадь, объем). Вероятность Р(А) определяется формулой P(A) = v(A)/v(Q), где v(A) и v(Q) — меры (длины, площади, объемы) множеств (частей пространства) Аи(] соответственно. Распределение вероятностей можно определить вероятностями всех элементарных событий только в случае конечного или счетного множества элементарных событий. В большей же части задач, в част- частности, в простейших задачах определения вероятностей попадания в различные части того или иного пространства, множество элементар- элементарных событий несчетно, причем, как правило, ни одно из них не может считаться существенно «более вероятным», чем любое другое. Вслед- Вследствие этого вероятности всех элементарных событий в таких случаях равны нулю и потому ни в какой мере не определяют распределение вероятностей. Именно поэтому распределение вероятностей в общем случае определяется функцией множества Р(А). Рассмотренная модель охватывает все задачи современной тео- теории вероятностей. В каждой вероятностной задаче можно определить некоторое вероятностное пространство. Правда, пространство элемен- элементарных событий часто оказывается очень сложным. Однако для раз- развития теории вероятностей и для ее приложений конкретная струк-
34 Гл. 1. Вероятности событий тура пространства элементарных событий не существенна, вследствие чего можно не задавать это пространство в явном виде, а ограничить- ограничиться лишь предположением о его существовании. Понятие вероятностного пространства дает возможность поло- положить в основу построения теории вероятностей методы теории мно- множеств, теории меры и функционального анализа. В частности, все выводимые дальше свойства вероятностей и многие другие, которы- которыми приходится пользоваться для построения более сложных разде- разделов теории вероятностей — теории случайных функций и др., непос- непосредственно вытекают из общих свойств меры. 1.5.6. Свойства вероятностей. Изучим теперь свойства веро- вероятностей, вытекающие из аксиом. Так как невозможное событие 0 несовместно с любым другим со- событием А, А0 = 0, то из A.11) следует, что Р(А U 0) = Р(А) + Р{0). С другой стороны, так как A U 0 = А (добавление невозможного со- события не изменяет события А)у то P(AU 0) = Р(А). Следователь- Следовательно, Р@) = 0, т.е. вероятность невозможного события равна нулю. Если В С А, то, представив А разложением A.10) на два несов- несовместных события, А = В + АВ, получим в силу A.11) Р(А) = Р(В) + + Р(АВ), откуда следует, что Р(В) ^ Р(А). Таким образом, если событие В может произойти только вме- вместе с событием А, то вероятность события В не может быть больше вероятности события А. А так как любое событие А может произойти только вместе с достоверным событием О, А — AQ С О, то никакое событие не мо- может иметь вероятность, большую вероятности достоверного события, т.е. 1. Таким образом, вероятности любого события принадлежит интервалу [0,11: 0 ^ Р{А) <С 1. Представив объединение совместных событий А\,..., Ап в виде объединения несовместных событий: U Ai = Аг U А2Аг U A3A^A2 U ... U An3i ... ~Ап-и г=1 получим на основании A.11) Р( U ЛЛ= Р(Л!) + P(A2Al) + PiAzAui) + ... ... + Р(АпА1...Ап_1). A.12) А так как A2A1cA2j АзА^сАз, ..., АпА± .. .Зп_х с Ап, то
1.5. Аксиомы теории вероятностей 35 и мы получаем / п \ п 'Щ. A.13) г=1 Это неравенство, называемое свойством полуаддитивности вероят- вероятности, справедливо для любого конечного или счетного множества событий {^4fc} (т.е. как при конечном п, так и при п = оо). Представляет интерес вычислить вероятность объединения сов- совместных событий. Применяя формулу A.12) для двух событий А\ — А и А2 = В, получим P(AUB) = Р(А)+Р(ВА). С другой стороны, на основании A.9) В ~ В A U В А, и, следовательно, Р{В) = Р(АВ)+Р(ВА). Определив отсюда Р(ВА) и подставив в предыдущее равенство, по- получим Р(А UB) = Р{А) + Р(В) - Р{АВ). Таким образом, мы доказали теорему сложения вероятностей: ве- вероятность объединения любых двух событий равна сумме их веро- вероятностей минус вероятность их пересечения. Предоставляем читателю самостоятельно вывести соответствую- соответствующую формулу для вероятности объединения любого числа совмест- совместных событий (применив, например, метод индукции). 1.5.7. Полная группа событий. Совокупность событий {А^} (конечная или счетная) называется полной группой событий, если хо- хотя бы одно из них обязательно появляется в результате опыта. Иными словами, события Ai,... ,^4П5 ^ ^ оо, образуют полную группу, если их объединение есть достоверное событие: LL4& = О. Из аксиомы сложения вероятностей следует, что если события А\,..., Ап несовместны и образуют полную группу, т,о сумма их вероятностей равна единице: = 1. AЛ4) г=1 Противоположные события несовместны и образуют полную груп- группу. Поэтому из A.14) следует, что сумма вероятностей противопо- противоположных событий равна единице: Р(А)+Р(А) = 1. A.15)
36 Гл. 1. Вероятности событий Эта формула очень важна для практики. Во многих задачах вероят- вероятность интересующего нас события трудно вычислить, в то время как вероятность противоположного события вычисляется очень легко. В таких случаях формула A.15) дает вероятность интересующего нас события. 1.6. Условные вероятности 1.6.1. Условная вероятность. Свойство умножения частот да- дает естественный способ определения условной вероятности. Условной вероятностью Р(А\ В) события А относительно собы- события В в случае, когда Р(В) ф 0, называется отношение вероятности пересечения событий А и В к вероятности события В: A.16) При таком определении условной вероятности теорема умножения частот, очевидно, распространяется и на вероятности: Р(АВ) = Р(А) Р(В | А) = Р(В) Р(А | В). A.17) Таким образом, вероятность совместного появления двух событий равна вероятности одного из них, умноженной на условную вероят- вероятность другого. Из определения A.16) следует, что условные вероятности различ- различных событий относительно одного и того же события В, Р(В) ф О, удовлетворяют аксиомам 1, 2 и 3. Следовательно, вся развиваемая дальше теория справедлива и для условных вероятностей. Из A.17) следует, что вероятность совместного появления лю- любого числа событий равна вероятности одного из них, умноженной на условную вероятность другого относительно первого, на услов- условную вероятность третьего относительно пересечения двух первых и т.д., на условную вероятность последнего относительно пересе- пересечения всех предыдущих: Р(А1А2 ¦ ¦ ¦ Ап) = Р(Аг) Р(А2 | Аг) Р(А3 \ АХА2)... ...Р(Ап\А1А2...Ап_1). A.18) Это следствие легко выводится из A.17) по индукции. Пример 1.10. В урне 12 шаров — 5 белых и 7 черных. Из урны выни- вынимают два шара. Найти вероятность того, что оба шара окажутся белыми. Введем события: А — первый (или условно считающийся первым, если шары вынимаются одновременно) шар белый, А — второй шар белый. Тогда будем иметь Р(А) = Р(В) = 5/12, Р(В | А) = Р(А | В) = 4/11
и по формуле A.17) 1.6. Условные вероятности 37 12 11 33 Пример 1.11. В урне 16 шаров — 5 белых, 7 черных и 4 красных. Найти вероятность того, что среди вынутых из урны четырех шаров первый будет белым, второй — черным, а остальные два — красными. Введем события: А\ — первый шар белый, А2 — второй шар черный, As — третий шар красный, А^ — четвертый шар красный. Тогда получим Р(А{) = 5/16, Р(А2 | Аг) = 7/15, Р(А3 | AU2) = 4/14, Р(А4\А1А2Аг) = 3/13 и по формуле A.10) Р(АгА2АзА4) = — • — • — • — = —. V У 16 15 14 13 104 Чтобы убедиться, что эта вероятность не зависит от того, в каком по- порядке берутся события, возьмем эти события в другом порядке, например Аз,А\,А^А2. Тогда получим Р(А4 | АгАх) = 3/14, Р(А2 \ АзАгА4) = 7/13, Пример 1.12. В теории надежности функцией надежности или про- просто надежностью pit) обычно называют вероятность исправной работы прибора от момента t = 0 до текущего момента t. В качестве исходной ха- характеристики прибора при этом принимают интенсивность отказов Х= lim Г(* + Д*1*), At-+O At представляющую собой предел отношения условной вероятности отка- отказа прибора, исправно работавшего до момента t в интервале времени (t,t + At), к величине этого интервала At при At —»¦ 0. Интенсивность от- отказов Л определяется экспериментально, по крайней мере для простейших элементов и блоков. Задача состоит в том, чтобы, зная интенсивность от- отказов как функцию времени Л = А(?), найти функцию надежности pit). Для решения задачи назовем отказ прибора в интервале времени (t,t + At), событием А, а его исправную работу до момента t — событи- событием В. Исправную работу прибора до момента t + At назовем событием С. Событие С можно выразить через события А л В. Для того чтобы система исправно работала до момента t + At, необходимо, чтобы она работала ис- исправно до момента t и чтобы она работала исправно в интервале времени от t до t + At. Следовательно, событие С представляет собой пересечение двух событий: события В и события, противоположного событию А, т.е. С = В А. Отсюда на основании A.17) следует, что Р{С) = Р{В)Р(А\В). (I) Но Р(В) как вероятность исправной работы системы до момента t пред- представляет собой искомую функцию надежности pit): P(B)=p(t). (II)
38 Гл. 1. Вероятности событий Вероятность Р{С), т.е. вероятность исправной работы системы до момен- момента t + At, представляет собой значение той же функции надежности в мо- момент t + At: P(C)=p(t + At). (Ill) Наконец, Р(А \ В) представляет собой условную вероятность отказа систе- системы в интервале времени (t,t-\-At), которая выражается через интенсив- интенсивность отказов системы Л формулой Р(А | В) = p{t + At 1t) = XAt + o(At), где o(At), как всегда, означает бесконечно малую высшего порядка по срав- сравнению At. Применяя для вычисления условной вероятности противополож- противоположного события А формулу A.15), найдем Р(А \B) = l-\At + o(At). (IV) Подставляя выражения (II), (III) и (IV) в (I), получим pit + At) = pit) A - XAt) + o(At). Теперь остается раскрыть в правой части полученного равенства скобки, перенести pit) налево, разделить все члены на At и перейти к пределу при At —>- 0. При этом слева получим производную р it). В результате получа- получается дифференциальное уравнение для функции надежности р'@ = -\P(t). (v) В качестве начального условия естественно принять условие, что система начинает работать в исправном состоянии, т.е. р@) = 1. Дифференциаль- Дифференциальное уравнение (V) и начальное условие р@) = 1 полностью определяют ис- искомую функцию надежности pit). Легко проверить непосредственной подстановкой, что интеграл урав- уравнения (V), равный единице в начальный момент, определяется формулой (VI) 1.6.2. Зависимые и независимые события. Два события на- называются независимыми, если появление одного из них не изменяет вероятности другого, или, иными словами, если появление одного из них не содержит никакой информации о другом. События А и В называются зависимыми, если появление одного из них изменяет вероятность другого. Для независимых событий А и В РЩВ)=Р(А), Р{В\А) = Р{В). A.19) Действительно, вероятность события А, когда известно, что В произо- произошло, есть условная вероятность А относительно В. Если при появле- появлении события В вероятность события А не изменяется, то это означает, что условная вероятность события А относительно В совпадает с ве- вероятностью события А, которую, в отличие от условной вероятности, называют безусловной.
1.6. Условные вероятности 39 Очевидно, что для независимости событий А и В достаточно од- одного из двух равенств A.19); второе автоматически будет выполнено в силу A.17) Для зависимых событий А и В Р{А\В)фР{А), Р(В\А)фР(В). A.20) Очевидно, что два несовместных события А и В всегда зависимы, так как появление одного из них исключает другое, вследствие чего РЩВ)=Р(В\А) = 0. События А\,..., Ап называются независимыми, если каждое из них не зависит от каждого из остальных и от всех возможных их пересечений. Заметим, что для независимости событий А\,..., Ап их попарная независимость необходима, но недостаточна. Пример 1.13. Пусть А и В — произвольные независимые события, вероятности которых равны 1/2, и С — АВ U АВ. Очевидно, что Р(С) = Р(АВ) + Р(АВ) = Р{А)Р(В) + Р(А)Р(В) = 1/2, Р{С | А) = Р(В) = 1/2, Р{С | В) = Р(А) = 1/2. Таким образом, А, В л С попарно независимы. Однако Р(С \ АВ) = 1, так как если происходит событие АВ, то происходит и С. Следовательно, собы- события А, В л С зависимы. Предлагаем читателю самостоятельно вычислить остальные условные вероятности в этой задаче. 1.6.3. Теорема умножения вероятностей для независимых событий. Рассмотрим случай независимых событий А\,..., Ап. > Если события А\,..., Ап независимы, то события Ап и А\ А2 ... ... Ап-\ независимы, события Ап_\ и А± А2 ... ^4п-2 независимы, и так далее, события Дз и А1А2 независимы, и, наконец, события А\ и А^ независимы. Поэтому Р(Ап | АгА2 ... Д..!) = Р(Ап), Р(Ап_г | АгА2 ... Ап_2) = P(An_i), Р(Аз | AiA2) = Р(Аз), Р(А2 | Аг) = Р(А2), и формула A.18) принимает вид Р(Аг А2 ...Ап) = Р(АХ) Р(А2)... Р(Ап). < A.21) Таким образом, вероятность пересечения независимых событий равна произведению их вероятностей. Пример 1.14. В условиях примера 1.4 найти вероятностьрш катастро- катастрофы, когда т метеоритов попадают в космический аппарат.
40 Гл. 1. Вероятности событий Для того чтобы событие А, т.е. катастрофа, произошло, необходимо и достаточно, чтобы по крайней мере один из т метеоритов, попадающий в аппарат, повредил одну из его уязвимых частей. В этом случае простей- простейшим способом вычисления вероятности А является вычисление вероятно- вероятности дополнительного события А, т.е. вероятности безопасного продолжения полета космического аппарата. Событие А происходит тогда и только то- тогда, когда ни один из т ударяющих метеоритов не попадает в уязвимые части. Эффект каждого ударяющего метеорита, очевидно, не зависит от эффектов других (аппарат или разрушен метеоритами, или безопасно про- продолжает свой полет). Поэтому согласно теореме умножения вероятностей для независимых событий A.21) вероятность того, что ни одни из попавших метеоритов не разрушил корабль, равна Р(А) = A-р)т (ш = 1,2,...), (I) где р — вероятность разрушения аппарата одним попавшим метеоритом, найденная в примере 1.4. Для нахождения вероятности катастрофы А соот- соотношение A.15) между вероятностями дополнительных событий может быть использовано при Рт = Р(А) = 1-A-р)т (т = 1,2,...). (П) Для р = 0,12, найденной в примере 1.4, и т = 10 имеем рш = 1-@,88I0 «0,7213. Как мы увидим в п. 1.8.4, прямое вычисление этой вероятности является довольно трудным. Пример 1.15. В урне 12 шаров - 5 белых и 7 черных. Из урны вы- вынимают один шар, отмечают его цвет и возвращают в урну. После этого шары тщательно перемешивают и из урны вынимают второй шар. Найти вероятность того, что оба раза появится белый шар. В данном случае, поскольку после первого вынимания шар возвраща- возвращают в урну, информация о появлении белого шара при первом вынимании не изменяет вероятности появления белого шара при следующем. Поэтому события А (появление белого шара в первый раз) и В (появление белого шара во второй раз) независимы и вероятность их совместного появления равна произведению вероятностей: Пример 1.16. В урне 16 шаров — 5 белых, 7 черных и 4 красных. Из урны 4 раза вынимают по одному шару, возвращая каждый раз шар в урну. Найти вероятность того, что первый шар будет белым, второй — черным, а третий и четвертый — красными. В данном случае события А\ — первый шар белый, А2 — второй шар черный, As — третий шар красный, Аа — четвертый шар красный незави- независимы. Поэтому Р(Л Л Л Л Л 5 7 5 4 35 Р{А,А2А3АА) = _._._._ = __.
1.7. Вероятности сложных событий 41 1.7. Вероятности сложных событий 1.7.1. Формула полной вероятности. Предположим, что с данным опытом связана полная группа несовместных событий Hi,... ..., Нп, вероятности которых Р(Нг) (г = 1,..., п) известны. Нас ин- интересует событие А, для которого известны условные вероятности Р(А | Н{) (г = 1,..., п) относительно всех событий Hi,..., Нп. Требу- Требуется найти вероятность события А. \> Эта задача решается очень просто. Поскольку события Hi,... ..., Нп образуют полную группу, их объединение есть достоверное событие. Событие А может появиться только вместе с каким-нибудь событием Hk- Таким образом, событие А есть объединение событий AHi,..., АНп. Так как события Hi,..., Нп по условию несовместны, то события AHi,..., АНп тоже несовместны, и мы можем применить аксиому сложения: п п Р(А) = Р ( .U Отсюда, пользуясь формулой A.17), получаем i). < A.22) г=1 г=1 Итак, вероятность события А равна сумме вероятностей собы- событий Hi,... ,Нп, умноженных на соответствующие условные веро- вероятности события А. Формула A.22) называется формулой полной вероятности. Она широко применяется в теории вероятностей и в ее приложениях. Пример 1.17. На эксплуатацию приходят однотипные приборы, вы- выпускаемые тремя заводами в пропорции гц : П2 : пз (т.е. на каждые щ при- приборов, выпускаемых первым заводом, приходятся П2 приборов, выпускае- выпускаемых вторым заводом, и пз приборов, выпускаемых третьим заводом). Пред- Предположим, что марка завода на приборах отсутствует и что интенсивность отказов (постоянная) для приборов первого завода равна Ai для приборов второго завода — А2 и для приборов третьего завода — Аз. Найти функцию надежности данного прибора. В данной задаче имеем три несовместных события, образующих полную группу: Hi — данный прибор выпущен первым заводом, Нч — данный прибор выпущен вторым заводом, Нз — данный прибор выпущен третьим заводом. Вероятности этих событий легко определяются: Р(Нк) = "* (* = 1,2,3). П\ + П2 + Пз
42 Гл. 1. Вероятности событий Условные вероятности интересующего нас события А ~ исправной ра- работы прибора до момента t — относительно событий Hi, Н2, Н3 легко опре- определяются по формуле (VI) примера 1.12: Р(А | Hi) = e"Alt, Р(А | Я2) = е~Х2\ Р(А | Я3) = е~Хз\ Пользуясь формулой полной вероятности A.22), находим вероятность ис- исправной работы прибора до момента t (т.е. искомую функцию надежности прибора): 711 + Tl2 + ^3 Пример 1.18. Космический аппарат, пересекающий поток небольших метеоритов, может иметь столкновения с 1,2,...,га,... метеоритами или совсем не сталкиваться ни с одним из них. Вероятность т столкновений равна am=fime-^/m\ (т = 0,1, 2,...). (I) Условные вероятности катастрофы, когда происходит 1,2,...,т,... столк- столкновений, были найдены в примерах 1.4 и 1.14: рш = 1-A-р)т (ш = 0,1,2,...). (II) В этом случае мы имеем полную группу несовместимых событий Нт (га = 0,1, 2,...), т.е. ни одного столкновения Но, одно столкновение Hi, и в общем случае всего т столкновений Нт (га = 0,1, 2,...). Вероятности этих событий р(Нт) определяются уравнением (I). Соответствующие условные вероятности события А, т.е. катастрофы р(А | Нт), даются уравнением (II). Подставляя эти вероятности в формулу полной вероятности A.22), получим оо оо оо . . Р(А) = V" атрт = У* — е~м - Y" ^ ( Р) е~» = 1 - е~^. m^O m=0 m^O Для p = 0,12 и /7, = 0,01 это уравнение дает р(А) = 1 - е~0'0012 « 0,0012. 1.7.2. Формула Бейеса. В задачах практики нас часто интере- интересует полная группа несовместных событий Hi,..., Нп, вероятности которых P(Hi) (i — 1,...,п) известны. Эти события непосредствен- непосредственно не наблюдаемы, но можно наблюдать некоторое событие А, с ни- ними связанное, для которого известны условные вероятности Р(А\ Hi) (г — 1,... ,п). Допустим, что произведен опыт, в результате которого появилось событие А. На основании этого опыта требуется сделать выводы относительно событий Hi,..., Hnj т.е. определить, как изме- изменились их вероятности после произведенного опыта. Иначе говоря, нужно найти условные вероятности событий Hi,..., Нп относительно события А. \> На основании теоремы умножения вероятностей A.17) Р{АНк) = Р{А) Р(Нк | А) = Р(Нк) Р(А |
1.8. Повторение опытов 43 Отсюда следует Р(Нк)Р(А\Нк) Р(Нк\А) = Р(А) Подставляя сюда выражение вероятности события А из формулы пол- полной вероятности A.22), получим . (* = 1,...,п).< A.23) Эта формула обычно называется формулой Бейеса. Она решает поставленную задачу. Вероятности Р(Нк) (fc = l,...,n) интересующих нас событий i?i,..., iJn до опыта обычно называются априорными вероятностями от латинского a priori, что значит «сперва», т.е. в данном случае до то- того, как был произведен опыт. Вероятности P(Hk \А) (к = 1,..., п) тех же событий после опыта называются апостериорными от латинского a posteriori, что значит «после», т.е. в данном случае после опыта. Пример 1.19. В условиях примера 1.17 предположим, что прибор про- проработал безотказно время Т (событие А). Найти апостериорную вероят- вероятность того, что прибор выпущен к-м заводом (/с = 1, 2, 3). Подставив вероятности P(Hi), Р(Я2), Р(#з), P(A\Hi), P(A\H2), Р(А | i/з), заданные в примере 1.17, в формулу Бейеса A.23), находим апо- апостериорную вероятность того, что прибор выпущен к-м заводом: р(И | л\ = 1.8. Повторение опытов 1.8.1. Случай постоянных условий опыта. Рассмотрим сложный опыт, состоящий из нескольких более простых опытов, в каждом из которых может появиться или не появиться некоторое со- событие А. Опыты называются независимыми, если вероятность интересую- интересующего нас события А в каждом опыте не зависит от результатов других опытов. Предположим, что производятся п независимых опытов, в каждом из которых вероятность события А равна р. Требуется найти вероятность Pm?n того, что событие А появится m раз. t> Для того чтобы при п опытах событие А появилось m раз, необ- необходимо и достаточно, чтобы появилась одна из последовательностей событий В\,..., Вп, в которых m из событий_#1,..., Вп совпадают с А, а п — m с противоположным событием А. Очевидно, что чис- число таких последовательностей равно числу сочетаний из п по ш, т.е.
44 Гл. 1. Вероятности событий С™ — п\/[т\ (п — ш)!], О! = 1. В силу независимости опытов вероят- вероятность каждой такой последовательности по теореме умножения для независимых событий A.21) равна pmqn~m, где q = 1 — р. Наконец, в силу несовместности всех возможных последовательностей искомая вероятность Pm,n, равна сумме вероятностей всех последовательно- последовательностей, состоящих из т событий А и п — т событий А, т.е. сумме С™ слагаемых, равных pmqn~m: Рт,п = C™pmq"-m = m!(wnlm), pmq"-m (m = 0,1,..., n). < A.24) Возьмем теперь вспомогательную переменную и и заметим, что величина Pm,nUm = C™pmqn~mum представляет собой общий член разложения функции (q + pu)n по формуле бинома Ньютона. Таким образом, вероятность Pm,n представляет собой коэффици- коэффициент при ит в разложении функции ?>„(«) = («+ри)" A.25) по степеням и. Функция (рп(и) называется производящей функцией для вероят- вероятностей Pm?n. К полученному результату можно прийти также методом индук- индукции, заметив, что при п = 1 задача имеет очевидное решение Род — Ч-> Pii = р, и применив известное соотношение между биномиальными коэффициентами Можно также, исходя из того, что A.27) вывести из A.11) и A.21) рекуррентную формулу для производящих функций: (fn(u) =<Pn-i(u)(q + pu), A-28) а затем получить A.25). Элементарными событиями в данном случае служат все конеч- конечные последовательности {В\,... ,Вп}, где каждое В^ представляет собой событие А или противоположное событие А. Полем событий У служит алгебра всех возможных объединений этих элементарных со- событий, дополненных невозможным событием. Вероятность каждого элементарного события равна pmqn~rn, где т, — число событий В^ в
1.8. Повторение опытов 45 последовательности {??i,..., Вп}, совпадающих с А (га = 0,1,..., п). Вероятность любого события определяется как сумма вероятностей входящих в него элементарных событий. Соответствие между числами т — О,1,..., п и вероятностями Pm,n определяемое формулой A.24), называется биномиальным распреде- распределением. 1.8.2. Случай переменных условий опыта. Формулы A.24) и A.25) легко обобщаются на случай, когда вероятность события А имеет различные значения в разных опытах (повторение опытов в переменных условиях). Если опыты независимы и вероятность собы- события А в к-м опыте равная, q^ = 1 — pk (к = 1,...,п), то вместо A.24) совершенно таким же путем получается формула Рт,п = ^Ph ---PimQi^+i •••&„ (m = 0, l,...,n), A.29) где сумма распространена на все возможные разделения чисел 1, 2,... ..., пна две группы, одна из которых содержит га чисел (н,г2,...,гт), а другая — п — т чисел (гт+1,..., in). Число таких разделений рав- равно С™. Легко понять, что вероятность Pm?n в этом случае представляет собой коэффициент при ит в разложении по степеням и производя- производящей функции A.30) К этому результату тоже можно прийти по индукции или получив рекуррентную формулу (fn(u) = (pn-i(u)(qn +Pnu). A.31) 1.8.3. Вероятность появления события не меньше данно- данного числа раз. Во многих задачах практики приходится определять вероятность того, что интересующее нас событие А появится при п опытах не меньше чем данное число к раз. t> Очевидно, что сложное событие — появление события А не меньше чем к раз — представляет собой объединение п — к + 1 несов- несовместных событий: появление А ровно к раз, появление А ровно к + 1 раз, и т.д., появление А ровно п раз. Следовательно, искомая веро- вероятность Rk,m того, что при п опытах событие А появится не меньше чем к раз, равна п Rk,n = Рк,п + Рк+1,п + • • • + Рп,п — 2_^ Рт,п- A.32) гп=к
46 Гл. 1. Вероятности событий Эту вероятность можно также вычислить, определив сначала веро- вероятность противоположного события, т.е. вероятность того, что собы- событие А появится меньше чем к раз, и вычтя ее из единицы: к-1 ¦К-к,п ~~ -L м),п П,п • • • -^к — 1,п ~~ -L / ¦^т,п- ^ (l.ooj т=0 Ясно, что всегда целесообразно пользоваться той из формул A.32) и A.33), у которой в сумме меньше слагаемых. Очевидно, что в A.32) сумма содержит п — к + 1 слагаемых, а в A.33) — к слагае- слагаемых. Следовательно, формулой A.32) целесообразно пользоваться, если п — к + 1 ^ к, т.е. если к ^ (п + 1)/2. Если к < (п + 1)/2, т.е. к < п — к + 1, то целесообразно пользоваться формулой A.33). 1.8.4. Вероятность хотя бы одного появления события. Чаще всего приходится вычислять вероятность того, что интересую- интересующее нас событие появится хотя бы один раз (т.е. не меньше чем один раз). Очевидно, что в этом случае при любом п ^ 2 целесообразно пользоваться формулой A.33), так как сумма в ней содержит только одно слагаемое Ро,п- В результате получим ТУ -| ТУ 1 /7/7 П (Л *\А\ В частном случае постоянных условий опыта, q\ — q<± — ... = qn = q, и формула A.34) принимает вид Й1,п = 1-дп. A.35) Формулы A.34) и A.35) легко выводятся непосредственно без при- применения формулы A.33). Для этого достаточно вычислить вероят- вероятность противоположного события —непоявления события А ни ра- разу. Вероятность того, что при п независимых опытах событие А не появится ни разу, равна произведению вероятностей непоявле- непоявления А в первом, втором, третьем, и т.д., n-м опытах, т.е. произве- произведению qiq2 ... qn- Вычитая эту вероятность из единицы, мы получим формулу A.34). 1.8.5. Случай опытов с несколькими событиями. Если в результате каждого опыта появляется одно из полной группы несов- несовместных событий Ai,...)Ar, вероятности которых равны соответ- соответственно pi,... ,j9r, p\ + ... + рг — 1, то вероятность того, что при п опытах А\ появится т\ раз, А2 — Ш2 раз и т.д., Аг — тг раз, mi + ... ... + тг = п, определяется формулой mi\m2\...mr\ r>m
1.8. Повторение опытов 47 t> Эта формула легко получается последовательным применением формул A.29). Вероятность того, что событие А\ появится т\ раз при п опытах, согласно A.29) равна Условная вероятность события Аъ в каждом из оставшихся опы- опытов при условии, что А\ в этих опытах не появляется, очевид- очевидно, равна Р2/{Р2 ~\- • • - ~\- Рг)• Поэтому условная вероятность того, что в Ш2 + ... + тг опытах, в которых не появляется А\, событие А<± по- появится гп2 раз, согласно A.29) определяется формулой P2 _ i + .-.+J Продолжая таким образом, находим условную вероятность того, что событие Ak появится ть, раз в ть, + ... + тг опытах при условии, что события Ал,..., Ah-л в этих опытах не появляются: \рк + • • • + Рг Перемножая найденные вероятности, мы и получим формулу A.36). <\ Производящая функция вероятностей Pmiv..,mr, (mi + ... + тг = = п) определяется формулой уп(и1,...,иг) = (ргщ + ... +ргиг)п, A.37) причем Pmi,...,mr представляет собой коэффициент при и™1 ... и™г в разложении этой функции по степеням переменных щ,..., иг. Элементарными событиями в данном случае служат конечные последовательности {??i,..., ??п}, где каждое В^ представляет со- собой одно из событий Ai,... }Ап. Полем событий служит алгебра всех возможных объединений этих событий, дополненных невозмож- невозможным событием. Вероятность каждого элементарного события рав- равна р™1 ... p™v, где rrii — число событий Bj, в последовательности {??i,..., Вп}, совпадающих с Ai (г = 1,..., г). Вероятность любого события равна сумме вероятностей входящих в него элементарных событий. Распределение вероятностей, определяемое формулой A.36), на- называется полиномиальным.
48 Гл. 1. Вероятности событий 1.9. Распределение Пуассона 1.9.1. Потоки событий. На практике приходится встречаться с событиями, которые происходят в случайные моменты времени. Такие события образуют последовательность событий, называемую обычно потоком событий. Примерами потоков событий могут служить вызо- вызовы абонентов на телефонной станции, пересечения перекрестка транс- транспортными средствами, вызовы скорой медицинской помощи, отказы технической системы, приходы клиентов в обслуживающую органи- организацию (например, парикмахерскую) и т.д. Часто можно считать, что поток событий удовлетворяет следую- следующим условиям: 1) для любых двух непересекающихся интервалов времени веро- вероятность появления любого данного числа событий в течение одного из них не зависит от того, сколько событий появляется в течение дру- другого; 2) вероятность появления одного события в течение бесконечно малого интервала времени (?, t + At) есть бесконечно малая величина порядка At; 3) вероятность появления более одного события в течение интер- интервала времени (t,t + At) есть бесконечно малая высшего порядка по сравнению с At. Обозначим pm(ti,t2) вероятность появления га событий в интер- интервале времени (ti,^). Тогда условия 2) и 3) запишутся в виде Pl(t,t + At) = \(t)At + o(At), A.38) =o(At), A.39) где X(t) — некоторая неотрицательная функция*). 1.9.2. Уравнение для вероятности непоявления событий. Поставим задачу: для потока событий, удовлетворяющего услови- условиям 1), 2) и 3), найти вероятности того, что в данном интервале времени (to, t) появится т событий (га = 0,1, 2,...). t> Считая момент to фиксированным, обозначим искомые вероят- вероятности pm(t) (га = 0,1, 2,...). Для вычисления po(t) заметим, что po(t + At) представляет собой вероятность пересечения двух событий: ни одного события в интерва- интервале (to,t) и ни одного события в интервале (t, t + At). Согласно усло- условию 1) эти события независимы. Поэтому po(t + At) = po(t)po(t, t + At). A.40) *) o(At), как всегда, означает бесконечно малую высшего порядка по сравнению с At, так что lim = 0. ^ ' А^О At
1.9. Распределение Пуассона 49 Но на основании A.38) и A.39) сю po(tJ, + At) = l-^2pk(t,t + At) = 1- \(t)At + o(At). A.41) k=l Подставив это выражение в A.40), получим Po(t + At) = Po(t) - Po(t) X(t)At + o(At), откуда Po(t + At) - Po(t) . o(At) Xt = -\(t)po(t) + -дГ. При At —> 0 правая часть этого равенства стремится к определенному пределу — X(t)po(t). Следовательно, существует и предел левой части. Таким образом, вероятность po(t) дифференцируема при любом f ив пределе при At —> 0 мы получаем дифференциальное уравнение p'0(t) = -X(t)po(t). A.42) Для нахождения начального значения вероятности ро (t) достаточ- достаточно положить в A.41) t — to перейти к пределу при At —> 0. Тогда по- получим po(to) = 1. 1.9.3. Уравнения для вероятностей различных чисел со- событий. Для составления уравнений для вероятностей Pi(t),p2(t),... заметим, что т событий могут появиться в интервале времени (to, t + At) одним из следующих т + 1 несовместных способов: все т событий появляются в интервале (to,t) и ни одного в интервале (?, ? + Д?), га — 1 событий появляются в интервале (to,t) и одно в интервале (?, t + At) и т.д., все га событий появляются в интерва- интервале (t,t + At). Поэтому на основании аксиомы сложения вероятно- вероятностей и теоремы умножения вероятностей независимых событий A.21) имеем pm(t + At) = pm(t)po(t,t + At) Отсюда на основании A.38), A.39) и A.41) получаем pm(t + At) = pm(t) + [pm-i(t) -pm(t)]X(t)At + o(At). Следовательно, Рассуждая далее совершенно так же, как и при выводе уравнения A.42), получаем дифференциальное уравнение p'm{t) = A(t)[pm_i - pm{t)] (га = 1, 2,...). A.43)
50 Гл. 1. Вероятности событий Начальные значения вероятностей р\ (t), р<± (t),... все равны нулю в силу того, что роОо) = 1, Рт(к) = 1 (ш = 1, 2,.. .)• 1.9.4. Решение уравнений. Приняв за независимую перемен- переменную величину А* = jx(r)dr, A.44) приведем уравнения A.42) и A.43) к виду dp о dpm . / 1 о \ (л лк\ -f- = -Po, -j— = -Ртп + Ртп-1 (ш = 1,2,...). A.45) Начальные условия примут вид ро = 1, рш = 0 (ш = 1,2,...) при /i = 0. Легко убедиться непосредственной подстановкой, что интегра- интегралы уравнений A.45), удовлетворяющие начальным условиям, опреде- определяются формулой Pm = !Qe~" (™ = 0,1,2,...)- < A.46) Таким образом, для данного интервала времени (to,t) мы имеем счет- счетное множество элементарных событий: ни одного события в этом ин- интервале, одно, два и т.д., и вероятности этих событий определяются формулой A.46). Следовательно, формула A.46) определяет распре- распределение вероятностей. Это распределение вероятностей называется распределением Пуассона. Поэтому поток событий, удовлетворяющих условиям 1), 2) и 3), называется пуассоновским потоком. Параметр // распределения Пуассона, как мы увидим в п. 3.2.1 (пример 3.2), пред- представляет собой среднее число событий, происходящих в данном интер- интервале времени (to,t). Функция X(t) называется интенсивностью пуас- соновского потока. Пример 1.20. Найти вероятность того, что числа электронов, выле- вылетающих из катода электронной лампы в течение интервала времени дли- длительности t, будет равно т, если среднее число электронов, испускаемых в единицу времени, равно Л = const. Поток электронов можно считать пуас- пуассоновским. На основании A.44) в данном случае ц = Xt. Подставив это выражение в A.36), получим Р^ = ~Ге~М (го = 0,1, 2,...). Пример 1.21. Интенсивность потока вызовов телефонной станции (т.е. средняя плотность вызовов — предел отношения среднего числа вызо- вызовов в течение бесконечно малого интервала времени (t,t + At) при At —>- 0) равна X(t). Найти вероятность того, что в течение интервала времени (t\, ?2) на станцию поступит т вызовов. В данном случае можно с достаточной точностью считать, что поток вызовов удовлетворяет условиям, при которых поток является пуассонов-
1.9. Распределение Пуассона 51 ским. В самом деле, в силу отсутствия связи ляежду действиями отдельных абонентов вероятность любого данного числа вызовов в интервале време- времени (f 1, ^2) практически не зависит от того, сколько вызовов поступает в те- течение других интервалов времени, не пересекающихся с интервалом (ti, ?2). Вероятность практически одновременного поступления двух и больше вы- вызовов можно считать равной нулю. Поэтому можно считать выполненными и условия 2) и 3). Тогда искомую вероятность можно вычислить, пользуясь ti распределением Пуассона, по формуле A.46) при /j, = f X(r)dr. ti Вместо вызовов телефонной станции можно рассматривать вызовы ско- скорой помощи, предъявления определенных объектов техники в ремонтную организацию, выезды транспортных средств на перекресток, прибытия кли- клиентов в обслуживающую организацию и т.п. Во всех таких случаях общее число событий, происходящих в течение длительного интервала времени, практически неограничено, а для относительно малых интервалов време- времени можно считать выполненными условия 1)-3), при которых поток можно считать пуассоновским, конечно приближенно, как всегда в задачах прак- практики. То же относится и к явлениям радиоактивного распада вещества. Потоки распада атомов можно считать пуассоновскими. 1.9.5. Случайное распределение точек в пространстве. Распределение Пуассона получается также и в случае, когда точки распределяются случайным образом не на числовой оси, а на плоско- плоскости, поверхности или в пространстве. Предположим, что выполнены условия: 1) для любых двух непересекающихся областей вероятность попа- попадания любого данного числа точек в одну не зависит от того, сколько точек попадает в другую; 2) вероятность попадания одной точки в бесконечно малую об- область представляет собой бесконечно малую того же порядка, что и площадь (объем) этой области; 3) вероятность попадания более одной точки в бесконечно малую область представляет собой бесконечно малую величину высшего по- порядка по сравнению с площадью (объемом) этой области. Тогда вероятность попадания т точек в данную область В опре- определяется формулой A.46) при = Г A(r)dr. A.47) А* в Все предыдущие выкладки остаются при этом в силе. Пример 1.22. При разрыве снаряда неконтактного действия осколки распределяются по некоторой поверхности с плотностью \{t). При очень большом общем числе осколков условие 1) можно считать выполненным для любых областей, малых по сравнению с общей областью, покрываемой осколками. Условия 2) и 3) можно считать выполненными в силу практи- практической невозможности попадания двух и более осколков в одну точку. По- Поэтому для вычисления вероятностей попадания различного числа осколков
52 Гл. 1. Вероятности событий в данные области (обычно малые по сравнению с обшей областью разлета осколков) можно пользоваться распределением Пуассона, вычислив /л по формуле A.47). 1.9.6. Пуассоновское приближение биномиального рас- распределения. Заметим, что вычисления по формуле A.29), определя- определяющей биномиальное распределение, при большом п становятся очень громоздкими. Однако при малой вероятности р биномиальное рас- распределение при большом п хорошо аппроксимируется пуассоновским распределением. Действительно, при малой вероятности р для всех и ? @,1) q+pu = 1+р(и- 1) «е^) = е~р -ери*). Подставив это выражение в формулу A.28) для производящей функ- функции, находим Pm,n*ij^pe-nP (m = 0,1,2,...). A.48) Эта формула дает пуассоновское приближение биномиального распределения. Она достаточно точна при большом числе опытов п и при достаточно малой вероятности р события в одном опыте. Аналогично получается приближенная формула A.46) при /i = = pi + ... + рп для вероятности Рт^п в случае переменных условий опыта при большом п и малых р\,..., рп. Предлагаем читателю самостоятельно показать, что распределе- распределение Пуассона является пределом последовательности биномиальных распределений при р — \ijn (п — 1, 2,...), где // — данная постоянная. *) Предоставляем читателю самостоятельно убедиться в этом, предста- представив ez формулой Маклорена с остаточным членом второго порядка в форме Лагранжа.
Глава 2 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 2.1. Общие определения. Дискретные случайные величины 2.1.1. Определение случайной величины. В п. 1.2.1 было да- дано интуитивное определение случайной величины, основанное на экс- экспериментально наблюдаемых фактах, и было показано, что с каждой случайной величиной можно связать некоторые события — ее попада- попадания в различные множества. Для изучения случайных величин необ- необходимо, чтобы для некоторого множества таких событий были опре- определены вероятности, т.е. чтобы это множество событий принадлежало полю событий 5?, связанному с данным опытом. Мало того, целесооб- целесообразно потребовать, чтобы это множество событий само представляло собой поле событий (подполе поля J^). Таким образом, мы приходим к следующему определению случайной величины. Случайной величиной называется величина, которая принимает в результате опыта одно из множества возможных значений и с ко- которой связано некоторое поле событий — ее попаданий в заданные множества, — содержащееся в основном поле событий 5?\ 2.1.2. Скалярные и векторные случайные величины. Слу- Случайные величины могут быть как скалярными, так и векторными. В соответствии с общим определением вектора мы будем называть векторной случайной величиной или случайным вектором любую упорядоченную совокупность скалярных случайных величин. Так, например, n-мерный случайный вектор X представляет собой сово- совокупность п скалярных случайных величин {Xi,..., Хп}. Эти величи- величины Xi,... ,ХП будем называть координатами случайного вектора X. Координаты случайного вектора в общем случае могут быть комплексными случайными величинами (принимающими в результа- результате опыта комплексные числовые значения). Однако от комплексных величин всегда можно избавиться, заменив каждую комплексную ве- величину парой действительных — ее действительной и мнимой частя- частями. Таким образом, n-мерный вектор с комплексными координатами всегда можно рассматривать как 2п-мерный вектор с действительны- действительными координатами. Впрочем, это не всегда выгодно, во многих случаях удобнее рассматривать комплексные случайные величины. В дальней- дальнейшем будем для краткости называть вектор с комплексными коорди- координатами комплексным вектором, а вектор с действительными коорди- координатами действительным вектором.
54 Гл. 2. Случайные величины Очевидно, что вместо случайного вектора можно рассматривать случайную точку в соответствующем пространстве. Это совершенно равноценные понятия. Кроме скалярных и конечномерных векторных случайных вели- величин, в теории вероятностей приходится изучать и случайные величи- величины более сложной природы, в частности случайные бесконечные чис- числовые последовательности (бесконечномерные векторы) и случайные функции. Мы будем изучать здесь только конечномерные случайные величины. 2.1.3. Распределение случайной величины. Каждое собы- событие поля 5?х С J^7, связанного со случайной величиной X, представ- представляет собой попадание величины X в некоторое множество А. Это со- событие записывается в виде X ? А (X принадлежит множеству А). Из свойств поля событий следует, что множества А, соответствующие всем событиям {X ? A} ? Уж, образуют алгебру или cr-алгебру мно- множеств я/ в пространстве значений величины X. Соответствие между множествами iGi/и вероятностями попадания в них величины X представляет собой распределение вероятностей в пространстве зна- значений величины X. Это распределение вероятностей называется рас- распределением (законом распределения) случайной величины X. В дальнейшем будем рассматривать только распределения действительных случайных величин (скалярных или векторных). При этом всегда будем отождествлять события вида X ? А с соответст- соответствующими множествами А. В некоторых случаях все возможные значения случайной величи- величины, за исключением, может быть, некоторого множества значений TV, имеющего нулевую вероятность (P(N) — 0), принадлежат некоторо- некоторому подпространству или какому-нибудь другому многообразию про- пространств ее значений. В таких случаях говорят, что распределение случайной величины полностью сосредоточено на этом подпрост- подпространстве или многообразии. Пространство значений случайной величины X с алгеброй или бт-алгеброй я/ множеств в нем и определенной на этих множествах вероятностью образуют вероятностное пространство, называемое ве- вероятностным пространством случайной величины X. 2.1.4. Дискретная случайная величина. Рассмотренные в п. 1.2.1 и в разд. 1.8, 1.9 примеры случайных величин показывают, что некоторые случайные величины имеют только конечное множе- множество возможных значений, как, например, число появлений или часто- частота события при п опытах. Другие имеют счетное множество возмож- возможных значений, как, например, число событий пуассоновского потока, происходящих в течение данного интервала времени. Третьи имеют несчетное множество возможных значений, как, например, время без- безотказной работы прибора, ошибки измерений, координаты точки по- попадания при стрельбе. Случайные величины первых двух типов во
2.1. Общие определения. Дискретные случайные величины 55 многих отношениях значительно проще, чем величины третьего типа. Поэтому их целесообразно выделить в отдельный класс. Дискретной случайной величиной называется случайная величи- величина с конечным или счетным множеством возможных значений. 2.1.5. Распределение дискретной случайной величины. Распределение дискретной случайной величины полностью опреде- определяется вероятностями всех ее возможных значений. Действительно, приняв за элементарные события возможные значения, получим ко- конечное или счетное множество элементарных событий. Вероятности этих элементарных событий полностью определяют распределение дискретной случайной величины. Таким образом, если X — случайная величина с возможными значениями #]_,... , ждг, то ее распределение определяется формулой Сумма всех этих вероятностей равна единице, N так как события X = х\,..., X = xn несовместны и образуют полную группу (случайная величина X принимает в результате опыта какое- нибудь одно и только одно из значений xi,..., xn)- Вероятностным пространством дискретной случайной величи- величины X служит множество ее значений {х\,..., хм } с алгеброй всех под- подмножеств этих значений и вероятностью, равной для каждого подмно- подмножества сумме вероятностей значений, входящих в это подмножество. Однако за вероятностное пространство дискретной случайной ве- величины можно принять и все пространство, точками которого явля- являются ее возможные значения, с cr-алгеброй всех подмножеств этого пространства и вероятностью, значение которой на каждом подмно- подмножестве равно сумме вероятностей возможных значений, содержащих- содержащихся в этом подмножестве. Пример 2.1. Распределение числа X появлений события при п опы- опытах определяется формулой Р(Х = т) = Рш,п (тп = 0,1,..., тг), где вероят- вероятности Рт,п вычисляются по формула разд. 1.8. В данном случае Pl=Po,n, P2=Pl,n, -.., Рп + 1 — Рп,п- В частности, биномиальное распределение определяется в силу A.24) фор- формулой Р(Х = т) = C™pmqn-m (m = 0,1,..., п). Пример 2.2. Распределение частоты Y события при п опытах опре- определяется формулой V п) т'п ' '' ' ' '
56 Гл. 2. Случайные величины Пример 2.3. Распределение Пуассона (в частности, распределение числа X событий пуассоновского потока, происходящих в течение данно- данного интервала времени) определяется формулой A.46): Р(Х = т) = ^ е-" (ш = 0,1, 2,...). Пример 2.4. Распределение ?г-мерного случайного вектора X. коор- координатами которого служат числа Х\,..., Хг появлений несовместных со- событий Ai,..., Аг, образующих полную группу, при п опытах определяется формулой A.36): 77ii + ... + тг = п. Вектор X в данном случае имеет полиномиальное распределение, пол- полностью сосредоточенное на (г — 1)-мерной плоскости х\ + ... + хг = п r-мерного пространства. 2.2. Непрерывные случайные величины. Плотность случайной величины 2.2.1. Плотность случайной величины. Распределение слу- случайной величины с несчетным множеством возможных значений невозможно задать вероятностями отдельных значений. Поэтому необходим другой подход к таким случайным величинам. В разд. 1.2, где мы имели в виду в основном случайные величины с несчетным множеством значений, мы видели, что распределение экспериментальных значений действительной случайной величины удобно характеризовать их относительной плотностью, которая пред- представляет собой отношение частоты попадания в интервал к длине это- этого интервала. При неограниченном увеличении числа опытов частота стремится стабилизироваться около вероятности. Кроме того, длины интервалов Ах при неограниченном увеличении числа опытов можно неограниченно уменьшать. В результате гистограмма будет стремить- стремиться к некоторой кривой, ординаты которой выражают отношения веро- вероятности к длине интервала. Таким образом, мы приходим к понятию плотности случайной величины. Предположим, что поле событий J^, связанное со случайной вели- величиной X, содержит попадания ее в любые интервалы (прямоугольни- (прямоугольники в случае векторной величины X. Плотностью (или плотностью вероятности) скалярной случай- случайной величины X называется предел отношения вероятности попада- попадания ее значения в бесконечно малый интервал [ж,ж + Аж) к длине
2.2. Непрерывные случайные величины 57 этого интервала Ах при стягивании его в точку ж: /(ж) = lim д^ • BЛ) Кривая, изображающая плотность, обычно называется кривой рас- распределения. Она представляет собой теоретический аналог гистограм- гистограммы. На рис. 2.1 представлен примерный вид кривой распределения. Если понимать неравенства меж- между векторами как совместное вы- У полнение таких же неравенств меж- между соответствующими координатами / \^ y=f(x) векторов (например, BSjrfe B®||a<%%iignts < bk, fc = l,...,n), Аж в знамена- знаменателе формулы B.1) как произведе- произведение Ах\ Аж2 ... Джп, а Аж —у 0 как —" тах(Аж1 ... Ажп) —у О, то формула B.1) определит плотность n-мерного рис ^ \ случайного вектора X. Таким образом, плотностью случайного вектора называется пре- предел отношения вероятности его попадания в бесконечно малый пря- прямоугольник [ж, ж + Аж) к объему этого прямоугольника Аж при стя- стягивании его в точку ж. 2.2.2. Непрерывная случайная величина. Плотность как обычная функция существует только в том случае, когда при всех ж существует предел в B.1) (конечный или бесконечный). Поэтому име- имеет смысл выделить класс случайных величин, для которых это усло- условие выполняется. Непрерывной случайной величиной называется такая случайная величина, вероятность попадания которой в любую бесконечно ма- малую область бесконечно мала и для которой при каждом ж существу- существует конечный или бесконечный предел B.1)*). Из этого определения следует, что вероятность попадания непрерывной случайной величи- величины в любую точку (или на любую кривую при п > 1, поверхность при п = 3, гиперповерхность при п > 3) пространства ее значений равна 0. Если плотность /(ж) непрерывна в точке ж, то для любой последо- последовательности прямоугольников {Rp}, содержащих точку ж, сходящейся к точке ж, Rp+1 С Rp, limRp = П Rp = ж, /(ж) = lim p , B.2) p=i *) Достаточно, чтобы предел в B.1) существовал почти при всех ж, т.е. при всех ж, кроме некоторого множества нулевой меры. Множеством нуле- нулевой меры называется такое множество, которое можно покрыть интервала- интервалами (прямоугольниками) сколь угодно малой суммарной длины (площади, объема).
58 Гл. 2. Случайные величины где v{Rp) — объем прямоугольника Rp (длина интервала Rp при п = = 1, площадь при п = 2). \> Для доказательства формулы B.2) зададим произвольно ма- малое г > 0 и выберем настолько малый прямоугольник RPo, чтобы для любой точки х' ? RPo было |/(х')-/(*)!<§• B.3) Тогда для любого р > ро, неравенство B.3) будет выполнено при всех х' е Rp, так как Rp С RPo при р > р0. Пусть Хр — ближайшая к началу координат вершина прямоуголь- прямоугольника Rp, Хр ^ х' для всех ж' G йр. На основании B.3) \f(xp)-f{x)\<\. B.4) С другой стороны, из B.1) следует, что для всех достаточно малых прямоугольников Rp Р(х е RP) ,, |. B-5) Из B.4) и B.5) следует, что для всех достаточно больших р -ГЬг) I f / Отсюда вследствие произвольности г > 0 следует B.2). <\ Будем называть областью любое связное множество точек, имею- имеющее определенный объем (длину при п = 1, площадь при п — 2). Лег- Легко понять, что любую область можно представить в виде счетного объединения попарно непересекающихся прямоугольников. Пусть В — любая область. Если плотность f(x) непрерывна в замкнутой области, полученной путем добавления к области В ее границы, то ^^«М, B.6) где т и М — нижняя и верхняя грани значения плотности f(x) в области В: т = inf /(ж), М = sup f(x). хев хеВ \> Пусть {Rp} — последовательность попарно непересекающих- непересекающихся прямоугольников, объединением которых является область В. Предположим, что Р(Х G B)/v{B) > М. Тогда это же неравенство справедливо, по крайней мере, для одного из прямоугольников, из
2.2. Непрерывные случайные величины 59 которых составлена область В, скажем для R^: P(lG Rk)/v(Rk) > > М. Действительно, если F(lG Rk)/v(Rk) < М для всех прямо- прямоугольников Rkj то в силу аксиомы сложения Р(х е в) = ? ррг е я*) < м ?v(Rk) = Mv(B). к=\ к=1 Обозначим прямоугольник Д/,, для которого P(lG Rk)/v(Rk) > М, через R(l\ Разделим каждую сторону прямоугольника Д^1) пополам. Тогда прямоугольник Д^1) разобьется на 2п равных прямоугольников и, по крайней мере, для одного из них, скажем для Ry = ДB\ будет выполнено то же неравенство: Р(Х ? R^)/v(R^) > М. Продолжая этот процесс деления прямоугольников, получим последовательность прямоугольников {Д(р)}, для каждого из которых Пусть хо — точка, принадлежащая всем прямоугольникам Rw. Оче- Очевидно, что такая точка существует и единственна. Следовательно, по- последовательность, прямоугольников {i?(p)} сходится к точке жо, и в силу B.2) и B.7) /(жо)=Л^ >М Полученное противоречие доказывает правое неравенство B.6). Ана- Аналогично доказывается левое. <\ Из B.6) следует, что формула B.2) справедлива и в том случае, когда {R(p;} представляет собой произвольную последовательность областей, содержащих точку ж, и сходящуюся к точке х. \> Действительно, обозначив через тр и Мр нижнюю и верхнюю грани f{x) в области Rp, применив неравенства B.6) к каждой обла- области Rp и приняв во внимание, что последовательности {тр} и {Мр} сходятся к f(x) в силу непрерывности /(ж), убеждаемся в справедли- справедливости высказанного утверждения. <! 2.2.3. Вероятность попадания в область. Определим вероят- вероятность попадания непрерывной случайной величины X в данную об- область А. \> Предположим сначала, что плотность f(x) величины X непре- непрерывна в замкнутой ограниченной области А. Возьмем произвольную последовательность разбиений области А
60 Гл. 2. Случайные величины На рис. 2.2 показано одно такое разбиение для двумерного векто- вектора X (п = 2). Пусть dp — максимальный из наибольших диаметров областей А[р) (к = 1,..., Np): dp = max sup \x — x'\, lim dp = 0, '" x,x'eA[p) гщ', Mjf' — соответственно нижняя и верхняя грани f(x) в области А^'. Тогда при всех р будем иметь Рис. 2.2 к=1 и в силу справедливости неравенства B.6) имеем m) Следовательно, при всех р к=1 A) B.8) к=1 Из теории интегралов Римана известно, что при р —у оо обе суммы в B.8) сходятся к одному и тому же пределу, равному интегралу от функции /(ж), распространенному на область А. Следовательно, веро- вероятность попадания непрерывной случайной величины X в область А определяется формулой Р(Х = f f( x)dx. B.9) Если плотность f(x) кусочно непрерывна и ограничена в замкну- замкнутой области Л, то разбив А на части, в каждой из которых f(x) непре- непрерывна, и применив аксиому сложения, убеждаемся в том, что форму- формула B.9) справедлива и в случае кусочно непрерывной ограниченной плотности f(x). Если плотность f(x) неограничена в области А или сама область А неограничена, то, представив А как предел последовательности огра- ограниченных областей, в каждой из которых f(x) ограничена, как это делается при определении несобственных интегралов, убеждаемся в справедливости формулы B.9) и в таких случаях. При этом несоб- несобственный интеграл в B.9) всегда существует как предел последова- последовательности неотрицательных интегралов, не превосходящих 1. <!
2.2. Непрерывные случайные величины 61 Таким образом, вероятность попадания случайной величины X в данную область А равна интегралу от плотности этой величины по области А. В случае скалярной величины X формула B.9) определяет веро- вероятность попадания величины X в интервал А = (а,/?): /з Р{а < X < C) = Г /(ж) dx. B.10) а В случае n-мерного вектора X интеграл в B.9) представляет со- собой n-кратный интеграл по всем координатам вектора х. Область А обычно определяется некоторыми неравенствами, из которых нахо- находятся пределы интегрирования по всем переменным. Величина f{x) dx, которая в силу B.1) представляет собой с точ- точностью до бесконечно малых высшего порядка вероятность попадания величины X в бесконечно малую область объема dx, называется эле- элементом вероятности. Вероятностным пространством непрерывной случайной величи- величины X служит пространство ее значений с алгеброй множеств, для которых существует интеграл Римана в B.9), и вероятностью, опре- определяемой формулой B.9)*). Таким образом, плотность непрерывной случайной величины полностью определяет ее распределение. 2.2.4. Свойства плотности. Изучим теперь основные свойства плотности. 1) Из определения непосредственно следует, что плотность не мо- может быть отрицательной, f(x) ^ 0. 2) Учитывая, что выполнение неравенств — оо < X < оо представ- представляет собой достоверное событие (как в случае скалярной, так и в слу- случае векторной величины X), из B.9) получаем сю / f(x)dx = l. B.11) В случае n-мерной векторной величины X интеграл здесь следует понимать как гг-кратный интеграл от — оо до оо по всем координа- координатам х\,..., хп вектора х. Таким образом, плотность неотрицательна и интеграл от нее по всему пространству значений случайной величины равен единице. *) Легко понять, что совокупность всех множеств, для которых фор- формула B.9) и аксиома сложения определяют вероятность, образует алгебру, но не а-алгебру. Чтобы класс множеств, для которых формула B.9) опре- определяет вероятность, был сг-алгеброй, необходимо понимать интеграл как интеграл Лебега. Тогда формула B.9) определит вероятность на сг-алгебре борелевских множеств [42].
62 Гл. 2. Случайные величины Любая функция, обладающая этими двумя свойствами, может слу- служить плотностью случайной величины. Пример 2.5. Равномерное распределение. Так называется распреде- распределение непрерывной случайной величины, плотность которой постоянна в некотором интервале (а, Ь) и равна нулю вне этого интервала: Хе(аМ> B.12) О при х $ (а,Ь). Равномерное распределение характерно для фазы случайных колеба- колебаний. Во многих задачах практики приходится рассматривать гармониче- гармонические колебания со случайными амплитудой и фазой. В таких случаях фа- фаза часто оказывается случайной величиной, равномерно распределенной в пределах периода колебаний. Равномерное распределение характерно также для ошибок грубых из- измерений. Если измерение какой-либо величины производится с точностью до целых делений шкалы, без определения на глаз доли деления, то ошиб- ошибка измерения может иметь любое значение, не превосходящее по абсолют- абсолютной величине половины деления шкалы, причем нет никаких оснований считать вероятности разных значений различными. Больше того, можно с уверенностью сказать, что при большом числе таких измерений все значе- значения ошибки в пределах от минус половины деления до плюс половины де- деления шкалы будут встречаться одинаково часто. Поэтому ошибка грубых измерений, производимых с точностью до целых делений шкалы, представ- представляет собой случайную величину, равномерно распределенную в пределах от —А/2 до +А/2, где А — цена деления шкалы. Равномерным распределением пользуются также при вычислении гео- геометрических вероятностей на числовой прямой (см. пример 1.3). Пример 2.6. Нормальное распределение определяется плотностью {-1-c(x-aJ}, О 0. B.13) = ^-exp Это распределение, занимающее особое место среди всех распределений, мы изучим в разд. 3.6. Пример 2.7. Логарифмическое нормальное (логнормальное) распре- распределение определяется плотностью ±} О 0, B.14) где 1(х) — единичная ступенчатая функция, равная 1 при х > 0 и 0 при х < 0. Случайная величина с таким распределением неотрицательна. Пример 2.8. j-распределение определяется плотностью BЛ5)
2.2. Непрерывные случайные величины 63 где T(z) — гамма-функция, определяемая формулой оо ГО) = /VV^, z>0. B.16) о Частным случаем 7"Распределения при /i = 0 является показательное распределение f(x) = ke~kxl(x). B.17) Показательное распределение широко применяется в теории надежности технических устройств и в теории обслуживания. Частный случай 7-распределения при любом натуральном fi называется распределением Эрланга. Пример 2.9. C-распределение определяется плотностью f(x) = B(p,q)xp-1(l-x)q-1l(x)l(l-x), p,q>0, B.18) где через B(p,q) обозначена бета-функция Г(р)Г(в) B(p,q) = Г(р Пример 2.10. Равномерное распределение в области В n-мерного про- пространства определяется плотностью где 1в(х) — индикатор области В (функция, равная 1 в области ВиО вне области В), a v(B) — объем (мера) области В. В частности, равномерное распределение на прямоугольнике \х\ < а, \у\ < Ь на плоскости определяется плотностью Нх,у) = ±1(а-\х\тЬ-\у\). B.20) Равномерное распределение внутри эллипса х2/а2 + у2/Ъ2 = 1 на плос- плоскости определяется плотностью Равномерным распределением на плоскости и в пространстве пользу- пользуются при вычислении геометрических вероятностей (примеры 1.4 и 1.5). Пример 2.11. Нормальное распределение в n-мерном пространстве определяется плотностью i^ {5(жТ ~аТ) с{х~а)}' B-22) где вектор х представлен в форме матрицы-столбца, верхний индекс «Т» означает операцию транспонирования матрицы, С — симметричная по- положительно определенная матрица, а \С\ — определитель матрицы С. В разд. 4.4 мы подробно изучим многомерное нормальное распределение.
64 Гл. 2. Случайные величины 2.2.5. Случайная величина как функция элементарного события. Из определения случайной величины следует, что при по- появлении любого элементарного события каждая случайная величина принимает одно значение. Следовательно, случайная величина пред- представляет собой функцию элементарного события. Так, в примере 2.1 число появлений X события А представляет собой функцию элементарного события, принимающую значение т при появлении любого элементарного события uj = {i?i,..., Вп}, в ко- котором га из событий В\,..., Вп совпадают с Лип — га — с А. В примере 2.4 случайный вектор X представляет собой функ- функцию элементарного события, принимающую значение {rai,...,rar} при появлении любого элементарного события uj = {Bi,..., Вп}7 в котором nik из событий Bi,...,Bn совпадают с Ak (к = 0,1,... , г; TTii, • • • ,тпг = 0,1,... , n; mi + ... + тг = п). Любая случайная величина X, если принять за элементарные со- события точки пространства ее значений, представляет собой функцию элементарного события, которая при появлении элементарного собы- события uj = х принимает то же значение и; = х, X = х(<и) —и. Координата Хр любого случайного вектора X = {Xi,... ,ХП} представляет собой функцию элементарного события, которая при по- появлении элементарного события и = х = {xi,... ,хп} принимает зна- значение С0р — Хр, Хр = Xp(uj) = UJp (р — 1, . . . , п). Наконец, случайная величина Y — <р(Х), представляющая собой данную функцию случайной величины X, есть функция элементар- элементарного события, которая при появлении элементарного события uj — х принимает значение ip(uj) = ip(x), Y = ip(uj). Однако не всякая функция элементарного события является слу- случайной величиной. Чтобы функция элементарного события ср(и:) была случайной величиной, необходимо, чтобы каждому множеству А неко- некоторого поля в пространстве ее значений она ставила в соответствие одно определенное множество элементарных событий, принадлежа- принадлежащее полю 5?. Такие функции называются измеримыми относительно соответствующих полей. Таким образом, любая случайная величина представляет собой из- измеримую функцию элементарного события. Это принимается за опре- определение случайной величины при построении теории вероятностей на основе теории меры. 2.3. Обобщение понятия плотности 2.3.1. Плотность дискретной случайной величины. Предел в формуле B.1), определяющей плотность, может существовать толь- только в том случае, когда вероятность попадания случайной величины в любой бесконечно малый интервал длины (объема в случае п-мерного
2.3. Обобщение понятия плотности 65 пространства) Ах бесконечно мала. Если вероятность в B.1) пред- представляет собой бесконечно малую низшего порядка по сравнению Ах при каком-нибудь значении ж, то предел в B.1) можно считать рав- равным бесконечности и принять f(x) = oo. Если же вероятность в B.1) стремится к нулю при Ах —у 0, как, например, в случае дискретной величины X, то определить плотность как обычную функцию вообще невозможно. Определить плотность в таких случаях можно только с помощью обобщенных функций. Чтобы подойти к определению плотности дискретной случайной величины X с возможными значениями х\,..., ждг и их вероятностя- вероятностями pi,... ,pni рассмотрим отношение в B.1) при разных значениях ж, предполагая, что ни один из интервалов {xk,Xk+i) (к = 1,..., N — 1) не содержит ни одного возможного значения величины X. Если точ- точка х не совпадает ни с одной из точек Ж1,...,ждг, то при любом достаточно малом Ах интервал [ж, х + Аж) не содержит ни одно- одного значения величины X и вероятность попадания в этот интервал равна 0. Следовательно, плотность /(ж) дискретной случайной ве- величины X существует и равна нулю при всех ж ф Ж1,... ,ждг. При х — Xk вероятность попадания в интервал [ж, ж + Аж) равна pk при всех достаточно малых Аж. Вследствие этого формула B.1) дает /(ж) = оо при ж = Ж1,..., ждг. При этом вероятность попадания в ин- интервал (хк — ?, Xk + s) равна pk при любом достаточно малом е > 0, так как этот интервал содержит значение ж/, величины X и не содер- содержит других ее значений. С другой стороны, согласно формуле B.10) вероятность попадания в этот интервал равна интегралу от плотности в пределах от Хк — е до Xk + s. Следовательно, при любом достаточно малом е > 0 хк+е f(x)dx=pk (Jb = l,...,iV). B.23) хк-е Таким образом, плотность дискретной случайной величины равна нулю всюду, кроме точек xi,..., ждг, в которых она «делает всплески в бесконечность», причем «площади всплесков» в точках Ж1,...,ждг равны соответственно р\,..., pjy. Такую плотность можно предста- представить себе как предел плотности, равной нулю всюду, кроме малых интервалов (хк — 1,Хк -\-1) (к = 1,..., N). и равной соответственно Pi/2/,... ,рдг/2/ в этих интервалах (рис. 2.3), при / —у 0*). Ясно, что этот предельный переход не определяет плотность как функцию пе- переменной х в обычном смысле, так как никакая функция не может удовлетворять условию B.23) при любом е > 0; интеграл от любой (интегрируемой) функции по бесконечно малому интервалу бесконеч- *) Само собой разумеется, что вместо прямоугольных «импульсов» на рис. 2.3 можно взять любые другие «импульсы», имеющие основание 21 и площади, равные pi,... ,Pn-
cements ~66 Гл. 2. Случайные величины но мал и вследствие этого не может оставаться равным pk при про- произвольно малом г > 0. Тем не менее подобные предельные переходы У хк+1 Х2 XN Рис. 2.3 имеют определенный смысл и целесообразны для многих физических и технических приложений. Они приводят к понятию импульсной E-функции (см. приложение 1). Пользуясь E-функцией, можно определить плотность дискретной случайной величины X формулой N п Л(т — г ) B 24") Действительно, подставив выражение B.24) в B.9), приходим к вы- выводу, что вероятность попадания дискретной случайной величины в любую область А равна сумме вероятностей тех значений xv, которые содержатся в области А. Следовательно, задав плотность дискретной величины X формулой B.24), мы полностью определяем распределе- распределение этой величины. 2.3.2. Непрерывно-дискретные случайные величины. Кро- Кроме дискретных и непрерывных, в задачах практики встречаются и та- такие скалярные случайные величины, для которых отличный от нуля предел в B.1) существует при всех ж, кроме конечного или счетного множества значений xi,... , ждг, имеющих отличные от нуля вероят- вероятности pi,... jPn- Такие случайные величины называются непрерывно- дискретными. Плотность непрерывно-дискретной скалярной случайной величи- величины X определяется формулой N f{x) = h(x) + У2р„6(х - х„), B.25)
2.3. Обобщение понятия плотности 67 где fi(x) — неотрицательная функция, представляющая собой предел в B.1) при х ф х\,..., xn *) • Для непрерывно-дискретной случайной величины X формула B.11) дает Любая функция вида B.25), удовлетворяющая этому условию и усло- условию fi(x) ^ 0, может быть плотностью непрерывно-дискретной вели- величины. 2.3.3. Непрерывно-дискретные случайные векторы. Рас- Распределение случайного вектора может иметь значительно более слож- сложную структуру, чем распределение скалярной величины. Отличные от нуля вероятности могут быть сосредоточены не только в отдель- отдельных точках n-мерного пространства, но и на кривых, поверхностях, а при п > 3 и на многообразиях большей размерности. В задачах прак- практики встречаются только такие случайные векторы, у которых во всех точках пространства значений, кроме, может быть, конечного или счетного множества многообразий с сосредоточенными вероятно- вероятностями, существует предел конечный или бесконечный в B.1). Любой такой вектор имеет плотность, которая может содержать S-функции. Если на m-мерном многообразии h{x) — 0, т < 7г, сосредоточена от- отличная от нуля вероятность р, то плотность случайного вектора X содержит слагаемое вида g{x)8(h{x)). При интегрировании по лю- любым п — т координатам вектора х S-функция исчезает и получает- получается выражение д(х) |J(#)|, где согласно правилу замены переменных в кратном интеграле J(x) — якобиан координат вектора h (x) по соот- соответствующим п — т координатам вектора х. Интеграл от этого выра- выражения по оставшимся т координатам вектора х равен р. Таким образом, если в пространстве значений вектора X поло- положительные вероятности р\,..., р^ сосредоточены на многообрази- многообразиях hi(x) = 0,..., Нн(х) = 0, а в остальных точках существует предел в B.1), то плотность вектора X определяется формулой N Пх) = Мх) + ^,9к(хN(кк(х)), B.26) к=1 *) Множество значений случайной величины, имеющих отличные от нуля вероятности, не может быть более чем счетным. В самом деле, не больше одного значения может иметь вероятность больше 1/2, не больше трех значений могут иметь вероятности в интервале A/4,1/2); и вообще не больше 2Р — 1 значений могут иметь вероятности в интервале B~р, 2~p+l). Следовательно, расположив все такие значения в порядке убывания веро- вероятностей, их можно все перенумеровать.
68 Гл. 2. Случайные величины где Л (ж), 9i(x), • • • i9n(x) ~ неотрицательные функции, причем 9\{х),... i9n{%) зависят от выбора соответствующих функций hi(x)...., /гдг(ж). В частности, уравнение к-то многообразия иногда можно записать, выразив явно какие-нибудь координаты вектора х через остальные. Приняв совокупность этих координат за вектор х", а совокупность остальных координат за вектор ж', представим урав- уравнение многообразия в виде х" = (pk(xf). Этому соответствует функ- функция hk(x) = х" — cpk(xf). При этом точку Xk, в которой сосредоточе- сосредоточена вероятность р^, можно считать многообразием нулевой размерно- размерности с уравнением х — х^. В этом случае hk (х) = х — Xk и можно при- принять дк(х) = 9к(хк) =Рк- В частном случае дискретного вектора X, все распределение ко- которого сосредоточено в точках xi,...,ждг, /if» =0, hk(x) =х-хк, 9к(х) =Рк (fe = l,...,iV) и B.26) принимает вид B.24). В другом частном случае непрерыв- непрерывного вектора предел в B.1) существует во всех точках пространства значений, д\{х) = ... = ^дг(ж) = 0 и /(ж) = fi(x). Во всех остальных случаях вектор X будет непрерывно-дискретным. Как мы увидим в примере 4.5, координаты непрерывно-дискрет- непрерывно-дискретного случайного вектора могут быть непрерывными величинами. 2.3.4. Вырожденные распределения. Рассмотрим подробнее частный случай вырожденного распределения величины X, пол- полностью сосредоточенного на одном m-мерном многообразии, гп, < п, уравнение которого h(x) = 0 допускает явное решение относительно каких-нибудь п — m координат вектора х. Представив уравнение этого многообразия в виде х" — ^(ж;), получим из B.26) следующую фор- формулу для плотности вектора X *): f(x)=g(x'N(x"-v(x')). B.27) Таким образом, если случайная величина X" является опреде- определенной функцией другой случайной величины X1', X" = (р(Х'), то их совместная плотность (плотность составного случайного вектора X = {Х',Х"} определяется формулой B.27). Функция g(xf) в B.27), как мы увидим в примере 4.5, представляет собой плотность величи- ны X . В частном случае вырожденного распределения величины X, со- сосредоточенного на подпространстве или сдвинутом подпространстве, *) Так как ^-функция в B.27) равна нулю всюду вне многообразия х" = </?(ж')> т0 функцию д{х) = д(х',х") можно заменить ее значением на этом многообразии: д(х\ х") — д{х\ ^р(х')) = д\(х'). Отбрасывая индекс у найденной таким путем новой функции, получим B.27).
2.4- Функция распределения 69 имеющем уравнение х" = Ах' + с, где А — в общем случае, прямо- прямоугольная матрица, а с — вектор сдвига, формула B.27) принимает вид f(x)=g(x'N(x"-Ax'-c). B.28) 2.3.5. Вероятность попадания в область. Дискретными, неп- непрерывными и непрерывно-дискретными случайными величинами исчерпывается все множество случайных величин, встречающихся в задачах практики. Мы показали, что для этих трех типов случай- случайных величин распределение полностью определяется плотностью. Это дает основание в приложениях теории вероятностей принять плот- плотность за основную характеристику распределения любой конечномер- конечномерной случайной величины. При этом будет справедлива формула B.9) для вероятности попадания случайной величины в любую данную об- область. Однако в общем случае при интегрировании в формуле B.9) следует учитывать все принадлежащие области А части ее границы, на которых сосредоточена отличная от нуля вероятность (на которых аргументы ^-функций, входящих в /(ж), обращаются в нуль). Так, например, при вычислении вероятности попадания в интервал [а, /3) следует учитывать, что вероятность значения а случайной величи- величины X может быть отличной от нуля. Тогда получим /3-0 C-е Р(а ^ X < /?) = Г f(x) dx = lim f f(x) dx. J e-^o J a—0 ot—e 2.4. Функция распределения 2.4.1. Функция распределения и ее связь с плотностью. Функцией распределения случайной величины X называется вероят- вероятность неравенства X < ж, рассматриваемая как функция параметра х: F{x) =P(X <х). B.29) Функция распределения непрерывной, дискретной или непрерыв- непрерывно-дискретной случайной величины может быть выражена через плотность. Для этого достаточно вычислить вероятность неравенства X < х в формуле B.29) по формуле B.9) или B.10): X F{X) = Р(-оо < X < х) = [ f(u) du, B.30) — оо где в n-мерном случае интеграл представляет собой n-кратный инте- интеграл, причем интегрирование по переменной щ, производится от — оо до Xi (г = !,...,??).
70 Гл. 2. Случайные величины Дифференцируя формулу B.30) по ж в случае скалярной величи- величины X и вспоминая, что производная интеграла по верхнему пределу равна значению подынтегральной функции при этом верхнем преде- пределе, получаем f(x) = F'(x). B.31) Таким образом, плотност/ь скалярной случайной величины есть про- производная функции распределения. В случае векторной величины X напишем формулу B.30) в ска- скалярной форме Х\ Xv ,...,xn)= / ... / f(uu...,un)dui...dun — оо — оо и продифференцируем ее один раз по xi, один раз по х-2 и т.д., один раз по хп. В результате получим Таким образом, плотность п-мерной случайной величины пред- представляет собой симметричную смешанную производную п-го поряд- порядка функции распределения. 2.4.2. Свойства функции распределения скалярной вели- величины. Изучим свойства функции распределения скалярной случай- случайной величины. 1) Из формулы B.30) следует, что функция распределения — не- неубывающая функция х. 2) Из B.30) и свойства B.11) плотности следует, что F(-oo) = lim F(x) = 0, F(oo) = lim F(x) = 1. x—У — oo x—>-oo 3) Из B.30) и соглашения в п. 2.2.1 о том, как надо понимать инте- интегралы от плотности, следует, что функция распределения непрерывна слева: F(x) = F(x — 0). 4) Функция распределения дискретной случайной величины воз- возрастает скачками в точках xi,...,xjy соответственно на ^i,...,р^ и постоянна в любом интервале, не содержащем ни одного из значе- значений Ж1,...,ждг, так как вероятность события X < х не изменяется при изменении х в таком интервале. Таким образом, функция распре- распределения дискретной случайной величины изображается ступенчатой линией (рис. 2.4). 5) Из свойств интеграла с переменным верхним пределом следует, что функция распределения непрерывной случайной величины непре- непрерывна и дифференцируема на всей числовой оси. Однако ее произ- производная может быть и разрывной функцией, как, например, в случае равномерного или показательного распределения (рис. 2.5).
\.4- Функция распределения 71 ag replacements y=F(x) О Х\ Х2 Рис. 2.4 Рис. 2.5 Рис. 2.6 6) Функция распределения непрерывно-дискретной случайной ве- величины имеет точки разрыва х\,..., xjy со скачками соответствен- соответственно pi,..., рм и непрерывна и дифференцируема во всех остальных точках числовой оси (рис. 2.6).
72 Гл. 2. Случайные величины 2.4.3. Вероятность попадания скалярной величины в ин- интервал. Зная функцию распределения скалярной случайной величи- величины, можно вычислить вероятность ее попадания в любой полузамкну- полузамкнутый интервал [а,/?). \> В самом деле, так как события X < аи а ^ X < C несовместны и их объединение есть событие X < /3, то Р(Х </3)= Р(Х < а) + Р(а ^ X < /3), откуда в силу B.29) следует Р(а <С X < f3) = F(P) - F(a). < B.33) Таким образом, вероятность попадания случайной величины в данный интервал равна приращению ее функции распределения на этом интервале. Положив в B.33) C = а + е, ? > О, и устремив е к нулю, получаем Р(Х = а)= F(a + 0) - F(a). B.34) Таким образом, вероятность попадания случайной величины в дан- данную точку равна скачку ее функции распределения в данной точке. Пример 2.12. Найти закон распределения времени Т безотказной ра- работы системы с момента начала эксплуатации при постоянной интенсивно- интенсивности отказов Л (см. пример 1.11). Найдем сначала функцию распределения этой случайной величины, т.е. вероятность того, что случайная величина Т будет меньше, чем t: F(t) = = Р(Т < t). Но это есть вероятность того, что система откажет до момен- момента t. Вероятность безотказной работы системы до момента ?, т.е. Р(Т > t), представляет собой функцию надежности системы p(t). При постоянной интенсивности отказов Л функция надежности p(t) = e~xt. Следовательно, F{t) = Р(Т <t) = l- P(T ^t) = l -p(t) = A - e~xt) l(t). При t < 0 эта вероятность равна 0, потому что исправная система не может отказать до начала ее эксплуатации (конечно, предполагается, что ее на- начинают эксплуатировать в исправном состоянии). Следовательно, F{t) — 0 при t < 0. Дифференцируя полученную формулу, находим плотность вре- времени Т безотказной работы f(t) = \e-xtl(t). Таким образом, время безотказной работы системы (момент первого отказа) при постоянной интенсивности отказов Л имеет показательное рас- распределение с параметром к = Л. Пример 2.13. Найдем распределение интервала времени Т между двумя последовательными событиями пуассоновского потока событий по- постоянной интенсивности Л. В этом случае среднее число событий, происхо- происходящих в интервале времени длительности ?, равно (л — Xt. Функция распре- распределения интервала Т между двумя последовательными событиями потока
2.4- Функция распределения 73 есть, очевидно, вероятность того, что в интервале времени длительности t произойдет хотя бы одно событие: F(t) = Р(Т < t). (I) Вероятность противоположного события — в интервале времени длитель- длительности t не произойдет ни одного события — вычисляется по формуле A.46) при /л = At, m = 0: ро = e-Af. (II) Следовательно, F{t) = l-Po = l-e-xt. (Ill) Но это — та же формула, которая была получена в предыдущем примере для функции распределения времени безотказной работы системы. Таким образом, интервал времени между двумя последовательными событиями в пуассоновском потоке постоянной интенсивности представляет собой слу- случайную величину, распределенную по показательному закону. Пример 2.14. Некоторая система эксплуатируется в течение време- времени to. Если она откажет в течение этого времени, то ее ремонтируют и сно- снова используют, пока она не прослужит срок to- Найти закон распределения времени S работы системы после первого ремонта. Очевидно, что случайная величина S связана с временем Т работы си- системы до первого отказа соотношениями 5 = 0 при T^to, S = to-T при T<t0. Так как S ^ 0, то при s ^ 0 ее функция распределения G(s) равна 0. При s > 0 она выражается через функцию распределения F(t) времени Т безот- безотказной работы системы формулой G(s) = P(S < s) = P(t0 -T <з) = Р(Т >to-s) = = 1 - Р(Т <to-s) = l- F(t0 - з). (I) Подставляя сюда выражение F(t) из примера 2.12, получаем G(s) = e~4t°-s) при 0 < s < t0. (II) Наконец, G(s) — 1 при s > to, так как S < to. Из (II) видно, что Таким образом, функция G(s) имеет разрыв со скачком e~xt° в точ- точке s = 0. Во всех остальных точках числовой оси она непрерывна. При любом s G @, to) она имеет производную Хе~х^ь°~3\ а при любых s < 0 и s > to ее производная равна нулю. Следовательно, S представляет со- собой непрерывно-дискретную случайную величину с одним исключительным значением. Ее плотность определяется формулой о(ч) -С'(*)- /Ле"Л(*°) + e-Xt°8(s) при в € [0, to], SW"(jW"\0 при si [0,to\- Пример 2.15. Текущее значение входного сигнала X нелинейного эле- элемента представляет собой непрерывную случайную величину с функцией
74 Гл. 2. Случайные величины распределения F(x). Зависимость текущего значения выходного сигнала У этого элемента связано со значением входного сигнала X в тот же момент времени соотношением {X при \Х\ ^ а, а при \Х\ > а, (I) —а при \Х\ < —а (элемент с такой характеристикой называется ограничителем). Найти рас- распределение выходного сигнала. Ясно, что функция, распределения G(y) случайной величины Y равна О при любом у ^ —а (неравенство Y < у при у ^ —а невозможно) и равна 1 при любом у > а (событие Y < у при у > а достоверно). При \у\ < а собы- событие Y < у совпадает с событием X < у. Следовательно, G(y) = F(y) при \у\ < а. Очевидно, что если F(—a) > 0, F(a) < 1, то функция распределе- <Ш$е&Ьу) имеет разрыв со скачком F(—a) при у = —а и разрыв со скач- ком 1 — F(a) при у — а. При всех остальных значениях у функция G(y) непрерывна и дифференцируема. Следовательно, в этом случае у пред- представляет собой непрерывно-дискретную случайную величину с двумя ис- исключительными значениями —ала. Ее плотность определяется формулой a) при |у|< а, (II) где f(x) — плотность случайной величины X. Вне интервала (—а, а) 9{У) = 0. Пример 2.16. Пусть X — непрерывная случайная величина с плот- плотностью f(x). Найти закон распределения длины пересечения случайно- случайного интервала (X — 1,Х + 1) с данным интервалом (а, 6), предполагая, что 2/ < Ь — а. Примером практической задачи такого типа может служить, а 1 1 I I 1 а х—1 х х+1 Ъ I 1 1 1 +1 а Ъ х—1 1 Ml— х—1 х а х+1 г 1 1 111 а х—1 х Ъ х+1 Рис. 2.7 например, следующая задача из теории стрельбы. Войска противника со- сосредоточены на участке линии фронта от точки а до точки Ъ. При вы- выстреле снаряд уничтожает на линии фронта все на интервале длины 21. При этих условиях снаряд поражает войска противника, расположенные на той части интервала (а,&), которая накрывается случайным интерва-
2.4- Функция распределения 75 лом (X — /, X + /), где X — случайная координата центра зоны поражения. Подобные задачи о перекрытиях часто возникают в теории стрельбы. В зависимости от значения х величины X накрытая часть интерва- интервала (а,Ъ) будет равна или 21 (рис. 2.7, а), или нулю (рис. 2.7, б) или любо- любому промежуточному значению в интервале @, 21) (рис. 2.7, в и рис. 2.7, г): [7 = 0 при X < а — I и при X > Ь + /, U = X -а + l при а-1 < X < а + 1, U = Ъ + 1-Х при Ъ-КХ <Ъ + 1, U = 21 при а + 1 < X <b-l. Для выполнения неравенства U < и при 0 < и ^ 21 необходимо, чтобы удо- удовлетворилось одно из двух несовместных неравенств X — а + / < и или Ъ + / — X < и. Поэтому функция распределения G{u) случайной величи- величины U определяется формулой G(u) = P(U <а) = Р(Х -а + Ки) + Р(Ъ + 1-Х < и) = = Р(Х <и + а-1) + Р(Х >Ъ + 1-и). Выразив последние вероятности через плотность по формуле B.10), получим и+а-1 G[u)= f f{x)dx+ [ f{x)dx, (I) — oo b+l — u b+l-u G(u) = \- f f(x)dx. (II) u+a-l Так как накрытая часть интервала (а, Ъ) не может быть отрицательной, то G(u) = 0 при и ^ 0. А вследствие того, что U не может превосходить 2/, событие U < и достоверно при любом и > 2/, вследствие чего G(u) = / при и > 21. Но из формулы (II) следует, что lim G(u) = 1- [ f(x) dx, a-l b-l G{21) = 1- / f(x)dx. a+l Следовательно, функция распределения G(u) терпит разрывы в точках и = 0 и и = 21 со скачками, равными соответственно = lim G(u) = 1 - / f(x)dx, и-^0 J a-l b-l P2 = l-GBl)= J f(x)dx.
76 Гл. 2. Случайные величины Таким образом, накрытая часть интервала (а, Ь) представляет со- собой непрерывно-дискретную случайную величину U, реализации которой сплошь заполняют интервал [0, 2/], и при этом вероятности двух исключи- исключительных реализаций 0 и 2/ отличны от нуля. Плотность накрытой части интервала (а, Ь) на основании B.31) опреде- определяется формулой д(и) = gi(u)+PlS(u)+P2d(u - 21), (III) где д\ (и) — 0 при и ^ 0 и при и^ 21, а в интервале @, 2/) равна произ- производной функции распределения G(u), определяемой формулой (I) и (II). Дифференцируя формулу (I) по правилу дифференцирования определен- определенного интеграла по верхнему и нижнему пределам, получим при 0 < и < 21 9l(u) = G\u) = f(u + a-l) + f(b + l- и). (IV) Естественно возникает вопрос: существуют ли случайные величи- величины, не относящиеся ни к одному из рассмотренных трех классов слу- случайных величин, с которыми приходится встречаться в задачах прак- практики? Чтобы убедиться в том, что существуют, достаточно привести пример такой случайной величины. Пример 2.17. Рассмотрим случайную величину X, функция распре- распределения которой F(x) определяется следующим образом: принимается F(x) = 0 при х ^ О, F(x) = 1 при х ^ 1; затем интервал @,1) делится на три равные части и в средней части (при х ? A/3, 2/3]) принимает- принимается F(x) = 1/2; каждая из оставшихся частей снова делится на три рав- равные части, и в средних частях принимается соответственно F(x) = 1/4 и F{x) = 3/4; каждая из оставшихся частей в свою очередь, делится на 3 равные части, и на средних частях F(x) принимается равной соответствен- соответственно 1/8, 3/8, 5/8, 7/8; этот процесс деления оставшихся частей на 3 равные У replacements 3/4 1/2 1/4 0 - _-" _-" 1/3 2/3 1 х Рис. 2.8 части продолжается неограниченно; и каждый раз на средней части F(x) определяется как среднее арифметическое ее значений на соседних интер- интервалах, на которых она уже определена (рис. 2.8). При этом в силу свойства непрерывности функции распределения слева F(x) определится и во всех
2.4- Функция распределения 77 точках интервала @,1), не принадлежащих ни одному из интервалов, на которых она определена описанным образом. Ясно, что построенная таким путем функция распределения F(x) непрерывна. Суммарная длина интер- интервалов, на каждом из которых она постоянна, равна 1. Действительно, один интервал постоянства F(x) имеет длину 1/3, два имеют длину 1/9, четы- четыре — 1/27, и вообще 2Р интервалов постоянства F(x) имеют длину 1/3P+1. Следовательно, суммарная длина всех интервалов постоянства F(x) равна 3 ' 9 ' 27 ' '•• ' 3^+1 . р=0 Таким образом, суммарная длина интервалов постоянства F{x) совпадает с длиной интервала @,1), на котором она изменяется от 0 до 1. Следователь- Следовательно, множество точек роста функции F(x) имеет нулевую меру. Несмотря на это, множество точек роста функции F(x) несчетно. В самом деле, функ- функция F(x) непрерывна, вследствие чего ее изменение в любой точке (не на интервале, а в одной точке) равно нулю, и если бы множество ее точек роста было счетным, то она вообще не могла бы изменяться и была бы по- постоянной (сумма счетного множества нулей всегда равна нулю как сумма бесконечного ряда, все члены которого равны нулю). Таким образом, функция F(x) непрерывна и имеет производную, рав- равную нулю, во всех точках числовой оси, кроме несчетного множества то- точек ее роста, имеющего меру нуль. В точках же роста функция F(x) не имеет производной. Очевидно, что случайная величина с такой функцией распределения не является ни дискретной, ни непрерывной, ни непрерывно- дискретной. Чтобы дать более общий пример, обозначим только что определенную функцию распределения через Fq(x). Пусть (р(х) — монотонно возрастаю- возрастающая функция с произвольной областью определения на числовой оси и с областью значений [0,1], ф(х) — монотонно возрастающая функция, отоб- отображающая интервал [0,1] на себя (т.е. с областью определения и областью значений [0,1]). Очевидно, что случайная величина с функцией распределе- распределения F{x) — tp(Fo(tp(x))) также не будет ни дискретной, ни непрерывной, ни непрерывно-дискретной при любом выборе монотонно возрастающих функ- функций сриф. В дальнейшем будем рассматривать только такие случайные ве- величины, которые имеют плотность, возможно содержащую линейную комбинацию ^-функций. 2.4.4. Вероятность попадания случайного вектора в пря- прямоугольник. Пусть X — n-мерный случайный вектор, F(x) — его функция распределения. Обозначим через А\ '' F приращение функ- функции распределения F(x) при изменении к-й координаты Xk вектора х и при неизменных значениях Х{ остальных координат, г ф к. На осно- (к) вании аксиомы сложения величина А)- ' F представляет собой вероят- вероятность попадания величины X в прямоугольник со стороной / по к-й оси и с бесконечными в обоих направлениях сторонами по остальным осям.
78 Гл. 2. Случайные величины Применяя последовательно аксиому сложения, приходим к зак- заключению, что вероятность попадания случайного вектора X в прямо- прямоугольник R, сторонами которого по осям Хкг, • • •, Хкр служат интервалы 1\,..., 1Р, а остальные стороны которого совпадают с соответствующими координатными осями, определяется формулой Р(Х е R) = A^l} ... A^p)F. B.35) 2.4.5. Свойства функции распределения случайного век- вектора. Изучим основные свойства функции распределения случайного вектора. 1) Из определения B.29) и неотрицательности плотности следу- следует, что функция распределения F(x) случайного вектора X является неубывающей функцией каждой из координат вектора х. 2) Из B.29) и свойства B.11) плотности следует, что F{x) —у О, когда хотя бы одна координата вектора х стремится к — оо, и F(x) —у —У 1, когда все координаты вектора х стремятся к +оо. 3) Из B.29) и соглашения в п. 2.3.5 о том, как надо понимать инте- интегралы от плотности, следует, что функция распределения F(x) непре- непрерывна слева по каждой координате вектора х. 4) Из формулы B.35) следует, что для любых натуральных р ^ п, любых fci,..., кр, 1 ^ к\ < к<± < ... ... < кр ^ п, и любых интервалов 1\,..., 1Р. Любая функция F(x), обладающая этими четырьмя свойствами (точнее, свойствами 2), 3) и 4), поскольку 1) представляет собой следствие свойства 4)), может быть функцией распределения слу- случайной величины. Это доказывается совершенно элементарно, если существует про- производная F'(x) (F'(x) = dnF(x)/dx\... дхп в случае n-мерного век- вектора X), возможно, содержащая линейную комбинацию ^-функций. В этом случае, по доказанному в разд. 2.2 и 2.3, существует случай- случайная величина X, для которой f{x) — Ff(x) служит плотностью. Функ- Функция F(x) служит для этой величины X функцией распределения. Доказательство в общем случае требует привлечения теории меры и здесь не приводится. 2.4.6. Зависимые и независимые случайные величины. Случайные величины X и Y называются независимыми, если собы- события X G А и Y G В являются независимыми для любых множеств А и В, соответствующие вероятности которых определены. Случайные величины X и Y называются зависимыми, если существуют множе- множества Аи В, для которых события X G А и Y G В являются зависимы- зависимыми. Эти определения относятся как к скалярным, так и к векторным случайным величинам.
2.4- Функция распределения 79 Из этих определений и условий независимости событий п. 1.6.2 следует, что случайные величины X и Y являются независимыми то- тогда и только тогда, когда отсутствие информации об одной из них меняет распределение другой. > Если случайные величины X и Y являются независимыми, то- тогда согласно определению события X < х и Y < у являются незави- независимыми для любых х и у. Следовательно, в силу теоремы умножения вероятностей независимых событий A.21) Р({Х < x}{Y < у}) = Р(Х < х) ¦ P(Y < у), ИЛИ ,y) = F1(x)-F2(y). < B.36) Таким образом, совместная функция распределения независимых случайных величин равна произведению их функций распределения. \> В силу соотношений B.32) и B.31) между функциями распре- распределения и плотностями из B.36) следует, что f{x,y) = h{x)h{y) B.37) (в случае векторов X и Y формула B.36) должна быть один раз про- продифференцирована по каждой компоненте вектора ж и по каждой компоненте вектора у для получения соотношений B.37)). <\ Таким образом, любое из условий B.36) и B.37) необходимо для независимости случайных величин X uY. \> Теперь покажем, что B.37) также достаточно. Для этого вычис- вычислим вероятность пересечения событий X Е А и Y Е В, предполагая, что условие B.37) выполнено. Подставляя выражение B.37) в форму- формулу B.9), получаем*) р = ({х е A}{Y е В}) = = JJ f(x:y)dxdy = J dx J fi(x)f2(y)dy = j fi(x) J f2(y)dy, АхВ Л В А В или, вследствие B.9), P=({IG A}{Y G B}) = P(X G A) P(Y G B) для любого А и В. Отсюда следует, что события X G А и Y G В яв- являются независимыми для любого А и В, если B.37) выполнено. Это *) А х В представляет собой прямое произведение множеств А и Б, т.е. множество упорядоченных пар {ж, у}, таких, что х G А, у G В.
80 Гл. 2. Случайные величины доказывает достаточность условия B.37) для независимости случай- случайных величин X и Y. Условие B.36), очевидно, тоже достаточно, так как B.37) следует из B.36). < Таким образом, каждое из условий B.36) и B.37) необходимо и достаточно для независимости случайных величин X uY. Случайные величины Х\,..., Хп называются независимыми, ес- если события Xk Gife (k = 1,... , п) являются независимыми для лю- любых множеств А\,..., Ап, для которых определены соответствующие вероятности. Случайные величины Х\,... ,Хп называются зависи- зависимыми, если существуют такие множества Ai,... ,Ап, для которых события Xk ? Ak (к = 1,... , п) являются зависимыми. Эти опреде- определения касаются как скалярных, так и векторных случайных вели- величин ХЬ...,ХП. Аналогично так же, как и в случае двух случайных величин, из этого определения следует, что для независимости Х\,..., Хп необ- необходимо и достаточно, чтобы их совместная функция распределе- распределения {плотность, если она существует) была равна произведению их функций распределения {соответственно плотностей). Примеры зависимых и независимых событий приведены в п. 4.2.3. 2.5. Энтропия распределения 2.5.1. Энтропия как мера неопределенности результатов опытов. Для того чтобы выяснить, что может служить мерой неопре- неопределенности результатов наблюдения случайного явления, рассмот- рассмотрим опыт, в результате которого появляется одно из несовмест- несовместных событий Е]_,..., Е^, образующих полную группу. Результат рассматриваемого опыта проще всего можно характеризовать номе- номером появляющегося события Е% {г = 1, 2,..., N). Для этого необходимо пе- перенумеровать все возможные результаты опыта в какой-нибудь си- системе счисления. Как известно, в двоичной системе счисления всякое число z может быть представлено в виде z = а0 • 2° + пг • 21 + а2 • 22 + ... + ак • 2к, B.38) где каждое из чисел ао, а\,..., а& может быть равно единице или ну- нулю. Число z вполне определяется в двоичной системе последователь- последовательностью чисел ao,ai,..., a& совершенно так же, как в десятичной си- системе всякое число вполне определяется последовательностью чисел, показывающих, сколько в данном числе содержится единиц, десят- десятков, сотен и т.д. Число к + 1 является числом двоичных знаков, кото- которыми изображается число z. Установим следующие правила нумерации возможных результа- результатов опыта:
2.5. Энтропия распределения 81 — равновероятные результаты опыта будем обозначать одним и тем же числом двоичных знаков; — чем больше вероятность данного результата опыта, тем мень- меньшим числом двоичных знаков будем стараться его обозначить. Произвести нумерацию возможных результатов опыта в двоичной системе, руководствуясь перечисленными двумя правилами, можно, например, следующим образом. Разобьем все возможные результа- результаты опыта на две группы так, чтобы сумма вероятностей результатов опыта, входящих в одну группу, была как можно ближе к 1/2. Всем результатам опыта, входящим в одну группу, припишем первый дво- двоичных знак 1, а всем результатам опыта, входящим в другую группу, припишем первый двоичный знак 0. Для определения второго дво- двоичного знака разобьем каждую из двух групп в свою очередь на две подгруппы так, чтобы сумма вероятностей результатов опытов, вхо- входящих в каждую подгруппу, была как можно ближе к 1/4. Продолжая таким образом, мы получим после к разбиений такие группы, что сум- сумма вероятностей входящих в каждую группу результатов опыта будет приблизительно равна 2~к. Если после к разбиений в какой-либо из полученных групп окажется только один возможный результат опы- опыта, то дальнейшее разбиение этой группы будет невозможным, и мы выразим номер составляющего эту группу результата опыта получен- полученным &-значным двоичным числом. Легко видеть, что, если вероят- вероятность какого-нибудь возможного результата опыта равна 2~fe, где к — какое-нибудь целое положительное число, то его номер выразится к- значным двоичным числом. Для того чтобы понять, как можно из- измерить неопределенность результата рассматриваемого опыта, пред- предположим, что вероятности всех возможных результатов опыта выра- выражаются числами 2~Ш{ (г = 1,..., N), где mi,..., тдг — целые поло- положительные числа такие, что N J2^~mi =1. B.39) г=1 Тогда номер результата опыта, вероятность которого равно 2~т\ выразится т,;-значным двоичным числом. При таком способе нуме- нумерации количество двоичных знаков (в том числе которым придет- придется зарегистрировать полученный результат опыта, чтобы полностью определить его) можно рассматривать как случайную величину с возможными значениями mi,... , m^v, вероятности которых равны соответственно 2~mi,..., 2~mN. Естественно попытаться принять за меру неопределенности рассматриваемого опыта математическое ожидание числа двоичных знаков, необходимых для того, чтобы полностью определить результат этого опыта, т.е. величину Н = mi • 2~mi + m2 • 2~т2 + ... + mN • 2~WiV. B.40)
82 Гл. 2. Случайные величины Совершенно так же можно определить номера возможных резуль- результатов опыта в какой-нибудь другой, например, в а-ичной системе. Для этого следует разбить все возможные результаты опыта на а групп и каждой группе приписать одно из а возможных значений первого знака а-ичного числа. Затем каждую из групп разбить на а подгрупп, приписав каждой из подгрупп одно из а возможных значений второго знака а-ичного числа. Если вероятности всех возможных результатов опыта равны a~mi (i = 1,..., TV), где mi,..., ттгдг — такие целые чис- числа, что N Y,a-mi=l, B.41) г=1 то результат опыта, имеющий вероятность а~т\ получит номер, вы- выражаемый mi-значным числом в а-ичной системе счисления. Рас- Рассматривая число знаков в а-ичном числе, которым придется обозна- обозначить полученный результат опыта, чтобы полностью определить его как случайную величину, можно принять за меру неопределенности результата опыта математическое ожидание этой случайной вели- величины: Н = mia-mi + т2а-т2 + ... + mNa-mN. B.42) Формулы B.40) и B.42) могут быть объединены формулой N B-43) г=1 где pi = Р(Е{) (i = 1,..., iV), а логарифмы следует взять при основа- основании 2 в случае формулы B.40) и при основании а в случае форму- формулы B.42). Так как loga z = log2 z/ log2 a = log2 ^loga 2, то вопрос о вы- выборе основания логарифмов является вопросом о единицах измерения неопределенности опыта. В случае формулы B.40) неопределенность измеряется в двоичных знаках, а в случае формулы B.42) — в а-ичных знаках. Таким образом, за меру неопределенности результатов опы- опыта в случае, когда вероятности всех возможных результатов опыта Ei,..., En могут быть выражены целыми отрицательными степеня- степенями какого-нибудь целого числа а, может быть принята величина Н. определяемая формулой B.43). Выбор основания логарифмов определяет единицу измерения эн- энтропии. Для практических приложений удобно выражать энтропию через двоичные логарифмы. Единицей измерения энтропии в этом случае служит один двоичный знак. Эта единица имеет специальное название бит. Так как в общей теории единицы измерения безразлич- безразличны, то мы будем считать в дальнейшем, что основание логарифмов равно некоторому положительному числу a: log и = \ogau.
2.5. Энтропия распределения 83 Пример 2.18. Пусть имеется восемь возможных результатов опыта с вероятностями 1/4, 1/4, 1/8, 1/8, 1/16, 1/16, 1/16, 1/16. Тогда изложенный способ разбиения результатов опытов на группы и определения номера каж- каждого результата опыта в двоичной системе можно представить следующей таблицей: Рг 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16 Двоичные знаки 1-й 1 1 0 0 0 0 0 0 2-й 1 0 1 1 0 0 0 0 3-й 1 0 1 1 0 0 4-й 1 0 1 0 Двоичный номер 11 10 011 010 ООН 0010 0001 0000 Математическое ожидание количества двоичных знаков, необходимых для того, чтобы полностью определить результат опыта, в данном случае равно Я = 2- 2-1 + 2. 3-1+4. 4- ^ = 2^биТ. Если вероятности всех восьми возможных результатов опыта равны друг другу, то мы получим таблицу р% 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Двоичные знаки 1-й 1 1 1 1 0 0 0 0 2-й 1 1 0 0 1 1 0 0 3-й 1 0 1 0 1 0 1 0 Двоичный номер 111 110 101 100 011 010 001 000 и, следовательно, Я = 8 • 3 - = 3 бит.
84 Гл. 2. Случайные величины Обобщая изложенные соображения об измерении неопределенно- неопределенности результатов опытов, естественно принять в качестве меры неопре- неопределенности опыта, в результате которого появляется одно из N несов- несовместных событий Е\,..., En , образующих полную группу, величину N # = -]>>; logp;, B.44) где TV г=1 Величина Н, определяемая формулой B.44), называется энтро- энтропией данного опыта. Основанием логарифмов в выражении энтро- энтропии может служить любое положительное число а (не обязательно целое). Выражение для энтропии B.44) содержит только вероятности раз- различных возможных результатов опыта и не содержит никаких других количественных характеристик опыта. Поэтому нет необходимости связывать понятие энтропии опыта, имеющего конечное число воз- возможных исходов, с какой-либо случайной величиной. Однако вслед- вследствие того, что со всяким подобным опытом можно связать некото- некоторую дискретную случайную величину, например, номер появляюще- появляющегося события, нам удобно будет для дальнейшего относить понятие энтропии к случайной величине. Пусть X — дискретная случайная величина, закон распределения которой выражается формулой Pi=P(X = Xi) (i = l,...,i\T). B.46) Выражение B.44) мы будем называть энтропией случайной ве- величины X и обозначать, когда это будет необходимо, через i?[X]. Из формулы B.44) следует, что энтропия является непрерывной неотрицательной функцией вероятностей р\,..., рдг, которая равна нулю только в том случае, если одна какая-либо из вероятностей Pi,...,Pn равна единице, а остальные равны нулю, т.е. когда вели- величина X неслучайна и рассматриваемый опыт не содержит никакой неопределенности. При этом мы считаем, что значение функции pi при pi — 0 равно lim щ logpi = 0 (г = 1, 2,..., N). 4O Pi Докажем теперь, что при данном п энтропия принимает макси- максимальное значение при pi = ... = pjy = 1/АГ, т.е. когда все возможные значения случайной величины X равновероятны. > Для доказательства воспользуемся неравенством справедливым при любом и ^ 0.
2.5. Энтропия распределения 85 Замечание. Справедливость неравенства устанавливается сле- следующим образом. Если и ^ 1, то 1/t ^ 1/и при 1 ^ t ^ и и f dt ^ 1 f ^ 1 ( 1 \ Л 1 = / — ^ - dt = - (и -1) = 1 . J t и J их и 1 1 Если 0 ^ и ^ 1, то -1/t ^ -1/ii при ii ^ t < 1 и 1 1 1 f dt ^ l f J+ 1 (Л \ Л Х \пи = — — > — dt = — A - и) = 1 . J t и ] иу J и На основании неравенства B.47) для любых положительных чи- чисел pi, qi (г = 1,..., N), удовлетворяющих условию N N y^pi = y^qi = 1, B.48) г=1 г=1 справедливо неравенство N ^ Pi log— ^ 0. B.49) г=1 Действительно, на основании B.47) и B.48) N N R (I-*)- Так как знак равенства в B.47) имеет место только при и = 1, то знак равенства в B.50) и B.49) имеет место только в том слу- случае, когда qi = Pi (г = 1,..., N). Полагая в B.49) q\ — ... = qjy = = 1/iV, получим TV -^Pilogp2-^logiV. B.51) г=1 Знак равенства здесь имеет место только при pi = ... = рдт = 1/N. В этом случае энтропия принимает, очевидно, значение logiY. Так как log TV монотонно возрастает при увеличении TV, то максимальное возможное значение энтропии дискретной случайной величины явля- является монотонно возрастающей функций числа возможных значений случайной величины. Таким образом, неравенство B.51) доказывает, что при данном числе возможных значений N энтропия случайной
86 Гл. 2. Случайные величины величины максимальна в том случае, когда все возможные значения случайной величины равновероятны. <\ Любому опыту с конечным числом возможных исходов соответ- соответствует распределение вероятности, которое может рассматриваться как распределение дискретной случайной величины (т.е. номер эле- элементарного события). И наоборот, любой случайной величине с ко- конечным множеством возможных значений соответствует опыт с ко- конечным числом возможных исходов. Таким образом, в дальнейшем мы будем говорить об энтропии распределения случайной величины вместо энтропии опыта. Соответственно мы обозначим энтропию слу- случайной величины X через i?[X]. В п. 4.6.4 будет доказано, что указанные свойства энтропии с до- дополнительным требованием, что энтропия совместного распределения независимых случайных величин должна быть равна сумме их энтро- энтропии, однозначно определяют энтропию формулой B.44). 2.5.2. Энтропия непрерывной случайной величины. Те- Теперь мы распространим определение энтропии на непрерывные слу- случайные величины. Для этого вернемся к случайной величине с ко- конечным множеством возможных значений. Так как энтропия такой случайной величины независима от ее возможных значений, мы мо- можем ограничиться случайной величиной X с целым числом возмож- возможных значений 1,..., N. Введем функцию N(x), значение которой при любом х представляет собой число значений X, которое не превыша- превышает х. Очевидно, что N(x) равно наибольшему целому числу, которое не превышает ж, т.е. N(x) = [ж], а производная N'(x) равна N N'(x) = ^5{x-v). B.52) Используя формулу для N(x) и формулу B.24) для плотности дис- дискретной случайной величины, мы можем переписать B.44) как оо Н[Х} = - I f(x)logJ^dx. B.53) Чтобы распространить эту формулу на непрерывные величины, за- заметим, что так как возможные значения непрерывной скалярной случайной величины распределены непрерывно на числовой оси R, функция N(x) значений X может быть взята равной х: N(x) = х. Тогда B.53) принимает вид оо Н[Х] = - I f(x) log f(x) dx. B.54)
2.5. Энтропия распределения 87 Эта формула принимается как определение энтропии непрерывной случайной величины, скалярной или векторной. Замечание 1. Читателю, знакомому с теорией меры, нетруд- нетрудно понять, что f(x)/N'{x) представляет собой производную Радона- Никодима вероятностной меры случайной величины X по мере, величина которой при любом множестве представляет собой чис- число возможных значений X, принадлежащих этому множеству. Для непрерывных случайных величин производная Радона-Никодима по лебеговой мере адекватна формуле B.54). Энтропия непрерывной случайной величины в общем случае зави- зависит от распределения случайной величины, в то время как энтропия дискретной случайной величины зависит от вероятностей возможных значений и не зависит от распределения самих возможных значений на числовой оси. Замечание 2. В том случае, когда существенно фиксировать размерность случайной величины X и интервал численных значе- значений 1XJ связанный с X, энтропия Н[Х] определяется формулой сю сю Н[Х] = - J /Or) \og[lxf(x)] dx = - I /Or) log f{x) dx - log/,. — ею —сю Отсюда видно, что выбор интервала lx определяет положение нуля на шкале энтропии — начало отсчета энтропии случайной величины X. Это начало отсчета в принципе может быть выбрано произвольно, однако оно должно быть одним и тем же при сравнении между собой различных энтропии. Дополнение неслучайного количества (числа) к случайной вели- величине не меняет энтропию, так как согласно свойству C) плотности энтропия Y = X + с отличается от энтропии X только заменой пе- переменных х — у — с в формуле B.54). Пример 2.19. Энтропия равномерного распределения (пример 2.10) в области В с конечным объемом (длина, площадь) согласно B.54) выража- выражается формулой HiX\ = f-^logv(B)dx = logv(B). Пример 2.20. Энтропия (пример 2.8) показательного распределения равна оо Н[Х] = - [ ke~kx(\ogk -kx\oge)dx = - log к + loge = l
Гл. 2. Случайные величины В отличие от энтропии дискретной случайной величины энтропия непрерывной случайной величины может в общем случае принимать как положительные, так и отрицательные значения. Лишь для слу- случайных величин с ограниченной плотностью f(x) < А, если принять 1Х < 1/А, энтропия будет всегда положительной. Многие свойства энтропии могут быть установлены с помощью следующего неравенства: / f(x) log Щ dx > 0, B.55) которое справедливо для любых плотностей f(x) и д(х). Это неравен- неравенство является непосредственным следствием неравенства B.47). Так как равенство в B.47) справедливо тогда и только тогда, когда и = 1, равенство в B.55) будет иметь место тогда и только тогда, когда д(х) = f(x). Неравенство B.55) также справедливо, если /(ж) и д(х) представ- представляют собой плотности дискретных или дискретно-непрерывных слу- случайных величин с теми же значениями и с вероятностями, отлич- отличными от нуля. Значение отношения двух линейных комбинаций тех же E-функций в точке разрыва любой из этих J-функций в этом случае должно пониматься как отношение соответствующих коэффи- коэффициентов. 2.5.3. Увеличение энтропии, вызванное сглаживанием плотности. Теперь докажем, что любое сглаживание плотности непрерывной случайной величины подразумевает увеличение энт- энтропии. > Пусть X — случайная величина с плотностью /(ж), (р(х,у) — любая ограниченная кусочно непрерывная неотрицательная функ- функция, удовлетворяющая условиям оо оо J <р(х, y)dx= J ф, у) dy = 1. B.56) — оо —оо Тогда функция оо g(y)= J <p(x,y)f(x)dx B.57) — оо и функции cp(x,y)f(x) и ср(х,у)д(у), очевидно, представляют со- собой некоторые плотности. Пусть Y — случайная величина с плот-
2.5. Энтропия распределения ностью д(у). Тогда, применяя B.56), находим Н[Х] - H[Y] = = / f(x)\ogf(x)dx- J J ip(x,y)f(x)logg(y)dxdy = — oo —oo —oo oo oo = J J (p(x,y)f(x)log^dxdy = Так как (p(x,y)f{x) и (р(х,у)д{у) являются плотностями, то значение последнего интеграла является неотрицательным в B.55). <\ В частном случае, когда X и Y имеют одну и ту же размерность и У = X + Z, a Z — случайная величина, не зависящая от X, плот- плотность Y определяется формулой B.56), где р(х,у) = h(y - z), h(z) — плотность Z. Отсюда, по доказанному свойству, энтропия суммы неза- независимых случайных величин не может быть меньше, чем энтропия каждого из слагаемых. Это подразумевает, что энтропия любой слу- случайной величины, равная сумме увеличивающегося числа независи- независимых случайных величин, представляет собой монотонно возрастаю- возрастающую функцию времени. Этот факт подчеркивает хорошо известный закон статистической физики: энтропия любой физической системы всегда со временем увеличивается. Другие свойства энтропии будет рассмотрены в разд. 4.6. 2.5.4. Экстремальные свойства некоторых распределе- распределений. Некоторые распределения обладают интересным экстремаль- экстремальным свойством в некоторых классах распределений. В частности, такими являются нормальные, равномерные и показательные распре- распределения. Докажем теорему: если энтропия распределения с плотностью /о(ж), принадлежащей некоторому классу распределений С, может быть представлена в виде оо Н[Х] = - f f(x) log fo(x) dx, B.58) где f{x) — любая плотность класса С. то fo(x) является единствен- единственным распределением, обладающим максимальной энтропией среди всех распределений класса С.
90 Гл. 2. Случайные величины \> Пусть Y — случайная величина, плотность f(y) которой при- принадлежит классу С. Ее энтропия выражается формулой f(x) log f(x)dx. Вычитая эту формулу из B.58) и используя B.55), получаем Н[Х] - H[Y] = I f(x) log Ш dx z 0. — сю Так как это равенство справедливо тогда и только тогда, когда f(x) = /о(ж), плотность /о(х) является единственной плотностью в классе С, обладающем максимальной энтропией. <\ Пример 2.21. Рассмотрим класс С n-мерных распределений, пол- полностью содержащихся в ограниченной области В. Пусть X — случайная величина, равномерно распределенная в В, fu(x) = 1b(x)/v(B) — ее плот- плотность, 1в(х) — индикатор области В. Тогда для любой плотности /(ж) класса С J f(x)dx = J и тогда Н[Х] = ~ f fu (х) log fu(х) dx = log v(B) J fu(x) dx = -J f(x) log fu(x) dx. в в в Отсюда по доказанной теореме заключаем, что равноллерное распределение является единственным распределением, обладающим максимальной эн- энтропией среди всех распределений непрерывных случайных величин с воз- возможными значениями, полностью находящимися в той же ограниченной области. Мы покажем в гл. 3 и 4, что нормальные и показательные распре- распределения обладают теми же экстремальными свойствами в некоторых классах распределений.
Глава 3 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 3.1. Математическое ожидание 3.1.1. Математическое ожидание дискретной случайной величины. Распределение полностью характеризует случайную ве- величину. Чтобы определить распределение случайной величины, надо задать ее плотность вероятности или функцию распределения. Одна- Однако такая полная, исчерпывающая характеристика случайной величи- величины довольно сложна. Между тем для решения многих задач прак- практически вовсе не нужно знать распределения случайных величин, а достаточно знать лишь некоторые числа, характеризующие их рас- распределения, так называемые числовые характеристики случайных величин. Для грубой характеристики скалярной случайной величины можно, так же как и в разделе 1.2, ограничиться ее средним значе- значением и величиной разброса возможных значений. Чтобы подойти к определению среднего значения случайной величины по данному ее распределению, рассмотрим выборочное среднее дискретной случай- случайной величины X с возможными значениями х\,..., xjy и вероятностя- вероятностями этих значений рг,...,ры соответственно. Очевидно, что при доста- достаточно большом числе опытов п каждое из значений х\,..., xn должно появляться многократно. Предположим, что величина X приняла тп\ раз значение xi, rri2 раз значение Ж2, и т.д., т^ раз значение ждг, nil + ... + rriN — п. Тогда выборочное среднее выразится формулой N N 1 х = - у mkxk = у xk —. к=1 к=1 Но тк/п есть частота значения хк (к = 1,..., N). Следовательно, вы- выборочное среднее дискретной случайной величины равно сумме всех ее возможных значений, умноженных на их частоты. При неограниченном увеличении числа опытов п частоты зна- значений xi,..., xn стремятся стабилизироваться около их вероятно- вероятностей. Поэтому, чтобы определить среднее значение случайной ве- величины X как абстрактную характеристику ее распределения, до- достаточно заменить в полученной формуле частоты mi/n,... ,тдг/п значений х±,..., xn их вероятностями pi,... ,Pn- Это приводит к сле- следующему определению.
92 Гл. 3. Числовые характеристики случайных величин Математическим ожиданием или средним значением дискрет- дискретной случайной величины называется сумма всех ее значений, умно- умноженных на их вероятности. Математическое ожидание случайной величины X мы будем обо- обозначать MX или, сокращенно, тх *). На основании данного определения математическое ожидание дис- дискретной случайной величины X выражается формулой N тх = MX = Y^%kPk. C.1) k=-\ Математическое ожидание произвольной (однозначной) функ- функции ip(X) дискретной случайной величины X на основании данного определения выражается формулой N M<p(X) = Y,<P(xk)Pk. C.2) k=i Действительно, в данном случае величина Y = ip(X) представля- представляет собой дискретную случайную величину с возможными значениями (^(^i),..., (p(xn) и вероятностями этих значений, равными pi,... ,рдг соответственно. Если некоторые из значений ip(xk) функции ip(x) сов- совпадают, то вероятность этого общего значения величины Y = ip(X) равна сумме соответствующих вероятностей р*. Таким образом, фор- формула C.2) определяет математическое ожидание величины Y = ц>(Х) и в этом случае. 3.1.2. Общее определение математического ожидания. Пользуясь формулой B.24) для плотности дискретной случайной ве- величины, можно записать C.2) в виде оо = [ ip(x)f(x)dx. C.3) Эту формулу естественно положить в основу определения математи- математического ожидания для случайных величин всех трех типов, встреча- встречающихся в задачах практики. Математическим ожиданием функции (р(Х) случайной величи- величины X с плотностью f(x) называется интеграл C.3). В частном случае непрерывной величины X и кусочно непре- непрерывной функции ip(x) интеграл C.3) представляет собой интеграл Римана. *) Иногда, особенно в иностранной литературе, математическое ожида- ожидание величины X обозначается ЕХ (от английского expected value — ожи- ожидаемое значение).
3.1. Математическое ожидание 93 Ясно, что математическое ожидание функции ip(X) существует тогда и только тогда, когда ОО [ \ip(x)\f(x)dx < оо*). C.4) — оо Чтобы получить формулу для вычисления математического ожи- ожидания функции ip(X) в случае непрерывно-дискретной величины X, подставим в C.3) выражение B.25) ее плотности. Тогда получим ОО ДГ М<р(Х)= / ф)Мх)(Ь-^^2фк)рк. C.5) Если в частном случае областью возможных значений величины X служит не вся числовая ось, а только какой-нибудь ее интервал (а, 6), то плотность fix) равна нулю вне этого интервала и интегрирование в C.3) производится от х = а до х — Ъ. В этом случае интеграл C.4), а следовательно, и математическое ожидание величины (р(Х) заведомо существует. В частном случае при ip(x) = x формула C.3) определяет матема- математическое ожидание случайной величины X: ОО тх = MX = I xf(x)dx. C.6) — (X) В случае векторной величины X интегралы в C.3) и C.6) пред- представляют собой кратные интегралы, распространенные на все про- пространство значений величины X. Функция ц>(х) в C.3) может быть скалярной (действительной или комплексной), векторной или мат- матричной. При этом, как обычно, интеграл от векторной (матричной) функции понимается как вектор (матрица), координатами которого (элементами которой) служат интегралы от соответствующих коор- координат векторной (элементов матричной) функции. Принимая во внимание сказанное, приходим к выводу, что математическое ожидание тх случайного вектора X с координа- координатами Х\,..., Хп представляет собой вектор с координатами mi — \, ..., тп = МХп. *) Если интеграл расходится, то интеграл Римана ъ J cp(x)f(x)dx — а может или иметь предел, или не иметь, когда а, Ъ —>- сю независимо.
94 Гл. 3. Числовые характеристики случайных величин 3.1.3. Свойства математических ожиданий. Основные свойства математического ожидания вытекают непосредственно из свойств интеграла. 1) Если функция ip(x) представляет собой постоянную ц>(х) = с, то в силу свойства B.11) плотности вероятности оо оо Me = I cf(x) dx = с j f(x) dx — с. — оо —оо Таким образом, математическое ожидание неслучайной величины равно самой величине. 2) Далее, из свойств интеграла следует k=l _оо k=l п = J J п оо п J M*)f(x)dx = J2ckMMX). C.7) kl fe=] QQ k=l Заметим теперь, что любые комплексные случайные величины Xk = Х'к + iX% (к — 1,..., п) можно рассматривать как функции 2п-мерного случайного вектора X с координатами Х[, X",..., Х'п, X", Xk = ip(X) (к = 1,..., п) *). Поэтому из C.7) следует, в частности, что для любых скалярных случайных величин Х\,..., Хп, действитель- действительных или комплексных, _ _ C.8) k=l k=l Таким образом, математическое ожидание линейной функции случайных величии равно той же самой функции от их математи- математических ожиданий (свойство линейности операции математического ожидания**)). В частном случае п = 1 отсюда следует, что при умножении слу- случайной величины на число ее математическое ожидание умножа- умножается на то же число. *) В разделе 4.1 будет показано, что, рассматривая действительную слу- случайную величину как координату некоторого случайного вектора и вычис- вычисляя ее математическое ожидание как математическое ожидание функции этого случайного вектора по формуле C.6), мы получим тот же результат, что и при вычислении по формуле C.3). **) Операцией или оператором математического ожидания мы на- называем переход от случайной величины к ее математическому ожиданию.
3.2. Моменты второго порядка 95 3) При с\ — ... = сп = 1 из C.8) вытекает теорема сложения ма- математических ожиданий: математическое ожидание суммы случай- случайных величин всегда равно сумме их математических ожиданий: 4) Ясно, что формулы C.7)-C.9) справедливы как для скалярных величин, так и для матричных (в частном случае — векторных, ес- если пользоваться представлением векторов в виде матриц-столбцов) величин с, X, ci,..., cn, Xi, ..., Хп. Из C.8) следует, что для любой неслучайной матрицы С и случайной векторной или матричной вели- величины X мех = смх. (з.ю) Точно так же из C.8) вытекает формула МХС = (МХ)С. C.11) Само собой разумеется, что в случае прямоугольных (не квадратных) матриц С и X буква С в C.10) и C.11) не может означать одну и ту же матрицу. Из свойства 1) и C.11) получаем М(АХ + а0) = АМХ + а0. C.12) 5) Из свойств интеграла имеем \МХ\ ^ М\Х\. C.13) 3.2. Моменты второго порядка 3.2.1. Дисперсия и среднее квадратическое отклонение. Теперь можно определить абстрактные аналоги всех выборочных чис- числовых характеристик раздела 1.2. Для этого достаточно заменить все выборочные средние математическими ожиданиями. Предварительно введем понятие центрированной случайной величины. Центрированной случайной величиной называется разность меж- между случайной величиной и ее математическим ожиданием, т.е. от- отклонение случайной величины от ее математического ожидания. Мы будем отмечать центрированные случайные величины индексом 0 сверху, Х° = X - тх, Y° = Y - ту и т.д. Дисперсией скалярной случайной величины называется математи- математическое ожидание квадрата модуля соответствующей центрированной случайной величины.
96 Гл. 3. Числовые характеристики случайных величин Дисперсию случайной величины X будем обозначать DX или, со- сокращенно, Dx *): Dx = DX = М\Х°\2 = М\Х - тх\2. C.14) Средним квадратическим или стандартным отклонением ах случайной величины X называется положительный квадратный ко- корень из ее дисперсии: ах = л/Вх~=угВХ. C.15) Чтобы получить формулу для вычисления дисперсии, достаточ- достаточно положить в общей формуле C.3) для математического ожидания функции случайной величины ip(X) = |Х°|2 = \Х — тх\2 и соответ- соответственно (р(х) = \х — тх\2. Если X — действительная случайная вели- величина, то формула C.3) даст ОО DX = DX= Г (х- mxff{x) dx, C.16) — ОО где f(x) — плотность величины X. Если X — комплексная случайная величина X = X' + iX", то формула C.3) даст (X) (X) DX=DX= I I \x'+ ix"-mx\2f{x',x")dx'dx", C.17) — оо —оо где f{x'1x") — совместная плотность случайных величин X' и X". Подставив в C.16) выражение B.24), получим формулу для дис- дисперсии действительной дискретной случайной величины: N DX = DX = ?)(я* - ™*JPk- C.18) k=i Подставив в C.16) выражение B.25), получим формулу для дис- дисперсии непрерывно-дискретной случайной величины: оо N DX = DX= {х)^) оо N = {х-тхJ^х)Aх + ^{хк-тхJрк. C.19) Пример 3.1. Найти математическое ожидание и дисперсию числа X появлений события А при п независимых опытах, если вероятность собы- события А в каждом опыте равна р (биномиальное распределение — пример 2.1). *) Иногда, особенно в иностранной литературе, дисперсия величины X обозначается VX от английского variance (изменчивость).
3.2. Моменты второго порядка 97 По формуле C.2) находим п п mx=J2 тРт,п = Y, ™СпРтЯп-т, в = 1 - Р- (I) т=0 т=0 Для вычисления суммы (I) воспользуемся производящей функцией A.25): п Vn(u)=J2P^nUm = (q + pu)n. (II) т=0 Дифференцируя формулу (II) по it, получаем п /„(«) = J2 тРт,пит-1 = npiq + pu)"-1. (Ill) т=0 Положив в (III) и = 1и учитывая, что q + р = 1, находим Для вычисления дисперсии воспользуемся формулой C.17): п п Dx = ^ (т - прJРш,п = ^ т2Рт,п - т=0 т=0 п п Y2 п + П2/ ^ Ря>т. (IV) Вторую сумму в (IV) мы уже вычислили, она равна пр. Третья сумма в (IV) равна 1 в силу основного свойства дискретных распределений (то же, конечно, получится, если положить в выражении производящей функ- функции A.25) п=1). Для вычисления первой суммы умножим (III) на и и продифференцируем результат по и: du *- m=0 = —-[npu(q + pu)n X] — np(q + npu){q + pu)n 2. (V) Положив в (V) и = 1, находим П d Y] т2рш,п = ~[шр'п(и)] = np(q + пр). (VI) ^-""^ «It w = l ?тг=О Подставив найденные выражения сумм в (IV), получаем Dx = npg. Пример 3.2. Найти математическое ожидание и дисперсию случай- случайной величины X, распределенной по закону Пуассона (пример 2.3). По формуле C.2) находим математическое ожидание: Z_-/ Z_-/ 979! ^ -1 т=1 т=1
98 Гл. 3. Числовые характеристики случайных величин По формуле C.18) находим дисперсию: -Bai-1)V m —е""+//У ^-e"". (II) т=1 т=0 Вторую сумму в (II) мы уже вычислили, она равна в силу (I) fi. Третья сумма равна 1. Остается вычислить первую сумму: \~^ / -, \ А6 —и, 2-й \~^ М 2 /ттт\ > тут — 1) е = и, е > — = п . (Ш) Подставив найденные выражения сумм в (II), получаем Dx — /i. Таким об- образом, математическое ожидание и дисперсия случайной величины, распре- распределенной по закону Пуассона, равны параметру fi в A.46). Пример 3.3. Для равномерно распределенной в интервале (а,Ь) слу- случайной величины X (пример 2.5) формулы C.3) и C.17) дают шж = ь ъ xdx _а + Ъ _ [( а + 5\2 dx _ (b - аJ 12 Пример 3.4. Для случайной величины X, распределенной по показа- показательному закону (пример 2.8), получаем /с о о Пример 3.5. В условиях примера 2.14 математическое ожидание и дисперсия времени S работы системы после первого ремонта определяются по формулам C.5) и C.19): т о = j SAe-A(t°-s) ds + 0 • е-Л*° = *0 - I A - е"^), ds [0 - t0 + \ A - e~Xt°)] Пример З.6. В качестве примера случайной величины, не имеющей математического ожидания и дисперсии, рассмотрим случайную величи- величину X, распределенную по закону Кошщ который определяется плотностью f(x) = --T—^ гу. C.20) v у тг Ъ2 + (х - аJ у J
3.2. Моменты второго порядка 99 В этом случае оо оо оо С х bdx 1 Г , . ч du Ъ [ udu т*= J пЬ^ + (Х-аГ = п J {а + Ьи)гТ^=а+п J ГТ^- — оо —оо —оо Несобственный интеграл в этой формуле расходится, так так при а, /3 —»- сю In/-. n1\ [lA + P ( Следовательно, случайная величина X не имеет математического ожида- ожидания. Однако если учесть симметрию распределения Коши относительно точки а и соответственно понимать интеграл в смысле главного значения Коши [69, 109], то будем иметь Ь .. Г тх — а Н— hm / - 7Г iV->oo J 1 N udu г = a. -N В этом случае дисперсия случайной величины X определится формулой оо оо b [ (х-aJ dx _ b2 f и2 du _ тг J b2 + (x — аJ 7Г — oo —oo Таким образом, случайная величина, распределенная по закону Коши, не имеет дисперсии даже в том случае, если ее математическое ожидание счи- считать существующим и равным а из соображений симметрии. 3.2.2. Ковариация и коэффициент корреляции. Ковариа- цией скалярных случайных величин X и Y называется матема- математическое ожидание произведения центрированной первой случай- случайной величины и сопряженной центрированной второй случайной величины: kxy = MX°Y°. C.21) Чтобы получить формулу для вычисления ковариации действи- действительных случайных величин X и У, достаточно рассматривать X°Y° = (X — mx)(Y — ту) как функцию случайных величин X и Y и применить формулу C.3): оо оо кху = / I (x-mx)(y-my)f(x,y)dxdy, C.22) — оо —оо где f(x,y) — совместная плотность величин X и Y. Чтобы получить формулу для вычисления ковариации комплекс- комплексных случайных величин X = X' +JX" и F = F/ + iF//, достаточ- достаточно рассматривать произведение X°Y° как функцию четырехмерного
100 Гл. 3. Числовые характеристики случайных величин случайного вектора с координатами Х',Х",У',У". Тогда получим оо оо оо оо кху = / / / / (х1 + ix" -mx)(yf + iy" - my) x — оо — оо — оо —сю x f(x',x\y',y")dx'dx"dy'dy\ C.23) где f(x',x",y',y") — совместная плотность случайных величин Х\ X", У, У". За характеристику зависимости между двумя случайными вели- величинами X и Y принимается отношение их коварнации к произведению их средних квадратических отклонений. Эта безразмерная величина называется коэффициентом корреляции величин X и Y: k h /DxDy C.24) Таким образом, чтобы получить числовые характеристики дву- двумерного случайного вектора, следует добавить к математическим ожиданиям и дисперсиям его координат еще их ковариацию или ко- коэффициент корреляции. Очевидно, что ковариация случайной величины X с самой собой равна ее дисперсии, кхх = Dx, а ее коэффициент корреляции с самой собой равен единице, гхх = 1; кху = Дт, гху = 1 и в более общем слу- случае, когда Y0 — Х°, rriy ф тх. Пример 3.7. Найти ковариацию координат случайного вектора, рав- равномерно распределенного на прямоугольнике |ж| < а, \у\ < Ъ (пример 2.10). Подставив в C.22) выражение B.20) плотности и имея в виду, что в данном случае тх = ту = 0, получим а Ъ Пример 3.8. Для двумерного случайного вектора с равномерным распределением внутри эллипса х2/а2 + у2/Ъ2 = 1 (пример 2.10) тх — = ту =0 и а у kXy = I dx I Пример 3.9. Для двумерного случайного вектора с равномерным распределением внутри эллипса х2 /а2 + (у — схJ /Ь2 = 1 тх = ту = = 0 и W сх+Ъл dx cx — b\/ • J 1-ж2/а2 /" f -Ж2/а2 тгаЬ ca2
3.2. Моменты второго порядка 101 3.2.3. Коррелированные и некоррелированные случайные величины. Зависимость между случайными величинами, характе- характеризуемая коэффициентом корреляции, называется, корреляцией. Слу- Случайные величины называются коррелированными, если их коэффици- коэффициент корреляции отличен от нуля. Случайные величины называются некоррелированными, если их коэффициент корреляции равен нулю. Из C.24) следует, что случайные величины не коррелированы тогда и только тогда, когда их ковариация равна нулю. Легко видеть, что для некоррелированности случайных величин достаточно, чтобы их совместное распределение было симметрично относительно какой-нибудь прямой, параллельной одной из осей ко- координат. Пример 3.10. Ковариация случайных величин X и Y = X2 в случае равномерного распределения X в интервале {—а, а) равна 0: [ J 2а — а Следовательно, величины X и Y = X2 не коррелированы, несмотря на то что они связаны самой жесткой зависимостью — функциональной. 3.2.4. Моменты первого и второго порядков. Математиче- Математическое ожидание, дисперсия и ковариация представляют собой частные виды моментов случайных величин. Моментом первого порядка {первым моментом) случайной вели- величины называется ее математическое ожидание. Моментом второго порядка {вторым моментом) скалярной (в общем случае комплексной) случайной величины X называется мате- математическое ожидание квадрата ее модуля: 1Х = М\Х\\ C.25) Центральным моментом второго порядка величины X называет- называется момент второго порядка центрированной величины Х° — X — тх, т.е. ее дисперсия. Моментом второго порядка величины X относительно точки а называется момент второго порядка разности X — а: >ух(а) = М\Х-а\2. C.26) Очевидно, что jx = 7.x-@), Dx = -fx{mx). Смешанным моментом второго порядка скалярных случайных величин X и Y называется математическое ожидание произведения первой величины и сопряженной второй: 1ху = MXY. C.27)
102 Гл. 3. Числовые характеристики случайных величин Центральным смешанным моментом второго порядка величин X и Y называется смешанный второй момент центрированных случай- случайных величин Х° и Y0, т.е. ковариация величин X и Y. Смешанным моментом второго порядка величин X и Y отно- относительно точек а и Ъ называется смешанный второй момент разно- разностей X — а и Y — Ь: Ъу{а, Ъ) = М(Х - a)(Y - Ъ). C.28) Ясно, что jxy = 7arj/@,0), kxy = jXy(mXjmy). > Подставив в C.25) и C.27) X = тх + X°,Y = my+Y° и поль- пользуясь свойствами C.7) и C.9) математических ожиданий, получим выражения моментов второго порядка через математические ожида- ожидания и центральные моменты второго порядка: mxm xmy. Аналогично из C.26) и C.28) получаем jxx(a) = Dx + \тх -а|2, (а, Ь) = кху + (тх - а)(ту - Ь). О C.29) C.30) C.31) C.32) Таким образом, все моменты второго порядка выражаются через математические ожидания случайных величин и их центральные моменты второго порядка. Формула C.31) показывает, что дисперсия, случайной величи- величины представляет собой наименьший из всех ее моментов второго порядка. 3.3. Моменты второго порядка случайных векторов 3.3.1. Момент второго порядка, ковариационная матрица, корреляционная матрица. Моментом второго порядка (вторым моментом) случайного вектора X называется матрица вторых мо- моментов всех его координат: Г.т- — 7и 712 721 722 7in 72п Лп1 7п2 — IVl у\.рУ\ C.33) Момент второго порядка центрированного случайного векто- вектора Х° — X — тх называется ковариационной матрицей случайного
3. Моменты второго порядка случайных векторов 103 вектора X: kn: kpq = C.34) Представив вектор Х в форме матрицы-столбца, можем перепи- переписать определения второго момента и ковариационной матрицы слу- случайного вектора X в виде Гх = C.35) где звездочка означает операцию транспонирования матрицы с заме- заменой всех ее комплексных элементов соответствующими сопряженны- сопряженными числами. Матрица, элементами которой служат коэффициенты корреляции координат Х\,..., Хп случайного вектора X, называется его корреля- корреляционной матрицей: 1 Г 21 Т\2 1 1 C.36) \> Подставив в первую формулу C.35) X — тпх + Х° и пользуясь свойствами C.7) и C.9) математических ожиданий, получаем соотно- соотношение между моментом второго порядка, ковариационной матрицей и математическим ожиданием случайного вектора: Гх = Кх +mxm*r. <\ C.37) 3.3.2. Взаимный момент второго порядка и взаимная ко- ковариационная матрица. Обобщая определение C.35), назовем вза- взаимным моментом второго порядка (вторъш моментом) двух слу- случайных векторов X и Y матрицу (в общем случае прямоугольную) Гху = MXY*. C.38) Взаимной ковариационной матрицей или ковариацией случай- случайных векторов X и Y назовем взаимный момент второго порядка со- соответствующих центрированных случайных векторов Х° — X — тх ° 0° yy Взаимные момент второго порядка, ковариационная матрица и математические ожидания векторов X и Y связаны соотношением, аналогичным C.37): = К ху . C.39)
104 Гл. 3. Числовые характеристики случайных величин Случайные векторы X и Y называются коррелированными, если Кху ф 0, и некоррелированными, если Кху — 0. Из этого определения следует, что векторы X и Y не коррелированы тогда и только тогда, когда каждая координата одного из них не коррелирована со всеми координатами другого. 3.3.3. Операторы моментов второго порядка. Как известно, любая матрица определяет линейный оператор, отображающий одно пространство в другое (или в то же самое). Линейный оператор Тх, определяемый матрицей Гж, называется оператором момента второго порядка случайного вектора X. Ковариационным оператором случайного вектора X называется оператор момента второго порядка соответствующего центрирован- центрированного случайного вектора Х°, т.е. оператор Кх, определяемый ковари- ковариационной матрицей Кх вектора X. Аналогично определяются взаимный оператор момента второго порядка и взаимный ковариационный оператор двух случайных век- векторов X и Y. В частном случае ковариационный оператор Кх скалярной слу- случайной величины X представляет собой оператор умножения на дис- дисперсию Dx этой случайной величины. 3.3.4. Свойства моментов второго порядка. 1) Из C.33)- C.35) следует, что моменты второго порядка случайных векторов обладают эрмитовской симметрией (являются эрмитовыми): г* = мх**х* = мхх* = г^ Ър = Ъя, (з.4О) 2) Из C.35) следует, что матрицы Гх и Кх неотрицательно опре- определенны. \> Действительно, для любого вектора (матрицы-столбца) и имеем иТТхп = М(итХ)(Х*п) = М(Хти)(Хти) = М\Хти\2 ^ 0, C.41) причем знак равенства возможен тогда и только тогда, когда Хти — 0 с вероятностью 1, т.е. когда координаты случайного вектора X связа- связаны линейной функциональной зависимостью. Поэтому со М\Хги\2 = / \xTu\2f(x) dx= [ \xTu\2f(x) dx > 0, -oo \xTu\>0 если P(\XTu\ > 0) = J f{x) dx > 0 > 0, \xTu\>0
3.3. Моменты второго порядка случайных векторов 105 где неравенство под знаком интеграла указывает, что областью ин- интегрирования служит часть пространства, в которой выполнено это неравенство. О Таким образом, момент второго порядка случайного вектора, представляет собой эрмитову неотрицательно определенную мат- матрицу. В п. 3.4.7 мы увидим, что всякая матрица, обладающая эти- этими двумя свойствами, может служить ковариационной матрицей, а следовательно, и моментом второго порядка некоторого случайного вектора. 3) Легко убедиться также в том, что при изменении порядка слу- случайных векторов их взаимные второй момент и ковариационная матрица переходят в эрмитовски сопряженные матрицы: Гух = Т*ху, Кух = К*ху. C.42) 4) Из неотрицательной определенности матрицы ГХ(КХ) следует, что ее определитель действителен, неотрицателен и равен нулю тогда и только тогда, когда координаты случайного вектора X (со- (соответственно Х° = X — тх) связаны линейными функциональными зависимостями. Действительно, определитель эрмитовой матрицы равен произ- произведению ее собственных значений, а собственные значения неот- неотрицательно определенной эрмитовой матрицы все неотрицательны. Отсюда следует, что определитель матрицы ГХ(КХ) неотрицателен и равен нулю тогда и только тогда, когда она имеет нулевое собствен- собственное значение. Если нуль является m-кратным собственным значением матри- матрицы ТХ(КХ) (т.е. га из п ее собственных значений равны нулю), то в пространстве значений вектора X существуют га взаимно ортого- ортогональных векторов cpi,..., (fm, для которых Гх<Рр = 0 (р= 1,...,га). Умножив это соотношение слева на (/?* и учитывая C.35), получаем <р;гх(Рр = м<р;хх\р = м\^;х\2 = о. Отсюда следует, что с вероятностью 1 Таким образом, в случае га-кратного нулевого собственного значе- значения матрицы Гх координаты вектора X связаны га независимыми линейными соотношениями. В этом случае распределение вектора X полностью сосредоточено на п — га-мерном подпространстве, образо- образованном п — га собственными векторами матрицы Тх, соответствую- соответствующими отличным от нуля собственным значениям (соответственно на
106 Гл. 3. Числовые характеристики случайных величин (n — т)-мерном подпространстве, образованном п — т собственными векторами матрицы Кх, сдвинутом на вектор тх). Иными словами, матрица ТХ(КХ) имеет ранг г тогда и только тогда, когда распреде- распределение случайного вектора X полностью сосредоточено на г-мерном подпространстве (соответственно на г-мерном подпространстве, сдвинутом на вектор тх). 5) Выразив на основании C.36) элементы ковариационной матри- матрицы Кх формулой kpq — Tpq^Jkppkqq, убеждаемся в том, что и определи- определитель корреляционной матрицы неотрицателен и равен нулю тогда и только тогда, когда случайные величины X®,... ,Х^ связаны ли- линейными функциональными зависимостями. При этом ранг корреля- корреляционной матрицы равен г тогда и только тогда, когда распределение вектора X сосредоточено на г-мерном подпространстве, сдвинутом на вектор тх. Таким образом, при любом п In 721 712 722 Ъ _7nl fe u feln fen 0, C.43) и аналогичное неравенство справедливо для определителя корреля- корреляционной матрицы. 6) При п — 2 неравенства C.43) и аналогичное неравенство для корреляционной матрицы дают |ri2| ^ 1. C.44) |7l2| ^ л/711722, |fel2| ^ Vfellfe22, Последнее неравенство убеждает нас в том, что коэффициент корре- корреляции случайных величин не может быть по модулю больше еди- единицы, и его модуль равен единице тогда и только тогда, когда цен- центрированные случайные величины связаны линейной зависимостью. 7) Положив Х\ — X, Х<± — У, перепишем первое неравенство C.44) в виде \MXY\2 ^ M\X\2M\Y\2. C.45) Знак равенства здесь имеет место тогда и только тогда, когда случай- случайные величины X и Y связаны линейной зависимостью с\Х + c^Y — 0. 8) Заметим, что все установленные свойства матриц Гх и Кх при- присущи матрицам Гх и Кх, определяемым формулами C.35), и в том случае, когда X представляет собой произвольную прямоугольную матрицу. В этом случае элементы матриц Гх и Кх определяются фор- формулами vqri ь. _ Y r=l
3.3. Моменты второго порядка случайных векторов 107 Вводя векторы (матрицы-столбцы) Хр = [Хр1 ... Хрт]Т (р= 1,...,п), можем представить формулы, определяющие jpq и kpq, в виде T lm = MXTpXq, km = Тогда, положив Х\ — X, Х<± — Y-, перепишем первую формулу C.44) в виде \MXTY\2 <С M\X\2M\Y\2, C.46) где модули следует понимать как модули (евклидовы нормы) век- векторов: |X|2 = f>p|2, |F|2=f>p|2. C.47) р=1 р=1 Знак равенства в C.46) имеет место тогда и только тогда, когда случайные векторы X и Y связаны линейной зависи- зависимостью с\Х + c<iY — 0. 3.3.5. Линейные преобразования случайных векторов. Рас- Рассмотрим теперь случайный вектор У, полученный линейным преоб- преобразованием вектора X: Y = AX + a0. C.48) Его математическое ожидание определяется формулой C.13), кото- которую мы перепишем в виде ту = Атх + а0. C.49) Вычитая C.49) из C.48), получаем Y0 = АХ°. Пользуясь этим со- соотношением и определением C.35), находим ковариационную матрицу вектора Y: Ку = МУ°У°* = МАХ°Х°*А*. Но в силу C.11), C.12) и C.35) МЛХ°Х°*Л* = А(МХ°Х°*)А* = АКХА*. Следовательно, КУ = АКХА\ C.50) Эта формула показывает, что при преобразовании случайного век- вектора X линейным оператором с матрицей А его ковариационная
108 Гл. 3. Числовые характеристики случайных величин матрица умножается слева на матрицу А, а справа на эрмитов- ски сопряженную матрицу А*. В частном случае, когда Y — скалярная случайная величина, А представляет собой матрицу-строку, А — [а± ... ап], и формула C.50) определяет дисперсию случайной величины Y: ВУ = p,q=l В частном случае некоррелированных случайных величин Х\,..., Хп, эта формула принимает вид п Y\2' C-52) где Dp = kpp — дисперсия величины Хр (р = 1,..., п). В частном слу- случае при п — 1 отсюда следует, что при умножении случайной вели- величины на число ее дисперсия умножается, на квадрат модуля этого числа. Аналогично выводится формула Kzu = AKxyB* C.53) для взаимной ковариационной матрицы случайных векторов Z = AX + aOj U = BY + b0. C.54) В частном случае при Y — X формула C.53) принимает вид KZU = AKXB*. C.55) Эта формула определяет взаимную ковариационную матрицу случай- случайных векторов Z и U, полученных двумя разными линейными преоб- преобразованиями одного и того же случайного вектора X: Z = AX + aOj U = BX + b0. C.56) В частном случае скалярных величин Z и U матрицы А и В представляют собой матрицы-строки, А = [а± ... ап], В — \Ь\ ... Ьп], и формула C.55) определяет ковариацию случайных величин Z и U: п kzu = ^2 kPqapl>q- C.57)
3.3. Моменты второго порядка случайных векторов 109 В частном случае некоррелированных координат Х\,..., Хп векто- вектора X эта формула принимает вид п kzu = J2DPapbP, C.58) p=i где Dp = kpp (p= l,...,n). Чтобы привести формулу C.50) в случае некоррелированных ве- величин Х\,..., Хп к удобному для приложений виду, будем рассмат- рассматривать p-R столбец матрицы А как матрицу-столбец ар: ар = [а1р а2р ... атр]Т (р = 1,... ,п). Тогда формула D8), определяющая вектор У, перепишется в виде Формула C.50), определяющая ковариационную матрицу вектора У, в силу того, что kpq = 0 при q ф р, примет вид где Dp = kpp — дисперсия величины Хр, т.е. р-й элемент диагональной матрицы Кх {р — 1,..., п). Формула C.60), конечно, может быть выведена непосредственно из C.59) с учетом свойств C.7), C.10), C.11) и C.12) математических ожиданий. К аналогичной форме приводится в случае вектора X с некорре- некоррелированными координатами и формула C.55). Заметим, что в случае линейных преобразований без сдвига C.48), C.54), C.56), когда а0 = Ьо = 0, соотношения C.50), C.53), C.55) спра- справедливы также и для вторых моментов Г. Следует, однако, помнить, что если ао,&о Ф 0, то формулы C.50), C.53), и C.55) справедливы только для ковариационных матриц К. Пример 3.11. Найти математическое ожидание и дисперсию часто- частоты Р события А при п независимых опытах, если вероятность А в каждом опыте равна р. Пусть Хк — число появлений события А при одном к-м опыте. Эта величина имеет два возможных значения 0 и 1, вероятности которых равны соответственно q = 1 — р и р. Поэтому ее математическое ожидание гпк и дисперсия Dk определяются по формулам C.2) и C.18): rrik = O-q + l-p = p, (I) Dk = @ - pf • q + A - pf • p = p2 - q + q2 • p = pq. (II)
110 Гл. 3. Числовые характеристики случайных величин Таким образом, все величины X],..., Хп имеют одинаковые математиче- математические ожидания и дисперсии, равные соответственно р и pq. Частота события при п опытах определяется формулой так как число его появлений при п опытах равно сумме чисел его появлений в отдельных опытах, т.е. Х\ + ... + Хп. Таким образом, частота Р представ- представляет собой линейную функцию случайных величин Х\,..., Хп. Поэтому для нахождения ее математического ожидания можно применить форму- лу C.49): МР = — у^ МХк = — (пр) = р. (IV) п *-^ п Для вычисления дисперсии частоты Р заметим, что на основании теоремы, которая будет доказана в п. 4.2.4, из независимости опытов вытекает некор- некоррелированность случайных величин Х\,..., Хп. Поэтому для вычисления дисперсии можно применить формулу C.52): п DP=\Y^DXk = \{npq) = P-l. (V) п2 ^—' п2 п Этот же результат получится, если воспользоваться результатами вы- вычислений математического ожидания и дисперсии числа X появлений собы- события А при п опытах в примере 3.1 и заметить, что в силу того, что Р = Х/п, МР=- MX, DP= Д- DX. п п2 Наконец, заметив, что X = Х\ + ... + Хп, можно значительно проще получить результаты примера 3.1 по формулам для математического ожи- ожидания и дисперсии суммы некоррелированных случайных величин. Пример 3.12. Найти математическое ожидание и дисперсию сред- среднего арифметического значения X действительных случайных величин Х\,..., Хп. По формулам C.49) и C.51) находим 1 -2 p=l где kpq = MXpXq. В частном случае некоррелированных величин ..., Хп последняя формула принимает вид p=i где Dp = крр (р = 1,..., п). Наконец, в случае, когда величины Xi,..., Хп не коррелированы и имеют одинаковые математические ожидания и дис- дисперсии, равные соответственно тх и Dx, полученные формулы дают MX = -{nmx) = mx, DX = \ (nDx) = —. (Ill) п п2 п
3.3. Моменты второго порядка случайных векторов 111 Пример 3.13. Найти математическое ожидание и ковариационную матрицу случайного вектора Z, координаты которого Z\,..., Zn представ- представляют собой числа появлений значений xi,..., xn дискретной случайной ве- величины X при п независимых опытах, если в каждом опыте Р(Х = хи) = Ри (v=l,...,N). Пусть Z^%> — случайный вектор, координатами которого служат чис- числа появлений значений xi,..., xn в одном г-м опыте. Очевидно, что воз- возможными значениями вектора Z^ служат единичные векторы Д^-мерного пространства ei = {1,0,...,0}, е2 = {0,1,...,0}, ..., eN = {О,..., 1}, так как в одном опыте появляется только одно из значений xi,..., xn- Ве- Вероятности этих значений равны pi,... ,рлг- Следовательно, математическое ожидание вектора Z^ равно N {) ^ P. (I) Таким образом, математическое ожидание вектора Z^%> представляет со- собой вектор р, координатами которого служат вероятности pi,... ,Pn значе- значений xi,... ,xn случайной величины X. Для определения ковариационной матрицы вектора Z^%> найдем сначала его момент второго порядка Г'. За- Заметив, что 7/-я координата вектора Z^ равна 1 с вероятностью ри и 0 с вероятностью 1 — ри, находим диагональные элементы матрицы Г': Ъ„ = 12-р»+02-A-р„)=Р*. (П) Так как никакие две координаты вектора Z^ не могут быть одновременно отличными от 0, то их произведение равно 0 с вероятностью 1. Поэтому ^y'Ufji = 0 при 11 ф v. Определив моменты второго порядка координат векто- вектора Z^\ с учетом (I) и (II) можно найти их дисперсии и ковариации по формулам C.29) и C.30): Ки = Vv - pt = р„A - ри), Таким образом, из (III) следует, что ковариационная матрица К векто- вектора Z^%> определяется формулой К = А-ррТ, (IV) где Л — диагональная матрица с элементами pi,...,pjv, ар — вектор- столбец с теми же элементами. Заметив теперь, что находим математическое ожидание и ковариационную матрицу вектора Z: mz = пр, Kz = п(Л - ррТ). (V)
112 Гл. 3. Числовые характеристики случайных величин 3.4. Канонические разложения случайных векторов 3.4.1. Разложение по собственным векторам. Во многих за- задачах практики удобно оперировать случайными векторами с некор- некоррелированными координатами. В связи с этим возникает задача при- приведения любого случайного вектора к вектору с некоррелированными координатами (декорреляции координат случайного вектора). Эта за- задача равноценна задаче приведения ковариационной матрицы к диа- диагональной форме. \> Из линейной алгебры известно, что любая эрмитовская (сим- (симметричная) матрица может быть приведена к диагональной фор- форме унитарным (ортогональным) преобразованием. Пусть Ai,..., An — собственные значения матрицы Кх (неотрицательные в силу неотри- неотрицательной определенности Кх\ ipi,---,(fn ~ соответствующие ортонормированные собственные векторы. Тогда будут справедливы соотношения Кх(рр = \р(рр (р=1,...,п), C.61) (Vp,Vq) = V*qVP = $pq (P,Q = l,...,n)*). C.62) Пусть Ф — квадратная матрица, столбцами которой служат собствен- собственные векторы: Ф = [<pi ... <рп]. C.63) Покажем, что случайный вектор U = Ф*Х° C.64) имеет некоррелированные координаты. Для этого найдем по форму- формуле C.50) его ковариационную матрицу: или, в силу C.61), Ки = : [Xiipi ... Отсюда, принимая во внимание C.62), получаем ...Кх<рп], Ai О О А2 о о AnJ *) В первой части формулы скалярное произведение записано в обыч- обычной форме, а во второй — в матричной, когда векторы представлены в форме матриц-столбцов; ёрр — 1, Spq = 0 при р ф q (символ Кронекера).
3.4- Канонические разложения случайных векторов 113 Таким образом, ковариационная матрица случайного вектора U диа- гональна. Следовательно, его координаты не коррелированы и их дис- дисперсии равны соответствующим собственным значениям ковариаци- ковариационной матрицы Кх, DUP — Хр (р = 1,..., п). Из C.64) вытекает следующая формула для координат вектора U: Up = <р;Х° = (Х°, <рр) (р = 1,..., п). C.65) Эта формула показывает, что координаты вектора U представляют собой проекции случайного вектора Х° на собственные векторы. Наконец, представив вектор Х° — X — тх разложением по бази- су {</?i,..., рп}, получаем X = тх + ^2(Х°, ?р)?р = rnx + ^2 Uptfp. C.66) p=i p=i Эта формула дает разложение случайного вектора X по собственным векторам его ковариационной матрицы. Сравнив C.66) с C.59) и при- применив формулу C.60), получим разложение ковариационной матрицы случайного вектора X по собственным векторам: Случайные величины Ui(fi,..., Un(fn в разложении C.66) по соб- собственным векторам называются главными компонентами случай- случайного вектора X. Это название объясняется тем, что среди про- проекций вектора X на все возможные направления максимальную дисперсию, равную наибольшему собственному значению Ai, имеет проекция на собственный вектор (fi и при любом s среди проекций вектора Х° — U\ip\ — ... — Us-\Lps-i на все возможные направления максимальной дисперсией, равной s-му по величине собственному зна- значению As, обладает проекция на собственный вектор (р8 (экстремаль- (экстремальное свойство собственных значений) [96, т. 3, ч. 1]: \^ = sup cp*Kx<p, s-l Xs = sup p=i 3.4.2. Вычисление собственных значений и собственных векторов. Для получения разложения случайного вектора по собственным векторам необходимо найти собственные значения и собственные векторы его ковариационной матрицы. Эта задача
114 Гл. 3. Числовые характеристики случайных величин сводится к решению алгебраического уравнения n-й степени \Кх-\1\ = 0*). и соответствующих систем однородных линейных уравнений C.61), что связано со значительными вычислительными трудностями. По- Поэтому для вычисления собственных значений и собственных векторов обычно применяют приближенные вычислительные методы линейной алгебры [107]. 3.4.3. Каноническое разложение. Определение собственных значений и собственных векторов всегда связано с громоздкими вы- вычислениями. Между тем ковариационная матрица может быть приве- приведена к диагональной форме бесчисленным множеством других спосо- способов, если отказаться от требования унитарности преобразования. \> Пусть /i,..., /п — произвольные линейно независимые век- векторы. Определим случайные величины Vp = f^X° {р — 1,... ,п). На основании C.50) и C.55) дисперсии и ковариации величин Vi,..., Vn определяются формулой Отсюда видно, что величины Vi,...,Vn не коррелированы тогда и только тогда, когда f^KxJq — 0 при q ф р. Чтобы _определить векторы Д,..., /п, удовлетворяющие усло- условию fpKxfq =0, q ф р, возьмем произвольные линейно независимые векторы д\,..., дп и положим fi=9i, D1= DVj. = flKx'h, Xl = D^lK~h. Тогда будем иметь jjx\ — D^1 fiKxf\ — 0. Положим теперь /2 = 92 + c2i/i и определим с<±\ из условия f^Kxfi — 0 или, что то же, f?xi — 0. Так как /2TXi = д%Х! + c2ifix1 = glxx + с2Ь то условие f^x\ =0 дает С21 = —g^x\. Определив таким образом вектор *) Через / мы обозначаем единичную матрицу.
3.4- Канонические разложения случайных векторов 115 дисперсию D2 = j^KxJ2 величины Vi — f^X° и вектор х<± — — D^XKXJ2 будем иметь f^X2 — D^1 /2 Kxf2 = 1 и в силу эрмитовой симметрии ковариационной матрицы Продолжая этот процесс, определим последовательно векторы Л = 92, fs =g8- {gTsxi)h - ...- (gjxs-^fs-u C.68) случайные величины V8, их дисперсии Ds и векторы х8 V.=fJX°, Ds = fjKjs, xt = jj-Kxfa. C.69) При этом векторы f8 и х8 будут удовлетворять условиям fpxq — — х\ fp ~ $pq (T-e- $pq — 0 пРи q Ф р и Spq = 1 при q = р), в силу которых величины Vp и Vq будут некоррелированными при q ф р. На основании C.68) формулы C.69) можно переписать в виде Vs =gj(x°-J2 VpXp ), Ds= gjKx^ge, xs = i- K^gs, C.70) DPxpX; C.71) p=l ковариационная матрица случайного вектора s-l р=1 Формулы C.70) и C.71) дают возможность последовательно отщеп- отщеплять от вектора некоррелированные слагаемые V8x8, каждое из ко- которых не коррелировано с соответствующим остатком Xs+i (и всеми последующими остатками), не вычисляя векторов f8. Если ранг матрицы Кх равен размерности пространства п, то мы получим таким путем п векторов Д,..., /п и ни одна из величин Di,..., Dn не будет равной 0. При этом третья формула C.69) опре- определит п векторов х\,..., хп. Если ранг г матрицы Кх меньше размерности пространства п, то при некотором р ^ г + 1 получится Kxfp = К^др = 0, Dp = 0,
116 Гл. 3. Числовые характеристики случайных величин и вектор хр останется неопределенным. В таком случае можно про- продолжить вычисления по формулам C.68)-C.71), приняв хр = 0. По- Поступая так, мы найдем в результате п векторов Д,..., /п и г отличных от нуля векторов х8. Изменив в случае необходимости нумерацию век- векторов fs и ;cs, можем считать отличными от нуля векторы xi,... ,хг. Тогда векторам Д,..., Д. будут соответствовать некоррелированные случайные величины V\ = ffX°,..., Vr = f^X° с отличными от ну- нуля дисперсиями Di,..., Dr, а дисперсии величин Vr+\ — /Д^Х0,... ... ? уп = /JX° будут равны 0. Вследствие этого величины Уг+1,..., Vn равны 0 с вероятностью 1 и координаты случайного вектора Х° связаны п — г линейными зависимостями /Д^А = ... = /JA° = 0. Рассмотрим теперь случайный вектор p=i Так как fJX° = Vs, fjxp = 5sp (s = l,...,n; p=l,...,r) и Vr+i = ... = Vn = 0 почти наверное при г < п, то fjY = fJX°-V.=0 (8 = 1,...,r), fjY = fJX° = Vs=0 п.н. (s = r + l,...,n). Таким образом, координаты вектора Y связаны п линейными зависи- зависимостями. Вводя матрицу F, столбцами которой служат векторы /s, F=[fi...fn], можем написать эти зависимости в виде FTY = 0. Очевидно, что векторы Д,..., /п линейно независимы в силу линей- линейной независимости исходных векторов д\,..., дп. Поэтому определи- определитель матрицы F не может быть равным 0. Следовательно, Y = 0 (по- (почти наверное в случае, когда г < п). Таким образом, X = 7Tlx+ Это равенство точное при г = п и выполняется с вероятностью 1 при г < п. Таким образом, мы выразили случайный X через случайный век- вектор V с некоррелированными координатами Vi,...,Vr (и, следова- следовательно, с диагональной ковариационной матрицей). Сравнив C.72)
3.4- Канонические разложения случайных векторов 117 с C.59) и применив формулу C.60), получаем соответствующее выра- выражение для ковариационной матрицы случайного вектора X: г кх = Y,DPxPxt- < C-73) Представление случайного вектора X в виде линейной функции некоррелированных случайных величин C.72) называется его канони- каноническим разлоэюением. Соответствующее разложение C.73) называет- называется каноническим разложением ковариационной матрицы случайного вектора X. Векторы х\,... ,хг называются координатными вектора- векторами канонического разложения. 3.4.4. Различные формы канонического разложения. Из неоднозначности решения задачи приведения ковариационной матри- матрицы к диагональной форме (произвольности выбора исходных линейно независимых векторов #i,... ,gn) следует, что для любого случайного вектора с конечным моментом второго порядка существует бесчис- бесчисленное множество канонических разложений. Разложение по собственным векторам является одним из кано- канонических разложений. Оно получается, если за исходные векторы $1,..., дп взять сопряженные собственные векторы Tpi,..., Трп. Тогда будем иметь в силу C.61) и C.62) fP = <РР, Vp = (р*Х° = Up, Dp = Ар, Хр = (рр (р = 1,..., п) и формулы C.72) и C.73) примут соответственно вид C.66) и C.67) (если г < п, то Ar+i = ... = Ап = 0 и соответственно E/r+i = ... ... = Un = 0п.н.). Очевидно, что, вводя соответствующие множители в выражения случайных величин Vp и обратные множители в выражения векто- векторов хр, можно сделать дисперсии величин V\,..., Vr равными любым заданным числам, например, сделать все их равными 1, или добить- добиться того, чтобы все векторы #i,..., хт были единичными. В последнем случае сумма дисперсий величин V\,..., Vr будет равна сумме дис- дисперсий координат Xi,...,Xn случайного вектора X, т.е. следу его ковариационной матрицы: P = Yj DXh = Yj khh p=l h-1 h=i Действительно, из C.73) этом случае следует, что h—\ h—\ p=l p=l h—\ p—\
118 Гл. 3. Числовые характеристики случайных величин В частности, для разложения по собственным векторам всегда п п ^2^р = ^2khh = tr Kx p=l h=l (это следует также из известного факта, что при ортогональном пре- преобразовании след матрицы не изменяется). 3.4.5. Простейший способ получения канонического раз- разложения. Вычисления по формулам C.68), C.69) будут проще, если принять за исходные векторы д\,..., дп единичные векторы осей ко- координат ei,..., еп. В этом случае if = [1 0 ... 0], D1= fcn, xlq = D~1kql (q = 1,... ,n), и формулы C.68), C.69) последовательно дают s-l Ds =kss -^22 9=1 Kps 2_^ DqXqpXqs J (p S + 1, . . . , П), Kps — 2_^ DqXqpXqs J (p = S + 1, . . . , П), s-1 Jsp z= ~%ps ~ / J %qsjqp \P — !?•••? S ~ ^) i q=P+l Jss ;= J-j Jsp == Если Ds — 0, то в соответствии с общим методом полагаем xs\ = ... • • • = х8П = 0. Объем вычислений, необходимых для нахождения каноническо- канонического разложения случайного вектора по формулам C.74), в десятки, а в некоторых случаях в сотни раз меньше объема вычислений, необходи- необходимых для нахождения собственных значений и собственных векторов случайного вектора. При этом далеко не всегда приходится вычислять векторы fp. Предоставляем читателю самостоятельно показать, что форму- формулы C.74) можно получить, приняв за случайную величину V\ первую координату вектора Х°, V\ = Xj3, а затем положив последовательно Х^ = x8i Vi + ... + жв>в_1 K-i + Vs и определив arsi,... ,?s,s-i из условия некоррелированности величи- величины Vs с У1,...,К_1.
3.4- Канонические разложения случайных векторов 119 3.4.6. Геометрический смысл канонического разложения. Заметим теперь, что так как уравнение и1Кхи = const в случае матрицы Кх с действительными элементами представля- представляет собой уравнение эллипсоида (эллипса при п — 2) в силу неотри- неотрицательной определенности Кх, то задача нахождения канонического разложения действительного случайного вектора равносильна геомет- геометрической задаче нахождения сопряженных относительно эллипсоида направлений и приведения его уравнения к канонической форме (в общем случае в косоугольных координатах). В частном случае, при- приняв за оси координат оси эллипсоида, получаем прямоугольную систе- систему координат, в которой уравнение эллипсоида имеет каноническую форму. Этой системе координат соответствует разложение случайного вектора по собственным векторам. Из этой геометрической интерпре- интерпретации ясно, почему разложение случайного вектора на некоррелиро- некоррелированные слагаемые называется каноническим. Эллипсоид с уравнением иТК~1и = 1 (в случае матрицы Кх с действительными элементами) будем называть эллипсоидом рассеи- рассеивания. 3.4.7. Построение случайного вектора с данной ковариа- ковариационной матрицей. Докажем теперь утверждение о том, что любая неотрицательно определенная эрмитова матрица К может быть кова- ковариационной матрицей (а следовательно, и моментом второго порядка) случайного вектора. \> Пусть Ai,..., Лп — собственные значения, <^1?..., ipn — соот- соответствующие собственные векторы матрицы К, U\,..., Un — произ- произвольные некоррелированные случайные величины с нулевыми ма- математическими ожиданиями и дисперсиями, равными соответствен- соответственно Ai,..., Лп *). Рассмотрим случайный вектор k=i *) Например, можно взять случайные величины Up = Up + illp' (р = 1,..., п) и определить совместную плотность величин U[, U",... ...,Un,Un формулой j\UUUi,...,Un, Un) = /l (Ui, Hi ) . . . Jn{Un, Un), где /i ,..., /n — произвольные двумерные плотности, удовлетворяющие условиям МUp — О, DUP = Хр (р = 1,..., п). Когда матрица К имеет ранг г < п, Лг+1 = ... = Ап = 0 и случайные величины Ur+i, • • •, Un с ве- вероятностью 1 равны 0. В этом случае следует положить fp(u\ и") = 6(и) 8(и") (р = г + 1,..., п).
120 Гл. 3. Числовые характеристики случайных величин Его ковариационная матрица определяется формулой C.67). А так как \pLpp — Kifp и, следовательно, Xp(fp = Ц>рК, то Но так как в силу C.62) Ф*Ф = = ФФ* = /, 4>п\ Ч>*пЧ>п\ и, следовательно, Ф* = Ф х. Таким образом, Кх = К. <\ 3.4.8. Совместное каноническое разлолсение двух случай- случайных векторов. Построим каноническое разложение двух случайных векторов X и Y с одними и теми же координатными векторами в n-мерном евклидовом пространстве. Эта задача вполне аналогична известной задаче об одновременном приведении двух матриц к диа- диагональной форме. Покажем, что совместные канонические разложения случайных векторов X, Y и их ковариационных матриц Кх, Ку (причем Кх имеет ранг 77? ^ п) допускают следующее совместное представление: X = тх Кх = = ту т к - Y% и а* C.75) C.76) и=1 Здесь Vv — (fyX0 — некоррелированные случайные величины с ну- нулевыми математическими ожиданиями и единичными дисперсиями, a uv — Kxifv (v — 1, 2,..., га), Wv — (p^Y0 — некоррелированные слу- случайные величины с нулевыми математическими ожиданиями и дис- дисперсиями 7i/ {у — 1? • • •, rri), равными соответствующим собственным значениями матрицы А — К~хКу. \> Действительно, имеем = !,..., га).
3.5. Другие числовые характеристики случайных величии 121 А так как <ри представляет собой собственный вектор матрицы А = = К~1КУ, отвечающий собственному значению jv, то и мы получаем MWyW^ — ^v8Vfl. Следовательно, разложения C.75), C.76) для Y и Ку являются каноническими. При этом uv — Kxkpv — l 3.5. Другие числовые характеристики случайных величин 3.5.1. Моменты высших порядков. Моменты первого и вто- второго порядка во многих случаях оказываются недостаточными. По- Поэтому для более полной характеристики случайных величин вводят моменты высших порядков. При этом обычно ограничиваются дей- действительными величинами, что не приводит к потере общности (см. замечание в п. 2.1.2). Моментом порядка г (r-м моментом) скалярной случайной ве- величины X называется математическое ожидание ее r-й степени: аг = МХГ. C.77) Центральным моментом порядка г случайной величины X назы- называется 7*-й момент соответствующей центрированной случайной вели- величины Х° — X — тх: fir = М(Х°У = М(Х - тх)г. C.78) Молгентами порядка г случайного вектора X называются мате- математические ожидания произведений Х\1,..., Х%п, соответствующих всем целым неотрицательным fci,..., kn, дающим в сумме г: afcl ,...,*„ =МХ1*1...Х*», fci+... + fcn = г. C.79) Центральными моментами порядка г случайного вектора X на- называются моменты порядка г соответствующего центрированного случайного вектора Х° — X — тх: №,...,*„ =M(X1°)ftl...(X°)fc", k1 + ... + kn=r. C.80) Аналогично определяются моменты относительно любой данной точки. Моменты а относительно начала координат обычно называют начальными.
122 Гл. 3. Числовые характеристики случайных величин Пользуясь формулой бинома Ньютона и свойствами математиче- математических ожиданий, можно выразить начальные моменты через централь- центральные, и наоборот. В частности, для моментов скалярной случайной ве- величины получаем соотношения ar = J2 Срг1ЛРт^, ixr = J2(-lY-pC?aPmrx-p. C.81) р=0 р=0 Очевидно, что все моменты нулевого порядка равны 1. Момент первого порядка скалярной случайной величины X по определению представляет собой ее математическое ожидание, а± — тХ1 а моменты первого порядка случайного вектора X — математические ожидания его координат. Все центральные моменты первого порядка равны ну- нулю. Центральный момент второго порядка скалярной случайной ве- величины X представляет собой ее дисперсию, а центральные моменты второго порядка случайного вектора X — элементы его ковариацион- ковариационной матрицы. Совокупность моментов r-го порядка случайного вектора пред- представляет собой тензор r-го ранга*). В этом случае для всех ft],... ..., ftn ^ 0, fti + ... + ftn = г будем иметь a/ii,...,/ir, = 71...1 2...2 hx h2 hn Кроме моментов первого и второго порядков, на практике иногда пользуются моментами третьего и четвертого порядков. Моментами высших порядков пользуются редко. Центральный момент третьего порядка характеризует несиммет- несимметричность распределения относительно математического ожидания. Поэтому за характеристику несимметричности распределения при- принимают безразмерную величину — отношение третьего центрального момента к кубу среднего квадратического отклонения: ^3 МЗ ^3 /о Q0\ 71 = ^ = W = W ( } Эта величина называется асимметрией или скошенностью распре- распределения случайной величины. *) Как известно [128] любой вектор представляет собой контравари- антный тензор первого ранга, из C.79) и C.80) следует, что совокупность моментов порядка 2 является контравариантным тензором ранга г. Значит верхние индексы должны быть заменены нижними индексами. Мы исполь- используем нижние индексы поскольку в книге не встретятся другие тензоры.
3.5. Другие числовые характеристики случайных величин 123 Центральный момент четвертого порядка при данной дисперсии может служить характеристикой удельного веса больших отклоне- отклонений от математического ожидания, а это в свою очередь определяет характер максимума в точке тх симметричного распределения — «островершинность» или «плосковершинность» кривой распределе- распределения. Поэтому за характеристику поведения кривой распределения вблизи точки тх принимают безразмерную величину называемую эксцессом распределения случайной величины X. Смысл вычитания 3 из /m/a^I прояснится в п. 3.6.2. Пример 3.14. Для 7-распределения (пример 2.8) в силу B.16) к^Г(а + 1) ' В частном случае для показательного распределения (jj, = 0) ar =r\/kr. Пример 3.15. Для /^-распределения (пример 2.9) A f „r+P-in _ „«-1 . _ Г(р + д)Г(р + г) Пример 3.16. В условиях примера 2.14 моменты времени S работы системы после первого ремонта определяются формулой to t0 ar= J sr[Xe-x{t°-'s) + e-Xf0S(s)] ds = J sr\e-Ht°-s) ds = Пример 3.17. В условиях примера 2.16 21 ar = f ur[f(u + а - I) + f(b + I - u)]du + Bl)rP2. 0 3.5.2. Моменты линейных функций случайных величин. Теперь рассмотрим m-мерный случайный вектор У, который пред- представляет собой линейную функцию n-мерного случайного вектора X, Y — АХ + ао. Обозначив элемент матрицы А через а?, где р — номер строки, ag- номер столбца, перепишем соотношение между X и Y в тензорном обозначении: Yp = прХа + аОр (р = 1,..., га). Здесь повторяющийся индекс а (или какой-либо другой), один сверху, а другой снизу, указывает, как обычно, суммирование по всем
124 Гл. 3. Числовые характеристики случайных величин величинам а (а = 1,...,п). Умножая соответствующие выражения центрированных случайных величин Ypi,..., Yp°2 и взяв математи- математическое ожидание, получаем следующее выражение для r-х централь- центральных моментов случайного вектора Y через центральные моменты слу- случайного вектора X: kPi,..,Pi=a%---a%K1,..,°r (Pi,...,Pr = l,-..,m). C.84) Формула C.84) представляет собой соотношение между момента- моментами порядка г случайного вектора X и случайного вектора Y, полу- полученное как результат линейного преобразования X. В частном случае при г = 2 формула C.84) приводит к форму- формуле C.50) в тензорных обозначениях для действительных случайных векторов X и Y ар aq Если ао = 0, формула C.84) также справедлива и для начальных моментов. Но следует помнить, что если а^ ф 0, то формула C.84) справедлива только для центральных моментов. 3.5.3. Квантили. Моменты случайных величин удобны, когда все необходимые моменты (практически не выше четвертого поряд- порядка) существуют. Однако, как показывает пример 3.6, случайная вели- величина может не иметь моментов. Поэтому для скалярных случайных величин иногда вводят другие числовые характеристики, связанные со значениями функции распределения. За характеристику положения распределения на числовой оси (среднее значение) принимают точку Ci/2? B которой функция распре- распределения переходит от значений, меньших 1/2, к значениям, большим 1/2: F(d/2) ^ 1/2, i^(Ci/2 + 0) ^ 1/2. Такая точка ?jy2 назы- называется медианой случайной величины. Медиана всегда существует и может даже быть неоднозначно определенной. Действительно, функ- функция распределения изменяется монотонно от 0 до 1. Поэтому всегда найдется такая точка Ci/2? B которой она скачком или непрерывно пе- переходит через значение 1/2. Если же существует интервал (а,/?), на котором F(x) — 1/2, то любая точка этого интервала может служить значением медианы. Для характеристики разброса значений случайной величины пользуются точками, в которых функция распределения переходит через другие значения. Точка ?р, в которой функция распределения переходит от значений, меньших р, к значениям, большим р (р Е @,1)) называется квантилем порядка р: F((p) ^ p, F((p + 0) ^ р. Все кван- квантили существуют у любой действительной скалярной случайной вели- величины, и некоторые из них могут быть определены неоднозначно. Это доказывается совершенно так же, как существование медианы.
3.6. Одномерное нормальное распределение 125 Чаще всего пользуются, кроме медианы Ci/2? квантилями (,\/4 и Сз/45 которые называются квартилями. Величина Е — (Сз/4 ~ Ci/4)/2 при этом принимается за характеристику разброса значений случай- случайной величины и называется срединным или вероятным отклонени- отклонением или семиинтерквартильной широтой распределения случайной величины. Иногда пользуются квантилями ?0,ъ Со,2, • • •, Со,9, которые называются децилями. Легко видеть, что с помощью квантилей можно характеризовать распределение с любой степенью точности, если взять их достаточно много. Недостаток квантилей состоит в том, что для них не существу- существует простых формул типа C.52) для перехода от случайных величин к линейным функциям этих случайных величин, в частности к их суммам. Пример 3.18. Для распределения Коши (пример 3.6) медиана рав- равна а в силу симметрии распределения. Для срединного отклонения Е имеем уравнение Р(\Х — а\ < Е) — 1/2 или а + Е 7Г J dx 2 Е 1 Отсюда находим Е = Ъ. Таким образом, параметры а и Ъ распределения Коши представляют собой медиану и срединное отклонение случайной ве- величины. 3.6. Одномерное нормальное распределение 3.6.1. Коэффициент перед экспонентой. Изучим теперь нормальное распределение на числовой оси (пример 2.6). Это распределение определяется плот- плотностью f(x) = Ле"с(ж~аJ/2, с>0. C.85) PSfrag replacements На рис. 3.1 показана нормаль- ная кривая распределения, изоб- изображающая эту плотность. Эта кривая, как видно из C.85), сим- симметрична относительно точки а, в которой плотность достигает мак- максимума. Коэффициент при показа- ис' тельной функции определен из условия равенства единице интеграла от плотности, распространенного на всю числовую ось.
126 Гл. 3. Числовые характеристики случайных величин Чтобы вывести выражение для этого коэффициента, обозначим его А. Тогда получим А Г e-<x~aJ/2dx = 1. — оо Заменой переменных х — а +1 у/2/с интеграл в левой части приво- приводится к известному интегралу Пуассона: Отсюда, принимая во внимание, что (приложение 2) оо Г e~f2 dt = л/тг, C.86) 3.6.2. Моменты. Из симметрии нормальной кривой распреде- распределения относительно точки х — а непосредственно следует, что ма- математическое ожидание случайной величины X, распределенной по нормальному закону, равно параметру а в выражении нормальной плотности, тх = а. К этому же результату приводит и формальное вычисление тх по формуле C.3): тх = \ — e-t2 I оо П_ [te-t У С7Т J e-t2dt+ П_ [te-t2dt = У J в силу формулы C.86) и равенства нулю последнего интеграла как интеграла от нечетной функции в симметричных относительно начала координат пределах. Таким образом, параметр а в выражении C.85) одномерной нор- нормальной плотности представляет собой математическое ожида- ожидание случайной величины. Центральные моменты нормально распределенной случайной ве- величины X определяются согласно C.78) и C.6) формулой оо оо x = ±(^r ffe^dt.
3.6. Одномерное нормальное распределение 127 Отсюда видно, что все нечетные центральные моменты нормально распределенной случайной величины равны нулю. Для центральных моментов четных порядков получаем ^(!O"е"'!<а- <387» О Интегрируя по частям, имеем оо 2р-1Bу [ 2р_2 t2 , 2р-1 -1Bу [ Г\~с) .Г о Таким образом, мы получили рекуррентную формулу А*2р= ^-^2р-2- C.88) Положив здесь р=1 и имея в виду, что все моменты нулевого по- порядка равны 1, находим дисперсию нормально распределенной слу- случайной величины X: Таким образом, параметр с в выражении C.85) нормальной плот- плотности представляет собой величину, обратную дисперсии случайной величины, с = D~x — \±^v. Для получения общей формулы для четных центральных момен- моментов перепишем C.88) в виде {12р = Bр- l)/i2//2p-2- Положив здесь последовательно р = 2,3,...,/с и перемножив полу- полученные равенства почленно, получим после сокращений 1л2к = 1. з • ... • Bк - I)i4 = Bk - 1)!! i4- C.89) Эта формула выражает все четные центральные моменты нормально распределенной случайной величины X через ее дисперсию Dx — \i2- В частности, при к = 2 формула C.89) определяет центральный мо- момент четвертого порядка \±± — Ъ\±\. Подставив это выражение в C.84), убеждаемся в том, что эксцесс нормального распределения равен нулю.
128 Гл. 3. Числовые характеристики случайных величин Нормальное распределение широко распространено в природе. В большинстве задач практики распределение случайной величи- величины можно считать нормальным. Поэтому нормальное распределе- распределение обычно принимается за эталон для сравнения распределений. Асимметрия и эксцесс вводятся для того, чтобы характеризовать отклонение распределения от нормального. Поэтому их определя- определяют так, чтобы для нормального распределения они были равны ну- нулю. Этим и объясняется ввод слагаемого —3 в определение C.84) эксцесса. Учитывая, что а — тх, с = D~x — <т~2, выражение C.85) для од- одномерной нормальной плотности часто записывают в виде опуская для краткости индексы у математического ожидания т — тж, дисперсии D — Dx и среднего квадратического отклоне- отклонения о — о~х. Формула C.90) показывает, что нормальное распределение полно- полностью определяется моментами первого и второго порядков. Зная ма- математическое ожидание и дисперсию нормально распределенной слу- случайной величины, можно найти ее плотность. 3.6.3. Вероятность попадания в интервал. Выведем теперь формулу для вероятности попадания нормально распределенной слу- случайной величины X в данный интервал (а,/3). Подставив выражение C.90) плотности в общую формулу B.10) для вероятности попадания в интервал, получим dx- После замены переменных х — т + az, z = (х — т)/о~ будем иметь Р(а<Х <( = = (а—т) /а (f3 — m)/a (a—m)/a = -±= [ e^l*dz--±= [ e-*'*dz. л/2тг J л/2тг J о о Неопределенный интеграл от функции e~~z I2 не выражается в эле- элементарных функциях. Поэтому для вычисления интегралов в преды-
3.6. Одномерное нормальное распределение 129 дущей формуле вводят новую функцию и Ф(и) = -L [e~z2/2dz. C.91) о Для этой функции, называемой функцией Лапласа, составлены табли- таблицы (приложение 3, табл. 1) *). При помощи функции Лапласа преды- предыдущая формула для вероятности попадания нормально распределен- распределенной случайной величины в интервал (а, C) может быть представлена в виде Р(а <Х< в) = ф(?^*)-ф(а^ь Y C.92) В этой формуле явно показано, что параметры т и а представляют собой соответственно математическое ожидание тх и среднее квад- ратическое отклонение ах случайной величины X**). Докажем теперь, что функция Лапласа нечетная. Заменив в C.91) и на — и, будем иметь •'-»' = ts~!'-*"<•¦ О Сделав замену переменных z — — s, получим и Ф(-и) = / е~^2/2 dz = -Ф(гв), л/2тт J что и доказывает нечетность функции Ф(и). Вследствие этого в таблицах даются ее значения только для положительных зна- значений и. 3.6.4. Случай симметричного интервала. В частном случае, когда интервал (а, /3) симметричен относительно математического ожидания, а = тх — е, /3 — тх + е формула C.92) дает Р(тх -е<Х <тх + г) = Р(\Х - тх\ < е) = ф(—)-ф(-—). *) В дальнейшем при ссылках на таблицы всегда имеются в виду таб- таблицы, приведенные в приложении 3. **) В разных руководствах функцию Лапласа определяют по-разному. Различные определения отличаются одно от другого масштабом аргумента, масштабом самой функции и пределами интеграла. Соответственно изме- изменяются и формулы для вероятности попадания.
130 Гл. 3. Числовые характеристики случайных величин Отсюда, принимая во внимание нечетность функции Ф(и), получаем Р(\Х-тх\<е)=2ф(—). C.93) \<Ух / Пример 3.19. Полагая в формуле C.93) последовательно е = <тж, 2<тж, 3<тж, 4сгж и пользуясь таблицей функции Лапласа (приложения 3, табл. 1), находим Р(\Х -тх\<ах) = 2ФA) и 0,683 « 0,68, Р(|Х - тж| < 2сгж) = 2ФB) « 0,954 « 0,95, Р(\Х - тх\ < Зсгж) = 2ФC) « 0,997, - тж| < 4<тж) = 2ФD) « 0,999994. Таким образом, с вероятностью около 68% значения нормально распреде- распределенной случайной величины отклоняются от ее математического ожидания не больше, чем на одно среднее квадратическое отклонение, с вероятно- вероятностью 95% — не больше чем на два средних квадратических отклонения и с вероятностью 99,7% — не больше чем на три средних квадратических отклонения. Мы видим, что нормально распределенная случайная величина лишь с вероятностью 0,3% может отклониться от своего математического ожида- ожидания больше чем на три средних квадратических отклонения. Иными сло- словами, в среднем лишь в трех опытах из тысячи, ее отклонение от матема- математического ожидания будет больше Зсгж. Поэтому обычно считают областью практически возможных значений нормально распределенной случайной величины интервал (тх — Зах, тх + 3<тж). Положив в C.92) а = — оо, /3 = х и приняв во внимание, что Ф(оо) = 1/2, находим функцию распределения нормально распреде- распределенной случайной величины: () 1-. C.94) 3.6.5. Квантили. Из симметрии нормального распределения непосредственно следует, что медиана совпадает с математическим ожиданием, Ci/2 = rnx = а, и что A/2 - Ci/4 = Сз/4 - Ci/2 = Ex, гДе Ех — срединное отклонение величины X. Для определения срединно- срединного отклонения Ех достаточно положить в формуле C.94) х = ?3/4 = = тх + Ех и приравнять полученное выражение 3/4. Тогда получим уравнение Ф ( — ) = -. Корень этого уравнения обычно обозначается тр р\/2 (р — 0,4769...). Таким образом, —- = pv2, откуда находим сре- <?х динное отклонение Ех = р\/2ах »
3.6. Одномерное нормальное распределение 131 3.6.6. Энтропия. Подставляя выражение плотности C.90) в B.54), мы находим энтропию одномерного нормального распреде- распределения *) оо Н[Х] = ~ Й = \ log 2ttD + \ log e = log л/2тгеГ>. C.95) Пусть С — класс всех одномерных непрерывных распределений с дисперсией D, Jn{%) — {2itD)~l/2e~x I2D — нормальная плотность с дисперсией D. Тогда для любой плотности f(x) класса С будет 00 оо 1 f(x) dx= f fN(x) dx = A C.96) — оо —оо и поэтому формула C.95) может быть записана в виде оо Н[Х] = - I f{x) (- \ log 2ttD - ^ log e) dx = — оо оо f(x) log fN(x)dx. C.97) Отсюда по теореме п. 2.5.4 заключаем, что нормальное распреде- распределение является единственным распределением, обладающим макси- максимальной энтропией среди всех непрерывных распределений с одной и той же дисперсией. *) Мы принимаем тх — 0, так как X и X — тх имеют одну и ту же энтропию (п. 2.5.2).
Глава 4 ПРОЕКЦИИ СЛУЧАЙНЫХ ВЕКТОРОВ И ИХ РАСПРЕДЕЛЕНИЯ 4.1. Распределения проекций случайного вектора 4.1.1. Проекции вектора. Любой вектор х = {х\,... , iV-мерном пространстве можно однозначно представить в виде N х = ^хкек, D.1) к=1 где ei,..., едг — единичные векторы осей координат, ei = {l,0,...,0}, е2 = {0,1,...,0}, ..., е„ = {0,...,0,1}. Выберем какие-нибудь п из N векторов ei,..., едг, скажем еГ1,... ..., еГп, ri < Г2 < ... < гп, п < N. Подпространством, образованным векторами еГ1,..., еГп, называется множество всех векторов х JV-мерного пространства, у которых отличны от нуля только коор- координаты хГ1,..., хГп , а остальные равны нулю. Два подпространства, одно из которых образовано каким-нибудь п из векторов ei,..., e^v, a другое — всеми оставшимися, называются взаимно дополнительны- дополнительными. Например, подпространство, образованное векторами ei,...,en, и подпространство, образованное векторами en+i,..., едг, взаимно до- дополнительны. Проекцией вектора х на подпространство, образованное вектора- векторами еГ1,... ,еГп, называется вектор х'', полученный из ж заменой всех его координат, кроме хГ1,..., хГп, нулями: п х1 = ^2xrherh, D.2) В частности, проекцией вектора х на fc-ю координатную ось — од- одномерное подпространство, образованное вектором е&, является век- вектор Xk?k- Ввиду того, что проекция вектора х на к-ю координат- координатную ось полностью определяется одним числом хи, мы в дальнейшем не будем делать различия между проекцией вектора на ось и соот- соответствующей его координатой, разумеется, если это не может выз- вызвать путаницу. Пусть Si,..., sjsf-n — оставшиеся числа из множества {1,..., N} после выбора из него чисел ri,...,rn, расположенные в порядке
4-1. Распределения проекций случайного вектора 133 возрастания, si < ... < sjsr-n- Вектор х', определяемый формулой D.2), и вектор N-n х" = ^2xshe8h D.3) h=l представляют собой проекции вектора х на два взаимно дополнитель- дополнительных подпространства. Сумма этих двух проекций равна вектору ж, х' + х" — ж, так как сумма в D.3) содержит все слагаемые суммы D.1), которые не входят в сумму D.2), и не содержит ни одного слагаемого суммы в D.2). Если X — iV-мерный случайный вектор, то его проекция на под- подпространство, образованное единичными векторами еГ1,..., еГп, пред- представляет собой п-мерный случайный вектор, а его проекция на до- дополнительное подпространство — (N — п)-мерный случайный вектор. Так как изменением нумерации векторов в1,...,едг (т.е. их по- порядка) всегда можно любые п из них сделать п первыми, то в дальнейшем, рассматривая проекцию Лг-мерного вектора на п-мерное подпространство, мы всегда будем считать, что это подпростран- подпространство образовано единичными векторами ei,...,en. Тогда дополни- дополнительное подпространство будет образовано единичными вектора- векторами en+i,..., вдг. При этом для простоты будем полагать N — п + т и обозначать (п + т)-мерный вектор буквой z, а его проекции на п-мерное и дополнительное m-мерное подпространства — соответ- соответственно буквами х и у. Иными словами, будем полагать z\ — = x1,...,zn = xn, zn+1=y1,...,zn+m=ym и х = {х!,...,хп}, у = = {?/i,...,7/m}. 4.1.2. Функция распределения проекции случайного век- вектора. Предположим, что известна функция распределения F(x,y) двумерного случайного вектора Z с координатами (проекциями на оси координат) X, Y, и поставим задачу определить распределения случайных величин X и У, рассматриваемых по отдельности. > В силу определения B.29) и соглашения п. 2.2.3 о записи нера- неравенств между векторами F(x,y) = P({X<x}{Y<y}). D.4) Для нахождения функции распределения F\(x) случайной величи- величины X достаточно заметить, что выполнение неравенства X < х рав- равноценно совместному выполнению этого неравенства и достоверного неравенства Y < оо. Поэтому Fi(ar) = Р(Х < х) = Р{{Х < x}{Y < оо}). D.5) Из сравнения этой формулы с D.4) видно, что F1(x) =F(x,oo). <\ D.6)
134 Гл. 4- Проекции случайных векторов и их распределения Совершенно так же определяется функция распределения i^B/) случайной величины Y: F2(y) = F(oo,y). D.7) Таким образом, чтобы найти функцию распределения одной ко- координаты двумерного случайного вектора, следует полоэюить пере- переменную, соответствующую другой координате, равной оо. 4.1.3. Плотность проекции случайного вектора. Найдем теперь плотность случайной величины X. \> Применив для вычисления вероятности в D.5) формулу B.9) и изменив обозначение переменной интегрирования ж на w, получим X ОО Ж ОО F1(x) = du f(u,y)dy= I < I f{u,y)dy\du. — oo — oo Сравнив эту формулу с B.30), получаем следующую формулу для плотности fi(x) случайной величины X: оо fi(x)= I f(x,y)dy. < D.8) Совершенно так же получаем формулу для плотности /2B/) слу- случайной величины Y: оо Ш)= I f{x,y)dx. D.9) — ОО Таким образом, чтобы найти плотность одной координаты дву- двумерного случайного вектора, следует проинтегрировать его плот- плотность по переменной, соответствующей другой координате. Формулы D.6) D.9) справедливы и в том случае, когда X и Y представляют собой любые случайные векторы. Если X представ- представляет собой n-мерный случайный вектор с координатами Х\,... ,Хп, a Y — т-мерный случайный вектор с координатами Y\,..., Ym, то f(x,y) является плотностью составного (п + т)-мерного случайного вектора с координатами Х\,..., Хп, Y\,..., Ym, т.е. совместной плот- плотностью п + т случайных величин Х\,..., Хп, Y\,..., Ym; интеграл по переменной у в D.8) следует понимать как m-кратный интеграл по координатам вектора у, а интеграл по переменной х в D.9) — как n-кратный интеграл по координатам вектора х. Таким образом, формулы D.6)-D.9) определяют распределения проекций любого случайного вектора на взаимно дополнительные подпространства. Распределения проекций X и Y случайного вектора [XTYY]T называются маргинальными распределениями.
4-1. Распределения проекций случайного вектора 135 > Формула D.8) дает возможность доказать сделанное в п. 3.1.2 утверждение, что математическое ожидание проекции (в частности, одной координаты) случайного вектора можно вычислить по форму- формуле C.3), рассматривая эту проекцию как функцию случайного векто- вектора. Действительно, рассматривая величину X как функцию случай- случайного вектора {X, У}, по формуле C.3) получаем оо оо оо оо тх = / / xf(x1y)dxdy = xdx f(x,y)dy, — оо —оо —оо —оо или, в силу D.8), т>х = / xfi(x)dx. То же получается по формуле C.6). <\ Пример 4.1. Плотность двумерного нормально распределенного слу- случайного вектора определяется формулой B.22) примера 2.11 при п = 2: Л/СЦС22 — с\ 2 г I , 2/) = - ^ ехр|--[сц(ж-а) + + 2с12(ж - а)(у - Ь) + с22B/ - &J]}. D.10) Для определения плотности проекции этого случайного вектора на ось х подставим выражение D.10) в D.8): Л/СЦС22 — C12 /- j 21 /iO*O = — expj--ci](x-a) | x 00 У I 2 — 00 у СЦС22 — cf2 Воспользовавшись для вычисления интеграла формулой (приложение 2) оо У I 2 J — оо получаем = /спсз^с?, |_ 1 (cllC22cf2)(,-^|_ V 27ГС22 ^2 С22 J Сравнив эту формулу с C.90), видим, что проекция X двумерного нор- нормально распределенного случайного вектора {X, У} на ось х распределена
136 Гл. 4- Проекции случайных векторов и их рас нормально, причем ее математическое ожидание равно а, тх = а, а диспер- дисперсия определяется формулой Dx = ^-^-. D.13) СЦС22 — С\2 По симметрии заключаем, что проекция У вектора {X, У} на ось у распре- распределена нормально, причем ее математическое ожидание равно Ь, ту = 6, а дисперсия определяется формулой Вычислим еще ковариацию величин X и У. Полагая для кратко- краткости х — тх = ж — а = ?i, 2/ — ту = у — b = v, по формуле C.22) находим kXy — у/ СЦС22 - cf2 2тг уСцС22 - 2?Г(?22 оо / — оо 2 оо / — оо оо — оо оо оо f f ( 1 2 2 1 / / uv ехр< - (сци -\-2ci2uv-\-C22V ) ? du dv = 2 J J I ^/C22 2 —oo PS Применив для вычисления интеграла по t формулу которая легко выводится дифференцированием формулы D.11) по пара- параметру г/, получаем f2 Г У Последний интеграл вместе с квадратным корнем перед ним согласно C.16) и D.12) представляет собой дисперсию Dx величины X, которая определя- определяется формулой D.13). Следовательно, кху = С-^2-- D.15) СЦС22С2 Формулы D.13)-D.15) показывают, что ковариационная матрица двумер- двумерного нормально распределенного случайного вектора и матрица С коэф- коэффициентов квадратичной формы в выражении D.10) плотности являются взаимно обратными матрицами. В п. 4.4.2 мы увидим, что это справедливо и для случайного вектора любой размерности. Пример 4.2. Предлагаем читателю самостоятельно найти плотность проекции n-мерного нормально распределенного случайного вектора на (п — 1)-мерное подпространство, образованное какими-нибудь п — 1 осями координат. Пример 4.3. Показать, что если двумерный вектор распределен рав- равномерно на прямоугольнике (пример 2.10), то его проекция распределена
4-1. Распределения проекций случайного вектора 137 равномерно на соответствующей проекции этого прямоугольника. Обоб- Обобщить этот результат на равномерно распределенные векторы на паралле- параллелепипедах в любых конечномерных пространствах. Пример 4.4. Для случайного вектора, равномерно распределенного внутри эллипса (пример 2.10), формула D.8) дает при х В данном случае, несмотря на равномерное распределение случайного век- вектора на плоскости, его координаты не распределены равномерно. Это и по- понятно: при каждом значении х вероятность попадания в бесконечно малый интервал длины Ах пропорциональна длине хорды эллипса, проходящей через точку х перпендикулярно оси х (рис. 4.1). Следовательно, и плот- плотность величины X пропорциональна длине этой хорды. Отсюда ясно, что У ments Рис. 4.1 Рис. 4.2 кривая распределения величины X на интервале (—а, а) представляет собой половину эллипса х (рис. 4.2). Предлагаем читателю самостоятельно показать, что полученная фор- формула определяет распределение проекции случайного вектора на ось жив более сложном случае вектора, равномерно распределенного внутри эллип- эллипса, оси которого не совпадают с осями координат (пример 3.9). Найти для этого случая также распределение проекции вектора на ось у. Пример 4.5. Рассмотрим случай, когда величина Y является опреде- определенной функцией случайной величины X, Y = ц>(Х). В этом случае, как было показано в п. 2.3.4, совместная плотность случайных величин X и Y определяется формулой f(x,y) =9(хN(у-(р(х)). Подставив это выражение в D.8), находим плотность величины X: оо fi(x)= J g(xN(y-ip(x))dy = g(x). — оо Эта формула доказывает высказанное в п. 2.3.4 утверждение, что множи- множитель д(х) представляет собой плотность случайной величины X. И это верно как в случае скалярных, так и в случае векторных величин X и У.
138 Гл. 4- Проекции случайных векторов и их распределения Точно так же по формуле D.9) находим плотность величины У: оо hiy)= J g(xM(y-(p(x))dx. — оо Для вычисления этого интеграла следует разбить область, где д(х) ф О, на интервалы монотонности функции (р(х) и на каждом таком интервале сде- сделать замену переменных г\ = р(х), после чего останется выполнить интегри- интегрирование по 7;, пользуясь определением интеграла от ^-функции (формула (П. 1.5) приложения 1). Мы выполним здесь это вычисление для частного случая примера 3.10, когда ip(x) = ж2, д(х) = A/2а) 1(а — |ж|). В этом случае Сделав замену переменных г/ = ж2, будем иметь в первом интеграле х = —yfij, а во втором х = -\-y/fj. В результате получим а2 Ну) = ~ Таким образом, обе координаты случайного вектора являются в данном случае непрерывными случайными величинами, несмотря на то, что его плотность содержит множителем ^-функцию. Это иллюстрирует сказанное в п. 2.3.4. Пример 4.6. В случае вырожденного распределения в n-мерном про- пространстве, подставив выражение B.28) плотности в D.8) с заменой х и у соответственно на х и ж", найдем плотность случайного вектора X' (проек- (проекции вектора X на подпространство, образованное т первыми единичными векторами ei,..., em): оо Ms') = / 9(х) S(x" - А{х' - с') - с") dx" = д{х'). 4.2. Условные распределения проекций случайного вектора 4.2.1. Условная плотность проекции случайного вектора. В задачах практики, имея дело со случайными векторами, часто при- приходится определять распределение одних координат случайного век- вектора при известных значениях других — так называемые условные распределения. С такой задачей мы встречаемся, например, когда ин- интересующая нас случайная величина X непосредственно не наблюда- наблюдаема, но может наблюдаться некоторая другая величина Y. Например, при любом измерении мы наблюдаем не саму измеряемую величи- величину X, а лишь результат измерения У, представляющий собой сумму
4-2. Условные распределения проекций случайного вектора 139 измеряемой величины и ошибки измерения. В таких случаях, опре- определив из опыта значение у величины У, приходится искать соответ- соответствующее условное распределение величины X. Основная трудность при нахождении таких условных распределений состоит в том, что со- событие В вида Y = у, относительно которого приходится определять условные вероятности, имеет вероятность, равную нулю, в то время как определение A.16) условной вероятности применимо только в слу- случае, когда Р(В) ф 0. Рассмотрим сначала непрерывный двумерный случайный вектор с плотностью f(x,y). В этом случае P(Y = у) = 0. Поэтому форму- формула A.16) не определяет условные вероятности событий при усло- условии Y = у. В то же время интуитивно ясно, что условная плотность величины X при данном у существует и пропорциональна плотно- плотности f(x,y) при данном фиксированном значении у (условная кри- кривая распределения величины X при данном у изображается в неко- некотором масштабе соответствующим сечением поверхности распределе- распределения z — /(ж, 2/)). Из этих соображений, принимая во внимание свой- свойство B.11) плотности и формулу D.9), получаем следующее выраже- выражение условной плотности величины X при данном значении у вели- величины Y: fi(x\y)=f(x,y)/Mv). D.16) Аналогично находим условную плотность величины Y при данном значении х величины X: f2(y\x)=f(x,y)/f1(x). D.17) > Чтобы дать строгое определение условного распределения од- одной координаты случайного вектора при данном значении другой, найдем сначала условное распределение величины X относительно события 2/i ^ Y < ?/2, имеющего отличную от нуля вероятность. По формуле A.16) находим условную функцию распределения: (х) - Р(Х < х \ул < Y < у,) - П{Х < x}{yi ^Y <у2) Применив для вычисления вероятностей формулы B.9) и B.10), по- получим X УЧ 2/2 РуиуЛх) = I dujf(u,v)dv I I h(v)dv. < D.18) — оо у г уг Положим теперь у± = у, у2 = У + А?/ и определим условное рас- распределение случайной величины X при данном значении у величи- величины У, имеющем нулевую вероятность, как предел условного распре- распределения X относительно события у ^ Y < у + Ау при Ау —у 0.
140 Гл. 4- Проекции случайных векторов и их распределения \> Чтобы осуществить предельный переход, перепишем форму- формулу D.18) в виде У2 X 2/2 FvuУ2(х) = [dv J f(u,v)du I f f2(v)dv. D.19) 2/i — oo у г Если интеграл ¦JO Г tf J du при любом х и функция /г(^) — непрерывные функции v в точ- точке v = у, то они непрерывны также и в некоторой окрестности точ- точки у. Поэтому, положив 2/i = у, у2 —у + Ау, можно при достаточно малом Ау применить к интегралам в D.19) теорему о среднем значе- значении. В результате будем иметь = f f(u,v)du I /2(V), rirf Z (y,y + Ay). — oo Так как 77, ?/ —> у при Ay —> 0, то правая часть полученного равен- равенства стремится к определенному пределу при Ау —> 0, если /2B/) 7^ 0- Следовательно, в этом случае существует и предел левой части, ко- который по определению представляет собой условную функцию рас- распределения F\ (x\y) случайной величины X при данном значении у величины Y. Таким образом, получаем ) = lim Fyiy+Ay(x) = / f{u,y)du / f2(y). D.20) — 00 Сравнив правую часть с выражением B.30) функции распределе- распределения через плотность, получаем формулу D.16) для условной плот- плотности fi(x | у) величины X при Y = у. <\ Таким образом, мы доказали, что при всех значениях у, при ко- которых /2B/) и интеграл в D.20) при любом х являются непрерыв- непрерывными функциями у и /г(?/) ф 0, условная плотность величины X при данном, значении у величины Y определяется формулой D.16). При /2B/) = 0 условное распределение величины X при Y — у остает- остается неопределенным (не существует). Отметим, что условия, при которых была выведена форму- формула D.20), могут выполняться и в том случае, когда f(x,y) содержит й-функции (примеры 4.5 и 4.6). > Для определения условного распределения величины X при значении у8 величины У, имеющем отличную от нуля вероятность ps, заметим, что событие Y = у8 (попадание в прямую у = у8) может
4-2. Условные распределения проекций случайного вектора 141 иметь отличную от нуля вероятность только в том случае, когда f(x,y) содержит слагаемое gs(x)S(y — ys)- Положив в D.19) у\ = у8, у2 — ys + Ay, будем иметь при любом Ау > О х J gs(u)du ) = Pa+O(Ay) • В пределе при Ау —у 0 получаем для условной функции распределе- распределения F\(x \ys) и условной плотности fi(x | ys) формулы X If 1 F1(x\y8) = — / g8(u)du, fi{x\ya) = —g8(x). D.21) Ps J Ps — oo Эти формулы справедливы и в том случае, когда gs содержит линей- линейную комбинацию й-функций. <\ Очевидно, что все наши рассуждения справедливы и в том случае, когда X и Y представляет собой случайные векторы. Поэтому фор- формулы D.16) и D.21) определяют условное распределение проекции случайного вектора на любое подпространство при данном значении его проекции на дополнительное подпространство. Пример 4.7. В условиях примера 4.1, подставив в D.16) выраже- выражение D.10) плотности f(x,y) и выражение (аналогичное D.12)) плотно- плотности /2B/), находим условную плотность проекции двумерного нормально распределенного случайного вектора на ось х при данном значении его про- проекции на ось у: fi(x | у) = y|L exp{-i en [х - а + |i (у - Ь)]'}. D.22) Сравнив эту формулу с C.90), видим, что условное распределение величи- величины X при данном значении у величины Y нормально, причем математиче- математическое ожидание и дисперсия X равны соответственно С12 / ,ч 1 а (У-о) и —. СЦ Си По симметрии заключаем, что условное распределение величины У при данном значении х величины X нормально и при этом математическое ожи- ожидание и дисперсия Y равны соответственно Ъ (х — а) и —. С22 С22 Пример 4.8. Используя результаты примера, найти условное распре- распределение одной координаты n-мерного нормально распределенного случай- случайного вектора при данных значениях всех остальных координат (т.е. при данном значении проекции случайного вектора на (п — 1)-мерное подпро- подпространство, образованное остальными осями координат).
142 Гл. 4- Проекции случайных векторов и их распределения Пример 4.9. В условиях примера 4.4 1 f (т I ,.\ _ JU W 2a/L -У2/Ъ2 "V"V* б2 Таким образом, условное распределение величины X в данном случае рав- равномерно в интервале \х\ < ау/1 — у2/Ъ2, длина которого зависит от у. Мы видели в примере 4.4, что безусловное распределение величины X в этом случае не является равномерным. Читатель легко самостоятельно убедится в том, что и в более сложном примере 3.9 условные распределения проекций случайного вектора равно- равномерны на соответствующих интервалах. Пример 4.10. В условиях примера 4.5 очевидно, что условное рас- распределение величины Y при данном значении х величины X определяется плотностью /2B/1 х) — $(у ~ ^(ж))- Действительно, при данном х величина Y с вероятностью 1 принимает единственное возможное значение <р(х). Тоже самое дает на основании ре- результата примера 4.5 и формула D.17). В частности, она справедлива в случае вырожденного распределения B.28). 4.2.2. Теорема умножения плотностей. Формулы D.16) и D.17) можно переписать в виде f(x,y) = h(x)f2(y\x)=f2(y)h{x\y). D.23) Эта формула выражает теорему умножения плотностей: совместная плотность двух случайных величин (скалярных или векторных) рав- равна плотности одной из них, умноженной на условную плотность другой, \> Заметим, что формула D.23) верна и в том случае, когда Л (ж), или /2B/), или они обе содержат ^-функции. Действительно, если, на- например, N /2B/) = h2(y) + ^2psS(y - 2/s), 8=1 то N f2(y)fi(x I у) = h2(y)fi(x I у) + ^2p8fi(x I ys) S(y - ys). D.24) 8=1 В сумме мы заменили fi(x\y) функцией fi(x\ys) ввиду того, что (р(у) ё(у — ys) — Lp(ys) 5(y — ys) для любой функции ip(y), посколь- поскольку 8(у - у8) = 0 при всех у ф у8. Так как при всех уфуъ>>.,ук суммы в обеих последних формулах равны нулю и, следовательно, /2B/) = h2(y), то вследствие D.16) правая часть формулы D.24) равна /(ж, у) при всех у ф 2/i,..., ум- Сумма же в D.24) на основании D.21) представляет собой как раз ту линейную комбинацию 5-функций, ко- которую следует ввести в функцию f(x,y), чтобы учесть отличные от
4-2. Условные распределения проекций случайного вектора 143 нуля вероятности р\,..., рдг значений 2/i,..., 2/лг случайной величи- величины У. Таким образом, правая часть формулы D.24) совпадает с /(ж, у) при всех х и у. <\ По индукции из D.23) для любого числа случайных величин имеем Ь . . . , Хп) = /l(xi) f2(x2 | ^i) /3(Ж3 I Xl, X2) . . . fn(xn \ %1, • • • , ^n-l), D.25) где fk(%k | ^i,...,Xjfe_i) является плотностью случайной величины Х& при данных значениях х\,..., Xk-i случайных величин Х\,..., X^_i. Соотношение D.25) сохраняет свой вид независимо от порядка нуме- нумерации Xl, ..., Хдг и соответствующих плотностей. 4.2.3. Зависимые и независимые случайные величины. В п. 2.4.6 были получены два необходимых и достаточных условия неза- независимости случайных величин. Установим третье необходимое и до- достаточное условие в терминах условных распределений. Сравнив D.23) с B.37), заключаем, что для независимости слу- случайных величин X uY необходимо и достаточно выполнение условий Мх\у) = Мх), h(y\x) = h{y). D.26) Очевидно, что оба эти условия необходимы, но достаточно выполне- выполнения одного из них, так как в силу D.22) каждое из тождеств D.27) является следствием другого. Аналогично, устанавливается, что для независимости п случай- случайных величин необходимо и достаточно, чтобы все условные распре- распределения совпадали с безусловными распределениями. Пример 4.11. В примерах 4.1 и 4.7 случайные величины X и Y за- зависимы, если ci2 ф 0, и независимы, если ci2 =0. Из D.15) следует, что величины X и У коррелированы, если с\2 ф^-> и не коррелированы, если ci2 = 0. Таким образом, координаты нормально распределенного двумерно- двумерного случайного вектора зависимы, если они коррелированы, и независимы, если они не коррелированы. Пример 4.12. В примере 4.3 проекции случайного вектора незави- независимы. Пример 4.13. В примерах 4.4 и 4.9 проекции случайного вектора за- зависимы, несмотря на то что, как мы видели в примере 3.8, они не коррели- коррелированы. В более сложном случае примера 3.9 проекции случайного вектора зависимы и в то же время коррелированы. Пример 4.14. В примере 4.5 проекции случайного вектора X и Y за- зависимы. Это следует из формального сравнения /2B/) и /г(у |ж), получен- полученных в примерах 4.5 и 4.10. При этом X и У в общем случае коррелиро- коррелированы. В частных случаях они могут быть и некоррелированными. Так, в примере 3.10 и в более общем случае четных функций д(х) и <р(х) величи- величины X и У не коррелированы. В случае четной д(х) и нечетной <р(х) вели- величины X и У коррелированы.
144 Гл. 4- Проекции случайных векторов и их распределения Попарной независимости величин Х\,..., Хп, недостаточно для того, чтобы они были независимыми. Пример 4.15. Пусть Х\ и Х2 — независимые случайные величины, каждая из которых имеет два возможных значения 0 и 1 с вероятностя- вероятностями 1/2, Хз = XiX2 + A — Xi)(l — Х2). Величина Хз также имеет два воз- возможных значения 0 и 1, вероятности которых равны 1/2, так как Р(Х3 = 0) = Р(Хг = 0) Р(Х2 = 1) + P(Xi = 1) Р(Х2 = 0) = 1/2, Р(Х3 = 1) = 1 - Р(Х3 = 0) = 1/2. Величины Xi,X2 и Хз попарно независимы, так как = 0, Хз = 0) = Р(Х: = 0) Р(Х2 = 1) = i = Р(Хг = 0) Р(Х3 = 0), Xi = 0, Хз = 1) = Р(Х: = 0) Р(Х2 = 0) = i = P(Xi = 0) Р(Х3 = 1), P(Xi = 1, Хз = 0) = Р(Х: = 1) Р(Х2 = 0) = i = P(Xi = 1) Р(Х3 = 0), Р(Х! = 1, Хз = 1) = Р{Х1 = 1) Р(Х2 = 1) = i = Р(Х! = 1) Р(Х3 = 1), 4 и аналогичные равенства справедливы для Х2, Хз. Однако P(Xi = 0, Х2 = 0, Хз = 0) = 0 ф Р{ХХ = 0) Р(Х2 = 0) Р(Х3 = 0). Следовательно, величины Xi,X2 и Хз зависимы. Пример 4.16. Трехмерный случайный вектор X = {Х1,Х2,Хз}, рав- равномерно распределенный на поверхности тетраэдра с вершинами в точках @, 0, 0), @,1,1), A, 0,1), A,1, 0), имеет плотность /О) 1 ж2 + хз — 2)], где l(o,i) (ж) — индикатор интервала @,1). Любая координата этого вектора распределена равномерно в интервале @,1), а его проекция на любую коор- координатную плоскость распределена равномерно на квадрате @,1) х @,1) = = @,1J. Следовательно, величины Xi,X2 и Хз попарно независимы. В то же время они зависимы, так как в противном случае распределение векто- вектора X было бы равномерным в кубе @,1K. Пример 4.17. Плотность n-мерного случайного вектора X определя- определяется формулой /О) = /iOi)... fn(xn) + g(x), где fi(x),..., fn{x) — любые плотности (возможно, содержащие линейные комбинации ^-функций), а д(х) — любая функция, удовлетворяющая усло- условиям: !) \д(х)\ ^ fi(xi) - - fn(xn) при всех хи...,хп\ 2) / д(х) dxk = 0 при всех xi, г ф к (к = 1,..., п).
4-2. Условные распределения проекций случайного вектора 145 Этим условиям удовлетворяет, например, функция g(x) = gi(xi)...gn(xn), где gi(x)...., дп(х) — любые нечетные функции, модули которых при всех х меньше соответствующих функций fi(x),..., fn(x). Интегрируя плотность f(x) по какой-нибудь одной координате, убеждаемся в том, что любые п — 1 из координат вектора X независимы, причем fk(xk) есть плот- плотность координаты Хк {к — 1,...,п). Однако все п координат вектора X зависимы, если д(х) ф 0. Подобных примеров можно привести много. В частности, этот пример легко распространяется на векторные величины Х\,..., Хп. 4.2.4. Независимые величины не коррелированы. Дока- Докажем, что независимые случайные величины всегда не коррелированы. \> Подставив выражение D.26) совместной плотности независи- независимых случайных величин X и Y в формулу C.22) для ковариации, получаем кху= / / (х-тх)(у -my)fi{x)f2{y)dxdy = -00-00 оо оо ¦x)fi(x)dx j (y-my)f2(y)dy. (x-mx) — СЮ Но оо оо оо У (y-my)f2(y)dy= j yf2(y)dy-my J f2(y)dy = 0. — оо —оо —оо Следовательно, kxy = 0, что и доказывает наше утверждение. О Зависимые случайные величины, как показывают примеры 4.11- 4.14, могут быть коррелированными, а могут быть и некоррелирован- некоррелированными. 4.2.5. Независимость функций независимых величин. До- Докажем, что если величины Х-\,... ,Хп независимы, то и любые их функции Y\ — cp(Xi),... ,Yn = (р(Хп) независимы. > Действительно, в этом случае р( П { \ к=1 = / ... / fi(x1)...fn(xn)dx1...dxn = = П / Л0**) dxk = f[ РAрк(хк) е вк) к1 k1 k=1 для любых множеств В\,..., Вп в соответствующих пространствах. <\
146 Гл. 4- Проекции случайных векторов и их распределения 4.2.6. Теорема умножения математических ожиданий. В п. 3.2.4 была выведена формула C.30), связывающая математиче- математические ожидания, ковариацию и смешанный начальный момент второ- второго порядка двух случайных величин. В случае действительных вели- величин X и Y эта формула имеет вид Ixy = kxy + тхту. D.27) Отсюда следует, что если случайные величины X и Y не коррелиро- ваны (кху = 0), то jxy = mxmy, или MXY = MX - MY. D.28) Таким образом, математическое ожидание произведения двух некор- некоррелированных действительных случайных величин равно произведе- произведению их математических ожиданий. Эта теорема умножения мате- математических ожиданий справедлива, в частности, для независимых случайных величин, так как независимые величины, как было пока- показано в п. 3.2.3, всегда не коррелированы. Естественно возникает желание обобщить эту теорему на любое число величин. Однако некоррелированности и даже попарной неза- независимости случайных величин для этого уже недостаточно. Пример 4.18. В условиях примера 4.15 величины Х\, Х2 и Хз попарно независимы, а следовательно, и не коррелированы. Их произведение имеет два возможных значения 0 и 1, причем значение 1 достигается только при Xi — Х2 — 1, а вероятность этого равна 1/4. Следовательно, МХ1Х2Х3 — = 1/4. В то же время МХХ = МХ2 = МХ3 = 1/2 и МХХ • МХ2 • МХ3 = = 1/8. Следовательно, теорема умножения математических ожиданий в данном случае не справедлива. \> Если случайные величины Х\,..., Хп независимы, то для лю- любых функций (pi(Xi),..., срп(Хп) Мср1(Х1)ср2(Х2) .. .ipn(Xn) = — 00 —сю сю = / (pi(^i)/i(Xi)(iXi / (p2(x2)f2(X2)dX2... / Pn Xi) Мср2(Х2)... причем математическое ожидание в левой части существует тогда и только тогда, когда существуют все математические ожидания в пра- правой части. <\
Jf.,3. Условные числовые характеристики 147 Таким образом, если случайные величины Xi,... ,Хп независи- независимы, то математическое оэюидание, произведения любых п функций этих величин, каждая из которых зависит только от одной из ве- величин Xj_,...,Xn, равно произведению математических ожиданий этих функций: Мч>х(Хх)ч>2(Х2)... <рп(Хп) = Mip^Xj.) MMX2) ¦ ¦ ¦ М<рп(Хп). D.29) Эта теорема справедлива как для скалярных, так и для векторных величин Х\,..., Хп и для произвольных комплекснозначных функ- функций </>!,...,<?„. В частном случае действительных величии Х\,..., Хп можно взять cpi(Xi) = Xi,..., срп(Хп) = Хп, и мы получаем обобщение тео- теоремы умножения математических ожиданий на любое число случай- случайных величин: лштематическое ожидание произведения независимых действительных случайных величин равно произведению их матема- математических ожиданий. Так как комплексную случайную величину можно рассматривать как функцию двумерного случайного вектора, координатами которо- которого служат ее действительная и мнимая части, то из D.29) следует, что теорема умножения математических ожиданий справедлива и для независимых комплексных случайных величин. Пример 4.19. Показать, что теорема умножения математических ожиданий справедлива для действительных случайных величин Х\,..., Хп, если все их смешанные центральные моменты до порядка п включительно равны 0. 4.3. Условные числовые характеристики 4.3.1. Условное математическое ожидание. Все введенные в гл. 3 числовые характеристики можно определить и для условных распределений. В частности, из формулы C.3) вытекает определение условного математического ожидания данной функции tp(Y) случайной вели- величины Y при данном значении х случайной величины X: M[<p(Y) \х] = I <p(y)f2(v I х) dy, D.30) где /2 (у | х) — условная плотность величины Y при данном значении х величины X. Эта формула определяет условное математическое ожи- ожидание как в случае скалярных, так и в случае векторных величин X, Y
148 Гл. 4- Проекции случайных векторов и их распределения Из формулы D.30) как частный случай вытекает формула для условного математического ожидания случайной величины У при данном значении ж величины X: сю M[Y\x}= f yh(y\x)dy. D.31) — сю 4.3.2. Регрессия. Обозначение $2{у\х) применяется для плот- плотности случайной величины У, зависящей от параметра ж, и в том слу- случае, когда ж не является значением некоторой случайной величины X. Формулы D.30) и D.31) в этом случае определяют математические ожидания величин У и ip(Y) как функции параметра х. Математическое ожидание случайной величины Y как функция параметра ж, от которого зависит распределение У, называется ре- регрессией Y на х. В частном случае, когда параметр х представляет собой возможное значение некоторой случайной величины Х1 регрес- регрессия У на ж представляет собой условное математическое ожидание величины Y при X — х. График функции у = M[Y \ х] в случае скалярных ж и У называ- называется кривой регрессии У на ж. Если параметр ж представляет собой значение случайной величи- величины X, то, кроме регрессии У на ж, можно определить также регрес- регрессию X на у. 4.3.3. Условные моменты. Определив условное математиче- математическое ожидание, можно определить и все условные моменты случай- случайных величин. Ясно, что все условные характеристики случайных ве- величин при данном значении ж случайной величины X в общем случае являются определенными функциями ж. Поэтому их можно рассмат- рассматривать до опыта как функции случайной величины X. В этом случае они сами будут случайными величинами. Условное математическое ожидание случайной величины Z — — (p(Y), рассматриваемое как функция случайной величины X, М[(р(У)|Х], называется условным математическим ожиданием случайной величины Z = ip(Y) относительно X. Так как условные математические ожидания и другие условные моменты случайных величин относительно случайной величины X сами являются случайными величинами, то для них, в свою очередь, можно определить числовые характеристики, в частности математи- математические ожидания и моменты. Пример 4.20. В примерах 3.9, 4.4 и 4.9
4-3. Условные числовые характеристики 149 и /г (у | ж) = 0 при других значениях у. Поэтому сх+Ъл/1-х2/а2 M[Y\x] = -—J== [ ydy = cx. (II) Таким образом, условное математическое ожидание Y при X — х в данном случае равно сх. Условная дисперсия величины Y при X = ж, в соответствии с результа- результатом примера 3.3, определяется формулой D[Y\x] = ~(a2-x2). (Ill) Предлагаем читателю самостоятельно доказать, что в этом случае Пример 4.21. В случае двумерного нормального распределения (при- (примеры 4.1 и 4.7) условное математическое ожидание и условная дисперсия величины Y при X — х определяются формулами M[Y\x] = Ъ- — (ж-a), D[Y\x] = —. (I) С22 С22 Таким образом, уравнение кривой регрессии У на ж имеет в данном случае вид у = Ъ-С-^(х-а). (II) С22 Аналогично находим уравнение кривой регрессии X на у: х = а- — (у-Ъ). (III) сп Легко видеть, что кривая регрессии У на ж представляет собой диаметр эллипса рассеивания, сопряженный с направлением оси у, а кривая регрес- регрессии X на у — диаметр, сопряженный с направлением оси х. 4.3.4. Формула полного математического ожидания. Вы- Выведем одну часто применяемую в теории вероятностей формулу. \> Применив формулу C.3) для вычисления математического ожидания функции ip(X,Y) случайного вектора {X, У}, можем на- написать СЮ (X) <p(x,y)f(x,y)dxdy, D.32) — ОО — ОО где f(x,y) — плотность случайного вектора {X, Y}. Подставив сюда выражение f(x,y) из D.23): f(x,y) = fi(x)f2(y\x),
150 Гл. 4- Проекции случайных векторов и их распределения будем иметь оо оо Mip{X,Y) = / { / <p( — ОО — ОО Но интеграл в фигурных скобках представляет собой условное мате- математическое ожидание случайной величины ip(X, Y) при данном зна- значении х величины X: ОО J (p(x,y)f2(y\x)dy = M[ip(x,Y)\x]. — оо Следовательно, предыдущую формулу можно переписать в виде сю Мср(Х, Y)= J М[ф, Y) | x\h (х) dx. D.33) — СЮ Правая часть этого равенства представляет собой математическое ожидание функции = М[<р(Х,?)\Х] случайной величины X. Следовательно, Mip(X, Y) = M[M[ip(X, Y) \X]]. < D.34) Эта формула называется формулой полного математического ожидания. Она показывает, что при вычислении математического ожидания функции двух случайных величин можно сначала найти условное математическое ожидание этой функции при фиксирован- фиксированном значении одной из величин-аргументов, а потом найти матема- математическое ожидание этого условного математического ожидания, рас- рассматриваемого как функция этой случайной величины. Формула D.34) справедлива как для скалярных, так и для вектор- векторных случайных величин X и Y. В последнем случае все интегралы в предыдущих формулах следует понимать как кратные интегралы по соответствующим пространствам. Формула D.34) верна и для комплексных случайных величин (в том числе векторных) X и Y. Чтобы убедиться в этом, достаточно понимать /i (ж) и /2 (у \ х) в предыдущих выкладках как плотности случайных векторов, образованных действительными и мнимыми ча- частями величин X и Y (или всех их координат). В частном случае при tp(X, Y) = Y формула D.34) дает = M[M[Y\X]]. D.35)
4-4- Характеристические функции случайных величин 151 Таким образом, математическое ожидание условного матема- математического ожидания случайной величины Y относительно X равно безусловному математическому ожиданию величины Y. В частном случае дискретной величины X, подставив в D.33) вы- выражение B.24) плотности Д(ж), получим N M(p(X,Y) = Y^PkM[Y\xk]. D.36) k=l Пример 4.22. Число приборов, поступающих в течение дня в ремонт- ремонтную мастерскую, представляет собой случайную величину, распределенную по закону Пуассона с математическим ожиданием р. Вероятность того, что поступивший прибор потребует большого ремонта, равна р. Найти мате- математическое ожидание числа поступающих за день приборов, требующих большого ремонта. При данном числе п поступивших за день приборов число приборов, требующих большого ремонта, представляет собой случайную величину, распределенную по биномиальному закону. Поэтому, в соответствии с ре- результатом примера 3.1, M[Y\n]=np (n = 0,1,2,...). (I) Вероятность того, что в течение дня поступит п приборов, в соответствии с A.46), определяется формулой pn = !±le-iJ> (n = 0,1,2, ...)• (II) Подставив полученные выражения вероятностей и условных математиче- математических ожиданий в формулу D.36), получим . .71 M[Y] = J2'P™ 71 = 0 4.4. Характеристические функции случайных величин 4.4.1. Характеристическая функция. Характеристической функцией действительной случайной величины X называется мате- математическое ожидание случайной величины ехр{гЛтХ}, рассматри- рассматриваемое как функция действительной переменной Л. На основании C.3) характеристическая функция величины X вы- выражается через ее плотность f(x) формулой сю g(X) = Mexp{iXTX} = f exp{i\Tx}f(x) dx. D.37)
152 Гл. 4- Проекции случайных векторов и их распределения Эта формула определяет характеристическую функцию как для ска- скалярной, так и для векторной величины X. Размерность вектора Л, очевидно, всегда совпадает с размерностью случайного вектора X. Так как |егЛ ^| = 1 при всех действительных Л, то любая действи- действительная случайная величина имеет характеристическую функцию. Характеристическая функция случайной величины полностью и однозначно определяет ее распределение. Мы докажем это утвержде- утверждение для случайных величин, имеющих плотность, возможно содер- содержащую линейную комбинацию й-функций. Доказательство в общем случае читатель найдет, например, в [51, 119]. \> Плотность непрерывной случайной величины неотрицательна и интегрируема. Поэтому, предположив, что она непрерывна всюду, кроме, может быть, конечного множества точек (линий, поверхностей, гиперповерхностей в случае векторной величины), можем предста- представить ее интегралом Фурье: л fix) = щ^ lim^ I exp{-iXTx}g(X) dX. D.38) -Л Эта формула определяет f(x) во всех точках ее непрерывности, т.е. при всех ж, кроме, может быть, некоторого множества точек нулевой суммарной меры. Следовательно, она полностью определяет распре- распределение непрерывной случайной величины. Формулу D.38) обычно записывают в виде оо № = —^ / ехр{-»Аг:ф(А) d\, D.39) — ОО где интеграл понимается в смысле главного значения Коши в случае, когда он сходится не абсолютно [69, 109]. Формула D.39) определяет плотность и в случае дискретной или непрерывно-дискретной величины X, так как в силу формулы (П. 1.15) приложения 1 ^-функция представима интегралом Фурье: 5(х) = — оо —оо Таким образом, формула D.39) определяет плотность, а следова- следовательно, и распределение по данной характеристической функции для всех трех типов случайных величин, встречающихся в задачах прак- практики. < 4.4.2. Свойства характеристических функций. Изучим свойства характеристических функции. 1) Из D.37) следует, что характеристическая функция непрерыв- непрерывна и что \д(Х)\ ^ 1, д@) = 1, д(-Х) = д(Х).
4-4- Характеристические функции случайных величин 153 2) Характеристическая функция положительно определенна: для любых значений Ai,..., Xjy переменной Л и любых комплекс- комплексных &,..., &у N p,q=l Из определения характеристической функции и свойств матема- математических ожиданий следует N N p,q=l p,g=l N = м Можно доказать, что любая непрерывная положительно опреде- определенная функция </(А), где ^@) = 1, может быть характеристической функцией случайной величины [51, 119]. 3) Характеристическая функция #2(аО величины Y = АХ + а, по- лученной в результате линейного преобразования величины X, выра- выражается через характеристическую функцию д\ (А) величины X фор- }д1(АТ1л). D.41) По определению 02 (АО = Мехр{фТУ} = = Mexp{z/iT(AX + а)} = ехр{фТа}Мехр{г/лтАХ} = T(AT/i)TX} = exp{ijjTa}g1(AT/i). 4) Из D.41), в частности, следует, что характеристическая функ- функция проекции случайного вектора на любое подпространство G равна сужению его характеристической функции на это подпространство, В самом деле, если а = 0 и А — матрица проектирования на G, то Ат = А, .4 А = А для любого A G G и А А = 0 для любого вектора А, ортогонального к G. В частном случае, когда подпространство G образовано некоторы- некоторыми единичными координатными векторами, для нахождения харак- характеристической функции проекции вектора X на подпространство G следует в выражении #i(A) положить равными нулю все координаты вектора А в дополнительном подпространстве. 5) Характеристическая функция д(Х) суммы независимых слу- случайных величин Х\,..., Хп равна произведению их характеристиче- характеристических функций 0fe(A) (k = 1...., п): п $*(А). D-42) к=1
154 Гл. 4- Проекции случайных векторов и их распределения Действительно, по теореме умножения математических ожида- ожиданий D.29) п g(X) = Mexp{iXT(XL + ... + Хп)} = Ц Mexp{iXTXk}. 6) Если Xi,... ,Хп — независимые случайные величины, то ха- характеристическая функция д(\), X — [Ai ... Ап]т составного случай- случайного вектора X = [Х\ ... Хп]Т равна произведению характеристиче- характеристических функций gk(^k) (к = 1,..., п) величин Х\,..., Хп: п D-43) Действительно, по теореме умножения математических ожида- ожиданий D.29) g(\) = Mexp{iXTX} = п ГХ)} = Д Mexp{i\lX X! + ... + \ГпХп)} = Д Mexp{i\lXk}. к=1 Наоборот, если совместная характеристическая функция вели- величин Xi,... ,ХП (составного вектора X = [Х\ ... Хп]Т) выражается формулой D.43), то величины Xl, ..., Хп независимы. Это следует из формулы D.39), выражающей плотность через характеристическую функцию. Таким образом, случайные величины Xi,... ,Хп независимы то- тогда и только тогда, когда их совместная характеристическая функ- функция равна произведению их характеристических функций. Пример 4.23. Характеристическая функция дискретной величины X с возможными значениями xi,..., xn и их вероятностями pi,... ,рдг опре- определяется формулой N = У^Ри ехр{гЛ7 хи}. Пример 4.24. Для биномиального распределения J2 C™pmqn-meiXm = (peiX+qT. т=0 Пример 4.25. Для распределения Пуассона т=0 г??,=0
4-4- Характеристические функции случайных величин 155 Пример 4.26. Для равномерного распределения в интервале (а,Ъ) 7 - a iX{b - a) а Пример 4.27. Характеристическая функция скалярной нормально распределенной случайной величины X определяется формулой g(X) = . / exp<^ iXx — — > dx = . \ exp<^ iXt > dt. — oo —oo Применив формулу (П.2.1) приложения 2, получаем д(Х) = ехр|гЛш - ^}. D.44) Пример 4.28. Для 7-распределения (к-гХ)оо где интегрирование производится по лучу / в плоскости комплексной пере- переменной у, выходящему из начала координат в направлении вектора к — i\. Применив теорему Коши о равенстве нулю интеграла по замкнутому кон- ТУРУ от аналитической функции, не имеющей особых точек в области, ограниченной контуром, убеждаемся в том, что интегрирование по лучу / можно заменить интегрированием по положительной части действитель- действительной оси. Тогда в силу определения B.16) гамма-функции интеграл будет равен Г(/х + 1) и мы получим д(Х) = F+1(/c - гЛ)"^. D.45) Пример 4.29. В частном случае показательного распределения jj, — О и формула D.45) принимает вид Пример 4.30. В другом частном случае %2-распределения jj, — п/2 — 1, к — 1/2 и формула D.45) дает д(Х) = A - 2гА)""/2. Пример 4.31. Для распределения Коши (пример 3.6) ° eiXxdx beiXa 7 eiXudu /1Л У A) /ХЧ Ъ [ eiXxdx beiXa 7 ei — оо —оо Для вычисления последнего интеграла в (I) заметим, что 1 = 1 Г_^ !_1 Ь2 + и2 2blu + ib u-ibl
156 Гл. 4- Проекции случайных векторов и их распределения Тогда после подстановки (II) в (I) и интегрирования по замкнутому конту- контуру, содержащему интервал (—R.r) и полуокружность радиуса R в верхней полуплоскости при А > 0 и в нижней полуплоскости при А < 0, получим устремив R —>- оо окончательный результат я(А) = ехр{гаА-Ь|А|}. (III) 4.4.3. Связь между характеристической функцией и мо- моментами. Чтобы установить связь между характеристической функ- функцией и моментами случайной величины, рассмотрим сначала случай скалярной величины. Ее характеристическая функция в соответствии с D.37) определяется формулой оо д(Х) = [ eiXxf(x)dx. \> Предположим, что существует момент r-го порядка аг величи- величины X. В этом случае существует и производная ОО = V I xreiXxf{x) dx = irMXreiXX. Положив здесь А = 0, находим выражение для момента аг через ха- характеристическую функцию: ar=rVr)@). D.46) Если величина X имеет моменты до порядка v включительно, то на основании D.46) характеристическую функцию д(Х) можно пред- представить формулой Маклорена: Jl^\r+Ru, D.47) где Rv — остаточный член. Заметив, что е~гХгГ1хд(Х) представляет собой характеристичес- характеристическую функцию центрированной случайной величины Х° = X — тх, из D.46) получим [^]=о. D.48) Если случайная величина X имеет конечные центральные момен- моменты до порядка v включительно, то функцию е~гХгПх д(\) можно пред- представить формулой Маклорена: v -г e-iXm*g(\) = 1 + Y, г~^Г У + К- < D-49)
4-4- Характеристические функции случайных величин 157 Совершенно так же для n-мерного случайного вектора X полу- получаем формулы для моментов a^lv..^n и /i/^,...,/^, hi + ... + hn = r: D.50) и выражения функций д(А) и е~гЛ тхд(Х) через моменты: 5± 1 + J2{Г Е 0^Ь А* ''' Х"П + К> r=2 h! + ...+hn=r "" П' D.51) где равенство под знаком внутренней суммы указывает, что суммиро- суммирование распространяется на все значения /ii,..., hn = 0,1,..., г, сумма которых равна г. Полученные соотношения дают два простых и удобных спосо- способа вычисления моментов случайной величины: способ дифференци- дифференцирования характеристической функции и способ разложения ее по степеням Л. Пример 4.32. Для скалярной нормально распределенной случайной величины X на основании D.44) имеем = V = V А V А. 2ss\ ^ 2ss\ s=0 s=0 Сравнив эту формулу с D.49), находим Bs)! V2s-1 = 0, fl2s = -^ DSX. Этот результат совпадает с полученным в п. 3.6.2. В данном случае способ разложения характеристической функции в ряд значительно проще, чем непосредственное вычисление моментов. Если распределение случайной величины, полностью сосредоточе- сосредоточено в ограниченной области, то ее моменты всех порядков существу- существуют и полностью определяют ее распределение. \> Для доказательства достаточно заметить, что если \Х^\ < h (к = 1,..., п), то \ahi_ • • • dhn I < li1 • • • lnn •> вследствие чего члены ряда Маклорена характеристической функции по модулю меньше соответ- соответствующих членов сходящегося при всех Ai,..., Ап ряда ОО L 1 r=l hx + ...+hn=r где/ = [h ...ln]T. <
158 Гл. 4- Проекции случайных векторов и их распределения 4.4.4. Семиинварианты. В некоторых случаях удобно пользо- пользоваться разложением по степеням Л не самой характеристической функции, а ее логарифма. Если существуют моменты скалярной случайной величины X до порядка v включительно, то на основании формулы Маклорена ^^У+К. D.52) Г = 1 Коэффициенты называются семиинвариантами или кумулянтами случайной вели- величины X. Если существуют моменты n-мерного случайного вектора X до порядка v включительно, то формула Маклорена дает 1п5(А) = ?г ? ^At'-^+K. D.54) Коэффициенты называются семиинвариантами или кумулянтами случайного век- вектора X. Ясно, что семиинварианты порядка г выражаются через мо- моменты до порядка г включительно, и наоборот. Семиинварианты обладают одним интересным свойством: семи- семиинварианты суммы независимых случайных величин равны сум- суммам соответствующих семиинвариантов слагаемых. Это следует из свойств 5) характеристических функций 4.4.5. Порядок остаточных членов в разложениях. Оста- Остаточные члены в D.47), D.49), D.51), D.52) и D.54) имеют поря- док о(|А|"). \> Представив exp{iATX} формулой Маклорена и имея в виду, что |АТХ| ^ |А| • \Х\, получаем д(Х) = 1 + i\Tmx + $^ М{\ТХУ + й„, D.56) г=2 где |Д„| = i \M(\TXy(exp{i9\TX} - 1)| ^ < ^ |А|" М\Х\" ¦ | ехр{ШтХ} - 1)| = 0(|А|"). Последнее выражение представляет собой сходящийся интеграл, а
4-4- Характеристические функции случайных величин 159 функция \х"\ • | exp{iOXTx\ — 1)|, О ? @,1), равномерно непрерывна по х на любом конечном интервале. Следовательно, при Л —У оо M\X\V • | ехр{ШтХ} - 1)| _> 0. Так как ехр{—iXTmx}g(X) есть характеристическая функция цен- центрированной случайной величины Х°, то из доказанного следует, что и< = о(|ЛГ). Наконец, подставив в формулу z) = г=1 выражение 2: = д(Х) — 1 из D.56) убеждаемся в том, что и R'l = = о(|А|"). < В частности, положив в D.56) и D.57) v = 2, получаем для харак- характеристической функции случайной величины X с конечными момен- моментами второго порядка Ыд(Х) = г\Ттх - \ \ТКх\ + о(|Л|2) D.58) (эта формула справедлива и в случае, когда X имеет только моменты первого и второго порядков). 4.4.6. Соотношения между семиинвариантами и момента- моментами. Очевидно, что существуют некоторые соотношения между семи- семиинвариантами, с одной стороны, и моментами — с другой стороны. \> Для того чтобы получить эти соотношения для скалярной слу- случайной величины с конечными моментами до порядка г/, подставим в = imx\ + \n[exp{-i\mx}g(X)] - = imx\ Г=1 выражение D.49) для величины ехр{—iXTmx}g(X) и переставим чле- члены, собрав все члены одной и той же степени в одно слагаемое. Срав- Сравнив коэффициенты в полученном выражении с соответствующими ко- коэффициентами в D.52), найдем [/г/2] Для получения обратных соотношений подставляем в г=1
160 Гл. 4- Проекции случайных векторов и их распределения выражение D.52) для величины z — —iXm + \ng(X) = — iXxi + \ng(X) и переставляем члены, собирая все члены одной и той же степени Л в одно слагаемое. Сравнив коэффициенты в выражении, полученном с соответствующими коэффициентами в D.49), получим [h/2] ^[ E Аналогично выводятся соотношения между семиинвариантами и моментами n-мерного случайного вектора Р1 + ._^)/2] Jthlt...hn = fihlt....hn - 2 ^Г~ х p E ...+vnp=hn k=l All! ... i Е -¦ E Эти формулы справедливы для всех /г1?..., hn = 0,1, 2,..., /ii + ... • • • + hn ^4. Все первые семиинварианты случайного вектора совпа- совпадают с соответствующими компонентами его математического ожи- ожидания, в то время как вторые и третьи семиинварианты совпадают с соответствующими центральными моментами. 4.4.7. Семиинварианты линейных функций случайных величин. Чтобы полученные соотношения между семиинварианта- семиинвариантами n-мерного случайного вектора X и тех, что представляют линей- линейную функцию величины X, Y = АХ + ао, n-мерного случайного век- вектора Y, используем формулы D.61) и C.84). Совокупность семиинвариантов так же, как и моментов порядка г случайного вектора X, представляет собой тензор r-го ранга. При этом удобно пользоваться следующими тензорными обозначениями: >Qii,...,/in =ll...l 2...2 ... П...П- hi h-2 hn Тогда, применяя тензорные обозначения, получим для семиинвариан- семиинвариантов величины Y ]У _ nai narix / _ -i \
4-5. Многомерное нормальное распределение 161 Таким образом, семиинварианты случайной величины и семиин- семиинварианты линейной функции этой случайной величины связаны те- теми же соотношениями, что и моменты. 4.5. Многомерное нормальное распределение 4.5.1. Математическое ожидание нормально распределен- распределенного вектора. Изучим нормально распределенные случайные векто- векторы. В соответствии с B.22) напишем выражение плотности п-мерного нормально распределенного вектора X в виде /Or) = Anexp{-± (хТ - ат)С(х - а)}. D.63) Результаты изучения одномерного и двумерного нормальных распре- распределений в разделе 3.6 и в примерах 4.1 и 4.7 наводят на мысль, что параметр а в D.37) представляет собой математическое ожидание слу- случайного вектора X, а = mx = MX, матрица коэффициентов С квад- квадратичной формы в показателе степени обратна по отношению к кова- ковариационной матрице Кх вектора X, а коэффициент Ап при показа- показательной функции определяется формулой Так как это верно для п = 1 и п = 2, то для доказательства этого утверждения в общем случае проще всего применить метод индук- индукции. Предположив, что утверждение верно для (п — 1)-мерного век- вектора, докажем, что в таком случае оно верно и для n-мерного вектора. \> Пусть X' — случайный вектор, образованный первыми п — 1 координатами вектора X, X' = {Xi,... ,Xn_i}, и представим плот- плотность f(x) в соответствии с D.23) в виде произведения плотно- плотности fi(x') вектора X' и условной плотности последней координа- координаты Хп вектора X: f(x) = fi(x')f2(xn\x'). D.65) Для этого достаточно разложить f(x) на два множителя, один из ко- которых не зависит от xnj а другой при интегрировании по ж, в бесконеч- бесконечных пределах дает постоянную величину, не зависящую от х'. Тогда выбором подходящих числовых множителей к этим двум функциям получим требуемый результат. Выделим в показателе степени в D.63) все слагаемые, зависящие от хп. Для этого положим для краткости и = х — а и представим мат-
162 Гл. 4- Проекции случайных векторов и их распределения рицу коэффициентов С в виде блочной матрицы: С = си С21 С12 С22 Cl С2,п-1 С2п С2,п-1 Сп-1,п-1 Cln С2п Сг с - [cT cnn где С\ — матрица коэффициентов при upuq (р, q = 1,... , n — 1), а с — матрица-столбец коэффициентов при ирип (р = 1,...,п — 1). Точно так же матрицу-столбец и разобьем на два блока и' и ип, и = = [и1 ип]т. Тогда будем иметь uTCu = [ulT un] = \utTurt си' Спп\ [Un Ly\U т" CUn I /тл / / / Т / , =U CiU +U CUn + с1 и' + cnnixn ипсти' + сппи2п = u'TCiu' + 2ипсти' + сппи2п, так как и с — си' *). Дополнив два последних слагаемых до полного квадрата и снова пользуясь равенством сти! = ufTc, получим итСи = ufTClUf + cnn \ul + 2ип С-^ J (Г/J Спп Вводя для краткости матрицу С' = Сг - —, Спп перепишем полученное равенство в виде итСи = ufTCfuf D.66) D.67) Подставив это выражение в D.63) и вспомнив, что и — х — а и соот- соотf(x) = Апехр{-\ (х'т - alT)C'(x' -a') 1 Г ст 12>| --спп \хп -ап-\ (У - af)\ \. D.68) *) Читатель, которого затрудняют выкладки с блочными матрицами, легко убедится в справедливости этого равенства, представив его в скаляр- скалярной форме.
4.5. Многомерное нормальное распределение 163 Интеграл от второй показательной функции по хп в бесконечных пределах не зависит от х1', в чем можно убедиться, приняв за пере- переменную интегрирования выражение в квадратных скобках вместо хп. Следовательно, эта показательная функция пропорциональна услов- условной плотности f2(xn | х') случайной величины Хп при данном значе- значении х' величины X'. Сравнив эту показательную функцию с выраже- выражением C.85) одномерной нормальной плотности, получаем /2(ж„ | х') = л/f^ ехр{-? спп \хп - а,п + —{х1 - а')} }. D.69) Оставшийся множитель в D.68) представляет собой плотность слу- случайного вектора X': Л (*') = АпХ[^ exp{-i (xlT - а'т)С'(х' -а')}. D.70) Из D.67) следует, что матрица С положительно определенна, так как при любом векторе и1 и ип = —{сти')/спп имеем и'тС'и' = итСи > 0. Следовательно, распределение вектора X1 нормально. А так как по предположению для (п — 1)-мерного нормального распределения на- наше утверждение справедливо, то An_i = АпХ \— = , D.71) С'КХ, = L D.72) где Kxi — ковариационная матрица случайного вектора X1, и а1 = = MX' или, что то же, ар = тпр — МХР (р = 1,..., п — 1). Таким образом, величины ai,...,an_i равны математическим ожиданиям mi,...,ran_i случайных величин Xl, ...,Хп-\. Вслед- Вследствие симметрии выражения плотности D.63) относительно перемен- переменных #1,..., хп заключаем, что и величина an, равна математическому ожиданию тпп случайной величины Хп. Поэтому а = MX, что и дока- доказывает первую часть утверждения для n-мерного распределения. <\ 4.5.2. Ковариационная матрица. Докажем теперь, что кова- ковариационная матрица Кх вектора X равна С~1. \> Положим Yn = хп-ап + — {X1 ~ а'). D.73) Спп При данном значении х1 вектора X1 условное распределение величи- величины Yn нормально и, очевидно, получается соответствующим сдвигом
164 Гл. 4- Проекции случайных векторов и их распределения условного распределения величины Хп. При этом гр п—1 М[Хп | х'} = о„ - —• {х1 - а1) = тп - V] — (ж„ - тр), Cnn p=i Cnn D.74) Поэтому из формулы D.73) следует, что условная плотность величи- величины Yn при X' — х' нормальна и определяется формулой 9(Уп\х') = ^e*v{-\cnnyl и, следовательно, не зависит от х'. Это значит, что случайная вели- величина Yn не зависит от случайных величин Х±,... ,Xn-i. Но незави- независимые величины всегда не коррелированы. Следовательно, ковариа- ции случайной величины Yn со всеми величинами Xi,..., Хп-\ равны нулю. Для вычисления этих ковариации, принимая во внимание, что перепишем D.73) в виде п-1 V — Y0 _ \"^ Срп V0 Умножив это равенство на X® и взяв математическое ожидание, най- найдем ковариацию Yn и Хг. Учитывая, что по доказанному она равна О при г = 1,...,п — 1, получим соотношения п-1 km + У" — krp = 0 (г = 1,... ,п - 1), D.75) ^-"^ С-пп р=1 откуда находим п-1 Y^ krpcpn = 0 (г = 1,... ,п - 1). D.76) p=i Перепишем теперь D.72) с учетом D.66) в скалярной форме: п-1 р=1 или, так как csn = cnsj п-1 п-1 p=l p=l
4-5. Многомерное нормальное распределение 165 Но из D.75) следует, что п-1 _ V~^ Срп , _ , 7 ГьГр — ГЬГП' *—** спп Поэтому предыдущую формулу можно переписать в виде п ^Tkrpcps = Sr8 (r,s = l,...,n-l). D.77) P=i Формулы D.76) и D.77) показывают, что равенства D.77) справед- справедливы при s = 1,..., п; г = 1,...,/г — 1. Вследствие симметрии выра- выражения D.63) плотности относительно переменных xi,...,xn спра- справедливы и равенства, получаемые из D.77) круговой подстановкой индексов 1,...,п. Следовательно, равенства D.77) справедливы при всех г, s = 1,..., п. Это и доказывает, что матрицы С и Кх являются взаимно обратными. <\ 4.5.3. Коэффициент при показательной функции. Дока- Докажем последнюю часть утверждения — равенство D.64). \> Заметим, что так как спп — элемент матрицы С, обратной по отношению к Кх, а алгебраическое дополнение элемента кпп в опреде- определителе \КХ\ есть \КХ>\, то спп = lAVl/li^l- Подставив это выражение в D.71) и учтя, что определители взаимно обратных матриц являются взаимно обратными величинами, мы и получим формулу D.64) для коэффициента Ап в D.63). <\ Таким образом, при любом п коэффициент Ап в выражении нормальной плотности определяется формулой D.64), а = тх, С = = К~г. Поэтому выражение D.63) плотности нормально распределен- распределенного случайного вектора X можно написать в виде Эта формула показывает, что многомерное нормальное распределе- распределение полностью определяется математическим ожиданием и ковариа- ковариационной матрицей случайного вектора. Таким образом, нормальное распределение всегда полностью определяется моментами первого и второго порядков. Нормальное распределение случайного вектора с математическим ожиданием т и ковариационной матрицей К коротко обозначает- обозначается N(m,K). Таким образом, утверждение, что случайный вектор X имеет распределение N(m,K) означает, что он распределен нор- нормально и его математическое ожидание и ковариационная матрица равны соответственно т и К. В частности, утверждение, что ска- скалярная (действительная) случайная величина X имеет распределе- распределение N(m,K) означает, что она распределена нормально и ее ма- математическое ожидание и дисперсия равны соответственно т и D.
166 Гл. 4- Проекции случайных векторов и их распределения Заметим, что, доказав формулу D.64) мы попутно вычислили сложный n-кратный интеграл ОО . exp{-1-uTCu}du= у/Bж)»\Кх\ = ^^- D-79) — оо Этот результат является одним из многочисленных примеров реше- решения математических задач чисто вероятностными методами. Исполь- Используя вероятностные закономерности, часто удается вычислять слож- сложные интегралы без выполнения интегрирований или упрощать их до такой степени, чтобы дальнейшее интегрирование стало элементар- элементарным, а также решать многие другие задачи. 4.5.4. Условные распределения координат. Формула D.69) показывает, что условное распределение каждой координаты нор- нормально распределенного случайного вектора при данных значениях всех остальных координат нормально, причем условное математиче- математическое ожидание и условная дисперсия координаты Хп определяются формулами Т п—1 М[Хп | х'} = ап- — (У - а') = гпп ~У2 -^ (хр - гар), xf} = —. С-пп Таким образом, от х' зависит только условное математическое ожида- ожидание величины Хп, представляющее собой сдвинутую линейную функ- функцию х', т.е. переменных х\,..., жп-ь Из установленных фактов как следствие вытекает, что распреде- распределения и условные распределения проекций нормально распределенного случайного вектора на любые подпространства нормальны. \> Переписав формулу D.74) в виде п-1 М[Хп | х'] =тп+ g(xf - га') = тп + ^ дР(хр - гар), D.80) p=i на основании соотношений D.77) при s = п, г = 1,...,п — 1, убежда- убеждаемся в том, что элементы матрицы-строки д, равные др = —срп/спп, удовлетворяют уравнениям п-1 ^2 krp9p = krn (r = 1,..., п - 1), Р=1 или, в векторной форме при д = [д\ ... gn-i], Кх,д = к, D.81) где к — вектор с координатами fein,..., fcn_i,n. <\
4.5. Многомерное нормальное распределение 167 Таким образом, условное математическое ожидание случайной величины Хп при X1 — х1 представляет собой сдвинутую линейную функцию х' в D.80), коэффициент g которой определяется линейным алгебраическим уравнением D.81). Теперь рассмотрим (п + т)-мерный нормально распределенный случайный вектор Z = [XTYT]T, где X — n-мерный вектор, а У — m-мерный вектор. Для нахождения условного нормального распреде- распределения случайного вектора У при заданном значении х величины X достаточно найти условное математическое ожидание и условную ко- ковариационную матрицу величины У. > Чтобы найти условное математическое ожидание величины У при заданном X = ж, заметим, что условное математическое ожида- ожидание каждой компоненты величины У задано формулой D.80), где матрица-строка g определяется формулой D.81) с Кх вместо К'х, к — взаимная ковариационная матрица соответствующей компонен- компоненты величины У и X. Матрицы /с, соответствующие всем компонентам величины У, представляют собой строки взаимной ковариационной матрицы Кух величин У и X, в то время как соответствующие мат- матрицы g представляют собой строки матрицы коэффициентов в вы- выражении ту | х = M[Y | х] как линейной функции X — тпх. Обозначив снова эту матрицу коэффициентов через д, получим из D.81) сле- следующее уравнение для д: дКх=Кух. D.82) Для того чтобы найти условную ковариационную матрицу Ку | х при данном X = ж, используя D.78), запишем выражение условной плотности величины У при данном X = х: f(y\x) = [Birr\Ku\x\]-1 где и = х — mx, v = у — ту. Используя эту формулу и D.78), нахо- находим совместную плотность величин X и Y, т.е. плотность величи- величины Z = [XTYT]T, f(y,x) = [B*)n+m\Kx\\Ky\x\] Согласно теореме п. 4.5.2 матрица коэффициентов квадратичной формы в экспоненте представляет собой обратную матрицу для ко- ковариационной матрицы величины Z: Кх Кху КуХ Ку
168 Гл. 4- Проекции случайных векторов и их распределения Поэтому имеем уравнение для Ку | х где Im — т х m-единичная матрица. Решив это уравнение, получа- получаем следующие выражения для условного математического ожидания ту | х и условной ковариационной матриц Ку \ х величины Y при дан- данном X — х: ту\х = ту+д(х-ту), Ку\х = Ку - дКху. < D.83) Таким образом, условное математическое ожидание и условная ковариационная матрица случайного вектора Y при заданном зна- значении х случайного вектора X определяются формулами D.83), где коэффициент g задается уравнением D.82). 4.5.5. Случай некоррелированных координат. Рассмотрим частный случай, когда координаты случайного вектора X не корре- лированы. > В этом случае krp = 0 при г ф р и, следовательно, cpq = 0 при q ф р, срр = — (р = 1, • • •, п). Крр Выражение D.78) плотности при этом принимает вид жь...,жп) = ===ехр{ — ) | = fi(x1)f2(x2)... /п(ж„). Отсюда видно, что в случае некоррелированных координат нормаль- нормально распределенного случайного вектора его плотность равна про- произведению плотностей его координат. Следовательно, координаты случайного вектора в этом случае независимы. <\ Таким образом, координаты нормально распределенного случайно- случайного вектора не коррелированы тогда и только тогда, когда они неза- независимы. 4.5.6. Вырожденное нормальное распределение. Форму- Формулы D.63) и D.78) определяют плотность для нормального распреде- распределения только в том случае, когда определитель матрицы Кх не ра- равен нулю и, следовательно, ранг матрицы Кх совпадает с размерно- размерностью п случайного вектора X. Если ранг матрицы Кх равен г < п, то, как мы знаем из результатов п. 3.3.4, между координатами векто- вектора Х° существует п — г линейных зависимостей, вследствие чего рас- распределение полностью сосредоточено на r-мерном подпространстве,
4-5. Многомерное нормальное распределение 169 сдвинутом на вектор тх (если тх не принадлежит этому г-мерному подпространству). Выражение плотности случайного вектора X в этом случае, как мы видели в п. 2.3.4, содержит множителем E-функцию (п — г)-мерного аргумента. > Если ранг матрицы Кх равен г < п, то существует отличный от нуля диагональный определитель порядка г матрицы Кх. Соот- Соответствующая обратимая матрица Кх> определяет нормальное распре- распределение проекции X1 случайного вектора на подпространство, обра- образованное соответствующими осями координат: Щ ехр Н{х' ~ т'№ V - т')}' где т' = MX'. Проекция X" случайного вектора X на дополнитель- дополнительное (п — г)-мерное подпространство однозначно определяется из урав- уравнений ^Х° = О (р = г + 1,..., п), где yv+ъ • • • •> Фп — собственные векторы матрицы КХ1 соответствующие (п — г)-кратному нулевому собственному значению. Чтобы решить эти уравнения, представим матрицы-столбцы ^, I и тх в блочном виде: Т г / Т пТ 1 лгТ г лг!Т лгиТл Т г /Т пТ л ср* = [еру ср!р!1 ]? X = [X J X J ], m^ = [m m J j. Тогда уравнения примут вид ?ртХ'° + ^/ТХ//0 =0 (р = г + 1,..., п). D.85) Собственные векторы yv+i, ...,<?„, определяются уравнениями Кхсрр = 0 (р = г + 1,..., п). Представив матрицу Кх в блочном виде: к=\к* кх,х,л Х [Кхпх, Кхп J ' можем написать эти уравнения в виде Кхчр'р + Кх/Хшр'р' = 0, Кхпт/(р'р + Кхшр'р' = 0 (р = г + 1,... ,п). D.86) Так как матрица Кх> обратима, первое уравнение можно решить от- относительно ф'р. В результате получим ip'p = —K~}~KX!X"Lp"p. Отсюда, принимая во внимание, что в силу C.42) Kj,^, =Kxixu, получаем (р'рт = —(р'р'тКхпх!К~,1. Подставив это выражение в D.85), получаем Таким образом, мы получили систему однородных линейных уравне- уравнений относительно координат вектора Х"° — KxnxiK~}X'^. Докажем,
170 Гл. 4- Проекции случайных векторов и их распределения что определитель этой системы не равен нулю. Для этого подставим выражение (р'рТ из первого уравнения D.86) в соотношение ортого- ортогональности векторов {tpp}: Получим DT(^fl ~ ^"ж'^/Vl) = $pq (p = Г + 1, . . . ,n). При любом фиксированном q = г + 1,..., n правая часть одного из этих уравнений равна 1. Но система неоднородных линейных урав- уравнений имеет решение только тогда, когда ее определитель отличен от нуля, что и доказывает наше утверждение. После этого уравне- уравнение D.87) дает Х"° = Кхпх,К~}Х^, или X" = тп" + Кхпх!К~}{Х1 - га'). D.88) Отсюда следует, что условная плотность вектора X" при данном зна- значении х' вектора X' определяется формулой Ых" | х') = 6(х" - т" - Кх„х,К-}{х! - т1)). Подставив это выражение и выражение D.84) плотности fi(x') в фор- формулу, найдем плотность случайного вектора X: f{x)= , Y ещ>\-\{х' -m'fK-^x1 -m')\ x х ё(х" - т" - Кхпх<К~} (х' - га')). < D.89) Распределение вероятностей, определяемое этой формулой, назы- называется вырожденным нормальным распределением. Так как Й-функцию всегда можно рассматривать как нормальную плотность, соответствующую ковариационной матрице, все элементы которой равны 0, то для вырожденного нормального распределения справедлива доказанная выше теорема, что распределения и условные распределения всех проекций нормально распределенного случайного вектора на любые подпространства, образованные осями координат, нормальны. Однако проекции случайного вектора на любые подпространства, образованные осями координат, могут быть распределены нормально и в том случае, когда распределение этого вектора отлично от нор- нормального. Пример 4.33. Плотность тг-мерного вектора X определяется фор- формулой
4.5. Многомерное нормальное распределение 171 где /лг(ж) — любая нормальная плотность, а д(х) — любая функция, удо- удовлетворяющая условиям: 1) \д(х)\ ^ //у(ж) при всех ж; 2) / д(х) dxk — 0 при всех xi, i / к (к = 1,..., п). Интегрированием по любой координате вектора х убеждаемся в том, что проекции вектора X на все подпространства, образованные осями ко- координат, распределены нормально. Однако распределение вектора X при д{х) ф 0 отлично от нормального. 4.5.7. Характеристическая функция. Подставляя выраже- выражение D.78) для плотности n-мерного нормально распределенного век- вектора X в D.37), получаем оо д(\) = [Bп)п\Кх\]-1'2 I ехр{гЛтх - \(хт - m^K^x - mx)) dx. Для вычисления этого интеграла используем формулу (П.2.2) прило- приложения 2. Тогда получаем д(Х) = ехр{гЛттж - \\ТКХ\}- D.90) > Используя D.41) и D.90) находим характеристическую функ- функцию линейной функции Y = АХ + а$ нормально распределенного случайного вектора X: x+a0)-^IAKxAIfij. D.91) Но согласно C.49) и C.50) Атх + а® = ту и АКХАТ — Ку представля- представляют собой математическое ожидание и ковариационную матрицу слу- случайного вектора Y. Отсюда следует, что характеристическая функ- функция любой линейной функции нормально распределенной случайной величины определяется формулой D.90). Теперь мы можем распространить формулу D.90) на вырожден- вырожденные нормальные распределения. Применяя D.88), мы представляем n-мерную нормально распределенную случайную величину X п.4.5.6, ковариационная матрица которой Кх имеет порядок г < п через слу- случайный вектор X1 с невырожденным нормальным распределением: 1Л V.U1, где 1Г — единичная г х г матрица. Согласно D.91) характеристиче- характеристическая функция X определяется формулой D.90), что и доказывает на- наше утверждение. <\
172 Гл. 4- Проекции случайных векторов и их распределения Таким образом, характеристическая функция как вырожденно- вырожденного, так и невырожденного, определяется формулой D.90). А фор- формула D.91) справедлива для любых линейных функций нормально распределенных случайных величин. 4.5.8. Линейные функции нормально распределенных случайных величин. Формула D.91) показывает, что любые линей- линейные функции нормально распределенных случайных величин нормаль- нормально распределены. Этот результат имеет большое значение для теории вероятностей и ее применения. Как следствие этого результата коэффициенты канонического раз- разложения (п. 3.4.3) нормально распределенного случайного вектора в особенности его разложения по собственным векторам ковариацион- ковариационной матрицы имеют совместное нормальное распределение. Так как некоррелированные нормально распределенные случайные величины независимы, коэффициенты канонического разложения нормалььно распределенного случайного вектора всегда независимы. Из этих результатов так же следует обобщение теоремы п. 4.5.4: распределения и условные распределения проекций нормально рас- распределенных случайных векторов на любых подпространствах нор- нормальны. 4.5.9. Моменты. Для нормально распределенного п-мерного случайного вектора на основании D.90) имеем оо = ? s=0 00 -2s ~ / , oiTj / , kPiqi .. .kpsq6\Pi\qi .. .\Ps\qs. D.92) s=0 p1,q1,...,ps,qs=i Отсюда видно, что все центральные моменты нечетного порядка нор- нормально распределенного случайного вектора равны нулю. Для цен- центрального момента четного порядка h\ + ... + hn = 2в из сравнения D.91) и D.92) вытекает формула \\.. .hn\ v-^ , , ( s lkk D.93) где сумма распространена на все возможные различные переста- перестановки 2s индексов р1? д1?... ,ps, gs, из которых hi индексов рав- равны 1, /i2 равны 2, ..., hn равны п. Очевидно, что число таких перестановок, а следовательно и число слагаемых в сумме D.93) равно Bs)!/(fti! /12!... hn\). Положив в D.93) последовательно s = 2, hi — 4, hk = 0 при к > 1; hi = 3, /12 = 1, hk = 0 при к > 2; hi = = h2 - 2, hu = 0 при к > 2; hi = 2, h2 = h3 = 1, hk = 0 при к > 3;
4.5. Многомерное нормальное распределение 173 hi = /12 = Ы — ^4 = 1, hk — 0 при & > 4, получим следующие форму- формулы для центральных моментов четвертого порядка: А&40...0 = 3fen, /i310...0 = 3&Ц&12, /i220...0 = &11&22 + 2&]22> ^2110...О = &11&23 + 2&12&13, D.94) 0. ..0 = &12&34 + ^13^24 + ^14^23- Формулы D.93) и D.94) выражают центральные моменты нор- нормально распределенного случайного вектора через элементы его ко- ковариационной матрицы. Заметим, что приведенный вывод формулы D.93) для моментов нормально распределенного случайного вектора при помощи разло- разложения его характеристической функции в ряд крайне прост, в то вре- время как непосредственное вычисление моментов по формулам п. 3.5.1 было бы весьма громоздким. Формулы D.44) и D.90) показывают, что для нормально распре- распределенной случайной величины все семиинварианты выше второго порядка равны нулю. Следовательно, семиинварианты случайной ве- величины, начиная с третьего порядка, характеризуют отклонение ее распределения от нормального. 4.5.10. Энтропия. Для того чтобы оценить энтропию п-мер- ного нормального распределения, мы подставим выражение плотно- плотности D.78) в B.41). Тогда, опуская индекс п, мы получаем*) Н[Х] = сю I TArl/2[У \Tle] dx = = log у/Bж)»\К\ + /°ge / хТК-1хе-*Тк~lx'2 dx. — сю Для вычисления последнего интеграла используем равенство xTK-1x В результате будем иметь = tr[ /ЛГ / xxTe-xTKlx'2dx] = tx{K~lK) =til = n. l^B)\K\ J J *) Мы принимаем тпх = 0, так как X — тпх имеют одну и ту же энтро- энтропию (п. 2.5.2).
174 Гл. 4- Проекции случайных векторов и их распределения Применяя этот результат, получаем Н[Х] = log у/Bп)п\К\ + \ logе х п = log у/Bъе)п\К\. D.95) Пусть С — класс всех n-мерных непрерывных случайных величин с данной ковариационной матрицей К, а X — нормально распреде- распределенная случайная величина с ковариационной матрицей К, /дг(ж) — ее плотность. Тогда сю Н[Х] = I fN(x)[logy/BK)»\K\ + ±xTK-1xloge] dx = — СЮ [СЮ К'1 [ xxTfN(x)dx . J J — сю Но для любой плотности f(x) класса С сю сю / ххТ f(x) dx = / ххт/n(x) dx = К. — сю —сю Отсюда [сю К-1 J xxTf(x)dx\ = — сю сю = J f(x) [log ^/{2ж)п\К\ + \ xTK~lx\oge] dx = — сю сю = - I f(x)logfN(x)dx. — сю По теореме п. 2.5.4 заключаем, что нормальное распределение яв- является единственным распределением, обладающим максимальной энтропией среди всех распределений непрерывных случайных величин с одной и той же ковариационной матрицей. 4.6. Информация, содержащаяся в случайных величинах 4.6.1. Средняя условная энтропия. Для измерения неопреде- неопределенности случайной величины X после наблюдения случайной ве- величины Y естественно заменить в B.54) плотность fi(x) соответст- соответствующей условной плотностью fi(x\y). На основании определения математического ожидания (п. 3.1.2) формулу B.54) можно перепи- переписать также в виде Н[Х] = —M[log/(X)]. Тогда мы получим условную
4-6. Информация, содержащаяся в случайных величинах 175 энтропию величины X при данном значении у случайной величи- ны Y, так как Н[Х \ у] = -M[logh{X \ у) \ у). Для того чтобы найти условную энтропию до того, как был про- проведен опыт, мы используем среднюю условную энтропию случайной величины X относительно случайной величины У, т.е. математиче- математическое ожидание условной энтропии MiJ[X|F], рассматриваемое как функция случайной величины Y. Таким образом, средняя условная энтропия случайной величины X относительно случайной величи- величины Y определяется формулой сю сю НУ[Х] = -Mlog/i(X|r) = - I I f (х, у) logh(x\ у) dxdy. D.96) — сю —сю Докажем теорему о том, что средняя условная энтропия случай- случайной величины X относительно случайной величины Y не может превышать энтропию случайной величииы X и равна ей тогда и только тогда, когда случайные величины X uY являются независи- независимыми. > Из B.54) и D.96), используя теорему умножения плотнос- плотностей D.23) и неравенство B.42), находим fi(X\Y) bfi(X)f2(Y) поскольку функция fi(x)f2(y) представляет собой плотность. Это ра- равенство справедливо тогда и только тогда, когда fi(x)f2(y) = /(ж,у), т.е. случайные величины X и Y являются независимыми. <\ Мы доказали теорему, предполагая, что случайные величины X, Y и [ХТ YT]T являются непрерывными. Эта теорема и все другие по- положения в остальной части главы так же, как и неравенство B.55), являются справедливыми для дискретных случайных величин при ис- использовании B.53) вместо B.54). 4.6.2. Теорема сложения энтропии. Теперь установим основ- основные свойства энтропии, точнее, теоремы сложения. D> Применяя теорему умножения плотностей D.23), мы находим энтропию совместного распределения случайных величин X и Y: H[X,Y] = -Мlog f(X,Y) = -Мlog fr(X) - Мlog f2(Y\X) = = H[X] + HX[Y]. Отсюда по симметрии также имеем H[X,Y}=H[Y}+Hy[X].
176 Гл. 4- Проекции случайных векторов и их распределения Тогда H[X,Y] = Н[Х] + HX[Y] = H[Y] + НУ[Х]. < D.97) Таким образом, мы доказали, что энтропия совместного распре- распределения двух случайных величин равна сумме энтропии одной из них и средней условной энтропии другой. По индукции для любых случайных величин Х\,..., Хп получаем из D.97) следующее выражение для энтропии совместного распреде- распределения величин Х\,..., Хп: Н[Хи.. .,Хп] = ЩХ,] + НХ1[Х2] + ... + НХ1,...,Хп_1[Хп]. D.98) Если случайные величины Xi,...,Xn являются независимыми, то формула D.98) дает #[ХЬ...,ХП] = ]Г#[Х,]. D.99) k=i Таким образом, энтропия совместного распределения независи- независимых случайных величин равна сумме их энтропии. 4.6.3. Информация о случайной величине, находящейся в другой случайной величине. При наблюдении случайной величи- величины мы получаем некоторую информацию о других случайных вели- величинах, зависящих от Y. Естественно измерять информацию о случай- случайной величине X, заданной по наблюдениям величины У, с помощью разницы между энтропией величины X и ее условной энтропией от- относительно величины Y (т.е. остаточной энтропией, которая остается в X после наблюдения величины Y). Таким образом, количество информации о случайной величине X, содержащееся в другой случайной величине У, определяется следую- следующей формулой: 1У[Х]=Н[Х]-НУ[Х]. D.100) Теорема п. 4.6.1 подразумевает, что количество информации 1У[Х\ не может быть отрицательным и равно нулю тогда и только то- тогда, когда случайные величины X uY являются независимыми. Эта теорема согласуется с нашими интуитивными предположениями о за- зависимости, независимости и информации. \> Подставляя B.41) и D.96) в D.100) и снова используя теорему умножения плотностей D.23), мы можем переписать D.100) в виде T D.101) Симметрия этого выражения подразумевает, что Iy[X] = IX[Y] = Н[Х] + H[Y] - H[X,Y]. < D.102)
4-6. Информация, содержащаяся в случайных величинах 111 Таким образом, количество информации в случайной величине У о случайной величине X равно количеству информации в случайной величине X о случайной величине У. Формула D.101) определяет качество информации не только для непрерывных случайных величин X и У, но также и для дискретных и дискретно-непрерывных случайных величин, поскольку отношения fi(x | y)/fi(x) и f(x,y)/fi(x) в этих случаях определены. Так, напри- например, для дискретных величин X, У получим log = Xi)p(y = yjy D.103) Пример 4.34. Случайная величина X имеет 16 равновероятных воз- возможных значений, которые разделены на четыре группы, по четыре воз- возможных значения в каждой группе. Во время опыта определяется номер группы, к которой принадлежит появляющееся в результате опыта значе- значение случайной величины X. Требуется определить количество информации о случайной величине X, получаемое в результате опыта. Номер группы, к которой принадлежит появляющееся в результате опыта значение случайной величины X, можно рассматривать как случай- случайную величину У, имеющую четыре равновероятных значения. При каждом данном значении величины Y случайная величина X имеет четыре рав- равновероятных значения, и, следовательно, условная энтропия величины X при каждом данном значении величины У равна log2 4 = 2 бита. Средняя условная энтропия случайной величины X относительно У как математиче- математическое ожидание условной энтропии также равна log2 4 = 2 бита. Безусловная энтропия случайной величины X равна log2 16 = 4 бита. Применяя форму- формулу D.49), находим количество информации о величине X, доставляемое регистрацией значения величины У: 1У[Х] =4-2 = 2 бита. Полученный результат имеет следующий смысл. До рассматриваемого опы- опыта для определения значения случайной величины X необходимо четыре двоичных знака в соответствии с двоичной нумерацией всех возможных значений случайной величины X: 1-я группа 0000 0001 0010 ООН 2-я группа 0100 0101 ОНО 0111 3-я группа 1000 1001 1010 1011 4-я группа 1100 1101 1110 1111 Первые два двоичных знака номера возможного значения величины X можно рассматривать как двоичный номер группы. Вторые два двоичных
178 Гл. 4- Проекции случайных векторов и их распределения знака номера возможного значения величины X можно рассматривать как двоичные номера этого значения в данной группе. После опыта, когда номер группы становится известным, для полного определения значения случай- случайной величины X необходимы два двоичных знака. Приведенный пример наглядно иллюстрирует понятие количества информации. Следует, однако, заметить, что такая простая и нагляд- наглядная иллюстрация получается только в случае равновероятных зна- значений как случайной величины X, так и случайной величины У. В других случаях энтропия случайной величины X и количество ин- информации о величине X, доставляемое наблюдением величины У, не будут выражаться целыми числами, и наглядность примера теряет- теряется. Однако эта потеря наглядности не может считаться существенной, если принять во внимание, что энтропия и количество информации как математические ожидания определяют лишь средние количества двоичных знаков, необходимые для регистрации значений случайной величины и результатов опыта. Пример 4.35. Пусть Z = [X Y]T — нормально распределенный дву- двумерный случайных вектор с невырожденным распределением, Dx и Dy — дисперсии X и У, кху — их ковариация. Тогда согласно C.95) и D.95) Н[Х] = log y/2ireDx, H[Y] = log y/27reDy, Н[Х, Y] = log [2<ireyjDxDy-k*y]. Подстановка в D.102) дает Iy[X] = IX[Y] = \ log D'D< = log -* , z uxUy — кХу VI — v r — коэффициент корреляции случайных величин X и У. Таким образом, для нормально распределенного случайного вектора количество информа- информации об одной из составляющих случайного вектора, получаемое в резуль- результате наблюдения другой составляющей, зависит только от коэффициента корреляции этих двух составляющих. Пример 4.36. Пусть X и У — п- и га-мерные случайные векторы с сов- совместным невырожденным нормальным распределением, Кх,Ку,КХу — их ковариационные и взаимные ковариационные матрицы. Тогда C.95), D.95) и D.102) дают Н[Х] = log y/Bire)»\Kr\, H[Y] = log Iy[X}=Ix[Y]=1-loglKxllKy \KZ\ ' Kz — ковариационная матрица случайного вектора Z — [ХТ YT]T. Пользуясь формулами п. 3.4.8, нетрудно выписать соответствующие вы- выражения в терминах совместных канонических разложений векторов X и У. 4.6.4. Единственность определения энтропии дискретной случайной величины. В п. 2.5.1 мы определили энтропию дискрет- дискретной случайной величины формулой B.44) и, обобщив это определе-
4.6. Информация, содержащаяся в случайных величинах 179 ние на непрерывные случайные величины, вывели основные свойства энтропии, согласующиеся с нашими интуитивными представления- представлениями о неопределенности статистических опытов. Возникает естествен- естественный вопрос: может быть, можно принять за меру неопределенности опытов какую-либо другую характеристику, обладающую теми же свойствам, что и энтропия? Оказывается, что это невозможно. Эн- Энтропия как мера неопределенности опыта с конечным числом воз- возможных исходов однозначно определяется тремя своими основными свойствам: — энтропия является непрерывной функцией вероятностей воз- возможных значений случайной величины; — если рассматривать только случайные величины с равноверо- равновероятными значениями, то энтропия является монотонно возрастающей функцией числа возможных значений случайной величины: — энтропия обладает свойством аддитивности, выражаемым фор- формулами D.98) и D.99). \> Для доказательства рассмотрим сначала Аг независимых случайных величин Xi,... ,Хдг, каждая из которых имеет п равно- равновероятных возможных значений. Так как, согласно второму свойству, энтропия случайной величины с равновероятными возможными зна- значениями является функцией числа возможных значений п, то, обо- обозначив эту функцию через /(га), можем написать H[Xi]=f(n) (i = l,...,N). D.104) Рассмотрим теперь векторную случайную величину, составляющими которой являются величины Xi,...,X/v. Вследствие независимости случайных величин Х±,..., Xn эта векторная случайная величина имеет nN равновероятных возможных значений. Следовательно, ее энтропия, т.е. совместная энтропия случайных величин Xl,...,X/v, равна f(nN): AT H[Xu...,XN] = f(nN). D.105) С другой стороны, на основании третьего свойства энтропии, выра- выражаемого для независимых случайных величин формулой D.99), имеем N Н[Хи.. .,XN] = ]Г tf [Xj = Nf(n). D.106) г=1 Сравнивая D.105) и D.106), получим равенство f(nN) = Nf(n), D.107) справедливое для любых целых положительных п и АГ. Пусть m — произвольное целое положительно число. Тогда су- существует такое целое положительное число /с, что mk <^nN <Cm*+1. D.108)
180 Гл. 4- Проекции случайных векторов и их распределения Вследствие второго свойства энтропии имеем f(mk) sC f(nN) sC f(mk+1), D.109) или, учитывая D.107), kf(m) ^ Nf(n) <С (& + l)/(m). D.110) Отсюда находим С другой стороны, логарифмируя неравенства D.108), получим fclogm ^ iVlogra ^ (к + l)logm. D.113) Эти неравенства вполне аналогичны неравенствам D.110). Поэтому, совершенно так же, как из D.110) были выведены неравенства D.112), из D.113) следует logn_fe 1 log га A TV v J Из D.112) и D.114) вытекает неравенство /(га) log га ^ N' ^Л1Ь) Так как это неравенство справедливо при любом целом Ат > 0, то оно равноценно равенству ¦l^r = =^. D.116) /(га) log га Фиксируя здесь m и рассматривая п как переменную, может перепи- переписать это равенство в виде /(га) = clogn, D.117) где с — постоянная. Рассмотрим теперь случайную величину X, имеющую п возмож- возможных значений, вероятности которых представляют собой рациональ- рациональные числа: Pi = ^i (г = l,...,n), ^Tmi = k. D.118) г=1 Введем вспомогательную случайную величину У, зависимую от X, имеющую 77^ равновероятных возможных значений при X — Х{ (г = 1,..., га). Очевидно, что векторная случайная величина, состав-
4-6. Информация, содержащаяся в случайных величинах 181 ляющими которой являются случайные величины X и У, имеет ш 1 + ... + mjv — & возможных значений, причем все эти значения равновероятны. Применяя для вычисления энтропии векторной слу- случайной величины [X, Y]T и условной энтропии случайной величины Y формулу D.117), будем иметь H[X,Y] = clog/с; H[Y\xi]=c\ogmi (i = 1,... ,n). D.119) Средняя условная энтропия случайной величины Y относительно X будет на основании определения D.96) и формул D.118) и D.119) равна п п HX[Y] = ^2piH[Y\xi] =c^^logmi. D.120) г=1 i=l Энтропия случайной величины X может быть теперь определена на основании третьего свойства из формулы D.97), представляющей со- собой частный случай формулы D.98): п Н[Х] = H[X,Y] - HX[Y] = clogk - cJ2 ^logmi = n n тг . mi г=1 Таким образом, из второго и третьего свойств энтропии следует, что в случае рациональных вероятностей возможных значений слу- случайной величины ее энтропия должна выражаться формулой D.121). А так как энтропия на основании первого свойства является непре- непрерывной функцией вероятностей возможных значений случайной ве- величины, то формула D.121) должна быть справедливой и в случае произвольных вероятностей pi,... ,рп. <\ Итак, мы доказали, что перечисленные в начале п. 4.6.4 три свой- свойства энтропии дискретной случайной величины вполне определяют ее аналитическое выражение с точностью до постоянного множите- множителя. Но вопрос о выборе этого множителя представляет собой по су- существу вопрос о выборе единиц измерения энтропии, или, что одно и то же, основания логарифмов в формуле B.44). Следовательно, фор- формула B.44) дает единственное возможное выражение энтропии пре- прерывной случайной величины, удовлетворяющее перечисленным в на- начале п. 4.6.4 трем свойствам.
Глав а 5 ФУНКЦИИ СЛУЧАЙНЫХ ВЕЛИЧИН 5.1. Моменты функций случайных величин 5.1.1. Точные формулы для первых и вторых моментов. В п. 3.1.3 и п. 3.3.5 мы научились находить первые и вторые моменты линейных функций случайных величин. Для определения этих момен- моментов достаточно знать первые и вторые моменты величин-аргументов и не требуется знать распределения величин-аргументов. Иначе об- обстоит дело с нелинейными функциями случайных величин. \> Предположим, что случайный вектор Y (в общем случае ком- комплексный) представляет собой данную функцию действительного слу- случайного вектора X, имеющего плотность /(ж), Y — ц>(Х). Моменты величины Y можно определить по формуле C.3) для математического ожидания функции случайной величины. Пользуясь этой формулой и представляя векторы в виде матриц-столбцов, на основании опре- определений C.35) получаем т ОО = MY = Mip(X) = Г cp(x)f(x) dx, E.1) Ту = MYY* = M<p{X) <p{X)* = I <p{x) <p(x)*f(x) dx, E.2) — OO Ky = MY°Y°* = M[tp(X) - my}[p(Xy - m*y} = = I [ф) - гпуЫх)* - m*y]f(x) dx. < E.3) — oo Точно так же по формуле C.3) определяется взаимный второй момент и взаимная ковариационная матрица двух случайных век- векторов, представляющих собой данные функции Y — (р(Х), Z — ф(Х) действительного случайного вектора X: оо Yyz = MYZ* = Mip(X) ф(Х)* = J ф) ф(х)*/(х) dx, E.4) — оо оо Kyz = MY°Z°* = J [ф) - ту][ф(х)* - m*z]f(x) dx. E.5)
5.1. Моменты функций случайных величин 183 Формулы E.1)—E.5) применимы и к функциям комплексного слу- случайного вектора. В этом случае под X следует понимать 2п-мерный действительный случайный вектор, координатами которого служат действительные и мнимые части координат n-мерного комплексного случайного вектора-аргумента. В частном случае одномерных векторов Y и Z формулы E.1)—E.5) определяют математические ожидания и моменты второго порядка скалярных функций случайных величин. Формулы E.1)—E.5) показывают, что для определения матема- математических ожиданий и моментов второго порядка нелинейных функ- функций случайных величин необходимо в общем случае знать плотность величин-аргументов. Предлагаем читателю самостоятельно доказать, что в частном случае линейных функций (р(Х) и ф(Х) из формул E.1), E.3) и E.5) вытекают соответственно формулы C.49), C.50) и C.55) для мате- математических ожиданий и ковариационных матриц линейных функций случайного вектора X. Пример 5.1. Шарики для шариковых клапанов изготовляются с ошибками в радиусе, распределенными по нормальному закону с матема- математическим ожиданием го и средним квадратическим отклонением а (конеч- (конечно, су <С го). Найти математическое ожидание и дисперсию площади диа- диаметрального сечения шарика. Площадь S диаметрального сечения шарика выражается через его слу- случайный радиус известной формулой S = 7гЯ2. Следовательно, случайная величина S в данном случае является нелинейной функцией случайной ве- величины R. Поэтому для определения т3 и Ds следует воспользоваться фор- формулами E.1) и E.3). Применяя формулу E.1), будем иметь оо = J Последний интеграл вместе с множителем 1/о"л/2тг представляет собой на- начальный момент второго порядка случайной величины Я, который на осно- основании формулы C.29) равен г2, + сг2. Следовательно, ms = тг(го + сг2). После этого формула E.3) дает оо г> 2 1 f/2 2 2ч2 Г 1 (Г - Г0\2\ Ds=7v —= / г - г0 - сг expj -- ( j \ dr. — оо Вычислив интеграл (что можно сделать, раскрыв скобки под знаком инте- интеграла и путем интегрирования по частям избавившись от четвертой степе- степени г), получим Ds =2тг2сг2Bго+сг2).
184 Гл. 5. Функции случайных величин Пример 5.2. Найти математическое ожидание и дисперсию случай- случайной величины У = Xs - kX, где X — случайная величина, равномерно распределенная на интерва- интервале (—а,а). Плотность величины X в интервале (—а,а) равна 1/Bа), а вне этого интервала равна нулю. Поэтому, применяя формулу E.1), получаем а ту = — f(xs- kx) dx = 0. (I) — a После этого формула E.3) дает } 7 \2, 15а4 - 42/са2 + 35/с2 2 -кх) ** = 105 а' (П) Пример 5.3. В условиях примера 5.2 найти ковариацию случайных величин Y = X3- kX, Z = X3 + IX. Сначала находим по формуле E.1) математическое ожидание случай- случайной величины Z, которое оказывается равным нулю. После этого по фор- формуле E.5) находим 7 1 /\ з 7 w з , , чл 15а4 - 21/са2 + 211а2 - ЗШ 2 yz=Z2aj^X ~ ^ + Х) = 105 п ' 5.1.2. Метод линеаризации. Сложность вычисления матема- математических ожиданий, дисперсий и ковариаций нелинейных функций случайных величин приводит к естественному желанию пожертвовать точностью ради простоты и найти простые приближенные форму- формулы, подобные формулам для моментов линейных функций случайных величин. Для получения таких приближенных формул обычно при- применяют метод линеаризации, который состоит в замене нелинейных функций достаточно близкими к ним линейными функциями. \> Рассмотрим сначала случай скалярной функции скалярной случайной величины X. В этом случае линеаризация нелинейной функции (р(Х) сводится к замене кривой у = (р(х) некоторой прямой у = ах + Ь. Если удастся подобрать прямую, достаточно близкую к кривой в области практически возможных значений случайной ве- величины X (в случае нормального распределения случайной величи- величины X в интервале (тх — Зах,тх + Зсгж), то можно рассчитывать на то, что математическое ожидание и дисперсия соответствующей ли- линейной функции случайной величины X будут близкими к математи- математическому ожиданию и дисперсии нелинейной функции.
5.1. Моменты функций случайных величин 185 Посмотрим теперь, как следует выбрать прямую, заменяющую данную кривую. Так как плотность случайной величины обычно име- имеет большие значения вблизи математического ожидания и меньшие вдали от математического ожидания (возможные значения случайной вели- величины расположены «гуще» около мате- математического ожидания и «реже» вда- вдали от него), то У y=tp(x) более высокой точности приближения прямой к заданной кривой около мате- математического ожидания случайной вели- величины-аргумента, т.е. около точки х — тх. Поэтому наиболее естественным спосо- способом линеаризации для наших целей яв- является замена кривой у = ср(х) отрезком касательной к ней в точке х = тх (рис. 5.1). При такой замене истин- истинная нелинейная зависимость случайной величины Y от X заменяется приближенной линейной зависимостью ><(р(тх)+(р!(гпх)Х°. Рис. 5.1 Y E.6) Само собой разумеется, что для возможности такой замены необхо- необходимо существование производной функции (р(х) в точке х = тх. С аналитической точки зрения замена нелинейной функции (р(х) ли- линейной функцией E.6) равноценна замене приращения функции (р(х) в точке тх ее дифференциалом. Аналогично получаем формулу E.6) в случае векторной функ- функции случайного вектора X, дифференцируемой в точке тх. В этом случае (pf(mx) следует понимать как матрицу частных производных всех координат вектора tp(x) по всем координатам вектора х в точ- точке х = тх: dxi дх2 дхп E.7) CrXn J х=тх Заменив функцию (р(Х) линейной функцией E.6), можно приме- применить для вычисления математического ожидания и ковариационной матрицы случайного вектора Y формулы C.49) и C.50). В результате получим приближенные формулы ту » <р(тх), Ку Кх E.8 Формулы E.8), справедливые как для действительных, так и для комплексных скалярных или векторных случайных величин X и У,
186 Гл. 5. Функции случайных величин позволяют достаточно просто, без сложных вычислений приближен- приближенно определять математические ожидания и моменты второго поряд- порядка любых нелинейных функций случайных величин, непрерывных вместе со своими первыми производными. Эти формулы тем точнее, чем меньше отклоняется функция (р(х) от заменяющей ее линейной функции E.7) в области практически возможных значений величины- аргумента X. Чем сильнее отклоняется функция (р(х) от линейной функции E.7), тем меньше должны быть дисперсии координат векто- вектора X для того, чтобы можно было пользоваться формулами E.8). Ес- Если (р(х) слабо отклоняется от линейной функции (т.е. (р'(х) изменяется медленно с изменением ж), то формулы E.8) могут быть достаточно точными и при больших дисперсиях координат вектора X. Если (р(х) значительно отличается от линейной ((р'(х) изменяется быстро), то формулами E.8) можно пользоваться только при достаточно малых дисперсиях координат вектора X. Пример 5.4. В условиях примера 5.1 найти математическое ожидание и дисперсию площади диаметрального сечения шарика методом линеари- линеаризации. В данном случае S = <p(R) = ttR2 . Поэтому <р'(г) — 2тгг и формулы E.8) дают ms « <p(mr) = (f(r0) = тгго, тл \ г / \ |2 2 \ f / \ |2 2 л 22 Ds и \<р (mr)\ а = \<р (го)\ а = 4тгг0сг . Сравнив эти формулы с точными формулами примера 5.1 видим, что ме- метод линеаризации в данном случае дает хорошую точность, если а2 <С Гд, т.е. если дисперсия радиуса шарика мала по сравнению с квадратом его математического ожидания. Например, при а и 0,1го относительная ошиб- ошибка определения ms методом линеаризации составляет 1%, а относительная ошибка определения дисперсии Ds — 0,5%. Пример 5.5. Решить пример 5.2 методом линеаризации. В данном случае (f(x) = х3 — кх, (р'(х) = Зх2 — к, и формулы E.8) дают тпу = (р(тпх) = <р@) = 0, Dy = \ipf(mx)\2Dx = \<p'@)\2Dx = k2Dx. Вспомнив, что дисперсия случайной величины, равномерно распределен- распределенной на интервале длины 2а, равна а3/3 (пример 3.3), получим окончатель- окончательно Dy и к2а2/3. Сравнив этот результат с точной формулой примера 5.2, видим, что в данном случае метод линеаризации дает хорошую точность, если а2 ^С к. Пример 5.6. Решить пример 5.3 методом линеаризации. В данном случае (р(х) представляет собой двумерный вектор с коорди- координатами (fi(x) = х3 — кх, ч>2(х) = х3 + 1х,
5.2. Функция распределения функции случайного аргумента 187 и вторая формула E.8) дает U у ">VZ I _ . I "М т-к Г 771 \ & J-SX ПиНУ, откуда находим yz I ~ I п I П Г h /1 — i д I ~ i \»4 ki\- \_klDx fDx kyz = -klDx = -^f. Сравнив эту формулу с точной формулой примера 5.3, видим, что в данном случае метод линеаризации дает хорошую точность, если а2 ^С к, I. Пример 5.7. Ролики для подшипников изготовляются с ошибками, приводящими к тому, что каждый ролик представляет собой эллиптиче- эллиптический цилиндр с полуосями го + Х\ и го + Х2 высоты Iq + Хз, где го и Iq — номинальные значения радиуса и высоты ролика, а Х\, Х2, Хз — случайные ошибки производства, представляющие собой координаты нормально рас- распределенного случайного вектора с нулевым математическим ожиданием. Найти математическое ожидание и дисперсию объема ролика. В данном случае V = ^р(Х) = тг(го + Х\)(го + Х2)Aо + Х3), '/_ , _ * dtp д<р д<р , ^ hro/o тгго^о 7гг0], 2 дхз ж=0 и формулы E.8) дают mv и (р(тх) = (р@) = k Dv и [ 1] I кзз 7ГГо1о + 2(к13 + к2зIого В частном случае независимых ошибок Х\,Х2,Хз, к\2 — к\з — к2з — 0 и Dvtt<K2rl[{D1+D2)ll + D3rll где D\ = кц, D2 = &22, D3 — кзз- Пример 5.8. Оценить точность определения математического ожида- ожидания и дисперсии случайной величины У = (р(Х) для случая скалярных X и Y предполагая, что функция <р(х) имеет ограниченную вторую производ- производную в области возможных значений величины X. 5.2. Функция распределения функции случайного аргумента 5.2.1. Общий принцип определения распределений функ- функций. Во многих задачах практики, особенно в математической ста- статистике, необходимо уметь находить распределение функции слу- случайного аргумента. Мы будем решать эту задачу, предполагая все случайные величины, как скалярные, так и векторные, действитель- действительными. Способы нахождения распределения функции Y = (р(Х) слу-
188 Гл. 5. Функции случайных величин У чайной величины X основаны на следующем очевидном положении. Чтобы случайная величина Y попала на множество В, необходимо и достаточно, чтобы величина X попала на множество А в значений ж, которым соответствуют значения функции (р(х), принадлежащие мно- {I у* жеству В, Ав — {х : (р(х) G В} *). ^-^ / На рис. 5.2 это проиллюстриро- S >^ / | вано для скалярных величин X и Y. Поэтому вероятность попада- попадания величины Y = (р(Х) на мно- множество В равна вероятности попа- попадания величины X на множество Ав = {х: (р(х) G В}. 0 7 рис> 5.2 5.2.2. Нахождение функции распределения. В зависимости от того, как выбрать множество В, по- получаются разные способы нахождения распределения величины Y. В частности, если принять В = {Y < у}, вероятность попадания ве- величины X на соответствующее множество Ав = Ау — {х : (р(х) < у} будет представлять собой функцию распределения случайной вели- величины Y — (р(Х). Очевидно, что для возможности определения функции распреде- распределения величины Y — (р(Х) необходимо и достаточно, чтобы функ- функция (р(х) удовлетворяла единственному условию: при любом у должна быть определена вероятность попадания случайной величины X на множество Ау = {х : ip(x) < у}. Такие функции называются измери- измеримыми. Функции, с которыми приходится встречаться в задачах прак- практики, всегда бывают не только измеримыми, но по большей части и непрерывными, а часто и дифференцируемыми. Предположим, что известна плотность fi(x) случайной величи- величины X. Тогда на основании сформулированного принципа функция распределения F2(y) случайной величины Y = (р(Х) определяется формулой Ыу) = f fi(x)dx= J h(x)dx. E.9) Ау ср(х)<у Эта формула справедлива как для скалярных, так и для векторных случайных величин X и Y (включая случаи, когда одна из них ска- скалярная — одномерный вектор, а другая векторная). Пример 5.9. Дана плотность fi(x,y) двумерного случайного век- вектора (X, Y). Найти распределение отношения координат этого векто- вектора Z = Y/X. *) Такое множество Ав называется прообразом множества В (соот- (соответствующим функции (f(x)) и обозначается (р~г(В), Ав = (р~1(В).
5.2. Функция распределения функции случайного аргумента 189 Учитывая, что у/х < z при у < zx, если х > О, и при у > zx, если х < О, находим по формуле E.9) функцию распределения величины Z: оо zx F2(z) = I fi(x,y)dxdy= J dx I fi(x,y)dy+ I dx I fi(x,y)dy. y/xKz — oo zx 0 —oo Дифференцируя эту формулу по z, находим плотность величины Z: оо f2(z)= J \x\Mx,zx)dx. E.10) — оо В частности, в случае круговой симметрии распределения аргументов fi(x, у) = р(х2 + у2) и формула E.10) дает Замена переменных и = x\J\ + z1 приводит эту формулу к виду оо f2(z) = Y^ j up(u2) du. 0 Интеграл здесь представляет собой постоянную, которая легко определяет- определяется из условия равенства единице интеграла от плотности f2 (z) всей области возможных значений отношения Z = Y/X, т.е. от — оо до оо. В итоге полу- получаем распределение Коши (пример 3.6): f2(z) = — —. 7ГA + Z1) Пример 5.10. Распределение n-мерного случайного вектора X задано плотностью fi(x) = р(хТСх), где С — положительно определенная симмет- симметричная матрица. Найти распределение квадратичной формы Y = ХТСХ. По формуле E.9) находим F2(y) = / р(х Cx)dx. Любую симмет- хтСх<у ричную положительно определенную матрицу можно ортогональным пре- преобразованием привести к диагональной форме. Обозначим буквой Л диа- диагональную матрицу, элементами которой служат собственные значения Ai,..., \п матрицы С. Тогда, имея в виду, что определитель ортогонально- ортогонального преобразования равен единице, получим после соответствующей замены переменных F2(y) = / p(uTAu)du. ит Аи<у Положим теперь л/Хи = ра*), где р — скалярная неотрицательная пере- переменная (модуль радиуса-вектора точки в n-мерном пространстве), а а — n-мерный вектор с единичным модулем, ата = 1 (координаты ai,... ,ап вектора а представляют собой направляющие косинусы радиуса-вектора *) \/Л представляет собой диагональную матрицу с элементами л/Xi, ...
190 Гл. 5. Функции случайных величин точки n-мерного пространства). Перейдем от переменных интегрирова- интегрирования ui,..., ип к переменным р, а\,..., an-i • Якобиан преобразования в силу соотношений ир — рар/\/\Р~ и а1а = а\ + ... + а2п — 1 равен «1 Р J = OL2 ч/Аз Otn-1 О О ^= 0 ... А так как и1Аи = ратар = р2, то наш интеграл принимает вид F2(y)= p(p)p dp ... «/ J J OLn V Л\ ... An Интеграл по переменным ai,... ,an-i представляет собой постоянную ве- величину с. Поэтому Дифференцируя эту формулу по г/, находим плотность величины У: Постоянная с определяется из условия ^(оо) = 1. В частном случае нормально распределенного вектора X р(хтСх) = и полученная формула принимает вид Чу) /2 B/) =Рп{у) = ~ уп12-1е-у/2_ 2»/2Г(п/2) У Это распределение, часто встречающееся в математической статистике, на- называется х2 -распределением, так как величина с таким распределением в статистике называется хи-квадрат. Натуральное число п в E.11) назы- называется числом степеней свободы. Сравнение E.11) с B.15) показывает, что х -распределение представляет собой 7"РаспРеДеление с параметра- параметрами к = 1/2, fj, = (n/2) - 1 (пример 2.8). Пример 5.11. Вектор X имеет нормальное распределение с шаровой симметрией в n-мерном пространстве, причем дисперсии всех координат вектора X равны 1. Найти распределение случайной величины Y = ХТАХ, где А — неотрицательно определенная симметричная матрица ранга г < п, обладающая, свойством идемпотентности А2 — А. Матрица А представляет собой матрицу ортогонального проектирова- проектирования на некоторое r-мерное подпространство. А так как проекция нормаль-
5.2. Функция распределения функции случайного аргумента 191 но распределенного вектора на любое подпространство распределена нор- нормально (п. 4.5.8), причем шаровая симметрия распределения при ортого- ортогональном проектировании сохраняется, то на основании результатов приме- примера 5.10 интуитивно ясно, что распределение величины У представляет собой X2-распределение с г степенями свободы. Чтобы строго доказать это, при- приведем матрицу А ортогональным преобразованием к диагональной форме. Так как ранг матрицы А равен г < п, то п — г собственных значений матри- матрицы А будут равны нулю, Ar+i = ... = \п = 0. Пусть (pi,... ,ipn — ортонорми- рованные собственные векторы матрицы А, Ф — п х r-матрица, столбцами которой служат собственные векторы (pi,..., <рг, соответствующие отлич- отличным от нуля собственным значениям Ai,..., Хп, Фо — п х (п — г)-матрица, столбцами которой служат собственные векторы <^r+i, • • •, Рп, соответству- соответствующие нулевому собственному значению, Л — диагональная матрица поряд- порядка г с элементами Ai,..., Аг. Тогда можем написать АФ = ФЛ, АФ0 = 0. Так как по условию А2 = А, то на основании первого из этих соотноше- соотношений А2Ф = ФЛ, а с другой сторовы, А2Ф = А(АФ) = АФА = ФЛ2. Таким образом, Л = Л2, что для диагональной матрицы возможно, только если Л представляет собой единичную матрицу порядка г, Л = 1Г. Таким образом, АФ = Фи матрица А выражается формулой Рассмотрим теперь случайный вектор U = ФтX. Его ковариационная матрица на основании C.50) равна Ки = ФтКХФ = ФТФ, так как по усло- условиям задачи Кх = /. Но ФТФ = 1Г в силу ортонормальности собственных векторов (pi,..., (рп. Поэтому Ки = 1Г. Наконец, UTK~lU = UTU = ХТФФТХ = ХТАХ = У. Таким образом, интересующая нас случайная величина У представляет со- собой квадратичную форму, которая с коэффициентом 1/2 стоит в показателе степени в выражении нормальной плотности r-мерного вектора U. Следова- Следовательно, по доказанному в примере 5.10 величина У имеет %2-распределение с г степенями свободы: Доказать, что и в более общем случае, когда X имеет распределение N@,Kx) (может быть, и вырожденное), случайная величина Y = ХТАХ имеет х2-распределение с г степенями свободы, если матрица В — = Кх AKJ представляет собой матрицу ортогонального проектирования на некоторое r-мерное подпространство (т.е. имеет ранг г и обладает свой- свойством идемпотентности В2 — В). Пример 5.12. В условиях предыдущего примера найти распределение случайной величины У = ХтX — пХт, X = A/гг) ^ Хр. Р=1
192 Гл. 5. Функции случайных величин В данном случае Р=1 где 1- _ 1 п 1 п 1 п 1 1 п 1 п 1 п - ... 1- 1 - п 1 п 1 п - Эта матрица имеет ранг г = п — 1, иА = А. Следовательно, величина Y, согласно результатам примера 5.11, имеет %2-распределение с г = п — 1 сте- степенями свободы: f ( \ _ 1B/) (те —3)/2 -у/2 Пример 5.13. Распределение случайных величин X и Y определяется формулой /i(x, у) = хк12~ху112-\{х + у) 1(х) 1(у), где q(t) — произвольная функция (которая может содержать ^-функции). Найти распределение отношения Z = Y/X. Подставив данное выражение fi(x,y) в E.10), получим /2B) = г = г1'2'1 {к+1)'2- {х{1 + z)) dx. Замена переменных и = хA + z) дает „(fc+O/2-l, (u)) du. Последний интеграл представляет собой постоянную величину. Его мож- можно вычислить из условия нормировки (равенства интеграла от плотности единице). В результате получаем + Q/2) г/2-i/-, /2(г) = Г(*/2)Г(«/2) ^ A + г) 1W- E-12) Подчеркнем, что это распределение не зависит от вида функции q(t). Таким образом, при любой функции q(t) в выражении плотности fi(x,y) распре- распределение отношения Z = Y/X определяется плотностью E.12). Положив, в частности, q(t) — се~1^'2 при соответствующем выборе по- постоянной с, получаем следующий результат: плотность отношения двух независимых случайных величин X и У, имеющих \2-распределения с к и I степенями свободы соответственно, определяется формулой E.12). Пример 5.14. Распределение n-мерного случайного вектора X име- имеет шаровую симметрию, /i(x, у) = р(хТх). Найти распределение случайной
5.2. Функция распределения функции случайного аргумента 193 величины I ~( 77 П """-=?, Х=-Ухк. E.13) По формуле E.9) находим F-2(t) = Jp(xTx)dx, At где множество At определяется формулой (п-1) Выполним такое ортогональное преобразование вектора ж, при котором ве- величина Хл/п переходит в первую координату у\ вектора у. Для этого доста- достаточно, чтобы все элементы первой строки матрицы преобразования А были равны п~1'2. Тогда, имея в виду, что АТ = А, \А\ = 1, получим F2(t)= J p(yTy)dy. Положив у = ра, где рна имеют тот же смысл, что и в примере 5.10, и имея в виду, что якобиан преобразования в данном случае равен (—l)n+ pn~ Join-, получим т) = с I do*. dan.^ где для краткости положено оо Jpn-Ip(p)dp. с = о Выразив в явной форме пределы интегрирования по переменным ai,... ..., an-i, получим F- (t) — f f f da'2 •••dan-1 2 J J J /]_ _ a2 _ 2 Интегрирование по «2, • • •, «n-i производится по п — 2-мерному шару ра- радиуса д/l — af, объем которого пропорционален A — af)(n)/2. При этом подынтегральная функция в центре шара равна A — а\)~1'2. Поэтому ин- интуитивно ясно, что интеграл по переменным «2, • • • ,otn-i пропорционален A — а\)(n~3)/2. Чтобы строго доказать это, достаточно ввести новые пе- переменные интегрирования 02 = аг/д/1 — <^2, • • •, Pn-i = otn-\jyj\ — ol\. То- Тогда, объединив постоянный интеграл по переменным /?2,... ,/5n-i с посто- постоянным множителем с и обозначив новую постоянную буквой а, получим
194 Гл. 5. Функции случайных величин тт I П — 1 Наконец, вводя новую переменную интегрирования г = ац/ ^ приве- дем полученную формулу к виду —гь/2 Л 1 Дифференцируя эту формулу, находим плотность величины Т: П — 1 у Постоянная а легко определяется из условия ^(оо) = 1. Для вычисления интеграла достаточно сделать замену переменных tgip = t/л/п — 1 и при- принять во внимание, что ГA/2) = д/тг. Тогда получим Ч~"/2. E.14) га- 1 Это распределение, часто встречающееся в математической статистике, на- называется распределением Стъюдента или, короче, Т-распределением. Вели- Величина Т, определяемая формулой E.13), называется стъюдентовым отно- отношением*). Число к = п — 1 называется числом степеней свободы [19, 115]. Полезно отметить, что распределение стьюдентова отношения Т не за- зависит от функции р{и). Для любого случайного вектора X, распределение которого обладает шаровой симметрией, случайная величина Т имеет Т- распределение E.14). Пример 5.15. В условиях примера 5.14 найти совместное распределе- распределение случайных величин U = X и S = ХтX — пХ2. По формуле E.9) находим /т р(х х) dx. xTx-nx2<s Выполнив ортогональное преобразование предыдущего примера, получим F2(u,s)= J J ...у p(yTy)dy2...dyn. После замены переменных у2 ~ р/3-2,..., уп — pfin, fi'i + • • • + fin = 1, так же как в предыдущем примере, получим F2(u,s)=c j J pn-2P{yl + p2)dp, -OO 0 где с определяется из условия ^2@0,00) = 1. Доказать, что при любой функции p(v) случайные величины U и S не коррелированы и что они независимы тогда и только тогда, когда p(v) = BnD)-n'2e/(\ *) Стьюдент (Student) — псевдоним английского ученого Госсета (W.S. Gosset).
5.2. Функция распределения функции случайного аргумента 195 Пример 5.16. Показать, что если совместное распределение п-мер- ного вектора X и m-мерного вектора У обладает шаровой симметрией в (п + т)-мерном пространстве, то случайная величина где n m n ^—' ' m ^—-^ имеет Т-распределение cn + m-2 степенями свободы: ¦2. E.16) Пример 5.17. Пусть X — случайная п х m-матрица, m < n, X — матрица-строка, элементами которой служат средние арифметические эле- элементов соответствующие столбцов матрицы X: р Случайная величина Т = ^п(п - 1)XS~1XT, S = ХТХ - пХтХ, E.17) называется обобщенным стьюдентовым отношением. Для любой случай- случайной матрицы X, плотность которой определяется формулой f1(x)=p(tTxCxT), E.18) где р(и) — любая функция (конечно, удовлетворяющая условию, чтобы функция fi(x) была плотностью, возможно, содержащей ^-функции), С — положительно определенная симметричная матрица, a tr A — след матри- матрицы А, случайная величина Т имеет плотность В частном случае при m = 1 это распределение совпадает с распределением абсолютной величины стьюдентова отношения E.13). Пример 5.18. В условиях предыдущего примера найти совместное распределение случайного вектора (матрицы-строки) X и случайной мат- матрицы S. Показать, что они не коррелированы при любой функции р(и) и что они независимы тогда и только тогда, когда р(и) = у/\С\п/B7i)nrn e~v'2. Пример 5.19. Пусть Х\ и Х-2 — случайные матрицы п\ х m и п-2 х m соответственно, Х\ и Х-2 — матрицы-строки, элементами которых служат средние арифметические_^шементов соответствующих столбцов матриц Х\ и Х2, Sk = Xfr Xk — пХ\ Xk (к = 1, 2), Н = Si + &. Показать, что если рас- распределение блочной (щ + П2) х т-матрицы X, Хт = [Х^ Х^], определя-
196 Гл. 5. Функции случайных величин ется формулой E.18), то случайная величина U = >^(п1+п2-2) - _ х2)н.1(хт _ хт2) E.20) у ТЬ\ + П2 имеет плотность E.19), где п = п\ + п-2 — 1. Пример 5.20. Если в условиях примера 5.17 р(и) = у/\С\п/Bтг)™е-и/\ а С = К~1, то плотность матрицы 5 определяется формулой wnm(s) = cnmBm|^|)~(n-1)/2|s|(n-m'/2-1 exp{-i tr*"^} E.21) в области положительно определенных матриц s пространства квадратных матриц порядка га и равна нулю вне этой области. Через \К\ и \s\ в фор- формуле E.21) обозначены соответственно определители матриц К и s, a _ 1 Cnm ~ 7Гт(т-1)/4Г((п _ 1)/2) Г((п - 2)/2) ... Г((п - ш)/2) ' Распределение, определяемое плотностью E.21), называется распреде- распределением Уишарта. Оно играет большую роль в математической статисти- статистике [104, 105]. Пример 5.21. Если в условиях примера 5.15 S' = ХТХ, то отношение определителей матриц S и S\ V = \S\/\S'\, имеет плотность Это /^-распределение с параметрами р = (п — га)/2 и q = га/2 (пример 2.9). Пример 5.22. Функция распределения F\(x) скалярной случайной величины X непрерывна. Найти распределение случайной величины Y = F1(X). При любом у G @,1] событие У = F\(X) < у происходит тогда и только тогда, когда X < х = F^'1(y). Поэтому F2(y) = F1(Fr1(y)) = y при 2/6@,1]. При у ^ 0 событие У = Fi(X) < у невозможно, а при у > 1 — достовер- достоверно. Поэтому F-2(y) = 0 при ^0 и ^2 (у) = 1 при у > 1. Таким образом, при любой непрерывной функции распределения F\(x) случайная величи- величина У = F\(X) распределена равномерно на интервале [0,1]. Предлагаем читателю самостоятельно найти распределение случайной величины У = F\ (X) в случае, когда функция распределения F\ (ж) имеет разрывы. Найти плотность величины X в этом случае. 5.2.3. Приведение случайного вектора к вектору с неза- независимыми координатами. Рассмотрим п-мерный случайный век- вектор X — {Xl, ... ,ХП}, у которого непрерывны функция распределе- распределения Fi(xi) первой координаты и условные функции распределения F2(x2 | xi),... ,Fn(xn |жь ... ,xn_i). Этому условию, в частности, удо- удовлетворяет любой случайный вектор, плотность которого не содержит
5.2. Функция распределения функции случайного аргумента 197 ^-функций. Во многих задачах теории вероятностей и ее приложений оказывается полезным преобразовать случайный вектор так, чтобы в результате получить вектор с независимыми координатами. На основании результатов п. 4.4.5 эта задача легко решается для нормально распределенных векторов применением канонических раз- разложений, в частности разложения по собственным векторам. \> Для преобразования случайного вектора с произвольным рас- распределением, удовлетворяющим поставленным условиям, можно вос- воспользоваться результатом примера 5.20. Введем случайные величины ..., Yn = Fn(Xn Xb...,Xn_!). E.23) Так как F2(x2 \ xi), ..., Fn(xn | х\...., хп-\I рассматриваемые как функции первого аргумента, представляют собой непрерывные функ- функции распределения, то по доказанному в примере 5.22 случайная ве- величина Yi, и все последующие случайные величины Y&, независи- независимо от значений у1,..., yk_x е [0,1] предыдущих величин Yi,..., Yk-i (к — 2,..., п), распределены равномерно на интервале [0,1]. Таким об- образом, условное распределение каждой величины Y& не зависит от значений 2/ь ... ,2/fc-i предшествующих величин. Следовательно, сов- совместная плотность величин Y\,..., Yn равна произведению их плот- плотностей. Отсюда по доказанному в п. 4.2.6 вытекает, что случайные величины Yi,..., Yn независимы. <\ Итак, формулы E.23) решают поставленную задачу — определя- определяют такое преобразование случайного вектора X, в результате которого получается вектор Y с независимыми и вдобавок равномерно распре- распределенными на интервале [0,1] координатами (отсюда следует, что век- вектор Y равномерно распределен в n-мерном кубе со сторонами [0,1] по всем осям). Обратное преобразование, определяемое рекуррентными формулами Хх = Ff1^), Х2 = F-1 (У2 | Хг), ... ..., Xn = F-1(Yn\X1,...,Xn-1), E.24) дает выражение координат вектора X через независимые равномерно распределенные на интервале [0,1] случайные величины Yi,...,Yn. Р> Распространим полученные результаты на случайный вектор X с любой функцией распределения. Если F\(x\) (или F^(xk | xi,... ..., Xk—i)) как функция х^ имеет разрывы, тогда она не имеет значе- значений в соответствующих интервалах и обратные функции F^x(yi) (или F^x{yk | #i,..., Xk-i)) не определены в этих интервалах. Приняв ее за постоянную в каждом из этих интервалов, мы определяем все обрат- обратные функции F~1(y1), F^1(yk\xu...,xk-i) везде в интервале [0,1].
198 Гл. 5. Функции случайных величин Тогда формулы E.24) определят X как функцию случайного векто- вектора У, равномерно распределенного в кубе [0,1]к и E.23) будет служить обратным преобразованием. <\ Теперь мы можем найти такое преобразование случайного векто- вектора X, в результате которого получается случайный вектор Z с незави- независимыми координатами, каждая из которых имеет наперед заданную функцию распределения. > Пусть Gi(zi),...,Gn(zn) — заданные строго возраста- возрастающие функции распределения. Определим координаты векто- вектора Z уравнениями У 1 y=Fk(x\xi,...,xk-i) у/ хк 0 / /y=Gk(z) '-к х, z Gk(Zk)=Yk E.25) Рис. 5.3 где г i,..., i n — случайные ве- величины, определямые форму- формулами E.23). Так как функции Gi,...,Gn по условию строго воз- возрастающие, то формулы E.25) устанавливают взаимно однозначное соответствие между величинами Yi,...,Yn, с одной стороны, и ве- величинами Zi,...,Zn, с другой. Очевидно, что случайные величи- величины Z\,..., Zn независимы как функции независимых случайных ве- величин Yi,...,Yn (п. 4.2.5), и функцией распределения величины Zk служит Gk(zk). Действительно, P(Zk < zk) = P(Gk(Zk) < Gk(zk)) = P(Yk < Gk{zk)) = Gk(zk). < Таким образом, формулы E.23) и E.25) определяют преобразо- преобразование случайного вектора X, в результате которого получается век- вектор Z с независимыми координатами Z\,..., Zn, имеющими задан- заданные функции распределения Gi(zi),..., Gn(zn). Обратное преобразо- преобразование, определяемое рекуррентными формулами ..., Xn = F-l{Gn(Zn)\Xu...,Xn.l), E.26) выражает вектор X через вектор Z с независимыми координатами, имеющими заданные функции распределения. На рис. 5.3 показано соответствие между значениями Xk и Zk случайных величин Xk и Zk- Заметим, что в случае, когда функция распределения одной из величин Х\,..., Хп сохраняет постоянное значение на каком-нибудь интервале, взаимная однозначность соответствия между векторами X и У и векторами X и Z нарушается. В этом случае формулы E.24)
5.3. Плотность функции случайного аргумента 199 и E.25) не определяют значения х вектора X при некоторых значе- значениях у вектора Y. Однако это не существенно, потому что каждый интервал постоянства функции распределения представляет собой множество нулевой вероятности, с которым можно не считаться. Впрочем, можно принять, что в данном случае формулы E.24) и E.25) для соответствующих у определяют весь интервал постоянства функции распределения. 5.3. Плотность функции случайного аргумента 5.3.1. Метод сравнения вероятностей. В п. 5.2.2 мы научи- научились находить функцию распределения функции случайного аргу- аргумента, а затем дифференцированием функции распределения опре- определять плотность, если, конечно, она существует. Однако часто целесообразно непосредственно находить плотность функции случай- случайной величины по данной плотности величины-аргумента. При этом на функцию (р(х) придется наложить дополнительные ограничения, одной ее измеримости в общем случае недостаточно. Мы будем пред- предполагать, что функция (р(х) имеет кусочно непрерывные первые про- производные по всем координатам вектора ж и не постоянна ни на каком множестве значений аргумента ж, имеющем отличную от нуля веро- вероятность. \> Согласно общему принципу п 5.2.1 вероятность попадания слу- случайной величины Y = <р(Х) на любое множество В равна вероятности попадания величины X на прообраз множества В, Ав = {х: (f(x) G ? В}. Выразив эту вероятность через плотность fi(x) случайной ве- величины X, получим P(Y еВ) = Р(*(Х) е В) = Р(Х е Ав) = J fi(x) dx. E.27) Ав С другой стороны, P(YeB) = Jf2(y)dy, E.28) в где /2B/) ~ неизвестная плотность случайной величины Y. Сравнение формул E.27) и E.28) показывает, что для определения /2B/) доста- достаточно заменой переменной преобразовать интеграл E.27) в интеграл, распространенный на область В. Предположим сначала, что векторы X и Y — <р(Х) имеют одну и ту же размерность п и уравнение у — <р(х) при любом у имеет един- единственное решение х в области возможных значений случайной вели- величины X (в области, где плотность f\{x) отлична от нуля). Для это- этого необходимо и достаточно, чтобы якобиан координат вектора (р(х) по координатам вектора х сохранял знак в области, где fi(x) > 0, и
200 Гл. 5. Функции случайных величин ements обращался в нуль только в изолированных точках этой области. На рис. 5.4 дана иллюстрация для случая скалярных X и Y. Сделав в формуле E.27) замену переменных у — (р(х), х — tp~l(y) и приняв во У y+dy У 0 / dx у X У У+dy У у=(р(х) 0 dx Рис. 5.4 внимание, что область интегрирования А в перейдет при этом в В, будем иметь P{Y E.29) где J(y) — якобиан координат вектора х = <р 1(у) по координатам вектора у: dyi dip'1 dyi дср1 х dyn д^рп1 дуп E.30) (производная функции ip 1{у) в случае скалярных X и Y). Срав- Сравнив E.29) с E.28) и приняв во внимание, что обе эти формулы спра- справедливы для любой области В, получаем следующее выражение для плотности случайной величины Y = (р(Х): E.31) Предположим теперь, что размерность т вектора Y = <р(Х) мень- меньше размерности п вектора X, т < п, и уравнение у — (р(х) при всех у имеет единственное решение относительно каких-нибудь т коорди- координат вектора х в области, где fi(x) > 0. Обозначим через х' вектор, образованный этими т координатами, через х" — вектор, образован- образованный п — т оставшимися координатами вектора х. Тогда наше урав- уравнение перепишется в виде у — tp(x', х"). Пусть х' — (р~г(у, х") — реше-
5.3. Плотность функции случайного аргумента 201 ние этого уравнения относительно х!. Сделав в E.27) замену перемен- переменных х' — ip~x (у, ж"), получим совершенно так же, как и в предыдущем случае, СО P(Y eB)= Jdy I fifr^fax")^') \J(y,x")\dx", E.32) В — оо где J(y,x") — якобиан координат вектора х' — ср~1(у,хп) по коорди- координатам вектора у: Сравнив E.32) с E.28), находим плотность случайной величины Y: оо h(y)= J h(v~\y,u),u)\J{y,u)\du. < E.34) — со Замечание 1. Эту формулу можно получить также другим пу- путем. Дополнив вектор Y до n-мерного вектора, добавив к нему коор- координаты Ym+i - Хт+Ь ..., Yn = Хп, приведем задачу к предыдущему случаю. Определив по формуле E.31) совместную плотность векто- векторов Y и X" — {Xm_|_i,... ,ХП}, можем после этого найти плотность вектора Y по формуле D.9) интегрированием по х" по области всех возможных значений случайного вектора X". Замечание 2. Если векторы X и Y — ^р(Х) имеют одинаковые размерности п, а уравнение y — if{x) при каждом у имеет конечное или счетное множество решений относительно х в области возможных значений вектора X, то область интегрирования Ав следует разбить на части, в каждой из которых содержится не больше одного решения этого уравнения, а затем выполнить соответствующую замену пере- переменных в каждом из полученных интегралов. Предоставляем читате- читателю самостоятельно найти плотность случайной величины Y = (р(Х) таким путем. Мы решим здесь эту задачу более удобным для данного случая методом сравнения элементов вероятности (п. 5.3.2). Пример 5.23. В условиях примера 5.13 найти распределение случай- случайной величины F Z. X/k I Так как уравнение / = kz/l при любом I имеет единственное решение z = lf/k, то плотность g(f) величины F можно определить по форму- формуле E.31). Подставив в нее вместо fi(x) выражение плотности /2B) вели- величины Z, получим
202 Гл. 5. Функции случайных величин Это распределение тоже часто встречается в математической статистике и называется F-распределением с I и к степенями свободы. Распределение величины U = In F/2 в частном случае, когда X и У — независимые случай- случайные величины, имеющие %2-распределение соответственно с к и I степенями свободы, было впервые найдено Фишером [112, 113]. Распределение вели- величины F при тех же условиях получено Снедекором [99]. При q(t) = ce~t//2 и соответствующем выборе с из полученного результа- результата следует, что отношение двух независимых величин с \2 -распределением, деленных на соответствующие числа степеней свободы, имеет F-распре- F-распределение с этими числами степеней свободы. Этим и объясняется широкое распространение F-распределения. Интересно отметить, что предельные случаи F-распределения при к = оо и при I — оо представляют собой 7-распределения величин F и F~l соответственно: 1/ е Г(*/2) В предельном случае при к = I = оо /оо,ос(/) = <?(/ — 1). Пример 5.24. В условиях примера 5.17 случайная величина п-тп 2 n{n-m) — 1—г .г = — i = ло А m(n — 1) m независимо от вида функции р(и) имеет F-распределение с т и п — т сте- степенями СВОбоДЫ fm,n-m(f)' Пример 5.25. Если величина F имеет F-распределение fik(f), то ве- величина V = A + lF/k)~l имеет /^-распределение с параметрами р = к/2, q = 1/2 (пример 2.9), а величина W = F(k/l + F)~x имеет /^-распределение с параметрами р — 1/2, q = к/2. Отсюда следует, что если величина V имеет /^-распределение с па- параметрами p,q, то величина F = (k/l)V(l — V)~x имеет F-распределе- ние f2p,2q(f), а величина G = кA — V)/IV имеет F-распределение f2P,2q(g)- Пример 5.26. Найти распределение полярных координат точки на плоскости Я, О, если известна плотность fi(x,y) декартовых коорди- координат X, У. В данном случае R = (pi(X,Y) = л/Х2 + У2, S = (p2(X,Y) = arctg — причем угол О лежит в первой четверти при X > О, У > 0, во второй при X < О, У > 0, в третьей при X < О, У <0 ив четвертой при X > О, У < 0. Уравнения г = ^/х2 + у2, 0 = arctg(у/х) имеют единственное реше- решение х = г cos0, у = r sin в при любых г ^ 0, в Е [0, 2тг). Поэтому, cos 0 —г sin 0 sin 0 г cos в
5.3. Плотность функции случайного аргумента 203 и формула E.31) дает /2(r,0) = r/i(rcos0,rsin0). (I) Отсюда интегрированием по в или по г находим соответственно плот- плотность /з(г) радиуса-вектора R случайной точки и плотность /4@) полярного угла в: /3 (r) = r f f(rcosO,r sin 0) d0, (II) о oo /4(r) = / rf(r cos 0,r sin в) dr. (Ill) 0 В частном случае распределения с круговой симметрией f(x,y) = = /i(x2 + у2) и полученные формулы принимают вид оо /з(г) = 2nrh(r2), /4@) = Jrh(r2)dr. (IV) О Таким образом, в случае круговой симметрии распределения на плос- плоскости полярный угол распределен равномерно в интервале [0, 2тг), и следо- следовательно, Ja(O) = 1/2тг при 0 G [0, 2тг). Впрочем, это ясно и из интуитивных соображений. В случае нормального распределения с круговой симметрией h{u) = = BtvD)~1 exp{—u/BD)} и формула для /з(г) принимает вид г>0. (V) Это распределение называется распределением Рэлея. Аналогично в случае нормального распределения с шаровой симмет- симметрией в трехмерном пространстве получаем для радиуса-вектора R распре- распределение Максвелла /з(г) = л/2/тг1)з Г2 ехр{-~}, г > 0. (VI) Если распределение на плоскости имеет круговую симметрию с цен- центром, смещенным относительно начала координат, то, выбрав соответствен- соответственно оси координат, будем иметь /i(x, у) = h((x — аJ + у2) и 2тг /з(г) = г f h(r2 - 2arcose + a2)d0, (VII) о оо /4(r)= f rh(r2 -2ar cos в + a2) dr. (VIII) о В частном случае нормального распределения /i(n) = BttD)~1 e~ и формула для /з(г) принимает вид 2тг о
204 Гл. 5. Функции случайных величин Интеграл в этой формуле не сводится к элементарным функциям. Его мож- можно выразить через бесселеву функцию тг 2тг т / \ 1 / U COS в in 1 / U COS в in lo(u) = — е аи = — /е сш. тт J 2тг J о о В результате получим {}() (X) Распределение, определяемое этой формулой, называется нецентральным распределением Рэлея. Пример 5.27. Найти плотность случайного вектора Y = АХ + с, если известна плотность вектора X. В случае, когда векторы X и Y имеют одинаковую размерность п и ранг матрицы А равен п, уравнение у = Ах + с имеет единственное решение х = А~х(у — с) и формула E.31) дает где \А\ — определитель матрицы А. В частном случае нормального распределения вектора X (п. 4.5.3) ш и полученная формула дает J ^ \У) //г\ \n I 7/ И Л I 9 i(yT - сТ - ттхАт)А-1ТК-1А-\у - с - Атпх)}. Это нормальное распределение, причем математическое ожидание векто- вектора Y равно тпу — Агпх + с, а его ковариационная матрица равна Ку = = АКХАТ в полном соответствии с формулами C.49) и C.50). Предоставляем читателю самостоятельно рассмотреть случай, когда размерность вектора Y и ранг матрицы А равны m < n, случай, когда раз- размерность вектора Y равна m ^ п, а ранг матрицы А равен г < т, и случай, когда m > п. Доказать, что во всех этих случаях при нормальном распреде- распределении fi(x) распределение /г(у) тоже нормально (является вырожденным нормальным распределением при г < m и при m > п). Таким образом, случайные величины, полученные в результате любых линейных преобразований нормально распределенных случайных величин, распределены нормально. Этот ваэюный результат имеет большое зна- значение для теории вероятностей и ее применений. Отсюда следует, что ко- коэффициенты канонического разложения нормально распределенного слу- случайного вектора, в частности, его разложения по собственным векторам, распределены нормально (имеют совместное нормальное распределение). А так как из некоррелированности координат нормально распределенного случайного вектора следует их независимость, то коэффициенты канони-
5.3. Плотность функции случайного аргумента 205 ческого разложения нормально распределенного случайного вектора всегда независимы. Из результатов этого примера вытекает также следующее обобщение теоремы п. 4.5.6: проекции нормально распределенного случайного вектора на любые подпространства распределены нормально. Пример 5.28. Случайный вектор X распределен нормально, причем ранг г его ковариационной матрицы Кх меньше его размерности п. Найти плотность вектора X. Мы знаем (п. 4.5.6), что в этом случае вектор X имеет вырожден- вырожденное нормальное распределение D.89), которое полностью сосредоточено на r-мерном подпространстве, образованном первыми г собственными векто- векторами матрицы Кх, сдвинутом на вектор гпх (если тх не принадлежит этому r-мерному подпространству). На основании результатов предыдущего при- примера распределение вектора X можно выразить через распределение в этом подпространстве. Пусть Ф — матрица, столбцы которой представляют собой, как и в п. 4.5.6, ортонормированные собственные векторы <^i,..., (рп, матрицы Кх. Эта матрица ортогональна, вследствие чего ее определитель равен единице, |Ф| = 1. На основании результатов предыдущего примера случайные вели- величины Uk = Фк{.Х — тх) (к = 1,..., г) независимы, имеют нулевые матема- математические ожидания и дисперсии, равные соответственно г отличным от пу- пуля собственным значениям Ai,..., Аг матрицы Кх. Поэтому распределение вектора Х° = X — тх в r-мерном подпространстве, образованном собствен- собственными векторами <?>ь ..., (prj определяется плотностью 1 Г „2 V^tt^Ai.-.A,. Случайные величины Uk = ^Г^° (к = г + 1,..., п) имеют нулевые матема- математические ожидания и нулевые дисперсии, вследствие чего они с вероят- вероятностью 1 равны 0. Поэтому их плотности представляют собой ^-функ- ^-функции 6(ик) (к = г + 1,..., п). Следовательно, плотность n-мерного случай- случайного вектора U = [Ui ... Un]T определяется формулой Л(«) = ^f^=^^=^ exP1 ~2 2^ хк t <5("r+1) • ¦ -5Ю- Это вырожденное нормальное распределение в пространстве значений слу- случайного вектора X, в котором за оси координат приняты направления соб- собственных векторов матрицы Кх. Пользуясь формулой E.31), находим плот- плотность случайного вектора X: М) \ Мх) = \ e у/Bтг)гЛ1 ...An t^i х 6((fr+i(x - mx))... S((fl(x - mx)). E.37) Мы получили другую форму вырожденного нормального распределения, отличную от D.89). Предоставляем читателю самостоятельно показать, что в случае г = п формула E.37) совпадает с формулой D.78), определяющей плотность n-мерного нормально распределенного вектора.
206 Гл. 5. Функции случайных величин Пример 5.29. Пусть X и Y — две случайные величины (скалярные или векторные одной и той же размерности) с совместной плотностью fi(x, у). Найти плотность их суммы Z = X + Y. Так как уравнение z = х + у при любом z имеет единственное реше- решение как относительно ж, так и относительно г/, то можно воспользоваться формулой E.34). В результате получим оо ос h(z)= f fi(x,z-x)dx= f /i(z - у,у) dy. E.38) — oo —oo В частном случае независимых слагаемых /i(#,y) = gi(x)g2(y) и oo oo h{z)= j gi(x)g2(z-x)dx= j gi(z - y)g2(y)dy. E.39) — oo —oo Интегралы такого типа называются сверткой функций д\ и д2 и обозна- обозначаются д\ * д2. Таким образом, плотность суммы независимых случайных величин равна свертке плотностей слагаемых, f2 = д\ * д2. Так как сумма неслучайных величин не может быть случайной вели- величиной, а любая неслучайная величина имеет плотность, представляющую собой ^-функцию, то из E.39) следует, что свертка двух ^-функций является ^-функцией: оо " 6(х - a)S(z -x-b)dx = d(z-a- b). E.40) Это свойство ^-функции можно также вывести предельным переходом, с помощью которого ^-функция определена в приложении 1. Из общего результата примера 5.27 следует, что свертка двух нормаль- нормальных распределений представляет собой нормальное распределение. Предла- Предлагаем читателю самостоятельно получить этот результат по формуле E.39). Пример 5.30. Найти плотность суммы двух независимых случайных величин, имеющих х2"РаспРеДеления с к и I степенями свободы соответ- соответственно (пример 5.10, формула E.11)). В данном случае Ql(x) и формула E.39) дает о l(z) о Последний интеграл представляет собой так называемую бета-функцию: -• E-41)
5.3. Плотность функции случайного аргумента 207 Пользуясь этой формулой, получаем (М-0/2-1 -*/2 Таким образом, сумма независимых случайных величин, распределен- распределенных по закону х2, также имеет \2 -распределение с числом степеней сво- свободы, равным сумме чисел степеней свободы слагаемых. Пример 5.31. Найти распределение суммы Z независимых случайных величин X и Y, распределенных по закону Пуассона с параметрами Ли// соответственно. В данном случае = Е Ь е~А<5(ж ~fc)> 92(у) = Е ^ h h=o и формулами E.39) дает с / \ "^"^ ХкLLh -Х-и /з(г)= 2^ * k,h=O fc,/i=0 Собрав вместе слагаемые, соответствующие одинаковым значениям сум- суммы & + h = m, имея в виду, что у. AV =lA m! fe m_fc = Z^ А;! Л-! m! ^ k\(m-k)\ k+h=m k=0 V ' получим m=0 Таким образом, сумма независимых случайных величин, распределен- распределенных по закону Пуассона, также распределена по закону Пуассона с пара- параметром, равным сумме параметров распределений слагаемых. 5.3.2. Метод сравнения элементов вероятности. Метод сравнения элементов вероятности основан на выборе в качестве мно- множества В бесконечно малого элемента dy пространства значений слу- случайной величины Y и нахождении вероятности попадания величи- величины Y = ip(x) в этот элемент. Множитель при dy будет в этом случае искомой плотностью случайной величины Y = ip(x). \> Предположим, что векторы X и Y имеют одинаковую размер- размерность и уравнение у = (р(х) при каждом у имеет множество решений (f^1 (y),i 6 I(у), в области возможных значений величины X (т.е. в об- области, где fi(x) ф 0). На рис. 5.5 задана иллюстрация для случая ска- скалярных величин X и Y (на рис. 5.5, как мы видим, 1(у) = {1, 2, 3,4, 5}, а 1(у') — {1,2,5}). В этом случае элемент вероятности fi{y)dy равен сумме элементов вероятности, соответствующих всем элементам dxi,
208 Гл. 5. Функции случайных величин ag replacements У у' У+dy У 0 / \ d хл d y=V - i к / Ч к Х2 d Ixa d X5 X Рис. 5.5 i G I{y)i пространства значений величины X, объединение которых представляет собой прообраз элемента dy (рис. 5.5): Подставив сюда выражения xi через у, xi = ipi'1 (у), и выражения эле- элементов dxi через dyi, dxi — \Ji(y)\dy, где Ji(y) — якобиан координат вектора Х{ — ^1(у) по координатам вектора у (производная функ- функции (р^ (у) в случае скалярных X и У), получим после сокращения на dy /2B/)= Е h{^\y))\Uy)V < E.42) Метод сравнения элементов вероятности представляет собой со- сокращенную форму следующей последовательности вполне строгих операций: 1) вычисление вероятности попадания величины Y — (р(Х) в бес- бесконечно малый объем Ау ее пространства значений, содержащий дан- данную точку у, с помощью интегральной теоремы о среднем значении; 2) вычисление таким же путем вероятности попадания величи- величины X в объединение элементарных объемов Axi, г G 1(у), ее прост- пространства значений, представляющее собой прообраз Ау, U Axi = ф~ iei(y) 3) приравнивание полученных таким путем вероятностей; 4) нахождение выражений элементарных объемов Axi через Ау; 5) деление полученного равенства на Ау; 6) переход к пределу, когда элементарный объем Ау стягивается в точку у, с попутным доказательством существования предела.
5.3. Плотность функции случайного аргумента 209 \> В случае, когда вектор Y — <р(Х) имеет размерность т < п, а уравнение у — <р(х) не имеет единственного решения относитель- относительно т координат вектора х ни при каком выборе этих коорди- координат, следует дополнить вектор Y до п- мерного добавлением коор- координат Ym+i — Xm+i,..., Yn — Хп, вычислить плотность полученного n-мерного вектора по формуле E.42), а затем интегрированием по вектору и = {ут+1, • • • ? Уп} найти плотность величины Y. В результа- результате получим формулу ОО /2B/)=/ E M<P74v,u),u)\Ji(v,u)\du, E-43) -оо iel(y,u) где (р^1(у,и), г Е 1(у,и), — решения уравнения у — ip(x) относитель- относительно вектора х' — {^i,... ,жт} в области возможных значений величи- величины X, a Ji(y,u) — якобиан координат вектора х\ — (р^1(у,и) по коор- координатам вектора у. < \> Рассмотрим, наконец, случай, когда вектор Y = (р(Х) имеет размерность т > п. В этом случае вектор Y можно представить как совокупность n-мерного вектора Y1 — ip^ (X) и (т — 7?)-мерного векто- вектора Y" — if2(X). При этом разбиении вектора Y (его замене проекция- проекциями на два взаимно дополнительных подпространства) следует вклю- включить в Y' такие координаты вектора F, чтобы уравнение у' — (fi(x) имело единственное решение х в области возможных значений вели- величины X, если, конечно, это возможно при каком-нибудь выборе п из т координат вектора Y. Если это уравнение имеет единственное решение х — (f^1(yf), то плотность случайного вектора Y' можно вы- вычислить по формуле E.31). Что касается вектора Y"', то, подставив в Y" = (р2(Х) выражение X = ip^iY'), получим Y" = ip2(ip-1(Y')). Та- Таким образом, Y" представляет собой вполне определенную функцию случайной величины У;, и, следовательно, условная плотность Y" при данном значении у' величины Y' представляет собой й-функцию 8{у" — ^{^i V{у')))- На основании теоремы умножения плотнос- плотностей D.23) плотность составного случайного вектора Y выразится в этом случае формулой f2(y) = h(Vi4y'))\J{y')\S(y" - V2(Vi\y')))- < E-44) Если уравнение у' = (р± (х) при любом выборе п из т коорди- координат вектора у имеет множество решений (р^(уг), г G 1(уг), в области возможных значений величины X, то вектор Y" при данном значе- значении у' вектора Y' имеет дискретное множество возможных значений (p2((f^l(y')), г Е 1(у'), вероятности которых определяются формулой h(xt)dxj = h^n\y'))\Ji{y)\ Рг Е Mxk)dxk Е h(v(y'))\J(y')\'
210 Гл. 5. случайных величин Следовательно, условная плотность вектора Y" при данном значе- значении у' вектора Y' согласно B.24) равна ? M<pu(v')) Шу'Жу" - МрпЧу'))) Умножив эту условную плотность величины Y" на плотность величи- величины Y', вычисленную по формуле E.42), найдем плотность случайного вектора Y: Е -М<РиШ)- E-45) Пример 5.32. Найти распределение s-й степени случайной величи- величины X, Y = Xs (s — натуральное число). При нечетном s уравнение у = Xs имеет единственное действительное решение х = у1^ при любом у. Поэтому плотность величины Y = Xs можно найти по формуле E.31): При четном s уравнение у — Xs имеет два действительных решения х — — ±y1//s при у ^ 0 и ни одного при у < 0. Поэтому для нахождения плот- плотности величины Y — Xs придется применить формулу E.42). В резуль- результате получим У у— cos х /2 (У) = 1 г. В частном случае величины X с плотностью •^ ;~ 2"/2-1Г(п/2) " и У = X2 полученная формула дает *Л.Л_ ЧУ) яп/2-1-у/2 Рис. 5.6 Jzvyy 2-/2Г(п/2) У Таким образом, в этом случае величина Y — X имеет х -распределе- -распределение E.11). Поэтому распределение величины X с такой плотностью fi(x) называется х-распределением. Пример 5.33. Найти плотность случайной величины У = cosX при равномерном распределении величины X в интервале (—тг,тг). В данном случае при каждом значении г/, \у\ < 1, обратная функция имеет две ветви: ^1{у) = arccos г/, <^^г(г/) = — arccos г/ (рис. 5.6). Форму- Формула E.42) дает
5.3. Плотность функции случайного аргумента 211 Распределение вероятностей, определяемое этой формулой, называется рас- распределением арксинуса. Оно характерно для ошибок угломерного прибора с эксцентрично закрепленным по отношению к оси вращения визирного устройства лимбом (диском, на котором нанесена шкала). Пример 5.34. Найти плотность функции У = X2 ~ кХ случайной величины X, равномерно распределенной в интервале @, а), к<а. В данном случае обратная функ- функция имеет две ветви _._ . о у — х —кх/ Pbfrag replacements а — ка ¦ -к2/4 при — к2 /4 < у < 0 и одну только первую ветвь при 0 < у < а2 — ка (рис. 5.7). Поэтому в правой части Рис. 5.7 формулы E.42) будет два слагаемых при — к2/А < у < 0 и одно первое слагаемое при 0 < у < а2 — ка. В резуль- результате получим 2 к2 при - — < у < О, при 0 < у < а — ка. Вне интервала (—к2/4, а2 — ка) /г (у) = 0. Пример 5.35. Пользуясь формулами E.31), E.34)-E.45) показать, что формула C.6) дает для математического ожидания функции Y = <р(Х) случайной величины X то же значение, что и формула C.3): MY = М<р{Х) = = I у/2 (у) с/у. Пример 5.36. С помощью формул этой главы доказать теорему п. 4.2.5: если величины Xi,... ,Хп независимы, то и случайные величины У\ = <pi(Xi),..., Yn = <pi(Xn) независимы при любых функциях <pi,... ,<рп (с помощью формул E.31), E.34)-E.45) это доказывается для дифферен- дифференцируемых функций (pi,..., <рп, а с помощью формулы F.9) — для любых измеримых функций (pi,. .., (рп). Пример 5.37. Если расположить значения п независимых скалярных случайных величин Х\,..., Хп, имеющих одну и ту же функцию распреде- распределения F(x), в порядке возрастания, то г/-е по порядку значение называется v-м нижним значением, а г/-е в порядке убывания называется v-м верх- верхним значением. Найти распределения i/-ro нижнего U и г/-то верхнего V значений.
212 Гл. 5. Функции случайных величин В данном случае проще всего применить метод сравнения элементов ве- вероятности. Вычислим элемент вероятности величины U, соответствующий бесконечно малому интервалу (и, и + du) (т.е. вероятность попадания v-то нижнего значения U в этот интервал). Чтобы величина U попала в интер- интервал [и,и -\- du), необходимо и достаточно, чтобы какие-нибудь г/ — 1 из п величин Х\,..., Хп приняли значения, меньшие чем и, одно значение попа- попало в интервал [и, и + du), а остальные п — v приняли значения, не меньшие чем и + du. Таким образом, мы имеем схему повторения опытов с тремя несовмест- несовместными событиями, образующими полную группу, А\ = {X < и}, Л 2 = {X > > и + du} и Аз = {и ^ X < и + du}, вероятности которых при одном опыте равны соответственно F(u), 1 — F(u) и f{u) du (с точностью до бесконечно малых высших порядков). Поэтому для вычисления искомой вероятности можно применить формулу A.36) для полиномиального распределения при г = 3. Тогда получим h(«) Ли = -(v_ly\n_vy_ F»-\u)[l - F(u)]n-"f(u) du. Эта формула определяет плотность z/-ro нижнего значения U: Точно так же находим плотность z/-ro верхнего значения V: h(v)du = {v _ ^ _ v)i F-»[l - FMr VW- E-47) В частности, при i/ = 1 отсюда получаются форм}шы для плотностей наименьшего и наибольшего значений U = min Х/е, У = max X&: /1(«) = n[l-F(u)]-1/(«), /2(«) = nF-1(«)/(«). E.48) Для нахождения совместной плотности is-ro нижнего и is-ro верхнего значений [/, V при v ^.п/2 достаточно заметить, что для попадания U в интервал (и, u + du), а У в интервал (v,v-\-dv), v > и, необходимо и до- достаточно, чтобы какие-нибудь v — 1 из величин Х\,..., Xn приняли зна- значения, меньшие и, какие-нибудь v — 1 других приняли значения, не мень- меньшие v + dt>, п — 2v попали в интервал [и + du, v), одно попало в интервал [и, и + du) и одно в интервал [v,v-\-dv). Таким образом, задача сводится к схеме повторения опытов с пятью событиями, вероятности которых рав- равны F(u), 1 — F(v), F(v) — F(u), f(u) du, f(v) dv. Пользуясь формулой A.36) при г = 5, получаем после сокращения на dudv следующее выражение для совместной плотности и-то нижнего и z/-ro верхнего значений U, V: х [F(v) - F(u)]n-2"[1 - F(u)r-7(«)/(w) 1(« - «)• E-49) Последний множитель l(v — и) добавлен потому, что событие V < U при v ^ п/2 невозможно, вследствие чего f(u, v) = 0 при v < и.
5.3. Плотность функции случайного аргумента 213 В частном случае при v — 1 из E.49) получается формула для сов- совместной плотности наименьшего и наибольшего значений U = min Xk, V = max Xk\ /(u, v) = n{n - l)[F(v) - F(u)]n~2f(u)f(v) l(v - u). E.50) Пример 5.38. В условиях предыдущего примера найти распределение разности между i/-m верхним и i/-m нижним значениями S = V — U. Так как уравнение s = v — и при любом s имеет единственное решение v = u + s, то на основании E.34) плотность величины 5 определяется фор- формулой ^ /3(s)= [ f(u,u + s)du. E.51) — схэ Подставив сюда выражение E.49) функции /(и, г>), получим х [F(u + s) - F(u)]n"[l - F(u + s)]"/^)/^ + s) du. E.52) В частном случае при v — 1 отсюда получаем плотность так называе- называемой широты разброса п независимых случайных величин S = max Xk — ^n, Xk (широты выборки в задачах статистики): оо = гг(гг - 1) l(s) J [F(u + s) - F(u)]/(u)/(u + s) ds. E.53) Пример 5.39. Пусть X — случайная величина, равномерно распреде- распределенная в интервале [0,1]. Как мы увидим в п. 8.4.2, любая такая случайная величина может быть представлена в виде случайного двоичного числа: {Vu} — последовательность независимых случайных величин, каждая из которых с вероятностью 1/2 принимает одно из двух возможных значений 0 или 1. Функции величины X сю сю Ух = ^(Х) = ]Г 1^-12-", У2 = J2 tj,=i представляют собой независимые случайные величины, каждая из которых равномерно распределена на интервале [0,1], и, следовательно, случайный вектор Y = {Yi, Уг} равномерно распределен в квадрате [0,1]2. Очевидно, это распределение не является вырожденным. Обобщая эту конструкцию, мы можем определить гг-мерную векторную функцию величины X с неза- независимыми компонентами, равномерно распределенными в интервале [0,1] для любого п.
214 Гл. 5. Функции случайных величин Более того, модифицируя упомянутую конструкцию, мы можем опре- определить несчетное множество независимых случайных величин, каждая из которых равномерно распределена в интервале [0,1]. Объединяя эти результаты с результатами п. 5.2.3, получаем множество случайных векторов любых размерностей с невырожденными распределе- распределениями. 5.3.3. Применение дельта-функции. Еще один метод нахож- нахождения распределений функций случайных величин основан на приме- применении ^-функции. > Если Y = (р(Х), то величина Y при любом значении х вели- величины X имеет единственное возможное значение ip(x), и условная вероятность этого значения при данном х равна 1. Поэтому услов- условная плотность величины Y при X — х представляет собой S-функцию: h(y\x) = 6(у -ч>{х)). Следовательно, совместная плотность величин X и Y — <р(Х) опреде- определяется формулой f(x,y) = fi(x)S(y - ip(x)). Отсюда, выполнив интегрирование по ж в соответствии с D.9), нахо- находим плотность случайной величины Y: ос Ш) = I fi(x)8{y - ф)) dx. < E.54) Эта формула определяет плотность величины Y — ip(X) как в слу- случае скалярных, так и в случае векторных величин X и Y. Она особен- особенно удобна для нахождения плотности функции случайной величины в случаях, когда функция ip(x) имеет постоянные значения в некоторых областях пространства значений величины X, вероятности попадания в которые отличны от нуля. В таких случаях формула E.54) автома- автоматически дает линейную комбинацию соответствующих ^-функций в выражении плотности /2B/), в то время как формулы E.31), E.42)- E.45), так же как и метод сравнения элементов вероятности, оказы- оказываются неприменимыми (следует отметить, что формула E.9) спра- справедлива и в таких случаях). Предоставляем читателю самостоятельно вывести из E.54) фор- формулы E.31), E.42)-E.45), выполнив интегрирование после соответ- соответствующей замены переменных и, если потребуется, разбиения области интегрирования на части. Пример 5.40. Найти распределение выходного сигнала ограничителя (пример 2.15), если дана плотность fi(x) входного сигнала X. В примере 2.15 мы нашли плотность выходного сигнала У, определив сначала его функцию распределения (т.е. применением формулы E.9) к
5.3. Плотность функции случайного аргумента 215 данной частной задаче). Сейчас мы решим эту задачу, пользуясь форму- формулой E.54): а а оо = / /i (х)ё(у + a)dx+ fi (x)S(y - х) dx + / /i (x)S(y - a) dx = — оо —а а a oo = /i (v) + % + a) I h (x) dx + 8(y - a) J /i (x) dx. Пример 5.41. Найти распределение суммы Z независимых случайных величин X и У, распределенных рав- равномерно на К^! соответственно, Ъ > а. У По формуле E.54) находим а Ъ /2B) = — j dx j 5(z - х - у) dy. —a—b a—b 0 Ь—a a+6 x Так как точка 2 — х расположена в ин- интервале (—6, Ь) только при z — х + Ъ > рис 5 g >0,г — х — 6<0, то интеграл по пере- переменной у равен разности единичных ступенчатых функций l(z — х + Ь) — l(z — х — b) и а h(z) = ~ J[l(z - Подынтегральная функция здесь отлична от нуля только при z — b < x < < z + b. Интервал (z — 6, z + b) не пересекается с интервалом интегрирова- интегрирования (—а, а) при z < —а — 6 и при z > а + 6, (z — b. z + Ъ) П (—а, а) = (—a, z + b) при z G (—a — 6, a — 6), (z — 6, 2 + Ь) П (—a, a) = (—а, а) при z G (a — 6, 6 — a), (z — 6, 2 + Ъ) П (—a, a) = (z — 6, а) при z G F — a, a + 6). Поэтому /2B) = 0 при 121 > a + 6, /2 («) = —- (a + 6 + 2) при z G (—a — Ь, а — 6), 4ao 1 26 1 при z G (а — 6, 6 — а), (а + 6 — г) при ? ? F — а, а+ 6). График этой плотности показан на рис. 5.8. 5.3.4. Применение характеристических функций. В неко- некоторых случаях для нахождения распределений функций случайных величин целесообразно применение метода характеристических функ- функций.
216 Гл. 5. Функции случайных величин \> Рассмотрим случайную величину Y = <р(Х), где <р(х) — любая измеримая функция. Согласно определению D.37) характеристиче- характеристическая функция #2 (А) величины Y дается формулой ос д2(Л) = Мехр{гЛтУ} = М exp{iXTcp(X)} = Г ехр{{\Т(р(Х)}^(х) dx, E.55) где Д(ж) — плотность случайной величины X. Определив таким пу- путем характеристическую функцию величины У, можно по формуле D.39) найти ее плотность: ОС Ш) = -щ^ I ехр{гАтуЫА) d\. < E.56) — оо Подставив выражение E.55) в E.56), изменив формально порядок интегрирования и приняв во внимание формулу (П. 1.15) приложе- приложения 1, вновь получим E.54). Пример 5.42. Найти распределение суммы двух независимых вели- величин X и У, распределенных равномерно в интервалах (—а, а) и (—6,6) со- соответственно, а > Ъ. Формулы E.55) и E.56) дают -a -b сю sin Ла sin ЛЬ T, 1 f sin Ла sin ЛЬ cos Xz 1 f -i\z sin Ла sin ЛЬ 1 f = / e ал = / 2тгаЬ У Л тгаЬ J — сю —сю сю- = / [cos(a — 6 + z)X + cos(a — 6 — z)X — 4тгаЬ J о — cos(a + 6 + z)\ — cos(a + 6 — z)X] —. Л Отсюда на основании известной формулы . — cos аи о сю Г- получаем = —- (\а + 6 + z\ + |a + 6 - z\ - \а - b + z\ - \a - 6 - z\). Sab Sab Этот результат совпадает с результатом примера 5.41. Пример 5.43. Координаты случайного вектора X независимы и име- имеют распределение N@,D). Найти совместное распределение величин X и S = ХтX — пХ2, где X — среднее арифметическое координат вектора X.
5.3. Плотность функции случайного аргумента 217 По формуле E.55) находим Замена переменных у = Ах, где А — ортогональная матрица, все элементы первой строки которой равны 1/^/п, дает л/пх = у\, и интеграл преобразу- преобразуется к произведению п интегралов сю g(Ai,A2) = —тг- / ехр< —— B7rD)n/2 J I л/п 2D — сю Пользуясь формулой (П.2.1) приложения 2, получим Отсюда в силу свойств 6) и 3) характеристических функций и формул D.44) и D.45) при /х = (п — 3)/2 и к = 1/2 следует, что величины I и 5 неза- независимы, X имеет распределение ЛГ(О, D/n), a 5/D — х2-распределение с /с = гг — 1 степенями свободы. Пример 5.44. Строки п х m-матрицы Х представляют собой незави- независимые m-мерные векторы, имеющие одно и то же распределение JV(O, .К"), X — матрица-строка, элементами которой служат средние арифметические элементов соответствующих столбцов матрицы X (пример 5.17). Найти сов- совместное распределение величин X и S = ХТX — пХ1 X. По формуле E.55) находим +iti\2S} = сю ЯЛ' +tT\2{xTx-nxTx)- UrxK-'x где Ai — матрица-столбец m х 1, а А2 — симметричная m x т-матрица. Применив ортогональное преобразование предыдущего примера к каждому столбцу матрицы ж, получим где у — матрица-строка 1 х т. Пользуясь формулой (П.2.2) приложения 2,
218 Гл. 5. Функции случайных величин получим окончательно .9(Л1;Л2) = е Отсюда в силу свойств 6) и 3) характеристических функций и D.90) следует, что величины X л S независимы, причем X имеет распределение А7@, К/п), а характеристическая функция величины S определяется формулой 9s(X) = \i- 2iK\\-{n~1)/2. E.57) где Л — симметричная т х m-матрица. Чтобы найти распределение вели- величины S, остается заметить, что gs(X) абсолютно интегрируема, и приме- применить формулу E.56). В результате после довольно громоздких выкладок получим для S распределение Уишарта, определяемое плотностью wnm(s) (пример 5.20) [105]. Пример 5.45. Совершенно так же в условиях примера 5.44 находим распределение величины S' = ХТX: оо 9АХ) = [{2,)Ак\]^ I МШХхТх~ \ **K-lxT}x=\I-2iK\\-"'\ — оо Сравнивая эту формулу с E.57), видим, что величина S' имеет распреде- распределение Уишарта wn+\,m(sf). Пример 5.46. Найти распределение суммы Z независимых случайных величин X и Y с распределениями Коши Ш=1а*+°х-аГ ЫУ^^р + Ь-ьГ A) Используя результат примера 4.31, находим характеристическую функ- функцию Z: д(Х) = gi(X)gi(\) = ехр{гЛ(а + Ъ)-(а + /3)|Л|}. (II) Но (II) представляет собой распределение Коши с параметрами с = а + Ъ и 7 = а -\- /3. Таким образом, сумма независимых случайных величин, рас- распределенных по закону Коши, представляет собой таксисе распределение Коши с параметрами, равными суммам соответствующих параметров. 5.3.5. Метод моментов. Если функция ip(x) ограничена, то для нахождения распределения величины Y — ср(Х) по X данному рас- распределению величины X можно применить метод моментов. По доказанному в п. 4.4.3 распределение ограниченной случайной величины полностью определяется ее моментами. Поэтому в данном случае достаточно вычислить моменты величины Y = <р(Х). Пример 5.47. В условиях примеров 5.44 и 5.45 найти распределение отношения определителей матриц S и S', V = / Заметив, что \S'\ = |5|A + пХХ~1ХТ), E.58)
5.3. Плотность функции случайного аргумента 219 и приняв во внимание положительную определенность матрицы $, прихо- приходим к выводу, что \S'\ ^ \S\ ^0. Таким образом, распределение величины V полностью сосредоточено на интервале [0,1]. Следовательно, распределение величины V полностью определяется ее моментами. Для вычисления моментов величины V выведем сначала формулы для моментов величин \S\ и \Sf\. На основании формулы E.21), определяющей плотность wnm(s) матрицы S, Заметив, что подынтегральная функция, умноженная на представляет собой плотность wn+2r,m(s), получаем M\S\r = Bm\K\y -^S- = B ft Г(+ при любом г > —{п — т)/2. Так как распределение матрицы S' по доказан- доказанному в примере 5.45 определяется плотностью wn+L,m(s'), то для нахожде- нахождения моментов определителя \S'\ достаточно заменить в E.59) п на п + 1. В результате будем иметь mist = BТО|^1Г Cn+1'm = Bта|^1Г П n{ Cn + 2r + l,m fj^ Г((П + 1 %)/2) при любом г > — (п + 1 — га)/2. Перейдем теперь к вычислению моментов величины V = l^l/IS'l. За- Заметив, что в силу E.58) V = A + nXS~1XT)~1, т.е. представляет собой функцию величин 1и5, пользуясь найденной в примере 5.44, совместной плотностью 1и5, можем написать MVr = ^ (-Т/ [[ ^ Is B-IKIW2 W // 'K ' X x exp<— ti К Ls xK 1xT\dxds — _ Cnm ff 1 I |(те + 2т—m)/ B™\K\)n/2V^ JJ \8'r H Г 1 r^-1 1 xexp|--trK s-- Последний интеграл, умноженный на ч-(тг + 2г)/2/тг-т/2 представляет собой M\S'\ r в случае, когда гг заменено на гг + 2г. Следо- Следовательно, для вычисления этой величины достаточно применить форму- формулу E.60), заменив в ней п на п + 2г и г на —г. В результате получим МТ/Г _ cnm cra+2r+i,m _ Г(п/2)Г((п -m)/2 + r) "" cn+2r,m cn+i,m "" Г((п-т)/2)Г(п/2 + г)'
220 Гл. 5. Функции случайных величин Сравнив эту формулу с формулой примера 3.16 для моментов /3-распреде- ления, приходим к выводу, что величина V имеет /3-распределение с пара- параметрами р = (п — га)/2и q = т/2. Этот результат совпадает с результатом примера 5.18. Однако там этот результат был получен для произвольной функции р(и) примера 5.17. Здесь же он получен для частного случая нор- нормального распределения матрицы X. Заметим в заключение, что в силу E.58) величина V связана — с обоб- обобщенным стьюдентовым отношением Т (пример 5.17) зависимостью п — Пользуясь этой зависимостью и найденным распределением величины V, можно легко получить результат примера 5.17 для частного случая нор- нормального распределения матрицы X. 5.4. Предельные теоремы 5.4.1. Простейшая предельная теорема. Метод характери- характеристических функций удобен для нахождения предельных распределе- распределений функций неограниченно возрастающего числа случайных вели- величин. Мы применим его для доказательства простейшей предельной теоремы. Если {Xk} — последовательность независимых величин, имею- имеющих одно и то же распределение с математическим ожиданием т и ковариационной матрицей К, то последовательность распределе- распределений случайных величин Zn = ^=(X° + ... + X°), Xl=Xk-m (n = l,2,...), сходится к нормальному распределению N@,K). \> Пусть д(Х) — характеристическая функция каждой из вели- величин Xk- На основании D.41) и D.42) характеристическая функ- функция дп(Х) величины Z7 определяется формулой Отсюда находим Но на основании D.62) , / Л \ iXTm ХТКХ (\Х\2\ In а —= = —— -==г- + о L-L- . \у/п) л/n л/2п V п )
5.4- Предельные теоремы 221 Подставив это выражение в E.61), получим Отсюда видно, что \пдп(Х) —> — - Хт КХ при п —> ос. Хт Таким образом, дп(Х) стремится к характеристической функции нор- нормального распределения Лг@, К) при каждом Л. Можно доказать, что отсюда следует сходимость последовательности распределений вели- величин Z kN(Q,K) [17, 44]. <\ Доказанная теорема, очевидно, справедлива и в том случае, когда ранг ковариационной матрицы К меньше размерности m величин Xv. В этом случае предельное распределение N@,K) будет вырожден- вырожденным. Пример 5.48. В примере 3.11 было показано, что биномиальное рас- распределение можно рассматривать как распределение суммы независимых величин Х\,..., Хп, каждая из которых имеет два возможных значения О и 1 с вероятностями q = 1 — р и р соответственно. Каждая из этих величин имеет математическое ожидание m = р и дисперсию D = pq. На основании доказанной теоремы распределение случайной величины Zn = -р (X! + ... + Хп - пр) у/П стремится к N@,pq) при п —>- оо (теорема Лапласа). Пример 5.49. Так как среднее арифметическое X независимых оди- одинаково распределенных_случайных величин Х\,..., Хп связано с величи- величиной Zn соотношением X — Zn/^/n + m, то по доказанной теореме величи- величина X распределена асимптотически нормально N(m,K/n). Пример 5.50. В примере 3.13 было показано, что случайный вектор Z^l\ координатами которого служат числа появлений значений х\,..., xn дискретной случайной величины X в одном г-м опыте, имеет математиче- математическое ожидание р = [р\ ... ры ]Г и ковариационную матрицу К — Л — ррт', где pl,...,pn — вероятности значений xi,...,xn соответственно, а Л — диагональная матрица с элементами р\,..., р^. По доказанной теореме слу- случайный вектор где Z —вектор, координатами которого служат числа появлений Z\,..., Zn значений x'i,..., xn при п опытах, распределен асимптотически нормаль- нормально ЛГ(О, Л — ррт). Отсюда следует, что вектор частот Р = [pi ... pN ]T зна- значений Ж1,..., жлг, равный Р = U/у/п + р распределен асимптотически нор- нормально ЛГ(О, (Л — ррт)/п).
222 Гл. 5. Функции случайных величин Рассмотрим теперь случайный вектор V с координатами Vu = Фи -Ри)\/п/ри 0=1,..., АО- Математическое ожидание вектора V равно нулю, а его ковариационная матрица Kv определяется формулой Kv=l- qqT, q = [ sjpi . . . л/piv ]T. Согласно полученному результату распределение вектора V стремится к N(O,KV) при п —> оо. Найдем асимптотическое распределение случайной величины Y = nY{Pv-pvJ =VTV при п —> оо. Для этого воспользуемся последним результатом примера 5.11. В данном случае матрица А представляет собой единичную матрицу поряд- порядка ЛГ, а В — Kv IKj — Kv — 1 — qqT имеет ранг N — 1 и представляет собой матрицу ортогонального проектирования, так как qTq = ХХл/iVJ = = YlVv — 1, следовательно, (ggTJ = q(qTq)qT = qqT и Htf = / - 2qqT + (ggTJ = / - qqT = K,. Согласно последнему результату примера 5.11 величина У = УТУ имеет асимптотическое ^-распределение с N — 1 степенями свободы. Координаты вектора У связаны очевидным скалярным соотношением qTV = 0, вытекающим из равенств ^2 Р» =Y2p» — ^ (напомним, что q — вектор с координатами у/pi,..., у/pn)• Именно поэтому ковариационная матрица вектора V имеет ранг N — 1. Теорема о сходимости распределения величины VTV к \2-распределе- \2-распределению ciV-1 степенями свободы была доказана К. Пирсоном [72, 73]. 5.4.2. Значение предельных теорем. Из доказанной предель- предельной теоремы следует, что распределение сумм случайных величин Х\,..., Хп при достаточно большом п как угодно близко к нормаль- нормальному N(^2mv,nK). Теорема о сходимости последовательности распределений надле- надлежащим образом нормированных сумм центрированных случайных ве- величин к нормальному распределению при весьма общих условиях рас- распространяется на случай независимых величин Xv с различными рас- распределениями, а также на случай зависимых величин Xv [54, 55, 17, 44, 120]. Предельные теоремы образуют обширный раздел современной теории вероятностей. Они объясняют причины широкого распростра- распространения нормального распределения и механизм его формирования. На основании предельных теорем можно утверждать, что во всех случа- случаях, когда случайная величина образуется в результате суммирования большого числа независимых или слабо зависимых случайных вели- величин, дисперсия каждой из которых мала по сравнению с дисперсией суммы, распределение этой величины оказывается практически нор- нормальным.
5.5. Информация, содержащаяся в функциях случайных величин 223 5.5. Информация, содержащаяся в функциях случайных величин 5.5.1. Информация в функциях случайных величин. Пусть 1иУ- случайные величины, Z = ip(X) — функция величины X. Задача состоит в том, чтобы сравнить объемы информации для У, содержащиеся в X и Z. \> Если (р(х) представляет собой взаимно однозначное отображе- отображение области возможных значений величины X в пространстве зна- значений величины X, то согласно E.31) плотность величины Z и ее условная плотность, заданная при Y = у, выражаются через соответ- соответствующие плотности величины X формулой Mz)=f1(V>-1(z))\J(z)\, 93(z\y) = h^-1(z)\y)\J(z)\. Но объем информации в Z для Y определяется в соответствии с фор- формулой D.101) как I IV] - ЛЛое 93{Z'Y) - М log f^W Iy) - lz [Y\ - M log -j-^y- - M log M(p.4z)) - fjXW =1Х\У]. < Таким образом, доказана теорема о том, что все функции величи- величины, X, представляющие собой однозначные отображения в област/а возможных значений величины X в пространство значений величи- величины X, содержат тот эюе объем информации для любой другой слу- случайной величины Y', равной объему информации в X для величины Y. На практике замена случайной величины X некоторой функцией Z — ср(х) представляет собой преобразование сигнала, который наце- нацелен на сокращение данных, т.е. при значительном уменьшении раз- размерности вектора, представляющего данные. Любое такое преобра- преобразование сопровождается ошибками, которые подразумевают, что для любого данного значения х величины X результат преобразования Z представляет собой случайную величину. Возникает вопрос: каково изменение объема информации, вызванное преобразованием случай- случайной величины X? Интуитивно ясно, что объем информации не может быть увеличен преобразованием. Теорема, доказанная ранее показы- показывает, что взаимно однозначное отображение сохраняет объем инфор- информации. Таким образом, вполне естественно заинтересоваться тем, су- существуют ли преобразования, сокращающие размерность величины X и в то же время сохраняющие объем информации. Ответы на эти вопросы будут даны в последующих двух пунктах. Докажем, что ни одно преобразование не может увеличить объем информации. Мы по- покажем, что, имея некоторую предварительную информацию о распре- распределениях, иногда бывает возможным найти функцию наблюдаемой
224 Гл. 5. Функции случайных величин случайной величины, содержащую тот же объем информации, что и у самой наблюдаемой случайной величины, но имеющую значительно меньшую размерность. Классическими примерами таких функций в задачах результатов наблюдений являются достаточные статистики (п. 6.2.2). 5.5.2. Никакое преобразование случайной величины не может увеличить объем информации. Теперь мы оценим изме- изменение объема информации, вызванное заменой наблюдаемой случай- случайной величины другой случайной величиной. D> Пусть Y — изучаемая случайная величина, X — наблюдаемая случайная величина, Z — случайная величина, связанная со случай- случайной величиной X, fs(z\x) — условная плотность величины Z с задан- заданным значением х величины X. Предположим, что для любого значе- значения х величины X случайные величины Y и Z являются независимы- независимыми (т.е. они условно независимы при данном значении х величины X). Это предположение отражает тот факт, что ошибки преобразований являются всегда независимыми от случайной величины У, для кото- которой требуется информация. В таких условиях совместная плотность величин X, Y и Z определяется формулой f(x,y,z) = Мх)Му | x)fs(z | х). E.62) В соответствии с D.101) разница между объемами информации IX[Y] и IZ[Y] выражается формулой Ix[Y}-IZ[Y} = Mlog ^Щ, E.63) где д2^У | z) — условная плотность величины Y с заданным значением величины Z. Используя E.62) и формулы п. 4.2.1, получаем оо / f\{x)f2{y\x)fs{z\x)dx 92(y\z)=--^s . E.64) / fi(x)fs(z\x)dx — оо Формула E.63) может быть переписана в виде оо оо оо IX[Y]-IZ[Y]= I I I f{x,y,z)log^^dxdydz = — оо —оо —оо оо оо = / / h(x)h(z\x)dxdz I f2(y\x) log
5.5. Информация, содержащаяся в функциях случайных величин 225 Согласно B.55) последний интеграл является неотрицательным. То- Тогда IZ[Y] ^ ^с[Х]- Равенство возможно тогда и только тогда, ко- когда #2 (у | х) совпадает с /2 (у \ х). В свою очередь это условие может быть удовлетворено, только если Z представляет собой функцию ве- величин X, Z = (р(Х). <\ Если (р(х) является взаимно однозначным отображением обла- области возможных значений величины X в n-мерном пространстве, то f3(z\x) = S(z — (p(x)), и замена переменных и = ip(x), x — ср~1(х) в формуле E.64) дает оо f Mx)h(y\x)S(z-V(x))dx 92{У I Z) - = \y)) S(z ~ и) \J\ du I h^-\u))&{z-u)\3\du — oo где J — якобиан компонентов функции ср~1(и) по компонентам век- вектора и. Таким образом, IZ(Y) — IX(Y), если ip(x) представляет собой взаимно-однозначное отображение. Так мы получаем еще раз резуль- результат п. 5.5.1. 5.5.3. Достаточные преобразования. Теперь рассмотрим слу- случай, когда размерность функции ip(x) меньше, чем размерность функ- функции у(х). \> Если размерность ср(х) равна г < п, то мы берем такую век- векторную функцию ip(x) размерности п — г, что уравнения ср(х) = z, ф(х) = и имеют единственное решение относительно х в области воз- возможных значений функции X, и вводим вспомогательную случайную величину U — ф(Х). Замечание. Чтобы найти такую функцию ф(х), достаточно взять за и множество криволинейных координат точки на гиперплос- гиперплоскости ip(x) = z. Тогда получаем взаимно однозначное соответствие между значениями х и парами {z.u}. Из E.63) имеем Ix[Y] - IZ[Y] = Mlog fl{X)f3(Z)g3(Y\Z) MX)MY)p(Z\Y) ь fi(X)p(Z\y
226 Гл. 5. Функции случайных величин где p(z | у) — условная плотность величины Z при Y = у. Теперь, так как уравнения ср(х) = z, ф(х) = и имеют единственное решение отно- относительно х в области возможных значений величины X, плотности /i (ж) и Д (х 12/) могут быть выражены через соответствующие плот- плотности случайного вектора [ZT UT]T, Z = ip(X), U = ф(Х). Применяя формулу E.31), имеем Л(аО=/з(*)91(«1*Ш1|. М*\У)=Р(*\У)ЯЫУ,*)Ш, E-66) где z = ц>(х), и = ^(ж), ^i (u\z) — условная плотность величины U при Z = z, q(u\y,z) — условная плотность величины U при Y = у, Z = z, J\ — якобиан компонентов вектора [zT uT]T относительно компонен- компонентов вектора х. Используя E.66), мы преобразуем E.65) в С помощью теоремы умножения плотностей D.23) и формулы D.8) находим совместную плотность величин Y. Z, U h(y,z,u) = f2(y)p(z\y)q(u\y,zL совместную плотность величин Z, U сю h2(z,u)= / f2(y)p(z\y)q(u\y,z)dy — сю и условную плотность величины U при Z — z сю qi(u\z)=f^^ = j^-) f f2(y)p(z\y)q(u\y,z)dy. E.67) — сю Тогда получаем сю сю сю IX[Y]-IZ[Y]= I I I f2(y)p(z\y)q(u\y,z)logq-^^-dydzdu = — сю —сю —сю сю сю h{y) Pi* I У) dy dz I q(u | y, z) log *j$$ du. Принимая во внимание, что f2(y)p(z\y)qi(u\z) представляет собой некоторую плотность и используя неравенство B.55), получаем, что 7.[У] = /Ж[У] тогда и только тогда, когда q(u | у, z) — q-±(u \ z), т.е.
5.5. Информация, содержащаяся в функциях случайных величин 227 если q(u\y,z) является независимой от у: q(u\y,z) — q(u \ z). В этом случае E.67) дает следующее условие: оо qi(u\z) = ^фу J f2(y)p(z\y)dy= |з(^у =q(u\z). — оо Поэтому IZ[Y]=IX\Y]. < Мы называем преобразование Z = ip(X) случайной величины X достаточным преобразованием для У, если для любого другого преобразования U = ф(Х) такого, что уравнения (р(х) = z, ip(x) = z имеют единственное решение относительно х в области возможных значений величины X, а условная плотность случайной величины U — ф(Х) при Y = у, величина Z = z является независимой от у: q(u \y,z) = q(u | z). Таким образом, мы доказали теорему: любое пре- преобразование наблюдаемой случайной величины ведет к потере инфор- информации и только взаимно однозначное отображение и достаточные преобразования сохраняют объем информации. 5.5.4. Энтропия случайных последовательностей. В прак- практических приложениях теории вероятностей большую роль играют неограниченные случайные последовательности. Так, например, пере- передаваемые по телеграфу сообщения представляют собой случайные по- последовательности букв и цифр. Весьма важной характеристикой слу- случайных последовательностей является энтропия, которая определяет некоторые важные асимптотические свойства случайных последова- последовательностей [132,133]. В разд. 5.4 мы уже встречались с последователь- последовательностями случайных величин и, в частности, с последовательностями независимых случайных величин как с простейшим видом случайных последовательностей. Однако для приложений недостаточно рассмат- рассматривать только последовательности независимых случайных величин. В самом деле, легко понять, что вероятность появления той или иной буквы или цифры при передаче очередного знака телеграфного со- сообщения никак нельзя считать совершенно независимой от того, ка- какие буквы или цифры предшествуют данной: например, вероятность появления буквы «а» после буквы «п» довольно велика, в то время как вероятность появления буквы «а» после буквы «ы» практически равна нулю. Во многих случаях оказывается возможным считать слу- случайную последовательность простой целью Маркова. Последователь- Последовательность дискретных случайных величин Xi, X2,..., имеющих одни и те же возможные значения xi,... ,жп, называется простой цепью Мар- Маркова^ если условные вероятности значений х\,..., хп для каждой по- последующей случайной величины Х^ зависят только от значения непо- непосредственно предшествующей случайной величины Xk-i и не зависят от значений, которые принимают другие предшествующие случайные величины Xl, ..., Х&_2. В частности, случайные величины Xi, X2,...
228 Гл. 5. Функции случайных величин могут представлять собой значения одной и той же случайной ве- величины X в ряде опытов. В этом случае говорят, что рассматри- рассматриваемая последовательность опытов представляет собой простую цепь Маркова. Пусть q-Lj — условная вероятность того, что величины Х^ примет значение Xj при условии, что величина Xk-i принимает значение х\ (г, j = 1,... ,гг). Если рассматриваемая последовательность случай- случайных величин представляет собой последовательность значений одной и той же случайной величины в ряде опытов, то qij представляет собой вероятность появления значения Xj случайной величины при условии, что в результате предшествующего опыта она принимает значение х\. Иными словами, q^ есть вероятность перехода от х\ к значению Xj в следующем опыте. Цепь Маркова вполне определяется вероятностя- вероятностями перехода qij (г, j — 1,..., п). Если безусловные вероятности значе- значений х\,..., хп одинаковы для всех случайных величин цепи Маркова, то цепь Маркова называется эргодической. В этом случае безуслов- безусловные вероятности pi,... ,рп значений xi,...,хп вполне определяются вероятностями перехода q^. Понятие цепи Маркова легко обобщает- обобщается на более сложные случаи, когда условные вероятности различных возможных значений каждой последующей величины зависят от зна- значений не одной, а нескольких непосредственно предшествующих ве- величин. В отличие от простых цепей Маркова такие последователь- последовательности называются сложными цепями Маркова. В дальнейшем мы будем рассматривать только эргодические простые цепи Маркова. При этом для простоты будем считать, что рассматриваемая цепь Маркова представляет собой последовательность значений одной слу- случайной величины X в ряде опытов. Энтропией цепи Маркова называется средняя условная энтропия случайной величины X в каждом данном опыте. Согласно определе- определению средней условной энтропии D.96) энтропия цепи Маркова выра- выразится формулой # = - ^PiQij log qij. E.68) D> Для вывода свойств цепи Маркова, определяемых ее энтропи- энтропией, обозначим через Mi число появлений значения х\ величины X (г = 1,.... п), а через Мц — число переходов от значения Xj к значе- значению Xj (г, j = 1,..., п) при N опытах. Согласно закону больших чисел (п. 5.4.1) при достаточно большом числе опытов N для любых поло- положительных е и 5 справедливы неравенства >1-ё (г = 1,...,п), E.69) >1-S (i,j = L...,n). E.70)
5.5. Информация, содержащаяся в функциях случайных величин 229 Mi, N Заметим теперь, что из неравенств ] <е, \MijMi-qijl <е E.71) вытекают неравенства \Мщ - Npiqij\ < Nqije <: Ne, При совместном выполнении обоих неравенств E.72), очевидно, вы- выполняется также неравенство \Mij-Npiqij\ <2Ns. E.73) Невыполнение этого неравенства возможно только в том случае, если не выполняется хотя бы одно из неравенств E.72). Но первое нера- неравенство E.72) может нарушиться только в том случае, если нару- нарушится первое неравенство E.71), а второе неравенство E.72) может нарушиться только в том случае, если нарушится второе неравен- неравенство E.71). Следовательно, для нарушения неравенства E.73) необ- необходимо нарушение хотя бы одного из неравенств E.71). Вероятности невыполнения каждого из неравенств E.71), согласно E.69) и E.70), меньше произвольно малого числа 8, если N достаточно велико. А так как вероятность появления хотя бы одного из нескольких событий не может быть больше суммы вероятностей этих событий, то вероят- вероятность нарушения неравенства E.73) при достаточно большом N будет не больше 26: P(\Mij - Npiqij\ ^ 2Ns) < 28. E.74) Оценим теперь вероятность того, что неравенство E.73) нару- нарушится хотя бы для одной пары значений индексов г, j. Эта вероят- вероятность на основании только что сделанного замечания не больше сум- суммы вероятностей невыполнения неравенства E.73) для всех возмож- возможных пар индексов г, j. Но, по доказанному, вероятность невыполнения неравенства E.73) для каждой данной пары индексов i,j меньше, чем 28, если N достаточно велико. Следовательно, вероятность невы- невыполнения неравенства E.73) хотя бы для одной пары значений г, j меньше, чем п - Npiqij\ ^ 2Ns) < 2п28. E.75) А так как 6 произвольно мало при достаточно большом JV, то нера- неравенство E.73) с вероятностью, сколь угодно близкой к единице, будет выполнено для всех значений г, j, если число опытов ЛГ достаточно велико. <\
230 Гл. 5. Функции случайных величин Доказанное предложение можно написать в виде формулы lim P(\Mij - Npiqij\ <: 2Ne) = 1 (г, j = 1,... ,n). E.76) TV-xx) D> Рассмотрим теперь вероятность появления какой-либо произ- произвольной последовательности значений случайной величины X при N опытах. Эта вероятность, очевидно, равна произведению безусловной вероятности значения, которое величина X принимает в первом опы- опыте, и условных вероятностей значений, появляющихся в последующих опытах. Принимая во внимание, что число переходов от значения xi к значению Xj величины X при N опытах мы обозначили через Mij (i^j = 1,..., п), и обозначая значение величины X в первом опыте че- через хк, получим выражение для вероятности появления произвольной заданной последовательности значений величины X при N опытах: Так как при N опытах могут появиться различные последовательно- последовательности значений величины X, имеющие различные вероятности, то ве- вероятность появляющейся последовательности можно рассматривать как случайную величину. В формуле E.77) это отражено тем, что но- номер К значения величины X в первом опыте и числа переходов Мц являются случайными величинами. Положим Мц = N(piqij + Sij) (i,j = l,..., n). E.78) Подставив выражение E.78) в E.77), получим после логарифми- логарифмирования п - = log N Ч Рк n = bg J- + NH - N T Sij lQg Qij > E-79) PK i% или hlogh = ilogh+H ~ ? Siilogqij- E'80) Подставляя выражение E.78) в неравенство E.73), приведем его к следующему виду: \Sij\ <2e. E.81)
5.5. Информация, содержащаяся в функциях случайных величин 231 Из E.80) следует, что при совместном выполнении неравенства E.73) и равноценных им неравенств E.81) имеет место неравенство E.82) ' Рк fT±i ~ qij V J При достаточно большом N и достаточно малом е правая часть нера- неравенства E.82) будет меньше произвольного числа т] > 0. Правая часть неравенства E.82) может быть сделана сколь угодно малой только в том случае, если ни одна из вероятностей q^ не равна нулю. Если некоторые вероятности q^ равны нулю, то ввиду того, что последо- последовательности с нулевой вероятностью Q нас не интересуют, в произве- произведении в формуле E.77) и соответственно в суммах в формулах E.79), E.80) и E.82) члены с нулевыми вероятностями q^ должны отсут- отсутствовать. В этом случае правая часть неравенства E.82) также может быть сделана сколь угодно малой. Значит, так как при произвольно малом е вероятность совместного выполнения всех неравенств E.75), а следовательно и всех неравенств E.81), согласно E.78), сколь угод- угодно близка к единице, если N достаточно велико, то и вероятность того, что левая часть неравенства E.82) будет меньше произволь- произвольно малого числа ту, сколь угодно близка к единице при достаточно большом N и Таким образом, мы доказали, что при достаточно большом числе опытов N с вероятностью, как угодно близкой к единице, появля- появляется одна из таких последовательностей значений случайной вели- величины X, вероятности которых удовлетворяют неравенствам a-N(H+v)<Q<a-N(H-ri)^ E84) где а — основание логарифмов, г] — произвольное малое число. Доказанное предложение резко ограничивает число практически возможных последовательностей при неограниченном возрастании числа опытов. Найдем соответствующие условия. \> Расположим все возможные последовательности значений ве- величины X при N опытах в порядке убывания их вероятностей и поставим задачу оценить наименьшее число наиболее вероятных по- последовательностей, сумма вероятностей которых не меньше данного числа q, не равного нулю или единице. Обозначим искомое число наиболее вероятных последовательностей через v(q). Так как при достаточно большом N сумма вероятностей последовательностей, вероятности которых не удовлетворяют неравенствам E.84), меньше произвольно малого числа ($, то в число v{q) наиболее вероятных последовательностей войдут все последовательности, вероятности
232 Гл. 5. Функции случайных величин которых больше a~N^H~v\ и некоторое число v\{q) последовательно- последовательностей, вероятности которых удовлетворяют неравенствам E.84). Сле- Следовательно, v(q) — v\{q) + ^2•> гДе и2 — число возможных последова- последовательностей, вероятности которых больше a~N(H~r]). Последователь- Последовательности, вероятности которых меньше a~N(H+v\ очевидно, не войдут в число наиболее вероятных последовательностей, имеющих суммар- суммарную вероятность q, так как по условию q < 1, а сумма вероятно- вероятностей всех последовательностей, вероятности которых удовлетворяют неравенствам E.84), как угодно близка к единице и, следовательно, больше q при достаточно большом N. Таким образом, вероятность каждой из i/(q) наиболее вероятных последовательностей больше, q<l. E.85) Отсюда находим: log v{q) - N(H + rj) < 0 E.86) ^-Я<4. E.87) С другой стороны, так как сумма вероятностей всех последователь- последовательностей, вероятности которых не удовлетворяют неравенствам E.84), меньше произвольно малого числа S, то сумма вероятностей vi(q) последовательностей, вероятности которых удовлетворяют неравен- неравенствам E.84), больше q — 5. А так как вероятность каждой из этих последовательностей меньше a~N(H~r]), то q-S<vi (q)a-N{H-^ < p{q)a-N{H-^ . E.88) Отсюда находим logfa -S)< log v(q) - N(H - г]) E.89) ^8)-,. E.90) Неравенства E.87) и E.90) доказывают, что lim ^ = Н, E.91) так как rj произвольно мало при достаточно большом N. <\ Таким образом, каково бы ни было число q @ < q < 1) и как бы мало ни было положительное число rj, наименьшее число наиболее вероятных последовательностей v(q), имеющих суммарную вероят-
5.5. Информация, содержмщаяся в функциях случайных величин 233 носгпъ, не меньшую чем q, удовлетворяет неравенствам если N дост,ат,очно велико. На первый взгляд может показаться парадоксальным, что чис- число наиболее вероятных последовательностей с общей вероятностью q определяется равенством E.91) независимо от значения q, от кото- которого требуется лишь, чтобы оно не было равно нулю или единице. В действительности ничего парадоксального в этом нет. Если q\ < q^, то числа v{q\) и v{cti) и их разность неограниченно возрастают, но при этом разность v{fti) — v{fh) растет медленнее, чем v{qi) и victi)-, так что у {fix) и v{fti) являются бесконечно большими величинами одного порядка. Пример 5.51. Сообщение передается двоичным кодом. Энтропия по- последовательности на один знак равна 0,75 бит. Найти общее число возмож- возможных реализаций и число практически возможных реализаций последова- последовательности, содержащей 100 знаков. В данном случае N = 100, п = 2, К = 1, Н = Hi — 0,75. Общее число возможных реализаций равно nN = 2100. Чис- Число практически возможных реализаций на основании изложенного равно 2^нг _ 21000,75 __ 2?5 Отношение числа всех возможных реализаций к чис- числу практически возможных равно = 2ZO = 1024z'5 > 30 • 10° Таким образом, в данном случае число практически возможных реализа- реализаций сигнала составляет меньше чем одну тридцатимиллионную долю числа всех возможных реализаций. Для более длинных последовательностей эта доля будет еще значительно меньше. Так, например, для N = 1000 отно- отношение числа всех возможных реализаций к числу практически возможных реализаций больше 1075. Полученный результат имеет чрезвычайно большое значение для прак- практики, так как позволяет резко ограничить число практически возможных реализаций передаваемых сигналов. А именно, доказанное предложение и рассмотренные примеры показывают, что из полного числа nN = 2N log2 a всех возможных реализаций сигнала практически возможно появление лишь 2ЛЯ1 реализаций. При большом N л Hi < Hi max = log2 n число 2NHl составляет лишь ничтожно малую долю числа nN. Таким образом, лишь ни- ничтожно малая доля всех возможных реализаций оказывается практически возможной, а подавляющее число остальных реализаций имеет ничтожно малую суммарную вероятность появления. Зная энтропию последователь- последовательности, можно определить число практически возможных ее реализаций и учитывать в практических расчетах только это относительно небольшое число реализаций, а с подавляющим числом остальных реализаций совер- совершенно не считаться. Пример 5.52. Передача сообщения ведется на русском языке буква- буквами русского алфавита. Энтропия русской речи, приходящаяся в среднем на одну букву, приблизительно равна двум двоичным знакам. Определить
234 Гл. 5. Функции случайных величин число практически возможных сообщений, составленных из 100 букв, и сравнить его с числом всех возможных последовательностей по 100 букв русского алфавита. Так как в русском алфавите 32 буквы (е и ё считают- считаются одинаковыми), то п = 32, N = 100, К = 1, Я = Hi = 2, 2NHl = 2100'2 = = 2200 и N 2200 3240 Таким образом, из всех возможных последовательностей, составленных из 100 русских букв, лишь ничтожно малая доля представляет собой имею- имеющие смысл последовательности русских букв, а остальные являются слу- случайными наборами букв. Это говорит о том, что язык обладает большой избыточностью. Действительно, так как то каждой имеющей смысл последовательности из N букв можно по- поставить в соответствие другую последовательность, составленную из s = = NHi/ \og2 n букв. Иными словами, все имеющие смысл сообщения, со- составленные из N букв, можно закодировать последовательностями, состав- составленными из s букв каждая. При этом все возможные последовательности из s букв будут иметь смысл. Так как для любого европейского языка вели- величина Hi/ log2 п не превышает 0,5, то все имеющие смысл сообщения можно закодировать приблизительно вдвое более короткими последовательностя- последовательностями букв. Это и доказывает, что лишь 50% букв в нашей речи независимы, а остальные практически полностью определяются законами грамматики. Иными словами, наш язык обладает большой избыточностью, и лишь при- приблизительно 50% букв в нем несут информацию. Избыточность языка позволяет практически достоверно расшифровать сообщения с ошибками, заменяя ошибочные буквы правильными. Именно поэтому мы легко обнаруживаем опечатки в тексте и исправляем их. Если бы язык не обладал избыточностью, то каждая ошибочная буква меняла бы смысл написанного, и опечатки было бы невозможно обнаруживать и исправлять. 5.5.5. Кодирование сообщений. Применим изложенные в п. 5.5.4 соображения к задаче кодирования сообщений. Для того что- чтобы закодировать сообщение, необходимо последовательности его зна- знаков поставить в соответствие другую последовательность знаков. Про- Простейшим примером кодирования может служить замена последова- последовательности букв алфавита последовательностями точек и тире азбуки Морзе. Другим примером кодирования может служить сопоставление звукам устной речи последовательностей букв. Кодирование может сопровождаться потерей информации, и только в случае обратимого кода, т.е. кода, допускающего однозначную расшифровку (декодиро- (декодирование), количество информации остается неизменным. Поэтому необ- необходимо всегда стремиться применять обратимые коды. Очевидно, что при кодировании надо стараться по возможности сокращать текст, так как при этом сокращается время передачи со- сообщений и увеличивается скорость передачи информации. В приме-
5.5. Информация, содержащаяся в функциях случайных величин 235 ре 5.52 мы видели, что вследствие избыточности речи можно при кодировании сжать текст в log2 n/H\ раз. При этом обеспечивается взаимно однозначное соответствие между имеющими смысл последо- последовательностями, содержащими по N букв, и всеми возможными по- последовательностями по s — NHi/ \og2n букв, т.е. обеспечивается об- обратимость кода и возможность его однозначной расшифровки. Легко понять, что при сжатии текста больше чем в log2 n/H\ раз код станет необратимым, так как число возможных последовательностей букв будет меньше числа практически возможных сообщений. Однако практическое осуществление кодирования с максималь- максимальным сжатием текста очень затруднительно вследствие практической невозможности перебрать все возможные варианты сообщений раз- различной длительности. Поэтому практически осуществляется кодиро- кодирование не целых сообщений, а отдельных групп знаков. При этом, очевидно, чем чаще встречается данная группа знаков, тем более ко- короткой последовательностью знаков ее следует кодировать. Иными словами, при кодировании следует стремиться к тому, чтобы кодиро- кодировать более короткими последовательностями знаков те группы знаков, которые имеют большую вероятность появления. 5.5.6. Передача информации по каналу с шумами. Сово- Совокупность устройств, с помощью которых некоторое физическое яв- явление используется для передачи информации, называется каналом. Вследствие искажения в канале передаваемых сигналов шумами, неизбежно действующими в канале, каждому принятому сигналу У, вообще говоря, не будет соответствовать один возможный переданный сигнал X. Иными словами, после приема сигнала Y переданный сиг- сигнал X не будет полностью определен, а остается случайным. Неопре- Неопределенность переданного сигнала X будет характеризоваться средней условной энтропией X относительно Y. Поэтому количество инфор- информации о переданном сигнале X, содержащееся в принятом сигнале У, определяется формулой D.100). Количество информации в каждом знаке передаваемого сигнала в зависимости от способа кодирования будет различным. Поэтому ко- количество информации, передаваемое по каналу в единицу времени, будет зависеть от способа кодирования и от числа передаваемых в единицу времени знаков сигнала. Максимальное количество инфор- информации, которое может быть передано по данному каналу в единицу времени, называется пропускной способностью этого канала. Считая, что через Н[Х] и НУ[Х] в D.100) обозначены соответственно энтро- энтропия и средняя условная энтропия сигнала, приходящиеся на единицу времени, pi обозначая пропускную способность канала через С, можем записать сформулированное определение пропускной способности ка- канала в виде С = max{Iy[X]} = гпах{Я[Х] - НУ[Х]}. E.93)
236 Гл. 5. Функции случайных величин Предположим, что информация передается по каналу со ско- скоростью Н = Н[Х], меньшей пропускной способности канала С, и оце- оценим вероятность ошибки при расшифровке принятого сигнала. Для этого обозначим через Я(т) и Щт^ соответственно значения Н[Х] и НУ[Х], при которых достигается максимум в E.93). Тогда E.93) даст С = нМ-Щт\ E.94) На основании доказанного в п.5.5.4 максимальное число практически возможных реализаций переданного сигнала данной длительности Т при том способе кодирования, при котором i?[X] достигает макси- максимального значения Н(т\ равно 2th ™ , а число практически возмож- возможных реализаций сигнала X, соответствующих одной реализации при- принятого сигнала У, при этом равно 2Тну . Иными словами, максималь- максимальное число практически возможных различных последовательностей знаков, каждая из которых может быть передана в течение времени Т по данному каналу, равно 2th m . При этом каждой принятой после- последовательности знаков соответствует 2 у практически возможных переданных последовательностей. Если информация, содержащаяся в сигнале X, передается со ско- скоростью Н бит/с, то число практически возможных реализаций этого сигнала длительности Т равно 2ГН < 21П ™ . Рассмотрим такой спо- способ кодирования, при котором каждой из практически возможных реализаций переданного сигнала сопоставляется одна из 2ТН по- последовательностей знаков, т.е. из общего числа 2th m точек выбира- выбирается 2ТН точек. При этом вероятность того, что данная точка будет занята одной из возможных реализаций передаваемого сигнала, равна 2ТЯ/2ТЯ m — 2~т(н m ~H\ Но вероятность появления хотя бы одно- одного из нескольких событий не может быть больше суммы вероятностей этих событий. Поэтому вероятность того, что при кодировании бу- будет занята хотя бы одна из 2тну точек, соответствующих данной реализации принятого сигнала У, кроме той, которая соответствует действительно переданной реализации сигнала X, будет меньше, чем 2тну • 2~т(н m ~H. Для вероятности ошибки рош при передаче сиг- сигнала X имеем неравенство Рош <^ или, принимая во внимание E.94), Рош ^2-т^с~н\ E.95) При Н < С это выражение стремится к нулю при Т —У оо. Таким обра- образом, мы доказали, что при передаче информации по каналу с пропуск-
5.5. Информация, содержащаяся в функциях случайных величин 237 ной способностью С со скоростью Н < С можно закодировать пере- передаваемый сигнал так, что вероятность ошибки будет сколь угодно мала при достаточно большой длительности передаваемого сигна- сигнала Т. Это предложение представляет собой основную теорему Шен- Шеннона [134]. Более тонкие математические методы дают возможность доказать, что эта теорема верна и при Н = С. Очевидно, однако, что возможность передачи информации по ка- каналу с шумами со сколь угодно малой вероятностью ошибки может быть достигнута лишь ценой запаздывания, необходимого для рас- расшифровки принятого сигнала, так как декодирование можно осуще- осуществить лишь после того, как будет передана вся последовательность знаков сигнала. Рассмотрим теперь случай передачи информации по каналу, имею- имеющему пропускную способность С, со скоростью Н > С. Из E.93) сле- следует, что при любом кодировании Н -Ну <С С, E.96) откуда НУ^Н -С. E.97) Таким образом, при передаче информации по каналу с пропускной способностью С со скоростью Н > С неопределенность в принятом сигнале не Л4ожет быть меньше, чем Н — С бит/с. В этом состоит вторая основная теорема Шеннона [134]. Число практически возможных реализаций переданного сигнала при данном принятом сигнале в этом случае равно 2ТНу1 причем все эти реализации практически одинаково вероятны, и вероятность каж- каждой из них равна 2~1Ну. Следовательно, вероятность выбора действи- действительно переданной реализации из 2ТНу практически возможных ре- реализаций при данном принятом сигнале равна 2~ТНу, а вероятность ошибки равна 1 — 2~ТНу. Отсюда, принимая во внимание E.97), по- получаем для вероятности ошибки следующее неравенство: Рош = 1 - 2-гя» ? 1 - 2-т<я-с'. E.98) Из этого неравенства следует, что вероятность ошибки стремится к единице при Т —У оо, если Н > С. Этот результат показывает, что пе- передача информации со скоростью, превышающей пропускную способ- способность канала, практически невозможна. Пример 5.53. Определить необходимую пропускную способность cs канала с шумом. Обозначим через Dx дисперсию сигнала X, несущего ин- информацию. Если шум V суммируется в канале с сигналом X, то в каждый момент времени У = Х + У E.99) и HX[Y] = H[V]. E.100)
238 Гл. 5. Функции случайных величин Таким образом, средняя условная энтропия принимаемого сигнала Y рав- равна энтропии шума и, следовательно, не зависит от способа кодирования информации. На основании E.99) и E.100) формулу E.93) для пропускной способно- способности канала можно переписать в виде С = тах{Я[Х + V]} - H[V]. E.101) Так как шум V обычно можно считать нормально распределенной слу- случайной величиной в каждый момент времени, то энтропию его значения при данном значении t можно вычислить по формуле C.95) Я! [У] = log2 y/2izeDv. E.102) При этом значения шума, разделенные промежутком времени между дву- двумя последовательно передаваемыми значениями сигнала, можно считать независимыми. Тогда, если в секунду по каналу передается s значений сиг- сигнала X, то энтропия шума в единицу времени будет равна H[V] = з log2 V27reDv. E.103) Для вычисления тах{Я[Х + У]} вспомним, что из всех случайных ве- величин, имеющих одну и ту же дисперсию Dx + Dv, максимальной энтро- энтропией обладают нормально распределенные случайные величины. Поэтому наибольшее количество информации в каждом значении сигнала можно получить, если пользоваться для передачи информации нормально распре- распределенным случайным сигналом. В этом сигнале наибольшая возможная эн- энтропия на один знак сигнала равна тах{Нг[Х + V]} = log2 ^2<7re(Dx +DV). E.104) А так как совместная энтропия нескольких случайных величин не может быть больше суммы их энтропии и равна сумме их энтропии, только когда они независимы, то для получения максимальной энтропии сигнала X + V на единицу времени необходимо пользоваться сигналом X с независимыми значениями. В этом случае при передаче в единицу времени s значений сигнала будем иметь тах{Я[Х + V]} = slog2 y/2ire(Dx + Dv). E.105) Из E.101), E.103) и E.105) следует, что при передаче s значений сигнала в единицу времени максимальное количество информации, которое может быть передано в единицу времени по каналу, равно Cs = max{tf [X + V]} - H[V] = | log2 (l + gl). E.106) Формула E.106) определяет пропускную способность канала.
Глава 6 ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ 6.1. Основные задачи математической статистики 6.1.1. Определение статистических характеристик из опы- опыта. Для получения исходных данных для вероятностных расчетов, так же как и для получения исходных данных для любых других практических расчетов, приходится обращаться к опыту. Методы ана- анализа результатов опытов и определения по ним вероятностей событий и характеристик случайных величин дает математическая стати- статистика — обширный раздел современной теории вероятностей. Из нашего подхода к определению основных понятий теории веро- вероятностей в предыдущих главах непосредственно вытекают и способы определения основных статистических характеристик из опыта. Так, мы знаем, что за вероятность события можно принять его частоту при большом числе опытов, за математическое ожидание и диспер- дисперсию случайной величины — выборочное среднее и выборочную дис- дисперсию, за ковариацию и коэффициент корреляции двух случайных величин — выборочные ковариацию и коэффициент корреляции. На- Наконец, плотность случайной величины можно определить как отно- относительную плотность экспериментальных точек в соответствующих интервалах. Однако при этом остается много неясных вопросов. При любом измерении или экспериментальном определении какой-либо ве- величины всегда возникает вопрос о точности определения этой вели- величины. Так и в нашем случае прежде всего возникает вопрос: с какой точностью мы получаем вероятность события, принимая за нее часто- частоту этого события? Что надо сделать, чтобы повысить точность опре- определения вероятности события? Сколько нужно произвести опытов, чтобы получить вероятность события с заданной точностью? Подоб- Подобные вопросы возникают и при определении характеристик случайных величин. Все эти вопросы необходимо уметь решать, чтобы знать, на- насколько можно доверять полученным из опыта данным и основанным на них расчетам, полагаться на них в нашей практической деятель- деятельности. Прежде всего, ясно, что не может быть речи о точном определении вероятности события по конечному числу опытов. Конечно, случайно частота события может оказаться равной его вероятности. Но это ма- маловероятно и обнаружить это совпадение невозможно. Частота собы- события, полученная в результате опытов, практически всегда отличается от его вероятности.
240 Гл. 6. Оценивание параметров распределений Однако и о приближенном в обычном смысле определении вероят- вероятности события по результатам опытов говорить не приходится. Говоря о приближенном определении какой-либо величины, мы обычно под- подразумеваем, что можно указать пределы погрешности, из которых ошибка не выйдет. Частота же события случайна при любом числе опытов из-за случайности результатов отдельных опытов. Так, на- например, если мы будем много раз определять частоту одного и того же события, скажем появления герба, по результатам 100 опытов, то будем получать различные значения частоты этого события. Из-за случайности результатов отдельных опытов частота может довольно значительно отклоняться от вероятности события. Поэтому, опреде- определяя неизвестную вероятность события как частоту этого события при большом числе опытов, мы не можем указать пределы погрешности и гарантировать, что ошибка не выйдет из этих пределов. Из-за случай- случайности результатов опытов полной гарантии, что ошибка не выйдет из любых заданных пределов, быть не может. Поэтому в математической статистике обычно говорят не о приближенных значениях неизвест- неизвестных величин, а об их подходящих значениях, оценках. В дальнейшем мы будем называть все подлежащие определению величины — вероятности событий, числовые характеристики и рас- распределения случайных величин — статистическими характеристи- характеристиками, а найденные по результатам опытов их значения — оценками. Оценив по результатам опытов ту или иную статистическую ха- характеристику, естественно поставить вопрос: насколько согласуется с опытными данными предположение (гипотеза) о том, что неизвест- неизвестная характеристика имеет именно то значение, которое получено в результате ее оценивания? Так возникает второй важный класс задач математической статистики — задачи проверки гипотез. Таким образом, основными задачами математической статистики являются разработка методов нахождения оценок и исследования точ- точности их приближения к оцениваемым характеристикам и разработка методов проверки гипотез. 6.1.2. Виды вероятностной сходимости. В гл. 1 и гл. 3 на основе интуитивных представлений мы пришли к выводу, что при уве- увеличении числа опытов п частоты событий и выборочные средние зна- значений случайных величин должны приближаться к соответствующим вероятностям и математическим ожиданиям. Однако вследствие слу- случайности результатов опытов о сходимости в обычном смысле здесь говорить не приходится. В связи с этим возникает необходимость вве- введения новых понятий сходимости и предела, отличных от принятых в элементарном математическом анализе. Последовательность случайных величин {Sn} называется сходя- сходящейся в среднем квадратическом (с.к. сходящейся) к случайной ве- величине 5, если M\Sn — S\2 —У 0 при п —У оо.
6.1. Основные задачи математической статистики 241 Последовательность случайных величин {Sn} называется сходя- сходящейся по вероятности (п.в.) к случайной величине 5, если при лю- любом е > О P(\Sn - S\ ^ е) -+ 0 при n ^ оо. Последовательность случайных величин {Sn} называется схо- сходящейся почти наверное (п.н.) к случайной величине 5, если P(Sn -»• S) = 1. Эти определения относятся как к скалярным, так и к конечно- конечномерным векторным случайным величинам. В последнем случае \х\ означает модуль (норму) вектора х. Так как любую неслучайную величину можно рассматривать как случайную величину с единственным возможным значением, имею- имеющим вероятность, равную единице, то приведенные определения отно- относятся и к сходимости последовательности случайных величин к неслу- неслучайной величине, в частности к нулю. 6.1.3. Неравенство Чебышева. Связь между разными ви- видами сходимости. Интуитивно ясно, что всякая с.к. сходящаяся по- последовательность сходится к тому же пределу и п.в. Для доказа- доказательства выведем сначала одно важное в теории вероятностей нера- неравенство. \> При произвольных е > 0 и р > 0 для любой случайной величи- величины X (скалярной или векторной) имеем Р(\Х\ > г) — / f(r\flr<— I \т\р f(r\ fir < \x\^e \x\^e — oo Здесь в первом и втором интегралах неравенство под знаком интегра- интеграла означает, что областью интегрирования служит множество всех ж, удовлетворяющих этому неравенству. Таким образом, при любых е > 0 и р > О Это неравенство обычно называется неравенством Чебышева. При практическом применении этого неравенства число р > 0 выбирается так, чтобы было MIX]17 < оо. Применив неравенство F.1) к случайной величине X = Sn — S при р = 2, получаем
242 Гл. 6. Оценивание параметров распределений Отсюда непосредственно следует сходимость п.в. всякой с.к. сходя- сходящейся последовательности. Обратное в общем случае неверно. Чтобы доказать это, достаточно привести соответствующий пример. Пример 6.1. Пусть Sn — случайная величина с плотностью f ( \- 1 П ( -1 9 ^ U[S)~ 7Г 1 + П^2 [n-L,Z,...) (распределение Коши). Так как ? П? P(\Sn\ <s)= [ fn(s)ds = - [ -^ = - arctg(ne) -»• 1 при п —>- оо, то Pd^nl ^ ?) —> 0 при любом ? > 0. Поэтому последователь- последовательность {Sn} сходится п.в. к нулю. Однако M|SVi|2 = оо при любом п (при- (пример 3.6), вследствие чего последовательность {Sn} не сходится с.к. к нулю. Легко сообразить, что и всякая последовательность случайных величин {Sn}, сходящаяся п.н. к S, сходится к S и п.в. О Действительно, из сходимости п.н. {Sn} к S следует, что для любого ? > 0 P(\Sm - S\ ^ ? хотя бы при одном т ^ п) -» 0 при п -» оо. Но P(\Sn — S\ ^ е) ^ P(\Sm - S\ ^ ? хотя бы при одном т ^ п), откуда и следует сходимость п.в. последовательности {Sn} к S. <\ Обратное в общем случае неверно. Пример 6.2*). Пусть Бп — случайная величина с двумя возможны- возможными значениями 0 и 1, вероятности которых равны соответственно 1 — A/п) и 1/п, причем при любых натуральных ni,...,nfc случайные величины БП1, - • • 5 Snk независимы. Последовательность {Sn} сходится п.в. к 0, так как при любом в, 0 < е < 1, P(\Sn\ >e) = P(Sn = 1) = ^ ->0 при п^оо. Однако эта последовательность не сходится п.н. к 0. Действительно, при любом в, 0 < ? < 1, Р(|$т| < ? при всех тп ^ п) ^ ^ P(\Sm\ < е при всех т, п ^ m ^ N) — - Д^гп-Uj- ^ n+l""^-l TV " 7V ' Отсюда в силу произвольности iV следует, что при любом п вероятность Зт\ < ? при всех т ^ п) меньше сколь угодно малого положительного Примеры 6.2 и 6.3 заимствованы из книги Бартлетта [3].
6.1. Основные задачи математической статистики 243 числа. А это и значит, что вероятность сходимости последовательности {Sn} равна 0, т.е. {Sn} не сходится п.н. к нулю. Заметим, что последовательность {Sn} в данном случае с.к. сходится к нулю, так как M|5n|2 = 1/п —> 0 при п —»¦ оо. Таким образом, мы имеем пример последовательности случайных величин, сходящейся п.в. и с.к., но не сходящейся п.н. Пример 6.3. Пусть Sn — случайная величина с двумя возможными значениями 0 и п, вероятности которых равны соответственно 1 — A/п) и 1/п2. Последовательность {Sn} сходится п.в. к нулю, так как при лю- любом е > 0 для всех достаточно больших п P(\Sn\ ^e) = P(Sn = п) = ^2 ->0 при п-^оо. Последовательность {Sn} сходится к 0 и п.н., так как Р(|$га| ^ в ХОТЯ бы при ОДНОМ ГП ^ п) ^ ОС ОС ^ У^ Р(БШ — т) = *) —- —>- 0 при п —>- оо и, следовательно, PdSVnl < е при всех га ^ п) —> 1 при п —»¦ оо, что и дока- доказывает сходимость последовательности {Sn} к нулю с вероятностью 1, т.е. сходимость п.н. Однако последовательность {Sn} не сходится с.к. к нулю, так как M\Sn\2 = 1 при любом п. Пример 6.4. Пусть Sn — случайная величина с возможными значе- значениями 0 и 1, вероятности которых равны соответственно 1 — A/п2) и 1/п2. Показать, что последовательность {Sn} сходится к 0 и п.в., и п.н., и с.к. Приведенные примеры показывают, что последовательность слу- случайных величин может быть сходящейся п. в., но не сходящейся с.к. или п. н., может быть сходящейся п.н., но не сходящейся с.к. и наобо- наоборот. Таким образом, как класс с.к. сходящихся последовательностей, так и класс п.н. сходящихся последовательностей являются подклас- подклассами последовательностей, сходящихся п.в., причем эти два подкласса имеют непустое пересечение. Так как в силу C.29) M\Sn - S\2 = D(Sn - S) + \MSn - MS\\ F.2) то для с.к. сходимости последовательности {Sn} к S необходи- необходима и достаточна сходимость последовательности математических ожиданий {MSn} к MS и сходимость последовательности диспер- дисперсий разностей Sn — S к нулю. Из F.2) следует также, что для с.к. сходимости последовательно- последовательности случайных величин {Sn} к неслучайной величине а необходима и достаточна сходимость последовательности математических ожида- ожиданий {MSn} к а и сходимость последовательности дисперсий {DSn} к нулю. Сходимость по вероятности, сходимость в среднем квадра- тическом и сходимость почти наверное представляют собой особые,
244 Гл. 6. Оценивание параметров распределений вероятностные виды сходимости. В частном случае последователь- последовательности неслучайных величин все эти три вида сходимости совпадают с обычной сходимостью. Таким образом, каждый из трех видов ве- вероятностной сходимости представляет собой естественное обобщение обычного понятия сходимости на случайные величины. 6.2. Оценивание статистических характеристик 6.2.1. Оценки. В математической статистике обычно рассмат- рассматривают только действительные случайные величины. Это не ограни- ограничивает общности, так как любую комплексную случайную величину можно рассматривать как двумерный случайный вектор с действи- действительными координатами. Поэтому везде в этой главе мы будем счи- считать все случайные величины, в том числе и функции случайных ве- величин, действительными. Результаты опытов мы будем везде рассматривать как случайные величины. Поэтому будем обозначать результаты опытов и все функ- функции результатов опытов большими буквами. При практическом при- применении полученных формул следует заменять в них все случайные величины их реализациями, полученными в результате опытов. Любая функция результатов опытов, которая не зависит от неиз- неизвестных статистических характеристик, называется статистикой. Оценкой статистической характеристики в называется статистика, реализация которой, полученная в результате опытов, принимается за неизвестное истинное значение параметра в. Ясно, что не всякая статистика может служить оценкой данной статистической характеристики. Поскольку результаты опытов слу- случайны, любая статистика представляет собой случайную величину. Чтобы статистика могла служить оценкой данной статистической ха- характеристики #, необходимо, чтобы распределение этой статистики было сосредоточено в достаточной близости от неизвестного значе- значения в. так, чтобы вероятность больших отклонений этой статистики от 0 была достаточно мала. Тогда при систематическом многократном применении этой статистики в качестве оценки данной характеристи- характеристики в среднем будет получаться достаточная точность. Вероятность больших отклонений будет мала, и они будут встречаться редко. Же- Желательно еще, чтобы при увеличении числа опытов точность резуль- результатов оценивания увеличивалась. В связи с этим вводят следующие определения, касающиеся оценок. Оценка статистической характеристики в называется состоятель- состоятельной, если она сходится по вероятности к в при неограниченном уве- увеличении числа опытов п. Чтобы оценка характеристики в была состоятельной, достаточно, чтобы ее математическое ожидание стремилось к #, а ее дисперсия
6.2. Оценивание статистических характеристик 245 стремилась к нулю при неограниченном увеличении числа опытов п. Это непосредственно следует из результатов п. 6.1.3. Оценка 0 статистической характеристики в называется несмещен- несмещенной, если ее математическое ожидание равно в при любом числе опы- опытов п. Оценка в характеристики 0 называется смещенной, если ее математическое ожидание не равно в. Разность М0 — в называется смещением оценки 0. Качество оценки часто характеризуют математическим ожидани- ожиданием квадрата модуля отклонения оценки от оцениваемой характери- характеристики (средним квадратом ошибки): В случае несмещенной оценки 0 средний квадрат ошибки 8 представ- представляет собой дисперсию оценки 0 в случае скалярной характеристики в и сумму дисперсий координат оценки 0 в случае векторной характе- характеристики в. Множество чисел J, соответствующих всем оценкам 0 данной ха- характеристики #, при данном числе опытов п, как и всякое множество неотрицательных чисел, имеет точную нижнюю грань So = infM|0-0|2. ё Естественно стремление пользоваться такими оценками, для которых средний квадрат ошибки S или равен Jq, или близок к So. Для нахож- нахождения таких оценок во многих случаях оказывается полезным понятие достаточной статистики. 6.2.2. Достаточные статистики. Статистика 5 (скалярная или векторная) называется достаточной для характеристики 0, если при любом выборе другой статистики Sf (тоже скалярной или векторной), для которой не существует зависимостей вида i/j(S,Sf) — 0, условное распределение статистики Sf при данном значении s статистики S не зависит от в. Иными словами, статистика S достаточна, если знание значений любых других статистик не дает никакой дополнительной информации о в сверх той, которая содержится в S. Если достаточная статистика существует, то она не может быть определена однозначно. > Действительно, предположим, что статистика S достаточна. На основании D.16) условная плотность любой статистики S' при данном значении s величины S определяется формулой
246 Гл. 6. Оценивание параметров распределений где /(s, s' \ 0) —совместная плотность величин S, S', зависящая от па- параметра в, a /i(s|0) — плотность величины 5. Левая часть форму- формулы F.3) не зависит от в вследствие достаточности статистики S. Рас- Рассмотрим любую функцию Si = (f(S) статистики S, такую, что урав- уравнение si — ip(s) имеет единственное решение s — (p~1(si) в области возможных значений величины S. Пользуясь формулой E.31), нахо- находим плотность величины Si и совместную плотность величин Si, S': где J(si) — якобиан координат функции </? 1(si) по координатам век- вектора si. Условная плотность статистики S' при данном значении si статистики Si согласно D.16) определяется формулой Сравнив эту формулу с F.3), получаем Так как правая часть этой формулы не зависит от #, то и левая часть не зависит от в, что и доказывает достаточность статисти- статистики Si = (p(S). < Таким образом, любая статистика, связанная с достаточной статистикой взаимно однозначной зависимостью, тоже доста- достаточна. Докажем, что если совместная плотность результатов опы- опытов Х\,..., Хп может быть представлена в виде д(хи...,хп \в) = /i((/?Oi,...,xn) |<9), то статистика S — (f(Xi,..., Хп) достаточна. \> Пусть S' — ip(Xi,..., Хп) — любая статистика, для которой не существует зависимостей вида x(S, S') — 0. Предположим сначала, что сумма размерностей векторов S и S' равна сумме размерностей векторов Х\_,... ,Хп и что при любых значениях s и s' из областей значений функций ср и ф уравнения (р(хг , . . . , Хп) = S, Ф(Х! ,...,Xn)=s' имеют множество решений {х^ (s,sf), k — 1,..., n}, / G I(s, s'). Тогда совместная плотность величин S и S' определится по формуле E.34): f(8,s'\6)= Yl 9(X«\8,S'),...,X«H8,8')\6)\J,(S,8%
6.2. Оценивание статистических характеристик 247 где \Ji(s,sf)\ — якобиан координат векторных функций х[ (s,s'),... ..., Хп (s, s') по координатам векторов s и s', I Е /(s, s'). Но так как функции xi = x\\s, s'),... , жп = a4 (s, s'), Z?/(s,s'), удов- удовлетворяют уравнениям Следовательно, Отсюда, интегрируя по s;, находим плотность величины S: fl(8\O)=h(8\0)[ Из полученных формул следует, что условная плотность величины Sf при данном s не зависит от в1 что и доказывает достаточность статистики S. Точно так ж:е доказывается достаточность статистики S — = ip(Xi,..., Хп) в случае, когда сумма размерностей векторов 5 и S' не совпадает с суммой размерностей векторов Xl, ..., Хп. <\ Очевидно, что, если s — ip(xi,... ,жп) представляет собой взаим- взаимно однозначное отображение области возможных значений резуль- результатов опытов Xi,...,Хп в n-мерном пространстве, то 5 = ip(Xi,... ..., Хп) является достаточной статистикой. Действительно, в этом случае любая другая статистика S' — ф(Х±,..., Хп) представляет со- собой функцию 5, S' — хE), поскольку уравнение (f(xi,... ,жп) = s имеет единственное решение относительно х\,..., хп в области воз- возможных значений Х\:..., Хп. Следовательно, условная плотность S' при S ~ s является дельта-функцией 6(s' — x(s)) и? значит, не зави- зависит от в. Понятие достаточной статистики тесно связано с понятием до- достаточного преобразования (п. 5.5.3). А именно, статистика S — — ip(Xi,..., Хп) достаточна для в тогда и только тогда, когда функ- функция if представляет собой достаточное преобразование для в.
248 Гл. 6. Оценивание параметров распределений \> В самом деле, если S — (p(Xi,..., Хп) является достаточной статистикой, то по определению функция ip представляет собой достаточное преобразование. Для доказательства обратного утверж- утверждения заметим, что, если S — (f(Xi,... ,Хп) является достаточным преобразованием, то по определению п. 5.5.3 для любого преобразо- преобразования Sf = (fi(Xi,... ,Хп) такого, что s = ^(xi,... ,хп), s' = (fi(xi,... ... ,жп), 5 представляет собой взаимно однозначное отображение об- области возможных значений Х\,..., Хп в п-мерном пространстве в это же пространство. Поэтому условное распределение S' при 5 = s не зависит от в. Но любая статистика S" = ^(Xi,... ,Хп) той же раз- размерности, что и ?', не удовлетворяющая условию вида ip(S,Sf) = О, может быть представлена в этом случае как функция от 5, S", т.е. S" = r)(S,S"). Следовательно, условное распределение S" при S — s, не зависят от в. <\ Покажем, что количества информации о в в результатах опыта Х\,..., Хп, с одной стороны, и в достаточной статистике S = (p(Xi,... ..., Хп), с другой стороны, совпадают. \> В самом деле, это утверждение немедленно следует из соответ- соответствующего утверждения п. 5.5.3, если в является реализацией случай- случайной величины 0. Если в неслучайна, то мы определяем количество информации о в в случайной величине У, заменяя в определении (п. 5.5.3) операцию математического ожидания относительно X — в на операцию осреднения по области возможных значений в с некото- некоторой весовой функцией р@). Но это, очевидно, эквивалентно допуще- допущению, что в является значением некоторой случайной величины 0 с плотностью р(в). Поэтому высказанное утверждение и распространя- распространяется на случай неслучайного в. <\ Таким образом, во-первых, никакая статистика не может со- содержать больше информации о 0, чем результаты опыта, и, во- вторых, только достаточная статистика содержит такое эюе ко- количество информации о в, как и результаты опытов. 6.2.3. Доверительные интервалы и области. Как уже было сказано в п. 6.1.1, вследствие случайности результатов опытов невоз- невозможно установить достаточно узкие пределы, из которых ошибка оценки (т.е. отклонение оценки от оцениваемой характеристики) не выходила бы с полной гарантией. Поэтому возникает задача опре- определения по результатам опытов таких пределов, из которых ошибка оценки не выходила бы с заданной вероятностью. Например, приняв частоту события Р за оценку его вероятности р, установить по ре- результатам тех же опытов такую границу возможных отклонений Р от J9, которую модуль ошибки \Р — р\ не превосходил бы с задан- заданной вероятностью а. Эта граница, естественно, будет тоже случайной в силу случайности результатов опытов. Таким образом, речь идет
6.2. Оценивание статистических характеристик 249 о нахождении по результатам опытов такого случайного интервала (т.е. интервала со случайными концами), который с заданной вероят- вероятностью а содержал бы неизвестное значение вероятности р. Случайный интервал, полностью определяемый результатами опытов и не зависящий от неизвестных характеристик, который с заданной вероятностью а накрывает неизвестную скалярную стати- статистическую характеристику #, называется доверительным интерва- интервалом для этой характеристики, соответствующим коэффициенту дове- доверил а. Величина 1 — а называется уровнем значимости отклонения оценки. Концы доверительного интервала называются доверитель- нъши границами. Обобщение понятия доверительного интервала на случай век- векторной характеристики в приводит к понятию доверительной об- области. Доверительной областью для векторной характеристики #, соот- соответствующей коэффициенту доверия а, называется такая случайная область, полностью определяемая результатами опытов и не завися- зависящая от неизвестных характеристик, которая с вероятностью а содер- содержит неизвестное значение в. Очевидно, что доверительная область определяется заданным ко- коэффициентом доверия а не однозначно, существует бесконечное мно- множество доверительных областей, соответствующих одному и тому же значению а. Обычно стараются определить доверительные области, имеющие минимальные размеры при данной вероятности а. Этому условию часто удовлетворяют хотя бы приблизительно области, сим- симметричные относительно оценки О характеристики в. 6.2.4. Методы определения доверительных областей. Для определения доверительных интервалов и областей обычно применя- применяются три основных метода. Первый метод, удобный в случае положительного скалярного па- параметра #, основан на нахождении распределения отношения оцен- оценки О параметра в к самому параметру в. Если оценка О такова, что это распределение не зависит от неизвестных характеристик, то, зная это распределение, можно найти вероятность попадания отношения @/в в любой интервал и, наоборот, по заданной вероятности а найти интервал, вероятность попадания Q/6 в который равна а. Любой та- такой интервал будет доверительным интервалом для 0. Обычно стара- стараются получить доверительный интервал, симметричный относительно оценки. Однако это не всегда возможно. В некоторых случаях ниж- нижняя доверительная граница получается отрицательной, что не имеет смысла. Поэтому доверительный интервал для положительного пара- параметра О определяют формулой тах{0, A - еа)ё} < О < A + sa)Q. F.4)
250 Гл. 6. Оценивание параметров распределений При ?а Е @,1] этот интервал симметричен относительно 0. При еа > 1 симметрия не достигается. Неравенства F.4) выполняются то- тогда и только тогда, когда 0 тах{0,1 — еа} ' Поэтому формула F.4) определяет доверительный интервал для 0, соответствующий коэффициенту доверия а, если sa удовлетворяет уравнению в тах{0,1-еа} = а Второй метод состоит в том, что для каждого возможного зна- значения неизвестного параметра в выбирают такую область, содержа- содержащую в, в которую оценка 0 попадает с заданной вероятностью а. Эта область в общем случае зависит от в и, конечно, от а. Поэтому мы обозначим ее Da{6). Тогда можем написать Р(в е Da{9)) = a. После этого для каждого фиксированного значения оценки 0 опре- определяют множество значений параметра в, при которых 0 G Da@). Это множество {в : 0 G DaF)} в общем случае зависит от 0 и а. Поэтому мы обозначим его Да@). Очевидно, что в G Да@) тогда и только тогда, когда 0 G Da@) при этом в. Действительно, если при данном значении в оценка 0 приняла значение в G Da@), то по определению области Аа(в) данное значение в принадлежит Аа(в), 0 G {в : в G Da@)} = Аа(в). Наоборот, если оценка 0 приняла такое значение ?, что в G Аа(в) = {в :в е Da@)}, то в G Da@). Следова- Следовательно, при любом в Р(в е Д«(в)) = Р(в е Da{0)) = а. F.5) Это равенство показывает, что область Аа(&) представляет собой до- доверительную область для параметра в, соответствующую доверитель- доверительному уровню а. Третий метод основан на нахождении скалярной функции (p(Q,SjO) оценки 0, некоторой другой статистики S и неизвестного параметра в, обладающей следующими свойствами: 1) при любом значении s статистики 5 и любом значении в неравенство ip@,s,0) < с, с > 0, при возрастании с определяет мо- монотонно возрастающее семейство вложенных одна в другую обла- областей D(s, в, с) = (в : ipF, s, в) < с};
6.2. Оценивание статистических характеристик 251 2) (pF,s,6) = 0 при любых s,6 и (pF,s,6) > О при любых 6,8,6, 6 ф О, и, следовательно, точка 6 — 6 принадлежит области D(s,6,c) при любых с > 0, s, 6; 3) распределение случайной величины Т = (/?(©, S, 6) не зависит от 6. Зная распределение величины Т — cp(Q, S,6), можно опреде- определить такое ?а > 0, чтобы с вероятностью а выполнялось неравен- неравенство ip(Q,S,6) < еа: P(<p(Q,S,0)<ea) = a. F.6) Эта формула определяет случайную область cp(Q,S,6) < sa, накры- накрывающую неизвестное значение параметра 6 с вероятностью а, т.е. до- доверительную область для 6, соответствующую коэффициенту дове- доверия а. Многомерные доверительные области трудно представить нагляд- наглядно. Поэтому возникает вопрос о нахождении таких доверительных интервалов 1\(О),..., /г@) для координат 6\,..., 6Г векторного пара- параметра 6, чтобы вероятность одновременного накрытия всех 6\,..., 6Г соответствующими интервалами была не меньше заданного а (т.е. о нахождении прямоугольной доверительной области для 6, соответ- соответствующей коэффициенту доверия, не меньшему чем а). Введем события А^ = {6k G /^@)} (к = 1,..., г) и обозначим пря- прямоугольную область в r-мерном пространстве, образованную интер- интервалами /г @),..., Ir @), через /@). На основании принципа двойственности и свойства полуаддитив- полуаддитивности вероятности A.13) р(в е /(в)) = ( Д) (^) к=1 Отсюда видно, что для решения поставленной задачи достаточ- достаточно найти доверительные интервалы /i@),...,/г@) для координат вектора 6, соответствующие коэффициенту доверия 1 — A — a)jr. Тогда вероятность одновременного накрытия этими интервалами всех #i,..., вг будет не меньше а. Фактически она во многих случаях может быть значительно больше а *). Основную трудность в практическом применении изложенных ме- методов представляет нахождение распределений различных статистик, в частности оценок. В настоящее время эти вопросы достаточно хо- хорошо разработаны только для случая нормального распределения на- наблюдаемых случайных величин. *) Другие методы нахождения совместных доверительных интервалов для координат векторного параметра читатель найдет в [103].
252 Гл. 6. Оценивание параметров распределений При определении оценок статистических характеристик и довери- доверительных областей для них по результатам опытов обычно считают опыты независимыми в смысле определения, данного в п. 1.8.1. В со- соответствии с этим определением будем считать опыты независимыми, если вероятность любого события и распределение любой случайной величины в каждом опыте не зависят от результатов предшествую- предшествующих опытов. Кроме того, предположим, что вероятности наблюдае- наблюдаемых событий и распределения наблюдаемых случайных величин не изменяются от опыта к опыту. Таким образом, везде в дальнейшем будем считать случайные результаты различных опытов независимы- независимыми событиями и случайными величинами, имеющими одни и те же вероятности и распределения во всех опытах. Нахождение оценок статистических характеристик обычно назы- называют точечным оцениванием, а нахождение доверительных интерва- интервалов — интервальным оцениванием. 6.3. Частота как оценка вероятности 6.3.1. Состоятельность. Пусть р — неизвестная вероятность интересующего нас события А, Р — частота этого события при п опы- опытах, рассматриваемая как случайная величина — функция случайных результатов опытов. О Чтобы исследовать частоту Р как оценку вероятности события, воспользуемся формулами для математического ожидания и диспер- дисперсии частоты, полученными в примере 3.11: МР = р, °Р=^> 4 = 1-Р- F.7) Отсюда видно, что математическое ожидание частоты события равно его вероятности, а дисперсия частоты стремится к нулю при неограни- неограниченном увеличении числа опытов п. Следовательно, частота события с.к. сходится к его вероятности при п —> оо. Но из с.к. сходимости вытекает и сходимость по вероятности (п.в.). Таким образом, частота события сходится п.в. к вероятности этого события при неограниченном увеличении числа опытов п. В этом состоит теорема Якова Бернулли — первая и простейшая тео- теорема из серии теорем, объединяемых под названием закона болъш,их чисел, который устанавливает вероятностную сходимость эксперимен- экспериментальных статистических характеристик к соответствующим теорети- теоретическим характеристикам. Таким образом, закон больших чисел под- подтверждает наши интуитивные представления об устойчивости частот событий и характеристик случайных величин и тем самым обосновы- обосновывает все практические применения теории вероятностей. На основании доказанной теоремы Якова Бернулли и первой фор- формулы F.7) частота события является состоятельной несмещенной
6,3, Частота как оценка вероятности 253 оценкой его вероятности. Более того, как мы увидим в примере 7.3, частота представляет собой несмещенную оценку вероятности с ми- минимальной дисперсией. Поэтому никакие другие оценки вероятности обычно не применяются. О Остановимся несколько подробнее на смысле выводов, вытекаю- вытекающих из проведенного исследования. Из теоремы Якова Бернулли сле- следует, что при любых e,S > 0 при всех достаточно больших числах опытов п имеет место неравенство Р{\Р-р\>е)<5. F.8) В силу произвольности г и S и принципа практической уверенности отсюда следует, что при достаточно большом числе опытов п полу- получение отклонения частоты от вероятности, превосходящего по вели- величине произвольно малое наперед заданное число ?, можно считать невозможным событием. На этом и основано использование частоты в качестве оценки вероятности события. 6.3.2. Доверительные интервалы. Для нахождения довери- доверительных интервалов для вероятности обычно пользуются вторым ме- методом п. 6.2.4. О Для каждого значения вероятности pG @,1) задают интер- интервал Da(p) = [a>a(p),ba(p)), концы которого определяются из условий F-9) где F(x) — функция распределения частоты, т.е. функция биноми- биномиального распределения m=0 Тогда будем иметь Р(Р е Da(p)) = Р(аа(р) ^Р< Ъа(р)) 2 "• Знак ^ вместо = здесь и соответственно ^ в F.9) берется потому, что вследствие дискретности частоты точные равенства, как прави- правило, недостижимы. Для определения соответствующего доверительно- доверительного интервала Аа(Р) = {р : аа(р) ^ Р < Ьа(р)} достаточно найти его границы путем решения неравенств аа{р) ^ Р и Р < Ъа{р) относи- относительно р. Вместо этого обычно пользуются следующим графиче- графическим построением. Определив аа(р) и Ъа{р) для каждого р? (ОД)? строят в координатах (р,р) кривые р = аа(р) и р = Ьа(р) (рис. 6.1). Эти кривые при каждом значении р определяют на соответствую-
254 Гл. 6. Оценивание параметров распределений p 1 0,8 0,6 0,4 0,2 0 i i i -^ i , 1 Л5и \ f'/ ^ 1 | 1 | j | ] | 1 1 Г I .i 0,2 0,4 0,6 i J 0,8 ¦ I P Рис. 6.1 щей вертикальной прямой интервал Da(p) = [аа(р),Ьа(р)). Очевид- Очевидно, что, и наоборот, при каждом значении р частоты Р эти кривые определяют на соответствующей гори- горизонтальной прямой интервал Аа(р) = = {р : р е [аа(р),Ьа(р))}, представляю- представляющий собой реализацию доверительного интервала Аа(Р), соответствующую данной реализации р частоты Р (см. рис. 6.1). < В силу дискретности частоты кри- кривые р = аа(р),р = Ьа(р) являются сту- ступенчатыми, причем высоты всех сту- ступенек равны 1/п, а ширина каждой ступеньки равна длине соответствую- соответствующего интервала значений р, при кото- которых аа (р) сохраняет постоянное значе- значение до очередного изменения скачком на 1/п. Однако для простоты их обычно заменяют непрерывными кривыми. Графики для опреде- определения доверительных интервалов при оценивании вероятностей для а = 0,95 и а = 0,99 были построены Клоппером и Е. Пирсоном [37]. 6.3.3. Приближенное определение доверительных интер- интервалов. При большом числе опытов п (практически при n ^ 100) определение доверительных интервалов для р — существенно упроща- упрощается. Как показано в примере 5.48 распределение случайной величины Y = \/п(Р - p)/y/pq = (X — np)/^/npq стремится к нор- нормальному распределению N@,1) при п —> оо. Вследствие этого биномиальное распределение при достаточно большом числе опы- опытов п как угодно мало отличается от нормального. Это дает возмож- возможность при больших п пользоваться нормальной функцией распреде- распределения вместо точной биномиальной для приближенного определения доверительных интервалов для вероятности. > Предположив, что частота Р распределена нормально, в силу симметрии нормального распределения и формул F.7) получим аа (Р) = Р — ?а л/РЦ/П1 ^ (Р) — Р + ?а \[щрП, где еа определяется в силу C.93) уравнением = а. F.10) Практически корень га уравнения F.10) определяется по табл. 3. По- Поскольку еа не зависит от р, кривые р = аа(р) ир = Ьа(р) в этом слу- случае представляют собой части эллипса п(р — рJ — еарA — р) с цен- центром в точке р = р — 1/2, касающегося вертикальных прямых р = 0
6.4- Оценки математического ожидания и дисперсии 255 и р = 1 (рис. 6.2). Доверительные границы Pi,P-2 в этом случае легко находятся из уравнения эллипса путем решения его относительно р: el/2n 1+eg/n , An2' F.11) Пример 6.5. При 100 опытах событие А появилось 68 раз. Таким об- образом, частота Р события А приняла значение 0,68. Найдем доверительный интервал для вероятности р = Р(А), соответ- соответствующий коэффициенту доверия а = 0,95. Так как число опытов п в данном случае велико, то можно считать, что частота Р распределена приблизительно нормально, и применить упрощенный метод. В соответ- соответствии с F.10) находим по табл. 1 функ- функции Лапласа Ф(и) значение еа аргумента и, при котором она равна а/2 = 0,475; получа- получаем еа = 1,96. После этого по формулам F.11) находим Pi и 0,583, Р2 ~ 0,763. Таким обра- образом, доверительным интервалом для вероят- вероятности р = Р(А), соответствующим коэффи- коэффициенту доверия а = 0,95, в данном случае 0 Рис. 6.2 служит интервал @,583; 0,763). Этот интервал представляет собой реализа- реализацию случайного интервала (Рг,Р2), с вероятностью а — 0,95 содержащего неизвестную вероятность р = Р(А). Вторая формула F.7) показывает, что среднее квадратическое от- отклонение частоты обратно пропорционально у/п. Следовательно, точ- точность оценки вероятности повышается с увеличением числа опытов пропорционально у/п. Как мы увидим дальше, эта закономерность распространяется и на моменты первого и второго порядков случай- случайных величин. 6.4. Оценки математического ожидания и дисперсии случайной величины 6.4.1. Оценка математического ожидания. Естественной оценкой математического ожидания случайной величины X служит среднее арифметическое ее экспериментальных значений Х\,..., Хп (выборочное среднее) п Х=1-Ухк. F.12) \> Чтобы исследовать эту оценку, воспользуемся формулами для математического ожидания и дисперсии среднего арифметического, полученными в примере 3.12: МХ = тх, DX=—. F.13)
256 Гл. 6. Оценивание параметров распределений Отсюда следует, что выборочное среднее случайной величины с.к. схо- сходится к ее математическому ожиданию при п —> оо. Но из с.к. сходи- сходимости вытекает сходимость п.в. Таким образом, мы доказали теорему Чебышева: выборочное сред- среднее случайной величины с конечными моментами первого и вто- второго порядков сходится п.в. к ее математическому ожиданию при неограниченном увеличении числа опытов п. На основании теоремы Чебышева и первой формулы F.13) вы- выборочное среднее представляет собой состоятельную несмещенную оценку математического оэюидания случайной величины. <] Доказанная теорема может быть обобщена на случай зависимых испытаний (опытов), если вместо теоремы Чебышева воспользовать- воспользоваться следующей теоремой Маркова: среднее арифметическое случайных величин с одним и тем же математическим ожиданием и конеч- конечными моментами второго порядка {п.в.) сходится к математиче- математическому ожиданию при условии, если сумма дисперсий и ковариаций случайных величин растет медленнее, чем п2 при п —У оо. \> Действительно, воспользуемся первой формулой системы (II) примера 3.12 п DX = ^2 X/ ^' p,q=l где kpq — дисперсии и ковариаций Х\, Х^,... (р, q = 1, 2,...). Отсюда видно, что DX —> 0, если двойная сумма растет медленнее п2 при п —У оо. < Очевидно, kpq = kpq —> 0 при q —у оо равномерно относительно р. Следовательно, применяя теорему Маркова, заключаем, что выбороч- выборочное среднее случайной величины является состоятельной несмещен- несмещенной оценкой математического оэюидания в случае зависимых испы- испытаний при условии, что ковариация двух результатов равномерно стремится к нулю при увеличении разности номеров испытаний. Доказанные теоремы справедливы также и для конечномерных векторных случайных величин, если их непосредственно использовать для всех компонент векторной случайной величины. Докажем теперь теорему Хинчина: среднее арифметическое п независимых одинаково распределенных случайных величин с мате- математическими ожиданиями тх (п.в.) сходятся к тх при п —> оо. \> В самом деле, пусть случайная величина X имеет матема- математическое ожидание тх и характеристическую функцию #(А). То- Тогда в случае независимых испытаний характеристическая функция выборочного среднего X в силу D.41), D.42) и теоремы п. 4.4.5 будет равняться
6.4- Оценки математического ожидания и дисперсии 257 Отсюда при п —у оо имеем X —у тх (п.в.). < Таким образом, теорема Хинчиыа показывает, что требование ко- конечности моментов второго порядка не являетя необходимым условием. Отметим также, что теорема Хинчина, позволяет заключить: вы- выборочное среднее является состоятельной несмещенной оценкой ма- телгатического ожидания для всех случайных величин с конечными математическими ооюиданиями. Наконец, обратим внимание на то, что выборочное среднее не все- всегда может служить оценкой, например, медианы случайной величи- величины, не имеющей математического ожидания. Пример 6.6. В случае когда случайная величина X распределена по закону Коши, то в силу примера 4.31 имеем д(Х) = ехр{гЛа — Ь|Л|}. Поэтому характеристическая функция выборочного среднего X будет равна 91 (А) = [д(\/п)]п = [ехр{(гАа - Ь|А|)/п}]п = ехр{гАа - Ь|А|}. Значит, распределение X является распределением Коши и совпадает с рас- распределениями Xi,... ,Хп. Таким образом, выборочное среднее не может служить оценкой медианы, если случайная величина не имеет матема- математического ожидания. При этом выборочная медиана может служить со- состоятельной оценкой параметра а распределения Коши [45]. 6.4.2. Оценки дисперсии. Естественной оценкой дисперсии случайной величины служит ее выборочная дисперсия Dl = \JT(Xk-Xy. F.14) k = l \> Для вычисления математического ожидания и дисперсии этой оценки, учитывая, что МХк = MX — тх, представим F.14) в виде [ k=l Тогда будем иметь k=l n *-—' n n n k=l Таким образом, n-1 . < F.15)
258 Гл. 6. Оценивание параметров распределений Эта формула показывает, что D* является смещенной оценкой дисперсии Dx со смещением, равным —Dx/n. \> Для вычисления дисперсии оценки D* найдем сначала ее мо- момент второго порядка MD*2. Имея в виду, что k,l=l n n A;=l м\ (хуу (х"ку =^м *-^ п2 L k=l J k,l,h=l г П П n2 z_^ ^ k* 2-^ = Ь \ E M(*°L+3 E m 3(;~ где \i2 — DXJ a ^/4 — четвертый центральный момент величины X, получаем после элементарных преобразований MDX2 = —— [/i4 + (n — 1)^2] H—з [^4 "*" ^(n ~ -'¦)/i2]- После этого по формуле C.29) находим Г = MDf - При выводе этих формул мы воспользовались независимостью ре- результатов опытов Х\,..., Хп, и применили теорему умножения мате- математических ожиданий (п. 4.2.6). Формулы F.15) и F.16) показывают, что MD* -»> Дт, DD* -»> 1)ж при п -^ оо. Таким образом, оценка D* с.к. сходится к Dx. Отсюда следует сходимость п.в. D* к Dx, т.е, состоятельность оценки D*.
6.4- Оценки математического ожидания и дисперсии 259 \> Чтобы получить несмещенную состоятельную оценку диспер- дисперсии DXJ достаточно, как это видно из F.15), умножить оценку D* на га/(га — 1). В результате получим оценку Дисперсия этой оценки в силу F.16) определяется формулой DDX = n f^4 - 2(f4-2gi} + i^M. F.18) (n — IJ (n — IJ n(n — IJ v y В частном случае нормального распределения случайной величи- величины X, как было показано в п. 3.6.2 /i^ = 3^ и формула принимает вид Для сравнения вычислим средний квадрат ошибки смещенной оценки D* дисперсии Dx для случая нормального распределения X. В этом случае, учитывая, что \i± — Ъ\х\ — 3D^, из F.15) и F.16) полу- получаем 1 - Dxf = [M(Dl - Dx)f + DDl = ^1 D \. Отсюда видно, что смещенная оценка D* точнее несмещенной оцен- оценки Ъх, так как Bга - 1)/п2 < 2/га < 2/(га - 1). 6.4.3. Доверительные интервалы для математического ожидания. Задача определения доверительных интервалов для ма- математического ожидания и дисперсии для произвольного числа опы- опытов п решена только для случая нормально распределенной случай- случайной величины X. \> Если дисперсия Dx известна, то доверительный интервал для математического ожидания находится очень простер Для этого до- достаточно заметить, что среднее арифметическое X как линейная функция нормально распределенных случайных величин распреде- распределено нормально. Поэтому на основании F.13) и C.93) Определив еа из условия Ф(га) = «/2, получим доверительный ин- интервал для гаж, соответствующий коэффициенту доверия а, в виде X - eaJ^ <mx<X+ eaJ^. < F.20)
260 Гл. 6. Оценивание параметров распределений При большом числе опытов п этот метод можно применить для приближенного определения доверительных интервалов для гпх при любом распределении величины X, так как при большом п распреде- распределение величины X стремится к нормальному (разд. 5.4). Оценивать математическое ожидание при известной дисперсии приходится при измерении какой-либо величины прибором, точность которого известна. В этом случае математическое ожидание результа- результатов измерений равно сумме измеряемой величины и систематической ошибки прибора, а дисперсия равна известной дисперсии ошибки при- прибора. \> Для нахождения доверительного интервала для математиче- математического ожидания тх в случае неизвестной дисперсии Dx обычно поль- пользуются третьим методом разд. 6.4. Введем n-мерный вектор результа- результатов опытов U — [Х\ ... Хп]Т и величину S = UTU — пХ2. Покажем, что случайная величина Т = у/п(п - 1) ^= представляет собой стьюдентово отношение (пример 5.14). Для этого заметим, что при любом а n Xk-XJ = Y,[Xk-a-(X-a)]2 = k=i k=l n n = 2_,{Xk — aJ — 2(X — a) ^^(X^ — a) + n(X — aJ = n k=l так как n 2_^(Xk — a) = n(X — a). k=i Положив в полученном равенстве один раз а = шж, а другой раз а = 0, получим к=1 к=1 к=1 откуда следует, что (п - \)DX = ^{Хк - XJ = U0TU° - п(Х0J = UTU - пХ2 = S. k=l
6.4- Оценки математического ожидания и дисперсии 261 Это равенство показывает, что величина S выражается через центри- центрированный вектор U0 так же, как и в примере 5.14, что и доказывает на- наше утверждение. Следовательно, величина Т имеет Т-распределение с к = п — 1 степенями свободы, определяемое плотностью 2 Так как это распределение не зависит от неизвестных параметров rnx,DXj то величина Т может служить в качестве функции (^@,5,в) п. 6.2.4: 1 — (р(Х, Ь,тх) — уп[п — 1) j=—. Согласно п. 6.2.4 доверительный интервал для тх определяется те- теперь неравенством ¦ X - р ?а^ F.21) где еа определяется уравнением Р(|Г| < еа) = Sk(ea) = 2Jsk(t)dt = a. F.22) О Практически га находится непосредственно по таблице по данным к и а (табл. 3). Чтобы преобразовать полученный доверительный интервал для гпх к более удобному виду, заметим, что по доказанному выше S = (n-1)DX. F.23) Подставив это выражение в F.21), получим \Х - та или F.24) В таком виде обычно и записывается доверительный интервал для математического ожидания случайной величины. При больших к Т-распределение мало отличается от нормаль- нормального. Действительно,
262 Гл. 6. Оценивание параметров распределений где Ck — постоянный множитель в s&(?). Отсюда видно, что и, следовательно, Sk(t) —У Bтг)~1/2е~г I2 при к —у оо (с& —У Bтг)~1/2, так как Sk(t) — плотность при любом к и сходимость второго множи- множителя к е~1 /2 равномерна на любом конечном интервале). <\ Таким образом, при больших к (практически при к > 120) величи- величину еа можно определять, как и при оценке математического ожидания при известной дисперсии, из условия Ф(еа) = а/2, пользуясь табл. 1 функции Лапласа. 6.4.4. Доверительные интервалы для дисперсии. Для на- нахождения доверительного интервала для дисперсии Dx обычно поль- пользуются первым методом п. 6.2.4, применяя его к оценке У Dx среднего квадратического отклонения ах = y/Dx. \> Так как величина U = Х°/\JDX имеет нормальное распределе- распределение JV@,1), то согласно результату примера 5.12 величина = (UTU-nX2)/Dx имеет х2-распределение с к — п — 1 степенями свободы Vh(z) - 1 к/2-1 -z/2 -,/ ч Pk[Z) ~ 2*/2Г(Л/2) [ }' Поэтому, учитывая, что согласно F.23) Dx/Dx = S/(kDx) = Z/k и, следовательно, к \ -в.)У' где через A — га)+ обозначена величина тах@,1 — еа), получим для еа уравнение F.25) Отсюда находим доверительный интервал для среднего квадратиче- квадратического отклонения и дисперсии: max@,1 - sa)VD~x < y/Ul < A + sa)VD~x. < F.26) Для определения еа, удовлетворяющего уравнению F.25), состав- составлена таблица значений еа в зависимости от к и а (табл. 4).
6.4- Оценки математического ожидания и дисперсии 263 > При больших к х2"РаспРеДеление близко к N(^/k — 1/2,1/2). Чтобы доказать это, достаточно показать, что распределение вели- величины Т = \[TZ — л/2к — 1 стремится к JV@,1) при /с —>¦ оо. Пользуясь формулой E.31), находим плотность величины Т: /*(*) = (* Отсюда находим lnfk(t)=lnak 2к/2Г(к/2) = lnbk + где через а^ обозначен для краткости постоянный множ:итель в выра- выражении плотности /*•(?), a In bk — сумма всех постоянных, полученных в результате произведенных преобразований. Из полученной формулы видно, что fk(t) —У Bтг)~1/2е~1 /2 при к —> оо, что и доказывает наше утверждение. Практически можно считать величину \/~Z распределен- распределенной нормально при к > 30. В этом случае целесообразно отказаться от симметричного относительно оценки у Dx доверительного интервала и взять симметричный интервал для статистики Т = \/2Z — \/2к — 1. Тогда, определив еа из уравнения Р(|Т| < еа) = 2Ф(га) = а и имея в виду, что \t\ < ea при т.е. при получим доверительный интервал для Dx в форме \kkDx r— \kkDx < VDX < F.27)
264 Гл. 6. Оценивание параметров распределений Оценка, распределение которой стремится к нормальному при неограниченном увеличении числа опытов п, называется асимпто- П^— тически нормальной. Таким образом, мы показали, что оценка уDx среднего квадратического отклонения асимптотически нормальна. 6.4.5. Доверительные области для математического ожи- ожидания и дисперсии. Мы нашли доверительные интервалы для ма- математического ожидания и дисперсии по отдельности. Однако при совместном оценивании математического ожидания и дисперсии нас интересует вероятность того, что оба параметра тх и Dx будут за- заключены в соответствующих интервалах. Иными словами, нас инте- интересует доверительная область для двумерного векторного парамет- параметра (mx,Dx). Чтобы найти такую область, воспользуемся вторым ме- методом п. 6.2.4. cements /^~ Vdx \Jdx Рис. 6.3 \> Зададим область DaF) — Da(mX7 Dx) на плоскости (X, у Dx) в виде прямоугольника (рис. б.З, а) Da{9) = где A - ёа)+ = max@,1 - Sa). Тогда область Aa(Q) = {(mx,Dx) : (X,DX) e Аа(в)} определится формулой Да@) = {(mx,Dx) : \тх -Х\< ea\j^, F.28) Эта область представляет собой трапецию (рис. б.З, б). Чтобы найти
6.4- Оценки математического ожидания и дисперсии 265 вероятность Р((Х, Dx) E DaF)), воспользуемся тем, что при нормаль- нормальном распределении наблюдаемой случайной величины X статисти- статистики X и S независимы (пример 5.15). Так как X имеет нормальное рас- распределение N(mx,Dx/n), a Z = S/Dx = kDx/Dx — ^-распределение с к = п — 1 степенями свободы (пример 5.12), то Р((Х, Dx) € Da{9)) =р(\Х- тх < Определив еа и 8а из уравнений Ф(еа) = Су/а/2, Lk(Sa) = у/а/с, где с — произвольно выбранное чис- число, найдем по $§&Щ№РЩт^\^ доверительную область вектор- 4Ch ного параметра (mx,Dx), со- соответствующую коэффициенту доверия а, и можем быть уверены, что в среднем в 100а% случаев точка (mx,Dx) будет находиться в найденной области Да@). <\ 30 27,5 20 10 Пример 6.7. По данным экс- экспериментальным значениям слу- случайной величины X, полученным в результате 20 опытов (по выбор- выборке): 8, 42, 22, -40, 18, 38, 2, -16, 17,9 10 20 Рис. 6.4 30 40 тх 34, 6, 54, 20, 74, 0, 4, —28, 36, 44, 16, 24 — найти оценки и доверительные интервалы для тх и Dx, соответствующее коэффициенту доверия а = 0,95. По формулам F.12) и F.17) находим оценки mx,Dx и ах = y/Dx: 20 dx = : 756,84, 19 Эх и л/756,84 и 27,5. По данным к = п — 1 = 19 и а = 0,95 находим по табл. 3 и 4 еа = 2,09 для тх и еа = 0,380 для Dx. После этого формулы F.24) и F.26) дают доверительные интервалы для тх и Dx: 5,4 <тх < 30,4, 17,0 < \/D~x < 38,0. Для определения доверительной области для векторного параметра (mx,Dx) находим по таблице функции Лапласа 1 и по табл. 4 еа = 2,23, 5а = 0,464 из условий 2Ф(ва) = у/а = 0,974, Ьк(ёа) = у/а = 0,974. После этого по формуле F.28) находим доверительную область 17,9 - 0,499л/Д^ <тх< 17,9 + 14,7 < у/Щ < 40,3.
266 Гл. 6. Оценивание параметров распределений На рис. 6.4 изображена эта трапеция. Для сравнения показан прямо- прямоугольник, образованный ранее найденными и доверительными интервала- интервалами для тх и Dx (заштрихован на рис. 6.4). Для сравнения найдем прямоугольную доверительную область с коэф- коэффициентом доверия не меньше а — 0,95. Согласно п. 6.2.4 для этого доста- достаточно найти по формулам F.24) и F.26) доверительные интервалы для гпх и Dx, соответствующие коэффициенту доверия оц = 1 — A — а)/2 = 1 — — 0,05/2 = 0,975. В результате получим 4,1 <тх < 31,7, 14,5 < >/Щ < 40,5. Эта прямоугольная доверительная область показана на рис. 6.4 штриховой линией. 6.4.6. Оценки моментов. На основании результатов, получен- полученных для математических ожиданий, состоятельной несмещенной оцен- оценкой момента любого порядка служит среднее арифметическое значе- значение соответствующей степени случайной величины. Однако точное определение доверительных интервалов для моментов оказывается трудной задачей. Для приближенного определения доверительных ин- интервалов при большом числе опытов обычно пользуются асимптоти- асимптотической нормальностью оценок моментов. На основании центральной предельной теоремы (п. 5.4.1) распределение оценки момента любого порядка как суммы независимых случайных величин при достаточ- достаточно большом числе опытов как угодно мало отличается от нормаль- нормального. Поэтому, зная математическое ожидание и дисперсию оценки момента, можно приближенно определить доверительные интервалы. Математическое ожидание оценки момента равно самому моменту в силу несмещенности оценки. Нахождение дисперсии оценки не пред- представляет никаких принципиальных трудностей, хотя и сопряжено с громоздкими выкладками. 6.5. Оценки математического ожидания и ковариационной матрицы случайного вектора 6.5.1. Оценки ковариации и коэффициента корреляции. Результаты разд. 6.4 позволяют находить оценки и доверительные ин- интервалы для математических ожиданий и дисперсий координат слу- случайного вектора, рассматриваемых по отдельности. Чтобы научить- научиться оценивать ковариационную матрицу случайного вектора, остается рассмотреть оценки ковариации. На основании сказанного в п. 1.2.9 естественной оценкой ковари- ковариации случайных величин X и Y служит их выборочная ковариация Кху = I Е№ - X)(Yk - Y), F.29) k=i
6.5. Оценки математического ожидания и ковариационной матрицы 267 где Xl, Yi,..., Xn, Yn — случайные результаты опытов, а X, Y — вы- выборочные средние величин X и Y. Совершенно так же, как для оцен- оценки D^ дисперсии Dx, находим МК*у — {п — 1)кху/п. Отсюда видно, что К*у — смещенная оценка со смещением —кху/п. Чтобы получить несмещенную оценку Кху, достаточно умножить К*у на п/{п — 1). В результате получим -У). F.30) k=l Дисперсия этой оценки выражается через центральные моменты \ivq случайного вектора {X, У}: DKxy = (п-1J (п-1J + + Г7^ TTi • (б-31) Эта формула выводится совершенно так же, как F.18). В частном случае нормального совместного распределения величин X и У чет- четвертый момент /i22 выражается через элементы ковариационной мат- матрицы /i22 = /^20/^02 + 2/J>li = DxDy + 2fc^ (п. 4.5.9), и F.31) принимает вид DKxy = ВхВ„***У. F.31) На основании F.17) и F.30) оценку коэффициента корреляции кху величин X и У определяют формулой = ww= \±(Xk-X)(Yk-Y)\ lk = l J 6.5.2. Оценки математического ожидания и ковариацион- ковариационной матрицы. Полученные результаты дают оценки математическо- математического ожидания и ковариационной матрицы любого случайного вектора. Пусть X — m-мерный случайный вектор, Xi,...,Xn — его экс- экспериментальные значения, X&i,..., Х&т — координаты вектора Х& (к = 1,..., п), X — выборочное среднее вектора X: Хк. F.34)
268 Гл. 6. Оценивание параметров распределений Введем матрицу С/, строками которой служат векторы Xi,...,Xn: 1 Хц Х\2 . . . Х\т U = : = F.35) Хп \-Xni ХП2 ... Хпт_ Тогда в силу равенства п п ^Г(Хкр - Xp)(Xkq - Xq) - ^ XkpXkq - nXpXq - k=l k=l kp - mp)(Xkq - mq) - n(Xp - mp)(Xq - mq), F.36) k=i которое выводится совершенно так же, как аналогичное равенство в п. 6.4.2, определим оценку ковариационной матрицы Кх формулой n-1 UTU-nXXT п-1 F.37) Таким образом, оценкой математического ожидания тх случайного вектора X может служить его выборочное среднее X, а несмещен- несмещенная оценка его ковариационной матрицы Кх определяется формулой F.37). < 6.5.3. Доверительные области для математического ожи- ожидания. Осталось научиться определять доверительные области для математического ожидания и ковариационной матрицы случайного вектора. \> Найдем сначала доверительную область для вектора тх. Для этого применим третий метод п. 6.2.4. Согласно результатам приме- примеров 5.17 и 5.24 статистика п(п - т) (-^Т t\q-\(-v \ имеет F-распределение Jm,7i—m\J) — m W2 Г(п/2) Г(ш/2)Г((п-ш)/2) -mJJ -n/2 Эта плотность не зависит от неизвестных параметров тх и Кх. По- Поэтому функция X,S,mx) = F = — (X -mx)S (A - mx)
6.5. Оценки математического ожидания и ковариационной матрицы 269 удовлетворяет всем требованиям п. 6.2.4, и доверительная область для гпх определяется неравенством (Хт - mTx)S-\X - mx) < ^—^ fa, F.38) где fa ~ верхняя 100A — а)-процентная точка F-распределения fm,n-m, определяемая уравнением fa P(F < fa) = Fro,n_ro(/a) = ffm,n-m(f)df = a. F.39) 0 Для определения fa по данным а, 1 = тик = п — т составлены таблицы [117] (табл. б). Уравнение в координатах ? определяет га-мерный эллипсоид (эллипс при га = 2) с центром в случайной точке X, случайные размеры и направления главных осей которого определяются матрицей S и числом fa. Дове- Доверительная область F.38) представляет собой множество внутренних точек этого случайного эллипсоида. Из F.39) следует, что этот эллип- эллипсоид накрывает неизвестную точку тх с вероятностью а. <\ 6.5.4. Распределение выборочного коэффициента корре- корреляции. Перейдем к определению доверительных интервалов для ко- коэффициентов корреляции. Из результатов примера 5.20 следует, что в случае нормального распределения вектора X случайная матрица S имеет распределение Уишарта, определяемое плотностью Р 1 2 в области положительно определенных матриц s и wnm(s) = 0 вне этой области. Для определения доверительного интервала для ко- коэффициента корреляции достаточно рассмотреть случай двумерно- двумерного вектора X, га = 2. В этом случае совместная плотность элементов 5ц, 5i2,/S22 матрицы S определяется формулой -^ (б-40) где для краткости положено А = &11&22 — kf2- Области симметрич- симметричных положительно определенных матриц в трехмерном пространстве с прямоугольной системой координат (зц, S12, S22) соответствует об- область, ограниченная половиной конуса, определяемая неравенствами sn,S22 ^ 0, s\2 ^ 5ц522)- Вне этого конуса wn2(sn, S12, S22) = 0.
270 Гл. 6. Оценивание параметров распределений \> Чтобы найти распределение оценки (б.33) коэффициента кор- корреляции, заметим, что Л12 = S12/VS11S22, вследствие чего плот- плотность fn(p) оценки i?42 можно определить по формуле E.32): ОС ОО fn(p) = >^n2(sil4 О О Подставив сюда выражение F.40) и вводя новые переменные интегри- интегрирования х = su/кц, у = S22/&22, получим после несложных преобра- преобразований (I _ д2\(п-4)/2 ш= A р) 4тг(п-3)!A-г2)(™-1)/2 ОО ОО X О О Замена переменных у — х tg2 ср дает ?п^ 2тг(п-3)!A-г2)(--1)/2 Х тг/2 х / ° 9 г dip / ж"~"ехр cos2 if J I 2A — r2) cos2 9? о о Приняв за новую переменную интегрирования t во внутреннем ин- интеграле модуль аргумента показательной функции вместо ж, найдем ОО п-2 Г 1 ~ rpsin2(p I 7 ж ехр^ т ^гт ?—x>dx = Fl 2A -г2) cos2 <p J о A — rpsin2(p)n~1 о 2n-1(l-r2)n-icos2n-2^ / — -—- (п - Подставив это выражение в предыдущую формулу, получим _ 2\(n-4)/2 / sin2n У A — rpsh о 2\(п-4)/2 1 /' 51 "Р j * 2 У A - sinn~2
6.5. Оценки математического ожидания и ковариационной матрицы 271 Наконец, принимая во внимание, что sin# = sinGr — в), приведем по- полученную формулу к виду F.41) Эта формула, определяющая плотность выборочного коэффици- коэффициента корреляции, получена Фишером [110]. Интеграл в F.41) вычисля- вычисляется элементарно (например, подстановкой и — tg@/2)). Однако при этом получится очень громоздкое выражение. Чтобы получить ком- компактную формулу, выведем, следуя Фишеру, рекуррентную формулу для интегралов тг/2 Т ( \ - f sinn-2 fld(9 ln[Z) " J (l-.sin^- 0 \> Дифференцируя эту формулу по z, получаем = (п - 1) у A_^sing)ra = (п - Отсюда следует, что /n(^) = Vn_x{z)/(п — 2). Это и есть искомая ре- рекуррентная формула. Применяя ее, находим Таким образом, задача свелась к вычислению интеграла тг/2 / — z sin 0 * Подстановкой и = tg@/2) и соответственно sin# = 2гл/A + г/2), б?0 = = 2du/(l + г/2) после элементарных тригонометрических преобразо- преобразований получаем тг/2 Таким образом, j , ч _ 1 сГг~2 arccos(—^
272 Гл. 6. Оценивание параметров распределений Подставив это выражение в F.41), получим формулу Фишера 1 /_, 9 \ (г Up) = тг(га-З)! arccos(—rp) d(rp)n~2 < F.42) Ясно, что все написанные формулы для fn(p) определяют fn(p) только в интервале [—1,1]. Вне этого интервала fn(p) = 0. 6.5.5. Доверительные интервалы для коэффициента кор- корреляции. Для определения доверительного интервала для коэффи- коэффициента корреляции г обычно пользуются вторым методом п. 6.2.4, совершенно так же, как это де- делается для неизвестной вероятности (п. 6.3.2). Определив при каждом значении г Е (—1,1) интервал ?=ba(r) -1 -1- 1 г 9=аа(г) из условия P(R<aa(r))=P(R>ba(r)) = 1 -а F.43) строим на плоскости (г,?) кривые Рис-6-5 г = аа(г) и? = Ьа(г) (рис. 6.5). Эти кривые при любом значении 9 оценки R коэффициента корреляции определяют соответствующую реализацию Аа(9) = {г : аа(г) < 9 < < ^а(г)} доверительного интервала Aa(R) для г, соответствующего коэффициенту доверия а (рис. 6.5). Практически кривые 9 = аа(г) и 9 = ba(r) можно построить, пользуясь таблицами функции распреде- распределения величины R г Fn(r) = j fn(p)dp, -1 которые составлены Дэвид [26, 27]. Для приближенного определения доверительного интервала для г можно воспользоваться тем, что, как заметил Фишер, распределение случайной величины - 2 = ^ггъ F-44) даже при небольших значениях п близко к нормальному распределе- распределению 2(n-l)'n-3
6.5. Оценки математического ожидания и ковариационной матрицы 273 Дэвид исследовала точность приближения распределения вели- величины Z к нормальному и рекомендует пользоваться приближенным нормальным распределением для Z при п ^ 25, отбрасывая при этом слагаемое г/2{п — 1) в выражении математического ожидания вели- величины Z. Тогда, определив еа из условия P(\Z — тх\ < еа/л/п — 3) = = 2Ф(еа) = а, получим приближенный доверительный интервал для коэффициента корреляции г в виде 1 , 1 + R ?а ^ 1 , 1 + Г 1 1 + R ?а - 1П < - In < - In - + 2 \-R у^^З 2 1-r 2 \-R у^^З Отсюда, имея в виду, что функция монотонно возрастающая и обратная функция определяется форму- формулой е2у - 1 ж = — = thy, е2У + 1 у' преобразуем доверительный интервал для г к виду th( -In ^г . )r < th -In + , ). F.45) V2 i-R ^^Ъ) V2 i-R у^^З/ v y 6.5.6. Доверительные области для ковариационной мат- матрицы. Для определения доверительных областей для ковариацион- ковариационной матрицы в га (га + 1)/2-мерном пространстве можно применить второй метод п. 6.2.4. Пользуясь распределением Уишарта E.21), выбираем для каждой данной матрицы Кх область Da(Kx), вероятность попадания в кото- которую оценки Кх = S/(n — 1) равна а: Р(КХ е Da(Kx)) = J wnm(s) ds = а. Da(Kx) Тогда множество матриц Кх, для которых данное значение Кх при- принадлежит Da(Kx), Аа(Кх) = {Кх : Кх е Da(Kx)}, будет доверитель- доверительной областью для Кх, соответствующей коэффициенту доверия а. Об- Область Da(Kx) можно задать в виде прямоугольника (параллелепипе- (параллелепипеда) в га(га + 1)/2-мерном пространстве. Стороны этого прямоуголь- прямоугольника по осям Крр можно выбрать так, как мы выбирали их в п. 6.4.4 для дисперсии. \> Чтобы найти совместную доверительную область для вектора тх и матрицы Кх (в га (га + 3)/2-мерном пространстве), воспользуем- воспользуемся тем, что при нормальном распределении наблюдаемого вектора X вектор X и матрица S независимы, причем X имеет нормальное рас-
274 Гл. 6. Оценивание параметров распределений пределение N(rnx,Kx/n), a S — распределение Уишарта wnm(s). Бу- Будем искать область Da(mx,Kx) в виде _ п(ХТ - ттх)К-\Х - mx) < еа, аа(Кх) < Кх < Ьа(Кх)} *). Тогда будем иметь Р((Х,КХ) G Da(mx,Kx)) = Р(п(Хт - mTx)K-\X - mx) < < еа) Р((п - 1)аа(Кх) <S<(n- 1)Ъа(Кх)). Определив еа, аа(Кх) и Ъа{Кх) из уравнений Р(п(ХТ - ml)K-x(X -mx)< ea) = с^, Р{[п - 1)аа(Кх) <S<(n- 1)Ъа(Кх)) = ^, получим доверительную область для (тх,Кх) в виде Аа(Х,Кх) = {(Х,КХ) : п(тТх - ХТ)КХ\Х - тх) < еа, аа(Кх) <КХ< ba(Kx)}. <i Пример 6.8. В результате 20 опытов получена выборка для двумер- двумерного случайного вектора {X. У}: (8,10), (-9,-17), (-2,-3), B,-1), (-30,-21), (9,-2), A5,10), (-10,0), (-2,-10), A,18), A1,-13), (-24,-12), (-8,-2), B7,18), F,5), (-8,-9), (-6,10), @,-6), A7,4), (-18,-20) Найти оценки математических ожиданий, дисперсий, ковариации и ко- коэффициента корреляции величин X, У, доверительную область для вектора математического ожидания, доверительные интервалы для дисперсий и ко- коэффициента корреляции и совместные доверительные интервалы для всех пяти параметров жж, ту, Dx, Dy, г при а = 0,95. По формулам F.12), F.17), F.30) и F.33) находим оценки mx,my,Dx, Dy,kxy и гху: ж = -1,05, j/= -2,05, 2Х =su/19« 194, 2У = s22/19 и 136, кху = si2/19 и 111, ' U,Do, /SHS22 где 511 = 3681, si2 = 2111, S22 = 2583. По табл. 7 находим для а — 0,95, I = т = 2, к = п — т = 18 значе- значение fa = 3,55. После этого формула F.38) определяет реализацию довери- *) Неравенства между матрицами, так же как и между векторами, по- понимаются как соответствующие неравенства для всех элементов матрицы.
6.5. Оценки математического ожидания и ковариационной матрицы 275 acements -30 -20 -10" —I 1 И- 10 20 30 н 1 1— ¦¦-20 Рис. 6.6 тельной области для вектора [тх ту]1 как множество внутренних точек эллипса 0,5113(тж + 1,05J - 0,8358(жж + 1,05)(ту + 2,05) + + 0,7287(жу + 2,05J = 19,72. На рис. 6.6 этот эллипс показан вместе со всеми экспериментальными точ- точками. Определив по табл. 4 значение еа = 0,380 по данным а = 0,95, к = = п — 1 — 19, находим по формуле F.26) доверительные интервалы для дис- дисперсий координат случайного вектора: 8,6 < \J~D~X < 19,2, 7,2 < ^fWy < 16,1. Наконец, определив по табл. 1 значение еа = 1,96, для которого 2Ф(ва) = а = 0,95, находим по приближенной формуле F.45) доверитель- доверительный интервал для коэффициента корреляции: /1, 1,68 1,96 \ /I, 1,68 ],96\ th(-ln- 7=) < г < th -In- h -7=1, 42 0,32 y/vfJ \2 0,32 y/l7 J или, выполнив вычисления, 0,338 < г < 0,862. Совместные доверительные интервалы для жж, my, Dx, Dy и г, соответ- соответствующие а = 0,95, согласно концу п. 6.2.4 можно определить как довери- доверительные интервалы для каждого из этих параметров, соответствующие ко- коэффициенту доверия он = 1 — A — а)/Ъ — 0,99. В результате получаем -20,96 <тх < 18,86, -18,72 < ту < 14,62, 5,8 < \/~D~x < 22,0, 4,9 < л/В~у < 18,5, 0,200 < г < 0,895.
276 Гл. 6. Оценивание параметров распределений Найдем еще совместные доверительные интервалы для величин тх и ту. Для этого следует определить доверительные интервалы для каж- каждой из величин тх,ту, соответствующие коэффициенту доверия «2 = = 1 — A — а)/2 = 0,975. В результате получим -8,80 <тх < 6,70, -8,47 < ту < 4,37. Для сравнения на рис. 6.6 показан прямоугольник, образованный совмест- совместными доверительными интервалами для тх и ту. 6.6. Проверка гипотез о параметрах распределений 6.6.1. Задачи проверки гипотез. Задаче построения довери- доверительных областей для параметров распределений родственна задача проверки гипотез об этих параметрах. Из сказанного в п. 6.1.1 яс- ясно, что никаких точных утверждений о параметрах распределения по результатам опытов делать нельзя. Можно лишь высказывать раз- различные предположения о них — гипотезы. Задача проверки гипотез состоит в том, чтобы установить, противоречит принятая гипотеза экспериментальным данным или нет. Возможны два основных типа гипотез о неизвестных параметрах распределения. Гипотеза первого типа представляет собой предполо- предположение, что неизвестный параметр в (скалярный или векторный) име- имеет данное значение, скажем #о, или принадлежит данному множеству значений. Гипотеза второго типа состоит в том, что неизвестные пара- параметры в двух независимых выборках (или в большем числе выборок) имеют одни и те же значения. Ясно, что гипотеза второго типа, по существу, представляет собой предположение, что две серии опытов, в которых получены выборки, произведены в одних и тех же услови- условиях, так как только при выполнении определенного комплекса условий в каждом опыте вероятности событий и характеристики случайных величин имеют одни и те же значения во всех опытах. Характерной причиной изменения условий опыта часто являются различного рода дрейфы (тренды) — медленные неконтролируемые изменения различ- различных величин, характеризующих условия опытов. При этом изменение величины считается медленным, если в течение любой одной серии опытов ее можно считать практически постоянной и только в интер- интервале времени между двумя сериями опытов ее изменение может быть существенным. Задача проверки гипотез второго типа в таких случа- случаях представляет собой задачу обнаружения существенных дрейфов за время между двумя сериями опытов. Алгоритм, в соответствии с которым экспериментальным данным ставится в соответствие решение принять или отвергнуть гипотезу, называется правилом решения или решающим правилом. 6.6.2. Проверка гипотез о значении параметра. Задача про- проверки гипотез первого типа легко решается с помощью доверитель- доверительных областей. Если данное значение во (данное множество значений)
6.6. Проверка гипотез о параметрах распределений 277 принадлежит полученной реализации доверительной области (имеет непустое пересечение с ней), то можно считать, что гипотеза не про- противоречит экспериментальным данным. В противном случае гипоте- гипотеза отвергается. При таком решающем правиле вероятность отклонить гипотезу в случае, когда она верна, равна 1 — а. Пример 6.9. В условиях примера 6.5 гипотезу о том, что вероятность события А равна 0,5, следует отвергнуть, так как точка р = 0,5 не принадле- принадлежит доверительному интервалу @,583; 0,763), соответствующему а = 0,95. Вероятность отвергнуть правильную гипотезу в данном случае равна 0,05. Пример 6.10. В условиях примера 6.8 гипотезу о некоррелированно- некоррелированности случайных величин следует отвергнуть, а гипотезу о том, что коэф- коэффициент корреляции заключен в интервале @; 0,5), можно принять, так как точка г = 0 не принадлежит доверительному интервалу @,338; 0,862), а интервал @; 0,5) пересекается с этим доверительным интервалом. Другой подход к задаче проверки гипотез первого типа будет дан в п. 10.4.6. 6.6.3. Проверка гипотез о совпадении значений парамет- параметра. Для решения задачи проверки гипотез второго типа часто приме- применяется видоизмененный третий метод п. 6.2.4. Видоизменение состоит лишь в том, что вместо неизвестного параметра в в число аргументов функции ср включается его оценка по второй выборке. Пусть ©1 и 02 — две оценки параметра в, полученные по двум независимым выборкам. Предположим, что удалось найти скалярную функцию <?>(©i, 02, S) оценок 0i, 02 и некоторой статистики 5, обла- обладающую следующими свойствами: 1) при любых фиксированных значениях в\ и s величин 0i и S неравенство ^(#i,#2,s) < с при возрастании с определяет моно- монотонно возрастающее семейство вложенных одна в другую областей 2) cpF,6,s) = 0 при любых (9, s и <?>(#i,#2, s) >0 при любых #1, #2,s, #i ф 02 (и, следовательно, точка в\ = в2 принадлежит области DFi, s, с) при любых с > 0, в\ и s); 3) распределение случайной величины Т = ^(©1,02,5') в случае справедливости гипотезы не зависит от неизвестного параметра в. Тогда, определив 5а из уравнения P(ip(Q1,e2,S)<6a)=a, получим следующее правило решения, соответствующее коэффици- коэффициенту доверия а: если ^(©i,©2,5') < Sa, то гипотеза не противоречит экспериментальным данным; если же ^(©i,©2,5') ^ Sa, то гипотеза отвергается. При этом вероятность отвергнуть гипотезу в случае, ко- когда она верна, равна 1 - а.
278 Гл. 6. Оценивание параметров распределений Применим изложенный общий метод для проверки гипотезы, что математическое ожидание случайной величины одно и то же (неиз- (неизвестное) значение в двух независимых сериях опытов. Рассмотрим две серии независимых наблюдений нормально распределенной ве- величины X (или двух случайных величин Х\ и I2) с неизвестным математическим ожиданием тх и ковариационной матрицей Кх. Ги- Гипотеза, подлежащая проверке, состоит в том, что тх предполагается одинаковым в обеих сериях опытов. Матрица Кх при этом считается одной и той же в обеих сериях опытов. Пусть п\ и п2 — число опытов в первой и второй сериях, Xl и Х2 — случайные выборочные сред- средние в двух сериях опытов, JJ\ и ?/2 — матрицы, столбцами которых служат выборочные значения наблюдаемого, случайного вектора X в двух сериях опытов, Sk = UkUl - пкХкЩ = и°ки°Т - пкХ°кХ°кт (к = 1,2), m — размерность наблюдаемого вектора X. Согласно результатам примеров 5.19 и 5.24 случайная величина Ь — ¦ г (Л1 - А2 )П (Xi ra(ni + П2) имеет F-распределение /m,ni+n2-m-i(/)- Так как это распределение не зависит от неизвестных тпх и Кх, то функция +712-771-1) f^T —T,1(^ -= . (хг-х2)н (x1-x2) ш(П1+П2) удовлетворяет всем необходимым условиям. Поэтому можно принять следующее решающее правило для проверки гипотезы о равенстве математических ожиданий в двух сериях опытов: если ^7Т Tl у\/ ^ m(m +n2) (а ла\ -A2J < /a -, гт, (O.4b) } nm2(ni +n2 -m- 1) ч J где fa — верхняя 100A — а)-процентная точка F-распределения fm,ni+n2-m-i(f), то гипотеза принимается; в противном случае она отвергается. В первом случае говорят, что расхождение двух средних незначимо и может быть вызвано только случайностью результатов опытов. Во втором случае говорят, что расхождение значимо и мало- маловероятно, что оно вызвано только случайностью результатов опытов. Значимое расхождение указывает на возможность различия матема- математических ожиданий в двух выборках (вследствие неконтролируемого различия в условиях опытов). Величина fa практически определяется по табл. 7 по данным а, I — m и к = п\ + ?72 — m — 1.
6.6. Проверка гипотез о параметрах распределений 279 В частном случае скалярной наблюдаемой величины X (га = 1) можно преобразовать полученное решающее правило так, чтобы вме- вместо .F-распределения пользоваться Т-распределением. На основании результатов примера 5.16 случайная величина /711712G11 +П2 -2) (-= -^ имеет Г-распределение sni+n2_2(?). Так как это распределение не за- зависит от тх и Dx — KXJ то за функцию (p(Xi,X2,H) можно принять статистику Т. Тогда получим следующее правило: если 2 - 2) (O.47J где ta определяется уравнением Р(|Т| < ta) = а, то гипотеза прини- принимается; в противном случае она отвергается, расхождение между дву- двумя средними признается значимым. Практически ta определяется по табл. 3 по данным а и к — п\ + П2 — 2. Ясно, что F.46) при га = 1 совпадает с F.47) (пример 5.17). Для дополнительного подкрепления решения о том, что расхожде- расхождение двух средних незначимо, можно вычислить вероятность получе- получения расхождения, большего чем наблюденное. В случае скалярной величины X эту вероятность Р(|Т| > |t|), где t — полученная в ре- результате опытов реализация величины Т, можно найти по табл. 3. Значение этой вероятности P(F > /) в общем случае согласно ре- результату примера 5.25 равно значению функции распределения для /3-распределения с параметрами р = (щ + П2 — т — 1)/2, q = га/2 в точке v = [1 + ra//(ni + п.2 — т — I)]? где / — полученная в резуль- результате опытов реализация величины F. Пример 6.11. В условиях примера 6.6 по второй выборке, содержащей результаты 30 опытов, получено среднее 23,5 и S2 = 354. Проверить гипо- гипотезу о равенстве математических ожиданий в двух сериях опытов, приняв а = 0,95. В данном случае п\ = 20, пъ — 30, т = 1, х\ = 17,9, Х2 = 23,5, s\ = = 14 380, s2 = 23 354, h = si + s2 = 37 734, ta = 2,013 и _ ~X2\ = |17,9 - 23,5| = 5,6 < 2,013 Поэтому гипотезу о совпадении математических ожиданий можно принять. Для подкрепления этого решения найдем значение величины Т, полученное в результате опытов: 20 -3°-48 A7,9 -23,5) ^-0,692. 50 • 37 734 V ' ' } После этого по табл. 3 находим для к = 48 Р(\Т\ > 0,692) и 0,493. Таким образом, с вероятностью 0,5 можно получить еще большее расхождение средних, чем наблюденное.
280 Гл. 6. Оценивание параметров распределений 6.6.4. Исключение аномальных наблюдений. Изложенный метод проверки гипотезы о совпадении математических ожиданий в двух выборках можно, в частности, применить для проверки гипотезы об аномальности наблюдения, давшего в результате изолированную точку, удаленную от группы остальных экспериментальных точек. При таком «выскоке» экспериментальной точки из группы осталь- остальных точек естественно возникает мысль, что этот «выскок» произо- произошел из-за неконтролируемого нарушения условий опыта и поэтому «выскочившую» точку следует отбросить, признать аномальной. Яс- Ясно, что для принятия такого решения нужны веские основания. Так возникает задача проверки гипотезы об аномальности наблюдения. Предположим, что в результате п + 1 опытов одно значение слу- случайной величины оказывается на значительном удалении от группы п остальных значений. Без потери общности можно считать, что откло- отклонение произошло в (п + 1)-м опыте. Для проверки гипотезы об ано- аномальности значения хп+\ достаточно рассматривать его как вторую выборку, состоящую из одной экспериментальной точки хп+\. Тогда можно будет применить изложенный метод. В данном случае п\ — п, П2 = 1, Х<2 — Xn+i, $2 = 0 и F.46) дает следующее решающее прави- правило: значение Хп+\ наблюдаемой величины X признается аномальным и отбрасывается, если / лгТ \~Т \ С — 1 / ~у~ -\г \ \ -f rITl\Tl -f- 1J \ ± /7,^-1/ 1 -г п(п — ГП) где fa — верхняя 100A — а)-процентная точка F-распределения fm,n-m(f)] в противном случае оно учитывается. Точно так же в случае скалярной величины X F.47) дает правило: значение Хп+\ признается аномальным и отбрасывается, если (X X n+iJ a]J п(п-1) ' где ta определяется по табл. 3 по данным а и к = п — 1; в противном случае Xn+i учитывается. Пример 6.12. В результате 21 опыта получены 20 экспериментальных точек примера 6.8 и еще одна точка E0,40), удаленная от группы осталь- остальных. Проверить гипотезу об аномальности этой точки. По табл. 6 для а = 0,95, ? = ж = 2, к = п — ж = 18 находим fa = 3,55. Так как (хТ - x^s^ixi - х2) = [0,5113E0 + 1,05J - 0,8358E0 + 1,05)D0 + 2,05) + + 0,7287D0 + 2,05J] • 10~3 и 0,827 > 3,55 ¦ ^-^- и 0,414, 20 • 18 то точку #21 = [50 40 ]т можно признать аномальной и исключить.
Глава 7 ТЕОРИЯ ОЦЕНОК 7.1. Общие свойства оценок 7.1.1. Некоторые соотношения. Для каждой статистической характеристики можно найти много различных оценок. Мы это ви- видели на примере оценок дисперсий и ковариаций. Другие оценки для дисперсии нормально распределенной случайной величины мож- можно получить, выразив дисперсию Dx = \i^ из формулы C.89) че- через любой четный центральный момент /х2& и заменив в получен- полученном равенстве момент /i2& его оценкой. За оценку математическо- математического ожидания случайной величины с симметричным распределением можно принять ее выборочную медиану, т.е. среднее Xv+\ из экс- экспериментальных значений величины X, пронумерованных в поряд- порядке возрастания, при нечетном числе опытов п — 2v + 1 и полусум- полусумму двух средних [Xv + Xv+\)j2 или величину XXv + A — A)X^+i, Л ? @,1) при четном числе опытов п — 2v. Естественно стремить- стремиться находить в известном смысле наилучшие оценки с минималь- минимальной дисперсией или смещенные оценки с минимальным средним квадратом ошибки (п. 6.2.1). Для этого необходимо изучить общие свойства оценок и установить некоторые общие методы их нахож- нахождения. Как и прежде, будем рассматривать результаты опытов (не обяза- обязательно независимых) Х\,..., Хп как координаты п-мерного случай- случайного вектора (строки случайной п х m-матрицы в случае т-мерного наблюдаемого вектора X) U и обозначим через д(и\в) плотность ве- величины U, зависящую от неизвестного параметра в. Любая оцен- оценка параметра в согласно определению п. 6.2.1 представляет собой функцию результатов опытов U, не зависящую от в: 0 = (f(U). Ма- Математическое ожидание этой оценки в общем случае зависит от параметра в: = f <p(u)g(u\e)du = mv(e). G.1) Для несмещенной оценки 0 по определению т(р(в) = 0. \> Будем считать в общем случае параметр в r-мерным вектором и соответственно через d/дО обозначать оператор градиента: д/дв — = [д/двх ... д/двг]Т. Тогда будем иметь дт/д0 = [d/двг ... д/двг] и,
282 Гл. 7. Теория оценок дифференцируя формулу G.1) по #, получим т„ сю = J ф. дтЫд(и\в) ( |т, g(u\0)du = }-\\. G.2) Здесь, как и в п. 5.1.2, тп'^(в) представляет собой квадратную мат- матрицу с элементами m'pqF) = dmpF)/d6q, где m\{6),... ,mr{6) — ко- координаты вектора mip{0). При этом производные функции 1пд(и\в) по в\,..., вг могут существовать в обычном смысле или как обобщен- обобщенные функции, содержащие линейные комбинации 5-функций. Точно так же, дифференцируя формулу CXJ / g(u\e)du=l, находим ИЛИ сю сю дв Из G.4) и из G.2) следует формула M@-<?)Zt = m[@-<?) Таким образом, случайный вектор G.3) G.4) G.5) имеет нулевое математическое оэюидание и его ковариацил с ошиб- ошибкой в — в оценки в = ip(U) равна матрице производных rn'^iO) век- вектора Мв = т^ (в) по 6>i,... ,0Г. <\ 7.1.2. Нилсняя грань рассеивания оценки скалярного па- параметра. Из равенства G.5) можно получить нижнюю грань рассе- рассеивания оценки в. D> Рассмотрим сначала случай скалярного параметра в. В этом случае все величины в G.5) скалярные и к математическому ожида- ожиданию в левой части можно применить неравенство C.45) для моментов
7.1. Общие свойства оценок 283 второго порядка скалярных случайных величин. В результате полу- получим ИЛИ [m'v(9)f^M{Q-eJ-DZ, G.6) Отсюда в случае, когда DZ < оо, получаем неравенство >dz = одЫд/дв, G-7) где для краткости опущены аргументы U и в функции д. Это нера- неравенство впервые получено Фишером [111] (см. также [28, 45, 84, 114]). В частном случае несмещенной оценки в т'^F) = 1, М(в — вJ — = DQ и неравенство G.7) принимает вид \ = ш^т < ^ Это неравенство определяет нижнюю грань (не обязательно точ- точную) дисперсии несмещенной оценки. Никакая несмещенная оценка не может иметь меньшую дисперсию, чем правая часть G.8). Если DZ = оо, то неравенства G.6) и G.7) становятся тривиаль- тривиальными и не определяют нижнюю грань среднего квадрата ошибки. Это имеет место, например, в случае разрывной функции д(и | в) с зави- зависящими от 0 точками разрыва. В этом случае производная dinд/дО содержит ^-функции, а (д\пд/двJ не существует (квадрат 5-функции не имеет смысла). 7.1.3. Эффективная оценка скалярного параметра. Оцен- Оценка 0, для которой в G.7) имеет место знак равенства, называется эффективной. \> По доказанному в п. 3.3.4 знак равенства в G.6), а следова- следовательно, и в G.7) получается тогда и только тогда, когда случайные величины в — в и Z = д\пд/дв связаны линейной зависимостью: Z = дЫ9^в) = с(в -в)= сЫи) - в], G.9) где коэффициент пропорциональности с может зависеть от 0, но не зависит от U. Из G.9) и из G.4) следует, что математическое ожидание эффективной оценки 0 всегда равно в, 0 = в. Таким образом, любая эффективная оценка является несмещенной. <\ Коэффициент с в G.9) легко определяется. Имея в виду, что для эффективной оценки DQ — 1/DZ, из G.9) находим DZ = c2DQ = c2/DZ,
284 Гл. 1. Теория оценок откуда следует с = DZ = Ddlng/дв. Ясно, что эффективная оценка существует тогда и только тогда, когда функция д\пд(и | 6)/86 представима в виде G.9). В этом случае правая часть неравенства G.8) представляет собой точную нижнюю грань дисперсии для несмещенных оценок: ЬЖ™ GЛ0> Если функция д\пд/дв не может быть представлена в виде G.9), то эффективной оценки не существует. В этом случае правая часть в G.8) не является точной нижней гранью дисперсии несмещенной оценки. Заметим, что из несмещенности любой эффективной оценки сле- следует, что ни для какой смещенной оценки в G.7) не может быть знака равенства. Тем не менее, во всех случаях, когда существует эффектив- эффективная оценка, существует смещенная оценка более точная, чем эффек- эффективная, т.е. с меньшим средним квадратом ошибки. Однако несмещен- несмещенными оценками обычно не пользуются, чтобы избежать систематиче- систематических ошибок при небольшом числе опытов п. При большом же п за- заметного выигрыша в точности по сравнению с эффективной оценкой не получается. Поэтому эффективными оценками пользуются всегда, когда они существуют. Для любой несмещенной оценки в = y>(U) отношение правой ча- части неравенства G.8) к левой называется эффективностью этой оцен- оценки и обозначается е(ср): е(<р) = —J1 = -^— . G.11) VV^ DS-DZ DS-дЫд/дв Эффективность любой эффективной оценки равна 1. Эффективность любой другой несмещенной оценки представляет собой положитель- положительное число, меньшее единицы. Из G.9) ясно, что если эффективная оценка существует, то она единственная, так как формула G.9) не может быть справедлива для двух различных функций if. Оценка, эффективность которой стремится к единице при неогра- неограниченном возрастании числа опытов, называется асимптотически эффективной. 7.1.4. Нижняя грань рассеивания оценки векторного па- параметра. Перейдем к случаю векторного параметра в. Перепи- Перепишем G.7) в виде где 7<р — М(О — ОJ — второй начальный момент ошибки оценки О = cp{U), а ? — вспомогательная переменная. Таким образом, квад-
7.1. Общие свойства оценок 285 ратичная форма одной скалярной переменной ? в левой части G.12) ни при каких значениях ? не может быть больше квадратичной фор- формы в правой части. Это наводит на мысль, что, построив аналогичные квадратичные формы для случая векторного параметра #, мы сможем распространить этот факт на многомерные оценки. Пусть 0 = (f(U) — оценка r-мерного векторного параметра в. Мо- Момент второго порядка ошибки этой оценки определяется формулой Естественно предполагать, что между координатами вектора в — в не существует линейных зависимостей. В этом случае матрица Г^ обра- обратима. Естественно также считать, что между координатами вектора mip{0) не существует зависимостей вида <р{гп\(в),..., гпг(в)) = 0. В та- таком случае матрица т^@) обратима. При этих условиях обобщение неравенства G.12) на случай векторного параметра в имеет вид €тГёЧ < ?r/?tf*/v& G-13) где через \1^ для краткости обозначена матрица, обратная т^@), ц^ — (т^), а ? — вспомогательная векторная переменная (матрица- столбец) . D> Чтобы доказать G.13), вычислим момент второго порядка слу- случайного вектора Имеем Г„ = MVVT = Т~гМ{% - в)(вт - Отсюда, учитывая, что М@ - в)(вт - вт) = Г^, MZZT = Kz, М(в - 0)ZT = m; = »~\ MZ(eT - вт) = mf/ = (ц%)-\ получаем Но любой момент второго порядка представляет собой неотрицатель- неотрицательно определенную матрицу (п. 3.3.4), вследствие чего ?TFV? ^ 0 при всех ?, откуда и следует G.13). В частном случае несмещенной оцен- оценки 0 171^F) = 0, 171^@) = /, Г^ = К^р и неравенство G.13) принимает вид zi. < G.14)
286 Гл. 7. Теория оценок Геометрически G.14) означает, что эллипсоид ^т Kz^ = с при лю- любом с расположен целиком внутри эллипсоида ^тК~х^ = с для любой оценки в = (p(U). Следовательно, эллипсоид рассеивания ^тК^1^ — 1 любой несмещенной оценки в = (f(U) ограничен изнутри фиксирован- фиксированным эллипсоидом ^TKZ^ — 1. Ковариационная матрица _ дЫд дт\пд Kz ~ м ~W ~Ж~ случайного вектора Z = д\пд/дв называется информационной мат- матрицей Фишера. 7.1.5. Эффективная оценка векторного параметра. Если в G.13) имеет место знак равенства, то оценка 0 = ф{Ц) называется эффективной. Если произведение ковариационной матрицы К^ состо- состоятельной оценки в = (f(U) на информационную матрицу Фишера Kz стремится к единичной матрице при неограниченном увеличении чис- числа опытов п, то оценка в = (f(U) называется асимптотически эффек- эффективной. Из приведенного доказательства соотношения G.13) следует, что знак равенства в G.13) будет тогда и только тогда, когда Г^ = 0 и, следовательно, с вероятностью единица V = 0, т.е. пТ7 _ „Т д\пд(Ц\в) _ -p-i/gv m /71кч Отсюда, принимая во внимание, что согласно G.4) MZ = 0, заклю- заключаем, что математическое ожидание эффективной оценки в равно #, т.е. что любая эффективная оценка несмещенна. Но в случае несме- несмещенной оценки Г^ = Кф, m'y =^=/ив силу G.14) К~х — Kz. Сле- Следовательно, G.15) можно записать в виде Z = ^Шй = Kz(& -в)= KMU) - в]. G.16) Это условие необходимо и достаточно для того, чтобы в = ?>(U) было эффективной оценкой векторного параметра в. 7.1.6. Нижние грани дисперсий координат оценки вектор- векторного параметра. Из G.16) ясно, что если эффективная оценка век- векторного параметра существует, то она единственна. Из сравнения G.16) с условием G.9) эффективности скалярной оценки следует, что координаты эффективной оценки векторного па- параметра 0 являются эффективными оценками соответствующих координат вектора в тогда и только тогда, когда ковариационная матрица Kz вектора Z диагоиальна.
7.1. Общие свойства оценок 287 D> Из доказанной неотрицательной определенности матрицы Kz — К~х вытекает неотрицательная определенность матрицы К^ — К^1 *). Отсюда следует, что диагональные элементы матрицы Кр не могут быть меньше соответствующих диагональных элементов матрицы К~х. Это дает следующую нижнюю границу, для дисперсий оценок координат вектора в: D%p>K;p/\Kz\, G.17) где Крр — алгебраическое дополнение элемента Щр = DZP = = М[д\пд/дОр]2 в определителе \KZ\ матрицы Kz. Эта нижняя гра- граница достигается для координат эффективной оценки в вектора в. Заметим, наконец, что так как в случае эффективной оценки в оценка @р параметра 9Р является эффективной только в случае диа- диагональной матрицы Kz, то из полученных результатов вытекает нера- неравенство k;p/\kz\ > \/и;р, причем знак равенства имеет место тогда и только тогда, когда мат- матрица Kz диагональна. <\ Таким образом, в случае оценки неизвестного векторного пара- параметра в нижняя грань G.17) дисперсии координаты Qp его несме- несмещенной оценки в может быть больше нижней грани G.18) диспер- дисперсии несмещенной оценки вр параметра вр в случае, когда вр является единственным неизвестным скалярным параметром. Объясняется это тем, что во втором случае оценками могут служить функции резуль- результатов наблюдений U, зависящие от известных остальных координат вектора #, вследствие чего класс допустимых оценок во втором случае шире, чем в первом. 7.1.7. Достаточность эффективной оценки. Докажем, что эффективная оценка всегда достаточна. D> Пусть О = ip(U) — любая оценка r-мерного векторного пара- параметра в, Y = грA1) — любая (тп — г)-мерная статистика такая, что уравнения (р(и) = 0, ф(и) = у имеют единственное решение относи- относительно и в области возможных значений случайной величины U. Тогда можно выразить плотность результатов наблюдений U че- через совместную плотность h@,y\0) оценки 0 и статистики Y форму- формулой E.31): где J — якобиан от компонент функции [(р(и)Т ф(и)т]т по элемен- *) Для доказательства достаточно привести обе матрицы Kz и К,^ х к диагональной форме одним и тем же линейным преобразованием.
288 Гл. 7. Теория оценок там матрицы и. Но hF, у\0) — р{в \ 0) q(y \в,в), где р(в \ в) — плотность оценки в, a q(y\6,6) — условная плотность статистики Y. Следова- Следовательно, g(u\e)=p(d\e)q(y\e,e)\J\. Так как якобиан J не зависит от в, то отсюда следует, что д\пд(и\в) _ д\пр(в\в) дЫд(у\0,О) , , дв ~ дв ^ дв { } Р1з G.18) и из G.16) для случая эффективной оценки 0 получаем д\пр(в\в) =Кхф_щ_ 01ng(y|0,0) Левая часть не зависит от у. Следовательно, и правая часть не зависит от у. Поэтому сю Г J д\пд(у\в,в) , 2 m Al _ ЭЫд(у\в,в) дв q[y °^>аУ- дв Но для любой плотности, в том числе и для q, справедлива форму- формула G.3). Следовательно, dlnq(y | 6,6)/дд = 0 и и и Плотность q(y\0,6) в этом случае не зависит от параметра в ни при каком выборе функций yv+i,..., tpmm что и доказывает достаточ- достаточность эффективной оценки. <\ Таким образом, для того чтобы оценка в была эффективной, необходимо и достаточно, чтобы она была достаточной и ее плот- плотность удовлетворяла условию G.19). 7.1.8. Случай независимых опытов. В случае независимых опытов плотность g(u | в) равна произведению плотностей значений Xl, ..., Хп случайной величины X, полученных в результате опытов. Поэтому, обозначив плотность величины X через /(ж | 0), будем иметь k=l Отсюда, вновь пользуясь независимостью случайных величин Х\, ... ,Хп и принимая во внимание G.4), получаем _ дв ~"" дв
7.1. Общие свойства оценок 289 в случае скалярного в и A dinf(xp\e) dTinf(xq\e) _ Р, 9=1 _^ d\nf(Xp\0) dT\nf(Xp\0) _ " Z-jm де дв ~ ' где К = M[(d\nf/d6)(dT\nf/d6)] — ковариационная матрица слу- случайного вектора d\nf(X\0) W = дв в случае векторного в. Вследствие этого неравенства G.7) и G.8) в случае скалярного в принимают вид §^S G-2o) а условия G.9) и G.16) эффективности оценки в = ip(U) запишутся в виде 'ЛЧ =с[ф1,...,хп)-6], G.22) ^ дв к=1 где с = пК, К = Dd\n//дв в случае скалярного параметра в. Таким образом, эффективная оценка в в = (p(Xi,... ,Хп) существует тогда и только тогда, когда плотность f{x\0) наблюдаемой величины X при всех xi,... ,хп удовлетворяет соотношению G.22) при некоторой ФУНКЦИИ if. Пример 7.1. В случае оценки математического ожидания т и дис- дисперсии D нормально распределенной случайной величины X In f(x | m, D) = - \ lnB7rD) - и, следовательно, <9 In/ h
290 Гл. 7. Теория оценок Из этих равенств следует, что выборочное среднее X представляет собой эффективную оценку математического ожидания нормально распределен- распределенной случайной величины, а эффективной оценки дисперсии и эффективной оценкой векторного параметра (га, D) не существует, так как условие G.22) удовлетворяется только для одной координаты G.22) этого параметра*). Так как Ddlnf = 1_ D^hl = _L dm D' 3D 2L>2' то правая часть неравенства G.21) равна D/n для оценки га и 2D2/п для оценки D. Первая из этих граней, как видно из F.13), совпадает с дис- дисперсией X, как и следовало ожидать для эффективной оценки. Сравнивая вторую из этих граней с дисперсией оценки D F.19), видим, что эффек- эффективность оценки D равна (п — 1)/п. Так как (п — 1)/п -> 1 при п -> оо, то оценка D асимптотически эффективна. Так как п п ^2(хк - тJ = ^^(хк - хJ + п(х - гаJ = п(х - гаJ + s, k=l k=i то совместная плотность результатов опытов выражается в виде g(xi, ...,xn\m,D) = {2^D)~n'2 ехр{-^ (х - тJ - ^}, т.е. зависит только от значений статистик X и S и не зависит непосредствен- непосредственно от xi,..., хп. На основании последней теоремы п. 6.2.2 отсюда следует, что векторная статистика (X, S) достаточна для параметров m,D. По до- доказанному в п. 6.2.2 и любая двумерная функция величин X^S является достаточной статистикой для га и D. В частности, вектор [X D]T', так же как и [X D* ]т, представляет собой достаточную оценку векторного пара- параметра [га D]T. Пример 7.2. Совершенно так же доказывается, что в случае оценки математического ожидания га и ковариационно^ матрицы К нормально распределенного вектора X выборочное среднее X является единственной эффективной оценкой вектора га, К = S/{n — 1) — асимптотически эффек- эффективной оценкой матрицы К и что пара X, S является достаточной стати- статистикой для т,К. Из последнего факта вытекает, что пара X, К, так же как и X, К*, представляет собой достаточную оценку для га, К. 7.1.9. Случай дискретной наблюдаемой величины. Рас- Рассмотрим теперь частный случай, когда наблюдаемая случайная ве- величина X дискретна. Обозначим через х^,..., х^ ее возможные значения, а через Pi(#),... ,Pn(9) их вероятности. В этом случае плот- плотность f(x\6) определяется формулой N -*И)- G-23) *) Если математическое ожидание га известно, то оценка D = — га) /п дисперсии D эффективна.
7.1. Общие свойства оценок 291 Если значения х^,..., ж W величины X не зависят от неизвест- неизвестного параметра 0, а вероятности piF),... ,pn(@) дифференцируемы по 0, то Отсюда видно, что отношение (df /дв)/ f имеет значения (др„/дб)/ри в точках х — xv [у — 1,..., N) и остается неопределенным во всех дру- других точках. Поэтому N Обозначим через Му число появлений значениях х^ [у = 1,... ..., N) величины X при п опытах. Из G.22) следует, что эффективная оценка О = у (Mi,..., Мдг) параметра в существует тогда и только тогда, когда при любых целых неотрицательных числах mi,... ,гадг, mi + ... + tun = п, N ^^ G.26) Пример 7.3. В случае оценки вероятности события в каждом опы- опыте наблюдается число появлений этого события — дискретная случайная величина с двумя возможными значениями 0 и 1, вероятности которых равны соответственно q = 1 — р и р. Неизвестным параметром служит р. *) Для строгого вывода этой формулы выберем настолько малое е > О, чтобы каждый интервал (х^ — е, х(и^ + е) не содержал возможных зна- значений величины X, отличных от х^и\ и рассмотрим случай, когда плот- плотность f(x | 0) величины X определяется формулой N где Ss(x) = 1/Bе) при \х\ < е и ё?{х) = 0 при \х\ > е. Тогда получим д In/ д\при -вв- = -ёг при к = -оо " = ± А так как это справедливо при любом е > О, то G.25) справедливо и в пределе при е -> 0.
292 Гл. 7. Теория оценок В данном случае д\пр _ 1 d\nq _ 1 _ 1 dp p dp I — р q и при любом числе появлений т события д\пр ( . ding m п — т т dp , , amo m n — m n (m \ + (n - m) —— = = — ( p). dp p q pq \n J Таким образом, условие G.26) удовлетворяется, и, следовательно, существу- существует эффективная оценка вероятности р, представляющая собой частоту со- события. Коэффициент с в данном случае равен n/pq. Формула G.25) дает др р2 q2 pq1 и неравенство G.20) принимает вид где m<p(p) — MP. Из F.7) следует, что здесь получается знак равенства, если за оценку Р вероятности р принять частоту. Это еще раз подтверждает, что частота является эффективной оценкой вероятности события. Пример 7.4. В случае оценивания вероятностей pi,... , pjv значений xi,..., xn дискретной случайной величины X в — [р\ ... Pn-i ]T, Pn — — 1 — р\ — ... — pn-i, и, следовательно, dlnpv 5Р1Л д In pn 1 / , Л~ -. \ = — j = (yt/ = l,...,A/— 1), iV-1 JV 1 = — —- -PfJ.) ~\ > Ри р, \ п ^) pN ^ V п Сравнив это равенство с G.26), приходим к заключению, что вектор частот [Pi ... Pn-i ]t представляет собой эффективную оценку векторного параметра \р\ ... Pn-i ]t. Так как матрица К = N - аг] дв дв Р2 в данном случае не диагональна, то ни одна из частот Pi,..., Pn по отдель- отдельности не является эффективной оценкой соответствующей вероятности. Это объясняется тем, что в случае одной неизвестной вероятности р^ при из- известных остальных можно построить несмещенную оценку, зависящую от известных вероятностей, обладающую меньшей дисперсией, чем частота.
7.2. Основные методы нахождения оценок 293 7.2. Основные методы нахождения оценок 7.2.1. Метод максимума правдоподобия. Наиболее важным с теоретической точки зрения общим методом нахождения оценок яв- является метод максимума правдоподобия Фишера. Этот метод основан на принятии за оценку неизвестного параметра в такого его значения, при котором плотность результатов опытов Х|,..., Хп достигает наи- наибольшего значения при полученных реализациях х\,..., хп результа- результатов опытов Х\,..., Хп: д(и\в) = д(хг,...,хп\в) =тах. G.27) Функция g(xi,..., хп | в) называется функцией правдоподобия, а зна- значение #, при котором она достигает наибольшего значения, — оценкой максимального правдоподобия параметра в. Оценки максимального правдоподобия обычно определяют, максимизируя \ng(xi,... ,жп | #), пользуясь тем, что у = In ж — строго возрастающая функция. В случае независимых опытов ]ng(xu... ,xn | в) = 2^\nf(xk | в), G.28) k=i где f(x\O) — плотность наблюдаемой случайной величины X. Если f(x\6) при всех х имеет непрерывную производную по в (непрерыв- (непрерывный градиент в случае векторного в), то для определения оценки мак- максимального правдоподобия получаем уравнение = 0. G.29) ^ дв к=0 В случае г-мерного векторного параметра в это уравнение представля- представляет собой векторное уравнение той же размерности, т.е. систему г ска- скалярных уравнений относительно координат вектора в. Естественно, что оценками параметра в могут служить только те решения уравне- уравнения максимума правдоподобия G.29), которые зависят от результатов опытов xi,..., хп. Если уравнение G.29) имеет решения, не зависящие от xi,..., хп, то их следует отбросить. Если существует эффективная оценка в — tp(xi,..., жп), то на основании G.22) уравнение максимума правдоподобия G.29) прини- принимает вид Отсюда следует, что если существует эффективная оценка парамет- параметра 6, то она является единственным решением уравнения максиму- максимума правдоподобия. Предположим теперь, что оценка в = <p(xi,... ,жп) достаточна для в. В этом случае плотность q(y\0,6) в G.18) не зависит от в и
294 Гл. 7. Теория оценок на основании G.27), G.28) и G.18) уравнение максимума правдоподо- правдоподобия G.29) принимает вид дЩШ = О" G-30) Отсюда видно, что в случае существования достаточной оценки {или статистики) для в все решения уравнения максимума правдоподо- правдоподобия являются функциями этой достаточной оценки (статистики). По доказанному в п. 6.2.2 отсюда следует, что если существует до- достаточная статистика для #, то все решения уравнения максиму- максимума правдоподобия являются достаточными оценками параметра в. В случае дискретной наблюдаемой случайной величины X с возможными значениями х^1\ ... ,x(N\ вероятности которых равны PiF),... ,pn@), функция дIn f(x | в)/дв имеет значение d\npvF)/d0 в точке х^ [у — 1,... ,]V). Поэтому, если m,v из экспериментальных значений ж15..., хп наблюдаемой величины X равны х^ [у — 1,... ..., Лг), гп\ + ... + шдг = п, то уравнение максимума правдоподо- правдоподобия G.29) имеет вид Оценки максимального правдоподобия при достаточно общих условиях состоятельны, асимптотически нормальны и асимптотиче- асимптотически эффективны [35, 45, 86]. Пример 7.5. В случае оценки вероятности события р уравнение G.31) принимает вид (пример 7.3) т п /га \ = — —р) р 1-р pq где т — число появлений события. Единственным решением этого урав- уравнения является частота, р — т/п, в полном согласии с тем, что частота представляет собой эффективную оценку вероятности р. Пример 7.6. В случае оценки математического ожидания т и дис- дисперсии D нормально распределенной случайной величины X на основании результатов примера 7.1 уравнение максимума правдоподобия G.29) пред- представляет собой систему двух уравнений Первое из этих уравнений имеет единственное решение т — х (X — эффек- эффективная оценка). Подставив это значение т во второе уравнение и решив его, получаем n z—'
7.2. Основные методы нахождения, оценок 295 Таким образом, метод максимума правдоподобия дает в данном случае вы- выборочное среднее X в качестве оценки математического ожидания т и сме- смещенную оценку D* для дисперсии D. Пример 7.7. В случае оценки математического ожидания т и кова- ковариационной матрицы К нормально распределенного r-мерного случайного вектора X In f(x | m, К) = - In \C\ - - 1пBтг) - - (xT - mT)C(x - m) = r n l 2 2 где С = К~л. Так как матрицы С vl К связаны взаимно однозначной зави- зависимостью, то при составлении уравнений максимума правдоподобия можно взять производные In/(ж | т, К) по элементам матрицы С. В результате, принимая во внимание, что производная определителя по любому его эле- элементу равна алгебраическому дополнению этого элемента, находим O\nf(x\m,K) _ул д^р ~friCpsXs ms' dcpq где Cpq — алгебраическое дополнение элемента cpq в \С\. Подставляя сюда вместо ж, хР) соответственно хк) хкр) суммируя полученные выражения по к и приравнивая результаты нулю, получим систему уравнений максимума правдоподобия г -mp)(xkq - mq) = 0 fc=i Так как определитель матрицы С отличен от нуля, то первая группа урав- уравнений имеет единственное решение Uls = — у Xfcs = Xs \S = 1, . . . , Т). Подставив это решение во вторую группу уравнений, находим Kpq = ~~ / ^\%кр %p)\%kq %q) \Pi Q == J-j • • • 5 ^)- П fc = l Таким образом, метюд максимума правдоподобия дает в данном случае вы- выборочное среднее X как оценку математического ожидания и смещенную оценку К* — S/n = (n — 1)К/п для ковариационной матрицы.
296 Гл. 7. Теория оценок Пример 7.8. Показать, что если наблюдаемая случайная величина X имеет показательное распределение /(ж | Л) = \е~Хх 1(ж), то оценкой макси- максимума правдоподобия параметра Л служит величина, обратная выборочно- выборочному среднему значению величины X: Л = 1/Х. Эффективна эта оценка или нет? Достаточна ли она? Решить те же вопросы в случае, когда оценивается параметр v — А = MX. Пример 7.9. В случае оценки параметров Л и /л в 7-РаспРеДелении уравнения максимума правдоподобия имеют вид Первое из этих уравнений даст \ = {ц + \)/х. Подставив это выражение во второе уравнение, приводим его к виду Это уравнение можно решить методом последовательных приближений, пользуясь таблицей функции Ф(з). После этого найдем оценку параметра Л. Показать, что статистики X и S — у/Х\ ... Хп достаточны и что эффектив- эффективных оценок параметров А и // не существует. Обратите внимание на то, что X служит эффективной оценкой параметра ?/=(//+ 1)А~1= MX, так же как и в случае показательного распределениями (// = 0). Пример 7.10. В случае оценки параметра ц = MX в распределении Пуассона Ри(^) = //'е~^ jv\ (^ = 0,1,2,...)и уравнение максимума правдо- правдоподобия G.31) принимает вид - I - > н In ^—' Это уравнение имеет единственное решение An vmv — a) =0. 0 и = — У 1 п *-^ и=0 представляющее собой эффективную оценку параметра //. Но i/=0 fe = l так как ш^ представляет собой число экспериментальных значений величи- величины X, равных г/, т.е. число тех ж&, которые равны v. Таким образом, и в этом случае выборочное среднее служит эффективной оценкой математического ожидания случайной величины.
7.2. Основные методы нахождения оценок 297 Пример 7.11. Во всех рассмотренных примерах выборочное сред- среднее оказалось эффективной оценкой математического ожидания. Что- Чтобы показать, что это не всегда так, достаточно рассмотреть случай, когда эффективной оценки математического ожидания заведомо не су- существует, например упомянутый в п. 7.1.2 случай разрывной плотности с зависящими от математического ожидания точками разрыва, когда правая часть неравенства G.7) равна 0. В качестве такого примера рас- рассмотрим случайную величину X, равномерно распределенную на интер- интервале т — а, т + а с неизвестным параметром т = MX. В этом случае f(x\m) = l/2a при х Е (т — а,т + а) и функция правдоподобия постоян- постоянна и равна 1/Bа)п при всех значениях ж, для которых Xk E (га — а,т + а) (к = 1,..., п), и равна нулю при всех остальных га. Но Хк Е (га — а, га + а) при га Е (хк —а,Хк +ск). Следовательно, множеством значений га, при которых функция правдоподобия отлична от нуля, служит пересечение всех интервалов (хк — а,Хк + а) (к = 1,..., п), т.е. интервал (maxxfc — a, minxfc + а). Любое значение га в этом интервале представляет собой оцен- оценку максимума правдоподобия математического ожидания га. При этом вы- выборочное среднее х может и не принадлежать этому интервалу. Пример 7.12. Если надо оценить оба параметра равномерного рас- распределения га и а, то, поскольку функция правдоподобия обратно про- пропорциональна ап, следует взять в качестве оценки а минимальное значе- значение а, совместимое с результатами опытов, т.е. минимальное а, при кото- котором m&xxk — ol ^ minxfc + а. Таким значением а будет (тахж& — ттхк)/2. При этом для т получаем единственную оценку т = (тахж/е + ттхк)/2. 7.2.2. Одно свойство метода максимума правдоподобия. Для нахождения оценок максимума правдоподобия полезна следую- следующая теорема: если параметры вид связаны взаимно однозначной непрерывной зависимостью, то их оценки максимума правдоподобия связаны той же зависимостью. > Предположим, что параметры в и $ связаны взаимно одно- однозначной зависимостью Ф = (рF), 0 = Lp~l (#), причем функции ip и (р~г непрерывны. Пусть в — оценка максимума правдоподобия параметра в и $ = (р(в). Требуется доказать, что Ф — оценка максимума правдо- правдоподобия параметра #. Из того, что в — оценка максимума правдоподобия, следует, что д(и\в) < д(и\0) в некоторой окрестности точки в. Отсюда в силу со- соотношений в = (р~1(^), в = Lp~1{rff) и непрерывности (р следует, что д(и | Lp~l{rd)) < g(u\ tp~1($)) в некоторой окрестности точки #. Если в — единственная оценка максимума правдоподобия пара- параметра в, то д(и \в) < д(и\6) при всех в и, следовательно, д(и | (р(^)) < #(г* | (р~1(^)) при всех ^, т.е. $ — единственная оцен- оценка максимума правдоподобия параметра #. < Пример 7.13. Найти оценки максимума правдоподобия собственных значений и собственных векторов ковариационной матрицы Кх г-мерного случайного вектора X.
298 Гл. 7. Теория оценок В данном случае роль параметра 0 играет Кх, роль параметра $ — вектор, координатами которого служат собственные значения Ai,..., Аг и независимые координаты собственных векторов y?i,...,y?r. Покажем, что векторы 9 и # имеют одну и ту же размерность. В силу симметрии кова- ковариационной матрицы она полностью определяется г (г + 1)/2 своими эле- элементами &рд при q ^ р. С другой стороны, г2 координат векторов <?i,..., <рг связаны г(г + 1)/2 соотношениями C.62), Pptpq — Spq, q ^ p. Поэтому чис- число независимых координат векторов <^i,..., <рг равно г2 — г(г + 1)/2. Таким образом, собственные значения Ai,..., Аг и собственные векторы <?i,..., ус- успешностью определяются г + г2 — г (г + 1)/2 = г (г + 1)/2 числами. Далее, в силу соотношений C.61), C.67) и C.63) в случае различных собствен- собственных значений Ai,..., Аг матрица Кх и совокупность собственных значений Ai,..., Аг и собственных векторов y?i,..., <рг связаны взаимно однознач- однозначной непрерывной зависимостью. По доказанной теореме оценки максимума правдоподобия параметров Кх, с одной стороны, и Ai,..., Ar, y?i,..., <рг, с другой стороны, связаны той же зависимостью. Следовательно, оценками максимума правдоподобия собственных значений Ai,..., Аг и собственных векторов <pi,... ,<рг матрицы Кх служат собственные значения AJ,.... А*, и собственные векторы cpl,..., ср* матрицы fc=l fc=l (которая согласно результату примера 7.6 служит оценкой максимума прав- правдоподобия матрицы Кх). В случае, когда среди собственных значений Ai,...,Ar имеются сов- совпадающие, соответствующие собственные векторы определяются неодно- неоднозначно. Однако и в этом случае можно утверждать, что собственные значения и собственные векторы оценки максимального правдоподобия матрицы Кх представляют собой оценки максимального правдоподобия собственных значений и собственных векторов, соответствующих простым собственным значениям, и некоторых соответственно выбранных собствен- собственных векторов, соответствующих кратным собственным значениям. Можно доказать, что в случае различных собственных значений Ai,... ..., Аг матрицы Кх себственные значения AJ,..., Л* с вероятностью 1 раз- различны и, следовательно, собственные векторы у?*,..., (р* определяются од- однозначно с вероятностью 1. 7.2.3. Метод моментов. Вторым общим методом нахождения оценок параметров распределений является метод моментов. Этот метод основан на определении неизвестных параметров из уравне- уравнений, получаемых приравниванием экспериментально найденных оце- оценок моментов теоретическим значениям соответствующих моментов, зависящим от неизвестных параметров. Так, например, если плот- плотность f(x\0) наблюдаемой случайной величины X зависит от неиз- неизвестного r-мерного векторного параметра в, то для нахождения оцен- оценки этого параметра приравнивают оценки каких-нибудь г моментов величины X соответствующим теоретическим моментам. В случае скалярной наблюдаемой величины X г-мерный параметр 0 обычно
7.2. Основные методы нахождения оценок 299 определяют из уравнений k=l В случае векторной наблюдаемой величины X берут аналогичные уравнения для г моментов возможно меньших порядков. Как пра- правило, ограничиваются моментами не выше четвертого порядка. Метод моментов часто оказывается проще, чем метод максимума правдоподобия. Пример 7.14. Оценим параметр К показательного распределения ме- методом моментов. При этом достаточно оценить один первый момент - ма- математическое ожидание MX = 1/Л. В результате получим ту же оценку, что и методом максимума правдоподобия. Пример 7.15. В случае оценки параметров Ли// 7~РаспРеДеления? приравнивая первый и второй моменты соответствующим оценкам, полу- получаем уравнения Л п^ "" А2 п^ к fc=i k=i (теоретические выражения моментов для 7-распределения были получены в примере 3.16). Разделив второе из этих уравнений на первое, возведенное в квадрат, получим /1 + 1 ПХ2 ^—' к = 1 Решив это уравнение, находим 2х2 - - V а После этого находим оценку параметра Л: I х Л — х 1 Л П и —л Мы видим, что в данном случае оценки параметров методом моментов на- находятся значительно проще, чем методом максимума правдоподобия в при- примере 7.9. Пример 7.11. Оценим методом моментов параметры т и а равномер- равномерного распределения на интервале (га — а, т + а). Пользуясь оценками пер- первых двух моментов и результатами вычисления моментов для равномерного распределения в примере 3.3, получаем уравнения п п ^—' 3 п *-^ к=\ к=1
300 Гл. 7. Теория оценок Отсюда находим т = х и fc=l Таким образом, метод моментов дает в качестве оценки параметра т рав- равномерного распределения выборочное среднее. Еще один метод нахождения оценок параметров распределений — метод минимума х2 мы изложим в п. 8.3.4 в связи с задачами оце- оценивания законов распределения. Наиболее общие методы нахождения и исследования оценок слу- случайных величин и статистических характеристик дает статистическая теория решений [15]. 7.3. Рекуррентное оценивание корня уравнения регрессии 7.3.1. Рекуррентное оценивание математического ожида- ожидания. Изложенные методы нахождения оценок неизвестных парамет- параметров, от которых зависят распределения наблюдаемых случайных ве- величин, дают возможность оценивать неизвестные параметры только после того, как произведены все опыты. Между тем во многих задачах практики приходится совмещать опыты с решением определенных практических задач, эффективность решения которых существенно зависит от точности приближения к неизвестным параметрам. В та- таких случаях желательно производить оценку неизвестных параметров после каждого опыта с тем, чтобы повысить эффективность решения задач в следующем опыте. Таковы, например, задачи пристрелки при стрельбе и юстировки (устранения систематических ошибок) точных приборов. Задачей пристрелки является определение отклонения цен- центра рассеивания от цели, т.е. математического ожидания отклонения точки попадания от цели, по результатам измерений отклонений в процессе стрельбы с тем, чтобы по возможности точнее совместить центр рассеивания с целью. Ясно, что для повышения эффективно- эффективности каждого следующего выстрела желательно вносить поправку по- после каждого выстрела, а не ждать, когда будут произведены все вы- выстрелы, предназначенные для пристрелки. Таким образом, возникает необходимость рекуррентного оценивания неизвестных параметров, когда после каждого опыта определяется поправка к оценке, найден- найденной по результатам предыдущих опытов. > Разъясним основную идею рекуррентного оценивания на про- простейшем примере оценивания математического ожидания случайной величины. При этом мы будем отмечать выборочное среднее значение случайной величины X, полученное по результатам п опытов, верх-
7.3. Рекуррентное оценивание корня уравнения регрессии 301 ним индексом п. Тогда будем иметь ±*^к +1-хп = п У2к ^к п ^-^ п п — 1 *-^ п к=1 к=1 = x(n-1) + -(n) Таким образом, мы получили простую рекуррентную формулу для выборочных средних: Эта формула дает простое правило нахождения поправок к ра- ранее найденной оценке математического ожидания: после первого опы- опыта за оценку математического ожидания принимается наблюден- наблюденное значение Х\ случайной величины, Х^ = Х\, после второго опы- опыта добавляется поправка, равная половине отклонения X<i — X^\ и после п-го опыта к найденной ранее оценке X^n~^ добавляется по- поправка, равная одной п-й отклонения Хп — Х^п~г^ (после первого вы- выстрела или измерения вносится поправка, равная наблюдаемому от- отклонению, после второго — поправка, равная половине наблюденного отклонения, и вообще после п-го — поправка, равная наблюденному отклонению, деленному на п). Это правило издавна применяется в артиллерии и в точной механике. Очевидно, что рекуррентная формула G.32) применима и для оце- оценок любых моментов скалярных и векторных случайных величин, по- поскольку оценкой любого (начального или относительно данной точки) момента служит среднее арифметическое соответствующей степени случайной величины (произведения степеней координат случайного вектора). Процесс рекуррентного оценивания, когда поправка после каждо- каждого опыта зависит только от результата этого опыта и предыдущей оценки, называется стохастической аппроксимацией. Это название объясняется тем, что приближение к неизвестным параметрам до- достигается последовательностью случайных величин (в нашем приме- примере Х^). Общая теория стохастических аппроксимаций была заложе- заложена работой Роббинса и Монро [92] и развита в последующих работах Кифера и Вольфовица [36], Блюма [5, 6] и многих других, хотя, как мы видели, метод стохастических аппроксимаций был известен и при- применялся задолго до создания общей теории. Чтобы сформулировать общую задачу оценивания параметров ме- методом стохастических аппроксимаций, рассмотрим процесс примене- применения формулы G.32) с другой точки зрения. Введем случайную ве- величину Y — X — z при произвольном z. Ее математическое ожидание при данном z равно M[Y \ z] = MX - z = тх — z, т.е. представляет со- собой функцию переменной z — регрессию случайной величины Унаг;
302 Гл. 7. Теория оценок (п. 4.3.2). При этом функция ip(z) — M\Y\z\ известна не полностью, поскольку она зависит от неизвестного параметра тх. Задача оцен- оценки тх тогда сведется к оценке корня уравнения регрессии ф(г) — 0. Ввиду состоятельности оценки Х^ математического ожидания тх последовательность случайных величин Zn = Х^ (гг = 1,2,...) схо- сходится п.в. к корню тх уравнения ip(z) = 0. При этом в п-м опыте на- наблюдается случайная величина Yn = Хп — Zn-\ (п = 1,2,...), Zq = 0, после чего определяется реализация случайной величины Zn = Zn_! + ^Fn. G.33) Эта трактовка рассмотренной задачи подводит к широким обоб- обобщениям. В данном случае функция регрессии ф(г) = тх — z линейна и зависит только от одного неизвестного параметра тх (векторного в случае векторной величины X). В общем случае ф(г) — M[Y | z] мо- может быть неизвестной функцией, удовлетворяющей лишь некоторым самым общим условиям. Оказывается, что и в таких случаях методом стохастических аппроксимаций можно по результатам последователь- последовательных наблюдений величины Y оценивать корень уравнения регрессии ip(z) — а при любом а, а для скалярной величины Y — и точку экс- экстремума ф(г). 7.3.2. Процесс стохастических аппроксимаций. Будем счи- считать параметр z и случайную величину У, а следовательно, и функ- функцию ф(г) — M[Y | z] в общем случае r-мерными векторами. Предполо- Предположим, что уравнение ф(г) = а имеет единственное решение в и что при zq =0q, q^p, функция ujp(zp) - (zp - Ор)[фр(г) - ap] переменной zp сохраняет постоянный знак в достаточно большой окрестности Vp точ- точки вр (р = 1,... ,г). Положим €р = — sgnujp(zp) и обозначим через е диагональную матрицу с элементами ?]_,... ,ег. Для оценки корня в уравнения ф(г) = а возьмем произвольную случайную или неслучай- неслучайную величину Zq (конечно, такую, чтобы вероятность ее попадания в окрестность \\ х ... х Vr точки в была достаточно близка к 1) и построим процесс стохастических аппроксиляаций по формуле Zn = Zn_! + anen(Yn - а), G.34) где Yn — результат наблюдения случайной величины Y при z = Zn-\ (n = l,2,...), {an} — последовательность положительных чисел, удо- удовлетворяющих условиям Л — CXJ, У Aп \ CXJ, \(.ОО) 71=1 П=1 а гп — значение матрицы г при г = Zn-\. В частности, этим усло- условиям удовлетворяет последовательность {1/п}, с помощью которой строится последовательность G.33), сходящаяся п.в. к неизвестному
7.3. Рекуррентное оценивание корня уравнения регрессии 303 математическому ожиданию. Смысл условий G.35) состоит в следую- следующем: первое условие — расходимость ряда с общим членом ап > 0 — обеспечивает возможность неограниченного приближения Zn к #, не дает процессу приближений остановиться, не дойдя до точки в; вто- второе условие — сходимость ряда с общим членом о?п — обеспечивает ограниченность последовательности дисперсий DZn, не дает процес- процессу неограниченно удаляться от точки в. Диагональная матрица е с элементами, равными 1, введена в G.34) для того, чтобы обеспечить в среднем приближение к в. Для иллюстрации рассмотрим случай скалярного параметра в. Из G.34) находим M[Zn | Zn-г] - Zn_! = ane[^(Zn_i) - a] = [^(Z_i) - a где u)(z) = (z — 6)[ip(z) — а]. Отсюда видно, что знак разности M[Zn | Zn-i] — Zn_i всегда противоположен знаку отклонения Zn_i — — в, что и обеспечивает в среднем шаг от Zn-\ в сторону в. 7.3.3. Сходимость процесса стохастических аппроксима- аппроксимаций. Для исследования сходимости п.в. последовательности случай- случайных величин {Zn} применим известный в теории устойчивости метод функций Ляпунова [46, 53]. Этот метод дает возможность в каждом конкретном случае устанавливать достаточные условия сходимости или устойчивости какого-либо процесса. Метод функций Ляпунова основан на следующем простом факте. Если непрерывная функция v(z) положительна всюду, кроме точки z = в, в которой она равна нулю, и приращение этой функции на каждом шаге (производная по времени в случае непрерывного процесса) отрицательно в силу урав- уравнений процесса (в нашем случае в силу G.34)), то процесс всегда идет к точке в и не может остановиться, пока не достигнет точки в. Функ- Функция v(z) называется функцией Ляпунова. Если процесс приближе- приближения строится с помощью случайных величин, то вместо приращения (производной) отрицательным должно быть условное математическое ожидание приращения (производной). Для сходимости п.в. процесса стохастических аппроксима- аппроксимаций G.34) к корню уравнения регрессии ip(z) = а в случае независи- независимых величин Yn — z/j(Zn_i) достаточно существования функции Ля- Ляпунова v(z), удовлетворяющей условиям: 1) v(z) непрерывна вместе со своими первыми и вторыми произ- производными; 2) уF) = 0, inf v(z) > S(e) > 0 при любом е > 0; \z — 0\>? 3) sup u(z) < —Si(e) < 0 при любом е > 0, где \z-6\>e и(г) = ^^-е[ф(г)-а]; G.36)
304 Гл. 7. Теория оценок 4)w(z,\) = = М \{YT - ат)е ^-^r-v(z + X(Y - a))e{Y -a) z] < D < oo. L dZ °Z J G.37) при всех z, А (теорема Блюма) *). > Рассмотрим последовательность скалярных случайных вели- величин {v(Zn)}. Пользуясь формулой Тейлора, находим v(Zn) = v{Zn-x) + ап dTvigzn~l] e(Yn - а) + + f (Yj - aT)e ^ ^ u(Zn_! + 9nan{Yn - a))e(Yn - a), G.38) где 0п G @,1). Применив формулу полного математического ожида- ожидания D.34) и приняв во внимание, что условное математическое ожи- ожидание величины Yn относительно Zn-\ равно ^(Zn_i), M[Yn \Zn__i] = (n_i), с учетом G.36) и G.37) получаем м а^о ?{Yn _a) = M f^il ?M[Yn _ а | Zn_x]] = 92t)(z0 n-i) - а] = M«(Zn_1), G.39) М(Гпт -ат)^-^- v(Zn-x + впап (Yn - a))e(Yn - а) = oz oz Mw(Zn-U6nan) < D. G.40) Ha основании G.38), G.39) и G.40) Mv(Zn) = Mv(Zn^i) + anMt/(Zn_!) + °f Mw(Zn-U0nan) = где ^n = -Mu(Vi)j ^n = Mw(Zn-1,enan). Применяя G.41) после- последовательно, находим A;=l *) Блюм доказал достаточность этих условий для сходимости последо- последовательности {Zn} п.н. [5, 6, 13]. Мы ограничимся здесь доказательством их достаточности для сходимости п.в. Функция u(zI очевидно, представляет собой условное математическое ожидание дифференциала, т.е. главной ча- части приращения функции v(z), в силу уравнений процесса G.34) при данном значении z.
7.3. Рекуррентное оценивание корня уравнения регрессии 305 Отсюда следует, что п п п - Mv(zn) + - ^24т k=l k=l k=l В силу условия 3) ?k = —Mu{Zn_i) — M\u(Zn-\)\ ^ 0. Отсюда и из второго условия G.35) следует, что ряд с неотрицательными членами J2ak^k сходится. А так как ряд ]Г а& в силу первого условия G.35) расходится, то lim ?n = 0. Отсюда следует существование подпоследо- подпоследовательности ?Пр, сходящейся к нулю: Но в силу неравенства Чебышева F.1) Следовательно, P(\u(Znp)\ > е) —> 0 при р —> оо, т.е. подпоследова- подпоследовательность {u(Znp)} сходится п.в. к 0. Отсюда и из условия 3) вытекает сходимость п.в. подпоследовательности {ZUp} к в. Действительно, ес- если подпоследовательность {ZUp} не сходится п.в. к #, то существуют такие г, С > 0, что P{\ZUp — в\ > е) > ( при всех пр. Но из условия 3) следует, что P(\Znp-e\>e)^P(\u(Znp)\>81(e)). Таким образом, P(\u(Znp)\ > $i(s)) > С ПРИ всех пр, что невозможно ввиду сходимости п. в. подпоследовательности {u(Znp)} к 0. Осталось доказать, что и вся подпоследовательность {Zn} схо- сходится п.в. к в. Для этого заметим, что в силу непрерывности функ- функции v(z) и условия 2) подпоследовательность {v(Znp)} сходится п.в. к 0. С другой стороны, из G.38) следует, что при любых пр и п > пр П Т / \ v(zn) = v(znp) + 22 пк —я fc-1 ?(Ук ~ а) + к=пр-\-1 + \ Е a\{YkT-aT)e^-z^-zv{Zk^+ekak{Yk-a))e(Yk-a). к=пр-\-1 Отсюда, принимая во внимание, что в силу условия 3) с вероят- вероятностью 1 имеют место неравенства MR?^e^+i -а IМ = ^г^«дао -«] < °.
306 Гл. 7. Теория оценок и учитывая условие 4), получаем M[v(Zn)\Znp]4:v(Znp) + Z <¦ k=np+l Из этого неравенства и второго условия G.35) следует, что при лю- любом 8 > 0 M[v(Zn)\Znp]^v(Znp) + S при всех достаточно больших пр и п > пр. Отсюда, пользуясь нера- неравенством Чебышева F.1), получаем при любом е > 0 26_ е и, следовательно, P(v(Zn)>e\v(Znp)<5)<^- P({v(Zn) > е} П {v(Znp) < д}) = = P({v(Znp) < 5}) P(v{Zn) > е | v{Znp) < S)< Ц-. Зададим теперь произвольно малое (>0 и выберем 8 < е(/4. Тогда будем иметь при всех достаточно больших пр и п > пр P({v(Zn) >е}Г) {v(Znp) < 8}) < |. G.42) Далее, в силу сходимости п.в. к 0 подпоследовательности {v(ZUp)} P({v{Zn) > е) П {v(Znp) 2 S}) ^ P(v(Znp) 2 ё) < | G.43) при всех достаточно больших пр. Из G.42) и G.43) получаем P(v(Zn) >e)= P({v(Zn) > е} П {v(Znp) < 5}) + + P({v(Zn) >е}П {v(Znp) 2 6})<^ + ?=C. Это доказывает сходимость п.в. к 0 всей последовательности {v(Zn)}. В силу непрерывности v(z) и условия 2) отсюда вытекает сходимость п.в. к 0 всей последовательности {Zn}, чем и завершается доказа- доказательство. <\ При практическом применении доказанной теоремы самым труд- трудным, как и при исследовании устойчивости, оказывается нахождение функции Ляпунова v(z). В случае скалярных z, Y и ф(г) функцией Ляпунова может слу- служить v(z) = (z — ОJ. Эта функция удовлетворяет первым двум уело-
7.4- Рекуррентное оценивание точки экстремума регрессии 307 виям доказанной теоремы. При этом Ф) = ^ еЩг) - а] = 2(z - 0)[ф(г) - а]е = = 2u(z)e = -2u(z) sgnoj(z) = -2\u(z)\. Поэтому условие 3) удовлетворяется, если для каждого е > 0 су- существует такое Si(e) > 0, что inf \u(z)\ > S1(e). \Z — O\>? Наконец, вследствие того, что v"(z) = 2, w(z, А) = 2M[(Y - аJ | z] = 2{[ip(z) - а}2 + D[Y | z]}, где D[Y | z] — дисперсия величины Y при данном значении z. Поэтому условие 4) удовлетворяется, если дисперсия наблюдаемой случайной величины Y ограничена сверху одним и тем же числом D при всех z и функция i;(z) ограничена на любом конечном интервале. При этих условиях из доказанной теоремы вытекает основная теорема Роббинса и Монро, доказанная ими в работе, положившей начало развитию общей теории стохастических аппроксимаций [92]. 7.4. Рекуррентное оценивание точки экстремума регрессии 7.4.1. Процесс стохастических аппроксимаций. Перейдем к случаю оценивания точки экстремума скалярной функции регрес- регрессии tp(z). Предположим, что функция tp(z) непрерывна вместе со своими первыми производными ijj'(z) = dtp(z)/dzp (p = 1,..., г) и име- имеет единственный экстремум (минимум) в точке z = 6*). В этом слу- случае естественно стремиться двигаться из каждой точки z по отри- отрицательному направлению вектора градиента, т.е. применить метод наискорейшего спуска [102]. При неизвестной функции tp(z) есте- естественно за оценку производной гф' (z) в точке Zn_i принять величину Unp = (Ynp — Yno)/cn, где Yn0 — результат наблюдения случайной ве- величины Y при z = Zn-i, a Ynp — результат наблюдения величины Y при z = Zn-i + спер, где ер — единичный вектор оси zp, а сп — неко- некоторое число. Тогда, взяв произвольную случайную или неслучайную величину Zq и определив последовательность случайных величин Zn = Zn-! - anUn, G.44) где Un — вектор с координатами Unp — (Ynp — Yno)/cn, можем рас- рассчитывать на сходимость п.в. построенного процесса стохастических аппроксимаций к точке минимума в функции ^{z). *) Случай максимума приводится к случаю минимума изменением зна- знака функции ip(z) и случайной величины Y.
308 Гл. 7. Теория оценок 7.4.2. Сходимость процесса стохастических аппроксима- аппроксимаций. Докажем, что для сходимости п.в. последовательности G.44) к точке минимума в функции ф(г) достаточно, чтобы положителъ- ные числа ап и сп и функция ip(z) удовлетворяли условиям "=1 oo "=1 оо 2 G-45) lim cn = 0. > ancn < oo, > I - n=l n=l 7o < PpW = ^PJ0 < 7i (p = 1,..., r), G.46) г^е 7o ^ 7i — некоторые положительные числа, и чтобы дисперсия наблюдаемой случайной величины Y была при всех z ограничена од- одним и тем же числом D, D[Y \ z] < D (обобщенная теорема Кифера и Вольфовица [36]) *). > Из G.44) следует \лп — Щ = \лп-1 — Щ - ^oJJl{Zn_1 — и )Un + ап\Ьп\ . G.47; Оценим условное математическое ожидание второго слагаемого отно- относительно Zn-]_. Для этого найдем сначала M[Un \ Zn-i]. По определе- определению вектора Un, применяя формулу конечных приращений Лагранжа и учитывая, что в силу G.46) ij)'p{z) — (z — 6)gp{z), получаем П/Птт , у 1 M[Ynp\Zn-i]-M[Yn0\Zn-i] м [ипр | zn_ij — — Сп L. -^z. ih (/i 1 —I— i/ о p \ =z t n V ft—i ' ^ nip^n^pj = (Zn-liP + 1?ПрСп - ep)gp{Zn-x + ^Прспер), G.48) где ^nj9 G @,1). Следовательно, + $npCn(Zn-i,P ~ 9p)gp(Zn-1 + $nPcnep). G.49) Отсюда и из G.46) получаем -(Zn-hp - 0p)M[Unp I Zn^\ < -jo(Zn-i,p - 0pJ + -yiCn\Zn-i,P ~ 0p\. *) Кифер и Вольфовиц доказали эту теорему для скалярной перемен- переменной z. Обобщение на случай векторного z при несколько иных условиях и с доказательством сходимости п.н. дал Блюм [6].
7.4- Рекуррентное оценивание точки экстремума регрессии 309 Суммируя по р и принимая во внимание, что п J2(zn-hP - 0р)м[ипр | zn_i] = (zl_, - eT)M[un | zn_i], p=l n \ ^P\z - в p=l приходим к неравенству - {zl_x - eT)M[un | zn_ n_i -вJ G.50) Кроме этой оценки, нам еще понадобится более грубая оценка для предварительного исследования. Чтобы получить такую оценку, заме- заметим, что в силу G.46) и G.49) величина — [Zn_\^ — 0p)M[Unp | Zn-\\ может быть положительной только при достаточно малых отрица- отрицательных Zn_i5J9 - 6Р, а именно при 0 > Zn_ijP — вр > -$пРСп > -сп- Отсюда и из G.49) следует, что -(Zn_i,p - 0p)M[Unp | Zn_i] Суммируя по г, получаем неравенство -(^_! - 9T)M[Un | гЪс2п. G.51) Для оценки условного математического ожидания последнего сла- слагаемого в G.47) относительно Zn-\ воспользуемся формулой C.29), выражающей начальный момент второго порядка через математиче- математическое ожидание и дисперсию случайной величины. На основании этой формулы, применив G.48) и G.46), получаем -!] = (M[U < 7?( np | D[Unp D[Unp *) Здесь мы воспользовались неравенством 2 г справедливым при любом г и любых действительных xi,..., хг. Для дока- доказательства достаточно найти максимум суммы ^ ир при условии ^ ир = 1 и показать, что он равен у/г.
310 Гл. 7. Теория оценок Но D[Unp | Zn_i] = \ D[Ynp - YnQ | y/D\Ynp в силу условия теоремы. Следовательно, M[U2p | гп-г] < 272[(Zn.hp - врJ + 27l2c2 + ^. Отсюда суммированием по р получаем неравенство M[\Un\2 | Zn_i] < 27i2|^n-i ~ 0\2 + 2r7i24 + ^- G.52) Теперь мы можем доказать с.к. сходимость последовательно- последовательности {Zn} к в. Для этого докажем сначала ограниченность последова- последовательности положительных чисел 8п = M\Zn — в\2. Из G.47) следует, что 6п = «„_! - 2onM(Zj_1 - вт)ип + a2nM\Un\2 = = <5п_г - 2anM[{Zl_1 - 9T)M[Un | Zn--,]] + + a2nM[M[\Un\2\Zn.1]]. G.53) Отсюда, пользуясь неравенствами G.51) и G.52), получаем 8п 8п < 6п.г () = Sn-1(l + 2121a2n)+iin, G.54) где 1ЛП = 2П2апс2п + 2П2а2пс2п Применяя неравенство G.54) последовательно, будем иметь п П A + 2724) + Мп- G-55) k=l s=l k=s+l Из G.45) следует, что ряд ^ /.is и бесконечное произведение п п
7.4- Рекуррентное оценивание точки экстремума регрессии 311 . + 2~f2a2k) сходятся*). Таким образом, все произведения в G.55) образуют неубывающие последовательности, ограниченные сверху од- одним и тем же числом — бесконечным произведением f|(l + 2~f2a\). Отсюда в силу сходимости ряда ^2 ц8 следует ограниченность после- последовательности {5п}, т.е. существование такого числа 6, что 8п < Ъ2 при любом п. А так как для любой векторной случайной величины V на основании неравенства C.45) M\V\ = МA • \V\) ^ y/M\V\2, то M\Zn - <9| ^ ^M\Zn-6\2 = лАп < Ъ. Пользуясь этим неравенством и неравенствами G.50) и G.52), из G.53) получаем n-i + 27iЬл/гапсп + 2j2b2a2n + 2П2а2гс2п + 4rD(^J = Jn_x(l - 27oan) + i/n, G.56) \ с / где 2а2с2 где По — любое число, для которого 2^а^ < 1 при всех к > щ. Из G.45) следует, что ряд ^ vs сходится, а произведение f|(l — 270^) расходится к нулю. Следовательно, правая часть в G.57) стремит- стремится к 0 при п —У оо. Это и доказывает сходимость последовательно- последовательности {5п} к нулю, т.е. с.к. сходимость последовательности случайных с„ + 2121Ъ2а1 + 2П2а2пс2п Применяя G.56) последовательно, будем иметь п п—1 п $п<$п0 П (!-27о^)+ 5Z ^ П A-27о^) + г/п, G.57) *) Так как 1пПA + хк) = X) 1пA + хк) = ЕЖА(ЖЛ гДе Рк(хк) = = 1 — Хк/2A + AfcXfc), Afc G @,1), и /Зк(хк) —>- 1 при ж^ —>- 0, то бесконечное произведение ПA + ж^) сходится тогда и только тогда, когда сходится ряд ^2хк- Если J^^fc = °°5 то бесконечное произведение J}A + Xfc) называется расходящимся к оо, так как в этом случае п lim ТТA + ж&) = оо. fc = l Если ^ж^ = —оо, то произведение ПA + хк) называется расходящимся к нулю, так как в этом случае п lim TT(l+?fc) = 0.
312 Гл. 7. Теория оценок величин {Zn} к в. Наконец, из с к. сходимости {Zn} к в следует схо- сходимость п.в., что и доказывает теорему. <\ 7.4.3. Метод случайного поиска. Мы видим, что для оценки экстремума функции ф(г) r-мерного вектора z необходимо в каж- каждой точке Zn-i наблюдать случайную величину Y г + 1 раз при z = Zn-i,Zn-i + cnei,... ,Zn-i + спег. При г = 1 величину Y при- приходится наблюдать два раза. При этом вместо наблюдения ее при z = Zn-i и z = Zn-\ + сп можно наблюдать ее при z = Zn-\ Л- сп и z — Zn-i — сп и за оценку производной функции ip(z) в точке Zn_i принять отношение разности полученных значений Y к 2сп. Именно этот случай первоначально рассматривали Кифер и Вольфовиц в [36]. При большой размерности г вектора z применение метода стоха- стохастических аппроксимаций для нахождения экстремума функции ф(г) оказывается очень трудоемким из-за необходимости делать г + 1 на- наблюдений величины Y в каждой точке. В таких случаях более выгод- выгодным часто оказывается метод случайного поиска. Метод случайного поиска основан на том, что из каждой точ- точки Zn_i делается шаг, представляющий собой случайный вектор Vn. В полученной точке Zn — Zn_i +Vn производится одно наблюдение случайной величины Y. В соответствии с результатом этого наблю- наблюдения Yn формируется распределение следующего шага Vn+\. Если Yn < Yn-i, то распределение шага Vn+i выбирается так, чтобы веро- вероятность шага Vn+i, близкого по направлению к Vn (т.е., вероятность сделать следующий шаг в направлении, близком к тому, в котором была получена удача), была достаточно велика. При Yn > Y^-i рас- распределение шага Уп+1 выбирается так, чтобы вероятность шага V^+i, близкого по направлению к Vn (т.е. вероятность сделать следующий шаг в направлении, близком к тому, в котором была получена неуда- неудача), была малой. В остальном распределения пробных шагов можно брать в значительной мере произвольными. При удачном выборе этих распределений метод случайного поиска может дать значительный выигрыш по сравнению с методом стохастических аппроксимаций в случае большой размерности г вектора z. Поскольку распределение каждого шага формируется с учетом ре- результатов предыдущих шагов, алгоритм случайного поиска получа- получается, по существу, обучающимся. Такой алгоритм накапливает опыт, учится на предыдущих удачах и неудачах*). *) Более подробное изложение метода стохастических аппроксимаций и его применений читатель может найти в [13, 102]. Приложения метода сто- стохастических аппроксимаций к различным задачам управления даны в [47, 106, 121, 122]. Читателей, интересующихся методом случайного поиска и его многочисленными приложениями, мы отсылаем к книге Л.А. Растриги- на [87], который внес существенный вклад в разработку метода случайного
Глава 8 ОЦЕНИВАНИЕ РАСПРЕДЕЛЕНИЙ 8.1. Оценки плотности и функции распределения 8.1.1. Параметрическое и непараметрическое оценивание распределений. Методы оценивания числовых характеристик слу- случайных величин и параметров распределений, изложенные в гл. 6 и гл. 7, дают возможность находить по результатам опытов (оценивать) распределения случайных величин, представляющие собой известные функции, зависящие от конечного числа неизвестных скалярных па- параметров (т.е. от неизвестного конечномерного параметра). Такое оце- оценивание неизвестных распределений называется параметрическим. Непосредственное оценивание распределений без предположения, что они являются известными с точностью до конечномерного парамет- параметра функциями, называется непараметрическилг. Мы изложим теперь основные методы непараметрического оценивания распределений слу- случайных величин. 8.1.2. Оценивание плотности по гистограмме. Из нашего подхода к определению плотности в п. 2.2.1 следует, что подходящей оценкой плотности случайной величины может служить относитель- относительная плотность экспериментальных точек. При этом, чем больше чис- число опытов, тем мельче можно взять интервалы разбиения области возможных значений случайной величины и тем точнее гистограмма будет аппроксимировать плотность. Практически интервалы рекомен- рекомендуется выбирать так, чтобы в каждом из них было не меньше 10 экс- экспериментальных точек. Пусть f(x) — неизвестная плотность случайной величины X. Предположим, что область возможных значений величины X разби- разбита на г интервалов (многомерных интервалов — прямоугольников — в случае векторной величины X) Ах\,..., Axr *). Пусть Z],..., Zr — случайные числа попаданий величины X в интервалы Ах±,..., Ахг при п опытах, Z\ + ... + Zr — п. Тогда частоты попадания в эти ин- интервалы будут равны Pv = Zvjn [у = 1,... , г). Вероятности попада- *) Если областью возможных значений величины X служит все прост- пространство, то некоторые из интервалов Д#1,...,Джг могут быть бесконеч- бесконечными. При оценивании плотности все интервалы, содержащие эксперимен- экспериментальные точки, берутся конечными, и только интервалы, не содержащие экспериментальных точек, могут быть бесконечными.
314 Гл. 8. Оценивание распределений ния в эти интервалы определяются формулой Pv = I f(x)dx (z/ = 1,...,г). Если принять частоты Pi,..., Рг за оценки вероятностей р\,..., рг, то значения относительной плотности экспериментальных точек Fu — — PvjAxv в соответствующих интервалах Ах„ (z/=l,...,r) будут оценками величин Если /(ж) непрерывна в каждом интервале Ах„, то эти величины представляют собой значения f(x) в некоторых средних точках со- соответствующих интервалов. Таким образом, значения относительной плотности экспериментальных точек (ординаты гистограммы) пред- представляют собой оценки плотности вероятности в неизвестных средних точках соответствующих интервалов. 8.1.3. Доверительные области для плотности. Для нахо- нахождения доверительной области для вектора f = [fi---fr]T в r-мерном пространстве воспользуемся третьим методом п. 6.2.4. Что- Чтобы найти соответствующую функцию <?>, будем оценивать отклоне- отклонение вектора частот Р—[Р\ ... Рг]т от вектора вероятностей р — — [Pi • - • Рг]Т взвешенной суммой квадратов ошибок где ci,..., сг — некоторые положительные числа. Эти числа целесооб- целесообразно выбрать так, чтобы меньшие значения вероятности оценивать с меньшими абсолютными ошибками. Иными словами, ошибкам оце- оценивания малых вероятностей pv следует приписать большие веса си. К. Пирсон показал, что если взять cv — n/pv (v — 1,..., г), то в пре- пределе при неограниченном возрастании числа опытов п распределение величины г n = nJ2-(h-PvJ (8.1) стремится к х2"РаспРеДелению с г — 1 степенями свободы [72, 73] (пример 5.50). Так как это распределение не зависит от неизвестных параметров pi,...,рГ1 то величину (8.1), называемую обычно х21 мож- *) Для простоты мы обозначаем через Ахи не только интервал, но и его длину (объем в случае векторной X).
8.1. Оценки плотности и функции распределения 315 но принять за функцию ср(Р,р) п. 6.2.4. Тогда получим доверительную область для вектора р — \р\ ... рг]Т, определяемую соотношениями J±e = 1, (8-2) где еа определяется по заданному коэффициенту доверия а из урав- уравнения Р(<р(Р,р) < еа) = Р(Н < е ¦a)fl = a. (8.3) Практически величину еа определяют по заданным к — г — 1 и а по табл. 5. При этом следует учитывать и бесконечные интервалы Ахи, частоты попадания в которые равны нулю. Для нахождения доверительной области для вектора средних плотностей f — [fi ... fr]T следует прежде всего заменить беско- бесконечные интервалы Ахи достаточно большими конечными так, что- чтобы вероятность непопадания величины X ни в один из интервалов Дать ..., Ахг была пренебрежимо малой. При этом для более точного интервального оценивания средних плотностей в бесконечных интер- интервалах с нулевыми частотами попадания можно разбить их на несколь- несколько меньших интервалов (с нулевыми частотами). Тогда доверительная область для / определителя соотношениями - < -' Е (8-4) Пример 8.1. Полученные в результате 100 опытов значения случай- случайной величины X распределились по 10 интервалам длины 80 единиц каж- каждый, как показано в табл. А. Таблица А V Zv Ху % ¦ Ю4 1 2 -345 2,5 2 6 -265 7,5 3 8 -185 10,0 4 16 -105 20,0 5 19 -25 23,8 6 17 55 21,2 7 14 135 17,5 8 8 215 10,0 9 7 305 8,8 10 3 385 3,7 В третьей строке таблицы показаны средние точки интервалов, а в чет- четвертой — относительные плотности экспериментальных точек. Найти оцен- оценку плотности и доверительную область для нее, соответствующую коэффи- коэффициенту доверия а = 0,95. Гистограмма для данного случая дана на рис. 8.1. Чтобы найти до- доверительную область, заметим, что в данном случае, считая два бесконеч- бесконечных интервала (—сю, —385) и D15, сю), имеем г = 12, Axi = ... = Ахю = 80.
316 Гл. 8. Оценивание распределений placements -400 -200 0 200 400 600 х Рис. 8.1 Заменив бесконечные интервалы приближенно конечными (—545, —385) и D15, 575), будем иметь Ах и = A^i2 = 160. По табл. 5 для к = г — 1 = 11 и а = 0,95 находим еа — 19,68. Полученная в результате опытов реализация доверительной области для / = [/i ... /12 ]т определяется соотношениями |(Л - 2,5 - Ю- h + |(/2 - 7,5 • Ю-4J + |(/3 - 10,0 - Ю-4J + h /з h .-4ч2 /з ^-(/4 - 20,0 • Ю-4J + ^(/5 - 23,8 • Ю-4J + ~{fQ - 21,2 . 10J + /4 /5 /6 -J-(/7 - 17,5 • Ю-4J + ^(/8 - 10,0 • Ю-4J + ^(/9 - 8,8 • Ю-4J + /V /10 /9 (/ю - 3,7 ¦ 10~4J + 2/n + 2/12 < 0,00246, /1 + /2 + . •. + 2/n + 2/12 = 0,0125. Эту 11-мерную область в 12-мерном пространстве невозможно представить наглядно. Чтобы получить наглядную доверительную область, найдем сов- совместные доверительные интервалы для всех величин /i,..., /12, соответ- соответствующие коэффициенту доверия не меньше чем а = 0,95. Для этого сле- следует найти доверительные интервалы для каждой из величин Д,..., /12, со- соответствующие коэффициенту доверия а\ = 1 — A — а/12) = 1 — 0,05/42 и и 0,9959 (п. 6.2.4). Так как число опытов в данном случае достаточно ве- велико для того, чтобы распределение частоты можно было считать нор- нормальным, применим формулу F.11). Для этого по табл. 1 находим (для а = 0,9959) еа = 2,86. Подставив это значение и значения частот в F.11), находим совместные доверительные интервалы для /i,...,/i2- Границы этих интервалов (аи,Ьи) (у = 1,..., 12) приведены в табл. Б.
8.1. Оценки плотности и < функции распределения 317 Таблица Б /, аи • Ю4 к - ю4 h 0,4 13,6 /2 2,5 20,8 /з 3,9 24,2 /4 10,2 37,5 /5 12,9 40,5 /б 11,1 37,7 А 8,8 33,3 /8 3,9 24,2 /9 3,3 22,5 /ю 1,0 15,5 /ll,/l2 0 9,5 На рис. 8.1 показана доверительная область для кривой распределения, образованная этими доверительными интервалами. Согласно сказанному в п. 6.2.4 эта доверительная область содержит неизвестную кривую распре- распределения с вероятностью, не меньшей чем 0,95. Из рис. 8.1 видно, что полу- полученные экспериментальные данные могут соответствовать большому раз- разнообразию кривых распределения. Сплошной линией на рис. 8.1 показана кривая распределения, подобранная для этих экспериментальных данных в примере 8.5, а штриховой линией — нормальная кривая распределения. Изложенным методом определения доверительных областей для плотности можно пользоваться только в том случае, когда число опы- опытов п достаточно велико для того, чтобы распределение величины Н мало отличалось от х2-распределения. Практически этим методом можно пользоваться при п ^ 100. Это условие обычно всегда выпол- выполняется, так как хорошие оценки распределения случайной величины можно получить только по результатам большого числа опытов, по- порядка нескольких сотен для скалярной и тысяч для векторной случай- случайной величины. Если же возникает необходимость оценить плотность по малому числу опытов, то для нахождения доверительной области для нее следует пользоваться точным полиномиальным распределе- распределением частот Pi,..., Рг и вторым методом п. 6.2.4, так же как это было сделано для оценки вероятности в п. 6.3.2. 8.1.4. Оценка функции распределения. Для получения оцен- оценки функции распределения F{x) естественно заменить в ее определе- определении B.29) вероятности событий X < х их частотами. Пусть М(х) — случайное число экспериментальных значений случайной величины X при п опытах, удовлетворяющих неравенству Xk < x. Тогда оценка функции распределения величины X определится формулой F(x) = М(х)/п. Пользуясь единичной ступенчатой функцией, можно представить эту формулу в виде *) !(*-**)¦ (8.5) k=i *) Единичную ступенчатую функцию векторного аргумента можно считать равной произведению единичных ступенчатых функций всех ко- координат вектора-аргумента.
318 Гл. 8. Оценивание распределений Другие оценки функции распределения скалярной случайной ве- величины могут быть определены через выборочные квантили. 8.1.5. Доверительные области для функции распределе- распределения. Задача нахождения доверительной области для функции рас- распределения очень сложна и для векторных величин пока еще не реше- решена. Для скалярных случайных величин эта задача упрощается вслед- вследствие того, что для любой непрерывной функции распределения F(x) распределение случайной величины S = max \F(x) — F(x)\ не зависит от F{x). Это следует из результата примера 5.22, согласно которому для любой непрерывной F(x) случайная величина Y — F{X) в случае скалярной величины X распределена равномерно на интервале @,1). Пусть Gn(s) — функция распределения величины S при п опытах. Значения Gn(s) при s = к/п, fc = 1,..., п — 1, определяются формулой ([58]; см. также [103]) Gn (?) = ^ ukn(k, п) (к = 1,..., п - 1), (8.6) где функция Ukn(hj m) (h = 1,..., к; т — 0,1,..., п) определяется ре- рекуррентной формулой 1=1 V ; и условиями Ukn(h,m) = 0 при h^m + k, ukn(h,0)=0 (Л = 1,...,*-1), икп(к,0) = 1. Пользуясь формулой (8.6), Масси составил таблицы значений Gn(k/n) функций Gn(s)j а затем интерполированием получил таблицы зна- значений функций Gn(s) в зависимости от величины и = вл/п при разных п или, что то же, таблицы значений функций распреде- распределения Кп{и) случайной величины U — S^/n = v^niax \F(x) — F(x)\ при разных значениях числа опытов п. По этим таблицам можно находить точные доверительные полосы для оцениваемых функций распределения скалярных случайных величин. А именно доверитель- доверительная область для F(x), соответствующая коэффициенту доверия а, определяется неравенством \F(x) — F(x)\ < ua/y/n для всех ж, (8.7) где иа находится путем решения уравнения Кп{иа) — ас помощью таблиц функций Кп(иа). Неравенство (8.7) определяет случайную полосу, ограниченную снизу и сверху двумя ступенчатыми линия- линиями, внутри которой с вероятностью а полностью содержится график неизвестной функции распределения F{x). Вследствие этого в сред- среднем только в 100A — а) % случаев реализация доверительной области,
8.1. Оценки плотности и функции распределения 319 определяемой неравенством (8.7), не будет полностью содержать гра- график функции распределения F{x) *). Заметим, что еще задолго до работы Масси А.Н. Колмогоров на- нашел предельное (асимптотическое) распределение величины U при п —> оо [41]. Он доказал, что при любом и К {и) = Игл Кп(и) = 1-2 V (- (8.8) V-1 Поэтому при достаточно большом числе опытов п величину иа в (8.7) можно определять из уравнения К(иа) =апо таблице функции Кол- Колмогорова К (и) (приложение 3, табл. 7). Пример 8.2. В условиях предыдущего примера найти доверительную полосу для F(x), соответствующую коэффициенту доверия а = 0,95. Так как в данном случае п = 100, то, определив по табл. 7 иа — 1,362, полу- получим иа/10 = 0,1362. Сдвинув на эту величину вверх и вниз полученный по результатам опытов график эмпирической функции распределения и имея ag replacements -400 -200 0 200 400 600 х Рис. 8.2 в виду, что 0 ^ F(x) ^ 1, получим доверительную полосу для F(x), пред- представленную на рис. 8.2. График неизвестной F{x) с вероятностью а = 0,95 полностью заключен внутри этой полосы. *) Заметим, что, пользуясь доверительным интервалом п. 6.3.2 для ве- вероятности, можно получить значительно меньший доверительный интервал для значения F{x) при каждом отдельно взятом х. Однако такие довери- доверительные интервалы не имеют никакого практического значений, так как при оценивании функции распределения необходимо найти вероятные гра- границы для нее сразу при всех х.
320 Гл. 8. Оценивание распределений 8.1.6. Другие оценки плотности. Дифференцируя форму- формулу (8.5) и учитывая, что производная единичной ступенчатой функ- функции представляет собой ^-функцию, получаем оценку плотности ве- величины X в виде Ясно, что в случае непрерывной величины X эта оценка не мо- может быть близкой к f(x) ни при каком значении х ни при ка- каком числе опытов п. Эта оценка несостоятельна. Чтобы исправить ее и сделать состоятельной, можно заменить ^-функцию некоторой непрерывной плотностью ipn(t). Тогда оценка плотности определится формулой ^Y. (8.10) к=1 Плотность т/?п, естественно выбирать по-разному для различных п. Чем больше п, тем ближе должна быть ijjn{?) к ^-функции 8 it). С другой стороны, в выражении (8.10) функции f{x) при п —У оо, не должны возникать й-функции. Это будет обеспечено, если фп(?) будет стремиться к 5(t) достаточно «медленно» для того, чтобы ipn(t)/n —У 0 для всех t при п —у оо. После этих наводящих рассуждений можно перейти к строгому доказательству следующей теоремы. Для состоятельности оценки (8.10) плотности f(x) в каждой точке непрерывности f(x) достаточно выполнения условий: (X) 1) I ipn(x-z)f(z)dz^ f(x) при п-юо (8.11) — (X) в каждой точке непрерывности /(ж); 2) -sup^n(t)-^0 при п -у оо. (8.12) > Для доказательства найдем математическое ожидание и вто- второй момент оценки f(x). Так как все экспериментальные значе- значения Xi,... ,Хп случайной величины X имеют плотность /(ж), то п у М?(х) = - Е М^х - Х^ = ] ^х - z^^ dz' В силу условия (8.11) эта величина стремится к fix) при п —У оо в каждой точке непрерывности /(ж), Mf(x) -У f(x). Далее, вследствие
8.1. Оценки плотности и функции распределения 321 независимости величин Х\,..., Хп = ^ Е = I V2n(x-z)f(z)dz+^\ I ^n{x-z)f{z)> Но оо - f Tl J -supфпA) [ ipn(x-z)f(z)dz. Ti J В силу (8.12) правая часть этого неравенства стремится к нулю при п ->• оо. Поэтому Mf2(x) в силу (8.11) и (8.12) стремится к /2(ж) при п —У оо в каждой точке непрерывности /(ж), Mf2(x) —>¦ /2(ж). Следо- Следовательно, М[?(а;) - /(ж)]2 = Mj2(x)- 2f(x)Mj(x) + f (х) при n ^ оо в каждой точке непрерывности /(ж). Таким образом, при выполне- выполнении условий (8.11) и (8.12) оценка f(x) с.к. сходится к /(ж) в каждой точке непрерывности fix). Но из с.к. сходимости по теореме п. 6.1.3 вытекает сходимость п.в., т.е. состоятельность f(x) в каждой точке непрерывности /(ж). Заметим, что если /(ж) непрерывна при всех ж и сходимость в (8.11) равномерна относительно ж, то /(ж) равномерно с.к. и п.в. сходится к /(ж). < Условия (8.11) и (8.12) выполняются, и, следовательно, оцен- оценка (8.10) состоятельна, в частности, если ipn(t) = \cn\mifj(cnt), где ф(в) — произвольная ограниченная плотность, асп- числа, удовле- удовлетворяющие условиям \сп\ ->• оо, |cn|m/n->-0 при п ->• оо, где m — размерность случайного вектора X. При этом для равно- равномерной сходимости fix) к fix) достаточна равномерная непрерыв- непрерывность /(ж) [23, 62, 70, 93, 125]. Доказанная теорема не решает вопрос о выборе плотностей фп (t). Она оставляет для этого широкий простор. Это дает возможность ставить задачи оптимизации оценок вида (8.10) при данном п путем выбора /0п(^)- Однако в общем случае решение задачи оптимизации зависит от неизвестной плотности /(ж) и вследствие этого не имеет смысла с практической точки зрения. Заметим еще, что оценки вида (8.10) можно получить и для про- производных плотности fix) [23, 125].
322 Гл. 8. Оценивание распределений 8.2. Приближенное представление распределений 8.2.1. Система кривых Пирсона. В приложениях часто тре- требуется приближенно представить плотность или функцию распреде- распределения случайной величины подходящим аналитическим выражением. В частности, приходится находить подходящие аналитические выра- выражения для распределений, оцениваемых по результатам опытов. Это можно сделать многими способами. Так, например, формула (8.10) непосредственно дает оценку плотности в виде линейной комбина- комбинации определенных функций. Однако этот единственный способ полу- получения непараметрической оценки плотности в аналитической форме обладает тем недостатком, что число слагаемых в (8.10), равное числу опытов п, как правило, очень велико. Всякое же упрощение аналитического представления плотности неизбежно ведет к парамет- параметризации оценки, т.е. к замене непараметрической оценки параметри- параметрической. Для приближенного аналитического представления плотностей скалярных случайных величин широко применяется система кривых распределения К. Пирсона [71, 74]. Он заметил, что большая часть плотностей у = /(ж), встречающихся в задачах практики, удовлетво- удовлетворяет дифференциальному уравнению вида , _ х + а У ~ bo + blX + bx2 У' где а,&сь^ъ^2 — некоторые постоянные. В частности, этому уравне- уравнению удовлетворяют нормальное, показательное, стьюдентово распре- распределения, /?-, 7~, Х~> Х2"РаспРеДеления- Изменяя параметры а,&сь^ъ^2, можно получить большое разнообразие кривых распределения. Другая система кривых для приближенного представления плот- плотностей скалярных случайных величин, основанная на анализе причин отклонения от нормального распределения в производстве, предложе- предложена Бородачевым [10]. 8.2.2. Ортогональные разложения плотностей. Наиболее общим способом приближенного представления распределений ска- скалярных и векторных случайных величин является представление их в форме линейных комбинаций некоторых заданных функций, в част- частности в форме конечных отрезков разложений в различные ряды. Мы изложим здесь способ разложения плотностей по ортогональным по- полиномам и общий способ приближения их линейными комбинациями заданных функций. Пусть f(x) — плотность, которую требуется представить аналити- аналитическим выражением, /0(ж) —некоторая «эталонная» плотность, рп(х) (п — 0,1,...) — система полиномов, ортонормированных относительно
8.2. Приближенное представление распределений 323 распределения /о(х), т.е. удовлетворяющих условию сю pt/(x)ptl(x)fo(x) dx = 5и/1, (8.13) где, как всегда, 8Vil — 0 при цф v, 8VV — 1. Система полиномов рп(х), удовлетворяющих условию (8.13), может быть найдена путем приме- применения известного способа ортонормирования функций ко всем степен- степенным функциям координат вектора х [42]. При этом всегда ро(х) — 1 вследствие свойства B.11) плотности, а рп(х) в случае скалярного х представляет собой полином степени п: ро(х) = 1, рп(х) = ^апкхк (п = 1,2,...). (8.14) к=0 Будем искать формальное разложение плотности f(x) в ряд вида сю f(X) = /о(х) 53 СтРш(ж). (8.15) га=0 Для определения коэффициентов сп умножим (8.15) на рп(х) и про- проинтегрируем результат от — оо до оо. Тогда, принимая во внима- внимание (8.13), получим сю cn= j pn{x)f{x)dx (n = 0,1,2,...). (8-16) — сю Эту формулу можно символически записать в виде со = 1, сп=рп(а), (8.17) где Рп{®) представляет собой результат замены в выражении поли- полинома рп{х) всех одночленов вида ж^1 ...х^п соответствующими мо- моментами акг,...,кп случайной величины X, имеющей плотность f(x). В частности, в случае скалярного х на основании (8.14) п с0 = 1, сп = ап0 + "}Гапкак (п = 0,1, 2,...), (8.18) к=2 где ак — момент к-го порядка случайной величины X с плот- плотностью f(x). Таким образом, все коэффициенты ряда (8.15) легко определяются, если известны моменты случайной величины X. При этом, конечно, необходимо существование конечных моментов всех порядков. Ряд (8.15) при некоторых условиях сходится к f(x) и, следователь- следовательно, может служить для аналитического представления f(x) с любой
324 Гл. 8. Оценивание распределений степенью точности. Однако сходимость или расходимость ряда (8.15) не имеет практического значения, важно лишь, чтобы плотность f(x) могла быть с достаточной точностью представлена с помощью неболь- небольшого числа (обычно двух-трех) членов ряда. Кроме того, обычно бывают более или менее точно известными только несколько пер- первых моментов случайной величины, а относительно моментов высших порядков мы не знаем даже, существуют ли они. Поэтому разложе- разложением (8.15) пользуются, не интересуясь вопросом о его сходимости. Практика показывает, что большую часть встречающихся в прило- приложениях распределений удается с достаточной точностью представить отрезком разложения (8.15), так же как и кривыми Пирсона. Перед тем как представлять плотность величины X разложени- разложением (8.15), удобно предварительно нормировать ее, т.е. заменить слу- чайной величиной X' = Кх ' (X — тх) *). Эта случайная величина имеет математическое ожидание, равное нулю, единичную ковариа- ковариационную матрицу и то же распределение, что и величина X (при- (пример 5.27). Следовательно, для нормированной скалярной случайной величины а\ — 0, а^ = 1, otk = l^k (k = 2, 3,...) и формулы (8.18) име- имеют вид с0 = 1, с\— аю, с2 = а2о + «22, Cfi — С^пО ~т~ ^77,2 ~т~ / ^nk\-^k [Tl — о, 41, . . . ). k=3 Пример 8.3. Представить рядом ортогонального разложения плот- плотность дискретной случайной величины, возможными значениями которой служат все целые неотрицательные числа, причем Р(Х = т)=рш (т = 0,1,2,...). (I) В данном случае естественно за «эталонное» распределение принять пуассоновское с тем же первым моментом aj.: m=0 Легко проверить, что ортонормальные полиномы рп(х) выражаются через моменты а?,а2,... эталонного распределения /о(ж) и моменты ai,a2,... распределения f(x) при любых /о (ж) и f[x) формулой Рп\Х) — j- _— \п — i,z,...;, *) Если Кх — АААТ, где Л — диагональная матрица с элементами Ai,..., Am, а А — ортогональная матрица, то по определению Kvx — ААи А1 при любом I/, где Аи — диагональная матрица с элементами Ai,...,Am-
8.2. Приближенное представление распределений 325 где 1 1 1 а? ж а? .. c«n .. а? ... а§ ... Ж • «2п-1 «2+1 (IV) (V) В соответствии с (8.17) коэффициент сп получается заменой в определите- определителе А2п(х) степеней аргумента х соответствующими моментами. В резуль- результате получаем для /(ж) разложение где a? (VII) зив а§, «з,... через ai, получаем В частности, для пуассоновской плотности /о(ж), приняв а? = ai и выра- + 2ai) — m + (x-m), (VIII) 771 = 0 ai 1 + «2 — ai — где (IX) 8.2.3. Разлолсение плотности по полиномам Эрмита. Раз- Разложение (8.15) можно строить на основе различных «эталонных» функций /о (х) как для непрерывных, так и для дискретных и для непрерывно-дискретных случайных величин. Выбор «эталонной» плотности /о (х) в значительной мере определяется характером функ- функции f[x). От удачного выбора /о (х) зависит простота и точность пред- представления плотности f(x) отрезком разложения (8.15). Для непрерывных величин широкое распространение получило разложение (8.15), основанное на нормальном распределении. В этом случае для нормированной скалярной величины в силу C.90) /о (ж) =
326 Гл. 8. Оценивание распределений При этом полиномы рп определяются формулой рп(х) = —= Нп{х) (п — 0,1, 2,...), где Нп(х) — полиномы Эрмита: Н0(х) = 1, Нг(х) = х, Н2(х) = ж2 - 1, Н3(х) = х3 - Зх, Щ(х) =хА - 6х2 + 3, и вообще [п/2] Я(т\ _ тп _|_ \ Л /_-| ^mfOrn _ 1 М! rj2m n—2m /о оп\ В этом случае формулы (8.19) дают Л _ 1 ^_^_П ^_^3 Л_М4-3 C2s+1 = BJT1)! { Ё (s = 2,3,...), (8.21) s-2 и ряд (8.15) принимает вид 71=3 Вследствие того, что где Ф(ж) — функция Лапласа, определяемая формулой C.91), форму- формулу (8.22) можно также представить в виде со /(*) = Ф'(х) + J2 -ZY=T ф("+1)(а-)- (8.23) n=3 ^n' Это разложение обычно называется рядом Грама-Шарлье типа А.
8.2. Приближенное представление распределений 327 Так как для любой скалярной случайной величины X момент порядка к соответствующей нормированной величины равен /ifc/<7fe, где /ik — центральный момент порядка к величины X, а а — ее среднее квадратическое отклонение, то для произвольной случайной величины X, имеющей среднее квадратическое отклонение а и ма- математическое ожидание, отличное от нуля, величины //& в форму- формулах (8.19) и (8.21) должны быть заменены соответствующими вели- величинами Цк/&к' В результате формулы (8.21) и (8.23) примут вид 1 п 1 А*з 1 Со = 1, с1=с2=0, с3 = 7=-, С4 = _ 1 \ /*2з ^ 2s+1 ~ Bs + 1)! 1 a2a+1 *-*< 2s ~ Bs)! 1 <т2" ^ <T2-2P *¦ p=l f{x) = I (8-24) () L п=3 Сравнив формулы для сз и С4 с C.82) и C.83), видим, что коэффици- коэффициенты сз и С4 пропорциональны соответственно асимметрии 71 и экс- эксцессу 72, сз = Ji/V&j C4 = 72/V4!"- При применении конечного отрезка ряда (8.25) для нахождения оценки плотности моменты в выражениях коэффициентов сп заменяются их оценками. Замечание. Если плотность f(x) удовлетворяет условию e(x-mJ/2<72f2(x)dx<oo, то ряд (8.25) сходится в среднем квадратическом, т.е. при п —у оо Этот ряд при некоторых х может расходиться. На практике трудно оценить точность аппроксимации плотности f(x) конечным числом членом, поэтому ряды типа А имеют ограниченное применение.
328 Гл. 8. Оценивание распределений placements Прим LpnMер 8.4. Представить рядом Грама-Шарлье плотность равномер- равномерно распределенной случайной величины. -2 -л/3 -1 О 2\/3 1 л/3 2 Рис. 8.3 Нормируя случайную величину, получим Ъ = —а = л/3 (пример 3.3). Вычислив для этого случая моменты случайной величины и коэффици- коэффициенты cnfc, получим разложение (8.23) в виде f(x) = Ф'(х) - i Ф<-Ю(х) + ^ Ф<-уи\х) + ... На рис. 8.3 показано приближение к постоянной плотности одним, двумя и тремя членами разложения (кривые i, 2 и 3 соответственно). Пример 8.5. Найти приближенное выражение плотности для экспе- экспериментальных данных примера 8.1, ограничиваясь в формуле (8.25) пер- первыми тремя слагаемыми. В условиях примера 8.1 находим выборочные среднее и центральные моменты второго, третьего и четвертого порядков х = 18,2, /^ = 2,80 • 104, /4 = 3,4 • 105, jil = 15,17 • 109, после чего по формулам C.82) и C.83) нахо- находим оценки асимметрии и эксцесса: 3 4 • 105 15 17 • 108 * = ^^ * <W2, Ъ = ^-^ - 3 « -1,07. Далее находим коэффициенты сз и С4: сз = ji/y/31 ~ 0,030; С4 = 72/л/41 ~ и —0,22. Подставив эти значения и значение а*х = ^/Щ — 167 в (8.25), по- получаем приближенное выражение плотности: ^) - 0,044*™ График этой плотности показан на рис. 8.1 сплошной линией. Для сравне- сравнения штриховой линией показан график нормальной плотности с теми же первым и вторым моментами. 8.2.4. Разложение многомерных плотностей по полино- полиномам Эрмита. Для нормализованного r-мерного случайного векто- вектора X (тх = 0, Кх — /), когда /о(х) =
8.2. Приближенное представление распределений 329 нетрудно проверить, что в качестве семейства ортонормальных поли- полиномов может быть взяты следующие функции: Рп1,...,пг(х) = (ni!... nr\)~l/2Hni Oi)... НПг(хг) (пь ..., пг = 0,1,2,...). Здесь полином Эрмита Нп(х) в силу (8.20) может быть записан в форме [п/2] р=0 Отсюда с помощью (8.17) находим [щ/21 [пг/2] A pipr(ipi)(rpr) рг=0 рг=0 X Mni-2pi,...,nT.-2pT. (Пь ..., Пг = 0, 1,2,...). (8.26) Следовательно, ряд (8.15) принимает вид оо V^ Cni.,...,nr . (8.27) Для r-мерного случайного вектора X с математическим ожидани- ожиданием т и ковариационной матрицей К при | det K\ ф 0 (если воспользо- воспользоваться формулой (8.27) для X' = К-1/2(Х — ш) и формулой приме- примера 5.27 для плотности линейной функции случайной величины) будем иметь f(x) = [Bтг + ^2 Crai^->rar zHni(li(xa -ma)).. .Hnr(lr(xa - ma)) (8.28) где /| — элемент р-й строки и g-го столбца матрицы L — К~1/2; суммирование проводится по повторяющемуся индексу а (а = 1,... ...,г). Для нахождения формулы для коэффициентов сП1?..5Пт, моменты
330 Гл. 8. Оценивание распределений нормализованной векторной случайной величины X' — L(X — т) — — К~Х12{Х — га) в формуле (8.26) должны быть заменены их вы- выражениями в терминах моментов X согласно C.84). В результате получим Pl=o Pr=o jan /ai,ni- X i1 . . . li jari jar,nr—2pr «i ,n\— 2p\ ,...,ari ,...,ar,nr — 2pr • 8.2.5. Ряд Эджуорта. Разложение плотности по ортогональ- ортогональным полиномам, в частности ряд Грама-Шарлье, обладает тем свой- свойством, что для вычисления коэффициента сп необходимо знание мо- моментов случайной величины до порядка п включительно. Между тем момент порядка п часто входит в выражение коэффициента сп с таким малым коэффициентом, что практически не влияет на величину сп. Наиболее характерен в этом отношении случай, когда величина X представляет собой сумму большого числа слагаемых. Согласно пре- предельной теореме п. 5.4.1 распределение величины X в этом случае при достаточно общих условиях близко к нормальному. Если пред- представить ее плотность рядом (8.25), то все члены ряда, кроме первого, будут стремиться к нулю при неограниченном возрастании числа сла- слагаемых в составе величины X. В этом случае важно получить такое разложение плотности, в котором объединены все члены одного по- порядка относительно п. Чтобы решить эту задачу, рассмотрим случай, когда величина X представляет собой сумму одинаково распределен- распределенных независимых случайных величин Х\,..., Хп, имеющих моменты всех порядков. Для того чтобы оценить порядок оставшихся членов в терминах коэффициентов cv относительно п, заметим, что согласно п. 4.4.4 семиинваринты kv случайной величины X — Х\ + ... + Хп представ- представляют собой сумму соответствующих семиинвариантам х„ случайных величин Хр (р — 1,..., п): где x>v — среднее арифметическое кь>,..., щГ, Щ1' — о\. Следова- Следовательно, — (те) К) Значит, задача сразу решается, если заменить моменты в (8.24) их выражениями через семиинварианты.
8.2. Приближенное представление распределений 331 \> Заменяя в (8.24) для cv выражения D.60) моментов \i в терми- терминах семиинвариантов ж, получим после преобразований Сз ~ ~^j$: C4 ~ wl' Сь ~ f к—2 qi,---,Qk>3 Наконец, подставив в (8.25) выражение для с^, найдем после объеди- объединения членов в степенях п'2 — X s=0 k=l EXqi ... Xqk фBз+2к+2) fx-m\ oi!...ofc!cr2s+2fc+1 V a ) oo 2s+l 8=1 k=l < Заметим, что s-й член в первой сумме имеет порядок o(n~s-1/2), a s-й член во второй сумме имеет порядок o(n~s). <\ Разложение (8.30) называется рядом Эджуорта [126]. Оно пред- представляет собой асимптотическое разложение /(ж) *) по степен- степеням п/2, причем, как показал Крамер, остаточный член имеет по- порядок первого последующего члена [45]. Ряд Эджуорта обладает важными преимуществом по сравнению с рядом Грама-Шарлье, состоящим в возможности оценки точности представления плотности конечным числом членов разложения. *) Ряд YlakiPk(z) называется асимптотическим разложением функ- функции f(z) при z —»¦ 2о, если при любом п (pn(z) —> 0 при Мгои fc = l Очевидно, что всякий степенной ряд, сходящийся к функции /(ж), являет- является ее асимптотическим разложением при z —> 0. Однако асимптотическое разложение может и не сходиться ни при каком z. Асимптотические раз- разложения, наряду со сходящимися рядами, широко применяются для вы- вычисления значений функций и для решения практических задач. При этом асимптотические разложения по положительным степеням аргумента дают достаточную точность только при достаточно малых значениях аргумента, а асимптотические разложения по отрицательным степеням аргумента — только при достаточно больших значениях аргумента.
332 Гл. 8. Оценивание распределений Сохраняя в (8.30) члены порядка оA),о(п~1/2),о(п~1) и о(п~3/2), приходим к следующему приближению: )(x-1 2C!)^ ' V a Jl L5!<r* * V <т >гг3>гГ4 (vill) /Ж — Ш\ >гг| (Х) /ж ~ w\~| \ + 3!4!а7 V a ) + C!4)а9 V а )\)' Здесь второй член имеет порядок о(п — 1/2), выраж:ение в первых скобках имеет порядок о(п~1I а выражение во вторых скобках имеет порядок — о(п~3//2). Если ограничиться в (8.30) членами порядка п~1 и учесть, что величины Дз/с3 и (/м/с4) — 3 согласно C.83) и C.84) представляют собой соответственно асимметрию 71 и эксцесс 72 распределения слу- случайной величины X, то получим следующее приближенное выраже- выражение для плотности скалярной случайной величины X: /(*) = z U() с I V а / 3! Этой формулой часто пользуются на практике. Аналогично можно получить ряд Эджуорта для плотности век- векторной случайной величины [20]. 8.2.6. Представление плотности линейной комбинацией данных функций. При пользовании конечными отрезками разло- разложений по ортогональным полиномам, как мы видели в примере 8.4, иногда получаются малые отрицательные значения плотности. Это естественное следствие того, что любой конечный отрезок ряда да- дает лишь приближенное значение функции, представляемой данным рядом. Перейдем к общему способу приближенного представления плот- плотности линейной комбинацией заданных функций. Пусть /(ж) — плот- плотность случайной величины X, ifi(x),..., ^Pn{x) — заданные функции. Задача приближения плотности f{x) линейной комбинацией функций ifi (х),..., ср]\т (х) сводится к определению коэффициентов с\,..., сдг в приближенной формуле j[x) « сцрг(х) + ... + cNipN(x). (8.32) Эта задача может быть решена различными способами. Она решается стандартными методами теории приближения функций, если f(x) из- известна. Однако в теории вероятностей обычно приходится решать эту
8.2. Приближенное представление распределений 333 задачу, когда плотность f{x) не известна. В этом случае приходится пользоваться специальными приемами. Если известно N — 1 моментов величины X, то, приравняв эти моменты соответствующим моментам, вычисленным с помощью вы- выражения (8.32), получим Лг — 1 уравнений, связывающих коэффици- коэффициенты ci,... , сдг. Добавив к этим уравнениям очевидное соотношение I ifi(x) dx + ... + сдг / = 1, получим TV линейных алгебраических уравнений для определения сь... ,cN. В частном случае скалярной величины X, зная ее моменты oji,..., aN-i, получаем уравнения N г ^ск xrifk{x)dx = аг (г = 0,1,...,ЛТ- 1; а0 = 1). k=i J В случае векторной величины X следует выбрать N равным числу всех известных моментов, увеличенному на 1. В случае, когда требуется найти оценку плотности f(x) вида (8.32) по результатам опытов, задача сводится к оцениванию неизвестных коэффициентов ci,...,c/v- Эта задача решается любым методом нахождения оценок неиз- неизвестных параметров распределений. В частности, оценки коэффици- коэффициентов с\,..., сдг можно найти методом максимума правдоподобия или методом моментов. В последнем случае она решается так же, как в случае известных моментов, только вместо самих моментов в уравне- уравнения для ci,...,сдг войдут их оценки. Если взять в качестве функций ср\,..., ip^ некоторые плотности, то часто удается избежать отрицательных плотностей при вычисле- вычислении их по формуле (8.32). Можно также искать приближенное представление плотности ли- линейной комбинацией вида (8.32) заданных функций (^i,... ,(^дг, за- зависящих от неизвестных параметров. В этом случае задача сво- сводится к совместному определению или оцениванию коэффициентов ci, • • • ,сдг и неизвестных параметров, входящих в выражения функ- функций <?]_,...,ippf. При этом можно взять меньше слагаемых в (8.32), но зато уравнения для неизвестных параметров или их оценок, получае- получаемые методом моментов, уже не будут линейными. Замечание. Плотность скалярной случайной величины X мо- может быть приближенно выражена с помощью формулы (8.32) через квантили. В этом случае имеем следующие уравнения для ci,...,сдг: N (pk(x)dx=—, (Z = l,...,iV; (о = -оо, Ci = оо). Ci/ J
334 Гл. 8. Оценивание распределений Квантили Cq/N в этом уравнении могут быть заменены выборочными квантилями, когда требуется оценка (8.32) для плотности f(x). Пример 8.6. Подставить распределение дискретной случайной вели- величины примера 8.3 линейной комбинацией двух распределений Пуассона: Е [ 0 с wе"" +A -с) Чге т=0 считая параметр \i неизвестным, а параметр h > 1 известным. В данном случае с\ + сч = 1. Поэтому мы положили с\ = с, сч — 1 — с. Для определения ел /i применим метод моментов. Имея в виду, что первые два момента распределения Пуассона цше~^/т\ равны ц и /j, + д2, получаем уравнения c/i+ (I - c)/ih = он, Решив эти уравнения и приняв во внимание, что при а2 = о.\ + а\ эти урав- уравнения имеют очевидное решение с = 1, /i = ai, получим 2/i - /3A + h) + ^/32A + /1J -4/3/1 _ 8.3. Проверка гипотез о распределениях 8.3.1. Задачи проверки гипотез. Из сказанного в п. 6.4.1 ясно, что распределение случайной величины принципиально невозможно точно определить по результатам опытов. Полученные эксперимен- экспериментально оценки распределения дают возможность только строить раз- различные гипотезы о распределении случайной величины, например ги- гипотезу о том, что она распределена нормально. Поэтому возникает за- задача проверки гипотез. Эта задача состоит в том, чтобы определить, насколько хорошо согласуется та или иная гипотеза о распределении случайной величины с полученными экспериментальными данными. Ясно, что эта задача тесно связана с задачей определения доверитель- доверительных областей для плотности или функции распределения. Однако она имеет и некоторые особенности. Дело в том, что по той же выборке, по которой проверяется гипотеза о распределении, обычно оценива- оцениваются и некоторые параметры этого распределения. Так, например, проверяя гипотезу о нормальном распределении, по той же выборке обычно оценивают математическое ожидание и ковариационную мат- матрицу (дисперсию в случае одномерного распределения) случайной ве- величины. Вследствие этого гипотетическое распределение оказывается само случайным — функцией случайных результатов опытов. Это и
8.3. Проверка гипотез о распределениях 335 отличает задачу проверки гипотез о распределении от задачи опреде- определения доверительных областей для распределений. И только в отдель- отдельных частных случаях может возникнуть задача проверки гипотезы о том, что случайная величина подчинена вполне определенному зако- закону распределения, не зависящему от неизвестных параметров. Для проверки гипотез о распределении применяются различные критерии согласия. Наиболее удобным и универсальным критерием согласия является критерий %2 К. Пирсона. Он совершенно не зависит ни от распределения случайной величины, ни от ее размерности. 8.3.2. Критерий %2. Критерий х1 К. Пирсона основан на ис- использовании в качестве меры отклонения экспериментальных данных от гипотетического распределения той же величины, которая служит для построения доверительной области для неизвестной плотности, с заменой неизвестных истинных значений вероятностей попадания в интервалы вероятностями, вычисленными по гипотетическому рас- распределению. Предположим, что область возможных значений случай- случайной величины разбита на г интервалов (многомерных, т.е. прямо- прямоугольников, в случае векторной величины). Пусть Pi,...,Pr — слу- случайные частоты попадания в эти интервалы, получаемые в результа- результате п опытов, Р[,..., Рг — вероятности попадания в те же интервалы, вычисленные по гипотетическому распределению. В общем случае эти вероятности являются функциями оценок неизвестных параметров, получаемых по тем же экспериментальным данным, и потому тоже являются случайными величинами. Предположим, что оценки неиз- неизвестных параметров гипотетического распределения вычисляются по той же группированной выборке, что и частоты i\,..., Рг. Тогда веро- вероятности Р\,..., Рг будут некоторыми функциями частот Р\,..., Рг, и вместо величины Н, определяемой формулой (8.1), для оценки откло- отклонения экспериментальных данных от гипотетического распределения придется взять величину {Pu~Pu)\ (8.зз) где Р\,..., Рг — определенные функции частот Р\,..., Рг. Нейман и Е. Пирсон показали, что если для вычисления веро- вероятностей Pi,..., Рг применяется асимптотически эффективная и асимптотически нормальная оценка неизвестного s-мерного пара- параметра гипотетического распределения по группированной выборке, то величина Z, определяемая формулой (8.33), в пределе при п —У оо имеет х2 -распределение с г — s — 1 степенями свободы [65, 45]. Пользуясь этой теоремой, можно оценивать расхождение экспе- экспериментальных данных с гипотетическим распределением с помощью таблиц х2-распределения (табл. 6). Выберем достаточно малую веро-
336 Гл. 8. Оценивание распределений практически невозможным, и определим Хр из уравнения ятность р, чтобы событие с такой вероятностью можно было считать и невозможным, и определим оо P(Z ^ Хр) = j Pk{u) du = р, Если реализация С — X2 величины Z, полученная в результате опы- опытов, превосходит %2 или равна %2, С — X2 ^ Хр: т0 гипотетическое рас- распределение считают не согласующимся с экспериментальными дан- данными, так как при этом распределении практически невозможно по- получить при одной выборке ( = х2 ^ Хр- Вероятность такого события при большом числе опытов п приближенно равна р. т.е. пренебрежимо мала. В этом случае говорят, что имеет место значимое отклонение экспериментальных данных от гипотетического распределения. Если же С — X2 < Хр 1 то считают, что гипотетическое распределение не про- противоречит экспериментальным данным, согласуется с ними. Величина Хр называется 100р-процентным уровнем значимости отклонения выборки от гипотетического распределения. В приложе- приложениях обычно пользуются 5-, 1-й 0,1-процентными уровнями значимо- значимости, в зависимости от характера задачи. Для дополнительной проверки согласованности эксперименталь- экспериментальных данных с гипотетическим распределением полезно вычислить ве- вероятность того, что при данном гипотетическом распределении вели- величина Z окажется больше полученной в результате опытов ее реализа- реализации ? = х2, P(Z > х2). Эту вероятность можно также приближенно определить по табл. 6. Чем больше эта вероятность, тем лучше согла- согласуется выборка с гипотетическим распределением, тем меньше значи- значимость полученного расхождения выборки с гипотетическим распре- распределением. Действительно, если вероятность P(Z > х2) велика, то при повторении данной серии опытов в случае справедливости выбранной гипотезы о распределении часто будут получаться значения величины Z еще большие, чем полученное в результате опытов значение ( = х2 - Обратим внимание на то, что, получив ? = х1 < Хр и даже по- получив высокую вероятность P(Z > %2), мы не делаем определенного вывода, что выбранная гипотеза о распределении справедлива, а го- говорим лишь, что эта гипотеза не противоречит полученным резуль- результатам опытов, что она согласуется с ними, вследствие чего ее мож- можно принять. Чтобы получить достаточно веское доказательство того, что случайная величина действительно подчинена гипотетическому закону распределения, необходимо повторить данную серию опытов достаточно большое число раз и убедиться в том, что полученное со- согласование гипотезы с результатами опытов устойчиво. Если к — г — s — 1 > 30, то величину X — \/~Z можно считать рас- распределенной нормально N(y^k/2 — 1,1/2) и для вычисления величи-
8.3. Проверка гипотез о распределениях 337 ны Хр воспользоваться формулой Р(Х 2ХР) = \ - 1) = р и таблицей функции Лапласа (табл. 1). Подчеркнем, что при вычислении полученного в результате опы- опытов значения ( — X2 необходимо учитывать также бесконечные интер- интервалы с нулевыми частотами и отличными от нуля при гипотетическом распределении вероятностями. Пример 8.7. В условиях примера 8.1 и используя табл. А, Б прове- проверить гипотезу о нормальном распределении случайной величины. В данном случае с учетом бесконечных 11-го (—оо, 385) и 12-го D15, ос) интервалов имеем г = 12. Так как по той же группированной выборке мы оцениваем два параметра тх и Dx, тоз = 2лк = г — s — 1 = 9. По табл. 6 находим для & = 9ир = 0,05 5%-ный уровень значимости %2 — 16,92. Для вычисления полученного значения %2 находим по гипотетическому нор- нормальному распределению при тх = х = 18,2 вероятности попадания в ин- интервалы Ахи. Полученные значения частот и вероятностей приведены в табл. В. Таблица В V % ' Ю4 Ри ' Ю4 1 200 190 2 600 467 3 800 919 4 1600 1440 5 1900 1826 6 1700 1837 7 1400 1487 8 800 959 9 700 496 10 300 206 11 0 82 12 0 91 По этим данным находим по формуле (8.33) %2 = 4,157. Так как это значение х'2 значительно меньше критического значения %2, то можно счи- считать, что гипотеза о нормальном распределении случайной величины не противоречит результатам опытов. Вычислим еще вероятность значения меры расхождения Z большего, чем значение %2 = 4,157, полученное в результате опытов. По табл. 6 при k = 9 и х'2 = 4,157 находим P(Z > 4,157) = 0,908. Таким образом, при спра- справедливости нашей гипотезы о распределении можно с вероятностью «0,91 получить еще большее расхождение %2, чем то, которое получилось в ре- результате опытов. Это служит дополнительным основанием для принятия гипотезы о том, что случайная величина X распределена ЛГA8,2,168). Пример 8.8. Для тех же экспериментальных данных проверить гипо- гипотезу о том, что распределение.определяется плотностью, найденной в при- примере 8.5. Пользуясь формулой примера 8.5 для плотности и табл. 1 и 2 функции Лапласа и ее производных, находим вероятности попадания в интервалы. Результаты приведены в табл. Г. Подставив эти вероятности и соответствующие частоты из примера 8.5 в формулу (8.33), находим %2 = 2,528. Так как в данном случае по той же группированной выборке оцениваются четыре параметра тх, ах, 71 и 72, то s = 4 и х -распределение имеет к = г — s — 1 = 7 степеней свободы. 2 По табл. 5 находим для & = критическое значение %2 = 14,07
338 Гл 8. Оценивание распределений Таблица Г V Ри • Ю4 1 209 2 582 3 1073 4 1494 5 1624 6 1621 7 1440 8 1062 9 614 10 243 11 0,3 12 35 и вероятность получить значение %2 большее, чем 2,528, P(Z > 2,528) = = 0,923. Таким образом, распределение, подобранное в примере 8.5, согла- согласуется с экспериментальными данными несколько лучше, чем нормальное распределение. Пример 8.9. В условиях примера 8.7 проверить гипотезу о распреде- распределении 7VA5,1602). В данном случае мы не оцениваем параметры нормального распреде- распределения по выборке, а просто задаем их. Основанием для их выбора служит только то, что точка х = 15 является средней точкой интервала, занято- занятого экспериментальными точками, причем 51 экспериментальное значение случайной величины меньше 15, а 49 — больше 15, и что 66% всех то- точек лежат в интервале A5 — 160,15 + 160), в то время как при нормаль- нормальном распределении вероятность попадания в интервал (тх — ах, тх + сгх) равна 0,68. Поэтому в качестве меры расхождения между гипотетиче- гипотетическим распределением и экспериментальными данными можно принять ве- величину Н разд. 1.3. Предельным распределением этой величины служит X -распределение с г — 1 = 11 степенями свободы. При этом получается X2 = 5,221 при 5%-ном уровне значимости xl = 19>68 и р(н > X2) = 0,9178. Таким образом, несмотря на несколько большее расхождение между вероят- вероятностями ри и частотами ри по сравнению с примером 8.7, х2-критерий дает не меньше оснований для принятия гипотезы о распределении 7VA5,1602), чем для принятия гипотезы о распределении 7VA8,2,1682). 8.3.3. Вывод предельного ^-распределения. Докажем те- теперь теорему Неймана и Е. Пирсона об асимптотическом распределе- распределении величины и=1 где 0 = (р(Р) — оценка параметра в, представляющая собой неко- некоторую функцию вектора частот Р = [Рг ... РГ]Т (т.е. найденная по группированной выборке), a W — вектор с координатами Wv — \> Для нахождения асимптотических распределений величин W и Z выразим вектор W приближенно через вектор V = [Vi ... Vr ]T: Предположим сначала, что 0 представляет собой оценку мак- максимального правдоподобия, т.е. корень уравнения G.31), которое
8.3. Проверка гипотез о распределениях 339 Г Ри —^—- = 0. Поскольку мы запишем в виде ]Г Ри —^—- = 0. Поскольку ^p^(O) — 1, то Yl Pv(®) ^— = 0- Вычитая это уравнение из предыдущего, получим J2d^l = 0. (8.34) Имея в виду, что 0 —У 0 и Р„ -^ Pv@) вероятности при n —>¦ оо, будем искать решение уравнениями (8.34) в виде разложения по степеням разности Р — р или, что одно и то же, по степеням вектора V. Тогда с точностью до малых первого порядка будем иметь или, после умножения на у/п, ^-^ Ри дв дв Вводя матрицу J Г дв ••• 7^ дв можем переписать полученное уравнение в виде Если матрица D = [дР\/дв ... дРг/дв] имеет ранг s, то и С имеет ранг s. Поэтому матрица ССТ тоже имеет ранг s и, следовательно, существует обратная матрица (ССТ)~^ и полученное уравнение имеет решение 0 = 0 + -j= (ССт)-гСУ. (8.35) Эта формула с точностью до величин порядка о(п~1//2) определяет и решение исходного уравнения (8.34). Пользуясь формулой (8.35), можно выразить вектор W через V с точностью до величин порядка о(п~1^2). Для этого заметим, что с точностью до величин порядка л/по(\в — в\) ттл /—Ри — Ри(В)
340 Гл. 8. Оценивание распределений Подставив сюда выражение (8.35), получим с точностью до величин порядка yfno(n~ljf2) = O(n~ljf2) 1 ЯТ ТЛ7 Т/ 1 О р Т\ v = v ~ или, в матричной форме, W = [/ - CT(CCT)-1C\V. (8.36) Итак, вектор W выражается через V асимптотической форму- формулой (8.36). Следовательно, ковариационная матрица вектора W вы- выражается через ковариационную матрицу вектора V, Kv — I — qqJ\ формулой KW = [I- CT(CCT)-1C\(I - qqT)[I - CT(CCT)-1C\ = = I-qqT-CT(CCT)-1C. При выводе этой формулы мы воспользовались соотношением Cq = 0. Умножив (8.36) слева на матрицу С, получаем CW = 0. Это ра- равенство дает s скалярных соотношений между координатами векто- вектора W. Кроме того, координаты вектора W связаны скалярным соот- соотношением q(@)TW = 0, где q(@) — вектор с координатами VPi(Q),... ..., V рг(в). В пределе при п —> сю это соотношение переходит в то же соотношение, которым связаны координаты вектора V. qTW = 0. Та- Таким образом, координаты вектора W связаны s + 1 скалярными соот- соотношениями. Это значит, что асимптотическое распределение вектора W является вырожденным нормальным распределением, сосредото- сосредоточенным на (г — s — 1)-мерном подпространстве, и, следовательно, его ковариационная матрица Kw имеет ранг г — s — 1. Воспользуемся те- теперь последним результатом примера 5.11. Матрица А в этом случае представляет собой единичную матрицу /, а В — Kj AKj = Kw. Таким образом, матрица В имеет ранг г — s — 1 и удовлетворяет со- соотношению К^ = Kw в силу того же равенства Cq = 0, т.е. являет- является матрицей проектирования на некоторое (г — s — 1)-мерное подпро- подпространство r-мерного пространства. В соответствии с последним результатом примера 5.11 отсюда и следует, что асимптотическим распределением величины Z = WTW служит х2-распределение с г — s — 1 степенями свободы. О Этот результат мы получили, предполагая, что оценка 0 парамет- параметра 0 является оценкой максимума правдоподобия. Однако этот резуль- результат верен и для случая произвольной асимптотически нормальной и асимптотически эффективной оценки О, так как все такие оценки с точностью до величины порядка о(п~1/2) совпадают и определяют- определяются формулой (8.35) (в противном случае отношения дисперсий этих оценок не могли бы сходиться к 1 при п —> оо).
8.3. Проверка гипотез о распределениях 341 8.3.4. Оценивание параметров распределений методом минимума х2 • Изложенный метод проверки гипотез о распределе- распределениях естественно наводит на мысль искать такие оценки неизвестных параметров гипотетического распределения, при которых полученная реализация ? = х2 меры расхождения Z экспериментальных данных с гипотетическим распределением имеет минимальное значение. Так мы приходим к новому методу нахождения оценок параметров рас- распределения — методу минимума х2 • В случае, когда вероятности pi,...,рг попадания в выбранные ин- интервалы имеют непрерывные производные по всем координатам век- вектора #, метод минимума х2 Д&ет для оценки параметра в уравнение ^ 7l где, как всегда, д/дв представляет собой вектор с координатами d/dOi,..., d/dOs. Учитывая, что npv — mv представляет собой чис- число экспериментальных точек в г/-м интервале (z/ = l,...,r) и что ^2дри/д0 = 0 вследствие равенства ^Рь, = 1, перепишем полученное уравнение в виде Т пи — при) д\при 2 2s w дв~ Вторая сумма здесь обычно мала по сравнению с первой. Если прене- пренебречь второй суммой, то уравнение минимума х1 совпадет с уравне- уравнением максимума правдоподобия G.31). Поэтому оценки минимума х2 обычно близки к оценкам максимума правдоподобия. Метод минимума х •> как и метод максимума правдоподобия, дает при весьма общих условиях асимптотически эффективную и асимп- асимптотически нормальную оценку параметра в (как в случае скалярного, как и в случае векторного в). 8.3.5. Другие методы проверки гипотез о распределени- распределениях. Кроме метода х2 можно применять другие методы проверки ги- гипотез о распределениях. Крамером [43], Мизесом [60] и Н.В. Смир- Смирновым [97] предложены критерии согласия, основанные на мерах расхождения, зависящих от разности F(x) — F(x) — отклонения оцен- оценки F(x) функции распределения от гипотетической функции рас- распределения F(x). К критериям такого рода относится критерий Колмогорова, основанный на предельном распределении величины U = y/nmax|F(x) — F(x)\ при п —> оо в случае полностью заданной гипотетической функции распределения F(x) скалярной случайной величины X. Пользуясь таблицей предельной функции распределе- распределения Колмогорова К (и) (табл. 5), можно проверять гипотезы об од- одномерных распределениях совершенно так же, как при применении
342 Гл. 8. Оценивание распределений X2-критерия. Задав достаточно малую вероятность р, молено найти по таблице функции К (и) ЮОр-процентный уровень значимости ир, определяемый уравнением P{U ^ ир) = 1 — К(ир) = р. Если получен- полученное по результатам опытов значение и меньше критического значения ир, то можно считать, что результаты опытов не противоречат гипоте- гипотезе, что функция распределения наблюдаемой величины X есть F{x). Если же и ^ иР1 то эту гипотезу следует отвергнуть. Аналогично можно пользоваться критерием Н.В. Смирнова, ос- основанным на найденном им предельном распределении величины nM[\F(X) — F(X)\2 | xi,... ,жп], которое в случае скалярной величи- величины X не зависит от F(X). Однако теория проверки гипотез, основан- основанная на таких критериях, пока еще очень слабо разработана. Поэтому X2-критерий остается пока что единственным практически приемле- приемлемым критерием для проверки гипотез о распределениях, заданных лишь с точностью до неизвестных, подлежащих оцениванию по той же выборке параметров, и гипотез о многомерных распределениях. 8.3.6. Проверка гипотез о независимости случайных вели- величин. Вследствие универсальности х2"кРитеРия и его применимости к многомерным распределениям он может служить и для проверки множества гипотез других типов. Покажем, как можно с помощью х2"кРитеРия проверять гипотезу о независимости случайных величин. Предположим, что область зна- значений величины X разбита на г\ интервалов, а область значений вели- величины Y — на г2 интервалов. Пусть Pij и р^ — случайная частота и ве- вероятность попадания вектора [Хт YT]T в пересечение i-ro интервала значений X и j-ro интервала значений Y (г = 1,...,т\\ j — 1,...,г2). Если X и Y независимы, то рц — piPj, где pi и pj — вероятности по- попадания X в г-й интервал и У в j-й (г = 1,...,т\\ j = 1,...,г2). Ве- Вероятности pi и pj можно рассматривать как г\ + Г2 — 2 неизвестных параметров распределения вектора [Хт YT]T (с учетом соотноше- соотношений Y^Pi — Y^Pj — !)• Согласно результатам примеров 7.3 и 5.50 эф- эффективными асимптотически нормальными оценками вероятностей pi и pj могут служить соответствующие частоты Поэтому величина yy{PijZ^PjJ (8.37) имеет асимптотическое х2"РаспРеДеление с к = Г\Г2 — [т\ + г2 — 2) — — 1 = (п — 1)(г2 — 1) степенями свободы. Это дает возможность про- проверять гипотезу о независимости двух величин, как скалярных, так и векторных.
8.3. Проверка гипотез о распределениях 343 Совершенно так же проверяются гипотезы о независимости любо- любого числа случайных величин. 8.3.7. Проверка гипотез о совпадении распределений. К другому типу гипотез, проверяемых с помощью х1-критерия, относят- относятся гипотезы совпадении распределений в нескольких сериях опытов, так называемые гипотезы об однородности статистических данных. Предположим, что в результате N независимых последовательно- последовательностей опытов, содержащих щ,..., un наблюдений, п\ + ... + tin — п получены частоты попадания наблюдаемой величины X в интерва- интервалы А^ (у — 1,... , г), на которые разбита область ее возможных зна- значений. Требуется проверить гипотезу о совпадении распределений величины X (или N различных наблюдаемых величин) в этих N по- последовательностях опытов. Пусть Р^у — случайная частота попадания наблюдаемой вели- величины в и-й интервал в /а-й последовательности опытов, pv — веро- вероятность попадания в v-ж интервал (i/ = 1,..., г; /i = 1,..., N). Так как сумма независимых величин с %2-распределениями имеет име- имеет х2"РаспРеДеление с суммарным числом степеней свободы (при- (пример 5.30), то случайная величина Н = ХХ?%7^ (8-38) при данных вероятностях pi,... ,рг имеет асимптотическое х2-распре- х2-распределение с N(r — 1) степенями свободы, если распределение наблюдае- наблюдаемой величины одно и то же во всех сериях опытов. Это дает возмож- возможность проверять гипотезу о том, что во всех N последовательностях опытов наблюдаемая величина имеет одно и то же распределение, для которого вероятности попадания в интервалы имеют данные зна- значения ръ ... ,рг. Если гипотетическое распределение зависит от неизвестного s- мерного параметра в, который оценивается по тем же результатам опытов, то можно пользоваться следующей теоремой, которая дока- доказывается путем очевидного обобщения выкладок п. 8.3.3: если поль- пользоваться асимптотически эффективными и асимптотически нор- нормальными оценками параметра в по объединенной группированной выборке, то случайная величина дЕ(^ЯР<>)а (8-39) имеет асимптотическое х2 -распределение с N(r — 1) — s степенями свободы. Эта теорема дает возможность проверять гипотезы о совпа- совпадении распределений в нескольких сериях опытов с одновременной
344 Гл. 8. Оценивание распределений оценкой их параметров. За неизвестные параметры распределения в таких задачах можно принять, в частности, вероятности pi,...,pr, Pi = 1 — pi — ... — pr-\. В этом случае s — г — 1, а за оценки Ри, веро- вероятностей pv следует принять соответствующие частоты, вычисленные по объединенной выборке: N г 1 1 fl=l V=l Величина Z, определяемая формулой (8.39), имеет в этом случае k = N(r — 1) — (г — 1) = (N — 1)(г — 1) степеней свободы. Этим кри- критерием можно, в частности, пользоваться для проверки гипотез о сов- совпадении дискретных распределений. В частном случае при г = 2 отсюда вытекает критерий для провер- проверки гипотез о совпадении вероятностей события в нескольких сериях опытов. Полагая в (8.39) и (8.40) N Pi=P=\Y,n^ Pi = 1 - Р = Q, получим Эта величина имеет асимптотическое х2-распределение с N — 1 степе- степенями свободы. С помощью этой величины Z можно проверять гипоте- гипотезы о совпадении вероятностей интересующего нас события в несколь- нескольких сериях опытов. В случае скалярной наблюдаемой величины X с непрерывной функцией распределения для проверки гипотезы о совпадении распределений в двух выборках можно пользоваться критерием Н.В. Смирнова, аналогичным критерию Колмогорова [98]. Пусть F-[ (x) и F2 (x) — выборочные функции распределения наблюдаемой величины в двух сериях опытов, состоящих из п\ и п2 опытов соот- соответственно. Н.В. Смирнов показал, что если функция распределения наблюдаемой величины X непрерывна, то величина -%{х)\ (8.42) имеет то же предельное распределение Колмогорова при ?ii,n2 —> оо, что и каждая из величин д/пГтах \F\(x) — F(x)\ и ^/n^max |F2(x) — — F(x)\. Это дает возможность проверять гипотезу о совпадении функций распределения в двух сериях опытов с помощью предель- предельной функции распределения Колмогорова К (и).
8.4- Метод статистического моделирования 345 8.4. Метод статистического моделирования 8.4.1. Задачи статистического моделирования. Непосред- Непосредственное экспериментальное изучение сложных случайных явлений часто требует чрезмерно больших затрат средств и времени, а ино- иногда и принципиально невозможно. Так, например, эксперименталь- экспериментальное изучение функционирования сложной системы невозможно до тех пор, пока система не создана и не изготовлена. Между тем необходи- необходимо еще на стадии проектирования системы изучить все ее основные свойства, в частности, эффективность ее функционирования с уче- учетом всех действующих на нее случайных возмущений. В таких случа- случаях прибегают к статистическому моделированию изучаемых явлений. Статистическое моделирование в простейшей форме издавна приме- применялось для решения различных задач. Современная вычислительная техника дает возможность имитировать практически без ограничений сложнейшие явления и процессы. Это привело к созданию и развитию метода статистического моделирования как научного метода иссле- исследования, позволяющего сочетать теоретические расчеты с имитацией различных экспериментов, а частично и с натурными экспериментами над отдельными элементами исследуемых систем *). Метод статистического моделирования основан на моделировании (имитации) изучаемого явления на ЭВМ с помощью теоретических зависимостей с непосредственным моделированием влияющих на его течение простейших (первичных) случайных факторов и на статисти- статистической обработке получаемых результатов. Метод статистического моделирования оказался плодотворным и для решения ряда математических задач, не связанных с теорией вероятностей, например для вычисления интегралов, особенно мно- многократных, решения некоторых уравнений и т.п. Применение этого метода к подобным задачам основано на моделировании такого слу- случайного явления, вероятностными характеристиками которого слу- служат искомые величины. Основой метода статистического моделирования является модели- моделирование случайных величин с заданными распределениями и событий с заданными вероятностями. 8.4.2. Моделирование случайных величин. Рассмотрим сна- сначала способы моделирования скалярных случайных величин. На осно- основе результатов п. 5.2.3 для моделирования случайной величины X с любой непрерывной функцией распределения F(x) достаточно уметь моделировать случайную величину У, равномерно распределенную на интервале [0,1]. Получив реализацию у величины У, найдем соот- соответствующую реализацию х величины X по формуле х = F~1(y). *) Метод статистического моделирования часто, особенно в иностран- иностранной литературе, называют методом Монте-Карло.
346 Гл. 8. Оценивание распределений Для получения реализаций равномерно распределенных случай- случайных величин применяются два принципа: физический и алгоритми- алгоритмический. Физический принцип основан на использовании случайных физи- физических явлений, например потоков частиц, испускаемых радиоактив- радиоактивными веществами, или собственных шумов электронных устройств. Действуя на соответствующие регистрирующие устройства, исполь- используемое физическое явление генерирует последовательность незави- независимых случайных величин \\, V^,..., каждая из которых с вероят- вероятностью 0,5 принимает значение 0 или 1. Эту последовательность мож- можно рассматривать как последовательность двоичных знаков числа, представляющего собой значение случайной величины Y = W2'1 + V22~2 + ... + Vk2~k + ... Можно доказать, что при неограниченной длине последовательности величина Y равномерно распределена на интервале [0,1] *). > Действительно, случайная величина Yn— \\l + V2* + ... + VnZ имеет 2п возможных значений, и вероятность каждого из них рав- равна 2~п. Функция распределения Yn определяется формулой Fn(y) = {[у2п] + 1J"п, уе[0,1]. Представляя функцию распределения равномерного распределения на интервале [0,1] в виде F(y) — у и принимая во внимание, что 0< [у2п] + 1-у2п <С 1, получим 0 < Fn(y) - F(y) <: 2'n. Следова- Следовательно, Fn(y) -> F(y) = у при п -> оо. <] Реализации этой случайной величины Y вводятся в ЭВМ двоич- двоичными числами с тем числом знаков, с которым ЭВМ оперирует. Для получения реализаций равномерно распределенной случай- случайной величины алгоритмическим путем в ЭВМ вводят произвольное двоичное число, занимающее все разряды или часть разрядов какой- либо ячейки оперативной памяти. Над этим числом выполняют ряд простейших операций по специальной программе. Над полученным числом вновь повторяют те же операции и т.д. Генерируемая таким способом последовательность двоичных чисел, конечно, не будет слу- случайной. Однако в достаточно длинном отрезке этой последовательно- последовательности все числа с данным числом двоичных знаков будут встречаться практически одинаково часто. Поэтому взятое наугад число из этой последовательности можно считать реализацией случайной величи- *) См., например, [11, 30]. В действительности вследствие отсутствия строгой независимости величин Vi, Vb, • • • и из-за того, что вероятности зна- значений 0 и 1 величин Vk не равны 1/2, распределение величины У оказыва- оказывается лишь приближенно равномерным.
8.4- Метод статистического моделирования 347 ны, равномерно распределенной на интервале [0,1]. Благодаря этому свойству таких последовательностей они называются последователь- последовательностями псевдослучайных чисел. Существуют много различных алго- алгоритмов и программ формирования псевдослучайных чисел [100]. В отличие от последовательностей, генерируемых физическими источниками случайных явлений, одна и та же последовательность псевдослучайных чисел может неограниченно повторяться. Поэтому одну и ту же реализацию случайной величины можно использовать многократно. Это дает некоторые преимущества при решении ряда практических задач. Нормально распределенную случайную величину на основании предельной теоремы п. 5.4.1 можно моделировать как сумму неза- независимых случайных величин, распределенных по любым законам. В частности, можно взять сумму независимых равномерно распределен- распределенных на интервале [0,1] случайных величин У1?..., Yn. На основании предельной теоремы и результатов примера 3.3 случайная величина х - г=1 при достаточно большом п распределена приблизительно JV@,1). При этом случайная величина Z = mz + X\[D~Z будет распределена при- приблизительно N(mz,Dz). Моделирование векторной случайной величины сводится к после- последовательному моделированию ее координат. При этом первая коорди- координата моделируется в соответствии с ее безусловным распределением, а каждая последующая координата — в соответствии с условным рас- распределением при полученных ранее значениях всех предыдущих ко- координат. Для моделирования случайного вектора X, распределенного нормально М(тх,Кх), можно воспользоваться любым каноническим разложением этого вектора: г X = тх + ^2vpxp, p=i где г — ранг матрицы Кх. Выбрав координатные векторы так, что- чтобы дисперсии величины Vp были равны 1 (п. 3.4.4), сведем задачу к моделированию независимых случайных величин V\,..., Vr, распре- распределенных TV @,1). 8.4.3. Моделирование событий. Для моделирования собы- события А с вероятностью р достаточно моделировать случайную величи- величину У, равномерно распределенную в интервале [0,1]. При попадании этой величины в интервал [0,р] считают, что событие А появилось, а при непопадании в интервал (р, 1] —что А не появилось. Точно так же для моделирования полной группы несовмест- несовместных событий Ai,..., Аг с вероятностями pi,... ,рг, р\ + ... + рг = 1,
348 Гл. 8. Оценивание распределений достаточно моделировать величину У, равномерно распределенную в интервале [0,1], и считать, что появилось А\ при попадании Y в ин- интервал [0,j9i], появилось A<i при попадании Y в интервал (pi,pi + P2L и т.д., появилось Аг при попадании Y в интервал (р\ + ... +pr_i, 1]. 8.4.4. Практические приложения метода. Применение мето- метода статистического моделирования для решения вероятностных за- задач сводится к многократному непосредственному моделированию на ЭВМ изучаемого явления, включая моделирование тех случайных ве- величин и событий, вероятностные характеристики которых известны, и последующему статистическому оцениванию вероятностных харак- характеристик полученных результатов. Так, например, при проектировании какой-либо сложной техни- технической системы обычно многократно моделируют функционирование системы и действующие на нее возмущения (входные сигналы), ве- вероятностные характеристики которых предполагаются известными. В результате моделирования получается ряд реализаций (выборка) всех величин, характеризующих работу системы (выходных сигна- сигналов) . Статистическая обработка полученных данных дает оценки ве- вероятностных характеристик величин, определяющих качество работы системы (как правило, ее точность). Выполнив моделирование для ряда вариантов и значений параметров системы, можно выбрать для дальнейшей разработки и реализации тот вариант, который наилуч- наилучшим образом удовлетворяет поставленным требованиям. Большим достоинством метода статистического моделирования является возможность включения в процесс моделирования некото- некоторых реальных элементов системы, в том числе и не поддающихся математическому описанию, например человека или коллектива лю- людей, участвующих в работе системы. Основным недостатком метода статистического моделирования является необходимость многократ- многократного моделирования случайного явления, чтобы получить выборку, по которой необходимые статистические характеристики могут быть оценены с достаточной точностью {представительную выборку). 8.4.5. Точность метода. Чтобы дать представление о зависимо- зависимости точности метода статистического моделирования от числа опытов, воспользуемся результатами п. 6.4.2, где было показано, что точность оценок п п k=l k=l математического ожидания и дисперсии нормально распределенной величины Y характеризуется средними квадратическими отклоне- отклонениями
8.4- Метод статистического моделирования 349 где а у — среднее квадратическое отклонение величины Y *). В приве- приведенной таблице показана зависимость относительной точности оценок математического ожидания и дисперсии от числа опытов п. Относительная погрешность в % (av/ау) • 100 (аВу/а*)-Ш п 10 31,6 47,2 20 22,4 32,4 30 18,2 26,3 40 15,8 22,6 60 12,9 18,4 80 11,2 15,9 100 10 14,2 150 8,2 11,6 200 10,0 Из этой таблицы видно, что математическое ожидание можно оце- оценить со средней квадратической погрешностью 16-19%, а диспер- дисперсию — со средней квадратической погрешностью 23-27 % при п — — 30-40. Практически рекомендуется выбирать п ^ 100, что обеспе- обеспечит оценивание математического ожидания и дисперсии со средними квадратическими погрешностями 10% и 15% соответственно. 8.4.6. Решение вероятностных задач. Простейшей вероят- вероятностной задачей, которую можно решить с помощью статистического моделирования, является задача вычисления вероятности попадания векторной случайной величины, особенно многомерной, в данную об- область В. Непосредственное вычисление интеграла B.9), как правило, невозможно, а приближенное вычисление путем численного интегри- интегрирования требует большого объема вычислений. Моделируя случайную величину X с заданной плотностью /(ж), можно за оценку вероятно- вероятности Р(Х Е В) принять частоту попадания X в область В. Необходи- Необходимый для расчетов объем вычислений будет, как правило, меньше, чем при численном интегрировании. Точно так же можно оценивать моменты различных функций слу- случайной величины X как выборочные средние соответствующих функ- функций, полученные в результате статистического моделирования вели- величины X. 8.4.7. Вычисление интегралов. Чтобы показать применение метода статистического моделирования для решения математических задач, не имеющих вероятностного содержания, рассмотрим задачу вычисления интеграла г I — / g(x) dx. в Если область В ограничена, то ее можно заключить в некото- некоторый прямоугольный параллелепипед R со сторонами, параллельными осям координат. Представим интеграл / в виде 1 = J g(x) dx = ^щ J g{x)v{R) dx = —— j g{x) lB{x)v(R) dx, В В R *) Формула для (Ту- верна при любом распределении величины У (при- (пример 3.12).
350 Гл. 8. Оценивание распределений где v(R) — объем параллелепипеда R, а 1#(ж) — индикатор обла- области В, т.е. функция, равная 1 при х Е В и 0 при х ? В. Последний интеграл можно рассматривать как математическое ожидание функ- функции (р(Х) = g(X) 1b(X)v(R) случайной величины X, равномерно рас- распределенной в параллелепипеде R. Моделируя эту случайную величи- величину X, можно получить оценку / интеграла / как выборочное среднее случайной величины (р(Х) = д(Х) 1b(X)v(R): 1=1 При произвольной области В можно взять произвольную плот- плотность /(ж), не обращающуюся в нуль нигде в В, например невырож- невырожденную нормальную, и представить интеграл / в виде оо = fg(X) dx = f^ /(*) dx=f ^ /() f ^р /() dx. В Последний интеграл можно рассматривать как математическое ожи- ожидание функции (р(Х) = д(Х) 1в(Х)/f(X) случайной величины X с плотностью /(ж). Моделируя эту случайную величину X, можно получить оценку / интеграла / как выборочное среднее величины <p(X)=g(X)lB(X)/f(X): j I <shg(xi)lB(xi) Чтобы дать представление о преимуществах метода статистиче- статистического моделирования перед методами численного интегрирования, предположим, что для вычисления r-кратного интеграла / методами численного интегрирования требуется взять в области В тг узлов и что для расчета одного значения подынтегральной функции д(х) необходимо sr операций. Тогда для вычисления / методами числен- численного интегрирования потребуется srmr операций. При применении метода статистического моделирования для вычисления / необходимо srn операций, где п — число опытов. Следовательно, относительный выигрыш машинного времени при применении метода статистическо- статистического моделирования характеризуется отношением тг/п. Если считать минимальным необходимым числом узлов по каждой координатной оси т = 5, то при п = 100 метод статистического моделирования даст существенную экономию машинного времени уже при г = 4 -г 5. При увеличении кратности интеграла г преимущество метода статистиче- статистического моделирования растет как показательная функция. Для более подробного ознакомления с методом статистического моделирования можно обратиться, например, к [11, 30, 100].
Глава 9 СТАТИСТИЧЕСКИЕ МОДЕЛИ, I 9.1. Математические модели 9.1.1. Модели теоретические и статистические. Для приме- применения математических методов необходимо прежде всего установить соотношения между величинами, характеризующими рассматривае- рассматриваемые явления. Каждое такое соотношение представляет собой матема- математическую модель данного явления. Так, например, законы Ньютона в механике и вся построенная на них классическая механика пред- представляют собой совокупность моделей механических явлений. Урав- Уравнения Максвелла в физике представляют собой математическую мо- модель электродинамических явлений. В теории управления изучаются различные системы, поведение которых описывается некоторой совокупностью величин, причем од- одни величины носят характер внешних воздействий на систему и назы- называются ее входными сигналами, а другие характеризуют работу си- системы, определяют ее воздействие на другие системы и называются ее выходными сигналами. Зависимость выходных сигналов системы от ее входных сигналов, используемая для изучения системы и ее взаимо- взаимодействия с другими системами, представляет собой математическую модель этой системы. Во многих случаях математическую модель можно построить чи- чисто математическим путем на основе известных законов механики, физики и других дисциплин, пользующихся количественными соотно- соотношениями. Так, например, различные модели управляемого летатель- летательного аппарата можно построить математически, пользуясь законами механики. Однако существуют и такие системы, для которых принципиаль- принципиально невозможно построить модели чисто математическим путем. При- Примерами таких систем могут служить человек или коллектив людей, выполняющий определенные функции, завод, отрасль промышленно- промышленности, экономика и т.п. Современный научно-технический прогресс и все расширяющееся применение математических методов требуют созда- создания математических моделей и для таких систем. Они необходимы, в частности, для решения современных задач управления. Для построения моделей сложных систем приходится прибегать к экспериментальному исследованию самих систем или входящих в них подсистем и строить соответствующие модели путем статистической обработки полученных данных.
352 Гл. 9, Статистические модели, I Модели, полученные на основе статистической обработки резуль- результатов экспериментального исследования функционирования систем, будем называть статистическими моделями. Методы построения статистических моделей составляют важный раздел современной ма- математической статистики. Построение математической модели реальной системы или про- процесса часто называется идентификацией этой системы или процесса. Следует заметить, что это название не точно отражает существо дан- данной задачи, так как никакая модель не может быть тождественна соответствующему реальному явлению *). 9.1.2. Модели детерминированные и стохастические. Из сказанного следует, что задача построения модели явления, процес- процесса или системы состоит в нахождении соотношений между величи- величинами, описывающими течение данного явления, процесса или функ- функционирование данной системы. Если эти соотношения позволяют по данным значениям одних величин однозначно определить значения других, то описываемая ими модель называется детерминированной. Если же эти соотношения по данным значениям одних величин опре- определяют другие как случайные величины, то описываемая ими модель называется стохастической. Как теоретические модели, выводимые математически из первич- первичных законов, так и статистические модели, получаемые на основе ста- статистической обработки результатов наблюдений, могут быть детер- детерминированными или стохастическими. Так, например, зависимость Y = (f(X), устанавливаемая по результатам наблюдений случайных величин X и Y методом наименьших квадратов, представляет собой детерминированную модель. Если же учесть наблюдаемые в резуль- результате опытов случайные отклонения экспериментальных точек от кри- кривой у = (р(х) и написать зависимость Y от X в виде Y = <р{Х) + Z, где Z — некоторая случайная величина, то получится стохастиче- стохастическая модель. При этом величины X и Y могут быть как скаляр- скалярными, так и векторными. Функция (р(х) может быть как линейной комбинацией данных функций, так и данной нелинейной функцией, параметры которой определяются методом наименьших квадратов. Число и вид функций в линейной комбинации, а также вид нелиней- нелинейной функции (р(х) и число определяющих ее параметров могут быть любыми. Приведенный простой пример показывает, что одному и тому же явлению могут соответствовать различные модели. Проблема пост- построения модели системы включает и выбор подходящей формы этой *) Английские слова identity и identification означают «тождество» и « отождествление ».
9.1. Математические модели 353 модели, а также разумной степени ее сложности, совместимых с име- имеющимися экспериментальными данными. 9.1.3. Роль математических моделей. Математические мо- модели являются мощным инструментом познания реального мира. Они применяются для различных расчетов, проектирования систем, управления процессами pi системами, прогнозирования разных явле- явлений и т.д. Математически модели дают возможность открывать и предсказывать новые научные факты и закономерности. Применение математических моделей в основном сводится к опре- определению значений некоторых величин по известным значениям дру- других величин. Значения последних могут быть или получены в резуль- результате наблюдений, или задаваться из каких-либо соображений. Так, например, измеряя какую-либо величину, мы наблюдаем только ре- результаты измерений, по которым требуется определить значение са- самой измеряемой величины. При прогнозировании погоды по изме- измеренным значениям параметров состояния атмосферы в одних точках пространства в один период времени предсказываются их значения в других точках и в другой период времени. При применении мате- математических методов в медицинской практике по результатам обсле- обследования пациента должна решаться задача распознавания болезни, которой он страдает, и определения соответствующих методов лече- лечения. Аналогичные задачи распознавания возникают во многих других областях. Современное состояние и развитие вычислительной техники и свя- связи дают возможность автоматизировать некоторые виды умственной деятельности человека, т.е. приступить к решению проблемы созда- создания искусственного интеллекта. Это особенно важно для разработки автоматических устройств — роботов — для выполнения работ в таких условиях, в которых человек не может существовать. Такие роботы должны согласовывать свои действия с изменяющимися условиями и вновь возникающими обстоятельствами и, следовательно, распозна- распознавать ситуации и в соответствии с этим принимать решения. Не ме- менее важны для современного научно-технического прогресса задачи создания автоматических систем, читающих и анализирующих руко- рукописные тексты, а также систем, анализирующих человеческую речь. Такие системы должны распознавать и понимать рукописные буквы, цифры и другие изображения или соответственно звуки человеческой речи (фонемы) и определять их смысловое содержание. Объединив алгоритм распознавания человеческой речи с алгоритмами перевода с одного языка на другой, можно будет создавать автоматические си- системы для синхронного перевода речи на несколько языков. Наконец, при использовании ЭВМ для обучения людей также необходимы ал- алгоритмы автоматического распознавания характера ошибок, допус- допускаемых обучаемыми, и определения уровня их знаний. Человек в своей практической деятельности повседневно решает различные за-
354 Гл. 9. Статистические модели, I дачи распознавания. Для создания автоматических распознающих си- систем необходимы соответствующие модели процессов распознавания. Все расширяющееся проникновение математических методов в сферу управления ставит задачу создания моделей и для процессов принятия решений. Руководитель любой организации по полученной информации (которую всегда можно представить в виде совокупно- совокупности значений некоторых величин) должен принять решение (которое тоже можно представить в виде совокупности значений определен- определенных величин). Современная вычислительная техника и связь может помогать руководителям принимать наиболее научно обоснованные решения и тем самым повышать эффективность управления, но для этого необходимы соответствующие модели процессов обоснования pi принятия решений. Перейдем теперь к изучению методов построения статистических моделей. При этом мы ограничимся только такими моделями, которые описываются соотношениями между конечномерными векторами. К таким моделям относятся, в частности, все дискретные системы, вход- входные pi выходные сигналы которых действуют только в определенные дискретные моменты времени. Для построения более сложных стати- статистических моделей, в частности моделей, входр!ые и выходные сигна- сигналы которых представляют собой функции непрерывно изменяющих- изменяющихся аргументов, необходимо применение теории случайных функций и раздела теорир! непрерывных стохастических систем [131]. 9.2. Регрессионные модели 9.2.1. Регрессия как оценка зависимости случайной вели- величины от другой величины. Рассмотрим задачу определения зна- значения случайной величины по данным значениям другой величины. Пусть Y — случайная величина, значения которой требуется опреде- определить, х — известная величина, которая может представлять собой на- наблюденное значение некоторой случайной величины X или заданное значение некоторой переменной. Как ж, так и Y могут быть скаляр- скалярными или векторными величинами. Распределение случайной вели- величины Y в общем случае зависит от х. С точки зрения математической статистики поставленная задача представляет собой задачу оценивания значения ненаблюдаемой слу- случайной величины Y по данному значению величины х (в частности, по полученному в результате наблюдения значению х случайной ве- величины X). Пусть у — у(х) — оценка значения величины Y при данном х. Ошибка этой оценки у — Y представляет собой случайную величину. В соответствии с п. 6.2.1 точность оценки у целесообразно характеры-
9.2. Регрессионные модели 355 зовать средним квадратом ошибки при данном значении ж: e(x) = M[\y(x)-Y\2\x]. (9.1) Рассмотрим сначала случай скалярной величины Y. Из форму- формулы C.31) следует, что средний квадрат ошибки оценки у будет ми- минимальным, если принять за у математическое ожидание случайной величины Y при данном х: y(x)=my(x)=M[Y\x]. (9.2) Эта формула определяет наилучшую оценку величины Y при дан- данном х. В случае векторной величины Y — [Y\ ... Ym]T т е(х) = М[\у - If | х] = Y, М[\Ур ~ Yp\2 I *]• (9-3) p=i Отсюда видно, что величина е(х) минимальна тогда и только тогда, когда каждое слагаемое в (9.3) имеет минимальное значение. Следо- Следовательно, формула (9.2) определяет наилучшую с точки зрения ми- минимума величины г оценку при каждом х и для векторной случайной величины Y. Зависимость оценки у величины Y от ж, определяемая форму- формулой (9.2), представляет собой регрессию Унах (п. 4.3.2). Таким обра- образом, оптимальной оценкой зависимости Y от х служит регрессия Y па ж. В частности, оптимальным прогнозом величины Y по данному значению х будет прогноз по регрессии. Модель, определяемая регрессией Y на ж, называется регрессион- регрессионной моделью. Регрессионные модели широко применяются для описа- описания функционирования различных систем. 9.2.2. Средние квадратические регрессии различных классов. Оценивание по регрессии возможно только в том случае, когда регрессия известна. Если регрессия не известна или определяе- определяемая ею зависимость слишком сложна для практической реализации, то приходится искать оценку зависимости Y от х в некотором ограни- ограниченном классе функций. При этом уже не удается обеспечить мини- минимум среднего квадрата ошибки е{х) при каждом значении х. Поэтому обычно ищут оценку зависимости У от ж в данном классе функций из условия минимума среднего значения величины е(х) в интересующей нас области изменения х. Предположим сначала, что х представляет собой значение некото- некоторой случайной величины X. Тогда естественно рассматривать сред- средний квадрат ошибки как функцию случайной величины X и за ее среднее значение в области изменения х принять ее математическое ожидание. Пусть у{х) — искомая оценка зависимости У от ж в некото- некотором классе функций Ф. Рассматривая эту оценку как функцию у(Х)
356 Гл. 9. Статистические модели, I случайной величины X, получим на основании (9.1) значение сред- среднего квадрата ошибки оценки как функцию случайной величины X: e(X) = M[\y(X)-Y\2\X]. Взяв математическое ожидание этой величины и пользуясь формулой полного математического ожидания D.34), получим среднее значение величины е: s = M\y(X)-Y\2. (9.4) Предположим теперь, что х — неслучайная переменная, изменя- изменяющаяся в некоторой области В, и за среднее значение величины е{х) принимается е = р(х)е(х) dx, в где р(х) — некоторая функция веса, обладающая свойством (как и всякая функция веса при определении взвешенного среднего) р(х) dx = 1. В частном случае, когда всем значениям х в области В придается один и тот же вес, р{х) = l/v(B), где v(B) — объем области В. Очевидно, что этот случай сводится к предыдущему, если считать х значени- значением случайной величины X, плотность которой равна р(х) при х ? В и 0 при х ? В. Следовательно, формулу (9.4) можно считать общей формулой для определения среднего значения величины е в интере- интересующей нас области изменения х. Таким образом, наилучшей оценкой зависимости У от ж в за- заданном классе функций Ф является функция у(х), реализующая минимум безусловного математического ожидания квадрата модуля ошибки. Оценка у(Х) случайной величины У, принадлежащая определен- определенному классу функций Ф, для которой математическое ожидание квад- квадрата модуля ошибки (средний квадрат ошибки) достигает минимума, называется средней квадратической регрессией Y па х класса Ф. В частности, линейная функция, реализующая минимум среднего квад- квадрата ошибки г в классе линейных функций, называется линейной средней квадратической регрессией Y на х. 9.2.3. Оптимальные оценки. Покажем, что средняя квадра- тическая регрессия класса Ф представляет собой наилучшее сред- среднее квадратическое приближение регрессии ту{х) — M[Y | х] в этом классе функций Ф.
9.2. Регрессионные модели 357 > Заметим, что на основании C.31) т М[\у(Х) - Y|2 | X] = ? М[\ур(Х) - Yp\2 | X] = p=i т = Y,{M[\mP(X) ~ УР\2 IX] + \ур{Х) - ту(Х)\2} = = М[\ту(Х) - У|2 | X] + \у(Х) - ту(Х)\2. Взяв математическое ожидание этой случайной величины, на осно- основании формулы полного математического ожидания D.34) получаем е = М\у - Y\2 = М\ту(Х) - If + М\у(Х) - ту(Х)\2. (9.5) Так как первое слагаемое в правой части не зависит от функции у(Х), то ? достигает минимума тогда и только тогда, когда минимально второе слагаемое. < Оценку у(х) регрессии ту(х) — M[Y \ ж], минимизирующую сред- средний квадрат ошибки е в классе функций Ф, будем называть опти- оптимальной оценкой в классе Ф. Из (9.5) видно, что если регрессия ту{х) содержится в классе функций Ф, в котором ищется оптимальная оценка, в частности, ес- если Ф совпадает с множеством всех функций переменной ж, то опти- оптимальной оценкой регрессии служит сама регрессия. Регрессия является единственной оценкой, реализующей минимум условного математического ожидания квадрата модуля ошибки при каждом данном значении х. 9.2.4. Необходимое и достаточное условие оптимальности. Покажем, что ?/(ж) представляет собой оптимальную оценку в классе функций Ф, если для любой функции ф(х) ? Ф Мф(Х)*[у(Х) -Y]=ti М[у(Х) - ?}ф(Х)* = 0 *). (9.6) \> Пусть ф(х) — произвольная функция класса Ф, у{х) — оп- оптимальная оценка Y в классе Ф. Если принять за оценку Y функ- функцию ф(Х), то будем иметь е = М\ф(Х) - If = M\y(X) -Y + ф(Х) - у(Х)\2 = = М\у(Х) - Y\2 + М\ф(Х)-у(Х)\2 + МЩХУ - у(Х)*}[у(Х) -Y} + + М[у{Ху - ?*}[ф(Х) - у(Х)}. (9.7) *) Как всегда, звездочка означает транспонирование матрицы с заме- заменой всех ее элементов соответствующими сопряженными числами. Первое равенство (9.6) верно в силу соотношения ab = tr 6а, справедливого для лю- любых матриц-столбцов (векторов) а и Ъ.
358 Гл. 9. Статистические модели, I Если условие (9.6) выполнено для любой функции ф(х) ? Ф, то оно выполнено и для ф(х) — у(х). В этом случае -у{Х)*][у{Х) -Y} = 0, М[у(ХУ-?*]ЩХ)-у(Х)] = М[ф(Х)* -у(ХУ][у(Х)-?] = О и (9.7) принимает вид е = М\ф{Х) - Г|2 = М\у(Х) - If + М\ф(Х) - у(Х)\\ Отсюда видно, что е достигает минимума тогда и только тогда, ко- когда ф(х) = у(х). Такид/[ образом, условие (9.6) достаточно для опти- оптимальности оценки у(х) G Ф. <\ Докажем, что если класс функций Ф представляет собой линей- линейное пространство*), то условие (9.6) необходимо для оптимально- оптимальности оценки у(х) G Ф. \> Предположив, что существует функция фо(х) G Ф, для которой определим функцию Так как Ф — линейное пространство, то ф(х) Е Ф. Вычислим сред- средний квадрат ошибки е для оценки ф(х). В данном случае л\|2 М\ф(Х)-у(Х)\2 = М\фо(Х)\^ *) Множество L называется линейным или векторным пространством, если оно удовлетворяет условиям: 1) для любых х,у Е L однозначно определен элемент z E L, называемый суммой х и у, z = х + у] 2) для любого х Е Ь и числа а однозначно определен элемент «GL, называемый произведением х на число а, и = аж; 3) в L существует нулевой элемент 0 такой, что ж + 0 = ж, 0 • х = 0 для всех х Е Ь; 4) операции сложения и умножения на число обладают свойствами: ж + у = у + ж (коммутативность)] (х + у) + 2 = х + (у + z), а(/3х) = (а/3)х (ассоциативность)] а(х + у) = аж + ау, (а +/3)ж = аж +/Зж (дистрибутивность). В зависимости от того, определена операция умножения на число для всех комплексных чисел или только для действительных, L называется ком- комплексным линейным пространством или, соответственно, действитель- действительным линейным пространством [42].
9.2. Регрессионные модели 359 М[ф(Ху-у(Х)*][у(Х)-У} = ^Мфо(ХГ[у(Х)-У} = - М®(Х)*-?*][ф(Х)-у(Х)] = = М[ф(Х)*-у(Х)*][у(Х) -Y] = - М\фо(Х)\*' Подставив эти выражения в (9.7), получим е = М\ф(Х) - Y\2 = М\у{Х) - Y М\фо(Х)\*' Отсюда следует, что оценка ф(х) лучше оценки у(х). Таким образом, если существует функция фо(х) ? Ф, для которой условие (9.6) не вы- выполнено, то оценка у(х) не может быть оптимальной. Следовательно, выполнение условия (9.6) для всех ф(х) ? Ф необходимо. <\ 9.2.5. Линейные регрессионные модели. Найдем оптималь- оптимальную оценку у{х) величины Y в классе линейных функций, т.е. линей- линейную среднюю квадратическую регрессию Y на X. Положив в (9.6) у{Х) = дХ, ф(Х) = hX, получим ti M(gX-Y)X*h* =0, или, в силу того, что Mil* = Гж, МУХ* = Гух, Ьт(дГх - Tyx)h* = 0. (9.8) Это равенство справедливо для любой матрицы h тогда и только то- тогда, когда дГх=Тух. (9.9) Действительно, если какие-нибудь элементы матрицы а = дТх — Тух) отличны от нуля, то, положив h — а, получим tr(gTx — Tyx)h* = = traa*/0, если хотя бы один элемент матрицы а отличен от нуля*). Так как класс линейных функций представляет собой линейное пространство, то (9.8), а следовательно и (9.9), необходимо и доста- достаточно для оптимальности оценки у(х) = дх. Таким образом, матри- матрица д, соответствующая оптимальной линейной оценке, определяется уравнением (9.9). *) След матрицы аа* равен сумме квадратов модулей всех элементов матрицы а: p=l ^q = *pq -
360 Гл. 9, Статистические модели, I Заметим, что уравнение (9.9) можно представить в виде М(У - Y)X* = 0, (9.10) где Y = дХ. Из (9.8) следует также, что для любого разбиения век- вектора X на блоки, ХТ = [Xf ... Xjy], оптимальная оценка Y удовле- удовлетворяет также условиям M(Y-Y)X% = 0 (Jb = l,...,iV). (9.11) Действительно, разбив матрицу h на соответствующие блоки h = — [hi ... ftjv] и положив hi = 0 при i Ф к, выведем (9.11) из (9.8) со- совершенно так же, как было получено (9.9). Оценка у(х) = дх, определяемая уравнением (9.9), в общем случае будет смещенной, Му(Х) = М(дХ) ф MY. Для устранения смещения достаточно добавить к дх соответствующее постоянное слагаемое. \> Положив в (9.6) у{Х) = дХ + а. 'ф(Х) — hX + 6, в силу соот- соотношений Гж = Кх + mxml, Тух = Кух + myml (9.12) получаем tr[(gKx - Kyx)h* + (gmx - my + a)(mxh* + 6*)] = 0. (9.13) Это условие должно выполняться для любых матрицы h и вектора Ъ. Положив, в частности, Ъ = —hmx, будем иметь Ы(дКя - Kyx)h* = 0. Отсюда совершенно так же, как в предыдущем случае, получаем урав- уравнение для матрицы д: дКх=Кух. (9.14) При этом условие (9.13) будет выполняться для любых матрицы h и вектора Ъ тогда и только тогда, когда а = ту — дтпх. (9.15) Таким образом, оптимальная линейная оценка со сдвигом у — дх + а (линейная средняя квадратическля регрессия) определяется уравне- уравнением (9.14) и формуле (9.15), которые представляют собой необходи- необходимые и достаточные условия оптимальности. < Если регрессия Y на X линейна, то на основании сделанного выше замечания функция у{х) — дх + а, где д и а определяется уравнени- уравнением (9.14) и формулой (9.15), совпадает с регрессией. Заметим, что линейную функцию со сдвигом дх + а можно рас- рассматривать как частный случай линейной функции дх. Действитель- Действительно, добавив к вектору х еще одну координату, равную 1, т.е. поло- положив х' — [хт 1]т, и вводя матрицу д' — [д а], получим дх + а = д'х'.
9.2. Регрессионные модели 361 Соответственно уравнение (9.14) и формула (9.15) получаются из (9.9) в частном случае, когда одна из координат вектора х равна 1. В частном случае, когда векторы X и Y действительны и их совместное распределение нормально, регрессии всегда линейны (п. 4.5.4). Поэтому уравнение (9.14) и формула (9.15) определяют ре- регрессию проекции Y нормально распределенного случайного вектора [Хт YT]T на его проекцию X на дополнительное подпространство. Первая формула D.83) и уравнение D.82), определяющие регрессию одной координаты нормально распределенного случайного вектора на все остальные его координаты, вытекают из результатов (9.14) и (9.15) как частные случаи. Пример 9.1. Пусть f(x,y) — совместная плотность случайных векто- векторов X и У, тпх, Кх — математическое ожидание и ковариационная матрица вектора X, причем определитель \КХ\ отличен от нуля. В этом случае опре- определитель матрицы Гж = Кх + гпхтп^ строго положителен и уравнение (9.9) имеет единственное решение 9 = - оо оо сю f f yxTT~1f(x,y)dxdy = j my(x)xTT-1f1{x)dx, где fi(x) — плотность вектора X. Эта формула вместе с приближенной формулой ту и дх дает статистическую линеаризацию регрессии ту(х) по Бутону*). Пример 9.2. В условиях примера 9.1 уравнение (9.14) имеет единст- единственное решение оо оо g^KyxK~v- I I (у-тх)(х-mx)TK~1f(x,y)dxdy = — оо —оо оо = / [ту(х) - гпх](х -mx)TK~1f1(x)dx. — оо Эта формула вместе с приближенной формулой гпу(х) и тпу + д(х — тпх) дает статистическую линеаризацию регрессии ту(х) по Казакову. Таким образом, в основе статистической линеаризации лежат линейные регресси- регрессионные модели. 9.2.6. Решение уравнений, определяющих линейную ре- регрессию. Для решения уравнения (9.14) можно использовать раз- различные вычислительные методы и соответствующие машинные про- программы [1, 94, 107]. Одним из наиболее удобных методов решения *) Бутон [12] и Казаков [31] независимо друга от друга разработа- разработали метод статистической линеаризации для приближенного исследования точности нелинейных систем. Они рассматривали случай скалярных X и У = <р(Х) при заданной функции <р(х). Впоследствии Соммервил и Атер- тон [101], Казаков [32] и другие распространили этот метод на вектор- векторные X и Y (см. также обзор [95] и [131]).
362 Гл. 9. Статистические модели, I уравнения (9.14) является метод, основанный на каноническом разло- разложении случайного вектора X. Пусть 2vpxp (9.16) p=i — какое-нибудь каноническое разложение вектора X, Д,..., fr — век- векторы, удовлетворяющие вместе с координатными векторами xi,..., хг условию биортогональности f?xq = х^fp = Spq (p,q = 1,..., г). При этом в силу C.71) и C.69) хр = D~xK~jv и Vp = /ртХ° = X0Tfp, где Dp — дисперсия величины Vp. \> Будем искать решение уравнения (9.14) в виде Р=1 Для определения неизвестных коэффициентов с\,..., сг подставим выражение (9.17) в (9.14): р=1 Учитывая, что /JКх — Dpx^^ получим г / j cpDpxp = Кух. p=i Умножив это уравнение справа на fq и заметив, что х* fq — xjfq — = Spq, получим Cq-Uq = Отсюда находим Подставив это выражение в (9.17), будем иметь р=1 р Остается убедиться в том, что определяемая этой формулой матри- матрица g удовлетворяет уравнению (9.14). Для этого заметим, что в си- силу (9.16) г Кух = MY°X°* = J2 MY°VpX;. р=1
9.2. Регрессионные модели 363 Так как Vp = /JX° = Хотfp, то MY°VP = MY°X°*fp = KyxJpj г г кух = Y, yxfP; Е Б р То же получается, если (9.18) умножить справа на Кх: J2kp p=i p Следовательно, матрица д, определяемая формулой (9.18), удов- удовлетворяет уравнению (9.14). <\ Формула (9.18) дает решение уравнения (9.14) как в том случае, когда определитель матрицы Кх отличен от нуля, так и в том слу- случае, когда он равен нулю. Во втором случае общее решение уравне- уравнения (9.14) получится прибавлением к правой части формулы (9.18) произвольной матрицы h, удовлетворяющей уравнению hKx = 0. \> Для решения уравнения (9.9) представим его с помощью соот- соотношений (9.12) в виде дКх = Кух + \тп*х, (9.19) где \ = my-gmx. (9.20) Так как уравнение (9.19) линейное, то его решение имеет вид 9 = 9о + Хдъ (9.21) где #о и 9i — решения уравнений д0Кх = Kyxj 9lKx = ml. (9.22) Решение первого из этих уравнений дается формулой (9.18). Чтобы решить второе, представим ковариационную матрицу Кх канониче- каноническим разложением C.75): Кх = р=1 Тогда второе уравнение (9.22) примет вид P=i Очевидно, что это уравнение имеет решение только в том случае, ко- когда математическое ожидание гпх представимо разложением по коор-
364 Гл. 9. Статистические модели, I динатным векторам: p=i Р=1 А это будет или когда определитель матрицы Кх отличен от нуля, или когда вектор тх принадлежит подпространству, на котором сосредо- сосредоточено распределение центрированного вектора Х°. Если ни одно из этих условий не выполнено, то второе уравнение (9.22) не имеет ре- решения. Предположив, что гпх представимо разложением (9.23), совер- совершенно так же, как и раньше, найдем решение второго уравнения (9.22) в виде р=1 Р Определив до и д± и подставив выражение (9.21) в (9.20), найдем Л: l-gimx Формулы (9.18), (9.24), (9.25) и (9.21) дают решение уравнения (9.9). Если ранг р матрицы Кх меньше размерности г вектора X, то согласно п. 3.4.3 хр+1 = ... = хг = 0, Dp+1 = ... = Dr = 0 и суммирование по р в (9.16)-(9.18), (9.23) и (9.24) производится от 1 до р. Если математическое ожидание тх не может быть представлено разложением (9.23), то уравнение (9.19) имеет решение, для которо- которого Л = 0, и, следовательно, дтх = ту. Чтобы получить это решение, положим (в этом случае р < г и хр+\ = ... = хг = 0) р s = тх - Р=1 и определим матрицу-строку p=l так, чтобы было hxq = О (q = 1,... ,р). Для этого в силу условия fpXq — Spq достаточно взять 7д = = — s*xq/\s\2 (q — 1,...,р). Очевидно, что матрица h удовлетворяет однородному уравнению hKx = 0.
9.2. Регрессионные модели 365 Чтобы убедиться в этом, достаточно воспользоваться каноническим разложением матрицы Кх. Тогда получим р р hKx = hJ2 DPxpX; = J2 Dp(hxvK = о- p=l p=l В силу этого-матрица 9 = 9о + vh при любой матрице-столбце /i удовлетворяет уравнению т.е. уравнению (9.19) при Л = 0. Остается выбрать jjl так, чтобы бы- было Л = 0. Подставив найденное решение д в (9.20), находим \ = ту- дтх - ту - дотх - \ihmx = ту - дотх - д, так как hmx = hs — s*s/|s|2 = 1. Положив fi = ту — дотх, будем иметь Л = 0. При этом формула д = до + (ту - gornx)h (9.26) определяет решение уравнения (9.9). В этом можно убедиться и непо- непосредственной подстановкой выражения (9.26) в (9.9) с учетом первого уравнения (9.22) и равенств hKx = 0, hmx = 1. <\ 9.2.7. Детерминированные и стохастические регрессион- регрессионные модели. Регрессия ту{х) и ее оптимальная оценка у{х) пред- представляют собой детерминированные регрессионные модели. Для полу- получения стохастической регрессионной модели достаточно представить величину Y в виде Y — ту(х) + Z или У — у(х) + Zi, где Z и Z\ — некоторые случайные величины. Из (9.9), (9.14) и (9.15) видно, что для нахождения детерминиро- детерминированной линейной регрессионной модели достаточно знать математи- математические ожидания тх, ту векторов X и Y и ковариационные матри- матрицы Кх, Кух. Для нахождения стохастической линейной регрессионной модели необходимо еще знать распределение случайной величины Y при любом х или, по крайней мере, ее математическое ожидание ту{х) (регрессию) и ковариационную матрицу Ку(х) (совпадающую с кова- ковариационной матрицей Kz(x) величины Z). Более общая задача наилучшего приближения регрессии конеч- конечной линейной комбинацией заданных функций ipi,..., фн сводится к задаче наилучшего линейного приближения регрессии, так как любая линейная комбинация функций <?]_,..., LpN представляет собой линей- линейную функцию переменных z\ — ср±,..., zjy — срм-
366 Гл. 9. Статистические модели, I Пример 9.3. Построить оптимальную полиномиальную регрессион- регрессионную модель в случае скалярных X и Y. Полагая z\ — х, z<i = ж2, ..., zn = xN, z = [1 z\ ... zn ]T, # = [a #i ... .. . ддт], сведем задачу к нахождению линейной модели у(х) = gz. Уравне- Уравнение (9.9) в этом случае принимает вид 1 Oil .Oil OL2 [agi ... gN\ _OtN «АГ + 1 • • • OL2N = 1ШУ 71 ••• 7JVJ где ар = MIP — р-й момент величины X, а 7Р = МУХР — (jp + 1)-й момент случайного вектора [X У]т, содержащий У в первой степени. Полученное уравнение определяет полиномиальную среднюю квадратическую регрес- регрессию Y на X степени ЛГ, которая и служит оптимальной полиномиальной регрессионной моделью. Аналогично строятся оптимальные полиномиальные регрессионные мо- модели в случае векторных X и Y. Для решения уравнения, определяющего полиномиальную регрессион- регрессионную модель, применяются те же вычислительные методы, что и для линей- линейных моделей. В частности, можно пользоваться каноническими разложе- разложениями. В рассмотренном случае скалярной величины X для этого доста- достаточно найти методом разд. 3.4 каноническое разложение случайного векто- вектора Z = [1 X ... XN]T. 9.3. Оценивание регрессий 9.3.1. Оценка матрицы коэффициентов линейной регрес- регрессии. Если математические ожидания тх,ту и ковариационные мат- матрицы Кх,Кух не известны, то для нахождения линейной регрессион- регрессионной модели приходится оценивать по результатам опытов матрицу #, а в случае стохастической линейной модели и статистические харак- характеристики величины Y при каждом данном х. Как всегда в задачах математической статистики, будем считать все величины действительными. Предположим, что в результате п независимых опытов получе- получены пары значений (xi,?/i),..., (хп,уп) величин х и Y. Для нахожде- нахождения линейной оценки регрессии у(х) — дж естественно применить ме- метод наименьших квадратов (п. 1.2.8). Тогда матрица t/ определится из условия минимума величины k=l Это выражение отличается от (9.4) при у{х) = 'дх только тем, что вместо знака математического ожидания стоит знак суммы. Поэтому уравнение для матрицы д получается заменой в (9.9) математических
9.3. Оценивание регрессий 367 ожиданий соответствующими суммами: k=l k=l Вводя матрицы A = к=1 к=1 перепишем (9.27) в виде 'дА — В. Это уравнение имеет единственное решение тогда и только тогда, когда матрица А неособенная. Этого всегда можно достичь выбором х\,..., хп или изменением числа опы- опытов. В этом случае решение уравнения (9.27) дается формулой к=1 9.3.2. Статистические свойства оценки. Изучим статистиче- статистические свойства найденной оценки матрицы д. \> Рассмотрим сначала случай, когда х — неслучайная перемен- переменная. В этом случае # представляет собой полученную в результате опытов реализацию случайной величины п G = ^У^А, (9.29) к=1 где Y\,..., Yn — случайные значения величины Y при п опытах. Из (9.29) следует, что утп — \ " (ТЛТ{ J-1 (Q ЦО) 1 ух V.T 7 11 by \^Oj fe j Ju у, jri. . I U. kj\J ) к=1 В частном случае линейной регрессии гпу(х) = дх формула (9.30) принимает вследствие (9.28) вид J2 x =д. к=1 Таким образом, в случае линейной регрессии G представляет собой несмещенную оценку матрицы д. Для исследования рассеивания оценки G обозначим Gi,..., Gm строки матрицы G (т — размерность вектора Y): к=1
368 Гл. 9. Статистические модели, I где Yk\,..., Ykm — координаты вектора Yk (к = 1,..., п). Найдем кова- ковариационные и взаимные ковариационные матрицы векторов GJ и Gq: п Lpq = MG°qTG°q = J2 A-ixkMY&YfcfA-1 = к, 1 = 1 П - А~х V г/ ttMY° Y0 Л~г — Л 2_^ Хк%1 MlkpXlqJl . к, 1=1 Так как случайные векторы Yk и Y\ при /^ ф I независимы вследствие независимости опытов, то MY^pYt°q = 0 при I ф к. Величина MY®Yj?T представляет собой ковариационную матрицу Кх(х) случайного век- вектора Y при х = Хк- Поэтому MYk°pY°q = M[Yp°Yq° I Xk] = kpq(xk). Следовательно, Lpq = MG°qTG°q = A-lY,XkXJkkpq{xk)A-\ (9.31) k=i В частном случае, когда ковариационная матрица Ку вектора Y не зависит от ж, формула (9.31) в силу (9.28) принимает вид Lpq = kpqA~x (p, q = 1,..., m). < (9.32) Эта формула показывает, что ковариационная матрица случайно- случайного вектора G — [G\ ... Gm]T представляет собой прямое (кронекеров- ское) произведение матриц Ку и А~х [48, 57]. 9.3.3. Оценка ковариационной матрицы наблюдаемой ве- величины. Предположим сначала, что регрессия линейна, а ковариа- ковариационная матрица Ку величины Y не зависит от х. \> В этом случае оценку матрицы Кх можно получить, взяв соот- соответствующие средние значения квадратов и произведений отклонений наблюдаемых значений координат вектора Y от найденной оценки ре- регрессии. В связи с этим рассмотрим статистику п S = ?(П - Gxk)(Yk - Gxk)T. (9.33) k = l Найдем ее математическое ожидание. Заметив, что на основании вы- выражения (9.27) k=l перепишем (9.33) в виде S = Y,(Yk ~ Gxk)Y^. (9.34) k=l
9.3. Оценивание регрессий 369 Отсюда находим п п MS = M^2 YkYjf - MG Y^XkYk- (9.35) k=i k=i Величина MYkY^ представляет собой момент второго порядка слу- случайного вектора Y при х = хк. Применяя для его вычисления форму- формулу C.37), получаем MYkYk = Ту(хк) = ту(хк)ту(хк)т + Ку = дхкх\дт + Ку. Следовательно, п п М ^ YkY? = 9^2xkxlgT + пКу = дАдт + пКу. (9.36) ^ ^2у k=l k=l Вычислим второе слагаемое в (9.35). На основании (9.29) J к=1 к, 1=1 Отсюда, учитывая, что величины xfA~1xk скалярные, получаем k=l к,1=1 Но в силу независимости Yk и У/ при I ф к f = gxlX{gT, MYkY? = дхкхткдт + Ky. Следовательно, k=l k, 1=1 k=l n n = Yl $XkXk A^xixfg71+ Ку^2х1А~1хк = к, 1=1 k=l n n n = g2^xkxkA 2_^xixtg + Kyti ^xkxkA k=l 1=1 = gAgT + Ky = gAgT + KytrAA~1. Но АА~Х представляет собой единичную матрицу, порядок которой равен размерности г вектора х. Поэтому tr АА~Х — г и, следовательно, к=1 Подставив это выражение и (9.36) в (9.35), окончательно получаем MS = (n-r)Ky.
370 Гл. 9. Статистические модели, I Отсюда видно, что несмещенная оценка ковариационной матрицы Ку определяется формулой ?> S 1 п — г п — г *—*< - Gxk)T. < (9.37) Для вычисления величины S часто пользуются формулой вытекающей из (9.34) и (9.29). При этом (9.37) принимает вид (9-38) Заменив в (9.32) ковариации kpq их несмещенными оценками из (9.37), получим несмещенные оценки ковариационных матриц Lpq строк матрицы G. 9.3.4. Статистические свойства оценок значений регрес- регрессии. Изучим теперь статистические свойства оценки регрессии Y = = Gx при данном х. В силу несмещенности оценки G величина Y = Gx служит несме- несмещенной оценкой величины gx. Чтобы найти ковариационную матри- матрицу Ку оценки У, заметим, что координаты вектора Y выражают- выражаются через строки Gi,..., Gm матрицы G формулой Yp = Gpx = xTG^. Пользуясь этим соотношением и формулой (9.32), находим элементы матрицы К$: хм = M{xTGf){G°qx) = xTMGopTG°qx = kpqxTA^x. Отсюда следует, что К$ = хТА-1хКу. (9.39) Несмещенная оценка матрицы Ку получается отсюда заменой матри- матрицы Ку ее несмещенной оценкой из (9.37). 9.3.5. Оценивание нелинейной регрессии. Если регрессия нелинейна и ковариационная матрица величины Y зависит от ж, то оценку регрессии тпу(х) и ковариационной матрицы Ку(х) можно по- получить только в том случае, когда при каждом значении х величи- величина Y наблюдается многократно, т.е. х\,..., хп распадаются на группы одинаковых значений*). Предположим, что п\ из величин xi,... ,хп *) Оценки величин ту(х) и Ку(х) можно найти методом наимень- наименьших квадратов при однократном наблюдении К при каждом из значе- значений xi,... ,хп величины х, но только в классе достаточно простых функ- функций, число неизвестных параметров в которых значительно меньше числа опытов п.
9.3. Оценивание регрессий 371 равны ж^1), П2 равны х^2\ и т.д., пм равны x^N\ п\ + ... + пм — п- Значения величины У при х — х^ обозначим через Y^ (к = 1,..., пр; р— 1,..., Аг). Тогда на основании формул F.34) и F.37) несмещенные оценки величин ту(х) и Ку{х) при х — х^\ ... , ж^ определяются формулами Статистические характеристики этих оценок и доверительные обла- области в случае нормального распределения Y определяются по форму- формулам разд. 6.5. 9.3.6. Случай линейной регрессии и нормального распре- распределения. Рассмотрим подробнее частный случай, когда величина У имеет нормальное распределение, ее регрессия на х линейна, а кова- ковариационная матрица Ку не зависит от х. \> В этом случае совместная плотность наблюдаемых величин Y\,..., Yn определяется формулой ПУи ¦ • •'Уп) = Но П П )тК1(ук дхк) = ivK'1 ^(Уь д%к)(Ук дхк)Т % - gxk) Ky (yk - gxk) = txKy 2_^(yk - gxk)(yk - gxk) k=l k=l Сумма в этой формуле выражается через величины 'д и s. Действи- Действительно, п -дхк)т = - (д - д)хк][ук - дхк + (д - д)хк]т = к=1 п п т + 53(? д)хк(у1 х7дт) - д)т + 53(? - д)хк(у1 - х7кд k=i n k=i - д)т + ^2(Ук - дхк)(ук - дхк)т. к=1 к=1 Отсюда, принимая во внимание, что на основании (9.27) и (9.28) п п п 53(Ук -dxk)xJk =0, ^Гхк(ук -дхк)т = 0, 53ХкХк = к=1 к=1 к=1
372 Гл. 9. Статистические модели, I получаем п - дхк)Т = n = (g- g)A(g - g)T + ^Ы - дхк)(ук - dxk)T = (g- g)A(g - g)T Следовательно, n ^2(Ук -gx^K^iyk - дхк)т = tr К'1 (g - g)A(g - g)T + tr K~x k=l И xexp{-i tiK-1(g-g)A(g-gf-\ trK^s]. (9.40) Отсюда следует, что случайные величины G и S независимы и об- образуют достаточную статистику, причем G распределена нормально, a S имеет распределение Уишарта wn^r+i^m{s). Уменьшение числа степеней свободы S от п — 1 до п — г по сравнению с S в п. 6.5.2 объяс- объясняется тем, что векторы \\ — Gxk (к = 1,..., п) связаны г линейными зависимостями Yk -Gxk)xkp = 0 0= к=1 вытекающими из (9.27)*). Из (9.40), так же как в примере 7.6, вы- вытекает, что оценками максимума правдоподобия параметров д и Ку служат величины G и S/n = Ку(п — г)/п. <\ 9.3.7. Выбор значений независимой переменной. Если зна- значения #1,... ,жп величины ж, при которых наблюдается величина У, можно выбирать произвольно, то вычисление оценки G можно упро- упростить, выбрав Ж1,...,жп так, чтобы матрица А была диагональной. Тогда уравнение (9.27) распадается на гит независимых уравнений, определяющих элементы матрицы G по отдельности. Чтобы найти векторы xi,..., хп с диагональной матрицей А, возь- возьмем произвольные векторы х[,..., х'п и обозначим через и'р п-мерный вектор, образованный р-ми координатами векторов х[,..., х'п: и'р = [х[р...х'пр]т (р=1,...,г). *) В частном случае разд. 6.5, когда г = 1, х\ — 1, векторы Уд. — = Yk —Y, Y = A/п) Х^Уь связаны одним соотношением ^(У& — У) = 0.
9.3. Оценивание регрессий 373 Тогда молено будет рассматривать элементы матрицы А как скаляр- скалярные произведения соответствующих векторов и'р и и'. Применив к векторам и[,... ,и'г обычный прием ортогонализации, заменим их ор- ортогональными векторами г&1,..., иг. Обозначив через Xk вектор, обра- образованный &-ми координатами векторов г&1,..., иг (к — 1,..., п), полу- получим векторы #i,..., хп с диагональной матрицей А. Само собой разу- разумеется, что исходные векторы ж^,..., х'п следует выбирать так, чтобы векторы х\,..., хп были распределены приблизительно равномерно в интересующей нас области значений х. 9.3.8. Доверительные области для регрессии. Осталось найти доверительные области для д и Ку. \> Для определения доверительной области для регрессии у = дх при данном значении х воспользуемся третьим методом п. 6.2.4. Так же, как в примерах 5.17 и 5.23, убеждаемся в том, что случайная величина F=J^_n-r-m + l = n-r-m+l ?_ Ts_1?_ n-r m mxTA~1x v ' v ' имеет F-распределение /m5n_r_m+i(/), не зависящее от неизвест- неизвестного параметра д. Поэтому величину F можно принять за функ- функцию (p(Y, S,g) п. 6.2.4. Тогда доверительная область для значения у = = дх регрессии при данном х определится неравенством где fa — верхняя 100A — а)-процентная точка F-распределения fm,n-r-m+i(f) (значение /, при котором функция распределения рав- равна а). В частном случае скалярной величины Y распределение /i,n-r(/) величины F дает для величины Т = -\-\fF плотность 2sn-r(t). Дове- Доверительная область (9.41) для у = дх в этом случае представляет собой интервал Y - ta\ ~^— хтА-1х <y<Y + у п — г где ta определяется уравнением Sn-t(ta) = Р(\Т\ < ta) = a (табл. 3). < Доверительная область для матрицы д в случае векторной величи- величины Y определяется сложно, pi удобных для практического применения результатов при этом получить не удается. Путь решения этой задачи будет показан в 9.4. > В частном случае скалярной величины Y распределение Уишарта величины S сводится к х2-распределению с п — г степеня- степенями свободы величины S/Dy. А так как независимая от S величи-
374 Гл. 9. Статистические модели, I на (G — g)A(G — g)T/Dy на основании результатов примера 5.23 имеет X2-распределение с г степенями свободы, то величина F = (G-g)A(G-g)T/r S/(n-r) имеет F-распределение /r,n_r(/). Следовательно, доверительная об- область для матрицы-строки g определяется неравенством (G - g)A(G - g)T < fa rS (9.42) где fa — верхняя 100A — а)-процентная точка F-распределения /r,n-r(/). < В случае векторной величины Y неравенство (9.42) определяет доверительные области для строк матрицы g по отдельности. 9.3.9. Оценивание линейной регрессии со сдвигом. В зада- задачах практики часто приходится находить линейную оценку регрессии со сдвигом. D> В случае линейной оценки регрессии со сдвигом первая коорди- координата вектора х равна 1 в соответствии с замечанием п. 2.2.5. Заменив в этом случае g^g и х соответственно блочными матрицами [а д], [а 7}] и [1 жт]т, напишем уравнение (9.27) в виде k=l n k=\ E k=l Это уравнение распадается на два: k=l k=l n n T^ X ^ T \ ^ T L h, —| U 7 Jb b Jb h, / i Гь >J / j n Ib / j < k=l k=l k=l Первое уравнение дает a = n 2^Ук ~ п 2^Хк = У ~ $x- Подставив это выраж:ение во второе уравнение, приведем его к виду I —пххт) = k=L
9.3. Оценивание регрессий 375 или п п 7i \ Л(ti — ^Vti — r}T — \ ^dn _ tA(ti — тЛ-^ (Q 44"l У / \^к x)\Xk X) — / ;\Ук У)\^к ^) • \xj.4lO) k=l k=l Таким образом, в этом случае можно представить оптимальную ли- линейную оценку регрессии в виде у(х) =у + д(х-х), где ^ определяется уравнением (9.43). Это дает возможность умень- уменьшить на 1 размерность матрицы коэффициентов и число столбцов матрицы в правой части по сравнению с (9.27). Доверительная область (9.41) для значения регрессии а + дх = у при данном х преобразуется в этом случае к виду (У + G(x - х) - y)TS~1{Y + G(x -x)-y)< где п Л1 = ^2(хк - х)(хк - х)т. к=1 Доверительная область (9.42) для матрицы-строки [а д] в случае скалярной величины Y имеет вид n(Y -a- gxf + (G - g)A'(G - д)т < fa При этом следует помнить, что векторы xi,... ,жп и х в этом случае имеют размерность г — 1. <\ Чтобы получить решение уравнения (9.43) в удобной для вычислений форме, обозначим через ах и Эу диагональные матрицы, элементами кото- которых служат соответственно выборочные средние квадратические отклоне- отклонения координат векторов У и х, через Rx и Ryx выборочные корреляционную матрицу вектора х и взаимную корреляционную матрицу векторов У и х *). Тогда можем написать (9.44) ik - у)(хк - х)т = (га - 1)ду%хдх, к=1 *) Выборочные статистические характеристики, очевидно, могут быть вычислены и в том случае, когда наблюдаемые величины не случайны.
376 Гл. 9. Статистические модели, I и уравнение (9.43) примет вид QCFxRx — CTyRyx- Решая это уравнение, получим д = Эу%хЩ1Э-1. (9.45) Очевидно, что строки матрицы g определяются независимо одна от дру- другой вследствие того, что уравнение (9.43) (как и (9.27)) распадается на неза- независимые уравнения такого же вида, каждое из которых определяет соответ- соответствующую строку матрицы д. Вследствие этого регрессию можно оценивать для каждой координаты вектора У отдельно. Этим обычно пользуются при вычислениях. В случае скалярной величины У (или одной координаты У интересую- интересующего нас случайного вектора) для вычисления реализации s статистики S удобно применить следующий прием. Так же как при переходе от форму- формулы (9.37) к (9.38), получаем к = 1 к = 1 Подставив сюда выражения А' и g из (9.44) и (9.45) и учитывая, что R^x = Rxy, находим s = ^2 к = 1 или, полагая fc=l и принимая во внимание, что (п — 1K^ = s', s = s'(l-Д^Д^). (9.46) Формула (9.37) дает несмещенную оценку дисперсии D^ величины У: 2У = -^. (9.47) Наконец, учитывая, что в данном случае \-+хтА'~1х -а^Л'! получаем из (9.32) несмещенную оценку ковариационной матрицы оценки параметра [ар]: 2а =3vfi +xTA'~lx), кда = -З^А'^, ^ = -2уА'~1. ' \п / Подставив сюда выражение А'~х из (9.44), получаем "^ dy —Т"Г — Т Т — П „х^..^-! (9-48) кд = -dy х п '_ ] х .
9.3. Оценивание регрессий 377 Пример 9.4 [94]. Построить оптимальную линейную регрессионную модель по результатам 30 наблюдений величины У и пятимерного векто- вектора ж, представленным в следующей таблице: к 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 29 30 30 30 35 35 43 43 44 44 44 44 44 44 45 289 391 424 313 243 365 396 356 346 156 278 349 141 245 297 Хк 216 244 246 239 275 219 267 274 255 258 249 252 236 236 256 85 92 90 91 95 95 100 79 126 95 110 88 129 97 111 14 16 18 10 30 21 39 19 56 28 42 21 56 24 45 Ук 1 2 2 0 2 2 3 2 3 0 4 1 1 1 3 к 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 45 45 45 45 45 45 45 44 49 49 49 51 51 51 51 310 151 370 379 463 316 280 395 139 245 373 224 677 424 150 Хк 262 339 357 198 206 245 225 215 220 205 215 215 210 210 210 94 96 88 147 105 132 108 101 136 113 88 118 116 140 105 20 35 15 64 31 60 36 27 59 37 25 54 33 59 30 Ук 2 3 4 4 3 4 4 1 0 4 1 3 4 4 0 В результате расчета по формулам (9.45)-(9.48) получена зависимость у(х) = 2,267 + 0,01[1,242 0,739 1,504 0,151 4,919] х х (ж - [43,13 316,17 241,80 105,67 34,13]т и оценки средних квадратических отклонений величины У и оценок коэф- коэффициентов регрессии ду = 1,05162, Sgi = 0,03635, д92 = 0,00186, а93 = 0,00635, а94 = 0,03679, а95 = 0,04141. Анализ этих результатов показывает, что средние квадратические откло- отклонения оценок первого и четвертого коэффициентов регрессии значительно превышают оценки этих коэффициентов. Это приводит к гипотезе, что за- зависимость регрессии от первой и четвертой координат вектора х несуще- несущественна. В примере 9.8 мы увидим, что эта гипотеза может быть принята. Принимая во внимание, что в данном случае п — 30, г = 6, s = 26,54161, и определив по табл. 6 верхнюю 5-процентную точку F-распределения /б,24(/), /о,95 = 2,51, находим доверительную область для матрицы [ftp], соответствующую коэффициенту доверия 0,95: B,267 - а - gxf - g)A"(g - g)T < 0,555, где x = [43,13 316,17 241,80 105,67 34,13]т, g = 0,01[l,242 0,739 1,504 0,151 4,919]т, л" _ А' Л — — — п ~ В - _ 29- ах Кхстх — — ах 30 ix crx,
378 Гл. 9. Статистические модели, I ах — диагональная матрица с элементами 6,52176,114,42990,36,43074, 17,85640,15,97571, а " 1,00000 -0,06721 -0,13689 0,49755 0,55849 " -0,06721 1,00000 -0,17857 -0,05227 -0,18381 -0,13689 -0,17857 1,00000 -0,40874 -0,26319 0,49755 -0,05227 -0,40874 1,00000 0,93552 0,55849 -0,18381 -0,26319 0,93552 1,00000 _ Доверительная область для значения линейной регрессии у при дан- данном х определяется неравенством \у - 2,267 -д(х-х)\< 0,396^1 + 1,0345(ж - x^a^R^a^ix - х) при тех же ж, д, Эх и Rx после определения по табл. 3 значения ta — to,95 = = 2,064 по данным к = п — г = 24 и а = 0,95. Пример 9.5 [94]. Полиномиальная оценка регрессии 4-й степени ска- скалярной величины У на скалярную величину х по наблюденным значениям х и У в 15 опытах, приведенным в следующей таблице: Хк Ук 1 10 2 16 3 20 4 23 5 25 6 26 7 30 8 36 9 48 10 62 11 78 12 94 13 107 14 118 15 127 имеет вид у{х) = -5,642 + 19,449ж - 5,1147ж2 + 0,56508ж3 - 0,018113ж4. 9.3.10. Оценивание регрессии одной случайной величины на другую. Перейдем теперь к случаю, когда х представляет собой значение некоторой случайной величины X. Задача нахождения мо- моментов оценок и доверительных областей для а7диу = а-\-дхв этом случае значительно труднее. При нормальном совместном распреде- распределении величин X и У сравнительно легко находятся лишь довери- доверительные интервалы для элементов матрицы д по отдельности. Для решения этой задачи достаточно рассмотреть случай скалярной ве- величины У *). \> Выделим одну первую координату вектора X, которую мы обозначим Х.\. Точка перед индексом поставлена для того, чтобы отличить первую координату вектора X от его значения в первом опыте X]. Представим вектор X в виде блочной матрицы-столбца X = [X.i Х/Т]т**). Соответственно представим матрицу-строку д в виде д = [ д\ д' ] и значения вектора X в соответствующих опытах в виде Xk — [Xki Х'кТ]Т (к = 1,... ,п). Пусть д — матрица-строка ко- коэффициентов регрессии У на X = [Х.\ XrT]T\ hi — матрица-строка *) Впрочем, все полученные выше результаты в этом случае справед- справедливы для условных характеристик при данных xi,..., хп. **) Чтобы избежать вырожденного распределения, в этом случае ре- регрессия У на X всегда представляется в виде у(х) = у + д(х — х).
9.4- Проверка гипотез о регрессии 379 коэффициентов регрессии Y на Х\ h2 — матрица-строка коэффи- коэффициентов регрессии X.i на Х\ G/H1/H2 — оптимальные оценки мат- матриц д, hi, /12. Положим Ьц - 2_Jik - У - ЯЦЛд. - А )\ , А - - 7 , Afe, fe=l A;=l п п 522 = X)[Xfcl - Х.г - ЩХ'к - X')}2, Х'л = \Y.X^ (9-49) к=1 к=1 п Si2 = Е^ - у - Щх'к - х')][хк1 - хл - Щх'к - х% к=1 Бартлетт доказал, что статистика ~-4r Sn^ - 9l) (9.50) имеет Т-распределение sn-r-i(i) [2]. Это дает возможность нахо- находить доверительные интервалы для коэффициента регрессии д\. Совершенно так же определяются доверительные интервалы для Пример 9.6. Найти регрессию случайной величины У на X в услови- условиях примера 6.8. По формуле (9.45), имея в виду, что в данном случае п = 20, г — 1, Rx = 1, RyX =1Гху, находим 'д = 0,57. Так как в данном случае su = = (п — 1)ЭХ, s<22 = (ть — l)^t/, S12 — (ть — 1)кХу = (w — l)^^^»?/} то довери- тельный интервал для д определяется неравенством \9-д\ <ta, где ta определяется уравнением Sn-2(ta) = а. Полагая а = 0,95 и учиты- учитывая, что к — п — 2 = 18, находим по табл. 3 ta = to,95 = 2,103. После этого определяем доверительный интервал 0,27 < д < 0,87. 9.4. Проверка гипотез о регрессии 9.4.1. Критерий для проверки гипотез о равенстве нулю коэффициентов регрессии. При построении регрессионных моде- моделей обычно возникает вопрос, нельзя ли пренебречь зависимостью Y от некоторых координат вектора х. Иными словами, возникает вопрос о проверке гипотезы, что некоторые элементы матрицы коэффициен- коэффициентов регрессии д равны нулю. Пусть х — вектор, образованный первыми р координатами век- вектора ж, х" — вектор, образованный остальными г — р координата-
380 Гл. 9, Статистические модели, I ми. Представив матрицу-столбец х в виде блочной матрицы х — — [х'Т х"т]г и матрицу g в соответствующем блочном виде д — — [я' 9п]> будем иметь дх = д'х1 + д"х". Если регрессия не зависит от х"', то д" = 0. Задача заключается в том, чтобы определить, со- согласуется ли гипотеза д" = 0 с полученными экспериментальными данными. Чтобы найти подходящий критерий для проверки гипотезы д" =0, рассмотрим сначала случай скалярной величины Y. Предположим, что найдены оценки регрессии при д" — 0 и без этого допущения и в обоих случаях вычислены суммы квадратов отклонений эксперимен- экспериментальных точек от регрессии, которые мы обозначим соответственно S' и S. Ясно, что если гипотеза д" = 0 верна, то 5и S', должны быть близкими, хотя S' всегда несколько больше, чем S. Если же гипоте- гипотеза д" — 0 неверна, то S' может быть значительно больше S. Таким образом, в качестве меры отклонения экспериментальных данных от гипотезы д" = 0 можно принять отношение U = S/S'. Если найден- найденное по экспериментальным данным значение U близко к 1, то мож- можно считать, что гипотеза д" = 0 не противоречит экспериментальным данным. При малом значении U гипотеза д" = 0 плохо согласуется с экспериментальными данными и должна быть отвергнута. В случае векторной величины Y отклонения экспериментальных точек от регрессии характеризуются матрицей, элементами которой служат суммы квадратов и произведений отклонений координат экс- экспериментальных точек от регрессии, т.е. матрицей S. При этом вели- величину рассеивания экспериментальных точек относительно регрессии можно характеризовать определителем матрицы S (который пропор- пропорционален объему эллипсоида рассеивания). Поэтому за критерий для проверки гипотезы д" — 0 в случае векторной величины Y обычно принимают отношение определителя матрицы 5, определяемой фор- формулой (9.33), к определителю такой же матрицы S", вычисленной при гипотезе #" = 0, U = |5|/|5'|. 9.4.2. Вспомогательное предложение. Вычислим разность S' — S. Пусть G' — оценка матрицы д' при гипотезе д" — 0, G^ и &2"> — оценки матриц д' и д"', полученные без допущения д" — 0, > Представив матрицы А и В в соответствующем блочном виде: л \Ml А\2\ id Г тэ/ туп А=[А21 Aj' B = ^B B можем переписать уравнение (9.27) для оценки G в виде двух урав- уравнений: = В1, G^A12 + GBKA22 = В". (9.51)
9.4- Проверка гипотез о регрессии 381 Уравнение (9.27) для оценки G' имеет вид д'Ап = В'. (9.52) Выразим матрицы S и S' формулой (9.34): YT S = ^{Yk - Gxk)Y? = П и — > \-l k — ^ %k) к ' Вычитая первую формулу из второй, получим k=l k=l ')BlT - Gf)BfJ . (9.53) Чтобы вычислить разность G^ — G', вычтем уравнение (9.52) из пер- первого уравнения (9.51): - С \ А А- С*{ ) А О Отсюда находим Подставив это выражение в (9.53), получаем 5' - S = G^ (В"т - А21А^В1Т). (9.54) Для дальнейшего преобразования этого выражения исключим из (9.51) матрицу &г\ С этой целью умножим первое уравнение (9.51) на А~^1 А\2 и вычтем из второго: Отсюда, имея в виду, что А2\ — А\2, АгA = Ац, А%2 = А22 вследствие симметрии матрицы Л, находим d//T л А~^ Tl'T ( А А А~^ А ЛС1^)^ Подставив это выражение в (9.54), окончательно получаем S" - S = GB)(^22 ~ А21А^ Ai2)G{2)T. < (9.55) По доказанному в п. 9.3.6 при данных значениях х\....,хп и при нормальном распределении величины Y статистики G и S независи-
382 Гл. 9. Статистические модели, I мы. Формула (9.55) показывает, что матрица S' в этом случае пред- представляет собой сумму двух независимых положительно определенных матриц S и S' - S = G^(A22 - А21А~11 A12)G^)J'. 9.4.3. Проверка гипотез в случае скалярной наблюдае- наблюдаемой величины. Рассмотрим подробнее случай скалярной величи- величины Y. В этом случае величина S/Dy имеет х2-РаспРеДеление с п — г степенями свободы и, соответственно, S'/Dy имеет х2-РаспРеДеление с п — р степенями свободы. Следовательно, независимая от S ве- величина (S1 — S)/Dy имеет х2"РаспРеДеление с п — р — (п — г) — г — р степенями свободы. Отсюда следует, что величина U — S/Sf имеет ^-распределение с параметрами (п - г)/2 и (г — р)/2, а величина (Sf-S)/(r-p) F = S/(n-r) имеет F-распределение с г — р и п — г степенями свободы /r_^n_r(/) (примеры 5.23 и 5.25). Поэтому дли проверки гипотезы д" = 0 можно пользоваться таблицами F-распределения. По этим таблицам опре- определяется верхняя 100A — а)-процентная точка fa F-распределения /г_р5П_г(/), т.е. такое значение /а, при котором P(F < fa) = а. Ес- Если полученное экспериментально значение / величины F значи- значительно меньше /а, то гипотезу д" — 0 можно считать согласую- согласующейся с экспериментальными данными. Для подкрепления решения, что д" — 0, в этом случае можно, пользуясь F-распределением или /^-распределением, вычислить вероятность того, что F примет зна- значение большее, чем экспериментально полученное значение / (соот- (соответственно вероятность того, что U примет значение меньшее, чем экспериментально полученное и — 1/[1 + f(r — р)/(п — г)]. Если эта вероятность велика, то это служит дополнительным доводом в пользу гипотезы д" — 0. При / > fa гипотезу д" = 0 следует отвергнуть. Пример 9.7. В условиях примера 9.4 проверить гипотезу д = 0. В этом случае п = 30,г = 6,р=1и верхняя 5-процентная точка F-pac- пределения /5,24 (/) есть /о,95 = 2,62. Экспериментально полученное значе- значение / определяется формулой ,_(в'-в)/5 ,^,... ^ s/24 В данном случае оно равно 5,6008, т.е. больше чем в два раза превышает критическое значение /о,95 = 2,62. Поэтому гипотеза д = 0 должна быть отвергнута. Пример 9.8. В условиях примера 9.4 проверить гипотезу, что регрес- регрессия не зависит от первой и четвертой координат вектора х. В этом случае тг = 30, г = 6, р = 4 и в результате расчета получе- получено з = 26,54161, з' = 26,67073. Следовательно, = (S'-s)/(r-P) = 0Д2912/2 = J s/(n-r) 26,54161/24
9.4- Проверка гипотез о регрессии 383 Это значение почти в 60 раз меньше критического значения fa F-pacnpe- деления /2,24(/), соответствующего а = 0,95, /о,95 = 3,40. Поэтому гипоте- гипотезу pi = д4 = 0 можно принять. Оптимальная регрессионная модель при этой гипотезе определяется формулой у(х) = 2,267 + 0,01[0,744 1,497 5,363](ж' - [316,17 241,80 34ДЗ]Т). При этом получены следующие оценки средних квадратических отклонений величины Y и оценок коэффициентов регрессии д<±, д$ и д$: Эу = 1,01282, Э92 = 0,00172, Эдз = 0,00551, Э95 = 0,01258. Для нахождения доверительной области для а,#2, #з и ^5, [дч 9з дъ\ = д', определяем верхнюю 5-процентную точку F-распределения /4,26 (/), /о,95 = 2,74. После этого доверительная область для а и д' определится неравенством B,267 - д'х' - аJ + @ - д')А"@ - д')Т < 0,375, где х' = [316,17 241,80 34,13]т, gf = 0,01[0,744 1,497 5,363], а матрица А" получается из такой же матрицы примера 9.4 вычеркиванием первой и четвертой строк и первого и четвертого столбцов. Обратим внимание на то, что в этой упрощенной модели средние квад- ратические отклонения оценок ^2,^з и 5?5 меньше, чем в полной модели примера 9.4, причем Э95 примерно в 3 раза меньше, чем в полной модели. 9.4.4. Проверка гипотез в случае векторной наблюдаемой величины. Перейдем к случаю m-мерной векторной величины Y. Рассмотрим сначала случай р = г — 1, т.е. случай проверки гипоте- гипотезы о независимости Y от одной r-й координаты вектора х. В этом случае величина U = |S|/|S'| имеет /^-распределение с параметрами (п — р — га)/2, га/2, и, следовательно, величина F= (I - U)/m U/(n — р — m) имеет F-распределение с га и п — р — m степенями свободы fm^n_p_m{f). Поэтому гипотеза д" = 0 проверяется совершенно так же, как в случае скалярной Y. В случае, когда г — m < р < г — 1, величина U может быть пред- представлена в виде произведения г — р независимых случайных вели- величин ХЬ...,ХГ_Р: г-р 1=1 где Х\ имеет /^-распределение с параметрами (п — р — га — / + 1)/2, га/2. Это доказывается путем вычисления моментов величины U со- совершенно так же, как в примере 5.47 [1]. При р ^ г — т, что, конечно, возможно только при г ^ га, величи- величина U может быть представлена в виде произведения га независимых
384 Гл. 9. Статистические модели, I случайных величин Xl, ..., Хт: т 1=1 где Х[ имеет ^-распределение с параметрами (п - г - / + 1)/2, В соответствии с этими распределениями величины U и решает- решается задача проверки гипотезы д" — 0. При этом точное определение соответствующих уровней значимости в общем случае невозможно. Методы точного решения этой задачи в частных случаях, а также приближенные методы читатель может найти в [1]. Практически задача проверки гипотезы д" — 0 в этом случае может быть решена путем оценки вероятности значения U, мень- меньшего, чем полученное экспериментально значение и, методом ста- статистического моделирования. Для этого необходимо моделировать независимые случайные величины с соответствующими /^-распределе- /^-распределениями и найти частоту события U < и. Если эта частота достаточно велика, то гипотеза д" — 0 принимается. В противном случае она отвергается. Совершенно так же проверяется гипотеза д" — дЦ при любой дан- данной матрице дЦ. Для этого достаточно заменить Y величи- величиной Y-g'Jx". Положив р = 0, можно определить доверительную область для матрицы #, соответствующую коэффициенту доверия а, неравен- неравенством U > иа, где иа определяется из уравнения P{U > иа) = а. Это неравенство определяет случайное множество значений д, которое с вероятностью а накрывает неизвестное значение матрицы д. Если х — значение некоторой случайной величины X, то в соот- соответствии со сказанным в п. 9.3.10 легко проверяются только гипоте- гипотезы о каждом элементе матрицы д по отдельности. В частности, если значение дю коэффициента регрессии д\ попадает в доверительный интервал pi ta S11S22 — Si2 Gl"ftTV n-r-1 ' соответствующий коэффициенту доверия а = Р(\Т\ < ta), то гипоте- гипотезу дх — д10 можно принять. В противном случае она отвергается. Пример 9.9. В условиях примера 9.6 значение д = 0 не принадлежит найденному доверительному интервалу @,27, 0,87). Поэтому гипотезу д = 0 следует отвергнуть. 9.4.5. Проверка гипотез о линейности регрессии. Вторая гипотеза, которую приходится проверять при построении регрессион- регрессионных моделей, — это гипотеза о линейности регрессии. Для проверки этой гипотезы необходимо при каждом значении х наблюдать слу-
9.4- Проверка гипотез о регрессии 385 чайную величину Y достаточно большое число раз. Предположим, что величина Y наблюдается п\ раз при х = ж1, п^ раз при ж = ж2 и т.д., пк раз при х = ж^, ni + ... + пдг = ть. Значения величины Y при х — хр обозначим Y% {k — 1,..., пр; р = 1,..., п). Рассмотрим сначала случай скалярной величины Y. Совершенно так же, как при проверке гипотезы о независимости Y от части коор- координат вектора ж, образуем две суммы квадратов отклонений экспери- экспериментальных точек от регрессии, одну, 5, при гипотезе о линейности регрессии: () р=1 к=1 и другую, So, без этого допущения: р=1 к=1 Р к=1 Если отношение U = So/S (которое, очевидно, не может быть боль- больше 1) близко к 1, то гипотезу о линейности регрессии можно считать не противоречащей экспериментальным данным. При малом значе- значении U эту гипотезу следует отвергнуть. В случае векторной величины Y за критерий проверки гипотезы о линейности регрессии можно принять отношение U = \So\/\S\ опре- определителя матрицы p=l k=l к определителю матрицы p=i k=i Совершенно также, как в предыдущем случае, доказывается, что при нормальном распределении величины Y разность S — So незави- независима от So, и в случае скалярной Y величины S, So и S — So име- имеют х2-РаспРеДеления соответсвенно с п — N, п — т и N — г степенями свободы. Вследствие этого случайная величина U имеет /^-распределе- /^-распределение с параметрами (N — г)/2, (п — N)/2 и, соответственно, величина A - U)/(N - т) U/(n - N) имеет F-распределение /iv-r,r-A"(/) (пример 5.25). С помощью этих распределений гипотеза о линейности регрессии проверяется совер- совершенно так же, как гипотеза д" — 0 в случае линейной регрессии [24].
386 Гл. 9. Статистические модели, I Точно так же проверка гипотезы о линейности регрессии в случае векторной величины Y сводится к применению тех же распределений, что и проверка гипотезы д" — 0 при линейной регрессии. 9.4.6. Выбор типа регрессионной модели. Рассмотрим те- теперь вопрос о выборе регрессионной модели. Решение этого вопро- вопроса сводится к определению переменных, от которых зависит инте- интересующая нас случайная величина У, и конечного числа функций этих переменных, которые следует включить в состав вектора х. При решении этой задачи приходится искать разумный компромисс меж- между двумя противоречивыми тенденциями. С одной стороны, есте- естественно стремление учесть возможно больше факторов с целью по- получить модель, наиболее полно отражающую изучаемое явление. С другой стороны, всегда желательно, чтобы модель была доста- достаточно простой. Практическое применение чрезмерно сложной моде- модели связано с необходимостью получения большого объема информа- информации (приходится измерять и определять каждый раз значения всех, переменных, включенных в модель) и выполнения сложных вычис- вычислений, требующих больших затрат машинного времени, что в ко- конечном счете приводит к высокой стоимости и трудоемкости при- применения модели. Кроме того, полнота и точность сложной модели могут оказаться иллюзорными из-за ограниченного объема доступ- доступной информации, которой приходится довольствоваться при постро- построении модели. Однако применение чрезмерно простых моделей может приводить к большим ошибкам. Поэтому необходимы модели разум- разумной степени сложности. Как всегда в подобных случаях, компро- компромиссное решение не может быть однозначным. Более того, две раз- различные модели, полученные в результате компромиссного решения задачи разными методами, трудно сравнить между собой, и невоз- невозможно отдать предпочтение какой-нибудь одной из них. Поэтому мы не будем говорить о наилучшей модели и будем называть мо- модель, полученную в результате компромиссного решения, подходя- подходящей моделью, подразумевая, что она достаточно хорошо удовлетво- удовлетворяет как требованию полноты описания явления, так и требованию простоты. Экспериментальным исследованиям, проводимым с целью постро- построения модели, должно предшествовать определение полного набора пе- переменных, которые могут быть включены в модель, и разделение их на входные переменные (которые войдут в состав вектора х и от ко- которых будут зависеть координаты вектора х) и выходные переменные (координаты случайного вектора Y). Лишь после этого могут быть проведены опыты, в результате которых будут получены значения входных и выходных переменных. Обычно модель строится для каждой из выходных переменных (координат вектора Y) по отдельности, а затем полученные скалярные модели объединяются в одну векторную.
9.5. Дисперсионный анализ 387 Для построения подходящей регрессионной модели по результатам опытов можно применить следующий прием. Сначала выявляется характер зависимости выходной перемен- переменной от каждой из входных переменных путем грубого глазомерно- глазомерного построения соответствующих графиков. В результате определяют- определяются функции входных переменных, которые целесообразно включить в состав вектора х. При этом будут приближенно учтены основные нелинейности модели относительно входных переменных. После вычисления полученных в результате опыта значений ко- координат вектора х производится вычисление выборочных коэффи- коэффициентов корреляции всех координат вектора х с выходной перемен- переменной Y. Из координат вектора х выбирается одна, для которой коэф- коэффициент корреляции с Y имеет наибольшее по модулю значение, и строится модель, включающая только одну эту координату. На этом заканчивается первый шаг. Последующие шаги производятся по такой же схеме. На каждом шаге вычисляются выборочные коэффициенты корре- корреляции всех еще не включенных в модель координат вектора х с остат- остатком, т.е. с разностью между величиной У и ее оценкой Y с помощью построенной на предыдущем шаге модели. Из этих координат векто- вектора х выбирается та, которой соответствует наибольший по модулю коэффициент корреляции. После этого строится новая регрессионная модель, включающая выбранную таким путем координату, и прове- проверяются гипотезы о возможности пренебречь зависимостью от каждой из ранее включенных в модель координат. В результате принимается окончательная регрессионная модель на этом шаге. Процесс заканчивается и принимается окончательная регрессион- регрессионная модель, когда будут перебраны все координаты вектора х или же когда включение новых координат будет приводить к увеличе- увеличению оценки дисперсии остатка, т.е. к увеличению среднего квадрата ошибки оценивания величины Y с помощью построенной модели. Из- Изложенный метод построения подходящей регрессионной модели пред- представляет собой один из вариантов шагового регрессионного анализа. Обычно он дает хорошие результаты [24]. Пример 9.10. В условиях примера 9.4 изложенный метод последова- последовательно включает вторую, пятую и третью координаты вектора х и дает в результате модель примера 9.8. Попытки включить первую и четвертую координаты приводят к увеличению оценки дисперсии величины У, т.е. к ухудшению точности модели. 9.5. Дисперсионный анализ 9.5.1. Качественные переменные — факторы. В теории, из- изложенной в разд. 9.1-9.4, координаты вектора х могут быть как непре- непрерывно изменяющимися переменными, так и переменными с конечным
388 Гл. 9. Статистические модели, I множеством возможных значений. Однако в некоторых задачах прак- практики наблюдаемая случайная величина Y зависит от факторов, кото- которые невозможно охарактеризовать набором измеряемых скалярных величин, а можно лишь описать словесно. Классическим примером такого рода является исследование зависимости урожая от характера почвы и способа ее обработки (например, вида применяемого удобре- удобрения). В данном случае наблюдаемой случайной величиной является вес урожая, который зависит от двух факторов — характера почвы и способа ее обработки. Задача исследования состоит в построении статистической модели этой зависимости. Методы решения подоб- подобных задач составляют содержание дисперсионного анализа и тео- теории планирования экспериментов, основы которых заложены Фише- Фишером [112, 116]. Основная задача дисперсионного анализа состоит в том, чтобы по результатам наблюдений некоторой случайной величины Y оце- оценить зависимость ее математического ожидания от факторов, не под- поддающихся количественному описанию, и ее дисперсию (ковариацион- (ковариационную матрицу, в случае векторной величины Y). Конкретные значения каждого фактора обычно называют уровнями этого фактора. Заме- Заметим, что в задачах дисперсионного анализа некоторые факторы мо- могут допускать и количественную характеристику, но при этом опыты производятся только при нескольких фиксированных значениях этих факторов. 9.5.2. Полный двухфакторный план экспериментов. Рас- Рассмотрим сначала случай двух факторов F\ и i^. Предположим, что наблюдение величины Y производится при \х уровнях фактора F\ и v уровнях фактора i^, причем для каждой из \iv комбинаций уровней этих факторов Y наблюдается один раз. Такая схема наблюдений на- называется полным двухфакторным планом, эксперимента. Пусть Yij — значение величины У, получаемое при г-м уровне F\ и j-м уровне i<2 (г = 1,..., ц\ j = 1,..., v). Предположим, что матема- математическое ожидание случайной величины Y^ представимо в виде MYij = Ъо + Ъи + b2j (i = l,...,//; j = l,...,z/), (9.56) где bo — общая для всех уровней обоих факторов часть математиче- математического ожидания величины У, Ьц и 62j — части, обусловленные влияни- влиянием г-го уровня фактора F\, и j-ro уровня фактора F^ соответственно. Кроме того, предположим, что ковариационная матрица Ку, вели- величины Y не зависит от уровней факторов F\ и i^. Соотношение (9.56) выражает обычное для дисперсионного анализа предположение об ад- аддитивности влияния двух факторов. Легко сообразить, что параметр bo можно выбрать произвольно, в частности, принять равным 0. Однако практически удобно принять bo равным среднему значению MY для всех возможных комбинаций
9.5. Дисперсионный анализ 389 уровней F\ и F2. При этом Ьц и b2j будут связаны соотношениями Х>н = 0, Е^=0. (9.57) Задача построения модели в данном случае сводится к оцениванию величин Ьо: Ьц (г = 1,...,//) и b2j (j = 1,... ,у) и матрицы Ку по ре- результатам наблюдений. 9.5.3. Приведение к задаче оценивания линейной регрес- регрессии. Заметим, что величины МУ^ (г — 1,...,//; j = 1,..., v) пред- представляют собой значения функции /(ж) = Ьохг + Ьцх2 + ... + Ьх^-хх^ + Ь21х^х + ... + 62,^-i^+^-i \i + у — 1 переменных, из которых х\ — \ всегда, а остальные прини- принимают одно из значений 0,1, —1. > Действительно, в силу (9.57) при xi+i = x^+j = 1, ж^ = О (/г = 2,..., 11 + г/ - 1; h / г + 1, \i + j) /(ж) = bo + bii + b2j- = МУ^- (г = //1,...,//-1; j = 1,..., v - 1), при Жг+i = 1, ж^ = О (Л = 2,...,//- 1; /г/г + 1), ж^ = -1 (/г = /л + 1,...,// + г/ - 1) /(ж) = 6о + &1г - &21 - • • • - Ьг,!/ —1 = 6о + 6г + b2i/ = MYiv (г = 1,...,//-1), при жм+<7- = 1, ^/, = 0 (Н = у + 1,...,// + г/- 1; /г/д + j), ж^+i = = -1(г = 1,...,//-1) /(ж) = &о - Ьц - ... - Ь1ф-1 + b2j = bo + blfl + 62j при ж2 = ... = /(ж) = &0 - Ьц b2v = Таким образом, задача дисперсионного анализа сводится к задаче линейного регрессионного анализа 9.3 при дх = box! + Ъцх2 + ... + Ь1,М_1ЖМ + 621^+1 + ... + b2,i/-i^+I/_i. При этом координаты вектора х (за исключением х\ = 1) могут иметь только три возможных значения 0,1 и — 1. Следовательно, форму- формулы для оценок параметров bo,bu,b2j и Ку и доверительных областей
390 Гл. 9. Статистические модели, I для них можно вывести из общих формул 9.3. В результате получим оптимальные несмещенные оценки Bq,BujB2j параметров &o5^ib^2j: ц - Bo (9.58) Несмещенная оценка ковариационной матрицы Ку, получается на основании (9.37) в результате деления статистики Yij — Bq — Вц — B2j)(Yij — Bq — Вц — г=1 j=l на число опытов \iv за вычетом размерности /х + у — 1 вектора х, т.е. на ([л — \)(у — 1): II, и 7> 1 х (Yij -Во- Ви - B2j)T. (9.59) Матрица А в данном случае имеет блочно-диагональную структуру: v v ... i \цу О О ,4=0 А1 0 L 0 0 A2j г/ г/ 2г/ 2// /л где блоки с нулями представляют собой матрицы, все элементы ко- которых равны 0, матрица А\ имеет размер (fi — 1) х (// — 1), а А2 — [у — 1) х (г/ — 1). Поэтому на основании (9.32) случайный вектор Во и случайные матрицы = [В21 ...В2„
9.5. Дисперсионный анализ 391 не коррелированы. Из (9.32), принимая во внимание, что -1 ... -1 l_ -I /i-l ... -1 аи 1 -1 -1 ... v-\_ получаем формулы для ковариационной матрицы Kq вектора Bq: Ко = Ky/fiiy, (9.60) век- векдля ковариационных и взаимных ковариационных матриц торов Вц,..., В\^-\\ 7V ( 1 ) Г^ ТУ ТУ ( 1 ) "^ V / ' 7  -1 7 / ' \ г' ~^Г у; ih 1^ (г,Н=1,...,ц-1; Нфг) (9.61) и для ковариационных и взаимных ковариационных матриц ^ • век- векторов i?21, ••• •> B<2,,v-1'- (9.62) Эти формулы распространяются по симметрии и на векторы В\^ — — —Вц — ... — Bi^-i и J?2^ = — B21 — ... — B<ilV-\ — несмещенные оценки параметров Ь\^ и Ъъу Несмещенные оценки матриц Ко,К^ и Кц' получаются заменой в (9.60)-(9.62) матрицы Ку ее несмещен- несмещенной оценкой К у из (9.59). Найдем еще оценки параметров ^ v " цЬ%, (9.63) обычно называемых ковариацилми средних за счет факторов F\ и F^ соответственно. Естественно принять за оценки К\ и К<2 соответст- соответствующие статистические средние Р i=i з=1 Однако эти оценки смещенные. Чтобы получить несмещенные оцен- оценки К\ и Ki, найдем математическое ожидание К\. Имея в виду,
392 Гл. 9. Статистические модели, I что Вц — несмещенные оценки параметров Ьц и поэтому связаны теми же соотношениями (9.57), что и Ьц, в силу (9.61) имеем 1л 1л /1 М J2 ВиЩг = М J2(Bu - Ьи)Фи - Ьи)Т + J2 ЪиЬи = ^ г=1 г=1 Поэтому Отсюда видно, что для устранения смещения оценки К\ достаточно вычесть из нее величину Kyjv. В результате, учитывая (9.59), полу- получим несмещенную оценку К\\ По симметрии получаем несмещенную оценку параметра Къ'. (9-65) В случае нормального распределения величины Y из некоррели- некоррелированности оценок Bo,Bi и В<± вытекает их независимость (п. 4.5.5). Отсюда и из доказанного в п. 9.3.6 следует, что статистики - h)r = ^(BH - Ьи)Фи ~ Ьи)т, S2 = B2- Ь2)А2ф2 - Ь2)т = ц^Фч ~ M№i - b2j)T, 7 = 1 м v ^ ^ J ^ ^ ^ S = 2_^ ^_^(Xij — Во — Вц — B2j)(Yij — Во — Вц — B2j) г=1 j=l независимы и имеют распределения Уишарта W2m(s), wiim(s)i Wvm(s), w(ii-i)(v-i)+i,m(s) соответственно. В частном случае скалярной вели- величины Y величины So/Dyj Si/Dyj S2/Dy и S/Dyj имеют х2-РаспРеде- ления с 1, /i — 1, v — 1 и (/i — \){у — 1) степенями свободы соответст- соответственно. В дополнение к общим способам построения доверительных обла- областей для bo,bi,b2 и Ку и проверки гипотез о bo,bi,b2 разд. 9.3 и 9.4 в данном случае возникают дополнительные возможности вследствие независимости So, Si и S2- В частности, в случае скалярной величи-
9.5. Дисперсионный анализ 393 ны Y для нахождения доверительных областей для bo,b\ и Ъ2 по от- отдельности и для проверки гипотез о них можно воспользоваться тем, что отношения [у - - 1M2/5 (/х - \)[у - 1M0/5, имеют F-распределения /i,(^_i)(^_i) (/), /M-i,(M-i)(^-i)(/) и /^_i5(M_ij(^_i)(/) соответственно. Это дает для матриц Ь\ и 62 до- доверительные области г=1 где (9.66) fa — верхняя 100A — а)-процентная точка F-распределения //i_ij(/i_i)^_j)(/) или fv-\.(/i_i)(I/_i)(/) соответственно. Для провер- проверки гипотезы о равенстве Ь^ и 62j данным значениям (обычно 0) до- достаточно установить, удовлетворяют эти значения соответствующему неравенству (9.66) или нет. В первом случае гипотеза принимается, а во втором отвергается. Совершенно так же дисперсионный анализ производится при лю- любом числе факторов. При этом в случае полного N -факторного плана, когда величина Y наблюдается при всех комбинациях уровней фак- факторов, кроме влияния факторов по отдельности, можно учесть еще взаимодействие их по 2, по 3, ..., по N — 1. Так, например, в случае полного трехфакторного плана можно предположить, что MYijk = bo + Ьц + b2j + bsk + bi2,ij + Ьхз^А; + b23jk- Пример 9.11 [94]. Даны результаты полного четырехфакторного экс- эксперимента при четырех уровнях первого фактора, трех — второго и третье- третьего и двух - четвертого: 3 1 1 2 г хч 1 2 3 1 2 3 1 3 4 5 2 7 9 1 2 10 12 10 14 11 10 3 9 3 5 9 5 27 4 8 9 8 13 8 8 1 24 22 23 29 28 28 2 2 8 7 9 16 18 16 3 9 16 17 11 10 11 4 3 2 3 3 6 7 1 2 2 2 2 6 8 2 8 2 8 7 6 9 3 3 9 7 6 5 5 8 4 8 2 3 3 9 15 Учитывая взаимодействия всех факторов по два и по три, строим мо- модель вида = bo + Ъц + b2j + bi27j + + &134Ш , (I)
394 Гл. 9. Статистические модели, I где bij,..., bi2ij,..., bi2Sijk, • • • удовлетворяют условиям типа (9.57): j k I / ^ b\2ij 2 b / b\2ij — 2_^ bi2ij = . . . = У ^ bs4kl = 2_^ Ь'ЛАЫ = 0, j k I Число независимых параметров Ьо,Ьц,..., б234?ы (* = 1, 2, 3, 4; j, /с = 1, 2, 3; / = 1, 2) г = 60. Оценки параметров Ьо, Ьн? • • •, ^i2zj, • • •, b\2sijk, • • • определя- определяются формулами #0=^=— 5Z ^'ы> Вц = — ^Yiju - Во, ... г,3,к,1 j,k,l . . . , B\2ij = - 2_^ Yijkl — Bq — B\i — В23 , • • • , B\2'Mjk — - 2_^ Yijkl — Во — 5ii — B2J — 5з/. — 5i2ij — Bisik — B^jk, Суммы $ = ^^ (Yijki — Bq — Bu — B2J — Bsk — ВщВ\2%з — Bisik — i j к I ^. ^. ^ — В14Ц — B2Sjk — B2AJI — = 24^(Б3* - Ы2, S4 = к I \ 2j -b2j)\ S12 = 6 X^i2y - bi2iiJ, Sis = 6 i,j S14 — 9 2^,(^1411 — Ь\4ц) , 523 = i,l S24 = 12 2_^(B24jl — b24jl) , &4 = 12 A 23 = 2 ^^ (Bi23ijk — bi23ijk) , A 24 = 3 5l34 = 2 2^ (Si34zfcZ — bi34ifci) , #234 = 4 2_^ i,k,l j,k,l в случае нормального распределения величины У с независимой от факторов (постоянном) дисперсией Dy независимы и имеют х2-распреде- ления соответственно с к = 12, /ci = 3, &2 = fe = 2, &4 = 1, fci2 = ^13 = 6, кы = 3, &23 = 4, /с24 = км = 2, &123 = 12, &124 = ^134 = 6 и к234 = 4 степе- степенями свободы.
9.5. Дисперсионный анализ 395 Результаты вычислений. 1) Оценки параметров bo, Ьц, ..., b2S4jW- bo = 9,40278, а остальные оцен- оценки даны в табл. А и табл. Б. Таблица А 1 2 3 4 Ьи 2,041 0,653 0,153 -2,847 -0,695 4,180 -3,486 bl2ij 3, к, 1 % 1 2 3 4 1 -5,749 1,806 0,806 3,139 2 10,043 -1,903 -1,403 -6,736 к 3 1 2 3 1 0,236 -0,264 0,027 2 -0,555 0,820 -0,261 3 0,320 -0,555 0,236 3 -4,291 0,096 0,597 3,597 Ьзк -0,444 -0,778 1,222 bisik 1 -0,667 0,888 -0,445 0,221 2 0,834 0,055 -1,111 0,222 b24jl I 3 1 2 3 1 -0,138 -0,263 0,403 2 0,140 0,265 -0,402 3 -0,166 -0,946 1.555 -0,445 b4i -1,403 1,402 b\4il 1 -0,374 -0,431 0,847 -0,042 2 0,376 0,431 -0,847 0,042 Ь'МЫ I к 1 2 3 1 0,861 0,111 -0,972 2 -0,861 -0,110 0,972 b\23ij к 3 г 1 2 3 4 1 1 -1,625 0,153 -0,014 1,487 2 2,208 -0,513 -1,180 -0,513 3 -0,583 0,363 1,195 -0,972 2 1 0,999 1,611 -3,223 0,611 2 -1,543 0,070 1,735 -0,264 3 0,538 -1,682 1,488 -0,347 3 1 0,623 -1,763 3,236 -2,097 2 -0,608 0,446 -0,555 0,778 3 0,041 1,312 -2,680 1,320 2) Значения сумм 5, 5i,..., ?234 при Ьц = ... = &234jh = 0 и оценка дис- дисперсии величины У: з = 151,02777, si = 229,04166, s2 = 722,69434, з3 = 55,11110, S4 = 141,68054, S12 = 1382,08325, S13 = 42,00000, зы = 18,81944, S23 = 13,13889, S24 = 6,02778, sS4 = 40,77777, s12s = 140,75000, S124 = 176,97221, S134 = 50,55554, s234 = 62,63889, Ьу = 151,02777/12 = 12,58566.
396 Гл. 9. Статистические модели, I Таблица Б b\2Aijl 1 j г 1 2 3 4 1 1 0,915 1,472 -3,306 0,916 2 -0,627 -2,236 2,486 0,375 3 -0,293 0,765 0,819 -1,292 2 1 -0,918 -1,473 3,305 -0,917 2 0,625 2,236 -2,486 -0,375 3 0,290 -0, 764 -0,820 -1,291 bl34ikl I к г 1 2 3 4 1 1 0,250 -0,860 0,028 0,584 2 -0,501 -0,610 1,445 -0,333 3 0,249 1,474 -1,472 -0,249 2 1 -0,250 0,861 -0,028 -0,583 2 0,499 0,611 -1,445 0,333 3 -0,250 -1,470 1,473 0,251 ^234;к 1 1 к 3 1 2 3 1 1 -0,320 -1,070 1,389 2 1,055 -0,320 -0,729 3 -0,737 1,388 -0,653 2 1 0,319 1,068 -1,389 2 -1,057 0,318 0,732 3 0,736 -1,389 0,653 3) Доверительные области для параметров Ьи,... ,b2Mjki, соответству- соответствующие коэффициенту доверия а = 0,95, при нормальном распределении ве- величины У (с учетом результата примера 5.24 относительно распределения отношений Ei/3)/E/12),...): 18[B,041 - @,653 - Ъ12J + @,153 - B,847 + Ъ14J] < — /а • 151,02777 = — • 3,49 • 151,02777 = 130,963, 12[@,861 - @ДП - @,972 + @,861 + &3412J + @,110 + &3422J + @,972 - &3432J] < < — fa • 151,02777 = — • 3,88 • 151,02777 = 97,670, 4) Проверка гипотез о независимости величины У от факторов. Нулевые значения параметров 63fc, bi3ifc, bun, b2sjk, b24jh
9.5. Дисперсионный анализ 397 bi24ijh °is4ikh °234jk! попадают в соответствующие доверительные области (в этом легко убедиться, подставив полученные значения сумм S3, S13, S14, S23, S24, S34, S123, S124, S134, S234 при нулевых значениях параметров b3fc, bi3ifc, Ъыи, ^23jfc, &24jZ, bz4kh bi23ijk, bi24ijh biz4tkh &234?ы в левые части неравенств, определяющих доверительные области). Поэтому можно принять гипотезу о независимости У от третьего фактора, взятого отдельно, и в комбинаци- комбинациях с любыми другими факторами и об аддитивной зависимости У от чет- четвертого фактора (т.е. об отсутствии взаимодействия четвертого фактора с первым и вторым). В результате принимаем упрощенную модель MYijM = bo + bu + b2j + b4i + bi2ij • (П) При этом новая сумма S будет представлять собой сумму S + Ss + Аз + + А4 + Аз + А4 + $34 + Агз + А24 + Аз4 и ее х2-распределение будет иметь 59 степеней свободы (число независимых параметров bo, Ьц, b2j, Ьщ, 6i2ij (г = 1, 2, 3, 4; j = 1, 2, 3; / = 1, 2) г = 13). Оценка дисперсии величины У будет равна Ъ = 75^39 = 1 а доверительные области для параметров bu,b2j,b4i и bi2ij определятся неравенствами 18[B,041 - ЪцJ + @,653 - b12f + @,153 - blsJ + B,847 + b14J] < < ~ U • 757,8239 = ~ • 3,15 • 757,8239 = 121,380, Полученные результаты иллюстрируют сказанное в п. 9.4.6 относитель- относительно того, что более сложная модель может оказаться менее точной, чем про- простая, при данном объеме информации. В данном случае простая модель (II) практически не хуже сложной модели (I) по точности, так как оценки дис- дисперсии величины У (остаточной дисперсии в случае детерминированной модели) у них практически одинаковы, а доверительные области для пара- параметров у модели (II) даже несколько меньше, чем у модели (I). 9.5.4. Неполные планы экспериментов. Полные многофак- многофакторные планы редко удается осуществить из-за практической невоз- невозможности провести наблюдения при всех возможных комбинациях уровней факторов. Поэтому для практики особенно важное значение имеют неполные планы экспериментов. При этом возникают задачи оптимального выбора комбинаций уровней факторов при данном чис- числе экспериментов с целью получения минимальных дисперсий оценок параметров. Методы решения таких задач дает теория планирования экспериментов [7-9, 38, 63, 108, 116]. Простейшим неполным трехфакторным планом эксперимента яв- является так называемый план латинского квадрата. В этом плане все три фактора имеют одно и то же число уровней ц и при каждой комби- комбинации уровней любых двух факторов наблюдение производится толь- только для одного уровня третьего фактора. При этом число наблюдений равно ц2 вместо /а3 в случае полного трехфакторного плана.
398 Гл. 9. Статистические модели, I Ясно, что для неполных планов не все взаимодействия факто- факторов могут быть оценены из-за недостаточности числа наблюдений. Так, например, в плане латинского квадрата взаимодействия факто- факторов невозможно оценить, так как для каждой комбинации уровней двух факторов имеется лишь одно наблюдение. Дисперсионный анализ для неполных планов производится совер- совершенно так же, как для полных. Только суммирование при.вычислении средних производится не по всем возможным комбинациям уровней факторов, а только по тем, для которых производятся наблюдения. Соответственно изменяются знаменатели и числа слагаемых в выра- выражениях средних. Принимая для плана латинского квадрата = b0 + Ьц + b2j + b3 3k i—\ j=l k=l получим несмещенные оценки параметров boJbu,b2jJb3k и Ку: й — — V^ v й — 1 V^ v _ й -^0 — 9 / -'-ijki D\i — / J l-ijk ^0) ^ ]_ % л ^ ^ 1 V "^ ^ ^2(j) /3(Л) 5 = 2_^iYijk — Bo — Bu — B2j — B3k)(Yijk — Bo — Bu — B2j — где / — множество комбинаций индексов i,j,k, для которых произ- производятся наблюдения, 1\{г) — множество комбинаций индексов j, &, для которых при данном г производятся наблюдения, 1\(г) — {(jjk) : (i,j,k) G /}, и точно так же определяются I2(j) = {(i,k) : (i,j,k) G /} и/зО) = {(i,j) : (ij,k) G /}. Вектор Bo и матрицы Bp = [Bpl ... Бр/Л] (р = 1,2,3) не коррелированы, и ковариационные матрицы векторов Bo/Bu,B2j и 53^ определяются формулами (9.60)-(9.62) при v — /и. Несмещенные оценки этих матриц получаются заменой в (9.60)-(9.62) матрицы Ку ее несмещенной оценкой из (9.68). Несмещенные оценки ковариаций средних за счёт каждого из трех факторов определяются формулой
9.5. Дисперсионный анализ 399 (9.69) г=1 В соответствии с блочно-диагональной структурой матрицы А разд. 9.3 в данном случае величина (G — g)A(G — g)T представляет собой сумму четырех слагаемых: Sp = fi^2(Bpi - bpi)(Bpi - bpi)T (p = 1,2,3). (9.70) В случае нормального распределения Y величины Во,В1,В2,В3 и S независимы. Вследствие этого статистики So, Si, S2, S3 и S незави- независимы и имеют распределения Уишарта W2m(s)jwnm(s) (общее распре- распределение Si, $2 и 5з) и гУ(д-1)(д-2)+1,ш(^)- Если Y — скалярная вели- величина, то So/Dy, Si/Dy, S2IDyj S3/'Dy и S/Dy имеют \2-распределения с 1,/i — 1 и (/л — 1)(/х — 2) степенями свободы. В соответствии с этим определяются доверительные области для Bq,Bi,B2 и Вз и проверя- проверяются гипотезы о них по отдельности и в любых комбинациях. Более подробное изложение методов дисперсионного анализа чи- читатель найдет в [123].
Глава 10 СТАТИСТИЧЕСКИЕ МОДЕЛИ, II 10.1. Модели, описываемые разностными уравнениями 10.1.1. Модели авторегрессии. В приложениях часто встреча- встречаются последовательности случайных величин, определяемые рекур- рекуррентным соотношением вида Уп+р = <Pn(Yn, . . . , Уп+p-l) + Фп(Уп, . . . , Yn+p-^Vn, (Ю.1) где {ipn} и {Фп} — некоторые последовательности функций, a {Vn} — последовательность независимых случайных величин с нулевыми ма- математическими ожиданиями*). Соотношение A0.1) определяет мо- модель формирования последовательности {Yn} из последовательности независимых случайных величин {Vn}. Такие модели называются мо- моделями авторегрессии вследствие того, что первое слагаемое в правой части A0.1) представляет собой условное математическое ожидание величины Yn+P относительно Уп,... ,Yn+p-i, т.е. регрессию каждого члена Yn+P последовательности {Yn} на непосредственно предшеству- предшествующие члены той же последовательности Ynj..., Yn+p-i. Число р на- называется порядком модели авторегрессии. Последовательность {Yn} может быть конечной (п = 1,..., iV), или односторонне бесконечной (п = 1,2,...) или двусторонне беско- бесконечной (п = 0, ±1, ±2,...). В первых двух случаях уравнение A0.1) определяет члены последовательности {Уп}? начиная лишь с Yp+i, a Y\,..., Yp могут быть произвольными случайными величинами (ко- (конечно, независимыми от величин Vn). Уравнение A0.1) представляет собой разностное уравнение р-то порядка, определяющее последовательность {Yn}, так как Fn+i,... ..., Yn+P можно выразить через Yn и разности AYn = Yn+i —Yn,... 10.1.2. Линейные модели. В случае, когда функции ipn линей- линейны, а фп не зависят от Уп,... ,Fn+j9_i, уравнение A0.1) определяет *) Предположение, что MVn = 0, очевидно, не ограничивает общности, так как если MVn ф 0, то величину фп(Уп, - - - ,Yn+P-i)MVn всегда можно включить в функцию (pn(Yn,..., Yn+p-i)- Тогда во втором слагаемом оста- останется центрированная случайная величина V® = Vn — MVn.
10.1. Модели, описываемые разностными уравнениями 401 линейную модель авторегрессии *): р-1 Yn+p = /__; amYn+r + Vnj Г = 0 где don, aim • • > ? ap-i,n — некоторые коэффициенты (матрицы в случае векторных величин Yn). Кроме моделей авторегрессии, часто встречаются модели вида р Yn — у^а8ПУп-8. s=0 Такие модели называются моделями скользящего среднего. Ясно, что линейные модели авторегрессии и модели скользящего среднего пред- представляют собой частные случаи комбинированной модели, определяе- определяемой уравнением р-Л р Yn+p = Yl arnYn+r + Y, bsnVn+s- (Ю.2) r=0 s=0 Обратим внимание на то, что во всех рассмотренных моделях ве- величина Yn+P не зависит от последующих величин Уд. и V/. Это соот- соответствует реальным ситуациям, когда любая система может использо- использовать лишь сигналы, поступившие на нее в прошлом, но не может реа- реагировать на сигналы, которые подействуют на нее в будущем (условие физической возможности системы). 10.1.3. Приведение линейной модели к модели авторе- авторегрессии первого порядка. Докажем, что комбинированную модель (в частности, линейную модель авторегрессии) любого порядка можно привести к линейной модели авторегрессии первого порядка. \> Введем новые случайные величины Z\n,..., Zpn, определив их соотношениями Vn (k = 1,... ,p - 1), где qinj • • - jQpn ~ пока неизвестные коэффициенты (в общем случае матрицы). Тогда будем иметь Yn+i = ^l,n+l + Ql,n+lVn+i = Z2n + 02гУп + Ql<n+lVn+i и вообще Yn+r = Zr+i,n + Qr+i,nVn + qrn+iVn+i + ... + qi,n+rVn+r A0.4) ( ll) В этом случае постоянные множители фп можно включить в Уп.
402 Гл. 10. Статистические модели, II Заменив в этой формуле при г — р — 1 пнап + 1, получим p — z + V^ v 8=1 Подставив выражения (Ю.4) и A0.5) в A0.2), будем иметь - (Ю.5) l p-l r=0 s=0 ИЛИ p—1 p—1 p—1 p = 2_^ arnZr+l,n + ^, ^n+s 2_^ arnQr-s+l,n+s + ^^ ^snK+s- A0.6) r=0 s=0 r=s s=0 Определим теперь qin,... ,qpn так, чтобы уравнение A0.6) не содер- содержало Vn+i,..., Vn+P. Сравнивая коэффициенты при Уп+р в левой и правой частях уравнения A0.6), получаем Отсюда, заменив п на п — р, находим qi,n — Ор,п—р- Сравнивая коэффициенты при Vn+S (s = 1,..., р — 1) в левой и правой частях уравнения A0.6), получим Qp—S-\-l,n-\-S = / J ttmqr — 8 + 1,П+Д ^~ ^Sn- r=s Отсюда, заменив п на n — s, находим р-1 qp—s-\-l,n ~~ Us,n—s ~г У^ CLr,n—s^r —s+1 ,n« Введем теперь вместо индексов 8 и г новые индексы к я I, по- положив р — s + 1 = fc, г — s + 1 = Z. Тогда будем иметь s = р — к + 1,
10.1. Модели, описываемые разностными уравнениями 403 г — p — к + I, и полученная формула примет вид k-i i ap-k+i,n-p+k-iQin (& = 2,..., Определив таким образом qin,... ,qpn-> найдем коэффициент при Vn в A0.6): р-1 Qp+l,n ~ Ьоп 2 г=0 В результате уравнение A0.6) примет вид р-1 г=0 A0.7) Равенства A0.3) и A0.7) представляют собой систему разностных уравнений первого порядка, определяющую величины Zin,..., Zpn. Положим теперь 0 / 0 ... 0 0 0/... 0 _Zpn_ 0 0 0 а0п а1п а2п Vn, где 0 — квадратная матрица той же размерности, что и aon,ain, ci2m • • • 5%>-i,n5 все элементы которой равны нулю, а / — единичная матрица той лее размерности. Тогда уравнения A0.3) и A0.7) запи- запишутся в виде одного уравнения Zn+1 =cnZn + Wn. Таким образом, мы получили линейную регрессионную модель пер- первого порядка. <\ 10.1.4. Нелинейные модели. Кроме линейных и нелинейных моделей авторегрессии, на практике встречаются и более общие мо- модели, описываемые нелинейными разностными уравнениями вида Yn+i=u)JYn,Vn), A0.8) где {соп} — последовательность известных функций, a довательность независимых случайных величин. — после-
после404 Гл. 10. Статистические модели, II К модели A0.8) приводится и более общая модель, описываемая уравнением Yn+p = un(Yn,..., Уп+Р_1, Vn). Для этого достаточно ввести последовательность векторов {Zn}, Zn = [Y^ ... Y^+p_l ]т, и добавить тождественные уравнения Уп+1 = = Kri+i, ..., Уп+Р_1 =Уп+р_1, которые можно записать в виде Zre+i}i = ^2П, ..., Zn+i5p_i = Znp. Эти уравнения вместе с данным уравнением можно записать в виде уравнения A0.8) для последова- последовательности составных векторов {Zn}. В частности, уравнение авторегрессии A0.1) приводится таким способом к уравнению A0.8) при un(y,v) = (рп{у) +Фп(у)ъ- Построение моделей авторегрессии, а также некоторых моделей типа A0.8) по экспериментальным данным производится методами, изложенными в разд. 9.3 и 9.4 (см. также [34]). 10.2. Оценивание величин, определяемых разностным уравнением 10.2.1. Нелинейные модели в общем случае. Большое зна- значение для практики имеет задача оценивания последовательности случайных векторов {Yn}, определяемых разностным уравнением ви- вида A0.8), по результатам измерения на каждом шаге некоторых функ- функций вектора Yn. Так как измерения всегда сопровождаются ошибками, то полу- полученная в результате измерений последовательность случайных векто- векторов {Хп} в общем случае определяется формулой Xn=co'n(Yn,Vn), A0.9) где {оо'п} — последовательность известных функций*). Таким образом, возникает задача оценивания случайных векто- векторов Yn, определяемых разностным уравнением A0.8), по результатам наблюдения случайных векторов Хп, определяемых формулой A0.9). *) В задачах практики ошибки измерений обычно не зависят от слу- случайных величин Vn в уравнении A0.8) формирования последовательно- последовательности векторов {Уп}- Вследствие этого правая часть уравнения A0.9) пред- представляет собой функцию u)'n(Yn,Un), где {Un} — последовательность неза- независимых случайных величин, независимая от {V^}. Однако un(Yn,Vn) и uj'n(Yn,Un) можно рассматривать как функции Yn и составного вектора Wn — [Un V^]T. Поэтому случай независимых ошибок измерений и слу- случайных величин в уравнении формирования векторов Yn можно рассмат- рассматривать как частный случай, когда координаты каждого случайного вектора Vn распадаются на две независимые группы, от одной из которых зависит функция ип в A0.8), а от другой - функция и'п в A0.9).
10.2. Оценивание величин, определяемых разностным, уравнением 405 \> Будем искать оптимальную оценку Уп+1 каждой величины Уп+1 в классе функций величин Х\,..., Хп, определяемых разностными уравнениями Yn+i = SnCn(Yn,Xn) +7n A0.10) при заданной последовательности функций {(п} и ПРИ всех возмож- возможных значениях 8п и 7п- При этом будем предполагать, что распреде- распределения всех случайных величин Vn известны. В качестве функций (п в A0.10) можно взять векторные функции любой размерности. Соот- Соответственно 8п будут прямоугольными матрицами, a jn — векторами той же размерности, что Yn и Yn. Поставленная задача сводится к определению оптимальных зна- значений 8п и 7п ПРИ каждом п, при которых средний квадрат ошибки M|Fn+i — Yn+i|2 минимален. На основании сказанного в п. 9.2.2 задача определения оптималь- оптимальных значений 8п и 7n B A0.10) равноценна задаче нахождения ли- линейной средней квадратической регрессии случайного вектора Уп+1 на случайный вектор Х'п = ?n(Yn,Xn). Следовательно, оптимальные значения 8п и jn определяются уравнением (9.14) и формулой (9.15), которые в данном случае имеют вид 8пКп = Ln, 7n = тп - 8п1п, A0.11) где Кп — ковариационная матрица случайного, вектора Х'п — — Сп(Уп;Хп) *), Кп = M[Cn(Yn,Xn) - M(n(Yn,Xn)](;n(Yn,Xn)T, Ln — взаимная ковариационная матрица векторов Yn+i и Х'п — — Cn{Yn, Xn), Ln = M(Yn+1 - MYn+1)Cn(Yn,Xn)T, а тп и ln — математические ожидания векторов Yn+\ и Х'п — — Сп(Уп,Хп) соответственно, тп = MYn+1, ln = MQn(Yn,Xn). Соотношение (9.10) и вытекающее из него соотношение M(Y— — Y)Y* = 0 в данном случае дают M(Yn+1 - Yn+1)UYn, Xnf = 0, M(Yn+1 - Yn+1)YTn+1 = 0. A0.12) *) Для любых случайных векторов Z и U Kzn = MZ°U0T = MZ°(UT - ml) = MZ°UT.
406 Гл. 10. Статистические модели, II Для определения Кп, Ln, mn и 1п достаточно знать совместное рас- распределение величин Yn и Уп при каждом п. Действительно, подста- подставив в формулы для Kn,Ln,mn и 1п выражения величин Yn+i и Хп из уравнений A0.8) и A0.9), получим KnjLnjmn и 1п как матема- математические ожидания некоторых функций случайных величин YnjYn и Vn. Но Yn и Уп являются определенными функциями величин V\,... ..., Уп_1 в силу уравнений A0.8)—A0.10) и, следовательно, не зависят от Vn. Поэтому для вычисления Кп, Ln, mn и 1п достаточно знать сов- совместное распределение величин Yn и Yn и распределение величины Vn, которое по предположению известно. Чтобы определить совместное распределение величин Yn и Уп, до- достаточно найти их характеристическую функцию дп(Х, /а)=М ехр{гЛтУп + i/iTYn}. Для этого подставим сюда выражения Yn и Yn из уравнений A0.8) и A0.10) с заменой п на п — 1 и после этого подставим в получен- полученное выражение величину Xn_i из уравнения A0.9), заменив в нем п на п — 1. В результате получим Правая часть этой формулы представляет собой математическое ожи- ожидание известной функции величин УП_1,УП_1 и Vn-i, причем Уп_1 и Уп_1 в силу A0.8)—A0.10) независимы от Vn-\. Поэтому для вычис- вычисления характеристической функции ^П(Л,//) величин Уп и Уп доста- достаточно знать характеристическую функцию gn-i(\t*) величин Уп_1 и Уп_1 и распределение величины Vn-i, которое по предположению известно. Таким образом, формулы A0.11) и A0.13) определяют рекуррент- рекуррентный процесс, позволяющий находить на каждом шаге дп,8п и jn по известным gn-i,dn-i и 7n-i- О Чтобы начать рекуррентный процесс, необходимо задать совмест- совместное распределение величин Y\ и \\ (начальное распределение). Если распределение величины Y\ (независимой от V\) известно и определяется характеристической функцией fei(A), можно принять за оценку Y\ математическое ож:идание т$ величины Yi, Yi = тпо = MY\, и определить совместную характеристическую функцию Y\ и Y\ формулой
10.2. Оценивание величин, определяемых разностным уравнением 407 Можно также определить оценку У\ как случайную величину с выбранным произвольно распределением и принять Pi (A,//) = fci(A)Zi(/x), где l\ (/i) — характеристическая функция величины l\. Если распределение величины У\ не известно, то его приходит- приходится задавать произвольно. После этого начальная характеристиче- характеристическая функция 0i (A,/i) определится так же, как и в предыдущем случае. Так как величины Хп не входят в уравнения A0.11) и A0.13), опре- определяющие gn,Sn и 7п5 то все последовательности величин {дп},{йп} и {7п} можно вычислить изложенным методом заранее. Тогда процесс оценивания последовательности величин {Yn} сведется к применению рекуррентной формулы A0.10). Изложенный метод оценивания случайных величин Уп, опреде- определяемых разностным уравнением A0.8), в силу свойств линейной оцен- оценки регрессии со сдвигом дает несмещенную оценку Yn каждой из ве- величин Yn при п > 1 (оценка Y\ выбирается произвольно, вследствие чего она может быть смещенной). Точность оценки Yn можно характеризовать вторым моментом ошибки или средним квадратом ошибки е„ = M{YTn - Yj)(Yn - Yn) = которые определяются характеристической функцией 0n(A,/i). Мож- Можно также находить доверительные области для Уп, поскольку 0П(А, ц) полностью определяет совместное распределение величин Yn и Yn. Изложенный метод дает условно оптимальные (оптимальные в данном классе функций) оценки величин Yn, при любых функциях (п. Однако качество получаемых оценок зависит от того, как выбраны функции (п. Естественно рассчитывать на то, что достаточно хоро- хорошие оценки можно получить, если выбрать функции ?п, так, чтобы уравнение A0.10), определяющее оценки, было близким по форме к уравнению A0.8), определяющему оцениваемые случайные величины. Других рекомендаций о выборе функций ?п, пока еще дать нельзя. Вопрос о рациональном выборе (п нуждается в дальнейших исследо- исследованиях [81, 82]. Пример 10.10. Последовательность скалярных случайных величии {Yn} и последовательность наблюдаемых случайных величин {Хп} опре- определяются уравнениями Yn+1 = (Yn + КJ, Хп = Yn + Un,
408 Гл. 10. Статистические модели, II где {Vn} и {Un} — независимые последовательности независимых случай- случайных величин с нулевыми моментами первого и третьего порядков. Найти оптимальные рекуррентные оценки величин Yn, удовлетворяющие разност- разностному уравнению первого порядка Уп+1 = бп\у1?„(Хп - Yn){Xn - ?п)г]Т + 7». Выбор в качестве 5п Сп квадратичной формы переменных Yn и Хп — Yn в данном случае естественен, так как при этом уравнение для оценок получа- получается похожим на уравнение, определяющее величины Yn, вследствие чего можно надеяться получить достаточно точные оценки величин Yn. Оптимальные коэффициенты дп и jn определяются в данном случае формулами A0.11). При этом получаем следующие формулы для элемен- элементов матриц Ln = [l[n^> 1^ 1^ ] и Кп — [к^ ] и для математических ожида- ожиданий гпп и 1п: YnYn - l[n\ k[? = MY4n - {MY2n)\ k$ - MYnMYl - MYnYnMY2n - к[^\ 7 (n) _ j(n) _ 7 (n) _ rw O) "-) _ MY2Y2 — (MY Y \2 -\- H MY2 — h^ — 9^^n^ — i(n) I i(n) _ L,(n) _ Qju(n) _ ju(n) _ 97-(n) i Off Д/fV V — ь ^ ~T~ v<2 11 12 13 22 "^ ^j-j-п ^¦L -*- n -*¦ n 5 n) - fcW - 4fc<^ - 2fe^' - 4fe('2l) - 4Й^> + + H'n - Hi + 4 2/<n) mn = МУП2 + Gn, In = [MYl MYnYn - MY\ MY% + MY\ - 2MYnYn + Hn], где Нп и Gn — дисперсии величин Un и Vn соответственно, a H'n — четвер- четвертый момент величины Un - В случае нормально распределенных величин Un Н'п — ЗНп. Для вычисления вторых и четвертых моментов величин Yn и Yn в полученных формулах достаточно знать совместное распределение вели- величин Yn и Yn. При этом моменты можно вычислять или дифференцирова- дифференцированием характеристической функции gn(A,/z) величин Yn и Yn или интегри- интегрированием, считая известной плотность
10.2. Оценивание величин, определяемых разностным уравнением 409 величин Yn иУп: оо оо y2U(y,r])dyd7], — оо —оо оо оо J mMv>' — оо —оо оо оо — оо —оо оо оо — оо —оо оо оо I — оо —оо оо оо — оо —оо оо оо — оо —оо оо оо где индексом 0 внизу отмечены значения величин в квадратных скобках при Л = /1 = 0. Уравнение A0.13) для характеристической функции дп(Х,/л) имеет в данном случае вид оо оо оо оо дп(\ф)= I J J J г](у-г] + и) — оо —оо —оо —оо х /те_ 1 B/, г])рп-1 (v)qn-i (и) du dv dy drj, где ]?n-i(v) и gn_i(u) — плотности величин Vn-i и t/n-i соответственно. Полученные формулы определяют рекуррентный процесс для последо- последовательного вычисления дп, fn,Sn и jn• Аналогично решается задача экстраполяции (прогноза) последо- последовательности {Fn}, т.е. оценивания вектора У^+р после получения на- наблюдения величины Хп (р > 1). Для экстраполяции на р — 1 шагов
410 Гл. 10. Статистические модели, II следует определить оценки Yn векторов Yn уравнением p_i, Хп) + 7n- При этом все предыдущие выкладки останутся практически неиз- неизменными. Только для нахождения Kn,Ln,mx и 1П в A0.11) необ- необходимо будет определить совместную характеристическую функцию 9п{\ I1!-, • • • •> Ир) случайных векторов Уп, Yn,..., Yn+p-i. Эта характе- характеристическая функция определяется совершенно также, как gn(\, /i) в рассмотренном случае [81, 82]. Заметим, что изложенный метод дает также возможность оцени- оценивать не все координаты векторов Уп, а только часть их. Для этого достаточно взять функции (п(у,х) (или (n(yi,... ,ур,х) в случае экс- экстраполяции) , зависящие только от соответствующей части координат вектора у {у\,..., ур в случае экстраполяции). 10.2.2. Нелинейные модели авторегрессии. Рассмотрим частный случай нелинейных уравнений авторегрессии, когда урав- уравнения A0.8) и A0.9) линейны относительно величины Vn. В этом случае un(y,v) =tpn(y) +ipn(y)v, u'n(y,v) =<p'n(y)+ipn(y)v, A0.14) где срп.фп,ср1п и ф'п — известные функции. В этом случае естествен- естественно выбрать функции (п в A0.10) так, чтобы уравнение A0.10) было линейным относительно Хп, т.е. принять A0.15) и соответственно положить 5п = [ап /Зп]. \> Уравнения A0.8) и A0.9) имеют в данном случае вид Yn+1 = tpn(Yn) + MYn)Vn, A0.16) Хп = <р'п(Уп)+ф'п(Уп)Уп, A0.17) а уравнение A0.10) можно записать в виде Yn+1 = ап?п(?п)+рпг]п(?п)Хп+1п. A0.18) Матрицы KniLn и векторы тп и 1п определяются при этом фор- формулами ^21 ^22 to
10.2. Оценивание величин, определяемых разностным уравнением 411 где Yn) - Mipn(Yn)]Mip'n(Yn)TVn(Yn) 4л = 4? = M[UYn) ~ MUYn)]<p'n(Yn)TVr,(Yn)T, f = M[Vn(Yn)<p'n(Yn) ~ MrM(fn)^(Fn)]^(rn)TrM(rn)T + + MVn(Yn)iP'n(Yn)GniP'n(Yn)TVn(Yn)T, mn - Mipn(Yn), [) Yn), 4П) = MVn(Yn)<p'n(Yn). Подставив выражения матриц Кп и Ln и Sn — [ ап /Зп ] в первое урав- уравнение A0.11), получаем уравнения для оптимальных значений ап и /Зп в A0.18): Подставив выражение вектора 1п и 8п — [ап /Зп] во вторую форму- формулу A0.11), получаем формулу для оптимального значения jn: 7п = тп - а„1{п) - /?„4П) ¦ A0-20) Положив в A0.12) (n(Yn,Xn)T = [?п(?п)Т X^rjn(Yn)T], получим со- отношения M(Yn+1 - Yn+1)UYn)T = 0, M(Yn+1 - Yn+1)X^rln(Ynf = 0. Второе соотношение A0.12) при этом не изменится. Подставив выражения A0.14) и A0.15) функций ojnjojn и (п и Sn-i = [an_i Pn-i] B уравнение A0.13), получим Но, как уже отмечалось, величины Yn-\ и Yn_i независимы от Vn-\. Следовательно, условное математическое ожидание
412 Гл. 10. Статистические модели, II совпадает с безусловным математическим ожиданием, представляю- представляющим собой значение характеристической функции /in_i(A/) случайной ВеЛИЧИНЫ Vn-! При А' = ^n-l(Xn-l)TA + ^n-l(^n-l)T^n-l(^n-l)T^- Учитывая это, можем написать уравнение для характеристической функции #n(A,/i) в виде + ^n-ir/n_1(f;_1K_1(Fn_1)+7n-i]}. (Ю.22) Уравнения A0.19), A0.20) и A0.22) определяют рекуррентный процесс для последовательного вычисления дп,&п,/3п,1п п0 извест- известным <7n_i,an_i,/?n_i,7n-i- Для начала процесса необходимо задать характеристическую функцию д\(А,ц) величин Y\ жУ\. Это делается совершенно так же, как в общем случае п. 9.2.1. <\ В случае экстраполяции последовательности {Yn} на р — 1 шагов уравнение A0.18) заменяется уравнением Yn+P = an€n(Yn,..., yn+p_i) + PnVniYn,- • •, Yn+p-i)Xn + 7n- Для определения коэффициентов х^ в уравнениях A0.19) и вели- величин ran, l[n и /2П в формуле A0.20) необходимо в общем случае знать совместную характеристическую функцию #i(A,/ii,...,/ip) величин Fn, Fn,..., Yn+p-i. Формула для этой характеристической функции выводится совершенно так же, как A0.22) [81, 82]. Относительно выбора функций ^п и г\п можно дословно повто- повторить все сказанное в п. 2.1 о выборе функции ?п. Однако в некоторых случаях целесообразно потребовать, чтобы уравнение A0.18), опреде- определяющее оценки, было линейным (линейное оценивание). В таких слу- случаях следует принять ?п(у) = у (?п(У1, - • • ,УР) = [уТ • • • Ур] в случае экстраполяции), f]n(y) — I. 10.2.3. Линейные модели авторегрессии. Рассмотрим как частный случай задачу линейного оценивания случайных величин, определяемых линейной моделью авторегрессии Yn+1 = anYn + an0 + фпУп A0.23) по результатам наблюдения последовательности случайных величин Хп = ЬпУп + bn0 + i/>'nVn. A0.24) В этом случае оценки Yn векторов Yn определяются уравнением Yn+1 = anYn + РпХп + 7п-
10.2. Оценивание величин, определяемых разностным уравнением 413 \> Для нахождения оптимальных значении ап, (Зп и 7п надо поло- положить во всех формулах п. 10.2.2 (рп(у) = апу + «о, Рп(у) — ЪпУ + &о„ ^п(у) = у, г]п(у) = I, з, фп и ф'п считать постоянными. Тогда получим 4?} = anM(Yn - MYn)YTn = апКУпУ~п, ^ = anM(Yn - MYn){YlbTn + ЪТп0) + фпСпф'п = *$ = M(Yn - MYn)Yl = К$п, >$ = 4? = M(Yn - MYn)(YjbZ + Ътп0) = bnM(Yn - ^T О т mn = anMYn + an0, l[n) = MYn, 4n) = bnMYn + bn0, где KynJKfiri1Kyrign и КупУп — ковариационные и взаимные ковари- ковариационные матрицы векторов Yn к Yn. Соотношения A0.21) в данном случае имеют вид M(Yn+1 - Yn+l)Yl = 0, М(У„+1 - Yn+i )Xl = 0. A0.25) Второе равенство A0.12) после замены п + 1 на п дает M(Yn - Yn)Yl = М(Г° - Y*)YTn = Щп - KVnTjn = 0. Следовательно, КУпуп — К^п и в силу симметрии матрицы К$п Кдп Уп = КJ - = Ку-п. На основании этих равенств и полученных вы- выражений для коэффициентов кц уравнения A0.19) для оптимальных значений ап и f3n принимают вид апКуп + РпЪпКуп = апКуп, апЩУпЛ-^п(ЬпКуУпЛ-фпСпф1пТ)^апКуУпЛ-фпСпф1пт. Эти уравнения легко решаются. Вычитая первое уравнение A0.26), умноженное справа на матрицу Ь^, из второго, получаем /Зп[Ьп(КУп - Щп)Ьтп + фпСпф'пт] = ап(КУп - Щп)Ътп + 'фпСпф'пт. Заметим теперь, что в силу равенств КУпдп — КдпУп = К$п, MYn — = MYn величина КУп — Кдп представляет собой второй момент ошиб- ошибки Rn. Действительно, Rn = M(Yn - Yn)(Yn - Yn)T = M(Y°n - Y°)(Yn - Yn)r =
414 Гл. 10. Статистические модели, II Следовательно, уравнение для оптимального значения /?п имеет вид Pn{bnRnbl + фпСпф'пТ) = anRnbTn + ^nGn^nT. Решая это уравнение относительно /Зп, находим Рп = (anRnbl + 4>nGn^nT)(bnRnbTn + i^Gn^Jy1. A0.27) Заметим, что матрица bnRnb^ в задачах практики всегда обрати- обратима, так как ее необратимость равноценна существованию линейной функции вектора ошибки Yn — Yn с нулевой дисперсией. Это означа- означало бы, что соответствующая линейная функция вектора Уп могла, бы быть оценена абсолютно точно, что невозможно. Тем более обратима матрица bnRnb^ + ^nGnftT. Поэтому формула A0.27) всегда опреде- определяет оптимальное значение /Зп. После определения f3n первое уравнение A0.26) дает ап = ап — — /ЗпЬп при условии, что матрица К§п обратима. Это условие тоже всегда выполняется в задачах практики, так как в случае его невы- невыполнения существовала бы линейная функция вектора Yn, оценка ко- которой имела бы нулевую дисперсию, что невозможно. Подставив полученные выражения an, mn, 4 и 4 (Ю.20) и учи- учитывая, что MYn = MYn находим оптимальное значение 7п: 7п = anMYn + ап0 - anMYn - f3n(bnMYn + bn0) = ап0 - bnbn0. Наконец, подставив найденные выражения ап и 7n B уравнение, определяющее оценки MYnj приведем его к виду Yn+i = ап?п + ап0 + /Зп(Хп - Ьп?п - Ьп0). A0.28) Осталось написать уравнение A0.22) для характеристической функции дп(Х,/л). В данном случае оно имеет вид T( х Mexp{iAT(an_iFn_i + an_i5o) + T(an-1Yn-.1 + Pn-ibn-iYn-i + an-i,o)} = n-iA + Фп-1ТРп-1^) ехр{г(Лт + Алт)ап_1,0 x Mexp{i(Aran_i или TpT_1ii) x X ехр{г(ЛТ + /XT)an-l,o} ^n-l
10.2. Оценивание величин, определяемых разностным уравнением 415 Из этой формулы легко выводится рекуррентная формула для харак- характеристической функции д'п(Х) ошибки Yn — Yn. Заметим, что #пО) = м exp{i/iT(Tn - Yn)} = gn(-fjL, //), положим в формуле для дп(Х, /л) А = — \i. Тогда, учитывая, что -al_^ + bZ_1PZ_1iJL=-a%_1iJ, и что gn-i(- «n-i^^n-iA4) = = 9п-1(°%-1»I получим g'n(fi) = К^^'^^-ф Эта формула полностью определяет распределение ошибки Yn — Yn на каждом шаге и, следовательно, дает возможность находить дове- доверительные области для Yn. Из формулы для характеристической функции gfn([i) ошибки легко выводится разностное уравнение для второго момента ошиб- ошибки Rn. Для этого достаточно дважды продифференцировать формулу для g'n(fi) no \i и положить после этого \± = 0. Предоставив выполнить это читателю, мы дадим здесь другой вывод уравнения для Rn. Вычитая уравнение A0.23) из уравнения A0.28) для оценки и за- заменив Хп его выражением A0.24), получаем для ошибки Yn = Yn — Yn уравнение Yn+i = К " Pnbn)Yn + (рпФ'п ~ Фп)Уп. A0.29) Отсюда, принимая во внимание, что Yn и Yn, а следовательно, и Тп, не зависят от V7l7 и применяя формулу C.50) для ковариационной матрицы линейной функции случайного вектора, получаем Раскрыв в каждом слагаемом вторые скобки и пользуясь форму- формулой A0.27), определяющей /?п, можно привести полученное уравнение к виду Rn+i = (ап ~ Pnbn)Rnal + (фп - Mn)GnVn' A0-30) Это уравнение вместе с формулой A0.27) для /?п, определяет рекур- рекуррентный процесс для последовательного вычисления матриц Rn и /Зп. Характеристические функции ошибок g'n{fj) при этом можно не вы- вычислять. Они могут понадобиться лишь для определения доверитель- доверительных областей для Yn. <\ Определяемая уравнением A0.28) оценка Yn+\ при каждом п оп- оптимальна в классе линейных функций (со сдвигом) величин Yn и Хп. Докажем, что она оптимальна и в более широком классе линейных функций величин Y\, Х\,..., Хп. \> Согласно результатам п. 9.2.5 для этого достаточно показать, что для Yn+i выполняются соотношения (9.11), которые в данном слу-
416 Гл. 10. Статистические модели, II чае имеют вид М(Уп+1 - Yn+1)Yj = 0, M(Yn+1 - Yn+i)Xj = 0, (р = 1,... ,п). Подставив в эти формулы выражение Yn+i — Yn+i = Yn+i из урав- уравнения для ошибки A0.29) и приняв во внимание независимость Vn от Yy, Хь ..., Хп получаем — Y[ = (an ~ Bnbn) M(Yn - Yn)Y{, M(Yn+1 - Yn+1)Xj = (an - I3nbn) M{Yn - Yn)XTp (p = 1,... ,n — 1). Из этих равенств и второго соотношения A0.25) следует, что оцен- оценка Yn+\ оптимальна в классе линейных функций величин Yi,Xi,... ..., Хп, если оценка Yn оптимальна в классе линейных функций ве- величин Y\, X],..., Xn_i. А так как оценка Y2 = a>\Y\ + аю + (Зп\Х\ — b\Y\ — bio) оптимальна в классе линейных функций величин Y\, Х\,..., то и при любом п оценка Yn+i оптимальна в классе линейных функций вели- величин Yi,Xb.. .,ХП. Более того, если все величины Vn и величины Y\ и Y\ распределе- распределены нормально, то и величины Y^+iYi, Xi,..., Xn+i при любом п име- имеют совместное нормальное распределение. В этом случае оценка Yn+i совпадает с регрессией Fn+i на Yi, Х\,..., Xn+i и, следовательно, оп- оптимальна в классе всех функций величин Y\, Х\,..., Xn+i (абсолютно оптимальна). <\ 10.2.4. Фильтры Калмана. Изложенный метод линейного оценивания случайных величин, определяемых линейной моделью ав- авторегрессии A0.23), разработан Калманом [33]. Поэтому автоматиче- автоматические системы, реализующие вычисление оценок, определяемых урав- уравнением A0.28), обычно называются фильтрами Калмана. Построение фильтра Калмана по данной модели формирова- формирования последовательности {Хп} можно представить наглядной схемой, если воспользоваться обычным в Vn A Yn+i теории управления способом изобра- изображения систем и их соединений, ука- указывая линиями со стрелками направ- направление передачи сигналов. На рис. 10.1 ис' прямоугольником с буквами МА по- показана модель авторегрессии A0.23) со стрелками, указывающими входной сигнал Vn и выходной сигнал Yn+i. Из сравнения A0.28) с A0.23) видно, что та же модель A0.23) будет давать на выхо-
10.2. Оценивание величин, определяемых разностным уравнением 417 де последовательность оценок {Yn}, если вместо {Vn} подать на ее вход последовательность {/Зп(Хп - bnYn - bn0)}. Чтобы осуще- осуществить это, следует выходной сигнал Yn+i подвести к входу по це- цепи обратной связи, содержащей устройство, осуществляющее умно- умножение Yn на Ьп*). Перед входом в модель A0.23) величина bnYn Йблжна вычитаться из соответствующей величины Хп — 6п0 и раз- разность должна умножаться на соответствующий коэффициент f3n. Xn—bnYn—bno /3n(Xn—bnYn—bno) MA Yn Рис. 10.2 Результат этого построения показан на рис. 10.2. Кружком, разделен- разделенным на квадранты, показан сумматор. Зачерненный нижний квадрант перед суммированием изменяет знак поступающего в него сигнала (отрицательная обратная связь). Прямоугольниками внизу и после сумматора показаны устройства, выполняющие умножение на матри- матрицы Ьп и /?п соответственно (усилители с коэффициентами усиления Ьп и /?п в общем случае матричными). Входным сигналом построенной таким путем системы служит последовательность случайных вели- величин {Хп - Ьп0}. Таким образом, фильтр Калмана получается из исходной модели авторегрессии A0.23) замыканием ее отрицательной обратной связью, содержащей усилитель с коэффициентом усиления Ьп, установкой по- после сумматора другого усилителя с коэффициентом усиления /?п и подачей на вход полученной таким путем системы последовательно- последовательности случайных величин {Хп — Ьпо} (рис. 10.2). Коэффициенты усиле- усиления Ьп и /?п, очевидно, в общем случае будут переменными, т.е. будут изменяться на каждом шаге работы модели. Пример 10.2. Последовательность величин {Yn} определяется моде- моделью авторегрессии Yn+2 + ainYn + 1 + CL2nYn = binYn + 1 + bonYn. (I) Построить фильтр Калмана для оценок величин Yn по результатам их на- наблюдения с ошибками, образующими последовательность независимых слу- случайных величин {Un}- *) Предполагается, что время прохождения сигнала по цепи обратной связи равно длительности одного шага (такта), так что к моменту появле- появления на выходе величины Yn+\ по цепи обратной связи идет предыдущая величина Yn.
418 Гл. 10. Статистические модели, II В данном случае Хп —Yn-\-Un- Для решения задачи необходимо сна- сначала привести модель, формирующую последовательность {Уп}, к модели авторегрессии первого порядка. По формулам п. 10.1.3 находим коэффици- коэффициенты qin,q2n и qsn- Я\п — ^2,71-2 = 0, q2n = bl,n-l + 0>l,n-lQln = &l,ri-l, . . qsn = bon + aonqin + ainq2n — bon + ai^bi^-i. После этого находим Вводя векторы 7 — \ ^n W — \ ^1'7l~1 т/ L^n + 1 — Ol,n-1 Vn\ [OO + 011 J из (II)-(IV) получим разностное уравнение первого порядка n + Wn. (V) Уравнение, определяющее наблюдаемые величины, принимает вид Xn = [I0]Zn + Un. (VI) Ковариационная матрица Кп вектора Wn выражается через ковариацион- ковариационную матрицу Нп вектора Vn формулой C.50): Так как Wn = [I 0][W'nT 1%]T, Un = [0 I][W% 1%]T, то в фп = [I 0], ф'п = [0 /]. Ковариационная матрица вектора [Wn Un ]T- играющая роль матрицы Gn в общей теории, равна I]- (viii) Уравнение A0.28) в данном случае имеет вид я! 1 -0n[IO])zn+0nXn. (IX) n (лIn J / В (IX) на основании A0.27) а Rn определяется уравнением A0.30) -Pni° )-^п Г О1 +^гг. (XI) Обратим внимание на то, что в данном случае фильтр Калмана дает не только оценки интересующих нас случайных величин Yn, но еще и оценки величин Z2n = Yn+i —hi,n-iVn. Это будет всегда, когда исходная модель авторегрессии выше первого порядка. Однако в общем случае эти оценки
10.2. Оценивание величин, определяемых разностным уравнением 419 бесполезны из-за наличия в них величин Vn • Поэтому их обычно не исполь- используют (не выводят на выходные устройства ЭВМ). И лишь в частных случа- случаях эти дополнительные оценки могут быть полезными. Так, например, если bin = 0 при всех п, то Z<in = Уп+1 и, следовательно, фильтр Калмана дает, кроме оценки Yn, и оптимальный прогноз на шаг вперед величины Yn+i (заметим, что при этом Z-2n ф Yn+i). 10.2.5. Обновляющие последовательности. Обратим внима- внимание на то, что модель A0.28) фактически использует для формиро- формирования оценок Yn не саму последовательность наблюдаемых величин {Хп}, а последовательность некоррелированных случайных величин {Хп — bnYn — bno} *). Эта последовательность получается в результа- результате вычитания из каждой величины Хп, ее оптимальной несмещенной линейной оценки Хп, полученной по результатам наблюдения предше- предшествующих величин Xi,... ,Хп-\. При этом от каждой величины Хп остается только та часть, которая не может быть линейно выраже- выражена через Xi,... ,Xn-i и поэтому содержит новую информацию по сравнению с полученной ранее в результате наблюдения Xl, ..., Хп-\. Последовательность некоррелированных случайных величин, по- полученная из данной последовательности путем вычитания из каждой величины ее оптимальной линейной оценки по результатам наблюде- наблюдения предшествующих величин, называется обновляющей последова- последовательностью. Пользуясь этим понятием, можно сформулировать по- полученный результат совсем просто: последовательность оптимальных оценок {Yn} определяется той же линейной регрессионной моделью, что и последовательность {Yn} с заменой последовательности {Vn} обновляющей последовательностью {Хп — bnYn — bno}, каждый член которой должен быть умножен на соответствующий коэффициент /?п. 10.2.6. Приближенное решение нелинейных задач оцени- оценивания. Метод п. 10.2.1 и п. 10.2.2 дает точное решение задачи на- нахождения условно оптимальных оценок Yn векторов Yn, минимизи- минимизирующих средний квадрат ошибки M\Yn — Yn\2 при условии, что они удовлетворяют разностному уравнению данного вида. Однако полу- полученное точное решение задач нелинейного оценивания требует весьма громоздких вычислений, связанных с определением на каждом ша- шаге характеристической функции дп. Поэтому большое практическое значение имеет разработка приближенных методов вычисления ха- *) Из A0.24) следует, что ТУ„ = Хп - bnYn- bn0 = bn(Yn - Yn) + <ф'пУп. Отсюда, принимая во внимание, что Yn — Yn и Vn не коррелированы с Yi, Xi,..., Xn-i, заключаем, что каждая величина Wn не коррелирова- на с Y\, Xi,..., Xn-i, а следовательно, исУр при р ^ п, поскольку Yp явля- является линейной функцией Y\, Х\,..., Хр-\. Следовательно, каждая величина Wn не коррелирована с Wp при р < п.
420 Гл. 10. Статистические модели, II рактеристических функций gn(A,/i) и соответствующих плотностей оо оо fn(y,V) = ,27ГJт У У ехр{-гЛТ2/ - ifiTy}gn{X, fi) dXdfi (га — размерность векторов Fn и Fn). Для приближенного определения характеристических функций дп и соответствующих плотностей /„ можно предложить следующий прием: заменить неизвестную функцию gn(A,/i) некоторой вполне определенной функцией g(A,/i,crn), зависящей от конечного числа неизвестных параметров, образующих вектор ап, и вывести из уравне- уравнения A0.13) соответствующие приближенные рекуррентные формулы (разностные уравнения), определяющие последовательность значений неизвестных параметров {(Тп}. Заменив дп(Х,/л) функцией д(Х,/л,ап) и плотность /п(у,у) соот- соответствующей плотностью f(y,y,(Tn), заменим формулу A0.13) при- приближенной формулой оо оо оо ,/i,an)= / / / — оо —оо —оо + inT[8n-iCn-i (у, u'n-i {У, v)) + 7n-i]}Pn-i(v)f(y,y, стп) dv dy dy. Отсюда дифференцированием по А и \i и приравниванием А и \i нулю можно получить приближенные формулы для моментов случайного вектора [Y T a где индексом 0 внизу отмечено значение величины в квадратных скоб- скобках при А = \i = 0. Учитывая, что эти моменты зависят от ап, напи- напишем полученные приближенные формулы для моментов в виде оо оо оо — оо —оо —оо A0.31) Взяв, столько таких уравнений, сколько координат имеют векторы оп и crn_i, получим систему разностных уравнений для приближенного определения последовательности векторов {ап}.
10.2. Оценивание величин, определяемых разностным уравнением 421 В частном случае,когда ап представляет собой совокупность мо- моментов вектора [Y^ Y^]T до порядка г включительно, оп — а^п\ уравнения A0.31) дают рекуррентные формулы для приближенного вычисления моментов: оо оо оо kt..,km,h,...,im ~ J ] ] — оо —оо —оо х ex{i (&i,..., &m, /b...,/m = 0, l,...,r; fei + ... + fem + /i + ... + /m ^ r). Пример 10.3. Заменив в уравнении для gn(X,/л) примера 10.1 плот- плотность fn-i(y,Tj) нормальной плотностью, определяемой первыми и вторы- (п-1) (п-1) (п-1) (п-1) (п-1) ми моментами а10 , a^i •> а2о ? ап ? а02 ? получим изложенным методом пять рекуррентных формул, определяющих приближенно момен- (п) (те) (л) (те) (п) (п-1) (те—1) (п—1) (п—1) ты а\0\ а}>1, «го , аи » а02 > п0 известным а^0 % а01 ;, а^0 ;, а^ ;, «02 • Эти формулы можно вывести значительно проще, взяв все первые и вторые производные по Л и ц выражения для gn(X, /i), положив после этого Л = /л = 0 и выразив в полученных формулах все моменты выше второго порядка через первые и вторые моменты по формулам для нормального распределения (п. 4.5.9). Все моменты в формулах для оптимальных зна- значений ёп и 7п выразятся при этом через а]^ , а^, с4о , аи ? ао2 > так чт0 необходимость определять эти моменты по формулам примера 10.1 отпа- отпадает. Момент второго порядка ошибки Yn — Yn в этом случае определяется формулой D _ ЛГЬ) _ (П) ТЬп — «20 а11 ' 10.2.7. Оценивание неизвестных параметров в разност- разностных уравнениях. Метод п. 10.2.1 и п. 10.2.2 дает возможность оце- оценивать случайные величины, определяемые разностным уравнением, и в том случае, когда функции шп н оо'п в A0.8) и A0.9) зависят от ко- конечного числа неизвестных параметров (конечномерного векторного параметра). При этом оказывается возможным попутно оценивать и неизвестные параметры. Предположим, что функции иоп и ио'п в A0.8) и A0.9) (функ- (функции ФтФтф'п и Фп в A0.16) и A0.17) в частном случае п. 10.2.2) зависят от неизвестного конечномерного векторного параметра в. В этом случае уравнение A0.8) и формулу A0.9) можно написать в виде Yn+i = соп(Yn, #, Vn), Хп — сип(Yn,e,Vn). Поставим задачу найти оптимальные оценки Уп и 0П вектора Yn и параметра в на каждом шаге, определяемые разностными уравнения-
422 Гл. 10. Статистические модели, II ми вида A0.10) по результатам наблюдения последовательности век- векторов {Хп}, т.е. задачу одновременного оценивания векторов Yn и неизвестного параметра в. Подобные задачи обычно решаются сведением их к задаче п. 10.2.1 с полностью известными функциями ьоп и ьо'п. Для этого заменя- заменяют неизвестный параметр в последовательностью случайных векто- векторов {0П}, ©п = 0 (распределение каждого из этих векторов сосре- сосредоточено в одной точке в). Очевидно, что введенная таким путем последовательность векторов {Эп} удовлетворяет разностному урав- уравнению Эп+1 = Эп. В результате уравнение формирования последова- последовательности векторов {Yn} заменится системой разностных уравнений Yn+1 - ujn(Yn,@n,Vn), 0n+i = Эп, а формула, определяющая последовательность наблюдаемых вели- величин {Хп}, заменится формулой Хп = Lun(Yn, Эп, Vn). Полученные уравнения формирования последовательностей век- векторов {Yn} и {Эп} можно записать в виде одного уравнения ти- типа A0.8) для последовательности составных векторов {Zn}, Zn — = [Y^ в^]т, с полностью известными функциями с<;п, а формула для Хп представляет собой формулу A0.9) с заменой вектора Yn состав- составным вектором Zn — [Yj в^]г с полностью известной функцией и'п. Таким образом, задача одновременного оценивания величин, опре- определяемых разностным уравнением, и неизвестных параметров в этом уравнении сводится к задаче, решенной в п. 10.2.1, путем введения составных векторов, каждый из которых включает все координаты соответствующего вектора Yn, определяемого разностным уравнени- уравнением, и все неизвестные параметры в этом уравнении. Естественно, разностное уравнение для составных векторов оце- оценок при этом будет иметь вид [YTn+l в%+1 }Т = SnUYj, в„, Хп) + 7„. Аналогично запишется уравнение для оценок в частном случае п. 10.2.2: [Yl+l ©n+l ]Г = ЫпШп, ©n) + PnVniYj, Qn)Xn + 7п. Если требуется оценивать не все координаты векторов Уп, а толь- только часть их, то в уравнении для оценок следует взять функции ?п (?п и г}п в частном случае п. 10.2.2), зависящие только от соответствую- соответствующей части координат вектора Yn (очевидно, что при этом необходи- необходимо оценивать все неизвестные параметры). В частности, при жела- желании оценивать только неизвестные параметры в разностном уравне- уравнении функции (п (?п и г]п в частном случае п. 10.2.2) следует взять не зависящими от Yn.
10.2. Оценивание величин, определяемых разностным уравнением 423 Пример 10.4. Последовательность скалярных случайных величин {Yn} определяется уравнением Yn+i = 0Yn + Vn-> где в — неизвестный параметр, {Vn} — последовательность независимых случайных величин. Найти оптимальные линейные оценки вп, Yn парамет- параметра в и величин Yn, определяемые уравнением по результатам наблюдения величин Хп = Yn + Un, где {Un} — последова- последовательность независимых случайных величин, независимая от {Уп}- Оптимальные значения ап,/Зп и jn в этом случае определяются систе- системой линейных алгебраических уравнений A0.19) при „(n) = \MYnQnYn-MYnQnMYn MYnenen - MYnen Мвп' ^01 [ MQnYn - Мвп MYn Мвпвп - Мвп Мвп Y2en - MYnen MYn MYnQn - MYn M0n]T, MY2 - (MYnJ М?пвп - MYn Mr Ynen - MYn Мвп М(впJ - (Л ^12 = >4i)Г = [MYnYn - MYn MYn MYnen - MYn Мвп]Т', >$ = MY2 - (MYnJ + Gn, где Gn — дисперсия величины Un- Оптимальное значение jn определяется формулой A0.20): 7n = [MYnen Мвп ]Т - an[MYn Мвп Г - PnMYn. Уравнение A0.22) для характеристической функции величин Yn,en, Yn, вп имеет вид оо оо оо оо 0 + i\20 + ЩТ (Oin-l[y' в']Т + + /Зп-1У + 7n-l)} fn-l(y, 0, у', в') dy d0 dy d9\ где А = [Ai Аг]т, \i = [/ii /^2]T, hn-i(X) и ln-i(X') — характеристические функции величин Vn-i и Un-i соответственно, a /n-i(y, 0, у', в') — плот- плотность случайного вектора [Yn-iBn-i Yn-ien-i]T'• — оо —оо —оо —оо оо оо оо оо / / 1 С С С С и,в,у, в') = ——г / / / / '>>*>> ) 1б7Г4 J J J J x g?i(Ai, Хъфхфъ) Ai — 00 —00 —00 —00 Моменты величин Уте, Bn, Yn, Qn, входящие в полученные формулы для >г™' и 7?г, можно вычислить, как и в примере 10.1, или дифференциро- дифференцированием характеристической функции дп, или интегрированием, определив предварительно плотность /и(у, 0, у', ^7).
424 Гл. 10. Статистические модели, II Для приближенного решения задачи методом п. 10.2.6 можно продиф- продифференцировать уравнение для gn(Ai, A2,/ii,//2) no Ai, A2,//i,/i2 и по всем парам этих переменных, положить после этого Ai = Л2 = /ii = fi2 — 0 и за- заменить все моменты выше второго порядка их выражениями через моменты первого и второго порядков по формулам п. 4.5.9 для нормального распре- распределения. Тогда получим рекуррентные формулы для определения момен- моментов первого и второго порядков вектора [Уте0те YnSn ]T. Через эти моменты выразятся и все моменты в формулах для и™ и jn, а также матрица Rn вторых моментов ошибки Yn — Yn. Пример 10.5. В условиях примера 10.4 найти линейную оценку одно- одного параметра #, определяемую уравнением Оп+1 = ап0п + /ЗпХп + 7п. В этом случае 4i} = [MYnQnYn - MYnQn Мвп Мвпёп - Мвп Мвп ]Т, „$ = ус^т = MYnSn - MYn Мвп, ^i} = Мёп ~ 2 а >^02 и ^22 имеют те же значения, что и в предыдущем примере. Опти- Оптимальное значение jn определяется формулой 7п = Мвп - апМвп - PnMYn. Уравнение A0.22) для характеристической функции величин Уте, Оп, вп имеет вид оо оо оо /г г / / ехр{гА1^^ + гЛ2^ + г//(о:гг_1^/+ — оо —оо —оо + /Зп-iy + 7n-i)} /n-i(y, ^, в') dydOdO', где оо оо оо —— / / / — 00 —00 —00 Все сказанное в конце примера 10.4 относительно приближенного опреде- определения gn(A,/i) полностью относится и к данному случаю. Метод п. 10.2.1 и п. 10.2.2 позволяет не только оценивать неиз- неизвестные параметры в системах, описываемых известными разност- разностными уравнениями, но и строить статистические модели систем, не поддающихся математическому описанию с помощью каких-либо уравнений. Отобрав существенные переменные, определяющие состояние си- системы в каждый данный момент, и связав их разностным уравнением подходящей формы, содержащим достаточное число неизвестных па- параметров, можно по результатам наблюдения работы системы (произ- (производимых, в ней измерений) оценить изложенным в п. 10.2.1 и п. 10.2.2
10.3. Факторные модели 425 методом все неизвестные параметры и таким путем получить ста- статистическую модель системы, описываемую разностным уравнением. Взяв различные разностные уравнения, можно параллельно оцени- оценивать неизвестные параметры в них, сравнивать соответствующие мо- модели по средним квадратам ошибок оценок параметров и выбрать наиболее подходящую из них. Таким образом, изложенный здесь метод оценивания величин, определяемых разностными уравнениями, и неизвестных параметров в них имеет широкое поле приложений. Подробное изложение методов условно оптимального оценивания дано в [81, 82]. 10.3. Факторные модели 10.3.1. Задачи факторного анализа. Во многих задачах прак- практики приходится изучать случайные векторы большой размерности. При этом часто оказывается, что распределение случайного вектора сосредоточено вблизи некоторого подпространства значительно мень- меньшей размерности (эллипсоид рассеивания сплющен по некоторым на- направлениям настолько, что его размерами в этих направлениях можно пренебречь). При этих условиях случайный вектор можно с достаточ- достаточной для практики точностью представить как результат линейного преобразования случайного вектора меньшей размерности. В связи с этим важной задачей статистики является задача нахождения при- приближенного линейного представления случайного вектора через век- вектор меньшей размерности по результатам опытов. Характерная осо- особенность этой задачи состоит в том, что вектор меньшей размерности, через который надо выразить наблюдаемый случайный вектор, не на- наблюдается и о нем ничего не известно. Ясно, что решение вопроса о возможности точного представления случайного вектора через вектор меньшей размерности по экспери- экспериментальным данным принципиально невозможно. Можно лишь пы- пытаться построить соответствующую модель и определить, согласуется ли гипотеза о том, что распределение сосредоточено на некотором подпространстве с экспериментальными данными. Предположим, что в результате п опытов наблюдается га-мерный случайный вектор У, представляющий собой сумму интересующего нас случайного вектора X и ошибки измерения Z. Допустив, что век- вектор X можно представить как линейную функцию г-мерного векто- вектора V = [Vi ... Vr]T, r < га, можем написать Vpxp + Z. A0.32) Таким образом, мы приходим к задаче построения модели A0.32) по результатам наблюдения вектора Y. Методы решения этой задачи со-
426 Гл. 10. Статистические модели, II ставляют содержание факторного анализа [50, 118]. Так как любой случайный вектор можно привести к вектору с некоррелированными координатами, то без потери общности можно считать величины Vi,..., Vr некоррелированными. Ошибки измерений координат случайного вектора обычно мож- можно считать некоррелированными как между собой, так и с измеряе- измеряемым вектором. В этом случае вектор Z не коррелирован с величина- величинами V\,..., Vr и ковариационная матрица диагональна. Ясно, что решение задачи представления наблюдаемого векто- вектора Y формулой A0.32) неоднозначно. Любое линейное преобразование вектора V, дающее в результате вектор той же размерности г, остав- оставляет структуру модели неизменной. В частности, путем умножения величин Vi,..., Vr на соответствующие числа и векторов х\,..., хг на обратные числа можно сделать дисперсии величин V\,..., Vr равными наперед заданным числам, в частности, все их сделать рав- равными 1. Таким образом, будем предполагать, что выполнены следующие условия: 1) случайные величины Vi,..., Vr в A0.32) не коррелированы; 2) ошибка измерений Z имеет нулевое математическое ожидание, не коррелирована с величинами V\,..., Vr, и ее ковариационная мат- матрица диагональна; 3) дисперсии величин Vi,..., Vr равны 1. Модель наблюдаемого случайного вектора F, определяемая фор- формулой A0.32) при выполнении условий 1)-3), называется факторной моделью. Случайные величины Vi,..., Vr называются факторами *). Координаты вектора хр называются нагрузками соответствующих ко- координат вектора Y (или вектора X) на р-й фактор (р = 1,..., г). Дис- Дисперсии координат вектора X, определяемого суммой в A0.32), назы- называются факторными дисперсиями. Задача построения факторной модели A0.32), по существу, рав- равноценна задаче нахождения канонического разложения вектора X (разд. 3.4) по результатам наблюдения вектора Y = X + Z (т.е. по результатам наблюдения вектора X с ошибками). Однако непосред- непосредственно применить методы разд. 3.4 для решения этой задачи нельзя, так как для этого необходимо знать ковариационную матрицу вектора X. В данном же случае можно получить по результатам опытов толь- только оценку ковариационной матрицы вектора Y. Чтобы найти подходы к решению поставленной задачи, представим ковариационную матри- матрицу Кх вектора X каноническим разложением C.75). Тогда ковари- ковариационная матрица вектора Y на основании A0.32) и условий 1)-3) *) Термин фактор в факторном анализе и в дисперсионном анализе имеет разный смысл.
10.3. Факторные модели 427 выразится формулой г ^2 рх^ + Kz. A0.33) p=i В силу диагональности матрицы Kz все недиагональные элемен- элементы матрицы Ку совпадают с соответствующими элементами матри- матрицы Кх. Поэтому найденные по результатам опытов оценки недиаго- недиагональных элементов матрицы Ку можно принять за оценки соответ- соответствующих элементов матрицы Кх. Диагональные же элементы мат- матрицы Кх — факторные дисперсии — остаются неизвестными. Таким образом, задача построения факторной модели A0.32) сво- сводится к нахождению канонического разложения вектора X при неиз- неизвестных диагональных элементах его ковариационной матрицы Кх. Чтобы преодолеть возникшее затруднение, можно предложить два подхода. Первый подход состоит в том, что вместо канонического раз- разложения вектора X ищут каноническое разложение вектора Y. Опре- Определив первые г членов этого разложения, все оставшиеся т — г членов объединяют в ошибку Z, пренебрегая коррелированностыо координат полученного таким образом вектора Z. Второй прием состоит в замене неизвестных факторных дисперсий произвольными положительными числами и в сочетании метода канонических разложений с методом итераций. 10.3.2. Метод главных компонент. На первом подходе осно- основан метод главных компонент, использующий разложение наблюда- наблюдаемого случайного вектора по собственным векторам. В примере 7.13 мы видели, что оценками максимума правдоподобия собственных зна- значений и собственных векторов служат собственные значения и соб- собственные векторы оценки максимума правдоподобия ковариационной матрицы. Если найденные оценки собственных значений расположить в порядке невозрастания и при этом окажется, что сумма т — г по- последних собственных значений достаточно мала по сравнению с сум- суммой всех их, то соответствующие главные компоненты можно отне- отнести за счет ошибок измерений, т.е. включить их в вектор Z. При этом разложение (З.бб) случайного вектора Y по собственным векторам да- дает искомую факторную модель A0.32), если положить Vv — Up/\f\p, хр = сррл/)^ (р= l,...,r). Метод главных компонент, как и всякий метод, основанный на определении собственных значений и собственных векторов, требу- требует сложных вычислений и поэтому может практически применяться только на ЭВМ. Другие методы факторного анализа основаны на других канони- канонических разложениях. Все они различаются, по существу, только вы- выбором векторов gi,... ,gr в общем алгоритме п. 3.4.3.
428 Гл. 10. Статистические модели, II 10.3.3. Центроидный метод. Одним из часто применяемых методов факторного анализа является центроидный метод [50, 118]. Этот метод основан на следующем выборе каждого очередного векто- вектора gs. Сначала берут вектор qs, линейно независимый от предыдущих векторов gi,..., gs_i, все координаты которого равны +1 или —1 и определяются так, чтобы число отрицательных слагаемых в квадра- квадратичной форме qjКх4s-> где на основании C.73) и условия 3) КЫ=КХ, K^=Kx-J2*pxp (* = 2,..., г), A0.34) p=i было минимальным. Затем определяют вектор gs формулой д. = , qs ¦ (Ю.35) Подставив это выражение в последние две формулы C.72), будем иметь Ds = g^Kis'gs = 1 и х, = K^g, = **[|*_ (в = 1,... ,г). A0.36) Вычисление координат векторов xi,...,xr по этой формуле сводит- сводится к суммированию элементов соответствующих столбцов матриц Кх ' — Кх, Кх ,..., Кх с изменением знаков некоторых из них и де- делению полученных сумм на корень квадратный из суммы всех элемен- элементы тов соответствующей матрицы Кх с теми же изменениями знаков их элементов. Вследствие этого центроидный метод часто называют ме- методом простого суммирования. Непосредственное применение формулы A0.36), как уже было ска- сказано, невозможно из-за неизвестности диагональных элементов мат- матрицы Кх. Применяя первый способ преодоления этого затруднения, заменяют Кх в A0.36) найденной по результатам опытов оценкой Ку матрицы Ку. Определив первые г членов канонического разложения вектора F, остальные члены включают в ошибку Z, пренебрегая кор- корреляцией между координатами полученного таким путем вектора Z. При втором способе за оценки факторных дисперсий обычно прини- принимают в первом приближении наибольшие модули элементов соответ- соответствующих строк и столбцов и применяют метод итераций. Выполнив вычисления по формуле A0.36) в первом приближении, определяют диагональные элементы матрицы Кх во втором приближении как суммы квадратов соответствующих координат векторов xi,...,xr. Повторив вычисления по формуле A0.36), находят векторы #i,..., хг во втором приближении и т.д. Процесс последовательных приближе- приближений заканчивается, когда очередное приближение с достаточной точ- точностью совпадет с предыдущим.
10.3. Факторные модели 429 10.3.4. Вращение факторов. Учитывая, что факторы по опре- определению должны иметь единичные дисперсии, приходим к выводу, что факторы определены с точностью до произвольного ортогональ- ортогонального преобразования, т.е. произвольного вращения. Действительно, пусть W — AV. Тогда на основании C.50) Kw — AKVAT — AIAT — — А А7. Отсюда видно, что Kw — I тогда и только тогда, когда АТ = А~г, т.е. когда матрица А ортогональна. Произвольное орто- ортогональное преобразование факторов приводит к новой системе фак- факторов. Этим обычно пользуются для того, чтобы упростить ин- интерпретацию результатов факторного анализа. Определив факторы, производят их вращение так, чтобы определенные координаты векто- вектора Y имели наибольшие нагрузки на один фактор и близкие к нуле- нулевым на другие факторы. Для первоначального определения факторов молено применять любой метод факторного анализа, в частности метод главных ком- компонент. Ясно, что в преобразовании факторов путем вращения и в приве- приведении их к «удобному» для анализа виду много субъективного. По- Поэтому разные исследователи могут интерпретировать одни и те же экспериментальные данные различно. В погоне за удобной для анали- анализа формой факторов в приложениях, особенно в области психологии, часто преобразуют факторы так, что в итоге получаются коррелиро- коррелированные факторы. При построении факторных моделей часто нормируют коорди- координаты наблюдаемого вектора У, разделив их на оценки их сред- средних квадратических отклонений. При этом ковариационная мат- матрица Ку наблюдаемого вектора Y заменяется его корреляционной матрицей Ry. 10.3.5. Применение метода п. 3.4.5. Чтобы избежать враще- вращения факторов и сразу получить факторную модель с большим чис- числом нулевых и близких к нулевым нагрузок на факторы, можно при- применить для нахождения канонического разложения вектора X ме- метод п. 3.4.5. При этом, имея в виду, что порядок нумерации коорди- координат векторов может быть произвольным, можно по ходу вычислений устанавливать новую нумерацию этих координат с целью получить достаточно хорошую модель (по возможности с меньшей суммарной относительной величиной малых нагрузок). Чтобы применить метод п. 3.4.5 для построения факторной моде- модели, выберем в качестве векторов gi,...,gr единичные векторы пер- первых г осей координат Qs = [0 ...0 10 ...0]Т 0 = 1,...,г) (буква s над единицей показывает, что она стоит на s-м месте). При
430 Гл. 10. Статистические модели, II таком выборе векторов gi,..., qr формула A0.36) дает х1р = —^= (р = 1,..., га), xsl = ... = xs,s-i = 0, X яг) — i (p s,...,m; s = 2,...,r), у kss — xls — ... — ^s_ljS A0.37) где kpq (p,q = 1,..., ra) — элементы матрицы Кж. Комбинируя формулы A0.37) с соответствующим изменением ну- нумерации координат векторов, мы и получим факторную модель с наи- наибольшим числом нулевых и малых факторных нагрузок, не прибегая к вращению факторов. Чтобы найти критерий для установления новой нумерации коор- координат векторов, заметим, что доля первого фактора V\ в диспер- дисперсии р-й координаты вектора X равна отношению х\р/крр. Поэтому естественно выбрать первую координату вектора X, а следовательно, и первый фактор V\ так, чтобы суммарная доля первого фактора V\ в дисперсиях координат Х2,...,ХШ вектора X была минимальной. Тогда получаем условие т 2 ?l =V = ^=min. A0.38) Р=2 крр Принимая по очереди все координаты вектора X за первую и вычис- вычисляя каждый раз величину е\, выберем в качестве первой координаты ту, для которой 8\ имеет наименьшее значение. Рассуждая так же, мы примем за s-ю ту из оставшихся га — s + 1 координат вектора X, для которой величина = Е (я = 2,..., г) A0.39) имеет наименьшее значение. При выполнении вычислений по формулам A0.37) приходится, как и при применении других методов факторного анализа, или за- заменять Кх матрицей Ку или применять метод итераций, задавая в первом приближении какие-нибудь грубо приближенные оценки диа- диагональных элементов матрицы Кх. Этот метод построения факторной модели (факторного анализа) представляет собой вариант метода треугольной декомпозиции [118]. Это название объясняется тем, что при этом методе в случае г — т ковариационная матрица Кх представляется в виде произведения тре- треугольной матрицы ж, столбцами которой служат векторы xi,... ,хт, на ее транспонированную: Кх — ххТ.
10,3. Факторные модели 431 10.3.6. Оценивание факторов. Во многих случаях, кроме по- построения факторной модели, необходимо также найти оценки факто- факторов Vi,..., Vr в каждом из произведенных опытов. Для этого доста- достаточно воспользоваться формулой C.72). Подставив в нее выражение A0.35) вектора gs, получим рекуррентные формулы Vs= Подставив сюда выражение Х° = Y + Z - mx = Y + Z - my и заме- заменив неизвестное ту его оценкой Y, получим qj (Y- В результате опытов получаются реализации Y\,..., Yn величины Y и вычисляется их выборочное среднее Y и оценки векторов xi,..., хг. Соответствующие же реализации вектора ошибки Z остаются неиз- неизвестными. Чтобы получить оценки факторов в каждом из произ- произведенных опытов, целесообразно воспользоваться регрессией факто- факторов Vi,..., Vr на У, т.е. принять за оценки факторов Vi,..., Vr их условные математические ожидания относительно наблюдаемого век- вектора Y. В результате, имея в виду, что mz — 0, получим % A0.40) Другой метод получения линейной регрессии факторов на наблю- наблюдаемый вектор Y основан на применении уравнений (9.14) и (9.15), которые в данном случае имеют вид дКу = Kvy, a = mv — дту = —дту, A0.41) где Kvy — взаимная ковариационная матрица случайных векторов V — [Vi ... Vr ]Т и Y. Оценка матрицы Ку находится непосредственно по экспериментальным данным. Остается найти оценку матрицы Kvy. На основании A0.32) Kvy = MVYT = MV(ml + VTxT + ZT) = MVVTxT = KvxT = xT\ где через х обозначена матрица, столбцами которой служат векто- векторы xi,... ,хг. Таким образом, уравнения A0.41) принимают вид дКу — хт\ а = —grriy.
432 Гл. 10. Статистические модели, II Решив эти уравнения и заменив ту его оценкой У, получим g = = хТК~г, а — -~xTK~1Y. После этого находим линейную регрессию вектора У на У: V = gY + a = xTKy1(Y - Y). Отсюда получаем оценки факторов V.=xjK-l(Y-Y) (s = l,...,r). A0.42) Формулы A0.40) и A0.42) дают различные оценки факторов. Это различие объясняется тем, что при их выводе используются различ- различные оценки регрессии факторов на наблюдаемый вектор. 10.4. Модели распознавания 10.4.1. Математическая постановка задач распознавания. Как уже было сказано в п. 9.1.1, большое значение для практики имеет моделирование процессов распознавания. Задача распознава- распознавания состоит в том, что в результате наблюдения некоторого объек- объекта из множества объектов, принадлежащих разным классам, опреде- определяется, какому из этих классов принадлежит наблюдаемый объект (например, по начертанию рукописной буквы определяется, какая буква написана; по наблюдаемому электромагнитному или звуково- звуковому сигналу определяется, каким источником порожден этот сигнал; по данным геологической разведки определяется, какие полезные ис- ископаемые имеются в районе разведки, и т.п.). Ввиду большого раз- разнообразия наблюдаемых и подлежащих распознаванию объектов их обычно объединяют абстрактным термином образ и говорят о распо- распознавании образов. Такая терминология объясняется тем, что первыми задачами автоматического распознавания были задачи распознавания изображений. Для построения модели процесса распознавания необходимо пре- прежде всего наблюдаемые образы охарактеризовать некоторыми вели- величинами, которые можно ввести в распознавающую систему, например в ЭВМ. Эти величины могут иметь разные значения для различных образов, даже принадлежащих одному и тому же классу. Выбор числа и характера величин — информативных признаков, — определяющих образы, представляет собой первый этап построения модели распозна- распознавания. Этот вопрос должен решаться конкретно для каждой задачи распознавания с учетом возможностей производить необходимые из- измерения. И лишь после этого можно дать математическую постановку данной задачи распознавания. Дадим теперь общую математическую постановку задачи распо- распознавания, которая может служить основой для построения моделей распознавания. Пусть х — совокупность всех величин — признаков, —
10-4- Модели распознавания 433 характеризующих подлежащие распознаванию образы (в том числе и качественных признаков, принимающих только значения 0 и 1), у — номер класса образов. Задача состоит в том, чтобы по наблюденному значению х определить значение величины у. В большей части задач практики наблюдаемые величины случай- случайны и имеют различные распределения для разных классов образов, т.е. для разных значений у. Случайный характер наблюдаемых вели- величин приводит к тому, что одно и то же значение х может наблюдать- наблюдаться при разных значениях у. Вследствие этого задача распознавания принципиально не может быть решена абсолютно точно и становит- становится статистической. В таких случаях задача распознавания сводится к нахождению оценки у параметра у по наблюденному значению х случайной величины X. Модель процесса распознавания представляет собой зависимость оценки у номера класса образов у от значения х наблюдаемой слу- случайной величины X. Построение модели распознавания сводится к определению этой зависимости. Ясно, что эту зависимость следует определять так, чтобы число ошибок при применении модели рас- распознавания было как можно меньше. Как и в случае регрессионных моделей, мы ограничимся здесь случаем, когда наблюдаемая величи- величина X представляет собой конечномерный случайный вектор. Предположим, что появления образов разных классов представ- представляют собой события (несовместные и образующие полную группу). В этом случае номер у класса образов, которому принадлежит наблю- наблюдаемый образ, представляет собой реализацию дискретной случайной величины Y с возможными значениями 1,..., JV, где N — число клас- классов образов, подлежащих распознаванию. Пусть Pi,...,Ptv — веро- вероятности этих значений, т.е. априорные вероятности появления обра- образов 1-го, ..., TV-го классов, f(x \ у) — условная плотность наблюдаемой величины X при данном значении у величины Y. Очевидно, что задача распознавания может быть решена только в том случае, когда никакие две из плотностей f(x | 1),..., f(x \ N) не совпадают тождественно, т.е. когда величина X имеет различные распределения для образов разных классов. Это различие в условных распределениях величины X и служит признаком, по которому можно различать образы разных классов. Если какие-нибудь из плотностей f(x 11),..., f(x | N) одинаковы, то образы соответствующих классов неразличимы. Вследствие случайности наблюдаемой величины X вырабатыва- вырабатываемая моделью распознавания оценка у номера класса образов, как всегда в задачах математической статистики, представляет собой реа- реализацию случайной величины Y. Правильному решению соответству- соответствует совпадение Y с Y. Если 7/7, то модель распознавания прини- принимает ошибочное решение. При этом возможны N(N — 1) различных видов ошибок в соответствии с тем, что модель может принять об-
434 Гл. 10. Статистические модели, II раз каждого из N классов за образ одного из N - 1 других классов (каждому значению у — 1,..., N величины Y может соответствовать любое из N — 1 значений У, не совпадающих с у). Обозначим через otki условную вероятность события Y = к при Y = /, Величины akk (fc = 1,... ,iV) представляют собой условные вероят- вероятности правильных решений при соответствующих значениях вели- величины У, а величины а^ (к,1 = 1,..., N; к ф I) — условные вероят- вероятности ошибок различных видов. Вероятность правильного решения (безусловная) определяется по формуле полной вероятности A.14): N p = P(Y = Y) = ^2 Pk^kk • A0.43) к=1 Вероятность ошибки (безразлично какого именно вида), очевидно, равна q = 1 — р. Построение детерминированной модели распознавания, очевидно, сводится к разбиению пространства значений величины X на N непе- непересекающихся частей, которые мы обозначим через А\у..., А^ и опре- определению зависимости Y от X формулой ? = к при ХеАк (к = 1,...,ЛГ). Тогда модель распознавания будет принимать решение, что появил- появился образ к-го класса при попадании величины X в область А^ (k = l,...,N). Построение стохастической модели распознавания сводится к уста- установлению зависимости от X вероятностей 5A \ X),..., 5(N \ X) отне- отнесения наблюдаемого образа к первому, второму, и т.д., JV-му классам. В этом случае модель распознавания будет по наблюдаемому значе- значению х величины X вычислять вероятности 5A1 X),..., 5(N | X) и в соответствии с этими вероятностями путем статистического модели- моделирования вырабатывать значение у оценки Y. 10.4.2. Детерминированные модели распознавания. Ре- Решим сначала задачу построения детерминированной модели. Грани- Границы между областями А\,..., An естественно определять так, что- чтобы вероятность правильного решения была максимальной. Такую модель будем называть оптимальной моделью распознавания. Веро- Вероятности otki (k,l = 1,. -., N) определяются в данном случае формулой аы = I f(x\ I) dx (к, I = 1,..., N). A0.44) лк Подставив в A0.43) выражение акк из A0.44), получим для вероят-
10-4- Модели распознавания 435 ыости правильного решения формулу N *=! Г ч f(*\k)dx- (ю-45) i D> Рассмотрим сначала случай двух классов образов, N = 2. В этом случае область А2 представляет собой дополнение области А\, А2 = А±, и формула A0.45) принимает вид Ho (x\ 1) dx + р2 f f(x | 2) dx. J f(x\2)dx = 1- f f(x\2)dx. Следовательно, P = P2 + j\pif(x 11) - p2f(x | 2)] dx. A0.46) M Отсюда видно, что вероятность правильного решения будет макси- максимальной, если за область А\ принять всю область, в которой подын- подынтегральная функция положительна. Действительно, если область А\ представляет собой только часть области, в которой подынтегральная функция положительна, то интеграл в A0.46), а следовательно, и ве- вероятность правильного решения р, будет меньше. Если же включить в область А\ часть области, в которой подынтегральная функция от- отрицательна, то интеграл в A0.46), а следовательно, и вероятность р, тоже будет меньше. Таким образом, оптимальные области А\ и А2 определяются формулами *) А1 = {х : Plf(x 11) - p2f(x | 2) > 0}, A2 = {x:Plf(x\l)-p2f(x\2)<0}, Оптимальная граница между областями А\ и А2 определяется урав- уравнением Pif{x\l)=p2f{x\2). На рис. 10.3 показана оптимальная граница — точка Xq — меж- между областями А\ и А2 в случае скалярной величины X. Вероятность ошибки q = 1 — р равна площади зачерненного криволинейного тре- треугольника. Если принять за границу между областями А\ и А2 точ- точку х\ левее точки ж0 или точку х2 правее точки жо, то вероятность *) Через {х : Q}, как всегда, обозначено множество значений ж, удов- удовлетворяющих условию Q.
436 Гл. 10. Статистические модели, II g replacements У / 1 у 0 s~\y = Pl/(*|1) Л г \ В X\ Xo 5 'd E \ \ \ 12) 4» X Рис. 10.3 ошибки увеличится на величину площади криволинейного треуголь- треугольника ABC или соответственно CDE, отмеченных штриховкой. Следо- Следовательно, при смещении границы между областями А\ и А2 в любую сторону от точки xq вероятность ошибки q увеличивается и, следова- следовательно, вероятность правильного решения р уменьшается. Таким образом, оптимальная модель распознавания должна вы- вырабатывать значение у оценки Y по следующему правилу: = 1 при у = 2 при 2) 1) Pi < — f(x\2) %Г A0.48) Отсюда видно, что решающую роль в построении модели распозна- распознавания играет отношение условных плотностей величины X, соответ- соответствующих двум классам образов. Это отношение называется отноше- отношением правдоподобия. Очевидно, что вместо отношения правдоподобия z = f(x\ l)/f(x\2) можно взять любую строго возрастающую функ- функцию этого отношения 6(z). <\ Итак, оптимальная модель распознавания должна вычислять некоторую строго возрастающею функцию отношения правдоподо- правдоподобия 6(z) и сравнивать результат, с величиной с = 0(p2/pi)? называ- называемой обычно порогом. При 6(z) > с принимается у = 1. При 0(z) < с принимается у = 2. Этот алгоритм часто называется решающим пра- правилом. Функция 0(z) называется дискриминантной функцией. Она выбирается так, чтобы вычисления были как можно проще. Покажем, что найденная оптимальная модель распознавания яв- является оптимальной и с точки зрения критерия максимума апостери- апостериорной вероятности, т.е. условной вероятности P(Y = k\x) появления образа k-ro класса при данном значении х величины X. Иными ело-
10.4' Модели распознавания 437 вами, модель принимает у = 1 при P(Y = 11 х) > P(Y = 2 ж), ? = 2 при Р(У = 2|ж) > P(Y = 1\х). > Для доказательства вычислим апостериорные вероятности = к\х): Отсюда и из A0.47) видно, что P(Y = 11 х) > P(Y = 2 | х) при xGii и Р(У = 2 | х) > P(Y = l\x) при х е А2. < > При произвольном числе классов образов N апостериорные ве- вероятности P(Y = к | ж) определяются формулой Отсюда следует, что в оптимальной модели, работающей по критерию максимума апостериорной вероятности, области А\,..., An определя- определяются формулой Ак = {х : nmxphf(x \ h) = pkf(x \к)} h (к = 1,..., N). A0.49) Эта модель, очевидно, реализует и максимум вероятности правильно- правильного распознавания р, определяемой формулой A0.45), так как для нее формула A0.45) может быть переписана в виде р = mdbx J h | h)} dx. A0.50) Пример 10.6. Рассмотрим случай распознавания образов двух клас- классов при нормальных условных распределениях f(x \ 1) и f(x \ 2): (I) Ясно, что вычисления будут проще, если вместо отношения правдоподобия z = f(x\l)lf(x\2) взять его удвоенный логарифм и отбросить в получен- полученном выражении все слагаемые, не зависящие от х. Тогда получим функ- функцию 9(z) в виде квадратного многочлена 0(z) = (II) *) Для вывода этой (и предыдущей) формулы достаточно подставить в формулу умножения плотностей D.23) выражение плотности /2 (у) дис- дискретной случайной величины У, затем вычислить fi(x) по формуле D.8) и подставить найденные выражения f(x,y) и fi(x) в D.17).
438 Гл. 10. Статистические модели, II При этом порог с определится формулой = 2 In V— + In |^- + m{K^mi - mT2K21m2. (III) p \K (Е1) \p\J () 2 In + In | \p\J p\ \K2 В частном случае совпадающих ковариационных матриц К\ — К2 — К выражения дли (II) и (III) принимают вид 6{z) = 2(mf - m^K^x, (IV) -тТ2К~1т2. (V) В этом случае граница между областями А\ и А2 представляет собой гипер- гиперплоскость. В соответствии с этим решающее правило, по которому работает модель, называется линейным. Найдем теперь условные вероятности ошибок: вероятность а\2 принять образ второго класса за образ первого класса и вероятность а2\ принять образ первого класса за образ второго класса. Для этого найдем условные распределения случайной величины — гщК'1т\ + т2К'1т2 = \К-2 Так как V в силу (VI) представляет собой линейную функцию вектора X с нормальными условными распределениями, то условные распределения V нормальны. Поэтому достаточно вычислить условные математические ожи- ожидания и дисперсии величины V. По формуле C.11) находим //1- 77li ГП2 7711, fj2 = M[V | 2] = 2(mf - m2)K~1m2. Условные дисперсии величины V найдем по формуле C.50). Так как век- вектор X имеет одну и ту же ковариационную матрицу для образов обоих классов, то условные дисперсии величины V совпадают: D = D[V 11] = D[V | 2] = 4(mf - mT2)K~Y KK^inn - m2) = = 4(m?' - m2)K-A (mi - m2). (VIII) По формуле C.92) для вероятности попадания нормально распределенной случайной величины в интервал находим ai2 = 7^BJ^\2DJ 2 (^7^> (IX) Полная вероятность ошибки равна q = р\а2\ +^2«12, а вероятность пра- правильного решения — р = 1 — q — \ — pia2i — Р2&12- Возможность точно определять вероятности ошибок двух видов при нормальном распределении вектора X является важным преимуществом линейных решающих правил.
10.4- Модели распознавания 439 10.4.3. Стохастические модели распознавания. Перейдем к стохастическим моделям распознавания. \> Условное распределение вероятностей 8(у\х) (у = 1,..., N) при данном значении х величины X, в соответствии с которым стохасти- стохастическая модель распознавания определяет оценку Y номера Y клас- класса образов, называется решающей функцией или рандомизированным правилом решения модели распознавания*). Условные вероятности ошибок и правильных решений различных видов для стохастической модели распознавания определяются фор- формулой аы = fs(k\ x)f{x \l)dx (jfe, / = 1,..., N). A0.51) Вероятность правильного распознавания на основании формулы пол- полной вероятности A.14) равна N N N Р = ^Pk^kk = ^Pk S(k\ x)f(x I k) dx = ^2pkf(x | k)S(k | x) dx. k=i k=i k=i A0.52) Так как О < Mk I тЛ < 1 \^ fi(k t) — 1 k=l при любом ж, то подынтегральная функция в A0.52) представляет собой среднее взвешенное, значение величин pkf(x\k)(k = l,..., TV), которое не может быть больше тах{р^/(ж \к)}. Поэтому никакая сто- к хастическая модель распознавания не может быть лучше оптималь- оптимальной детерминированной модели, для которой согласно A0.50) = mdix{pkf(x | к)} dx. J к Имея в виду определение A0.49) областей Л&, приходим к выводу, что вероятность правильного решения р достигает максимума тогда и только тогда, когда S(k\x) = 1 при х G Ак и 8(к \ х) = 0 при х (? Ак (к = 1,...,7V), т.е. для оптимальной детерминированной модели. <\ Таким образом, оптимальная детерминированная модель явля- является оптимальной среди всех возможных моделей, как детермини- детерминированных, так и стохастических. Только что доказанная теорема справедлива, конечно, лишь в том случае, когда при построении модели распознавания точно из- известны все вероятности р\,..., рдг классов и условные плотности f(x | 1),..., f(x | N) величины X. Если модель распознавания строит- *) От английского слова random — «случайный».
440 Гл. 10. Статистические модели, II ся при неполной информации о pk и f(x | к) (к = 1,..., JV), когда они точно не известны, то стохастическая модель может оказаться лучше всех реализуемых детерминированных, так как оптимальная детер- детерминированная модель остается в этом случае неизвестной и не может быть реализована. 10.4.4. Обучение моделей распознавания. Для построения модели распознавания в случае, когда вероятности pk и плотности f(x\k) (к = 1,..., N) зависят от неизвестного параметра в (в общем случае конечномерного векторного) или вообще неизвестны, их при- приходится оценивать по результатам опытов. Если достаточно хорошие оценки неизвестного параметра 0 мож- можно получить непосредственно по наблюдаемому значению х вектора X (а это возможно только в случае, когда размерность вектора в значи- значительно меньше размерности вектора X), то можно включить в модель распознавания выработку соответствующих оценок вероятностей р& и плотностей f(x\k) и использование этих оценок в найденных решаю- решающих правилах. Однако, как правило, хороших оценок параметра в или непосред- непосредственно величин pk и функций f(x\k) по результатам наблюдения величины X получить невозможно. В таких случаях возникает зада- задача обучения модели распознавания путем ввода в нее дополнительной информации, необходимой для выработки оценок неизвестных вели- величин или непосредственно границ между областями А\,..., Ajy. При этом в модель включается алгоритм ее обучения, т.е. формирования необходимых оценок на этапе обучения. Если во время обучения моде- модели в нее вводятся только реализации случайной величины X (входно- (входного сигнала), то модель называется самообучающейся. Если же, кроме реализаций величины X, в модель вводится во время обучения инфор- информация о том, какому классу образов соответствует каждая реализа- реализация величины X, или какая-либо другая информация, которая может быть использована для оценивания неизвестных характеристик, то модель называется обучаемой (или обучающейся). При этом источ- источник дополнительной информации называется учителем независимо от того, человек это или автоматическая распознающая система. Ес- Если учитель безошибочно определяет класс наблюдаемого образа, то он называется идеальным. Если же учитель может ошибаться, то он называется реальным [75-80]. Для оценивания неизвестных параметров или функций во время обучения модели можно использовать различные методы [25]. В част- частности, одним из наиболее эффективных методов является метод сто- стохастических аппроксимаций (разд. 7.3 и 7.4). 10.4.5. Построение моделей распознавания без информа- информации об априорных вероятностях. До сих пор мы предполагали априорные вероятности различных классов образов р\,..., рм извест- известными. Однако во многих случаях они не известны и даже могут вооб-
10.4- Модели распознавания 441 ще не существовать, если образы различных классов при применении модели распознавания появляются не случайно. Во всех таких случа- случаях оптимальной моделью распознавания образов двух классов счита- считают такую модель, которая реализует минимум вероятности ошибки одного вида при данном значении вероятности ошибки другого ви- вида. Условие минимума вероятности ошибки одного вида при задан- заданной вероятности ошибки другого вида обычно называется критерием Неймана-Пирсона. \> Для нахождения решающего правила оптимальной модели распознавания по критерию Неймана-Пирсона можно применить ме- метод неопределенных множителей Лагранжа. Согласно этому методу для нахождения условного минимума вероятности «21 при данном значении вероятности «i2 надо сначала найти минимум ве- величины q' = «2i + A«2i, где А — множитель Лагранжа, а потом опре- определить А так, чтобы вероятность «12 имела заданное значение. На основании A0.44) величина q' для детерминированной модели распо- распознавания выражается формулой q' = I f(x 11) dx + A I f(x | 2) dx. A2 Аг Так как А2 = A\ и вследствие этого J f(x\l)dx = l- Jf(x\l)dx, TO ' = 1- J[f(x\l)-\f(x\2)]dx. Отсюда совершенно так же, как в п. 10.4.2, находим оптимальные об- области А\ и ^2, которые в данном случае зависят от неизвестного па- параметра Л: A1 = {x:f(x\l)-\f(x\2)>0}, A2 = {x:f(x\l)-Xf(x\2)<0}. Сравнивая эти формулы с A0.47), приходим к выводу, что опти- оптимальное правило решения отличается от найденного в п. 10.4.2 толь- только тем, что в выражении порога с вместо отношения вероятностей Р1/Р2 входит величина А, с = 0(А). Эта формула выражает с через ве- величину Л, которая определяется из условия, чтобы вероятность а\2 имела заданное значение. В задачах практики часто удается непо- непосредственно определять порог с из условия равенства вероятности а\2 заданному числу, что позволяет избежать промежуточного вычисле- вычисления Л. <\
442 Гл. 10. Статистические модели, II Пример 10.7. В условиях примера 10.6 критерий Неймана-Пирсона дает для определения порога с уравнение Ai(c) где область интегрирования А\(с) определяется формулой А^с) = {х : хТ{К^ - К^)х + 2(тГкГ1 - т^К^^х > с}. В общем случае уравнение для с приближенно можно решить, вычисляя интеграл методом статистического моделирования для различных значе- значений с. В частном случае одинаковых условных ковариационных матриц век- вектора X, К\ — К2 = К, т.е. в случае линейного решающего правила, урав- уравнение для порога с на основании результатов примера 10.4 принимает вид Перейдем теперь к стохастическим моделям распознавания, обес- обеспечивающим заданную вероятность ау2- Докажем, что никакая сто- стохастическая модель при данной вероятности ошибки первого вида а±2 не может иметь вероятность ошибки второго вида а2\ меньшую, чем оптимальная детерминированная модель, основанная на крите- критерии Неймана-Пирсона. \> Действительно, в этом случае 18(l\x)f(x\2)dx= f f(x\2)dx = a12, A0.53) где Л] = {х : f(x | 1) > А/(ж | 2)}. Вероятность ошибки второго вида для детерминированной модели Неймана-Пирсона определяется фор- формулой а21 = Г f(x\l)dx, А2 а для стохастической модели — формулой а'п = ( 5B\x)f(x\l)dx. Следовательно, а'21 - а21 = 15B \ x)f(x \l)dx- Г f(x \l)dx= f 6B \ x)f(x \l)dx- A2 A± - Г[1 - 6B | x)]f(x 11) dx = f 5B | x)f(x 11) dx - Г 6A \ x)]f(x \ 1) dx.
10.4- Модели распознавания 443 Отсюда, имея в виду, что /(ж | 1) > А/(ж | 2) при ж Е Ау и /(ж | 1) < < А/(ж | 2) при х Е ^2, получаем неравенство «21 - «21 ^ Л W <К2 I Ж)/О I 2) ** — / <5A1 ж)/(ж | 2) dx \ = 6B\x)f(x\2)dx + f 6(l\x)f(x\2)dx- f 6A \ x)f(x | 2) dx\ = = a| У /(re | 2) dx -JS{1\ x)f(x | 2) dx\. At Но оба интеграла в фигурных скобках согласно A0.53) равны одной и той же вероятности а\2- Следовательно, а21 ^ «21, причем знак равенства достигается тогда и только тогда, когда 6A1 ж) = 1 при х е А\ и 6A1 ж) = 0 при х е А2, т.е. для оптимальной детерминиро- детерминированной модели. < Таким образом, оптимальная детерминированная модель Ней- Неймана-Пирсона является оптимальной среди всех моделей, как де- детерминированных, так и стохастических. Как и в п. 10.4.3, эта теорема доказана только для случая пол- полностью известных распределений /(ж | 1) и /(ж|2). Если они не из- известны или зависят от неизвестных параметров, то оптимальная модель Неймана-Пирсона не может быть реализована. В подоб- подобных случаях стохастическая модель может оказаться лучше всех детерминированных. 10.4.6. Проверка гипотез. Задачи распознавания родственны задачам проверки гипотез [49]. Основная задача теории проверки ги- гипотез заключается в том, чтобы по результатам наблюдения случай- случайной величины X, плотность вероятности которой f(x\6) зависит от неизвестного параметра 0, принять или отвергнуть определенную ги- гипотезу о значении 0. Если гипотеза состоит в том, что в имеет опре- определенное значение во и ни от каких других неизвестных параметров f(x\0) не зависит, то гипотеза называется простой. Если же гипо- гипотеза состоит в том, что 0 принадлежит некоторому множеству, то она называется слосисной. В частности, гипотеза о том, что некото- некоторые координаты векторного параметра 0 имеют данные значения при неизвестных остальных координатах, будет сложной, так как она рав- равноценна гипотезе, что в принадлежит множеству всех векторов с дан- данными значениями соответствующих координат. Задача проверки простой гипотезы Но, состоящей в том, что в ~ во при условии, что 9 может иметь другое определенное значение #i, (конкурирующая гипотеза Hi), очевидно, представляет собой задачу
444 Гл. 10. Статистические модели, II распознавания образов двух классов при /(a;|l) = /(a;|0i), f(x | 2) = f(x \ во) *)¦ Отметим, что в этой задаче априорные вероятности р\ и р<± не суще- существуют, так как 0 — неслучайная величина, вследствие чего равенст- равенства в = во и в = 9\ не являются событиями. Решающее правило, для которого вероятность а\2 отвергнуть ги- гипотезу Но, когда она верна, имеет данное значение е, а\2 — &•> в теории проверки гипотез называется правилом уровня, в**). Решающее правило данного уровня е, для которого вероятность ац отвергнуть гипотезу if о, когда она неверна, максимальна, назы- называется наиболее мощным правилом уровня е для гипотезы Но отно- относительно гипотезы Н\. Если одно и то же решающее правило оказы- оказывается наиболее мощным при всех возможных значениях в\ (при всех конкурирующих гипотезах ifi), то оно называется равномерно наи- наиболее мощным правилом уровня е для гипотезы Но относительно множеств допустимых гипотез. Современная теория проверки гипотез заложена трудами Нейма- Неймана и Е. Пирсона [67, 68], которые первыми решили задачу нахожде- нахождения наиболее мощного решающего правила данного уровня. Именно поэтому критерий максимума вероятности ац (минимума a,2i) ПРИ данной вероятности ai2 называется критерием Неймана-Пирсона. Ясно, что решающее правило оптимальной модели распознавания образов двух классов, основанное на критерии Неймана-Пирсона, яв- является наиболее мощным правилом уровня е — ai2 для гипотезы Но относительно Hi. Случаи, когда существует равномерно наиболее мощное решающее правило, встречаются очень редко. Пример 10.8. Найденная в примере 10.7 оптимальная модель распо- распознавания решает задачу проверки гипотезы о том, что неизвестное матема- математическое ожидание т и ковариационная матрица К случайного вектора X равны тп2 и K<i (при конкурирующей гипотезе m — mi, К = К\). Реша- Решающее правило этой модели является наиболее мощным правилом уровня е i= ol\2. Согласно этому правилу гипотеза т = тг, К = К% принимается, если 0(z) < с, и отвергается, если 0(z) > с. При известных, совпадающих ковариационных матрицах К\ и К<2, К.\ = Kci = К, найденное в приме- примере 10.5 оптимальное линейное решающее правило является наиболее мощ- *) Мы относим значения наблюдаемой величины X, соответствующие интересующему нас значению #о параметра в (т.е. случаю, когда верна гипотеза if о), ко второму классу образов, чтобы постановка задачи про- проверки гипотез совпала с постановкой решенной выше задачи распозна- распознавания. **) В теории проверки гипотез детерминированное решающее правило, в соответствии с которым гипотеза Но принимается или отвергается, на- называется критерием. Мы предпочитаем более общий и более современный термин решающее правило.
10.4- Модели распознавания 445 ным правилом уровня е = ol\2 для гипотезы т = ГП2 относительно гипоте- гипотезы т = т\. Если модель распознавания строится в случае неизвестных плот- плотностей f(x\k) или известных с точностью до неопределенного пара- параметра #, то, так же как в случае моделей п. 10.4.2, возникает задача обучения модели, о которой сказано в конце п. 10.4.4. 10.4.7. Последовательные модели распознавания. В изло- изложенной теории построения моделей распознавания вектор X может представлять собой или однократно наблюдаемую случайную вели- величину, или совокупность результатов п последовательных наблюдений некоторого случайного вектора U меньшей размерности. В послед- последнем случае X = [U^ ... U^]T, где [/]_,..., Un — результаты наблюде- наблюдений вектора U, и рассмотренные модели распознавания вырабаты- вырабатывают решение только после того, как произведены все п наблюде- наблюдений. Однако можно построить и такую модель распознавания двух классов образов, которая после каждого наблюдения или принимает определенное решение о классе наблюдаемого образа, или принимает решение сделать еще одно наблюдение. Такой метод решения задачи распознавания, называемый последовательным анализом, разработан Вальдом [14] *). Пусть fk(x\\) и fk(x\2) — условные плотности вектора X для образов двух классов для первых к наблюдений (fc = l,2,...). Раз- Размерность вектора X в этом случае, очевидно, равна fcp, где р — раз- размерность вектора U. Пусть 9k(z), z = fk(%\ 1)//&(ж I 2) — дискрими- нантная функция для первых к наблюдений. Метод последователь- последовательного анализа состоит в том, что, задав обе условные вероятности ошибки Qi2 и «21, на каждом шаге определяют два порога с\и и С2Ь с\к < С2к (к = 1,2,...). Если после к-го наблюдения Ok{z) > c<ik-> то принимается у = 1. Если Ok(z) < C\k, то принимается у — 2. Если же с\к < Ok{z) < С2к, то производится к + 1-е наблюдение вектора [/**). Ясно, что в этом случае модель примет образ второго класса за образ первого класса, если для образа второго класса получится 9k(z) > с^к-, а образ первого класса за образ второго класса, если для образа первого класса получится 9k(z) < с^и- Следовательно, условные ве- вероятности ошибок двух видов выражаются через пороги c\k и С2к *) Изложение современной теории последовательного анализа, из кото- которой первоначальные методы Вальда вытекают как частный случай, дано в [124]. **) При этом, конечно, образ, предъявленный для распознавания, не должен изменяться в течение всего времени наблюдений. Иными словами, многократно наблюдаемая случайная величина U должна характеризовать один и тот же образ (иметь одно и то же распределение) во время всех наблюдений. В случае проверки простых гипотез все наблюдения векто- вектора U должны производиться при одном и том же значении неизвестного параметра в.
446 Гл. 10. Статистические модели, II формулами а12 = f f{x\2)dx, a21= f f{x\l)dx. A0.54) 0k(z)>c2k 0k(z)<clk При заданных вероятностях «12 и «2i эти соотношения служат урав- уравнениями для определения порогов с\и и С2&. Эти уравнения в общем случае можно приближенно решить, вычисляя интегралы для ряда значений c\k и с2к путем статистического моделирования (п. 8.4.7). Число наблюдений, после которых последовательная модель рас- распознавания принимает определенное решение о классе образа, пред- представляет собой случайную величину. Покажем, что при любых ве- вероятностях «12 и «21, с которыми задача распознавания решается оптимальной моделью Неймана-Пирсона при каком-нибудь конечном числе наблюдений п, математическое ожидание числа наблюдений, необходимых для последовательного распознавания с теми же веро- вероятностями ai2 и «21, всегда меньше п. \> Предположим, что при п наблюдениях вектора U оптимальная модель Неймана-Пирсона решает задачу распознавания с вероятно- вероятностями ошибок «12 и «21- Тогда / fn(x\2)dx = «12, / f(x\l)dx = a21. 0n(z)>c 0n(z)<c Пороги cin и С2п на п-м шаге последовательного распознавания с теми же вероятностями ошибок «12 и «2i определяются уравнени- уравнениями A0.34) при к = п. Сравнивая последние равенства A0.54) при к = п, получаем с\п — С2П = с. Вследствие этого последовательная мо- модель распознавания с вероятностью 1 примет определенное решение после не больше чем п наблюдений (событие 0(z) —с практически невозможно; поэтому (п + 1)-го наблюдения заведомо не будет). Одна- Однако последовательная модель может принять определенное решение и раньше, после к < п наблюдений, и вероятность этого события не рав- равна нулю. Следовательно, математическое ожидание случайного чис- числа наблюдений, при котором последовательная модель распознавания примет определенное решение, меньше п. <\ Пример 10.9. Предположим, что в условиях примера 10.6 вектор X представляет собой совокупность результатов к независимых наблюдений случайного вектора U, X = [U^ ... U^ ]T. В этом случае выражение при- примера 10.8 для дискриминантной функции принимает вид к вк{г) = Y,WT(L^ - Ь^)щ + (hjLI1 - ЬТ2Ь^)щ1 (I) где /ii,/i2 — условные математические ожидания, а Li,L2 — условные ко- ковариационные матрицы вектора U для образов двух классов.
10.4- Модели распознавания 447 В частном случае, когда L\ — L2 = Ь, формула для (I) принимает вид к 0k(z) = J2(hi -^^''щ (II) г=1 и формулы для условных математических ожиданий и дисперсий величины J2 (ш) г=1 дают ,Hk=k(tf -hl)L-xhu H2k = k(h{-h%)L-1h2, (IV) Dk=k{hl -hZ)L-1(h1-h2). (V) Полагая для краткости (/if — h^)L~1hi — Ai, (/if — h^)L~1h2 = A2, будем иметь из (IV) и (V) /iifc=&Ai, }J>2k = к\<2, Dk=k(\i — \2). (VI) Уравнения A0.54) для определения порогов cifc и С2/е в этом случае имеют вид Фу1ь(А1-А2))=1 ~1' $Vv/fc(A1-A2)J = 2~ai2- (VH) Обозначив аргументы функции Лапласа, при которых справедливы эти ра- равенства, соответственно v\ и z/2, получим с1к = k\i - viy/k(Xi - А2), с2к = кХ2 + i/2у/к(Х± - А2). (VIII) Следовательно, - Л2) - fc(Ai - Л2). (IX) Отсюда видно, что число наблюдений п, при котором ап ^ С2п, определя- определяется неравенством (^f (X) Наименьшее целое число п (всегда положительное вследствие того, что Ai > A2), удовлетворяющее этому условию, и будет максимальным возмож- возможным значением случайного числа наблюдений, необходимых для того, что- чтобы последовательная модель распознавания приняла определенное реше- решение. Математическое ожидание числа наблюдений для последовательной модели распознавания будет всегда меньше п. Последовательный анализ можно считать началом теории управ- управления экспериментальными исследованиями. В последовательном анализе Валь да управление состоит в том, что в зависимости от результатов проведенных опытов на каждом шаге решается, про- продолжать опыты или прекратить их и принять определенное ре- решение о принадлежности результатов наблюдений определенному классу. В более общих и сложных задачах управление должно вклю- включать и решение о том, какие именно экспериментальные исследова- исследования следует провести, в зависимости от результатов обработки уже
448 Гл. 10. Статистические модели, II проведенных опытов. В таком плане теория управления эксперимен- экспериментальными исследованиями сейчас еще только начинает развиваться. Обобщение методов последовательного анализа содержится в стати- статистической теории решений, основы которой также были заложены Вальдом [15]. 10.5. Модели принятия решений 10.5.1. Задача принятия решений. Все задачи, решаемые мо- моделями любого назначения, можно рассматривать как задачи приня- принятия решений. Так, например, регрессионная модель по данному зна- значению величины х вырабатывает оценку величины Y, т.е. принимает решение о том, какое значение следует приписать величине Y. Модель распознавания по наблюдаемому значению х величины X определя- определяет, к какому классу следует отнести соответствующий этому х образ, т.е. принимает решение о том, какому классу принадлежит наблюда- наблюдаемый образ. Точно так же любую задачу оценивания можно рассмат- рассматривать как задачу решения о том, какие значения следует приписать неизвестным статистическим характеристикам, имея в своем распоря- распоряжении результаты наблюдений. Эти соображения привели Валь да к разработке основ общей статистической теории решений [15]. В даль- дальнейшем эта теория начала распространяться в направлении разра- разработки методов обоснования решений, принимаемых людьми во всех областях деятельности человека, т.е. методов построения моделей процессов обоснования и принятия любых решений. Сейчас теория решений интенсивно развивается и составляет один из важнейших разделов общей теории управления [4, 21, 52, 61, 80]. В простейших задачах решения принимаются при полной ин- информации о возможных последствиях различных решений. Так, на- например, при построении регрессионной модели в случае известного совместного распределения величин X и Y полностью известно рас- распределение ошибок модели (отклонений от регрессии). При постро- построении модели распознавания в случае известных условных плотно- плотностей f(x\k) (к = 1,..., N) можно вычислить вероятности ошибок всех видов, а если известны также и априорные вероятности появле- появления образов различных классов р\,..., pjy, то и полную вероятность ошибки q. Однако в большей части задач практики решения приходится при- принимать при неполной информации. Так, например, при построении регрессионной модели в случае, когда распределение величин X и Y не известно или зависит от неизвестных параметров, распределение ошибки модели остается в той или иной степени неопределенным. Точ- Точно так же при построении модели распознавания в случае, когда ри и f(x | к) (к = 1,..., N) не известны или зависят от неизвестных па-
10.5. Модели принятия решений 449 раметров (при проверке сложных гипотез), точно вычислить вероят- вероятности ошибок разных видов невозможно. Еще больше неопределенности в задачах принятия решений людь- людьми, участвующими в управлении. В таких задачах возможные послед- последствия различных решений большей частью трудно, а иногда невоз- невозможно оценить. Решение приходится принимать в условиях неопре- неопределенности. Задача науки при этом состоит в том, чтобы определить наиболее разумные варианты решений, связанные с наименьшим рис- риском неудач и потерь. Мы говорим здесь о наиболее разумных, а не об оптимальных решениях потому, что решения, как правило, прихо- приходится оценивать с различных точек зрения. Решения, оптимальные с одной точки зрения, могут оказаться плохими с другой точки зрения. Поэтому выбор определенного решения практически всегда связан с необходимостью компромисса между разными, подчас противоречи- противоречивыми требованиями. 10.5.2. Риск и функция потерь. Для построения теории ре- решений необходимо прежде всего ввести какую-то меру качества реше- решения. Пусть х совокупность всех величин, характеризующих исходные данные для принятия решения (т.е. всю информацию, которой мы рас- располагаем для принятия решения — входной сигнал модели решения), z — совокупность всех величин, характеризующих решение (выход- (выходной сигнал модели решения). Качество решения можно характеризо- характеризовать функцией двух переменных r(z\x), определяющей потери (или проигрыш), к которым приводит решение z при данном х. Эту функ- функцию обычно называют риском, связанным с решением z при данном х (стоимостью или ценой решения z при данном х) *). Пример 10.10. В случае оценивания регрессии путем минимизации среднего квадрата ошибки при данном х качество модели характеризуется квадратом модуля ошибки \z — Y\2. Определив риск формулой ф | х) = M[\z - У |2 \x] = J\z- y\2f(y I х) dx, можно свести задачу п. 9.2.1 к минимизации риска. Пример 10.11. В случае распознавания по максимуму апостериорной вероятности с правильным решением можно связать нулевые потери, а ошибке любого вида приписать потери, равные 1. Определив таким путем функцию потерь А « = у, 0 при *) Вместо риска часто вводят полезность решения z при данном х — функцию u(z | ж), характеризующую выигрыш (прибыль), к которому при- приводит решение z при данном х. Однако с математической точки зрения это одно и то же, так как при данной полезности решения u(z\x) всегда можно определить риск, положив r(z\x) = ro — u(z\x), где г о — произволь- произвольное число, и таким путем свести задачу максимизации полезности к задаче минимизации риска.
450 Гл. 10. Статистические модели, II можно определить риск формулой _ , Pkf{x\k) r(z\x) = M[l(Y,z)\x] = . N Ё Pif(x\i) Тогда задача построения оптимальной детерминированной модели распо- распознавания сведется к минимизации риска. Пример 10.12. Задача оценивания неизвестного параметра в методом максимума правдоподобия и. 7.2.1 сводится к минимизации риска, опреде- определяемого формулой r(z\u) = го -g(u\z), где д(и\в) — функция правдоподобия, а г о — произвольная постоянная. Способы определения риска в примерах A0.10) и A0.11) пред- представляют собой частные случаи общего способа определения риска в задачах оценивания случайных величин. Этот общий способ состоит в том, что для любых возможных значений yyz случайной величи- величины У и ее оценки Z потери оцениваются значением некоторой функ- функции l(y,z). Эта функция называется функцией потерь. При задан- заданной функции потерь риск определяется как условное математическое ожидание функции потерь при данных значениях х и z: r(z | х) = M[l(Y, z)\x} = Jl(y, z)f(y | x) dx. A0.55) В примере A0.10) l(y, z) — \z — y\2, а в примере A0.11) l(y, z) — 1 — Syz (y,z = 1,... ,N). Другими примерами применяемых в задачах прак- практики функций потерь могут служить l(y, z) = 1 — ехр{—k2\z — у|2}, l(y,z) = 1 - 1/A + k2\z -y\2), l(y,z) = lij при у = г, z=j (i, j = = 1,...,7V). Если за функцию потерь принять индикатор некоторо- некоторого множества, l(y,z) — 1a(z)(v)i to риск будет равен условной вероят- вероятности попадания случайной величины Y на это множество при дан- данных жиг: (z\x)= flA(z)W(y\x)dy= I f(y\x)dy = P(YeA(z)\x). A(z) При этом чаще всего за множество A(z) принимают круг некоторого радиуса а с центром в точке z в пространстве значений величины Y (интервал (z — a,z + a) в случае скалярной величины Y). При этом риск определяется формулой r(z\x) = P(\Y -z\ >a\x). Формулу A0.55) можно формально распространить и на задачи оценивания неслучайного параметра у = 0. Для этого достаточно под- подставить в A0.55) выражение условной плотности f(y \ х) из формулы
10.5. Модели принятия решений 451 умножения плотностей D.23) и воспользоваться формулой D.8). То- Тогда получим ф | х) = Jl(y, z)h{y)h{x | у) dy j Jf2(y)fi(x I y) dy. В случае равномерного распределения Y в некоторой области В функ- функция /2B/) постоянна в области ??, вследствие чего предыдущая фор- формула принимает вид I(y,z)f1(x\y)dy / fi(x\y)dy. ' j в в Если функция f(x | у) интегрируема по у по всему пространству зна- значений величины У, то можно формально перейти к пределу, когда область В неограниченно расширяется и стремится совпасть со всем пространством значений величины Y. В результате получаем ф | х) = Jl(y,z)f1(x\y) dy / Jh(x\ y)dy. A0.56) Эта предельная формула имеет смысл только тогда, когда у представ- представляет собой неслучайный параметр, так как никакая случайная вели- величина не может быть равномерно распределенной на всем простран- пространстве ее значений. Поэтому формулой A0.56) обычно определяют риск в задачах оценивания неслучайных параметров (или параметров, от- относительно которых не известно, случайны они или нет). Положив, в частности, l(y, z) — tq — 5(z — у), получаем r(z \ х) = tq — c(x)fi(x \ z), где через с(х) обозначена обратная величина интеграла в знаменателе формулы A0.56). Таким образом, взяв в качестве функции потерь отрицательную E-функцию — S(z — у), можно свести оценивание параметров по мето- методу максимума правдоподобия к минимизации риска. Постоянное сла- слагаемое го и лшожитель с(ж), зависящий только от значения х наблю- наблюдаемой величины X, при этом не играют никакой роли, и г о вводится только для того, чтобы формально не получать отрицательных зна- значений риска (с математической точки зрения без потери общности всегда можно принять го = 0, так же как и в примере 10.12). В задачах решения, в которых целью не является выработка оцен- оценки какой-нибудь случайной или неслучайной величины, риск нель- нельзя определить с помощью функции потерь так, как это делается в задачах оценивания. Поэтому в таких задачах приходится непосред- непосредственно определять риск r(z | х) как функцию исходных данных х и решения z. Сейчас разрабатываются методы определения риска (или полезности) для различных задач принятия решений с учетом инди- индивидуальных предпочтений и черт характера людей, которые должны принимать решения [61, 80].
452 Гл. 10. Статистические модели, II Если риск представляет собой скалярную величину (задача реше- решения однокритериалъна), то имеет смысл говорить об оптимальном решении, минимизирующем риск. Однако во многих задачах прак- практики при выработке решения приходится руководствоваться многи- многими критериями, которые невозможно свести к одному скалярному критерию (многокритериальные задачи решения). В таких случаях риск представляет собой векторную функцию и об оптимальных ре- решениях, строго говоря, речи быть не может. Действительно, в общем случае не существует решения, для которого все координаты вектор- векторного риска одновременно имеют минимальные возможные значения. Тем не менее на практике часто говорят об оптимизации по вектор- векторным критериям, подразумевая под этим выработку приемлемого ре- решения, достаточно хорошего с точки зрения всех скалярных крите- критериев. Существует ряд методов для выработки таких приемлемых ре- решений [29]. Все они в той или иной степени включают определение решений, оптимальных с точки зрения каждого скалярного крите- критерия по отдельности. Поэтому мы рассмотрим здесь кратко основные принципы построения моделей решения, основанных на минимизации какого-нибудь одного критерия (скалярного риска). Методы увязки таких частных оптимальных решений и нахождения приемлемых ре- решений с учетом нескольких критериев увели бы нас далеко за рамки этой книги, и мы их рассматривать не будем. 10.5.3. Оптимальные решения. Рассмотрим сначала задачу оптимизации решения, не ограничивая класс возможных решений. При этом мы должны будем рассматривать не только детерминиро- детерминированные, но и стохастические модели решения. Стохастическая модель вырабатывает решение, представляющее собой реализацию случай- случайной величины Z, в соответствии с некоторым распределением. Это распределение, конечно зависящее от входного сигнала х как от па- параметра, называется решающей функцией стохастической модели ре- решения. Поскольку мы рассматриваем здесь только конечномерные случайные величины, можно считать, что решающая функция задает- задается плотностью S(z\x). Детерминированная модель, вырабатывающая определенное решение z = ц>(х), представляет собой частный случай стохастической модели, когда S(z | х) = S(z — ц>{х)). Для стохастической модели риск как функция случайного реше- решения Z сам представляет собой случайную величину r(Z \ х). Поэтому оптимальной стохастической моделью называется модель, минимизи- минимизирующая математическое ожидание риска (т.е. средний риск) при дан- данном х р{8 | х) = M[r(Z \x)\x]= fr(z\ x)S(z | х) dz. A0.57) Без всяких выкладок ясно, что если существует такая функция z = (р(х), при которой риск г(ср(х) \х) имеет наименьшее возмоэю-
10.5. Модели принятия решений 453 ное значение r((p(x) \x) = inf r(z \x) при любом ж, то детерминиро- детерминированное решение z = ср(х) будет оптимальным среди всех возможных решений и никакая стохастическая модель не моэюет быть лучше детерминированной, принимающей z = (р(х) при любом х. К этому же выводу приходим и математически. Если г(ср(х) \х) = infr(z\x), то r(z x) ^ r((f(x) | х) при любых х и z, вследствие чего рE | х) ^ / г(ср(х) | xM(z \x)dz = r(ip(x) \ x) для любой решающей функции S(z \ х). Так как условное математическое ожидание my(x)=M[Y\x] представляет собой функцию, для которой средний квадрат ошибки M[\z — Y\2 \х] достигает точной нижней грани при всех х (п. 3.2.4), М[\ту(х) - Y\2 | х] = inf M[\z - Г|2 | х], то из доказанной теоремы следует, что никакая стохастическая лю- дель прогноза или оценивания случайной величины Y по результа- результатам наблюдения х не моэюет быть лучше оптимальной детерми- детерминированной модели, работающей по регрессии. Этот вывод дополняет результаты п. 9.2.1. Точно так же в задаче распознавания п. 10.4.3 существует функ- функция у(х) = к при pkf(x | к) = max{pif(x | /)} (к = 1,..., N), минимизирующая риск примера 10.11 при всех х. Поэтому не суще- существует стохастической модели распознавания, лучшей, чем оптималь- оптимальная детерминированная модель. Если при любом х существует непустое множество Dx = {z :r(z\x) =utfr(z' \х)}, то любое распределение вероятностей, полностью сосредоточенное на множестве Дт, будет решающей функцией стохастической оптималь- оптимальной системы, так как для любой плотности вероятности S(z \ х), рав- равной 0 вне Dx, р{5 | х) = / r(z | x)S(z | х) dx — inf r(z \ x). В этом случае существует бесчисленное множество оптимальный си- систем, как детерминированных, так и стохастических, и все они рав- равноценны, средний риск рE \ х) для них имеет одно и то же значение. Если точная нижняя грань inf r(z \ x) не достигается ни при каком конечном z в области возможных значений ж, то оптимального ре- решения не существует. Однако по определению точной нижней грани
454 Гл. 10. Статистические модели, II всегда существуют значения z, при которых риск r(z \ х) как угодно близок к точной нижней грани. Поэтому для произвольного е > 0 су- существует множество значений z, для которых риск r(z\x) отличается от своей нижней грани при данном х не больше чем на г: D% = {z :infr(z\x) -infr(z'\x) <г}. Для любой плотности S(z\x), равной 0 вне области DJ, р(8 | х) — I r(z | x)S(z | х) dx < inf r(z \ x) + e. Таким образом, всегда существует бесконечное множество решений, как детерминированных, так и стохастических, как угодно близких к оптимальному (в том смысле, что средний риск для них как угод- угодно близок к своей точной нижней грани). Все эти решения с прак- практической точки зрения не отличаются от оптимального. Поэтому с практической точки зрения всегда существует множество оптималь- оптимальных решений, даже тогда, когда математическая задача оптимизации не имеет решения. 10.5.4. Оптимальные решения в данном классе функций. Если оптимальное детерминированное решение ищется в ограничен- ограниченном классе функций Ф, то в общем случае оно не может быть оп- оптимальным при каждом данном значении х. В таких случаях, как и в п. 9.2.1, приходится ставить задачу минимизации среднего риска в данной области изменения х. Так же как и в п. 9.2.1, приходим к выводу, что при любом методе осреднения r(z\x) можно считать х значением случайной величины X и минимизировать Mr(z(Z) | X). Пример 10.13. В условиях примера 10.10 оптимальное детерминиро- детерминированное решение z(x) в данном классе функций Ф определяется из условия минимума величины Mr(z(Z) \X) = jh0*0dxf\z(x)- yff(y |x)dx. 10.5.5. Принятие решений в условиях неопределенности. Оптимальные или близкие к оптимальным модели решения, мини- минимизирующие средний риск, могут быть реализованы или хотя бы исследованы только в том случае, когда риск r(z \ х) представляет собой известную функцию. Однако во многих задачах риск невоз- невозможно определить как известную функцию, так как при одних и тех же значениях х и z последствия решения z точно определить (прогнозировать) невозможно, вследствие того что они зависят от многих неизвестных факторов, как случайных, так и неслучайных. Если действие всех этих факторов можно охарактеризовать в каждом конкретном случае конечным набором чисел, то риск иногда удается
10.5. Модели принятия решений 455 представить как известную функцию ж, z и неизвестного векторного параметра 0 (параметризовать риск). Обозначим его через r(z\x,0). Тогда и средний риск при данной решающей функции S(z\x) будет зависеть от 0: рE | ж, 0) = Г r(z | ж, 9)S(z | х) dx. A0.58) Минимизация среднего риска в этом случае даст оптимальную ре- решающую функцию Sg(z\x), тоже зависящую от 0. Вследствие этого такая оптимальная решающая функция не может быть реализована. Однако соответствующее оптимальной решающей функции значение среднего риска р(8в \х,в) можно использовать для оценки качества неоптимальных решений, принимаемых при отсутствии полной ин- информации о значении 0. Для любой решающей функции S(z\x) потери вследствие неопределенности можно при каждом данном значении 0 оценить разностью А(х,в) = рE\х,0) - рEв\х,в), а относительные потери — отношением А(х,в)/р(8о |ж,0). Для оптимизации решений в условиях неопределенности приме- применяются два основных подхода. Первый подход основан на том, что 0 считается значением некоторой случайной величины 0 и риск заменя- заменяется его математическим ожиданием при данных х и z. Второй подход основан на том, что при каждой паре значений ж, z риск заменяется его точной верхней гранью для всех возможных значений 0. Предполагая, что 0 представляет собой значение случайного век- вектора 0, а входной сигнал х — значение случайного вектора X, зададим априорную плотность а{9) вектора 0 и условную плотность р(х | 0) вектора X при данном 0. Тогда апостериорная плотность ьо{в\х) опре- определится в соответствии с D.23) и D.8) формулой х) = а(в)р(х | 0) / / а(г))р(х \ rj) dr}. A0.59) Математическое ожидание риска при данных х и z определится фор- формулой n(z\x)= [r(z | ж,в)ьо{в | х) d9. A0.60) Заменив в A0.58) риск r(x\z,6) его апостериорным математиче- математическим ожиданием Т\ (z \ х), можно искать оптимальные или близкие к оптимальным решения, минимизирующие математическое ожида- ожидание ri(Z | х) при данном ж, pi(8\x) — M\r\{Z \x) \x]. Формула A0.59) представляет собой очевидное обобщение форму- формулы Бейеса A.23). Поэтому подход, основанный на замене риска его апостериорным математическим ожиданием, обычно называется бей- есовым, а оптимальные решения в этом случае называются бейесовы- ми решениями.
456 Гл. 10. Статистические модели, II Качество бейесова решения можно характеризовать апостериор- апостериорным математическим ожиданием разности А(х,в) = p(S | х,в) — -p(Se \х,в): = [A(x,0)u>@\x)d0. Слабостью бейесова подхода является необходимость задания априорного распределения а(в), для определения которого обычно нет никаких данных. Поэтому его приходится задавать произвольно, в частности, принято считать его равномерным в достаточно широ- широкой области. Эта априорная неопределенность приводит к некоторой неопределенности в соответствующих оптимальных решениях. Одна- Однако, если размерность вектора х значительно больше размерности век- вектора в (не меньше чем на 20 -г 30), то апостериорная плотность и(в\х) практически не зависит от априорной плотности а (в) и найденные из- изложенным способом оптимальные и близкие к оптимальным решения практически не зависят от а (в). Это в известной мере оправдывает бейесов подход. Поэтому он широко применяется на практике. Желание усовершенствовать бейесов подход, освободить его от априорной неопределенности привело к появлению эмпирического бейесова подхода, основная идея которого состоит в том, чтобы пу- путем проведения дополнительных опытов получить возможность оце- оценивать uj{9 | х) без знания а(9) [22, 88-91]. Если отказаться от предположения, что в — возможное значе- значение некоторой случайной величины, то естественно рассчитывать на наихудшее стечение обстоятельств. В этом случае при любых х и z риск r(z\x,0) заменяется точной верхней гранью множества значе- значений r(z | ж, #), соответствующих всем возможным значениям в, т.е. ве- величиной r2(z \ х) — supr(z \ х,в). в Заменив в A0.58) риск r(z | ж, в) его верхней гранью r2{z \ ж), можно ис- искать оптимальные и близкие к оптимальным решения, минимизирую- минимизирующие среднее значение r2(z | х) при данном ж, р2E \ х) — M[r2(Z \x) \х]. Оптимальные решения при таком подходе минимизируют макси- максимально возможное значение риска. Поэтому подход, основанный на замене риска его верхней гранью, обычно называется минимаксным, а оптимальные решения в этом случае называются минимаксными решениями. Качество минимаксного решения естественно характеризовать верхней гранью разности А(х,в) = р{5 \х,в) — р(8д \х,в): А2(х) = sup А(х,в). в Достоинством минимаксного подхода является то, что он не тре- требует задания каких-либо произвольных функций. Его недостаток со-
10.5. Модели припятия решений 457 стоит в том, что он основан на расчете на наихудшее стечение обстоя- обстоятельств, которое, как правило, маловероятно. Поэтому минимаксные решения, минимизируя максимальные возможные потери, часто при- приводят к излишне большим потерям — малым выигрышам — при наи- наиболее вероятных реальных стечениях обстоятельств. Иными словами, минимаксные решения чересчур осторожны. 10.5.6. Обучение моделей принятия решений. Если неопре- неопределенность слишком велика, т.е. разброс возможных значений риска при данном х слишком велик для любого решения z, то можно поста- поставить вопрос о получении дополнительной информации для принятия решения с целью уменьшения неопределенности. Чем больше допол- дополнительной информации получено, тем меньше будут потери. Однако получение любой информации связано с затратами средств и време- времени, что приводит к увеличению потерь. Таким образом, получение дополнительной информации приводит, с одной стороны, к умень- уменьшению ожидаемых потерь за счет возможных последствий прини- принимаемого решения, а с другой стороны, к увеличению потерь за счет стоимости информации. Поэтому возникает задача определения опти- оптимальной дополнительной информации, при которой суммарные ожи- ожидаемые потери минимальны. Пусть и — вектор, определяющий дополнительную информа- информацию, с(и \ х) — затраты на получение информации и, приведенные к тем же единицам, в которых измеряется риск, т.е. потери, связанные с возможными последствиями принимаемого решения. Функция с(и \ х) в общем случае зависит от значения вектора и, от его размерности, характеризующей объем получаемой информации, и от того, какие именно величины служат его координатами. При бейесовом подходе 6, х и и считаются возможными значе- значениями некоторых случайных векторов 0,Х и U и для них задают- задаются априорное распределение а(в) вектора 0, условное распределе- распределение р(х | в) вектора X при данном в и условное распределение q(u\x,6) вектора U при данных х и в. Определив апостериорную плотность вероятности со(в \х,и) = а(в)р(х | 6)q(u | ж, в) I I a(rj)p(x \ rj)q(u | ж, 77) drj, можно заменить в A0.58) риск его апостериорным математическим ожиданием , и) = fr(z\x,0)ujF\x,u)d6 и после этого искать оптимальные или близкие к оптимальным реше- решения, которые, конечно, будут зависеть от и. Поэтому обозначим опти- оптимальную решающую функцию через Su(z \ х). Суммарные потери для модели с такой решающей функцией при данных значениях х,0 и и
458 Гл. 10. Статистические модели, II определяются формулой R(SU | ж, и, в) = рEи \ х, и, в) + с(и | х) = = [r(z\x,6)Su(z\x)dz + c(u\x). A0.61) Однако значение вектора и, так же как и значение параметра в, зара- заранее, до получения дополнительной информации, не известно. Поэтому для принятия решения о получении дополнительной информации, о ее составе и объеме необходимо определить средние потери, т.е. ма- математическое ожидание потерь с учетом случайности величин Q и U. Для этого следует умножить A0.61) на совместную плотность вели- величин 0 и U при данном х и проинтегрировать по в и и. В результате получим средние суммарные потери при данном х: СП (х) = И REU | ж, и, в)со(в | x)q(u \ яг, в) d9 du. A0.62) В ряде задач решение о получении дополнительной информации приходится принимать до того, как будут известны исходные данные для принятия решения, т.е. вектор х. В таких случаях необходимо определить средние потери с учетом случайности всех, трех вели- величин 0,С/ и X. Для этого следует умножить A0.61) на совместную плотность величин 0,[/и1и проинтегрировать по в,и и х. Тогда получим средние суммарные потери СП (х) = HI R(SU | ж, и, в)а(в)р(х | 6)q(u \ ж, в) d9 dx du. A0.63) Задача определения оптимального объема и состава дополнитель- дополнительной информации сводится к минимизации величины A0.62) или A0.63) путем выбора состава (конкретного содержания) и раз- размерности вектора и. При минимаксном подходе получение дополнительной информа- информации суживает пределы возможных значений в и, следовательно, при- приводит к уменьшению верхней грани риска, т.е. к замене r^iz \ х) вели- величиной n(z\x,u) = sup r(z\x,9), вев(и) где В (и) — область возможных значений в при данном и. Получа- Получаемое в результате оптимальное решение тоже зависит от и. Поэто- Поэтому, как и в предыдущем случае, обозначим оптимальную решающую функцию Su(z | х). Суммарные потери для модели с такой решающей функцией при данных значениях х,6 ни определяются форму- формулой A0.61). Продолжая последовательно идею минимаксного подхо- подхода, будем вести расчет при неизвестных ж, в и и на наихудший случай,
10.5. Модели принятия решений 459 т.е. по максимальным суммарным потерям а2{х) = sup sup R(Su\x,u,6). A0.64) Если решение о получении дополнительной информации принимается до того, когда становится известным ж, то величина (J2(x) должна быть заменена величиной сг2(.х) =sup sup R(Su\x,u,6). A0.65) х,и вев{и) Задача определения оптимального состава и объема информации в этом случае сводится к минимизации величин A0.64) или A0.65) путем выбора состава и размерности вектора и. Улучшение качества решения путем ввода в модель дополнитель- дополнительной информации — вектора и — представляет собой обучение модели решения. Оптимизация процесса обучения достигается минимизацией одного из выражений A0.62)-A0.65) в зависимости от метода постро- построения модели и условий ее применения (обучение до применения или обучение в процессе применения после наблюдения каждого очередно- очередного значения х). Бейесов подход к проблеме обучения автоматических систем развит в [75-80]. Кроме рассмотренных подходов к обучению модели принятия ре- решений, возможны и другие подходы, основанные на различных мето- методах оценивания неизвестных параметров. В связи с этим возможны и другие постановки и методы решения задачи оптимизации процесса обучения модели. Наконец отметим, что кроме рассмотренных задач оптимизации без ограничений, в теории решений возникают задачи оптимизации решений при различных ограничениях. Ограничения могут наклады- накладываться на множество допустимых решений, как в примере 10.13, или на область допустимых значений z, или на какие-либо другие функ- функции вида s{z\x) (например, на другие координаты векторного риска). Методы решения таких задач также разрабатываются в современной теории статистических решений.
ПРИЛОЖЕНИЕ 1. Импульсная дельта-функция и ее производные Чтобы прийти к понятию импульсной E-функции путем предельного перехода, рассмотрим функцию {— при \х < I, 2^ (П.1.1) О при |ж| > I. Эта функция называется в приложениях единичным прямоугольным им- импульсом. Очевидно, что при любом е > I г О f 8i[x)dx= 18i[x)dx= i. (П.1.2) 0 e Пусть (f(x) — любая непрерывная функция. Вычислим интегралы ь ь / ср(х) 8i(u — x) dx, / ip(x) 8i(x — и) dx. а а На основании (П.1.1) при любом и G (a + l,b — I) Ъ Ъ и+1 (p(x)8i(u — x)dx = ip(x)8i(x — и) dx = — / (p(x)dx. a a u — l Применив к последнему интегралу теорему о среднем, получим ъ ъ / ср(х) 8i(u - х) dx = (p(x) 8i(x - u)dx = ip(x0), (П.1.3) а а где Хо G (и — I, и + I). При любом и ф (а + l,b — I) оба интеграла равны ну- нулю. Наконец, ъ ъ I (p(x) 8i(a - х) dx = I (р(х) 8г{х - a) dx = - (р(х'о), (П.1.4) I (р(х) 8i(b - х) dx = I ip{x)8i{x -b)dx = -(р(хо), а а где х'о е (а,а + I), х'? е (Ь - I, b).
1. Импульсная дельта-функция и ее производные 461 Перейдем теперь в предыдущих формулах к пределу при I —» 0. Ясно, что Si(x) при этом не имеет предела в обычном смысле. Однако все инте- интегралы в (П. 1.3) и (П. 1.4) имеют вполне определенные пределы. Формальный переход к пределу в (П.1.3) и (П.1.4) при I —» 0 дает ь ъ I ip(x) 8(и - х) dx — I ip(x) 6(x -u)dx = ip(u), u ? (а> &)? (П.1.5) а а Ъ Ъ I ip(x) 8 (а — х) dx — I (f(x) S(x — a) dx = - (f(a), о о Г ф) 8(b -x)dx= I ф) 5(х - Ь) dx = ^ <р{Ъ). (П.1.6) При г^ ^ [а, 6] оба интеграла в (П.1.5) равны 0. Положив в первой формуле (П.1.6) а = 0, Ь = ?, а во второй а = — е, 6 = 0, получим при (р(х) = 1 е О / S(x)dx = / 9?(ж)E(ж)с?ж = - при любом е > 0. (П.1.7) О -е Функция ^(ж) представляет собой предел функции Si(x) при 1->0в том смысле, что для любой непрерывной функции <р(х) оо оо Г <p(x)8(x)dx = \im f <p(x) 8i(x) dx. (ILLS В таких случаях говорят, что 8i(x) слабо сходится к 8(х) и 8(х) представляет собой слабый предел функции 8i(x). Таким образом, обобщенную функцию S(х) можно определить совер- совершенно строго как слабый предел обычной функции 8i(x). Так определен- определенная функция 8(х) называется импульсной дельта-функцией или, короче, 5- функцией*). Формулы (П.1.5), (П.1.6) и (П.1.7) представляют собой опре- определяющие свойства E-функции. Заметим, что интегралы в (П.1.5)-(П.1.8) по определению представля- представляют собой пределы соответствующих интегралов, содержащих функцию 8i вместо E-функции, при I —> 0. Только так следует понимать интегралы от обобщенных функций. Из (П.1.5) и (П.1.6) при <р(х) = 1 следует, что интеграл от E-функции в пределах от — оо до оо представляет собой единичную ступенчатую функ- функцию: I 0 при и < 0, Г 8(х) dx = 1(и) = <\ ПРИ и = 0, l при и>0, *) Дельта-функция были впервые введена в науку известным англий- английским физиком Дираком. Поэтому ее часто называют дельта-функцией Ди- Дирака.
462 Приложение Отсюда следует, что ^-функция представляет собой производную единич- единичной ступенчатой функции. Совершенно так же, взяв четную функцию Si(x), имеющую непрерыв- непрерывные производные до порядка р включительно, определим производную S- функции порядка р как слабый предел функции б\р (ж). При этом для лю- любой функции (р(х), непрерывной вместе со своими производными до поряд- порядка р включительно, будет справедлива формула оо оо [ ф) ё(р)(х) dx = (-1)р J ip(p\x)S(x)dx = (-l)pip(p)(O). (П.1.10) — оо —оо Эту формулу можно принять за определение р-й производной ^-функции. Из (П.1.10) следует, что для любого и ? (а,Ь) и для любой функ- функции (р(х), непрерывной вместе со своими производными до порядка р вклю- включительно, ь ъ ф) ё(р)(и -x)dx = (-1)р j ф) 5{р\х -u)dx = (-1) VPV)- (П.1.11) а Эти формулы получаются также из (П. 1.5) формальным дифференциро- дифференцированием по и. Таким образом, в интегралах, содержащих ^-функцию или ее производные, можно выполнять дифференцирование по параметру под знаком интеграла сколько угодно раз. Аналогично определяется #-функция векторного аргумента. Очевидно, что ^-функцию векторного аргумента х = {х±,... ,хп} можно определить как произведение ^-функций всех координат вектора х: S(x) = S(xi)...S(xn). (П.1.12) Так как ^-функция в силу (П. 1.7) обладает свойством B.11) плотности, то ее можно рассматривать как слабый предел любой четной плотности при стягивании определяемого ею распределения в начало координат: 6(х) = lim hf{hx), (П.1.13) h—>oo где f(y) — любая плотность. В приложениях часто приходится пользоваться представлением ^-функции интегралом Фурье. Чтобы выразить ^-функцию интегралом Фурье, заметим, что любая непрерывная функция <р(х), отличная от нуля только на некотором конечном интервале, может быть представлена инте- интегралом Фурье: оо оо i I j ф)еШх-и) dx. — оо —оо Изменив здесь формально порядок интегрирования, получим
2. Некоторые определенные интегралы 463 Сравнив эту формулу с (П. 1.5) при а = — оо, Ъ = оо и приняв во внимание, что обе формулы справедливы для любой функции (р(х) рассматриваемого типа, приходим к выводу, что оо 6(х) = — [ eiXxd\. (П.1.14) 2тг J — оо Повторив эти рассуждения для случая векторного аргумента ж, по- получим представление ^-функции n-мерного вектора х интегралом Фурье: <AT*dA' (ПЛЛ5) где векторы ж и Л представлены в виде матриц-столбцов. Эта формула получается также из (П.1.14), если выразить ^-функцию вектора х форму- формулой (П.1.12). Интегралы в (П.1.14) и (П. 1.15) расходящиеся. Ясно, что ^-функция не может выражаться сходящимся интегралом, так как любой сходящийся интеграл, зависящий от параметра, представляет собой обычную функцию этого параметра, в то время как ^-функция представляет собой обобщенную функцию. 2. Некоторые определенные интегралы При изучении нормального распределения приходится пользоваться формулами (П.2.2) где г] — в общем случае комплексная величина (скалярная в (П.2.1) и век- векторная в (П.2.2), с — комплексная величина с положительной действи- действительной частью, С — симметричная матрица с комплексными элементами, действительные части которых образуют строго положительно определен- определенную матрицу, \С\ — определитель матрицы С. Для вывода формулы (П.2.1) применим метод дифференцирования ин- интеграла по параметру. Для этого положим 1{П)= Дифференцируя эту формулу по параметру г\ и интегрируя, по частям,
464 Приложение получаем оо ИЛ)' = I texp{4t- C-t2}dt = -\ (П.2.3) Таким образом, мы получили дифференциальное уравнение для I(rj). Что- Чтобы полностью определить I(rj), необходимо добавить к уравнению (П.2.3) начальное условие. Для определения начального условия достаточно вы- вычислить интеграл I(rj) для какого-нибудь одного значения параметра г\. Проще всего вычислить 7@)= ( (П.2.4) Так как этот интеграл не зависит от обозначения переменной интегрирова- интегрирования, то формулу (П.2.4) можно также написать в виде 7@)= J — ОО Перемножая почленно равенства (П.2.4) и (П.2.5), получим 72@)= (П.2.5) — оо оо оо — оо —оо (П.2.6) Рассмотрим сначала случай действительной (а следовательно, положитель- положительной) величины с. В этом случае двойной интеграл (П.2.6) легко вычисляется переходом к полярной системе координат. Положив y/ct = р cos ip, \fcs и имея в виду, что J = получим dt dp ds dp dt dip ds dip 1 V^ 1 COS if sin if P V< p - sin if COS if _ p с
2. Некоторые определенные интегралы 465 Отсюда находим /@)= у exp{-|i2}, (П.2.7) Рассмотрим теперь случай комплексной величины с. Положив — %ю /2 приведем интеграл (П.2.4) к виду 7@)=ехр{-| } (П.2.5 где интегрирование производится по прямой комплексной плоскости, про- проходящей через начало координат под углом ср/2 к действительной оси. Для вычисления полученного интеграла рассмотрим на комплексной плос- плоскости переменной г замкнутый кон- контур, состоящий из отрезка действи- 1т{т} тельной оси @, Я), дуги окружно- (Ret(p/2,0) прямой, по которой про- производится интегрирование в (П.2.8) (рис. П.1). Так как подынтеграль- подынтегральная функция является аналитиче- аналитической функцией, не имеющей особых точек в области, ограниченной этим контуром, то интеграл по этому кон- оГ R Re{r} Рис. П.1 туру равен 0 при любом R. А так как Re{c} > 0 и, следовательно, \(р\ < тг/2 и Re{r2} > 0, то интеграл по дуге окружности (R.Rel<f^2) стремится к 0 при R —>- оо. Поэтому при R —>> оо получаем равенство откуда следует, что О О Аналогично приходим к выводу, что о о Следовательно, / exp{-Mra}dr=/exp{-Mr2}dr. ое^/2 / oei<p/2
466 Приложение Подставив это выражение в (П.2.8) и пользуясь формулой (П.2.7), получаем Таким образом, формула (П.2.7) справедлива и для любого комплексного с с положительной действительной частью. Интегрируя дифференциальное уравнение (П.2.3) при начальном усло- условии (П.2.7), получаем что и доказывает формулу (П.2.1). Для доказательства формулы (П.2.2) приведем матрицу С ортого- ортогональным преобразованием к диагональной форме. В результате полу- получим АТСА = Л, где Л — диагональная матрица, элементами которой служат собственные значения Ai,...,An матрицы С (п — размерность вектора t в (П.2.2) и порядок матрицы С), а А — ортогональная мат- матрица, А1 А = I. Преобразование г] = At;, t = As дает r]Tt = ?тАтAs = ^rs, tTCt = sTATCAs — sTAs, и интеграл (П.2.2) приводится к виду (с учетом равенства \А\ = 1) oo oo / exp(r/Tt - - tTCt) dt= f expjfTs - - sTAs) ds = J I 2 J J I 2 J — oo —oo - ГТ 7 exD-tas* - — — II / CAPisk^k „ u- J к — 1 —oo Таким образом, интеграл (П.2.2) приводится к произведению интегра- интегралов (П.2.1). Пользуясь формулой (П.2.1), находим оо . / ехр(т7Тг- -tTCt\dt = х ^2^П expj-^A^). (П.2.10) J L 2 J у Ai ... An ^ 2 J — ос Подставив сюда выражение ^ = А// = Атт/ и имея в виду, что произведе- произведение собственных значений матрицы равно ее определителю, Ai ... Ап = |С|, и что АЛ^ = (ААА'1)'1 = С, получаем формулу (П.2.2). Аналогично вычисляются следующие определенные интегралы: —, п=1,2,..., с > О, (П.2.11) оо С /*2"+1е* Л=^1+Г' «=1-2,..., ОО, (П.2.12) —1=) (ReOO), (П.2.13)
2. Некоторые определенные интегралы 467 оо I texp(rjt- -t2)dt = ^ J— e^l ^ J— e^l2c (Rec > 0), с у/ с ft2exp(rft- с с У с (П.2.14) (ReО 0, | arg77| < тг), (П.2.15) (ReО 0, |argr;|<7r), (П.2.16) T) / 2тГ С + Г] г?2/2с г ( V Т + А/ -г —:— е 7 ertc с2 V с5 4 V л/2 (ReО 0, |argg| < тг), cospA, 2 J dtn Fl 2 — оо Здесь введены обозначения оо 2 f _t2 erfc z = — е dt — 1 — erf ^, 7Г J erf z = (П.2.17) (П.2.18) (П.2.19) (П.2.20) (П.2.21) (П.2.22)
468 Прилоснсение 3. Таблицы Функция Лапласа Ф(и) = Таблица 1 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1Д 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2Д 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 4,0 4,5 5,0 0 0,0000 0398 0793 1179 1554 1915 2257 2580 2881 3159 3413 3643 3849 4032 4192 4332 4452 4554 4641 4713 47725 48214 48610 48928 49180 49379 49534 49653 49744 49813 0,49865 1 0040 0438 0832 1217 1591 1950 2291 2611 2910 3186 3438 3665 3869 4049 4207 4345 4463 4564 4649 4719 47778 48257 48645 48956 49202 49396 49547 49664 49752 49819 49903 0,499968 0,499997 0,49999997 2 0080 0478 0871 1255 1628 1985 2324 2642 2939 3212 3461 3686 3888 4066 4222 4357 4474 4573 4656 4726 47831 48300 48679 48983 49224 49413 49560 49674 49760 49825 49931 3 0120 0517 0910 1293 1664 2019 2357 2673 2967 3238 3485 3708 3907 4082 4236 4370 4484 4582 4664 4732 47882 48341 48713 49010 49245 49430 49573 49683 49767 49831 49952 4 0160 0557 0948 1331 1700 2054 2389 2704 2995 3264 3508 3729 3925 4099 4251 4382 4495 4591 4671 4738 47932 48382 48745 49036 49266 49446 49585 49693 49774 49836 49966 5 0199 0596 0987 1368 1736 2088 2422 2734 3023 3289 3531 3749 3944 4115 4265 4394 4505 4599 4678 4744 47981 48422 48778 49061 49286 49461 49597 49702 49781 49841 49977 6 0239 0636 1026 1406 1772 2123 2454 2764 3051 3315 3554 3770 3962 4131 4279 4406 4515 4608 4686 4750 48030 48461 48809 49086 49305 49477 49609 49711 49788 49846 49984 7 0279 0675 1064 1443 1808 2157 2486 2794 3078 3340 3577 3790 3980 4147 4292 4418 4525 4616 4693 4756 48077 48500 48840 49111 49324 49492 49621 49720 49795 49851 49989 8 0319 0714 1103 1480 1844 2190 2517 2823 3106 3365 3599 3810 3997 4162 4306 4429 4535 4625 4699 4761 48124 48537 48870 49134 49343 49506 49632 49728 49801 49856 49993 9 0359 0753 1141 1517 1879 2224 2549 2852 3133 3389 3621 3830 4015 4177 4319 4441 4545 4633 4706 4767 48169 48574 48899 49158 49361 49520 49643 49736 49807 49861 49995
3. Таблицы 469 Таблица 2 Производные функции Лапласа Функция Ф'(и) = —7== е~и /2 /2тг 0,0 0,1 0,2 0,3 0,4 0.5 0,6 0,7 0,8 0,9 1,0 1Д 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2Д 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3.7 3,8 3.9 0 0,3989 3970 3910 3814 3683 3521 3332 3123 2897 2661 2420 2179 1942 1714 1497 1295 1109 0940 0790 0656 0540 0440 0355 0283 0224 0175 0136 0104 0079 0060 0044 0033 0024 0017 0012 0009 0006 0004 0003 0002 1 3989 3965 3902 3802 3668 3503 3312 3101 2874 2637 2396 2155 1919 1691 1476 1276 1092 0925 0775 0644 0529 0431 0347 0277 0219 0171 0132 0101 0077 0058 0043 0032 0023 0017 0012 0008 0006 0004 0003 0002 2 3989 3961 3894 3790 3653 3485 3292 3079 2850 2613 2371 2131 1895 1669 1456 1257 1074 0909 0761 0632 0519 0422 0339 0270 0213 0167 0129 0099 0075 0056 0042 0031 0022 0016 0012 0008 0006 0004 0003 0002 3 3988 3956 3885 3778 3637 3467 3271 3056 2827 2589 2347 2107 1872 1647 1435 1238 1057 0893 0748 0620 0508 0413 0332 0264 0208 0163 0126 0096 0073 0055 0040 0030 0022 0016 ООП 0008 0005 0004 0003 0002 4 3986 3951 3876 3765 3621 3448 3251 3034 2803 2565 2323 2083 1849 1626 1415 1219 1040 0878 0734 0608 0498 0404 0325 0258 0203 0158 0122 0093 0071 0053 0039 0029 0021 0015 ООН 0008 0005 0004 0003 0002 5 3984 3945 3867 3752 3605 3429 3230 ЗОИ 2780 2541 2299 2059 1826 1604 1394 1200 1023 0863 0721 0596 0488 0396 0317 0252 0198 0154 0119 0091 0069 0051 0038 0028 0020 0015 0010 0007 0005 0004 0002 0002 6 3982 3939 3857 3739 3589 3410 3209 2989 2756 2516 2275 2036 1804 1582 1374 1182 1006 0848 0707 0584 0478 0387 0310 0246 0194 0151 0116 0088 0067 0050 0037 0027 0020 0014 0010 0007 0005 0003 0002 0002 7 3980 3932 3847 3725 3572 3391 3187 2966 2732 2492 2251 2012 1781 1561 1354 1163 0989 0833 0694 0573 0468 0379 0303 0241 0189 0147 0113 0086 0065 0048 0036 0026 0019 0014 0010 0007 0005 0003 0002 0002 8 3977 3925 3836 3712 3555 3372 3166 2943 2709 2468 2227 1989 1758 1539 1334 1145 0973 0818 0681 0562 0459 0371 0297 0235 0184 0143 ОНО 0084 0063 0047 0035 0025 0018 0013 0009 0007 0005 0003 0002 0001 9 3973 3918 3825 3697 3538 3352 3144 2920 2685 2444 2203 1965 1736 1518 1315 1127 0957 0804 0669 0551 0449 0363 0290 0229 0180 0139 0107 0081 0061 0046 0034 0025 0018 0013 0009 0006 0004 0003 0002 0001
> т—I СО—I СО ^F 00 ^FlOOOCOlO "^F СО т—Н CM CM Tf СМ СО СО О> т—Н 00 1>— 1>— СМ т—I Tf СО т—I О СО 1>— ~ ' " ~ см т—I см см оо ООЮЮО CM O5 H O Ю О t- Ci О т—I t- О tF CO Ci т—1^Юг-1 N ОООЮ О^ I CM О тР 00 О СО Ю О Ю Ci C5 00 Ю CM о оо оо со ^f OftOC I I О т I • I CM CO CO + CM t—I О О О + + + I I О СМ СО^СО СО О> т—Н т—Н т—Н т—Н М М I ^F СО N О Ю ^F т—I CO т—I 00 ООСМ ЮЮ со t^ о т-н ю см t^ т—ion оо т—ir-1 см оо 00 О О т—I СМ Ю(М (МЮО OfCM НОООЮ^ СМ т—I О О т—I t—l О О О MM 03 ИГ СМ т-Н О Ю 00 Ю О 00 С5 т—I _ _. . - О СО 00 О Ю OlOt—ICOO5CM СО СМ О 00 ^F OOOOOLO т—I О Ci 00 00 Ю^О^Ь 000005т—100 _ . . . . _ LOCOCOCiCO ООЬОЮН т—I 00 СО СО О5 СО СО СМ 00 Ci ^FCOOOOO ¦¦ СМ т—iiON H00 0CON О) N ^ О О ^CO^FCMN т—I СО ^ СО СО '¦ ' - - - - 00 N СО Ю СО СМ т—I О О О т—It—It—It—It—I юоооо^ I О 00 N Ю О О О О О т—It—It—I CM CM CM CM r-It—I M M I M M I г-н О О О О О О О т-н О I м +++ + ¦¦"¦ М М М I М М I g s 00 OiCON т-Н t^ t^ CO O5 _ _ со со ^ о со -^FCOLO CMO5CMCM00 т—1т—lOOit^LO СООт—ICO^F t—I Ю t—I t}h CO O5 CM ^f eD ^f О Ci CO CO О т-Н СМ СМ СО О ^COOiOJO Ю LO ^f СО CM ON^(NO ю см т—i ю о t^ O5 CM CO 00 т-н О О О О LO CO C5 Ю О О О1 N 00 СО т-Н СМ СО СО СО . . оою^оо СООСОСМ05 ЬЮЮООН СМ т—I O5 00 СО Ю-^FCOCMCM т-Нт-нООО ----- т-Н т-Н т-Н О О О М ! М М I M M I M I ++ > О N Ю О ^F т—I 00 СО С5 Ю О5 О 00 т—I СО 00 ^F t^OOCO^FCO От—I СО СО т—I 00 CM^F^FCMOO От—I CM CO ^F ^ LOLOLOLO^F оюоооь О5 СО т—I 00 LO СМ Ю О5 т—I т}н ^f СО СМ СМ т-Н т—I Ю т—I О О 00 t^ ^f Ю 00 N т-Н СО N О О О О О т-н см ю см со ^ О СО С5 00 СМ СО "^f "^f f f OONM^OO OIM0 MOM0 CO CM О С5 t- т-Н т-Н т-Н О О О5 СМ С5 О5 СО . _ COlO^FlOOO t—I CO CM O5 Ь- СОЮ-^FCOCM СМ т—1т—I О О I I М М I М М I М М I М М I Oi О ^F т—I СО О со со со со со см со см со ю о O^OO т—I LO О LO О СМ т-Н т-Н О О LO LO 00 СО ^F 00 ¦ ¦ '¦ о о ¦ О 00 00 СО О СО N СО т-Н СМ О CM LO CO О О СО т-Н СО CM LO СО СМ О С5 СМ Ю т-Н т-Н Ю т-Н О О О 00 СО т}н С5 00 О OOMNfOOi Е^ЮСОСМСМ СЧ СМ т—1т—I О — — — I с МММ О С5 00 ^F b- CO О О О т-Н т-Н т-Н CiCOOOLOO СООООСОСО ЮЛНЬО ^O(MN00 СО т—I СМ СО СО 0500т—IO5CM CiCOCMCi^F t^OiCM^FOO СМ00ЮСОСО LOQOCMt^CO О5 т—I CO CO ^F COCOCM005 N Ю \f* (N О Cit^COLOTF СО СМ СМ т—It—I т-Н CM CM CM CM CM CM CM CM t—I - — — — — СМ СО т—I 00 LO СМ т—1т—I О О _____ М М I I I I I I о о о о о М М I М М I М М I М М I Ml C1 О О ^F CO t—I 00 t^ t—I t—I 00 CM со со со со со со СМ СО N т—I О COCMC5COCM со т—i оо со ^t1 сососмсмсм t CiOOCOO OLOCO^fLO CO^FOIO^F CO^ft^CMOi CO ^f CO CM т—I IO5O5 О^ОЮ^ ^Ю00(МЬ COON_^ CO CM т—It—I О — - - — — ^ м оьюю ^t1 со см см т—i т—i т—i о о о _____ _____ От—I CM CO ^F LO COt^OOOiO т—I CM CO ^f LO COr^-OOOiO т—I CM CO ^f lO COt^OOCiO ^^^^^ ^^^^-^ cm"cm"cm"cm"cm" cm"cm"cm"cm"со" t—I CM CO ^f LO COt^OOOiO со"со"со"со"со" со"со"со"со"tjh4
3. Таблицы 471 Таблица 3 Двусторонние границы Т-распределения: значения ?а, определяемые уравнением / Sk(t)dt = a "V а к \. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо од 0,158 142 137 134 132 131 130 130 129 129 129 128 128 128 128 128 128 127 127 127 127 127 127 127 127 127 127 127 127 127 126 126 126 126 0,2 0,325 289 277 271 267 265 263 262 261 260 260 259 259 258 258 258 257 257 257 257 257 256 256 256 256 256 256 256 256 256 255 254 254 253 0,3 0,510 445 424 414 408 404 402 399 398 397 396 395 394 393 393 392 392 392 391 391 391 390 390 390 390 390 389 389 389 389 388 387 386 385 0,4 0,727 617 584 569 559 553 549 546 543 542 540 539 538 537 536 535 534 534 533 533 532 532 532 531 531 531 531 530 530 530 529 527 526 524 0,5 1,000 0,816 765 741 727 718 711 706 703 700 697 695 694 692 691 690 689 688 688 687 686 686 685 685 684 684 684 683 683 683 681 679 677 674 0,6 1,376 1,061 0,978 941 920 906 896 889 883 879 876 873 870 868 866 865 863 862 861 860 859 858 858 857 856 856 855 855 854 854 851 848 845 842 0,7 1,963 1,336 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,050 1,046 1,041 1,036
472 Приложение Таблица 3 (окончание) ч\ а к\ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 0,8 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,282 0,9 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,645 0,95 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,103 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,960 0,98 31,821 6.965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,326 0,99 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,576 0,999 636,619 31,598 12,941 8,610 6,859 5,959 5,405 5,041 4,781 4,587 4,487 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,767 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,373 3,291
3. Таблицы 473 Таблица 4 Двусторонние границы х2-распределения: значения sa, к/A-еаJ+ определяемые уравнением / Pk(z) dz = a *) /с Х^ 1 2 3 4 5 6 7 8 9 10 12 14 16 18 20 25 30 35 40 45 50 60 70 80 90 100 150 200 250 500 1000 0,5 0,568 367 290 248 221 200 185 173 162 153 140 130 122 115 108 096 088 085 076 071 068 062 057 054 051 048 040 034 031 022 016 0,6 906 473 370 306 277 251 232 216 202 192 176 162 150 143 136 122 111 101 095 089 084 077 072 067 063 060 050 042 038 028 019 0,7 1,602 0,678 482 398 348 308 290 269 252 239 218 290 188 177 168 148 137 127 119 112 105 095 088 082 078 074 060 053 048 031 025 0,8 2,946 1,125 0,730 563 475 416 380 354 329 304 276 252 236 223 210 187 172 156 146 139 133 122 112 103 096 092 075 065 058 041 037 6 2 1 0 0,9 ,923 ,086 ,270 ,941 738 623 576 516 476 442 388 357 325 297 282 247 226 207 193 184 174 155 145 138 131 125 096 084 076 054 044 0 з, 1, 1, 1, 0, ,95 400 932 382 104 918 800 713 650 596 527 468 422 390 370 317 281 261 242 228 212 193 180 167 151 146 125 100 091 064 047 0 з, 2, 1, 1, 1, 0, ,98 857 000 056 594 306 143 986 889 814 700 620 564 500 480 408 369 347 312 288 270 242 222 200 192 184 146 133 115 077 056 0 8, 4, 2, 2, 1, 1, 1, 1, 0, ,99 500 200 700 000 650 393 225 094 980 840 740 671 600 567 485 425 400 375 350 311 283 250 236 220 200 167 144 135 085 059 0,999 9,00 5,00 3,80 3,00 2,50 2,05 1,75 1,50 1,30 1,14 1,02 0,92 85 70 60 56 52 48 45 40 37 35 32 30 0,225 190 175 125 080 = max(l -еа,0).
474 Прилоснсение Таблица 5 Предельное распределение Колмогорова оо К(и) = ? (-1ГеЛ2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1Д 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 0 0,0000 0028 0361 1357 2888 4559 6073 7300 8223 8878 9319 9603 9778 9880 9938 9969 9985 99933 1 0000 0040 0428 1492 3055 4720 6209 7406 8300 8930 9354 9625 9791 9888 9942 9971 9986 99970 2 0000 0055 0503 1632 3223 4880 6343 7508 8374 8981 9387 9646 9803 9895 9946 9973 9987 99987 3 0001 0074 0585 1778 3391 5038 6473 7608 8445 9030 9418 9665 9815 9902 9950 9975 9988 99995 4 0002 0097 0675 1927 3560 5194 6601 7704 8514 9076 9449 9684 9826 9908 9953 9977 9989 99998 5 0003 0126 0772 2080 3728 5347 6725 7798 8580 9121 9478 9702 9836 9914 9956 9979 9990 99999 6 0005 0160 0876 2236 3896 5497 6846 7889 8644 9164 9505 9718 9846 9919 9959 9980 9991 1,00000 7 0008 0200 0987 2396 4064 5645 6964 7976 8706 9205 9531 9734 9855 9924 9962 9981 9991 8 0013 0247 1104 2558 4230 5791 7079 8061 8765 9245 9556 9750 9864 9929 9965 9983 9992 9 0019 0300 1228 2722 4395 5933 7191 8143 8823 9283 9580 9764 9873 9934 9967 9984 9993
3. Таблицы 475 Таблица 6 Верхние 100A — а)%-ные точки х2-распределения: значения х«? определяемые уравнением , 2 I а) = Pk(z)dz = a о \ а 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,01 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 6,41 7,02 7,63 8,26 8,90 9,54 10,20 10,86 11,52 12,20 12,88 13,56 14,26 14,95 0,02 0,001 0,040 0,185 0,429 0,752 1,134 1,564 2,03 2,53 3,06 3,61 4,18 4,76 5,37 5,98 6,61 7,26 7,91 8,57 9,24 9,92 10,60 11,29 11,99 12,70 13,41 14,12 14,85 15,57 16,31 0,05 0,004 0,103 0,352 0,711 1,145 1,635 2,17 2,73 3,32 3,94 4,58 5,23 5,89 6,57 7,26 7,96 8,67 9,39 10,12 10,85 11,69 12,34 13,09 13,85 14,61 15,38 16,15 16,93 17,71 18,49 0,10 0,016 0,211 0,584 1,064 1,610 2,20 2,83 3,49 4,17 4,86 5,58 6,30 7,04 7,79 8,55 9,31 10,08 10,86 11,65 12,44 13,24 14,04 14,85 15,66 16,47 17,29 18,11 18,94 19,77 20,6 0,20 0,064 0,446 1,005 1,649 2,34 3,07 3,82 4,59 5,38 6,18 6,99 7,81 8,63 9,47 10,31 11,15 12,00 12,86 13,72 14,58 15,44 16,31 17,19 18,06 18,94 19,82 20,7 21,6 22,5 23,4 0,30 0,148 0,713 1,424 2,20 3,00 3,83 4,67 5,53 6,39 7,27 8,15 9,03 9,93 10,82 11,72 12,62 13,53 14,44 15,35 16,27 17,18 18.10 19,02 19,94 20,9 21,8 22,7 23,6 24,6 25,5 0,50 0,455 1,386 2,37 3,36 4,35 5,35 6,35 7,34 8,34 9,34 10,34 11,34 12,34 13,34 14,34 15,34 16,34 17,34 18,34 19,34 20,3 21,3 22,3 23,3 24,3 25,3 26,3 27,3 28,3 29,3
476 Приложение Таблица 6 (окончание) Nv a 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,70 1,074 2,41 3,66 4,88 6,06 7,23 8,38 9,52 10,66 11,78 12,90 14,01 15,12 16,22 17,32 18,42 19,51 20,6 21,7 22,8 23,9 24,9 26,0 27,1 28,2 29,2 30,3 31,4 32,5 33,5 0,80 1,642 3,22 4,64 5,99 7,29 8,56 9,80 11,03 12,24 13,44 14,63 15,81 16,98 18,15 19,31 20,5 21,6 22,8 23,9 25,0 26,2 27,3 28,4 29,6 30,7 31,8 32,9 34,0 35,1 36,2 0,90 2,71 4,60 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,1 22,3 23,5 24,8 26,0 27,2 28,4 29,6 30,8 32,0 33,2 34.4 35,6 36,7 37,9 39,1 40,3 0,95 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,0 22,4 23,7 25,0 26,3 27,6 28,9 30,1 31,4 32,7 33,9 35,2 36,4 37,7 38,9 40,1 41,3 42,6 43,8 0,98 5,41 7,82 9,84 11,67 13,39 15,03 16,62 18,17 19,68 21,2 22,6 24,1 25,5 26,9 28,3 29,6 31,0 32,3 33,7 35,0 36,3 37,7 39,0 40,3 41,6 42,9 44,1 45,4 46,7 48,0 0,99 6,64 9,21 11,34 13,28 15,09 16,81 18,48 20,1 21,7 23,2 24,7 26,2 27,7 29,1 30,6 32,0 33,4 34,8 36,2 37,6 38,9 40,3 41,6 43,0 44,3 45,6 47.0 48,3 49,6 50,9 0,999 10,83 13,82 16,27 18,46 20,5 22,5 24,3 26,1 27,9 29,6 31,3 32,9 34,5 36,1 37,7 39,3 40,8 42,3 43,8 45,3 46,8 48,3 49,7 51,2 52,6 54,1 55,5 56,9 58,3 59,7
3. Таблицы 477 Таблица 7 Верхние 5-процентные и 1-процентные точки F-распределения: значения J ос /а, определяемые уравнением Fik(fa) = / fik(f) df = а к 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо Значения /о, 95 (верхние ? >-процентные точки) 1 1 161,40 18J51 10,13 7,71 6,61 5,99 5,59 5,32 5,12 4,96 4.84 4J5 4,67 4,60 4,54 4,49 4,45 4,41 4,33 4,35 4,32 4,30 4,28 4,26 4,24 4,22 4,21 4,20 4,18 4,17 4,08 4,00 3,92 3,84 2 199,50 19,00 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 3,88 3,80 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,47 3,44 3,42 3,40 3,38 3,37 3,35 3,34 3,33 3,32 3,23 3,15 3,07 2,99 3 215,70 19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,07 3,05 3,03 3.01 2,99 2,98 2,96 2.95 2,93 2,92 2,84 2,76 2,68 2,60 4 224,60 19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 2,84 2.82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,61 2,52 2,45 2,37 5 230,20 19,30 9,01 6,26 5,05 4.39 3^97 3,69 3,48 3,33 3,20 3,11 3,02 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,54 2,53 2,45 2,37 2,29 2,21 6 234,00 19,33 8,94 6,16 4,95 4,28 3,87 3,58 3,37 3,22 3,09 3,00 2,92 2,85 2,79 2,74 2,70 2,66 2,63 2,60 2,57 2,55 2,53 2,51 2,49 2,47 2,46 2,44 2,43 2,42 2,34 2,25 2,17 2,09 8 238,90 19,37 8,84 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,77 2,70 2,64 2,59 2,55 2,51 2,48 2,45 2,42 2,40 2,38 2,36 2,34 2,32 2,30 2,29 2,28 2,27 2,18 2,10 2,02 1,94 12 243,90 19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,60 2,53 2^48 2,42 2,38 2,34 2,31 2,28 2,25 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 2,09 2,00 1,92 1,83 1,75 24 249,00 19,45 8,64 5,77 4,53 3,84 3,41 3,12 2,90 2,74 2,61 2,50 2,42 2,35 2,29 2,24 2,19 2,15 2,11 2,08 2,05 2,03 2,00 1,98 1,96 1,95 1,93 1,91 1,90 1,89 1,79 1,70 1,61 1,52 оо 254,30 19,50 8,53 5,63 4,36 3,67 3,23 2,93 2,71 2,54 2,40 2,30 2,21 2,13 2,07 2,01 1,96 1,92 1,88 1,84 1,81 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 1,62 1,51 1,39 1,25 1,00
478 Приложение Таблица 7 (окончание) Значения /о,99 (верхние 1-процентные точки) к 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 1 4052 98,49 34,12 21,20 16,26 13,74 12,25 11,26 10,56 10,04 9,65 9,33 9,07 8,86 8,68 8,53 8,40 8,28 8,18 8,10 8,02 7,94 7,88 7,82 7,77 7,72 7,68 7,64 7,60 7,56 7,31 7,08 6,85 6,64 2 4999 99,00 30,81 18,00 13,27 10,92 9,55 8,65 8,02 7,56 7,20 6,93 6,70 6,51 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 4,98 4,79 4,60 3 5403 99,17 29,46 16,69 12,06 9,78 8,45 7,59 6,99 6,55 6,22 5,95 5,74 5,56 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,13 3,95 3,78 4 5625 99,25 28,71 15,98 11,39 9,15 7,85 7,01 6,42 5,99 5,67 5,41 5,20 5,03 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,83 3,65 3,48 3,32 5 5764 99,30 28,24 15,52 10,97 8,75 7,46 6,63 6,06 5,64 5,32 5,06 4,86 4,69 4,56 4,44 4,34 4,25 4,17 4,10 4,04 3,99 3,94 3,90 3,86 3,82 3;78 3,75 3,73 3,70 3,51 3,34 3,17 3,02 г 6 5859 99,33 27,91 15,21 10,67 8,47 7,19 6,37 5,80 5,39 5,07 4,82 4,62 4,46 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,12 2,96 2,80 8 5981 99,36 27,49 14,80 10,27 8,10 6,84 6,03 5,47 5,06 4,74 4,50 4,30 4,14 4,00 3,89 3,79 3.71 3,63 3,56 3,51 3,45 3,41 3,36 3,32 3,29 3,26 3,23 3,20 3,17 2,99 2,82 2,66 2,51 12 6106 99,42 27,05 14,37 9,89 7,72 6,47 5,67 5,11 4,71 4,40 4,16 3,96 3,80 3,67 3,55 3,45 3,37 3,30 3,23 3,17 3,12 3,07 3,03 2,99 2,96 2,93 2,90 2,87 2,84 2,66 2,50 2,34 2,18 24 6234 99,46 26,60 13,93 9,47 7,31 6,07 5,28 4,73 4,33 4,02 3,78 3,59 3,43 3,29 3,18 3,08 3,00 2,92 2,86 2,80 2,75 2,70 2,66 2,62 2,58 2,55 2,52 2,49 2,47 2,29 2,12 1,95 1,79 оо 6366 99.50 26.12 13,46 9,02 6,88 5,65 4,86 4,31 3,91 3,60 3,36 3,16 3,00 2,87 2,75 2,65 2,57 2,49 2,42 2,36 2,31 2,26 2,21 2,17 2,13 2,10 2,06 2,03 2,01 1,80 1,60 1,38 1,00
ЦИТИРОВАННАЯ ЛИТЕРАТУРА 1. Андерсон Т. В. (Anderson T.W.) An introduction to multivariate statistical analysis.— John Wiley, 1958. [Рус. пер.: Введение в много- многомерный статистический анализ.— М.: Физматгиз, 1963.] 2. Бартлетт М. С. (Bartlett M.S.) On the theory of statistical regressi- regression // Proc. Roy. Soc. Edinburgh.- 1933.- V. 53.— P. 260-283. 3. Бартлетт М.С. (Bartlett M.S.) An introduction to stochastic processes with special reference to methods and applications.— Cambridge University Press, 1955. [Рус. пер.: Введение в теорию случайных процессов.— М.: ИЛ, 1958.] 4. Б л е к у э л л Д., Г и р ш и к М. A. (Blackwell D., Girshick M. A.) Theory of games and statistical decisions.— John Wiley, 1954. [Рус. пер.: Теория игр и статистических решений.— М.: ИЛ, 1958.] 5. Блюм Дж. P. (Blum J. R.) Approximation methods which converge with probability one // Ann. Math, Stat.— 1954.— V. 25.— P. 382-386. 6. Блюм Дж. Р. (Blum J.R.) Multidimensional stochastic approximation method // Ann. Math. Stat.— 1954.— V. 25.— P. 737-744. 7. Бокс Дж. Е.П. (Box G.E.P.) Multifactor designs of first order // Biometrica.— 1952.— V. 39.— P. 49-57. 8. Бокс Дж.Е.П., У ил сон К. Б. (Box G.E.P., Wilson К. В.) An experi- experimental attainment of optimum conditions // Journ. Roy. Stat: Soc, Ser. В.- 1951.- V. 13.- P. 1-45. 9. Бокс Дж. Е. П., X ант ер Дж. С. (BoxG.E.P., Hunter J.S.) Multifactor experimental designs for exploring response surfaces // Ann. Math. Stat.— 1957. - V. 28.- P. 195-241. 10. Б op о дач ев Н. А. Основные вопросы теории точности производст- производства.- М.: Изд. АН СССР, 1950. 11. Бусленко Н.П., Голенко Д.И., Соболь И.М., Сраго- вич В. Г., Шрейдер Ю.А. Метод статистических испытаний (ме- (метод Монте-Карло).— М.: Физматгиз, 1962. 12. Бутон Р.К. (Booton R.C.) The analysis of nonlinear control systems with random inputs // Proc. Sympos. Nonlinear Circuit Analysis.— 1953.— V. 2.— P. 369-391. 13. В азан М. Т. (Wasan M.T.) Stochastic approximation.— Cambridge University Press, 1969. [Рус. пер.: Стохастическая аппроксимация.— М.: Мир, 1972.] 14. В а ль д A. (Wald A.) Sequential analysis.— John Wiley, 1947. [Рус. пер.: Последовательный анализ.— М.:Физматгиз, I960.]
480 Цитированная литература 15. Вальд A. (Wald A.) Statistical decision functions.— John Wiley, 1950. [Рус. пер.: Приложение «Статистические решающие функции» к кни- книге «Позиционные игры» (под. ред. Н.Н. Воробьева, Н.И. Врублевс- кой).— М.: Наука, 1967. 16. Г ант мах ер Ф. Р. Теория матриц.— М.: Наука, 1966. 17. Гнеденко Б. В., Колмогоров А.Н. Предельные распределения для сумм независимых случайных величин.— М.: Гостехиздат, 1949. 18. Головина Л.И. Линейная алгебра и некоторые ее приложения.— М.: Наука, 1975. 19. Го сеет В. С. (Gosset W.S., «Student») The probable error of a mean // Biometrika.— 1908.— V. 6.— P. 1-25. 20. Дашевский М. Л. Уравнения семиинвариантов нелинейной дина- динамической системы // Автом. и телемех.— 1968.— № 10.— С. 63-71. 21. Де Гроот М. (De Groot M.H.) Optimal statistical decisions.— McGraw- Hill, 1970. [Рус. пер.: Оптимальные статистические решения.— М.: Мир, 1974.] 22. Д ж о н с Г. В. (Johns H.V.) Non-parametric empirical Bayes procedures // Ann. Math. Stat.- 1957.- V. 28, № 4.- P. 649-669. 23. Добровидов А.В. Об одном алгоритме непараметрической оценки случайных многомерных сигналов // Автом. и телемех.— 1971.— №2.— С. 88-89. 24. Дрейпер Н., Смит Г. (Draper N., Smith H.) Applied regression analysis.— John Wiley, 1966. [Рус. пер.: Прикладной регрессионный анализ.— М.: Статистика, 1973.] 25. Дуда Р., X ар т П. (Duda R.O., Hart P.E.) Pattern classification and scene analysis.— John Wiley 1973. [Рус. пер.: Распознавание образов и анализ сцен.— М.: Мир, 1976.] 26. Д эвид Ф. Н. (David F.N.) A note on unbiased limits for the correlation coefficient // Biometrika.- 1937.- V. 29.- P. 157-160. 27. Дэвид Ф.Н. (David F.N.) Tables of the ordinates and probability integral of the distribution of the correlation coefficient in small samples.— Cambridge University Press, 1938. 28. Дюге Д. (Dugue D.) Application des proprietes de la limite au sens du calcul des probabilites a l'etude des diverses questions d'estimation // Journ. Ecol. Polytechn.- 1937.- V. 3, № 4.- P. 305-372. 29. Емельянов СВ., Озерной В. М. Decision making in multi-objective problems: a survey // Probl. Contr. Inform. Theory.— 1975.— Jubilee number. — P. 51-64. 30. Ермаков СМ. Метод Монте-Карло и смежные вопросы.— М.: Нау- Наука, 1975. 31. Казаков И. Е. Приближенный вероятностный анализ точности ра- работы существенно нелинейных систем // Автом. и телемех.— 1956.— Т. 17, № 5.- С. 385-409. 32. Казаков И.Е. Статистический анализ систем с многомерными нели- нейностями // Автом. и телемех.— 1965, № 3.— С. 463-469. 33. Калман P. E. (Kalman R.E.) A new approach to linear filtering and prediction problems // Trans. ASME, Journ Basic Engin.— I960.— V. 82D. — P. 35-45.
Цитированная литература 481 34. К а ш ь я п Р. Л., Р а о А. Р. (Kashyap R.L., Rao A.R.) Dynamic stochas- stochastic models from empirical data.— Academic Press, 1976. 35. Кендал л М.Дж., Стьюарт A. (Kendall M.J., Stewart A.) The advanced theory of statistics. Charles Griffin. V. 1. Distribution theory, 1958; V. 2. Inference and relationship, 1961; V. 3. Design and analysis and time-series, 1966. [Рус. пер.: Теория распределений.— М.: Наука, 1966; Статистические выводы и связи.— М.: Наука, 1973; Многомерный ста- статистический анализ и временные ряды.— М.: Наука, 1976.] 36. К и ф е р Дж., Вольфовиц Дж. (Kiefer J., Wolfowitz J.) Stochastic estimation of the maximum of a regression function // Ann. Math. Stat.— 1952.- V. 23.- P. 462-466. 37. Клоппер К.Дж., Пирсон Е. С. (Clopper C.J., Pearson E.S.) The use of confidence or fiducial limits illustrated in the case of the binomial // Biometrika.- 1934.- V. 26.- P. 404-413. 38. К о к р е н В. Дж., Кокс Дж. M. (Cochran W.G., Сох СМ.) Experimen- Experimental designs.— John Wiley, 1957. 39. Колмогоров А.Н. Общая теория меры и теория вероятностей // Сб. тр. секции точных наук Коммунистической академии.— 1929.— Т. 1.— С. 8-21. 40. Колмогоров А.Н. Grundbegriffe der Wahrscheinlichkeitsrechnung.— Springer-Verlag, 1933. [Рус. пер.: Основные понятия теории вероятнос- вероятностей.- М.: ОНТИ, 1936; М.: Наука, 1974.] 41. Колмогоров А.Н. Sulla determinazione empirica di una legge di distribuzione // Giorn. Inst. Ital. Attuari.— 1933.— V. 4.— P. 83-91. 42. Колмогоров А.Н., Фомин СВ. Элементы теории функций и функционального анализа.— М.: Наука, 1972. 43. Крамер Г. (Cramer H.) On the composition of elementary errors // Skand. Aktuan.- 1928.- V. 11.- P. 13-74, 141-180. 44. Крамер Г. (Cramer H.) Random variables and probability distribu- distributions // Cambridge Tracts in Mathematics. № 36.— Cambridge University Press, 1937. [Рус. пер.: Случайные величины и распределения вероят- вероятностей.— М.: ИЛ, 1947.] 45. К р а м е р Г. (Cramer H.) Mathematical methods of statistics.— Princeton University Press, 1946. [Рус. пер.: Математические методы статисти- статистики.- М.: ИЛ, 1948; М.: Наука, 1975.] 46. Красовский Н.Н. Некоторые задачи теории устойчивости движе- движения.— М.: Физматгиз, 1959. 47. Купер Д. В. (Cooper D.V.) Adaptive pattern recognition and signal detection using stochastic approximation // IEEE Trans, on Electronic Computers.- 1964.- EC-13, № 3.— P. 306-307. 48. Ланкастер П. (Lankaster P.) Theory of matrices.— Academic Press, 1969. [Рус. пер.: Теория матриц.— М.: Наука, 1978.] 49. Леман Э. Л. (Lehmann E.L.) Testing statistical hypotheses.— John Wiley. 1959. [Рус. пер.: Проверка статистических гипотез.— М.: Нау- Наука, 1964.] 50. Лоули Д.Н., Максвелл А. Е. (Lawley D.N., Maxwell A.E.) Factor analysis as a statistical method.— Butterworths, London, 1963. [Рус. пер.: Факторный анализ как статистический метод.— М.: Мир, 1967.]
482 Цитированная литература 51. Л о э в М. (Loeve M.) Probability theory.— D. Van Nostrand, 1960. [Рус. пер.: Теория вероятностей.— М.: ИЛ, 1962.] 52. Льюс Р. Д., Рай фа Г. (Luce R.D., Raiffa H.) Games and decisions. Introduction and critical survey.— John Wiley, 1957. [Рус. пер.: Игры и решения. Введение и критический обзор.— М.: ИЛ, 1961.] 53. Ляпунов A.M. Общая задача об устойчивости движения.— Харь- ковск. матем. общество, 1892; М.: Гостехиздат, 1950. 54. Ляпунов A.M. Sur une proposition de la theorie des probabilites // Bull. Acad. Sciences de St. Peterbourg // 1900.- V. 13.- P. 359-386. 55. Ляпунов A.M. Nouvelle forme de theoreme sur la limite de probabi- lite // Mem. Acad. Sciences de St. Peterbourg.— 1901.— V. 12.- P. 1-24. 56. Мальцев А. И. Основы линейной алгебры.— М.: Наука, 1975. 57. Маркус М.,МинцХ. (Marcus M., Mine H.) A survey of matrix theory and matrix inequalities.— Allyn and Bacon, 1964. [Рус. пер.: Обзор по теории матриц и матричных неравенств.— М.: Наука, 1972.] 58. Мае си Ф.Дж. (Massey F.J.) A note on the estimation of distribution function by confidence limits // Ann. Math. Stat.— 1950.— V. 21.— P. 116- 119. 59. Mathematical methods for digital computers / Eds A. Ralfston, H.S. Wilf.— John Wiley, 1962. 60. M и з е с Р. (von Mises R.) Wahrscheinlichkeitsrechnung und ihre Anwen- dung in der Stalistik und theoretischen Physik.— Leipzig-Wien, 1931. 61. M о р р и с У. Т. (Morris W.T.) Management science. A Bayesian introduc- introduction.— Prentice-Hall, 1968. [Рус. пер.: Наука об управлении. Бейесов- ский подход.— М.: Мир, 1971.] 62. Надарая Э.А. О непараметрических оценках плотности вероятно- вероятности и регрессии // Теор. вер. и ее прим.— 1965.— Т. 10, вып. 1.— С. 190- 194. 63. Налимов В. В., Чернова О. А. Планирование экспериментов.— М.: Наука, 1971. 64. Неве Ж. (Neveu J.) Bases mathematiques du calcul des probabilites.— Masson, 1964. [Рус. пер.: Математические основы теории вероятнос- вероятностей.- М.: Мир, 1969.] 65. Нейман Дж., Пирсон Е. С. (Neyman J., Pearson E.S.). On the use and interpretation of certain test criteria for purposes of statistical inference // Biometrika.— 1928.— V. 20A, Part I.— P. 175-240; Part II.- P. 263-294. 66. Нейман Дж., Пирсон Е. С. (Neyman J., Pearson E.S.) On the problem of the most efficient tests of statistical hypotheses // Trans. Roy. Soc. London, Ser. A.— 1933.- V. 231.- P. 289-337. 67. Нейман Дж., Пирсон Е. С. (Neyman J., Pearson E.S.) Contributions to the theory of testing statistical hypotheses // Stat. Research Mem.— 1936.- V. 1.- P. 1-37; 1938.- V. 2.- P. 25-57. 68. Нейман Дж., Пирсон Е. С. (Neyman J., Pearson E.S.) Sufficient statistics and uniformly most powerful tests of statistical hypotheses // Stat. Research Mem.- 1936.— V. 1.— P. 113-137.
Цитированная литература 483 69. Никольский С. М. Курс математического анализа. Т. 1,2.— М.: На- Наука, 1973. 70. Парзен Е. (Parzen E.) On estimation of a probability density function and mode // Ann. Math. Stat.— 1962.— V. 33.— P. 1065-1076. 71. Пирсон К. (Pearson К.) Contributions to the mathematical theory of evolution // Phil. Trans. Roy. Soc- 1894.- V. 185.- P. 71-121; 1895.— V. 186.- P. 343-365. 72. Пирсон К. (Pearson К.) On the criterion that a given system of deviations from the probable in the case of a correlated system of variables in such that it can be reasonably supposed to have arisen from random sampling // Phil. Mag.— 1900.- V. 50.- P. 157-175. 73. Пирсон К. (Pearson К.) On lines and planes of closest fit to systems of points in space // Phil. Mag.— 1901.— V. 2.— P. 559-572. 74. Пирсон К. (Pearson К.) On the systematic fitting of curves to obser- observations and measurements // Biometrika.— 1902.— V. 1.-- P. 265-278; V. 2.- P. 1-27. 75. Пугачев B.C. Статистические проблемы теории распознавания об- образов // Тр. III Всесоюзн. совещ. по автом. управлению. Одесса, 20-25 сент. 1965). Самонастраивающиеся системы. Распознавание образов.— М.: Наука, 1967.- С. 192-202. 76. Пугачев B.C. Оптимальные алгоритмы обучения автоматических систем в случае неидеального учителя // Докл. АН СССР.— 1967.— Т. 172, № 5.- С. 1039-1042. 77. Пугачев B.C. Оптимальные обучающиеся системы // Докл. АН СССР.- 1967.- Т. 175, № 5.— С. 1022-1025. 78. Пугачев B.C. Оптимальное обучение автоматических систем в изме- изменяющихся условиях // Автом. и телемех.— 1967.— № 10.— С. 153-167. 79. Пугачев B.C. Статистическая теория обучающихся автоматических систем // Изв. АН СССР. Тех. киб.- 1967.- № 6.- С. 26-42. 80. Пугачев В. С. Optimal learning systems // Kybernetika.— 1971.— V. 7, № 1.- P. 347-376. 81. Пугачев B.C. Рекуррентное оценивание переменных и параметров в стохастических системах, описываемых разностными уравнениями // Докл. АН СССР.- 1978.- Т. 243, № 5.- Р. 1131-1133. 82. Пугачев В. С. Оценивание переменных и параметров в дискретных нелинейных системах // Автом. и телемех.— 1979.— № 4. 83. Р айф а Г. (Raiffa H.) Decision analysis.— Addison Wesley, 1969. [Рус. пер.: Анализ решений.— М.: Наука, 1977.] 84. Р а о СР. (Rao C.R.) Information and accuracy attainable in the estimation of statistical parameters // Bull. Calcutta Math. Soc— 1945.— V. 37.- P. 81-91. 85. P а о С. Р. (Rao C.R.) Sufficient statistics and minimum variance estima- estimates // Proc. Cambr. Phil. Soc- 1949.- V. 45.- P. 213-218. 86. P а о С. Р. (Rao C.R.) Linear statistical inference and its applications.— John Wiley, 1965. [Рус пер.: Линейные статистические методы и их применения.— М.: Наука, 1968.] 87. Растригин Л. А. Статистические методы поиска.— М.: Наука, 1968.
484 Цитированная литература 88. Роббинс Г. (Robbins H.) An empirical Bayes approach to statistics // Proc. 3d Berkeley Symp. on math. stat. and prob.— 1955.— V. 1.-- P. 157- 164. 89. Роббинс Г. (Robbins H.) An empirical Bayes approach to nonparametric two-way classification studies in item analysis and prediction / Eds H. Solomon.— Stanford University Press, 1961.— P. 221-232. 90. Роббинс Г. (Robbins H.) An empirical Bayes approach to testing statistical hypotheses // Review of the Internet. Stat. Inst.— 1963.— V. 31, № 2.- P. 195-208. 91. Роббинс Г. (Robbins H.) An empirical Bayes approach to problems of statistical decision theory // Ann. Math. Stat.— 1964.— V. 35, № 1.— P. 1-20. 92. Роббинс Г., Монро С. (Robbins H., Monro S.) A stochastic approxi- approximation method // Ann. Math. Stat.— 1951.— V. 22.— P. 400-407. 93. Розенблат М.А. (Rosenblatt M.A.). Remarks on some nonparametric estimates of a density function // Ann. Math. Stat.— 1956.— V. 27.— P. 842-669. 94. Сборник научных программ на Фортране. System/360 scientific subrou- subroutine package C60 A-CM-03X) version III. Programmer's Manual. IBM, Technical Publications Department, 1960-1971. [Рус. пер.: Статистика (вып. 1). Матричная алгебра и линейная алгебра (вып. 2) / Под ред. С.Я. Виленкина.— М.: Статистика, 1975.] 95. Синицын И.Н. Методы статистической линеаризации (обзор) // Ав- том. и те лемех.— 1974.— № 5.— Р. 74-94. 96. Смирнов В. И. Курс высшей математики. Т. 1-5.— М.: Наука, 1974, 1975. 97. Смирнов Н. В. Sur la distribution de uj1 // Comptes Rendus Acad. Sci. de Paris.- 1936.- V. 202.- P. 449-453. 98. Смирнов Н.В. Оценка расхождения между кривыми распределения в двух независимых выборках // Бюлл. Моск. ун-та.— 1939.— Т. 2, № 2.— Р. 3-16. 99. С не декор Г. В. (Snedecor G.W.) Statistical methods. Ames.— Iowa State College Press, 1940. 100. Соболь И. М. Численные методы Монте-Карло.— М.: Наука, 1973. 101. Сомервилл М.Дж., Атертон Д. П. (Somerville M.J., Ather- ton D.P.). Multi-gain representation for a single-valued nonlinearity with several inputs, and the evaluation of the equivalent gains by a cursor method // Proc. IEE, Part С Monograph № 309M.— 1958.— P. 1-13. 102. Уайльд Д. (Wilde D.) Optimum seeking method.— John Wiley, 1954. [Рус. пер.: Методы поиска экстремума.— М.: Физматгиз, 1967.] 103. Уилкс С. (Wilks S.) Mathematical Statistics.— Princeton University Press, 1944. [Рус. пер.: Математическая статистика.— М.: Наука, 1967.] 104. Уишарт Дж. (Wishart J.). The generalized product moment distribu- distribution in samples from a normal multivariate population // Biometrika.— 1928.- V. 20A.- P. 353-361.
Цитированная литература 485 105. Уишарт Дж., Бартлетт М.С. (Wishart J., Bartlett M.S.) The distribution of the second order moment statistics in a normal system // Proc. Cambridge Phil. Soc- 1932.- V. 28.- P. 455-459. 106. Фабиан В. (Fabian V.) Стохастическая аппроксимация для отыска- отыскания оптимальных условий при обработке результатов экспериментов и в самонастраивающихся системах // Aplikace mathematiky.— 1961.— V. 6.— P. 102-183 (на чешек, яз.). 107. Фаддеев Д. К., Фаддеева В.Н. Вычислительные методы линей- линейной алгебры.— М.: Физматгиз, 1963. 108. Финн и Д. Дж. (Finney D.J.) An introduction to the theory of experi- experimental design.— University of Chicago Press, 1960. [Рус. пер.: Введение в теорию планирования экспериментов.— М.: Наука, 1970.] 109. Фихтенгольц Г. М. Курс дифференциального и интегрального ис- исчисления. Т. 1-3.— М.: Физматгиз, 1958-1960. 110. Фишер P. A. (Fisher R.A.) Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population // Biometrika.- 1915.- V. 10.- P. 507-521. 111. Фишер Р. A. (Fisher R.A.) On the mathematical foundations of theore- theoretical statistics // Phil. Trans. Roy. Soc. Ser. A.— 1922.— V. 222.— P. 309- 368. 112. Фишер Р. A. (Fisher R.A.) On a distribution yielding the error functions of several well-known statistics // Proc. Int. Math. Congress, Toronto.— 1924.- V. 2.- P. 805-813. 113. Фишер Р. A. (Fisher R.A.) Statistical methods for research workers.— Oliver and Boyd, 1925; 12=th ed.— 1954. [Рус. пер.: Статистические методы для исследователей.— М.: Госстатиздат, 1958.] 114. Фишер P. A. (Fisher R. A.) Theory of statistical estimation // Proc. Cambridge Phil. Soc- 1925.- V. 22.- P. 700-725. 115. Фишер Р. A. (Fisher R.A.) Applications of «Student's» distribution // Metron.- 1926.- V. 5, № 4.- P. 90-104. 116. Фишер P. A. (Fisher R. A.) The design of experiments.— Oliver and Boyd, 1935. 117. Фишер Р. А., И э й т с Ф. A. (Fisher R.A., Yates F.A.) Statistical tables for biological, agricultural and medical research.— Oliver and Boyd, 1957. 118. Харман Г. Г. (Harman H.H.) Modern factor analysis.— University of Chicago Press, 1960. [Рус. пер.: Современный факторный анализ.— М.: Статистика, 1972.] 119. Хеннекен П. Л., Тортра A. (Hennequin P.L., Tortrat A.) Theorie des probabilites et quelques ses applications.— Dunod, 1970. [Рус. пер.: Теория вероятностей и некоторые ее приложения.— М.: Наука, 1974.] 120. Хинчин А. Я. Асимптотические законы теории вероятностей.— ОНТИ, 1936. 121. Цыпкин Я. 3. Адаптация и обучение в автоматических системах.— М.: Наука, 1968. 122. Цыпкин Я. 3. Основы теории обучающихся систем.— М.: HavKa, 1970.
486 Цитированная литература 123. Ш е ф ф е Г. (Scheffe H.) The analysis of variance. John Wiley, 1959. [Рус. пер.: Дисперсионный анализ.— М.: Физматтиз, 1963.] 124. Ширяев А. Н. Статистический последовательный анализ.— М.: На- Наука, 1976. 125. Шустер Е. Ф. (Schuster E.F.) Estimation of probability density function and its derivatives // Ann. Math. Stat.— 1969.— V. 40.— P. 1187-1195. 126. Эджуорт Ф.И. (Edgeworth F.Y.) The law of error // Proc. Cambridge Phil. Soc- 1905.- V. 20.- P. 36-65. СПИСОК ДОПОЛНИТЕЛЬНОЙ ЛИТЕРАТУРЫ 127. Кульбак С. (Kullback S.) Information Theory and Statistics.— John Wiley, 1958. [P у с. пер.: Теория информации и статистика.— М.: Наука, 1967.] 128. Корн Г., К о р н Т. Справочник по математике.— М.: Наука, 1984. 129. Королюк B.C., Порте и ко Н. И., Скороход А. В., Тур- Турбин А. Ф. Справочник по теории вероятностей и математической статистике.— М.: Наука, 1985. 130. Пугачев B.C. Лекции по функциональном анализу.— М.: Изд-во МАИ, 1996. 131. Пугачев B.C., Синицын И. Н. Теория стохастических систем.— М.: Логос, 2000. 132. Хинчин А. Я. Понятие энтропии в теории вероятностей // Успехи математических наук.— 1953.— Т. VIII, вып. 3E5).— С. 3-23. 133. Хинчин А. Я. Об основных теоремах теории информации // Успехи математических наук.— 1956.— Вып. 1F7).— С. 17—75. 134. Шеннон К. (Shannon C.E.) A mathematical theory of communica- communication // Bell System Techn. Journ.- 1948.- V. 27.- P. 379-423, 623-656. [Рус. пер.: В книге «Работы по теории информации и кибернетике». ИЛ, 1963.] 135. Ширяев А.Н. Вероятность.— М.: Наука, 1980.
ОСНОВНЫЕ ОБОЗНАЧЕНИЯ А, .В, С,... — события, множества, в некоторых случаях матрицы U As или 2^ А8 — объединение (сумма) событий, множеств ses Pi As — пересечение (произведение) событий, множеств В С А — событие (или множество) В, представляет собой подсобытие (под- (подмножество) события (множества) А А — событие, противоположное А и) — элементарное событие О — достоверное событие, пространство элементарных событий 0 — невозможное событие 5? — поле событий, множеств, алгебра событий, сг-алгебра событий А^У — событие принадлежит полю событий, множеств X, У, Z,... — случайные величины, скалярные или векторные ж, у, z,... — возможные значения или реализации случайных величин X, У, Z,... f(x) — плотность случайной величины X F(x) — функция распределения случайной величины X /(ж, у) — совместная плотность случайных величин X, У F(x,y) — совместная функция распределения случайных величин X, Y f(x | у) — условная плотность случайной величины X при данном значе- значении у случайной величины У F(x\y) — условная функция распределения случайной величины X при данном значении у случайной величины У iJ[X] — энтропия случайной величины X 1У[Х] — количество информации о случайной величине X, содержащееся в случайной величине У 1(х) — единичная функция, равная 1 при х > 0, 1/2 при х = 0 и 0 при х < О 5(х) — дельта-функция Дирака, производная от 1(х) 1в(х) — индикатор области В, т.е. функция, равная 1 в области В и О вне В v(B) — мера области В (длина, площадь, объем, ...) d*x — выборочная дисперсия скалярной случайной величины X
488 Основные обозначения сгх — выборочное среднее квадратическое отклонение случайной величи- величины X к*ху — выборочная ковариация случайных величин X и У г%у — выборочный коэффициент корреляции случайных величин X и У тх — MX — математическое ожидание (среднее значение) случайной ве- величины X Х° = X — тх — центрированная случайная величина X Dx = DX — дисперсия случайной величины X кху — ковариация случайных величин X и У гху — коэффициент корреляции случайных величин X и Y 7ж — момент второго порядка (второй момент) скалярной случайной вели- величины X 7а? у — смешанный момент второго порядка случайных величин X и У 7ж(а) — момент второго порядка случайной величины X относительно точ- точки а jxy(a,b) — смешанный момент второго порядка случайных величин X и У относительно точек а и Ь Гх — момент второго порядка (второй момент) векторной случайной вели- величины X, оператор момента второго порядка Кх — ковариационная матрица случайного вектора X. ковариационный оператор Rx - корреляционная матрица случайного вектора X Тху — взаимный момент второго порядка (второй момент) случайных век- векторов X и У, взаимный оператор момента второго порядка аг — момент порядка г скалярной случайной величины [ir — центральный момент порядка г скалярной случайной величины Oik-] ...kn — момент порядка г случайного вектора {к\ + ... + кп = г) A*fci...fcn — центральный момент порядка г случайного вектора (к\ + ... ... + кп = г) 71 — асимметрия или скошенность распределения случайной величины 72 — эксцесс распределения случайной величины Ci/2 — медиана скалярной случайной величины Ср — квантиль порядка р скалярной случайной величины Ci/45 Сз/4 — квартили Е = (Сз/4 — Ci/4)/2 — срединное или вероятное отклонение или семиинтерк- вартильная широта Сол,- • • ,Со,9 — децили Ф(и) — функция Лапласа M[Y | х] — условное математическое ожидание случайной величины У при данном значении х случайной величины X д(Х) — характеристическая функция случайной величины gi * Q2 — свертка д\ и #2 >сг — семиинвариант (кумулянт) порядка г скалярной случайной величины
Основные обозначения 489 Khx-.-hn — семиинвариант порядка г векторной случайной величины (hi + ... + hn=r) Рт,п — вероятность того, что событие появится т раз при п независимых опытах Ц>п(и) - производящая функция для вероятностей Рт,п Rk,n — вероятность того, что при п независимых опытах событие появится не меньше к раз X(t) — интенсивность пуассоновского потока fi — среднее число событий, происходяпдих на данном временном интервале, параметр распределения Пуассона Pk(z) — плотность ^-распределения с к степенями свободы Т — стьюдентово отношение, обобщенное стьюдентово отношение Sk(t) — плотность распределения Стьюдента (Т-распределения) с к степе- степенями свободы wmn (s) — плотность распределения Уишарта fik(f) — плотность F-распределения с / и к степенями свободы N(m, к) — нормальное распределение с параметрами m л К К (и) — предельное распределение Колмогорова Нп(х) — полиномы Эрмита степени п в — оценка статистической характеристики в е((р) — эффективность оценки в = ip(U) д(и | в) — функция правдоподобия о (ж) — величина высшего порядка малости по сравнению с величиной х О(х) — величина одинакового порядка малости по сравнению с величиной х tr А — след матрицы А B(PiQ) — бета-функция T(z) — гамма-функция Т — верхний индекс — символ транспонирования
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Алгебра множеств 61 — событий 31 Алгоритм обучения 440 Анализ дисперсионный 387, 388 — последовательный 445 — регрессионный 387 — факторный 426 — шаговый регрессионный 387 Аномальное наблюдение 280 Аппроксимация стохастическая 301 Асимметрия (скошенность) распре- распределения 122 Бейеса формула 42, 455 Бейесов подход 455 Бейесово решение 455 Бернулли теорема 252 Бесселева функция 204 Бета-функция 206 Блюма теорема 304 Борелевское поле событий 31 Броуновское движение 13 Взаимная ковариационная матрица 103 Вектор случайный 53 Векторы координатные 117 — случайные непрерывно-дискрет- непрерывно-дискретные 67 коррелированные 104 некоррелированные 104 — собственные 112 Величина случайная векторная 53 дискретная 54 непрерывная 56 непрерывно-дискретная 66 скалярная 15, 53 центрированная 95 Величины случайные зависимые 78, 143 Величины случайные коррелиро- коррелированные 101 независимые 78, 143 некоррелированные 101 непрерывно-дискретные 66 Вероятность апостериорная 43 — априорная 43 — безусловная 38 — геометрическая 23 — полная 41 — попадания в интервал 72 множество 53 область 59, 69 прямоугольник 77 точку 72 — события 11, 17 — условная 25, 36 Вероятностное пространство 54 случайной величины 54 Вращение факторов 429 Выборка 18 — группированная 22, 335 одномерная 22 — представительная 348 Выборочная дисперсия 18 — ковариация 20 Выборочное среднее 18 Выборочный коэффициент корре- корреляции 20 Гамма-функция (Г(^-функция) 63 Геометрическая вероятность 23 Гипотеза 276 — простая 443 — сложная 443 Гипотезы конкурирующие 443 Гистограмма 21 Грама-Шарлье ряд 326 Границы доверительные 249
Предметный указатель 491 Грань нижняя рассеивания оценки скалярного параметра 282 векторного параметра 284 Группа событий полная 35 Движение броуновское 13 Двойственности принцип 29 Декорреляция 112 Дельта-функция (^-функция) им- импульсная 214, 460, 461 Дециль 125 Дисперсия выборочная 18 — скалярной случайной величины 95 — факторная 426 Дрейф (тренд) 276 Зависимость причинная 12 Задача Бюффона (об игле) 24 — принятия решения 448 — проверки гипотез 240, 276 Задачи решения однокритериаль- ные 452 многокритериальные 452 Закон больших чисел 252 — всеобщей связи явлений 12 — распределения случайной величи- величины 54 Значение возможное 16 — среднее дискретной случайной ве- величины 92 — is-e верхнее 211 — jy-e нижнее 211 Значения собственные 112 Идемпотентность 190, 191 Идентификация 352 Импульс единичный прямоуголь- прямоугольный 460 Интеграл Лебега 61 — Римана 61, 92 — Фурье 152 Интенсивность отказов 37 — пуассоновского потока 50 Интервал доверительный 249, 253 для вероятности 253 коэффициента корреляции 272 Интервал доверительный для дис- дисперсии 262 Интервал доверительный для мате- математического ожидания 259 — симметричный 129 Информация 174 Исходы опыта равновозможные 22, 23 Квадрат латинский 397 Квантиль 124, 130 — порядка р 124 Квартиль 125 Кифера и Вольфовица теорема 308 Ковариация выборочная 20 — скалярных случайных величин 99 — случайных векторов 102, 103 — средняя за счет факторов 391 Ковариационная матрица 102, 163 Колебание случайное 12 Колмогорова предельная функция распределения 341 Компоненты главные 113 Координаты некоррелированные 112 — случайного вектора 53 Корреляционная матрица 102, 103 Корреляция 101 Коши теорема 155 Коэффициент корреляции выбороч- выборочный 20, 100 — доверия 249 — корреляции 20, 21 Кривая Пирсона 324 — распределения 57 — регрессии 148 Критерий Колмогорова 341 — Неймана-Пирсона 441 — Пирсона 335 — Смирнова 344 - согласия 341 Кронекера символ 112 Кумулянты 158 Лапласа функция 129 Латинский квадрат 397 Линеаризация нелинейной функции 184 — статистическая 361 «Ложного нуля» правило 19 Ляпунова метод 303 — функция 303
492 Предметный указатель Маклорена формула 52, 156 Максвелла распределение 203 Математическое ожидание 92 Матрица взаимная ковариационная 103 — информационная Фишера 286 — квадратная 112 — ковариационная 102, 163 — корреляционная 102, 103 — эрмитова неотрицательно опреде- определенная 105 — эрмитовски сопряженная 105 Медиана случайной величины 124, 130 Мера 32 Метод вероятностный (статистиче- (статистический) 14 — главных компонент 427 — линеаризации 184 — максимума правдоподобия Фише- Фишера 293 — минимума х2 300, 341 — моментов 218, 298 — Монте-Карло (статистического моделирования) 345 — наименьших квадратов 19 — наискорейшего спуска 307 — простого суммирования 428 — случайного поиска 312 — статистического моделирования (Монте-Карло) 345 — стохастических аппроксимаций 301 вероятностей 199 — сравнения элементов вероятно- вероятностей 207 — треугольной декомпозиции 430 — функций Ляпунова 303 — характеристических функций 220 — центроидный (простого суммиро- суммирования) 428 Методы вероятностные 14 — статистические 14 Множество конечное 27 — несчетное 27 — нулевой меры 57 — одноточечное 30 — пустое 30 — счетное 27 Модели авторегрессии 400 — детерминированные 352, 365 распознавания 434 Модели комбинированные 401 — линейные авторегрессии 401, 412 — математические 351 — нелинейные 403, 404 авторегрессии 410 — обучаемые (обучающиеся) 440 — описываемые разностными урав- уравнениями 400 — оптимальные распознавания 434 — принятия решения 448 — распознавания 432 последовательные 445 — регрессионные 354, 384 детерминированные 365 полиномиальные 378 стохастические 365 — самообучающиеся 440 — скользящего среднего 401 — статистические 351, 352 — стохастические 352, 365 — теоретические 351 — факторные 425, 426 Моделирование случайных величин 345 — событий 347 — статистическое 345 Момент взаимный второго порядка 103 — второго порядка (второй) 101, 102 относительно точки 101 — начальный 121 — первого порядка (первый) 101 — случайной величины 11 — смешанный второго порядка 101 относительно точек 102 — условный 148 — центральный второго порядка 101 смешанный второго порядка 102 порядка г 121 Монте-Карло метод 345 Нагрузки на факторы 426 Надежность 37 Неравенство Чебышева 241, 241
Предметный указатель 493 Область доверительная 249, 314 для коварианионной матрицы 273 Область доверительная для матема- математического ожидания и дисперсии 264 случайного вектора 268 плотности 314, 315 функции распределения 318 Образ 432 Обучение модели принятия реше- решения 457, 459 — моделей распознавания 440 Объединение (сумма) двух событий 26 — множества событий 27 Ожидание математическое 92 дискретной случайной величи- величины 91, 92 неслучайной величины 94 случайной величины 126 случайного вектора 93, 266 условное 147, 148 Оператор взаимный ковариацион- ковариационный двух случайных величин 104 момента второго порядка 104 — ковариационный 104 — момента второго порядка 104 Операция (оператор) математиче- математического ожидания 94 Опыт 15 Опыты независимые 43 Островершинность кривой распре- распределения 123 Отклонение выборочное среднее квадратическое 19 — значимое 336 — случайное 13 — срединное (вероятное) 125 — среднее квадратическое 18, 96 — стандартное (среднее квадратиче- квадратическое) 96 Отношение обобщенное стьюденто- во 195 — правдоподобия 436 — стьюдентово 194, 220 Оценивание интервальное 252 — линейной регрессии со сдвигом 374 Оценивание неизвестных парамет- параметров 421 — нелинейной регрессии 370 — непараметрическое 313 — параметрическое 313 — параметров распределения 239 — регрессии 366 Оценивание рекуррентное 300 корня уравнения регрессии 300 математического ожидания 300 точки экстремума регрессии 307 — точечное 252 — факторов 431 Оценка асимптотически нормаль- нормальная 264 эффективная 284, 286 — вероятности 253 — достаточная 288 — ковариации 266 — ковариационной матрицы 267, 368 — коэффициента корреляции 266 — максимального правдоподобия 293 — математического ожидания 267 — матрицы коэффициентов линей- линейной регрессии 366 — моментов 266 — несмещенная 245, 283 — оптимальная 356 в данном классе функций 357 — плотности 313, 320 — смещения 245 — состоятельная 244 — статистической характеристики 244 — функции распределения 317 — эффективная векторного пара- параметра 286 скалярного параметра 283 Оценки собственных значений 297 векторов ковариационной мат- матрицы 297 Ошибка измерений 15 — случайная 11 Параметры распределения 239
494 Предметный указатель Пересечение (произведение) двух событий 26 — множества событий 27 Пирсона критерий 335 Планирование экспериментов 388 План латинского квадрата 397 — неполный 397 — полный iV-факторный 393 — эксперимента полный двухфак- торный 388 Плосковершинность кривой распре- распределения 123 Плотность вероятности 56 — дискретной случайной величины 64 — п-мерной случайной величины 70 — непрерывно-дискретной скаляр- скалярной случайной величины 66 — проекции случайного вектора 134 — случайного вектора 57 — совместная двух случайных вели- величин 142 — условная случайного вектора 134 случайной величины 142 — функции случайного аргумента 199 — широты выборки 213 разброса 213 Подпространства взаимно дополни- дополнительные 132 Подпространство 132 Подсобытие 29 Подход бейесов 455 — минимаксный 456 — эмпирический бейесов 456 Полезность решения 449 Поле событий 30 Полная группа событий 35 Попадание случайной величины в интервал 72, 128 множество 53 область 59, 69 точку 72 — случайного вектора в прямо- прямоугольник 77 Порядок модели авторегрессии 400 Последовательность независимых случайных величин 220 — обновляющая 419 — псевдослучайных чисел 347 Последовательность случайных ве- величин 240 — сходящаяся в среднем квадрати- ческом (с.к. сходящаяся) 240 по вероятности (п.в.) 241 почти наверное (п.н.) 241 Поток событий 48 Пуассона 50 Правило «ложного нуля» 19 — решающее 436, 444 Правило решения 276, 277 рандомизированное 439 — уровня 444 Предельная функция распределе- распределения Колмогорова 341 Представление плотности линейной комбинацией данных функций 332 Приближенное представление рас- распределений 322 Приведение случайного вектора к вектору с независимыми коорди- координатами 196 Признак информативный 432 Принцип двойственности 29 Проверка гипотез о значении пара- параметра 276 независимости случайных величин 342 параметрах распределения 276 распределениях 334 совпадении вероятностей 344 значений параметра 277 распределений 343 Проекции вектора 132 Прообраз множества 188 Пространство вероятностное 33, 54 случайной величины 54 — действительное линейное 358 — значений случайной величины 54 — комплексное линейное 358 — линейное или векторное 358 — элементарных событий 30 Процесс стохастических аппрокси- аппроксимаций 302 Пуассоновский поток 50 Пуассоновское приближение бино- биномиального распределения 52
Предметный указатель 495 Пуассоновское распределение 48, 50 Разброс случайный 11 Разложение асимптотическое 331 — каноническое ковариационной матрицы 113 случайного вектора 117 — ортогональное плотности 322 — плотности по ортогональным по- полиномам 330 Разложение плотности по полино- полиномам Эрмита 325 — случайного вектора по собствен- собственным векторам 112 Распознавание образов 432 Распределение арксинуса 211 — биномиальное 45, 52 — вероятностей 33, 50 — выборочного коэффициента кор- корреляции 269 — вырожденное 68 нормальное 168, 170 — гипотетическое 335 — дискретной случайной величины 55 — логарифмически нормальное (ло- гнормальное) 62 — многомерное нормальное 161 — нецентральное Рэлея 204 — нормальное 62, 63 Максвелла 203 — показательное 63 — полиномиальное 47 — предельное (асимптотическое) 319 — Пуассона 48, 50 — равномерное 62, 63 — Рэлея 203 — случайной величины 54 — Стьюдента 194 — Уишарта 196, 218 — условное 166 — Эрланга 63 /^-распределение 63, 202 7-распределение 62, 155 F-распределение 202 Т-распределение 194 ^-распределение 210 X2-распределение 155, 190 Рассеивание снарядов 11 Реализация случайной величины 16 Регрессионный анализ 387 Регрессия линейная 371 со сдвигом 374 — нелинейная 370 — одной случайной величины на другую 378 — средняя квадратическая 355, 356 линейная 356, 360 Решение бейесово 455 — минимаксное 456 — оптимальное 452 в данном классе функций 454 Риск 449 Рэлея распределение 203 Ряд Грама-Шарлье 326 — Эджуорта 330 Свертка функций 206 Семиинварианты 158, 158 Сигма-алгебра (а-алгебра) 31, 61 Сигнал входной 351 — выходной 351 Символ Кронекера 112 Симметрия эрмитова 104 Система кривых Пирсона 322 — управления 13 Скошенность распределения слу- случайной величины 122 Случай, благоприятствующий со- событию 23 Смещение оценки 245 Событие достоверное 16 — невозможное 16 Событий полная группа 35 События зависимые 38 — независимые 38 — несовместные 17, 26 — противоположные 28 — совместные 17 — эквивалентные 29 — элементарные 29 Состоятельность оценки 258 — выборочная 18 Статистика 244 — достаточная 245 Стоимость (цена) решения 449 Стьюдента распределение 194 Схема случаев 23
496 Предметный указатель Сходимость вероятностная 240 Теорема Бернулли 252 — Блюма 304 — Кифера и Вольфовица 308 — Коши 155 — умножения вероятностей для независимых событий 39 математических ожиданий 146 плотностей 142 Теоремы предельные 220 Тренд (дрейф) 276 Уравнение максимума правдоподо- правдоподобия 293 Уровень значимости 249, 336 — фактора 388 Условие физической возможности системы 401 Учитель 440 — идеальный 440 — реальный 440 Факторы 387, 426 — коррелированные 429 Фильтр Калмана 416 Фишера матрица информационная 286 — метод максимума правдоподобия 293 Формула Бейеса 455 — конечных приращений Лагранжа 308 — Маклорена 52, 156 — полного математического ожида- ожидания 149, 150 — полной вероятности 41 — рекуррентная для выборочных средних 301 — Фишера 271 Функция аддитивная 32 — бесселева 204 — гипотетическая распределения 341 — дискриминантная 436 — единичная ступенчатая 317 — измеримая 64, 188 — кусочно-непрерывная 92 Функция Лапласа 129 — Ляпунова 303 — матричная 93 — множества 32 — надежности 37 — потерь 449 — правдоподобия 293 Функция производящая 44 — распределения 69, 78, 133 проекции случайного вектора 133 — решающая 439, 452 — счетно-аддитивная 32 — характеристическая 151, 152 — B(p,q) (бета-функция) 206 — S (дельта-функция) 214 — 5 (дельта-функция) Дирака 461 — 5 (дельта-функция) импульсная 460 Характеристика качественная 15 — количественная 12, 15 — статистическая 239, 240 — числовая случайной величины 91 Хи-квадрат распределение (%2-рас- (%2-распределение) 190 Частота события 16 — условная 16 Чебышева неравенство 241 — теорема 256 Число степеней свободы 190, 194 Широта семиинтерквартильная 125 Эджуорта ряд 330 Эксцесс распределения случайной величины 123 Элемент вероятности 61, 207 Эллипсоид рассеивания 119 Энтропия 80 Эффективность оценки 284 Явления массовые 13 — случайные 11, 13