Текст
                    

МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ЗА РУБЕЖОМ
MATHEMATICAL STATISTICS BASIC IDEAS AND SELECTED TOPICS PETER J. BICKEL University of California, Berkeley KJELL A. DOKSUM University of California, Berkeley Holden Day, Inc. San Francisco —- Dusseldorf — Johannesburg — London Panama — Singapore — Sydney
П. Бикел, К. Доксам МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Выпуск 2 Перевод с английского ГО. А. ДАНИЛОВА Москва «Финансы и статистика» 1983
ББК 22.172 Б60 МАТЕМАТИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ ЗА РУБЕЖОМ ВЫШЛИ ИЗ ПЕЧАТИ 1. Ли Ц., Джадж Д., Зе л ь не р А. Оценивание параметров марковских мо- делей по агрегированным временным ря- дам. 2. Райфа Г., Шлейфер Р. При- кладная теория статистических реше- ний. 3. Клейнен Дж. Статистические ме- тоды в имитационном моделировании. Вып. 1. 4. Клейнен Дж. Статистические ме- тоды в имитационном моделировании. Вып. 2. 5. Бард И. Нелинейное оценивание параметров. 6. Б о л ч Б. У., X у а н ь К. Д. Много- мерные статистические методы для эко- номики. 7. И б е р л а К. Факторный анализ. 8. Зельнер А. Байесовские методы в эконометрии. 9. Хейс Д. Причинный анализ в ста- тистических исследованиях. 10. Пуарье Д. Эконометрия струк- турных изменений. 11. Драймз Ф. Распределенные лаги. 12. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия. Вып. 1 и 2. ГОТОВИТСЯ К ПЕЧАТИ 1. Лимер Э. Статистический ана- лиз неэкспериментальных данных. Выбор формы связи. Редколлегия: А. Г. Аганбегян, Ю. П. Адлер, Ю. Н. Благовещенский, А. Я. Боярский, Н. К. Дружинин, Э. Б. Ершов, Т. В. Рябушкин, Е. М. Четыркин 0702060000—067 010(01)-83 31 83 1977 by Holden-Day, Inc. Перевод на русский язык «Финансы и статистика», 1983
Глава 7. ф ЛИНЕЙНЫЕ МОДЕЛИ — РЕГРЕССИОННЫЙ И ДИСПЕРСИОННЫЙ АНАЛИЗ 7.1. ВВЕДЕНИЕ В ОБЩУЮ ЛИНЕЙНУЮ МОДЕЛЬ В этой главе мы рассмотрим класс моделей, составляющих основ- ную область приложений развитых нами теорий. 7.1. А. Некоторые примеры линейных моделей С некоторыми частными случаями линейных моделей нам уже при- ходилось встречаться. К их числу относятся, например, модели с одной и двумя выборками из разд. 6.4 и модель линейной регрессии из разд. 3.2. Что общего у этих моделей? а) Все они возникают при исследовании средней зависимости между одной или несколькими величинами (одним или несколькими факторами), которые мы можем варьировать, и количественно завися- щей от них величины, которую мы наблюдаем. б) Все они обладают общей математической структурой, что поз- воляет изучать их сравнительно просто. Напомним эти модели. Это позволит нам подметить их общие свой- ства и подойти к определению общей линейной модели. Регрессионная модель Эта модель возникает при изучении среднего поведения одной коли- чественной величины у как функции другой количественной величины х. В разд. 3.2 мы рассматривали пример, в котором переменная х означала уровень химического вещества в почве, ay — уровень того же вещества в растении, выросшем на этой почве. Анализируя данные, мы пришли тогда к модели Yt = + &2xt + i = 1, ..., л, (7.1.1) где Xi — известные уровни независимой переменной х, a Yt—(слу- чайные) значения, принимаемые переменной у при задании х = xt. В разд. 3.2 предполагалось, что — независимые случайные величи- ны со средним 0 и общей дисперсией о2. В этой главе мы введем еще одно стандартное предположение и условимся считать, что е{ имеет одинаковое нормальное распределение, происхождение которого было выяснено нами. 5
Модель с параметром сдвига и двумя выборками В разд. 6.4.Б мы ввели нормальную модель с двумя выборками. Такая модель возникает, когда требуется сравнить значения перемен- ной у при двух различных условиях: кровяное давление у пациентов, получающих лекарство, и у пациентов, входящих в контрольную группу; рост мальчиков и рост девочек; концентрация загрязнений в водах промышленных городов и водах, омывающих берега Антаркти- ды. Рассмотрение примера из разд. 6.4.Б привело нас к модели Ун = lh + «lb i = 1> ...» У 2/ Hz “Ь 1» •• • > ^2> (7. 1 *2) где elf, e2j — независимые случайные величины, распределенные по закону NN (0, о2); и р2 — средние значения переменной у при выполнении соответственно первого и второго условий; Уц — значе- ние переменной у, соответствующее t-му индивидууму в выборке объе- мом из первой генеральной совокупности; Y2j — значение перемен- ной у, соответствующее /-му индивидууму в выборке объемом п2 из второй генеральной совокупности. Экспериментатор в рассматриваемом примере может влиять на переменную, носящую качественный характер и принимающую только два значения: давать или не давать лекарство, выбрать в качестве ис- пытуемого мужчину или женщину и т. д. Важно и интересно подчеркнуть, что модель (7.1.2) можно рассма- тривать как частный случай линейной регрессионной модели (7.1.1). В этом нетрудно убедиться, если ввести (О при 1=1, ..., nlt \1 при i — + 1, ...» пг + л2. Модель линейной регрессии и нормальная модель с двумя выборками совпадают, если положить п — пг -J- п2, (Уг, ..., Ул,) = (Уц, •••> У1П,)» (У«1 + 1» Уп) = (У21» •••> Узп»), = Pt И Фа — р2 — рх. Модель с одной выборкой Модель с подобранными парами из разд. 6.4.А служит еще одним примером модели, возникающей при рассмотрении изменений перемен- ной в двух различных условиях. Измерению в данном случае подле- жит разность реакций до и после приема лекарства, разность реакций близнецов, один из которых получал, а другой не получал лечение, и т. д. Такого рода модель имеет вид: У| — р -J- ~ 1» •••» Л, где — независимые случайные величины, распределенные по за- кону AW (0, о2). Ее также можно рассматривать как частный случай модели (7.1.1), если положить, что все xt = 0, и отождествить и р. 6
Линейная регрессия в случае двух переменных Модели простой линейной регрессии при всей своей полезности ограничены. Обычно требуется изучить влияние на у нескольких других переменных. Так, в нашем примере количество химического вещества, поглощенного растением, зависит не только от количества вещества, внесенного в почву, но и от того, сколько воды получает рас- тение. Естественно выбрать различные сочетания количеств химиче- ского вещества, внесенного в почву, и полученных растением коли- честв воды и пронаблюдать концентрации вещества в растении для каж- дого сочетания. Если предположить, что средние концентрации хими- ческого вещества в растении линейно зависят от количества воды и от количеств вещества, внесенного в почву, то наши наблюдения Yt можно представить в виде: Pi p2^is "E P3Q3 "E 1, ...» n, (7.1.3) где Yt — концентрация интересующего нас химического вещества в г-м растении; с12 — количество вещества, внесенного в почву; cfs — количество воды, полученной t-м растением; pt — неизвестные коэф- фициенты, задающие линейное соотношение; 8{ — независимые слу- чайные величины со средним 0. Исходя из асимптотического поведения величин ег (центральной предельной теоремы), нашего опыта и надежды мы предполагаем, что — независимые случайные величины, распре- деленные по закону NN (0, о2). Типичный набор сочетаний уровней независимых переменных и со- ответствующих значений зависимой переменной может выглядеть сле- дующим образом (см. также разд. 3.2): Таблица 7.1.1 i 1 2 3 4 5 6 7 8 9 10 11 12 4 4 4 8 8 8 12 12 12 16 16 16 2 4 6 2 4 6 2 4 6 2 4 6 Yt 61 58 50 65 66 60 74 70 68 85 84 79 Модель (7.1.3) может также возникать и при несколько ином под- ходе. Мы снова рассматриваем только одну независимую переменную х (например, количество удобрения, внесенного в почву), но зависи- мость между х и средним выходом (содержанием интересующего нас вещества в растении) считаем не линейной, а квадратичной, т. е. Y[ — • Pi -J- p2^'i Ps^i *4” 1» •••> где xt — количество вещества, внесенного в почву. Отождествив ciz с Xt, a Ci3 — с х? (обе величины — известные константы), мы снова придем к модели (7.1.3). Приведенные нами примеры служат эври- стическим обоснованием определения общей линейной модели. 7
7.1. Б. Что такое общая линейная модель и каковы ее допущения? Определение 7.1.1. Величины Уп называются общей ли- нейной моделью, если они представимы в виде У< 4* ~Ь ••• И- PpQp 4“ i 1,..., п, (7.1.4) где ctj — известные постоянные; pj — неизвестные вещественные па- раметры; — независимые случайные величины с распределением NX (0, о2). Заметим, что (7.1.1) и (7.1.3) соответствуют случаям р = 2 и р — 3 с ctl = 1 при всех 4. Мы ознакомились с линейной моделью главным образом на приме- рах, в которых независимые переменные носят количественный ха- рактер. Возникающие при этом модели называются (мультилинейны- ми) регрессионными моделями. Столь же часто встречаются и такие си- туации, в которых независимые переменные носят качественный харак- тер, как в задаче с двумя выборками. Соответствующие частные слу- чаи общей линейной модели называются моделями дисперсионного анализа. Наконец, имеется немало ситуаций, в которых одна часть не- зависимых переменных имеет количественный, а другая — качествен- ный характер. Пусть, например, требуется установить зависимость ко- личества химического вещества, поглощенного растением, от количе- ства вещества, внесенного в почву, и типа почвы. Под типом почвы в данном случае имеется в виду количественная переменная, принимаю- щая два значения (или больше). Иногда модели, которые при этом по- лучаются, называются моделями ковариационного анализа. В качест- ве иллюстрации приведем простейший пример модели дисперсионно- го анализа. Пример 7.1 Л,* Модель ср выборками, или план с одним признаком. Модели с двумя выборками применимы в том случае, если незави- симая переменная является качественным фактором, принимающим только два значения. Но довольно часто нас интересуют качественные факторы, принимающие более двух значений. Так, если мы сравни- ваем уровни загрязненности воздуха, то их желательно оценивать по дискретной шкале с несколькими позициями. В фармакологии часто бывает необходимо сравнивать действие не двух, а большего числа ле- карств и т. д. Предположим, для большей ясности, что требуется сравнить дей- ствие р > 2 лекарств на некоторой совокупности подопытных пациен- тов. Каждый из пациентов получает только одно лекарство, причем пациент получает лекарство с номером k, где 1 k р, nt 4- ... 4- пр = п. Если контролируемые реакции пациентов на прием ле- карств независимы и нормально распределены и каждое лекарство по предположению независимо от значения контрольной реакции добав- ляет к ней постоянную (как в разд. 6.4.Б), то мы приходим к плану с одним признаком, или модели с р выборками Ykl^ Pfc + 1 < I < пк, 1 < k < р, (7.1.5)
1 Yu, Y12, * . • » Ylni 2 Y^it Y22j • • •» Yjti^ • • • р Ypi* Yp2t • • •» Ypnp где У hi — реакция /-го па- циента в группе, получав- шей &-е лекарство; — средняя реакция на k-e ле- карство и еЛ| — независи- мые случайные величины с распределением NN (0, о2). Обычно такого рода дан- ные удобно располагать в виде таблицы (см. справа). Это линейная модель при ренумеровав наблюдения в порядке .... Уп, где Ух, Уп, — реакции пациентов группы, получавшей первое лекарство; Уп,+ь •••> Ущ+п, — реакции пациентов, получавших второе лекарство, и т. д любом р, в чем нетрудно убедиться, пе- о k> ,0 в остальных случаях. 7.1.В. Что означает принятие линейной модели? Для правильной интерпретации результатов исследования, вклю- чающего принятие линейной модели для описания исходов экспери- мента, важно знать, какие допущения положены в основу линейной модели. Чтобы продемонстрировать их наиболее отчетливо, проследим шаг за шагом всю цепочку последовательных упрощений, приводящих к линейной модели. Мы хотим исследовать среднее поведение р неко- торой количественной переменной у, отчасти случайной, отчасти за- висящей от других переменных xlt ...» хт. Мы контролируем неслу- чайные переменные xr,..., хт и хотим найти р как функцию от Xi, ..., хт. Потенциальное значение зависимой переменной у можно считать функцией у (хх, ...»хт, е) контролируемых нами независимых перемен- ных хп...»хт и неконтролируемых случайных факторов, совокупность которых представлена случайной величиной е. Тогда интересую- щее нас среднее р (xlt .... хт) представимо в виде Р (^1* •••» ^т) = £ (У (*!• •••» Хт, б)). Чтобы исследовать р, мы выбираем п сочетаний уровней независи- мых переменных хг тания (хи,..., х1т),..., ЧЛП1, •••» Лпт. ветствующих этим п наборам, получаем хт (повторения допускаются), например соче- fxnl,...» xnm), и, наблюдая у в условиях, соот- * 1 — У \А11» •••» Л1т» «•!/» •••» * п У Лпт» В примере, где независимыми переменными были количество хи- мического вещества, внесенного в почву, и расход воды на полив, мы могли бы случайным образом выбрать в однородном поле п одинаковых 9
по своим размерам участков и случайным же образом определить, ка- кое количество удобрения и воды получит каждый из выбранных уча- стков. В этом случае т = 2, п равно числу участков в пате, а воз- можные сочетания уровней независимых переменных представлены в табл. 7.1.1. Заметим, что основой для составления такой таблицы могло бы послужить поле с 12 участками. Полученные данные можно было бы расположить и следующим образом (см. табл. 7.1.2). Введем первое упро- Таблица 7.1.2 С/д 4 8 12 16 2 С tn 61 65 74 85 4 58 66 70 84 6 50 60 68 79 щающее предположение: I. Величины незави- симы. Следовательно, Yi также независимы. В приведенных нами примерах эксперименты можно спланировать так, чтобы предположение I имело смысл*. Более под- робно мы обсудим предпо- ложение I в конце этого 1 аздела и в гл. 9. II. Предположим далее, что к «детерминистскому» влиянию р на у добавляется действие на у случайных факторов, позволяющее за- писать Уi - И ...» xim) 4- 8Ь I < i < л, (7.1.6) где — одинаково распределенные случайные величины. Частные случаи такой модели рассмотрены в разд. 2.1 и 6.4. Пред- положение II зависит от выбора переменных у и ..., хт. Опыт пред- варительной работы с физической моделью может, например, указать, что ошибки в наблюдаемой переменной мультипликативны (т. е. дис- персия величин Yt возрастает с р). В этом случае модель (7.1.6) не- применима к Yif но если наблюдаемые переменные положительны, то та же модель может быть применима к In Yt. Различные примеры та- ких рассуждений рассмотрены в книгах: Мандель [18, р. 2061 и [9]. Часто предположения I и II вводят априорно, а затем подвергают про- верке в свете полученных данных. Генезис следующего предположения был выяснен нами ранее: Г. 1III. Все распределены по закону NN (0, о2). Обратимся теперь к функции р. Если эта функция полностью не- известна, то мы не можем получить никакой информации о значениях, принимаемых р при ..., хт, отличных от выбранных. Информация о значениях, принимаемых р в выбранных х17 ..., хт, также мала, если мы не располагаем несколькими измерениями величины у при каждом выбранном сочетании уровней. Обычно предполагается, что Р ^т) (^1» •••» Хщ* Р1» •••» Рр)» (7.1.7) * Для адекватной формулировки модели решающее значение имеет указа- ние точного типа эксперимента. См. обсуждение модели со случайными эффек- тами в конце этого раздела. 10
где h — известная функция, а .... рр — неизвестные параметры. Так, в примере с линейной регрессией предполагалось, что среднее линейно по х (т. е. что р (х) = + рах). Мы требуем большего, чем (7.1.7). IV. Функция h линейна по параметрам ..., 0Р, т. е. существуют известные функции ..., gp от (хх, ..., хт), такие, что Р (Xj, ..., Xm) = PiSi (Xj, •••» Xm) 4“ ••• 4“ Рр&р (Xj, Xm). (7.1.8) Например, р (хх, ха, xs) = exp (хх) х2 4~ ₽2 (х3 — хх) соответст- вует, а р (Хц ха, х3) = Xi exp (& 4- Ра) 4- РгХ2 не соответствует ли- нейной модели. Неравенство т<. р отнюдь не исключается. Напри- мер, в ситуации, рассмотренной нами в связи с (7.1.3), когда количест- во вещества, поглощенного растением, есть квадратичная функция количества вещества, внесенного в почву, мы получаем т = 1, р = 3. Функции цветом случае имеют вид^! (х) = l,ga (х) = хи£3 (х) = х2. Представления функции р вида (7,1.8) часто используются как приближенно верные при усечении ортогональных разложений для р, например, рядов Фурье или разложений по ортогональным полиномам (см. Курант и Гильберт 151). Нелинейные модели (удовлетворяющие соотношениям (7.1.7), но не соотношениям (7.1.8)) поддаются анализу со значительно большим трудом. Если переобозначить известные постоянные gj (хц, .... х,то) через а средние р (ха> xJm) — через & , то & = 0^ 4- ... 4- РР^₽, и мы, наконец, приходим к общей линейной модели при допущениях I—IV. Модели дисперсионного и ковариационного анализа также можно рассматривать в рамках общей линейной модели. Предположим, что мы имеем план с одним признаком, как в примере 7.1.1. Пусть / = 1, .... р, a xi = 1, если назначено Ле лекарство, и Xi = 0 — в противном случае. Тогда вектор (хх, ..., хр) определяет все назначе- ния. Функцию у (Xi, ...» хр) мы наблюдаем пх раз при (хг, ..., хр) = ==(1,0.....0), па раза при (0,1,0,..., 0) и т. д. Пусть р (1,0.0) = — ₽1> Р (0,1, ...» 0) — р2 и т. д. Допущению IV мы удовлетворим, по- ложив р (х2, ...» Хр) = PjXj -f~ ... ррхр. Как будет показано в разд. 7.3, эта идея допускает обобщение на модели с несколькими качественными факторами. 7.1.Г. Матричная формулировка линейной модели Основные параметры линейной модели во многих случаях полезно рассматривать как вектор £ средних наблюдений Y и дисперсию о2 ошибок. Итак, * В этом разделе мы используем вектор-столбцы, а не вектор-строки, как это обычно принято в теории линейных моделей. 11
Уравнение (7.1.4) можно записать в векторном виде где (7.1.9) (7.1.10) 1= 2 /«Я 1 Поскольку коэффициенты Pj могут принимать любые значения, мы ви- дим, что если выбрать параметр О = (|, о2), то нашим параметриче- ским пространством станет множество 0 ~ {(£, о2): § С о* > 0}, где со — линейное пространство размерности г ^р, натянутое на векторы с/, 1 р. Если г = р, или, что эквивалентно, векторы с1# .... ср линейно независимы, то между параметром р= (рь рг)' и | существует взаимно-однозначное соответствие. Тем не менее параметризация с по- мощью р в большинстве случаев неудобна. В этой связи заметим, что, выбрав любой базис Ьх, ..., Ьг для со, мы можем параметризовать нашу модель заново с помощью (тц...1]г, о2), где (7.1.11) 1=1 Вектор 1), как будет показано в разд. 7.2, линейно связан с вектором р. Описание линейной модели в терминах множества со называется бескоординатным или свободным от координат, так как оно заранее ничем не выделяет ни один базис. Для вычислений равенство (7.1.10) удобно также записать в ма- тричных обозначениях: £=СР, (7.1.12) где С — матрица п X р со столбцами сх, ..., ср, ар = (plt ..., рр)'. Тогда со — пространство вектор-столбцов, а г — ранг матрицы С, которую часто называют матрицей плана. Для большей ясности при- ведем размерности и матрицы С, соответствующие некоторым из рас- смотренных нами моделей, и продемонстрируем различные параметри- зации. /1 \ Модель измерения с одной выборкой', р — г = 1, С = Н J. Модель линейной регрессии', р = г = 2, /1 *1 \ С = I.....], если не все xt равны. \ 1 Х-п/ ♦ При r<Zp параметры Pi, .... Рр не идентифицирующие, хотя существуют идентифицирующие параметризации, использующие г параметров (и с8).
План с одним признаком: р — г, где I/ — вектор из И; единиц, а 0 в строке, в которой на /-м месте сто- ит Ij, означает вектор из nj нулей. Другая широко распространенная параметризация в этой модели состоит в том, чтобы выбрать (7.1.13) — средний эффект всех лекарств, а; = 0; — р, 1 р — разли- чие между действием /-го лекарства и средним эффектом. В новых па- раметрах при / = 1, .... р и п0 = 0 имеем &==р4-а;, если^ nfe + l<i< 2 (7.1.14) о *—о Полагая ₽*=$*,...» P£+i)' = Gi, cti,...»аРУ, получаем (1 1Х О ... О X 1 0 lt ... О I 1 О 0 ... 1р/ Матрица С* размера п X (р + 1) имеет ранг р, и столбцы ее принад- лежат линейной оболочке векторов Параметры р, ах...ар — не идентифицирующие, если только мы не введем дополнительное линейное ограничение 2^=0, (7.1.15) следующее из их определения. Описание пространства со с помощью матриц С*, у которых размерность d столбцов превосходит г, а пара- метры становятся идентифицирующими только после наложения d — г дополнительных линейных ограничений, обычно встречается в моделях дисперсионного анализа. 13
7.1. Д. Родственные модели Начнем с рассмотрения многомерной модели, которая сводится к условной линейной модели. Пусть хх> .... хр и у — величины, измеряе- мые одновременно на индивидуумах некоторой генеральной совокуп- ности. Например, хх может быть ростом, у — весом или xlt .... хр — количеством очков, набранных каждым учащимся при решении се- рии тестов, и у — средним количеством очков по колледжу. Как обыч- но, слово «индивидуум» надлежит трактовать в самом широком смыс- ле: например, jq может означать средний уровень шума, а у — коли- чество продукции, производимой фабрикой в выбранный случайным образом день. Средняя зависимость между у и .... Хр измеряется функцией Р Un .... хр) = Е (Y|Хх = хп ...» Хр = Хр), (7.1.16) где (Хх, ..., Хр, У) — измерения индивидуума, случайным образом выбранного из генеральной совокупности. Напомним, что эта функция была введена как лучшее предсказание для У при Хг = хх, ..., Хр — = Хр. Обычно она называется регрессией У на Хх,Хр. Если извлечь теперь из генеральной совокупности выборку (Хп.......Х1Р, Ух), ...» (Хп1, .... Хпр, Yn), то Yt можно представить в виде Yt - р (Xtl... Xtp) + К I ^п, (7.1.17) где Xij = Xtj, 1 /г, 1 / <1 р, — независимы и имеют сред- нее, равное 0. Обычно, дойдя до представления (7.1.17), предполагают, что I ' (1) регрессия линейна по xlt ..., хр, т. е. р (xlt ..., хр) — + ... -У $рХр, где 0J, ...» 0р неизвестны; (2) при Xtj — Xtj, 1 i п, 1 р ошибки имеют оди- наковое распределение NN (0, о2). Ясно, что при этих допущениях, условных по Xtj, мы приходим к варианту общей линейной модели, определение которой приведено вы- ше. Предположения (1) и (2) выполняются при р — 1, если (Xi, У) имеет двумерное нормальное распределение, и при произвольном р, если (Хг, ..., Хр, У) имеет (р + 1)-мерное нормальное распределение. Встречаются и эксперименты типа линейной модели, в которой од- но или несколько предположений (1)—(4) не выполнены. Иногда для них удается сформулировать модели, более адекватные тому, что про- исходит в действительности. Приведем несколько примеров. (А) Наблюдения Yt не являются независимыми. Рассмотрим хи- мический процесс, происходящий в реакторе, на вход которого подает- ся стандартная смесь сырьевых материалов. Ходом процесса можно управлять, изменяя температуру хх и давление х2- При заданных хх и х2 на выходе реактора мы получаем некоторое количество у продук- та. Предположим, что количество продукта получено при различных уровнях 2Xj и х2* из порций €одной и той 1 же партии смеси, коли- чество п2 продукта получено из порций другой партии смеси ижт. д. Разумно предположить, что, хотя состав смеси, подаваемой на вход реактора, случайным образом изменяется от порции к порции и от
партии к партии, все же порции из одной и той же партии смеси обла- дают общими свойствами, представимыми общим случайным аддитив- ным фактором. Таким образом, если Yu означает, что 1-е наблюдение (при температуре xtl и давлении xf2) произведено над /-й партией сме- си, то разумно представить Yu в виде У и = И- (хц, х1й) 4- /у + где е>и — независимые, одинаково распределенные ошибки с нулевы- ми средними, а /у — случайная величина с нулевым средним, общая для всех Y из j-й партии, но не зависящая от всех остальных случай- ных эффектов, включенных в е^. Обычно в аналогичных ситуациях предполагается, что величины /у распределены по закону NN (0, т2). Ясно, что вклад величин Zy в терминах их дисперсии представляет ин- терес и сам по себе. Такие модели иногда называют моделями И или моделями со случайными эффектами. Теорию их читатель сможет найти в книгах Шеффе [20] и Грейбилла [11]. (Б) Временная зависимость. Обширный класс образуют ситуации, которые формально напоминают описания, приводящие к линейной модели, но отличаются тем, что независимой переменной служит ре- ально не управляемый нами параметр — время. Например, среднего- довая цена на пшеницу в стране изменяется год от года случайным об- разом. Взаимосвязь между ценами на пшеницу за два года подряд но- сит весьма сложный характер. Существуют временные тренды, дейст- вующие на протяжении длительных периодов, например инфляция. На урожаи и, следовательно, на цены влияют климатические циклы. Высокие цены на хлеб, поддерживаемые в течение нескольких лет, мо- гут привести к перепроизводству зерна и в конечном счете к снижению цен. Имеются все основания считать последовательные наблюдения статистически зависимыми, а их средние значения — изменяющимися со временем. Изучение моделей, пригодных для описания таких ситу- аций, называется анализом временных рядов. Дополнительные сведе- ния об этом разделе статистики можно найти в работах Андерсона [11, Бриллингера [4], Кендалла и Стьюарта [16, т. 3] и Купманса [171. (В) Не выполняется аддитивность, и распределение ошибок е/ зависит от (xx....xm). Наиболее просто это проявляется в зависи- мости дисперсии ошибок ef от (х<х....xfm). (Г) Функция h не линейна по параметрам ..., Физические соображения часто вынуждают нас приходить к такому заключению, хотя в рассматриваемой области значений параметров предположение о линейности h может быть вполне адекватным. (См. задачу 7.2.7, где для получения линейной модели используется специальное преобразо- вание.) (Д) Распределение ошибок отлично от нормального. В гл. 9 этот вопрос обсуждается в рамках задач с одной и с двумя выборками. Перечисленные «нарушения» предположений, положенных в осно- ву линейной модели, могут встречаться и порознь, и в различных ком- бинациях. Даже в тех случаях, когда нам удается сформулировать альтернативную модель, результаты последующих разделов этой гла- вы не применимы к ней непосредственно. Тем не менее значительная 15
часть теории, развитой для более общих моделей, основана на резуль- татах этой главы. Примером может служить гетероскедастическая мо- дель из разд. 3.2.Б, в которой мы сохранили предположение о незави- симости и нормальности Yt, линейности функции Л, предполагавшей- ся известной, но разрешили дисперсиям величин Yt варьироваться по известному закону Var (У,) = wxo2> 0, 1 < i < nt где величина о2 неизвестна, но коэффициенты wt известны. Вектор Y не удовлетворяет линейной модели, но ей удовлетворяет эквивалентный вектор (YjVwi, .... yn/Vttin)'. Аналогичные преобразования приме- нимы и к некоторым моделям с коррелированными и неоднородными нормально распределенными ошибками (см. Грейбилл [11]). Модели, возникающие в (Д), рассматривались теоретически глав- ным образом, в рамках теории больших выборок (см. Губер [151). Раз- личного рода отклонения от линейной модели неоднократно анализи- ровались в прикладных работах (см., например, Дрейпер и Смит [9], Мандель [181). Были предложены различные методы для описания многих реали- стических ситуаций, в которых заранее не известно, адекватна ли ли- нейная модель, и для установления возможных отклонений необхо- димы данные. Какие альтернативные модели надлежит рассматривать вместо линейной модели, — во многих случаях не ясно. Хотя предло- женные методы очень эффективны, теоретический анализ весьма тру- ден. Пример такого анализа можно найти в работе [6]. • г - • 7.2. ОЦЕНИВАНИЕ В ЛИНЕЙНЫХ МОДЕЛЯХ Во всех рассмотренных нами линейных моделях основной интерес представляет оценивание истинных средних ...... £п параметров Pi, ..., и линейных функций от них, отражающих различные аспек- ты изучаемого процесса. Так, угловой коэффициент в примерах ли- нейной регрессии служит мерой скорости возрастания количества не- коего химического вещества в растении по мере увеличения содержа- ния этого вещества в почве. Функция — р/ в плане с одним призна- ком указывает меру различия в средней реакции между i-м и /-м ве- ществом. Число примеров можно было бы легко увеличить. Необхо- димо также оценивать дисперсию о2 — вариабельность исследуемо- го процесса. 7.2.А. Канонический вид Чтобы построить несмещенные оценки с равномерно минимальной дисперсией для линейных функций средних, дисперсии и других па- раметрических функций, прежде всего необходимо найти подходящую параметризацию для со, которая бы давала простое множество полных достаточных статистик для (£, о2). Напомним, что точка t = (G, tnY принадлежит со в том и только в том случае, если ее можно представить 16
в виде t = ПРИ некоторых постоянных ах, ...» ар. Дано, что £ € <«>♦ Пусть Vj, .... vn — n-мерные вектор-столбцы, образующие орто нормированный базис в Rn и такие, что векторы Vj..vr служат ба- зисом в со. Заметим, что построить такой базис можно всегда, напри- мер, применяя метод ортогонализации Грама—Шмидта [3, р. 180] к базису bj....bn в Rnt такому, что Ьь Ьг образуют базис в о. Основное свойство ортонормированного базиса состоит в том, что 0 при .1 при /=/, (7.2.1) где штрих означает транспонирование. Из этого свойства следует, что любой вектор-столбец t представим в виде <= 2 (t'vOvb /=1 1 (7.2.2) п и если норму ||t|| вектора t определить как [|t||2 = 2#» то . . . п ||И1а= 2 I— 1 (7.2.3) Поскольку vx, ...» vr образуют базис во, t С со в том и только в том случае, если t'v/ = 0 при i = г + 1, ...» п. Таким образом, в том и только в том случае, если *= t (7.2.4) • • /= 1 Пусть vt = (ulf.....vni)f и пусть по определению • • • • п п г^’У, = 2 4<=Vv( = 2 (7.2.5) 1 Из (7.2.2) и (7.2.5) заключаем, что Y= Z,v„ (7.2.6) f—i - • Кроме того, так как £ С со, то т), = 0, г + 1 < i < п, (7.2.7) и S=2tlivf (7.2.8) i 17
Из (7.2.6) следует, что Z = (21г ...,Zn)— представление вектора Y в такой системе координат, в которой параметрическое пространство со натянуто на первые г из п базисных векторов Статистики Zlt ...» Zn обладают очень простой структурой. Теорема 7.2.1. Статистики Zi независимы, и Zt ~ NN (т]/, ст2), 1 i < п. Доказательство. Запишем Z' в виде ....Zn) = (Ух, ...» Yn) А, (7.2.9) где А — ортогональная матрица, столбцами которой служат векторы vx, ..., vn. По теореме 1.3.2 Z| — независимые нормальные случайные величины с общей дисперсией ст2 и /=1 (7.2.10) откуда и следует утверждение теоремы. Поскольку соотношение (7.2.6) устанавливает взаимно-однознач- ное соответствие между Z и Y, любая статистическая задача относи- тельно Y может быть переведена в статистическую задачу относитель- но Z. Распределение вектора Z обладает структурой линейной модели, но особенно простого типа, так как т)х, ..., Г|г изменяются свободно, а Tir+i = ... = т]п = 0. Этот простой вид линейной модели называется каноническим. Установить полную достаточную статистику особенно легко в терминах Zt. Действительно, так как т)г+1 = ... = т)п = 0, то pz (z, а) = ехр 1 п --- V (zf—t]i)2—— 1п2ло21 = 2о® 1 2 =ех₽|~4-т1п2Ч <7-2Л1> Нетрудно видеть, что (7.2.11)—(г + 1)-параметрическое экспоненци- альное семейство. Но о2 может быть любым положительным числом, а Tji, ...» i)r изменяются свободно. Следовательно, по теореме 4.2.3 п (Zlt ..., Zr,yZf) полная и достаточная статистика для (цх, ...,rjr,a2). 18
7.2. Б. Оценивание линейных функций средних — связи с методом наименьших квадратов и теорией несмещенных оценок Прежде всего построим несмещенные оценки с равномерно мини- мальной дисперсией для средних р U = 2 Chi Pj /=• । наблюдений. Имея в виду теорему 7.2.1, мы заключаем, что по теореме Лема- на— Шеффе Zi — н. о. р. м. д. для -qj при i = 1.г и что верно более общее утверждение: при любом наборе постоянных (dlf.... dr) величина Г Г yjdiZi есть я. о. р. м. д. своего математического ожидания г Соотношение (7.2.8) позволяет представить £у в виде £у = Следовательно, если положить <*’”'4 Г I) = 2 ZivH’ 1=1 (7.2.12) то — н. о. р. м. д. для £у. Кроме того, |у — о. м. п. для Ь (задача 7.2.3). Заметим, что j удобно представить в виде /=1 (7.2.13) Тогда Zt = при i = 1........г; следовательно, вектор (Zi..Zr) и определяет вектор |, и однозначно определяется вектором j. Формула (7.2.12) неудовлетворительна по двум причинам: а) оценка выражена через Zt, а не через исходные б) пока не известно, каким образом перейти от | к н. о. р. м. д. 0/ для Преодолеть обе трудности позволяют следующие теоремы, которые показывают, что £& и ру — оценки наименьших квадратов для и Ру, и дают формулы для вычисления этих оценок. Напомним, что проекцией у0 точки у — (t/j.уп)' на со называет- ся точка у0 € со, минимизирующая квадрат нормы Цу — t||a = п = S ((*// — iiY по всем t = (^./п)' С ®, и что оценки наименьших квадратов рх...РР параметров ..., РР являются значениями этих параметров, минимизирующими квадрат нормы || Y — |||а — 19
п р — 2 О'1 — 2 ^«Р/Г- Напомним также, что параметр О называется /»1 /«! идентифицирующим, если из следует Рь =/= Р&'. Теорема 7.2.2 (1) £ — единственная проекция Y на <о, она определяется выра- жением 1= 2 ₽}с7=ср. 7«»1 (7.2.14) (2) Если р = г, то (рь .... 0Г) — идентифицирующий параметр, оценки наименьших квадратов единственны и p=[C'C]“1C/Y. (3) Кроме того, р = IC'C]"1 Cl, Р = IC'C]"1 Cl. (7.2.15) (7.2.16) (7.2.17) Доказательство. При любом t со разность Y — t представима в виде следующей линейной комбинации векторов vlt ..., vn: г п Y-t= 2 (Zi-t'v.Jv, + 2 Z,v,. /•»,! fer + 1 Следовательно, минимум выражения 2(r,-rJ)’=||Y-t|P=2(Z1-t'v1)’+ 2 Zf (7.2.18) 1 /«= i + i по всем t С со достигается и единствен, если первая сумма обращает- ся в нуль, т. е. при fvj — Z^ или, что эквивалентно, при t=t= 2Z£vf. (7.2.19) Формула (7.2.14) следует из определения оценок наименьших квадра- тов. Тем самым утверждение (1) доказано. Чтобы доказать утвержде- ние (2), решим нормальные уравнения (3.2.6), 1 k г, си Р/1 = —2 н *—2 / \ 7е! Так как р = г и 4-2с‘'₽'=с'- <7-2-20) С ₽Л я 20
нормальные уравнения принимают вид: 3 “ ij CMp)Vlft = O, /» 1 \ / = 1 / 1<£<г. Последние уравнения эквивалентны уравнениям 3 У<с<»= 3 ₽,( 3 С„С,Д 1<Л<г. /—.1 /-1 \/- 1 / или в матричном виде C'Y = [С'С] £ (7.2.21) (7.2.22) (7.2.23) При р = г матрица С'С— квадратная размера г X г и невырождена (задача 7.2.8), что и доказывает утверждение (2). Следующая формула (7.2.16) означает, что векторы из со при проектировании на со перехо- дят в себя. Она тривиально эквивалентна формуле (7.2.14). Аналогич- но формула (7.2.17) эквивалентна формуле (7.1.12). На будущее заметим, что нормальные уравнения (7.2.22) и (7.2.23) выполняются даже при р> г. Однако в последнем случае они имеют кратные решения, порождающие одну и ту же оценку | в (7.2.14). Вектор | = (51, ..., In)* называется набором подогнанных значений для Y, Причина, по которой для В выбрано именно такое название, станет ясна, если вспомнить, как мы вводили линейную модель. Точ- ки (хд...xJm, |у), 1 я, лежат на той из поверхностей семейст- ва {(xi..хт, |): В = h (хх, ..., хт, р)}, которая наименее удалена от множества точек (хд,..., X/m> Yj), 1 / ’С л, в том смысле, что для нее сумма квадратов расстояний по вертикали имеет наименьшее зна- чение. Вектор (Ух— Bi. —, Yn — |п) называется вектором остатков, или невязок, вектора Y. Его можно рассматривать как «оценку» век- тора случайных ошибок (ех, ..., еп). Линейные функции от и 0; наследуют оптимальность оценки Пусть ф (|) — любая вещественнозначная функция вектора средних ф© = з = (7.2.24) / — 1 где w' = (tt>j,.... wn). Так как при линейных операциях над несмещен- ными оценками несмещенность сохраняется, Ф© = 3 (7.2.25) /”1 — несмещенная оценка функции ф (|). Кроме того,’из (7.2.12) мы за- ключаем, чтоф (В) зависит только от Zx.Zr. Применяя теорему Ле- мана—Шеффе, приходим к следующему утверждению. Утверждение 7.2.1. Оценка ф (В) — «. о. р. м. д. функции ф (|). Эго утверждение особенно полезно при рассмотрении моделей дис- персионного анализа, в которых интересующие нас параметры, есте- 21
твенно, представимы в виде линейных функций от средних наблюде- ний. Примеры таких моделей нам уже встречались. Так, средний эф- эект от приема лекарств в плане с одним признаком можно пред- ставить в виде t©=- j р превышение эффекта, вызываемого Л-м лекарством (7.1.13), над сред- ним эффектом — р где = Е (Уи). В этой модели такие представления сложнее, чем в более простых вариантах (например, в (7.1.13)). Тем не менее, как показано в разд. 7.3, пользоваться ими вполне удобно. В регрессионных моделях обычно р = г, и интерес представляют сами параметры Р; или линейные функции от Как показывает сле- дующий результат, такие параметры представимы в виде линейных функций вектора средних, и к ним применима теорема 7.2.1. Утверждение 7.2.2. В общей линейной модели с р = г оценки наи- меньших квадратов 0Х, ..., рг являются несмещенными оценками с рав- номерно минимальной дисперсией параметров ......рг. Справедливо Г и более общее утверждение: любая линейная функция имеет о н. о. р. м. д. 'Sjdjfij. Доказательство. Из (7.2.16) и (7.2.17) мы заключаем, что Р7- и 0; могут быть представлены в виде ф (|) и ф (|). Следовательно, 0; есть н. о. р. м. д. параметра Аналогично доказывается и более общее ут- Г Г верждение: ЭД/pj и достаточно записать в виде одной и той же линейной функции от £ и £. Итак, мы приходим к двум методам вычисления несмещенных оце- нок с равномерно минимальной дисперсией. Продемонстрируем их на нескольких примерах. Пример 7.2.1. Линейная регрессия. Из примера 3.2.2 известно, что /= 1 (7.2.26) 2 (**—*)а i и (7.2.27)
_ оценки наименьших квадратов параметров 0Х и 02, если = 0Х 4* + 0а*ь 1 <<<», и не все х{ равны. В разд. 7.1 было показано, что р == г = 2. Из утверждения 7.2.2 мы заключаем поэтому, что указан- ные оценки являются несмещенными с равномерно минимальной дис- персией. По теореме 7.2.2 средние h имеют в качестве подогнанных значений & = 0х + 02*ь Приведем еще один вывод этих результатов, чтобы показать, как могли бы выглядеть в этих примерах vx, v2, вывести для них h и выра- зить^ через В качестве первых двух ортонормированных векторов выберем где Ti = (%i—х) / у (xt—х)2 , и дополним произвольно до ба- / L/- 1 J зиса во всем пространстве. Линейная оболочка векторов vx и v2 совпадает сои Т= У (Y'V,) v, = ( У ^L-)v1+/ У F, J v2, (7.2.28) /»] vn J \ttTl J откуда (7.2.29) Выведем теперь заново оценки 0Х, 02. Запишем 02 в виде отношения (£2 — £1)/(хя — *1), а 0Х — в виде h — хх02. По теореме 7.2.1 02— (£2 £1)/(*2 *1)» 01 —£1 Х1 02» что согласуется с (7.2.26) и (7.2.27), если подставить в них значения из (7.2.28). Пример 7.2.2. План с одним признаком. В примере 7.1.1 было по- казано, что в этой линейной модели £(Гм) = 0а, 1 < Z < Нормальные уравнения имеют вид: пк -Ч У У hl ~nh 0h, I— 1 23
Здесь уместно ввести одно важное обозначение, используемое в дис- персионном анализе: если {гуь...} — многоиндексная последователь ность чисел или переменных, то замена любого индекса точкой означа- ет усреднение по этому индексу. Например, где п — Пх 4- ... + пр. Мы получаем оценки наименьших квадратов Й = Yh.. (7.2.30) По теореме 7.2.1 н. о. р. м. д. среднего эффекта всех лекарств р. = 0. равна в общем случае: н=—2г‘(а неК)’ (7-2-31) Р Л» 1 н. о. р. м. д. превышения aft эффекта, вызываемого Л-м лекарством (7.1.13), над средним эффектом — ал=^.~(7.2.32) Несколько других примеров приведено в следующем разделе и в зада- чах. 7.2.В. Дисперсия оценок наименьших квадратов: теорема Гаусса — Маркова Чтобы судить об эффективности полученных н. о. р. м. д., нам не- обходимо знать дисперсию линейных функций ф (е). Представления; (7.2.12) позволяют получить формулу для дисперсии, которая, однако,! представляет чисто теоретический интерес. При р = г удается найти более точное представление дисперсий; оценок Ру или, в более общем плане, их ковариационной матрицы- (см. (1.4.26)), что в свою очередь приводит к простому представлению5 ковариационной матрицы оценок и дисперсии любой линейной функ-; ции от р или Сформулируем соответствующие утверждения, оставляя их доказав тельства в виде задач. При р = г 1 (Cov (£, ₽*)), , = o’ [С' С]-‘ , (7.2.33)’ (Cova,t))1<.,<„=o’=P, (7.2.34), ККп где Р= CIC'C)-* С' 24
___ проекционная матрица п X п, определяемая соотношением 1= PY. Таким образом, дисперсия оценки равна произведению о2 на /.ft диагональный элемент матрицы, обратной произведению матриц С С и Var fa) = о* 2 cb Ъ» 4- 2 2S di dk bJk , где bjb означает (/, k)-H элемент матрицы [С'С]-1. Аналогично диспер- сию любой линейной комбинации оценок & или 0у можно выразить через b/fc. Разрешив нормальные уравнения вида (7.2.23), мы получим матрицу [С'С1"1 и сможем легко вычислить дисперсии. Для вычислительных целей часто бывает проще заметить, что если ip — линейная функция, то ф (|) всегда представима в виде линейной функции наблюдений Ф(1) = 2 atYt' (7.2.35) 1 при надлежащим образом выбранных коэффициентах at. Это утвержде- ние верно, так как из (7.2.5) следует, что Zt — линейные функции от Yt, а из (7.2.13), чтоф (|) — линейная функция от Zt. Таким образом, Var(if(t)) = os( 2 V=» 1 / (7.2.36) Необходимо подчеркнуть одно важное обстоятельство: коэффициент при о2 в (7.2.36) зависит только от ф, а не от £ или о2. В качестве иллюстрации к намеченному подходу рассмотрим оцен- ки р и в плане с одним признаком, заданные соотношениями (7.2.31) и (7.2.32), в случае, когда все пк равны (общее значение пк обозначим через с): (7.2.37) ХЧ. р С а<=2 2а*»Г«» к=1 1—1 где
Таким образом, Var(£) = -^- = -^-, (7.2.38) ср п Var(a,) = -£- {с(р-1)г+с(р- 1)} =0»-4^-. с» р» п Представление (7.2.35) функции ф (|) приводит к еще одному ин- тересному следствию. Рассмотрим обобщение линейной модели, о ко- тором мы уже упоминали в разд. 3.2. Отбросим требование, чтобы из (7.1.4) были независимыми случайными величинами с распределе- нием NN (0, о2), и будем предполагать только следующие свойства: Е (е£) = 0, (7.2.39) Var (ez) — o2<Z со, Cov (еь ej = 0, i =/= /. (7.2.40) n Назовем любую статистику вида t линейной оценкой. Следую- t = 1 щее утверждение известно как теорема Гаусса—Маркова. Следствие 7.2.1. Предположим, что выполняется модель, задавае- мая соотношениями (7.1.4), (7.2.39) и (7.2.40), и | принимает любые значения из о. Тогда оценка наименьших квадратов ф (%) остается не- смещенной и имеет равномерно минимальную дисперсию среди всех линейных несмещенных оценок. Доказательство. Рассмотрим любую линейную оценку Т (Y) = = Из (7.2.39) получаем i** 1 л л Е <Т (Y)) = 2 а, Е (У,) = 2 аЛ. (7.2.41) 1=1 1 а из (7.2.40)— п Var(T(Y))= V a?Var(У,)+2 2 alalCo\(Yi,Y)) = 1</ п п = 2 о? Var (ef) + 2 2 aj Cov (еь ej) = <*а 2 • (7-2.42) /= i i < / i Заметим, что математическое ожидание и дисперсия оценки Т зависят от Ef только через (7.2.39) и (7.2.40). Следовательно, если Т — несме- щенная оценка функции ф (^) в общей линейной модели, определенной нами, то Т остается в том же качестве и в более общей линейной моде- ли, задаваемой условиями теоремы Гаусса—Маркова. Аналогично, так как ф (&) — линейная оценка, обладающая равномерно наименьшей дисперсией среди всех линейных несмещенных оценок в линейной мо- дели, она должна иметь наименьшую дисперсию и среди всех таких оценок в более общей модели. И 26
Этот результат при всем интересе не имеет, однако, столь решающе- го значения для оценок наименьших квадратов, как некогда полагали. Можно построить нелинейные несмещенные оценки намного лучшие, чем оценки наименьших квадратов, если образуют выборку из рас- пределения, отличного от нормального. Например, при оценивании среднего р в модели измерения выборочная медиана и другие устойчи- вые оценки, которые будут определены в гл. 9, оказываются лучше оценки наименьших квадратов Y, если е/ образуют выборку из многих реалистических распределений. Эти вопросы более подробно рассмот- рены в разд. 9.5. 7.2.Г. Оценивание дисперсии ошибки Пусть (7.2.43) Так как Zr+i> .... Zn — независимые случайные величины с распреде- лением NN (0, о2), s2 — несмещенная оценка дисперсии о2. Но л п г 2 (7.2.44) /cjf -J- 1 Zse 1 /ж 1 — функция только полной достаточной статистики. Следовательно, s2 — к. о. р. м. д. Заметив, что Л Л v-s = 2 z‘v<- l=r + 1 получим s2 = || Y-SIP = £ (у,_£)>. (7.2.45) n r n r /= 1 Заметим, что о. м. п. для о2 является (1 — rlri) s2, а не s2 (задача п 7.2.3). Величина 2 (У< — ^)2 равна квадрату расстояния вектора ос- татков от 0. Обычно ее называют остаточной суммой или суммой квад- ратов ошибок, В модели измерения В плане с одним признаком г = р и р пь 2 2 *=!/=! п—р (7.2.46) Другие примеры рассмотрены в задачах. 27
7.2.Д. Теория распределений: доверительные интервалы Обратимся теперь к распределениям вероятностей оценок £, 0, ф(|) и s2. Теорема 7.2.3. Векторы £ подогнанных значений и Y — £ ос- ✓X п татков независимы. Любая оценка ф (|) = имеет нормальное /ж= 1 распределение со средним ф (£) и дисперсией, задаваемой соотношением (7.2.36), если ф (£) представлена в виде (7.2.35)*. Нормированная остаточная сумма квадратов (п — г) (sVo2) име- ет распределение х£_г и независима от ф (£). Доказательство. Так как n независимость следует из теоремы 7.2.1. j Нормальность оценки ф (|) следует из представления (7.2.35) и ад-= дитивного свойства нормального распределения. | Наконец, заметим, что J n (7.2.47) Так как Zf/o (г 4- 1 < i n) — независимые стандартные нормаль-1 ные случайные величины, утверждение теоремы доказано. | Следствие 7.2.2. При р — г оценки 0 и s2 независимы и любая I Г Г I линейная функция JjdjPy нормально распределена со средним и дисперсией вида (7.2.36). | Доказательство. Справедливость утверждения видна непосред-| ственно, так как оценки 0; — линейные функции от £. * Все утверждения о распределениях интересующих нас оценок можно| мулировать более точно. Например, £ имеет многомерное нормальное рас-4 еление со средним £ и ковариационной матрицей oJP. Аналогично Y —£ | ^многомерное нормальное распределение со средним 0 и ковариационной мат-у й o’ (I — Р), где I — единичная матрица п X п. Наконец, 0 имеет много- ое нормальное распределение NN (0, [С'С]-1 о*). Подробности см. в книге фе [20, р. 26]. } 8
Теорема 7.2.3 позволяет вывести доверительные границы и ин- п тервалы для ф(£)=,£й1Ёе и о2. Заметим, что (п \ 1 । 1 2 а} j = _ (Ш)-Ч-(Н) (7.2.48) а 2 о?) / __ отношение стандартной нормальной случайной величины к неза- висимой случайной величине, распределенной по закону [%£__т!(п — 2 — г)]2, и, следовательно, имеет распределение ТТп_г. Используя обычный метод центральной случайной величины, получаем довери- тельный интервал уровня (1 — а) для ф (£) (?) ± s/„_, (1 - ± а) ]/ £ rf- (7-2.49) П л Заметим, что сумму 2а? обычно вычисляют как Var (ф (|))/о2. Частный случай этих интервалов возникает при оценивании среднего по сово- купности в задаче с одной выборкой (пример 5.1.1). Соответствие ста- новится ясным, если заметить, что в этом примере так же, как и в (7.2.48), центральная статистика имеет вид отношения (о. м. п. парамет- ра — параметр)/(квадратный корень из н. о. р. м. д. дисперсии числи- теля). Укажем на одно важное применение такого подхода. Пример 7.2.1 (продолжение). Доверительные интервалы для пара- метров регрессии. Рассмотрим регрессионную модель из примера 7.2.1. Интервал (7.2.49) уже известен, поэтому, чтобы получить доверительные интер- валы для рх и р2, необходимо лишь вычислить несмещенные оценки с равномерно минимальной дисперсией для дисперсий оценок рх и р2. Из (7.2.26) и (7.2.27) следует, что эти дисперсии равны соответственно: Var(p2) = 2 (х,-х)8 Var(Г,)/ 2 ~*)2 = <= 1 / V— 1 / (7.2.50) Var (pl) = Var(У) + № Var(P2)—2хСоу(У, Й = (7.2.51) Последнее тождество выполняется потому, что — — г п — Cov(y,fM= п S(x,-x)2 П __ 2 (Xi —х) Var (У 0 = 0. (7.2.52) 39
(Можно было бы воспользоваться и соотношением (7.2.28) и заключить, что Y и р2 независимы.) Н. о. р. м, д. дисперсии о2 в этом случае имеет вид: 1 Л X ГТ S п—Z 1 Таким образом, доверительные интервалы для и 02 получаются Доверительные интервалы для и для предсказания приведены в задаче 7.2.5. .3. КРИТЕРИИ в линейных моделях 7.З. А. Общая теория Помимо оценивания линейных функций от средних в линейных мо- делях обычно требуется производить проверку гипотез относительно рассматриваемых параметров. Приведем два старых примера. а) Регрессионная модель. Обычная гипотеза в модели этого типа состоит в том, что изменение независимой переменной не оказывает никакого эффекта. В примере из разд. 3.2 такая гипотеза была бы ра- зумной в том случае, если бы растения поглощали минимальное коли- чество вносимого в почву вещества, но не более, и все дозы лекарств, даваемых подопытным пациентам, были бы минимальными. В обозна- чениях Ь = ₽! 4- такая гипотеза эквивалентна Н : = 0. Представляет интерес и совершенно иная гипотеза, состоящая в том, что среднее зависимой переменной прямо пропорционально неза- висимой переменной. В нашем примере такая гипотеза была бы ра- зумной, если бы вещество, обнаруживаемое в растении, могло иметь только один источник — вещество, внесенное в почву. Такая гипотеза эквивалентна Н : == 0. б) План с одним признаком. Наиболее важная гипотеза в модели этого типа состоит в том, что все лекарства оказывают одинаковое действие. В обозначениях (7.1.5) эту гипотезу можно записать в виде Рассмотренные нами гипотезы обладают двумя существенными об- щими особенностями: 1) они относятся только к среднему | наблюдений; 2) утверждения гипотез означают, что | принимает значения из линейного подпространства соо пространства со значений | в рассма-
триваемой модели. Иначе говоря, из гипотез следует, что семейство распределений вектора Y описывается линейной подмоделью исходной модели. Продемонстрируем обе особенности на наших примерах. а) Гипотеза 02 = 0 означает, что значения £ образуют подмно- жество (оо = {£ : Ь = Pi, — оо < < оо). Ясно, что соо — одно- мерное подпространство пространства со, натянутое на вектор (1,..., 1)'. Гипотеза Pi = 0 означает, что £ = р2 (*п •••» *п)'> где на ра не наложе- но никаких ограничений. В этом случае соо — одномерное подпро- странство в со, натянутое на вектор (хх, .... xn)'. w б) Если р — общее значение рх, ..., рр, то гипотеза Н задает £ = == 0(1, ..., 1)'. Следовательно, со0 в этом случае — то же одномерное подпространство, которое было получено в первой части п. а). Оказывается, что многие важные задачи, связанные с проверкой гипотез в линейных моделях, формулируются следующим образом: Н : £ Е относительно К: £ Е «о — соо, (7.3.1) где о—^мерное линейное подпространство в Rn, а —^-мерное под- пространство в со, причем 0^q<z.r. Критерии отношения правдоподобия в двух частных случаях были выведены нами в особенно простом виде: Н: = u3— в модели с двумя выборками и Н: и. = р0 — в модели с одной выборкой. Теперь мы дадим с единых позиций простой и изящный вывод критериев от- ношения правдоподобия в более общей ситуации (7.3.1). В модели (7.1.9) функция’ правдоподобия имеет вид: 1 ----п Р = (У, О) = (2ло2) 2 ехр 1 ------п f 11 > (=(2ло^ 2 expj —-Ь||у-III2}• I ХО ) (7.3.2) Заметим, что максимума можно достичь, если р (у, О) максимизиро- вать сначала как функцию от £ при заданной дисперсии о2, а затем как функцию от о2. Итак, прежде всего необходимо установить минимум величины ||у — £||2. Как было показано в теореме 7.2.2, минимум IIY — £||2 по £ Е о) достигается в точке £ — проекции вектора Y на о. Но <оо — линейное подпространство в Rn, поэтому минимум IIY — £||2 по £ € (оо достигается в проекции £0 вектора Y на ov Из задачи 7.2.3 находим, что оценки максимума правдоподобия Дисперсии о2 при £ Е ю и £ Е <оо равны соответственно: о2 = и 'оз = -L || Y-Х ||*. п ±|МГ п 31
Подставляя £0. <т и а0 в отношение правдоподобия X (у), получаем Л / Г" И 119 "1 2 Х(у)= (7.3.3) Смысл полученного критерия интуитивно ясен: он отклоняет гипотезу Н, если согласие, оцениваемое по остаточной сумме квадратов, плохо i по сравнению с согласием, достигаемым при альтернативе. При вы- j числении критических значений удобнее работать со статистикой n—r (7-3.4) эквивалентной статистике X (Y). Поскольку Тп = (« —V) (г — д')"1 X X {[X (Y)]5ft— 1}, Тп — возрастающая функция от X (Y), и эти две статистики критерия эквивалентны. Статистика Тп называется F-cma- тистикой для общей линейной гипотезы. Для построения теории распределения вероятностей статистики Тп необходимы два распределения, рассмотренные в задачах 1.3.12— 1.3.14. Для удобства напомним их определения. Если Xt, ..., Xk— независимы и распределены по закону NN (pt, 1), то говорят, что cra- ft тистика V = рх? имеет нецентральное распределение %* с параметром нецентралъности О3 = и обозначают V ~ (О1). Если V и W независимы, причем V ~ $ (О2) и W ~ yjn (<►*)» то говорят, что от- ношение (V/£)/(W7m) имеет нецентральное распределение FFhtJn с параметром нецентралъности О2. Теорема 7.3.1. Если гипотеза Н верна и £ £ соо, то статистика Тп имеет распределение FFr_q^r. В общем случае если О = (£, о1), то Тп имеет нецентральное распределение FFr~qtn-r с параметром нецентральности 62, определяемым соотношением 116-ЫР — Г* (7.3.5) < i где |0 — проекция | на w0. Доказательство. Рассмотрим каноническую модель, как в разд. * 7.2. Пусть vlt.... vn — ортонормированный базис в Rn, такой, что ли- нейная оболочка векторов vlt..., vq совпадает с <оо, а линейная оболоч- < ка векторов vt, .... vr совпадает с о. Пусть, как и прежде, А — орто- гональная матрица п X п, столбцами которой служат векторы vn, . а вектор Z' = (Zt.Zn) определяется соотношением Z' = Y'A. По теореме 7.2,1 Zlt .... Zn —независимые случайные величины, распре- деленные по закону NN (т]|, о1). Кроме того, если £ € со, то = 0 при 32 i
( = 1, ...» n, а если t € <*>о» то^ = 0 при i = q -Ь 1, ..., n. Из (7.2.18) и (7.2.19) заключаем, что Ilv-3ir= 2 z7> НГ-£1Г= 2 <7-3-6) ] l-*q -J- 1 Следовательно, Tn можно представить в виде n («— г) У, Zi Тп ---------tSLt!----. (7.3.7) (r-g) £ zt l--*r+ 1 Кроме того, если | € соо, Zq+1, .... Zn независимы и имеют распределе- ние NN (0, о2), то последствию 1.3.1 Тп имеет распределение FFr_4tn„r. п В общем случае, когда | € <о, случайная величина ст* 2 Zf по-преж- / = г+ I г нему имеет распределение х^_г и независима от о-2 SZ’. Однако по- ir=iq 4-1 следняя случайная величина не обладает (центральным) распределе- нием %2, за исключением того случая, когда £ Е w0; поскольку Zila~ ~ NN 1), i = q 4- 1, ..., г, она по определению имеет нецент- ральное распределение y}~q с параметром нецентральное™ 6!=4 2 ч?- <7-3-8> Это позволяет заключить, что Тп имеет нецентральное распределение FFr_q п-r с параметром нецентральное™ 62. Прежде чем выводить для 6* выражение (7.3.5), получим для Тп важное представление (7.3.12). Из (7.2.19) непосредственно следует, что t-X= 2 Ztyh (7.3.9) поэтому * ||1-£1Г= 2 Z?. (7.3.10) Сопоставляя (7.3.10) с (7.3.6), получаем h-l,ir=||Y-tll’-l-ll Г—&,|Г- (7.3.11) Как видно из рис. 7.3.1, это соотношение представляет собой не что иное, как теорему Пифагора (рис. 7.3.1 соответствует п — 3, со = {у: Уз = 0} и ©0 = {у: у3 = 0, yt = у2}). Из (7.3.11) и определения (7.3.4) получаем Т„ = Ч . (7.3.12) '-Ч IlY-Tiir § Зак. 1313 33
То же рассуждение позволяет вывести и формулу (7.3.5). Действи- тельно, (7.2.8) позволяет записать вектор | в виде £ = ibv,» м поэтому проекция вектора £ на подпространство coo, натянутое на век- торы vx, ...» vq, представима в виде £о= 2 v,-. Таким образом, 115-5» IIs = 2 Г 2 2 л?. t==ff+i и заключительное утверждение теоремы следует из (7.3.8). Для получения областей индифферентности в терминах 62 можно воспользоваться таблицами и графиками распределения F. Это позво- лит установить объемы выборок, необходимые для достижения задан- ной мощности (114, табл. 301 Рис. 7.3.1 и 1101). Так как ю0 само является линейным пространством, век- торы базиса в соо можно пред- ставить в виде столбцов невы- рожденной матрицы Со разме- ром п X q. Это означает, что .у гипотезу /7: £ £ (о0 можно за- писать в виде £ = С0Р*> (7.3.13) где р* — некоторый д-вектор. Следовательно, если р0 — оценка наименьших квадратов для р* в модели (7.3.13), то 1о=сХ (7.3.14) Аналогично ~ Соро, где р0 минимизирует || 5 - с»₽* ||2 по всем р*. Но ро — функция от Ух....Yn, т. е. р0 = р0 (У\..Уп). Следовательно, чтобы получить = СоРо, можно подставить в pj (Yt, ...» Yn) вместо Ух, .... Yn ве- личины ..., |п и затем вычислить Соро (£1. Бп)- Ход вычислений и некоторые возникающие при этом вопросы мы продемонстрируем и обсудим на примере модели простой линейной регрессии и двух моделей дисперсионного анализа*
7,3.Б. Линейная регрессий Напомним, что в этой модели ~~ Р1 Т" Рг-^Ь i ~ Л. Начнем с проверки гипотезы Н: р2 = 0 относительно альтернативы К: 02 ф 0. Мы предполагаем, что не все х, равны, поэтому <в имеет раз- мерность г = 2. Оценки наименьших квадратов pt и р2 при выбран- ном <о приведены в примере 7.2.1. Если выполняется гипотеза Я, то g. = рь i — 1, .... п, и оценка наименьших квадратов коэффициента 0] равна Y. Подставляя оценки наименьших квадратов pt и ра в (7.3.12), получаем, что /^-статистикой является величина (п-2) 2 (т£ xt - У)2 (п— 2)Э1 2 (**-*)* ? _ . 4=1 _1=Л 2 (Yt-Зх-л Xi)2 2 (п-Pi-'Й »=I Z=! По теореме 7.3.1, если выполняется гипотеза Н, Тп имеет распре- деление F/'1>n_2, и для вычисления критических значений или р- значений можно воспользоваться таблицами распределения FF, При р2 0 мощность критерия отношения правдоподобия можно вычислять по таблицам и графикам нецентрального распределения FF. Параметр нецентральности б2 мы найдем, заметив, что если вместо Yt в оценку наименьших квадратов коэффициента pt подставить £г, то при выпол- нении гипотезы Н получится среднее Следовательно, £о= (£♦••> £)'- Так как = Pi + p3Xi, из (7.3.5) получаем Е U.-5)2 = V £(*<-*) • (7.3.15) Z=1 Z=L Интуитивно статистику Тп можно рассматривать следующим обра- П _ ^ч, зом. Оценка р2 имеет дисперсию о2/ У (хг — х)2. Разделив р2 на оцен- /П — У, (хг — х)3 ее стандартного отклонения, получим /==1 Т„ = Й1/ 2(х,-7)* b = Vn-2fe X * i-d / /п — I - Г П / л л \з jy У -₽2*() . (7.3.16) Таким образом, у» = т Г п П» и критерий отношения правдоподобия отвергает гипотезу при больших значениях |УП|. 2* 35
Вместо того чтобы относить У« к таблицам распределения РЕ, Воспользуемся таблицами распределения ТТ. Заметим, что в силу (7.2.28) и (7.3.7) 2 W-2) • Следовательно, если выполняется гипотеза Н, то Vn имеет распределе- ние ТТп-2, и критерий для проверки гипотезы Я: 02 = 0 относитель- но альтернативы Д: р2 О отвергает гипотезу И в том и только в том случае, если |УП| > /п_2 (1 — а),где/п_2 (1 — а) есть (1 — g- а)-й квантиль распределения ТТп_2- Аналогично мощность можно вычис- лить, заметив, что при р2 ¥= 0 величина Уп имеет нецентральное рас- пределение ТТп-2с параметром нецентральное™ 2 (-*т — х)*/сг. Если мы хотим выяснить, существует ли положительная связь между независимой переменной х и Е (У), то проверке подлежит ги- потеза Я': р2 0 относительно альтернативы Д': р2 > 0. Критерий должен отвергать Н' при Vn Ai—2 (1 а)« Доверительные интервалы для 02 мы находим, обращая семейство двусторонних критериев для проверки гипотез Яо: р2 ~ Р® при р®, принимающем различные значения. Эти критерии можно получить из Vn заменой переменной У/ = Yt — p®xj. Пусть р2 = р2— Ра- Тог- да Е (Yfr) = Pi -Ь (Р2 — Р°) xt = рг Ч- Рг*м и гипотезу можно запи- сать в виде HG‘. рг ~ 0. Таким образом, если мы заменим У, в Уп на У/ и обозначим получившуюся при этом статистику через Vh, то от- вергать гипотезу Н9 в пользу альтернативы Д: р2 =£ р® следует при больших значениях |Уп|. Заметим, что Vn приводится к виду Если верна гипотеза HG, то Vh имеет распределение 7ТП_2. Если же р2 у= 0, то Vi имеет нецентральное распределение ТТп-г с параметром Г п _ нецентральное™ (Р2 — р2) 1/ 2 (xt — х)2/о. Не удивительно, что, обратив это семейство критериев, мы получим те же доверительные ин- тервалы, которые выведены в конце предыдущего раздела. Соотношение У« = Тп можно распространить и на общую линей- ную модель. Предположим, что наша гипотеза имеет вид Н: = 0 при каких-то параметрах ..., рг, определяющих линейную модель. В полилинейной регрессии при i > 1 наше предположение соответст- вует проверке того, оказывает ли (i — 1)-я независимая переменная 36
КаКое-то действие на Ё (Y). Можно показать, что /'-критерий имеет Вид утверждения: «Отвергнуть гипотезу в том и только в том случае, если — -~а)> Где"р/— оценки наименьших квадратов параметров рь а аа — «. о. р. м. д. дисперсии оценок р<». Эта формулировка допускает обобщение на g-мерные гипотезы ви- да И: pi = ... = Рг_? - 0 (см. 120, р. 40]). Все наши замечания применимы и ко второй гипотезе линейной ре- грессии, о которой мы упоминали, — к Я: = 0. Из (7.2.51) полу- чаем Следовательно, критерий отношения правдоподобия отвергает гипоте- зу в том и только в том случае, если (л \ 9 УI—Р1—02 Xi) (7.3.17) превышает 6,-2^1— Для вычисления статистик критерия нам необходимо знать оста- точную сумму квадратов S (xt — х)2 и оценки рп р2. Вычисление этих величин упрощается, если воспользоваться соотношениями, вытекаю- щими из теоремы Пифагора, типа (7.3.11). Например, если <п0 соот- ветствует гипотезе Н: р2 — 0, то из %0 = (Y, ...» Y)' и (7.3.11) полу- чаем 2^-'₽i-fe*<)’=h-tir= Z=1 =||v-€l|a-i|F-i|f=S (V,-Y)2-P? 2 (х,-х)г. (7.3.18) i=l f=l Таким образом, вычисление статистик критерия требует знания только пяти сумм Sxf, 2Уь S (xt — х)2; S (Kf — У)2; S (Y t — Y) (xt — я). Из тождеств £ (Yt-YY = f У?-пР2, Z=1 1«=Z П — А П — 2 (xf—x)2= 2 x?~nx*> Z=1 2 (у,_у)(*,_х) = Z—1 n ___ 2 Г, Xi-nxY Z-И 37
следует, что последние три суммы зависят от двух первых и 2У7, ZXiYh Теперь мы можем проверить, будет ли угловой коэффициент в при- мере с фосфором из разд. 3.2 статистически значимо больше нуля. В этом случае S (xt — х)2 = 734 и 2 (yt — у)2 = 2274. Так как в разд. 3.2^2 1.42, Vn = V7 (1,42) У734/793.96 = 3,61. Из таблицы распределения ТТ находим /7 (0,99) = 2,998. Мы заключаем, что уве- личение содержания фосфора в почве приводит к статистически зна- чимому увеличению содержания фосфора в растениях по крайней мере па уровне 0,01; 99%-ный доверительный интервал для рг имеет вид [0,24; 2,60]. Можно было бы ожидать, что при таких данных гипотезу 0! — 0 настоятельно требуется отвергнуть. Действительно, данные, приведенные в разд. 3.2, соответствуют р1 = 61,58; статистика критерия (7.3.17) равна 9,96 и коэффициент pt положителен с уровнем значимости 0,01. 7.З.В. Модели дисперсионного анализа План с одним признаком Напомним, что оценки наименьших квадратов параметров р1э ...» рр равны Ylt .... Yp. Как уже упоминалось, мы хотим проверить ги- потезу Н. Pt = ... = рр. Если гипотеза верна, то все наблюдения име- ют одно и то же среднее: Следовательно, |1Г-£|Г=2 2(v,.-y..y>= v-A Л" I. { ш 1 Лая I Здесь г = p, q = l и n ~ zij + ... -г Подставляя в (7.3 12), полу- чаем F-статистику для гипотезы Н в плане с одним признаком -----------• (7Л19) 2 2 С'"-1'*)’ *=1 /=1 Если гипотеза Н верна, то Тп имеет распределение FFp_lin_p. Если не все рг- равны, то Тп имеет нецентральное распределение FFp~in_p с параметром нецентральности . р Леи 1 (7.3 20) _ р где р = п 1 Формулу (7.3.20) мы получим, применив (7.3.5) к вектору Е, = (Pi, р„ р2, р2, ..., Рр, рр)' и его проекции = (Р, .... ₽)'. 38
Отдельные составляющие информации, собранные воедино в Z7-ста- тистике, допускают интересную интерпретацию. Сумма, стоящая в числителе, р SSn= У nk(Yk. -Г..)2, Ля® 1 служит приближенной мерой вариации между р выборками Уи, ..., —» Ур1» •••» ¥рпр’ Сумма, стоящая в знаменателе, SSB = 22 )2> Ь=» 1 1 служит мерой вариации внутри выборок. Если ввести сумму р nk чй ssn = s s (Yu-y. А /=1 служащую мерой вариабельности объединенных выборок, то, как сле- дует из (7.3.11), SSn — SSm + SSb- (7.3.21) Итак, мы получили разложение вариабельности полного набора дан- ных SSn (полной суммы квадратов) на две составляющие: SSm (сум- му квадратов между группами) и SSb (сумму квадратов внутри групп). Из (7.3.6) следует, что SStJg2 имеет (нецентральное) распределение %2 с (л — 1) степенями свободы и параметром нецентральности б2. Так как SSm/о2 и SSb/о2 независимы и имеют распределение %2 с (р — 1) и (л — р) степенями свободы, разложение (7.3.21) можно рас- сматривать и стохастически, считая, что б2 и (р — 1) степеней свободы «происходят» от SSmIо2, а остальные (л — р) из (л — 1) степеней сво- боды величины SSn «происходят» от SSb/o2. Эту информацию, SSm/(p— 1) и SSn/(n— р), несмещенные оценки с равномерно минимальной дисперсией величин б2 и о2, а также F- статистику, равную отношению оценок, часто приводят в таблице, известной под названием таблицы, дисперсионного анализа. Таблица 7.3.2 Таблица дисперсионного анализа для плана с одним признаком Сумма квадратов Степени свободы Средние квадраты F-значе- НИС Между выборка- ми SSM=S«*(Y»-Y-)! Р— 1 Внутри выборок р пк ssB= 2 2(Yh-y>..)2 П—р ssn A1SB=—- в п-р Полная Р лл мл=2 S(Y«-Y..)» Z==1 п — 1 39
Разложения, аналогичные разложению (7.3.21), полной суммы квад- ратов SSn на составляющие, которые служат мерой вариабельности наблюдений при вариациях независимых наблюдений (см. разд. 7.1), называются дисперсионным анализом (ANOVA tables). Такие раз- ложения могут быть сформулированы в любой линейной модели, в том числе в простой и в общей регрессионных моделях (см. [20, р. 42 — 451). Первоначально такие модели использовались для обоснования F-статистик и для установления теории распределения составляющих с помощью теоремы Кокрена [11, р. 86]. Теперь их используют в основ- ном при обосновании удобства сводок информации, называемых таб- лицами дисперсионного анализа. В качестве примера рассмотрим следующие данные* об уровне хо- лестерина в крови лиц, принадлежащих трем различным социаль- но-экономическим группам: I, II и III (высшей считается I группа). Таблица 7.3.3 Уровень холестерина в крови I 403 311 269 336 259 II 312 222 302 420 420 366 353 210 286 290 III 403 244 353 235 319 260 Требуется проверить, существует ли значимое различие между средними уровнями холестерина у трех групп. В рассматриваемом слу- чае р = 3, nx »= 5, л2 = 10, п3 = 6, п = 21. Результаты вычислений приведены в следующей таблице. Таблица 7.3.4 Таблица дисперсионного анализа данных по уровням холестерина в крови Сумма 'квадратов Степени свободы Средние квадраты Г-значеиие Между группами 1202,5 2 601,2 0,126 Внутри групп 87750,5 18 4763,9 Полная сумма квадратов 89953,0 20 Из таблиц распределения FF находим, что p-значение, соответст- вующее ^-значению 0,126, равно 0,88. Таким образом, нет оснований * Из приложения к [7]. 40
утверждать, что между уровнями холестерина в крови лиц, относящих* ся к трем социально-экономическим группам, имеются значимые раз- личия. План с двумя признаками и одинаковым числом наблюдений на ячейку Мы уже видели, что при изучении терапевтического эффекта р лекарств можно использовать план с одним признаком. Аналогичным образом план с одним признаком пригоден и для описания действия од- ного лекарства в р различных дозировках. В обоих случаях мы имеем дело с одним фактором, применяемым или встречающимся на р раз- личных уровнях1. Если бы мы захотели сравнить влияние удобрений на средний урожай какой-нибудь сельскохозяйственной культуры, то в рассмотрение вошел бы второй фактор: нам бы пришлось учитывать состояние почвы, так как высокий урожай мог в большей степени за- висеть от состояния почвы, чем от количества вносимого удобрения. С возникшей проблемой мы могли бы справиться, разделив поле, на котором посеяна интересующая нас культура, на b участков с одина- ковым или как можно более близким к одинаковому состоянию почвы. Каждый участок мы разбили бы на рс делянок и каждое удобрение вне- сли бы в с случайным образом выбранных делянок. Это позволило бы нам одновременно учесть фактор «удобрение» на р уровнях и фактор «состояние почвы» на b уровнях. В качестве второго примера рассмотрим средние эффекты р ле- карств гипотензивного действия или средний возраст, до которого до- живает обследуемая группа населения. В качестве второго фактора в этом случае могли бы фигурировать возраст, пол, профессиональное занятие и т. д. Во всех этих вариантах второй фактор важен сам по се- бе, а не только как «камуфляж», скрывающий действие первого фак- тора. Рассмотрим случай с откликов Y ..., Ytjc для каждой комби- нации (с, /) уровней первого и второго факторов. Например, если дву- мя факторами выбраны лекарства и возраст, то откликами служат кро- вяное давление или возраст, до которого доживают лица из ;-й возраст- ной группы, получающие i-e лекарство. Соответствующие наблюдения образуют, как говорят, ячейку (i, /). Так же, как и в разд. 7.1, мы пред- полагаем, что если бы не было ни одного фактора, ни лекарств, ни блока, то все отклики были бы распределены нормально с общим сред- ним и общей дисперсией. Под действием факторов изменяется среднее, но не дисперсия, нормальность или независимость откликов. Таким образом, мы приходим к модели плана с двумя признаками = Ри “Ь ~ L •••» с, j — 1, .«., b, i — 1, ..., р, (7.3.22) где — средний отклик на i-e лекарство в /-й группе; — не- зависимые случайные величины с распределением 7VW (0, о2), п = = pbc. 41
Заметим, что = ₽.. + (₽<• - ₽..) + (₽•/ - ₽..) + (₽v - ₽ - ₽•/ + (7-3.23) I где 0 . — полностью усредненный отклик; (0/. — 0..) — средний эф- фект первого фактора на уровне I, (0.; — 0..) — мера среднего эффек- та /-й группы. «Остаток» (0iy— 0Е — 0^ + 0..) обозначается через у и и называется взаимодействием между первым и вторым факторами на уровнях i и /. Взаимодействие есть превышение совместного эффек- та (0ij — 0 .) над суммой (0j. — 0,.) + (0j— 0..) индивидуальных | эффектов и, следовательно, служит мерой зависимости эффекта варьи- рования одного фактора при сохранении другого на постоянном уров- не от этого уровня. Нулевые взаимодействия означают, что факторы независимы. | Мы будем рассматривать модель, в которой по предположению нет взаимодействий. Такая модель называется аддитивным планом с дву- мя признаками. j Итак, рассмотрим модель | Уijk = И + «г + ^/ + ^tjkt (7.3.24) }• k 1,Ct J l,...,fe,t 1,..., p, r где мы ввели новую параметризацию, положив р — Ь_, щ — 0f. — 1 — 0 и X; = 0j — 0... Параметры осг и удовлетворяют условию | р b 2 ^=2^ = 0, (7.3.25) | /=1 < а в остальном изменяются свободно. j В этой модели задаваемая (7.3.24) параметризация пространства \ to порождает матрицу С размером п X d, в которой число столбцов d больше размерности пространства со. Дополнительные линейные or- 5 раничения (7.3.25) необходимы для того, чтобы параметризация была * идентифицирующей. Такое описание модели ставит нас перед двумя новыми проблемами: а) нам необходимо вычислить г — размерность пространства со | (сосчитать число степеней свободы); • б) теорема 7.2.2 (1) неприменима непосредственно для вычисления | так как J > г. j Такого рода описание модели с параметризацией, не идентифици- рующей без дополнительных линейных ограничений, характерно для I моделей дисперсионного анализа. Предполагаемые нами решения проб- лем а) и б) допускают обобщения на другие модели дисперсионного : анализа. Мы не излагаем здесь сами обобщения, отсылая интересую- | щихся к работам [11] и [20]. 1 а) Подсчет числа степеней свободы ; Поскольку линейные ограничения введены только для того,чтобы 1 параметризация стала идентифицирующей, подсчет степеней свободы , эквивалентен вычислению ранга г матрицы С из соотношения £ = J = Ср и (7.3.24). Докажем, что г = р -р b — 1. Для этого произведем J 42
над строками и столбцами матрицы С обычные операции, не изменяю- щие ранга матрицы, и приведем исходную матрицу к виду, в котором г столбцов линейно независимы, a d — г столбцов состоят из нулей. Начнем с исходной естественной параметризации. Пусть v, = р, 4- ai -г Ап i = 1, ..., р; Д/ Ay Aj, j 2, ..., b. Тогда £ilh I ]. pi C, ^ijh H" Д/» I •••> P> j 2, == •••» Иначе говоря, мы линейно параметризовали модель заново как набор, состоящий из Ь планов с одним признаком, каждый из которых отлича- ется от другого прибавлением константы (не зависящей от первого при- знака) к каждому отклику. Заметим, что vn ..., vp, Д2, .... Дй могут изменяться произвольно. Не ограничивая общности, положим с — 1 и запишем £ = (бш. £211» •••* Ври» £121.£р21» •••» £1ы. £₽б1)» Р ~ (vi« •••» vp* Дг» •••» Дь) • Если 1р — единичная матрица р X р, — матрица р X (Ь — 1), у которой элементы t-го столбца равны единице, а все остальные эле- менты равны нулю, то Вычитая первую строку матрицы С из (тр + 1)-й при т — 2, ..., Ь, получаем (Ь — 1) базисных векторов пространства /?₽+*-’. Остальные р базисных векторов совпадают с р первыми строками матрицы С. Следовательно, ранг матрицы С равен р 4- b— 1. Это и есть раз- мерность пространства со. Введение новой параметризации понадобилось нам только из сооб- ражений удобства Соответствующие преобразования матрицы С, про- изводимые в первоначальной параметризации (7.3.24), привели бы к тому же результату. Этот же результат следует из общего правила большого пальца: размерность пространства со равна числу свободно изменяющихся па- раметров минус число независимых линейных ограничений. В нашем случае число свободно изменяющихся параметров равно р 4- b 4- 1 и имеются два независимых линейных ограничения, поэтому г = — р 4“ 6 4- 1 — 2 = р 4~ — 1. В указанной выше формулиров- ке правило не всегда верно. Более точное, но не столь легко приме- нимое правило см. в [20, р. 17]. 43
б) Вычисление | При | 6 необходимо минимизировать 2 S S / = 1 /=! л=,1 р ь при дополнительных условиях = 0- Из замечания, приве- Z-1 /=1 денного после теоремы 7.2.2, следует, что нормальные уравнения в этом случае выполняются2. Из уравнения 2 —и—az— Л= I учитывая дополнительные условия, получаем И == Y.... (7.3.26) Из (7.3.26) и остальных нормальных уравнений # = -2S 1 (Г,Л-и-а|-?-,)=0. < = 1,.. ,р, oai мы заключаем, что оценки наименьших квадратов а, параметров должны удовлетворять соотношениям р + at = Yi... Например, из (7.3.26) мы получаем соотношение af = Yt.. - У.... (7.3.27) Аналогично выводится и соотношение (7.3.28) Таким образом, £{}h = р + а/ + Kj. Выведем теперь F-статистику для гипотезы Н: at = сс2 = ... = = ар — 0. При такой гипотезе наша модель переходит в план с одним признаком для b генеральных совокупностей и рс наблюдений на ячей- ку ^1/Л Р 4“ ' 1» •••! 4 1» •••» Р» 1» 2 /=1 При £ £ <оо оценки наименьших квадратов параметров р и остаются такими же, как и в (7.3.26) и (7.3.28). Размерность подпространства <оо, очевидно, равна Ь. Так как п — г = п — (р -Y Ь — 1) = л — р — 44
— & 4-1 и г — q — р b — 1 — b = р — 1, то F-статистика опре- деляется выражением (п — b—р+ 1) cb 2 i = 1 (p-о 2 2 2 (Ла-Ул.-у./.+у...)» 1-. । /=1 *=1 (7.3.29) Если гипотеза И верна, то Тп имеет распределение FFp-i,n-b-p+i- В общем случае zijh — ц + cq + мы получаем нецентральное рас- пределение FF с параметром нецентральности 6*=-^-Е а?. (7.3.30) Как и в случае плана с одним признаком, можно составить табли- цу дисперсионного анализа (см. табл. 7.3.2)*. Поскольку мы имеем дело с двумя факторами, получим две суммы квадратов, SSm, и SSm», служащие мерой вариации между уровнями соответственно первого и второго факторов. Таблица 7.3.5 Т аблица дисперсионного анализа для плана с двумя признаками Сумма квадратов Число степеней свободы Средние квадраты F значе- ние Первый фактор । SSM =c6 2(Yi“-Y-)> 1 f=l р—1 mSm 1 “ —7 » р—1 MSB Второй фактор SSM =tp2(Y.J.-Y...|« • /-1 ft—1 MSM = —^L. м* ft-1 Остаток 2(Ywk-Yi-- ;=»1 k=\ -Y./.-Y...F п—р— — ft-H MSB = ss» п—p—b-\-1 Полная сумма квадра- тов SSn=2 2 2 (YMA-Y...)* /=з! /е=1 Л=1 п— 1 Ж - ♦ Подробности см. в книге Шеффе (20, р. 102). 45
Следующая таблица дисперсионного анализа составлена по данным испытаний на разрыв площадок вблизи углов (У), в центральной части (Ц) и двух площадок вблизи сторон (С1 и С2) четырех листов титано- вого сплава толщиной 0,025 см*. Номер листа Таблица 7.3.6 Площадка 1 2 3 4 У 137,1 142,2 128,0 136,6 Ц 140,1 139,4 116,8 136,5 Cl 141,8 139,6 132,5 140,8 C2 136,1 140,8 132,2 129,0 В нашем случае p = b=4, с — 1 и п = 16. Таблица дисперсионно- го анализа имеет следующий вид: Сумма квадратов Число степеней свободы Средине квадраты F- значение Площадь | 66,0 3 22,0 1,0 Лист 407,0 3 135,7 6,3 Остаток 193,9 9 21,5 Полная сумма квадратов 667,0 15 По таблицам распределения FF мы устанавливаем, что по данным экс- перимента на уровне а = 0,01 между средним пределом сопротивления на разрыв различных площадок, вырезанных из одного листа, не су- ществует значимого различия. Аналогично на уровне а = 0,01 не существует значимого различия в средних пределах прочности и между различными листами. Модель (7.3.24) основана на предположении о нулевых взаимодейст- виях. Обычно это предположение нуждается в проверке, т. е. является линейной гипотезой Н': = 0 при всех i, j. Как нетрудно вычислить, /^-статистика имеет вид: (П-Р»)е2 2 -V.! + *..? <-1 Z-I (ь- 1)<р—I) 2 2 2 (Yut-Уц. ? / = 1 /<=1 А=| (7.3.31) * Y о u d en W. J. Testing uniformity of sheet and plates, Industrial and Engineering Chemistry, vol. 49, p. 71A. 46
Если гипотеза Н верна, то статистика (7.3.31) имеет распределений FF(b-iXp-v,n-bp‘ К сожалению, если с = 1, то п = pb и рассматривае- мый нами критерий неприменим. В частности, он неприменим к дан- ным, приведенным в табл. 7.3.6. Можно воспользоваться другими ме- тодами (см. [20, р. 129]). При анализе таких данных мы предоставляем экспериментатору руководствоваться накопленным ранее опытом. 7.4. СОВМЕСТНЫЕ ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ И МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ Мы уже знаем, как построить доверительные интервалы для от- дельных параметров в линейных моделях. В этих моделях нас обычно интересуют несколько параметров, и для каждого из них мы строим ин- тервалы уровня (1 —- а). Обычно информация, извлекаемая из этих интервалов, требуется в различных комбинациях. Например, пред- положим, что параметры 0Ь ..., 0Р плана с одним признаком означают среднегодовые доходы случайно выбранного участка земли при р раз- личных способах обработки и что требуется выбрать те способы, ко- торые дадут наибольшие 0. Пусть р = 4 и для 0Х, .... 04 мы получили доверительные интервалы [0,1; 0,21, [0,5; 3], [4; 4,3] и [4,1; 6] уровня 0,95. Нам бы хотелось утверждать, что 03 и 04 больше, чем 0Х и 02, что р2 больше 0Х, и т. д. К сожалению, мы не можем позволить себе этого, оставаясь на 95%-ном уровне: истинность нашего утверждения за- висит от того, выполняются ли четыре доверительных интервала од- новременно, а вероятность этого события меньше 0,95. Обобщая, мож- но сказать, что если Аь ..., Др — доверительные интервалы уровня (1 — а), полученные по формуле (7.2.49) для параметров 0Ь ..., 0Р плана с одним признаком, то Р (0i € АД — (1 — а), но Р (0! £ . 0k € Ал), как правило, много меньше (1 — а). Следовательно, если мы в заключение исследования приводим доверительные интервалы Дх,.., Ар, то вероятность того, что по крайней мере один из них указан не- верно, может быть довольно велика. Например, при а = 0,05 и р = 8 эта вероятность может достигать 0,33 (см. табл. 7.4.1). Рассмотрим другой пример. Найдя в случае простой линейной ре- грессии прямую наилучшего согласия у = 0Х + 02х, естественно попы- таться указать полосу вокруг этой прямой, которая с вероятностью не менее (1 — а) содержит целиком всю «истинную» прямую у = 04 -г + 02х. Построение такой полосы можно интерпретировать как одно- временное наложение на 0j • |- 02х доверительных интервалов при всех х. Если вероятность накрытия для каждого х равна (1 — а), то область, возникающая при «склеивании» доверительных интервалов, содержит «истинную прямую» с вероятностью меньше (1 — а). В такого рода си- туациях необходимо вводить понятие совместных доверительных ин- тервалов. В общем случае, если мы имеем набор параметров {Ot: t £ С) и на- бор соответствующих этим параметрам доверительных интервалов или областей {Лt: t (Е С), таких, что Р КЬ € At при всех t € С] > | — а, (7.4.1) 47
то 41 называется совместными доверительными интервалами уровня (1 — а) для <>f. Если в (7.4.1) выполняется равенство, то (1 — а) на- зывается совместным коэффициентом доверия. В разд. 5.1 было показано, что если взять одновременно k довери- тельных интервалов уровня (1 — а/Л) для k различных параметриче- ских функций, то можно быть уверенным в том, что примерно в (1 — а)-100% случаев они все накрывают соответствующие истинные значения. Такой метод применим к только что рассмотренным нами ситуациям. Получающиеся при этом доверительные интервалы мы бу- дем называть интервалами Бонферрони. Мы могли бы воспользоваться интервалами уровня (1 —а/p) типа (7.2.49) для рь ..., в плане с одним признаком. Полосу уровня (1 — 2а) для 4- р2х можно было бы построить, используя доверительные интервалы (7.2.53) уровня (1 г— а) для Pi и р2. Можно было бы поступить и по-друго- му: если взять k интервалов уровня (1 — а), то границы Бонфсрро- ни гарантируют совместный доверительный уровень (1 — ak). Так, в предыдущем примере мы могли бы быть уверенными в том, что наш выбор правильных способов обработки почвы верен на уровне 1 — — 4-(0,05) = 0,80. Во многих случаях при больших р интервалы Бонферрони для практических целей оказываются слишком широкими, и для линейной модели существуют другие методы, дающие лучшие результаты. Сущ- ность двух основных методов — метода Тьюки и метода Шеффе — мы продемонстрируем на примере плана с одним признаком и обсудим Обобщение метода Шеффе на произвольный случай. Некоторые допол- нительные примеры приведены в задачах. Подробное изложение мето- дов Тьюки, Шеффе и других авторов можно найти в работе Миллера [19]. Начнем с метода Тьюки. 7.4.А. Метод Тьюки Предположим, что мы имеем план с одним признаком и одинаковы- ми числами наблюдений на ячейку Гм=рЛ4-ем, 1</<с, l^k^p. (7.4.1) Начнем с рассмотрения двух задач. I. Найти доверительные интервалы Zf, 1 < iр, такие, что Р Ifh € h при всех Л 1 — а. (7.4.2) 11. Найти .доверительные интервалы /w, 1 ^i<Zj^p, такие, что - Р[р/-Рг€/У, 1<1</<р1>1-а. (7.4.3) Не вдаваясь в технические подробности, можно сказать, что зада- ча II представляла бы интерес, если бы наше внимание было сосредо- точено на попарных сравнениях генеральных совокупностей, а не на их абсолютных объемах. С задачей I мы сталкиваемся, если требуется получить информацию и о попарных сравнениях, и об абсолютных объемах совокупностей. Как и в случае отдельных интервалов, нам 48
Хотелось бы, чтобы совместные Доверительные ийтербаЛы были бы достаточно «короткими» или узкими. Прежде чем переходить к изло- жению метода Тьюки, необходимо определить два новых семейства распределений. Распределением максимума модуля с параметрами k и т типа рас* пределения Стъюдента называется распределение величины max {| Vif/W: 1 i^k}, где ....... Vh — независимые случайные величины со стандартным нормальным распределением; mW2 — слу- чайная величина, независимая от величин V и имеющая распределе- ние Хт. Имеются лишь весьма грубые таблицы распределения макси - мума модуля. Ссылки можно найти в [19]. Распределением широты с параметрами hum типа распределения Стъюдента называется распределение величины (max Vt — min V/): i i : IF, где величины V и W — те же, что и в предыдущем определении. Это распределение затабулировано в [13]. Начнем с решения задачи I. В качестве «кандидатов в решение» естественно испробовать интер- валы, середины которых совпадают с оценками наименьших квадратов, а ширина пропорциональна ширине отдельных интервалов уровня (1 — а). Таким образом, при решении задачи I мы ищем постоянную k, такую, что (7.4.4) где k Z=U Здесь мы воспользовались тем легко проверяемым обстоятельством, что при i — 1, ..., р: 1) 2) определяется выражением (7.2.46); 3) Var (0,) - о2/с. Заметим далее, что По теореме 7.2.3 случайные величины v, = VT (У, - ₽,)/о 49
независима, имею!' сТандартйбё Нормальное распределение и, Кроме того, не зависят от величины (с — 1) ps2/o2, распределенной по закону %2(f_I)p. Таким образом, max {I’Ve (Ff.— 0£)|/$: 1 t —самая «настоящая» центральная случайная величина. Она имеет распределе- ние максимума модуля с параметрами р и (с — 1) р типа Стьюдента. Пусть q (1 — а) — (1 — а)-й квантиль этого распределения. Тогда t наше решение задачи I — интервалы * h Yt.±q(\ — a)-^=. (7.4.6)- Решение задачи II мы также начинаем с обычных доверительных интервалов. Если d — произвольная постоянная, то мы получаем Ptfj. — Yt. — Yt. + ds/Vc, 1 < i < i < / C pJ = P (max {!Vj — Vt 1 < t < / < p} < dj, (7.4.7).. I где Vt — величины, определенные выше. Но | /max V\ —min V»\ : f i vj-vt i : max I----------: 1 < i <Z 1 C p| = ------------L i I s/a s/a | имеет по определению распределение ширины с параметрами р ид (с— 1) р типа Стьюдента. Следовательно, если d (1—а) есть (1 — а)-йя квантиль этого распределения, то решением задачи II являются ин-я тервалы __ .»I hl = (У,. - У.) ± d (1 - a) s/Ус. (7.4.8) 1 Численный пример, использующий интервалы (7.4.8), приведен в>| конце разд. 7.4. || 7.4. Б. Метод Шеффе || При попарных сравнениях генеральных совокупностей мы рассма-|| триваем разности 0/ — 0/. Но предположим, что требуется сравнить | подгруппы совокупностей. Например, если из четырех подлежащих, ! сравнению способов обработки почвы первый и второй состоят из вне-И сения азотистых удобрений в двух различных дозировках, тогдап как при двух последних способах азотистые удобрения в почву не, I Вносятся, то требуется сравнить два первых способа с двумя послед-|1 ними. Один из возможных подходов состоит в оценивании величины I ср = 4<₽з+₽.) - -|(₽х + 02) и построении для нее доверительного^ I интервала. Величина <р служит мерой среднего суммарного эффекта I третьего и четвертого способов обработки по сравнению со средним сум-1 мерным эффектом первого и второго способов. Иногда мы желаем взгляд нуть на выборочные средние и решить, какие подгруппы совокупностей имеет смысл сравнивать. Такой подход допустим, если мы располагаем I совместными доверительными интервалами для всех линейных фунК- 50 П
цИЙ вида Ру Рь g (Pi 4" P^) ~~ Ph» 2^* 4" fV) 2^ft и T' Д' Такие функции называются контрастами. Они представимы в виде <Р= 2Л;Р>» гДе £ «/=0- /°1 /=> Любой контраст можно представить также в виде (задача 7.4.3) Ф= 2 где а,= р, —р.. /=> Построение совместных доверительных интервалов для всех конт- р растов мы начнем с обычных доверительных интервалов для /=1 Полагая р aj^Yh — К.., <р= У /=| и используя (7.2.49), находим (см. задачу 7.4.4), что эти интервалы име- ют вид /= 1 Заметим далее, что Ф+ Ksr (w)/V с при всех w е Rp — Р max ST (w) Из неравенства Коши—Шварца для сумм получаем I-— । р Ф-Ф|= /=1 Следовательно, 2 (№/^)2 /==| /=1 2 р причем равенство выполняется в том и только в том случае, если wi пропорциональны cq — а/ при всех i. Отсюда мы заключаем, что Р max эт (w) 7<а Р~ 1 (p-l)s« (7.4.11) 51
Так как («”“Т = 2 (у/•“г ₽, + ₽♦ )2> /-1 /-1 случайная величина в правой части (7.4.11) имеет распределение ^(p-i).(c-dp при любых и о®. Следовательно, доверительные ин- тервалы для всех контрастов <р определяются по формуле /; = Ф±У(р-1)/(1-а) т (w) s/V с , (7.4.12) где f (1 — а) есть (1 — а)-й квантиль распределения FF<p_i),(e_1)p. Интервалы (7.4.12) были вычислены Шеффе 121]. Геометрический подход позволяет уяснить связь метода Шеффе с методом Тьюки и облегчает обобщение метода Шеффе на случай про- извольной линейной модели. Из (7.4.10) и (7.4.11) следует, что утверждение р „ у, Wj а® е /„при всех w“ /=| эквивалентно утверждению -4- 2 (в,-*,) </(,_я)... ” Р~' /! ’ (7.4.13) (7.4.14) Ту же эквивалентность можно сформулировать иначе — как ут- верждение о том, что (р— 1)-мерная гиперсфера в пространстве (04,..., Ctp) (аъ ..., ар): («у—«;)* < (р— 1) / (1 —a) s2/c, V а, = °| /=1 /’1 J (доверительная область для (cti, ..., ар)), получаемая при обращении семейства ^-критериев (7.4.14), совпадает с множеством точек (ссъ ..., ар), удовлетворяющих системе линейных неравенств w/xj С Zw.w £ Rp r=i и Sa, = 0. Геометрически наше утверждение означает, что точка ле- жит внутри или на границе гиперсферы в том и только в том случае, если она расположена между любой парой гиперплоскостей, касатель- ных к гиперсфере. На рис. 7.4.1 Рис. 7.4.1. се=(аь а3, а3) показаны пересечение сферы 3 2 (а> — а;)3 < а и плоскости ах + + а2 + аз = 0 и две пары каса- тельных (для случая р =* 3). Касательные гиперплоскости оп- ределяют не только гиперсферы, но и любые ограниченные выпуклые тела. Следовательно, совместные до- верительные интервалы для линей- ных функций векторного параметра мы можем строить, находя для этого параметра выпуклые доверитель- 52
ные области и требуя, чтобы параметр лежал между всеми парами па- раллельных плоскостей, касательных к найденной области. Метод Тью- ки принадлежит к числу методов именно такого типа (см. задачу 7.4.8). Применив эту идею к доверительным областям, возникающим при об- ращении различных /’-критериев, которые мы рассматривали выше, Шеффе получил совместные доверительные интервалы для линейных функций параметров линейной модели (см. Шеффе [20, р. 68—72]). Свойства, сравнения и применения Взяв отношение квадрата ширины «отдельного» интервала (7.2.49) уровня (1 —а) к соответствующему интервалу уровня (1 — а), по- строенному методом Тьюки, Шеффе или геометрическим методом, мы получим число, зависящее только от выбранного нами метода, а не от оцениваемой функции. Такие числа служат мерой утраты эффектив- ности — ценой, уплачиваемой нами за право высказывать одновремен- но несколько утверждений. Ниже приводится небольшая таблица эф- фективностей метода Шеффе для контрастов (7.4.12) при а = 0,05 и избранных значений п и р. Р 2 3 4 5 6 8 10 20 5 1,00 0,57 0,41 0,32 0,26 0,19 0,15 0,08 10 1,00 0,61 0,45 0,36 0,30 0,23 0,18 0,09 ОО 1,00 0,64 0,49 0,40 0,35 0,27 0,23 0,13 С другой стороны, если мы воспользуемся интервалами (7.2.49), то вероятность того, что они все верны, много меньше (1 — а). В сле- дующей таблице представлены нижние границы вероятности Pt того, что все t доверительных интервалов для контрастов одновременно вер- ны при а = 0,05 и с — оо (из [211). Таблица 7.4.1 Р 2 3 4 5 6 8 10 20 Pt 0,95 0,85 0,72 0,57 0,43 0,20 0,08 0,00008 Интервалы, получаемые по методу Шеффе, для контрастов част- ного вида ру — р{, не совпадают с интервалами, получаемыми по ме- тоду Тьюки. В следующей таблице представлены отношения d2 (1 —а): ' 2 (р — 1) / (1 — а) квадрата ширины доверительного интервала для Ру — ръ вычисленного по методу Тьюки, к квадрату ширины довери- тельного интервала, вычисленного по методу Шеффе при с—оо*. Большей эффективности метода Шеффе следовало ожидать заранее, так как этот метод позволяет высказывать на одном и том же уровне множество доверительных утверждений. * Эти отношения слабо зависят от с. См. (20]. 53
4 Таблица 7.4.2 Значения относительной эффективности методов Шеффе и Тьюки (по данным из [21]) Р 2 3 4 5 6 8 10 20 0,01 1,00 0,92 0,85 0,80 0,75 0,67 0,61 0,44 0,05 1,00 0,92 0,84 0,79 0,73 0,65 0,59 0,42 р р \ Метод Шеффе позволяет утверждать, что контраст значимо отличается от нуля в том и только в том случае, если /»| не содержит нуля. Из (7.4.13) и (7.4.14) мы заключаем что по крайней' мере один контраст значимо отличается от нуля в том и только в том» случае, если ^-критерий для проверки гипотезы Нга.^ — ... = ар == О Л или, что эквивалентно, Я: 0t = ... — 0Р отвергает гипотезу И. Ме-| тодсравнения параметров 0 путем выяснения, значимо ли отличаются! от нуля различные контрасты, например 0г — 0;, (0f — 0;) — 0fc| и т. д., называется множественными сравнениями- Их можно рассмат-* ривать как одновременную проверку нескольких гипотез, таких/ как Я/. 0« = 0>, Яа: £-(0t + 0>) = 0* и т. д. Вероятность непраЛ вильно отвергнуть по крайней мере одну такую гипотезу (т. е. отверг гнуть верную гипотезу) не превышает а. Продемонстрируем совмести ные доверительные интервалы (7.4.8) и (7.4.12) и соответствующий ме-| тод множественного сравнения на следующем примере. j Пример 7.4.1. В таблице* приведены пределы прочности на раз-? рыв менее 340 жил из девяти кабелей, предназначенных для высоко-^ вольтных линий электропередачи. Каждый кабель— 12-жильный. Тре-( буется установить, совпадают ли средние пределы прочности на разрыв* жил всех девяти кабелей, у каких кабелей средний предел отличается* от других, и найти нижнюю границу среднего предела прочности на* разрыв. I Значение /•’-статистики (7.3.19) равно 9,07, в то время как значение! 95-го процентиля распределения FF8t99 равно 2,0. Следовательно,* мы можем заключить, что на уровне а *— 0,05 средние пределы прочно-! сти на разрыв жил из различных кабелей значимо не совпадают. Для* р р контрастов JaJL, Sty ~ 0 получаем интервалы (7.4.12): 5 /-1 /=1 » = 2 а1Y! ± (s/УТ) ]/ (р-1)/(1-а)Да7. . (7.4.15), * Из (12, р. 434J. 54
№ кабеля 1 5 —13 —5 —2 -10 -5 0 —3 2 —7 -5 -4,1 2 -11 -13 ~8 8 ( -3 -12 1 1—12 -10 5 -6 —12 -10 -7,0 3 0 —10 -15 -12 -2 —8 5 0 -4 -1 -5 —11 -6,1 4 -12 4 2 10 -51 -« -12 0 —5 -3 -3 0 -2,7 5 7 1 5 0 10 6 5 2 0 —1 -10 —2 1,9 6 1 0 -4 -1 0 2 5 1 -2 6 7 0,83 7 -1 0 2 1 —4 2 7 5 1 0 —4 2 0,92 8 —1 0 7 5 10 8 1 2 —3 6 0 5 3,3 9 2 6 7 8 15 11 —7 7 10 7 8 1 6,3 Доверительный интервал Контрас-f Если мы сосредоточим внимание на — р,-, то доверительные ин- тервалы примут вид: = У(. —У/. ± (s/V7) У2(р-1)/(!-«). (7.4.16) Некоторые из совместных доверительных ингервалов при а = 0,05 приведены в следующей таблице. Производя множественные срав- нения, мы замечаем, что средний предел прочности на разрыв жил девятого кабеля значимо больше средних пределов прочности на разрыв первых четырех, но не остальных кабелей; средний предел прочности на разрыв жил пятого кабеля значимо больше среднего предела прочности на разрыв жил только второго кабеля и т. д. При проверке технологических операций выяснилось, что жилы в кабелях 1-—4 были изготовлены из другого сырья, чем жилы в кабелях 5—9. Таким образом, пред- ставляет интерес контраст 2,9±8,4 6,0±8,4 7,8±8,4 13,3±8,4 Ре— '2 2 Для этого контраста мы получаем интервал <Р1 = 8,3 ± 3,99 и заключаем, что две партии сырья, из которого изготовлены жилы Кабелей 1—4 и 5—9, значимо отличаются. 55
Если Мы воспользуемся методом Тьюки и Заменим в (7-4.16' V 2(р— 1 )/(1—а) величиной d(l — а)=4,39, то совместные доверитель ные интервалы уровня 0,05 примут вид: /у = Yi. - У;. ± 6,62. Заметим, что множественные сравнения мы могли бы производить и щ основе метода Тьюки и что заключение относительно 0е — р2 было бь другим. Однако метод Тьюки не позволяет нам включать интервал, при веденный для <р> на уровне 0,95. Существует модификация метода Тью ки, позволяющая включать утверждения относительно произвольны! контрастов. Ее можно найти, например, в [20, р. 74]. Обобщение ме- тода Тьюки на случаи неравных объемов выборок приведено в [22].И Как уже отмечалось, метод Шеффе позволяет находить совместные доверительные интервалы в линейной модели для любого класса функ- ций вида с|', где с — любой вектор из некоторого линейного подпро- странства в Rn. Это обобщение изложено в задачах. Метод Тьюки име- ет более ограниченную сферу применения. Тем не менее он во всех воз- можных случаях применяется на практике, так как позволяет полу- чать существенно более узкие доверительные интервалы. 7.5. Примечания Раздел 7.3. 1 В разд. 7.1 мы рассматривали каждый способ обработки поч- вы или лекарство как фактор, который мог либо «быть в наличии», либо отсутст- вовать. Подобная точка зрения естественно приводит к факторным планам (см, 111, р. 254]). Такая терминология широко распространена и удобна. 4 Мы могли бы пренебречь этим замечанием и воспользоваться множителями Лагранжа для учета дополнительных условий (см. [2, р. 380]). 7.6. Задачи и дополнения Задачи к разд. 7.1 1. В каждом из следующих случаев определить, описывается ли соответст- вующая ситуация линейной моделью. Если линейная модель пригодна для опи- сания ситуации, указать пространство со и его размерность г. Если линейна! Модель непригодна, то указать, какая из ее аксиом нарушена. а) При съемке местности произведено три независимых измерения U, V W трех углов а, 0, у треугольника. Ошибки измерения можно считать нормаль ными случайными величинами с равными дисперсиями и средним 0. (Напомним, что а + Р 4* у = 180J.) Ограничениями а, 0, у 0 пренебречь. Ввести вели чины Ух = U — 60, У8 = V — 60, Y9 = W — 60. б) Взвешивание четырех предметов А, В, С, D на весах с двумя чашками пр<> водится по следующей схеме. Предметы А и В мы ставим на одну чашку, С и D — на другую и записываем разность весов. Затем таким же образом мы сравниваем вес А и С с весом В и D, а вес А и D — с весом В и С. Наконец, мы взвешиваг* на одной чашке все четыре предмета А, В, С и D вместе. Ошибки взвешивание предполагаются нормальными с постоянной дисперсией и средним 0. в) Экспериментатор измеряет постоянную р с независимыми ошибками, рас- пределенными по закону NN (О, о*), и получает значения Хи .... Хп- Считая, чт точность производимых им измерений с каждым разом повышается, он вноси! «поправку» и записывает не Xj, a Yx, ..., Yn, где = 0,1Хп + 0,9Х<. г) Неотрицательная переменная г зависит от х двояко по формуле г = (I — — в) ф (х — р) 4- еф (х — о), где ф — плотность распределения NN (0, 1) а в, р, v — постоянные, 0 < в < 1. Для оценивания в, ц, о мы производим измс 56
рСния In z при X —xlt ...,xn с нормальными ошибками, обладающими средним О и дисперсией оа. д) Пусть отклик Е индивидуума, выбранного случайным образом из задан- ной генеральной совокупности, в некоторой числовой шкале имеет распределе- ние AW (Н> °2) На х единиц лекарства наблюдаемый отклик равен (1 4- 0х) Е. Для оценивания значений Р, ц, оа наблюдаются отклики т контрольных инди- видуумов и п индивидуумов, получивших по 1 единице лекарства. 2. Предположим, что Ух, .... Уп независимы, Yt со AW о3), 1 < / < п. а) Доказать, что параметризация 0= (£х, .... §п, о3) — идентифицирующая в смысле разд. 2.1. р б) Пусть — ККп. Доказать, что параметризация О = (plt..,, рр, оа) — идентифицирующая в том и только в том случае, если ранг матрицы HQjlInxP равен р. 3. У каждого из п индивидуумов измеряются две характеристики (напри- мер, кровяное давление и вес). Обозначим эти наблюдения через УД, ..., (t/n> - п)- Предположим, что эти векторы независимы и имеют распределение NN (p-i, |xs, о?, о|, р). Указать эквивалентный набор наблюдений, удовлетво- ряющих линейной модели, если параметр р известен. Ui — Vi Ui + Vt Указание-, рассмотрите величины Уд = — , Yi& — — V2 (1 - Р) Vi (1 4- р) i = I, • , п. 4. Пусть elt 8П — независимые случайные величины с распределением NN(0, аа). 1) Какая из приводимых ниже моделей линейна? Обоснуйте свой ответ, 2) Там, где это возможно, укажите преобразование У/ — h (Yt),l — l,...,n, приводящее к линейной модели для У/. a) Yt — Pi + Pfi-*/ * = 1...я; Pj€/?,/ = l,2; б) Yt -Ь p8 Х/ 4-е®, f = l, ... п- $j£R, /=1, 2; в) У£=е₽‘е₽,^хР*Л, / = 1.п; Р, /= 1, 2, 3; MR, 7=1,2; г) У,=рх |-р1еР«^4'81» »•=>......«; n: = /= i Р- 5. Пусть Yij, 1 i С k, 1 / << tn, — независимы и нормально распре- делены с = R (У|Д. Для следующих линейных моделей указать размерность параметрического пространства to и базис. а) — «i + Р (хи — х<), где Хц известны и все различны (параллельные прямые регрессии). б) £и=м4-«»4-!Рр =^Р>=О(план с двумя признаками). i I 6. Наблюдения Ух, Уп произведены в моменты времени tlt ..., tn. Пред- положим, что Е (Yi) = Pi 4- P2f(> !•</<«, и что если — У| — Е (У|), то I et распределены нормально, причем ej = У, е/, где е/ независимы и распределе- ны по закону NN (0, о2) (т. е. предположим, что ошибки наблюдений накапли- ваются). Найти линейное преобразование, которое переводит (Kj, .... Уп) в эк- вивалентный вектор, удовлетворяющий линейной модели. 57
7. Пусть — функция, определенная следующим образом. дЛ—1 , если л —нечетное целое число, * In x, если 1=0, x > 0. Модель, более общая, чем линейная, получится, если предположить, что Z, = . = i = 1, ..., п, удовлетворяют при некотором 1 линейной модели. Рас- f смотрим простой случай, когда Ylt..., Yn независимы и одинаково распределены. '* а) Доказать, что если р — среднее, а о1 — дисперсия случайных величин Д Z;, то i n fl nexp /= i cr la — S 2 Л r б) Какое из значений 1 = — 1, 0 или 1 приводит к большему значению 5 L (X, О, I, у) для следующей выборки: 17,63 0,55 3,09 0,59 0,16 6,11 2,59. 1 в) Решить задачу б) для L (1, р, о, z) вместо L (1, 0, I, у), где t >>> 1 Л - 1 Л — I ”р= — S ?£,ов = — S (z/ — р)а, Zt=Ax(^). п . . П . , g i= 1 1 » Бокс и Кокс* рассмотрели проблему оценивания X с помощью максимнза-| ции L (1, р, о, у) в ситуациях, когда щ положительны, так что функция L опре-| делена при всех 1. | 8. Нелинейная модель. Рассмотрим эксперимент, в котором эффект воздейст-f вия состоит в добавлении величины 6 (х) к контрольному отклику х. Таким об-у разом, отклик субъекта, подвергшегося воздействию, составляет у = 6 (х) + х,з где х + б (х) монотонно возрастает. Можно показать (Доксам [8]), что в этом| случае 6 однозначно определяется распределением контрольной совокупности| и распределением совокупности, подвергшейся воздействию. Предположим, что | мы имеем независимые выборки X,. .... Xrtj и Klt.... Кл> контрольных откликов g и после воздействия, где | Xi ~ NN (И1, и?) и Yi ~ NN (р,, с»). I а) Доказать, что аксиомы линейной модели выполняются в том и только в | том случае, если = of. I б) Доказать, что б(х)=р3 | — (х — р1)—х . I I Указание: Yj имеет такое же распределение, как Х< + 6 (Xj). т в) Привести оценку максимума правдоподобия функции б (х) при заданном | х и вычислить ее для данных о проницаемости из разд. 6.4 Б I Задачи к разд. 7.2 Л J I. Доказать, что для оценок р и в плане с одним признаком: $ nt б) если л фиксировано и делится на р, то Var (р) достигает минимума при i ni = с = nip; * Box G. E. P. and Cox D. R. An analysis of transformations. Roy. Statist. Soc., Series B, 1964, 36, 211. <5
В) если п фиксировано и делится на 2 (р — 1), то Var (аЛ) достигает мини- мума при пг = п/2, л2 = ... = пр = п/2 (р — 1). 2. Пусть Ух, ..., Уп —выборка из генеральной совокупности со средним р и дисперсией о2, л — четное число. Рассмотрим три оценки — 1 Л га = (1/2л) £ Yi + (3/2л) 2 yt и Ts = v(r- 2). а) По чему можно судить, что ошибка наименьших квадратов (о. н к.) у меньше, чем у Т2? б) Пусть оа = 1 и л = 4. Найти значения р, при которых о. н. к. у Тэ мень- ше, чем у 7\. Постройте графики о. н к. для Т2 и Т, как функций от р. 3. Доказать, что в общей линейной модели £—о. м. п. для £, а о2 = (л — — г) $®/л — о. м. л. для о2. п Указание: (Zt, ...,Zr,n~l £ ZJ)—вектор оценок максимума правдоподо- бия ДЛЯ (1)1, ..., Т]г, о2). 4. Рассмотрим план с одним признаком. а) Доказать, что доверительные интервалы уровня (1 — а) для линейных функций вида Pj — определяются как Ру—Pi — Yj.— Y}. ± stn—р [ 1 а доверительный интервал для о2 — как (л—p)s2/xn_p < о2 < (л — р) s*/xn-p — а \ £ б) Найти доверительные интервалы для рв — plt р8 — plt р3 — р3 и и2, используя а — 0,05 и данные из табл. 7.3,3. в) Найти доверительные интервалы для фх (£) = jj (Ра 4* Ра) — Pi и о*, = - Var (фх (&)). г) Вычислить доверительные интервалы в п, в) по данным из табл. 7.3.3. 5. Рассмотрим модель линейной регрессии. Требуется предсказать значение будущего наблюдения У, которое должно быть произведено в точке х. а) Найти доверительный интервал уровня (1 — а) для предсказания с наи- лучшей среднеквадратической оценкой Е (У) = Pi 4- Ра*. б) Вычислить этот доверительный интервал при х — 250 и а = 0,05 по дан- ным о фосфоре из разд. 3.2. Указание: воспользуйтесь формулой (7.2.29), подставив хвместо хд, а затем формулой (7.2.49). в) Найти интервал предсказания уровня (1 — а) для У (т. е. статистики .......Ул), 7 (У1, .... Уп). такие, что 1 — а). Обратите вни- мание на то, что У не зависит от Уг, ..., Уп. 6. Воспользуемся моделью У/ — Pi + Ра с/2 + PsQs + ei и данными из табл. 7.1.1. а) Указать оценки наименьших квадратов для параметров рь Ра и р3. Указание: воспользуйтесь соотношением (7.2.22). б) Найти дисперсии оценок наименьших квадратов и доверительные интер- валы уровня 0,90 для рх, р3 и рз. 7. Нередко удобрения, дающие положительный эффект в малых дозах, ока- зываются вредными в больших дозах. Пусть независимая переменная х означает 59
Количество ИЛИ дозу, удобрений, а зависимая переменная У — выход, Или пр&£ дукцию. Предположим, что хорошее согласие дает уравнение ♦ У1=е$1 е$* xi х^1, где yi — наблюдаемый выход при дозе Хр Примем модель In Yj Pi “Т" Рз^Е _'Ь" Рз ^п **4 ”1“ ®t» 1. •••» Л, где В( — независимые случайные величины с распределением NN (0, о3). а) Доказать, что несмещенной оценкой с равномерно минимальной диспер сией на основе Y' = In YK является величина 2 Pl p2*i — Рз ln xt) » t= i где px, p2, p8 — оценки наименьших квадратов параметров рь р3. Р3. Доказав что (л — 3) $2/о2 ~ yjri—3 Данные (из книги Хальда [12, р. 653]) приведены в та< лице: х (азот) 0,09 0,32 0,69 1,51 2,29 3,06 3,39 3,63 3,77 у (выход) 15,1 57,3 103,3 174,6 191,5 193,2 178,7 172.3 167,5 б) Вычислить рп ра, ра и доверительные интервалы уровня 0,95 для р1( Рз в) Нанести на график точки (х/, t//) и(х£, у,), где yt= е е Х| xt Найти значение х, при котором оценка выхода у = е е х х^’ достигает максимума. Указание: выполните регрессию для ^=Р1 ЬрзQi+РзЧг< гДе сц =*/ —х I 1 ” с<г = 1пх|—— V Inxj, Можете положить s=0,0289. п i- I 8. Доказать, что если С — матрица г X п ранга г, г < л, то г X г матриц СС имеет ранг г и, следовательно, невырождена. Указание: так как ранг матрицы С' равен г, хС' = 0 ==> х = 0 для любог г-вектора х. Но хС'С = 0=>-||хС'||а хС'Сх' — 0=>хС' = 0. 9. а) Вывести формулу (n-r)s2 = 2 2 Yt- 2 V- /. 1 /-I i— I б) Доказать, что в линейной модели = Рх< -г 8|, 1 i <1 п, о. н. к. параметра Р 10. Две лаборатории производят по с измерений одного и того же эталоне р. Рассмотрим модель | Ytj = р + В|/, i — 1, 2°, / — 1, .... с.
где е£j — независимые случайные величины со средним 6. Накопленный ранёё опыт позволяет предполагать, что Var (Y^) = a2, Var (УЯД = 4оа, 1 С / < с, если дисперсия о2 неизвестна. а) Доказать, что линейная несмещенная оценка с минимальной дисперсией эталона р определяется выражением ^_4УГ+Уа. И 5 б) Более общая ситуация: пусть Var (УаД/Var (Уц) = а, где а — извест- ная величина, и Var Кц не зависит от /. Найти линейную несмещенную оценку с минимальной дисперсией. в) Решить задачу б) для случая, когда имеется р лабораторий, х-я лаборато- рия производит щ независимых измерений, все ошибки независимы со средним О, ошибки измерений х-й лаборатории имеют одну и ту же дисперсию o2aj, i = = 1, ..., р, где at известны. Указание рассмотрите Yij = УцГ\/ а*. 11. Пусть Yi = 2^cifa + ej, 1 x‘ С л, удовлетворяют требованиям ли- нейной модели. Доказать следующие утверждения. а) Если (£ъ ..., £п)' — вектор подогнанных значений и (п — г) я2 = п —остаточная сумма квадратов, то (£, з8) — полная и достаточная /=1 статистика для (0lt .... рр, и2). б) Если (Рж, .... рр) — вектор оценок наименьших квадратов, то ((Plt ..., Рр)» 5°) — полная и достаточная статистика. 12. Доказать, что если plf ..., рг—оценки наименьших квадратов в линей- ной модели с dim to — г, то их ковариационная матрица определяется выраже- нием (7.2.33), а ковариационная матрица вектора (|ь ..., |п) — выражением (7.2,34). Указание: воспользуйтесь формулой (7.2.15). 13. Коррелированные ошибки. Пусть = Рд 4- е/, 1 •< i <; /г, где в/ = “ ae<-i + еь 1 -С * л, О -С а <1 1, е0 — 0, е/ — независимые и одинаково рас- пределены со средним О и дисперсией оа. а) Доказать, что У — несмещенная оценка для Pj. п б) Пусть Р1 = (Гг + (1 - а) 5 (Yi - аГцИ/Ц/х - 1) (1 - a)8 + 1). До- казать, что Pj — несмещенная оценка. в) Доказать, что Var (F)> Var (Рг), причем строгое неравенство выполня- ется во всех случаях, за исключением а *- 0. Указание: воспользуйтесь теоремой Гаусса—Маркова. Задачи к разд. 7.3 1. В приводимой ниже таблице представлены данные по урожайности (в фун- тах травяной массы на акр) при трех различных дозировках мульчи (в фунтах на акр): 0, 500 и 1000. Мульча 0 794 1 800 576 411 897 500 2 012 2477 3 498 2 092 1808 1 000 2118 1947 3 361 2 117 1955 61
Составить таблицу дисперсионного анализа для этих данных. Отвергается ли иа уровне а = 0,01 гипотеза об отсутствии различия в урожайности кормов при трех указанных выше дозировках мульчи? 2. Рассмотрим план с двумя признаками и взаимодействиями. а) Указать н.о.р. м. д., построить на основе этой оценки доверительный ин- < тервал для уц. * б) Вывести статистику (7.3.31). л в) Для сравнения /-го уровня фактора 1 с у-м уровнем фактора 1 часто ис*1 пользуется pf. — Ру.. Доказать, что Ур. — Yj.. — н. о. р. м. д. для рг. — Ру. 1 2/сЬ — доверительный интервал уровня (1 —{ I и что Yt.. 2 «) — а) для р£. — р7., где s2 = (п — bp)~^ SS2 (YiJh — Уо.)2 и t (1 — а) (1 — 2 а)-й квантиль распределения ТТп_^р. £ г) Приводимые ниже искусственные данные соответствуют плану с двумя* Чему равны а,^Ху и уц (i = 1, 2; / Вычислить F-статистику для взаимодействия (7.3.31). Будет ли отвергнута ги-^ признаками и р — b = 2, с = 4, ри = 0, P2l = 1, р1а = 3, р22 = 1, о2 = 1. ¥ Чему равны a,, Ху и уц (i = 1, 2; /= 1, 2)? Вычислить F-статистику (7.3 29). I Позволяет ли F-статистика прийти к правильному заключению при а = 0,05? | потеза /Г: уц~ 0 на уровне 0,01; 0,05; 0,10? | —1,33 1,28 0,62 0,70 4,23 3,76 2,14 1,10 —0,38 0,43 1,10 0,22 1,04 3,61 0,58 ч ,1 3. Рассмотрим план с двумя признаками без взаимодействий. Предположим,^ что существуют только два уровня фактора 1, т. е. что р = 2, и что число наблю- дений в ячейке (i, /) равно при k = 1 и гщ при k — 2. Y а) Доказать, что Д = p2j — Ри не зависит от i и что « о. р. м. д. для Д есть.; величина ь ь П ПЦ nt N‘ I где ^=/nf4-nf. б) Доказать, что F-статистикой при проверке гипотезы Н: Д — 0 относи*^. ь тельно альтернативы К: А ^=0 служит величина Vn, где п = и п- ь > .‘л Уп =д "Ч ni Nt 5 9 п—b — I »= 1 /= 1 Л1. Подчеркнем, что если в) Доказать, что S (Г„,— = 1 гипотеза Н верна, то Vn имеет распределение ТТп~ъ+14 s * ТТп—ъ~ 1» £ и, используя полученный результат, найти для Д доверительный интервал урав~ ня (1 — а). 62 У
4. Предположим, что для данных, приведенных в табл. 7.1.2, выполняется модель аддитивного плана с двумя признаками. Проверить при а — 0,10 эф- Аект от: а) первого фактора, б) второго фактора 5. В следующей таблице представлены данные о кровяном давлении у лю- х из трех социально-экономических групп (I, II и III)*. Наивысшее положение в обществе занимает группа I. Поскольку существует мнение, что кровяное дав- пение изменяется с возрастом, данные разделены на три возрастные группы: 30—45, 46—59 и 60—75 лет. Социально- экономическая группа Возрастная группа 30—15 лет 46—59 Лет 60—75 лет I 128, 104, 132, 112 120, 136, 174, 166 214, 146, 138, 148 II 136, 124, 112, 118 138, 124, 160, 157 156, ПО, 188, 158 III 116, 108, 160, 116 108, ПО, 154, 122 182, 148, 138, 136 Предположим, что выполняется модель аддитивного плана с двумя призна- ками. а) Проверить на 10%-ном уровне значимости, существует ли различие в среднем кровяном давлении между тремя социально-экономическими группами. 6) Проделать то же, что в задаче а), для трех возрастных групп. в) Найти доверительный интервал уровня 0,90 для Ь3. — 0г. . г) Найти доверительный интервал уровня 0,90 для р.. — р.х . 6. Пусть U и V—независимые случайные величины, U имеет нецентрал ьное распределение /т с параметром нецентральности п2> 0, V — нецентральное рас- пределение Хп с параметром нецентральности Ь2 > 0. Доказать, что при фикси- рованном со: a) P\U/V > со] — возрастающая функция от а2 при фиксированном парамет- ре Ъ- и убывающая функция от Ь2 при фиксированном а3; б) Р {UIV > со] 1 при а2 -► <», Р {UlV со] 0 при 5й -* оо. Указание: а) Пусть р (•, а2) — плотность распределения вероятности для I/; q (•, b2)— плотность распределения вероятности для V. Тогда сю оо Р । > co I = P[U > wo] q (у, b£) dv=J (1 —P [V > «co-1]) p (u, a2) du. о 0 б) Воспользуйтесь задачей 1.3.12 и представлением вероятности из п. а). 7. Пусть Тп — величина, определяемая (7.3.29). а) Предположим, что ах = ... = ар = 0. Доказать, что Р[ГП > fc(a)] = l-P где U имеет нецентральное распределение FFn_b-p+i, P-i с параметром не- ь р Центральности (с/о2) У У тЛ. /^1 /=1 б) Доказать, что при ах = ... = ар = 0 Р \Тп > k (а)] < а, Даже если имеются взаимодействия. А (а) * Из данных обследования сердечно-сосудистых заболеваний в Лос-Андже- 63
в) Доказать более общее утверждение: если значения cq, заданы, то Ь р Р IТп k (а)]—невозрастающая функция от б3— (de1) У 2 Y*/ и стремится к /=»1 (’I нулю при ба -► оо. Указание-, для б) и в) воспользуйтесь задачей 7.3.6. 8. Пусть Yij = 4- 1 < / < ль i = 1, ..., р, где еу — независимые случайные величины с распределением Л’Л'(О, of), i — р. Обычное допуще- ние плана с одним признаком состоите том, что все дисперсии равны. Чтобы про. верить правильность такого допущения, воспользуемся аппроксимацией крите- рия отношения правдоподобия для Н-. oi — ... = up относительно К: о? =#= и} при каких-то I н /. Этот критерий называется критерием Бартлетта. а) Доказать, что для этой модели | р * 2 In X = ?, л/ In » '? i=l * где : , nl . р п1 л 1 VI J VI S (Уц-У1.)г. о* = — 1 S (Уч-У,.)' П| I- 1 "<_!/_! , и п — «1 + ... + яр- Критерий Бартлетта заменяет of и о3 несмещенными оцен- ками с равномерно минимальной дисперсией . fl $? —----— of, s9 —------ о3, ' Л/—1 п—р a щ — на (nj — 1). При больших пх.....Пр критерий отношения правдоподобия размера а от- вергает гипотезу в том и только в том случае, если 2 In Л хр_г (1 — а). б) Применив критерий Бартлетта к данным, приведенным в табл. 7.3.3, удостовериться, разумно ли использовать в этом случае модель плана с одним признаком. 9. Пусть (Xit Yi), 1 < I < л, — выборка из распределения NN (щ, р3, v а3. о?» Р). f а) Доказать, что при Х1 = х1, .... Хп = хп случайные величины иеза- £ висимы, нормальны, Е (Yi) = Pi + Ра*ь Var (Fj)= а3, где ра = pv2lvlt pi = i = Mt — Р2И1. «а = a’ (I — P2); r v I б) Вывести из теории линеинои модели, что условно при X = х величина f ЪТ/Г.-------=7, Б(х(-х.)(Г,-У.) I Ра У 2 (Xi—«•)’ =--,-/v. / .. „--- f -i X ►т распределение NN (Ра (2 (xi — х.)3)3, а3) и не зависит от остаточной сум- | квадратов 2 (Yi — Y. — р2 (Х1 — х.))а. в) Доказать, что если 0 (Ра — 0), то t У E(Xi-X.)»2(yi-r.-^(Xi-X.))» имеет распределение ТТп_2. г) Доказать, что приведенное в п. в) выражение есть не что иное, как Ул — 2 р/У 1 —р1, где р — выборочный коэффициент корреляции. Указание: в) 2 (Г<-У,)3 = 2 (Г<—Г.—'рз (Xf—X.))2 -ЬР»2 (X,—X.)3 .
10. Предположим, что мы наблюдаем переменную у в различные моменты времени в двух различных условиях. В этом случае может оказаться подходящей модель Kjj=6s-|-Ps ^г/4“82/, 1-^J-^ns» где Xi) известны, и р{ неизвестны, еу — независимые случайные величины с распределением NN (0, о8). а) Доказать, что ni X (хи~xi )yij ft = Jt=J----------------. "5=у,, -h *\. = । ,'.2 п1 — оценки наименьших квадратов для и Р/. б) Естественно принять гипотезу Я: Pi = Ра = Р (скорость изменения со временем среднего отклика одинакова в обоих условиях). Доказать, что если гипотеза Н верна, то оценки наименьших квадратов для р и соответственно равны: 2 п1 (Xij—Xi.)3 б/ = Гь-рхь. в) Доказать, что в рассматриваемом случае dim w ~ 4, dim соо « 3. г) Доказать, что F-критерий отвергает гипотезу в том и только в том слу- чае, если |Т| > *Я1+л>_4 (i — Н, где Лг) 8 н ”i ! л(= Е ^1/—'!•)’> 81-VTZ------------тЕ л, 4-По —4 . . д) Применить критерий из п. б) к следующим данным (G. W е s t о о. Science, 10 Aug., 1973) по содержанию диметил ртути (мг/кг) в лососе и треске, об- наруженному в различных образцах. При вычислениях считать а = 0,05. Возраст» лет 1 1 2 2 2 2 2 | 3 3 3 3 <| 4 Лосось 0,068 0,055 0,097 0,096 0,096 0,104 0,100 0,086 0,114 0,104 0,106 0,158 0,102 Треска 0,296 0.279 0,259 0,218 0,242 3 Зак. 1313 65
4 11. В модели из задачи 7.3.10 предположим, что = ₽Л«=Р и жх. = х2. „ а) Доказать, что Лстзтистика для проверки Н: 6Х = б2 отвергает гипотезу в том и только в том случае, если 1 I ^ni+ni-з М 2 г где „ (Г1--Га.)УЛ1п,/(п1+пГ) U п So я1+лз—3 щ б) Доказать, что если бх = б2, £х = 0Й, Дх = Л2, то I/1 и Т1 независимы, в) Рассмотреть следующий алгоритм. 1) Вычислить |Т|. Если | | /П1_|_П1_4 (1—«1/2), то отвергнуть гипотезу Я1 :₽! = ₽,. 2) Если |Т|</ +„ _4(1—ах/2), то вычислить | U |. Если | С/1 > /rtl+nj_3X Х(1—сс,/2), то отвергнуть гипотезу Я2: бх — fia, в противном случае принять гипотезу П Н2: ох — б2, рх = р2. . Доказать, что если выполняется гипотеза Ях f) Я2, то вероятность север* шить ошибку равна 1 — (I — о^) (1 — а2). г) Применить алгоритм из п. в) к первым пяти наблюдениям над лососем и треской в задаче 7.3.10д. Ei» \ . * I, Esn, / где Лх и Л3 приведены в задаче 7.3 10- Векторы vi, ...» v, ортонормированы и образуют базис в ©. Запишем л Y-Z^x + .-.+Z^+^ZiVi,
где я — rti + «з и Vi, .... v4, ув, .... уп — пронормированный базис. Тогда п Воспользуйтесь независимостью Zs, U, Z2, У Zi и теоремой 1.2.3. /—6 12. Предположим, что заданы п регрессий YtJ = «i + PfXi} -Ь eiJt <i<n, 1 < i < p, где Xfj известны, ey независимы и распределены по закону 7VW (0, о8) а) Найти размерность параметрического пространства <о. б) Указать F-статистику для проверки гипотезы Н: рх = ... = Рр и ее степени свободы. в) Указать F-стати стику для проверки гипотезы Н: Рх = ... = Рр — О и ее степени свободы. г) Указать F-статистику для проверки гипотезы Н: cq = ... = ар, рх = ... •= Рр = 0 и ее степени свободы. 13. В моменты времени 1...п произведены наблюдения У,......Уп. Пред- полагается, что средние определяются приближенно соотношением типа El = Pi + Ра« + Ра^, 1 < i < п, где ошибки независимы и распределены по закону NM (0, о8). Вы подозреваете, что это соотношение в действительности линейно, т. е. что р8 — 0. Запишем в виде St = Т1 + ?аД< + Та (Д/ — Д-), где At =1—^-(л-Ы)и Д? = (1/л)У Д/. /г /х=1 а) Доказать, что Тз^Рз. TaePi+(rt + 1) Рз> VxePi ' У» + Уз (л ? ——™~- , б) Доказать, что Л л S д* Yi Vi=y.. v.=—----. 7.=—----------- 2 д? 2 W-V)2 — оценки наименьших квадратов. в) Доказать, что если верна гипотеза И: у3 =>= 0, то оценки наименьших квад- ратов Yi и уа остаются прежними. 3* 67
г) Доказать, что F-критерий для проверки гипотезы Я: ys — 0 отвергает гипотезу Н в том и только в том случае, если УХ(Д/-Д?)2 Ы ><„-,(.1—у), п XX л где s2=(n—3)~1 (Yl~Y1—— Та(д*— А?))2. * = 1 14. Если требуется учесть три фактора, то аналогично плану с двумя при- знаками наблюдения Удо располагают в виде так называемого плана с тремя признаками и одним наблюдением на ячейку. Аддитивная модель (без взаимодей- ствий) для плана с тремя признаками имеет вид; Yijh~Tfe4”1 = 1.............P* ji • • • • d‘, A = 1,..., ct где &ijh — независимые случайные величины, распределенные по закону NN (0, о8); <xt, Aj, уь — средние эффекты трех факторов для ячейки (i, /, А); р — общий средний отклик. а) Доказать^ что оценки наименьших квадратов равны: 7=У..„ at=УЬ.-У..., %=У.;.-У..., n=y..k-Y.... б) Доказать, что F-статистика для проверки гипотезы Н: а,1 = ... = ар = О есть величина Т (рдС-р-д-с+2)&с^(Уь.~У...,)а (р-1)222(Удо-У<..-У./.-У.Л+2У...)8 и что Т ~ FF(p_l}[pbc_p_b_c+i}, если гипотеза Н верна. в) Доказать, что оценки из п. а) являются несмещенными с равномерно минимальной дисперсией. г) Пусть предположение о том, что все Удо имеют одинаковые дисперсии, на- рушено. Останутся ли при этом оценки из л. а) несмещенными? Почему? Оста- нутся ли они несмещенными с равномерно минимальной дисперсией? д) Предположим, что дисперсии представимы в виде ajjk = сдо*а, где сдо известны. Можете ли вы предложить способ, позволяющий вычислить несмещен- ные оценки с равномерно минимальной дисперсией в этой ситуации (или в более общем случае — в линейной модели с гетероскедастическими наблюдениями)? Задачи к разд. 7.4 1. В примере 7.4.1 исследователь после анализа данных обнаружил, что жилы в кабелях 1—4 изготовлены из одной партии сырья, а жилы в кабелях 5—9 — из другой партии сырья. Предположим, что жилы из кабелей 1—4 наш исследователь решил объединить в одну выборку, жилы из пяти остальных ка- белей — в другую выборку и анализировать данные, как в случае двух выборок. Какой доверительный интервал уровня 0,95 он получил бы для разности средних 1 * Цз — Ri? Сравните этот интервал с доверительным интервалом для —— — 5 — J— полученным в примере 7.4.1. 4 /» 1 2. Для сравнения машин трех различных марок был запланирован экспе- римент. Для пяти машин каждой марки выборочные средние производительно- сти за час составили: Fj. = 28,7; Уа. = 33,3 и У8. = .30,4. Сумма квадратов ошибок и сумма квадратов между выборками равны соответственно 149,1 и 53,9. а) Предложить линейную модель для эксперимента. б) Составить таблицу дисперсионного анализа и указать критерий для про- верки средних разностей между машинами на уровне 0,10. в) Построить совместные доверительные интервалы уровня (1 — а) для раз- ностей средних трех генеральных совокупностей, выразив их через квантили рас- пределения широты типа Стьюдента. 68
3. Рассмотрим план с одним признаком. Доказать, что если <р = У, Wialt то /=«1 р существуют постоянные q, удовлетворяющие соотношению 2j ^ = 0и такие, что р & Ф =» Доказать также, что если ф = 2 ciPi» гДе ci удовлетворяют соот- т М /=1 р ношению = 0, то существуют постоянные Wf, такие, что ф = S <=1 /=*1 4. Рассмотрим план с одним признаком, а) Доказать, что если а0 = afk, то ₽i — Pj = ^t’—Y }• istn-p( 1—"Т'ССо] l/(ni + n/)/nt \ jb I — совместные интервалы уровня (1 — а) для k контрастов pf — Ру, i j, 1 i <C p, 1 / -< p, Эти интервалы называются ^интервалами Бонферрони. б) Сравнить /-интервалы Бонферрони в случае равных объемов выборок щ — п с интервалами Шеффе (7.4.16), вычислив отношение квадрата ширины к квадрату ширины интервалов Шеффе при р =4; k =2; 3; а = 0,05; 0,10 и п = 2, 11, 21, оо. б. а) Доказать, что в плане с одним признаком при одинаковых объемах выборок интервалы Шеффе (порожденные критериями для проверки гипотезы р Я: ctj = а/, i = 1..р) для контрастов ф = Pi принимают вид i=l /£ = S Citi ±>1/ (p-l)f(l-a) 2 (<7/rti) i—i r i=i и в случае ф == ₽< - fb переходят в Yt.—Y j. ± s V(P — 1 H( * — a) (rti +«/)/«< p где /(1—a)—(1—a)-fl квантиль распределения FFp-i, n-p c « = 2 rti- f = 1 б) Вычислить совместные доверительные интервалы для ря — plt ра — Plt Рз — Рз и 2* (Ра + Рз) — Pi по данным, приведенным в табл. 7.3.3. в) Приведенные ниже данные заимствованы из отчета об обследовании сер- дечных заболеваний в Лос-Анджелесе [7] и содержат уровни холестерина в кро- ви для трех возрастных групп: 20—30, 40—50 и 60—70 лет. Решить задачу б) для этих данных. Решения сравнить. 20—30 135 222 252 260 269 235 235 386 252 352 173 156 156 208 178 277 195 206 ' . .. - _ 40—50 294 311 286 264 277 336 208 346 239 172 254 273 328 244 60—70 370 244 353 420 333 357 317 Следующие две задачи относятся к модели линейной регрессии, в которой Yi = Pl + P2X1 + elw 6. Доказать, что если Pi = Р?, Рз = Р2, то Т1Л, n-' "(y -(И + Их.)?+Л (Р»~ИР 1 1Р1» р2/~ 2S3 69
распределение FF2, л_2. Величина s* здесь такая^же, как в задаче 7.2.1, л Л = 2 (Л4-^)а- /=1 Указание, если pj =» Pg = 0, то Т (0, 0) — обычная F-статистика для про- и гипотезы Н: Pi = Р2 = 0. В общем случае рассмотрите у;=у.—р°—1<< <п, где Т!=Р1—Р?» Т2 = ₽2—₽“• 7. Часто бывает полезно иметь совместные интервалы уровня (1 — а) для 1 + Ра* при различных значениях х, или две случайные функции (доверитель- ую полосу) L_ (х) £+ (х), такие, чтобы прямая у — рх рах была заключена [ежду у = L_ (х) и у = L+ (х) с вероятностью 1 — а при любых Pj и р2. а) Доказать, что если О = (рь р2, о2) и Ь± (x) = Pi+Ps * ± 1/2/0—а) s 1/ * 1 С*-* )8 у п ‘ А Р$ [L_ (х) <1 Pi + Р2х -< L+ (х) при всех х] = 1 — а при всех О. б) Указать общий ход кривых L_ (х), L+ (х) как функций от х для данных по рору из разд. 3.2 при а » 0,05. Обсудить общий характер поведения. Указание: l<£-pl)+(£-fe)*l I Vn (У. - (₽, -1- р, х.)) (1 / Уп) + IVA (₽, - ₽,)] (х - X.) I Т/Л I < L » (Y. - (₽i + ₽» *• ))a + » (fe - ₽»)’ 1_ 2 из неравенства Коши—Шварца» причем граница в правой части достигается при у A L« я 1 х [л (£-₽,)«+<• (Г.-ь-м.)1]2 . Воспользуйтесь далее задачей 7.4,6. 8. Интервалы Шеффе для всех линейных функций от р в плане с одним при- _ р знаком при р режимах и с наблюдениях на ячейку. Пусть <р где а ~ — (alt ..., ар) — любой вектор. Доказать, что Р [ф 1п при всех а] = 1 —а, 1 Р Р 1 2 если /в=2 aiYi- ± Pf.p(}~a) S ai&!c /=1 /=1 где fp — квантили распределения FFPt п_р. 70
9. а) Доказать, что множество C={(alt..., ap); max | Yt. — Yj.— af+ajK «С d (1 —a) s/Vc, 2 at=Q i = 1 — выпуклое подмножество в (p— 1)-мерном линейном пространстве {(aj.,..., ap): я X ч = 0). /esb] б) Доказать, что С — доверительная область для (ctj, сср) с коэффициен- том доверия 1 — а. в) Показать, что метод Тьюки соответствует следующему утверждению: «Точка (аь ..., ар) £ С -<=>- в том и только в том случае, если она заключена между любой парой гиперплоскостей, касательных к С», 10. Пусть Zlt .... Zn и Tjlf .... т]п — величины, определенные соотношениями (7.2.5), и пусть I г. а) Доказать, что л—г I I /=1 ~ FFi, п—г» п б) Доказать, что 2 WiZi — (1 —a) s||w]|< 2 i = t i*=l I < 2 ®|Z,+VV(l-a>s||wn Z= 1 где s2 = (n—r)~i 2 Z?» /—r+1 при всех w l Il w||2= 2 i=l w — K»z), f(l— a) соответствует распределению FFit n_r. Указание’ 11. а) Пусть LL — фиксированное подпространство размерности I простран- ства <о, Y — пространство всех линейных функций ф на Rn, таких, что ф (5) = п ~ где с £ LL. Пусть vlt ..., vn — ортонормированный базис, выбранный так, что векторы vlt ...» vr образуют базис пространства е>, а векторы vi. vi — базис подпространства LL, и пусть т]| определены соотношениями (7.2.5), Доказать, что ф £ Y в том и только в том случае, если ф (i) = SK/iTli ПРИ всех £ £ св и некотором наборе весов 71
б) Доказать, что ф=ф(£) = 2 ™lzl—°- н- к‘ Для $(£) и что 1=1 Var (ф) =о* || w||3- А л п л $ в) Пусть о9 (-ф) -=[ (л—Г)”1 2 О7!—50s]IIw II8—я- О. р. м. д. 1 для Уаг(ф). Доказать, что [хр— V// (1 —а) а (ф)< ф(£) <ф+ + l/ff (1—а) а(ф) при всех ф^ЧЧ — 1— а при всех О —(£, о1), о“>0. Г Г I Указание: а) ф(£)=с'£=с'- 2 4ivi = У ПХ vt= У Пре' vt- /=1 /=1 /=1 б) Воспользуйтесь определениями |, Z. в) Воспользуйтесь задачей 7.4.10. ' 12. Применить задачу 7.4.11 к нахождению совместных доверительных ин- '•& тервалов для всех линейных функций от и 02 в задаче 7.3.10. Указание: LL — пространство, натянутое на векторы (хи, ..., xlrt ,0, ..., 0) и (0, ...» 0, Xji, ...» -^п,) . | I 7.7. Библиография 'i f 1. Anderson T. W. (1971). The Statistical Analysis of Time Series. J. Wiley & Sons. New York. Русский перевод: Андерсон T. Статисти- ческий анализ временных рядов. М., Мир, 1976. ?; 2. А р о s t о 1 Т. (1974). Mathematical Analysis, 2nd Edition, Addison—Wes- ’ j; ley, Reading, MA. ¥ 3. В i r k h о f f G. and M a c L a n e S. (1965). A Survey of Modern Algebra, { 3rd Edition, Macmillan. New York. 4. Brillinger D. (1975). Time Series: Data Analysis and Theory, Holt. Rinehart and Winston. New York. i 5. Courant R. and H i 1 b e r t D. (1953). Mathematical Methods of Phy- ? sics, vol. 1, J. Wiley & Sons. New York. Русский перевод: Курант P., & ГильбертД. Методы математической физики. М., Гостехиздат, 1951, т. 1. | 6. Daniel С. and Wood F. (1971). Fitting Equations to Data. J. Wiley y & Sons. New York. * 7. D i x о n W. and M a s s e у F. (1969). Introduction to statistical Analy- I sis. 3rd Edition. Mc-Graw-Hill. New York. | 8. D о k s u m K. (1974). Empirical probability plots.... — Ann. Statist., •' 2, 267—277. { 9. D г a p e г N. and Smith H. (1966). Applied Regression Analysis. J. Wiley & Sons. New York. i 10. Fox M. (1956). Charts of the Power of F-test. — Ann. Math. Statist., 27, f 484—497. I 11. G г a у b i 1 1 F. (1961). An Introduction to Linear Statistical Models, vol. 1. McGrow-Hill. New York. 12. H a 1 d A. (1952). Statistical Theory with Engineering Applications. J. Wi- * ley & Sons. New York. Русский перевод: Хальд А Математическая ста- * ’ тистика ^техническими приложениями. М., ИЛ, 1956. 13. Н а г t 1 е у Н. О. and Pearson Е. S. (1966). Biometrica Tables for i Statisticians, vol. I, 3rd Edition. Cambridge University Press, Cambridge, ’ 72
j4. H a r t 1 е у Н. О. and Pearson Е. S. (1972). Biometrica Tables for Statisticians, vol. II Cambridge University Press, Cambridge. 15. Hu ber P. J. (1973). Robust regression: asymptotics, conjectures, Monte Carlo.—Ann. Statist., 1, 799—821. 16. К e n d a 1 1 M. and Stuart A. (1961, 1966). The Advanced Theory of Statistics, vols. II, III. Nafner Publishing Co. New York. Русский перевод: Кендалл M., Стьюарт А. Статистические выводы и связи. М.» Наука, 1973, т. 2. Многомерный статистический анализ и временные ряды. М., Наука, 1976, т. 3. 17. Koop ma ns L. (1974). The Spectral Analysis of Time Series. Academic Press. New York. 18. Mandel J. (1964). The Statistical Analysis of Experimental Data, J. Wi- ley & Sons. New York. 19. M i 1 1 e r R. (1966). Simultaneous Statistical Inference. McGraw — Hili. New York. 20. ScheffdH. (1959). The Analysis of Variance. J. Wiley & Sons. New York. Русский перевод: Шеффе Г. Дисперсионный анализ. М.. Физматгиз, 1963. 21. S ch е f f ё Н. (1952). A method for judging all contrasts in the analysis of Variance.— Biometrica, 40, 87—104. 22. S p j 6 t v о 1 1 E. and S t о 1 i n e M R. (1973). An extension of the T-me- thod... — J. Amer. Statist. Assoc., 68, 975—978.
Глава 8. АНАЛИЗ ДИСКРЕТНЫХ ДАННЫХ В большинстве ситуаций, рассмотренных нами в предыдущих гла- вах, предполагалось, что данные непрерывны и обычно нормально рас- пределены. В этой главе мы займемся изучением моделей наблюдений, носящих качественный характер или принимающих несколько разде- ленных большими промежутками (например, целочисленных) зна- чений. Основное внимание мы сосредоточим на структуре вероятнос- тей, с которыми наблюдения принимают те или иные значения. Как будет показано, такой подход приводит к проверке и оцениванию пара- метров одного или нескольких мультиномиальных распределений. Мы разовьем некоторые методы, основанные на принципе максимума прав- доподобия и аппроксимации отношения правдоподобия. 8.1. СОГЛАСИЕ С ОДНОЙ ГИПОТЕЗОЙ В этом разделе мы рассмотрим следующую проблему: как прове- рить, имеются ли достаточные основания считать наблюдаемую слу- чайную выборку изъятой из вполне конкретной генеральной совокуп- ности? Приведем несколько примеров. а) Имеется генератор случайных чисел, который по предположе- нию производит числа 0, ..., 9 с равной вероятностью 1/10. Для про- верки генератора мы запускаем его независимо п раз и получаем п ис- ходов Хх,..., Хп. Требуется проверить гипотезу «Генератор работает исправно» (т. е. все исходы равновероятны) относительно альтернати- вы «Вероятности исходов несколько отличаются». б) В своих экспериментах по селекции гороха Мендель наблюдал различные сорта горошин, полученных при скрещивании растений, да- ющих круглые желтые горошины, с растениями, дающими сморщен- ные зеленые горошины. Потомство могло давать горошины четырех типов: 1) круглые желтые; 2) сморщенные желтые; 3) круглые зеленые; 4) сморщенные зеленые. Если предположить, что каждый тип возника- ет независимо, то каждую горошину можно рассматривать как исход мультиномиального испытания, возможные исходы которого подразде- ляются на четыре указанных выше типа и имеют вероятности появле- ния #2» ^з» #4- Теория Менделя предсказывает, что = 9/16, ^2 = -ft8= 3/16, — 1/16. Мы хотим проверить, согласуется ли рас- пределение типов в п = 556 произведенных Менделем опытах с его теорией. В обоих примерах мы имеем множество из п мультиномиальных ис- пытаний с возможными испытаниями vht которые известны (в первом примере это числа 0,..., 9, во втором — типы 1, ..., 4), с ве-
роятностями <>!... О'д, которые неизвестны, или, что эквивалентно, мы имеем выборку Хр..., Хп из распределения, наделяющего ве- роятностью #1 при i=l.....k*. На основе наблюденных исходов х1м.., хп мы хотим проверить простую гипотезу Н: О* = 1 = 1, k, относительно альтернативы К • ^#=#/0 ПРИ некотором I. Так, в примере а) гипотеза состоит в том, что — ...= Ою = 1/10, где вероятность выдачи генератором числа i — 1, в примере б) Ф10= == 9/16, fl™ = а30 = з/1б, а40 = 1/16. Если обозначить через Ni число испытаний с исходом Vi, i = 1,..., k, то, как показано в задаче 4.2.4а. N = (Afj,..., Nk) — достаточная статистика для "0 = (фь Ofc). Так как N имеет распределение ММ (л, О],..., 0*), то наша задача сводится к проверке простой гипотезы Я : О = Оо = (О10,..., 0fco) относительно К : 0=# Оо на основе наблю- дения мультиномиального вектора с параметрами п и О. Параметр О принимает значения из множества 6 — {О : О< 0, 1 = 1=1 = О- Переходим к выводу критерия отношения правдоподобия для рас- сматриваемой задачи. Напомним, что функция частоты мультиноми- ального распределения (см. (П. 13.13)) имеет вид: р(П1....».». <>)~ ,п| , »;... Л|! .../ifc! Л поэтому sup {р nh, О): fl С 6} = р (пь..., пЛ, О), где 0 = (Ог, .... Оь) — оценка максимума правдоподобия для О. Чтобы найти 0, рассмотрим р как функцию от Oj,..., Ofc-х. Это возможно, так как = (8.1.1) 1 На параметры ОЛ_х наложены только ограничения Of 0 при всех i и 2^/ !• Если все т); положительны, то р (п, О) = 0 при всех 9', имеющих какую-то координату, равную нулю. Следовательно, в этом случае о. м. п. О должна удовлетворять уравнениям правдоподо- бия S -г-=°-‘=1..........k~'- (81-2) /3 д6‘ /-1 В силу соотношения (8.1.1) д&к/д$1 — 1, поэтому любое решение уравнений (8.1.2) удовлетворяет соотношениям ^-=^-,1 = 1.....k-l. (8-1.3) _________«I * Заметим, что щ могут быть числовыми «метками> качественных признаков, Как в примере с опытами Менделя. 75
Используя соотношение (8.1.1), приходим к единственному реше- нию $=-^,*=1........k. (8.1.4) Л Формула (8.1.4) верна и в том случае, если некоторые из пг равны ну- лю (см. задачу 8.1.7). Итак, мы получаем 21nX(n) = 2[Inp(n, fl)—lnp(n, fl0)] = 2 у, n{(lnflz—Infl/0) (8.1,5) /«= 1 Критерий отношения правдоподобия отвергает гипотезу при боль- ших значениях 2 In X. На практике 2 In X используется редко. Вместо 2 In А широкое применение находит статистика критерия, известная под названием статистики %2 Пирсона, аппроксимирующая 2 In Л при больших выборках. Она имеет следующий вид: Х2= V (JVl-nW., (8 J 6) А п®<» Ясно, что %2 служит мерой отклонения наблюдаемых значений Nt от их математических ожиданий nflJo при выполнении гипотезы Н. До- кажем на эвристическом уровне, что если гипотеза Н верна, то статис- тика х2 близка к 2 In X. Предположим, что п велико. Тогда если О = — fl0, то по закону больших чисел fli ~fl$0 (состоятельность оценок максимума правдоподобия). Это наводит на мысль заменить In в (8.1.5) первыми тремя членами разложения In х в окрестности значе- ния Ф£о: In?— In fl - • (fl<-fl/o)a W-nOio) W-n<ho)‘ 1 i0" flio 2o;0 nflie 2na<}20 ’ к Д V: M- i-У откуда k k / 2 —lnflj0)«2 'JJ ! / «—T 1 t 1 * io /-1 VT yj (Ni—nOto)a Ji Z=_ j rVblQ z_ J (8.1.8) * -a: (8.1.9) QVi-^io)3 (A'i-nfrfo)3 nQi0 2л» e/0 (^1-nW) 2nOi0 J Л» 0Д, Производя преобразования, мы использовали соотношение k k 2 Nt=n= 2 nflw. /1= 1 1 Заметим, что последний член в (8.1.8) ограничен по абсолютной ве- личине числом JS V s (A,|-nfc)a max (M У,- , n^i0 / AjO |L 1
Если гипотеза Н верна, то |Ot — &,0| -> 0 по вероятности, поэтому по- следний член в (8.1.8) пренебрежимо мал по сравнению с первым, и, следовательно, 2 In % « %2, что и требовалось доказать. Критические значения х2 (и 2 In X) в принципе можно вычислить по распределению вектора N при выполнении гипотезы Н, совпадающему с ММ (л, ^ю»..Фло)* На практике при Л>2и даже умеренных значе- ниях п используют аппроксимацию из разд. 6.61, т. е. если ни одна из величин Of0 не обращается в нуль, рассматривают статистику %2 Пир- сона (и 2 In X) как имеющую распределение x£-i при выполнении гипо- тезы Н. Таким образом, рассматриваемый нами критерий отвергает гипотезу в том и только в том случае, если %2 хь-i (1 —а). Аппрок- симация того же типа используется и для функции1 мощности: если значение •& задано и достаточно близко к О0, то статистику х2 рассмат- ривают как имеющую нецентральное распределение xt—i с парамет- ром нецентральности л (О/ — ftf0)2 /&i0 (см. Кендалл и Стьюарт [9, р. 4361). Заметим, что при k = 2 л (1—Ф10) nOw(l—0щ) и аппроксимация х2 совпадает с обычной нормальной аппроксимацией к двустороннему критерию для проверки гипотезы Н: Oj = на основе биномиальной переменной Nx. В общем статистику х2 Пирсона можно обосновать, а ее распределение вывести на основе многомерной нормальной аппроксимации мультиномиального распределения (см. задачу 8.1.9). Применение рассматриваемого критерия не требует предваритель- ной обработки данных. Например, Мендель в своих экспериментах наб- людал пх = 315, л2 = 101, ля = 108, н4 = 32, л = 556. Следователь- но, лФ10 = 312,75; лФ2о = л-&30 = 104,25; иО40 = 34,75; k = 4 и а_ (2,25)* .'(3,25)* (3,75)« . (2,75)* _Q47 А 312,75 104,25 104,25 34,75 Заглянув в таблицу распределения хз, мы обнаружим, что p-зна- чение равно 0,9. Таким образом, полученные данные (к счастью!) недостаточны для того, чтобы отвергнуть гипотезу Менделя2. Для сравнения сообщим, что в этом случае 2 In % = 0,48. Иногда, хотя и редко, возникает проблема проверки согласия одно- го конкретного непрерывного распределения с выборкой. Например, нам может понадобиться проверить, сохранились ли неизменными статистические характеристики технологического процесса производ- ства деталей со сроками службы, распределенными по закону ЕЕ (1). Для проведения испытания мы повторяем процесс л раз и наблюдаем сроки службы Xj,..., Хп произведенных деталей. Требуется прове- рить гипотезу, согласно которой общее распределение выборочных переменных есть ЕЕ (1), относительно альтернативы, согласно которой 77
общее распределение отлично от ЕЕ (1)*. Чтобы применить метод этого раздела, нам необходимо сгруппировать, или дискретизировать, наб- людения, т. е. выбрать некое разбиение положительной полуоси О = а0 <. < ...с < й), = со и заменить выборку вектором (Nx....Л\), где Nj — число наблюдений ........Хп в полуоткры- том интервале [ay_lt aj). Если положить Фу = Р [ау-х Хх<ау], то N—'ММ (п, Фх„.., Фд). Вектор N позволяет записать нашу гипотезу в виде Оу = Оу0 = e~aJ-1 — e~aJ, Произведя такое отожде- ствление, мы можем воспользоваться статистикой %2, определяемой, как и прежде, выражением (8.1.6). Возникает новая проблема. Как выбрать разбиение положитель- ной полуоси? При заданном k существуют некоторые теоретические соображения в пользу такого выбора Пу, что Фу0 = Mk, j ~ 1, ..., k. Однако единого мнения относительно наилучшего выбора k пока нет, хотя кое- какие аргументы можно найти в книге Кендалла и Стьюарта (9, р. 4381. Возражение, выдвигаемое против использования статистики Пир- сона *Х2 в непрерывном случае, состоит в том, что при группировке те- ряется информация 3. Действительно, после того как группировка про- изведена, гипотезу о том, что исходным было распределение ЕЕ (1), невозможно отличить от альтернативы, при которой Фу = Фу0, 1 k. Если k велико, то это не слишком серьезно. Альтернативный ме- тод (критерий Колмогорова), не требующий группировки, приведен в гл. 9. Другое веское возражение относится к рассматриваемому критерию даже в дискретном случае. Стремясь обеспечить мощность относитель- но всех альтернатив & Ф Фо, мы получили критерий с малой мощностью в любом конкретном направлении. Например, наш критерий не исполь- зует информации об относительных величинах возможных значений vlt.... vh. Между тем если бы в предыдущем примере мы были убежде- ны в том, что технологический процесс обнаруживает тенденцию про- изводить летали с временем жизни короче, чем ЕЕ (1), то непременно постарались бы учесть это обстоятельство. Некоторые другие при- меры на ту же тему приведены в книгах Кендалла и Стьюарта (9, р. 441—4501, Ланкастера [10, гл. 9]. 8.2. СОГЛАСИЕ С СЕМЕЙСТВАМИ РАСПРЕДЕЛЕНИЙ: ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ Пусть N=(Ari,..., Л\) имеет распределение ММ (п, Ф). Выясним, как проверить гипотезу Я : Ф £ 0О относительно альтернативы К : f£0o, где 0О — сложное «гладкое» подмножество (k — 1)-мерного пара- метрического пространства 6- 1 t A, ^Ф/ = О- Прежде всего рассмотрим несколько примеров. * Более реалистическая задача проверки гипотезы, согласно которой выбо- рочные переменные имеют общее распределение ЕЕ (X), где значение X неизвест- но, рассмотрена в следующем разделе.
а) Вероятности, приписываемые генетическими моделями различ- ным (гено)типам потомства от спаривания (или скрещивания), часто зависят от одного или нескольких неизвестных параметров. Напри- мер, самоскрещивание кукурузы гетерозиготной по двум характеристи- кам (крахмалистая — сахаристая, с зеленым основанием листа — с бе- лым основанием листа) приводит к четырем возможным типам потомст- ва: 1) сахаристой с белым основанием листа, 2) сахаристой с зеленым основанием листа; 3) крахмалистой с белым основанием листа и 4) крахмалистой с зеленым основанием листа. Если N, — число расте- ний типа i среди общего числа п потомства, то NA) имеет рас- пределение ММ (п, ...» 04). В модели сцепления (Фишер [7, р. 301]) величины t=l,..., 4, выбраны так, что 01 = 4-(2+ ’!)’ (8-2.1) 4 <>а = #Э П). 4 #4=4" 4 где т) — неизвестное число, заключенное между нулем и единицей. Чтобы проверить справедливость модели сцепления, следует взять 60= = (2 4-1)), — (1 —?)), у (1 ~ *1), -J-п): ОС 11 < 1} — «одномер- ную кривую» в трехмерном параметрическом пространстве 6. б) Во многих рассмотренных ранее моделях мы предполагали, не- редко без достаточного основания, что имеем выборку из какого-ни- будь семейства непрерывных распределений, например NN (р, о2) или ЕЕ (X), после чего приступали к оценке интересующих нас парамет- ров, проверке гипотез и т. д. Ясно, что при таком подходе нам необхо- димы методы, позволяющие решать, разумно ли само по себе предполо- жение о нормальности (или экспоненциальности). Один из возможных подходов состоит в том, чтобы сгруппировать, или дискретизировать, данные, как в предыдущем разделе, а затем проверить гипотезу, сог- ласно которой параметр & соответствующего мультиномиального векто- ра принадлежит множеству всех значений, допускаемых каким-то членом предполагаемого семейства непрерывных распределений. Например, если мы предполагаем, что Xt образуют выборку из распре- деления ЕЕ(Х), и производим разбиение области значений Xj так же, как в предыдущем разделе, то соответствующие вероятности равны: a0 = 0,afe=oo, (8.2.2) и 60 — «кривая» в мер ном пространстве, задаваемая парамегриче ски как ©о== (0—1 — е~а*\ .... e“a*-ix): Х>0). в) Многие важные характеристики обладают только двумя катего- риями. Человеку либо сделана, либо не сделана прививка от той или иной болезни; он либо курит, либо не курит; является мужчиной или женщиной и т. д. Часто нам бывает необходимо знать, связаны ли 79
такие характеристики или независимы. Например, существует ли какая-то связь между курением и раком легких? Не зависимы ли меж- ду собой принадлежность к мужскому или женскому полу и зачисление на определенный факультет университета? Обозначим возможные ка- тегории, или состояния, первой характеристики через А и А, второй характеристики — через В и В. Случайно выбранный из генеральной совокупности индивидуум может быть одного из четырех типов: АВ, АВ, АВ, АВ. Обозначим вероятности этих типов (в той же последова- тельности) через Оп, Ф12, 02]1, 022. Независимость зачисления от пола абитуриента означает независимость событий [быть Л (т. е. мужчиной или женщиной)! и [быть В (т. е. зачисленным или зачисленной)], или в терминах — в в > <2 г. А А Л'и *12 ^21 /V 22 I к (8.2.4) = («<1 + «<,) +»«)• (8.2.3) Чтобы изучить связь между двумя характеристиками, мы извлекаем случайным образом из генеральной совокупности выборку объема п. Результаты анализа представлены в виде так называемой таблицы со- пряженности признаков 2x2. Величины, стоящие в клетках этой таб- лицы, указывают, сколько индивидуу- мов в выборке принадлежат к катего- риям, соответствующим строке и столб- цу, на пересечении которых стоит клет- ка. Например, N12 — число индивидуу- мов в выборке, относящихся к катего- рии А первой характеристики и к ка- тегории В второй характеристики. На практике выборку обычно производят без возвращения, но если гене- ральная совокупность велика и число индивидуумов каждой из четы- рех категорий велико по сравнению с объемом выборки, то модель вы- борки без возвращения допустимо считать хорошей аппроксимацией. Приняв такое предположение, мы должны получить N ~ ММ (п, ^и, ^12» Оа1, 022), если N = (JVU, Ni2, Л^21, Л^з)- Если о <4- О.у ничего не известно, то задача сводится к проверке гипотезы И : О € 0О отно- сительно альтернативы К : О ф 0О, где 0О — двумерное подмно- жество множества 0, задаваемое условиями во = {П1П2. ’ll (1 — П2). Пг (1—’ll). (1 — ’ll) О — Th): т)! С 1, О С th « Здесь мы положили vjt = + 022, iqa = Фц + 021, стремясь подчерк- нуть, что эти параметры изменяются свободно. Во всех рассмотренных нами примерах подмножество 0О можно зада- вать параметрически как во = {(01 (Ч).-.., Oft (1))) : 1) € £}, (8-2.5) где г]= Oh,..., т]г), Е—подмножество г-мерного пространства, отобра- жение 1] —>- (&! (i)),..., (?])) переводит £ в О. Во избежание тривиаль- ных случаев условимся считать, что г меньше размерности k — 1 мно- * i * 4 80
жества 0. В примере а) г — 1, Е = 10, 1], k = 4, а отображение оп- ределено соотношениями (8.2.1). В примере в) г = 2, Е — квадрат ((Л1> Чз): ° < Чх С 1. О < q2< 1}, k = 4, а отображение указано в (8.2.4). Рассмотрим критерий отношения правдоподобия для проверки ги- потезы Н : fl € 0о относительно альтернативы /( : fl (£ 0О Для случая, когда N ~ ММ (л, О), а 0О — подмножество (8.2.5). Из (8.1.4) полу- чаем sup р (Hi...nft, fl) = р (пр..., zzh,"fl), (8.2.6) о где fl = (njn..nk/n) *. Максимизировать р (nlt..., пЛ, fl) по fl С 0о означает то же самое, что максимизировать р (nlt .... nht fl (q)) по q £ Е. Если значение q = (Чь---» Чг)« ПРИ котором достигается минимум, существует, то в силу (8.2.6) логарифм отношения правдоподобия определяется выра- жением Л 1пХ(лъ ..., пЛ) = 2 па1п(п,/п)—1п<Мч)]. /= 1 (8.2.7) Если отображение q fl (q) дифференцируемо по каждой координате множество Е открыто и q существует, тот) служит решением уравне- ний правдоподобия для модели {р (•, fl (q)): q £ Е), т. е. удовлетво- ряет уравнениям или lnp(nx, .... rtfc, fl(q))=0, (8.2.8) д dqj 4z o' fli(q) dr], A|(4) = 0, 1 Даже если множество E не открыто, обычно легко проверить, что урав- нения (8.2.8) допускают единственное решение, максимизирующее р («!,..., nh, fl (q )). Если п. велико и верна гипотеза И, то идеи, заложенные в теореме 4.4.1, позволяют при не слишком жестких ограничениях доказать, что fl, (q) = fl, 4- rn, p где rn-> 0. Рассуждая так же, как в (8.1.8), получаем разложение ЗВД.........yft)« £ (8.2.9) /= 1 n&t (qj * Как и в гл, 3, мы используем здесь не вполне «законные» обозначения, по- нимая под § и q и статистику Э (Л\, ..., Nk), и значение этой статистики при на- блюдаемом значении (nlt ..., л&). Какая именно интерпретация имеется в виду, ясно из контекста. 81
Статистика, стоящая в правой части (8.2.9), также называется ста- тистикой у2 (Пирсона) и широко используется. Ее нетрудно запомнить как сумму отношений (наблюдение — среднее)3/(среднее по всем кате- гориям). Под «средним» здесь мы имеем в виду оценку nfy (ц), числа, ожидаемого при условии, что верна гипотеза Н. Точные критические значения для 2 In X или %2 вычислить трудно, за исключением частных случаев. При подходящих условиях на ото- бражение т) -> О (ц) можно воспользоваться аппроксимацией отноше- . ния правдоподобия из разд. 6.6. Размерность 0 равна я: — 1, размер- ность ©о равна г. Следовательно, если верна гипотеза Н, то 2 in X и X2 имеют приближенно распределение ха-г-i (см- Рао [13, р. 418]). Это означает, что критерий х2 уровня а отвергает гипотезу в том и только в том случае, если 1 n^i (ч) ,J (8.2.10) Основная трудность в применении этого метода связана с оцени ванием величин тц- В примере а) оно производится путем прямых вы числений. Уравнение (8.2.8) принимает вид nt । я« (2+п) (1-4) Ч и сводится к квадратичному уравнению для т). Единственный корень этого уравнения в интервале 10,1] дает требуемую оценку (см. задачу 8.2.3). Так как г = 1, k = 4, критические значения мы находим из таблиц распределения х^. Трудности, которые могут возникнуть, видны на примере б). Урав- нение (8.2.8) в этом примере трансцендентно (за исключением случая, когда a.j — bj с при некоторых b Z> 0, с — вещественное число): л й ¥ Л —а — а$е —а (8.2.11)1 4 = 0. Возникающая статистика х2 соответствует приближенному критичес- | кому значению xft_8 (1 — a). J Вернуться к исходным наблюдениям и воспользоваться оценкой» л t максимума правдоподобия X* = 1/УХ< непосредственно в статистике| /-1 5 X8 невозможно. Если гипотеза верна, то возникающая статистика х стре- милась бы быть большей, чем необходимо, и уровень был бы больше а.| Но уравнение (8.2.11) можно решать методом последовательных при-| ближений по аналогии с примером 3.3.5, выбрав в качестве нулевого^1 приближения X*. Итерации можно продолжать до получения X илИ| оборвать на первом приближении. Теорию, лежащую в основе этих, утверждений, можно найти у Кендалла и Стьюарта 19, р. 425—43011 или Ланкастера [10, р. 142—148)2. f 82 *
Одно из наиболее важных применений статистики %2 Пирсона — в построении таблиц сопряженности признаков. Начнем с таблицы 2x2 примера в). Если воспользоваться параметризацией (8.2.4), то уравне- ния (8.2.8) примут вид: (Л11~ЬП1>) _ (л21 *Ь яая) Ч, (1-4.) ' (пп П2я) __ 0x^4* Лав) п, (| -ъ) Эти уравнения допускают решения ’ll = («и + п12)1п, П2 = («и + п21)/п, (8.2.12) (8.2.13) задающие доли индивидуумов типа А иВв выборке. Эти решения явля- ются оценками максимума правдоподобия. Статистика Пирсона, как нетрудно видеть, равна: 2 2 Хг=« s Е (8.2.14) <=!/-! К‘ С1 где Rt = Na + Ni2— сумма чисел, стоящих в t-й строке; Cj — — — сумма чисел, стоящих в /-м столбце. По нашей теории, если гипотеза Н верна, X2 имеет приближенно рас- пределение %? (так как k = 4, г = 2). Это наводит на мысль предста- вить %2 в виде квадрата одной приближенно нормальной случайной ве- личины. Действительно (см. задачу 8.2.4), все величины (NtJ — RtCjfn) по модулю равны, и X2 = где \ Г "I 2 11 JT/L J (8.2.15) Величина Z допускает также другое важное представление z=(-£«-—<8-2,б> \ Ь2 } у А1А2 Если число п достаточно велико, то пгЩцжЪц, и из (8.2.15) мы полу- чаем, что Z^Vn [Р(А|В)—Р(Д|В)] Р(В) Р(Л) 83
Через A, Bt *Д, В здесь обозначены события, состоящие в том, что £Лучайно выбранный индивидуум обладает характеристикой А, В, А, В. Таким образом, если %2 служит мерой отклонения от независимости, то Z указывает направления, в которых нарушается независимость. Положительные значения Z свидетельствуют о том, что Я и В положи- тельно сопряжены (т. е. А в паре с В встречается с большей вероятно- стью, чем в паре с В). Можно показать (см. задачу 8.2.6), что если А и В независимы, т. е. если Р (Д | В) = Р (Д | В), то Z имеет прибли- женно распределение NN (0, 1). Следовательно, разумно воспользо- ваться критерием, отвергающим гипотезу в том и только в том случае, если Z>z(l —а), (8.2.17) в качестве одностороннего критерия уровня а для проверки гипотезы Н : Р (Д |В) = Р (Д |В) (или Р_(Д (В) Р (Д |В)) относительно аль- * тернативы К : Р (Д |В) > Р (Д |В). Критерий Ха эквивалентен (двусто- роннему) отклонению гипотезы в том и только в том случае, если k 1 I Пример 8.2.1. В следующей таблице 2x2 приведены данные о при- 4 еме па некоторый факультет Калифорнийского университета в Берк- % Мужчин Женщин ли, расклассифицирован- . ные по двум признакам: «принято — не принято» t « в» у»« г Принято 97 40 137 В конце строк и столб-» Не принято 263 42 305 цов указаны суммы, т. е. t Rt и С},п = 442 — общее "i 360 82 442 число абитуриентов. Если £ предположить, что способ-1 ности абитуриенте®, подав-’? ших заявления на данный факультет, распределены независимо от ; пола, то гипотезу о равноправии мужчин и женщин при поступле- у нии в университет разумно принять в качестве гипотезы о том, что * для случайно выбранного студента события (Быть мужчиной] и (Быть женщиной] независимы. В этом случае из второго представле- ния Z получаем ¥»= ( 97 _ Л2-У (360) («2)442 = 9 Х < 360 82/ (137) (305) ’ ’ J и гипотеза отвергается на любом разумном уровне. В действительности J интерес представляет альтернатива «Против женщин была допущена f дискриминация» (т. е. Р (зачисление | женщина ]< Р [зачисление ] мужчина]). Вычислив Z——3,86, находим, что p-значение равно;; 0,999. Следовательно, гипотеза о том, что женщины при зачислении на* данный факультет не подвергались дискриминации, принимается на | любом разумном уровне значимости. 84 I j I
Таблица 2x2 возникает и при несколько иной схеме эксперимента. Из совокупности всех индивидуумов, наделенных признаком В, мы случайным образом извлекаем выборку объемом clt из совокупности всех индивидуумов, наделенных признаком В, — выборку объемом с2 и наблюдаем число ЛГП и Nl2 индивидуумов типа Л в первой и во вто- рой выборке. Например, мы можем произвести выборки, состоящие из сх и с2 курильщиков, и наблюдать число заболеваний раком легких в каждой выборке. Таблица сопряженности признаков, задающая клас- сификацию по типам А В, АВ, АВ, АВ,—та же, что и прежде. Но теперь и N12 — независимые случайные величины, распределенные по закону ATU ~ ВВ (с1( pj, N12 ~ВВ (с2, р2), где = Р (Л |В) = 0п/ /(f>u 4’ ^21) и р2 = Р (Л \В) = ^2^12+^22)- Гипотеза о независимос- ти в этих обозначениях записывается так: Н : pt = р2. Можно пока- зать, что статистика отношения правдоподобия для Н : рх — р2 с аль- тернативой К : р! =#Ps такая же, как в мультиномиальной модели, но с другим распределением вероятностей, так как совместное распре- деление для Ntl и Л\2 при Н и К отличается от совместного распреде- ления в мультиномиальной модели. Тем не менее обе модели тесно свя- заны. Если в мультиномиальной модели мы наблюдаем С± = clt то (условно) и Nl2 — независимые случайные величины, распределен- ные по закону В В (clt pt) и В В (п—clt р2), как во второй модели (см. задачу 8.2.12). Статистики Z и %®, задаваемые формулами (8.2.14) и (8.2.15) с нормальным и ^-критическим значениями, используются и во второй модели в качестве аппроксимаций к критериям отношения прав- доподобия для проверки гипотезы Н : рг^ р2 относительно альтерна- тивы К : /?! >• р2 и гипотезы Н : рх = р2 относительно альтернативы К'Р1Ф р2- Вторая модель возникает также в ситуациях, когда мы имеем две группы наблюдаемых индивидуумов, прошедших различную обработ- ку, или одну обработанную и одну контрольную группу, и наблюдае- мый отклик двоичен (типа «да—нет»), а не непрерывен (не выражается любым вещественным числом из некоторого интервала). Например, об- работкой могут быть способы обучения умению находить путь через лабиринт, подопытными субъектами — крысы, а эксперимент может состоять в прохождении нового лабиринта. Мы хотим проверить, оди- наковы ли вероятности успешного исхода и р2 для групп 1 и 2, т. е. гипотезу И : рг~ р2 относительно альтернативы К : pi #= р2, или будут ли крысы в обученной группе (например, в группе 1) преодоле- вать лабиринт не более успешно, чем крысы в контрольной группе, т. е. гипотезу Н,: рг р2 относительно альтернативы Д' : рг> р2 Нормальная аппроксимация к распределению статистики Z (или аппроксимация %2 к распределению статистики %2 Пирсона) разумна только в том случае, если все ожидаемые значения Ni} не слишком ве- лики *. Р. А. Фишер предложил следующий критерий с «точными» (независящими от параметров) вероятностями ошибок типа I, который * Неравенства ni]i d — Hi) > 5> n1l2 (1 — Чг) > 5 заведомо гарантируют от «неприятностей». 85
% при не слишком больших п совпадает с критерием х2 Пирсона. Рас- '• смотрим условное распределение для /Vu при заданных суммах по стро- кам и столбцам таблицы: = rlt R2 = г2 = п — rlt Cv = сх, С2 = * = с2 — п — сх. Можно показать (см. задачу 8.2.7), что если гипотеза ; Н : «Л и В независимы» верна, то g / Cj\ / с2 X Р [^п = $ I = ^i, = Rz~ ^2> =------—~ (8.2.18) /л \ w | (t. e. Nn условно имеет гипер геометрическое распределение НН (сх, $ Л1» *1))- 5 Двусторонний критерий Фишера, соответствующий критерию %2 » Пирсона, состоит в отклонении гипотезы Н, если /Уц С qx или /Vn * <7г, где /у, и q2 выбраны из таблиц гипергеометрического распреде-1- ления с таким расчетом, чтобы каждая из величин (Q\ / ^2 \ f С* \ i s )\ri—у \$/vi—$/ х о /л \ fn\ $ «< ? Л ( «> я* I I J Vi/ Vi/ I как можно меньше отличалась от ос/2, но не превосходила а/2. Относи- $ тельно свойств оптимальности критерия Фишера и вариантов крите- ? рия х2 для таблицы 2x2 см. книги Лемана (И, р. 143] и Кендалла и Г Стьюарта 19, р. 547—5551. Рассмотрим далее таблицы сопряженности признаков для двух нечисловых характеристик, подразделяемых па р и b категории, ? р, Ъ >= 2 (например, цвет волос, цвет глаз). Взяв из генеральной сово- i’ купности выборку объемом п и расклассифицировав попавшие в нее « индивидуумы по каждой характеристике, мы получим вектор ИцЛ i=l, .... р\ j = 1, ..., b, где Ntj — число индивидуумов типа i по ха- рактеристине 1 и типа / по характеристике 2. Если = Р [случайно > выбранный Индивидуум принадлежит к типу i по характеристике I и I к типу / по характеристике 2], то | ч {Nt): 1 < р, 1 < / < Ь} ~ ММ (п, : 1<1<р, 1</СЬ)"< В этих обозначениях гипотеза о независимости комбинаций характери- * стик записывается в виде | , о к H.^t} = где 1< I 1 2 Ср, 1 С/ С Ь, причем I 1 •V12 Nib Pi Л л, il>2 неотрицательны ^и s p b * ^j^il ~ 1 • 4- f=l /«=1 £ Величины Ntj можно | расположить в виде табли- | *» в V 1 • • ♦ • • • • р Npi iVp, • • > Npb Rp ся л • • Сь Л цы сопряженности призна- | ков р х b (у каждой стро- t 86 1
к и и каждого столбца указаны суммы образующих их чисел). Вычис- ления максимума правдоподобия и размерности, аналогичные прове- денным для таблицы 2x2, показывают, что статистика Пирсона для гипотезы независимости определяется выражением р Ь [Nij-------- I = (8.2.19) R‘cl и, если гипотеза И верна, имеет приближенно распределение X’p-Da-i). Доказательство и некоторые численные примеры на применение этой формулы см. в задачах. В разд. 8.3 мы обсудим тесно связанную с рас- смотренной нами проблему проверки однородности нескольких бино- миальных совокупностей. 8.3. МОДЕЛЬ Р ВЫБОРОК И «РЕГРЕССИЯ» ДЛЯ БИНОМИАЛЬНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН В этом разделе мы кратко обсудим, каким образом можно обобщить методы из разд. 8.2 и воспользоваться результатами из гл. 7 для ана- лиза нескольких серий биномиальных испытаний. 8.З. А. Модель р выборок Требуется рассмотреть на р различных генеральных совокупнос- тях некую характеристику, подразделяющуюся на две категории. Та- кими категориями могут быть, например, смерть и выживание после инъекции некоторого лекарства, а генеральными совокупностями — различные породы подопытных животных. Категориями могут быть так- же намерения голосовать за какого-то кандидата или против него, а генеральными совокупностями—избиратели в различных районах города. Из р генеральных совокупностей мы независимо производим выборки, предполагая, как обычно, генеральные совокупности на- столько большими, что выборки с возвращением и без возвращения эк- вивалентны. Пусть Ct — индивидуумы, извлеченные из i-й генераль- ной совокупности, a Nt — число индивидуумов, попадающих в первую из двух интересующих нас категорий. Тогда Nt — независимые слу- чайные величины, распределенные по закону ВВ (с<, $t) (t= 1,...; р), где Ф, — вероятность того, что индивидуум, случайно выбранный из i-й генеральной совокупности, попадает в первую категорию. Если не предполагать связи между 0^, то наша модель соответству- ет обычному плану с одним признаком, который мы рассматривали в гл. 7. Как и в случае плана с одним признаком, обычно требуется про- верить гипотезу об однородности генеральных совокупностей Н : Фх= == Так, в приведенных нами примерах мы хотели бы проверить, все ли породы животных обладают одинаковой чувствительностью к лекарству и во всех ли районах города одинакова доля избирателей, голосующих за данного кандидата. Чаще всего используемой статисти- 87
кой критерия для проверки гипотезы Н относительно альтернативы /С: «Не все равны» является статистика где v2= < ** ✓‘ч ^-4 » i=i Ci О. (1-0.) (8.3.1) (8.3.2) и n = Cj + ... + сР — полное число испытаний. Если выполняется гипотеза Н и п велико, то %2 имеет приближенно распределение x*-i, критическое значение xp-i (1 — а) обеспечивает возможность достичь уровня а. Алгоритм существует в нескольких вариантах. 1) Можно вывести статистику отношения правдоподобия для про- верки гипотезы Н относительно альтернативы /С, а затем построить ап- проксимацию, как в разд. 8.1 и 8.2. Этот подход намечен в задаче 8.3.5. 2) Можно рассмотреть таблицу сопряженности признаков 2 х р, в которой генеральные совокупности считаются обладающими второй характеристикой: Категория 1 | Категория 2 Если мы сначала объединили р генеральных совокупностей и извлекли выборку объемом п из получившейся сверхсо- вокупности, то можно было интерпретировать как услов- 1 Ci-Wi 2 с2— • • • * • « * 1 • ную вероятность того, что индивидуум принадлежит к р Np Ср— Np категории 1, коль скоро он извлечен из генеральной сово- купности i. Тогда гипотеза О1! = ...= Ор эквивалентна гипотезе о том, что рассматриваемая нами характеристика и номер генеральной совокупности независимы. Сле- довательно, для нашей задачи должна быть пригодна статистика (8.2.19) для таблицы 2Хр, которая совпадает с (8.3.1) (см. задачу 8.3.6). Это не что иное, как обобщение на случай р = 2 эквивалент- ности, задаваемой (8.2.15) и (8.2.16). 3) Нашу биномиальную модель можно аппроксимировать нормаль- ной моделью, аналогичной рассмотренной в гл. 7, и вывести критерий %2 как критерий отношения правдоподобия в аппроксимирующей мо- дели. Для простоты положим все Ct равными с. Пусть с велико по срав- нению с р и
Когда с велико, Xi можно приближенно считать независимыми случай- ными величинами, распределенными по закону NN (цъ Ф| (1 — 0*0), и гипотеза Н переходит в утверждение о равенстве pj — ...= рр. Такая нормальная модель не поддается анализу. Необходима даль- нейшая аппроксимация. Любой разумный критерий с вероятностью, близкой к единице, обнаружит альтернативы, утверждающие, что не- которые из разностей р4 — р. велики. Поэтому нашу биномиальную модель имеет смысл аппроксимировать только для такого вектора для которого разность |р< — р.| остается ограниченной при с —> оо . Но Ip» — р.| = jVc (Фг — Ф.)| М <. оо для всех i только в том случае, если |Фг — Ф,| 0 для всех i при с->- оо. В этом случае Ф< (1 — Ф<) приближенно можно заменить величиной Ф. (1 —Ф.) и в качестве аппроксимации воспользоваться моделью, в которой Хр независимы, Xt ~ NN (р£, о2) и о2 = 0.(1 — О.). (8.3.3) Предположим, что дисперсия о2 известна, и нормальная модель вы- полняется точно. Тогда, как показывают простые вычисления, крите- рий отношения правдоподобия отвергает гипотезу И в том и только в том случае, если Т= — f (X,—Х.)2>С. (8.3.4) °2 /—Il По теореме 1.3.3 статистика Т имеет распределение xj-1, если верна ги- потеза Н. В общем случае Т имеет нецентральное распределение х₽-1 р с параметром нецентральное™ сп22 (щ — Н.)2- Это утверждение еле- /== 1 дует из доказательства теоремы 1.3.3 или теоремы 7.3.1. Разумеется, Т невозможно использовать в качестве статистики кри- терия в первоначальной модели, так как дисперсия о2 неизвестна. Но если величина |р< — р.| остается ограниченной, то существует ес- тественная состоятельная оценка дисперсии, задаваемая выражением Подставляя о2 вместо о2 и NJ~\/c вместо Xt в Т, получаем статисти- ку (8.3.1) для случая = ...= ср = с. Можно показать1, что при боль- ших с справедливы следующие аппроксимации распределений: 1, если верна гипотеза Я и %2 распределена по закону Xp_i с параметром нецентральности р б2 =--------- У (Ф,— Ф)2. О. О -Ф.) J При сравнении двух генеральных совоку и ногтей, т. е. при р = 2, часто возникает необходимость проверить одностороннюю гипотезу Н Ф2 Ф1 относительно альтернативы К : Ф2 > Фх- Повторяя при- 89
веденные выше рассуждения, приходим к статистике критерия Z, который мы обсуждали в разд. 8.2. Пример 8.3.1. Обычно рассмотренный нами критерий %2 применяют в тех случаях, когда требуется установить, однородна ли группа по- допытных животных по отклику на болезнь. Если группа неоднородна, то любые заключения об относительной эффективности лекарств, ос- нованные на изучении случайных.выборок из группы животных, ста- новятся сомнительными. Следующие данные Чизмена и Ирвина (из книги Снедекора и Кок- рена [15, р. 2421) могут служить примером того, как применяется кри- терий %8 и родственные критерии. Десяти выборкам мышей (по пяти мышей в каждой) из одной и той же лаборатории произведена инъек- ция одинаковых доз тифозных бактерий. Число погибших мышей в каждой выборке приведено в следующей таблице: Выборка i 1 2 3 4 5 6 7 8 9 10 Число потибших Ni 3 1 Б Б 3 2 4 2 3 5 Здесь а — 5, i = I. 10. Когда все ct равны с, ей. == Л\, и х* I можно записать в виде f xa=S I"1""/s(8.3.6) i Hl d>. (I —О.) V ‘ c 1 ' В этом примере % N. = 3,3, X2 = 16,1, что приводит к p-значению, равному 0,06. Таким образом, группы не- однородны. 8.3.Б. «Регрессионная» (логит-) модель * Предположим, что нам требуется изучить токсичность какого-ни- будь лекарства Для этого можно воспользоваться следующим грубым подходом А Дозировки ...С хр заданы. Дозировка х{* вводится каждому из ci подопытных животных, после чего экспериментатор ус- танавливает число Afj летальных исходов (t = 1, ..., р). Если положить О (х) — Р [случайное выбранное животное погибает при дозировке $ х], то Ni —независимые случайные величины, распределенные по за- кону ВВ (ct, й (х,)), i =* 1,..., р. Рассмотрим еще один пример. Предположим, что требуется изучить влияние новой системы общественного транспорта на ежедневные миг- рации городского населения. Пусть й (х) — доля лиц, совершающих £ ежедневно дальние поездки, которые после введения новой системы ? * Обычно дозировку х измеряют десятичным логарифмом (1g) концентрации лекарства в растворе. 90 >
стали отдавать предпочтение не личному, а общественному транспорту, если расстояние до ближайшей к дому остановки общественного тран- спорта сократилось на к единиц. Мы выбираем р различных значений х, например xt,..., хр, и, задавшись каждым xt и опросив а лиц, поль- зующихся услугами общественного транспорта, устанавливаем, сколь- ко из них (Nj) после введения новой системы отказались от поездок на собственной автомашине и предпочли общественный транспорт. И в этом примере, как и в предыдущем, — независимые случайные вели- чины, распределенные по закону ВВ (ctt й (xj). Обобщая, можно сказать, что мы рассматриваем такие модели, в ко- торых при каждом значении независимой переменной х можно наблю- дать зависимую переменную /V (х) — биномиальную случайную ве- личину с вероятностью благоприятного исхода О (х). Чтобы получить представление о функции Ф (х), мы производим независимые наблюде- ния в точках хп..., хр. В рассмотренных нами примерах разумно пред- положить, чтой (х) — возрастающая функция, принимающая значения от нуля до единицы и определенная на всей вещественной оси (т. е. О (х) — функция распределения). Введем для (х) параметрическое представление, руководствуясь главным образом соображениями удоб- ства 3. Так как & принимает значения, заключенные между нулем и еди- ницей, невозможно предложить простое линейное представление О, которое было бы пригодно во всей области определения. Вместо него мы рассмотрим так называемое логистическое преобразование функции О по формуле 1л И>/(1 —6)1, отображающее интервал (0,1) симметрично на (— оо, оо), и предположим, что оно представимо в линейном виде |П + (8.3.7) 1—О(х) или, что эквивалентно, Для того чтобы О (х) была возрастающей функцией, должно выполнять- ся неравенство 02 > 0. Функция распределения Лх)-—L—. соответствующая 0j = 0, 02 — U называется логистическим распреде- лением 4. Плотность логистического распределения f(x)--^—----- (1-е-*)2 симметрична относительно х = 0 и монотонно убывает в обе стороны. Введем новую параметризацию 01 I н = ——, о=— * ₽2 91
Нетрудно видеть, что если функция О задана выражением (8.3.7), то fl(x) = Fp^A .t \ сг / Следовательно, р — центр симметрии функции О, а о — масштабный параметр. В такой модели мы хотим оценить и 02 или важные функции, например р. В биологических моделях рассматриваемого типа р ин- терпретируется как медианная летальная доза, при которой животное имеет 50 шансов из 100 выжить. Для оценивания параметров 0Х и 08 составим уравнения правдоподобия. К сожалению, эти уравнения трансцендентны. Однако существует способ, позволяющий найти оцен- ки, которые при больших сх,..., ср не уступают по эффективности оцен- кам максимума правдоподобия и вычисляются просто. Основная идея состоит в том, чтобы применить к наблюдаемым частотам = NJci логистическое преобразование. При больших а, как следует из (П.14.18), ~Vct (In [<h/(l — Of)l — фх + p2*i)) имеет приближенно нор- мальное распределение со средним 0 и дисперсией о®, где (1 1 \2 1 —+—-—I Ml — <М =-----------------. О» (i-*i)/ <h) Положив У.-In l-Of получим Vi = Pi 4- to + (8.3.8) '«У.-!? - где ех — независимы и имеют приближенно распределение NN (0, о?/ /сх). По существу это не что иное, как обычная регрессионная модель, но с неравными дисперсиями и зависимостью от неизвестных пара- метров. Если бы дисперсии о* были известны, то (8.3.8) можно было бы переписать в виде = + ₽,-^-+е/. 1 = 1, (8.3.9) ojj wi где wt = OifVci, a ej — независимые случайные величины, распреде- ленные по закону NN (0,1), и применить метод наименьших квадратов, как в гл. 7. Так как Wi ненаблюдаемы, для оценивания их разумно вос- пользоваться оценками максимума правдоподобия W. = 1 . (8.3.10) V (1 -ад < а затем применить метод наименьших квадратов. * Обычно во избежание трудностей при N = О или jVj = q используют lnl(^+^-)/(q-yt4-2-)l. 92
Оценки Pi, р2 вычисляем по формулам (3.2.14): • Рг — У* (х*—х) 2^-? * Pl — У---p2*> (8.3.11) где у = 2^iS«/2s» x=2xiSi/2sf, Sj 1 i= 1, ..., p, w* Пример 8.3.2. (из книги Ирвина и Чизмена 181). Испытуемая доза культуры пневмококков введена каждой из пяти групп по 40 мышей. Кроме того, каждая мышь в i-й группе получила дозу xt (измеряемую в 1g [см3]) противопневмококковой сыворотки. Экспериментатор на- блюдает число Ni мышей, выживших в Z-й группе (t = 1,..., 5). Мы предполагаем, что О' (%) = Р [выживание при данной дозе х] — это функция распределения. Данные и необходимые значения Yt и при- ведены в таблице. Так как сх = ... = с6 = 40, мы вычисляем = Л^*/40 и wt (по формуле (8.3.10)). Значения находим так, как сказано в предыдущей сноске. Из соотношений (8.3.11) получаем xt Nt Y* иц —3,204 7 0,175 —1,4966 0,4161 —2,903 18 0,450 —0,1957 0,3178 —2,602 32 0,800 1,3412 0,3953 -2,301 35 0,875 1,8648 0,4781 —2,000 38 0,950 2,7344 0,7255 Pi = 10,53; pa = 3,69 и, следовательно, p= — 2,85. Pa Если Wi рассматривать как константы, то теория линейной модели позволяет продвинуться дальше в нескольких направлениях. Пред- положим,. например, что требуется построить доверительный интер- вал для р2. Если бы была верна модель (8.3.9) нормальной теории, то дисперсия т2 оценки наименьших квадратов ра определялась бы вы- ражением 2s* Сч—х)2 (8.3.12) а сама оценка имела бы распределение NN (р8, та). Поэтому естественно оценить wi в т2 по и получить оценку т2 дисперсии та. Можно пока- 93
зать, что (Р2— р2)/т имеет приближенно распределение AW (0,1). Та- ким образом, в нашей биномиальной модели приближенный довери- тельный интервал уровня (1 —а)для р2 есть интервал 0а±гр—gccjт. Такого рода интервалы порождают критерий для проверки гипотезы о том, что изменение дозировки не оказывает никакого влияния (р2 = 0). Критерий принимает гипотезу Н в том и только в том случае, если |02|/т< г (1 — а). При тех данных, которые приведены выше, p-значение для критериев, основанных на |02|/т, равно 0,05, и довери- тельные интервалы уровня 0,95 и 0,99 чрезмерно широки. Другие методы на основе линейной модели рассмотрены в задачах и в книге Кокса [5]. Ясно, что логистическое преобразование находит весьма широкое применение. Например, в задаче, рассмотренной в разд. 8.3.А, мы могли бы ввести Yt = In lA^ / (с/ — Л^)] и рассматривать Y Jwi как независимые случайные величины, распределенные по закону NN (щ/ /wit 1), где р/ = In — #f)]. Гипотеза H = ...= #p перешла бы при этом в гипотезу pj = ...= рр, и критерий отношения правдо- подобия отвергал бы гипотезу при где а), /=1 ^i Этот критерий не совпадает с критерием %2 (8.3.1), но эквивалентен ему при больших с1э..., ср. В ряде случаев оказываются полезными модели, в которых вектор (In [#t/(l — #1)1,--., In [#р /(1 — #р)1) логистических преобразований вероятностей благоприятного исхода #!,..., #р набора биномиальных случайных величин принимает значения из того или иного линейного подпространства в Rp. Подробное обсуждение этого круга вопросов см. в книге Кокса [5, гл.6]. Используются также и другие преобразования, отличные от логи- стического. Например, существует обширная теория экспериментов по изучению откликов на различные дозировки, в которой предполагает- ся, что вероятность летального исхода # (х) представима в виде #(х) == = Ф[ (х — р)/о], что наводит на мысль рассматривать значения функ- ции, обратной как величины со средними, приближенно линей- ными по х. Иногда весь анализ строится на предположении о (приб- лиженной) линейности среднего от arcsin #/. Преимущество такого под- хода заключается в том, что, как показано в разд. 1.5, arcsin #< имеют асимптотически равные дисперсии, а это позволяет применять при 94
оценивании параметров обычный метод наименьших квадратов. К счастью, различные преобразования и анализы приводят к качествен- но близким выводам. Так, в примере 8.3.2 Ирвин и Чизмен предпола- гали, что *0 (х) = Ф [(х— р)/о]. Тем не менее их оценка параметра р (медианного летального значения логарифма дозы) равна — 2,85. Более подробное обсуждение затронутых нами вопросов см. в [5, р. 26—29]. 8.4. ПРИМЕЧАНИЯ Раздел 8.1. 1Этой аппроксимацией заведомо можно пользоваться при гт&ю > 5. Последние сведения в этой связи приведены у Ярнольда 116]. 3 Р, А. Фишер заметил, что согласие приведенных выше и других данных Менделя с его гипотезой слишком хорошее, и предложил во избежание таких си- туаций рассматривать критерий х8 в обе стороны: отвергать гипотезу Н не толь- ко при больших, но и при малых значениях х3. Такое предложение не имеет смыс- ла для модели, рассмотренной нами в разд. 8.1, но вполне разумно, если мы обра- тимся к рассмотрению альтернативных гипотез, которые не мультиномиальны. Например, мы могли бы рассмотреть возможность того, что слишком усердный помощник Менделя «подтасовал» данные. Статистики отношения правдоподобия для расширенных моделей этого типа отвергают гипотезу для данных, соот- ветствующих как малым, так и большим значениямх2 (задача 8.1.14). Мораль на- шей истории проста: работающий статистик должен быть начеку! К этой теме мы еще вернемся в гл. 9, 3 Разумеется, на практике все данные сгруппированы и дискретны. Сроки службы наблюдаются не бесконечно долго и записываются не с любым числом знаков. Однако группировка, обычно используемая для критерия х8» как пра- вило, приводит к существенному «огрублению» данных (например, для 200 на- блюдений выбирается 30 или того менее классов). Раздел 8.2. 1 Оценку максимума правдоподобия t] в статистике х2 Пирсо- на часто заменяют более легко вычисляемыми аппроксимациями.Эти альтернатив- ные оценки можно выбрать так, что возникающая статистика по-прежнему будет иметь приближенно распределение xZ—г—ь если верна гипотеза Я, и обладать мощностью, ведущей себя локально так же, как статистика Xs Пирсона (см., например, [9, р. 425—430]). 3 Проблема выбора aj еще более серьезь^, если Н задает семейство непре- рывных распределений, а не отдельное распределение. Были предложены раз- личные решения, использующие индивидуальные особенности задачи. Например, в ситуациях, аналогичных примеру б), обычно, коль скоро k задано, в качестве оценки величин aj выбирают Л*, вследствие чего среднее число наблюдений, при- ходящихся на каждый интервал, одинаково (т. е. = — (!/!♦) In (1 — 1/Л), «2 = — (1/Х*) In (1 — 2/fe) и т. д.). Если Л определена по формуле (8.2.11) с ука- занными ai, то можно воспользоваться статистикой х8 Пирсона с критическим значением распределения %£—2. Подробности см. в [10]. Раздел 8.3. 1 Обоснованием этих приближений служат предельные теоре- мы, которые выполняются, когда с-*- оо и б3 стремится к конечному пределу. Если б3 оо, то мощность критерия %3, как нетрудно показать, стремится к еди- нице. 3 Можно предложить и были предложены гораздо более тонкие подходы (см., например, книгу Финни [6]). 3 Анализ моделей, в которых О (х) не допускает параметрического представ- ления, также удается довести до конца. Основной работой в этом направлении считается статья Роббинса и Монро [14]. 4 Берксон [2] проанализировал пригодность логистического распределения Для биологических моделей рассматриваемого нами типа. Мак Фаддея [12] об- суждает логистическое распределение во второй ситуации «потребительского вы- бора». 95
8.5. ЗАДАЧИ И ДОПОЛНЕНИЯ Задачи к разд. 8.1 1. При скрещивании двух типов кукурузы Линдштром (данные приведены в книге Снедекора и Кокрена [15]) обнаружил во втором поколении четыре раз- личных типа растений. Простая менделевская модель предсказывает появление четырех типов с вероятностями 9/16, 3/16, 3/16 и 1/16. Линдштром произвел на- блюдения над 1301 растением и получил Nt = 773, N? = 231, N3 = 238, Nt = = 59. Вычислить по этим данным (с точностью, допускаемой табл II) уровень значимости (p-значение) наблюдений, обеспечиваемый критерием %2 Пирсона, 2. Для проверки подлинности рукописи (писем Квинта Куртиуса Снодграс- са), приписываемой Марку Твену, Ч. С. Бринегар [3] произвел подсчет числа слов длиной k = 1, ..., 12 букв в произведениях Твена и в письмах Снодграсса. Выяснилось, что слова из 2, 3 и 4 букв встречаются в произведениях Твена с ча- стотой (вероятностью): k 2 3 4 Остальные 0,177 0,232 0,191 0,400 В 13 175 словах рукописи писем Снодграсса слова той же длины встречаются с частотами, приведенными в следующей таблице. Вычислить х3 для гипотезы, со- гласно которой письма Снодграсса представляют собой случайную выборку из произведений Твена. По каким таблицам вы будете вычислять х2? k 2 3 4 Остальные 2685 2752 2302 5436 3. Результаты подсчета частот появления цифр 0. 1, ..., 9 в 10 002 знаках десятичной записи числа л — 3 приведены в таблице: k 0 1 2 3 4 5 6 7 8 9 968 1 026 1 021 974 1 014 1045 1021 970 948 1014 Проверить адекватность этой записи как генератора случайных чисел для 0, 1, .... 9, применяя для проверки гипотезы Я: Оо—... =6В = 0, 1 критерий х2- Указать границы наблюдаемого уровня значимости для этих данных. (Данные Патриа приведены в книге Ланкастера [10, р. 84].) 4. а) Используя данные о категориях работ, приведенные в разд. 3.1, про- верить гипотезу о том, что Pi = Ръ = 0,05; ра — pt — 0,20; р8 = 0,50 на уровне 0,01. б) Повторить проверку а) с pi, вычисленными по данным о категориях ра- бот, но с п = 100. 5. Владелец предприятия, занимающегося выпуском микрокалькуляторов, рекламирует новинку—модель, способную, по его утверждению, служить гене- ратором случайных чисел от 0 до 99 (т. е. производить число X с вероятностью 96
р (X =s й) = 0,01, где й = 0, ..., 99). При испытании калькулятора частоты по- падания в интервалы [0, 19], 120» 39], [40, 59], [60, 79] и [80, 99] оказались соот- ветственно равными 9, 6, 12, 13 и 6. Считая числа, выданные микрокалькулято- ром независимыми, применить критерий ха для проверки гипотезы о том, что но- вая модель работает как генератор случайных чисел (уровень значимости а — == 0,01). в. Экономист, анализирующий данные о доходе супермаркета («универсама»), предполагает, что они следуют распределению Парето с плотностью ,, ч f 8л:~3, если л>2, /(Х) = Ь, еслИ*С2. Проверьте его гипотезу на уровне а = 0,10 по следующим данным; 5,2 8,8 12,9 5,3 9,5 13,2 3,1 15,3 4,1 2,4 11,0 2,9 7. Предположим, что в мультиномиальной модели ЛГХ =-- пя, .... Nk= пь, где некоторые из л/ равны нулю. Доказать, что оценки максимума правдоподо- бия Of = «j/п, i = I, .... k. Указание: не ограничивая общности, можно предположить, что = ... = = пч = 0, п9+1.....nh > 0. Тогда Р («1,. • -, О) ==----... 0^ ц г 1 • ♦ • я» ’ обращается в нуль, если = 0 при любом i = q + 1, ..., k. 8, Доказать, что k Ы Л? 9. Пусть N = (Nt, ...» Nh) ММ (п, .... Oft). а) Вывести (ПЛЗ. 15). Указание: рассмотрите серию из п мультиномиальных испытаний с исхода-: ми 1, ..., k и соответствующими вероятностями j0“1,..., Пусть 8ц = 1, если ис- ход i-ro испытания равен /, а в остальных случаях ец = 0. Представьте Nj в п виде Nt = ^fiij и воспользуйтесь независимостью 8ц и аддитивностью дисперсий f=i и ковариаций. б) Пусть k ~ 3. Пользуясь теоремой 1.4.3, доказать, что при больших п / Nj — nfrj \ V» Nj—лОа Д/л имеет приближенно распределение NN (0, 0, о}, о|, р), где , = 1.2>₽ = _/ в) Доказать, что если k = 3, то у (Nj-nfrj)* _ 1 HJVj—«Ох? гр^-л^ИЛ^лО,) уД лф, л(1 — р«)[ о| охо, (/У8-лОв)а) и® J г) Из задач в п. 1.4.4 вывести, что если гипотеза Н верна и л велико, то при k = 3 статистика х8 Пирсона имеет приближенно распределение х*- 4 Зак. |3|3 97
10, а) Доказать что если О = (Фъ .... dft), то ь ь я •<• if, *<• б) Доказать, что отношение Е^ (х2) к математическому ожиданию нецент- ральной аппроксимации %® распределения %* стремится к единице при п -+ оо. 11. В следующей таблице приведены точные значения Р [%а х] для di, = = ... = = l/k при различных значениях х, k и п. Рассматривая ее как таблицу точных 0,03-х и 0,04-х квантилей, найти в каждом случае, какие кван- тили распределения х2. задаваемые табл. II, являются нанлучшей верхней и нижней границей для точных квантилей. Л k X Р (Х*>*1 5 Б ! 12 0,03 10 10 18 0,04 10 20 34 0,03 12 5 12 0,03 12. а) Доказать, что при больших п, если гипотеза Н верна, статистика -2 = у (АГ.-ПО,^ * Я "> приближенно эквивалентна %2, т. е. хб) * 8 — X* -» О по вероятности. б) Пусть k = 3. Доказать, что решение задачи а) можно использовать при построении семейства эллипсов {Е (nlt nit ns)), для которого Р [(f>i, dj) £ £ Е (Ух, Na, ЛГ,)] « 1 - а. 13. Сравнение асимптотической мощности для критерия х2. Пусть дю = = ... = dho = 1/А. Рассмотрим альтернативу «запаздывания! Д 1 Д = + Д>0. М/n k т/n di =... =0^—1 — Предположить, что и А, и п стремятся к оо. а) Доказать, что Е^ (х2) — (А — 1) Д2. (Можно доказать также, что если й/А -> оо, то LL / х8-Е<>(ха) \ V§A ->AW(0, 1). б) Вывести из основного и дополнительного утверждений задачи а), что на уровне а критерий х8 имеет асимптотическую мощность а относительно таких альтернатив. в) Рассмотрим критерий, отвергающий гипотезу в том и только в том слу- чае, если 1/(Л7п)‘ (Л^л “ п/А)> г (1 — а). Доказать, что если л/А -* со, то этот критерий имеет асимптотически уровень значимости а и мощность 1 относитель- но таких альтернатив. 14. Пусть .... Хь—независимые величины, ~ NN (dj, и2), где либо о2— oj (известна), a 0lt .... Од изменяются свободно, либо 0<=дю (известны), »= 1, .... А, а дисперсия о* неизвестна. Доказать, что критерий отношения правдоподобия для проверки гипотезы Н: dj = 0М, ..., Од — dhQ, а2= oj имеет вид утверждения, предписывающее? 99
k отвергнуть гипотезу, если (1/oJ) (Xi — дю)4 > k2 или < kt. 9то аппроксима- ция (при больших k и п) и упрощение модели: (JVX, .... 7УЛ) ~ ММ (п, •ди. Oho). если гипотеза Я верна; если же выполняется альтернатива К, то либо (Л\, Nh) имеет мультиномиальное распределение сд=#0о, либо Eb(Ni) — — пди, но Var^ (Я|) < лОю (1 — 0Jo) («подтасованные данные»). Задачи к разд. 8.2 1. По мнению врачей прием некоторого витамина как-то сказывается на профилактике простудных заболеваний. Проведен следующий эксперимент.: 200 человек случайным образом разделены на две равные группы, одной группе дали витамин, другой — «пустышку», но всем 200 подопытным сказано, что им дан витамин. Результаты обследования приведены в таблице: Меньше простудных заболеваний Больше простудных заболеваний Без изменений Контрольная группа 39 21 40 Группа, принимавшая витамин 51 • 20 29 Проверить на 5%-ном уровне значимости гипотезу о независимости простудных заболеваний от приема витамина. 2. Проверить согласие экспоненциального распределения и данных, приве- денных в следующей таблице, при А = 3 и а, = 17, а, = 34. Начните с Л* и используйте одну итерацию. Указать границы приближенного р-значения. Продолжительность работы воздуходувки до первого отказа (в днях): 3 150 40 34 32 37 34 2 31 6 5 14 150 27 4 6 27 10 30 37 3. Пусть л4 > 0 и ла + па ~> 0. а) Доказать, что rj удовлетворяет уравнению (8.2.10) в том и только В том случае, если л П* + (л* + 2 (ла + ла) — «О Я — 2л4 = 0. б) Доказать, что уравнение из задачи а) имеет ровно одно решение в интер- вале (0, 1] и что это решение есть оценка максимума правдоподобия. Указание: б) проверьте знак левой части квадратного уравнения в нуле и единице. 4. а) Доказать, что если из каждого элемента любой таблицы сопряженно- сти признаков 2X2 вычесть математическое ожидание (оценку), то сумма эле- ментов, стоящих в любой строке и любом столбце таблицы, получившейся в ре- зультате вычитания, равна нулю, т. е. эта таблица имеет вид- Д —Д —Л Д б) Доказать, что х4 = 24» где Z определяется выражением (8.2.15). в) Вывести для Z представление (8.2.16). 4* 99
6. Пусть в модели таблицы сопряжённости признаков 2X2 величина^ Х| равна единице или нулю в зависимости от того, каким признаком — Л или Л — наделен i-й индивидуум, включенный в выборку, а величина У< равна единице или’ нулю в зависимости от того, каким признаком — В или В — обладает :-й индивидуум. а) Доказать, что коэффициент корреляции между Хх и Ух равен Р(ЛПВ)~Р(Л)Р(В) Р VP (Л) (1 -Р (Л)) Р (В) (1 - Р (В)) ’ б) Доказать, что выборочный коэффициент корреляции г, приведенный в за- даче 3.1.8 и в разд. 6.5, связан с величиной Z, определяемой выражением (8.2.15), соотношением Z - Ул г. в. а) Доказать, что при л -+• со 1 р п 2 Z~~*p. б) Доказать, что если гипотеза Н верна (т. е. если р- 0), то при л оо Р [Z С х] Ф (х), где х — любое вещественное число. Указания: а) по закону больших чисел -^ -^Р(ЛПВ), — (Л) ит. д.; п п б) по закону больших чисел, теореме Муавра н теореме Слуцкого __L ( л _ 1 л 2 2 КХ/-Х) (Y{-Y)-(Xt-P (Л)) (У{—Р (В))1| = U=1 J = УТ(Х-Р (Л)) (У—Р (В))-%. Если верна гипотеза Я, то Е (Хх—Р (Л)) (Ух — Р (В)) — 0 и по централь- ной предельной теореме LL (—tzz 2 (xi-p И)) (Г«"Р I -* <°‘ °’)’ \ У п /=1 / где оа = Е ((Хх - Р (Л)) (Ух - Р (B)))s - Р (Л) Р (В) (1 - Р (Л)) (1 - — Р (В)). Следовательно, по теореме Слуцкого и закону больших чисел, если вер- на гипотеза Я, то Л- « \ [ "2 2 (Х;-Р(Л))(У4-Р(В)) | ll I —\ - - --------- --------Law (0,1), \ Уху (1—х) (1—г) / откуда и следует утверждение задачи. 7. а) Пусть (Яп, Л'12, Nn, Я„) ~ ММ (л, 0ц. Фц, Oss). как в таблице сопряженности признаков. Доказать, что при /?х = rlf Rt — rt = л — гх вели- чины Яц и Nn независимы и распределены по закону В В (гх, Оп-^п + ^1»)). В В Ч* ^Зз)) б) Доказать, что если Оц/(ОП+ ^и) = т<> выполняется со- отношение (8.2.18). 100
Указание: PIN — п IP -г С -cl________—”п« ^и=г1—rtnl ^i=gil r l/vu — nu | Ki — rj, <-! — Cjj — — -— - И/?1=Г1 Cj = C!j 8. В следующей таблице приведены данные о приеме на один из факультетов Калифорнийского университета. Классификация данных производилась по двум признакам: полу абитуриента и «зачислен — не зачислен». Примете ля вы или отвергнете на уровне 0,05 гипотезу о независимости этих двух признаковj а) на основании критерия уа с надлежащим критическим значением? б) на основании точного критерия Фишера? Мужчин Принято Не принято 19 12 Женщин 5 0 Указание: проще работать с N3S. Докажите, что критерий Фишера экви» валентен отклонению гипотезы, если + л — 0i + Q) или ДГ2Я С -j- + л — + ci)> и что есЛИ гипотеза Н верна, то 7Vaa имеет условное распреде- ление НН (га, п, с2). 9. а) А, В и С — три события. Рассмотрим утверждения: (al) Р (Л П В|С) = Р (Л | С) Р (В|С), (Л и В независимы, если известно, что произошло событие С), (а2) Р (Л П — Р (Л|С) Р (В|С), (Л и В независимы, если известно, что произошло событие С); (аЗ) Р (Л П В) = Р (Л) Р (В), (Л и В независимы). С — дополнение события С. Доказать, что если Л и С или В и С независимы, то (аЗ) следует из (al) и (а2). б) Указать эксперимент и три события, для которых^выполняются утвержде- ния (al) и (а2), но не выполняется утверждение (аЗ). в) В следующих таблицах 2X2 приведены данные о приеме на различные факультеты университета. Классификация данных произведена по двум призна- кам: полу и «зачислен — не зачислен». Проверьте для каждой из таблиц, являют- ся ли независимыми события (быть мужчиной] и [быть принятым]. Затем объеди- ните обе таблицы в одну и произведите аналогичную проверку для сводной таб- лицы. Укажите р-значсния во всех трех случаях. Принято Не приня- то Мужчин 235 35 270 Женщин 38 7 45 273 42 л=315 Мужчин Женщин Принято Неприня- то 122 93 215 103 69 172 225 162 п-387 г) Свяжите полученные результаты с явлением, о котором говорится в а) й б). 10. Пусть Njj — числа, стоящие в клетках таблицы сопряженности призна- ков р X Ь, Оц — вероятность, соответствующая числу Иц, Ь р и nii= 2 гц2= у /=.! /=1, 101
Рассмотрим гипотезу тца при всех /, /. а) Доказать, что оценки максимума правдоподобия параметров т)н, t)ya задаются выражениями л С} где Л/=2л^‘С/=2^- } i б) Вывести, что статистика %® Пирсона определяется выражением (8.2.14) и, если гипотеза 11 верна, имеет приближенно распределение Х*р—1) <£>—1 >- Указание-, а) рассмотрите правдоподобие как функцию только от т]ц, < = ““ 1, «.., р ““ 1, Т]уа, / 1, ", * 1. 11. Предположим, что в задаче 8.2.10 гипотеза Н верна. а) Доказать, что тогда Р l^ij—i —’»•••» Pt 1 ~ ’» • • • ® 1 Pf —Гу, Cj = Cj, i — 1, ... , pt j = 1» • • > 45] — / А \ Л! где \B C D / = "bTci DI--------—мультиномиальные коэффициенты. б) Каким образом можно было бы в принципе воспользоваться этим резуль- татом, чтобы построить критерий для проверки гипотезы Я, аналогичный кри- терию Xя, с вероятностью ошибки типа I, не зависящей от т)уа? 12. Пусть (Л7!, Nt, Ns, Я4) — вектор с распределением ММ (п, О,, .... О4). Доказать, что при т Я» s а, + Л74 — Ь величины Ах и Ns независимы и распределены по закону Л7Х ~ В В (a, 0Х/(ОХ + О2))> Л7а ~ ВВ (&, 0а/(#з+ й*)). Указание: из (П.13.16) следует, что (Ях + Л'а> N* + Л7«) ~ ММ (п, Ох+ Фа, 08 + Од). Задачи к разд. 8.3 1. В приводимой ниже таблице (Армитедж [1]) содержатся данные о смерт- ности среди матерей, родивших первого ребенка в четыре последовательных пе- риода с 1894 по 1948 г. в Новом Южном Уэльсе. а) С помощью методов разд. 8.3. А проверить гипотезу о том, что в уровнях смертности (вероятностях умереть) между четырьмя периодами ие существует различия, относительно альтернативы, согласно которой определенное различие имеется. Указать границы р-значения. б) Указать 95$6-ный доверительный интервал для разности — Фх в уров- нях смертности между первым (до первой мировой войны) и четвертым (захваты- вающим вторую мировую воину) периодами. Период 1894 — 1910 191 1 — 1920 1920—1937 1938 — 1948 С( (число матерей) 1 072 1 133 2 455 1 995 Nt (число смертельных ис- ходов) 22 23 49 33 102 о
2. В основу альтернативного анализа приведенных выше данных можно по дожить допущение о том, что изменяются от периода к периоду по некоторому простому закону, например как In । = Pi + ₽s ХЬ Где xt — (середина i-го периода) — 1900; xt -- 2; х2 — 15,5; х8 - 28,5; х4 = 43. а) Пользуясь методами из разд. 8.3.Б, проверить гипотезу однородности Н: ₽2 = 0 относительно альтернативы К: ₽s э6 0- Указать границы р-значения. б) Используя приведенную выше модель, указать доверительный интервал уровня 0,95 для р2. __ в) Указать оценку разности Ф4 — фх в этой модели? 3. В ситуациях, аналогичных рассмотренной в задаче 8.3.2, где числа Xt были выбраны совершенно произвольно, гипотезу Н: In [Ф|/(1 —Ф|)1 == Pj + P2xj (Pi и Pa — заданные числа) относительно альтернативы К: Ф/ (любые) можно проверить с помощью статистики Т = S Q Ф1(1 l=.l Ci- JVt+4” считая ее распределенной по закону Хр—2. а) Обоснуйте это предложение с помощью соотношения (8.3.9) и теоремы 7.2.3. б) Примените этот критерий к данным, приведенным в задачах 8.3.1 и 8.3.2. Укажите p-значения. Какие выводы можно сделать из исходов проверки и части а) задач 8.3.1 и 8.3.2? 4. Пусть Nt, ..., Np — независимые случайные величины, Nt ~ PP(Xt), 1=1 р, где If неизвестны. Часто представляет интерес гипотеза однород- ности Н: = ... = Хр. Например, Л/j могут обозначать число распадов, наблю- даемых в единицу времени на р различных образцах (одного размера) какого-ни- будь радиоактивного минерала. Воспользуемся критерием однородности для проверки возможных примесей в минерале. а) Доказать, что если Л\+ ••• Ч- Np — з, то I р (Л\, ... , Np) ~ ММ (s, ... , Фр), где Ф{=Х1 I XJt 1-1, ... , р. I /=> б) Рассмотреть задачу о проверке гипотезы Н относительно альтернативы К условно, если известно, что Nt + ... + Np = s. Обосновать в качестве аппрок- симации к критерию отношения правдоподобия уровня а критерий, предписы- вающий отвергнуть гипотезу, если в) Заметим, что %2/р — отношение дисперсии к среднему эмпирического рас- пределения, определенного в задаче 3.1.5. Можете ли вы, исходя из этого, пред- ложить альтернативное обоснование критерия из б)? г) Пусть f (А) — число индексов i, таких, что Nt = k. Доказать, что %8 из в) можно представить в виде (*-«)’--J- S А8?(А)-рш, т . т . где т = (1/р) 2 kf (*)• 193
д) Ниже приводятся значения f (Л) для выборки с р = 2608, Nf — число сс-частиц, испущенных пленкой полония за Z-Й из 2608 интервалов продолжи- тельностью в 1/8 минуты (из [4] по данным Резерфорда, Гейгера и Бейтмена). Указать границы р-апачения для проверки гипотезы о том, что эти N} имеют об- щее распределение Пуассона (воспользуйтесь нормальной аппроксимацией Xs). k 7ю k 7(*) 0 57 8 45 1 203 9 27 2 383 10 10 3 525 11 4 4 532 12 0 5 408 13 1 6 273 14 1 7 139 Более 14 0 Всего 2608 S, Пусть A/j. независимы и Л'/ — В В (qOt), * = 1, р. а) Доказать, что если = ... = др = 0, где величина д неизвестна, то ее несмещенной оценкой с равномерно минимальной дисперсией и оценкой макси- мума правдоподобия является д, задаваемая выражением (8.3.2). б) Доказать, что если .-&р изменяются свободно, то н. о. р. м. д. и о. м. п. для есть д/ — Nilc^ в) Доказать, что статистика отношения правдоподобия для проверки ги- потезы Н: = ... = Ьр относительно альтернативы К: ду при некото- рых I, ], задается выражением р , г 2 1п Л = 22 {.Vj । Ш 0, —In 0. i=l 1 4(Cj-Nf) [in (1-7,) — In (*—Я-)]}- г) Из закона больших чисел и центральной предельной теоремы можно вы- вести, что если гипотеза Н верна и q, ..., Ср -> оо, то И s Vt k-д. -+о. /и 1 р Доказать, что 2 In 1 — х8-> 0, где хй определяется выражением (8.3.1). 6. Рассмотрим таблицу сопряженности признаков 2 х р, введенную в разд. 8.3. В соответствии с обозначениями последнего раздела отождествим Nyj с Л'у, Nti _ ccj — Nij, Ri — c Ni + ... 4- NP и т. д. Доказать, что если х2 определя- ется выражением (8.3.1), то z--ns s 1= 1 /=1 Ri Ci 7. Доверительные интервалы для А — Of — Оу- Пусть А — О/ — Оу и та= = Var (А). 104
а) Доказать, что А — н. о. р. м. д. параметра А. б) Доказать, что О/ (1 —Of) Л (! —Oj) Q с) в) Доказать, что если си ср стремятся к оо и 7„ Si(l-dl) 4- frb-fr) Ci CJ то г) Пусть LL I--------- I -> MV (0,1) при ff, ... • cp -> oo. \ T / Доказать, что «Ч. / 1 A ± zl 1 —— al т \ ** i — приближенный доверительный интервал уровня (I — а) для A. Указание. в) воспользуйтесь законом больших чисел. г) Примените теорему Слуцкого, 8. Рассмотрим логистическую модель. а) Доказать, что совместное распределение величин (ATt,Np) есть двупа< раметрическое экспоненциальное семейство с полной достаточной статистикой т=( 2 Ni> 2 xt AM- \/al /al / б) Доказать, что Е (Pi|T) и Е (₽2|7')» где Т — статистика, приведенная в а), а рх и ра> определенные выражениями (8.3.11), имеют меньшие среднеквадра- тические оценки, чем соответственно и (К сожалению, вычислять эти оцен- ки гораздо труднее!) 9. Пусть нам известно, что в логистической модели р = 0, и мы хотим про- верить гипотезу Н: pj относительно альтернативы К: ₽з > Й- Доказать, что при подходящем значении а существует равномерно наиболее мощный критерий, отклоняющий гипотезу в том и только в том случае, если Xi Ni> k, где Рро xi Nt > k — a. 10. Пусть ci = с при всех i н Xt— Nt/Vc, R=V70f, 1=1.p. Дока зать, что если |р( — |i.| М при всех », с и некотором М < оо, то X / X \ р v=r —О-* )- ус \ ус / Указание: X j-t/— =Х V J_ V 8/==О . '/-1е Р /-1 105
i.6. БИБЛИОГРАФИЯ 1. A r m I t a g e P. (1955). Tests for linear trends in proportions and frequencies. — Biometrics, 11, 375—386. 2. Berkson J. (1951). Why 1 prefer logits to probits.— Biometrics, 7, 327— — 339. 3. В r i n e g a r C. (1963). Mark Twain and the Quintus Curtius Snodgrass Let- ters...— J. Amer. Statist. Assoc., 58, 85—96. 4. В u 1 m er M. 6. (1967). Principles of Statistics. 2nd Edition. M.I.T. Press, Cambridge, MA. 5. Cox D. R. (1970). Analysis of Binary Data, Methuen & Co. London. 6. Finney D. (1964). Statistical Methods in Biological Assay. 2nd Edition. Griffin. London. 7. F i sh e r R. A. (1958). Statistical Methods for Research Workers. 13th Edi- tion. Oliver and Boyd, Edinburgh. Русский перевод: Фишер P. А. Ста- тистические методы для исследователей. М.» Госстатиздат, 1958. 8. Irwin J. О. and Cheeseman Е. (1939). On the maximum likelihood method... — J Roy. Statist. Soc. Suppl., 6, 174—185. 9. Ken d a 1 1 M. and Stuart A. (1961). The Advanced Theory of Statis- tics, vol. II. Hafner Publishing Co. New York. Русский перевод: Кендалл * , M., Стьюарт А. Статистические выводы и связи. М , Наука, 1973, т. 2. • 10. Lancaster Н. О. (1969). The Chi-Squared Distribution. J. Wiley & Sons. New York. 11. L eh m a n n E. L. (1959). Testing Statistical Hypotheses, J. Wiley & Sons. New York. Русский перевод: Леман Э. Проверка статистических гипотез. М. Наука, 1964. 12. McFadden D. (1973). Conditional logit analysis of qualitative choice beha- vior. — Frontiers in Econometrics, P. Zarembka, editor, Academic Press. New York. ; I 13. R a oC. R. (1973). Linear Statistical Inference and Its Applications, 2nd Edi- tion. J. Wiley & Sons. New York. Русский перевод: Рао С. P. Линейные статистические методы и их применения. М., Наука, 1968. i 14. R о b b i n s Н. and MonroS. (1951). A stochastic approximation method. — Ann Math. Statist., 22, 400—407. 15. S n e d e с о г G. and.C о c h r a n W. (1967) Statistical Methods. 6th Edi- tion. Iowa State University Press, Ames, IA 16. Yarnol d J. (1970). The minimum expectation in X*goodness of fit tests...— — J. Amer. Statist. Assoc., 65, 865—886.
Глава 9. НЕПАРАМЕТРИЧЕСКИЕ МОДЕЛИ В гл. 6—8 было показано, как строить оптимальные, в некотором смысле, статистические методы и тем самым наиболее эффективно ис- пользовать данные эксперимента. Однако изложенные в этих главах результаты зависели от принятия специфических параметрических моделей распределения данных. Например, предполагалось, что дис- кретные данные получены как исходы серий биномиальных или мульти- номиальных испытаний. Непрерывные же данные предполагались рас- пределенными нормально или иногда экспоненциально. В целом пред- положения, принятые нами в примерах относительно дискретных данных, казалось, были очевидными. Однако, как было показано в разд. 2.1 и 6.4.Б, строгая нормальность измерений откликов непре- рывного типа мало обоснована, если вообще сколько-нибудь обосно- вана. В этой главе мы рассмотрим задачи с одной и двумя выборками, а также задачи, связанные с линейной моделью, которые в рамках па- раметрического подхода были решены нами в гл. 6 и 7. Но на этот раз наши модели будут непараметрическими: наши предположения о фор- ме семейства распределений, порождающих данные, будут самыми ми- нимальными. В разд. 9.1 — 9,5. мы изложим некоторые новые простые критерии, оценки и доверительные интервалы, построенные с учетом специфичес- ких особенностей рассматриваемых задач, и исследуем их эффектив- ность *. Там, где это уместно, мы рассмотрим также поведение «по мо- дулю» и по сравнению с некоторыми новыми методами в непараметри- ческих моделях таких методов, как построение средних или /-крите- риев и интервалов, хорошо зарекомендовавших себя в нормальных мо- делях. Например, мы спросим себя: останутся ли приближенно верными выражения для вероятностей ошибок типа I и II /-критерия с одной выборкой, когда распределение, из которого производится выборка, . отлично от нормального, и велики ли эти вероятности ошибок по срав- нению с аналогичными вероятностями знакового критерия и критерия Уилкоксона из разд. 9.2? На основе такого сравнения мы решительно отдадим предпочтение новым методам, иногда называемым устойчивы- ми 2, перед классическими в тех случаях, когда наша информация от- носительно распределения весьма неполна. Наконец, в разд. 9.6 мы рассмотрим важную задачу проверки при- годности параметрических моделей. 107
9.1. РАНГОВЫЕ МЕТОДЫ СРАВНЕНИЯ ДВУХ СОВОКУПНОСТЕЙ В разд. 6.4.Б мы рассмотрели задачу сравнения двух генеральных совокупностей с распределениями F и G, которые были нормальными с общей дисперсией, на основе двух независимых выборок Хг,..., ХП1 и У^..., УП2 (по одной выборке из каждой совокупности). Теперь же мы предполагаем относительно F и Столько то, что они непрерывны. 9.1. А. Статистика Уилкоксона Как и в случае нормальных распределений, рассмотрим гипотезу Н : F = G. Например, если X — отклики на «пустышку», а У — отк- лики на лекарство, то Я — гипотеза о том, что лекарство не оказыва- ет никакого действия. Если же X — измерения, произведенные над элементами первой генеральной совокупности, а У — измерения над элементами второй генеральной совокупности, то Н утверждает, что обе совокупности имеют одинаковые распределения. Рассмотрим сначала «односторонние» альтернативы, такие, как те, в которых У «стремятся» быть больше X. Такие альтернативы (F, G) мы будем отличать, налагая требование F =£ G и Р (У > /) Р (X > > /), или, что эквивалентно, G (/) С F (/) при всех /, но G F (9.1.1) Можно показать (задача 2.1.4), что в ситуации с лекарством и «пу- стышкой» эти альтернативы соответствуют случаям, в которых лекар- ство либо оказывает положительное действие, либо не дает никакого эффекта. В нормальной модели им соответствует альтернатива X: Цз> > Если выполняется неравенство (9.1.1), то говорят, что У стохас- тически больше X. Если относительно формы распределений F и G мы не делаем ника- ких предположений, то при проверке гипотезы Н : F — G относи- тельно альтернативы «У стохастически больше X» разумно исполь- зовать только порядки X и У, а не их реальные значения. Такую ин- формацию дают ранги Rlt..., Rn, п = пх 4- п2 величин Xlt .... ХП1 и Ур .... Уп2 в комбинированной выборке из пЛ величин X и п2 величин У. Наименьшему наблюдению в комбинированной выборке приписы- вается ранг 1, следующему по величине наблюдению — ранг 2 и т.д., —ранг наблюдения Х>; Х2—ранг наблюдения Х2,..., Rni— ранг наблюдения Xnl; Rni+T— ранг наблюдения ylf..., и т.д. Так как F и G непрерывны, никаких связей не существует (т.е. все п = пг 4~ла наблюдений различны) и ранги определены однозначно. При построении критериев на основе рангов мы сталкиваемся с обычными проблемами: а) необходимо выбирать статистику критерия; б) необходимо устанавливать критические значения уровня сс. Вряд ли следует удивляться тому, что «оптимального» решения проблемы а) не существует, однако можно предложить и действитель- но предлагались различные разумные методы получения вполне при- 108
емлемого решения. Некоторые из принципов отбора приведены в кни- ге Лемана [22, р. 232—236]. Наиболее известную статистику критерия для этой проблемы можно вывести следующим образом. Ранги Rn можно считать нормированным представлением чисел Хх, ХЯ1, Ylt..., Ynt, сохраняющим все соотношения между порядками величин. Следовательно, подставив Rlt..., Rnt вместо Хг,..., Хп, и #П|+1,..., Rn вместо Уп> в /-статистику (6.4.7) 3 с двумя выборками, мы, по всей видимости, построим статистику критерия. Подставляя, полу- чаем п 1 п «1 \ / Г я , —. „ 1 2 2 /?<-«,-'2 «Л [R,-R]‘ , /=л, 1-1 (-1 // /=1 (9.1.2) где R = (1/п) 2 Ri. i=i Эта статистика в действительности гораздо проще, чем выглядит, так как известно, что Rlt..., Rn — некоторая перестановка целых чи- сел [1,..., «1. Итак,.' Л1 fl Л 2 2 2 R„ Jal /=1 + 1 /а=П1 + 1 П 2 п («»—!) 12 Следовательно, статистика (9.1.2) эквивалентна статистике Уилкок- сона W= 2 *«> f = +1 (9.1.3) т. е. сумме рангов второй выборки. Установление критических значений для статистики Уилкоксонд и других статистик, основанных на (Rlt..,, Rn), требует распределения рангов, если F = G. Оказывается, что это распределение не зависит от того, каким может быть общее распределение F! Оно определяется как я ....Rn = rn\ = -^ (9.1.4) nl для любой перестановки (rlt ..., г„) целых чисел (1,..., я). Чтобы убе- диться в этом, обозначим через Zlt..., Zni наблюдения Хц..’., ХП1 и через Zn,+i, ..., Zn — наблюдения Ух, .... УП1. Если гипотеза Я верна, то Zt независимы и одинаково распределены. Следовательно, если (ц,..., in) — любая перестановка целых чисел (1, 2,*..., я), то (Zit Ztn) имеет такое же распределение, как (Zlf..., Zn). . , 108
Но IPj = Рп = Гп] — lZft • •• "^Z Zinlt где if определяются из соотношения г и = f при / = 1,..., п. Следовательно, если F — G, то все п! событий 17?! = = rlt Rn — гп) равновероятны, и мы приходим к (9.1,4). Заметим, что, так как W — функция рангов, ее распределение, если верна ги- потеза Н, не зависит от F. С другой стороны, если верна гипотеза Н, то распределение /-статистики с двумя выборками легко вычислить только в том случае, когда F — нормальное распределение. Ранговые статистики первоначально и были введены потому, что они свободны (не зависят) от распределения в указанном смысле. Вычисление распределения статистики W упрощается, если заме- тить, что (9.1.5) /ж» 1 где Si<Z ...-< Snt упорядочены в последовательности P„1+l, ..., Rn. Если S = (SltSni) и s — (si,..., sn.) — упорядоченное подмножест- во л8 чисел из 1, л, то при выполнении гипотезы Н Р [S - s] = ZLL2®! ~ . (9.1.6) л1 /л \ V»J Это соотношение следует из (9.1.4), так как число векторов (г1э..., гп), лв последних компонент которых образуют некоторую перестановку из (Si,..., Зл,), равно . Проиллюстрируем использование статисти- ки W на примере. Пример 9.1.1. Воздушные компрессоры на атомной станции рабо- тают в двух режимах обслуживания PI и РП. В таблице приведены сроки службы Х6, А» Уь в режимах PI и РП*. Мы хотим установить, обеспечивает ли режим РП существенные преимущества в эксплуатации компрессоров по сравнению с режимом PI. Обозна- чив через F распределение сроков службы в режиме PI и через G — в режиме РП, мы придем к основной задаче этого раздела. X, PI 7 26 10 8 29 У, РП г - 3 150 40 34 32 Ранги Y равны (1, 7, 8, 9, 10) и W - 1 + 7 + 8 + 9 + 10 = 35. Чтобы найти p-значение, необходимо вычислить вероятность * По данным Национальной испытательной станции атомных реакторов. ПО.
раёнунЗ сумйё вероятностей Возможных перестановок рангов $6) с 5* 35. Нетрудно подсчитать, что /«== 1 P[S^s]- 5151 1 . 10! 252 * распределение статистики W может быть получено следующим обра- зом: Р (U7 = 401 = Р [S - (6, 7, 8, 9, 10)] = -Э-, PlW = 39] = PIS - (5,7, 8, 9, 10)1 = i, Р НТ = 38] = Р IS = (4, 7, 8, 9, 10)] + Р [S = (5, 6, 8, 9, 10)1 и т. д. Продолжая, находим p-значение эксперимента как Р IW35]=» -й- - °’0754- «Любопытства ради» можно вычислить для этих данных /-статис- тику с двумя выборками и получить р-значение 0,43, что ниже уровня значимости. Критерий t может оказаться и неподходящим. Метод зада- чи 6.4.15 позволяет показать, что, даже если бы две генеральные сово- купности были нормальными, их дисперсии могут весьма отличаться (задача 9.1.10). Более тщательный анализ данных заставляет усом- ниться в адекватности гипотезы о нормальности распределения. Односторонний /-критерий с двумя выборками имеет уровень а для проверки гипотезы Н : ра в нормальной модели с равными дисперсиями. Аналогично односторонний критерий Уилкоксона обла- дает таким свойством: если Р [VF^cl — а при F = G, то Р IVF с]^ а, когда X стохастически больше Y. Таким образом, p-значение, по- лученное в примере 9.1.1, остается в силе и при рассмотрении более приемлемой гипотезы о том, что режим PI профилактического обслу- живания компрессоров не уступает или даже превосходит по качеству режим РП. Для удобства использования критерия Уилкоксона в конце книги приведена таблица V распределения статистики W — па (ла -J- 1) при выполнении гипотезы Н для nlt пг 8 и > nt. Для nit п2 > 8 можно воспользоваться нормальной аппроксимацией. Для этого нам понадобятся среднее и дисперсия статистики U7, которые мы найдем из представления Г-|п,(л,+1) = У, (9.1.7) где • U ~ U (X, Y) = число пар (Xb Y,) с X, <: Yj. (9.1.8) Выведем представление (9.1.7). Пусть У^) <...«< ул,) — упоря- доченные величины У. Тогда U — число пар (Х|»’У<л)> удовлетворяю- щих неравенству X/ < Уи>. При фиксированном / число величин X*, удовлетворяющих неравенству X/ < равно рангу Уц> минус 111
число величин Yh, удовлетворяющих неравенству Yk Уцу, т. ё. равно sj — j. Суммируя по всем /, получаем tf=ss>-s /=^-4-n>(”2+i). /-а. /-V z Пусть ' h- =! 1 прИ Х< <Yj' ‘3 0 при Xt^ Yj. n. nt Тогда U= у = V hu. Если 0 = (F, G), то Е^(ЛМ) = /^if=j J= Pq [X < У], и мы. получаем [С/] = nLn2p, (9Л.9) где р = Ре IX < У]. Аналогично из (ПЛ 1.20) после-несложных пре- образований находим Var* (47) W (1 - р) + (9ЛЛ0) +’ rtjn2 (п2 — 1) (<?!—ра) + «1«а («1 — О (<7а — Р1), где Qi — Ро IXi < min (Уя, У2)], <?2 — Ре 1У1 > max (Xls X2)L Заметим, что если верна гипотеза Н и распределение F непрерывно, то р = 1/2, a qt — q2 — 1/3, так как каждая из трех независимых оди- наково распределенных величин с равной вероятностью может быть ^минимальной или максимальной. Подставляя эти значения в (9Л.9) и (9Л Л0), получаем математическое ожидание и дисперсию при выпол- нении гипотезы Н: £ (t/)=4*«! «2, Var (U) = -L (ft +1). (9Л Л1) x I £ Асимптотическое распределение статистики U, если его нормиро- вать,. нормально’. Этот эффект полезен не только для получения приб- лиженных критических значений для статистики U, но и для изучения ,ёе мощностных свойств, так как, за исключением частных случаев .(см. задачи), распределение рангов не удается вычислить при выполне- нии альтернативы X. Так как статистика Уилкоксона не является сум- мой независимых случайных величин, центральная предельная теоре- ма не приводит к нормальной аппроксимации. Тем не менее Хеффдинг доказал следующую теорему (см. [24, р. 3641). Теорема 9.1.1. Пусть.F и G непрерывны и 0< Р$ IX< У] < 1. Тогда Г (С/) [War* (€/) -> Ф (/) при (9.1.12) min (rzlt nj) -> оо. 112
Следовательйо, критерий, отвергающий гипотезу //, есЛй — Я1 па (п + 1) 2 Л2 (Л н-1) , (9.1.13) имеет приближенно уровень а. Эта аппроксимация достаточно точна для л2 > 8 (см. задачу 9.1.1). Распределение статистики U при выполнении гипотезы Н сим- метрично относительно (1/2) п±п2 : Р [U = А п^ + Л] = Р [U = y nin2 — А] (см. задачу 9.1.7). Следовательно, \U — —ра- зумная статистика критерия для проверки гипотезы И относительно двусторонней альтернативы X' : «У стохастически больше X или X . стохастически больше У». Обратимся теперь к сравнению эффективности критерия Уилкок- сона и /-критерия с двумя выборками. На первый взгляд то, что кри- терий Уилкоксона имеет гарантированную вероятность ошибки типа I, — серьезный аргумент в пользу его применения, а недостаточное ис- пользование данных — аргумент против применения критерия Уйл- коксона. Однако благодаря работам Питмена [26], Ходжеса и Лемана [14] и других авторов мы сейчас придерживаемся почти противополож- ного мнения.Хотя /-критерий не имеет гарантированной вероятности ошибки типа I, тем не менее вероятность ошибки типа I для /-крите- рия весьма близка к той, которую дает нормальная модель, если пх и л2 не слишком велики, выполняется гипотеза Н и распределение F обла- дает конечным вторым моментом. С другой стороны, несмотря на заме- ну данных их рангами, критерий Уилкоксона лишь незначительно уступает по мощности /-критерию в нормальной модели и часто пре- восходит по мощности /-критерии, если нормальная модель не выпол- няется. Точное вычисление функции мощности удобно для /-критерия с дву- мя выборками, если F и G — нормальные распределения с одной и той же дисперсией. Для критерия Уилкоксона или даже для /-критерия, если F и G — распределения, отличные от нормальных, точное вычис- ление функции мощности непрактично (за исключением малых и ла). Как и в разд. 6.6, мы переходим к аппроксимациям больших вы- боре к. Для получения аппроксимации критического значения и мощности /-критерия мы предполагаем, что X и У имеют одинаковую дисперсию о2 и средние щ и р2. Напомним, что двухвыборочная /-статистика оп- ределяется выражением
Гдё52 — вёЛйчйна, гфивёДенНай в рйзд. 6.4.В. Йз задачи 1.5.6 и тёб- ремы Слуцкого следует, что s? Д, ой, когда min (nx, n3) -> оо. Из тео- I ремы Слуцкого и варианта центральной предельной теоремы мы за- ключаем^ что, когда min (п1г ns) -> оо, статистика Т при цх = р3 схо- дится по распределению к случайной величине, распределенной по закону NN (0,1). Таким образом, /-критерий отвергает гипотезу Я, когда Т tn-2 (1 — а) имеет приближенно уровень а, независимо от вида распределений F и G, и г (1 — а) — приближенное критическое значение, как мы и утверждали. Пусть Д = (ра — pj/o, если щ Ф |i3. Тогда, как показывают рас- суждения, аналогичные приведенным выше, Т — V(ninjn) Д имеет приближенно распределение NN (0,1) при всех У7 и G с о2 < оо. Отсюда после несложных вычислений получаем в качестве аппроксимации мощности /-критерия величину ₽, = Pe (Т > г (! — «)] = 1 -Ф (г(1 -а)- 1/^-л) = Ф (г(а) + + |/-:5Г‘д1- (9.1.14) Из (9.1.12) следует, что р<> № > , ”зР V Vvar (U) е—«1 п, р VvarTUT с—Яд р У¥аг((У) nt Пд р—с V Var (I/) Подставляя с=^‘п1л3 + г (1 — а) у nini (п + 1) из (9.1.13) и ис- пользуя соотношение z (1 — а) — — г (а), мы получаем аппроксима- цию мощности критерия Уилкоксона уровня а (9.1.15) При сравнении самих критериев, а не их функций мощности, ес- тественно учитывать объемы выборок, необходимые для достижения критериями определенной мощности 0 относительно одной и той же альтернативы. В качестве примера наших аппроксимаций и такого ро- да сравнения рассмотрим критерий Уилкоксона и /-критерий для моде- ли, в которой = n2, X ~ ЯЯ(|1Х, о2) и У ~ NN (р,3, а2). Так как /-кри- терий предназначен именно для этой модели, естественно ожидать, что он окажется лучше критерия Уилкоксона. Требуется установить, насколько один критерий лучше другого. Из аппроксимации (9.1.14) при гц = п2 следует, что если положить’» =* 0,05, Д — (р3 — рх)/а = = 0,5 и потребовать мощность 0 =« 0,9, то /-критерию понадобятся 114
2n2=140 наблюдений*. Чтобы найти число Nw, необходимое для достижения той же мощности критерием Уилкоксона уровня а — = 0,05, можно заведомо воспользоваться нормальной аппроксимаци- ей (9.1.15). Чтобы завершить построение аппроксимации, нам понадобится ве- личина Р = Л> [X < Y]=P [X-—Y < 0] = = Л> Х-У-(И1-Иа) У» Hi _ф / Ра Hi У*2"а . \ У 2 ст У 2 а а также 91 = Р (Z, < Д/У 2, Z2 < Д/ У2], = РIZX < Д/ V5, Zs < Д/V5], где_г, = IX, — У, — <ц, — ц2)]/1/2 a, Z,= IX, — Уг - (ц, — ц2)|/ /У2а и Za = |Х2—У,— (щ — fi2)]/V2 о. Из результатов, по- лученных в разд. 1.4, мы заключаем, что (Z,,Z2) ~ NN (o.O.l.l, -j) и (Z1,ZS) ~NN (о,0,1,1,т). По таблицам распределения NN (0, 1) мы находим, что при А = 0,5 вероятность р = Ф (0,5/у2) = 0,638, а по таблице 8.10 из 125] находим, что qx = q2 = 0>483. Следователь- но, если пг = п2, то пхп2р = 0,638 n®, Var (U) = 0,231 nl 4- + 0,151 п* (п2 — 1) и « ф ( ~1>645д« У(2д,+ 1)/12 +0.138П* \ _ \ «а У 0,151 л*4-0,080 ) « Ф( —1,7294- 0,355УК)- Мощность ptr равна 0,9, если 0,355 УК— 1,729 — 1,282, или п2 = = 71,93. Таким образом, критерий Уилкоксона уровня 0,05 для до- стижения мощности 0,9 при А = 0,5 требует Nw — 2п2 = 144 наблю- дения, т. е. всего лишь на наблюдение больше, чем /-критерий. Отношение NJNw служит мерой относительной эффективности критерия Уилкоксона по сравнению с /-критерием, когда F и G нор- мальны. Оно зависит от а, А и р. Выше мы нашли приближенно, что ИО=0,97. 144 Как функция от А и Ntt отношение Nt/Nw более устойчиво при та- ких значениях А и Nt, при которых мощность не слишком близка к 1. Так же, как в разд. 6.6, мы видим из (9.1.14), что при этих значе- ниях А и Nt величина VKA/2 не слишком велика. Например, Ходжес и Леман [141 вычислили, что если — п2 = 5, а = 0,0317, 0,79 Ум, А/2 5,53 и 0,072 р 0,988, то отношение Nt/Nw заклю- чено между 0,956 и 0,964. * Такое число наблюдений согласуется с точным результатом, полученным из таблиц [J5] нецентрального /-распределения. 115
Если объем выборки Nt устремить к бесконечности, а Д -► О так, что УЛ\ Д с< оо, то Nf/Nw стремится к пределу е (IT, /), который служит аппроксимацией отношения Nt/Nw. Величина предела была вычислена Питменом (1948 г.), который получил_е (IF, /) = 3/л = = 0,955 независимо от а, 0 и предела величины Ул\ Д4. Итак, мы убедились, что применение критерия Уилкоксона в слу- чае нормальных наблюдений приводит к очень небольшой потере эф- фективности. Обратимся теперь к сравнению критерия Уилкоксона и Z-критерия, когда распределения F и G отличны от нормальных. Если 0, А и бзаданы, мы всегда можем определить NtnN w как минимальные объемы выборок, необходимые для достижения /-критерием и крите- рием Уилкоксона (приближенно) одной и той же мощности 0 относи- тельно альтернативы F, G на (приближенно) уровне а. Как видно из примера с нормальными распределениями, соотношения (9.1.14) и (9.1.15) позволяют вычислять аппроксимации относительной эффектив- ности Nt/Nxp- Наиболее важный частный случай — сдвиговая, или трансляционная, модель G (/) = F (t — Д), (9.1.16) где t — любое вещественное число, Д > 0. В этой модели сохраняется предположение о постоянном эффекте лечения (обработки и т. п.), принятое в разд. 6.4.Б, и постулируется произвольное распределение F для контрольных откликов. Если -► -►оо, Д->0 так, что Уд^Д -►<?<: оо*, то Nt/Nw стремится к некото- рому пределу. Этот предел называется эффективностью Питмена W относительно t и определяется выражением +00 М^>О=12<7а($ /’(х)^)3, - QO (9.1.17) где F имеет плотность f и конечную дисперсию о3. В качестве типичного симметричного распределения F с более тя- желыми, чем у нормального распределения, «хвостами» (например, с большим эксцессом) рассмотрим логистическое распределение с плот- ностью /(*) = (1+е-<*-’»)3 (9.1.18) Его эффективность равна л3/9 = 1,10. Следовательно, в логистической модели критерий Уилкоксона лучше /-критерия. Поскольку распределение большинства данных слегка асимметрич- но вправо и хорошо аппроксимируется гамма-распределением, интерес- но оценить ер (W, f) для случая, когда F — Г (р, X). Результат оказы- вается следующим: ер (№,/) =--------ЗрР]2р)--------, (9.1.19) (2р— 1)а Г* (р) * Если о’ < со, то из Ул^А -> с < со следует, что 0< -* 0 < 1. 116
где Г (р) — гамма-функция. Предел ер (ТГ, /) для нескольких избран- ных значений р приведен в табл. 9.1.1. Таблица 9.1,1 Относительная эффективность критерия Уилкоксона и /-критерия для гамма-альтернатив р 1 2 1 2 3 4 5 10 оо eP(Wt /) ОО 3,0 1,50 1,27 1,17 1.12 1,03 0,955 Семейство гамма-распределений весьма гибко, так как содержит нормальное (р = оо) и экспоненциальное (р = 1) распределения, а так- же распределение Из табл. 9.1.1 видно, что, оставаясь в рамках се- мейства гамма-распределений, можно неограниченно увеличивать эф- фективность, если критерию Уилкоксона отдавать предпочтение перед /-критерием, причем при приближении к нормальному распределению мы потеряем не более 5%. Можно показать (см. 1141), что eF (№,/)> 0,864 для всех F с конечной дисперсией. С другой стороны, как видно из табл. 9.1.1, конечной верхней границы для eF (W, /) не существует. 9.1. Б. Доверительные интервалы и оценки для сравнения двух генеральных совокупностей Когда нам приходится, как в предыдущем разделе, сравнивать две генеральные совокупности с непрерывными функциями распределе- ния F и G, прежде всего мы обычно рассматриваем модель, в которой две совокупности отличаются только сдвигом (т. е. G (/) = F (t — А)). Если F — нормальное распределение, то мы получаем модель, изучен- ную нами в разд.-6.4. Б. Как было отмечено там, если F рассматривать как распределение откликов контрольной генеральной совокупности, a G—как распределение откликов генеральной совокупности, про- шедшей обработку, то F и G отличаются на сдвиг, по существу, тогда и только тогда, когда эффект обработки (например, приема лекарства) сводится к добавлению величины Д к возможному отклику в отсутст- вие обработки. Требуется найти оценки и доверительные интервалы для Д, если мы наблюдаем выборку Хх,..., Xni из распределения F и выборку Ух,..., Уп, из распределения G, связанных соотношением G (/) = F (/— - Д). Если Хх, ..., ХП1 — выборка с распределением NN (р, о2), то Ух, ..., Ynt — выборка с распределением AW (р + Д, о2), и лучше всего воспользоваться доверительным интервалом (6.4.12) У ~Х ± ^л-2 (1-----Уп/Лх лг. 117
Если распределение F отлично от нормального, но имеет конечную дисперсию, a п} и пг велики, то, как показывают рассуждения, ана- логичные приведенным в предыдущем разделе, \пхп2!п\ ^(У—X — А)/ /$2 имеет приближенно распределение NN (0,1). Вероятность накрытия для интервала Y — X ± tn-2 (1—g a)s2 Vn/n^j по-прежнему близка к 1 — а, что соответствует «устойчивости» уровня значимости /-кри- терия, рассмотренного в 9.1.А. В разд. 6.3 было отмечено, что мощностным свойствам семейства критериев соответствуют свойства «ширины» доверительных интерва- ле®. Поскольку критерий Уилкоксона проявил себя как сильный кон- курент /-критерия в отношении мощности, естественно попытаться улучшить /-интервалы и построить доверительные множества на основе критерия Уилкоксона При этом нам необходим двусторонний «критерий Уилкоксона» уровня а не только для гипотезы Н : А = 0, но и для всех гипотез Н : А = До с переменным До. Пусть X == (Хп .... ХП1), Y — А = = (Vj — А, .... Уп, — А). Зафиксируем Ао. Если G* — общая функ- ция распределения случайных величин У,— До и Л* = А—До, то G* («/) ~ F (у — А*) при всех у и гипотеза Н : А — Ао эквивалент- на гипотезе Н : А* = 0. Следовательно, естественный двусторонний критерий Уилкоксона для проверки гипотезы Н : А = Ло состоит в принятии гипотезы в том и только в том случае, если 17(X,Y-AO)—(9.1.20) & где с — известная постоянная; поэтому при А = До вероятность ошиб- ки типа I равна а. Но если А = До, то G* = Г и вероятность указан- ного выше события не зависит от Ао и от F. Следовательно, чтобы най- ти с при заданной величине а*, мы обращаемся к табл. V (или исполь- зуем нормальную аппроксимацию), находим целое число ka, такое, что при Н : А = 0 Р tea < и (X, Y) С П1ПЪ - Лв1 = 1 - а, и полагаем с = (zr1rz2/2) — ka. Применяя к этим критериям формулу (5.3.4), получаем доверительное множество уровня (1 — а): С = {А : ka < V (X, Y - А) - ka}. (9.1.21) Теорема 9.1.2, Пусть < Г(2) < ... < £><П1П1) — пгп2 раз- ностей Yj — Хь расположенных в порядке возрастания. Тогда С — »^(«i nt—ka+ ip. (9.1.22) * В рассматриваемом случае а должна быть одним из возможных размеров двустороннего критерия Уилкоксона, образующих подмножества чисел 1 / Г )• 2(п)......* l / \«1/ \я>/ 118
Доказательство. Так как С = {Д : U (X, Y — Д) С П f| {Д : U (X, Y — Д) ka — 1}с, достаточно доказать, что при лю- бом целом k {Д : U (X, Y—Д) < k} = [D(n, П.-А), оо). Заметим, что U (X, Y — Д) — число таких пар (i, /), для которых (Yj—Д) — или Д<У} — Х(. Но Д больше по крайней мере k разностей Y} — Xi в том и только в том случае, если Д > Dln^-ky— № + 1)-й разности Yj — Xit считая «сверху», от- куда и следует утверждение теоремы. Так как распределение F непрерывно, мы можем присоединить D(«in,-fca4-1)> не изменив вероятность накрытия, и получить P[D(M < А < %«.-**+!)] = 1-а. (9.1.23) Из доказательства теоремы также следует, что и £>(П1П,—ла4-о^* нижняя и верхняя доверительные границы уровня (1-----1 а) для Д. В качестве примера рассмотрим следующие данные (у — экзаме- национные оценки студентов, заранее записавшихся на курс, х — оценки студентов, не записывавшихся заранее на курс): Таблица 9.1.2 X 80 85 60 75 58 73 У 84 100 81 90 76 91 Здесь = пг = 6, — 36 и из табл. V мы находим, что Р [U 51=® = 0,987. Таким образом Р 15 < U < 311 = 1 — 2 - (0,013)- 0,974 и [D(b), D(32)l — 97,4%-ный доверительный интервал для Д. Чтобы найти £>(6) и £>(82). мы упорядочиваем отдельно х и yt получаем две по- следовательности ........х(в), ya),...» У(в> и заполняем табли- цу разностейу(п — хи)....a i q Из табл. 9.1.3 видно, что 97,4 %-ный доверительный ин- тервал для Д есть [1,311. По- скольку нижняя граница, равная единице, выше нуля, мы впра- ве заключить, что успеваемость студентов, заранее записавших- ся на курс, значительно (на уровне 0,013 для односторонне- го критерия) лучше успевае- мости тех, кто не записался за- ранее. Сделать какие-нибудь другие выводы мы не можем, так как интервал слишком широк. yj 76 81 84 90 91 100 *(*) 58 18 23 26 32 33 42 60 16 21 24 30 31 40 73 3 8 11 17 18 75 1 6 9 15 16 25 80 I 1—4 1 4 10 11 20 85 -9 4 —1 5 6 15 119
Ёсли мы хотим оценить Д, то естественно воспользоваться середи- ной доверительного интервала Уилкоксона уровня (1—а) = V lD(M + Ая'л«“*а+1)]’ (9.1.24) Так, в приведенном выше примере мы получили бы в качестве оценки влияния предварительной записи на экзаменационные оценки величи- ну До О26 = тг 131 + 1] == 16. К сожалению, Да зависит от а. Однако можно показать, что все Да одинаково ведут себя при больших nv nt. Действительно, если 0 < т < оо, то min (» пг ~ п т где а _ (9.1.26) Это утверждение следует из результатов, приведенных в [131 и [231. Если а стремится к единице, то оценки Да сходятся к оценке, пред- ложенной Ходжесом и Леманом [131, — медиане разностей X;— Xi если Пу п2 нечетно, Д1 — -(«.«1-1 1)1* 2 / , если п1 п2 четно. Величина т2 есть асимптотическая дисперсия этой оценки. Используя табл. 9.1.3, мы находим, что для результатов экзамена ' = “Т" (А 18) + А19)1 =16. А Что можно сказать об этих оценках по сравнению с У — X? Теоре- ма Гаусса — Маркова позволяет утверждать, что У — X лучше лю- бой другой линейной несмещенной комбинации Y} и Х{. Оценки Да при симметричных F и G несмещенные (задача 9.1.18), но не линейные. Эффективность (в том смысле, как она определена в разд. 4.4.В) Да (0 < а С 1) относительно Y — X совпадает с эффективностью Пит- мена (9.1.17) критерия Уилкоксона относительно/-критерия. Таким образом, построенные нами интервалы и оценки являются альтернативами нормальных методов, которыми удобно пользоваться в тех случаях, когда разумна модель сдвига, но предположение о нор- мальности вызывает сомнения. 9.1.В. Ранговые методы для связанных наблюдений При выводе оценок и интервалов в разд. 9.1.А и 9.1.Б мы исходили из предположения о том, что распределения F и G непрерывны. Из него следует, что среди наблюдений нет равных или связанных, т. е. 120
ранги однозначно определены. К сожалению, на практике даже в из- мерениях существенно непрерывного типа часто встречаются связи, возникающие вследствие того, что наблюдения записываются прибли- женно, с конечным числом десятичных знаков. Для таких случаев имеются ранговые методы, по существу, не отличающиеся от методов, изложенных в предыдущих разделах. Следующие замечания основаны на работе Лемана [24, р. 18, 23, 85, 113]. Доверительные интервалы (9.1.23) и в случае связанных наблюде- ний имеют уровень (1—а). Однако, как правило, они шире, чем требу- ется, хотя эффект расширения ограничен величиной ошибки округле- ния. Аналогичным образом оценки обладают приближенно теми же свойствами дисперсии, как и в случае идеальной модели, в которой на- ши наблюдения не округлялись, если округление достаточно мало (см. задачу 9.1.22). Для построения критерия Уилкоксона мы заменяем ранги, фигури- рующие в статистике Уилкоксона, средними рангами, получаемыми при усреднении связанных рангов по множеству равных наблюдений. Например, в нашем примере из наблюдений 75, 76, 78, 65, 76 числа 65, 75 и 78 имеют ранги или средние ранги 1,2 и 5, в то время как для ран- гов 3 и 4 числа 76 связаны. Каждому из них мы приписываем средний ранг 3,5. В общем случае, если S*. ..., — упорядоченные средние ранги наблюдений У, то средний ранг статистики Уилкоксона равен л» W* — ^Si. За исключением эпизода, когда доля связи необычно вели- 1=1 ка, U7* имеет приближенно нормальное распределение. Если восполь- зоваться средним и дисперсией статистики W из разд. 9.1.А, то нор- мальная аппроксимация даст несколько более «осторожный» прибли- женный критерий. 9.2. ЗНАКОВЫЙ КРИТЕРИЙ И ЗНАКОВЫЙ РАНГОВЫЙ КРИТЕРИЙ УИЛКОКСОНА В разд. 6.4.А было показано, каким образом следует использовать /-критерий с одной выборкой для проверки гипотезы об отсутствии эффекта воздействия в экспериментах с подобранными парами, если наши измерения по предположению нормально распределены. В этом разделе мы введем два критерия, которыми удобно пользоваться, ког- да мы не предполагаем нормальность измерений, и сравним их с /- критерием. Пусть мы наблюдаем выборку из п независимых пар (X,-, Y<), i — 1,.... п. В модели подобранных пар X,- соответствует отклику кон- трольного члена t й пары, a Yt — отклику члена той же пары, прошед- шего обработку. Обозначим через Zi = Yt — Xt эффект обработки для i-й пары, i = 1,.... л. Тогда Zn ...,Zn — выборка из генеральной сово- купности, функцию распределения которой мы обозначим через F. Будем считать, что F непрерывна, а в остальном наши требования к F сведены до минимума. Гипотеза о том, что обработка не дает никакого эффекта, соответствует утверждению об одинаковом распределении 121
-К! Yi — Xt и Xi — Yt, или о симметричном распределении Zt относи- тельно 0. Так как Р (—Zt < t) = Р (Zf > — /) = 1 — Р (Zt < — t), то нашу гипотезу можно выразить в терминах распределения F сле- дующим образом: Н : F (t) *= F (/) для всех /, (9 2.1) где F(/)= 1 — F (-—/) (9.2.2.) — функция распределения статистики — Zf. Альтернативную гипоте- зу, согласно которой обработка дает положительный эффект для каж- дой пары, можно записать в виде утверждения /С : «Zz стохастически больше, чем — Z,» или в виде эквивалентного неравенства Р [У, - Xt > /I > Р iXi -Yt> Л, [(9.2.3) переходящего при некоторых t в строгое неравенство. Требуется проверить гипотезу Н относительно альтернативы К. 9.2. А. Знаковый критерий Знаковая статистика S — это число разностей Zf = Yt — Xi, i =1, .... n, которые положительны. Мы отклоняем гипотезу И в пользу аль- тернативы К, если S превосходит некоторое критическое число. Из определения ясно, что S — число благоприятных исходов в серии из п независимых испытаний с вероятностью благоприятного исхода Р IZj >• 0]= 1 — F (0). Следовательно, S имеет биномиальное распре- деление ВВ (n, 1 — F (0)). Если гипотеза Н верна, то F (0) — 1/2, и критические значения можно найти по таблицам распределения ВВ (n, 1/2)1. Некоторые значения при малых п приведены в табл. VI. Как отмечено в П.15, нормальная аппроксимация с поправкой на не- прерывность к распределению статистики S обеспечивает достаточную точность при п> 10 (см. задачу 9.2.1). Следовательно, при больших значениях п мы можем использовать знаковый критерий, выбирая приближенное критическое значение v + v " + 4" г £ £ £ Так как S всегда имеет биномиальное распределение, мощность зна- кового критерия нетрудно оценить при малых п и приближенно оце- нить при больших п. Знаковый критерий можно также применять в качестве двусторон- него критерия при проверке гипотезы Н : F (0) = 1/2 относительно альтернативы К : F (0) 1/2 (обработка дает какой-то эффект!). Мы используем критические значения, симметричные относительно п/2, или, что эквивалентно, отклоняем большие значения |S — л/2|. Обратимся теперь к сравнению знакового критерия и /-критерия. Уровень /-критерия с одной выборкой в отличие от знакового крите- рия невозможно определить, не зная форму распределения F. Однако^
как и в двухвыборочной задаче, уровень /-критерия, задаваемый (6.4.6), приближенно равен а, если п велико и F имеет конечную дисперсию *. В нормальной модели при F=NN (0, о3) знаковый критерий и /- критерий удается сравнить точно, так как мощность /-критерия можно вычислить, используя таблицы нецентрального /-распределения. Пусть па и nt — размеры выборок, необходимые знаковому критерию и /-критерию для достижения ими мощности р при заданных ц и о, когда оба критерия имеют один и тот же уровень а. Из работы Диксо- на [6] мы заключаем, что эффективность nt/na знакового критерия относительно /-критерия исключительно устойчива как функция от p/о, а и р и близка к предельному значению 2/л — 0,64, установлен- ному Питменом. Потери эффективности весьма значительны. Но если ^-распределение отлично от нормального, то знаковый критерий может быть гораздо более мощным, чем /-критерий (см. задачу 9.2.4). Знаковый критерий находит применения и за рамками эксперимен- тов с подобранными парами. Предположим, что Zlt...t Zn — выборка из некоторого непрерывного распределения F. Требуется проверить, верно,ли, что медиана т** не меньше некоторой стандартной величины т0. Знаковая статистика S равна числу положительных разностей Zi — т0 и может быть использована, если заданы некоторые крити- ческие значения. Предположим, что требуется построить доверитель- ный интервал для т. Тогда мы обращаем двусторонний критерий для проверки гипотезы Н : т = т0, основанный на статистике S — у п. Если k (а) — такое целое число, что Р Ik (а) S п — k (а)], то, как показывают рассуждения в доказательстве теоремы 9.1.2, [Z(A«x)), Z^n—Л(а) 1 I)] (9.2.4) — доверительный интервал уровня (1 — а) для т. Знаковый критерий легко «приспособить» и к случаю, когда распре- деление F не непрерывно и, в частности, когда Р IZX = 0] > 0. Если в выборке встречаются нули, то знаковый критерий можно применять, предварительно отбросив их. Таким образом, если л0 — число Z, рав- ных нулю, то критическое значение мы определяем по таблице распре- деления ВВ (п —п0, 1/2). 9.2. Б. Знаковый ранговый критерий Уилкоксона Знаковый критерий использует только знаки разностей Zj, а не их величины. Более чувствительные свободные от распределения кри- терии мы получим, присоединив к знакам разностей ZJ ранги их абсо- лютных величин |Zf|. Пусть Rt — знаковый ранг разности Zj, т. е. ранг |ZJ среди ...» |Zn|, умноженный на знак разности Zt. На- пример, если (Zx,..., ZJ = (1,1;— 2,0; — 3,Г, — 1,3), то вектор зна- * Это утверждение было доказано в разд. 6.4.А. Точность аппроксимации при заданном п зависит от F. *• Медианой распределения называется ее 0,50-й квантиль. Мы предполага- ем здесь, что он единствен. 123
КОВыЯ рангов имеет вид (&х, /?4) = (1, —3, —4, —2). Знаковые ран- ги можно рассматривать как стандартизованное представление разно- стей ZXl..., Z4, сохраняющее отношение порядка по каждую сторону от нуля и в парах (Zf,0). Следовательно, сумма знаковых рангов — естественная статистика критерия *а. Эквивалентной и удобной формой этой статистики служит статистика Уилкоксона с одной выборкой W, определяемая выражением (9.2.5) где 7\ < ... < Tt — упорядоченные положительные Rt, a s — наблю- даемое число положительных Zt. Для вычисления критического значения, необходимого для крите- рия уровня а, нам нужно знать распределение вектора (Rlt...t Rn) в предположении, что верна гипотеза Я. Ив этом случае, если гипоте- за Н верна, распределение знаковых рангов не зависит от того, какое непрерывное симметричное распределение положено в основу 3. Что- бы найти распределение знаковых рангов, введем величины /х>..., /п, определяемые следующим образом: 1, если Zh > О, О, если Zk 0. Теорема 9.2.1. Пусть Я —непрерывное распределение, симметрич- ное относительно 0. Тогда 1) векторы (|ЯХ|,..., Ю и (Л* •••» 4) независимы; 2) Р(|Я1| = |М.....|Яп1 = к„|] = 4 (9.2.6) при любой перестановке {|гх|, .... |rn|} чисел {1,..., п}; 3) /Х|...» /„ независимы и распределены по закону ВВ (1, 1/2); 4) Р IRx = П. G.1 = ; (9.2.7) 2п л! Б) P[Ti=/„ S = s] = ——, (9.2.8) 2” п где 5=2 Л —знаковая статистика критерия, /х — любой набор допустимых значений Т,. Доказательство. Можно доказать (см. задачу 9.2.16), что (|ZX|,..., |Zn|) и (/j,...,/п) независимы. Но |ЯХ|, ..., |ЯП| — ранги величин |ZX|, .... |Zn|, поэтому (|ЯХ|,..., |ЯП|) и (/х,..., /п) также независимы. Первое утверждение теоремы доказано. Равенство (9.2.6) следует из (9.1.5), так как |ZX|, ..., |Zn| — набор независимых одинаково распре- деленных величин с непрерывным общим распределением. Распределе- * Использование статистики W также можно обосновать, подставляя Rf вместо в /-статистику с одной выборкой. 124 i
Htie Вектора Jn) следует непосредственно из независимости И симметрии Zt. Записав событие [/?! - ГцRn = бЛ в виде U^il — kjl»— ...» IRnI = knl, Л = In = en], где en = 1 при n > 0 и en =0 при ri 0, мы получим утверждение (9.2.7). Наконец, Р 17\ = Tt — tt, S — s] ~ S {P [Pi = fj, ..., Rn *" gJ • ki»• • •»Gi) € » где A — множество всех наборов (rlt..., rn), которые содержат ровно s положительных координат, принимающих значения /п..., /s. Если учесть (9.2.7), то для доказательства (9.2.8) необходимо убедиться толь- ко в том, что множество А содержит nt элементов. Но положения s по- (п\ I способами, причем в каж- дом случае положительные координаты slt..., $, могут быть перестав- лены s! способами, в то время как (п — $) отрицательных координат допускают (между собой) (п — $)! перестановок. Следовательно, множество А содержит nt st (п — s)t /s', (n — s)! = nt элементов. Распределение статистики W в предположении, что верна гипотеза И при п 16, приведено в табл. VII в конце книги. Пример 9.2.1. В качестве иллюстрации рассмотрим следующие дан- ные о расстоянии в милях, проходимом автомашиной на одном гал- лоне горючего, без недавно разработанной добавки и с добавкой. Таблица 9.2.1 Номер автомашины 1 2 3 4 5 6 7 Длина пробега без добавки, х 17,2 21,6 19,5 19,1 22,0 18,7 « 20,3 Длина пробега с добавкой, у 18,3 20,8 20,9 21,2 22,7 18,6 21,9 Разность, z 1,1 —0,8 1,4 2,1 0,7 -0,1 1.6 Знаковые ранги 4 -3 5 7 2 —1 6 Наблюдаемое значение статистики W равно: 2 4- 4+5 + 6+7 =24. Из табл. VII находим вероятность значимости Р [W 24] = Р НГ <^28 — 24] = 0,0547. Следовательно, примешивание к горючему до- бавки дает некоторый эффект. Для сравнения укажем, что знаковый критерий дает вероятность значимости Р [S 5] = 0,2266, в то время как /-критерий имеет Тп ~ 2,32 и p-значение меньше 0,05. Теорема 9.2.1 приводит к полезному представлению распределения статистики W в предположении, что верна гипотеза Н, которым можно 125
воспользоваться для вычисления моментов и нормальной аппроксима- ции. Пусть (Di,..., Dn) — такая перестановка, что Dj = k <=> |Zfc|= = |Zj</), / = 1, .... n, где |Z|(/} —j-e, наименьшее по абсолютной вели- чине, значение. Например, если Z= (1,1; — 2,0; —3,1; — 1,3), то (Рг...О*) - (1,4,2,3). Тогда г “ S *4- Если гипотеза // верна, то, пользуясь теоремой 9.2.1, можно показать, что величины /Dft независимы и распределены по закону ВВ (1, 1/2) (см. задачу 9.2.17). Следовательно, если гипотеза Я вернав то £(«?)= X АЕ(/Од) = -j- S *= 1), (9.2.9) « п Var (Г)= 2 ^Var(/Dfc) = -^ £ k* = (п + 1)(2л + 1). А=1 4 А=1 Применяя центральную предельную теорему к суммам независи- мых неодинаково распределенных случайных величин 18, р. 262], мы обнаружили, что статистика W, если ее нормировать, имеет прибли- женно распределение NN (0, 1). Это означает, что приближенное крити- ческое значение для критерия Уилкоксона, применимое при п > 16, имеет вид: 1 1 Г 1 12 4-п (n +1) 4 Ц- п (п + 1) (2л +1) z (1 - а). (9.2.10) 4 L 24 J Для мощности /-критерия и критерия Уилкоксона можно указать также аппроксимации больших выборок. Предположим, что в примере с группой обследуемых больных, получающих лекарство, и контроль- ной группой получающих «пустышку» действие лекарства сводится к прибавлению Д к каждому контрольному отклику. Тогда если верна альтернатива К, то наблюдения следуют сдвиговой модели F(z) = F0(z-A), (9.2.11) • где Fo — распределение, симметричное относительно нуля. Если Fo имеет плотность /с и дисперсию о2, то эффективность по Питмену кри- терия Уилкоксона с одной выборкой относительно /-критерия с одной выборкой равна / -f" \ 12о®| J /8(x)dx] . (9.2.12) \ — DO / Таким образом, сравнения эффективности Питмена для модели (9.2.11) совпадают со сравнениями для двухвыборочной сдвиговой модели из разд. 9.1.А. Для эффекта Д от приема лекарства в (9.2.11) можно построить до- верительный интервал. Заметим, что при Д — До разность Zt — До 126
симметрично распределена относительно нуля. Следовательно, для проверки гипотезы А = Ао на уровне а можно воспользоваться ста- тистикой Уилкоксона, вычисленной по Z* — До,..., Zf — До. Об- ратив, как обычно, эти критерии, мы получим для Д следующий до- верительный интервал. Пусть М = i п (п + 1) и ... < Л(м) — средние у (Z, 4' Z>), i С /. после упорядочения и при заданном 0 < <а< 1 мы можем найти либо точно (из табл. VII), либо приближен-. но (используя аппроксимацию (9.2.10)) такое целое число А, что Р [£ С W < М — *1 = 1 — а. и получить доверительный интервал [Л(ь), Л(м_*+1)]. (9.2.13) При любых симметричных распределениях F этот интервал для Л име- ет (точно или приближенно) коэффициент доверия (1 — а). Подробно- сти вывода доверительного интервала (9.2.13) во многом аналогичны деталям доказательства теоремы 9.1.2, и мы приводим их в задачах. В качестве примера рассмотрим данные о расстоянии, проходимом на одном галлоне горючего, из табл. 9.2.1. Чтобы получить доверитель- ный интервал уровня 1—2 (0,0547) = 0,8906, обратимся к табл. VII и найдем Р [5 W 23] = 0,8906. Следовательно, [Л(6), Л(2«)1 — тот самый доверительный интервал, который требовалось построить. Величины А мы получим, расположив в порядке возрастания величи- ны Z и вычислив таблицу средних (Z^y + Zqj), i /. Мы по- лучим А (6) = 0,15; Л (24) = 1»6. Таким образом, доверительный ин- тервал для А (увеличения расстояния, проходимого на одном галлоне горючего) имеет вид [0,15; 1,61. Для сравнения напомним, что Линтер- вал уровня 0,90 из разд. 5.1 имеет вид [0,13; 1,581. Так же, как в разд. 9.1.Б, в качестве оценки параметра А можно взять середину доверительного интервала Да = ~И(Л) 4" Л(М_* 4-1)1. (9.2.14) При п -> оо величина Vn (До — А) сводится к нормальной случайной величине со средним 0 и дисперсией f/12) ( J (z) dz)2, если интеграл существует и положителен. Это утверждение следует из результатов, приведенных в [131 и [23]. По сравнению с выборочным средним Z оценка Аа обладает теми же преимуществами, что и критерий Уилкок- сона с двумя выборками по сравнению с двухвыборочным /-критерием. При а —► 1 величина Аа стремится к оценке Ходжеса — Лемана Ai — медиане М средних j (Zf 4~Z/)> i < /. Для приведенных выше данных
об увеличении пробега на одном галлоне горючего оценка Ходжеса — Лемана Aj. составляет у [Л(14) -]- A(i6)] — ~ 10,9 + 1,0] = 0,95, в то время как среднее равно 0,98, 9.3. РАНГОВЫЕ КРИТЕРИИ ДЛЯ ПЛАНА С ОДНИМ ПРИЗНАКОМ В этом и в следующем разделах мы введем ранговые критерии в дру- гие эксперименты, для которых ранее были рассмотрены нормальные модели. Сравнение с критериями отношения правдоподобия нормаль- ной теории приводит к заключениям, аналогичным тем, к которым мы пришли в разд. 9.1 и 9.2.Б в одно-и двухвыборочных моделях. Дока- зательства и обсуждение утверждений, приводимых в этом разделе, можно найти в гл. 5 книги Лемана [24]. Мы хотим сравнить р генеральных совокупностей или лекарств на основе р независимых выборок У(1 У/n/, i — 1, ..., р, — по одной выборке из каждой совокупности. Относительно распределения Ft в i-й генеральной совокупности предполагается только, что оно непре- рывно. Требуется проверить гипотезу Н, согласно которой между р генеральными совокупностями нет различия: = = (9.3.1) Альтернативы, которые мы имеем в виду, являются «двусторонними» обобщениями альтернатив, введенных нами в двухвыборочной задаче. Под альтернативой К мы будем понимать утверждение: «Для любой пары (/’,/) либо Fi (0 < Fj (/), либо Fj (0 < Ft (t) (9.3.2) при всех t, и Ft Fj при каких-то i, р. Важным частным случаем этой модели является линейная, или сдвиговая, модель (7.1.5), в которой Fh (у) - Р + 4i < У1 = F (У - 0 Д (9-3.3) где F означает общее распределение ошибок При такой специали- зации гипотеза И переходит в равенство «рг = ...= 0Р» и, как в разд. 7.1, мы рассматриваем альтернативу К: при каких-то i Ф }. Модель, задаваемая неравенствами (9.3.2), наводит на мысль огра- ничиться рассмотрением отношений порядка между Уц. Пусть Pint—ранги величин Уп....... У{п/, полученные при одновремен- р ном ранжировании всех выборок, и п — 2 л t—полный объем выбор- /=1 ки. Подставив Rtj вместо Yи в ^-статистику плана с одним признаком, получим р 2 ГН (R1.-R)9 1 р ni 2 2^^-)’ где R — среднее по всем Rtj. Произведя несложные преобразования, можно показать, что отклонение гипотезы при больших значениях 128
этой статистики эквивалентно отклонению гипотезы при больших зна- чениях статистики Краскела— Уоллиса1 Т = 7^Ьг2"‘к'--Т(п+1)Г- (9-ЗЛ) При выполнении гипотезы Н величины Y образуют выборку из единственного непрерывного распределения. Следовательно, при вы- полнении гипотезы Н вектор рангов (Rif 1 nf, 1 i р) принимает в качестве значения каждую из перестановок чисел 1,...,п с равной вероятностью 1/п!, И в этом случае мы также получаем статис- тику критерия, распределение которой, если гипотеза верна, не зави- сит от общего распределения наблюдений. При небольших значениях пр пр были составлены таблицы распределения статистики Т в предположении, что выполняется гипотеза Н. Можно показать, что если гипотеза Н верна и велики, то слу- чайные величины У12я| (Ri.Rn + 1)—1/2), i — 1, имеют приближенно такое же совместное распределение, как (Zt,— Z), i = 1,..., р, где Zu — независимые случайные величины, распределен- ные по закону NN (0,1). Следовательно, статистика Т имеет прибли- р __ женно такое же распределение, как статистика 2 ni — обла- 1 дающая, как видно из таблицы дисперсионного анализа 7.3.2, распре- делением Хд-1. Использование (1 — а) в качестве критического значения для критерия уровня а, основанного на статистике Т, адек- ватно, если либо р = 3 и все 6, либо р > 3 и все гц > 5 *. Можно показать, что если Yи имеют конечную дисперсию, гипоте- за Н верна и пр достаточно велики, то (л-р) 2 «I (Л.-И2 /=1 имеет приближенно распределение Следовательно, как и в зада- чах с одной и с двумя выборками, F-критерий (линейной модели) име- ет приближенно заранее заданную вероятность ошибки типа I, даже если наблюдения распределены по закону, отличному от нормального. Функция мощности в модели нормальных ошибок также дает разумную аппроксимацию истинной мощности в модели (9.3.3), если пр велики и рх, ...» рр отличаются достаточно мало. Мощность критерия Краскела — Уоллиса уровня а на (рь..., рр) при аналогичных усло- виях приближенно равна мощности F-критерия на (Ve рг, .... Уерр), где е—эффективность Питмена 12 о2 (f р (х) dxf. Таким образом, сравнение критерия Краскела — Уоллиса и F-критерия приводит к таким же заключениям, как сравнение двухвыборочного критерия Уилкоксона и ^-критерия. * При использовании хР-1 (1 — а) критерий обычно получается занижен- ным (т. е. имеет уровень не выше а). 6 Зак. 1313 129
0.4. ЛИНЕИНЛЯ РЕГРЕССИЯ И НЕЗАВИСИМОСТЬ 9.4. А. Линейная регрессия В непараметрическом обобщении нормальной регрессионной моде- ли из примеров 3.2.2 и 7.2.1 мы наблюдаем Yt *= Pi + + еь i 1......л, (9.4.1) где ef — независимые ошибки с непрерывным распределением F; Xi,..., хп— известные постоянные, которые не все равны; pj— сво- бодный член; р2 — угловой коэффициент линии регрессии *. Мы хо- тим проверить гипотезу, согласно которой не существует зависимости между независимой переменной х и зависимой переменной Y, = О, относительно альтернативы, утверждающей, что такая зависимость существует, К:₽а>0. .Как и в предыдущих разделах, альтернатива устанавливает между распределениями величин Y отношение порядка, и мы приходим к ран- гам. Пусть Rt означает ранг величины Yit если все Y ранжированы вместе. Как и в случае двухвыборочной модели, вектор (Rlt .... Rn), если гипотеза Н верна, принимает в качестве значений с равной веро- ятностью 1/л! любую из перестановок (1, ..., п], и уровень любого кри- терия, основанного только на рангах, не зависит от рг или F. С другой стороны, отношения порядка между Ri отражают отношения порядка между Уь и, подставляя Rt вместо Yt в статистику (7.3.16) нормаль- ной теории, мы получаем статистику критерия. Оказывается (см. за- дачу 9.4.1), что возникающий при этом критерий эквивалентен откло- нению гипотезы при больших значениях статистики Л и = ^xt Rt. (9.4.2) /Я I Если xt — 0 при «=1, ..., лг и xt = 1 при i = пг 4- 1, ..., nt + nt = = л, то модель (9.4.1) представляет собой не что иное, как двухвыбо- рочную сдвиговую модель, тл U — статистика Уилкоксона с двумя выборками. Другой важный частный случай возникает, когда х{ разделены одинаковыми интервалами, т. е. когда xt = а + Д|/, где Д > 0, i = = 1, л. С такого рода х мы встречаемся в экспериментах, в кото- рых наблюдения Yt производятся по истечении одинаковых по про- должительности промежутков времени, и в экспериментах, где Yt — * В модели (9 4 1) (в том виде, как она записана) Pt — неидентифицируемый параметр, так как (Plt Р2, F) и (0, р3, F*), где F* (х)= F (х — рд) приводят к од- ному и тому же распределению для (У\.Уп). От этой неоднозначности можно избавиться, если наложить условие Е (е<) = 0 или потребовать, чтобы е/ были симметрично распределены относительно нуля. В любом случае мы рассматри- ваем только параметр рг, а он идентифицируем. 130
отклики на дозировки лекарства, увеличиваемые на одно и то же чис- ло единиц. В этом случае п п п IR„ /-=! 1=1 /«1 Отклонение гипотезы при больших значениях U эквивалентно откло- Л нению ее при больших значениях У, iRit а так как z=i П 1 Г п п п 2 «<=т 2 р+ 2 2 («>-')’ = i«= 1 ./=1 <»1 п (п+1) (2п+1) 6 (9.4.3) то последнее эквивалентно отклонению гипотезы при малых значениях п D= S </?,—/)». /—I (9.4.4) Имеются обширные таблицы распределения статистики D, составлен- ные в предположении, что гипотеза Н верна (см. [24, р. 2921). В конце нашей книги (табл. VIII) приведен лишь небольшой фрагмент этих таблиц. Для более общего расположения xi имеется только аппрокси- мация большой выборки. При условиях, требующих, чтобы xlf ..., хп были «распространены» в разумно широких пределах*, задаваемая соотношением (9.4.2) статистика U имеет приближенно распределение NN (р, о2), где р = Е ((7), а2 — Var (U). Если верна гипотеза Н, то £ (7?/) = л-12/ — — (л 4- I), откуда, как нетрудно показать, сле- f-l 2 дует, что Е (U) = — п (п 4 1) х. (9.4.5) Аналогично, используя (П.П.20), мы получаем после несложных вы- числений, что если гипотеза Н верпа, то Var (U) = -L п (п + 1) £ (х, -х)2. (9.4.6) /-1 В важном частном случае при xt — I формулы (9.4.5) и (9.4.6) перехо- дят в следующие: у iR, =-L„(n + l)>, Var У iR, = -2_(л-1)л»(п + 1)». © / 4 kft ) 144 n • Необходимо, чтобы У (jq—x)2/ max (х,~3с)2-+с«э при n i l<f<n -► co (cm. (10, p. 159)). 6* 13J
Приближенную нормальность статистики U можно использовать для получения приближенных критических значений, функций мощ- ности и сравнений с критериями нормальной теории, например с кри- териями из разд. 9.1 и 9.2 (см. [24, р. 3111). 9.4.Б. Критерии независимости Предположим, что мы, как это часто бывает, не можем управлять выбором значений xt, которые являются реализациями случайных ве- личин. Как отмечалось в разд. 7.1, это происходит в том случае, если мы наблюдаем пару числовых переменных (X, Y) на каждом элементе выборки из некоторой генеральной совокупности и предполагаем, что они имеют двумерное нормальное совместное распределение. Если (Xi, Y,)— измерения, произведенные на i-м элементе выборки объе- мом п, то Yt можно представить в виде Yt = р! + p2Xi н- ef, i = 1...п, (9.4.7) где Ei — нормальные случайные величины со средним 0, не зависящие друг от друга и от Xt (сами величины Xt независимы и нормально рас- пределены). Задача проверки гипотезы Я : 02 — О относительно альтернати- вы X : р2 > 0 в рассматриваемом нами случае ничем не отличается от задачи проверки гипотезы Н : «X и У независимы» относительно аль- тернативы X :«Х и Y коррелированы». Как отмечалось в задаче 7.3.9, критерий, возникающий при рассмотрении соотношения (9.4.7) как условной регрессионной модели, совпадает с критерием, основанным на коэффициенте корреляции (этот критерий был рассмотрен нами в разд. 6.5.А). Модель (9.4.7) сохраняет смысл и в том случае, если предположить, что X/ и хотя и независимы и непрерывно распределены, но не обя- зательно нормальны. Гипотеза Н : 02 — 0 соответствует независимо- сти, а альтернатива X : Р2 > 0 — существованию некоторой зависи- мости между X и У. Если равенства Х\ = хх, ..., Хп = хп считать (ус- ловно) заданными, то в этой новой модели гипотезу Н : ~ 0 отно- сительно альтернативы X : 02 > 0 разумно проверять, используя, как и прежде, статистику U. Распределение статистики U при задан- ных Xi = .......Хп — хп и когда верна гипотеза Н, и когда верна альтернатива X, такое же, как в регрессионной модели (9.4,1). К со- жалению, как мы уже отмечали, критические значения статистики U невычислимы для большинства ...»хЛ, поэтому осуществить наме- ченную нами схему удается только при больших п. Однако мы можем рассуждать следующим образом. Так как рас- пределение XJ( ..., Хп неизвестно, разумно сосредоточить внимание на рангах Qi, ...» Qn величин Хь .... Хп, подобно тому, как мы рассмат- ривали ранги Xi.....Rn величин Уп ..., Уп. Иначе говоря, нам не- обходимо «заменить» выборку (Xlt У\), ..., (Хп, Уп) выборкой (Qi> Xi), .... (Qn, Rn), стохастическое поведение которой довольно 132
точно воспроизводит стохастические свойства породившей ее выборки. Заменив Х{ на Ci и Yt на Ri в выборочном коэффициенте корреляции /-1 1 ’ п _ п _ 1 2 2 (Xi-xy ^(Yt^Y^ У==1 i=l — статистике критерия для проверки гипотезы о независимости в двумерной нормальной модели, мы получим коэффициент корреляции г6 Спирмэна-. — У QiRt-QR п tt г. ------------—-----------------у- • (9.4.8) 1 " _ I " - I ' —2 «•-<»*—2 . i=l /==1 Так как каждый из векторов рангов (<?х, .... Qn) и (Rlt Rn) пред- ставляет собой некоторую перестановку чисел получаем т 2 (Q, -су=± 2 =т 2 р~Ш="тг • Это позволяет упростить формулу (9.4.8), преобразовать ее к виду г, =---*1—у 3(в+‘> (9.4.9) • я(Па-1) (л-1) Л и заключить, что X QtRi — статистика, эквивалентная коэффициенту fe-i корреляции гв. Если верна гипотеза И, то распределение статистики г не зависит от неизвестных распределений величин X и Y. Это следует из того, что (Хь ..., Хп) и (Уь .... Уп)— независимые выборки, в силу чего (Qi, ...,(?„) и (Rx, ..., Rn)— независимые случайные векторы, при- нимающие в качестве значений все возможные перестановки чисел {1, .... п} с равной вероятностью 1/п!. п Статистика допускает эквивалентное представление, позво- /=| ляющее со всей отчетливостью увидеть различие между ранговыми ста- тистиками «регрессии» и «независимости» и установить распределение Л статистики 2 QiRt, вытекающее из гипотезы. Переставим пары (Хх, Ух), 1 ..., (Хп, Уп) так, чтобы X оказались расположенными в порядке воз- растания. В переставленных парах величины X имеют ранги 1, ..., п. Пусть Sx, ..., Sn — ранги величин У в переставленных парах. На- 133
пример, если (73, 60), (70, 64), (85, 65), (61, 59) — пары (X, Y) в исход- ном порядке, то после перестановки они расположатся в последователь- ности (61, 59), (70, 64), (73, 60), (85, 65), и ранги переставленных Y со- ответственно равны: Si = 1, <S2 — 3, SB — 2, S4 — 4, Заметим, что произведение рангов в каждой паре не изменяется при перестановке пар. Следовательно, п п 2 Q, R, = 2 is,. i = 1 I => 1 п Критическое значение статистики У iSt можно найти с помощью сле- /=1 дующей теоремы. Теорема 9.4.1. Если верна гипотеза Н, то Р [Sx — s1( .... Sn — = snl — Vnl Для любой перестановки (sx, ..., sn) чисел Il,...,nl. Доказательство. Пусть Хг — xlt ..., Хп — хп, (j\, ..., /п)— пере- становка чисел (1...и), определяемая неравенствами X/, < ... < Х/п. Тогда <3,....s„) = (R,., .... Ry„). Так как X и Y независимы, из (1.1.14) и (1.1.17) следует, что условное распределение для (Sx, ..., Sn) при Хх = хх, .... Хп = хп совпадает с частным распределением для (Рд, ..., Rjn), где перестановка (j\./п) понимается как заданная. Мы получаем Р [5Х ~ $1,..., <Sn~ sn | Хх=хх>..., Хп = xn] = ~Р IR/t= ~ snl~ , что и доказывает теорему, так как хх, ..., хп произвольны. Итак, вытекающее из гипотезы распределение может быть получе- но из табл. VIII. Проиллюстрируем это на примере. Пример 9.4.1. Для каждого из студентов, специализирующихся по математической статистике, записаны оценки за домашние задания х и итоговые оценки у. X 92 48 93 0 61 81 У 107 99 127 95 ПО 120 Требуется найти вероятность значимости для случая, когда альтер- натива утверждает, что между х и у не существует никакой зависимо- сти. Ранги Sk приведены в следующей таблице: k 1 2 3 4 5 6 Sk 1 2 4 5 3 6 134
Из нее видно, что наблюдаемое значение статистики D, определяемой выражением (9.4.4), равно: О2 + О2 + I2 + I2 4- 22 + О2 = 6. Из табл. VIII находим, что вероятность значимости Р [О <1 6] = 0,0292. Мы заключаем, что проведенный эксперимент указывает на сущест- вование определенной зависимости между оценкой за домашнее зада- ние и итоговой оценкой. Некоторые сравнения были произведены между критерием, осно- ванным на ранговом коэффициенте корреляции Спирмена r8t и клас- сическим критерием, основанным на выборочном коэффициенте кор- реляции р. И в этом случае классический критерий имеет при больших п приближенно правильную вероятность ошибки типа I. Сравнения по мощности несколько менее благоприятны для га в нормальном слу- чае, чем для других рассмотренных нами моделей. Для достижения равной мощности на том же уровне критерий, основанный на га, тре- бует примерно в (л/3)2 = 1,096 больше наблюдений по сравнению с той же альтернативой, если (Х,У) имеет двумерное нормальное распреде- ление. Однако для некоторых правдоподобных моделей критерий, ос- нованный на гв, дает гораздо лучшие результаты. Более подробно об этом см. в [24, р. 3161. 9.5. УСТОЙЧИВЫЕ ОЦЕНКИ И СВЯЗАННЫЕ С НИМИ МЕТОДЫ Толчком к разработке методов этой главы послужило осознание того, что многие наборы количественных наблюдений порождены, на- сколько можно судить, распределениями, для которых предположе- ние о нормальности сомнительно или неприемлемо. Весьма часто встре- чаются большие массивы данных, со всей очевидностью показываю- щих, что для их описания более подходят несимметричные распреде- ления и (или) распределения со слабо убывающим «хвостом». Несколь- ко примеров такого рода можно найти в работе Хубера [17]. В предыдущих разделах нас интересовала главным образом про- верка гипотез. Было показано, как построить методы (аналогичные критерию Уилкоксона и знаковому критерию), обладающие следую- щими свойствами: I) гарантированным уровнем значимости при самых общих пред- положениях о характере распределения; 2) разумной мощностью, если лежащие в их основе распределения нормальны; 3) мощностью, нередко превосходящей мощность классических /-критериев в тех случаях, когда нарушается предположение о нор- мальности (в частности, когда распределения имеют «большие хвосты»). Исходя из этих критериев мы получили оценки, которые а) достаточно эффективны по сравнению с оценками наименьших квадратов, если лежащие в основе распределения нормальны; б) существенно более эффективны, чем оценки наименьших квад- ратов, если лежащие в основе распределения имеют «большие хвосты». Из этих свойств наиболее важными нам представляются свойства 2) и 3), а также а) и б), поскольку свойство I) (устойчивость уровня) 13S
с полученными нами критериями разделяют, по крайней мере при боль- ших выборках, классические нормальные критерии. В этом разделе мы изберем иной подход. Прежде всего мы найдем оценки для р в модели с одной выборкой и эффекта обработки в двух- выборочной модели, на вариабельности которых отклонения от нор- мальности сказываются не столь сильно, как в случае классических оценок. Затем мы кратко укажем, каким образом этими оценками мож- но воспользоваться для построения простых критериев, обладающих перечисленными выше свойствами 2) и 3), и, кроме того, приближен- но правильной вероятностью ошибки типа I в больших выборках. Рассмотрим одновыборочную модель с параметром положения X/ 3= р “Г где ошибки независимы, распределены одинаково и симметрично от- носительно нуля с общей плотностью f и функцией распределения F. Если ошибки распределены нормально, то X — наилучшая оценка в различных смыслах. Если же распределение ошибок хотя бы немного отличается от нормального «большими хвостами», то для дисперсии оценки X это отклонение, как будет показано ниже, может иметь самые роковые последствия. Менее чувствительные оценки для р можно построить, используя порядковые статистики Х(ц < ... < Х(П) наблюдений Х1? .... Хп. Они представляют собой не что иное, как значения Хх, ..., Хп, распо- ложенные в порядке возрастания. Теория распределения порядковых статистик рассмотрена в задачах 1.2.8—1,2.13. Классической оценкой для р, основанной на порядковых статисти- ках, является выборочная медиана X, определяемая следующим обра- зом: Л X(fe+1) при п = 2А + 1, *7“(-X(fe) + X(ft+i)) при n=2k. к " Например, в выборке 75, 76, 78, 65, 81 порядковые статистики — это числа 65, 75, 76, 78, 81, а медиана — число 76, в то время как в вы- борке 13, 18, 15, 9 медиана равна (1/2) • (13 -4- 15) = 14. Выборочная медиана как оценка для р имеет различные обоснова- ния: 1) параметр р есть 0,50-й квантиль, или медиана, распределения F, т. е. делит генеральную совокупность пополам: Р IX > pl = Р IX С р] = 4, так же как выборочная медиана делит на две половины выборку*; 2) выборочная медиана совпадает с оценкой максимума правдопо- добия, если предположить, что общее распределение ошибок есть двой- ное экспоненциальное распределение, т. е. убывает значительно мед- леннее нормального; * Выборочная медиана является медианой эмпирической функции распре- деления выборки. См. разд. 9.6 и задачи 3.1.5 и 3.1.6. 136
3) если мы возьмем середины доверительных интервалов для g уров- ня (1 — а), построенных на основе знакового критерия, и устремим a f 1, то в пределе получим выборочную медиану. Медиана — оценка для р, обладающая гораздо меныпей чувстви- тельностью к «хвостам» распределения, чем само среднее. Чтобы про- демонстрировать, насколько сильно отличие, сравним дисперсии сред- него X и выборочной медианы X в модели суммарной ошибки, предло- женной Тьюки [33] и другими авторами. В этой модели плотность ошибки имеет вид: £/ ч (1—в) /л\,е х\ Л = i--- <р —н---ф|— , гдет>о О \О j t \ т / и 0< е < 1/2. Интерпретация этой модели сводится к следующему: при (боль- шой) вероятности (1—е) > 1/2 ошибка имеет распределение NN (О, а2), при (малой) вероятности е ошибка «суммарна», т. е. берется из нормаль- ного распределения с нулевым средним, но с большей дисперсией т2. Если вероятность в мала (составляет 0,05—0,15), то модель суммар- ной ошибки с помощью простых критериев невозможно отличить от нормальной модели, не располагая сотнями наблюдений (см. задачи 9.6.11—9.6.12)1. Предположим, что о — 1, т = 4. Тогда п Var (X) = (1 — е)а2 + ст2 = 1 + 15е, (9.5.1) и можно показать (см. задачу 9.5.9), что nVar(X)« —!— = ' 1 4/2(0) 2 \ Зе\-2 4 / (9.5.2) Некоторые значения этих аппроксимаций приведены в двух средних столбцах следующей таблицы. Обратите внимание на быстрое ухуд- шение среднего и относительную устойчивость медианы. Почему среднее «ведет себя так нехорошо»? Интуитивный ответ на этот вопрос ясен: на значении среднего в отличие от значения меди- аны сильно сказывается даже небольшое число «плохих» наблюдений. Интересный способ убе- диться в этом предложили Тьюки [35] и Гемпель [121, построившие кривые чув- ствительности среднего и выборочной медианы. Пусть Т — оценка в задаче с параметром поло- жения (например, среднее или медиана), определе- ние которой имеет смысл при любых объемах выбор- ки. Тогда график кривой чувствительности мы полу- Таблица 9.5.1 Дисперсии (в произвольном масштабе) среднего, медианы и урезанного среднего (с долей урезания, равной 10%) е 14-15е — fl— —Г2 2 V 4 / ^0,10 0 1,000 1,571 1,060 0,025 1,375 1,631 1,121 0,05 1,750 1,695 1,189 0,10 2,500 1,835 1,346 0,15 3,250 1,985 1,543 137
чим, придавая хг....хп значения, при которых Т (х1г.... Хп_г) = ц, и вычерчивая кривую SC (х) — п [7 (хп .... xn-i> х) — |л] как функцию от х. Иначе говоря, мы задаем «разумную» выборку объе- мом п — 1, для которой оценка дает нам правильное значение изме- ряемого параметра, и следим за тем, как отразится на этом значении Рис. 9.5.3. Рис. 9.5.1. Рис. 9.5.2. Кривая чувствительности среднего (рис. 9.5.1), медианы (рис. 9.5.2) и урезанного среднего Ха (с долей урезания а, рис. 9.5.3). включение л-го наблюдения х. (Масштабный множитель п введен для устойчивости.) Выбрав р = О, получим для среднего SC (х)=п ( Х1+ • ♦ :±£s-*+ - )=х \ п } (см. рис. 9.5.1). . Для медианы в том случае, если, например, п = 2k + 1 и медиа- на выборки ...,xn_j равна (л**> + x<ft+1>)/2=0, получаем ’ пх^= —ЛЛ(*+1> при х<х<к\ SC(x)= пх при ь ЛХ<*+|> при Х>Х(А+1>, где < ... <х<п—*>— расположенные в порядке возрастания вели- чины xlt ....JCn-! (см. рис. 9.5.2) Хотя медиана «хорошо ведет себя» в тех случаях, когда ожида- ются суммарные ошибки, ее поведение в нормальной модели неудов- летворительно. Графики кривых чувствительности наводят на мысль попытаться исправить положение конструированием оценок, пове- дение которых более точно воспроизводит поведение среднего, когда х мало отличается от р. Класс оценок с промежуточными свойствами, включающий и средние, и медианы, известен с XVIII века. Пусть О < а < 1/2. Назовем а долей урезания и определим урезанное сред- нее Ха как п—2 [ла] (9.5.3) 138
где [ла] — наибольшее целое число, не превосходящее ла (целая часть от ла);_Ха) < ... <: Х(п) — упорядоченные наблюдения. При вычис- лении Ха мы отбрасываем [ла] «наружных» наблюдений с каждой сто- роны и берем среднее от остальных наблюдений*. Заметим, что при а — 0 урезанное среднее совпадает со средним Ха = X, в то время как при a f 1/2 урезанное среднее Ха стремится к выборочной меди- ане X. Например, предположим, что в качестве данных мы выбрали разности из табл. 9.2.1. В этом случае л — 7 и мы полагаем а = 1/7, поэтому [ла] = 1. Так как порядковые статистики в нашей выборке образуют последовательность —0,8; —0,1; 0,7; 1,1; 1,4; 1,6 и 2,1, то Ха = j (—0,1 + 0,7 -5- 1,1 + 1,4 + 1,6) = 0,94. (9.5.4) Для случая [ла] = [ (л — 1)а] и р = 0 кривая чувствительности урезанного среднего с долей урезания а изображена на рис. 9.5.3. (Средний участок ее — прямая у = х (1 — 2 [nal/л)"1.) Можно показать (см., например, Бикел [1]), что если плотность f ошибок симметрична относительно нуля, а a-й и (1 — а)-й квантили распределения ошибок хп = —Xi~a единственны, то при л->оо где (9.5.5) —a =2(1—2a)"2. ^/(OdZ+axJ-a (9.5.6) о Чтобы убедиться, насколько «хорошо ведет себя» урезанное среднее (с долей урезания а), обратимся^ значениям о8,ю (служащей хоро- шей аппроксимацией к лУаг(Х0,ю)) в табл. 9.5.1. Оказывается, что при умеренных а урезанное среднее никогда не «ведет себя намного хуже», чем выборочное среднее, а иногда и зна- чительно превосходит его по точности. В частности, асимптотическая эффективность (см. 4.4.11)) Ха относительно X, задаваемая выраже- нием + сю е«(П= У может быть сколь угодно велика, оставаясь в то же время ограничен- ной снизу величиной (1 — 2a)2 (см. [1]). Какую долю а урезания выбрать? Простого ответа на этот вопрос не существует. Интервал 0,10 а 0,20 порождает оценки, которые обеспечивают адекватную защиту от тех пропорций суммарных оши- бок, которые можно ожидать на практике, и в то же время позволяют достичь достаточно высокой точности на выборках из нормального * Все эти оценки, по существу, предложены ad hoc. Их можно попытаться обосновать с помощью подстановки частот (см. задачу 9.5.11). 139
распределения Некоторые работы были посвящены исследованию ме- тодов, в которых а выбирается на основе наблюдений. Эти методы и другие формы «адаптации» рассмотрены Хубером [17] и Хоггом [16]. Другой тип оценки с кривой чувствительности, напоминающей кривую чувствительности урезанного среднего, был предложен Хубером. Оценка Хубера Нк определяется неявно как решение уравнения /=1 \ а / где а — оценка масштаба и Фа (*) = при I X | k, при х>Л, при x<z—k. Один из разумных выборов а состоит в том, чтобы положить ? = med |Х£ — X|/0,67. Здесь k = оо соответствует X, k — 0 — медиане. Обычно выбирают k = 1,5. Существование, рациональность и некоторые другие свойст- ва этих оценок выводятся в задачах. Полностью их теория изложена в работе Хубера [17]. При подходящем выборе о оценки Хубера раз- деляют хорошую эффективность урезанных средних относительно среднего. Они могут быть бесконечно более эффективными, но никогда не бывают сколь угодно хуже. И урезанные средние, и оценки Хубера в комбинации с оценками их асимптотической дисперсии позволяют строить доверительные гра- ницы и интервалы для р и критерии для проверки одно- и двусторон- них гипотез типа р 0 и р = 0, рассмотренных нами в разд. 6.4.А и 9.2. Продемонстрируем существо подхода на урезанных средних. Оценку дисперсии можно произвести в два этапа. Начнем с то- го, что будем считать р, ха и известными. Тогда (1 - 2а)ас£ = Е (Л - р)), где Л(0= /2 при Ха<7 < Х1-а» при t^Xa, х*-а при поэтому разумной оценкой для сг« может служить величина (1—2а)”2л-1 2MW Для реализации излагаемого подхода нам необходимо получить оценки величин р, ха и Xi_o. В качестве оценки для р естественно выбрать Ха. Так как хг_а — (1 — а)-й квантиль распределения статистики 140
X— р, интуитивной оценкой для Xi~a служит n (1 — а)-я порядковая статистика среди Хг — Ха,Хп — Ха, т. е. —а — Х{п—[па]) — Ха. Аналогичным образом, оценивая ха величиной мы приходим к оценке — винзоризованной выборочной статистике, задаваемой выражением ( п—[па] __ а4=(1-2а)-гп-1 2 (Х(;)-Хо)г+ ио [па] +1 + [па] [(Х([па]+1)-Ха)2+(Х(п.[по])-Ха)2]1 (9.5.7) В качестве примера рассмотрим еще раз данные из табл. 9.2.1. Винзо- ризованная выборочная дисперсия равна в этом случае: = 0,93. (9,5.8) Можно показать (см., например, [20]), что если выполняются условия, приводящие к (9.5.5), то cjAcJ (9.5.9) при л->оо. Следовательно, случайная величина У”(Ха~Р) имеет приближенно стандартное нормальное распределение. Выбрав Т в качестве центральной статистики, получим для р доверительный интервал Xa±z(l—|-а) о^Уп (9.5.10) с коэффициентом доверия, равным приближенно 1 — а. Концы интер- вала служат соответственно верхней и нижней доверительной грани- цей уровня (приближенно) 1 — а. Фиксируя р в статистике Т, мы приходим к аналогу — одновыбо- рочной /-статистике. Следовательно, если мы отвергаем гипотезу Н : р 0 относительно альтернативы К ' р > 0 в том и только в том случае, когда 1/л Хп -L-JL>z(l-a), (9.5.11) 141
то вероятность ошибки тина I приближенно равна а, а функция мощ- ности критерия определяется выражением Подчеркнем, что рассмотренные нами критерии и доверительные ин- тервалы приближенно не зависят от распределения и могут рассмат- риваться как конкуренты /-критерия и развитых в этой главе ранговых критериев. Можно показать, что эффективность Питмена критерия (9.5.11) относительно /-критерия такая же, как эффективность Ха относительно X. К аналогичным выводам приводят и сравнения, ос- нованные на ширине доверительных интервалов. Таким образом, в тех случаях, когда предположения о нормальности распределения недо- статочно обоснованы, рассмотренные нами критерии гарантируют та- кую же степень «безопасности», как и ранговые методы, но они гораз- до проще и удобнее в работе, чем границы и оценки, основанные на рангах. Кое-что удалось установить относительно адекватности нор- мальной аппроксимации к распределению статистики Т и возможными уточнениями, такими, как распределение ТТ с числом степеней сво- боды, равным дробному кратному п — 2 [па] — 1. Эта работа нахо- дится в начальной стадии и пока еще не привела к ясным и четким ре- комендациям (см. [19] и [34]). Продемонстрируем эти методы на при- мере данных, приведенных в табл. 9.2.1. Из (9.5.4) и (9.5.8) получаем Формально мы нашли приближенное p-значение а = 0,005 для Н: р = 0. Но поскольку объем выборки так мал, асимптотические аппроксимации не могут считаться надежными, хотя качественное согласие со знаковым ранговым критерием обнадеживает. Аналогичным образом «приближенный» 90%-ный доверительный интервал для р, вычисленный по формуле 0,94 ± 1,65ста/Л^гг, оказы- вается интервалом [0,34; 1,54]. По вполне понятным причинам он от- личается от доверительного интервала, порождаемого знаковым ранговым или /-критерием, но интервалы существенно перекрывают- ся. В заключение наметим в общих чертах, как эти методы применяют- ся к двухвыборочной модели из разд. 9.1.Б. Пусть Xlt .... Xnt — из- мерения над членами контрольной группы объемом пг, a Ylt ..., УП1 — измерения над членами группы объемом п2, прошедшей обработку (например, лечение). Предположим, что эффект обработки аддитивен, т. е. если Xlt ..., Xnt — выборка из генеральной совокупности с плот- ностью f и функцией распределения Г, то Ух, .... УП1 — выборка из 142
генеральной совокупности с плотностью g и функцией распределения G, где G (х) = F (х — Д) Л — эффект обработки. Пусть распределение F симметрично относи- тельно точки р (хотя для большей части последующих рассуждений та- кое предположение не является необходимым), Х_а — урезанное сред- нее (с долей урезания а) выборки Xlt .... Xni, a Ya — урезанное сред- нее (с той же долей урезания) выборки .... УП1. Тогда Да = Уа-Ха (9.5.13) — естественная оценка эффекта обработки. Можно показать, что если условия, приводящие к (9.5.5), остаются в силе, то при ^->-00, п2 то Ч/ П1 ъ («14-«в) ->AW(0,a£). (9.5.14) Для получения оценки дисперсии о* рассмотрим Zlt .... Zn, где п ~ = «1 + п2 и Zj—xt—ха, i — 1,..., ni, ^ni+l 'Ya, I !»•••» ^2* (Величины Zt «приближенно» независимы с общей функцией распре- деления F (х — р).) Упорядочивая Zt, получаем Z(d < ... < Z<nt + п>) и находим оценку сг£ по формуле _ ( л—[па] <&=(!—2а)"ап-Ч 2 Z' + We=[naJ + l + lnal [Z((na]+1) + _[na])] , (9.5.15) где n = 4- n2. Можно показать, что при то, то и ус- ловиях, приводящих к (9.5.5), Л/ Р Оа О&. Таким образом, 1). Следовательно, рассуждая, как обычно в тех случаях, когда исполь- зуются центральные статистики, мы заключаем, что Да±оа1/ —zfl—La) (9.5.16) F «1 «а \ 2 / — интервал для Д с приближенным коэффициентом доверия 1 — а. 143
Аналогично двусторонний критерий, отклоняющий гипотезу в том и только в том случае, если 1/ —1-а), (9.5.17) г \ / имеет для Н : Д = 0 приближенно уровень а. Метод урезанного среднего допускает непосредственное обобщение на модель с р выборками, большинство ситуаций, охватываемых дис- персионным анализом, и (становясь несколько более громоздким) об- щие линейные модели (см. [2]). Аналогичное утверждение справедли- во и относительно подходов Хубера, и подходов, основанных на ис- пользовании рангов. При обобщении метод урезанного среднего во многом утрачивает присущую ему простоту. Нам представляется, что наиболее гибким и успешным из трех подходов в общей модели (ран- ги, порядковые статистики и хуберовский подход) является подход Хубера. Однако до окончательного прояснения ситуации еще предсто- ит проделать немалую работу. Обзоры современного состояния иссле- дований в этой области см. в [11], [18] и [16]. 9.6. СОГЛАСИЕ И ВЫБОР МОДЕЛИ Руководствуясь накопленным опытом или физическими характерис- тиками проводимого эксперимента, мы часто убеждены, что наблюде- ния происходят от некоторого вполне конкретного распределения или семейства распределений, и строим параметрическую модель. Нередко наше убеждение облекается в форму гипотезы и использу- ется при проведении статистического анализа. При этом мы, как правило, не имеем четкого представления о том, с каким типом откло- нений нам придется столкнуться, если наша гипотеза неверна. Поэ- тому нам хотелось бы располагать 1) критериями согласия для проверки гипотез о распределении относительно альтернатив общего характера; 2) методами оценивания и отыскания доверительных полос для функций плотности, функций распределения и преобразований этих кривых для того, чтобы указывать направление и характер возможных отклонений от принятых гипотез. Мы рассмотрим только простейшую ситуацию, в которой наблю- дается выборка Хг, .... Хп из генеральной совокупности с распреде- лением F. Решение задачи о проверке гипотезы — критерий %2 Пир- сона — было дано в гл. 8. Однако в задачах с непрерывными величи- нами часть информации заведомо теряется, так как критерий исполь- зует только число наблюдений в интервалах, а не сами наблюдения. В этом разделе мы изложим подход, лишенный такого недостатка и позволяющий получать как доверительные полосы, так и критерий со- гласия. 144
9.6.А. Критерий Колмогорова Прежде всего поразмыслим о том, как оценивать распределение генеральной совокупности. Если о функции распределения F ничего не известно, то естественная оценка вероятности F (х) определяется как Fn (х) = [число Xt, не превосходящих xVn. Так как nFn (х) имеет биномиальное распределение В В (п, р) с р ==» — F (х), величина Fn (х) есть несмещенная оценка для F (х) с диспер- сией F (х) [1 —F (х)]/п. Эта оценка состоятельна, т. е. и асимптотически нормальна при любом х. Кривая Fn (•) сама является функцией распределения. Если вы- борочные значения равны Хг = xlt ..., Хп — хп и X — случайная величина с функцией распределения Fn (•), то Р[Х = х11 = — при i=l,...,n и Fn называется эмпирической функцией распределения выборки Хи ..., Хп. Ниже на рис. 9.6.1 представлена Fn ддя выборки объемом 23*. Оценка Fn (х) не только состоятельна при любом х, но и по теореме Гливенко—Кантелли (см. (9, р. 3911) sup |Fn (х) — F (х)| 0, т. е. X для больших выборок эмпирическая функция распределения выглядит как истинная. Йа этом свойстве основан принцип эмпирической под- становки, рассмотренный нами в задачах 3.1.5—3.1.8. Теперь мы вос- пользуемся им при построении критериев согласия. Статистика Колмогорова для проверки гипотезы Я : F = Fo определяется как I>n = sup|Fn(x)-F0(x)|. (9.6.1) — оо<Х<«> Из сказанного выше следует, что при больших значениях статистики Dn разумно отклонить Н в пользу альтернативы К : F =£ Fo. Применение этого критерия облегчается следующей теоремой. Теорема 9.6.1. Распределение статистики Dn в предположении, что верна гипотеза И, одинаково при любых Fo. * Строго говоря, это ступенчатый график с вертикальными участками в точках разрыва функции Fn. 145
Доказательство. Для простоты мы рассмотрим случай, когда Fo строго возрастает и для нее существует обратная функция Fo1. Когда аргумент и обратной функции пробегает интервал (0,1), Fo 1 (и) при- нимает все возможные значения X. Следовательно, Dn = sup | Fn (Fq 1 («))—Fo (Fo 1 («)) | = sup | Fn (Fo 1 (u))— 0<й<1 0<w<l Заметим далее, что Fn (fo * («)) == [число значений Xit не превышающих Fo1 (и)]/п — *= [число значений Fo (Xt), не превышающих и]/п. Пусть Ut — Fo (Х<). Тогда Ult ...» Un — выборка из распределения UU (0, 1), так как Р [Fo (Xt) < d - Р [Xt < Fo1 («)) = Fo (fo1 (и)) = и, 0 < и < 1. Таким образом, D„ = sup|F£ («)—«]» 0<«<l где Fn (и) — эмпирическое распределение равномерной выборки и1г ..., Un, и распределение статистики Dn не зависит от F0.B Замкнутые формы нулевого распределения статистики Dn в пред- положении, что верна гипотеза Н, и таблица функции распределения (при п С 100) имеются в [5]. Некоторые критические значения этого распределения в предположении, что верна гипотеза Н, приведены в табл. IX в конце нашей книги. Тщательно изучено поведение статистики VnZ)n при больших вы- борках. Если верна гипотеза И, то существует предельное распреде- ление. Критические значения, приведенные в табл. IX, при л> 80 основаны на этом пределе. Критерий состоятелен относительно всех альтернатив, известны и аппроксимации функции мощности. Эти ре- зультаты изложены, в частности, в [9, р. 566—572]. Пример 9,6.1. Известно, что порода крыс, используемых для опы- тов в одном университете, имеет средний вес р0 = 370,6 со стандарт- ным отклонением о0=29,1. Требуется проверить, нормально ли распределение веса. Данные * приведены в следующей таблице. Таблица 9.6,1 356,4 362,5 394,7 356,0 387,6 305,1 385,1 383,2 346,6 314,2 394,8 370,7 370,8 434,2 365,2 377,1 365,9 384,4 297,4 404,3 412,0 349,1 344,5 ** График эмпирической функции распределения и гипотетического распределения Ф ((х—р0)/а0) представлен на рис. 9.6.1. • Пользуясь случаем, мы хотим поблагодарить любезно"] предоставившего их Брайана Таркингтона из Калифорнийского центра по изучению приматов. •W 146
Если функция непрерывна, то Dn можно вычислить по формуле (/-1) Dn = max max 4-Ео Fo (X(/)) — fin Л где X(i) — i-я порядковая статистика выборки. Из графика видно, что максимум достигается при i = 3 и Dn = 0,104. Так как критичес- кое значение уровня а = 0,05 статистики Dn равно 0,275 при п — 23, мы не отвергаем гипотезу нормальности. Разумеется, это означает Рис. 9.6.1. Эмпирическая функция распределения Fn(x) и гипотетическая функция распределения Ф(у), где (/=(*-go)/Oo лишь одно: имеющихся данных недостаточно для того, чтобы мы могли прийти к заключению об отличии распределения F от нормального. В приведенном нами примере р и о предполагаются известными. Более общая задача состоит в проверке нормальности, когда р, и о не- известны: и а H(NN)'.F(x) = & при некоторых р и о2. Трудно удержаться от_искушения выбрать в качестве оценок для р и о2 выборочное среднее X и выборочную дисперсию s2, а затем восполь- зоваться статистикой Dn = sup — eo<X<oo Рп(х)-Ф (— ) \ s у (9.6.2) К сожалению, распределение статистики Dn не совпадает с распределе- нием статистики Dn, и для этого нового распределения неизвестна простая замкнутая форма. Однако если верна гипотеза Ht то имеет предельное распределение при и ->• оо (обзор см. в работе Дар- бина 171). Стифенс [321 показал, что хорошую аппроксимацию крити- ческого значения Ла для Dn можно получить из следующей таблицы. 147
Таблица 9.6.2 а 0,15 0,10 0,05 0,025 0,01 ,, ' Vn ' 0,775 0,819 0,895 0,995 1,035 Заметим, что критическое значение для Dn лишь чуть меньше кри- тического значения для Dn. Этот критерий мы применим к некоторым данным в следующем разделе. Другие критерии приведены в разд. 9.6.Б и 9.6.В. 9.6.Б. Исследование формы распределения Чтобы получить доверительную полосу для распределения F, об- ратим критерии Колмогорова для проверки гипотезы Н : F — Fo, где распределение Fc варьируется. Предположим, что мы выбрали с из таблиц решений уравнения Р [Dn d = 1 — а. Тогда 1 — а = Р [ |Fn (х) — F(x}\^c при любых х] — Р [—с < ^Fn (х) — F (х) с при любых х] = Р [Fn (х) — с F (х) Fn (х) с при любых х], и мы видим, что кривые [F„ (х) ~c.Fi W + d* образуют совместную (по х) доверительную полосу для F (х) с к циентом доверия 1 — а, т. е. вероятность того, что две случайные кри- вые Гп (•)— с и Fn(-) 4- с окажутся соответственно ниже и выше F (•), равна 1 — а х. Хотя Fn и приведенную выше доверительную полосу можно исполь- зовать при изучении формы распределения F в тех случаях, когда нас интересует проверка гипотезы нормальности, однако больше инфор- мации мы извлечем, рассматривая оценку и доверительные полосы для кривой 1 (х) = Ф'1 (F (х)). Действительно, Л (х) вырождается в прямую в том и только в том случае, если F — функция распреде- ления AW (р, о2) и отклонения от линейности сравнительно легко по- нять. Перечислим некоторые возможные причины**. (1) Если кривая Ф_1Р антисимметрична относительно точки р и Ф-1 (F (х)) выпукла при Жри (обязательно!) вогнута при х> р, то коэффициент эксцесса уа—традиционная мера тяжелых «хвостов» — положителен. Под это определение попадает множество распределе- ний, которые на интуитивном уровне^можно считать имеющими стя- * Если левый конец отрезка отрицателем, его следует заменить нулем. Если ппавый конец больше единицы, его надлежит заменить единицей. *\BcejjHH, по существу, заимствованы из работы Ван Цвета (37]. 148
желне хвосты» (или высокие пики), например семейство распределе- ний ТТ, включая распределение Коши, логистическое распределение и семейство распределений с плотностями й(х’т)д8г(1+т-)ехр(~|х|т)- — оо<х<оо,0<Су<2. (9.6.3) (2) Аналогично распределения с «легкими хвостами» (или низки- ми пиками) характеризуются кривой Ф-1 (F (х)), выпуклой при х< ц и вогнутой при х > |х. Примерами могут служить равномерные рас- пределения и 'семейство распределений с плотностями h (х, у) при Т>2. (3) О тенденции к утяжелению одного «хвоста» плотности по срав- нению с другим «хвостом» (асимметрии) можно сделать вывод в том случае, ""если’кривая Ф-1/7 всюду’выпукла" или всюду вогнута. Если кривая Ф'1/7 всюду вогнута, то это свидетельствует об асимметрии вправо, т. е. о том, что правый «хвост» плотности тяжелее левого, при- чем левый «хвост» легче нормального «хвоста», а правый — тяжелее. Можно показать, что в таких случаях коэффициент асимметрии ух — традиционная мера асимметрии распределения — положителен. При- мерами могут служить экспоненциальные и гамма-распределения, а также распределения Вейбулла. Случаи (1), (2) и (3) представлены на рис. 9.6.2*. 12 3 Рис. 9.6.2 Формы распределений вероятности F (1 —распреде- ление Коши, 2 — равномерное распределение на интервале (0,1), 3 — умноженная на 10 функция распределения %2) Для оценивания Ф'1 (F (х)) мы, естественно, используем Ф-1 (Fn (х))3. Чтобы построить доверительную полосу для Ф“* F, не- обходимо только подействоватьФ~х на полосу lFn (х) — с, Fn (х) + с], и мы получим [ф-1 (?п (х) - с), Ф-1 (Fn (х) + с)]. (9.6.4) Так как Fn претерпевает разрывы в порядковых статистиках X(1)...Х(П), достаточно нанести на график точки (Х(<), Ф-1 (*/«)) для оценки и точки (Ха>, Ф-1 (i/n — с)), (X<d, Ф-1 (^п 4* с)) для по- лосы. Для удобства i во второй координате оценки обычно заменяют на i — 1/2, чтобы избежать необходимости наносить на график оо в 149
Х(п). Получившееся в результате множество точек обычно называется графиком нормальной вероятности*. К сожалению, доверительная полоса неограниченно расширяется на обоих концах. Это означает, что такие свойства, как (1), (2) и (3), можно проверить лишь в общих чертах. Построенной доверительной полосой можно воспользоваться в ка- честве грубого критерия для проверки гипотезы Я (NN) о нормально- сти распределения. Действительно, если F (х) = ф ((х — РоУсо)» то Р Гф -1 (?„ (X)-с) S- < <!>- (?„ (х) + с) при всех х и некоторых р, о Р Ф-1 {Fn (х)—с) ~< Ф-1 (Fn (х) 4- с) при всех xl = 1 —а. о0 J Следовательно, критерий, принимающий Н (NN) в том и только в том случае, если внутри полосы [ф-1 (Fn (х) — с), Ф-1 (Fn (х) 4- с] можно провести какую-нибудь прямую, имеет вероятность ошибки типа I, не превышающую а. Этот критерий быстро реализуем, но не информа- тивен, поэтому предпочтительнее воспользоваться Dn- Пример 9.6.2. В следующей таблице приведены данные* о продол- жительности промежутков времени между появлением волн, высота которых превышает определенный уровень. Серия состоит из 66 на- блюдений, произведенных в Сан-Францисском заливе6. Требуется про- верить согласие с нормальным распределением и исследовать направ- ления возможных отклонений. Табл ица 9.6.3 2,968 2,097 1,611 3,038 7,921 5.476 9,858 1,397 0,155 1,301 9,054 1,958 4,058 3,918 2,019 3,689 3,081 4,229 4,669 2,274 1,971 10,379 3,391 2,093 6,053 4,196 2,788 4,511 7,300 5,856 0,860 2,093 0,703 1,182 4,114 2,075 2,834 3,968 6,480 2,360 5,249 5,100 4,131 0,020 1,071 4,455 3,676 2,666 5,457 1,046 1,908 1,582 3,064 5,453 5,392 4,091 8,393 3,716 0,916 6,156 9,665 2,039 5,564 3,599 2,723 2,870 Ниже мы приведем график нормальной вероятности (точки, соединен- ные отрезками прямых) и связанную с ним доверительную полосу уров- ня 0,90. Хотя Ф-1 Fn несколько напоминает по форме кривую на рис. 9.6.2 (3), в доверительную полосу можно вписать прямую, поэто- му нормальная модель на основании вида построенного графика от- вергнута быть не может. Вычислив — maxrriax!--ф(-^—— Y Ф l I л Xs/ \ s / п ) • Любезно предоставленные нам С. Дж. Чу. 150
мы Получим Dn — 0,109 и p-значение, заключенное между 0,05 и 0,10, что в определенной мере свидетельствует против согласия с нормаль- ным распределением. К данным из табл. 9.6.3 мы еще вернемся и про- анализируем их другими методами. Другой естественный подход к исследованию формы распределения непрерывной генеральной совокупности состоит в оценивании функ- ции плотности f. К сожалению, наивной оценки для / — производной F(*) = функции Fn — не существует. Од- нако можно воспользоваться ко- нечными разностями и оценить f (х) величиной0 Fn(x-f-Лп)—Fn(x—An) ___ 2Л„ { число наблюдений, попадаю- щих в интервал (х — hni X + Ап)}. (9.6.5) Величина hn здесь должна быть малой, но не слишком малой. Точ- Рис. 9.6.3. График вероятности и до- верительная полоса для данных из примера 9.6.2 нее, мы покажем, что если функ- ция f непрерывна, то 7(х) -* f (*) (9.6.6) по вероятности, когда А 0, но nhn -> оо. Так как 2nhnf (х) имеет би- номиальное распределение ВВ (и, F (х + hn) — F (х — Лп))» мы полу- чаем Е (х)) = "f” 2ЛП (9.6.7) и Var (fix)) = [Г(х4-Ап)-Г(у-Ап)Ц1~(Т(х+Лп)-Г(х-Ап))1 4пй» При л->-оо и Лп->0 £(fix))->f(x), лЛ„ Var (ftx)). £ Итак, если hn-+0, nhn-+<x>, то Е (Г(х) - f (х))2 = Var (f(х)) + (£ (fix) - f (х)))2 0, откуда и следует (9.6.6). По поводу выбора Лп единого мнения не существует. Если f счита- ется близкой к плотности нормального распределения NN (р, а2) и п очень велико (порядка нескольких тысяч), то выбор Лп = 1,95стл_|/6 151
Рис. 9.6.4. Оценка плотности для данных из примера 9.6.2 при Ап = 1,3ст п~*^6=1,34 _____ Оценка плотности к- ь- Плотность гамма-распределения с ** ** р=2,501 и Л-0,660 Плотность нормального распре- деления с р=3,788 н ст2=5,735 подкрепляется весьма сла- быми теоретическими аргу- ментами. При умеренных п используются существен- но меньшие значения йп порядка 0,1а*. На рис.9.6.4 приведены оценка / для данных из примера 9.6.2 (прерывистая линия) и для сравнения — нормальная плотность и плотность гам- ма-распределения с пара- метрами, оцененными по методу моментов (задача 3.1.3). В этом случае мы вы- бираем Л„ = 1,3ол-1/6 = = 1,34. Оказывается (см., на- пример, 128]), что УмТ[Дх)-£(Г(х))1/ УГм имеет приближенно распределение NN (0, 1). Исходя из этой аппрок- симации мы хотим построить доверительный интервал для / (х). Для этого нам необходимо подробнее проанализировать смещение Е if (*)) — f (х)- Воспользуемся разложениями в ряд Тейлора: Г(х+Лп)-Г(х) = + Г И hn + Г(*+П1Ы^ йЛ 2 6 F(x)-F(x-ftn) f'{x)hn , /*и-1ЪЙп)Л« —- Их) — + —- где т]1 и т]2 заключены между нулем и единицей. Тогда £(Tw-/M)=v([ ** L L F(x)-F(x-An) Ап П*)]]=-Мн*+Ч1Лп)+Г(*-п.л») • I 1 Zt Следовательно, (Г(х) - / (х))-► О, если вторая производная f” ограничена и УиЛ* 0 при п -> оо. Из теоремы Слуцкого мы заключаем, что если nh* -► 0, то ~V2nhn (f (х) — • На практике величину ст следует оценивать выборочным стандартным от- клонением. 152
- f (x))/ V f (x) имеет предельное распределение NN (0, 1), и, следо- вательно, ?(x)±z(l—f-W (9.6.8) — приближенный доверительный интервал для f (х) уровня (1 — а) при заданном х. Разумеется, обычно нас интересует доверительная полоса для f, а не для плотности в отдельной точке х. Бикел и Розенблатт [3] пока- зали, что при определенных условиях совокупность интервалов (9.6.8) порождает полосу, пригодную для всех х из некоторого интер- вала [—М, Л11. Заметим, что при hn — 1,95оп“’/в величина nh*n не стремится к нулю и мы не можем обосновать (9.6.8). Чтобы судить о надежности графика, составим таблицу прибли- женных доверительных интервалов (9.6.8) уровня 0,90 для избранных значений х: X 7(х) 1 z (0.95) 0(x)/2nftn) 2 0,02 0,05 0,03 1,05 0,13 0,04 3,00 0,19 0,05 9,10 0,03 0,02 Ясно, что столь широкая полоса не позволяет прийти к каким-либо окончательным заключениям. Однако, как видно из рис. 9.6.4, нор- мальная аппроксимация вполне приемлема, хотя плотность гамма- распределения, возможно, дает лучшее согласие. В этом мы сможем убедиться по критерию в разд. 9.6.В. 9.6.В. Проверка согласия с формой нормального распределения Помимо Dn и графического критерия из разд. 9.6.Б, существует множество других критериев для проверки гипотезы Н (NN). Мы пере- числим здесь некоторые наиболее полезные и важные из них. Статистика типа Шапиро—Уилка. Если верна гипотеза Н (NN)t то график вероятности стремится убывать приближенно как прямая Ф"1 (F (х)) = (х— р)/о. Если гипотеза Н (NN) неверна, то график отличается от линейного. Следовательно, если гипотеза Н (NN) вер- на, то квадрат коэффициента корреляции точек (Х(П, Ф"1 [(/ — 1/2)/ In}) ( 1 \Т _________ г 2 I /2(Х,—Х)22 Ф-Ч-------- 1 ' 2 Л /?= S(X(i)—Х)ф-* 153
должен быть близок к единице, а если гипотеза Н (NN) неверна, то — к нулю. Шапиро и Уилк предложили аналогичную, но более сложную статистику V72, в которую входят элементы ковариационной матрицы, порождаемой порядковыми статистиками с распределением AW (0, 1). Подробнее о статистике U?2 и таблицы для п 50 см. в работах Шапи- ро и Уилка [29], Шапиро и Франциа [31], Бентера и де Вета [36]. Ис- следования метода Монте-Карло, проведенные Шапиро, Уилком и Ченом [30], а также другими авторами, показали, что статистика Ша- пиро—Уилка и У?8 для ряда обычно встречающихся альтернатив обла- дают лучшими мощностными свойствами по сравнению с критерием X2 Пирсона, критерием Колмогорова и другими критериями. Бентер и де Вет [36] показали, что критерий, основанный на /?а, состоятелен относительно всех альтернатив. Эти же авторы предложили аппрок- симацию больших выборок распределения при условии, что верна ги- потеза И (NN). Критерии асимметрии и эксцесса. Мерой асимметрии распределе- ния F обычно служит коэффициент асимметрии о» * где ц3 — третий центральный момент. Любое симметричное распреде- ление с конечным третьим моментом и, в частности, нормальное рас- пределение имеют Yi = 0. Простой критерий анормальности, обладаю- щий мощностью относительно альтернатив с ух 0, отвергает гипо- тезу при больших значениях |ух|, где ух —выборочный коэффициент асимметрии, определяемый соотношением 2 п _ П 2 /*= 1 _______ .. -.......... е 3 f * - Y2 v® 1 / Таблицы распределения статистики ух в предположении, что выполня- ется гипотеза нормальности, приведены в [4]. Критерии, основанные на этой статистике, позволяют иногда с большей легкостью обнаружи- вать альтернативы нормальности с ?х =#= 0, чем другие критерии, рас- смотренные нами, но обладают слабыми мощностными качествами от- носительно альтернатив с == 0. Аналогично мерой эксцесса распределения принято считать коэф- фициент эксцесса Т2=—-----з. гг с4 154
Любое нормальное распределение обладает у2 = 0. Следовательно, одно- и двусторонние критерии для проверки гипотезы И (NN) мож- но основывать на выборочном коэффициенте эксцесса - _ nS(Xf-X)< У2 —--------—------О. (S(X|—X)2)2 Таблицы статистики в предположении, что выполняется гипотеза Н (NN), также приведены в [4]. Эти критерии позволяют легко обна- руживать альтернативы с у2 ¥= 0» ио и в этом случае не поднимаются до «всесокрушающей» мощности критериев Колмогорова или Шапиро— Уилка. В качестве иллюстрации применим последние два критерия к дан- ным из примера 9.6.2. Этим данным соответствуют Vi = 0,908, у2 = 0,450. По таблице из [4] находим, что двусторонний критерий на основе порождает p-значение, меньшее 0,05, в то время как критерий на осно- ве у2 имеет р > 0,10. Критерий асимметрии существенно подкрепляет впечатление (создаваемое графиками плотности и статистикой Dn), что нормальная плотность неадекватно согласуется с полученной кри- вой. Направление отклонения выборочного коэффициента асиммет- рии делает весьма правдоподобной надежду на то, что гамма-рас- пределение может оказаться более адекватным. 9.6.Г. Вопрос Можно спросить: если критерии согласия работают так хорошо, то для чего нам нужны непараметрические и устойчивые критерии? Мы применяем эти методы по двум основным причинам. (1) Часто мы не имеем ни малейшего представления о том, с каким распределением нам приходится иметь дело. Отклонив гипотезу на основе критерия согласия, например, с нормальным распределением, мы не знаем, в каком направлении двигаться дальше. Использование ранговых статистик по крайней мере гарантирует нам правильные ве- роятности ошибки типа I. (2) Объемы выборок обычно имеют порядок не сотен и не тысяч. В таких случаях даже лучшие критерии согласия не имеют достаточ- ной мощности относительно альтернатив, могущих иметь практичес- кое значение. Например, Шапиро, Уилк и Чен [30] обнаружили, что для выборок объемом 50 мощность на уровне 0,1 их лучшего критерия согласия относительно альтернатив ТТ4 составляет всего лишь 0,60. Тем не менее для таких альтернатив эффективность медианы к сред- нему равна уже 1,125, а урезанное среднее (с долей урезания 5%) об- ладает эффективностью 1,32. 155
9.7. ПРИМЕЧАНИЯ Раздел 9.1. 1 Превосходный исторический обзор предлагаемых нами мето- дов. подробности их использования и применение к многим наборам реальных данных приведены в книге Лемана [24]. 2 «Устойчивость» (робастность) в данном случае означает, грубо говоря, не- чувствительность к предположениям относительно формы распределений. Тако- го рода устойчивость нашла различные применения в литературе по статистике Интересное обсуждение этого понятия и некоторые точные определения приведе- ны в книге Хубера [17]. 3 Столь же правдоподобна замена Tfy какой-нибудь возрастающей функцией й (/?|). Особенно удобна функция ft(j)= среднее значение j-й порядковой статисти- ки выборки объемом п из генеральной совокупности с распределением NN (0,1). Свойства этого критерия анормальных очков» см. в работе Лемана [24, р. 96]. 4 Такое поведение сохраняется и в случае неравных объемов выборок. Под- робности см. в книге Лемана [24, р. 377]. Раздел 9.2. 1 Из задачи 5.2.11 следует, что знаковый критерий размера а имеет уровень айв случае более реалистической гипотезы, согласно которой лечение не дает эффекта или безвредно, — Н : F (/) F (/) при всех t или более общей гипотезы — Я : Р [Zx > 0] <1 1/2. 3 Как и в двухвыборочной задаче, столь же правдоподобны статистики кри- терия, в которых вместо берется h (Ri), где h — возрастающая функция и й (х) = — й (—х). Если F — приближенно нормальное распределение, то правиль- но выбрать й (± /) = ± [ среднее значение j-й порядковой статистики выборки объемом п из абсолютного нормального распределения NN (0,1) (с функцией рас- пределения 2Ф (х) — 1, х > 0)]. Более подробная информация приведена в кни- ге Лемана [24, р. 186]. 3 Если распределение F не является непрерывным и между данными имеют- ся связи, то можно воспользоваться надлежащей модификацией критерия Уилко- ксоиа. Подробности, см. в книге Лемана [24, р. 129—131 и в задачах]. Раздел 9. 3. 1 Ив этом случае замена Ry функциями ft (Rij) приводит к столь же правдоподобным альтернативным статистикам критерия. Функция й, указан- ная в нашем примечании по поводу двухвыборочной задачи, приводит к крите- рию, который всегда лучше, если Fi — нормальные распределения с общей дис- персией. Однако статистика Краскела — Уоллиса Т предпочтительнее из-за ее простоты и разумного поведения. Но статистика Т не обязательно хороша отно- сительно всех альтернатив с Ft =£ Fj при некоторых i, j. Например, она оказыва- ется неподходящей, если Fj и Fj отличаются по масштабу, но не по сдвигу. Удоб- ные критерии для этого случая приведены в книге Лемана [24, гл. 1] и в задаче 9.1.21. Раздел 9.5. 1 См. также работу [301, где рассмотрен вопрос о мощности кри- терия Монте-Карло относительно альтернатив 7Т, напоминающих модель Тьюки. Раздел 9.6. 1 Если распределение F не является непрерывным, то довери- тельная полоса Колмогорова имеет вероятность накрытия не ниже 1 —а (см., например, [27]). 2 Свойства распределений, следующие из требований (1) — (3), не зависят от масштаба. Например, распределение, имеющее более «тяжелые хвосты», чем стандартное нормальное распределение NN (0, 1), в этом смысле имеет более «тя- желые хвосты», чем любое нормальное распределение. 3 Иногда в качестве оценки для Ф-1 (F (х«))) применяется Е (Zn)), где Z(j) — i-я порядковая статистика в стандартной нормальной выборке. При уме- ренно больших п математическое ожидание Е (Zn\) мало отличается от Ф’1 (I»’ - xiiVn). 4 Множество точек (Ф-1 [(< —x<j)) часто называют графиком вероят- ности. В таких случаях в (1) — (3) выпуклость следует заменить на вогнутость, и наоборот. 6 Как часто бывает в реальной жизни, независимость этих наблюдений оста- ется под вопросом. Тем не менее независимость является разумной аппроксима- цией, так как уровень высок. 156 у
в Существует много альтернативных оценок плотности. Одна из простей- ших — гистограмма. Мы выбираем а и hn и полагаем по определению Цх) = — К (*+(*+ 1) йп)-?п Ап при а + khn < х •< а + (А + 1) ftn, k = 0, ±1, ±2, ... Свойства гистограм- мы в случае больших выборок аналогичны свойствам /. 9.8. ЗАДАЧИ И ДОПОЛНЕНИЯ Задачи к разд. 9.1 1. Рассмотрим двухвыборочную модель с — п2 = 8. Используя сначала табл. V, а затем нормальную аппроксимацию, вычислить следующие вероятности в предположении, что верна гипотеза F = G: а) Р [{/ < 25], б) Р 40], в) Р []С/ — 32| > 16], г) Р LU = 33], Д) Р 50]. 2. Ниже приводятся данные * по уровню холестерина в крови людей двух различных возрастных групп: в возрасте 20—30 и 40—50 лет. Можно ли на осно- ве критерия Уилкоксона при ос = 0,05 заключить, что уровень холестерина (стохастически) существенно больше в старшей возрастной группе? Указать веро- ятность значимости р. Воспользуйтесь нормальной аппроксимацией к распреде- лению статистики U. X (20—30 лет) 135 222 251 260 269 235 386 252 352 173 156 (40—50 лет) 294 311 286 264 277 336 208 346 239 172 254 3. Ниже приводятся данные ** о приросте веса контрольной группы моло- дых крыс и группы крыс того же возраста, находившихся на протяжении семи дней в атмосфере озона. Проверить (на 5%-ном уровне значимости) гипотезу о том, что озон не влияет на вес молодых крыс. Воспользуйтесь нормальной ап- проксимацией статистики Уилкоксона в предположении, что гипотеза верна. Чему равно приближенное р-значение? х (контроль) 41,0 38,4 24,4 25,9 21,9 18,3 13,1 27,3 28,5 —16,9 у (находив- шиеся в озо- не) Ю,1 6,1 20,4 7,3 14,3 15,5 —9,9 6,8 28,2 •17,9 X 26,0 17,4 21,8 15,4 27,4 19,2 22,4 17,7 26,0 29,4 21,4 26,6 22,7 У -9,0 —12,9 14,0 6,6 12,1 15,7 39,9 -15,9 54,6 -14,7 44,1 —8,9 * Из данных обследования сердечно-сосудистых заболеваний в Лос-Андже- лесе, по книге Dixon, Massey. Introduction to Statistical Analysis, 3rd edi- tion, McGraw-Hill, 1969. ** Предоставленные нам Брайаном Таркингтоном из Калифорнийского цент- ра по изучению приматов, Калифорнийский университет. 15
4. Пусть /ij = nt — 3. В числить непосредственно: а) Р [Sj 2], предположении, что верна гипотеза F — С, вы- б) Р (S,+₽х < 4]. в) Р (S«+S*+SJ < 10], г) E(Sf+S»+$3)- б. Определить J (А) для целых k от I до п с помощью разложения <1 1 1 1 1 J(А) = 2j < т + .л Z"4”• • • +“• /=л-м-Л / n + 1-A пЧ-2-А п Статистикой Сэвиджа называется величина я» $=£/($*)• 1 а) Вычислить вероятность значимости на основе статистики Сэвиджа для данных из примера 9.1.1. б) Доказать, что среднее и дисперсия статистики S в предположении, что верна гипотеза F = G, равны соответственно Е (S)=na, Var ($) = в) В предположении, что гипотеза верна, S имеет приближенно нормальное распределение со средним и дисперсией, приведенными в б). Вычислить указан- ные в таблице вероятности, используя нормальную аппроксимацию, и сравнить полученные значения с точными (табличными). (D (2) ’ 1 | 14.54 | 13,97 | | 13,43 P(S>s] 1 °’01 1 | 0,0249 | 0,0497 пг = 10, — 10 3 I И,23 10,69 | Ю.17 PlS>s] | 0,01 0,0249 ‘ 0,0501 Па = 7, Лх — 10 в. Пусть F и G непрерывны и возрастают. Доказать, что если PlU^> с)=а при F = G, то Р [U с] -С а, когда Y стохастически меньше X. Указание: воспользуйтесь тем, что G (/) = F (t — Д (/)), где Д (f) — I — — F'1 (G(/))<C0. Но У — Д (У) = F~l (G (У)) имеет распределение F. Введите величину У/ = У| — Д (У<) и учтите неравенство U (X, Y')^ U (X, Y). 7. Доказать, что при выполнении гипотезы F — G распределение статисти- ки W симметрично относительно (V,) ля (п -f- 1). Указание: пусть $/ — п т 1 — S|. Тогда (Si, ..., Sn,) имеет такое же рас- пределение, как $_ ), и, следовательно, U"' — ^Si имеет такое же рас- пределение, как 117. Обратите внимание на то, что W = (п + 1) — U7, поэто- му Г' — 2-л,(п+ 1) = §-па(л+ 1)—U7. Но U? — |-па (п-Ь1)н|-па(п+ 1)— — W должны иметь одинаковое распределение. 158
8. Пусть Zj,..., Zn — независимые случайные величины, Z/ ~ ЕЕ (th), Qi — ранг величины Zt. Тогда (Леман [21]) П th Р » Qn=?n] =------——--------- п ( s ♦<„+, 1-1 \l-l т ) где dfe — величины dqt — i,i— 1,.... л, называемые антпирангами. а) Доказать (♦) при п = 4 и qx = 1, q2 = 2, qs = 3, q4 — 4. б) Доказать (♦) в общем случае при п = 4. в) Пусть п ~ 4, с — заданное число меньше единицы. Указать наиболее мощный критерий для проверки гипотезы Н : th = ...= О* относительно альтер- нативы К th = — 1 и v9 = t)4 = с. Является ли этот критерий равномер- но наиболее мощным по с < 1? г) Доказать (♦) в самом общем случае. д) Доказать, что равномерно наиболее мощный критерий для проверки ги- потезы Н : <h = ... = относительно альтернативы К : th=tH при некотором О > 0 отвергает гипотезу Н при малых значениях произведения • «I L7“l Указание: а) Р = l, ... , Р<=4]= Р [Zj <...<Zt]= = f .- - J П th e dzi ...dz4. zj<...<z*l=l 6) P [Qi — 91» ...» Qt—9<] — P <••• < 9. а) Предполагая, что формула (9.1.17) задана, вывести формулу (9.1.19) для эффективности Питмена в сдвиговой гамма-модели. б) Проверить, согласуется ли результат Питмена е (W, 1)= 3/лс(9.1.17), если F — нормальное распределение. 10. а) Используя двусторонний Р-критернй из задачи 6.4.15, проверить гипотезу о том, что две выборки в примере 9.1.1 взяты из нормальных распреде- лений с, возможно, различными средними, но с равными дисперсиями. б) Используя решение Уэлча проблемы Беренса — Фишера из разд. 6.4.Б, получить новое р-значенне для гипотезы и альтернативы из примера 9.1.1. в) Проанализировать противоречия, если таковые возникают, в р-значе- ннях, полученных в задачах а) и б), а также в тексте. 11. Рассмотрим сдвиговую модель. Предполагая, что формула (9.1.17) вер- на, вычислить эффективность Питмена критерия Уилкоксона относительно/-кри- терия для следующих моделей: a) F — равномерное распределение UU (0, 1); б) F — экспоненциальное распределение ЕЕ (А); в) F — бета-распределение (1,3); г) F — распределение с плотностью ~ (1— Xs) При —1 1, 4 О в остальных случаях. 159
д) F-распределение с плотностью 1 ГУЧ f (х, а) =---------—— ехр (—|х г), —оо < х < <х>, а X). 2Г11 +—| к а 1 Указать значения эффективности для а = 0,5; 1; 1,5; 2 и 3. Указание: а) Воспользуйтесь тем,что J. . / 3 \ т** + “ Г 1 | | С f (х, a) dx = 1, С х® f (х, a) dx =------— , -« -« ЗГ [1 +—| к а / 12. Доказать, что эффективность Питмена (9.1.17) инвариантна относитель- но одинакового изменения параметра сдвига и (или) параметра масштаба двух выборок, т. е. что эффективность в случае F (х) = (х) совпадает с эффектив- ностью F (х) == Fo ((х — |л)/сг), где р. и а > 0 произвольны. 13. Для данных из табл. 9.1.2 вычислить доверительный интервал Уилкок- сона уровня 0,907 для Д и /-интервал (6.4.12) уровня 0,90. 14. Рассмотрим эксперимент по оценке влияния загрязнения окружающей среды на вес крыс. Через х обозначен вес крыс, содержавшихся в чистой окружа- ющей среде, через у — вес крыс, содержавшихся в загрязненной среде (с повы- шенным содержанием озона). Приняв сдвиговую модель, вычислить доверитель- ный интервал] Уилкоксона уровня 0,925 для параметра сдвига. X 397,4 409,9 419,1 381,9 409,5 323,4 398,2 410,5 У 369,6 338,1 353,2 356,6 386,7 395,2 399,0 400,5 15. Выбросом называется наблюдение, лежащее далеко от основного масси- ва данных. Выбросы часто происходят из-за неисправностей измерительной ап- паратуры, ошибки в фиксации или записи данных. В приводимом наборе данных с обозначает выброс. X 31,1 38,4 35,6 33,9 У 41,0 26,1 43,5 С а) Для изучения влияния выброса нанесите на один график Y — X н оцен- ку Ходжеса — Лемана Дп как функции от с. Какая оценка менее чувствительна к большим значениям с? б) То же, что и в задаче а), с Дв1в вместо At. 16. Доказать, что А~ обладает следующими свойствами: а) Да остается неизменной, если ко всем X и У прибавить одну и ту же по- стоянную; б) если ко всем У прибавить одну и ту же постоянную с, а X оставить неиз- менными, то Да увеличивается на с. 160
17. Доказать, что если F непрерывно, то Аа имеет непрерывное распределе- ние. «* Указание: Р ( Аа = с) < Р (Y}-Xt=c). /=»1 (=1 18. Доказать, что оценка Аа распределена симметрично относительно А если либо (1) = п2, либо (2) распределение F симметрично относительно неко- торой точки щ. Доказать, что если математическое ожидание Е (Да) существует и конечно, то и в случае (1), и в случае (2) Ла — несмещенная оценка для А. Указание' используя задачу 9 1.66, мы можем, не ограничивая общности положить А = 0 (вычесть А из всех Y). (1) Если А — 0, то (X, Y) ~ (Y, X). Кроме того, Да (к, у) = — Да (у,х). (2) Исходя из задачи 9 1.6а мы можем, не ограничивая общности, положить Pi — 0. Учтите также, что (—X, —Y) ~ (X, Y). 19. Оценка Т с непрерывным распределением называется медианой, не сме- щенной для параметра О, если (Т О) = Доказать, что если произведе- ние Л1П2 нечетно, то Да — медиана, не смещенная для А. Указание' статистика D(j) с эквивалентна U (X, Y — с) -С nin2 — /. 20. Пусть = п2. Пользуясь формулой (9.1 25) и центральной предельной теоремой, доказать, что эффективность оценки Ходжеса — Лемана Да относи- тельно Y —~Х в смысле разд. 4.4 В определяется соотношением (9.1.17). 21- Предположим, что мы наблюдаем две независимые выборки Xt,..., Хщ» ^1» извлеченные из распределений F н G, для которых мы предпо- лагаем следующую модель: где Fo — неизвестное непрерывное распределение, симметричное относительно нуля, ц, а нт также неизвестны. Для проверки гипотезы Н : а — т относительно альтернативы X : т > cr (G имеет большую дисперсию, чем F) Зигель и Тьюки предложили следующий критерий. Упорядочим наблюдения. Припишем на- именьшему «ранг» 1, наибольшему — «ранг» 2, наибольшему из оставшихся — «ранг» 3, наименьшему из оставшихся — «ранг» 4, третьему «снизу» — «ранг» 5, третьему «сверху» — «ранг» 6 и т. д. Пусть ПТу — сумма «рангов», соответст- вующая выборке У. Условимся отвергать гипотезу при больших значениях Ws. а) Доказать, что если распределение F — G непрерывно, то имеет рас- пределение двухвыборочной статистики Уилкоксона в случае, когда верна гипо- теза Я. б) Рассмотреть вопрос о пригодности статистики для приведенной нами модели. Подробнее о критерии Зигеля — Тьюки и других критериях см в книге Лемана'|(24]. 22.'(Леман’(24]). Предположим, что связи, наложенные на наши наблюде- ния Хь...» Хпг У1, ..., У„4, обусловлены округлением непрерывных наблюде- ний Х(....Хп,, У1.—» Ул». Выберем для непрерывных наблюдений сдвиговую модель с параметром А и будем считать, что Xj, Yj получаются при округлении X/ 7У/ до ближайшего из значений 0, ± 6, ± 26, ..., где б — некоторое задан- нос’число. 6 Зак. 1313 611
а) Доказать, что если Л — одно из чисел 0, ±6, 4-26, •» то вероятность на- крытия Д интервалом (9.1.22) больше или равна (1 — а). б) Привести пример, показывающий, что при общем Д на< 1 доверитель- ный уровень интервала (9.1.22) может быть равным нулю. в) Доказать, что при общем Д интервал —6, D(nt n2-ko+i) т 6) на- крывает Д с вероятностью, которая больше или равна (1 — а). Указание-, а) обратите внимание, что из неравенства X/ <. Yi — Д следует Xt Yj — Д и что из неравенства X* > Yj — Д следует Xt > Yj — Д. б) Попробуйте воспользоваться б = 1; F — (/(/ (Vj, 1), Д — 1/4, nj = 1 и л8 = 2. Задачи к разд. 9.2 1. а) Доказать, что мощность знакового критерия можно аппроксимировать выражением где р = Р [Zt > 0). б) Используя аппроксимацию мощности из а), найти объем выборки ns (а, Ро, p/о, F), необходимый для того, чтобы знаковый критерий уровн я а имел мощность Ро относительно альтернативы F = NN (р, с1), если а = 0,05; ₽0 — = 0,9 и р/о — 0,25. в) Рассмотреть модель F (г) = Fo (z — Д), где Fo — распределение, сим- метричное относительно нуля. Доказать, что если ^--с/'Д/п, с > 0, то мощность Ps (Дп) знакового критерия сходится к Ф (г (а) 4- 2 с/0 (0)). г) Вычислить аппроксимации из а) и в) для модели из б) с а — 0,05 и л = == 50, р'о — 0,50; л —100, р/а — 0,35; л = 500, р/а = 0,15. д) Аппроксимацию из в) запишем в виде Ф (z (а) 2ДпД/п/о (0)). Решить задачу б), используя это представление аппроксимации. Доказать, что в общем случае оно приводит к Ъ 1г (₽о)-z (а))=/4Д3 (0), Указание: в) по теореме Пойа ₽9 (Дп) имеет предел Ф (г (а) + 2 lim п X X Воспользуйтесь соотношением (р — х/г) = 6 1 [Fo (0) — — Fo (— с/Ул)1. е) с =n V п р • 2. а) Доказать, что для модели F (г) = Fo (г — Д) мощность /-критерия можно аппроксимировать выражением ф (г (а) + 1/л Д/а). б) Решить задачу 16) с помощью этой аппроксимации и /-критерия. Резуль- тат обозначить rij в) Вычислить niirii, где величина л, определена так же. как в задаче 16). Полученное отношение сравнить со значением 2/л, приведенным в тексте. Вычис- лить ntlna, где величина лв определена так же, как в задаче 1г). г) Доказать, что, когда используются аппроксимации задач 1г) и 2а), от- ношение Л|/л, » 4a3/J (0), т. е. принимает приближенное значение, вычислен- ное Питменом. 3. а) Доказать, что, когда X и Y — независимые случайные величины с экспоненциальным распределением ЕЕ (Л), тогда Z«= Y — X имеет двойную экс- поненциальную плотность 162
б) Вычислить аппроксимации задач 1а) и 1в) для случая, когда Fo — двойное экспоненциальное распределение и п = 100, ДД = 0,3. 4. Рассмотрим модель F (г) « Fo (г — Д) с fo (?) =---—ГТ” ехр {—| z|а }; — оо < г < оо, а > 0. 2Г | 1 4-—) \ а / а) Доказать, что эффективность Питмена для знакового критерия относи- тельно /-критерия равна: б) Вычислить^ (а, 0 для а = 0,5; 1; 1,5; 2,0; 2,5 и 3,0. в) Вычислить limea(s, /) и lim ₽а($, t). а->0 а-*<» г) Найти (приближенно) такое значение а, для которого еа ($, 0=1. 5. Доказать, что знаковый критерий имеет уровень а для более широкой ги- потезы Н' : F (/) > 1 — F (— I). 6. Доказать, что распределение статистики S, если верна гипотеза Н, сим- метрично относительно (V2) п. 7. Условный знаковый критерий. Рассмотрим эксперимент с подобранными парами. Пусть (Xn Yj),..., (Хл, Уп)> как и в тексте, означают наблюдения, N — число таких пар, в которых Xt = Yit и S — знаковая статистика. а) Доказать, что условное распределение статистики S при N = п0 совпада- ет с биномиальным распределением ВВ (п — nD, Р [Z > 0 ] Z =£ 0]). б) Доказать, что если гипотеза отрицает какой-либо эффект обработки, то условное распределение статистики S совпадает с биномиальным распределением ВВ (п — п0, х4). 8. Следующие данные о действии снотворного были приведены в гл. 6. 1,2; 2,4; 1,3; 0,0; 1,0; 1,8; 0,80; 4,6; 1,4. Если альтернатива утверждает, что Р (Z > 0) > 1/2, то чему равна вероятность значимости для условного знакового критерия из задачи 7? 9. Рассмотрим данные из табл. 7.3.6. Пусть Zi — разности в напряжениях На разрыв между листом 1 и листом 2,- Для односторонней альтернативы (9.2.3) найти вероятность значимости, используя: а) знаковый критерий; б) знаковый ранговый критерий Уилкоксона. 10. Приняв гипотезу F (/) = 1 — F (— /), вычислить: / з \ а) Р I ) ПРИ п = 3, V=i / (4 \ У iSi С 10 | при я = 4, / (ЕЖ 1 / в) Р (max Sj | min Pt|) при n — 4. 11. Одновыборочной статистикой превышения Tu называется число поло- жительных Zh которые больше абсолютной величины наименьшего отрицатель- ного Zj. а) Выразить Тп как функцию знаковых критериев. б) Доказать, что если верна гипотеза разд. 9.2, то Р [Тп = 2~k, k —Q, ...,п. Указание-, воспользуйтесь теоремой 9.2.1. 12. Пусть Fo — равномерное распределение на [— 1,1] и F (z) = F (г — — Д), 0 < Д < 2. 6* 163
а) Доказать, что для этой модели Р (S=$, S=s] =2j|( ” ) д/ 7 s0 < / С То (s,s)j, где Тп — статистика превышения. б) Пусть а-2“* — уровень критерия с критической областью вида Доказать, что этот критерий равномерно наиболее мощный среди всех знаковых ранговых критериев для проверки гипотезы Н :Д = 0 относительно альтерна- тивы К ; Д > 0. л Указание: а) запишите вероятность Р [S = s, S = sj в виде У, Р [S = в, /“I S = s ] Лу] Р (Aj), где Ау — событие, состоящее в том, что «ровно / из пре- вышают 1 — Д». • 6) L (s, 5, 0, Д) = Р [S — s, 3 з] — возрастающая функция от Тп. 13. Вывести следующее тождество, аналогичное (9.1.7); 14. Доказать, что распределение статистики IF симметрично относительно п (п + 1), если верна гипотеза Н. Указание: воспользуйтесь задачей 9.2.13. 16. Пусть Z — Д = (Zx — А,..., 2п — Д). Доказать, что k< w (z-д) < м- k «=> д е [Л(А), л(М_>+ н вывести утверждение (9.2.13). 16. Доказать, что (|Zt I...|Zn|) и (lt, .... Zn) независимы. Указание: Р l]Zt |< 1,/Х = 1] = Р [0< Zx С Zj=-^-P [(Zj |< 1], так как л» Zi имеет симметричное распределение. Обобщите это рассуждение. 17. Доказать, что /Oj, ..., 1О —независимые случайные величины с распре- делением В В (1, 1/2). Указание: пусть — величины, равные нулю или единице, £ = I......п. Тогда Р [Zpjt.. • ^д>п=®п]—- = SF =Bi,...» 7fcn=Bn] Р 1(^1•• • • Р^п) = (^1» • • •» ^п)]> где суммирование производится по всем перестановкам (Л,,..., kn) чисел [1, ..., nJ. Задачи к разд. 9.3 1. Доказать, что если р — 2, то статистика Краскела — Уоллиса Т — (W — — L ( W) )2/Var (W), rflfi Е (IF), Var (IF) можно получить, применив (9.1.11) к (9.1.7). 2. Статистикой средних рангов Краскела — Уоллиса называется величина где R*. — среднее средних рангов для i -й выборки; е — число различных наблю- дений в выборках; ti — число наблюдений, связанных с r-м по величине наблю- дением. Статистика Т* имеет приближенно распределение Х₽—ь а) Вычислить Т* для данных, приведенных в табл 7.3.3. Отклоняется лн гипотеза И при а = 0,10? 6) Вычислить Т* для данных из примера 7.4.1. Отклоняется лн гипотеза Н при а - 0,01? 164
3. Доказать, чТО 12 Ъ п1 Я*.—3 (n -J-1)» 12 & - , tl S niм‘-з(п+о «(« + !) , . * 4. Рассмотрим план с двумя признаками из разд. 7.3, Пусть Rtjh — ранг величины Kfjfc в множестве ср наблюдений блока }. Для проверки гипотезы // : ах = ... = а.р — 0 Фридманом предложена следующая статистика: 12cf> р(р+1) Ь / 1 V При подходящих условиях, если верна гипотеза Я, Т имеет приближенно рас- пределение Хр—1- а) Доказать, что статистика Фридмана эквивалентна статистике, которая получается при подстановке в (7.3 29) Рцъ. вместо Y цъ. б) Заменим предположения нормальной линейной модели гипотезой PlVifli •< х] = F (x — p. — ctj — pj), где F — непрерывное, но неизвестное распреде- ление, a ctf и pj удовлетворяют соотношению (7.3.25). Доказать, что если верна гипотеза Я, то распределение статистики Т не зависит от F, р и Pj. в) Доказать, что если р = 2, с — 1, то критерий Фридмана с критическими значениями распределения х? сводится к двустороннему знаковому распределе- нию, основанному на разностях (Ухд —У2д), с нормальными критическими зна- чениями. Примечанием более подробно о критерии Фридмана и связанных с ним кри- териях см. в книге Лемана (24, р. 262]. Задачи к разд. 9.4 1. Доказать, что если Vn ( Ylt ..., Yn) определяется выражением (7.3.16) и Rt..Rn — ранги статистик Yt,.... Yn, то Vntti.....Rn)-A ^XtRt + B, /=1 где Л > 0 и В зависят только от Хх.... Хп. Указание: 2 (Yt—рх—р, х£)«=ХУ/ —«У» -~р| S (xf —х)«. 2. Выбор без возвращения. Пусть {ах, ..., aN} — конечная совокупность чисел. Будем извлекать из нее случайным образом без возвращения элементы и обозначим выборку, которая при этом получится, через (Хх,.... XN). Тогда Р ..............Хл/-л^]=(Я!)-1 для любой перестановки ..., iN) чисел (1, .... AJ. а) Доказать, что при всех п •< N и всех перестановках (ix, ..., in) чисел (1, ..., л] выборка (Xit, .... Xfn) имеет такое же распределение, как и (Хх, ..., Хп). б) Доказать, что £ (Хх) = ,..=£ (Xjy) «а, N Var(Xx)=...=Var(XN)=X-i (а,-п)«. /ж] 165
При всех i Ф J N Cov(X,, X2)=^Cov(X/t X,)=-|.V(.V-l)]-i to-a)4. <=1 в) Доказать, что если X = (Xj 4~ ... -г Хп) /я, то £ (X) = Е (XJ, Var(X) = ^^.^ . п N— 1 Первый член в Var (X) представляет собой нс что иное, как дисперсию сред- него, если выбор производится с возвращением Второй член принято называть поправкой конечной совокупности / N \ N Указание: б) WE (Xj) = E I 5^ Xf I — 2i ui> \/e=I / /= i / N \ iV Var(Xj)-|-A/(A' —l)Cov (Xlf Xt) = Var( 2 xi)=0 \i=l / 3 . Вывести соотношение (9.4.5) и (9.4.6) с помощью задачи 9.4 26). 4 а) Проверить гипотезу // : 02 = О относительно альтернативы К ' ₽а > >0для примера с фосфором из разд. 3.2, используя статистику U из (9.4.2). Предполагается, что применима нормальная аппроксимация с моментами, за- даваемыми выражениями (9 4 5) и (9.4.6). б) Проверить ту же гипотезу, используя статистику D и табл. VIII. 5. Вычислить статистику D для данных разд. 6.5.А. Отвергается ли статис- тика на уровне а = 0,10? Чему равен коэффициент корреляции Спирмена? п 6. а) Доказать, что если гипотеза верна, то распределение статистики 2,’$1 симметрично относительно л (л -р l)s. б) Доказать, что если гипотеза верна, то распределение статистики D сим- метрично относительно g- (л3 — л). Указание: а) Если положить Si — л 1 — St, то и 2‘$< имеют оди- наковое распределение при условии, что гипотеза верна. 7. Альтернативное представление статистики ZiR;. Доказать, что в от- сутствии связей XiRi л(л-Ц)(л4-2) 6 где величины Utj равны нулю или единице в зависимости от того, какое из нера- венств выполняется: Xj> Xj или XjC Xj. Указание: Rj — Utj • f 1. Задачи к разд. 9.5 1. Для следующих х2, .... xn-I построить кривые чувствительности медианы, урезанного среднего (с долей урезания 1/6), среднего и медианы оценки Ходже- 1 1 са— Лемана — (X/ -г Xj) : I /|. Параметр |л положить равным нулю: а) —0,2; —0,1; 0; 0,1; 0,2; б) —1,163; -0,495; 0, 1,163; 0,495. 166
2. Вычислить асимптотическую эффективность Ха относительно X для сле- дующих распределений при а = 0,10; 0,15; 0,20; 0,25; a) F— распределение, равномерное на (—1,1), 3 — (1 — X2) при—1<Л<1, 4 0 в остальных случаях, б) /<х) = в) F — нормальное распределение NN (0, о2). а Указание: в) J хг <р (х) dx — — aq (а) 4- Ф (а)—V2 • о 3. Предположим, что данные об уровне холестерина в крови из задачи 9.1.2 распределены в каждой возрастной группе симметрично относительно среднего уровня холестерина: щ (20 — 30 лет) и (40 — 50 лет). а) Вычислить оценки урезанного среднего для pj н р,, используя долю урезания 1/11. б) Вычислить доверительный интервал уровня 0,95 для Pi в щ с помощью (9.5.10). в) Решить задачи а) и б), используя стандартный одновыборочный нормаль- ный подход (средние и I - интервалы). Сравнить полученные результаты с реше- ниями задач а) и б). 4 Для данных из задачи 9.1.2 проверить на 5%-ном уровне гипотезу Н : рх = ра относительно альтернативы К : щ используя: а) односторонний вариант t - критерия урезанного среднего (9.5.17); б) односторонний двухвыборочный / критерий. Сравнить результаты с по- лученными в задачах 9.1.2 на основе критерия Уилкоксона. 5. Рассмотрим сдвиговую модель на основе данных из задачи 6.4.7. Вычис- лить доверительный интервал уровня 0,95 для эффекта от приема лекарства, используя: а) двухвыборочный интервал Уилкоксона из разд. 9.1; б) интервал урезанного среднего (9.5.16) с долей урезания 1/5; в) сравнить с интервалом, полученным в задаче 6.4.7, и обсудить все замечен- ные различия. 6. Пусть pk — плотность распределения ТТъ, заданная соотношением (1.3.10). а) Доказать, что Ph (x) dx ^2k k—l k~2 a /(fe —2)/Л a I Pk-г (x)dx— I Ph(x)dx о 0 б) Пользуясь задачей а) н линейной интерполяцией, получить эффективность Ха относительно X при k = 4, 8, 10, а = 0,15; 0,25. В задачах 7 — 9 требуется установить асимптотические свойства порядко- вых статистик. Пусть Xit .... Хп — выборка из генеральной совокупности с непрерывной и строго возрастающей функцией распределения F; Хщ,..., Х(п)- порядковые статистики этой выборки и Fn—эмпирическая функция распределе- ния выборки, определенная в задаче 3.1.5. 7. Состоятельность порядковых статистик. а) Доказать, что P[X(ft)>xJ = P [nFn(x)<ft—1J. б) Доказать, что если /<; F (х), то Р iK (х) < /] < (/- F (х))-* Е (Fn (x)-F (х))‘ < (/—F (х))-< -4- , 167
Если / > F (х), то р [?„(*)>/] <(/-/•(*))-*-4-, ft* где А — универсальная постоянная. в) Доказать, что если 0 < / < I н knln -* t при п -к со, то Указание: б) nFn (х) имеет распределение ВВ (п, F (х) ), в) Р П (/) | > е] < Р [пЯ; (в + Р-i (/))<*„-!] + + P[«Pn(-e-|-F-’ (0)>*п]. 8. Асимптотическая нормальность порядковых статистик. Пусть F име- ет такую плотность /, что f (F-1 (/)) > 0. Доказать, что если k — [л/], 0 < i < 1, то LL (Vn (X(fe) - P-i (0)) -> NN (0,/ (I - 0 If* (P-i (/))). Можно предположить, что теорема Муавра — Лапласа выполняется даже для последовательности биномиальных случайных величин, в которой р = рп зависит от п, но рп t, 0 < / < 1. Указание: Р [ Vn (X{k) - F“* (Z)) < x] = P [n£i (F"1 (Z) +*/V«) > A]. Обозна- чим Pn = F(F-! (/)4-x/V«) и заметим, что pn -► t при n ->a и n (pn—t) — x F F-i(Z)4- — vn -F(F-^t)) I 2 xn ^xf(F-Ht)). 9. Асимптотическая нормальность медианы. Предположим, что выполне- ны условия задачи 9.5.8, распределение симметрично относительно р. н f (р) > 0. Доказать, что и (Vn (Х-р)) -> NN (о, 4/>* J, когда п неограниченно возрастает^ принимая только нечетные значения. (Соотно- шение остается в силе и при четных л.) Можно показать, что если F имеет конечный второй момент, то при п -> оо П Var Х = Е ( Vn (X—р))4 -> . 4f*(p) 10. Оценка б (X) называется трансляционно эквивариантной, если при лю- бых xt хп, с 6 (Xi 4- С, .... Хп + с) = б (Хр .... Хп) + с. Оценка б (X) называется антисимметричной, если при любых xj....хп б (XJ, ..., ХП) = — б (—Xi...— хп). а) Доказать, что X, X, Ха трансляционно эквивариантпы и антисиммет- ричны. б) Пусть Х±, ..., Хп — выборка из генеральной совокупности с функцией распределения F (х — ц), где ц неизвестно, а разность Xf — ц симметрично распределена относительно нуля. Доказать, что если оценка б трансляционно 168
ЭКйквйрийнтпа и антисимметрична, Математическое Ожидание Ёо (6 (X)) сущест- вует и конечно, то Ец (б (X)) - р (т. е. S — несмещенная оценка для р). Доказать также, что X, Ха и X — несме- щенные оценки центра симметрии симметричного распределения. И. Пусть а = kin, где 2k < п. Рассмотрим следующую функцию, опреде- ленную на пространстве функций распределения Т (F) = (1-2 а)’* Ер (h (X, F)), где h(x, F) — при — <F(x)<l-—, л п О в остальных случаях. Альтернативное представление той же функции распределения имеет вид: F~* (I—а) T(F)=(1 — 2a)-i f xdF(x). F~l (а) а) Доказать, что если F (х — р) = 1 — F ( — х + р — 0), то Т (F) — р. б) Доказать, что Т (Fn) = Ха> т. е. что урезанное среднее есть оценка под- становки частот. Задачи к разд. 9.6 1. Для следующих данных вычислить Dn и проверить гипотезу нормально- сти на уровне а = 0, 10, используя табл. 9.6.2: а) х — выборка из задачи 9.1.3, б) у — выборка из задачи 9.1.3, в) данные из примера 9.6.1. 2. а) Доказать, что мощность Рр [£>n > Att] критерия Колмогорова ограни* чена снизу величиной sup Рр[jFn(х)- FoU)I> • * Указание: £>п>|Л»(х)—F0(x)| при любом х. б) Пусть Fo — стандартное нормальное распределение NN (0, 1) н F (х) — — (1 + ехр ( — х/т))-1, гдет — величина, выбранная из условия j xW (х) = 1. — с» (Fo — логическое распределение с нулевым средним и дисперсией, равной еди- нице.) Вычислить эту границу для а = 0,10, п = 80 и х — 0,5, 1 и 1, 5, исполь- зуя нормальную аппроксимацию биномиального распределения статистики nFn (х) и следующие условия: (1) Ла = 0,135 при а=0,Ю; (2) Если X имеет плотность (9.1.18), то ОО Var(X)=4 2 ft = I ( — !)*+1 л« А» = 3 3. Примером 5.1.3 можно воспользоваться при построении доверительного интервала для F (х) при заданном х. Сравнивая с этим интервалом полосу [Fn (х) — с, Fn (*) + d. мы можем судить о том, сколько теряем, настаивая не- пременно на совместной полосе. Сравнить ширину 2с совместной полосы с шири- ной полосы (5.1.13) при а = 0,10 (с = 0,135), п = 80 и *Fn (л) == f f и 4 • 169
;; 4. Пусть F (f) = Р I — X <С d, Fn — эмпирическое распределение в£лй- чин — “—Л/! и /5n=sup |fn(x)- Fn (х)]. X Доказать, что Dn имеет одно и то же распределение для всех непрерывно возрастающих распределений Ft удовлетворяющих (при любом х) соотношению F (х) = F (х). Указание: Dn = sup | Fn (F-1 (и + Чs)) — Fn (f-i (и 4-1/s))|. 5. Рассмотрим гипотезу H: «распределение F симметрично относительно нуля». Известно*, что если_ гипотеза 11 верна, то «осторожной» аппроксимацией вероятности Р [Dn > ti~Vn 1 служит величина 4 Ф ( — /). а) Пользуясь этой аппроксимацией, проверить на уровне а = 0,10 в при- мере 9.6.1, что Xi имеют распределение, симметричное относительно [Ло = 370,6. б) Проделать то же для данных из примера 9.6.2 с ц.о = 4,1. 6. Построить график Ф-1 (F (х)) для: а) логистического распределения F— l/[l + ev], б) экспоненциального распределения F (х) = 1 — е~х. 7. Доказать, что если функция f непрерывна, Лп -» 0 и nhn -* оо , то Ш f?(x) - е (Г(x))i/V 7 (х) сходится по распределению к стандартной нор- мальной случайной величине. Указание: по теореме Слуцкого достаточно доказать, что LL(-]/2^ [7(x)-£(?W)]/V7w)->^(0, 1), а затем воспользоваться биномиальным распределением величины 2 nhn f (х). 8. Предположим, что /" существует и непрерывна в точке х. а) Доказать, что если hn = cn—при некоторых с > 0 и 6 £ (— Чь, */в), то среднеквадратическую оценку £ [/ (х) — f (х)]2 можно аппроксимиро- вать следующим образом: 4 пЬ £[f(x)-f(*)la~ -^-/(х)лй-}-^[Г(*)]2«“40. ZC оо где означает, что отношение величин, стоящих слева и справа, сходится к еди- нице. Таким образом, выбор 6 = 0 асимптотически оптимален. б) Розенблатт рекомендует выбирать 6 = 0, с = 1,95 о. Вычислить полу- чающуюся при этом приближенную среднеквадратическую оценку для случая, когда F — распределение NN (0, 1). 9. Пусть f—гистограмма, определение которой приведено в примечаниях. Доказать, что если величина а задана, п -> оо , Лп 0, nhn -с w и / нсирерыв- ~ Р на, то f —» f (х) при всех х. 10. Для измерения «на глаз» расхождения между генеральной совокупно- стью, из которой извлечена выборка, и предполагаемой плотностью/0 были пред- ложены различные модификации разности f — f0- В частности, Тьюки предло- жил висячую корнеграмму VJ — V/<r" Доказать, что тесно связанные между собой функции r(x)^V7W~У/о (*). 7(*)= г 7(*) обладают следующим свойством. * В u t 1 е г С. (1969). A test for symmetry using the sample d. f, — Ann. Math. Stat., 40, 2209—2210. 170
Предположим, что f" существует и ограниченна и что nhn -*• 0, nhn <®. Тогда 1/2 nh^ (г (х) — г (х)) имеет асимптотически предельное распределение NN (О, V4), т. е. /?(х) ±z( ) I V8nhn задает для 1/f(x) асимптотический доверительный интервал уровня (1 — а). Указание: воспользуйтесь теоремой П.14.17. 11. Пусть Fe (х) »= (1 — е) Ф (х) -г е Ф (х/т), где т > 1. а) Доказать, что sup | Ф (х)—Ре (х) | = 8 1 Ф (хт) — Ф (хх/т) ], х где 21пт т2—1 б) Пусть Xj,..., Хп — выборка из распределения F& где s предполагается неизвестным. Рассмотрим критерий, отвергающий гипотезу Н: е = Оотноситель* но альтернативы К: £ > 0, в том и только в том случае, если Р п (*%) с • где лс /л\ / = 0 V/ Пользуясь нормальной аппроксимацией биномиального распределения, найти аппроксимацию мощности критерия при фиксированных е >• 0, х > 1 и боль- шом п. в) Используя аппроксимацию из задачи б), найти аппроксимацию к п (е, т) — минимальному объему выборки, необходимому для достижения мощ- ности 1/2 относительно альтернативы из задачи б). г) Вычислить п (е, т) для а = 0,05, е = 0,05; 0,10; 0,15; 0,20, х = 3,4. Полученные результаты помогут составить представление о том, что можно ожидать в рассматриваемой ситуации от критерия Колмогорова. 12. Исследовать асимптотическую мощность одностороннего критерия на ос- нове выборочного коэффициента эксцесса у2 относительно альтернатив предыду- щей задачи, используя следующую аппроксимацию (к сожалению, ненадежную при малых п): Р [ 1/п у2 > х] « 1 — Ф [(х— 1/п р (4))/о (4)1, где 1* (4) = Т2 — 3, о2 (4) — Var и а2 = Var (X). а) Вычислить р (4) и о2 (4) как функции от е, т при о2 = 1. б) Вычислить аппроксимацию мощности на основе приведенной выше асимп- тотической формулы для а = 0,05; е = 0,1; 0,15; х = 3; 4; п = 100; 400, 900. 171
13. Слабая теорема Гливенко—Кантелли. Пусть Хх, ..., Хп—выборка из генеральной совокупности с непрерывной функцией распределения F. Доказать что Dn=sup |Fn(x)—Г(х)|-Л-О, X (*) установив следующее: а) если предельный переход (•) выполняется для функции равномерного рас- пределения UU (0, 1), то он выполняется для всех непрерывных F; б) если F — функция распределения UU(Ot 1), то {I £ I I (k— — L max —----------- Л I ' ' л | k 1 < ' n > 8 <------. ' Л где X(i}< ...< порядковые статистики выборки из распределения UU (О, 1): Г I Л 1 4, г .) Flmx х|4)_— >в *<*> — J I Указание: а) воспользуйтесь теоремой 9.6.1; б) воспользуйтесь задачей 9.5.76. Примечание. Эта теорема выполняется не только для непрерывных функ- ций распределения F, причем сходимость по вероятности в ее формулировке мо- жет быть заменена почти строгой сходимостью. 14. С помощью теоремы Гливенко — Кантелли дать другое доказательство состоятельности порядковых статистик (задача 9.5.7в). 9.9. БИБЛИОГРАФИЯ 1. В i с k е 1 Р. J. (1965). On some robust estimates of location. — Ann. Math. Statist., 43, 847—858. 2. Bickel P. J. (1973). Analogues of linear combinations of order statistics in the general linear model. — Ann. Statist., I, 597—616. 3. В 1 с к e 1 P, J. and Rosenblatt M. (1973). On some global measures of the deviations density function estimates.— Ann. Statist., I, 1071—1096. 4. Biometrica Tables for Statisticians (1966), vol. I. 3rd Edition. Pearson E.S. and Hartley H.O. editors. Cambridge University Press, Cambridge. 5. BirnbaumZ. W. (1952). Numerical tabulation of the distribution of Kol- mogorov’s statistic... — J. Amer. Statist. Assoc., 47, 425—441. 6. Dixon W. (1953). Power functions of the sign test and power efficiency for normal alternatives.— Ann. Math- Statist., 24, 467 — 473. 7. D u r b i n J. (1973). Distribution theory for tests based on the sample dis- tribution function. — Regional Conference Series in Applied Mathematics, 9. SIAM, Phil.. Penn. 8. Feller W. (1971). An Introduction to Probability Theory and Its Appli- cations, vol. II. 2nd Edition. J. Wiley & Sons, New York. Русский перевод: Ф e л л e p В. Введение в теорию вероятностей и ее приложения. М., Физмат- гиз, 1963. 9. FIsbM. (1963). Probability Theory and Mathematical Statistics, J. Wiley & sons. New York. 10. Hiiek J. and S i d 3 к Z. (1967). Theory of Rank Tests. Academic Press. New York. Русский перевод: Гаек Я., Ш и д а к 3. Теория ранговых кри- териев. М., Наука, 1971. 11. Hampel F. (1973). Robust estimation: a condensed partial survey. — Z. Wahrscheinlichkeitstheorie verw. Geblcte, 27, 87—104. 12. H a m p e 1 F. (1974). The influence curve and its role In robust estimation.— — J. Amer. Statist. Assoc., 69, 383—393. 13. Hod g”e s J. L./Jr. and Lehmann E. L. (1963). Estimates of location based on rank tests. — Ann. Math Statist., 34, 598—611. 172
14. Hodges J. I... Ir. and Lehmann E. L. (1956). The efficiency of some nonparametric competitors of the t-test. — Ann. Math. Statist , 27, 324—335. 15. Hodges J. I.., Jr. and L e h m a n n E. L. (1968). A compact table of the power of the t-test. — Ann. Math. Statist., 39, 1629—1637. 16. H о g g E. (1974). Adaptive robust procedures. —J. Amer. Statist. Assoc.. 69, 909—927. 17. H u b e r P. J. (1972). Robust statistics: a review. — Ann. Math. Statist., 43, 1041—1067. 18. H u b e r P. L. (1973). Robust regression...—Ann. Statist., I, 799—821. 19. Huber P. J. (1970). Studentizing robust estimates. — In: Nonparametric Techniques in Statistical Inference, Puri M. L. editor, Cambridge University Press. Cambridge. 20. J a e с к e 1 L. A. (1971). Robust estimates of location... — Ann. Math. Statist., 42, 1020—1034. 21. Lehn a nn E. L. (1953). The powerof rank tests. — Ann. Math. Statist., 24, 28—43. 22. Lehmann'F.. L. (1959). Testing Statistical Hypotheses. — J. Wi- ley &son$, New York. Русский перевод: Леман Э. Проверка статисти- ческих гипотез. М., Наука, 1964. 23. Lehmann Е. L. (1963). Nonparametric confidence intervals for a shift parameter. — Ann. Math. Statist., 34, 1507—1512 24. Lehmann E. L. (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden—Dav. San Francisco. 25. National Bureau of Standards (1959). Tables of the bivariate normal distri- bution function and related functions. — Appl. Math. Ser., 50. 26. Noether G. (1955). On a theory of Pitman. — Ann. Math. Statist., 26, 64-68. 27. N о e t h c r G. (1963). Note on the Kolmogorov statistic in discrete case. — Metrica, 7, 115—116. 28. R о s e n b 1 a t t M. (1971). Curve estimates. — Ann. Math. Statist., 42, 1815—1842. 29. S h a p i г о S. S. and Wilk M (1965). An analysis of variance test for normality (complete samples). — Biometrica, 52, 591—611. 30. S h a p i г о S. S., Wilk M and Chen H. (1968). A comparative study of various tests for normality. —J. Amer. Statist. Assoc., 63, 1343 — 1372. 31. Shapiro S. S. and Francia R. S. (1972). An approximate analy- sis of variance test for normality. — J. Amer. Statist. Assoc., 67, 215—216- 32. Stephens M. (1974). E.D.F. statistics for goodness of fit. — J. Amer. Statist., 69, 730—737. 33. Tu key J. W. (1960). A survey of sampling from contaminated distribu- tions. In: Contrubutions to Probability and Statistics. Stanford University Press, Olkin I. ei al. editors, 448—485. 34 T u k e у .1. W. and McLaughlin D. (1963). Less vulnerable confidence and significance procedures... — Sankhya, Ser. A, 25, 331—352. 35. T u k e у J. W. (1972). Exploratory Data Analysis, Preliminary Edition. — Addison—Wesley, Reading, MA. 36. V e n t e r J. and Wet T. de (1972). Asymptotic distribution of certain test... — S. Afr. Statist. J., 6, 135—149. 37. van Zwet W. R. (1964). Convex Transformations of Random Variables, Math. Centrum. Amsterdam.
Глава 10. ф ТЕОРИЯ РЕШЕНИИ В гом виде, как она была создана А. Вальдом и изложена в его мо- нографии 112], теория решений представляет собой обобщение теории проверки гипотез, оценивания и доверительных областей, рассмотре- нием которой мы занимались до сих пор. Она позволяет строить мо- дели ситуаций, для описания которых классическая теория неадек- ватна. Приводимая ниже серия примеров показывает, в каком направ- лении производится обобщение. а) Рассмотрим пример 2.1.1 с выборочной проверкой. Правдопо- добно предположить, что известны и стоимость проверки, и стоимость принятия партии с ЛН> бракованными изделиями, и стоимость возвра- та партии изготовителю. Традиционная мера «действенности» кри- терия — функция мощности — неадекватна, так как не учитывает ни одно из этих чисел. б) На основе данных о спросе на продукцию владелец предприя- тия должен принять решение, следует ли производство расширить, сократить или продолжать на прежнем уровне. Каждому из трех воз- можных вариантов действий и возможных значений истинного потен- циала рынка в отношении производимой продукции владелец пред- приятия может сопоставить некую грубую меру падения или наращи- вания своего потенциала. Обычная схема проверки гипотезы неадек- ватна из-за того, что имеется несколько возможных действий. Оцени- вание истинного потенциала рынка может представлять интерес, но среднеквадратическая оценка не может служить мерой спроса. в) Нередко задачи, которые на первый взгляд кажутся двусторон- ними критериями для проверки какой-нибудь гипотезы, в действи- тельности приводят к одному из трех возможных действий. Напри- мер, если мы хотим изучить, влияет ли новое лекарство на кровяное давление и как влияет, то можно начать с проверки двусторонней ги- потезы о том, что прием лекарства не дает никакого эффекта, относи- тельно альтернативы, что какой-то эффект имеется. Разумеется, если гипотеза отклоняется, то нам хотелось бы знать, повышается или по- нижается кровяное давление от приема лекарства. Таким образом, мы рассматриваем по крайней мерс три действия: «эффекта нет», «кро- вяное давление повышается», «кровяное давление понижается». г) Торговая организация подготавливает отчет об испытаниях об- разцов кондиционеров нескольких марок. На основе этих образцов требуется ранжировать кондиционеры различных марок. Если число марок равно k, то существует k\ различных ранжирований, или дейст- вий. И в этом случае ни оценивание, ни схема проверки гипотез не при- годны. 174
Теория решений устраняет трудности такого рода, формализуя раз- личные действия, которьге могут быть предприняты, и вводя в явном виде числовую функцию (функцию потерь или ущерба) следствий, вытекающих из каждого действия, при заданном «состоянии приро- ды» О. Как показывает третий пример, в научно-исследовательских за- дачах неоднозначность в установлении стоимости или потери может быть весьма большой1. В меньшей степени это относится к задачам, возникающим в деловой сфере, примером которых могут служить ситуации, допускающие хотя бы грубый перевод «на доллары и цен- ты». Именно в таких областях и находит основное применение теория решений. Несмотря на трудности установления потерь, теория решений ока- зала сильное и многообразное влияние на общую теорию статистики. 1) Она способствовала выяснению роли функций потерь, неявно применяемых при оценивании и проверке гипотез (см. разд. 10.1). 2) Использование правдоподобных, хотя и произвольных, функ- ций потерь позволило предложить и исследовать действие критериев и методов в ситуациях, выпадающих из рамок оценивания — провер- ки гипотез (см. разд. 10.2, 10.3). 3) Общая схема теории решений аналогична общей схеме теории игр. Изучение аналогий, существующих между этими теориями, при- вело к введению новых критериев эффективности и оценок, например минимаксности и допустимости, созданию новых и пересмотру старых методов (см. разд. 10.2). 4) Самое главное заключается в том, что теория решений расши- рила наше понимание взаимосвязи между «классическим» и байесов- ским подходом и важности последнего (см. разд. 10.2). 10.1. ЭЛЕМЕНТЫ ТЕОРИИ РЕШЕНИИ Как и в предыдущих главах, рассмотрим статистическую модель с вектором наблюдений X, распределение которого зависит от парамет- ра й. Можно считать, что он задает истинное «состояние природы». Параметр О принимает значения из известного параметрического прост- ранства, или пространства «состояний» О. Лицо, принимающее решения, или статистик имеет в своем распо- ряжении множество А возможных действий, называемое пространст- вом действий. Перечислим пространства действий в некоторых из примеров при проверке гипотез и оценивании. Пример (б): А — {а^ а2. а3), где соответствует расширению производства, а2 — сохранению прежнего уровня, а а3—свертыва- нию производства. Пример (г): если мы испытываем кондиционеры ранга 3, то А = = { (», /» А) • 1 С i =/=/¥= £ 3), где (t, j, k) означает, что i лучше /, а / лучше k. Проверка гипотезы: А — {0, 1}, где 0 соответствует принятию, а 1 — отклонению гипотезы Н. Оценивание: А — R (вещественная прямая). 175
Во всех этих примерах множество А можно отождествить с подмно- жеством некоторого евклидова пространства. Такое соответствие уда- ется установить всегда, и впредь мы будем предполагать, что А — (из- меримое) подмножество евклидова пространства2. Следующий элемент любой модели теории решения — функция по- терь I (О, а), выражающая величину потерь, причиняемых выбором действия а, если О— истинное состояние природы. Эту веществен- нозначную (измеримую) функцию, заданную на 6 X А, принято счи- тать неотрицательной3. Как уже отмечалось, на практике функцию потерь можно получить введением «прейскуранта» данных. Для тео- ретических целей проблемы рассматриваемого нами типа допускают правдоподобный выбор функций потерь. Чаще всего встречаются функции потерь следующих типов. Оценивание функции q (0). Квадратическая функция потерь: / (О, а) = (q (Ф) — а)2. Прэверка гипотезы Н : $ 6 0О относительно альтернативы К : € 61- Функция потерь «О или 1»: / (Ф, а) = О при Ф С 6О (правильное решение), 1 при О 0О (неправильное решение). Нам необходимо каким-то образом представить процесс, который использует статистик для принятия решения на основе имеющихся данных. Назовем решающим правилом или решающей функцией б лю- бую функцию из выборочного пространства Rn, принимающую зна- чения в А, Применение правила б означает, что если наблюдается X = х, то статистик производит действие б (х). Ясно, что в этом смысле и критерии, и оценки можно считать решающими правилами. Если б — применяемое решающее правило, I — функция потерь и 0 — истинное значение параметра, то наши потери являются слу- чайной величиной I (0, б (X)). Об эффективности б разумно судить по средним потерям R (О, б). По определению R (#, б) =*-£[/(#, б (X))]*. Назовем R (й, б) риском или функцией риска решающего правила б при заданном О. Все наши последующие критерии эффективности ре- шающего правила основаны на функциях риска от &. Теория решений позволяет рассматривать и проверку гипотез, и оценивание в том виде, как они изложены в предыдущих главах. Пред- положим, что при оценивании функции q ('&) мы выбираем квадратич- ную функцию потерь. Тогда Я (Ф, б) = Е [I (&, б (X))] = Е [б (X) - q (<>)12 (10.1.1) есть не что иное, как среднеквадратическая ошибка оценки б в смыс- ле разд. 4.1. • В этой главе все вероятности вычисляются при заданном О (если нет осо- бой оговорки). 176
С другой стороны, предположим, что мы проверяем гипотезу Н : О Е 60 относительно альтернативы К : О € ©i с функцией потерь типа 0 или 1. Тогда 6 есть величина, которую мы раньше называли кри- тической функцией (того или иного критерия). Кроме того, R (#. 6) = I (#, 0)Р 16 (X) - 0] 4- / (О, 1)Р [6 (X) = 1], (10.1.2) и, применяя определение функции потерь типа 0 или 1, мы получаем Я(М)= Р [6(Х)= 1] при Р [6 (X) = 0] при Ф Е ©!• (10.1.3) Следовательно, R С&, 6) задает в данном случае вероятности ошибок типа I и II. В заключение раздела продемонстрируем введенные нами понятия на простом примере, в котором 0 содержит два, а множество А — три элемента. Пример 10.1.1. Предположим, что существуют два возможных сос- тояния природы, которые мы обозначим ,0х и д2. Например, деталь не- которого станка либо работает, либо не работает; в данной местности либо есть нефть, либо нет нефти; пациент либо болен какой-то болезнью, либо этой болезни у него нет и т. д. Предположим, что принимающий решение может предпринять только три действия ах, а2 и а3. Примени- тельно к нашим примерам он может оставить деталь на месте, заменить или отремонтировать ее; произвести поисковое бурение, продать учас- ток земли или частично уступить права на него; действовать, прини- мать какие-то лекарства или занять выжидательную позицию и т. д. Предположим, что функция потерь принята на основе следующей та- блицы. Таблица 10.1.1. I (О, с) Бурение Продажа а* Уступка части прав Есть нефть, фх 0 10 5 Нет нефти, О2 12 1 6 Таким образом, если есть нефть и мы производим бурение, то потери равны нулю. Если же нефти нет и мы производим бурение, то потери составляют 12. Затем из эксперимента мы извлекаем информацию отно- сительно $ и получаем случайную величину X с допустимыми зна- чениями, которые обозначим 0 и 1, и функцию частоты р (х, О), за- данную следующей таблицей: 177
Т абл ипа 10.1 2. Р (•*, 0<), »= 1 > 2 х V Информация о породах 0 1 1 1 Есть нефть, vx 0.3 0,7 Нет нефти, vt 0.6 0,4 X», правило 62 - а2, если X = 1» и т. д. Таким образом, X можно интер- претировать как некоторую геологи- ческую информацию. Еслн.есть нефть, то известно, что нулевая информа- ция встречается с частотой 0,3, а единичная — с частотой 0,7. Если же нефти нет, то нулевая информация встречается с частотой 0,6, а единич- ная — с частотой 0,4. Все возмож- ные решающие правила представлены в габл. 10.1.3. Правило означает «предпринять действие аг независимо от значения X = 0, и действие - «предпринять действие alt если Таблица 10.1.3 Возможные решающие правила (х) X. 1 х 1 2 3 4 о 6 7 8 9 0 а1 01 аа Я2 Оз Оз а3 1 а1 °з а3 «I «2 аз О1 ^2 Оз Риск правила 6 при заданном Ь определяется выражением R (О, 6) = £ [/ (6, 6 (Х))1 = I ($, аг)Р [6 (X) = «J + + I (О, а2)Р 16 (X) = а21 + / («, а3)Р [6 (X) = а3]. Рис. 10.1.1. Точки риска (/?(0j б.), R (62, б{)), 4 = 1, - - 9 Например, Я (01, 62) =--0(0,3) + 10 (0,7) — =- 7,0, £(О2, 62)= 12(0,6)+ 1 (0,4) = = 7,6. Если параметрическое прост- ранство © конечно и содержит k элементов, то всю функцию рис- ка решающего правила 6 можно представить в виде точки в Л-мерном евклидовом простран- стве (£ (йг, 6), .... R (О*. 6)). При k = 2 мы можем изобразить 178
Таблица 10.1.4 Функция риска (Я (Оь 6/), R (Ф2, ^)) i 1 2 3 4 5 6 7 8 9 R (К б«) 0 7 3,5 3 10 6,5 1,5 8,5 5 R (»2. 6/) 12 7,6 9,6 5,4 1 3 8,4 4,0 6 множество всех таких точек на плоскости» придавая 6 все возмож- ные значения. Координаты точек риска (R (*0*!» 6f), R 6f)) пред- ставлены в табл. 10.1.4, а их расположение на плоскости показано на рис. 10.1.1. Остается выбрать из решающих функций «хорошие» или «наилуч- шие». Критерии отбора приведены в следующем разделе. 10.2. СРАВНЕНИЕ РЕШАЮЩИХ ФУНКЦИЙ В этом разделе мы введем несколько понятий, используемых при сравнении решающих функций. Одни из них являются обобщениями таких старых понятий, как байесовские и допустимые методы, другие (например, понятие минимакса) ранее не встречались. Используя гео- метрическое представление функций риска решающих функций из примера 10.1.1, мы продемонстрируем некоторые из взаимосвязей, существующих между этими идеями, и в заключение укажем, до какой степени взаимосвязи, подмеченные на нашей картине, переносятся на общую модель теории решений. Мы уже отмечали трудности сравнения решающих функций в част- ных случаях — при оценивании и проверке гипотез Следуя разд. 4.1, мы скажем, что решающая функция б улучшает решающую функцию б' в том и только в том случае, если R (О, 6) С R (О, 6') при всех &, причем при некотором '& выполняется строгое неравенство. Мы убедились, что в случае оценивания, как правило, не существует решающей функции 6, которая бы улучшала все остальные решающие функции. Обычно, если б и 6' — две решающие функции, то ни одна из них не улучшает другую. Рассмотрим хотя бы б4 и б6 из нашего при- мера. В этом случае R (йь б4)< R (г>1( бв), но R (*&2, б4) > R (#2, 6в). К проблеме выбора хорошей решающей функции пытались подсту- питься с различных сторон. 1) Были предложены узкие классы решающих функций, исполь- зующих такие критерии, как соображения симметрии, несмещенность (для оценок и критериев) или уровень значимости (для критериев). Предпринимались попытки найти решающие функции, которые улуч- 976
шают все решающие функции в пределах данного класса. Мы не буд ем рассматривать этот подход. Обобщения идей несмещенности можно найти в книге Лемана 17] и в работе [9]. Ограничения, связанные с сим- метрией (или инвариантностью), проанализировал Фергюсон (5). 2) Второй из наиболее широких подходов сводится к сравнению функций риска на основе глобальных, а не точечных критериев. Мы обсудим байесовские и минимаксные критерии. Байесовское решающее правило. Байесовский подход приводит к ес- тественному глобальному критерию. Напомним, что в байесовской мо- дели О — реализация случайной величины или вектора О и что Ро — условное распределение вектора X при О = Ф В этой схеме R (#, б) есть не что иное, как Е I/ (О, б (Х))|^ = —средний ущерб, если мы используем б и О = О. Принятие байесовской точки зрения позволяет нам не останавливаться на этом и вычислить величину, показывающую, сколько мы ожидаем потерять в среднем при изменении вектора О. Эта величина, которую мы назовем байесовским риском решающего пра- вила б и обозначим г (6), определяется выражением г (б) - Е (Р (О, 6)1 = Е [I (О, б (Х))1. (10.2.1) Второе равенство в (10.2.1) следует из теоремы о двойном математи- ческом ожидании (1.1.20). Проиллюстрируем понятие байесовского риска на примере с поис- ком нефти. Предположим, что по мнению специалиста шанс обнару- жить нефть при бурении скважины составляет 0,2. Рассмотрим пара- метр как случайную величину О с возможными значениями и Ог и функцией частоты л (OJ — 0,2 и л (О2) — 0,8. Тогда байесовский риск решающего правила б составит: г (6) = 0,2/? (Оь б) + 0,8/? (08, б). (10.2.2) В табл. 10.2.1 приведены значения байесовского риска г (б,), ..., г (б9), вычисленные по формуле (10.2.2). Таблица 10 2.1 Байесовский и максимальный риск решающих правил, представленных в табл. 10.1.3 1 1 2 3 4 5 6 7 8 9 9,6 7,48 8,38 4,92 2,8 3,7 7,02 4,9 5,8 шах {Я(Он 6/), R (Фа. «)} 12 7,6 9,6 5,4 10 6,5 8,4 8,5 6 180
При байесовском подходе решающее правило 6 предпочтительнее решающего правила 6' в том и только в том случае, если оно обладает меньшим байесовским риском. Если существует такое правило б*, при котором достигается минимум байесовского риска, т. е. г (б*) min г (б), С то оно называется байесовским правилом. Из табл. 10.2.1 видно, что б5 — единственное байесовское правило для нашего владельца зе- мельного участка. Разумеется, нахождение байесовского правила путем перечисле- ния всех возможных правил б и вычисления байесовского риска в общем случае практически неосуществимо. Рассмотрение единствен- ного разумного метода вычисления байесовских правил — так назы- ваемого апостериорного анализа — мы отложим до следующего раз- дела. Заметим, что байесовский подход приводит пас к сравнению решаю- щих правил на основе Г (6) = 2 R («. 6)п (в), О если А— дискретный вектор с функцией частоты л (О), и г (6) = J R (О, 6)я (d)dd, если О—непрерывный вектор с функцией плотности л (О). Такое срав- нение имеет смысл, даже если мы интерпретируем л не как априорную плотность или частоту, а лишь как весовую функцию для усреднения значений функции R 6) Так, в примере 10.1.1 мы могли бы считать оба значения риска одинаково важными. В этом случае было бы естест- венно сравнивать правила на основе простого среднего у [Д (Аьб) 4- + R (fl2, б)]. Но это и есть не что иное, как байесовское сравнение, в котором функция л ставит в соответствие значениям О, и fl2 равные вероятности. Минимаксное решающее правило. Вместо усреднения риска, как в байесовском случае, мы можем сосредоточить внимание на риске в наихудшем из возможных случаев, т. е. отдать предпочтение правилу б перед правилом б' в том и только в том случае, если sup Я (А, б) < sup 7? (А, б')- О о Решающее правило б*, для которого sup 7? (О, б*) ~ inf sup R (А, б), называется минимаксным (оно лшнпмизирует .максимальный риск). Минимаксный критерий пришел в статистику из развитой фон Ней- маном1 общей теории антагонистических игр с нулевой суммой. Для тех, кто хотя бы в общих чертах знаком с основными понятиями тео- рии игр, мы сформулируем <игру теории решений». Природа (игрок I) выбирает независимо от статистика (игрок II) точку А £ 0. Статистик 181
выбирает решающее правило 6 из множества DD всех решающих пра- вил, после чего игрок II уплачивает игроку I R (О, 6). Максимальный риск решающего правила 6* есть верхняя чистая цена игры. Минимаксный критерий оптимальности отличается особой «осто- рожностью»' ведь он предназначен для того, чтобы максимально пред- охранить нас от неприятностей в наихудшем из возможных случаев, когда природа выбирает такое состояние О. при котором риск дости- гает максимально допустимого значения Такой принцип был бы впол- не приемлем, если бы статистик был убежден, что значение параметра выбирает «злонамеренный» противник, прекрасно осведомленный о том, какое решающее правило будет использовано в ответ на его ход Разумеется, намерения природы и степень ее «осведомленности» не столь ясны, и поэтому большинство статистиков считают принцип ми- нимакса чрезмерно осторожным для того, чтобы его можно было ис- пользовать в общем случае Тем не менее во многих ситуациях он по- зволяет получать весьма разумные решающие правила. В качестве примера на нахождение решающего правила обратимся к табл. 10.2.1. Из перечня max (/? (Ои б), 7? (02, 6)) видно, что б4 — минимакс с максимальным риском, равным 5,4. Те, кто занимается изучением теории игр, знают, что статистик мо- жет понизить максимальный риск, не требуя дополнительной инфор- мации, а используя для выбора решающего правила какой-нибудь случайный механизм Так, в примере 10.1.1 можно предположить, что мы бросаем нефальшивую монету и выбираем решающее правило б4, если выпадает «орел», и бв, если выпадает «решка». В этом случае наш риск составил бы 4 Я («. 6.) + у R (в, 8,)=N®' если *=**• 2 2 (4,20, если fl1 — 02. Максимальный риск, равный 4,75, строго меньше риска, связанного с решающим правилом б4. В общем случае, если DD— класс всех решающих (нерандоми- зированных) правил, то рандомизированное решающее правило можно рассматривать как случайный эксперимент, исходы которого принад- лежат классу DD. Для простоты мы будем обсуждать только такие рандомизированные правила, которые производят выбор из конечно- го множества бь ..., бд нерандомизированных решающих правил. Ес- ли рандомизированное правило б выбирает б4 с вероятностью Xis i= = 1, V, Хх = 1, то по определению /?(0,б)= 2 (10.2.3) fee 1 Аналогичным образом при заданной априори функции частоты л на 6 байесовский риск решающего правила б определяется выражением г(б)=3 X, £(/?(❖, б,)]. (Ю.2.4) /-1 182
Рандомизированное байесовское решающее правило 6* минимизиру- ет байесовский риск г (б) по всем рандомизированным решающим пра- вилам. Рандомизированное минимаксное решающее правило миними- зирует max R (О, 6) по всем рандомизированным решающим правилам, в Обратимся теперь к изучению связей между рандомизированными и нерандомизированными байесовскими и минимаксными решающими правилами на примере 10.1.1, а затем укажем, в какой мере наши вы- воды переносятся на общий случай. Как и в примере 10.1.1, риск лю- бого решающего правила 6 мы пред- ставляем вектором (R (^i, 6), R (О2> 6)) и рассматриваем множество риска S = {(7? (О*, б), R (О8, б): б 6 DD*}f где DD* — множество всех решающих правил, в том числе рандомизирован- ных. Из (10.2.3) получаем, что (9 (G.'г) = П = SXiR(»1.6,).r2 = / = 1 9 = S М R №.«,). /— 1 Рис. 10.2.1. Множество риска S из примера 10.1.1. т. е. S — выпуклая оболочка точек риска (R (О1( б,), R (02, 6f)), i = = 1,..., 9 (см. рис. 10.2.1). Если л (01) = у = 1 — п (Ojj), 0 у 1, то все решающие пра- вила с байесовским риском с соответствуют точкам множества S, ле- жащим на прямой уг\ 4- (1 — у)г2 = с. (10.2.5) Задавая различные с, мы получаем семейство параллельных прямых с угловым коэффициентом —у/(1 — у). Найти байесовское решающее правило означает найти наименьшее значение с, при котором прямая (10 2.5) пересекает множество S. Это — прямая с угловым коэффици- ентом —у/(1 — у), касательная к нижней границе* множества S. Все точки множества S, лежащие на касательной, — байесовские. Воз- можны два случая: 1) касательная имеет с множеством риска S единственную общую точку, соответствующую нерандомизированному правилу. Например, при у = 0,2 это точка (10, 1) — точка риска байесовского решающего правила б5 (см. рис. 10.2.1); * Нижней границей выпуклого множества мы называем просто множество всех его граничных точек г, таких, что все точки множества S лежат либо на ка- сательной к S в точке г, либо над ней. 183
2) касательная — прямая, соединяющая две «нерайДомизирован- пые» точки риска 6/t б^ Координаты точки (rlt г2) на этой прямой мож- но представить в виде: п = № (К «о + (1 - ад (#1, 6j), (10.2.6) ra = KR (О2, б<) 4- (1 - VR (02, 6Л где О С X 1. В силу (10.2.3) точка (г(, г2) соответствует значениям А _ (б4 с вероятностью X, ° ~ (б/ с вероятностью (1 — X), 0 X 1. При X, изменяющейся от 0 до 1, каждое из этих решающих правил является байесовским относительно л. Мы можем выбрать из их клас- са два нерандомизированных байесовских правила: 6j (при X = 1) и (при X = 0). Изменение априорной функции частоты я соответствует изменению углового коэффициента —у/(1 — у) прямой (10.2.5), поэтому множе- ство В всех точек риска, соответствующих правилам, байесовским от- носительно некоторого априорного распределения, есть не что иное, как нижняя левая граница множества S (т. е. все точки нижней гра- ницы множества S, касательные в которых совпадают либо с осью у> либо с прямыми, имеющими неположительные угловые коэффициен- ты). Чтобы найти точку риска минимаксного правила, рассмотрим се- мейство квадратов Q (с) = {(fl, га): 0 < г, < с, 0 <г2 < с), диагональю которых служит прямая г, = га. Пусть с* — наименьшее из значений риска с, при которых Q (с) П S 0 (т. е. первый квад- рат, касающийся множества S). Тогда Q (с*) f) S — либо точка, ли- бо отрезок горизонтальной или вертикальной прямой. Это — множе- ство точек риска минимаксных правил, так как любая точка с меньшим максимальным риском принадлежала бы множеству Q (с) П S с с < с*, что противоречит выбору с*. В нашем примере первая точка касания квадратов и множества S есть точка пересечения прямой = га и прямой, соединяющей две точки, которые соответствуют решающим правилам б4 и бв Это — точка риска одного из решающих правил, ран- домизирующих между б4 и б4. Таким образом, минимаксное правило определяется соотношением (10.2.7) с i = 4, / = 6, и X — решение уравнения Г1 = KR (К б4) 4- (1 - tyR (К бв) = ХЯ (О2, б4) 4- 4- (1 - VR (Оа, бв) = г2. Для данных, приведенных в табл. 10.1.4, это уравнение имеет вид ЗХ 4- 6,5 (1 — X) = 5,4Х 4- 3 (1 — X), что соответствует решению X ~ 0,59. 184
- В разд. 4.1 мы ввели еще одно важное понятие, которое следует обсудить применительно к множеству риска. Решающее правило б называется недопустимым, если существу- ет другое правило 6', которое улучшает 6. Все правила, которые не принадлежат к числу недопустимых, называются допустимыми. Из табл. 10.1.4 видно, например, что решающее правило 62 недо- пустимо, так как его улучшает правило б4 (т. е. R (Оп б4) = 3 < 7 = = Я Gh, б2) и R (Ф2, б4) = 5,4 < 7,6 = Я (й2, б2)). Чтобы получить некоторое представление о классе всех допустимых решающих правил (как рандомизированных, так и нерандомизиро- ванных), воспользуемся снова множеством риска. Правило б с точкой риска (гх, га) допустимо в том и только в том случае, если в множестве S не существует точка (х, у), для которой х г1 и у г2, или, что эк- вивалентно, в том и только в том случае, если множество { (х, у): х rlt у гС rt} имеет с множеством S только одну общую точку (г1э г8). Из рис. 10.2.1 видно, что такая точка должна принадлежать нижней левой границе множества S. Действительно, множество всех точек нижней левой границы множества S соответствует классу допустимых решающих правил и, следовательно, согласуется с множеством точек риска байесовских решающих правил. Если множество состояний О конечно, т. е. 6 — {^х, ОЛ), то множество риска в общем случае можно определить как 5= {7?(^,б)......tf(0ft,6):6€DD*}, где DD* — множество всех рандомизированных решающих правил. Можно показать (см. [5]), что следующие свойства множества риска из примера 10 1.1 в действительности являются общими. а) Для любой априорной функции плотности, если существует ран- домизированное байесовское решающее правило, всегда существует и нерандомизированное байесовское правило. Рандомизированные байесовские правила представляют собой смеси нерандомизированных правил в смысле (10.2.7). См. разд. 10.3. б) Множество В точек риска байесовских правил состоит из точек риска, принадлежащих нижней границе множества S. Нормали к ка- сательным гиперплоскостям, проведенным к S в этих точках, направ- лены в положительный квадрант. в) Если пространство действий 6 конечно’ и существуют минимакс- ные решающие правила, то они являются байесовскими решающими правилами. Мы рассмотрим их в следующем разделе. г) Все допустимые решающие правила — байесовские. д) Если априорное распределение вероятности имеет функцию час- тоты с л (Ог) > 0 при всех I, то любое байесовское решающее правило, соответствующее функции л, допустимо (см. утверждение 10.4.3). Если пространство состояний 0 не конечно, то, как будет показано в следующем разделе, обычно существуют допустимые решающие пра- вила, которые не являются байесовскими. Но при некоторых условиях все допустимые решающие правила либо байесовские, либо являются пределами (в том или ином смысле) байесовских правил. Эти замеча- тельные результаты (по крайней мере в первоначальном виде) были, 165
по существу, получены Вальдом. Они полезны, так как байесовские свойства легче поддаются анализу, чем допустимость. Известны и другие теоремы, относящиеся к более широким, но лег- ко обозримым классам правил, включающим допустимые правила, по крайней мере когда правила с одинаковыми функциями риска отож- дествляются. Важным примером такого рода может служить класс решающих правил, зависящих только от знания достаточной статис- тики (см. [5, разд. 3.41). Подчеркнем, что рассмотрение рандомизированных решающих пра- вил существенно для наших выводов, хотя, как мы увидим в дальней- шем, обычно все интересующие нас допустимые правила в действитель- ности являются нерандомизированными. Более подробную информацию на эти темы можно найти в [ 11 и [51. 10.3. ВЫЧИСЛЕНИЕ БАЙЕСОВСКИХ РЕШАЮЩИХ ФУНКЦИЙ Рассмотрим прежде всего задачу оценивания функции q (6) с квад- ратичными потерями I (О, а) = (q (О) — а)3 с использованием неран- домизированного решающего правила б. Пусть б — случайная вели- чина (или случайный вектор) с априорной функцией частоты или плот- ности л (б'). Задача состоит в том, чтобы найти функцию 6 от X, мини- мизирующую байесовский риск г (б) = Е (д (<►) — б (X))2. Но это не что иное, как задача о нахождении наилучшего (с наименьшей средне- квадратической ошибкой) предсказания для q (6) при заданном X (см. разд. 1.6). Используя наши результаты о наилучшем среднеквад- ратическом предсказании, мы заключаем, что либо г (б) = оо при всех б, либо байесовское правило б* определяется выражением б* (X) = Elq (O)|XL (10.3.1) Такой метод называется байесовской оценкой. Формулы (2.4.8) для апостериорных функций плотности и частоты позволяют придать байесовской оценке более явный вид. В непрерыв- ном случае с вещественнозначным б и априорной плотностью л + °° [ q(ft)p (х, б) л (б) 46 6*(х)==^--------------------------- (10.3.2) J р(х, б) л (б) 46 В дискретном случае, как обычно, интегралы следует заменить сум- мами. Приведем пример. Пример 10.3.1. Байесовские оценки для среднего нормального рас- пределения с нормальным априорным распределением. Предположим, что среднее О нормального распределения с известной дисперсией тре- буется оценить на основе выборки Х\, ..., Хп. Выбрав сопряженное априорное распределение NN (к), т2), как в примере 2.4.2, мы получим апостериорное распределение ( о® \ . — / пт? \ о3 , о® X— NN | т] --------)4- х I------- ,----- 1-i---— ] \ \ пта-)-о3 / \ лт2-|-оа ] п \ пт? J J
Байесовская оценка представляет собой не что иное, как среднее апо- стериорного распределения 6*(Х) = п 1/тЗ л/о3-}-1/т2 п /оа п/о2-4-1/т2. (10.3.3) Ее байесовский риск (с. к. о. предсказания) равен: г (б*) = £(#-£(<}] X))2 - £ [£ ((О—Е (# | X))21 X)J = Выбор любых конечных значений т] и т2 приводит к X в качестве байе- совской оценки. Но X — предел байесовских оценок в тех случаях, когда априорная информация становится «расплывчатой» (т -> сю при заданном т]). Действительно, X — оценка, порождаемая формулой (10.3.2) при подстановке «несобственно» априорной плотности л (4) sa 1. Как видно из формулы (10.3.3), байесовская оценка в случае соб- ственно априорной плотности оказывается взвешенным средним оцен- ки, которой надлежит пользоваться, когда нет наблюдений, т. е. т], и X, причем вес каждой из этих оценок обратно пропорционален ее байесовскому риску. Так как байесовский риск среднего X, равный о2/п, при п —> со стремится к нулю, байесовская оценка, соответствую- щая_априорной плотности NN (т), т2), при больших п мало отличается от X. Следовательно, среднее X приближенно равно байесовской оцен- ке для любого из этих априорных распределений в том смысле, что [г (X) — г (б*)1/г (6*) -> 0 при п-+ ос. Более подробно затронутые нами вопросы рассмотрены в [41 и [10]. Обратимся теперь к задаче нахождения байесовских правил для пространств действия А и функций потерь I в общем случае. Начнем с рассмотрения только нерандомизнрованных правил. Взглянув на доказательство теоремы 1.6.1, мы увидим, что его основная идея сос- тоит в анализе того, что следовало бы делать при X = х. Действитель- но, Е (У|Х) — наилучшее предсказание, так как Е (У |Х = х) мини- мизирует условную среднеквадратическую оценку Е ((У — а)2|Х — х) как функцию действия а. Применяя ту же идею к общей задаче о на- хождении байесовского решения, мы составляем апостериорный риск г (а|х) = Е (I (#, а)|Х == х). Величина г (а|х) — это математическое ожидание потерь при X = х, когда мы используем действие а. Интуитивно ясно, что мы должны при каждом х выбирать действие а = 6* (х), минимизирующее г (а|х) Такое действие не обязательно должно существовать или (если оно сущест- вует) быть единственным. Тем не менее справедливо следующее ут- верждение. Утверждение 10.3.1. Пусть существует такая функция 6* (х), что г (6* (х)|х) = inf {г (а|х) : а € Z}. (10.3.4) Тогда 6* — байесовское правило. 187
Доказательство. Как и при доказательстве Теоремы 1.6.1, мы по- лучаем для любого решающего правила б г (б) = Е = U (О, 6 (Х))1 = £[£(/ (О, б (Х))|Х1. (10.3.5) Но из соотношения (10.3.4) следует, что Е И (О, 6 (Х))|Х = х] = г (6 (х)|х) > г (б* (х)|х) = = Е U (О, б* (Х))|Х ~ xl. Значит, Е [1(0,6 (Х))|Х1 > Е [I (О, б* (Х))|Х1, и из (10.3.5) мы заключаем, что б* — байесовское правило. В качестве первой иллюстрации рассмотрим пример с бурением па нефть, в котором априорная функция частоты была такой, что л (Oj) — 0,2 и п (02) = 0,8. Предположим, что мы наблюдаем х = 0. Тогда вектор О имеет апостериорное распределение (см. (2.4.8)) Я(е1|х=о)=4-,я<»2|х=о)=4- У У Апостериорный риск действий а1, а2 и оказывается равным: Г (0110) ~ -L. i (е„ о,)+A i а,) = 10,67; г(лг|0) = 2; г (аэ 10) = 5,89. Следовательно, действие а2 имеет наименьший апостериорный риск, и если 6* — байесовское правило, то б* (0) = аг. Аналогично г (ajl) = 8,35; г (а3| 1) = 3,74; г (ц3|1) = 5,70, и мы заключаем, что б* (1) = а2. Следовательно, б* = бь, как и было установлено нами раньше. Огром- ное преимущество вашего нового подхода состоит в том, что он позво- ляет находить байесовское решающее правило, не прибегая к обычно невыполнимому вычислению байесовского риска всех конкурирующих правил. Обобщим сказанное — рассмотрим следующий класс ситуаций. Пример 10.3.2. Байесовские решающие правила для конечных & и А. Пусть © = {О0, .... Ор), А = {а0, ..., Од) и ущерб, наносимый в слу- чае, когда Of — истинное состояние природы, aj — предпринятое дей- ствие, определяется выражением 1 (0<, Q}) = > 0. Пусть л — априорное распределение, ставящее в соответствие состоя- р нию О/ массу ль так что л, 0, i = 0, ..., р и 2 nt“ !• Предполо- f = О жим также, что X имеет функцию плотности или частоты р (х, О) при 188
каждом (К Как следует из (2.4.6), апостериорные бербйТЙОСТи а йашёМ случае равны: Р [0 = Ф41X - xj = $j) и, таким образом, 2®мя«Р(х« fy) ----------— 2Я« р(х. $i) i (10.3.6) Оптимальное действие 6* (х) обладает риском г (6* (х) | х) = min г (Qj | х). 0^ Приведем два интересных частных случая. а) Классификация. Пусть р = q Отождествим а; с *&;, / = 0, ...» р, и пусть 1 при i Ф jt О при i = /. Эту задачу можно рассматривать как задачу классификации. Мы рас- полагаем (р + 1) известными генеральными совокупностями. Появля- ется новый индивидуум X. Необходимо установить его принадлеж- ность к одной из (р + 1) генеральных совокупностей. В этом случае г(^|х) = Р[О^^|Х = х], и минимизация г (О/|х) эквивалентна разумной максимизации апосте- риорной вероятности Р [# = & | X = xj = я*р(х> 0<) . 2 Л;р(х, Оу) i б) Проверка простой гипотезы относительно простой альтерна- тивы. Пусть р = q = 2 и о0 соответствует принятию гипотезы Н : Ф = 0О, a aj — отклонению гипотезы Н в пользу альтернативы Д’: Байесовское правило в этом случае состоит в том, чтобы отвергнуть Н, если г (а0|х) > г (ajx), принять Н, если г (о0|х) < г («11х)- Если г (а0|х) = г (в11*)> то гипотезу Н (по байесовскому правилу) можно как принять, так и отвергнуть. Обратившись к (10.3.6), мы за- метим, что приведенное нами правило есть не что иное, как критерий отношения Неймана—Пирсона 6* с критическим значением (10.3.7) Я1 ^10 Класс байесовских критериев совпадает с классом критериев Нейма- на-Пирсона1. 189
В заключение мы продемонстрируем полезность утверждения 10.3.1, предъявив в «замкнутом виде» байесовский критерий для за- дачи оценивания с пеквадратичными потерями. Пример 10.3.3. Байесовское оценивание вероятности благоприят- ного исхода в п биномиальных испытаниях. Предположим, что требу- ется оценить О, используя индикаторы Л\, Л',, биномиальных ис- пытаний (их л) с вероятностью благоприятного исхода О. Рассмотрим функцию потерь I, задаваемую выражением I(0,а) — 1,а—вещественное число. (10.3.8) Эта функция, состоящая в близком «родстве» с квадратичной функци- ей потерь, выбрана нами главным образом потому, что она делает по- стоянным риск для X, т. е. обладает свойством, в важности которого мы убедимся в следующем разделе. В то же время выводы, к которым мы придем, применимы к качественно более правдоподобным функци- ям потерь. В силу достаточности мы можем ограничиться рассмотрением толь- ко числа благоприятных исходов S. Предположим, что имеется неко- торое априорное распределение. Тогда если все члены в правой час- ти конечны, то г(а|Л) = £(-^^-|$ = л1 = £[—|s = fcl— ' 1 (0(1-0) I J ((1-0) j J -2аЕ[—!— £ = + —1 <10-3- 1(1-0) J 10(1-0)1 J Минимизируя параболу (10.3.9) по а, находим наше правило 6*(Л) = £(1/(1—O)|S = A) £ (1/0 (I —О) | S = £) байесовское (10.3.10) Для удобства выберем в качестве априорной плотности плотность бета-распределения 0 (г, $). Как показано в примере (2.4.1), это при- водит для О, если S = Л, к апостериорному распределению с плотно- стью 0 (Л + г, п s — k). Если 1 < k ^'п — 1, го все величины в (10.3.9) конечны, и {(1/(1-0))^^,й_Л4.Д0)<1О 6* (£) = _о---------------------- f(l/0(l-0))^+rtn_ft|s(0)dO о Д (A-t-r, п—Л-Н—1) £4-г—1 B(k+r— l.n-A+s— 1) п-Н+г—2 (10.3.11) (в обозначениях разд. 1.2). Если k = 0, то, как нетрудно видеть, а = = О — единственное значение а, при котором г (ц|&) < оо. Следова- тельно, 6* (0) = 0. Аналогичные рассуждения показывают, что 6* (л) = 1. Предположив априорную плотность равномерной (г “ 190
= s = 1),_мы увидим, что байесовское правило совпадает с обычной оценкой X. Для квадратичных потерь это утверждение неверно (см. задачу 10.3.2). Геометрические рассуждения разд. 10.2 приводят нас к рассмотре- нию рандомизированных правил. Однако на практике при анализе ре- зультатов эксперимента введение посторонней рандомизации нежела- тельно, и то, что байесовские правила можно выбирать нерандомизи- рованными, весьма удобно. Геометрическое обоснование этого утверж- дения было приведено в примере 10.1.1. Обобщим теперь ситуацию. Утверждение 10.3.2. Предположим, что класс DD нерандомизи- рованных правил конечен, т. е. DD — {б1( ..., бЛ). Тогда если 6—байе- совское правило, то г (6) — г (бг) при некотором i. Доказательство. Из (10.2.1) следует, что байесовский риск рандо- мизированного правила б можно представить в виде r(6)=£ У Х,= 1. /=! j=l Если б — байесовское правило, то г (6) г (б7) при всех /. (10.3.12) Пусть б, — правило, минимизирующее г (б,) при / = 1, ...» k. Так как k взвешенное среднее X/ (б,) не меньше, чем минимум риска г (6J, то /= i г (6) г (б/). Объединяя это неравенство с неравенством (10.3Л2), получаем требуемый результат2. 10.4. ВЫЧИСЛЕНИЕ МИНИМАКСНЫХ РЕШАЮЩИХ ФУНКЦИЙ И УСТАНОВЛЕНИЕ ДОПУСТИМОСТИ Важный подход к задаче о нахождении минимаксных решающих правил берет начало из идей, высказанных нами при обсуждении рис. 10.2.1. Напомним, что на рис. 10.2.1 точки риска минимаксного правила 1) соответствовали байесовскому правилу; 2) находились на диагонали гх = г2 (т- е- Я Ф1> б) = 7? (02, б)). В общем случае свойства а) и подходящего обобщения свойства б) оказывается достаточно для минимаксности. Утверждение 10.4.1. Если б* — байесовское правило с функцией риска R (О, б*), постоянной по О, то б* — минимаксное правило. Доказательство. Так как б* имеет постоянный риск, то sup R (О, б*) = Е (R (О, б*)) - г (б*). (10.4.1) о 191
Математическое ожидание здесь вычислено по априорному распреде- лению, для которого правило 6* — байесовское. Если 6 — любое конкурирующее правило, то всегда выполняется неравенство sup R (б, 6)^E(R (0, б)) => г (б). О Так как б* — байесовское правило, получаем г (б) > г (б*). (10.4.2) Сравнивая (10.4.1) и (10.4.2), приходим к неравенству sup R (О, б) г (б) г (б*) = sup R (О, б*), откуда и следует наше утвержде- ь ние. Применяя утверждение 10.4.1, необходимо найти такое априорное распределение л, для которого байесовское правило имеет постоян- ный риск. Иногда полезно воспользоваться тем, что это распределение п должно быть наименее благоприятным в следующем смысле: из всех априорных распределений именно оно максимизирует байесовский риск байесовского правила. Действительно, пусть т — какое-нибудь другое априорное распределение. Тогда (индексы указывают, по ка- кому априорному распределению берется математическое ожидание) inf г„ (б) = inf Е„ (R (<►, б)) = Ея (R (0, б*))« sup R (0, б*) > 6 6 о > Ех (R (0, б*)) > inf £т (R (0, б)) = inf гх (б). 6 6 Следовательно, «природа» выбирает л, чтобы максимально затруд нить принятие правильного решения1. Пример 10.4.1. Минимаксное оценивание в биномиальном случае. Пусть S имеет биномиальное распределение ВВ (л, 0) и X = Sin, как в примере 10.3.3,1 (0, а) — (0 — а)2! б (1 —0), 0 < 0 •< 1. Для такой функции потерь р/л у\ Е(Х-б)> .0(1-0) 1 } 0(1-0) п0(1— 0) п * и X имеет постоянный риск. Кроме того, в примере 10.3.3 мы видим, что X — байесовская оценка, когда 0 имеет равномерное распределе- ние UU (0,1). Из утверждения 10.4.1 мы заключаем, что X — мини- максная оценка и равномерное распределение наименее благопри ятно. Для обычной квадратичной функции потерь сказанное неверно. Минимаксная оценка равна: Эта оценка не обладает постоянным риском и является байесовской относительно априорного распределения с плотностью р (Vn/2, 192
Vn/2). Перед нами пример ситуации, когда принцип минимакса при- водит к неудовлетворительной оценке. При п->оо предел отношения риска оценки 6* к риску оценки X больше единицы при любом О 1/2. Если О = 1/2, то отношение стремится к единице. Подробности см. в задачах. Пример 10.4.2. Минимаксная проверка гипотез. Напомним при- мер 6.1.1, в котором нам требовалось установить, исправна ли аппа- ратура, установленная на спутнике связи. Сейчас мы рассмотрим при- мер 6.1.1 как задачу из теории решений с функцией потерь типа 0 или 1. Если число сеансов космической связи задано, то минимаксное пра- вило минимизирует максимальную вероятность ошибки. Каков при этом риск? Первый естественный шаг состоит в том, чтобы воспользоваться приведенной в предыдущем разделе характеристикой байесовских критериев. Припишем нулю вероятность л, v — вероятность 1 — л и воспользуемся функцией потерь типа 0 или 1. Тогда байесовский критерий отвергает гипотезу, если » z л v ( v v, V п L (х, 0, о) = ехр Sxf-— ] > —. и принимает гипотезу, если £(х,0,р)<-=- 1 —л Как было показано в примере 6.1.1, этот критерий эквивалентен от- клонению гипотезы в том и только в том случае, если Т=—— а]/п где . а , л t =----- In------ v Vn [ 31 2а* Обозначив последний критерий через 6„, получим Я(0,6„)=1-Ф(Г), Я(о,6я)=ф[ \ су Минимаксный критерий соответствует равенству R (0, 6Я) = R (о, 6Я), эквивалентному равенству или 7 Зак. 1313 193
Так как это значение соответствует я = 1/2, интуитивный критерий, отвергающий гипотезу в том и только в ’том случае, если’ у [£0 {Т) 4- (7)1, является минимаксным. Если пространство 6 неограничен©, то минимаксные правила час- то расходятся с байесовскими, но могут быть получены как пределы байесовских правил. Для того чтобы мы могли действовать в таких си- туациях, нам необходимо обобщить утверждение 10.4.1. Пусть {пл} означает последовательность априорных распределе- ний, гъ (6) — байесовский риск правила б при априорном распреде- лении nh и rh = inf г* (6). б Утверждение 10.4.2. Пусть существует такое правило 6* * с по- стоянным риском, что rh (б*) — г* 0 при k -> оо. (10.4.3) Тогда б* — минимаксное правило. Доказательство. Из постоянства риска и (10.4.3) следует, что 'supW «*) = г*+о(1), О (10.4.4) где о (!)-* 0 при Л-*оо. Рассуждая так же, как в доказательстве утверждения 10.4.1, получим, что для любого конкурирующего пра- вила S справедливо неравенство , sup R (О, б) > E„k (R (О, б)) > rA = sup R (0,6*)-0 (1)Л (10.4.5) о о При k -> оо левая часть неравенства (10.4.5) остается неизменной, а правая стремится к sup R (О, 6*). О Теперь мы можем показать, что X — минимаксная оценка в нор- мальном примере. Отождествим яА с априорным распределением NN (п,та), где k = т2. Тогда' Г. (X) = , \ я / л в то время как байесовский риск байесовского правила из примера 10.3.1 равен: mt г, (в)---*— _ А--------1—_. А. с (o’/л) 4-т* л л (o’/л) 4-т* л Так как (о9/п)/ ((о2/п) 4- т2) -> 0 при т* -> оо, мы заключаем, что X — минимаксная оценка. Рассмотренные нами методы нахождения минимаксных правил тесно связаны с методами, позволяющими доказывать допустимость данного правила. • Такие правила 6* называются обобщенными байесовскими. 194
Утверждение <0.4.3. Предположим, что выполняется одно из сле- дующих условий: 1) пространство 6 конечно и 6* — байесовское правило относите- льно априорной функции частоты л, такой, что л (О) >► 0 при любом Об©; 2) пространство 0 — интервал (может быть, бесконечный) и 6* — байесовское правило относительно априорной плотности л, такой, что л>0 на 6 и г(6*)< оо. Кроме того, предположим, что функция R (О, б) непрерывна по О при всех б. Тогда правило б* допустимо. Доказательство. Докажем, что утверждение верно при условии б). Аналогичные рассуждения применимы и в том случае, когда выполня- ется условие а). Если бы правило б* было недопустимым, мы могли бы найти такое правило б, для которого при всех О выполнялось бы неравенство R (<►» б*) — R б) > 0, причем при некоторых О не- равенство было бы строгим. Но разность R (О, 6*) — R (О, б) непре- рывна. Следовательно, должны, существовать интервал (а, б), а < Ь, и число в > 0, такие, что R (О, 6*) — R (О, б) > е, а < $ < б. Но тогда j (Я (О, 6‘) - Я (», 6))П (О) dO (Я («, 6‘) - Я 6))л > —«• а Ь > е J л (0)d0 > 0. (10.4.6) Левая часть неравенства (10.4.6) есть не что иное, как неравенство г (6*) - Г (б), и мы приходим к противоречию с исходным предположением, соглас- но которому б*—байесовское правило. В качестве непосредственного применения части а) утверждения 10.4.3 мы можем заключить, что критерий из примера 10.4.2 допустим, так как л (0) = л (о) = 1/2. Аналогично часть б) утверждения 10.4.3 можно применить к при- меру 10.4.1. Необходимо лишь проверить, что функция R (О, б) непре- рывна при всех б. Не ограничивая общности, предположим, что б за- висит только от S. Тогда Я(О,б) = £ 0(£)—0)4 р*-1 (1—0)«-*-», "о / и правая часть, очевидно, непрерывна по О. Таким образом, оценка X допустима для 7' 195
Z(e,a)=j*=^ v ' 0(1—0) Следовательно, X допустима для квадратичной функции потерь (см. задачу 10.4.2). Среднее нормальной выборки (из распределения NN (р, а1)) допус- тимо при квадратичных потерях, но утверждение 10.4.3 в этом случае неприменимо. Нам необходимо следующее уточнение утверждения 10.4.3, известное под названием леммы Блита (см. [2]). Пусть 0 — интервал, лЛ — последовательность априорных плот- ностей на 6. Тогда в обозначениях утверждения 10.4.2 справедливо следующее утверждение. Утверждение 10.4.4. Пусть б* обладает тем свойством, что ь J (-0) 46 а при k -> оо и любых заданных а < b, R (б, б) — непрерывная функ- ция от б при всех б. Тогда б* — допустимое правило. Доказательство. Рассуждая так же, как при доказательстве ут- верждения 10.4.3, предположим, что существует правило б, которое улучшает правило б*. Подставляя вместо л, мы получаем соотно- шение (10.4.6), которое можно записать в виде неравенства a (6*)-rfc (6) ь |лЛ(6)46 a Но rk (6*) - rh (6) < rh (6*) - r„, и мы заключили бы, что при всех k должно было бы выполняться не- равенство a (6*)— rk jX(OMO противоречащее (10.4.7). Следовательно, б* должно быть допустимым правилом.! Прежде чем переходить к рассмотрению нормального примера, не- обходимо проверить следующее. 1) Функция R (б, б) непрерывна по б при всех 6. Это следует из теории преобразования Лапласа (см. например, [6, р. 521), если R (б, б) < оо при всех б. 2) Если — плотность распределения NN (р, k), то при k -> оо 196
rxffl-'fe (С^/П) (1/1 -Н) :С ь ъ J лл (О) dft J лл (О) dft а а Но \ V* / где £ заключено между (Ь — n)/Vk и (а — ц)/Уа. При k -> со число £ стремится к нулю. Таким образом, если гк ~ sft означает rh/sk -> 1 при k -> оо, то гх(*)—гх О* V± > Q £ п<р(0)(6—а) 1-|-А J «х (О) dti откуда и следует допустимость. В последние годы этот метод был усовершенствован и позволил получить много интересных результатов. Весьма содержательная и важная работа по этому кругу вопросов принадлежит Брауну 13]. 10.6. ПРИМЕЧАНИЯ Раздел 10.1. 1 Существует обширная теория относительно того, что индиви- дуум, поразмыслив, всегда может написать функцию потерь для ситуации, в ко* торой он находится (см. [5, разд. 1.4]). Однако на практике эта теория мало при- менима, если применима вообще. 2 Доверительные методы, более общие, чем интервалы или границы, соответ- ствуют пространствам действия А, которые как множества могут достигать мощ- ности 2е и столь легко допускать вложение в евклидово пространство. 3 В случае действий, приводящих не к потерям (>0), а к прибылям (отрица- тельным потерям), мы легко переходим к привычной ситуации, изменяя единицы измерения функции потерь. Например, если исходная функция потерь I прини- мает значения — 1,0,1,2, мы можем ввести I— I + 1 и вместо I анализировать модель Т. Раздел 10.2. 1 Фундаментальной монографией в этой области является рабо- та [11]. Доступное введение и подробное обсуждение соответствия с теорией ре-. шений см. в [5, гл. I]. 2 Байесовские решающие правила могут ие существовать даже в том слу- чае, когда пространство состояний в конечно. Однако всегда можно найти пра- вила, позволяющие сколь угодно точно аппроксимировать inf г (б). о 3 Минимаксные решающие правила могут не существовать. Однако всегда можно найти такие правила бе, что sup (О, б ) < inf sup R (О, б) + в. б с & Раздел 10.3. 1 Чтобы убедиться в этом, можно было бы воспользоваться леммой Неймана — Пирсона. Наоборот, полученный нами результат позволяет вывести лемму Неймана — Пирсона. 2 Более тонкие рассуждения позволяют показать, что для рандомизирован- ного байесовского правила = 0, за исключением того случая, когда бу —(не- р ан дом изи ров а иное) байесовское правило. Раздел 10.4. 1 На языке теории игр я — максиминная стратегия для 1 игро- ка. 197
10.6. ЗАДАЧИ И ДОПОЛНЕНИЯ Задачи к разд. 10.1 1. Пусть 01, Оа — возможные состояния природы, а1г аа> а8 — возможные действия и функция потерь I (О, а) определяются таблицей а о Й| «1 «в 0 1 2 О> 2 0 1 Пусть, далее, X — случайная величина с функцией частоты р {х, О), заданной таблицей * 0 1 р (1-р) О. я (1—?) и 61,..., 6» — решающие правила из табл. 10.1.3. Вычислить и нанести на график точки риска для случаев: а) р = q = 0,1; б) р = 1 — q = 0,1. 2. Предположим, что в примере 10.1.1 новый покупатель произвел проб- ное бурение и функция потерь изменилась и стала такой: а. «1 в» 01 0 7 4 О» 12 1 6 Вычислить и нанести на график точки риска для каждого из правил , 6# табл. 10.1.3. 3. Проблема^выбора лучшего из двух лекарств или решения вопроса, поло- жительно ли сказывается на состоянии больных прием одного лекарства или не дает желаемого эффекта, часто сводится к необходимости решить, какое нз трех соотношений выполняется при некотором О : 0 <; 0, О —0 нлн О >.0._ (См._ разд. Ь.З.^В и пример в), разд. 10.1.) Обозначим действия, соответствующие выбору со- отношения О < 0,0 = 0 или Оь> 0, через —1,0 и 1. Предположим, что функция Вотерь задана таблицей (заимствованной из работ Лемана [7,8]): 198
— 1 0 1 <0 0 с Н-С =0 ь 0 ь >0 Ь+с с 0 где Ь и с — положительные числа. Пусть X—выборка из распределения Рассмотрим решающее правило — 1, если X < г, 0, если гX 1, если X > s. а) Доказать, что функция риска определяется следующим образом: (сФ(У^ (г-ф)+ 6Ф(Ул’’ ($—{>)), О < О, 6ф(Уп з)+&ф(1/л г), 0=*0], _ сФ (Ул (s-e))+M> (Ул (г-*)), о > о, где Ф = 1 — Ф. б) Построить график функции риска для Ь = с = 1, п = I и 1) г= -8= - 1; 2) г = -у = ~ 1. При каких значениях О решающее правило с г = - s= - 1 обладает меньшим риском, чем решающее правило с г — —s=* — 1? Задачи к разд. 10.2. 1. Предположим, что в задаче 10.1.1а О имеет априорное распределение я (01) = V, л (О2) = 1 — у. Для нерандомизированных решающих правил из табл. 10.1.3 вычислить байесов- ский риск и выбрать байесовское правило при а)у = */* и б) у = 0,1. 2. Предположим, что в условиях примера 10.1.1 мы проконсультировались с новым экспертом, предложившим априорное распределение л (0j) = 0,6; л (ОЕ) = 0,4. Каковы в этом случае байесовский риск решающих правил 6Ь ..., и какое из них байесовское? 3. Доказать, что в задаче 10 1.3 ни при каких значениях (г, s), (/, и) правило бГ( я не улучшает правило 6/ и. 4. В задачах 10.1.1а, 10.1.16, 10.1.2 указать или изобразить на графике а) множество риска S, б) минимаксное правило средиДб!,..., 6в}. в) минимаксное правило среди рандомизированных правил, г) части множества^риска, соответствующие допустимым и^недопустимым правилам. б. Рассмотрим задачу 10.1.3а с b — с = 1 и n = 1. Предположим, что О — дискретный вектор с функцией частоты л (0) = л (—*/8) = л (*/,) = Вычис- лить байесовский риск правила я при а) г = — з = — 1» б) г=— у s = — 1. Какое из решающих~правил лучше с байесовской]точки'зрения? 199
6. Решающее правило 6 называется несмещенным, если (/ (6, б (X))) < £е (/ (О', б (X))) при всех О, О' £ в. а) Доказать, что если параметр О веществен и I (6, а) = (О — а)’, то это определение совпадает с определением несмещенной оценки для О. б) Доказать, что если при проверке гипотезы мы воспользуемся функцией потерь типа нуль или единица, то функцию критерия можно считать несмещен- ной в указанном выше смысле в том и только в том случае, если функция мощно- сти Р (6, б) при всех 6' £ 6 удовлетворяет неравенству ₽ (6', б) > sup{₽ (6, б): 6 6 во). 7. Рассмотрим задачу 10.1.3. а) Доказать, что если с Ь и ( Ь r=—s=—z\—— I / Ул, \ / / то бг, s — несмещенное решающее правило. б) Доказать, что это правило бг> s сводится к следующему алгоритму: «При- мените двусторонний критерий размера 2с/ (6 + с) для проверки гипотезы Но : : 6 = 0. Если вы отклоните гипотезу, примйте решение — 1 или + 1 в зависимо- сти оттого, какое из неравенств выполняется: X < 0 или X > О». 8. Рандомизированным (бихевиористским) критерием для проверки гипоте- зы Н называется любая статистика ф (X), такая, что 0 < ф (X) 1. Величина Ф допускает следующую интерпретацию. Если X = х и ф (х) = 0, то мы прини- маем гипотезу, а если ф (х) = 1, то отклоняем ее. Но если 0 < ф(х) < 1, то мы производим биномиальное испытание с вероятностью благоприятного ис- хода ф (х), отвергаем гипотезу Н в случае благоприятного исхода и принимаем ее в случае неблагоприятного исхода. Определим нерандомизированный критерий бы, 0 < и < 1, следующим об- разом: Л /VI-/1’ если ф W >«. ' 10, если ф(Х) < и. Пусть U ~ UU (0,1) и не зависит от X. Рассмотрим следующий рандомизирован- ный критерий б в смысле 10.2. Наблюдаем величину U. Если U = и, то восполь- зуемся критерием 6Ц. Доказать, что б согласуется с ф в следующем смысле Р^ [б (X) =1] = 1 - Рь [б (X) =0] = Еь (ф (X)). 9. Лемма Неймана — Пирсона. Пусть р (х, 6) — функция плотности или частоты вектора X и L (х, 60, Vj)=p (х, 6t)/p (х, 60), как в (6.1.2). Рандомизиро- ванный критерий Неймана — Пирсона для проверки гипотезы Но : б — б0 от- носительно альтернативы К : 6 = 6Х в смысле задачи 10.2.8. определяется соот- ношением (1, если L(х, бо, 6i) > k , X, если L (х, бо, 61) —k , 0, если L (х, 60, 6i) < k. Риск критерия ф^ определяется следующим образом: Я (О’ Фа. *)=1 (О. 0) {р [Фа, к W +(1 -%) Р [фЛ. х (X) + + Кб. 1) (Р [ФА. ь (Х)= 1]+ЛР [фЛ. к (X)-X]}. 200
а) Представить флд как рандомизированное решающее правило в смысле разд. 10.2 с выбором, ограниченным одним из двух нерандомизированных крите- риев. б) Доказать, что при заданном а £ (0, 1) существуют такие k и 1, для кото- рых выполняется соотношение (фЛ> х (X)) = а. Указание: существует, и при том единственное, k, такое, что Р<>, [L (X. О0. Oj) _> k} < а [L (X, Оо, Ot) > k\. в) Пусть а, k и X такие же, как в задаче б). Доказать, что если 6 — любой другой критерий, для которого выполняется неравенство ($ W) < а, ТО Е^ (6 (X)) < Е^ (фА( х (X)) (т. е. фЛ> х — наиболее мощный критерий). Указание: воспользуйтесь доказательством теоремы 6.1.1. 10. Выпуклость множества риска. Предположим, что пространство действий Л конечно. Доказать, что если 6t и ба — два рандомизированных решающих пра- вила, то при заданном параметре 0 < а < 1 найдется рандомизированное пра- вило 6,, для которого при любом О выполняется соотношение R (О, б3) = ах «О + (1-а) *(#.$*)• 11. Пусть А = R. Назовем функцию потерь выпуклой, если 1(д, аа0 + + (1 — a) at) < al (О, о0) -J- (1 — а) I (О, ах) при любых о0, alt О, 0 < а < 1. Предположим, что существует несмещенная оценка 6 функции q (Ь) и Т (X) — полная достаточная статистика. Доказать, что если 5* (Х)=£ (б (Х)|/(Х)), то J?(0, б*) С R (Ь, б') для всех несмещенных оценок б'. Указание: воспользуйтесь неравенством Йенсена', если g — выпуклая функ- ция и X — случайная величина, то Е (g (X)) > g (£ (X)). 12. Предположим, что из равенства нулю вероятности (В) некоторого события В следует равенство нулю вероятности Р^ (В) того же события В при всех О £ в. Пусть, кроме того, / (0с, а0) — 0. Доказать, что решающее правило б (X) = а0 допустимо. Задачи к разд. 10.3 1. Для следующих задач вычислить апостериорный риск возможных дей- ствий: а) задача 10.2.1а, б) задача 10.2.16, в) задача 10.2.2. Воспользуйтесь апостериорным риском для получения байесовских решающих правил. 2. Рассмотрим пример 10.3.3. а) Доказать, что если воспользоваться квадратичной функцией потерь и ап- риорным распределением с плотностью 0 (г, з), то байесовская оценка имеет вид: где б*(Х) = u>i X + шаг], — среднее распределения 0 (/-, s). б) Вычислить R (О, б*). 3. Предположим, что в задаче 10.1.3 состояние О имеет априорное распреде- ление NN (т), т’). 201
а) Вывести априорный риск каждого нз трех действий: — 1, 0 и 1. б) Доказать, что байесовское решающее правило сводится к утверждению < б* — 1, если X > с, и 6* = — 1, если X 4. Пусть в = А = (0, оо ), I (ф, а) = (а — Ф)3 и ХДимеет равномерное рас* лределенне UU (0, Ф). Доказать, что если. ф^имеет априорную плотность ф ехр (— О), О > 0, то X + 1 “ байесовская оценка параметра Ф. Указание: запишите апостериорный риск в виде интеграла и продифференци- руйте но а. б. Пусть в в А = (0, оо), X имеет распределение Пуассона РР (Ф), а Ф имеет гамма-распределение Г (р, X). а) Доказать, что если I (ф, а) = (а—ф)3, то байесовская оценка параметра Ф равна (р + х)/(1 + X). Указание: докажите, что апостериорное распределение совпадает с гамма- распределением Г (р + х, 1 + X). Воспользуйтесь задачей 1.2.4. б) Найти байесовское решающее правило, если I (ф, п) = (а — Ф)3/Ф. 6. В сильно упрощенном виде проблему ранжирования (см. пример г) нз разд. 10.1) можно описать следующим образом. Пусть Yn — такие неза- висимые нормальные случайные переменные, что Е (Yt) — pj, Var (Е|) = о®, 1 я, где и о8 предполагаются известными. Мы наблюдаем X = (Xlt..., Хп), где Xi =* Уц и jn) — какая-то неизвестная перестановка чисел я). Таким образом, 0 = { все перестановки (Д, .... /д)). Пусть А = 0 и l^,a)= 1, если ф Ф а, в противном случае I (Ф, а) = 0. Найти байесовское решение в случае, когда априорное распределение приписывает всем Ф £ 0 рав- ные вероятности. Задачи к разд. 10.4 1. Рассмотрнм_биномиальный пример 10.4.1, заменив I (0, а) квадратичной функцией потерь. ' а) Доказать, что б* (S) = [ Уд/(I + У«)1^ + 11/(4 + Ул)) £ — мини- максная оценка параметра Ф. | Указание: воспользуйтесь задачей 10.3.2. б) Вычислить в) Вычислить 11m П-> оо /?(ф, б*) /?(Ф,Х) ’ Him; Л «• Уаг (8*[(Х)) Var(X) г) Построить график R (О, б*) и R (Ф, X) как функций от Ф £ [0,1] при п =4, 16 и 25. . 2. Рассмотрим биномиальный пример с квадратичной, функцией потерь. До- казать, что правило X допустимо. Указание: умножение на Ф (1 — Ф) не изменяет знаков неравенств. 3. Пусть X имеет распределение Пуассона РР (Ф) и / (ф, а) — (а — Ф)3/Ф. Доказать, что правило d0 (X) — X: а) минимаксно, б) допустимо. Указание: воспользуйтесь задачей 10.3.5 н утверждениями 10.4.2 и 10.4.4. Устремите р в X с надлежащими скоростями к нулю. 202
4. Байесовские и минимаксные решающие правила не обязательно допустимы (из Фергюсона [б]). Пусть X = 0, в = {Ох, Оа), А = {alt а2, а9, а4} и функция потерь задана таблицей: *1 1 1 2 2 > 0 1 0 1 и пусть нерандомнзированные правила имеют видбх = а|,£ = 1,...,4. Дока- зать, что б, — байесовское правило относительно априорного распределения с л (0t)= 1, л (0а) = 0 и что ба имеет постоянный риск, минимаксно, но недопусти- мо. 5. Найти минимаксное решение для проблемы ранжирования, описанной в задаче 10.3.6. в. Пусть Хг, .... Хп — выборка из генеральной совокупности с плотностью / (i — О), где/ — известная функция, а О—неизвестный вещественный параметр сдвига. а) Для I (#, а) = (0—а)’привести соображения симметрии в пользу рас- смотрения трансляционно-эквивариантных оценок, т. е. таких оценок, что в (^1+хп + с) = б (Хэ........Xn) -f- с. б) Доказать, что оценка Питмена J О П /(Xf-«)dd «• (*i..Хп) = Т *--------------- -f- <» П f П f(Xt-vd& — в» f аиа | имеет равномерно минимальный риск среди всех трансляционно-эквивариантных оценок. в) (Трудная задача!) Доказать, что оценка Питмена минимаксна. Указание: в) если оценка б трансляционно-эквивариантна, то б (Xlt..., Хп)=» — Хх-}-Л (Ха—Хх, ..., Хп—Хх). Примените теорему 1.6.1 к Хх—0и (Ха— — Xit..., Хп — Хх). 7. Предположим, что в примере 10.4.2 ущерб из-за признания спутника свя- зи с нормально функционирующей аппаратурой неисправным вдвое больше ущер- ба из-за признания спутника связи с неисправной аппаратурой нормально функ- ционирующим. а) Вычислить минимаксное решающее правило для этой структуры потерь. б) Вычислить заодно наименее благоприятное распределение. Обратите внимание, что оно зависит от структуры потерь. 8. Доказать, что несмещенное решающее правило из задачи 10.2.7 минимакс- но. Указание: примените утверждение 10.4.2 к последовательности априорных распределений, сосредоточивающих массу в точках ±Вь и 0, где вл | 0. 10.7. БИБЛИОГРАФИЯ 1. В I а с k w е 1 1 D. and G i г s h i с к М. А (1954). Theory of Games and Statistical Decisions, J. Wiley & Sons. New York. Русский перевод: Влеку* элл Д., Г и р ш и к М. Теория игр и статистических решений. М., ИЛ, 1958. 203
2. В 1 у t h С. R. (1951). On minimax statistical decision procedures and their admissibility. — Ann. Math. Statist., 2, 22—42. 3. В г о w n L. D. (1966). On the admissibility of invariant estimates of one or more location parameters. —Ann. Math. Statist., 37, 1087—1136. 4. DeGroot M. H. (1970). Optimal Statistical Decisions. McGraw-Hill. New York. Русский перевод: Де Гроот М. Оптимальные статистиче- ские решения. М., Мир, 1974. 5. Ferguson Т. S. (1967). Mathematical Statistics. Academic Press. New York. 6. Lehmann E. L. (1959). Testing Statistical Hypotheses. J. Wiley & Sons, New York. Русский перевод: Леман Э. Проверка статистических ре- шений. М., Наука, 1964. 7. Lehmann Е. L, (1957). A theory of some multiple decision problems, I. — Ann. Math. Statist., 28, 1—25. 8. L e h m a n n E. L. (1957). A theory of some multiple decision problems, II. — Ann. Math. Statist., 28, 547—572. 9. L e h m a n n E. L. (1951). A general concept of unbiasedness. — Ann. Math. Statist., 22, 587—592. 10. L i n d 1 e у D. V. (1965). Introduction to Probability and Statistics from a Bayesian Viewpoint, Part 1: Probability; Part 2: Inference. Cambridge University Press. London. 11. Neumann J. von and Morgenstern O. (1944). Theory of Ga- mes and Economic Behavior. Princeton University Press, Princeton. N. J. Русский перевод: Нейман фон Д ж., Моргенштерн О.. Теория игр и экономическое поведение. М., Наука, 1970. 12. W а 1 d А. (1950). Statistical Decision Functions. J. Wiley & Sons. New York.
Приложение. • ОБЗОР ОСНОВНЫХ ПОНЯТИЙ ТЕОРИИ ВЕРОЯТНОСТЕЙ Статистика занимается изучением методов получения и использования ин- формации при наличии неопределенности. Непременным условием любого стати- стического исследования являются математическая модель случайности и знание некоторых свойств выбранной модели. В нашей книге мы опираемся на модель Колмогорова и основанную на ней современную теорию вероятностей. Предпо- лагается, что читатель владеет теорией вероятностей в объеме курса, читаемого студентам инженерных и экономических специальностей. Цель этого приложе- ния—указать, какие сведения из теории вероятностей мы считаем основными, и ввести обозначения, которые понадобятся нам в книге. Поскольку и обозначения, и уровень общности несколько отличаются от принятых в стандартных учебни- ках теории вероятностей того же уровня, что и наша книга, мы сочли умест- ным сопроводить изложение небольшими комментариями. В разд. П,14иП15 содержатся результаты, с которыми наш читатель может быть незнаком. По- скольку они существенны для нашего курса математической статистики, мы включили в эти разделы более или менее подробные доказательства. П.1. ОСНОВНАЯ МОДЕЛЬ Классическая механика и другие разделы точных наук построены на прин- ципе, согласно которому подобные причины порождают подобные следствия. Тео- рия вероятностей строит модель ситуаций, в которых подобные, или схожие, при- чины могут приводить к одномуиз нескольких несхожих между собой следствий. Подброшенная монета может выпасть либо вверх «орлом», либо вверх «решкой». Большинство членов группы из десяти человек, выбранных из населения США, может высказаться за или против легализации абортов. Интенсивность вспышек на Солнце в один и тот же месяц, но в различные годы может сильно отличаться. Все ситуации, которые мы собираемся моделировать, можно рассматривать как случайные эксперименты (опыты). С наивной точки зрения эксперимент мож- но определить как действие, состоящее в поиске или создании определенных усло- вий и последующем наблюдении исхода возникшей ситуации. К этому следует добавить еще одно требование: для того чтобы такое действие можно было на- звать экспериментом, оно должно быть воспроизводимым, по крайней мере в прин- ципе. Кроме того, прилагательное «случайный» означает лишь то, что мы не требуем одного и того же исхода при каждом повторении эксперимента, хотя совпадение исходов не исключается. Чего мы ожидаем и что наблюдаем на прак- тике при многократном повторении случайного эксперимента,— так это стрем- ление частоты каждого из возможных исходов эксперимента к стабилизации. Дли многих статистиков, в том числе и для авторов этой книги, именно частота, «за- ставляющая так долго ждать себя», является операционной интерпретацией мате- матического понятия вероятности. В этом смысле почти любой вид деятельности, связанный с неопределенностью, — от скачек на ипподроме до генетических экс- периментов — подпадает под расплывчатое название «случайных экспериментов». Другая школа статистиков находит такое определение чрезмерно ограничи- тельным. Интерпретируя вероятность как некую субъективную меру, они стре- мятся приписывать вероятности в любой ситуации, в которой возникает неопре- деленность, независимо от того, воспроизводима ли эта ситуация принципиально илн невоспроизводима. Подробное изложение этого подхода и дальнейшие ссыл- 205
ки читатель найдет в миографии Сэвиджа ЦП- Обратимся теперь к математичес- кой абстракции случайного эксперимента — к вероятностной модели. В приложении, как и во всей книге, мы предполагаем, что читатель знаком с элементарной теорией множеств и ее обозначениями в объеме гл. 1 книги Фел- лера 15] или гл. 1 учебника Парцена [2]. Мы будем обозначать символами U. П. е . — ис объединение, пересечение, дополнение, теоретико-множественную раз- ность и включение, как это принято в элементарной теории множеств. Случайный эксперимент описывается математически в терминах следующих понятий. П.1.1. Выборочным пространством называется множество всех возможных исходов случайного эксперимента. Обозначим выборочное пространство Q. Его дополнение — пустое множество, или невозможное событие, обозначим 0. ПЛ.2. Выборочной точкой называется любой элемент множества Q. Ее обыч- но обозначают о. П.1.3. Подмножества выборочного пространства Й называются событиями. События мы обозначаем латинскими буквами А, В,..., или указываем описание их элементов. Связь между экспериментом и моделью устанавливается соответ- ствием: «Событие А происходит в том и только в том случае, если наблюдаемый исход эксперимента есть элемент /» Теоретико-множественные операции, о ко- торых мы упоминали, также допускают интерпретацию на языке событий. Нап- ример, отношение включения А с В между множествами на языке событий озна- чает, что событие В происходит, если происходит событие А. Если <o£Q, то (со) называется элементарным событием. Если А содержит более одной точки, то А называется сложным событием. П. 1. 4. Обозначим через АА класс подмножеств выборочного пространства Q, которым можно приписать вероятности *. Распределением вероятности, или вероятностной мерой, называется неотрицательная функция Р на АА, обладающая следующими свойствами: 1) Р (Й) = 1. 2) если Alt Aa,... — попарно иепересекающиеся подмножества в АА, то \ 00 и А|» s PHi). 1 / оо (Напомним, что U А/ — множество точек, принадлежащих по крайней мере од- /=1 .МАТЭНГ: ному из А{. и что два множества называются непересекающимися, если они не имеют общих точек.) ПЛ.Б. Три объекта — Q, АА и Р,—-взятые вместе, составляют математи- ческое описание случайного эксперимента. Тройку (Q, АА, Р) мы будем называть вероятностной моделью или отождествлять модель с представляемым ею (слу- чайным) экспериментом. Для удобства, говоря о событиях, мы автоматически исключаем те из них, которые не принадлежат А А. БИБЛИОГРАФИЯ 1, гл. 1, разд 1—3, 6—8.] 2, гл. I, разд. 1—5.] 3, гл. I, разд. 1.1, 1.2.] П.2. ЭЛЕМЕНТАРНЫЕ СВОЙСТВА ВЕРОЯТНОСТНЫХ МОДЕЛЕЙ Бее приводимые ниже свойства следуют из определения распределения веро- ятностей Р. * По чисто математическим причинам может оказаться невозможным при- писать вероятность Р каждому подмножеству в й. Однако А А всегда можно рас- сматривать как сигма-алгебру, которая по определению представляет собой не- пустой класс событий, замкнутый относительно взятия счетного числа объеди- нений, счетного числа пересечений и дополнения (см. [9])7 “ 2Ьб~
П.2.1. Если Л с: В, то Р (В — Л) = Р (В) — Р (Л). П.2.2, Р (Лс) = 1 — Р (Л), Р (ф) = О. П.2.3. Если Л cz В, то Р (В) > Р (Л). П.2.4. О < Р (Л) < 1. П.2.5.£Р ( (J Лп]< 2 \п«« 1 / Л=>1 П.2.6. Если Л1С Лас ... С Лп ..., то Pl U Ad = НтР(Лп). (k \ k с п Л< j > 1— У, P(At) (неравенство Бонферрони). <= 1 / /“ 1 БИБЛИОГРАФИЯ (1, гл. I, разд. 8.1 {2,гл.1, разд. 4—5.1 [3, гл.1, разд. 1.3.J П.З. ДИСКРЕТНЫЕ ВЕРОЯТНОСТНЫЕ МОДЕЛИ П.3.1. Ветюятностная модель называется дискретной, если выборочное пространство Q дискретно или счетно бесконечно и каждое событие наделено ве- роятностью, т. е. если Q {©lt ©»,...} н ЛЛ — совокупность подмножеств из О. В этом случае аксиома (2) из (П. 1.4) позволяет утверждать, что для любого собы- тия Л П.3.2. Р (Л) -» Р (W). Важный частный случай возникает, когда Й состоит из конечного числа, на- пример из IV, элементов, которые все равновероятны. Тогда Р ({со}) = 1/W для любого © £ Q , и •V П.3.3. „ . Число элементов в Л Р(Л)=-------------------==. П.3.4. Пусть ©j,...,©^ —элементы некоторой генеральной совокупности (людей, морских свинок, цветов, машин и т. д.). Выбирая один элемент из этой совокупности так4,что любой элемент может быть извлечен с одинаковой вероят- ностью, т. е. выбирая один элемент случайным образом, мы производим экспери- мент, приводящий к модели из (П.3.3). Такой выбор можно произвести при малом числе N, если наделить все элементы ©| «именами», положить бумажки с их именами в шапку, хорошенько потрясти и затем извлечь одну из бумажек. При больших N можно воспользоваться таблицей случайных чисел. БИБЛИОГРАФИЯ ... П.гдЛ, разд. 4—5-1 [2,гл. Г, разд. 6—7.] 207 -
П.4. УСЛОВНАЯ ВЕРОЯТНОСТЬ И НЕЗАВИСИМОСТЬ Если заданы событие В, такое, что Р (В) > 0, и любое другое событие Л, то условной вероятностью события А, если известно, что событие В произошло, на- зывается величина Р (Л | В), равная по определению П.4.1. Если Р (Л) соответствует частоте, с которой событие А встречается в длин- ной серии повторных экспериментов, то Р (Л| В) соответствует частоте, с кото- рой событие Л встречается в классе испытаний, сопровождаемых событием В. С эвристической точки зрения Р (Л | В) — это вероятность, которую мы припи- сали бы событию Л, если бы нам сказали, что произошло событие В. Если Ль Л8,... — (попарно) непересекающнеся события и Р (В) > 0, то П.4.2. Р( (J ЛИВ)- 2 Р(Л,|В). \/ = 1 / Г= 1 При заданном В, как выше, функция Р(-1 В) есть вероятностная мера на (Я, ЛЛ), называемая условной вероятностной мерой (при условии, что произошло событие В). Перенеся знаменатель в (П.4.1) в левую часть и переставив левую и правую части, получаем правило умножения вероятностей П.4.3. Р (Л П В) = Р (В) Р (Л | В). Если Blf В8, .., Вп — (попарно) непересекающнеся события с положитель- ными вероятностями, объединение которых совпадает с Я, то из тождества А = п = и (Л n Bj), (П.1.4 (2)) и (П.4.3) получаем /—1 П.4.4. Р(Л)^2 Р(А]В#Р(В#. /= 1 Если Р (Л) > 0, то, объединяя (П.4.1), (П.4.3) и (П.4.4), мы приходим к правилу Байеса П.4.5. P(BlW = - X Р (Л|В,) Р (Bj) /= I Условная вероятность события Л, если произошли события Bj, ...» Вп, обо- значается Р (Л | Blt..., Вп) и определяется как П.4.6. Р (Л | Вх,..., Вп) = Р (Л | Вх П -П Вп) для любых событий Л, Вх, ..., Вп, таких, что Р (Вх |"| ... Л Вп) > 0. Несложные вычисления приводят к обобщенному правилу умножения П.4.7. Р (Вх П • • - Л Вп)=Р (Вх) Р (В8 ] Bj) Р (В, I Вх, В8) ... • • Р (Вп | Вх, ..., Вп—i) • при условии, что В (Вх Л ... Л Вп_х) > 0. Два события, Л и В, называются независимыми, если П.4.8. Р (Л Л В) = Р (Л) Р (В). Если Р (В) > 0, то (П.4.8) можно записать в виде П.4.9. Р (Л | В) = Р (Л). Иначе говоря, Л и В независимы, если сообщение о том, что событие В произошло» не влияет на вероятность события Л. 208
События Ах....Ап называются независимыми, если k П.4.10. Р (ЛХ1 П • • • Л \) = П Р (А^ для любого подмножества (lx,..., i*} целых чисел л). Если все Р (А<) >0, то соотношение (П.4.10) эквивалентно требованию п.4.11. ..... при любом / и подмножестве (4,..м /*}, таком, что / ф {4,..., /*}. БИБЛИОГРАФИЯ [1, гл. 1, разд. 9.) (2, гл. 2, разд. 4; гл. 3, разд. 1, 4.] [3, гл. 1, разд. 1.4, 1.5.J П.5. СЛОЖНЫЕ ЭКСПЕРИМЕНТЫ Понятие «независимых экспериментов» существует на интуитивном уровне. Например, если мы дважды бросаем монеты, то исход первого эксперимента (бро- сания) разумно считать не имеющим никакого отношения к исходу второго броса- ния. С другой стороны, нетрудно привести примеры «зависимых» экспериментов. Так, оценка, полученная студентом на экзамене, в какой-то степени зависит от того, хорошо лн он выспался перед этим. В этом примере мы имеем два экспе- римента: «ложиться спать» с исходами «хорошо выспаться» и «дурно провести ночь» и «сдать экзамен» на ту или иную оценку в качестве исхода. Чтобы иметь возможность говорить о независимости и зависимости экспериментов, введем по- нятие сложного эксперимента. Неформально сложный эксперимент можно определить как состоящий из двух или более простых. Для сложных экспериментов удается естественным об- разом определить о-алгебры и вероятности. Именно этому и посвящен настоящий раздел. Читатель, которого не интересуют строгие определения, может пропус- тить остальную часть этого раздела и перейти к (П.6), где приведены примеры сложных опытов. П.5.1. Напомним, что если Ах,..., Ап —события, то декартовым, или пря- мым, произведением А« X ... к Ап событий Ах.Ап по определению называется множество {(©х,..., ©п) : ©| £ А<, 1 С I С п). Если имеются п экспериментов (вероятностных моделей) ЕЕх.ЕЕп с выборочными пространствами Qj,..., Qn, то выборочное пространство Q n-частпого эксперимента по определению есть йхХ ... ХПП. Сложный (п-частнын) эксперимент заключается в выполнении сос- тавляющих его экспериментов EElt..., ЕЕп и в записи всех п исходов. Выборочное пространство Q допускает следующую интерпретацию- (©!,..., ©п) принадлежит Q в том и только в том случае, если ©х—исход опыта EElt ©«—исход опыта EEt и т. д. Утверждение о том, что эксперимент EEt имел исход ©/ £ С/, соответствует утверждению о том, что в Q происходит сложное событие QxX ... X Q(_xX{©?}X X X ... X Qn = {(©£,..., ©n) £ Q: ©<=©?). Обобщая, можно сказать, что если Аi £ АА| — сигма-алгебре, соответствующей EEt, то Ад соответствует в сложном опыте Ох X ... X Qj_i X At X Qi+1 X — X Qn- Если мы хотим сде- лать эксперимент EEf независимым, то интуитивно нам следовало бы иметь не- зависимыми все классы событий. Ах,..., Апс At £ AAf. В сложном эксперименте это имеет смысл. Если Р — вероятностная мера на енгма-алгебре АА состав- ляющего эксперимента*, то П.5.2. P([AiXftaX... ХОп1Л[Й1ХЛаХ ... ХОп)П...) = вР (Ах X ... X An) —Р (Ах X Qa X ... X On) Р (Qi X Аа х •. • X Qn )• • • ... P(QjX ... XQn—1 X Ап). ♦ Мы определяем АА как наименьшую сигма-алгебру, содержащую каждое множество вида Ах X ... X Ап с Af £ АА|, 1 л, в качестве своего эле- мента. 209
Если заданы} вероятности Р. на (Qb AAJ, Р, на (Q„ Л Л,)...... РЛ на (£2П, ЛЛП), то (П.5,2) определяет Р на Лх X ...X Лп как П.5.3. Р (Лх X ...X Лп) = Рх (А,) ...РЛ (Ал). Можно показать (см. (9, р. 91]), что если вероятность Р определена соотно- шением (П.5.3) для событий Лх х ...X Ап, то ее можно однозначно продолжить на сигма-алгебру ЛЛ, о которой говорится в сноске. Мы называем аксперименты ЕЕ,,..., ЕЕЛ независимыми, если вероятностная структура л-частного сложного эксперимента определяется соотношением (П.5.3). В дискретном случае (П.5.3) выполняется, если П.5.4. Р ({(oj.(on))) = Р, ({со,)).... ...Pn ({<on}) при всех <ot £ = 1...n. l</<n. • Задание вероятности P в случае, когда EEf зависимы, —задача более слож- ная. В дискретном случае мы знаем Р, коль скоро Р ({с^,..., ©„}) задана для каж- дого набора ((Oj. <о„) с <0j £ Qj, /=1..л. По правилу умножения (П.4.7) мы получаем П.5.5. Р ({(<01,..., (оп)}) = Р (ЕЕ, имеет исход coi). Р (ЕЕ, имеет исход о, \ЕЕ, имеет исходе»... Р(ЕЕп имеет исход e>n|EEi имеет исход <olt..., |EEn-il имеет исход <0n_i)- Структура вероятностей определяется этими условными вероятностями, и на- оборот. БИБЛИОГРАФИЯ [2, гл. 3.] [3, гл. 1, разд. 1.5.] П.6. БИНОМИАЛЬНЫЕ ИСПЫТАНИЯ, ВЫБОР С ВОЗВРАЩЕНИЕМ И БЕЗ ВОЗВРАЩЕНИЯ П.6.1. Предположим, что эксперимент имеет только два возможных исхода которые мы обозначим Б (благоприятный исход) и Н (неблагоприятный исход). Пусть Р ((£})—р. Тогда такой вксперимент называется биномиальным* испита- наем с вероятностью благоприятного исхода р. Если С—выборочное пространст- во сложного эксперимента, то любая точка (о £ Q представляет собой л-мерный вектор из Б и Н и П.6.2. Р ((©)) =р* <“> (I —р)"-* <•>, где k (е>) — число бука Б в векторе со. Пусть — событие «вектор о содержит ровно Л букв Б». Тогда П.6.3. Р(ЛЛ)^^р*(1-р)«-*, Ь0, 1............л, где /»)-------51----. W М(п- *)1 П.6.4Л Понятие биномиального испытания допускает обобщение. Если экс- перимент имеет q возможных исходов ©j,..., юд и Р ({со/))=pt, то он называет- ся мультиномиальным испытанием с вероятностями благоприятных исходов Pt» •••» Pq- Если Q — выборочное пространство такого эксперимента и е» £ Q, то П.6.6. Р ({©}) =« Pf* ... рМ, * Такие эксперименты принято также называть испытаниями Бернулли. 210
где kt (w) — число, показывающее, сколько раз со* встречается в со. Если Л&, — ь9 — событие «были наблюдены ровно исходов он, ровно k2 исходов w2, ..., ровно kq исходов Од», то] П.8.6. где kt — натуральные числа, сумма которых равна п, П.6.7. Выполнив эксперимент (Q, А А, Р) независимо п раз, мы будем иног- да называть исход получившегося сложного эксперимента выборкой объема п из генеральной совокупности, заданной тройкой (О, АА, Р). Если множество Q конечно, то мы добавляем термин «? возвращением», чтобы отличить рассматривае- мую ситуацию от ситуации, описанной в (П.6 8) П.6.8. Если мы имеем генеральную совокупность элементов Q — {Wj, ..., toN} и выбираем элементы со* последовательно случайным образом п раз без возвращения, то опыты, образующие сложный эксперимент, перестают быть не- зависимыми и для любого исхода а = (cojj.. w*n) сложного эксперимента. П.6.9. где тдг- (Если элемент, извлеченный из генеральной совокупности, возвращается в нее до извлечения следующего элемента, то мы производим выбор с возвращением, опыты, из которых состоит сложный эксперимент, независимы, и Р ({а}) = 17 ДО».)1 Если Np элементов множества Q обладают «особым» свойством Б, N (1 — р) элементов обладают противоположным свойством Н и Аь = [ровно k элементов с «особым» свойством содержатся в выборке], то П.6.10. ’ pp\/W(I-p)V «/»» (п\ (Wk^(l-P))n-fc UA n-k ) Р(Л‘)=Ы—№—“—— - при шах (0, п — N (1 — р)) Л-Cmin (л, Np) *н Р = 0 в остальных слу- чаях. - г БИБЛИОГРАФИЯ [1, гл. 2, разд. 11.] [2, гл. 3, разд. 1—4] *... [3, гл. 2, разд. 2.4.] П.7. ВЕРОЯТНОСТИ НА ЕВКЛИДОВОМ ПРОСТРАНСТВЕ В теории и на практике главную роль играют случайные эксперименты, не-, ходами которых служат вещественные числа. Выборочное пространство в ве-’ роятностных моделях таких экспериментов можно считать обладающим структу- рой евклидова' пространства. Обозначим через R* евклидово -мерное пространство и через х или (хь ..., хь) его точки.
П.7.1. Пусть (л, 61.)..(ал, bk)—k открытых интервалов. Тогда (щ, X X ... X (аь, б*) = {(*!, ..., xft) : at < xt <bf, l</<£) называется открытым k-прямоугольником. П.7.2. Борелевской алгеброй над Rk (которую мы обозначим ВВк) называет- ся наименьшая о-алгебра, элементами которой являются открытые fc-прямоуголь- ники. Любое подмножество в Rk, которое может представить для нас какой-то интерес, оказывается элементом борелевской алгебры ВВ*. Условимся вместо ВВ1 писать просто ВВ. П.7.3. Дискретным распределением (вероятности) на /?* называется такая •О вероятностная мера Р, что У,Р (fxj)) = 1 для некоторой последовательности то- Z=1 чек {х/} в (т. е. только может быть исходом эксперимента). Какое опре- деление согласуется с (П.3.1), так как модель эквивалентна модели с Q = {хх, —» Хп, Функция частоты р дискретного распределения определяется на /?* соот- ношением П.7.4. р (х) = Р ({х}). Наоборот, любая неотрицательная функция р на 7?*, равная нулю всюду, за ис- ключением последовательности векторов {хх, ...» хп, ...} и удовлетворяющая ус- «о ловию (xt) = I, определяет единственное дискретное распределение вероят- /"I костей по формуле П.7.Б. Р(А)~ 2 р(хх). П.7.8. Неотрицательная функция р на /?*, интегрируемая* и удовлетворяю- щая условию Ptfi.....th)dti...dth = \„ •— со •— во называется функцией плотности, П.7.7. Непрерывное** распределение вероятности на Rk есть вероятность Р, определяемая соотношением П.7.8. PM)=f.^Jp(/i.........th)dtt ...dth" при некоторой функции плотности р и всех событиях А. Можно показать, что определенная соотношением (П.7.8) функция Р удовлетворяет условиям (П.1.4). Напомним, что интеграл в правой части (П.7.8) по определению равен J* J PV1» • • •» fft) (^1» • • • • dt±. • •» rf/fc. — CO CO где IA (ti, .... th) = 1. если (fj.tk) ( Л, и IA(lt....th) == 0, если (/ъ .... fe) ф А. Геометрически P (А) есть объем «цилиндра» с основанием А и высотой * Интегралы надлежит понимать в смысле Лебега. Для практических це- лей вполне адекватны интегралы Рнмана. •• Обычно такое распределение вероятности называется абсолютно не- прерывным. Мы будем рассматривать только такие непрерывные распределения вероятности, которые являются и абсолютно непрерывными, и будем опускать слово «абсолютно». 212
p (tf...ft), построенного в точке (fbth). Важным частным случаем соотно- шения (П.7.8) является соотношение П.7.9. *а P((av &i)X...X(ah, М)= { ^)Л1 .-Ла. 4 а» Оказывается, что непрерывное распределение вероятности определяет плотность, которая «однозначно»* порождает распределение. Хотя в непрерывной модели Р ({х)) = 0 пля любого х, функция плотности допускает операционную интерпретацию, близкую к операционной интерпрета- ции функции частоты. Например, если р — непрерывная плотность на /?, х0 и Xj принадлежат R и h — число, близкое к нулю, то по теореме о среднем П.7.10. Р (ко — Л, *0 + Л]) sss 2Лр (х0) и Р ffx0-ftt x0+ft]) _ > (х0) . л, Xi+ft]) p(xt)* Таким образом, отношение р (х0)/р (xj можно рассматривать как прибли- женную меру того, насколько более (или менее) вероятно получить исход в ок- рестности точки хп, чем в окрестности точки хг П.7.11. Функция распределения F определяется соотношением П.7.12. F fa.....ха) — Р ((— оо, xj X ... X (— оо, xh]). Функция распределения задает Р в том смысле, что если Р и Q — две вероят- ности с одной и той же функцией распределения, то Р = Q. Если k = 1, то F — функция вещественного переменного, обладающая следующим отличительными свойствами: П.7.13. П.7.14. П.7.15. П.7.16. °<F< 1, х у =ф- F (х) •< F (у) (монотонность). хп | х F (хп) -> F (х) (непрерывность справа). limF(x)=l, limF(x)-0. JT-*—ОО Можно показать, что любая функция F, удовлетворяющая условиям (П.7.13)— (П.7.16), определяет на вещественной прямой единственную Р. Всегда выполняет- ся соотношение П.7.17. F (х) - F (х — О)** = Р ({х}). Таким образом, функция F непрерывна в точке х в том и только в том случае, если Р (fxl) = 0. * Строго говоря, плотность определяется только с точностью до множества лебеговой меры 0. Для функции # вещественного переменного, для которой существуют со- ответствующие пределы, мы будем использовать обозначения g(x-f-O)=> = !lm'g(xn), g(x — 0)-lim£(xn). xn»x xntx 213
БИБЛИОГРАФИЯ [1, гл. 4, разд. 21, 22.] [2, гл. 4, разд. 1—4, 7.] [3, гл. 3, разд. 3.1, 3.2; гл. 5, разд. 5.1, 5.2.] П.8. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ВЕКТОРЫ: ПРЕОБРАЗОВАНИЯ Хотя выборочные пространства могут быть самыми различными, основной интерес для статистика представляют одна или несколько числовых характери- стик наблюдаемой выборочной точки. Например, мы можем измерять вес свиней, извлеченных случайным образом из некоторой популяции, продолжительность работы до первой поломки и время, необходимое для устранения неисправности случайно выбранной машины, урожай пшеницы, снятый с одного акра посева в тот или иной год, концентрацию некоторого вещества, загрязняющего атмо- сферу, и т. д. В вероятностной модели этим величинам соответствуют случайные величины и векторы. П.8.1. Случайной величиной X называется функция, отображающая Q в R и такая, что множество {со: X (<о) £ В} = Х“1 (В) лежит в А А для любого в с вв*. П.8.2. Случайным вектором X = (Xt, ..., Хь) называется набор из k слу- чайных величин, или (эквивалентное определение) функция, отображающая Q в Rk и такая, что множество {©: X (<о) £ В) — X’1 (В) лежит в АА для каждого В £ BBk. При k = 1 случайные векторы вырождаются в случайные величины. Событие X*"1 (В) принято записывать как [X б В], событие Р ((X б В]) — как Р [X б В1. Распределение вероятности случайного вектора X по определению есть ве- роятностная мера Рх в модели (Rk, BBk, Рх), задаваемая соотношением П.8.3. РХ(В)= PlX В]. П.8.4. Говорят, что случайный вектор имеет непрерывное или дискретное распределение {непрерывен или дискретен), если его распределение вероятности непрерывно‘'или дискретно. Аналогичным образом, говоря о функциях частоты, плотности, распределения и т. д. случайного вектора, мы в действительности.име- ем в виду соответствующую характеристику его распределения вероятности. Индекс X или X у плотностей, функций распределения и т. д. будет указывать, относятся ли они к случайному вектору или к случайной величине, если это не будет ясно из текста (в таком случае индекс будет опущен). Вероятность любого события, которое может быть представлено только че- рез X, можно вычислить, зная лишь распределение вероятности вектора X. Это означает, что в дискретном случае требуется знать только функцию частоты, а в непрерывном случае — функцию плотности. Следовательно, из (П.7.5) и (П.7.8) получаем 2 если вентор X дискретен, хеЛ j\t.Jp(x)dx, если вектор X непрерывен, Если нас интересуют какие-то конкретные случайные величины или векто- ры, мы опишем их в терминах только их распределений вероятности, не исполь- зуя никаких отличительных особенностей выборочного пространства, на котором заданы эти распределения. * Это требование, налагаемое на множества X"1 (В), носит чисто техниче- ский характер. В дискретном случае оно ие накладывает никаких ограничений, и ему удовлетворяет любая интересующая нас функция, если Q — пространство R* или подмножество в Rk. 214 П.8.5. Р|Х£А] =
Изучение вещественных, или вещественнозначных, функций от случайного вектора X — основная задача теории вероятностей и математической статистики. Приведем строгое определение таких функций, или преобразований. Пусть g — любая функция, отображающая /?* в Нт, 1, /п> 1» такая*, что g-1 (В) = = {у £ g (у) £ с ВВ* для любого В £ ВВт. Тогда случайное преоб- разование g (X) определяется соотношением Л.8.6. £ (X) (<*>) = g (X («)). Примером преобразования, часто применяемого в статистике, может служить * _ * «“(й.Л). где £1(Х)-=А~х У Xj =«Х и gt(X)=A-i У (Xt—X)2 (см. разд. 1.3 н 3.3). Другим примером, встречающимся не менее часто, может слу- жить g(X)= (min (Х|), max (Хд)). Распределение вероятности функции g (X) полностью определяется распре- делением вероятности вектора X: П.8.7. Р (g (X) С S1 = РIX € g-1 (В)]. Если X — дискретный вектор с функцией частоты рх, то g (X) дискретна и имеет функцию частоты П.8.8. Pg(X)O) {*:«{*)—t} Пусть X — непрерывная случайная величина с плотностью рх, функция g вещественнозначна и взаимно-однозначна** на открытом множестве 3, таком, что Р [X £ 3] = 1. Предположим, что производная g1 функции g существует и не обращается в нуль на 3. Тогда преобразование g (X) непрерывно с плотностью П.8.9. Ря(Х)()= |g'U-i(0)| при t £ g (S) и равной нулю при / ф g (3). Соотношение (П.8.9) называется формулой замены переменных. Если g (X) — оХ -f- р, о 0 н случайная величина X непрерывна, то П.8.10. 1 [ t—ц \ ^X)(O= 1а| Рх(—]• Из (П.8.8) следует, что если (X, У) — дискретный случайный вектор с функ- цией частоты р^Хг у), то функция частоты случайной величины X, известная под названием частной функции частоты, определяется выражением П.8.11. Рд (х) Р(х, У) (*» У)- • Такие функций g называются измеримыми. Приводимое далее условие гарантирует, что g (X) удовлетворяет условиям (П.8.1) и (П.8.2). Для удобства Мы будем в дальнейшем считать, что все интересующие нас функции автоматиче- ски удовлетворяют этому условию. *• Функция g называется взаимно-однозначной, если из g (х) = g (у) сле- дует х = у. 216
Аналогично если (X, У) — непрерывный случайный вектор с функцией плотно- сти ур то можно показать (утверждение следует из (П.8.7) и (П.7.8)), что X имеет частную функцию плотности П.8.12. оо (%) == J У) (х, у) dy*. --00 Введенные нами понятия допускают обобщение на случай, когда случайный вектор Z = (X, Y) составлен из двух случайных векторов X и Y. Частная функ- ция частоты или плотности вектора X находится, как в (П.8.11) и (П.8.12), пу- тем суммирования или интегрирования Y) (х, у) по у. Дискретные случайные величины можно использовать для получения сколь угодно точной аппроксимации непрерывных случайных величин, и наоборот. Все случайные величины, встречающиеся в реальных задачах, дискретны, так как ни один прибор не позволяет производить измерения с идеальной точ- ностью. Тем не менее в статистике принято оперировать с непрерывными распре- делениями, так как над ними легче производить различные действия. Обоснова- ние выбора непрерывных распределений может быть как теоретическим, так и прагматическим. Одна из возможных причин состоит в том, что наблюдаемая слу- чайная величина или вектор получается при округлении с большим числом зла- ков истинной ненаблюдаемой непрерывной случайной величины, задаваемой не- которой идеализированной физической моделью. Другая возможная причина за- ключается в том, что аппроксимация дискретного распределения непрерывным обретает смысл на основе одной из предельных теорем разд. П.15. П.8.13. Условимся записывать X = Y, если вероятность события [X У] равна нулю. БИБЛИОГРАФИЯ [1, гл. 4, разд. 21—24.] [2, гл. 7, разд. 1—5, 8, 9.] 13, гл. 3, разд. 3.3; гл. 5, разд. 5.2; гл. 6, разд. 6.1, 6.4.] П.9. НЕЗАВИСИМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН И ВЕКТОРОВ П.9.1. Две случайные величины Xj и Х2 называются независимыми в том}и только в том случае, если для любых множеств А и В, принадлежащих ВВ, со- бытия (Хх £ А1 и [Ха £ В] независимы. П.9.2. Случайные величины Хх....Хп называются (взаимно) независимыми в том и только в том случае, если для любых множеств At.Ап, принадлежащих ВВ, события [Хх £ AJ, ...» (Xn С независимы. Чтобы обобщить эти опре- деления на случайные векторы Хх, ..., Хп (не обязательно одной размерности), необходимо лишь подставить в них события [Х< £ AJ, где At —2множество» содержащееся в множестве допустимых значений случайного вектора Хх. П.9.3. Из (П.8.7) следует, что если X и Y независимы, то g (X) и h (Y) так- же независимы, какими бы ни были функции й и h. Например, если (Xit Ух) и (Х8, У2) независимы, то Хх + Х2 и УХУ2 или (Хх, XiX2) и У* и т. д. также неза- висимы. Теорема. Пусть X = (Xt.....Хп) — либо дискретный, либо непрерывный случайный вектор. Тогда случайные величины Хъ ..., Хп независимы в том и только в том случае, если выполняется любое из двух следующих условий: П.9.4. Гх(х1,...,хп)=/Х1(х1)...ГЛл(хп) при всех xlt...,xn, • Интеграл в (П.8.12) может быть конечным лишь при «почти всех» X. В регулярных случаях, которые нам предстоит рассматривать, это не создает никаких трудностей.
П 9.5. Рх ’ *n) = Pxt (*i) • • • Pxn (*n) ПРИ BCex *1.• П.9.6. Если все X< непрерывны и независимы, то X = (xlf .... xn) — непре- рывный случайный вектор. П.9.7. Приведенные выше отношения эквивалентности справедливы для случайных векторов Xj, .... Хл с X = (Xt, ..., Хп). П.9.8. Если XIt Хп — независимые одинаково распределенные А-мсрные случайные векторы с функцией распределения Fx или функцией плотности (ча- стоты) то Xj, Хп называются случайной выборкой объема п из генеральной совокупности с функцией распределения Fx или функцией плотности (частоты) рх. В статистике такая случайная выборка возникает при случайном (в смысле (П-3.4)) выборе п элементов из генеральной совокупности и измерении k ха- рактеристик каждого извлеченного элемента. Пусть А — любое событие. Определим случайную величину 1А — инди- катор события А — следующим образом: П.9.9. . . . fl. если ©е А, л ]0, если со $ А. Произведем п биномиальных испытаний с вероятностью благоприятного исхода р. Пусть Xi — индикатор события (благоприятный исход на i-м испытании]. Тогда Xt образуют выборку из распределения, приписывающего единице вероят- ность р и нулю вероятность (1 — р). Такие выборки мы будем называть инди- каторами п биномиальных испытаний с вероятностью благоприятного исхода р. БИБЛИОГРАФИЯ (1, гл. 4, разд. 23, 24.] (2, гл. 7, разд. 6, 7.J [3, гл. 3, разд. 3, 4.] П.10. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ СЛУЧАЙНОЙ ВЕЛИЧИНЫ Пусть X — рост человека, случайно выбранного из конечной генеральной совокупности. Тогда разумной мерой центра распределения случайной величины X можно считать средний рост индивидуума в данной совокупности. Если хи .... хч — данные о росте всех членов генеральной совокупности, то средний рост я можно представить в виде [X — jq], где Р ]Х = xj — доля индивиду- умов роста xj в генеральной совокупности. Та же величина (приближенно) возникает, если мы воспользуемся интерпретацией вероятности как частоты в длинной серии испытаний и вычислим средний рост индивидуума в большой вы- борке из интересующей нас генеральной совокупности. В духе этих идей общее понятие математического ожидания можно развить следующим образом. Пусть X — неотрицательная дискретная случайная величина, принимаю- щая значения {х1( хг,...). Определим ее математическое ожидание, или среднее Е (X), как П.10.1. Е (X) = 2 Х| рА (х^) г=1 (Е (X) может обращаться в бесконечность: выберем, например, • xf = Z, рх(0= + ' 1 = 1.2»-..)- ; 2(7 1
П.10.2. Рассмотрим более общий случай. Пусть X — дискретная случай- - ная величина. Разложим {*!, х2,...) на два множества Л и В, таких, что Л сос- тоит нз всех неотрицательных jq, а В — из всех отрицательных jq. Если либо 2 xipx(xt) < со, либо (*1) Рх (х<)< °0’ математическое ожидание Е (X) определяется однозначно соотношением (П.10.1). Если же оба выражения обра- щаются в бесконечность, то мы оставляем Е (X) неопределенным. Перечислим некоторые свойства математического ожидания дискретной слу- чайной величины X. Если X — постоянная, т. е. X (о) = с при всех <в, то П.10.3. Е (X) «= с. Если X = 1А (см. (П. 9.9)), то П.10.4. Е(Х)=Р(Л). Если X — л-мерный случайный вектор, g — вещественнозначная функция на ₽« и Е (|g (Х)|) < со, то П.10.5. «о Ete(X))=3«(4)Px(*l)- I “ I Из (П.10.5) следует, что П.10.6, Ixi ।Рх(*|)• 1-1 п Выбирая g (х±, ..., xn) «= получаем фундаментальное соотношение П.10.7, (и \ п S a<xi = 3 “«EW). 1=1 / /-1 если at, ..., ап — постоянные и Е (|Xt|) < со, i = 1, .... п. П.10.8. Из (П.10.7) следует, что если Х<Уи£ (X), Е (У) определены, то Е(Х)<Е(У). Если X — непрерывная случайная величина, то ее математическое ожидание естественно попытаться определить с помощью аппроксимации, идя от дискрет- ного случая. Те, кто знаком с интегрированием по Лебегу, поймут, что такой под- ход приводит к П.10.9* Е(Х)— J xpx(x)dx — оо в качестве определения математического ожидания, или среднего, непрерывной оо О случайной величины X, коль скоро интегралы f хрх (х) dx или f хрх (х) dx о — ® конечны. В противном случае математическое ожидание Е (X) не определено. П.10.10. Случайная величина X называется интегрируемой, еслиЕ(|Х|)<< < со.
Можно показать, что если X — непрерывный A-мерный случайный вектор в 8 (X) — любая случайная величина, удовлетворяющая неравенству +,•* +“ j • • • J 1ё (xi....**) I Рх (А1....**) dxi.....dx* <°°» м о» то Е (g (X)) существует и П.10.11. 4“ «о 4“ °® Е(Я(Х))= J ... J g(*i.......*л) рх(хх, .... xk) dxt... dxh. -40 — OO Если случайная величина X непрерывна, то ее математическое ожидание обладает свойствами (П.10.3), (П.10.4), (П.10.7) и (П.10.8), а также непрерыв- ными аналогами свойств (П.10.5) и (П.10.6). Дискретные аппроксимации позво- ляют распространить определение математического ожидания случайной вели- чины на общий случай. Интересующийся читатель может почерпнуть более под- робные сведения в учебниках по теории вероятностен повышенного типа, напри- мер в [4, гл. 3]. БИБЛИОГРАФИЯ [1, гл. 5, разд. 26 ] ]2, гл. 5, гл. 8, разд. 1—4.] 13, гл. 4, разд. 4.1; гл. 7, разд. 7.1.] Дополнительную литературу к этому разделу можно найти в (4, гл. 3]. П.11. МОМЕНТЫ n.ll.l.JTIycTb k — любое натуральное число, X — случайная величина. Тогда k-ы моментом случайной величины X называется математическое ожидание величины X*. Мы предполагаем, что все выписанные далее моменты существуют. Из (П.10.5) и (П. 10.11) следует, что П.11.2. £xk рх(х), если X—дискретная случайная величина, X Е(ХЬ)~> 4D j xkpx(x)dx, если X—непрерывная случайная величина. В общем случае моменты зависят только от распределения случайной величины X. П.11.3. Распределение случайной величины, как правило, однозначно опре- деляется своими моментами. Например, именно так обстоит дело, если случайная величина обладает производящей функцией моментов (см. (П. 12.1)). П.11.4. А-м центральным моментом случайной величины X называется ве- личина Е ](Х — Е (X))*] —А-й момент случайной величины (X — Е (X)), обо- значаемый щ. П.11.5. Второй центральный момент называется дисперсией случайной ве- личины X я обозначается Var (X). Неотрицательный квадратный корень из Var (X) называется стандартным отклонением случайной величины X. Стан- дартное отклонение также называют мерой масштаба. Другой мерой того же ти- па служит величина Е (|Х — Е (Х)|), часто называемая средним отклонением. Дисперсия случайной величины X конечна в том н только в том случае, если конечен второй момент величины X (см. (П. 11.15)). Если а и Ь — постоянные, то в силу соотношения (П.10.7) П.11.6. Var (пХ + b) = a* Var (X). 219
(Одна нз частей этого равенства существует в том и только в том случае, если су- ществует другая ) П. 11.7. Если X — любая случайная величина с вполне определенными (конечными) средним и дисперсией, то стандартизированным аналогом X называ- ется случайная величина Y — (X — Е (X))/VVar (X). Из (П.10.7) н (11.11.6) следует, что ПЛ 1.8. £ (У) = 0 в Var (У) = 1. П. 11.9. Если £ (Xs) = 0, то X = 0 Если Var (X) = 0, то X = £ (X) (постоянная). Эти утверждения следуют, например, нз (П.15.2). ПЛ 1.10. Третий и четвертый центральные моменты используются в ко- эффициенте асимметрии yt и в коэффициенте эксцесса у8, определяемых соот- ношениями где o’ — Var (X). Оба коэффициента как описательные меры применяются при сравнении форм наиболее употребительных функций плотности. ПЛ 1.11. Если У — аХ-г Ь, где а > 0, то коэффициенты асимметрии и эксцесса случайной величины У такие же, как у случайной величины X. ПЛ 1.12. Понятие моментов допускает обобщение на случайные векторы. Для простоты рассмотрим случай А=2. Если Хх и Х8 — случайные величины и *, / — натуральные числа, то смешанным моментом порядка (I, j) величин Хх и Х8 называется £ (Хх, Х{). Центральным смешанным моментом порядка (г, /) случайных величии Хх и Х8 называется £ [(Хх — £ (Хх))' (Х8 — £ (Х8)) /]. Центральный смешанный момент порядка (1, 1) называется ковариацией Хх и Х8 и обозначается Cov (Хх, Х8). Разлагая произведение (Хх — £ (Хх)) (Х8 — — £ (Х8)) н используя соотношения (ПЛО.З) и (П.10.7), получаем ПЛ 1.13. Cov (aXx-h&X„ сХ8 + dX«) = ocCov (Хх, Xs)+bc Cov (Х„ Xs) + 4- ad Cov (Xx, X4) + bd Cov (X8, X4) и П.11.14. Cov (Xx> X8) = £ (Xx, X8) - £ (Xx) £ (X8). Подставляя в (ПЛ 1.14) Xx = X8 = X, приходим к^формул^ П.11.15. > Var (X) = £ (Xs) - [£ (X)l’. Ковариация определена, коль скоро Хх и Х8 имеют конечные дисперсии. В этом случае П.11.18. |Cov (Хх, Х,)| < V(Var (Хх)) (Var (Х8)), причем равенство имеет место тогда и только тогда, когда 1) Хх или Х8 — постоянная либо когда 2) fr-E (Х,))~ - (^.~g (*» Неравенство (П.11.16) называется неравенством корреляции. Его можно вывести нз неравенства Коши—Шварца П.11.17. IЕ & ZJ | < Д/£ (Zs) £ (Z«) 220
для любых двух случайных величин Zt и 23> таких, что £ (ZJ) < оо, £ (Z®) < оо. Равенство в (П.11.17) выполняется в том и только в том случае, если одна из ве- личин Zt, Z2 равна нулю или Zt = aZit где а — некоторая постоянная. Нера- венство корреляции соответствует частному случаю Zt = Хх — £ (Хх), Za — — Х2—£ (Ха). Доказательство неравенства Коши—Шварца приведено в разд. 1.6. Коэффициентом корреляции случайных величин Xt и Ха, обозначаемым Сог (Хх, Ха) и определенным во всех случаях, когда Хх и Ха не постоянные и их дисперсии конечны, называется величина П.11.18. V. Cov(Xx.Xa) Сог (Лх, Ха) •= — V Var (Хх) Var(X2) Коэффициент корреляции Хх и Ха равен ковариации стандартизированных ана- логов Хх и Ха. Неравенство корреляции эквивалентно утверждению П.11.19. |Сог (Xi, Ха)| <1. Равенство выполняется в том и только в том случае, когда Ха — линейная функ- ция от Xi (т. е. Ха = аХх + Ь, а =£ 0). Если Хх, .... Хп имеют конечные дисперсии, то из (П.11.13) мы получаем соотношение П.11.20. Var (Х1+...+Хп)= 2 Var (*<)+2S Cov Ч- Г—1 i<l Если Хх и Ха независимы и интегрируемы, то П.11.21. £ (ХхХа) = £ (Хх) £ (Ха), или, с учетом (П.11.14), ПЛ 1.22. Cov (Хх, Ха) = Сог (Хх, Ха) » 0 при Var (Х<) > 0, I = 1,2. В справедливости соотношения (П. 11.22) можно убедиться непосредственно. В общем случае утверждение о том, что Хх и Ха, удовлетворяющие соотношению (П. 11.22), т. е. некоррелированные, обязательно должны быть независимыми, не- верно. Коэффициент корреляции служит грубой мерой величины и знака линейно- го соотношения между Хх и Х2 Он равен — 1 или 1 в случае идеального ли- нейного соотношения (Ха — аХг -р Ь, а < 0 или а > 0 соответственно) и 0 в случае независимых Хх и Х8. См. также разд. 1.6. Из (П. 11.22) и (П. 11.20) мы заключаем, что если Хх, ..., Хп — независимые случайные величины с конечными дисперсиями, то л П.11.23. Var(Xa4-...-t-Xn)= 2 Var(Xx). i»» 1 БИБЛИОГРАФИЯ 4, гл. 5, разд. 27, 28, 30.J 2, гл. 5; гл. 8, разд. 1—4.J 3, гл. 4, разд. 4.2—4.5; гл. 7, разд. 7.3.] 221
П.12. ПРОИЗВОДЯЩИЕ ФУНКЦИИ МОМЕНТОВ П.12.1. Если Е (?* Х|) < <ю при некотором s0 > 0, то функция фх (s) =• = Е (esX) вполне определена при |s| < s0 и называется производящей функцией моментов случайной величины X. Из (ГЕ 10.5) и (П.10.11) следует, что П.12.2 Фх (s) = •О У, е 1 рх (Xi), если X дискретна, i = I + 00 J е$х Рх (*) если X непрерывна. Если функция фх (*) не обращается в бесконечность в окрестности (s : |s| <; So) нуля, то все моменты случайной величины X конечны и П.12.3. *xw)-2 . i»i <«.. Л. 12.4. Производящая функция моментов фх имеет производные всех по* рядков при $ = 0 и - — Фх |s= 0 (^*)- ds* П.12.5. Если фх не обращается в бесконечность, то она единственным об* разом задает распределение случайной величины X и сама однозначно определе* на распределением величины X. Если Xlt.... Хп — независимые случайные величины с производящими функ- циями моментов ф^, ...,Фх , то Xt -J- ... + Хл имеет производящую функцию моментов П.12.6. п Ф(Х1+~.+Хл) Ф в|П Фх, («)• Это доказывается по индукции из определения и (П. 11.21). Обобщение понятия производящей функции моментов на случайные векторы см. в задаче 1.4.7. БИБЛИОГРАФИЯ [2, гл. 5, разд. 3; гл. 8, разд. 2—3.] [З, гл. 8, разд. 8.1.] ПЛЗ. НЕКОТОРЫЕ КЛАССИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ (ДИСКРЕТНЫЕ И НЕПРЕРЫВНЫЕ) По определению распределение вероятности случайной величины или слу- чайного вектора есть вероятностная мера на подходящем евклидовом пространст* ве. В этом разделе мы введем некоторые семейства распределений, часто возни- кающих в теории вероятностей и статистике, и перечислим их наиболее важные свойства. После назначения каждого распределения мы укажем его сокращенное обозначение. Символ р обычно означает функцию частоты, или плотности. Если значение р в точке х особо не оговорено, то предполагается, что оно равно нулю. Аналогично если значения функции распределения F вне некоторого множества особо не оговорены, то предполагается, что ^справа» и вслева» от этого множества F равна нулю. 222
I. Дискретные распределения Р (*)= Биномиальное распределение с параметрами п и О: ВВ (л, О) П.13.1. ” *=0, 1,..., п. " ’ Л / Параметр п может быть любым целым числом > 0, в то время как О — любое число из (0, 1]. П.13.2. Если X —общее число благоприятных исходов за п испытаний с вероятностью благоприятного исхода О, то X имеет распределение ВВ (л, б) (см. (П.6.3)). •* Если X имеет распределение ВВ (л. О), то П.13.3. Е (X) = лб, Var (X) «= п& (1 — -6). Высшие моменты могут быть вычислены с помощью производящей функции мо- ментов П.13.41 tx (0 = + (I - W- П.13.5. Если Xi, .... Ха—независимые случайные величины, распределен- ныесоответственно по закону ВВ (п1гО), ВВ (nt,В В (л^.О), то Xrl-...-f-Хь имеет распределение В В («1 4- ... 4- л&, О). Это утверждение можно вывести из (П.12.Б), (П.12.6) в сочетании с (П.13.4). Гн пер гео метрическое распределение с параметрами D, N и л : НН (D, N, п) П.13.6. где k — натуральное число, удовлетворяющее неравенству шах (0, л — (N — D)) k mln (л, D). Параметры D и л могут быть натуральными числами^ не превышающими натуральное число N. П.13.7. Если X — число бракованных (выделенных) изделий в выборке объема л, извлеченной без возвращения из генеральной совокупности с D бра* кованными и X — D небракованными изделиями, то X имеет распределение НН (D, Н, л) (см. (П.6.10)). Если выборка извлечена с возвращением, то X нме ет распределение В В (п, DfN). Если X имеет распределение НН (D, V, л), то П.13.8. _ D D f D\N—л £(Х)о.п-. Var(X)=n-(l Формулы (П.13-8) можно вывести непосредственно из определения (ПЛ3.6). п Одиако проще воспользоваться интерпретацией (П 13.7), записав X = It, I где 1] — 1, если /-е изделие, извлеченное из генеральной совокупности, имеет брак, и !j = 0, если /-е изделие незабраковано, и применить формулы (П.10.4), (П.10.7) и (П. 11.20). I 223
Распределение Пуассона с параметром X: РР (X) П.13.9. при k — 0, 1,2,... Параметр X может быть любым положительным числом. Если X имеет распределение РР (X), то ПЛЗ. 10. £ (X) = Var (X) = X. Производящая функция моментов X имеет вид ПЛЗ.И, . /л 4 е*-1) ПЛЗ.12. Если Xi, Xt, .... Хп — независимые случайные величины, распре- деленные соответственно по закону РР (Хх), РР (Х3), .... РР (Хп), то Хх + Ха + + ... + Хп имеет распределение РР (Хх-^Хг 4- ... + Хп). Этот результат мож- но доказать так же, как аналогичное утверждение для биномиального распре- деления. Мультиномиальное распределение с параметрами п, О,, ... , Од: ММ (п, Gt, ..., Од) ПЛЗ.13. '<*.....*’)= *,Г .......»>’ где kt — любые неотрицательные целые числа, удовлетворяющие условию kt~n. Параметр л—любое натуральное число, в то время как (01, ..., 0g) — любой вектор из пространства 6 =<(«>!, .. <7 , 6g) I I q, У, О/ = 1 П.13.14. Если X = (Xt, ..., Хд), где Х< — число, показывающее, сколько раз исход встречается в п мультиномиальных испытаниях с вероятностями благоприятных исходов (0х, .... Од), то X имеет распределение ММ (л, Ох, ... Од) (см. (П.6.6)). Если X имеет распределение ММ (л, 0х, ...» Од), то Е (X,) = лОь Var (X,) = лО, (1 - 0{), П. 13.15. Cov(Xf, Х,)=-нО( Оу, q. Эти результаты нетрудно вывести непосредственно или с помощью представления, аналогично рассмотренному в .(П.13.8), если применить формулы (П.10.4), (П.10.7), (П.13.13) и (П.11.20). П.13.16. Если X имеет распределение ММ (л, 0х, .... Од), то ^X/f , ... , S \ S \ Xt ,гл— 2 Xtj I имеет распределение ММ , ... , 0i4, 1— 2 1 для любого набора {/j, ...» te) с (1, . 224
Следовательно, Xj имеет распределение ВВ (п, Oj) при любом /, и вообще 2-^Qj • имеет распределение ВВ (п, 2 fyj). €сли s < <7- Эти замечания следуют из ин- терпретации (П. 13.14). II. Непрерывные распределения Прежде чем приступить к перечислению наиболее известных распределений, введем некоторые удобные обозначения: X ~ F означает, что X — случайная ве- личина с функцией распределения F, X ~ р — что X имеет функцию плотности или частоты р. Пусть Y—случайная величина с функцией распределения F, a Fu — функ- ция распределения случайной величины У 4- р. Семейство FFL — (F^: — оо < < р < оо) называется семейством с параметром сдвига, р — параметром сдви- га, и мы говорим, что У порождает FFL. По определению X ~ X—р ~ ~ F при любом р.. Следовательно, при любых р,, у Fu (х) « F (х — р) = Fo (х — р) = Fy (х -Ь (У — р))» и все вычисления, содержащие F^, могут быть сведены к F или любому другому члену семейства. Аналогично если У порождает FF^, то У 4- у порождает FFL при любом заданном у. Если У имеет первый момент, то, не ограничивая общности (во всем, что касается порождения семейства FFL), можно положить £ (У) = о. Следовательно, если X ~ F^, то Е (X) = р. Аналогично путь Fc — функция распределения случайной величины оУ, о > 0. Семейство FF$ = {F£: о > 0} называется семейством с параметром мас- штаба, а — параметром масштаба, и говорят, что У порождает FFS. По оп- ределению X ~ Fa-4 Х/о ~ F при любом а > 0. И в этом случае все вы- числения, производимые с одним членом семейства, могут быть сведены к любому другому члену семейства, так как при а, т > 0 • • { тх \ Если У порождает FF$ и имеет ненулевой первый момент, то, не ограничивая общности, мы можем положить Е (У) — 1. Следовательно, если X ~ Fa, то Е (X) = а. Аналогично если У имеет конечный второй момент, мы можем вы- брать F в качестве единственного члена семейства FFS, имеющего Var (У) » 1, н тогда X~Fg<=> Var (Х) = о2. Наконец, определим F^ о как функцию распре- деления случайной величины аУ 4* р- Семейство FFL> 5 = Иц, а" — 00 < Н< < со, а > 0} называется сдвигово-масштабным семейством, р — параметром сдвига, с — параметром масштаба, и говорят, что У порождает FF^ Из соотношения Fu. о Fv т \ о / т /т (ж-Ц) . \ ( о + VJ мы видим, каким образом вычисления, содержащие один член семейства, могут быть сведены к любому другому члену того же семейства. Не ограничивая общ- ности, если У имеет конечный второй момент, можно положить Е (У) = 0, Var (У) = 1. 8 Зак. 1313 225
Тогда если X ~ а, то Е (X) = р, Var (X) = о». Ясно, что F^ = F^ ,; F* = Fo a. Соотношение между плотностью распределения F а и плотностью распре- деления F устанавливает формула (П.8.10). Все семейства плотностей, приводи- мые ниже, являются сдвигово-масштабными или сдвиговыми семействами. Нормальное распределение с параметрами р и о9 : NN(p, о8) П.13.17, р (х)=-—— ехр у2л о Параметр р можег принимать любые вещественные значения, а > 0. Нормаль- ное распределение с р = 0 и о = 1 называется стандартным нормальным рас- пределением. Его плотность принято обозначать <р (/), а функцию распределения — Ф(/). ПЛЗ. 18. Семейство распределений NN (р , о8) является сдвигово-масштаб- ным семейством. Если X имеет распределение NN (0, 1),то аХ 4- р имеет рас- пределение AW (р.о8) и наоборот, если X имеет распределение NN(p, о8) ,то (X—р)/а имеет стандартное нормальное распределение. Если X имеет распределение NN (р, о8), го П.13.19. Е (X) = р, Var (X) = о8. Справедливо более общее утверждение: все моменты могут быть получены из П. 13.20. ( о91» фх(0-ехр jp*+~-— где — со < t < оо. В частности, если р = 0, о9 = I, то П.13.21. со Фх 1=3 S л=о Г (26)! [ 2* kl (26)! ’ Следовательно, в этом случае мы можем заключить из (П.12.3), что П.13.22. 0, если k 0 нечетно, Е(Х*) = k\ если k>0четно. П.13.23. Если Х>...Хп — независимые нормальные случайные величины, такие, что Е (Х<) = р<, Var (Х{) = о? и сь ..., сп — постоянные, не все равные нулю,то 2.С|Х| имеет распределение А'Л'(CiPi+..-4-chPn. с*о*). Это утверждение следует из (П. 13.20), (П.12.5) и (П.12.6). Дополнительные сведения о нормальном распределении см. в разд. П.15 и в гл. 1.
Экспоненциальное распределение параметром "к : ЕЕ (?) П. 13.24. р (х) = Хе **, х > 0. Параметр 1 принимает значения из (0, оо). функция распределения, соответст- вующая (П. 13.24), имеет вид П. 13.25. F(x)~l — е~Хх при х > 0. П.13.26. Если а= 1/Х, то о — параметр масштаба. ЕЕ (1) называется стандартным экспоненциальным распределением. Если X имеет распределение ЕЕ (?.), то П.13.27. Е (Х)~, Var(X) = y?. Л Л Справедливо более общее утверждение: все моменты могут быть получены с по- мощью функции П. 13.28. 1 \" Г и 1 '* не обращающейся в бесконечность при t < X. Дальнейшая информация о экспоненциальном распределении приведена в гл. 1. Равномерное распределение на интервале (а, 6), : UU (а, Ь) П.13.29. р(х)=(Д) .«<*<». где (а, Ь) — любая пара вещественных чисел, такая, что а < Ь. Плотности (П. 13.29) соответствует функция распределения П. 13.30. F С*)”"/* °? ’ где а < х < Ь' (о—а) Если X имеет распределение UU (а, Ь), то П.13.31. Е (Х)« о 4-5 2 П. 13.32. Полагая р == а, о — (Ь — а), можно проверить, что семейство UU (а, 5) есть семейство с параметром сдвига, порожденное Y, где Y ~ UU (0,1). БИБЛИОГРАФИЯ [1, гл. 4, разд. 21 — 24; гл. 5, разд. 26—28, 30.J [2, гл. 4, разд. 4 — 6; гл. 5; гл. 6.} (3, гл. 3, разд. 3.4.1; гл. 5, разд. 5.3.1, Б.3,2.) 8* 227
П.14. ТИПЫ СХОДИМОСТИ СЛУЧАЙНЫХ ВЕЛИЧИН И ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ Многие результаты в теории вероятностей можно рассматривать как вариа- ции, продолжения и обобщения двух основных результатов: центральной пре- дельной теоремы и закона больших чисел. Обе эти теоремы относятся к предель- ному поведению последовательностей случайных величин. Настоящий раздел посвящен различным определениям понятия предела. Все пределы рассматри- ваются при л-»-оо. П.14.1. Мы говорим, что последовательность случайных величин {Zn} схо- Р дится к случайной величине Z по вероятности, и обозначаем это Zn -* Z, Р если Р [[Zn — Z\ > в] -► 0 при л-* оо и любом е> 0, т. е. Zn-► Z, если вероят- ность того, что Zn отличается от Z на любую заданную величину, пренебрежимо мала при достаточно больших л. П.14.2. Мы говорим, что^последовательность {Zn} сходится по распределе- нию к Z,h обозначаем это Zn -► Z, если F2 (1) -» Fz (/) в любой точке t, в кото- рой функция Fz непрерывна. (Напомним, что Fz непрерывна в точке t в том к только в том случае, если Р \Z = г] = О (П.7.17).) Такой тип сходимости обяза- телен при аппроксимации одного распределения другим. П.14.3. Если \Zn --+Z, то Zn-^+ Z. Так как сходимость по распределению не налагает никаких требований на совместное распределение Zn и Z, а сходимость по вероятности накладывает определенные ограничения, неудивительно (и нетрудно доказать), что в общем случае из сходимости по распределению не следует сходимость по вероятности (14. р. 84]). П.14.4. Но если Z=20 (z0—постоянная), то из {Zn} следует, что {£«}“► -£*Z. Доказательство. Заметим, что F2 непрерывна в точках г0 ± е при любом е > 0. Следовательно, П.14.6. it Р fl Zn—Zq I 8] == 1 —< z0+e)-|-P (Zn Zo—e) (rc \ го+ ~r~ 1+Fzn (го-8)- По предположению правая часть неравенства (П.14.5) сходится к (1 — - F^ 4- 8/2)) + fo - е) = 0. Р П.14.6. Если Zn -* Zq (Zo — постоянная) и функция g непрерывна в точке р Zo, то g (Zn)-> g (г0). , Доказательство. Если 8 > 0, то существует число о, такое, что из |г — z0| < < б следует |g (г) — g (Zg)| < 8. Но тогда П.14.7. р [|g(2n)~ g(z0)|<8]^P [|7п-го1<6] = 1-^[|2п-2Ь|> 6]. Так как правая часть (П.14.7) сходится к единице, то по определению (П.14.1) доказываемое утверждение верно. Более общий результат содержится в следующей теореме. 228
LL LI. П.14.8. Если Zn -* Z и функция g непрерывна, то g (Zn) -► g (Z). Следующая теорема была доказана Слуцким. Она неоднократно понадобит- ся нам в книге. П.14.9. Теорема. Если Zn—► Z и Un—(«о—постоянная), то a) Zn+Un^Z+u., 6) UnZn^t^Z. Доказательство. Докажем утверждение а) (утверждение б) доказывается аналогично). Прежде всего запишем соотношение П 14.10. F(Zn4-i/n) (^)—I^n4-t*n *» Un «о--8] +Р lZn4-t/n Un < Ц)—е]. Пусть непрерывна в точке t. Так как функция распределения имеет не более чем счетное множество точек разрыва, мы можем при любом i выбрать положительное и сколь угодно малое число е так, чтобы i ± е были двумя точ- ками разрыва функции F^+u у Из (П.14.10) получаем П.14.11. ^(Zn+Un) (*) < ? *— «04-8] Il Un—u0 I > 8]. Кроме того, П.14.12. Р [Zn^. t Uq4-8]=F(Zn+u,) (*4-8). Так как (О в —«о] =*?zn (*~”Ц))» то Zn-^-Utr^i Z-^-Uq. Следовательно, П.14.18. Д™ sup F{zn+un) (0 <^F(Zn+u.) (*4-8)4- 4-limP[|t/n-«0l>8]=F (t+8). n-»<* Аналогично Л.14.14. 1 F(2n+^n) (*)==*FJ^n4*t/n > *] P IZn > t—Uo—8]+P [| Un'—lhl > 8] и, следовательно, П.14.15. Ши inf f(Zn+Un) (0 >^^2»+»») (/-«)=F(2+«,) <*-8)- Таким образом, П.14.16. lF(Z+o.)(»-e)<Hn>Jnf F(2n+t,n)(/)< < f(z»+t'»>(,) f<z+-> ('+e)- Так как в может быть сколь угодно малым, a F(z^.u > непрерывна в точке /, мы получаем требуемое утверждение. 229
П.14.17. Следствие. Пусть {ап} — неограниченно возрастающая числовая последовательность, Ь—заданное число и ап (Хп — b)-+- X. Пусть g — диффе- ренцируемая функция вещественного переменного, и его производная g непре- рывна* в точке Ь. Тогда (Ь)Х. Доказательство. По теореме Слуцкого П.14.19. Zn-b = — (an (Zn—b)] -to-X =0. р Из (П.14.4) заключаем, что \Zn — fc| 0. Применяя к g (Zn) — g (б) теорему о среднем, получаем ап ts(Zn)-g(Ь)]~an[g' (Z*)] [Zn-6], Р Р где |Zn — 6| С |Zn—6|. Так как |Zn — б| -► 0, то |Z« — 6| -*• 0 н, следователь- „ Р . но, Zn -* Ъ. Из непрерывности производной g1 и (П. 14.6) заключаем, что^ (Zrt)-> -*• g‘ (б). поэтому, применяя еще раз (П.14.9), получаем g' (Zn) [an (Zn — б)] -» -g'tbyx. П. 14.20. Пусть (Zn) принимает только натуральные целочисленные значе- ния и pz (г) -► pz (z) при всех г. Тогда Zn -> Z. В справедливости этого заключения можно убедиться непосредственно, так как при любом 2 И [«] FZn® = Ё PznW- п k^O п *-0 где [z] — наибольшее из целых чисел, не превышающн х z. Обратное утвержде- ние также верно и легко доказывается. П.14.21. (Шеффе). Пусть {Zn), Z непрерывны и рг (z) -*-Pz (г) ПРИ (поч‘ LL ти) всех z. Тогда Zn -* Z ((6, р. 641). П. 14.22. (Пойа). Если Zn -► Z и Fz непрерывна, то Fz (f)-* Fz (t) равномерно no t ([2, p. 438]). БИБЛИОГРАФИЯ [2, гл. 10, разд. 1—3.1 П.15. ПРЕДЕЛЬНЫЕ ТЕОРЕМЫ (ПРОДОЛЖЕНИЕ) Закон больших чисел Бернулли вновь приводит нас к проблеме обоснова- ния нашего определения вероятности. Предлагая первое определение, мы заме- тили, что на практике частота события А в длинной серии повторных испытаний стремится стабилизироваться и что спредел» соответствует вероятности события А в нашем понимании. Теперь, располагая абстрактными определениями вероят- ности и независимости экспериментов, мы можем доказать, что частота события * Можно показать, что для (П.14.17) в действительности достаточно только существования g‘ в точке b (см. [12, р 385—386]). 230
А действительно стремится к вероятности события А при возрастании числа пов- торений эксперимента. Такого рода результаты и их обобщения известны под названием законов больших чисел. Первый закон больших чисел был открыт Бернулли в 1713 г. и гласит следующее. Слабый закон больших чисел Бернулли Если {Sn} — последовательность случайных величин, таких, что Sn при п > 1 имеет распределение ВВ (п, р), то П.15.1. Sn р Подобно (П.13.2), Sn можно рассматривать как число благоприятных исхо- дов в серии из п биномиальных испытаний, в которых благоприятный исход мы отождествляем с наступлением события Л, а неблагоприятный — с наступлением события Лс. Тогда Sn!n можно интерпретировать как частоту наступления собы- тия А в п независимых повторениях эксперимента, в котором А — событие, и за- кон Бернулли есть утверждение требуемого типа. Первоначальное доказательство закона (П. 15.1), предложенное самим Бер- нулли, было чрезвычайно сложным Простое доказательство в две строчки было найдено позднее русским математиком Чебышевым. Принадлежащее ему обобще- ние результата Бернулли основано на неравенстве, играющем весьма важную роль в теории вероятностей и математической статистике. Неравенство Чебышева Если X — любая случайная величина, то П.15.2. Е (Sn/n-py Var (Sn) р(1-р) е’ ле3 е’ Закон Бернулли получается из (П.15.2) и (П.13.3) с помощью несложного преобразования: П.15.3. L п Следующее обобщение неравенства (П.15.2) содержит различные важные и полезные неравенства. Пусть#—неотрицательная функция на /?, неубывающая на области значении случайной величины Z. Тогда П.15.4. Положив Z ~ | Х|, g (i) = t3 при <>0 и g(/) = 0 при / < 0, мы получим (П.15.2). Важные частные случая соответствуют выбору Z = |Х|, g (/) = t при t > 0 и g (0 = 0 при t < О (неравенство Маркова}, Z = X, g (/) = е5* при s> 0 и всех вещественных I (неравенство Бернштейна). Доказательство неравенства (П.15.4). Заметим, что в силу свойств функции g справедливы неравенства П.15.5. 8 (°) ^8 > о] ^8 (%) с (П.10.8), получаем Комбинируя их П.15.6. g(а)Р [Z>a]eЕ(g(a)llz^aJ)<E (g(Z)), что эквивалентно (П.15.4). 231
Полезным обобщением закона Бернулли является н следующий результат, который мы приводим без доказательства. Слабый закон больших чисел Хинчнна Пусть (Х|), i 1, — последовательность независимых одинаково распре* Л деленных случайных величин со средним р и Sn == S Xt- Тогда П.15.7, Sn Р Интерпретируя Xi как индикаторы биномиальных испытаний, получаем (П.15 1). Теорема Муавра —Лапласа Пусть {SnJ — последовательность случайных величин, такая, что Sn при лю- бом п имеет распределение В В (п, р), где 0 < р < 1. Тогда П.15.8. Sn —пр Упр(1—р) где Z имеет стандартное нормальное распределение, т. е. стандартизированные аналоги Sn сходятся по распределению к стандартной нормальной случайной величине. Записав Sw—пр_________Уп $ / Sn \ Vnp (1 —р) Ур(1—Р) \ п Р) н воспользовавшись (П. 14.9), нетрудно видеть, что из (П.15.8) следует (П. 15.1). Обобщением теоремы Муавра—Лапласа служит следующее утверждение. Центральная предельная теорема Пусть (Х|) — последовательность независимых одинаково распределенных случайных величин с (общим) средним р и дисперсией о* (0 < о2 < со). Тогда, п если Sn = 2jXi, то 1 П.15.9. Sn—ДЦ о~[/п где Z имеет стандартное нормальное распределение. Последние два результата обычно применяются в статистике как аппрокси- мационные теоремы. Пусть k и I — неотрицательные целые числа. Теорема Муавра—Лапласа дает аппроксимацию П.15.10. 232
где q — 1 — p. Число 1/2 в k — 1/2 и I -f- 1/2 называется поправкой на непре- рывность. О точности этой аппроксимации можно судить с достаточным основа- нием. Доступный анализ аппроксимации (П.15.10) приведен у Феллера [5, р. 187—188]. Если пр > 5 н п (1 — р) > 5, то на практике «волевым решением» эта аппроксимация используется для самых различных целей. Первый шаг в цепочке равенств (П. 15.10) используется лишь в том случае, когда Xi принимает целочисленные значения. В противном случае мы применяем (П.15.9) в виде П.15.11. (а—лр. У^ло. \ "\fn<J / Г F Если граница для Е (|Xjl8) известна, то ([4, р. 206]) ошибку, возникающую прн замене левой части в (П.15.11) правой частью, удается оценить теоретически. На практике, если нам необходимо распределение величины Sn, мы пытаемся вычислить его точно при небольших значениях л, а затем эмпирически решаем, когда аппроксимация дает нужную нам точность. Комбинирование предельной те- оремы с эмпирическими исследованиями применимо во многих статистических ситуациях, когда по мере увеличения объема выборки распределения интересую- щих нас^статистик (см. (2.2)) становится все труднее вычислять, хотя они и стре- мятся стабилизироваться. Примеры такого рода сочетания теоретических сооб- ражений и эмпирических расчетов приведены в разд. 1.5. Центральная предельная теорема (и некоторые из ее обобщений) находят применение при обосновании гипотезы о том, что «большинство» случайных ве- личин, служащих мерами численных характеристик реальных генеральных сово- купностей (показатели умственного развития, рост, вес, кровяное давление и т. д.), имеют приближенно нормальное распределение. В качестве обоснования обычно ссылаются на то, что наблюдаемые величины являются суммами большого числа малых (ненаблюдаемых) факторов, т. е. каждая из измеряемых величин предста- вима в виде суммы большого числа малых величин, например влияния того или иного гена, микроэлементы, входящие в диету, и т. д. Так, рост представим в ви- де суммы факторов, обусловленных наследственностью н окружающей средой. I В заключение этого раздела мы приведем две простые предельные теоремы, I позволяющие аппроксимировать одно классическое распределение другим. Очень простые доказательства этих теорем можно найти, например, в [1, р. 53 и р. 105]. П. 15.12. Первая из теорем отражает тот интуитивно очевидный факт, что если генеральные совокупности, из которых извлекаются выборки, велики, а сами выборки относительно малы, то выбэр с возвращением и без возвращения приводит приближенно к одному и тому же распределению вероятности. Точнее, если {Хдг} — последовательность случайных величин, таких, что XN имеет гипергеометрическое распределение НН (PN, N, л), где Dn/N -»• р прн N -* оо^н заданном п, то I П.15.13. при N -* со и k «= 0, 1, ..., л. Из (П.14.20) мы заключаем, что •• к П.15.14. Х^—> X, где X имеет распределение ВВ (л, р). Аппроксимация гнпергеометрического распределения биномиальным распределением, даваемое этой теоремой, оказы- вается весьма хорошей. Например, если 7V = 50, л = 5 и D = 20, то гипергео- метрическое распределение НН (D, N, п) аппроксимируется биномиальным рас- пределением ВВ (5, 0,4). При гнпергеометрическом распределении Р [X С 2] = = 0,690, прн аппроксимирующем биномиальном Р [X 2]=0,683. Как видно 233
из этого примера, биномиальной аппроксимацией разумно пользоваться при (n!N) < 0,1 (см. 18]). В более сложных разделах теории вероятностей важную роль играет следую* щий элементарный результат, принадлежащий Пуассону. Теорема Пуассона Пусть (Xn) — последовательность случайных величин, таких, что Хп имеет распределение В В (п, рп) и прп -* А. при п-> со, где 0 А.< оо. Тогда при п -> со П. 15.15. е“х1* pxn(k^ • LL где k = 0, 1, 2,. .. Из (И. 14.20) следует, что Хп -► X, где X имеет распределение РР (А). Теорема Пуассона наводит на мысль об аппроксимации биномиального распределения ВВ (п, р) распределением Пуассона РР (пр). Табл. 3 на с. 108 и табл. 2 на с. 154 книги Феллера [5] показывают, что при малых р и средних лр эта аппроксимация дает превосходную точность. Можно показать, что совершав* мая ошибка всегда ограничена величиной пр*. БИБЛИОГРАФИЯ 1, гл. 2, разд 13; гл. 6, разд 32; гл. 8, разд. 42.) 2, гл. 5, разд. 4, 5; гл. 6, разд. 2; гл. 10, разд. 2, 4.] 3, гл. 3, разд. 3.4.2.] П.16. ПУАССОНОВСКИЙ ПРОЦЕСС Г ? П.16.1. Пуассоновским процессом с параметром А называется такой набор случайных величин {N (/)), t > 0, что В N (t) при любом t имеет распределение РР (А/), 2) A' (t 4- Л) — N (t) не зависит от N ($) при всех з t, h > 0 и имеет рас- пределение РР (АЛ). С пуассоновскими процессами мы часто сталкиваемся при изучении явлений, содержащих события, которые происходят «редко» за малые промежутки времени. Например, если N (t) — число распадов заданного количества радиоактивного вещества в промежуток времени от 0 до t, то (N (0) — пуассоновский процесс. Число N (/) «посетителей» (людей, машин и т. д.), подходящих за время от 0 до t к конторке, иногда аппроксимируют пуассоновским процессом. Эти и многие другие примеры рассмотрены в книгах Феллера 15], Парцена [10], Карлина [7]. В каждом из приведенных нами примеров пуассоновского процесса N (i) показы- вает, сколько раз за время от Одо t произошло интересующее нас «событие* (ра- диоактивный распад, появление посетителя). Слово «событие» употребляется здесь только за неимением лучшего, так как «события» не являются событиями в смысле вероятностной модели, в которой определены N (/). Если мы станем на эту точку зрения, временно будем понимать под событием повторяющееся явление, случайно заданное каким-то образом, и определим W (/) как число со- бытий, происходящих за промежуток времени от 0 до /, то можно спросить, при каких условиях (N (/)) является пуассоновским процессом. П.16.2 Повторим наши рассуждения на более абстрактном уровне. Пусть {N (/)}, t > 0 — набор случайных величин, принимающих натуральные цело- численные значения. Оказывается, что (N (/)} есть пуассоновский процесс в том и только в том случае, если выполняются следующие условия: a) N (t + h) — N (f) не зависят от Л’ ($), з t, Л > 0, б) Af (/ + Л) — N (А имеет такое же распределение, как (Л) при Л > О, в) P[N(h)= 1] = АЛ + о (h), г) Р [N (Л) > 1] = о (h) (о (Л) — бесконечно малая величина, такая, что о (h)!h 0 при h -+ 0). Физи- чески эти условия допускают следующую интерпретацию: 234
I) момент, когда происходит очередное «событие», не зависит от того, когда происходили предыдущие «события»; 2) распределение числа повторений «события» зависит только от продол- жительности наблюдения; 3 и 4) вероятность любого наступления события в течение заданного проме- жутка времени стремится к нулю, когда длина временного интервала стремится к нулю, и вероятность одиночного события больше вероятности кратного события. Доказать утверждение можно следующим образом Зафиксируем t и разделим [О, /] на п интервалов [0, tin}, (tin, 2t!n\,.... ((л — 1) tin, 0. Пусть — индика- Л тор события l/v (jtln) — N ((/ — 1) 1], Nn (t) = 2j//n- Тогда Nn (t) отли- /=1 чается от N (t) лишь постольку, поскольку кратные события в одном нз малых подынтервалов считаются лишь как одно простое событие. Из условий а) и б) следует, что Nn (t) имеет распределение ВВ (п, Р [N (tin) t]). Из условий в), г) н теоремы (П.15.15) мы заключаем, что Nn (t) -+• Z, где Z имеет распределение РР (А0. С другой стороны, П.16.3. п и 1[_ \ л / РII Nn (t)-N (/) I > в] < Р [Nn (О N (0J < Р N — пР |А/(—-1>1 |=nof— О при п-> оо. I \П j J \ п } Первое нз неравенств в (П.16.3) очевидно. Второе утверждение, что если Nn (0 & N (0, то в малом подынтервале должно происходить кратное событие. Тре- тье неравенство представляет собой нс что иное, как (П.2.5), а остальные следуют из условий б) н г). Утверждение (П 16.3) следует из теоремы Слуцкого, если по- ложить N (tj= Nn (0 + (N (0 — Nn (0). П.16.4. Пусть Ti — момент времени, когда в пуассоновском процессе впер- вые происходит «событие» (первое значение /, при котором N (0 = 1), Та — мо- мент времени, когда «событие» происходит во второй раз. Тогда Tt, Tt — 7\, ..., Тп — ТП-1 — независимые случайные переменные, распределенные одинако- во по закону ЕЕ (1). БИБЛИОГРАФИЯ [1, гл. 10, разд. 51.] [2, гл. 6, разд. 5.] [3, гл. 9, разд. 9.3.] П.17. БИБЛИОГРАФИЯ 1. Gnedenko В. V. (1967). The Theory of Probability. 4th Edition Chelsea. New York. Русский оригинал: Гнеденко Б. В. Курс теории вероятностей. М., Наука, 1969. 2. Parzen Е. (1960). Modern Probability Theory and Its Applications. J. Wiley & Sons. New York. 3. Hoel P. G., Port S. C. and Stone C. J. (1971). Introduction to Probability Theory. Houghton Mifflin. Boston. 4. Ch u n g K. L. (1968). A Course in Probability Theory. Harcourt, Brace & World. New York. 235
6. F е 1 1 e r W. (1968). Ал Introduction to Probability Theory and Its Ap- plications, vol. 1. 3rd Edition. J. Wiley & Sons. New York. Русский перевод; Феллер В. Введение в теорию вероятностей и се приложения. М-, Мир, 1967, т. !. 6. И й j е k J. and S I d й к Z. (1967). Theory of Rank Tests. Academic Press. New York. Русский перевод: Гаек Я., Ш и д а к 3. Теория ран- говых критериев. М., Наука, 1971. 7. Karlin S. (1969). A First Course in Stochastic Processes. Academic Press. New York. 8. L I e b e r m a n G. J. and Owen D. B. (1961). Tables of the Hy- pergeometric Probability Distribution. Stanford University Press. Stanford, CA. 9. Lo ё ve M. (1963). Probability Theory. 3rd Edition Van Nostrand. New York. Русский перевод: Л о э в М. Теория вероятностей. М., ИЛ, 1962. 10. Р а г z е n Е. (1962). Stochastic Processes. Holden-Day. San Francisco. 11. Savage L. J. (1954). The Foundation of Statistics. J. Wiley & Sons. New York. 12. Rao C. R. (1973). Linear Statistical Inference and Its Applications. 2nd Edition. J. Wiley & Sons. New York. Русский перевод: Рао С. P. Линей- ные статистические методы и их применения. М„ Наука, 1968.
ТАБЛИЦЫ Таблица I Площадь Ф (z) под кривой нормальной плотности слева от Z Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .0 .5000 .5040 .5080 .5120 5160 .5199 .5239 .5279 .5319 .5359 л .5398 .5438 5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753 .2 .5793 .5832 5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141 ,3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517 .4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 :6844 .6879 .5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224 .6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549 .7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852 .8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133 -9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389 1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621 1.1 .8643 .8665 .8686 .8708' 8729 .8749 .8770 .8790 .8810 .8830 1.2 .8849 .8869 8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015 1.3 .9032 9049 9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177 1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 в .9292 .9306 .9319 1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441 1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545 1.7 .9554 .9564 .9573 9582 .9591 .9599 .9608 .9616 .9625 .9633 1.8 .9641 9649 9656 .9664 .9671 .9678 .9686 .9693 .9699 9706 1.9 .9713 .9719 .9726 .9732 9738 .9744 .9750 9756 .9761 .9767 2.0 .9772 9778 9783 .9788 .9793 .9798 .9803 9808 .9812 9817 2.1 9821 9826 .9830 .9834 9838 .9842 .9846 .9850 .9854 9857 2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890 2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916 2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936 25 .9938 .9940 .9941 .9943 9945 .9946 .9948 .9949 9951 9952 2.6 .9953 .9955 9956 9957 .9959 9960 .9961 9962 9963 9964 2.7 .9965 .9966 9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974 2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 9979 9980 9981 2.9 .9981 9982 .9982 .9983 .9984 9984 9985 9985 .9986 9986 3.0 .9987 .9987 .9987 .9988 .9988 9989 9989 .9989 .9990 .9990 3.1 9990 .9991 9991 .9991 .9992 9992 .9992 .9992 .9993 .9993 3.2 .9993 .9993 .9994 .9994 .9994 .9994 9994 .9995 .9995 .9995 3.3 9995 .9995 .9995 .9996 .9996 9996 9996 9996 9996 .9997 3.4 .9997 9997 .999? 9997 9997 9997 9997 .9997 .9997 9998 Вспомогательная таблица квантилей нормального распределения 1 - а 2(1 - ft) 1 — ft 2(1 - ft) I - ft z(l -’a) .50 0 .91 1.341 .995 2.576 .55 .126 .92 1.405 .999 3.090 .60 .253 .93 1.476 .9995 3.291 65 .385 94 1 555 .9999 3.719 .70 524 .95 1.645 .99995 3.891 .75 .674 .96 1.751 .99999 4.265 .80 .842 .97 I 881 .999995 4.417 .85 1036 .98 2.054 499999 4.753 .90 1.282 .99 2.326 .9999999 . 5199 237
I Таблица II (a) Таблица вероятностей P[V^x] распределения х2 с Л=2, 3, 4, 5 степенями свободы \ к X .2 3 4 5 X 2 3 4 5 006 .9704 .9962 9996 6.40 .0408 .0937 .1712 2692 0.07 .9656 .9952 .9994 .9999 6.60 ,0369 .0858 .1586 .2521 0.08 .9608 9941 .9992 9999 6.80 .0334 .0786 .1468 .2359 0.09 .9560 9930 9990 .9999 7.00 .0302 .0719 .1359 .2206 0,10 .9512 .9918 9988 .9998 7.20 .0273 .0658 .1257 .2062 0.20 9048 .9776 .9953 .9991 740 .0247 .0602 .1162 .1926 0 30 .8607 9600 .9898 9976 7.60 .0224 .0550 .1074 1797 0.40 .8187 9402 9825 .9953 7.80 .0202 .0503 .0992 .1676 0.50 .7788 9189 .9735 9921 8.00 .0183 .0460 .0916 .1562 0.60 .7408 .8964 9631 9880 8.20 .0166 .0421 .0845 .1456 070 .7047 8732 .9513 9830 8.40 .0150 .0384 .0780 .1355 0.80 .6703 .8495 .9385 .9770 8.60 .0136 .0351 .0719 .1261 0.90 .6376 8254 .9246 .9702 8.80 .0123 .0321 .0663 .1173 1.00 .6065 .8013 9098 9626 9.00 .0111 .0293 .0611 .1091 1.10 .5769 .7771 8943 .9541 9.20 .0101 .0267 .0563 .1013 1 20 .5488 .7530 8781 .9449 9.40 .0091 .0244 .0518 .0941 1 30 .5220 .7291 8614 .9349 9.60 .0082 .0223 .0477 .0874 140 .4966 .7055 .8442 .9243 9.80 .0074 .0203 .0439 .0811 1.50 .4724 .6823 .8266 .9131 10.00 .0067 .0186 .0404 .0752 160 .4493 .6594 .8088 9012 10.50 .0052 .0148 .0328 .0622 1.70 .4274 .6369 .7907 .8889 11.00 .0041 .0117 .0266 .0514 1.80 .4066 .6149 .7725 .8761 11.50 .0032 .0093 .0215 .0423 ' 1.90 .3867 .5934 .7541 8628 12.00 .0025 .0074 .0174 .0348 2 00 .3679 .5724 .7358 8492 12.50 .0019 .0059 .0140 - .0285 2.20 .3329 .5319 6990 8208 13.00 .0015 .0046 .0113 '.0234 2.40 .3012 .4936 6626 .7915 13.50 .0012 .0037 .0091 .0191 2.60 .2725 .4575 6268 .7614 14.00 .0009 .0029 .0073 .0156 2.80 .2466 .4235 .5918 .7308 14.50 .0007 .0023 0059 .0127 3.00 .2231 .3916 .5578 .7000 15.00 .0006 .0018 .0047 .0104 3.20 .2019 .3618 .5249 6692 15.50 .0004 .0014 .0038 .0084 3.40 .1827 .3340 .4932 .6386 16.00 .0003 .ООН .0030 .0068 3.60 .1653 3080 .4628 .6083 16.50 .0003 .0009 .0024 .0056 3.80 1496 .2839 .4338 .5786 17.00 .0002 .0007 .0019 .0045 4.00 .1353 .2615 .4060 .5494 17.50 .0002 .0006 .0015 .0036 4.20. 1225 .2407 .3796 .5210 18.00 .0001 .0004 0012 .0029 4.40 .1108 .2214 .3546 .4934 18.50 .0001 .0003 .0010 .0024 4.60 .1003 .2035 .3309 4666 19.00 .0001 .0003 .0008 .0019 4.80 .0907 .1870 .3084 .4408 19.50 .0001 .0002 .0006 .0016 5.00 .0821 1718 .2873. .4159 20.00 .0000 .0002 .0005 .0012 5.20 .0743 .1577 .2674 .3920 2100 .0000 .0001 0003 .0008 5.40 .0672 .1447 .2487 .3690 22.00 .0000 .0001 . .0002 .0005 5.60 .0608 1328 .2311 .3471 23.00 .0000 .0000 .0001 .0003 5.80 .0550 .1218 .2146 .3262 24.00 .0000 .0000 .0001 .0002 6.00 .0498 .1116 .1991 .3062 I 25.00 .0000 .0000 .0001 .0001 6.20 0450 .1023 .1847 .2872 I 26.00 .0000 0000 .0000 .0001
Таблица II (б) Квантили х (1—а) распределения %2 с k степенями свободы: P[V^x(l—а)]=а .001 .005 ,01 .025 ,0$ ло □0 б 2Z458 18.548 16.812 14.449 12.592 10-645 8.558 7231 7 24.322 20.278 18475 16.013 14067 12.017 9.803 8,383 8 26.125 21.955 20.090 17.535 15.507 13362 11.030 9.524 9 27.877 23.589 21666 19.023 16919 14.684 12.242 10656 10 29.588 25.188 23209 20.483 18.307 15=987 13.442 11.781 П 31.264 26.757 24.72$ 21.920 19.675 17 275 14.631 12 899 12 32.910 28.300 26217 23.337 21-026 18.549 15.812 14.011 13 34.528 29.820 27.688 24.736 22.362 19812 16.985 15119 14 36.123 31.319 29.141 26.119 23.685 21064 18.151 16.222 15 37.697 32.801 30.578 27.488 24.996 22.307 19.311 17.322 16 39.252 34.267 32.000 28.845 26.296 23.542 20.465 18.418 17 40.790 35.719 33.409 30.191 27.587 24.769 21.615 19.511 18 41312 37.157 34.805 31.526 28.869 25.989 22.760 20.601 19 43.820 38.582 36.191 32.852 30.144 27.204 23.900 21.689 20 45.315 39.997 37.566 34 170 31.410 28-412 25.038 22775 21 46.797 4L401 38.932 35.479 32.671 29.615 26.171 23.858 22 48.268 42.796 40.289 36.781 33.924 30 813 27.302 24939 23 49.728 44,181 41.638 38.076 35.173 32 007 28.429 26018 24 51.179 45.559 42.980 39.364 36.415 33-196 29.553 27.096 25 52.620 46.928 44314 40.647 37.653 34.382 30.675 28.172 26 54.052, 48.290 45642 41.923 38.885 35563 31.795 29.246 27 55.476 49.645 46.963 43.195 40.113 36 741 32.912 30319 28 56.892 50.993 48.278 44.461 41.337 37.916 34.027 31 391 29 58.301 52.336 49.588 45 722 42.557 39088 35.139 32461 30 59.703 53.672 50.892 46979 43.773 40.256 36.250 33.530 31 61.098 55.003 52.191 48.232 44.985 41.422 37.359 34.598 32 62.487 56.328 53.486 49.480 46.194 42.585 38.466 35.665 33 63.870 57.649 54.776 50.725 47.400 43.745 39.572 36.731 34 65.247 58.964 56.061 51.966 48.602 44 903 40.676 37795 35 66.619 60.275 57.342 53.203 49.802 46.059 41.778 38 859 36 67.985 61.581 58.619 54.437 50.999 47212 42.879 39922 37 69.347 62.883 59.893 55.668 52.192 48 363 43.978 40984 38 70.703 64.181 61 162 56.896 53.384 49 513 45.076 42045 39 72.055 65476 62.428 58.120 64.572 50660 46.173 43 105 40 73.402 66.766 63.691 59 342 $5.759 51.805 47 269 44 165 45 80.077 73.166 69 957 65410 61.656 57 505 52.729 49452 50 86.661 79490 76.154 71.420 67.505 63 167 58.164 54.723 55 93.168 85.749 82.292 77.381 73.312 68.796 63.577 59.981 60 99.607 91.952 88.379 83.298 79082 74.397 68.972 65.227 65 105.988 98.105 94.422 89.177 84.821 79.973 74.351 70.462 70 112.317 104215 100.425 95.023 90.531 85.527 79.715 75.689 75 118.599 110.286 106.393 100.839 96.217 91.062 85.066 80.908 80 124.839 116.321 112 329 106.629 101.879 96.578 90.405 86.120 85 131041 122.325 118 236 112.393 107.522 102.079 95.734 91.325 *1 137.208 128.299 124 116 118.136 113.145 107.565 101.054 96.524 95 143.344 134.247 129973 123.858 118.752 113.038 106.364 101 717 100 149.449 140.169 135 807 129.561 124.342 118.498 111.667 106.906 239
Таблица III Квантили /(1—а) распределения 77\: P[QSs/(l—а)]«=а к 0-4 0*25 0-1 0-05 0-025 001 0-005 0-0025 0 00! 0-0005 1 0-325 1-000 3078 6 314 12 706 31821 63-657 127-32 318 31 636-62 2 •289 0-816 1-886 2 9^0 4 303 6 965 9-925 14 089 22 327 ЗГ598 3 277 •765 1-638 2 353 3 182 4-541 5 841 7 453 10 214 12-924 4 271 •741 1-533 2 132 2 776 3 747 4-604 5 598 7-173 8-610 5 0-267 0-727 1 476 2 015 2 571 3-365 4 032 4-773 5 893 6-869 6 *265 *718 1 440 I 943 2-447 3-143 3 707 4 317 5-208 5-959 7 263 •71 I 1*4)5 1 895 2-365 2-998 3 499 4 029 4 785 5-4 OS 8 •262 •706 1-397 I 860 2-306 2-896 3 355 3 S33 4 501 5 041 9 •261 •703 1 383 1-833 2-262 2-821 3-250 3'690 4'297 4 781 10 0 260 0-700 1-372 1-812 2-228 2-764 3169 3 581 4 144 4-587 11 •260 ’697 1 363 1-796 2 201 2-718 3 106 3-497 4-025 4 437 12 •259 •695 1-356 1-782 2-179 2 681 3055 3 428 3-930 4318 13 •259 •694 1-350 1 771 2-160 2-650 3012 3 372 3-852 4 221 14 268 692 1 345 1-761 2 145 2-624 2 977 3-326 3787 4-140 15 0 258 0-691 1-341 1-753 2 131 2-602 2 947 3-286 3 733 4 073 16 •258 •690 ' 1337 1 746 2 120 2 583 2-921 3 252 3'686 4 015 17 •257 •689 1 333 1-740 2-110 2 567 2 898 3 646 3 965 18 •257 -688 1 330 1-734 2 101 2 552 2-878 3 197 3 610 3 922 19 •257 688 1 323 1-729 2 093 2 539 2 861 3 174 3 579 3 883 20 0 257 0 687 1325 1-725 2086 2 528 2 845 3153 3 552 3-850 21 •257 686 1 323 1-721 2 080 2-518 2 831 3 135 3-527 3-819 22 •256 •686 1 321 1-717 2 074 2 508 2819 3119 , 3 505 3 792 23 256 685 1 319 1 714 2 069 2-500 2-807 3 104 3' >5 3-767 24 •256 •685 1 318 1 711 2 064 2-492 2 797 3 091 3 467 3-745 25 0-256 0 684 1 316 1 708 2-060 2485 2-787 3-078 3 450 3 725 3 26 •256 •684 1 315 1-706 2-056 2479 2 779 3 0G7 3 435 3797 27 •25G •684 1314 1-703 2 052 2-473 2 771 3-057 3'421 3 690 28 •256 •683 1 313 1 701 2-048 2-467 2-763 3047 3-408 3 674 29 •256 •683 1 311 1-699 2 045 2-462 2-756 3 038 3 396 3 659 30 0'256 0-683 1 310 1-697 2 042 2-457 2 750 3030 3-385 3 646 40 •255 •681 1-303 1-684 2 021 2-423 2-704 2 971 3-307 3 551 60 •254 •679 1-296 1-671 2 000 2-390 2-6G0 2915 3 232 3'460 120 •254 , 677 1-289 1-658 1-980 2 358. 2-617 2 860 3 160 3-373 00 •253 j —» «-J •674 1-282 1-645 1 960 2-326 1 2-576 2-807 3090 3 291
Таблица IV Квантили f(l—а) распределения FFk.m- а)] «а \ к 1 2 3 4 1 1 ‘ 1 8 12 15 20 30 60 1 I _ - со 1 40(2 49ОД 5403 5625 5764 5859 5981 6106 6157 6209 6261 *6313 6368 2 93 50 99 00 99 17 99-25 99 30 99 33 99 37 99 42 90 43 99 45 99-47 99 48 99'50 3 24 12 30 82 29 46 28 71 28 24 27*91 27 49 27 05 26 87 26 09 20 50 26 32 26 13 4 21-20 18*00 16 69 15-98 15 02 1521 14 80 14 37 14*20 14 02 13-84 13-65 1346 5 1026 13*27 12 06 11-39 10-97 10 67 10-29 9 89 9 72 9 55 9 38 920 902 6 12 75 10-92 9 78 9 15 8 75 8-47 8-10 7 72 7 56 7 40 7 23 706 688 7 12-25 9 55 8 45 7-85 7 46 7 19 6-84 647 6 31 6 16 5 99 582 565 3 11 26 8*60 7-59 701 6 63 637 6 03 5 67 5 52 б 36 5 20 503 4 86 ♦ ЮМ 8-02 8-99 6-42 606 580 547 5-11 4 96 4 81 4 65 4-48 431 10 1004 7*56 655 5*99 564 539 506 471 4-56 4 41 4 25 4 08 3*91 11 485 7-tl 6 22 5-67 5-32 5 07 4*74 4 40 4-25 4 10 3-94 3 78 360 12 0 33 6-93 595 541 5 06 4*82 4 50 4-16 401 3-86 3 70 3 54 3-36 13 007 6*70 574 5’21 4-86 4 62 4-30 396 382 3 66 3-51 3 34 3 17 14 8 86 6 51 5-56 5-04 469 446 4 14 3*80 3-66 3 51 3-35 3-18 1 3-00 13 868 636 5-42 4-89 406 4 32 4-00 3-67 3*52 3-37 3 21 305 2’87 14 853 6-23 5 29 4-77 4 44 4 20 3-89 3-55 3*41 3-26 310 293 275 17 840 611 5-18 467 434 4 Ю 3-79 3 46 331 3 16 зсо 283 265 18 820 601 5 09 4 58 4 25 4-01 3*71 3 37 323 308 2-92 275 2*57 10 8-18 5-93 001 4*50 4 17 394 363 3-30 3 15 3-00 2-84 2-67 249 20 8 10 5*85 494 4 43 4*10 3*87 356 3 23 3*09 2 94 2-78 261 2*42 21 802 5*78 4-87 4-37 404 3-81 3 51 3*17 3-03 2 88 2-72 206 2-36 22 795 5*72 4 82 4-31 3-99 3-76 3-45 3-12 2-98 283 2-67 2 50 2*31 23 7-88 5*66 476 4 26 394 3-71 3 41 307 2-93 2 78 2*62 2-45 2-26 24 7’82 5*61 4 72 4 22 390 3-67 336 3 03 2-89 2 74 2 58 2 40 2-21 25 7-77 5*57 468 4 1В 3 85 3 63 3-32 2-99 2-85 2 70 2*54 236 217 24 7-72 5*53 464 4-14 3 82 3*69 3*29 2 96 2-8! 2 66 250 233 2*13 27 768 5-49 4-60 4-11 3-78 3 56 3*26 2-93 2-78 263 2 47 229 2 10 28 7-84 5-45 4 57 4-07 3-75 3-53 323 2 90 2 75 2 60 244 2*26 206 20 7-60 5*42 4-54 4-04 3 73 3 50 3 20 2-87 2-73 2’07 2 41 2 23 2*03 эд 7-56 5*39 401 4*02 3*70 3-47 3*17 2-84 2-70 2 55 2-39 221 201 40 7-31 5*18 4 31 3*83 3-01 3-29 299 2-66 2-52 2 37 220 2-02 1-80 40 708 4-98 4*13 3*65 334 3-12 282 2 50 235 2 20 2 03 184 1 60 120 6*85 4 79 3-95 3-48 8-17 2-96 2*66 *34 2 19 2 03 1 86 1 66 1 38 so 6-63 4-61 3 78 3-32 3-02 2-80 2 01 2*18 204 1-88. 1 70 Г 47 1-00
Таблица IV (продолжение) Квантили f(l—а) распределения KF*,,,,: P(S>/(1—а)] =а 1 2 3 4 5 1 4 8 п 15 20 | 30 м СО 1 161-4 199-5 215-7 224 6 230 2 234 0 238-9 243 9 245 9 248 0 250 1 252 2 *254 Э 2 18-51 1000 1918 19 25 19 30 19 33 10-37 1941 19 43 19 45 19 46 1948 I9 60 3 10 13 055 9 28 9-12 9 01 8-94 8-85 8-74 1 8 70 8 68 8 62 8-57 8 53 4 7-71 094 850 8 39 8*26 б 18 6 04 5 91 i 5 88 5-80 6 75 569 6 63 5 Ml 570 541 5 19 5-05 4-95 4 82 4 88 4-62 4 56 4-50 4-43 4 36 4 599 б 14 4 78 4 53 4 39 4 28 4-15 4 ОО 3-94 3-87 3 81 3-74 3 67 7 559 4-74 4 35 4-12 3 97 3 87 3 73 3-57 3 51 3 44 3 38 ззо 3 23 6 532 4 48 4 07 3 84 389 358 3 44 3-28 3-22 315 3 08 3 01 2 93 ♦ 5-12 4 26 3 85 3 83 3 48 3 37 3’23 3 07 301 2-94 2 86 | 2 70 2 71 10 « 98 4 10 3 71 3 48 333 3 22 307 2 91 2-85 2 77 2 70 262 2 54 11 4-64 398 3 59 3 36 3 20 309 2 95 2 79 2-72 2-65 2-57 2 49 2 40 12 4 75 3 89 3 49 3 26 3 11 3 00 2 85 2-69 262 2 54 2-47 2-3R 2-30 13 4 07 381 3 41 3 18 3 03 292 2-77 2 60 2 S3 2 46 2 38 2 30 2 21 14 400 374 3 34 3 11 2 06 2 85 2-70 2-53 2 46 2 39 2 31 2-22 2 13 I 15 4-54 3-48 3 29 ЗОЛ 290 2-79 2 64 2 48 2 40 2 33 2 25 2 16 2 07 16 4 49 3-83 3 24 3 01 2-85 2-74 2 59 2 42 2-35 2-28 2 19 211 201 17 445 369 3-20 2-96 2 81 2-70 2 55 2-38 2-31 2-23 2 15 206 I 96 16 4-41 355 3 18 293 2-77 2-66 25! 2-34 2-27 2-J У 2 II 2 02 1 92 19 4 38 362 3 13 2-90 2-74 2 W 2 48 2 31 2 23 2 16 2 07 1 98 1 68 20 4 35 349 3 10 2 87 2-71 260 245 2 28 2-20 2 12 2 04 1 95 I 84 21 4 32 3 47 307 2-84 2-68 2-57 242 2-25 2-18 2-10 2 01 1 92 ! I 81 22 4 30 344 3 05 2-82 266 2 М 2 40 2 23 2-16 2-07 1 08 1 89 1-78 23 4-28 3 42 3-03 1 2-80 2-64 2-53 2 37 2-20 2-13 2-05 1-1НЗ 1-86 1 76 24 4-26 3 40 3 0! 2-78 2 62 2 51 2-36 2 18 2 11 2-03 1 94 1 81 1 73 25 4’24 3-39 2-99 2-78 2 60 2-49 2 34 2 18 209 201 1 92 1 82 1 71 26 4-23 3 37 2 98 2 74 2 59 2 47 2 32 2 15 2 07 1 09 1 90 1 80 1 69 27 4-21 3-35 2-98 2-73 2 67 2 46 2-31 2 13 2-06 1-97 1 88 1 79 I 67 26 4-20 334 2-95 2 71 2.56 2 45 2 29 212 2-04 1 УС 1 87 1 77 I 65 29 4 18 333 293 2 70 2 55 2-43 2-28 2-10 203 1 94 1 85 1 75 1 64 30 417 3-32 202 2 69 2-63 2-42 2-27 209 201 I 93 1 84 1 74 1 62 40 4-08 3-23 2 84 2 81 2-45 2-34 2-18 200 1 92 1 М 1 74 1 64 1 51 60 400 3 15 2 78 2 53 237 2 25 2 10 1-92 1 84 1 75 1 65 1 53 1 39 120 392 ' 3 07 2-68 2°45 2-29 2 17 202 1 83 1 75 1-06 1 55 1 43 1 25 ао 3-84 j 3‘00 2-60 1 2-37 2 21 1 2 10 1 94 1 1-75 | £ | 1 67 1 1 1-57 1 46 1 32 1-00
Таблица IV (продолжение) Квантили /(!—а) распределения FFk, mt P[S^f(l — а)] —а \ * m 1 2 3 4 1 5 6 8 12 15 20 30 60 оо 1 39 86 49*50 53-59 55-83 57 24 58 20 59-44 6071 61-22 61-74 G2 26 6279 63-33 2 853 9 00 9 16 9*24 929 933 9 37 941 942 9 44 9-46 9 47 9*49 3 5*64 546 5-39 5 34 5 31 5 28 525 5’22 5 20 5 18 5 17 5-15 5-13 4 4*54 4’32 4-19 411 4*05 401 3-95 390 3-87 3-84 3-82 3 79 376 5 406 3*78 3 62 3 52 3-45 3*40 3 34 3-27 3*24 321 3 17 3-14 ЗЮ 4 3-78 346 3-29 318 3 11 305 298 290 2*87 2 84 280 2 76 2-72 7 3 6» 3-26 307 2 96 2-Я8 2 83 2-75 2 67 263 259 2 56 2 51 247 8 3 46 3 11 2 92 281 273 2 67 259 2*50 2 46 2 42 2 38 2 34 2 29 9 ззв 3*01 2-81 2 69 2*61 2-56 2 47 238 234 2 30 2-25 221 2*16 It 3 20 2-92 2*73 2*61 2*52 2 46 238 2*28 224 2 20 2-16 2 11 2*06 11 323 286 2*66 2 54 245 2*39 230 2-21 2-17 212 208 203 1 97 12 318 2-81 2*61 248 239 233 2-24 2 15 2 10 206 2 01 1 96 1 90 13 3 14 2 76 2 бв 2 43 2*35 228 2*20 2*10 205 2 01 1 96 190 1*85 14 310 2-73 2*52 2 39 2 31 224 2-15 205 2*01 196 1 91 1-86 1*80 15 3*07 2'70 2*49 2 36 227 2 21 212 202 1-97 1 92 1-87 1 82 1 76 16 3 05 267 2 46 2 33 2 24 2-18 209 1 99 1 94 1 89 1 84 1 78 1 72 17 3*03 2-64 2-44 2 31 2-22 2 16 206 1 96 1-91 1 86 1 81 1 75 1-69 18 3-01 2*62 242 2 29 *20 2 13 204 1 93 1-89 1 84 1 78 1 72 166 19 2-99 2*61 2 40 2*27 2 18 2-11 202 1-91 1-86 1 81 1'76 1 70 1 63 20 2*97 2*59 2*38 225 2 16 209 200 1*89 1*84 1 79 1*74 1 68 1 61 21 296 2-57 2 36 223 2 14 2 08 1-98 1-87 183 1 78 1 72 1 66 1*59 22 295 2-56 235 2 22 2-13 206 1*97 186 181 1-76 I 70 1 64 1-57 23 2*94 2-55 2-34 2*21 2*11 2 05 1-95 1 84 1-80 1-74 1 69 162 1-55 24 2 93 254 233 2 19 2-10 204 1 94 1-83 1 78 1 73 1 67 1*61 1-53 25 2-92 2-53 2-32 2-18 2-09 2-02 1-93 1*82 1*77 1-72 1*66 159 152 26 291 2-52 2-31 2-17 2*08 2*01 1-92 1-81 1-76 1*71 1*65 1-58 1*50 27 290 251 2*30 2-17 207 2*00 1 91 1'80 1*75 1*70 1 64 1-57 1-49 28 2-89 2*50 2 29 2 16 2 36 200 1-90 1*79 1-74 1 69 1 63 1 56 148 29 2'89 2*50 2*28 215 206 1*99 1-89 1-78 1*73 1-68 1-62 1 55 147 30 2-88 2-49 228 214 205 1-98 1-88 1*77 1-72 1-67 161 1*54 1*46 40 2-84 2-44 2-23 2*09 200 193 1-83 1*71 1 36 1 61 154 1*47 1*38 60 2-79 239 2-18 204 195 1 87 1-77 1-66 1 во 1 54 1-48 1-40 1-29 120 2-75 2-35 2-13 L99 190 182 1-72 1-60 1'55 1 48 141 1-32 119 00 2-71 2 30 208 1*94 185 1-77 1-87 1*55 1*49 142 1*84 124 1-00
Та бл и ца V Распределение статистики U Уилкоксона (при выполнении ги- потезы /7): P[U^a] = min (nlt л,), kt=max (nt, n>), P [ £/ < О] =P [I/ > Л! Og—-fl] *1 a k2 «3 k, = 4 = 5 *2 = 6 k, = 7 M- •*> 1 О» 1 3 0 0500 .0286 .0179 .0119 .0083 .0061 1 .1000 .0571 .0357 0238 .0167 0121 2 2000 .1143 0714 .0476 0333 .0242 3 .3500 .2000 1250 .0833 0583 0424 4 .5000 .3143 1964 .1310 ,0917 .0667 5 .6500 .4286 .2857 .1905 1333 .0970 6 .8000 .5714 .3929 ,2738 .1917 .1394 7 .9000 .6857 5000 .3571 .2583 1879 8 .9500 .8000 6071 .4524 3333 .2485 9 10000 .8857 .7143 5476 ,4167 .3152 10 9429 .8036 6429 .5000 .3879 11 .9714 .8750 .7262 .5833 .4606 4 0 .0143 .0079 .0048 .0030 .0020 1 .0286 .0159 .0095 .0061 .0040 2 .0571 ,0317 .0190 .0121 .0081 3 .1000 .0556 .0333 .0212 .0141 4 .1714 .0952 .0571 .0364 .0242 5 .2429 .1429 .0857 .0545 .0364 6 .3429 .2063 .1286 .0818 .0545 7 .4429 .2778 .1762 .1152 .0768 8 .5571 .3651 .2381 .1576 .1071 9 .6571 .4524 3048 .2061 .1414 10 .7571 .5476 .3810 .2636 .1838 11 .8286 .6349 .4571 .3242 2303 12 .9000 .7222 .5429 .3939 .2848 43 .9429 .7937 .6190 .4636 .3414 14 I 1 .9714 .8571 .6952 .5364 .4040 15 .9857 .9048 .7619 .6061 .4667 244
Таблица V (продолжение). *х а ki = 5 *1-6 *1-7 *1-8 *i а w 7 *>-* ° Ах *8 S 0 .0040 .0022 .0013 .0008 7 0 .0003 .0002 8 0 । .0001 1 .0079 .0043 .0025 .0016 1 .0006 .0003 1 .0002 2 .0159 .0087 .0051 .0031 2 .0012 .0006 2 1 .0005 3 .0278 >0152 .0088 .сом 3 .0020 .0011 3 .0005 4 .0476 .0260 .0152 .0093 4 .0035 .0019 4 .0009 5 .0754 .0411 .0240 .0148 5 .0055 .0030 5 .0015 6 .1111 .0628 .0366 .0225 6 .0087 .0047 6 .0025 7 .1548 .0887 .0530 .0326 7 .0131 0070 7 .0035 8 .2103 Л234 .0745 .0466 8 .0189 .0103 8 .0052 9 .2738 .1645 ЛОЮ .0637 9 .0265 .0145 9 .0074 10 .3452 .2143 .1338 .0855 10 .0364 .0200 10 .0103 11 .4206 .2684 .1717 .1111 11 .0487 .0270 11 .0141 12 .5000 .3312 .2159 .1422 12 .0641 .0361 12 .0190 13 .5794 .3961 .2652 .1772 13 0825 .0469 13 .0249 14 .6Я8 .4654 .3194 .2176 14 .1043 .0603 14 .0325 15 .7262 .5346 .3775 .2618 15 .1297 .0760 15 .0415 16 .7897 .6039 .4381 .3108 16 .1588 .0946 16 *0524 17 .8452 .6688 .5000 .3621 17 .1914 .1159 17 .0652 16 .8889 .7316 .5619 .4165 18 .2279 .1405 18 .0803 19 .9246 .7857 .6225 .4716 19 .2675 .1678 19 .0974 20 .3100 .1984 20 Л172 0 .0011 .0006 .0003 21 .3552 .2317 21 .1393 1 .0022 .0012 .0007 22 .4024 .2679 22 Л 641 2 .0043 .0023 .0013 23 Л5О8 .3063 23 >1911 3 0076 .0041 .0023 24 .5000 .3472 24 >2209 4 .0130 .0070 .0040 25 .5492 .3894 25 .2527 5 .0206 .0111 .0063 26 .5976 .4333 26 .2869 6 .0325 .0175 .0100 27 .6446 .4775 27 .3227 7 .0465 .0256 .0147 28 .3605 8 .0660 .0367 .0213 29 .3992 9 .0898 .0507 .0296 30 *4392 10 .1201 .0688 .0406 31 .4796 И .1548 .0903 .0539 12 .1970 .1171 .0709 13 .2424 .1474 .0906 14 .2944 .1830 .1142 15 .3496 .2226 .1412 16 .4091 .2669 .1725 17 .4686 .3141 .2068 • л • 18 .5314 .3654 .2454 19 .5909 .4178 .2864 20 ’ .6504 .4726 .3310 21- .7056 .5274 .3773 • 22 .7576 .5822 .4259 23 - .8030 .6346 .4749 245
Краткая таблица биномиального распределения ВВ (л, — Р [$ < а] P(Ssga] = P[S>n-a] п ° \ 2 3 4 5 6 7 8 9 0 .2500 .1250 ,0625 .0313 .0156 .0078 .0039 .0020 1 .7500 .5000 3125 .1875 .1094 .0625 .0352 .0195 2 1.0000 .8750 .6875 .5000 -3438 .2266 .1445 .0898 3 1.0000 9375 .8125 .6562 .5000 .3633 .2539 4 1.0000 .9687 .8906 .7734 .6367 .5000 \" а \ 10 11 12 13 14 15 16 17 0 .0010 .0005 .0002 0001 .0001 .0000 .0000 .0000 1 .0107 .0059 0032 .0017 .0009 .0005 0003 .0001 2 .0547 .0327 ,0193 0112 .0065 .0037 .0021 .0012 3 .1719 .1133 .0730 .0461 .0287 .0176 .0106 .0064 4 3770 .2744 .1938 .1334 .0898 .0592 .0384 .0245 5 .6230 .5000 .3872 .2905 .2120 ,1509 .1051 ,0717 6 .8281 .7256 6128 .5000 3953 .3036 .2272 .1662 7 .9453 .8867 8062 .7095 .6047 .5000 .4018 3145 Ъ .9893 .9673 .9270 .8666 .7880 .6964 .5982 .5000 Таблица VII Знаковое ранговое распределение Уилкоксона Р ПУ < w] =Р № > ~ л («+ О—w] Xп 1 2 3 4 5 6- 7 0 .5000 .2500 .1250 ,0625 .0313. ,015b ,0078 1 .5000 .2500 .1250 .0625 .0313 ,0156 2 ♦3750 .1875 . .0938 .0469 .0234 3 .3125 .1563 ,0781 .0391 4 .4375 .2188 JO94 .0547 5 .3125 .1562 .0781 6 .4063 .2181 .1094. 7 .5000 .281; .1484 £ 3431 .1875 9 -4215 .2344 10 .5000 .2891 И .3438 12 Л063 13 .4688 2 46
Таблица VII (продолжение) Знаковое ранговое распределение Уилкоксона Н’Х 8 9 10 11 12 13 14 0 .0039 .0020 .0010 .0005 .0002 .0001 .0001 1 .0078 .0039 .0020 .0010 .0005 .0002 .0001 2 .0117 .0059 .0029 .0015 .0007 .0004 .0002 3 .0195 .0098 .0049 .0024 .0012 .0006 .0003 4 .0273 .0137 .0068 .0034 .0017 .0009 .0004 5 .0391 .0195 .0098 .0049 .0024 .0012 .0006 6 .0547 .0273 .0137 .0068 ,0034 .0017 .0009 7 .0742 .0371 ,0186 .0093 .0046 .0023 .0012 8 .0977 .0488 .0244 .0122 .0061 .0031 .0015 9 .1250 0645 .0322 .0161 . .0081 .0040 .0020 10 .1563 0820 .0420 .0210 .0105 .0052 .0026 и . .1914 .1016 .0527 .0269 .0134 .0067 .0034 12 2305 .1250 .0654 -0337 .0171 .0085 .0043 13 2734 .1504 .0801 .0415 .0212 .0107 .0054 14 .3203 .1797 .0967 .0508 .0261 .0133 .0067 15 .3711 2129 .1162 .0615 .0320 .0164 .0083 16 .4219 .2480 .1377 .0737 .0386 .0199 .0101 17 .4727 .2852 .1611 .0874 .0461 .0239 .0123 18 .3262 .1875 .1030 .0549 .0287 □148 19 .3672 .2158 .1201 .0647 .0341 .0176 20 .4102 .2461 .1392 .0757 .0402 .0209 21 .4551 .2783 .1602 .0881 .0471 .0247 22 .5000 .3125 .1826 .1018 .0549 .0290 23 ,3477 .2065 .1167 .0636 □338 24 .3848 .2324 .1331 .0732 □392 25 • .4229 .2598 .1506 .0839 .0453 26 .4609 .2886 .1697 .0955 .0520 27 .5000 .3188 .1902 .1082 □594 28 □501 □119 .1219 □676 29 .г □823 .2349 Л 367 .0765 30 .4,155 .2593 Л527 .0863 31 .4492 .2847 .1698 .0969 32 .4829 .3110 .1879 .1083 33 .3386 .2072 .1206 34 .3667 □274 Л338 35 .3955 □487 Д479 36 .4250 □709 .1629 37 .4548 □939 .1788 38 .4849 .3177 .1955 39 .3424 □131 40 .3677 □316 41 □934 .2508 42 .4197 .2708 43 .4463 □915 44 .4730 □129 45 □ООО □349 46 □574 47 * □804 48 .4039 49 Л276 50 Л516 51 .4758 52 □ООО 247
Таблица VII (продолжение) Знаковое ранговое распределение Уилкоксона Pj®] 15 16 • w\ 15 16 0 .0000 0000 * •» 53 .3599 ,2319 1 .0001 0000 54 .3808 .2477 2 .0001 0000 55 .4020 .2641 у .0002 .0001 56 .4235 .2809 4 .0002 .0001 57 .4452 .2983 5 .0003 .0002 58 4670 .3161 6 .0004 .0002 59 .4890 .3343 7 .0006 .0003 60 .5110 .3529 8 .0008 .0004 61 .5330 .3718 9 .0010 .0005 62 .5548 .3910 10 .0013 0007 63 .5765 .4104 11 .0017 .0008 64 .5980 Л301 12 -0021 .ООП 65 .6192 .4500 п .0027 .0013 66 .6401 /699 14 .0034 .0017 67 .6606 .4900 15 .0042 .0021 68 .6807 .5100 16 .0051 .0026 69 .7003 .5301 17 .0062 .0031 70 .7193 .5500 18 .0075 .0038 71 .7378 ,5699 19 .0090 .0046 72 .7556 .5896 20 .0108 .0055 • 73 .7729 .6090* 21 .0128 .0065 - 74 .7894 .6282 22 .0151 .0078 75 .8053 .6471 23 .0177 .0091 76 .8204 .6657 24 .0206 .0107 1 • 77 .8349 .6839 23 .0240 .0125 78 .8486 .7017 26 .0277 70145 79 .8616 ,7191 27 .0319 .0168 28 .0365 .0193 * • 29 .0416 .0222 • 30 .0473 .0253 • 31 .0535 .0288 32 .0603 .0327 » 33 .0677 .0370 34 .0757 .0416 35 .0844 .0467 36 .0938 .0523 37 .Ю39 .0583 38 .1147 .0649 39 .1262 .0719 40 .1384 .0795 41 .1514 •.0877 • 42 .1651 .0964 43 .1796 .1057 44 ,.1947 .1156 45 .2106 .1261 46 .2271 .1372 .47 2444 .1489 48 .2622 .1613 49 .2807 .1742 . 50 .2997 .1877 51 .3193 .2019 52 .3394 2166 248
Таблица VIII Распределение статистики Спнрмэна: £>=Е(7\—О2. . (В таблице приведены только вероятности «левого хвостат P[D<aJ.) 4 р 4 р л р d Р п - 2 22 .0229 10 .0001 24 .0003 0 5000 24 .0288 12 0002 26 .0003 —~ —• 26 .0347 14 .0003 28 0005 л “= 3 28 .0415 16 .0004 30 0006 0 1667 30 .0481 18 .0006 32 0007 2 5000 32 .0575 20 .0008 34 .0009 — 34 .0661 22 .ООП 36 ООН Л - 4 36 .0756 24 0014 38 .0014 0 .0417 38 .0855 26 0019 40 001Ц 2 1667 40 .0983 28 .0024 42 .0020 42 .1081 30 .0029 44 .0023 п ” 5 44 .1215 32 .0036 46 .0027 0 0083 — 34 .0044 48 .0032 2 0417 л 9 36 .0053 50 .0037 4 .0667 0 .0000 38 0063 52 .0043 6 1167 2 .0000 40 .0075 54 .0049 ——— 4 .0001 42 .0087 56 .0056 л = 6 6 .0002 44 .0101 58 .0064 0 .0014 8 .0004 46 .0117 60 .0072 2 .0083 10 .0007 48 .0134 62 .0081 4 .0167 12 .0010 50 .0153 64 .0091 6 .0292 14 .0015 52 .0173 66 .0102 8 .0514 16 0023 54 .0195 68 .0113 10 .0681 18 .0030 56 .0219 70 .0126 12 .0875 20 .0041 58 .0245 72 .0139 14 .1208 22 .0054 60 .0272 74 .0153 . 24 .0069 62 .0302 76 .0168 н = 7 26 .0086 64 .0334 78 .0184 0 .0002 28 .0107 66 .0367 80 .0201 *> .0014 30 .0127 68 .0403 82 .0220 4 .0034 32 .0156 70 .0441 84 .0239 6 .0062 34 .0184 72 .0481’ 86 .0260 8 .0119 36 .0216 74 .0524 88 .0281 10 .0171 38 .0252 76 .0569 90 .0304 12 .0240 40 .0294 ‘78 .0616 92 .0328 14 0331 42 0333 80 .0667 94 .0354 16 .0440 44 0380 82 .0720 96 .0380 18 0548 46 0429 84 .0774 98 .0409 20 0694 48 0484 86 .0831 100 .0438 22 .0833 50 .0540 88 .0893 102 .0470 24 1000 52 .0603 90 .0956 104 .0502 26 1179 54 .0664 92 .1022 106 .0536 JO и/Зо 108 -0571 п -8 58 .0809 Л - •: по 0609 0 ооос 60 0888 0 .0000 112 .0647 2 .0002 1 62 0969 2 0000 114 .0688 4 .0006 64 .1063 » 1 116 .0729 6 ООП 66 .1149 • 9 118 .0773 8 .0023 - 120 .0817 10 .0036 л - 10 12 .0000 122 .0865 12 .0054 0 0000 14 9000 124 0913 14 .0077 2 0000 16 .0001 126 .0964 16 .0109 4 лооо 18 .0001 128 .1015 18 .0140 6 0000 20 .0001 20 J0184 8 0001 22 .0002 1 - 249
Таблица IX Критические значения ka статистики Колмогорова: P[Dn;>fca)=a \ Л a\ 10 ' 20 30 40 30 60 80 n > 80 .01 .489 .352 .290 .252 .226 .207 .179 1.628/Qn + .12 + .11/» .OS .409 294 .242 .210 Л88 .172 .150 J.358/(v'n + .12 + .11/» Источники таблиц и рисунков Мы выражаем свою признательность следующим лицам и организациям, лю- безно разрешившим нам воспроизвести целиком или частично таблицы и рисунки: издательству «Holden-Day, Inc.» — за разрешение перепечатать в сокращен- ном виде табл. I, II, V, VI, VII и VIII из книги: Lehmann Е. Nonpara- metrics: Statistical Methods based on Ranks, p 408—433; руководству «Biometrica Trust» — за табл. Ill, перепечатанную из книги: Biometrica Tables for Statisticians (1966), vol. I, 3rd edition (Table 12, p. 146); Американской статистической ассоциации — за часть табл. IX, воспроиз- веденной с сокращениями по статье: Birnbaum Z. (1952). Numerical Tabulation of the distribution of Kolmogorov’s statistic for finite sample sizes. — J. Amer. Stat. Assoc. 47, 425—441; школе для дипломированных бизнесменов Гарвардского университета — за рис. 1.2.1 и 1.2.2, перепечатанные из книги: R а 1 f f а Н. and S ch 1 a i - fer R. Applied Statistical Decision Theory (Figures 7.1—7.3). Русский пере- вод: Райфа Г., Шлейфер Р. Прикладная теория статистических ре- шений. М., Статистика, 1977; издательству <J. Wiley & Sons, Inc.» — за рнс. 1.3.1 и 1.3.2, заимствован- ные из книги Johnson N. J. and К о t z S. Continuous Univariate Distri- butions, vol. II (Figure I, p. 77, and Figure I, p. 97). Табл. IV воспроизведена в сокращенном виде по справочнику: Handbook of Mathematical Functions, National Bureau of Standards, Table 26.9, p. 487— 489. Последний столбец в табл. IX заимствован из работы: Stephens М. А. (1974). EDF statistics for goodness of fit and some comparisons. — I. Amer. Sta- tist. Assoc. 69, 730—739.
• ОГЛАВЛЕНИЕ I I Глава 1, Линейные модели — регрессионный н дисперсионный анализ 7.1. Введение в общую линейную модель............................. 5 7.1.А. Некоторые примеры линейных моделей......................... 5 7.1.Б. Что такое общая линейная модель и каковы се допущения? ... 8 7.LB. Что означает принятие линейной модели? ..................... 9 7.1. Г. Матричная формулировка линейной модели....................11 7.1. Д. Родственные модели........................................14 7.2. Оценивание в линейных моделях................................16 7.2. А. Канонический вид..........................................16 7.2. Б. Оценивание линейных функций средних — связи с методом наи- меньших квадратов и теорией несмещенных оценок ...... 19 7.2. В. Дисперсия оценок наименьших квадратов: теорема Гаусса— Маркова..........................................................24 7.2. Г. Оценивание дисперсии ошибки ............................. 27 7.2. Д. Теория распределений: доверительные интервалы.............28 7.3. Критерии в линейных моделях..................................30 7.3. А. Общая теория..............................................30 7.3. Б. Линейная регрессия........................................35 7.3.В. Модели дисперсионного анализа............................ 38 7.4. Совместные доверительные интервалы и множественные сравнения 47 7.4. А. Метод Тьюки...............................................48 7.4. Б. Метод Шеффе.............................................. 50 7.5. Примечания . ............................................ . 56 7.6. Задачи и дополнения..........................................Бб 7.7. Библиография............................................... 72 i Глав а 8. Анализ дискретных данных . . -.......................74 8.1. Согласие с одной гипотезой...................................74 8.2. Согласие с семействами распределений: таблицы сопряженности признаков....................................................... 78 8.3. Модель р выборок и «регрессия» для биномиальных случайных ве- личин .......................................................... 87 8.3. А. Модель р выборок.........................................87 251
8.З. Б. <Регрессиониая> (логит-) модель ......... ....... 90 8.4. Примечания.......................................... ...... 95 8.5. Задачи и дополнения..........................................96 8.6. Библиография................................................106 Глава 9. Непараметрические модели............................... . 107 9.1. Ранговые методы сравнения двух совокупностей.................108 9.1. А. Статистика Уилкоксона.....................................108 9.ГБ. Доверительные интервалы и оценки для сравнения двух генераль- ных совокупностей................................................117 9.1.В. Ранговые методы для связанных наблюдений...............120 9.2. Знаковый критерий и знаковый ранговый критерий Уилкоксона 121 9.2. А. Знаковый критерий........................................122 9.2. Б. Знаковый ранговый критерий Уилкоксона....................123 9.3. Ранговые критерии для плана с одним признаком...............128 9.4. Линейная регрессия и независимость..........................130 9.4. А. Линейная регрессия.......................................130 9.4. Б. Критерии независимости...................................132 9.5. Устойчивые оценки и связанные с ними методы.................135 9.6. Согласие и выбор модели.....................................144 9.6. А. Критерий Колмогорова.....................................145 9.6. Б. Исследование формы распределения.........................148 9.6.В . Проверка согласия с формой нормального распределения .... 153 9.6.Г . Вопрос...................................................155 9.7. Примечания..................................................156 9.8. Задачи и дополнения.........................................157 9.9. Библиография ...............................................172 Глава 10. Теория решений........................................ . 174 10.1. Элементы теории решений....................................175 10.2. Сравнение решающих функций.................................179 10.3. Вычисление байесовских решающих функций................186 10.4. Вычисление минимаксных решающих функций и установление до- пустимости .... .......... ..................................... 191 10.5. Примечания.................................................197 10.6. Задачи и дополнения ...................................... 198 10.7. Библиография...............................................203 Приложение. Обзор основных понятий теории вероятностей . . . 205 П.1. Основная модель.............................................205 П.2. Элементарные свойства вероятностных моделей ................206 П.З. Дискретные вероятности модели ..............................207 252
П.4. Условная вероятность «^независимость......................208 П.5. Сложные эксперименты......................................209 П.6. Биномиальные испытания, выбор с возвращением к без возвращения 210 П.7. Вероятности на евклидовом пространстве....................211 П.8. Случайные величины и векторы: преобразования..............214 П.9. Независимость случайных величин и векторов................216 П.10. Математическое ожидание случайной величины...217 П.11. Моменты..................................................219 П.12. Производящие функции моментов.......................... 222 ПЛЗ. Некоторые классические распределения (дискретные и непрерыв- ные) .................................................. 222 П.14. Типы сходимости случайных величин и предельные теоремы . . . 228 П.15. Предельные теоремы (продолжение).........................230 П.16. Пуассоновский процесс ...................................234 П.17. Библиография.............................................235 Таблицы .......... ........................................... 237
ОГЛАВЛЕНИЕ 1 ВЫПУСКА Глава 1. Некоторые вопросы теории вероятностей Глава 2. Статистические модели Глава 3. Методы оценивания Глава 4. Сравнение оценок — теория оптимальности Глава 5. От оценивания к доверительным интервалам и проверке гипо- тез Глава 6. Оптимальные критерии и доверительные интервалы: критерии отношения правдоподобия и методы, связанные с отношением правдоподобия
П. Бикел, К. Доксам МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, Вып. 2 Книга одобрена на заседании редколлегии серии ^Математико-статистические методы за рубежом* 28.04.1981 Зав редакцией А В. Павлюков Редактор К. М, Чижевская Мл. редактор О. Б. Степанченко Техн редактор К. К. Букалова Корректоры Т. М. Васильева, И. П. Ёлкина и М. А Синяговская Худож. редактор О. Н. Поленова ИБ № 1252 Сдано в набор 16.11.82. Подписано в печать 21.03.83. Формат 60X90’/ie. Бум. тип. № 2. Гарнитура «Литературная». Печать высокая Усл. п. л. 16. Уч.-изд. л. 17,04. Тираж 7000 экз. Заказ 1313. Цена 2 р. 10 к. Издательство «Финансы и статистика», 101000, Москва, ул. Чернышевского, 7 Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии н книжной торговли. 129041, Москва, Б. Переяславская, 46 Бикел П., Доксам К. Б60 Математическая статистика / Пер. с англ. Ю. А. Дани- лова.—Вып. 2.— М.: Финансы и статистика, 1983. — 254с., ил.— (Математико-статистические методы за рубежом). В пер.: 2 р. 10 к. В книге изложены основные методы современной математической статисти- ки. Содержится большое число задач В вып. 2 рассмотрены линейные модели — регрессионный м днсперснопный анализ, анализ дискретных дивных, непарамет- рические модели, теория решений Приведены обзор основных понятий теории ве- роятностей к статистические таблицы. Для преподавателей математической статистики, аспирантов и студентов экономических специальностей вузов. 0702060000—067 Б 010(01)—83 31—83 ББК 22.172 Б17.8
Замеченные опечатки к вып. 1 Страница Напечатано Должно быть 10 166 199 5 сверху 4 снизу 13 снизу Т и Т [7_(Х), q (X)] Т и Т [?(Х),йХ)1