Текст
                    ББК 22.172
И 25
УДК 519.2
Рецензенты:
кафедра высшей математики Московского высшего
технического училища им. Н. Э. Баумана; проф. В. П. Чистяков
(Математический институт им. В. А. Стеклова АН СССР)
основ
Ивченко Г. И., Медведев Ю. И.
И 25 Математическая статистика: Учеб, пособие для
зов. — М.: Высш, шк., 1984. — 248 с., ил.
В пер.: 85 к.
В пособии систематически, на современном научном уровне, изложены
ные разделы статистической теории. Главное внимание уделено исследованию*’
вопросов оптимальности соответствующих статистических процедур и использова-сС^
иию асимптотических методов теории вероятностей. Основные разделы сопрсвсж-.
даются задачами.	•
Предназначается для студентов втузов. Может быть полезно студентам, обу*
чающимся на факультетах прикладной математики и кибернетики, аспирантам 1AQ
научным работникам.
и
1702060000—320
001(01)—84 66—84„
ББК 22.172
517.8
.-Григорий Иванович, Ивченко,
Юрий Иванович Медведев
Математическая статистика
Зав. редакцией литературы по физике и математике Е. С. Гридасова. Редактор
Ж. И. Яковлева. Мл. редакторы: С. А. Доровских, Н. П. Майкова. Оформление
и макет художника В. Н. Хомякова. Художественный редактор В. И. Понома-
ренко. Технический редактор Л. А. Григорчук. Корректор Г. И. Кострикова,
И Б № 4682
Изд. № ФМ-783. Сдано в набор 24.08.83. Подп. и печать 25.05.84. Формат 60X00716.
Бум. тип. № 1. Гарнитура литературная. Печать высокая. Объем 15,5 усл. печ. л.
15,5 усл. кр.-отт. 16,33 уч.-изд. л. Тираж 28 000 экз. Зак. № 1054. Цена 85 коп.
Издательство «Высшая школа», 101430, Москва, ГСП-4, Неглинная ул., Д. 29/14
Ордена Октябрьской Революции, ордена Трудового Красного Знамени Ленинград-
ское производственно-техническое объединение «Печатный Двор» имени А. М. Горь-
кого Союзполиграфпрома при Государственном комитете СССР по делам изда-
тельств, полиграфии и книжной торговли. 197136, Ленинград, П-136, Чкалов-
ский просп., 15.
©Издательство «Высшая школа», 1984
К*.	,


ПРЕДИСЛОВИЕ В решениях XXVI съезда КПСС и после- дующих постановлениях партии и правительства перед высшей школой страны поставлены большие и ответственные задачи по совершенствованию системы подготовки высококвалифицированных специалистов для народного хозяйства. Важное место в этой системе занимают вопросы физико-математической подготовки спе- циалистов инженерно-технических профилей. Повышенные требо- вания, предъявляемые к математическому образованию современ- ных инженеров, нашли отражение в новой программе по матема- тике для высших технических учебных заведений. В ней уделено большое внимание вероятностно-статистическим методам ввиду возрастания их практической значимости. В соответствии с этими учебными планами различных инженерных специальностей преду- сматривается чтение обязательного курса математической стати- стики. Настоящее учебное пособие предназначено для студентов технических вузов н обеспечивает новую программу такого курса. Авторы ставили перед собой задачу изложить в доступной для первоначального изучения форме элементы основных направлений современной статистической теории. При изложении материала акцент делается на исследование вопросов оптимальности соот- ветствующих статистических процедур и их практической реали- зации. В книге широко используются асимптотические методы теории вероятностей, существенное внимание уделяется вопросам прикладной интерпретации решаемых задач и получаемых ре- зультатов. Так как в вузах чтению курса математической статистики предшествует обязательный курс теории вероятностей, то авторы отказались от традиционного принципа, когда значительное место в начале книги отводится перечислению основных фактов и поло- жений теории вероятностей, на которых базируется изложение собственно статистических вопросов. Предполагается, что необхо- димый минимум сведений из теории вероятностей (например, в объеме учебника В. П. Чистякова [22]) студентам уже известен; 1* 3
некоторые дополнительные положения теории вероятностей при- водятся в соответствующих местах текста. По мнению авторов, пособие позволит формировать курсы лекций различного объема и содержания, а также спецкурсы для различных специализаций и тем самым учитывать в той или иной мере профессиональную ориентацию и структурные особенности конкретного вуза. Книга может быть также полезной студентам университетов, обучающимся на факультетах прикладной математики и кибернетики, аспиран- там и инженерам, применяющим в своих исследованиях теоретико- вероятностные и статистические методы (по крайней мере, как введение в соответствующие разделы статистической теории). Изложение материала ведется на уровне, доступном студентам технических вузов; авторы стремились опираться только на зна- ние студентами основ классического математического анализа и линейной алгебры, читаемых на первых семестрах в курсах выс- шей математики. Как правило, авторы стремились избегать гро- моздких математических выкладок и доказательств и в то же время сохранить и подчеркнуть теоретико-вероятностную и ста- тистическую сущность рассматриваемых вопросов. В конце книги приведен список литературы, в которой более полно и глубоко освещены различные аспекты статистической теории и ее приложений. В тексте имеется большое число примеров, иллюстрирующих, а в ряде случаев и дополняющих излагаемую теорию. В конце каждой главы приведены задачи, которые могут служить мате- риалом для практических занятий по курсу, а также заданий^о учебно-исследовательским и курсовым работам. В приложении приведены краткие статистические таблицы, необходимые для разбора примеров и решения задач. Знаки □ и в тексте означают соответственно начало и окончание дока- зательства. Авторы выражают благодарность В. Я- Козлову, И. Н. Кова- ленко и В. П. Чистякову за полезные беседы по вопросам пре- подавания математической статистики и за поддержку идеи написанйя данного пособия. Весьма полезны были авторам также советы Б. А. Севастьянова, Д. М. Чибисова, А. Н. Ширяева и Г. Д. Карташова, сделанные ими при обсуждении различных разделов курса лекций по математической статистике, и замеча- ния, связанные непосредственно с подготовкой рукописи к печати. Авторы будут признательны всем, кто в той или иной форме поделится своими соображениями по улучшению ее содержания и стиля изложения материала. Замечания можно направлять по адресу: Москва, Ж-28, Б. Вузовский пер., 3/12, МИЭМ, кафедра теории вероятностей и математической статистики. Авторы
ВВЕДЕНИЕ 1. Вероятностно-статистическая модель и за- дачи математической статистики. Математическая статистика —это прикладная математическая дисциплина, родственная теории ве- роятностей. Она базируется на понятиях и методах последней, но решает свои специфические задачи своими методами. Любая математическая теория развивается в рамках некоторой модели, описывающей определенный круг реальных явлений, изучением которых и занимается данная теория. Чтобы определить статисти- ческую модель и объяснить специфику задач математической ста- тистики, напомним некоторые факты из теории вероятностей. ЛУатематические модели случайных явлений, изучаемых в тео- рии вероятностей, основываются на понятии вероятностного про- странства (Q, Р), где й = {и}— непустое множество, назы- ваемое пространством элементарных событий (элементы ш интер- претируются как взаимно исключающие исходы изучаемого случайного явления); е-^ —некоторая выделенная совокупность подмножеств множества Q, называемых событиями (при этом тре- буется, чтобы было о-алгеброй, т. е. чтобы содержало Q и было замкнуто относительно операций взятия противоположного события и объединения событий в не более чем счетном числе); Р— вероятность, заданная на событиях [22, с. 23]. При этом в каждой конкретной ситуации вероятность Р считается полностью определенной и основной задачей теории вероятностей является разработка методов нахождения вероятностей различных сложных событий (исходя из известных вероятностей более простых событий) для данной вероятностной модели. Однако на практике при изучении конкретного эксперимента вероятность Р редко бывает известна полностью. Часто можно априори утверждать лишь, что Р является элементом некоторого заданного класса (семейства) вероятностей З’. Этот класс может включать в себя все вероятности, которые можно задать на (ситуация полной неопределенности), в других же случаях пред- ставляет собой некоторое более узкое семейство вероятностей, 5
заданное в той или иной явной форме (ситуация, когда имеется определенная априорная информация). В любом случае —это совокупность допустимых в данной ситуации (для описания дан- ного эксперимента) вероятностей Р. Если задан класс то гово- рят, что имеется вероятностно-статистическая модель (или просто статистическая модель), понимая под этим набор (£2, &). Приведем пример. Рассмотрим эксперимент, состоящий в про- ведении п независимых испытаний, в каждом из которых наблю- дается либо 1 («успех»), либо 0 («неуспех») с вероятностями соот- ветственно р и д=1— р (схема Бернулли). Здесь исход экспери- мента можно представить н-мерным вектором ю = (е1, ..., е„) из О и 1, и если вероятность «успеха» р известна, то вероятностной моделью эксперимента является тройка (£2, Р) с простран- ством элементарных исходов £2 = {<£>: <o = (ei, ..., &„), е; = 0, 1} (содержащим 2п точек ю), совокупностью всех подмножеств £2 и вероятностью Р, которая определяется в данном случае вероят- ностями появления отдельных элементарных исходов: Р, , „Хе, „л — Хе, (<о) = р iq ». Предположим теперь, что вероятность «успеха» заранее не известна. Обозначая ее через 8, можно только сказать, что 9е0 = [О, 1]. Таким образом, здесь семейство допустимых вероят- ностей имеет вид ^ = {Ре, 9 е ©}, где Ра задается вероятностями p0(®) = 6SE;(l-6)n-2£T. t Итак, статистическая модель описывает такие ситуации, когда в вероятностной модели изучаемого эксперимента имеется та или иная неопределенность в задании вероятности Р, и задача мате- матической статистики состоит в том, чтобы уменьшить эту не- определенность, используя информацию, доставляемую наблюдае- мым исходом эксперимента (статистическими данными). Матема- тическая статистика — это наука о статистических выводах. В определенном смысле математическая статистика решает задачи, обратные задачам теории вероятностей: она уточняет (выявляет) структуру статистических моделей по результатам проводимых наблюдений. В настоящем пособии рассмотрены наиболее типич- ные статистические задачи и общие методы их решения. Возникновение и развитие математической статистики, как и других математических дисциплин, определялось потребностями практики; в настоящее время ее методы широко используются в различных технических дисциплинах. Они играют важную роль в экономических исследованиях, сельском хозяйстве, биологии, медицине, физических науках, геологии, психологии, социологи- ческих исследованиях и других, считавшихся долго далекими от математики, науках. Историю статистики как науки о статистических выводах обычна начинают с забавного эпизода, изложенного Ж- Бертраном в предисловии к его курсу «Исчисление вероятностей»: «Однажды в Неаполе преподобный Галиани увидел человека из Базиликаты, который, встряхивая 3 игральные кости в чашке, держал пари, что выбросит 3 шестерки... Вы скажете, такая удача возможна. 6
Однако человеку из Базиликаты это удалось во второй раз, и пари повтори-1 лось. Он клал кости назад в чашку 3, 4, 5 раз и каждый раз выбрасывал 3 шестерки. «Черт возьми,—вскричал преподобный,—кости налиты свинцом!# И так оно и было». Здесь в шутливой форме дан типичный пример статистического вывода: если бы кости были симметричны, то наблюдаемое событие (5 раз подряд выпали 3 шестерки) имело бы ничтожно малую вероятность (1/6S)5=4,71 - 10”п и, поскольку в эксперименте наблюдалось такое событие, вполне логично сде- лать вывод, что априорная модель (симметричность костей) ложна. Первыми крупными работами, относящимися к математической статистике, были исследования Я. Бернулли и П. Лапласа. К- Гаусс разработал теорию ошибок наблюдений. Научное обосно- вание закономерностей случайного рассеивания связано с именами русских математиков П. Л. Чебышева, А. А. Маркова и А. М. Ля- пунова, значительно углубивших результаты известных к тому времени классических исследований. Ряд важнейших современных понятий и методов, оказавших большое влияние на развитие современной теории математической статистики, предложил Р. Фишер (метод максимума правдоподо- бия, дисперсионный анализ, понятия состоятельности, достаточ- ности, эффективности и др.). Систематическое развитие теории проверки статистических гипотез началось с работ К. Пирсона по критерию хи-квадрат. Основной вклад в построение этой тео- рии внесли Ю. Нейман и Э. Пирсон, которые ввели понятия ошибок первого и второго рода и показали общность и значение метода отношения правдоподобия для построения критериев. Общая теория статистических решающих функций, охватывающая как теорию проверки статистических гипотез, так и теорию оценива- ния, создана А. Вальдом. Большую роль в развитии математической статистики сыграли работы Г. Крамера, Э. Лемана, С. Рао, М. Кендалла, А. Стьюарта, С. Уилкса, а также советских ученых А. Н. Колмогорова, Б. В. Гнеденко, Ю. В. Линника, Е. Е. Слуцкого, Н. В. Смир- нова, В. И. Романовского, Л. Н. Большева, Ю. В. Прохорова и др. Математическая статистика — это непрерывно и интенсивно развивающаяся наука. В последние годы появилось большое коли- чество глубоких результатов, охватывающих, по существу, все основные направления современной теории математической ста- тистики. Крупный вклад в развитие новых методов этой теории вносит советская математическая школа. 2. Терминология и обозначения. В большинстве случаев исход- ные статистические данные — результат наблюдения некоторой конечной совокупности случайных величин X=(Xi............. Хл), характеризующей исход изучаемого эксперимента. Обычно в этих случаях говорят, что эксперимент состоит в проведении п испы- таний, в которых результат i-ro испытания описывается случай- ной величиной Xt, i = l, ..., п. Совокупность наблюдаемых слу- чайных величин X = (Xi, .... Х„) называется выборкой, сами величины Xit i = l......п, — элементами выборки, а их число п — ее объемом. Реализации выборки X будем обозначать соответ- 7
ствующнми строчными буквами x = (xi, хп). Иногда для обозначения наблюдаемых случайных величин используются про- писные буквы У, Z, U, V и т. д., а для их наблюдавшихся зна- чений — соответствующие строчные буквы у, г, и, v и т. д. Пусть X — (х) — множество, на котором задано распределение случайного вектора X, т. е. множество всех возможных значений выборки X. В статистике множество X называется выборочным пространством (при этом имеется в виду, что на X задан класс подмножеств, образующих сг-алгебру, однако в дальнейшем изло- жении нет необходимости выделять такой класс). Выборочное пространство может быть либо всем n-мерным евклидовым про- странством Rn или его частью (если случайная величина X не- прерывна), либо состоять из конечного или счетного числа то- чек в Rn (если случайная величина X дискретна). В данном слу- чае под статистической моделью эксперимента понимается набор (X, X), где & — класс допустимых распределений случайной вели- чины X, заданных на X. Распределение вероятностей любой слу- чайной величины однозначно определяется ее функцией распре- деления, поэтому обычно статистическая модель задается в терми- нах допустимых функций распределения выборки X. Таким образом, далее предполагается, что статистическая модель опре- деляется выборочным пространством X и семейством функций распределения которому принадлежит неизвестная функ- ция распределения Fx (xi.......хл) = Р (Xi , X,, -с хп), —coCXi, хл<оо, выборки Х = (ХЬ .... Хл). Часто рассматриваются ситуации, когда компоненты Хь ..., Х„ независимы и все распределены так же, как и некоторая случай- ная величина £. Эгот случай соответствует эксперименту, в кото- ром проводятся повторные независимые наблюдения над случайной величиной £. Здесь Fx (х,) = F-. (xj для всех i = 1, ..., п и Fx (х) = = F^ (xi)... Ft (хл). Такую модель можно задать в терминах функ- ции распределения Ft, и в этом случае говорят, что X = = (Xi, ..., Хп) — выборка из распределения случайной величины Иногда множество возможных значений | с распределением Ft называют генеральной совокупностью (или просто совокупностью), имеющей функцию распределения F^(x), а величину X —выборкой из этой совокупности. В дальнейшем распределение £ обозначается символом X (|). В этих обозначениях предыдущую фразу можно записывать кратко так: «Х = (Х1, ..., X,) есть выборка из X (|)». В данном пособии в основном рассматриваются именно такие модели, хотя в ряде задач предположения независимости и оди- наковой распределенности компонент X,- не выполняются. Статистическая модель для повторных независимых наблюдений будет обозначаться кратко в виде & = {F^}, т. е. указанием лишь класса допустимых функций распределения исходной случайной величины |. Там, где это не приведет к недоразумениям, индекс у Ft для краткости будет опускаться. Если функции распределения из класса «У заданы с точностью до значений некоторого параметра 9 с множеством возможных 8
значений 0, то такая модель обозначается = {F(x; 6), 0 <= 6} и называется параметрической. Говорят, что в этом случае известен тип распределения наблюдаемой случайной величины, а неизвестен только параметр, от которого зависит распределение. Параметр 0 может быть как скалярным, так и векторным, множество 0 назы- вается параметрическим. Например, пусть известно, что —нормальное распределе- ние с известной дисперсией и неизвестным средним. Тогда ста- тистическая модель имеет вид JF = {F (х; 6), 6е0 = (—оо, оо)}, где функция распределения F (х; 6) имеет плотность f(x; 6) = е~(х~в)г/<2°!), —со<х<оо. v Л /2л а Если и дисперсия неизвестна, то статистическая модель имеет вид Jr = {F(x; 9), 9 = (61, 9г) е 0}, где © = {(0!, 02): —со<9t<со, О<02<сс}, и F (х; 9) имеет плотность f (у; g) = е~ (Х ~ °1Е/С0») — ОО < X < ОО. 1 ' ’ . /2л б2 Модель qF называется абсолютно непрерывной пм\диск~ ретной, если таковыми соответственно являются все составляю- щие класс qF функции распределения. В дальнейшем используется единое обозначение Д/(х) = /(х) (для параметрических моделей /(х; 6)) как для плотности распределения случайной величины £ в случае абсолютно непрерывной модели, так и для вероятности Р(£ = х) в случае дискретной модели. Приведем один пример дискретной модели. Предположим, что (Ю — пуассоновское распределение с неизвестным параметром. Тогда статистическая модель имеег вид <£~ = {F(x', 9), = = (0, со)}, где F (х; 6) определяется вероятностями /(х; 6) = Р(g = х) = е-е*у, х = 0, 1, 2.. В данном пособии рассматриваются только модели этих двух типов, которые наиболее распространены в приложениях. В случае параметрической модели распределение вероятностей на выборочном пространстве ЗУ, отвечающее параметру 0, обозна- чается символом Р9. Аналогично, индекс 6 при символах матема- тического ожидания, дисперсии и т. д. означает, что соответ- ствующие величины вычисляются для распределения Ре. Напри- мер, ЕеТ (X), DeT (X) — обозначения соответствующих моментов заданной функции Т (X) от выборки X в случае, когда функция распределения выборки есть Fx (х; 6). При этом для единообра- зия иногда используется сокращенная запись через интеграл Стилтьеса: EeT (X) = $ Т (х) dFx (х; 6). Здесь интеграл понимается как n-мерный интеграл по всему выборочному пространству ЗУ, который в случае абсолютно не- 9
прерывной модели вычисляется как обычный интеграл Римана $Т(хь .... xn)f(xi, 6)dx1...dx„, а в случае дискретной модели—как соответствующая сумма ST’fXi, .... xn)f(xi, 9)... 9). Во многих задачах математической статистики рассматриваются последовательности случайных величин {т)л[, сходящиеся в том или ином смысле к некоторому пределу т] (случайной величине или константе), когда п->оо, В настоящей книге используются два вида сходимости: сходимость по вероятности и сходимость по распределению, или слабая сходимость. Напомним, что последо- вательность {гр,} называется сходящейся по вероятности к т}, если lim Р(I тр, — т] ]>е)->-0, Ve>0, Л —‘03 что кратко записывается так: г]л^-+тр Под сходимостью по рас- пределепию [или кратко: X (т]л) -> X (т|)] понимается сходимость Таблица В.1 Наименование модели Обозначение модели Функция f (х; Параметрическое множество 0 Нормальная-1 X (g) е (6, а9) е 2а* {0 : — со < 0 •< оо} }'2лст — со <х <со Нормальная-2 X (?) е &Г (ц, б2) 1 _ (*—я-)* —е 20- {9: 0 < 6 < оо} У 2л0 — со <х С со Общая нормаль- пая е®Г(01( 01) 1 е 20i {в=(ад ад: У 2л02 — СО < 0! '< со) — СО < X < СО Гамма X е Г (6, А) ?—!е-*/0 п {0 : 0<0< оо} Г (А) Равномериая-1 X (£) е R (0, 6) С'1” {6 : 0 <0 <ао} Общая равномер- ная X ® е R (бп ад 02-0/ (8=(ад ад: —оо<01<02<оо} X ® е 5Г (0) 1 1 {0 : — со <0 <оо} Коши Я 1 —(х — О)2’ — со<х<со Биномиальная Х&) <=ВЦп, 0) С*6* (1-6)" {6 :0 < 0 < 1} х = 0, 1,..., п Пуассоновская X (2) е= П (6) п 6х е~е— х! х = 0, 1, 2, ... {9 : 0 < 6 < оо} Отрицательная биномиальная X (2) <= В1 (г, 0) С?+Х_^(1-6Л х = 0, 1, 2, ... {0 : 0 <6 < 1} 10
соответствующих функций распределения в каждой точке непре- рывности предельной функции. Известно, что из сходимости по вероятности следует слабая сходимость. Остальные обозначения и понятия вводятся по тексту. 3. Некоторые типичные статистические модели. В теории ве- роятностей наиболее часто встречающиеся законы распределения имеют общепринятое наименование и обозначение. Так, например, нормальный закон со средним р и дисперсией о2 обозначается символом ®^(ц, о2); пуассоновский закон со средним X—симво- лом П(Х) и т. д. Если наблюдаемая случайная величина | имеет распределение некоторого стандартного типа, то соответствующая статистическая модель имеет такое же наименование. Например, говорят о нормальной модели, пуассоновской модели и т. д. В табл. В.1 приведены наиболее распространенные в приложе- ниях статистические модели, которые встречаются в дальнейшем изложении (функция f равна нулю для не указанных в таблице значений х). Например, запись X (g) е©А”(&£, для общей нормальной модели означает, что модель задается классом допустимых функ- ций распределения = {F (х; 9), Ое0}, где плотность f (х; о) и параметрическое множество 0 имеют указанный в таблице вид. Первые семь моделей в . таблице являются абсолютно непрерыв- ными, а три последние— дискретными. Отметим также, что некоторые частные случаи приведенных моделей имеют специальные названия. Так, модель Bi (1, 9} на- зывают бернуллиевской моделью, а модель Bi (1, 6) — геометрической. В заключение несколько слов о физической природе перечисленных рас- пределений. Замечательным фактом является то, что существует несколько распределений большой общности, встречающихся в самых разнообразных задачах теории вероятностей и математической статистики. Прежде всего это нормальное распределение, биномиальное распределение и распределение Пуассона. Нормальная модель возникает в таких статистических экспериментах, когда на исход эксперимента оказывает влияние большое число независимо действующих случайных факторов, каждый из которых незначительно влияет на конечный результат. В таких ситуациях на основании центральной пре- дельной теоремы теории вероятностей можно заключить, что наблюдаемая слу- чайная величина £ имеет приблизительно нормальное распределение (it, о2), параметры которого (или их часть) могут быть неизвестны, Типичный пример такой ситуации — измерение некоторой физической величины: в теории оши- бок измерений (разработанной К. Гауссом) считается, что результирующая ошибка измерения представляет собой сумму большого числа незначительных частных ошибок (связанных, например, с точностью настройки измеритель- ного прибора, погрешностью округления при считывании данных, психофизи- ческим состоянием оператора и т, д.) и является поэтому нормально распре- деленной случайной величиной. Биномиальная модель Bi (п, 0) описывает распределение числа «успехов» в п независимых испытаниях с двумя исходами («успех»—«неуспех») и неизмен- ной вероятностью «успеха» 0 (схема Бернулли). Частный случай этой модели— бернуллиевская модель В1(1, 0)—особенно часто встречается в приложениях теории вероятностей и математической статистики, так как эксперимент с двумя исходами является простейшим статистическим экспериментом. При этом слу- чайная величина с распределением Bi (п, 0) может быть реализована как сумма И
п независимых случайных величин с одинаковым распределением Bi (1, 0). Если рассматривать бесконечную последовательность испытаний Бернулли, то число испытаний, предшествующих первому «неуспеху», подчиняется геомет- рическому распределению Bi (1, 0), а число «успехов» предшествующих г-му «неуспеху»,—отрицательному биномиальному распределению Bi (г, 0). Случай- ная величина с распределением Bi (г, 0) также может быть реализована как сумма г независимых случайных величин с одинаковым распределением Bi (1, в). Указанные модели часто используются, например, при разработке математи- ческих методов контроля качества промышленной продукции. Пуассоновская модель П (0) обычно описывает схему редких событий: при некоторых предположениях о характере процесса появления случайных собы- тий число событий, происшедших за фиксированный промежуток времени или в фиксированной области пространства, часто подчиняется пуассоновскому распределению. Примерами могут служить число частиц радиоактивного рас- пада, зарегистрированных счетчиком в течение некоторого времени t, число вызовов, поступивших на телефонную станцию за время I, число изюминок в кексе и т. д. Модель гамма-распределения часто используется в задачах теории надеж- ности н теории массового обслуживания. Особую роль играет при этом част- ный случай Г(0, 1), который называют также показательным или экспоненци- альным распределением. Этому распределению часто подчиняются случайные длины интервалов между последовательными моментами наступления событий в пуассоновских потоках, времена «жизни» различных технических устройств и т. д. При целом X 1 распределение Г (0, Л) называют также распределением Эрланга порядка Л. Это распределение суммы Л независимых случайных вели- чин с одинаковым распределением Г (0, 1). В задачах математической стати- стики гамма-распределение играет большую роль благодаря теской связи с нормальным распределелением, в частности там, где рассматриваются квадра- тичные формы от нормальных случайных величин. Наиболее ярким примером является распределение Г (2, п/2) суммы квадратов п независимых случайных величин с одинаковым распределением о #’(О, 1), которое называется распре- делением хи-квадрат с п степенями свободы. Равномерное распределение R (а, Ь) описывает процесс «выбора точки наудачу» в интервале (а, Ь). Так, если (а, &) — интервал между последователь- ными отъездами автобусов от остановки, то время ожидания пассажира, при- бывшего на остановку, если неизвестно расписание, есть случайная величина с распределением R (а, 6). Распределение Л (0, 1) играет особую роль в методах моделирования с помощью ЭВМ случайных величин с заранее заданными распределениями. Такие методы широко используют для приближенных вычислений интегра- лов, решения дифференциальных и интегральных уравнении и т. д. Распределение Кошн интересно своими связями с другими распределениями, возникает в некоторых физических задачах, связанных с блужданием частиц, имеет ряд оригинальных аналитических свойств. Отметим, в частности, что по закону Коши распределены отношение двух независимых нормальных слу- чайных величин и функция tg г], где X («]) = /?(—л'2, л/2); для распреде- кия Коши не существует моментов, в том числе и математического ^ожидания.
Глава Основные понятия и элементы выборочной теории В этой главе рассматривается ситуация, соответст- вующая модели повторных независимых наблюдений над некоторой скалярной случайной величиной Здесь вводятся основные понятия выборочной тео- рии, которая изучает стохастические свойства случай- ной выборки; приводятся фундаментальные теоремы математической статистики; исследуются в точной и асимптотической (т. е. при большом объеме выбор- ки) постановках свойства некоторых характеристик случайной выборки; рассматриваются распределения, играющие важную роль в статистике. § 1.1. Вариационный ряд выборки и эмпирическая функция распределения 1. Порядковые статистики и вариационный ряд выборки. Пусть Х = (Х15 ..., Хл) —выборка объема п из рас- пределения <5?(Ё) и х = (хь ..., хп) — наблюдавшееся значение X. Каждой реализации х выборки X можно поставить в соответствие упорядоченную последовательность Х(1)=Сх(2)<...^х(я), (1.1) где x(i) = min(xi, ..., х„), х(2) —второе по величине значение среди Xi, ..., х„ и т. д., x(n) = max(xi, .... хп). Обозначим через X(i) случайную величину, которая для каж- дой реализации х выборки X принимает значение k = 1, . - -, п. Так по выборке X определяют новую последовательность случай- ных величин X,i), ..., Х(Л), называемых порядковыми статисти- ками выборки; при этом X(fc) — k-я порядковая статистика, a X(i> и Х(л) — экстремальные значения выборки. Из определения поряд- ковых статистик следует, что они удовлетворяют неравенствам Х(1)<Х(2)^...^Х(Л). (1.2) Последовательность (1.2) называют вариационным рядом выборки. Симметричные относительно концов элементы последовательно- сти (1.2) Х{ОТ) и Х(П_от+1) иногда называют соответственно т-м наи- меньшим и т-м наибольшим значениями выборки (иг=1, 2, ...); при т = 1 получаем экстремальные значения выборки. Итак, вариационный ряд—это расположенные в порядке возрастания их величин элементы выборки. Отметим, что для заданной реа- 13
лизации x — (xi, хл) выборки Х = (ХЪ Х„) реализацией последовательности (1.2) является последовательность (1.1). 2. Эмпирическая функция распределения. Определим для каж- дого действительного х случайную величину цл(х), равную числу элементов выборки Х = (Хь ..., Х„), значения которых не пре- восходят х, т. е. р.п(х) = |{/:Ху=Сх}|, (1.3) где через [ А | обозначено число элементов конечного множества А, и положим Fn_(x) = itn(x)/n. Функция F„(x) называется эмпириче- ской функцией распределения (соответствующей выборке X). Функ- цию распределения F (х} наблюдаемой случайной величины g в этом случае называют иногда теоретической функцией распре- деления. По своему определению эмпирическая функция распре- деления—случайная функция: для каждого хеR значение Fn (х)— случайная величина, реализациями которой являются числа О, 1/п, 2/л, ..., (п — 1)/п, п/п=1, и при этом Р (F„ (х) = k/n) = Р (ря (х) = k). Но из определения рл(х) следует, что ,5? (ря (х)) = Bi (и, р), где р-= Р (£ «е х) = F (х). Поэтому P(Fr.(x) = fe/n) = C„Ffe(x)(l-F(x))n-ft, fe = 0, 1, ..., п. (1.4) Итак, эмпирическая функция распределения (как и вариацион- ный ряд)—некоторая сводная характеристика выборки. Для каж- дой реализации х выборки X функция Fn (x) однозначно опреде- лена и обладает всеми свойствами функции распределения: изме- няется от 0 до 1, не убывает и непрерывна справа. При этом она кусочно-постоянна и возрастает только в точках последова- тельности (1.1). Если все компоненты вектора х различны (в по- следовательности (1.1) все неравенства строгие), то функция F„(x) задается, очевидно, соотношениями О при Х<Х(1), Fn(x)=l»k/n при Х(£) X , k=l, ..., п — 1, 1 при т. е. в этом случае величина всех скачков равна 1/л и типичный график функции F„(x) имеет вид, изображенный на рис. 1.L В общем случае эмпирическую функцию распределения можно записать в виде п f„(x)=42 о-5) »г=1 где e(x) — функция единичного скачка (функция Хевисайда): , ( 0 при х<0, е(х)={ В представлении (1.5) хорошо видна зави- ( 1 при х2^0. симость F„ (х) от выборки X. 14
Эмпирическая функция распределения играет фун- даментальную роль в ма- тематической статистике. Важнейшее ее свойство со- стоит в том, что при уве- личении числа испытаний над случайной величиной £ происходит сближение этой функции с теорети- Рис. 1,1 ческой. Смысл утверждения раскрывает следующая теорема. Теорема 1.1. Пусть F п (х) — эмпирическая функция распределе- ния, построенная по выборке X = (Хд,..., Хи) из распределения X (£), и F (х) — соответствующая теоретическая функция распределения. Тогда для любого х (—со<х<;оо) и любого а>0 lim Р (| F„ (х) — F (х) | < s) = 1. п —* со (1.6} □ Из (1.4) следует, что Fn (х) — относительная частота собы- тия {£=Сх} («успеха») в п испытаниях Бернулли с вероятностью «успеха» F(x). Но в соответствии с законом больших чисел (тео- ремой Бернулли) относительная частота произвольного события в п независимых испытаниях сходится по вероятности при п->оо к вероятности этого события. Следовательно, по теореме Бернулли, Fn (х) —- F (х), т. е. имеет место равенство (1.6). Таким образом, если объем выборки большой, то значение эмпирической функции распределения в каждой точке х может служить приближенным значением (оценкой) теоретической функ- ции распределения в этой точке. Функцию Fn(x) часто называют в этом случае статистическим аналогом для F (х). 3. Предельные теоремы для эмпирической функции распределения. Спра- ведлив следующий гораздо более сильный, результат, принадлежащий В. И. Глт- венко (1933 г.) Теорема 1.2 (Гливеико). В условиях теоремы 1.1 P/lim sup | Fn (x) — F (x) |= 0\ = 1. (1.7) \n->co — oo<x;<;co ) Другими словами, соотношение (1.7) означает, что отклонение Оп = Дл(Х)= sup |f„(x) — F(x)| — ОО < 00 эмпирической функции распределения от теоретической на всей оси с вероят- ностью 1 будет сколь угодно мало при достаточно большом объеме выборки. Приведем еще один результат, принадлежащий А. Н. Колмогорову (190® г.)', который поаиаляет для большая п оценивать вероятности заданных отзьляяе- ний случайной величины Dn от 0. Теорема 1.3 (Колмогорова). Если функция F (х) непрерывна, то при любом фиксированном t > О — 00 lim Р (КяД„^0 = К(О= У (-1)/е~2^\ (1.8) га->да j = — оо При этом предельную функцию распределения К (0 можно с хорошим при- ближением использовать для практических расчетов уже при п^20. 15
Теорему Колмогорова обычно применяют для того, чтобы определить гра- ницы, в которых с заданной вероятностью находится теоретическая функция распределения /•' (х), если она неизвестна. Пусть для заданного уе(0, 1) число /у определяется уравнением Х(/у) = у. Тогда из (1.8) имеем P(l/riD„r;:i,v) = P(Fn(x) — (x)^Fn(x) + t^yn. для всех х) -+ К (/у)~у. Таким образом, при больших п с вероятностью, близкой к у, значение функции F (х) для всех х удовлетворяют неравенствам F„(x) — ty/У ns^ s-' F (х) sg Fn (xj + fyf^n. Так как Os<F(x)s< 1, то эти неравенства можно уточнить: max (0, Fn (х) — ty/^n) ^F (x)'<-min (Fn (x) -f-tyfl^n, 1). Область, определяемая эткми нижней и верхней границами, называется асимптотиче- ской ^-доверительной зоной для теоретической функции распределения. Для определения числовых значений fy при различных у можно воспользоваться табулированными значениями функцки К (t) [2]. Сформулируем еще один важный результат выборочной теории, принадле- жащий Н. В. Смирнову (1944 г), который раскрывает другие свойства эмпири- ческих функций распределения. Теорема 1.4 (Смирнова). Пусть Flfli(x) и Finj (х)—две эмпирические функ- ции распределения, построенные на основе двух независимых выборок объемов гц и п2 из одного и того же распределения X (|), и Dnina= sup |F (x)-flni W|. — CO <^X <_ 00 Тогда если теоретическая функция распределения F (х) непрерывна, то для лю- бого фиксированного t > О 1 im Р (/я1П2/(«1 + п2) D = П1,П1 -»со где функция К (О определена равенством (1.8). Эту теорему обычно используют для проверки предположения (гипотезы) о том, что две выборки получены из одного и того же распределенкя. 4. Гистограмма и полигон частот. Из изложенного выше следует, что эмпирическая функция распределения — это удобный способ представления статистических данных (выборки X), который позво- ляет делать выводы о распределении наблюдаемой случайной ве- личины £, когда оно неизвестно. Существуют и другие способы наглядного представления ста- тистических данных; одним из них является построение гисто- граммы. В этом случае область значений наблюдаемой случайной величины^ g разбивают на равные интервалы, для заданной реа- лизации х = (а, .... х„) выборки X из X (£) подсчитывают число координат xt, попавших в соответствующие интервалы (говорят, что данные группируются), и на каждом интервале, как на осно- вании, строят прямоугольник с высотой v/(nh), где h — длина интервала, v —число выборочных точек в данном интервале. Полу- чаемую при этом фигуру и называют гистограммой (рис. 1.2). Таким образом, площадь каждого прямоугольника равна v/n, т. е. относительной частоте попадания выборочных значений в соответ- ствующий интервал, поэтому по теореме Бернулли она будет схо- диться по вероятности при n-э-оо к вероятности попадания зна- чения случайной величины £ в соответствующий интервал. Если длина интервалов h достаточно мала, а плотность f (х) непрерывна, то последняя вероятность приблизительно равна f (г) h, где г — се- редина соответствующего интервала. Таким образом, при боль- 16
шом значении объема выборки нэ< п и достаточно малом h высо- *4. ты построенных прямоугольни- к* ков можно рассматривать в > Ц качестве приближенных значе- ний для плотности f в сред- trf0] пС. них точках соответствующих - интервалов. Отсюда следует, Рнс 12 что верхнюю границу гисто- граммы можно рассматривать как статистический аналог плот- ности распределения наблюдаемой случайной величины. Этот способ представления статистических данных рекомендуется при- менять только для непрерывных случайных величин; кроме того, он обладает очевидными недостатками: неопределенностью в спо- собе построения интервалов, потерей информации при группировке данных (здесь используются не сами выборочные значения xit а лишь частоты попадания в интервалы). Поэтому гистограмму рекомендуется применять на предварительном этапе анализа ста- тистических данных. В методе гистограмм неизвестная плотность распределения приближается кусочно-постоянным графиком. Если плотность f (х) — достаточно гладкая, то, как известно из анализа, такие функции значительно лучше можно приблизить кусочно-линейными графиками. Отсюда следует, что для оценки гладких плотностей можно предложить более точную методику, которая основана на построении полигона частот. Полигон частот —это ломаная, кото- рую строят так: если построена гистограмма, то ординаты, соот- ветствующие средним точкам интервалов, последовательно соеди- няют отрезками прямых. Построенный таким образом кусочно- линейный график также является статистическим аналогом тео- ретической плотности (рис. 1.2). Отметим, что один из современных подходов к решению задачи оценива- ния неизвестной плотности распределения наблюдаемой случайной величины по соответствующей выборке основан на использовании лидерных» оценок. В этом случае в качестве статистического аналога теоретической плотности распреде- ления рассматривают случайную функцию i = 1 при соответствующем выборе ядра k (х) н последовательности чисел а„>0. Один из результатов, принадлежащий Э. Надарая (1970 г.), состоит в том, что если k (х) —функция с ограниченным изменением, ап -* 0 прн п->со и при СО этом У] ехр {—упа®|<оо, a f (х) равномерно непрерывна на всей п — 1 осн, то Р/ lim sup /(X) — / (X) I =0\ = 1. -ю> —оо<х<а> •- - — I „ ‘J • • 4т' - * -- X и/ ч
Имеются также результаты, позволяющие гер* большом п приближенно оце- нивать вероятности заданных отклонений оценок вида (1.9) от теоретической плотности f (х) и тем самым рассчитывать границы, в которых с заданной ве- роятностью находится график fix). § 1.2. Выборочные характеристики 1. Выборочные моменты. Пусть X = (Xi, ... .Х^) —выборка нз распределения X fg) и F (х) и Fn(x) — соот- ветственно теоретическая и эмпирическая функции распределения. Точно так же, как функции Fix') ставят в соответствие Fn(x)f любой теоретической характеристике g— ^g (х) dF(xj можно поста- вить в соответствие ее статистический аналог G=G(X), вычис- ляемый по формуле и. G=fg(x)d^(x) = ~2g(XJ. i = 1 Случайную величину G называют эмпирической или выборочной характеристикой, соответствующей теоретической характери- стике g. Таким образом, выборочная характеристика— это сред- нее арифметическое значений функции g(xj для элементов вы- борки X. Если g (х) = х4, то G — выборочный момент k-го порядка, кото- рый будем обозначать А у. Л,= 4(Х)=12 Xh (1.Ю) £ = J При k — I величину А& называют выборочным средним и обозна- чают символом X: п 1=1 Значения случайных величин А» и X даэ заданной реализации х выборки X будем обозначать соответствующими строчными бук- вами ak и x — ai. Аналогично, выборочным центральным моментом k-eo порядка называют случайную величину п л1А=л<Л(х>=^у (xf-X)\ (1.Н) i = l При k = 2 величину Mk называют выборочной дисперсией и обозна- чают символом S4 = 54(X): п 52 = М2=±2 (Х,--Х)г. »=1 18
Значения случайных величие и 3* для заданной реализации х выборки X будем обозначать соответствующими строчными бук- вами тА и s2 = /na. Между выборочными и выборочными центральными моментами сохраняются те же соотношения, что и между теоретическими afe = E£* и центральными моментами p.fe = E(g—a^k. В общем слу- чае при k^2 из соотношения (1.11) имеем /г * — 2 Mk= у; (-1уотл^= 2] (-lya^^-H-i)*-1^-!)**, r=0 z = 0 В частности, S2 = A2-X2, М3=А3-ЗХД3+2Х®, М4 = А4-4ААл + 6ХМ2-3>. (1.12) Аналогично вводят выборочные абсолютные моменты, выборочные семиинварианты н т. д. 2. Моменты выборочного среднего и выборочной дисперсии. Выборочная характеристика G является случайной величиной, поэтому можно говорить о ее распределении (которое иногда называют выборочным распределением) и изучать различные харак- теристики этого распределения. Рассмотрим некоторые характеристики распределений сред- него X и дисперсии выборки. Так как Xt независимы, и распределены так же, как наблюдаемая случайная величина g, то п п EX=l2EX-==E^=ai’ Dx=i2DXi=4D^= п~- (ыз> <=1 <=1 Вычислим моменты выборочной дисперсии S2. Заметим, что при любом с п х<-с-4 2(X'-c)=Xi~x’ i=i т. е. выборочные центральные моменты Mk [см. обозначение (1.11)] не зависят от начала отсчета на шкале значений величины f и без ограничения общности можно с самого начала считать, что ai = E£ —0 (в противном случае переходят к случайной величине g' = g — a4). Учитывая это замечание, из формул (1.12) н (1.13) получаем ES2 = Е А2 - ЕХ* =р.2 -рц/п = (я - 1) 1^/п. (1.14) Далее, используя формулы (1.12), представим S2 в виде п I П п i = l 4=1 » » = 1 ‘Kt 19
Тогда, принимая во внимание, что Е£ = 0, имеем ' п Е (S2)2 = Е fcD! 2 XI + — 2 х‘х/ г=1 _ <n-’)2u (п-1)2 + 2//г Пи! = —-------Ш п ^3 \п 1J р-а- Отсюда и из соотношения (1.14) окончательно получаем DS2 = Е (S2)2 — (ES2)2 = -(1.15) Аналогично можно находить моменты и более высоких порядков, хотя с увеличением порядка вид формул и их вывод усложняются. § 1.3. Асимптотическое поведение выборочных моментов 1. Сходимость по вероятности выборочных моментов и функций от них. Рассмотрим поведение выборочных моментов А/,, определенных равенством (1.10), при неограниченном возрастании объема выборки п. Чтобы подчеркнуть зависимость моментов Ak от объема выборки, будем их в дальнейшем отмечать индексом п. Первые два момента случайной величины Ank соот- ветственно равны (везде предполагаем, что все соответствующие •моменты наблюдаемой случайной величины £ существуют) п _ а (Мб) DAnk = 1 2 DX< = i D^ft = <E^ft - (E'*)2) = aj^ • Z = 1 На основании неравенства Чебышева отсюда следует, что Ank^a,k при п—>оо. Таким образом, выборочный момент А„ц можно рас- сматривать в качестве приближенного значения (оценки) соответ- ствующего теоретического момента а*, когда число наблюдений п достаточно велико. Аналогичное утверждение справедливо и для выборочных центральных моментов и вообще для любых выбороч- ных характеристик, которые имеют вид непрерывных функций от конечного числа величин Ank (центральный момент Afnft, как показано в § 1.2, выражается через Ani, ..., Ank в виде много- члена степени k). Этот вывод является следствием следующей общей теоремы о сходимости функций от случайных величин. Теорема 1.5. Пусть случайные величины (н), ..., схо- дятся по вероятности при п-^со к некоторым постоянным Ci, ...» сг соответственно. Тогда для любой непрерывной функции <р (xi, ..., хг) случайная величина S (п) = Ф (Hi (п), ...» ~ Ф (ci.....СА- 20
□ Функция ф непрерывна, поэтому для уе>0 найдется 6 = 5(e) такое, что |ф(х4, .... хг) — ср(съ .... сг)|<е при |хг —c{|<6, i = г. Введем события В,= {[т]((/г) — с£]<6}, 1 = 1,..., г. Тогда событие В=В1...ВГ влечет событие С — ={|£ (п) — Ч5 (Q, • • •, Сг) | <е}. Отсюда Р(С)^Р(5)=1 -Р(В) = I -Р^и-.-иЯ)^!-X Р(Я). (1-17) i—i Далее, из сходимости по вероятности случайной величины т]Д«) имеем, что для_ данного 6 и любого у>0 найдется п, = п,1\) такое, что Р(В,-) = Р(|т]((п) — с;|б)<у/г при п^щ. Пусть По = max (tii, ..., nr)j тогда при п ^п0 выполняются одновременно все неравенства Р (В.) < у/г, i = l,..., г. Следовательно, из (1.17) получим Р (| С(п) -Ф (С1.сг) <8)^1— у, п^п0. Замечание. Очевидно, что для справедливости теоремы 1.5 достаточно потребовать непрерывности функции ср только в некоторой окрестности точки (ci..сД Отметим еще одно конкретное статистическое применение этой теоремы. При исследовании свойств графика плотности распреде- ления непрерывной случайной величины часто рассматривают такие характеристики, как коэффициенты асимметрии у4 и эксцесса уг, определяемые формулами Т1 = Из/р1/2, Тг = М«/р| —3. (1.18) Если график плотности распределения симметричен, то у4 = 0 и по значению у4 судят о степени отклонения от симметрии. Аналогично, для нормального распределения у2 = 0, поэтому о кривых плотности распределения с у2 = 0 говорят, что они имеют нормальный эксцесс. Если у2>0 (т-2<0), то считают, что эксцесс кривой положителен (отрицателен). Если задана выборка X = (Xi, ..., Хп) из абсолютно непре- рывного распределения X (£), то выборочные коэффициенты асим- метрии Гщ и эксцесса Гя2 определяются следующими формулами: ГЛ1 = Мй3/$’, Гп2 = ЛД4/^-3. (1.19) Из соотношений (1.19) и (1.12) следует, что Гл,-, i = 1, 2,— непрерывные (при ц2>0) функции от выборочных моментов Anfr, поэтому в силу теоремы 1.5 выборочные характеристики (1.19) сходятся по вероятности при п->оо к соответствующим теоре- тическим характеристикам (1.18). 2. Асимптотическая нормальность выборочных моментов. Вве- дем некоторые дополнительные обозначения. Если распределение случайной величины сходится при п->оо к распределению случайной величины т] и при этом X (ц) =@7/= (ц, о2), то будем писать Х(ц„)-+&Р~(р., о2). Далее иногда будем говорить, что случайная величина Ф, асимптотически нормальна с параметрами 21
и ай или, короче, асимптотически нормальна (p-n, On), и запи- сывать это следующим образом: X (рл, ал). Это означает, что 1). Продолжим исследование распределений выборочных характе- ристик для больших выборок (при /г->со). Каждый выборочный момент Ank представляет собой сумму п независимых и одинаково распределенных случайных величин, поэтому к нему можно при- менить центральную предельную теорему теории вероятностей [22, с. 152]. Имеет место следующее общее утверждение. Теорема 1.6. Выборочный момент A„k асимптотически нормален □ Так как [см. формулы (1.16)] EXt = aft, DX? = 0^ — ct£, то по центральной предельной теореме X (г|„)->®^ (0, 1), где т]п = А- ..— ( У — па,У = 1/~ —-—- (A„h — ак). Следовательно, случайная величина А„ь асимптотически нормальна с параметрами ak и (агА —а|)/л. Теорема 1.6 позволяет оценивать для больших выборок вероят- ности заданных отклонений значений выборочных моментов от теоретических. Действительно, из этой теоремы имеем, что при любом фиксированном t>0 и п->со ______ t ₽(]/" ( е-*”2 dx = 2Ф (1) — 1 (1.20) \r «2fe—afe / у 2л (здесь и далее используется обозначение Ф(х) для функции распределения закона @<й~(0, 1)). В частности, из теоремы 1.6 следует, что выборочное среднее X — Ап1 асимптотически нормально ©^(«ь р2/л). Отметим вэтой связи, что если X (g) = (alf р2), то случайная величина X, как сумма независимых нормальных случайных величин, также нормальна с параметрами ai и р.2/п, т. е. В1 этом случае <5? (X) =^л'(а1, р2/«) при любом п. Аналогично, используя многомерную форму центральной предельной теоремы [22, с. 154], можно доказать, что совместное распределение любого конечного числа выборочных моментов Апк асимптотически нормально. При этом первые два момента случайных величин А„к определены в (1.16), а сме- шанные вторые моменты вычисляются аналогично и имеют вид cov (Аякг АЯА я= <xja^)/n. Для центральных выборочных моментов также можно доказать утверждение об их асимптотической нормальности. Так например, для выборочной диспер- сии при п-»-со имеет место соотношение X (S*) ~ (Р2> (14— Р-|)/л), в правой части которого стоят асимптотические значения среднего и дисперсии величины S* [см. формулы (1.14) и (1.15)1. 22
§ 1.4. Порядковые статистики I. Распределение порядковых статистик. При анализе свойств распределения X Q) по соответствующей выборке используются не только выборочные моменты, но и другие харак- теристики выборки, например порядковые статистики Х^, вве- денные в § 1.1. Найдем распределение случайной величины и исследуем его асимптотическое поведение для больших выборок. Предположим, что распределение <5? (£) абсолютно непрерывное, и пусть, как обычно, F (х) и / (х) = F' (х) — соответственно функция и плотность распределения наблюдаемой случайной величины Е, а Х = (Х1, Х„) — выборка из -X (%). События {X(*)sSx} и {рл(х)2г--/е} [см. формулу (1.3)], очевидно, эквивалентны, поэтому %, (х) = Р (Р„ (X) > 4) = 2 № (х) (1 - F (х))“-т. m~k Дифференцируя это равенство по х, выделяя первое слагаемое при m = k и проводя несложные преобразования, получаем, что плотность gk (х) =Fxw (х) имеет вид g* (х) = (х) (1 - F (x))”-V (х). (1.21) 2. Выборочные квантили и их асимптотическая нормальность. Введем понятия р-квантили распределения X (£) и выборочной р-квантили. По определению, для ре(0, 1) р-квантилью распределения X(£) называется корень уравнения F© = P- (1-22) Если функция F (х) строго монотонна, то это уравнение имеет единственный корень; в противном случае (рис. 1.3) при некото- рых р уравнению (1.22) удовлетворяют многие значения £ (заполняющие целый интервал), тогда в качестве берут мини- мальное из значений удовлетворяющих уравнению (1.22). Выборочной р-квантилью 1п,р будем называть порядковую статистику Хцпрц-п, где [о] — целая часть числа а (для упрощения дальнейшего изложения мы несколько отступаем от строгого определения этого термина: ( Х([ггр] + 1) при пр дробном, п-р~ ( Х„р при пр целом). Ясно, что Zn.p —это элемент выборки, левее которого находится доля [пр]/п^р наблюдений, и при этом Zn,P — порядковая ста- тистика с максимальным номером, обладающая этим свойством. Следовательно, Р можно рассматривать как статистический аналог Следующая теорема об асимптотическом поведении выборочных квантилей дает дополнительное основание рассматривать Zn, р 23
Рис. 1.3 в качестве оценки р-квантили распределения наблюдаемой случайной величины. Теорема 1.7. Если в некото- рой окрестности точки t,p плот- ность f(x) непрерывна вместе с производной и f (£р)>0, то при П-»-ео X(Zn,py~^p, _^)rQ=i_p. □ Пусть k — [np], рассмотрим случайную величину = (А. р - U f (Q Vnl(pq). Тогда из формулы (1.21) следует, что ее плотность <р„(х) имеет* вид <Рл W = gm (U = At (n) A., (n) A3 (n), где tn=^lp+j-^yVpq/n, At(n) = VnpqCkn-.ipkqn-k~1, A («) = = f (£p), Аз (n) = (F (tn)/p)k ((1 -F (tjy/q)”-*-1. Применяя фор- мулу Стирлинга, получаем А (п)-> 1/)/2л. Далее, Л2(п)->1 в силу непрерывности функции f(x). Наконец, поскольку F(£p)=p, из тейлоровского разложения в точке t,p г , 1Г ря , *?ря f СР) , /И F(C) = p + x]/ —+ оу, п-^со, нетрудно получить, что In А3 (п) ->- — хг/2. Таким образом, <рл(х)-> _^е-^г/2/рг2л, т. е. плотность <рп(х) сходится к плотности закона (0, 1). Тем самым доказана локальная предельная теорема, а поскольку все предыдущие предельные соотношения выполняются равномерно по х в любом конечном интервале, справедлива и интегральная предельная теорема. Выделим важный частный случай этой теоремы, соответствую- щий значению р = 1/2. Величина Ci/г называется медианой распре- деления X (£), a Z„,i/2 = X([„/2]+i) — медианой соответствующей выборки (выборочной медианой). В условиях теоремы 1.7 имеем (1.23) В частности, если X (£) = @<Г (р, о2), то Ci/a = f (И) — 1/(рл2ла) и из (1.23) следует, что X (Zn'i/i)^^ (р, ло2/(2м)). (1-24) * Напомним [22, с. 95], что если случайная величина £ имеет плот- ность ф (х), то случайная величина ц = й^+^, а#=0, имеет плотность g (у), равную g (y) = fy((g—b)/a)/\ а 24
С другой стороны (см. замечание после теоремы 1.6), соответст- вующее выборочное среднее X при любом п нормально ®^°(р, о7п). Отсюда имеем, что если бы р было неизвестно, то в качестве оценки для него можно было бы использовать (при больших значениях п) как Zn.i/2, так и X. Однако последняя оценка более точная, так как ее дисперсия в л/2 = 1,57 ... раза меньше диспер- сии Znjl/2. Систематически вопросы сравнения точности различных оценок для теоретических характеристик исследованы в гл. 2. Теорема 1.7 описывает асимптотическое поведение для больших выборок, как говорят, средних членов вариационного ряда, т. е. порядковых статистик Х^, номера которых удовлетворяют усло- вию &/п->р при и-»-со, гдеО<р< 1. Таким образом, теорема 1.7 утверждает, что для больших выборок из достаточно гладких распределений средние члены вариационного ряда асимптотически нормальны; более того, средними членами вариационного ряда можно оценивать теоретические квантили произвольных уровней р, 0<р<1. В частности, из этой теоремы следует, что Zn_pZtp. 3. Предельные распределения крайних членов вариационного ряда. Иссле- дуем асимптотическое поведение для больших выборок крайних членов вариа- ционного ряда, т. е. порядковых статистик X(n_m+Il н Х1т> при фиксированном /п^1. Заметим, что достаточно изучить /и-е наибольшее значение выборки X(n-m+iy 1ак как Х(Я1)=—гйе X;i>sg...^X'(n)-вариационный ряд выборки из <5? (£') при |' = —£. Теорема 1.8. Для произвольного фиксированного 1 при п->со «5? (rz (1 — F Г (1, т). □ Пусть 4n = rt(l Т7 (Х(п_т4.ц)), (1 25) и F-1 (Z), OsgK 1,— функция, обратная F (х). Тогда ₽(>!,,sg*)=P(X(„_m+ll2: >F-1 (I — х,'пУ) = 1 — Fv (А-1 (1 — х/n)) и из формулы (1.21) следует. Лт- т+и чю плотность распределения этой случайной величины % (х) — С£~} (х/п)т-1 (1 — х/п')п~т, 0 < х п. В условиях теоремы при любом фиксированном х фл (х) “* хт~хе.~хДт — 1 )1, т. е. в пределе получаем пло1 несть гамма-распределения Г (1, т). При этом сходимость равномерна по х в каждом конечном интервале; следовательно, имеет место и интегральная сходимость. Ц Обратим внимание на следующие моменты. Во-первых, предельные распре- деления крайних членов вариационного ряда не являются нормальными (в отличие от средних членов и выборочных моментов). Во-вторых, теорема 1.8 определяет вид предельного распределения не самой порядковой статистики Х|л-т+и> а некоторой случайной величины Т|л, связанной с A(n_m+1, соотно- шением (1.25). Конечно, если функция F (х) задана и уравнение (1.25) можно явно разрешить, т. е. получить явное представление ^1я-яти=^ 1 (1 Цл/Л)’ (1.26) то можно получить предельное распределение и самой величины Х(л_т+1) через предельное распределение т|„. Однако в явном виде обратную функцию F'1 (/) удается найти только в редких случаях, поэтому отыскание предельного 25
распределения дли Л',„ ,„|t, н общем случае сложная задача и ее решение выходит чл рамки настоящего пособия. Отметим лишь, что полное решение этой uyiiiMii получено В. В. Гнеденко (1943 г.) и Н. В. Смирновым (1949 г.); приведем некоторые из основных результатов. Класс предельных распределений для нормированных случайных вели- чии Л'„, mqll (т. е. для (Хгя_т+1,— ап)!Ьп, где ап и Ьп > 0 — некоторые последон.пелыюсти констант) исчерпывается распределениями следующих трех типов (далее лг (Z) = е-/(/т/г!) и указаны функции распределения соответствую- щих .laKOiiOB); ' 0 при х<0, A^>(x) = т — 1 а>0; 2 яг(х~“) прих>0, л = 0 ' т — 1 Л<гпЧх) = У, гс. (( к |а) при х sg 0, г=о а>0; 1 при х д> 0, /1! — 1 A<m)(x) = У, (е~Л), —оо<х<оо. г = 0 Установлены необходимые и достаточные условия, которые следует наложить на функцию распределения F (х), чтобы распределение случайной величи- ны X\n_m+1) сходилось при п->оо к одному из указанных предельных распределений. Аналогично, три возможных типа предельных распределений для т-го минимального члена Х(т) имеют соответственно вид Л{"г)(х) = m— I 1— У, (! х (-“) прн х<0, г=о ' ос>0; I при х > О, Л<«>(х) = О при х < О, п; — 1 а > 0; 1 — У, (ха) при х > 0, г = 0 > tn — I (х) == 1 — У, (е-*), —оо < х < со. , г = 0 В заключение рассмотрим важный случай, когда удается найти явный вид функции (/), а тем самым и получить предельное распределение случайной величины , Пусть X (е) = Г (I, 1). Это распределение задается плотностью > (х) = е х, х>0, или функцией распределения Г(х) = 1—х>0, и называется экспоненциальным распределением. Здесь, очевидно, = — 1п(1 t), 0<Z<i, н из соотношения (1.26) имеем Х(л_от+1) = 1пп — 1пт]п. Отсюда ио теореме 1.8 е-* т— 1 taTnr^d/= В г = 0 Таким образом, в данном случае X (^(Я-Я>+1)'~^П n) ^т). 26
§1.5. Распределения некоторых функции от нормальных случайных величин В этом параграфе будут введены и рассмот- рены распределения, играющие важную роль в решении различных задач математической статистики. Здесь изучаются распределения функций ф(Х) специального вида от выборки X = (Xlt ..., Х„) из заданного распределения Распределение случайной вели- чины ф = ф (X) удается вычислить в явном виде в редких случаях. Исключением является случай, когда X (£) — нормальное распре- деление; тогда соответствующее распределение можно найти для широкого класса функций ф(Х). С другой стороны, нормальное распределение часто используют в прикладных исследованиях в качестве математической модели изучаемых явлений. Поэтому нормальная модель выделяется среди других статистических моделей и ее исследованию уделяется в математической статистике особое внимание. Примеры решения различных статистических задач для нормальных моделей будут неоднократно встречаться в последующем изложении. Здесь же приводятся некоторые результаты для этой модели, которые будут использоваться в дальнейшем. 1. Распределение хи-квадрат. Среди семейства гамма-распреде- лений (см. табл. В.1) выделим распределение Г (2, и/2), которое называют распределением хи-квадрат с п степенями свободы и обозначают %2(п). Соответствующую случайную величину усло- вимся обозначать символом х2- Таким образом, X (х2) = х2 («) = = Г(2, п/2); соответствующую плотность обозначим через kn(x). Она имеет вид k„ (х) = —--------е-^, 7 2л-гГ(п/2) х>0. (1-27) Соответствующая этой плотности характеристическая функция С уЯ/2-l р-х/2 . <р (/; п) = Ee"z2 = I ------------dx =------Ц--. (1.28) J 2п/2Г(п/2) (1— 2it)n/i v ’ Отсюда получаем первые два момента: Ex2 = (Ui) Ф' (0; n) = n, D/2 = ф" (0; n)/i2 - (Ex2)2 = 2и. (1.29) Важным свойством распределения хи-квадрат является его воспроизводимость по параметру п, которое означает, что сумма независимых случайных величин, распределенных по закону хн-квадрат, распределена также по закону хи-квадрат с числом степеней свободы, равным сумме степеней свободы слагаемых. Действительно, если Xi и Ха независимы и X (х£) = х2 («*)> Л = 1,2, то в силу соотношения (1.28) Ее« (XI+XD = ф ф (/; П2) = = ф у- П1 + п2)( т. е. <5?(Xt + xl) = Z2(«i + »2)- 27
Замечание. Имеет место более общее утверждение: распределение Г (9, X) воспроизводимо по параметру X. Таким образом, если (х2) = х2(и), то случайную величину %2 можно представить в виде х2 = х< +• • -+Хл. где случайные вели- чины уд., 6 = 1, .... п, независимы и Jf(xj) =х®(1). Но 6i(x) [см. формулу (1.27)] совпадает с плотностью распределения слу- чайной величины с2, если X (£) = ®/Г (0, 1). В самом деле, (х) -О при л-<0, при х>0 (х) = Р(;2^х)=Р(-/х^^/х) = Ф(/х)-Ф(-ГД fa W (х) = Ф’ (Их)/(2/х) + ф'(-/х)/(2/х) = 6Х (X). Таким образом, сумма квадратов п независимых нормальных 1) случайных величин имеет распределение у?(п). Приме- нительно к статистическим задачам этот результат можно сфор- мулировать следующим образом. Лемма 1.1. Пусть X=(Xi,..., Хп) — выборка из X Q) = ^/-’(0, 1). Т огда % (А\ +•. • + Xi) = Х! 00- В дальнейшем понадобится одно важное обобщение распреде- ления хи-квадрат. Рассмотрим независимые случайные величины Ль •••> Лл> где X (т),) = (рй 1), i = l, .... п. По лемме 1.1 сумма Л S (г]; — В;)2 имеет распределение у2 (/i). Однако бывает необходимо < = 1 знать распределение суммы квадратов самих случайных величин т),-. Распределение случайной величины t/2 = т}»-]-...4-т]А называют нецентральным распределением хи-квадрат с п степенями свободы и параметром нецентральности X2 = |44-...-|-jJ>i и обозначают символом х2(л; №) X (иг) — у^(п\ V). Плотность 6я(г, X2) этого распределения имеет вид 6л(х;?Л)=’^^е-^ + ^2 У -------------, х>0, (1.30) * ^р‘2Ш'(п1Ч + д v а первые два момента соответственно равны: Е{/2 = /г + 12, Df/2 = 2(n4-2X2). Если параметр 12 = 0, то х2(ч; Х2) = х2(я), т. е. нецентральное распределение хи-квадрат переходит в обычное (центральное) распределение хи-квадрат. 2. Квадратичные и линейные формы от нормальных случайных величин. Пусть Х = (ХЪ ..., Ха) — выборка из X (;) = (0, 1). п Рассмотрим квадратичную форму Q= = Х'АХ, где 28
п матрица A = |ayJ" и А'=А*, и т линейных форм i=l fe=l, .... m, или в матричных обозначениях t = BX. Здесь В— прямоугольная матрица порядка mxti, a t = (£b .... tm). Далее будем обозначать через О матрицу с нулевыми элементами и через Ел —единичную матрицу порядка п. Следующая лемма дает условие незавнснмости случайных функций Q и t Лемма 1.2. Если ВА = О, то функции Q и t независимы. □ Матрица А действительна и симметрична, поэтому можно найти такую ортогональную матрицу U (т. е. U-U' = En), что U’AU = D. Здесь D— диагональная матрица с элементами X,-2s0, i = l, .... п, являющимися характеристическими числами матри- цы А, т. е. корнями характеристического уравнения det (А — ХЕ„)= = 0. Столбцами uft матрицы U = |Ui... u„ | являются собственные векторы матрицы А, т, е. Auft = Xftu*, &=1, п. Пусть г —ранг матрицы А и Xi, .... Хг — отличные от О харак- теристические числа. Эквивалентной формой записи A = UDU' (1.31) является спектральное представление матрицы А: А = У, XAuftUfe. (1.32) k = i По условию леммы, О = ВА= 2 Умножим это равенство на вектор u.s справа. В силу ортогональ- ности векторов и;(«^ = 0 при k=/=s) получим Bus = 0, s=l, .... г. (1.33) Рассмотрим теперь случайный вектор (Л, ..., tm, uJX, ..., иД). Этот вектор распределен по нормальному закону, поскольку пред- ставляет собой линейное преобразование нормального вектора X. В то же время из представления (1.32) имеем Q= 2 2 *=1 следовательно, утверждение будет доказано, если показать, что cov(t<, UsX) = 0, t = l, ..., nr, s=l, ..., г (отсюда следует неза- висимость ti и UsX). Обозначая через Ь'< строки матрицы В (i = * При матричных преобразованиях векторы понимают как вектор-столбцы; знак ' означает транспонирование. 29
= 1......т), в силу соотношений (1.33) имеем cov (th u'X)=cov(b-X, u'X) = E(b<Xu;X)-E(b;X)E(u,'X) = = Е (b'XX Ч) = b<E (XX') щ = Ь'Елщ = 0. Здесь и в дальнейшем под математическим ожиданием матрицы составленной из случайных величин, понимаем равенство Е | £, J = Рассмотрим две квадратичные формы: Qi = X'AX и(?2 = Х'ВХ. Лемма 1.3. Если АВ = ВА = 0, то Qx и Q2 независимы. □ Пусть для матрицы А справедливо представление (1.32), а спектральное представление матрицы В имеет вид S B = S viv«v/> s = rangB. i = i По условию, 0 = АВ = 2 (иЧ) vj. Умножив это равенство k, i слева на и^, а справа на vy, получим u'v/ = 0, i = 1, .... г, j — = 1, ..., s, т. е. векторы цг ортогональны всем векторам ху. Отсюда, как и выше, имеем, что случайные величины ujX и vf'X не коррелированы, а так как они совместно нормально распреде- г S лены, то и независимы. Но Qi = У Х/Ди^Х)2, Q2 = 2 y(vJX)2, k=i /=1 откуда следует их независимость. 3. Распределения квадратичных форм от нормальных случай- ных величин. Обозначим через trA след квадратной матрицы А, т. е. сумму ее диагональных элементов. Имеет место следующее утверждение. Лемма 1.4. Пусть Q = X'AX и rang Х = г^ п. Если матрица А идемпотентна то X (Q) = (г) и при этом г = tr А. □ Пусть для А справедливо представление (1.32); тогда из условий симметричности и идемпотентности А следует, что Г X1 = ... = kr= 1 и поэтому Q= 2 (UftX)2. Из ортонормированностн k = 1 векторов и* следует, что случайные величины щХ, & = 1, ..., г, независимы и нормальны ®^(0, 1); следовательно, X (Q) = х2 (г)< Наконец, используя легко проверяемое равенство tr (АВ) =tr(BA), из формулы (1.31) находим trA = tr(U'UD) = trD=Z1-'i-... + Zr = r. Отметим как следствие предыдущих результатов утверждение, представляющее самостоятельный интерес. Теорема 1.9. Пусть п-мерный случайный вектор Y имеет невы- рожденное нормальное распределение ©/'"(р, S). Тогда квадратич- ная форма Q = (Y — р)' (Y — р) распределена по закону х2(п). □ Пусть U — ортогональная матрица, приводящая S к диаго- нальному виду: U'SU = D. По условию все диагональные эле- менты матрицы D положительны, поэтому определена матрица 30
D-V2 — диагональная матрица g диагональными элементами Х“1/2. Рассмотрим вектор Z = D~1/2U'(Y — p.). Используя известный факт, что если X (Y) = @4^ (ц, 2) и V = LY, где L —заданная матрица линейного преобразования, то X (V) = (Lp, LSL'), имеем (Z) = &F (О, Ел). Далее, Y — p = UD‘/2Z; следовательно, Q = Z'D^U'S-iUD^Z = Z'E„Z = Z'Z. Применяя лемму 1.4 (или лемму 1.1), получаем X (Q) = y? (п). Докажем теперь следующее важное утверждение выборочной теории, принадлежащее Р. Фишеру (1925 г.). Теорема 1.10. Пусть X —(Хъ .... X — выборка из распреде- п ления е^*(р, а2). Тогда выборочные среднее .? = (!/») У} X, и дис- , = 1 п Персия S2 = S2(X) = (l/n) У, (Xi — X)2 независимы; при этом i=i = (О, I), a J?(п5г/ст2) =--//(;i-1). □ Перейдем к новым случайным величинам У, = (Хг — ц)/ст, i = п, которые образуют выборку Y из а/'*(0, 1). Тогда У = (X — ц)/ст и S2 (Y) = (1 /ст2) S2 (X). Поэтому достаточно доказать, что У и S2(Y) независимы и при этом F)=sZ(0, l)t X (nS2 (Y)) = x2 (n~ !)• Рассмотрим n-мериый вектор-столбец b = = (l/n, ..., 1/п)Д и матрицу B = |b...b||, размер которой пХи. Заметим, что У = Ь'У, a nS2(Y) = (Y — BY)' (Y — BY). Отсюда nS2 (Y) — Y'AY, где матрица A = E„ —В идемпотентна. Теперь Ь'А = Ь' — Ь'В = Ь' — Ь' =0 и, следовательно, по лемме 1.2, У и S2 (Y) независимы. __ Закон распределения У очевиден, а так как tr А = tr En — tr В = = n—1, то на основании леммы 1.4 ^(nS2(Y)) —х2(n —1). 4. Распределение Стыодента. По определению распределением Стыодента с п степенями свободы S (п) называется распределение случайной величины t = (1.34) где случайные величины % и х2 независимы и при этом X ( £,)= = ^(0, 1), X (%2) = х2 («)• Иногда это распределение называют [-распределением. Плотность sn (х) распределения S (п) можно найти с помощью стандартного метода вычисления плотности распреде- ления частного двух независимых случайных величин. Именно: пусть £ и ц — независимые случайные величины G плотностями Д и соответственно. Тогда Лл»(г) = 55 h(x)f^(y)<ix<ly = {X, г} 0 со = \ (\-Fi(zyy)f^(y)dy-x-\Fl(zy)fn(y)6y. (1.35) — оо О 31
Дифференцируя обе части равенства, получаем fs/n(z)= $ f- (*У) (у) i У ! df/. (1.36) — оо Если то, очевидно, Fl)(y)==0 при у<0; Fn(y) = = Р(У'^!п^у) = Р (72^ny2) = F^(ny2) при у 5s 0 и /ч = dy F*2 = 2пу^2 (”№ (1 -37) Полагая в (1.36) X (£) = @^(0, 1), t] = и учитывая соотно- шения (1.37) и (1.27), нетрудно показать, что плотность распре- деления Стьюдента имеет вид , . 1 г ((п+1)/2) 1 оо. 5Л (х) = ——— ---------------..... — оо<х<оэ. (1.38) ' ’ } г (rt/2) (1 + х«,'л)1"’1,/2 v ’ Типичную статистическую ситуацию, где имеет место распре- деление Стьюдента, выражает следующая теорема. Теорема 1.11. Пусть X = (Xlt , Хп) —выборка из (р, о2) и (1.39) О где X и 8г — как обычно, выборочные среднее и дисперсия. Тогда при любом ст2 > 0 Jf(0 = S(n-l). Эта теорема —очевидное следствие теоремы 1.10 и определения распределения Стьюдента. Тот факт, что определенная соотношением (1.39) дробь t и ее распределение не зависят от параметра ст2, используют при полу- чении различных статистических выводов о среднем нормального распределения, когда дисперсия также неизвестна, т. е. является «мешающим» параметром. Подробнее об этом будет идти речь в соответствующих разделах (см. примеры 2.30, 4.13). В некоторых рассмотренных далее задачах бывает необходимо исключить влияние не только дисперсии ст2 распределения ®^(р, ст2) (как это делают в соответствии с теоремой 1.11), но также и среднего р. В этом случае можно делать статистические выводы, не зависящие от параметров р и ст2, т. е. являющиеся инвариант- ными относительно параметров модели. В таких задачах большую роль играет следующее утверждение. Теорема 1.12. Пусть X = (Xi, ..., Хп) и Y = (/i, ..., Уш) — две независимые выборки_ из одного и того же распределения (у., ст2); X, S2(X) и Y, S2 (У) —соответствующие выборочные средние и дисперсии и пусть t _ 1Лтп (пг + п — 2) X — Y (1.40) ~ У т+п /пЗ2 (X) + mS2 (V) * Тогда при любых р и ст2>0 X (!) =S (m-j-n —2). 32
□ По теореме 1.10, (0, -1'), —к \ о у \ * п / \ в / \ ’ т) X S2 (X)) = t (П -1X {> S2 (Y)) = X2 (rn - 1). В силу независимости выборок отсюда имеем: м / X И \ yza f р. 1 , 1\ ор /1 /" МП X Y \ Zz= /Л ч х\—й + ж)или *(V(°- ’)> X [nS2 (X) + mS2 (Y)]) = хг (»! + п - 2), при этом случайные величины X — Y и nS2(X) + /nS2(Y) независимы. Следовательно, в данном случае отношение t имеет вид (1.40). Замечание. Теорема 1.12 допускает обобщение на случай, когда неза- висимые выборки X и Y принадлежат нормальным распределениям с разными математическими ожиданиями Щ и ц2 и одинаковыми дисперсиями. В этом случае вместо стьюдентова отношения (1.40) следует ввести величину f п/~гоп (т + п —2) (X —ц,) —(У—ц2) 41 Г т + п у nS- (X) + mS2(V)‘ Очевидно, что X (X — g]) = X (0, п2/п), X (К — р2) = Х (0, а2/т) и для центри- рованных выборок (Хг—цр ..., Хп — р.г) и (Ki — и.,, ..., Y т — pj выполнены условия теоремы 1.12. Отсюда получаем, что X (f) =S (п+т- 2) при любых рг, р2 и оа>0. 5. Распределение Снедекора. Пусть случайные величины хТ ИХ1 независимы и X (х*) — х2 («г), i — 1, 2. Рассмотрим отношение р=Л1 .7.1 =”1"Х? «1 ‘ п.> щ XS (1-42) Распределение случайной величины F называют распределением Снедекора с щ и п2 степенями свободы и обозначают S (щ, п2). Иногда это распределение называют F-распределением или распре- делением дисперсионного отношения Фишера. Плотность fni, Пг (х) распределения S (пь п2) можно найтй обыч- ным методом. Используя формулы (1.36) и (1.27), после неслож- ных преобразований получаем СО оо fm. пг (х) = $ (ху) /Х|М2 (у) I у I dy = J (njxy) л2/Х2 (л2у)уdy == — оэ 0 /^/2 гд^+^/г) х”172"1 r_ п п 4~ [nJ Г (Л1/2) Г (п2/2) (1 +п1Х/п2)^ + п^ ' • ( ‘ ' Роль F-распределения в выборочной теории в определенной степени раскрывает следующее важное утверждение. Теорема 1.13. Пусть Х = (ХЪ ..., Хп) и Y = (V1, .... Ут)— независимые выборки из распределений @F*(pi, а|) и @^(р2, н!), S2(X) и S2 (X) — соответствующие выборочные дисперсии. Тогда 2 Заказ № 1054 33
отношение F n(m-l)o?S2(X) ,. 44. m(n-l)oj S2(Y) 7 при любых |ij, р2, fi и распределено по закону Снедекора с л —1 и пг — 1 степенями свободы. □ По теореме 1.10, <5? ((л/ст|) S2(X))==x2(«— 1), <5?((/n/ai)S2(Y))= ~7,2(т— 1) и S2(X) и S2(Y) независимы по условию. Поэтому формула (1.42) в данном случае имеет вид (1.44). С применениями этой теоремы мы встретимся в § 2.6 и гл. 5. Задачи 1. Пусть (—0,8; 2,9; 4,4; —5,6; 1,1; —3,2) — наблюдавшиеся значения слу- чайной величины. Построить соответствующую эмпирическую функцию распре- деления Fe (х) и проверить, что Fe(—5)=1/6, Fe (0) = 1/2, Fe (4) = 5/6. 2. В эксперименте наблюдалась целочисленная случайная величина Соответствующие выборочные значения оказались равными (3, 0, 4, 3, 6, 0, 3, I). Построить эмпирическую функцию распределения Fe(x) и проверить, что fe(l) = 3/8, Гв(3) = 3/4, fe(5) = 7/8. 3. Вычислить для данных задач 1 и 2 наблюдавшиеся значения выбороч- ных средних и дисперсий. 4. Проводились опыты с бросанием одновременно 12 игральных костей. Наблюдаемую случайную величину £ брали равной числу костей, на которых выпадало 4, 5 или 6 очков. Пусть hi—число опытов, в которых наблюдалось значение g=i (i=0, 1, ..., 12). Данные для п = 4096 опытов приведены в сле- дующей таблице [9, с.38]: 0123 4 5 6 7 89 10 II 12 Всего hi 0 7 60 198 430 731 948 847 536 257 71 И 0 п = 4096 Взяв в Качестве интервале® Д, = (1—1/2, t-|-l/2), i=0, I, .... 12, построить гистограмму и полигон частот и вычислить выборочные среднее и дисперсию, а также выборочные коэффициенты асимметрии и эксцесса. В. Принимая в задаче 4 X (g) = Bi (12, 1/2), оценить вероятность Р (IA1— «11 =«=6), где 6—вычисленное по указанным данным отклонение вы- борочного среднего от теоретического. Указание. Воспользоваться теоре- мой 1.6 и соотношением (1.20). Ответ. 2Ф (3,7)— 1 =0,99978. 6. Вывести формулу для ковариации выборочных моментов: cov (Anh,Ans) = = («ft+.v—<WXs)/n. 7. Доказать, что cov (X, S2) = (n—1)Щ/п2 для выборки объема п. 8. Доказать, что совместная функция распределения двух порядковых статистик Х(г, и Х(5., (I sgr <s=g:n) при х <у имеет вид п п — i i=r j— max (0, s —1) И при X>:y Frs(*> y)= Fs(y) (здесь Fs (у) —функция распределения для Х(Л1). Показать также, чтс если распределение F (х) абсолютно непрерывно, то совместная плотность распреде- 34
ления случайных величии Xtr, и Х13> равна (х, У) = (7-_l)t(s_fll)I(n_s)I (х) f (X) [F (у)—F (X)P-~X x/(v) [1—F(y)]'‘-^, x^y. 9. Доказать, что совместная плотность всех порядковых статистик Х(1), ...» Х1П1 выборки объема л из абсолютно непрерывного распределения с плотностью f (х) равна , . / n\f(x\)...f(xn) при х1<х2<...<хП1 ё \Хц • • • > Хп) — < I 0 в остальных случаях. 10. Доказать, что при выполнении условий теоремы 1.7 совместное рас- пределение двух выборочных квантилей Zapi и Zapt (Pi<pa) асимптотически нормально со средними £ра) и вторыми моментами Но^/лЦ, где = = рг(1-р/)/[/(^У(еР/.)]. i^i- 11. Доказать, что для абсолютно непрерывного распределения F (х) край- ние порядковые статистики Х(г) и Х[л_^+1> при л->со и фиксированных г, s3=l асимптотически независимы. Указание. Перейти к случайным величинам x„ = nF (Х(л) и т]л=л [I — F (Х1л_^+1))] и воспользоваться резуль- татом задачи 8. 12. Пусть Хф ^Х!2| -g... -g Х|л| — вариационный ряд выборки из экспо- ненциального распределения с плотностью /(х) = е~х, х>0. Доказать, что случайные величины Уг = (л—г4-1) (X,n—Х(/._,)), г=|, ..., л, Хв=0, неза- висимы и одинаково распределены с плотностью / (х). Получить отсюда формулу ех(А)= 5 1//. J = П — k -р I Указание. Записать совместную плотность распределения величин Х,„, {п 1 — 2 X/-L 0 -< хх -< х2 ...<хл < оо, в виде r = i J [ п 1 л!ехр1 — У, (л —r+ 1) (хг — хг1П и показать, что I r = l J Р(УГЭ=<Г> Г=1..........«)=ТГ и е~УгдУг- ' = 1 !Jr>tr 13. Пусть Х = (Х1, .... Хл) — выборка нз равномерного на отрезке [а, Ь] распределения. Показать, что совместная плотность распределения экстремаль- ных значений выборки Х(1) и Х,л, имеет вид <р(х. У>=\£П~а^У-х')п''2’ а^х^У^Ь. Получить отсюда, что ЕХ,1, = {па+Ь)Цп 4-1), ЕХ(Д) = (nb+а)/{п + 1), DX[t) = DX(ra) = л (& + О2 cov (Х(1„ Х,„,) = (& 4-1)2 0 -Al- li Доказать, что если ^(g) = S(n), то моменты существуют при k < п и равны E£2fe =___1 -3...(2^-1)п& 2Й < л, Е^*+1=0, 2k 4-1 < п. (л—2)(п — 4) ...(л — 2k) 36 2»
15. Доказать, что если X (/2) = х2 (га), то при я-»-со 1). \ ^2п ) Указание. Воспользоваться свойством воспроизводимости и применить центральную предельную теорему. 16. Доказать, что если Z (i) = S(n) и Р (g х) = S„ (х), то lim 5л(х) = Ф(х), lim s„ (х) = Ф '(х) =—L= е—2:5/2 л -»со п-*оо У 2л * 17. Говорят, что вектор v=(vp ..., с целочисленными неотрицатель- ными компонентами, удовлетворяющими условию ..-|-vJV=n, имеет поли- номиальное или мультиномиальное распределение с параметрами я и р == = (рР .... рЛ.) (обозначается X <у)=М (я, р)), если для h=(/ij....ЛА) _ , ,, я! й, Л v , P(v = h) = y--!: ^p/...р/, ftj + ... + /iA, = n. а) Показать, что производящая функция для (v,, .... v*), k^N, имеет вид Е (х^...х^)=^+р,-(хг—!) ; N б) найти производящую функцию линейной комбинации У, ср/р, г = 1 в) вывести следующие формулы для моментов: Е 0н)А = WkPi > и вообще- E((vi)v -(MijV)=n(fc1 + pN,, где (г)а—2 (г— 1)... (г — а+ 1), (г)0= 1. Получить отсюда, что , ч ( ftpi(.l-pi) при * = /, COV(V, , V/)={ I — npjPj при t^r, n n r) пусть n=c1v14-...+cJvvJV, e= 2 еда, o2= 2 cfa — f2. Показать, (=1 T=1 что Ет|=ся, Drj=<r2n; д) найти совместную производящую функцию двух линейных комбинаций .V .V »], = У c;Vj а,т]2= J] djVi и вычислить с ее помощью cov (qt, т]2). «=1 3=1
Глава Оценивание неизвестных параметров распределений В настоящей главе в рамках произвольной парамет- рической статистической модели излагаются некото- рые вопросы теории оценок неизвестных парамет- ров модели и функций от них. Рассматриваются два традиционных подхода к решению этих задач: точеч- ное и интервальное оценивание (более общо — оце- нивание с помощью доверительных множеств). При изложении теории точечного оценивания в основном рассматриваются несмещенные оценки и за меру точности различных оценок принимается величина их дисперсии. Основное внимание уделяется мето- дам построения оптимальных оценок, при этом рес- сматриваются случаи как скалярного, так и вектор- ного параметра. Излагаются различные подходы для построения доверительных интервалов и доверитель- ных множеств, в том числе принцип отношения прав- доподобия— один из наиболее универсальных со- временных принципов решения многих статистиче- ских задач. § 2.1. Статистические оценки и общие требования к ним. Несмещенные оценки с минимальной дисперсией 1. Понятие статистической оценки. Это поня- тие уже встречалось в гл. 1. Так, говорилось, что значение эмпи- рической функции распределения в каждой точке можно рассмат- ривать в качестве оценки для значения в этой точке теоретической функции распределения, а различные выборочные характеристики (моменты, квантили и т. д.) —как оценки соответствующих тео-‘ ретических характеристик. При этом использование термина «оценка» обосновывалось тем, что для выборок большого объема значительная разница между значениями реализаций выборочных характеристик и значениями соответствующих теоретических ха- рактеристик маловероятна, и поэтому разумно (по крайней мере для больших выборок) принять выборочную характеристику за приближенное значение соответствующей теоретической характе- ристики, когда последняя неизвестна. Таким образом, в этот тер- мин вкладывался определенный асимптотический смысл. В то же время в случае применения статистической теории на практике 37
часто приходится строить приближенные значения для различных неизвестных теоретических характеристик изучаемой модели при любых объемах выборки, в том числе и ограниченных, н при этом обосновывать соответствующие рекомендации с точки зрения ка- ких-либо критериев оптимальности. Общие методы решения по- добных задай развиты в теории оценивания неизвестных парамет- ров распределений, которой и посвящена настоящая глава. Дальнейший анализ проводится в рамках произвольной пара- метрической статистической модели lJr — {F(x; 6), бе©}, соот- ветствующей схеме повторных независимых наблюдений над неко- торой случайной величиной При этом на модель eF по мере необходимости накладываются условия регулярности, обеспечи- вающие справедливость соответствующих утверждений и выводов. Пусть имеется выборка X = (Xi, ..., Х„) из распределения Таким образом, априорная информация о наблюдаемой случайной величине Е. состоит в том, что ее функция распределе- ния F (х; 9) является элементом заданного параметрического семей- ства функций распределения (т. е. имеет известную функцио- нальную форму, ио зависит от неизвестного параметра 9, который может быть любой точкой заданного параметрического множе- ства ©). В общем виде задача оценивания формулируется так: используя статистическую информацию, доставляемую выборкой X, сделать статистические выводы об истинном значении 6° неизвест- ного параметра 9, т. е. оценить точку 8°. Введем следующее общее понятие: статистикой называется всякая случайная величина, являющаяся функцией лишь от выборки X. При точечном оценивании ищут статистику Т = Т (X), значение которой при заданной реализации х = .., хп) выборки X при- нимают за приближенное значение параметра 6°. В этом случае говорят, что статистика Т(X) оценивает 9 или что статистика Т(Х) есть оценка 9. Обычно (но не всегда!) область значений оценки Т совпадает с 0. Интуитивно ясно, что для оценивания 6 можно использовать различные оценки, и чтобы выбрать лучшую из них, надо иметь критерий сравнения качества оценок. В свою очередь, и критерии могут быть разными в зависимости от целей, для которых строится оценка, но любой критерий определяется выбором меры близости оценки к истинному значению оцениваемого параметра. Кроме того, обычно класс рассматриваемых оценок ограничивают неко- торыми требованиями. Таким образом, если определен класс рас- сматриваемых в данной ситуации (для данной модели) оценок и выбрана мера близости, то, по определению, оценка, минимизи- рующая меру близости, является оптимальной в этом классе. Ниже рассмотрен один из вариантов этих общих положений, чаще всего применяемый в приложениях. 2. Несмещенные оценки. Любая оценка Т= Т(Х) является слу- чайной величиной, поэтому общим требованием к построению оценок является требование концентрации (в том или ином смысле) 38
распределения Т около истинного значения оцениваемого пара» метра. Чем выше степень этой концентрации, тем лучше соответ^ ствующая оценка. Предположим, что параметр б—скалярный, и введем понятие несмещенной оценки. По определению, статистика Т(Х) называется несмещенной оценкой для параметра б, если выполняется условие ЕеТ(Х) = 6, V6<=0. (2.1) Для оценок, не удовлетворяющих условию (2.1), можно ввести величину Ь(9) = ЕеТ(Х) - б, называемую смещением оценки Т (X). Таким образом, можно также считать, что несмещенные оценки — это такие оценки, для кото- рых смещение b (б) — О, V6 е 0. Величину Ee(T-6)2 = D0T+&2(6) (2.2) называют средним квадратом ошибки или среднеквадратической ошибкой оценки Т. Для несмещенных оценок среднеквадратиче- ская ошибка совпадает с дисперсией оценки. Иногда требуется оценить не сам параметр б, а некоторую функцию от него т(б) (такие функции называют параметриче- скими). В этом случае статистика Т = Т (X) является несмещенной оценкой для т(б), если выполняется соотношение ЕеТ^-тСб), V6e0. (2.3) Часто ограничиваются рассмотрением класса несмещенных оценок. Это исходное требование интуитивно привлекательно: оно означает, что по крайней мере «в среднем» используемая оценка приводит к желаемому результату. К тому же, как это будет показано далее, для класса несмещенных оценок можно построить достаточно простую н практически полезную теорию, в которой критерием измерения концентрации (точности) оценки является ее дисперсия. Однако не следует и преувеличивать значение понятия несме- щенности: в некоторых случаях требование несмещенности может оказаться слишком «жестким» и привести к нежелательным резуль- татам. Так, может оказаться, что несмещенные оценки (в данной модели и для данной параметрической функции) вообще не су- ществуют, а в других случаях хотя и имеются, ио практически бесполезны. Проиллюстрируем эти положения примерами. Пример 2.1 (пуассоновская модель, оценивание параметрической функции). Пусть ^(ё)еП(б) и п= 1, т. е. производится одно наблюдение X над пуассоновской случайной величиной. Требуется оценить параметрическую функцию г (9) = 1/6. 39
Если Т (X) — несмещенная оценка т(9), то условие (2.3) при- нимает вид VG<=(0, со), или х=0 ОС ОО -t . 2т(х)^ = ее=2£, V6 е (0, со). ‘ < х=0 г=0 Очевидно, что функция Т (х), удовлетворяющая последнему усло- вию и ие зависящая от 6, как это требуется в соответствии с определением понятия оценки, не существует, т. е. в данном случае несмещенных оценок для т(6) вообще нет. Пример 2.2 (отрицательная биномиальная модель, оценивание параметра). Пусть X (£) е Bi (1, 9) п ц_=1. Требуется оцепить параметр 9. В данном случае условие несмещенности (2.1) эквивалентно условию со со ч 2 2 6Г. V6e(0, 1). х=0 г=1 Приравнивая коэффициенты при одинаковых степенях 9, получаем, что единственной несмещенной оценкой в данном случае является / (О при Х = О, статистика Т(Х) — 1 Но значения этой статистики ( 1 при Х?о 1. вообще не принадлежат параметрическому множеству €> = (0,1) дайной модели, поэтому такая оценка практически бесполезна. Эти примеры показывают, что ие всегда надо ограничиваться рассмотрением только несмещенных оценок. Иногда, как показы- вает следующий пример, оценка с малым смещением и малой среднеквадратической ошибкой предпочтительнее несмещенной оценки с большой дисперсией. Пример 2.3 (общая нормальная модель, оценивание дисперсии). Пусть Х = (Х1, ..., Хп), п >= 2, — выборка из &Г(61, 9|). Оценим функцию т(9)=т(б!, 93) = 9i Из (1.14) имеем, что если S2 = S2(X)— выборочная дисперсия, то Ее(52) = (/г— 1)9г//г. Отсюда следует, что несмещенной оценкой для 63 является статистика п _L У (Хг-Х)2. (2.4) п— 1 п— 1 1 = 1 При этом по теореме 1.10 5?‘(1ёГ5'2) = х2(/г"1)' 40
Отсюда и из (1.29) имеем DefclS'4 = 2(n-I), или Ds(S'2)=A. (2.5) \ U-> / “* * Ниже (см. § 2.2, п. 5) будет показано, что по критерию мини- мума дисперсии оценка S'’ является оптимальной среди всех не- смещенных оценок функции т(9) = 91 в модели ©<T(9i, 91), т. е. что ее дисперсия (2.5) меньше дисперсии любой другой несме- щенной оценки величины 9.;. Рассмотрим теперь класс опенок вида Ti = iS's. Так как Es7\ = AEs(S's) = AS.®, то в этом классе имеется лишь единствен- ная несмещенная оценка т(й), соответствующая значению Х=1, т. е. оценка S'". Вычислим средиеквадратическую ошибку произвольной оценки7\: Е3 (7\ - 9|)2 = Eg [X(S'2 - 90 + (X - 1) 903 = X2D5 (S'2) + (X- I)2 6). Отсюда и из формулы (2.5) получим Es (Л - 9D2 = [~i + (^ - 1 )2] 61 = Ф (X) 91. Функция ф(Х) достигает минимума при X* = (п — l)/(n +1) и <р (Х*) = 2/(л + 1), откуда, учитывая соотношения (2.5), имеем Е5 (7> - 6;)2 = -2] 91 < -2_ 6’ = E5(S'2 - 90\ Таким образом, на основании критерия минимума среднеквадрати- п ческой ошибки при п^2 смещенная оценка 7\» — (Хг — X)2, i=i 2 смещение которой Е57+ — 61 = — 6.} мало при достаточно боль- шом объеме выборки п, лучше оценивает дисперсию 01 модели <^(9i, 9|), чем несмещенная оценка S'2, определяемая равен- ством (2.4). Этот пример показывает, что не может быть единственного критерия, по которому следует сравнивать все оценки, как не существует единственной оценки данного параметра, подходящей для всех случаев. 3. Оптимальные оценки. Требование несмещенности в силу сделанных выше замечаний нельзя рассматривать как универсаль- ное, тем не меиее во многих встречающихся на практике случаях оно уместно и обоснованно и далее в основном рассматриваются именно несмещенные оценки. Итак, пусть требуется оценить заданную параметрическую функцию т=т(9) в модели oF = {F(x; 0), 9 е <Э) по статистиче- ской информации, доставляемой соответствующей выборкой X = = (Хь ..., Х„). Предположим, что в данной задаче существуют несмещенные оценки, т. е. статистики Т = Т (X), удовлетворяю- щие условию (2.3). Обозначим класс всех несмещенных оценок 41
в данной задаче через <^х. Таким образом, Т тогда и только тогда, когда выполнено условие (2.3), Дополнительно предположим, что дисперсии всех оценок из класса х конечны: De7 = Ee(71 — т(6))2<оо, и V8 <= 0. В этом случае точность оценок можно измерять величиной их дисперсии, и мы получаем простой критерий сравнения различных оценок из класса &~х. Пусть Т* и Т —оценки из класса <&“х. Если Da7*^DeT, V9e0, ’ (2.6) то по критерию минимума дисперсии оценка Т* равномерно (по параметру 6) не хуже оценки Т; если же в (2.6) имеет место строгое неравенство хотя бы при одном 8, то следует отдать пред- почтение Т*, как более точной оценке. Если условие (2.6) выпол- няется для любой оценки Tes7't, то Т* называют несмещенной оценкой с равномерно минимальной дисперсией. Такую оценку Т* в дальнейшем для краткости будем называть оптимальной и иногда обозначать т*, чтобы подчеркнуть, что она относится к функ- ции т(6). Итак, оптимальной является оценка т*ееГг, для которой выполняется условие D0r* = inf D0T, V9 e 0. (2.7) Требование равномерной минимальности дисперсии сильное и не всегда имеет место. Может оказаться, что из двух оценок Tlt дисперсия DeTi минимальна (в классе оГх) для одних значений параметра 9, а дисперсия D0T2 — для других зна- чений 8. В таких случаях с помощью одного критерия минимума дисперсии эти оценки сравнить нельзя. Однако это требование выделяет оптимальную оценку в классе е?~х однозначно, если такая оценка существует, о чем свидетельствует следующая теорема. Теорема 2.1. Пусть Ti = Tj(X), i=l, 2, — две оптимальные оценки для % — т (9). Тогда Т1 = 7\* □ Рассмотрим новую оценку Т3 = (7\ 4- Гг)/2, Ясно, что Т3 S qT"t и De7’3 = (D0r1+D9r2 + 2cov0(7’1, Га))/4. (2.8) Для любых случайных величин т}8 имеет место неравенство Коши — Буняковского | (cov(ць *}г)! причем знак ра- венства имеет место только если гц и линейно связаны. Отсюда и из равенства (2.8), положив D9Ti = De7,2 = v = y (9), получим D0T3^(y + |cove(TI, T2)|)/2^v. (2.9) Поскольку Т; (i — 1, 2) — оптимальные оценки, и = ПвТ( ==£ DeT3, откуда D0r3 = », т. е. Т3 также оптимальная оценка. Но так как ---------- в * Здесь и далее равенство статистик понимается в том смысле, что Р0(Хе{х:71(х)^=Г2(х)()=О, V8 е= 0. 42
в неравенствах (2.9) имеют место знаки равенства, то cov0 (7\, Т2) >= SsO и, более того, cov0(713, T2) = DeT'l = v. Следовательно, Т\ и Tz линейно связаны, т. е. T1—kT2 + a. Из условия несмещен- ности оценок имеем x — kv-\-a, т. е. а — т(1 —А), и, следовательно, 7\ —т = А(Г2 —т). Здесь коэффициент k — k(9) —функция от пара- метра 9 определяется цепочкой равенств v = cove (Тъ Т2) = Е0 (7\ - т) (Т2 - т) = АЕе (Т2 - т)2 = kD6T2 = kv. Отсюда имеем k = l и, следовательно, Т1 — Тг. Приведем пример существования оптимальной оценки в кон- кретной модели. Пример 2.4 (бернуллиевская модель, оценивание параметра). Пусть Х = (Хх, ..., Хп) — выборка из X (g) е Bi (1, 6). Требуется оценить параметр 9. _ Здесь Е0Х; = 9, поэтому выборочное среднее X является не- смещенной оценкой 9. Более того, из результатов § 1.3 следует, что X сходится по вероятности при п->ео к оцениваемому пара- метру: X-S.9, V9 е (0, 1). Однако X не единственная несметен- п ная оценка 9. Например, всякая статистика Т ==^-,2 &Л ПРИ t=\ bi-\-...-\-ba=n также является несмещенной оценкой 9. При этом так как п i=i при max то, согласно неравенству Чебышева, _р0 „ i Т-М при п -> со и, таким образом, эти оценки так же «хороши», как и X. Итак, в данной задаче класс содержит много оценок, и поэтому возникает вопрос о выборе среди них наилучшей. Пока- жем, что в данном случае оптимальная оценка Т* существует и при этом Т* = Х. Имеем D0X = 9(1 — 6)/п, поэтому в соответствии с определением (2.7) достаточно показать, что для любой несме- щенной оценки Т=Т(Х) параметра 9 DeT>9(l-6)/n, V6«=(0, 1). (2.10) В данном случае распределение наблюдаемой случайной вели- чины £ таково: f(x; 9) = 9^(1 — б)1-*, х = 0, 1; следовательно, рас- пределение случайного вектора Х = (Хх, ..., Хя) задается вероят- ностями £(х; 9) = П/(х<; 6) = 62*Ч1-6)л-2;\ х = (хъ ..., х„). (2.11) »=1 Так как 1 ^SA(x; 6) и 9 = ЕеГ(Х) = 2]Т(х)£(х; 6), X X 43
то, дифференцируя эти тождества по 9, получаем n ydlnLfx; 6) , , с, „ /д In L (К: 6)\ J dfl ~ L b(K, j, К х 1=2/W—36—L<x; 0)=е9(7’(Х)----------- X Отсюда можно записать 1 = Ее[(Г(Х)-8)^1п^Х;-6)] и, согласно неравенству Коши — Буняковского, 1< Ее (Т (X) - 9)г Ее ( —)*. Но Ее (Т (X) - 9)2 * Ч * * * * = DеГ, поэтому из последнего неравенства сле- дует, что D9r^l/E0(^2^^y, V9e(0, 1). (2.12) В рассматриваемом случае [см. формулу (2.11)] п / П \ п Ч~ 2* - М -14 2<*- i—1 ' i = l' i -- 1 поэтому с /д In L (X; 6)\2 1 с [ v /V пЛ Ее\---Зё---J =(,'Ц1-6)‘9 2 (Л‘-0) = Ч = 1 J = ^DA=«(R- (2-13) Отсюда н из неравенства (2.12) получаем соотношение (2.10). Учитывая важность для приложений бернуллиевской модели В1(1, 9),» сформулируем доказанный результат в виде теоремы. Теорема 2.2. Относительная частота произвольного события в п независимых испытаниях является оптимальной оценкой для ве- роятности этого события. Как следствие этой теоремы отметим, что значение эмпириче- ской функции распределения в каждой точке х является опти- мальной оценкой для значения в этой точке теоретической функ- ции распределения (это значительное усиление результата тео- ремы 1.1). Докажем важное свойство оптимальных оценок. Теорема 2.3. Пусть Т* и — оптимальные оценки функций т1 = т1(6) и т2=т2(9) соответственно. Тогда статистика Т*.= = «1 Ti + а2Г* является оптимальной оценкой функции т = ani + а2т2 для любых постоянных аь а~2. * □ Установим сначала следующее свойство оптимальных оце- нок, представляющее самостоятельный интерес: для любой ста- 44
тистики -ф = т|з(Х) с E0if = O, V0 &0, выполняются равенства. cov0(7*, if) = 0, V© е 0. Для доказательства рассмотрим стати- стику Ti = Т* Лф. При любом X это несмещенная оценка для т,,' поэтому в силу оптимальности оценки Т* DefI = Den + 2i2D8i|> + 21cov0(7?) if)^D07?, V9 е 0. (2.14) Отсюда следует, что cov0(7*, if) = 0, V0, так как в противном случае при _ | cove (т*> Ч>) I cov8 (гр V) . | cove (т*’ t) | c°vfl Det Det Det D0t имеем D07i<D07*, что противоречит неравенству (2.14). Перейдем непосредственно к доказательству теоремы. Пусть Т — произвольная несмещенная оценка т. Тогда if = 7* —7 имеет нулевое математическое ожидание и, по предыдущему, О = alcove (7*, if) + a2 cov6 (7f, if) = cov0(7*, if) = = D07* — cov0 (7*, 7), t. e. D07* = cov0 (7*, 7)=СфОй7*О07 или D07* D07, V6. | § 2.2. Критерии оптимальности оценок, основанные на неравенстве Рао — Крамера и его обобщениях В этом и следующем параграфах будут рас- смотрены общие критерии существования оптимальных оценок и способы их нахождения. 1. Понятия функции правдоподобия, вклада выборки, функции информации. Пусть, как обычно, f(x; 5) —плотность распределе- ния наблюдаемой случайной величины £ (или вероятность в дис- кретном случае), Х = (ХЬ ..., Хп)—выборка из и х= = (Xi, ..., хл) —реализация X. Функция L(x; 6)-=f(xi; 6).../(х„; 6) является, очевидно, плотностью распределения случайного век- тора X. Функция L(x; в), рассматриваемая при фиксированном х как функция параметра 6 = 6, называется функцией правдопо- добия. В дальнейшем предполагается, что функция 7(х; 0)>О при всех xs.f и дифференцируема по параметру 9. Пусть параметр 6 —скалярный. Случайная величина п и (X; 0) = -д1п у; е) = 2 8)" (2-15) i = l называется вкладом (или функцией вклада) выборки X (t-e слагае- мое в правой части (2.15) называется вкладом i-eo наблюдения, i = l, ..., п). В дальнейшем предполагается, что 0<Eat72(X; 0)<со, V9e=0. 45
Для случая векторного параметра в = (81(.... ег) под вкладом выборки понимается случайный вектор (£/i(X; в), ..., 1Л(Х; в)), / t /V . д 111 (X» G) . , где €7<(Х; 8) =---£ г = 1, .... г. В последующем неоднократно придется дифференцировать по 9 интегралы от функций на выборочном пространстве -2’, а также предполагать, что при этом можно менять порядок интегрирова- ния и дифференцирования. Модели, для которых все перечислен- ные условия выполняются, обычно называют кратко регулярными. Точные аналитические условия, обеспечивающие регулярность модели, известны из математического анализа и вид нх опреде- ляется в каждом конкретном случае. Отметим, в частности, общее необходимое условие, состоящее в том, что выборочное простран- ство ЗГйб'Должно зависеть от неизвестного параметра 6. Рассмотрим некоторые свойства вклада U (X; 6) для регуляр- ных моделей. Всегда имеет место тождество (по в) J L (х; 6) dx s 1 (dx = d%i... dx„) (здесь и далее для дискретных моделей интегрирование заменя- ется суммированием). Если модель регулярна, то, дифференцируя это тождество по 6, получаем ° = |е) dx = J?ln^х; В>L(х; 9)dx = E0t/(X; 6). Таким образом, для регулярной модели Е0[/(Х; 9) = 0, V9«=0. (2.16) Определим теперь функцию информации Фишера, или просто ин- формацию Фишера о параметре 6, содержащуюся в выборке X: «.,(8) = D9t/(X; 6) = Е0[/2(Х; 6), (2.17) играющую важную роль в статистике. Величину i (6) = й(9) = Ее )2 (2.18) называют “также количеством (фишеровской) информации, содержа- щейся в одном наблюдении. Из соотношений (2.15) —(2.18) непо- средственно следует, что in(B) = ni(9), т. е. количество информа- ции, содержащейся в выборке, возрастает пропорционально объ- ему выборки. Если функция / (х; 6) дважды дифференцируема по 9, то, про- дифференцировав при п — 1 выражение (2.16) еще раз, получим эквивалентное представление для i (6): дг-'ПЦХ’-) f(x-, 9)dx+ j(dlny~)2Н^; 8Ж т. e. W) = -Ee(*ln^-e)). (2.19) Пример вычисления информации Фишера для бернулл^евской модели Bi (1, 9) имеется в §2.1 [формула (2.13)]; для этой модели I (6) =1/(6 (1-6)]. 46
Рассмотрим еде один пример вычисления функция I (6) для нормальной модели о2). Здесь вклад одного наблюдении IIIY . Э1п№ 6) _Xj-e 6)__ 1 v(Ai, о)— о2 , ас2 — а2* Отсюда по формуле (2.19) получаем [ (&)= 1/<А Вид функций (в) для некоторых моделей приведен в табл. 2.1. ' Таблица 2.1 Модель Ж (6, о2) (ц. ег) г <е, %) Ж" (е> | Bi (ft. 9) ПОД Bi (г, 0) i(6) 1/<Й 2/92 1/2 Мб (1-6)] 1/9 г/[6 (1-9)2] Приведем пример нерегулярной модели. Пусть X (|)€ёЯ (0, ®)- $ в _ С 1 , . f & 1 1 1 д п Здесь из тождества не следует, что I ^-'~fl-)d.v = 0, так как при дифференцировании интеграла по верхнему пределу появляется еде одно слагаемое. В данном случае причина нере- гулярности заключается в том, что выборочное пространство за- висит от неизвестного параметра 8. 2. Неравенство Рао — Крамера и эффективные оценки. Рас- смотрим задачу оценивания заданной параметрической функции т(6) в модели «Г = {F(x; 8), Предположим, что модель <>F регулярна, функция т(8) дифференцируема и пусть, как и выше, — класс всех несмещенных оценок т(8). Тогда имеет место следующее утверждение. Теорема 2.4 (неравенство Рао—Крамера). Для любой оценки Т —Т (X) е справедливо неравенство (2.20) Равенство здесь имеет место тогда и только тогда, когда Т — линейная функция вклада выборки, т. е. Т(Х)-т(8) = а(6)1/(Х; 8), где а (8)— некоторая функция от 8. □ По условию, (2-21> EeT(X) = JT(x)L(x; 8)dx = t(8), VQs=O. (2.22) Модель aF регулярна, поэтому, дифференцируя это тождество по б и учитывая (2.16), получаем т' (8) = J Т (х) д1п-УХ; 6) L (х; 8) dx = Ев (Т (X) U (X; 8)) = = со^(Г(Х), £/(X; 8)). (2.23) Используя неравенство Коши —Буняковского и определение (2.17), из этого соотношения получаем оценку sC in (6)DBT(X), 47
причем неравенство здесь обращается в равенство тогда й только тогда, когда (при каждом 9) Т (X) и U (X; 9) линейно связаны. Неравенство (2.20) называется неравенством Рао —Крамера. Оно определяет нижнюю границу дисперсий всех несмещенных оценок заданной параметрической функции т(В) для регулярных моделей. Замечание. Если Г = Г (X) —оценка со смещением й(8).Л1 функция Ь (0) дифференцируема, то, используя вместо соотношения (2.22) тождество j Т (х) L (х; в) dx=r (3) -f- b (б), с помощью аналогичных рассуждении можно установить неравенство (также называемое неравенством Рао—Крамера) ; пт>.[т' (в)+ 6' (в)]2 D0T>'-----Taj)---’ обобщающее (2.20). Если существует оценка T*eiFt, для которой нижняя гра- ница Рао —Крамера достигается, то ее называют эффективной. Эффективная оценка является оптимальной, и, согласно тео- реме 2.1, она единственна. Из теоремы 2.4 следует, что крите- рием эффективности оценки является представление (2.21). Будем называть этот критерий оптимальности оценки критерием Рао — Крамера. Если для оценки Т* выполнено соотношение (2.21), то из формулы (2.23) следует т. е. для дисперсии эффективной оценки справедлива формула DeT* = a(9)T'(9). (2.24) Отметим следующее обстоятельство. Вклад выборки U (X; 6) однозначно определяется моделью, поэтому представление (2.21) (когда оно, имеет место) единственно и, следовательно, эффектив- ная оценка может существовать только для одной определенной параметрической функции т (9) и не существует ни для какой другой функции параметра 6, отличной от от(9)-|-&, где а нЬ—~ константы. 3. Экспоненциальная модель. Введем важный класс парамет- рических моделей, называемых экспоненциальными, для которых всегда существует эффективная оценка некоторой параметрической функции. По определению, модель = {F(x; 6), 9 е 9} — экспо- ненциальная, если соответствующая функция f(x; 9) имеет вид f(x- 9) = expH(9)5(x) + C(9)-(-D(x)}. (2.25) Многие часто встречающиеся в приложениях модели удовлетво- ряют этому условию. В частности, это модели (В, о2), ®2)> Г (6, X), Bi(k, 9), П(В), Bi (г, S'), приведенные в табл. 2.1. Модель 49
Коши Ж (8), очевидно, не экспоненциальная, а равномерная’! модель. R (О, 9) хотя и удовлетворяет условию (2.25), но не яв- ляется регулярной. Вклад выборки для экспоненциальной модели равен п Г п t/(X; 5) = Л'(6) 2в(^) + ^'(9) = иЛ'(9) . t = l е = I Это равенство можно записать в виде (2.21), если положить п Т‘ = Г«(Х) = |2в(Х.>. тй—«(1).^, (2.2«) 4 = 1 Таким образом, для регулярной экспоненциальной модели еуще- ствует эффективная (а значит, и оптимальная) оценка Т* для параметрической функции т(6), где Т* и т(9) определены в (2.26). При этом согласно формулам (2.24) и (2.26) "W = <2.ЭТ> Верно и обратное утверждение: если элективная оценка для некоторой функции т(9) существует, то модель является экспо- ненциальной. Действительно, интегрируя по 0 равенство (2.21), получаем 1п£(Х; 9) = Д1(9)Т(Х)-ЬС1(9)-|-П1(Х). Отсюда следует, что функция f(x; 6) должна иметь вид (2.25). Таким образом, эффективные оценки существуют для некоторых функций т(9) только в случае экспоненциальных моделей. Для перечисленных шести стандартных регулярных экспонен- циальных моделей вид функции т(9), оптимальной оценки т* для нее и соответствующей дисперсии (2.27) приведены в табл. 2.2. Таблица 2.2 Модель г (9) т* Der« (9, О2) 6 п с2/п 62) 62 1=1 п 2д*/п г (Э, Л) 6 t=l АД Г fP/Xn Bi(k, в) 9 X/k *6 (1-9)Дп П(6) в X Bi (г, 6) 6/(1-в) Х/г 6/[гя(1—9)2J 49
Отметим также, что для (регулярных) экспоненциальных мо- делей функцию информации i (9) можно вычислять но формуле ,(0) = ^(6)Л'(6). Действительно, из соотношений (2.20) и (2.27) имеем равенство [т'(G)]a/(ni (©)) = т'(9)/(лЛ'(©))» откуда и следует предыдущее утверждение. 4. Критерий Бхаттачария оптимальности оценки. Неравенство Рао —Крамера (2.20) дает иеулучшаемую границу дисперсии не- смещенных оценок (для регулярных моделей) в тех случаях, когда существует эффективная оценка. Однако если этой оценки не существует [представление (2.21) не имеет места ни для какой статистики Т (X)], то можно найти лучшую (т. е. большую) ниж- нюю границу для дисперсии несмещенных оценок. Основное усло- вие достижения нижней границы дисперсии в неравенстве (2.20) состоит в существовании оценки Т, для которой Т —т (9) — линей- ная (для каждого 9) функция от —= у • (Здесь и далее иногда будем для краткости писать просто L вместо L (X; 9).) Предположим:, что такой оценки не существует, но зато имеет место оценка Т*, для которой разность Т* — т (б) является линей- ной функцией от 1 3L 1 &L 1 И L 99 1 L <№ ’ L W при некотором г5=2. Тогда Т* — оптимальная оценка для т(8). Этот критерий оптимальности, обобщающий критерий Рао —Кра- мера (2.21), называется критерием Бхаттачария и также осно- ван на принципе достижения нижней границы дисперсии в соот- ветствующем неравенстве. Приведем точную формулировку соот- гг .... dkL d’T (в) ветствующего утверждения. Пусть И4' = —, -r’feJ=—тогда имеет место следующая теорема. Теорема 2.5 (неравенство Бхаттачария). Пусть Т = Т (X) —не- смещенная оценка для т = т(9). Тогда при всех беб DeT’Ss У, ctjaiaj, (2.28) i. i=i где cy = Cjj(0) = E9^^- Л /=К •••, а коэффициенты at= — a-t (6) определяются системой уравнений У Cijaj = i = 1, .... Г. i=l Если матрица С=||суК не вырождена и = то нера- венство (2.28) эквивалентно неравенству DeT^ 2 ?№№. * (2-29) f, i = i 50
Знак равенства в неравенствах (2.28) и (2.29) имеет место тогда и только тогда, когда T'-'t=^aiL&IL. (2.30) t == 1 Практически критерий Бхаттачария (2.30) используют так: учитывая старшие производные функции правдоподобия, подби- рают такую их линейную комбинацию, чтобы получить представ- ление вида (2.30); при этом последовательно полагают г= 2, 3.....Если при некотором значении г это удается сделать, то получающаяся при этом пара т (6) и Т* (X) и есть соответственно параметрическая функция и оптимальная оценка для нее (слу- чай /•=! в этой методике соответствует критерию Рао — Крамера). Пример 2.5 (нормальная-1 модель, оценивание параметрической функции). Рассмотрим модель @<Г(9, о2). Здесь L (х; 6) = Л exp f----— У (х; — 8)4, v ’ (/2л а) И 2аг ‘ J и можно проверить, что -1- dL ।/о* д*Ь1 ___о2 аз L [~п7 дб J — л п По^<ритерию Бхаттачария отсюда следует, что статистика Т* = — Д'2 — о2/п—оптимальная (т. е. несмещенная с минимальной дис- персией) оценка для т(9) = 92. 5. Критерии оптимальности в случае векторного параметра. Полученные выше критерии Рао —Крамера и Бхаттачария опти- мальности оценок относятся к случаю скалярного параметра 0. Обобщим их на случай векторного параметра. Будем предпо- лагать, что 0 = (9i, ..., 9Z), т. е. 0 —вектор некоторой размерно- сти г. Предположим, что ищется оценка для заданной числовой функции т(6), дифференцируемой по всем переменным. Исходную модель по-прежнему предполагаем регулярной. Тогда имеют место следующий многомерный аналог неравенства Рао — Крамера и со- Ответствующий критерий оптимальности. Теорема 2.6. Если Т — Т (X) — произвольная несмещенная оценка функции т=т(9), то при всех £ g^, (2.31) i, i — 1 где g//=gy(e) = E9^------5^-1, i, /=1.......r, а коэффициенты c-, = ct (0) определяются системой уравнений 2^/==<==S? i=l. /=« 51
Если матрица 1„ — 1Л (0) = [g.jj не вырождена и ln‘=||gV|[, то неравенство (2.31) эквивалентно неравенству DsTss 2 ^тл/. (2.32) I, ; = 1 Равенство в (2.31) и (2.32) имеет место тогда и только тогда, когда т-х=^а^^. (2.33) i = l 1 Если функция правдоподобия L (х; 0) дважды дифференци- руема по 0, то, продифференцировав тождество $L(x; 9)dx==l сначала по 6;, а потом по бу, получим _ /д2 In L (X; 6)\ In /(X,; 6)\ “Es \ } = - ,1Es t ' <2-d4) Матрица In (0) — аналог функции информации in (б) для случая векторного параметра и называется информационной матрицей выборки, a i — — информационной матрицей одного наблю- дения. Соотношение (2.34) показывает, что для схемы повторных независимых наблюдений 1Л (0) = п1 (9), т. е. здесь имеется анало- гия со случаем скалярного параметра. По аналогии со случаем одномерного параметра назовем не- смещенную оценку Т’* = Т*(Х) для т(9) эффективной, если ее дисперсия совпадает при всех 9 с правой частью неравенства (2.31) [или (2.32)]. Из теоремы 2.6 следует, что критерием эффек- тивности (а значит, и оптимальности) оценки Т является пред- ставление (2.33). Приведем пример использования этого кри- терия. Пример 2.6 (общая нормальная модель, оценивание среднего). Пусть X — (Xt, .... Хп) — выборка из распределения (91, 61). Требуется оценить параметрическую функцию т (9) = т (91, б2).= 62. Речь идет об оценивании теоретического среднего, поэтому в ка* честве несмещенной оценки можно взять, например, выборочное среднее X. Покажем, что в данном случае X — оптимальная оценка Эр Действительно, (П \ — функция правдоподобия для модели <^(9!, 61) и непосредст- венно можно проверить, что 6| Э In L (X; 6) = х -fe п <йх По критерию (2.33) отсюда следует, что статистика T%(X) = J является оптимальной оценкой 92. / 52
Было показано (см. табл. 2.2), что выборочное среднее Jf — оптимальная оценка теоретического среднего и для модели (9, о2). Таким образом, статистика X наилучшим образом оценивает неизвестное среднее нормальной модели независимо от того, известна дисперсия или нет. Как и в одномерном случае, эффективные оценки не всегда существуют. Рассмотрим, например, задачу оценивания неизвест- ной дисперсии нормальной модели. Если среднее модели известно, то, как показано в п. 3 (см. табл. 2.2), выборочная дисперсия — (X— р)2 является оптимальной и одновременно эффективной г = 1 оценкой теоретической дисперсии. Для общей нормальной модели @^(9i.’ 6|) это уже не имеет места. Во-первых, как уже было показано в § 2.1 (пример 2.3), вы- борочная дисперсия S2 не является несмещенной оценкой функ- ции т(9) = 0|, а таковой при п ^=2 является статистика S,a, опре- деленная в (2.4). Во-вторых, оценка S'8 не эффективная, что можно установить, сравнив ее дисперсию, определенную в (2.5), с нижней границей в неравенстве (2.32). Действительно, по формуле (2.34) в данном случае gn = /iE9(l/9i) = n/9i, £12 = git = (2n/9i) Е5 (Xi - Si) = О, g22 = (3n/9|) Es (Xi - 9i)2 - nft = 2n!9?, t. e. для модели а/” (9Х, 91) информационная матрица I (0) — = | o/nJ. Отсюда det (0) = £и£22 =# 0. £22 = £m =9^(2н) и правая часть в неравенстве (2.32) равна g22 (т.))2 = 29ф'и,-что меньше 29V(n-l) = De(S'8). Это еще не означает, что существует более точная, чем S'2, оценка для 91. Покажем, что в данной задаче вообще не существует эффективной оценки (нижняя гравица в не- равенствах (2.31) — (2.32) не достигается ни для какой несмещен- ной оценки 91), но оптимальная оценка Т* существует, и это S's. Воспользуемся аналогом критерия Бхаттачария для вектор- ного параметра, который имеет следующий вид: если при неко- тором целом st; 2 и коэффициентах с. = с. (0) имеет место пред- ставление Т-т = \'c.dL_ Li 1 дВ/ । V Г. сд dBi 90/ i. i h' - •• ‘s dsL ‘s ... 3&is (2.35) 1 L то статистика T = T (X) есть оптимальная оценка функции т = = т(9). . 53
Применим этот критерий к рассматриваемому случаю. Имеем: Л 1 dL _ d In L 1 /v а \2 л __ ТЖ — = < Ал ”0; ” 1 = 1 п i— 1 1 (PL & In L , ( d In L \2 n- ,y n \2 n Taef~ de? + \ V1) ei • Отсюда 1/01 ®* d2L\ 1 f у. v\2 ns_____'c*2 c* TVTTaCTFW = ^T 2 ^~A>-Vi-ъ -в,. На основании критерия (2.35) это означает, что статистика Т* = S'2 является оптимальной оценкой для 61 в модели (61, б?). Итак, в задаче оценивания параметрической функции т(6) = 61 для модели ®^(6i, 01) имеет место более точная, чем (2.32), оценка для дисперсии несмещенных оценок т (0) — это оценка DsT2s26V(n — 1); при этом равенство достигается/Для статистики T* = S'\ § 2.3. Принцип достаточности и оптимальные оценки Рассмотренные в предыдущем параграфе кри- терии оптимальности оценок имеют сравнительно ограниченную применимость. Во-первых, они требуют жестких условий регуляр- ности исходной модели и, во-вторых, в лучшем случае позволяют находить оптимальные оценки для отдельных параметрических функций т(6). Так, например, было установлено, что оптимальг ной оценкой для дисперсии 61 модели 61) является ста- тистика S's, но решить вопрос об оптимальном оценивании сред- неквадратического отклонения 62 с помощью изложенных выше методов нельзя. Более эффективным способом построения опти- мальных оценок является использование достаточных статистик, рассмотрению которых и посвящен настоящий параграф. 1. Достаточные статистики. По определению, статистика Т = — Т (X) (вообще говоря, векторная) называется достаточной для модели & = {F (х; 6), 6 е 0} (или достаточной для параметра 6, когда ясно, о какой модели идет речь), если условная плотность (или вероятность в дискретном случае) L (х|t\ 0) случайного век- тора X = (Xi, .... Хл) при условии Т(Х) = / не зависит от пара- метра 0. Эго свойство статистики Т означает, что она содержит всю информацию о параметре б, имеющуюся в выборке, и по- этому все заключения об этом параметре, которые можнс^сделать при наблюдении х, зависят только от t = T(x.). Можно также 54
сказать, что все статистические выводы о модели, обладающей достаточной статистикой, в итоге формулируются в терминах этой достаточной статистики. Достаточная статистика, следовательно, дает оптимальный в определенном смысле способ представления статистических данных, что особенно важно при обработке боль- ших массивов статистической информации. При этом обычно стре- мятся найти достаточную статистику минимальной размерности, представляющую данные в наиболее сжатом виде, в этом смысле говорят о минимальной достаточной статистике (очевидно, сама выборка X всегда является достаточной статистикой, ио эта ста- тистика тривиальная, так как не сокращает данных). Приведем критерий факторизации, позволяющий в каждом конкретном случае определить, существует ли достаточная стати- стика, и одновременно установить ее вид. Теорема 2.7 (критерий факторизации). Для того чтобы ста- тистика Т (X) была достаточной для 6, необходимо и достаточно, чтобы функция правдоподобия L (х; 0) имела вид L(x; 0) = g(T(x); О)й(х), (2.36) где множитель g может зависеть от В, а от х зависит лишь через Т (х), множитель h же от параметра 6 не зависит. □ Приведем доказательство для дискретной модели. Если ста- тистика Т достаточна, то при любом t из области значений Т (х) функция (Л(х| t; 8) не зависит от 8 и ее можно записать в виде й(х, t). Пусть Т (х) = t; тогда событие {Х = х} = {Г (X) = t}, по- этому L(x; 0) = Ре(Х = х)=Ре(Х = х, Т(Х)=0 = = Pe(T(X) = 0Pe(X = x|T(X) = 0=g(^ 9)A(x]f; 8) = = g(7’(x); 0)/i(x, t), т. e. выполняется представление (2.36). Обратно: пусть имеет место разложение (2,36). Тогда при любом х таком, что Т (х) = t, L(x\t; 8) = Ре (X = х | Т (X) = /) = Рб(р7(т(х)2Г0 = = L(x;B)l £ L(x'; 8) = g(Z; 6)ft(x)/ £ g(t; 0)/i(x')= | х': т(х')=/ J х': г(х')=< = Л (х) / S h (х')> I х’: Т (х’)=£ т. е. не зависит от 0. Если же х таково, что Т(х)У=/, то, оче- видно, L (х 11; Э) = 0. Таким образом, в любом случае (при лю- бом х) условная вероятность L (х j t; 8) не зависит от 8. Отметим, что всякая эффективная оценка является одновре- менно достаточной статистикой, так как [см. (2.21)] из представ- ления 7(Х)-т(0) = а(0)^Ц^ 55
следует форма (2.36) для Л(х; 9). Итак, эффективная оценка су- ществует только тогда, когда имеется достаточная статистика. Но последняя может существовать и при отсутствии эффективной оценки, т. е. условие достаточности является менее ограничитель- ным, чем условие существования эффективной оценки. Заметим также, что если Т достаточна, то таковой же явля- ется и любая взаимно однозначная функция от Т. Действительно, если // = ф(Т) и q> —взаимно однозначная функция, то сущест- вует обратная функция ф1: Т = ф-!(/7) и из представления (2.36) имеем Z.(x; 9) = gf(<p-1(^); 9)Л(х) = ^1(Я; 6)/г(х), т. е. // — достаточная статистика. Примерами достаточных статистик для ряда моделей со ска- лярным параметром являются (с учетом сделанного замечания) эффективные оценки т*, приведенные в табл. 2.2. Рассмотрим еще несколько примеров нахождения достаточных статистик для моделей с векторным параметром и для нерегулярных моделей. Пример 2.7 (общая нормальная модель, достаточная стати- стика для нее). Функцию правдоподобия для общей нормальной модели @7" (91, 9|) можно записать в виде L (Х’ = (/2л 6,)’ еХР р Ж .2 (Хг ~ ° | ’ откуда в силу критерия факторизации имеем, что статистика Т = (Ту, Т2), Тг = Х, Т2 = 2 (Xt - X)2, i = l является достаточной для 9 = (9Ь 9г). Пример 2.8 (равномерная модель, достаточная статистика для нее). Пусть модель Jr = R(Q, 9). Тогда функция правдопо- добия {1/Вл при x(n) = max х,^Сб, О в противном случае, или L (х; 9) = е(9-х(л))/9’!, где е (х) - функция Хевисайда [см. (1-5)]. На основании критерия факторизации отсюда имеем, что Т (Х)= ' = Х(п), т. е. максимальное значение выборки является достаточ- ной статистикой для 6. Аналогично, для общей равномерной модели /?(0Х, 92) функ- цию правдоподобия можно записать в виде £(х; 6) = е (92 — х(л.)) е (xti) — 9i)/(62 — 91),!; следовательно, статистика T = (Ti, Т2), где Tj. = X(i), У2 = Х(Л), достаточная для 0 = (6Ь 02). 56
Пример 2.0 (равномерная модель (продолжение)). Рассмотрим модель R(a(9), b (8)), где a(9)<b(9), VB, — заданные непрерыв- ные функции скалярного параметра 8. Как и в примере 2.8, можно записать L (х; 8) = е (х(1) - а (9)) г (Ъ (9) - х(я))/(Ь (6) - а (9))«. (2.37) Следовательно, двумерная статистика Т = (ХА), Х(Л)) является достаточной для В. Выясним теперь, нельзя ли найти в данном случае одйомерную, т. е. более экономную, достаточную стати- стику. Числитель в (2.37) равен I тогда и только тогда, когда {x.D^afe), (2.38) Пусть а (9) f, &(6)| с возрастанием 9. Тогда условие (2.38) экви- валентно условию {9 =-< fl-1 (х(1|), 9 < Ь1 (х(Л))} <=> {9 < 7\ (х) = min (а л (х(1>), Ь1 (х(п)))}. Таким образом, соотношение (2.37) можно записать в виде /,(х; 9) = е(Т1(х)-9)/(&(6)-fl(6))’, откуда следует, что 7\ = Л (X) — min (а 1 (X,h), b 1 (X\„j)) - одно- мерная достаточная статистика для 0. Аналогично, если о{9)|, b (8) f с возрастанием 0, то одномер пая достаточная статистика имеет вид Т2 = Т2 (X) — max (а-1 (Х<г>), Ь1 (Х{п})). Эти два случая исчерпывают ситуации, когда в модели R(a(Q), b(6)) существует одномерная достаточная статистика. Обратим внимание на то, что как Ти так и Т2 являются функ- циями исходной двумерной достаточной статистики Т = (Х(1), Х(л)). Это обстоятельство имеет общий характер, т. е. минимальная достаточная статистика есть функция любых других достаточных статистик. В частности, для равномерной модели с нулевым сред- ним 7?(—0, В) одномерная достаточная статистика Т2 принимает вид 7,; = тах(— Ат, Х{п}) = тах (| [, | Х(л>'), а для модели R (9, 6+1) одномерной достаточной статистики не существует. Пример 2.10 (модель Коши, достаточная статистика для нее). Для модели Коши Ж (9) функция правдоподобия имеет вид L (х; В) = -- 1 Г —г-7-—а, i = l и здесь нельзя найти статистику Т, дающую факторизацию (2.36), размерность которой меньше п. 2. Достаточные статистики и оптимальные оценки. Роль доста- точных статистик в теории оценивания раскрывает следующее утверждение. 57
1 Теорема 2.8 (Рао — Блекуэлла—Колмогорова). Оптимальная оценка, если она существует, является функцией от достаточной статистики *. □ Пусть Т—Т (X) — достаточная статистика и Л = Тх (X) — про- извольная несмещенная оценка заданной параметрической функ- ции т(6). Рассмотрим функцию Я(О = Е0(Т1|Т = О = ИНХ)1(ХП’> 6)dx. Эта функция не зависит от 6, так как условная плотность L (х [ t\ 9) от параметра не зависит. Далее, статистика 7/(7'(Х)) является > также несмещенной оценкой т (б). Действительно, если g (t; 6) —. плотность распределения статистики Т (X), то b^(T(K)}=^H(t)g(t-, S)d/ = $7\(x)[$L(xi/; 6)dt]dx = = jT1(x)L(x; 6)dx = EBT1(X) = T(6). < Наконец, справедливо неравенство V6, причем равенство имеет место в том и только в том случае, когда 1\ = Н{Т). Для доказательства этого заметим, что D0A = Ее[Tt - Н (Г) + Я (Т) - т (б)]2 = = Ев{Г1-Я(Г)Г + ОеЯ(Т)>ад(Т), поскольку математическое ожидание произведения Е4Л - Н (Т)][Я (Г) - Т (б)] = Ее [(Л - Н (ТУ) Н (Т)] - = | [Ев(Г1 — H (t)] Н (t)g(t-, €) dZ = 0. В предыдущем неравенстве знак равенства возможен только « в случае Ti = H(T). Таким образом, для любой несмещенной оценки т(б), не являющейся функцией от достаточной статистики, можно указать несмещенную оценку, которая зависит от доста- точно# статистики и имеет дисперсию меньшую, чем исходная оценка. Следовательно, оптимальную оценку надо искать среди функций от достаточной статистики. При отыскании явного вида оптимальных оценок важную роль играет свойство полноты достаточной статистики. По определению, достаточная статистика Т = Т(Х) называется полной, если для всякой функции <р(7ДХ)) из того, что Eg<p(T) = O, V6, следует (f(i)sO на всем множестве значений статистики Т**. * Частный случай этого утверждения об эффективных .оценках был отме- , чен в п. 1. ** Это утверждение понимается в том смысле, что Р0(Хе{х; ф(Г(х))^0})=0, V9. 58
Теорема 2.9. Если существует полная достаточная статистика, то всякая функция от нее является оптимальной оценкой своего математического ожидания. □ Пусть Т = Т (X) — полная достаточная статистикам Я(Т)-—* произвольная функция от Т. Обозначим ЕеЯ(Т) = т(9). (2,39) Из условия полноты следует, что Н (Т) — единственная функция от Т, удовлетворяющая соотношению (2.39), так как если бы была еще какая-нибудь функция удовлетворяющая (2.39), то мы бы имели, что Ее [Я (7>-^1(Л] = 0, V8, откуда (t) ss Н (f). По теореме 2.8 оптимальную оценку т (6) надо искать в классе функций, зависящих от Т. Но Н (Т) — единственная функция от Т, несмещенно оценивающая т (9); следовательно, она и является искомой оптимальной оценкой. Итак, пусть в рассматриваемой модели еГ существует полная достаточная статистика Т и требуется оценить заданную пара- метрическую функцию т(0). Тогда: 1) если существует какая-то несмещенная оценка т(6), то су- ществует и несмещенная оценка, являющаяся функцией от Т', можно также сказать, что если нет несмещенных оценок вида Н (Т) (г. е. уравнение (2.39) не имеет решения), то класс несме- щенных оценок т(9) пуст', 2) оптимальная оценка (когда она существует) всегда является функцией от Т, и она однозначно определяется соотношением (2.39); 3) оптимальную оценку т * можно искать по формуле т* = Я(Т) = Е9 (Т\\Т), исходя из любой несмещенной оценки Т\ функции т(9). В конкретных задачах при отыскании оптимальных оценок последний критерий используют редко, так как вычисление услов- ного математического ожидания обычно сопряжено с аналити- ческими трудностями. Чаще решают непосредственно уравнение (2.39), которое в развернутой форме для абсолютно непрерывной модели имеет вид \H(t)g (t; 9) df = т (9), V6 е 0, (2.40) rn,eg((; 9)—плотность распределения достаточной статистики Т. Для дискретной модели интегрирование в левей’ части уравне- ния (2.40) заменяется суммированием. Это уравнение в дальней- шем будем называть уравнением несмещенности. Его можно решать различными способами, например разлагая правую и левую части в ряды по степеням 9 (в случае аналитических функций т(9) и g(t; 9)) и приравнивая соответствующие коэффициенты. 59
3. Примеры применения достаточных статистик. Рассмотрим применение изложенной теории к построению оптимальных оценок для различных параметрических функций т(0). Пример 2.11 (бернулдиевская модель, оценивание параметриче- ских функций). Пусть Х = (Ад, Хп)~выборка из распределе- п ния X (Е,)еВ£(1, 9). Как отмечалось выше, статистика Т = У, £ — I (число «успехов» в п испытаниях Бернулли), будучи эффективной оценкой для л9, является достаточной. Покажем, что она обла- дает свойством полноты. Для этого прежде всего заметим, что Х$(Т) — Bi (п, 9) и, следовательно, распределение Т имеет вид g(t', 6) = C„6'(1 — 6)"-z, t — 0, 1, п. Пусть ср (/) —произволь- ная функция, заданная на множестве {0, 1, .... л]. Тогда усло- вие ЕЭф(Т)=0, V9 е (0, 1), записывается в виде У Ф(/)С^(1 — 9)4_/ = 0, V6e(0, 1), или 1 = 0 У, <Р (t)C'nXl = 0, Vx>0 = / = 0 ‘ ‘ Отсюда следует, что все коэффициенты данного многочлена равны нулю, т. е. ф(0 = 0, 1 = 0, 1, ..., п. Следовательно, Т— полная достаточная статистика. Тем самым всякая функция от Т является оптимальной оценкой своего среднего. Так как производящая функция случайной величины Т равна Е0гг =ф(г; 9) = [1 + (г- 1)9]«, то, полагая (a)k =а (а — 1)... (а — k+ 1), k^\, имеем Огсюда и из предыдущего следует, что дтя любого целого k, оптимальной оценкой степени 6* является статистика (ТУФФЬ (выше (см. теорему 2.2) соответствующий результат имел место только для &=1). Одновременно также получен вывод: более высокие степени 6А, k>n, по выборке объема п не под- даются оценке в классе несмещенных оценок. Наконец, восполь- зовавшись теоремой 2.3, сразу получаем, что если т(9)—много- k член степени k^n: х (9) = У aft’, то оптимальной оценкой для /—о него является статистика k т* = S /=о Например, теоретическую дисперсию т (9) = 9 (1—6) распределе- ния Bi(l; 9) оптимально оценивает статистика т* = Т(/1-Т)/[п(п-1)]. 60
Пример 2.12 (модель степенного 'ряда, оценивание параметри- ческих функций). Рассмотрим семейство дискретных распределений типа степенного ряда, для которых вероятности /(х; 6) = а(х)в-7/(6), х = /, /+1, .... /(6)= £ а(х)в* (2.41) X = I при этом последний ряд имеет ненулевой радиус сходимости R, в этом случае полагаем 0 = (О, R). Распределения типа (2.41) охватывают многие хорошо извест- ные дискретные распределения с бесконечным множеством значе- ний; в частности, это следующие распределения: Пуассона П(0) (/(9) = е9, /? = ос), отрицательное биномиальное Bi (г, 0) (f(9) = (l — 6)г, ₽ = !), логарифмическое (f(x; 0) = 0хДх1пу^-д^, х=1, 2, .... 7? = 1) нт. д., а также соответствующие усеченные слева распределения. Примечание. Усеченным называют распределение, у которого некото- рые значения запрещены, например усеченным в нуле распределением Пуас- сона является распределение f (х; е) = се'е-р х=1, 2, ... (константу с надо- 00 дят из условия нормировки У f(x; 6)=1, и в данном случае она равна (1-е-0)1). Отметим, что рассматриваемые распределения являются рас- пределениями экспоненциального типа (см. п. 3 § 2.2), поэтому из соответствующих результатов для экспоненциальных моделей следует, что если имеется выборка X = (Хъ ..., Хп) из распре- деления (2.41), то статистика X является эффективной (значит, и оптимальной) оценкой функции т (0) — Gf' (G)/f (9). Также изве- стно, что это единственная (параметрическая функция, для кото- рой существует эффективная оценка. Выясним, используя теорию достаточных статистик, для каких еще параметрических функций в рассматриваемой модели существуют оптимальные оценки и как определить вид этих оценок. Рассмотрим статистику Т — Т (X) = Хгф-.. .-{-Хл. В данном случае функция правдоподобия L (х; 6) = 0Г w J7 a (0), »= I откуда иа основании критерия факторизации следует, что Т — до- статочная статистика. Ее распределение g (t; 0) имеет вид g (/; 0)=р0 (т (X)=о = S L (х; 0) = <Ма (е)> х : Т(х) = ( t = nl, n/4-l, ..., (2.42) где МО = У a (xi)... а (х„) = сое1?/л (г). *i+- +*n=t 61
Таким образом, Т также имеет распределение типа степенного ряда. Пусть, далее, ф (t) — произвольная функция, заданная на множестве {nl, 1, ...}, и такая, что Ееф(Г) = 0, VSs€), т. е. S ф (О МО 9' = О, V6EE©. ( = г.1 Отсюда следует, что ф(1) = 0 для всех t, для которых bn(t)^G, т. е. ф (/) = О на множестве всех возможных значений Т. Таким образом, Т — полная достаточная статистика. Пусть теперь требуется оценить параметрическую функцию т(9), представимую в виде сходящегося на 0 степенного ряда: ОО т(6) — 2 Из формулы (2.42) следует, что в данном случае /=/• уравнение несмещенности (2.40) можно записать в виде со 00 оо S # (0 (0=Г (6) * (9) = У Ьп (О в1 S а76/ - 1—nl i = со -fe—nl У У ajbnfk — f). k=ni+r j=r Поскольку это тождество по 9, приравнивая соответствующие коэффициенты, находим t — nl Я(ОМ0= У ajbn(t-i) при /=г t Sa nl 4- г, 0 при i <_nl 4-г. Отсюда получаем, что оптимальная оценка т* для функции т(9) имеет вид Т— nl Т,=Я(Г)= К‘(Т) 2 при Т^ш+г, (243) О при T<_nl-}-r. В частности, если т(9) = 0г при некотором 1, то *=( Ь’г(Т~г')/Ьп^Г> ПРИ т^п1 + г> (244) Т { 0 при T<Znl-\-r. Таким образом, для важного класса дискретных распределений типа (2.41) можно строить оптимальные оценки для произвольных параметрических функций, представимых в виде степенного ряда от 9. Пример 2.13 (пуассоновская модель, оценивание параметрических функций). Пусть X = (Xi, .... Х„) — выборка из распределения $(^еП(5). /Требуется оценить ^вероятности появления отдель- 62
ных значений т. е. функции л*(9) = e~%fc/k!, k=Q, 1,.... Здесь СО 1“<«)=к2<-1’м(Аг' т-е- }=к J - k\ (j-й)! ’ l-R> к-Г1. Далее, f«(9) = e,,e, поэтому bn(t) t = 0, 1,2...Подставив эти значения в формулу (2.43), находим, что оптимальная оценка имеет вид у , nT-f______rk. 1 Л 1\г-* k пТ ЙЦ/-Й)! (Г-/)! Т п* { п) Отсюда следует, что при заданном значении Т отличными от нуля являются значения оценок л* только для А = 0, J, ..., Т. По теореме 2.3, оптимальной оценкой некоторой суммы вероят- ностей л* (9) является сумма соответствующих оценок п|. В част- ности, статистика ,.J 2 "Р“ k—r О при Т<г с® — оптимальная оценка для т(Э)=Рэ(^2гг) = л^(6). к = г Пример 2.14 [отрицательная биномиальная модель, оценивание параметра). По выборке X = (Xlt .... Хп) требуется оценить параметр 9 модели Bi (г, 9). Здесь /л (9) = (1 — 9)-лг = 2 C^ + t-^, t=a т. е. h„(O = cL + /-i, * = 0, I, 2, .... поэтому по формуле (2.44) имеем, что оптимальной оценкой т (9) = 6 является статистика ф _/ Т/(г + пг — D при 7^1, Т ( 0 при Т = 0. Пример 2.15 (равномерная-1 модель, оценивание параметра). По выборке X = (Xi, ..., Хп) требуется оценить параметр 9 рав- номерного распределения R (0, 9). В примере 2.8 было показано, что Т = Х(л)—достаточная статистика для 9. Убедимся в ее пол- ноте. По формуле (1.21) плотность распределения величины Т равна g(i; 9) = 0=sS/:s£9. «3
Пусть теперь для функции <р (/). t S-:О, выполняется условие а Ее<р (Г) = £ j Ч> V) ("-1 dt = О, V0 > 0. о 9 Дифференцируя по 0 тождество jj ф(/)|d/^О, получаем ф(0)9" л=0, о т. е. ф (0) = О, VS > 0. Тем самым доказано, что статистика Т — пол- ная. Далее имеем е Ee7'_'’-Jcd< = T=TS. О Т”Т Л Г. П —1 Ж ft -4— 1 < . По теореме 2.9 отсюда следует, что - ^ - Т = —Л(7) — оптималь- ная оценка 9. Нетрудно показать, что ие^ п Л(*>) п(а+2)‘ Пример 2.16 (достаточная статистика, не являющаяся полной). Пусть произведено одно наблюдение X над дискретной случайной величиной с распределением Тогда Л— достаточная, но не полная статистика. Действительно, пусть <р (х)—заданная на множестве {—1, 0, 1, 2, ...} функция, удовлетворяющая условию E0tp(X) = O, V9 <= (0, 1). Это условие можно записать в виде ОД ф(~1)(Т^ + 2 х = О или (см. пример 2,14) Ф (0) + У1, [ф W 4- хер (—1)] 0х s 0. Этому условию удовлетворяет любая функция, для которой ср (0)—0, <р(х) =— х<р(—1), х = 1, 2..т. е. значение <р(—1) можно задать произвольно. Следовательно, в данном случае критерий полноты не выполняется, поэтому нельзя ожидать, что уравнение несме- щенности будет иметь однозначное решение. Рассмотрим, напри- мер, задачу оценивания параметрической функции т(9) = (1 —0)2. В этом случае непосредственно можно проверить, что любая ста- тистика Т — Н (X), где функция Н имеет вид гт, , Г 1 при х = 0, Н(х)={ а произвольно, является не- | ах при х==—1, 1, 2, смещенной оценкой т(9). 64
§ 2.4. Оценки максимального правдоподобия 1. Определение и примеры оценок максималь- ного правдоподобия. Одним из наиболее уни- версальных методов оценивания параметров распределений является метод максимального правдоподобия. Оценку параметра 6, полу- чаемую с помощью этого метода, будем обозначать 6=6 (X), а оценку параметрической функции т (6) — записывать в виде т = т (X). Пусть, как обычно, задана выборка Х=(А\, Хл) из рас- пределения T(g)eT = {/•'(.<; 6), 5s6 j и L(x; 6) — функция правдоподобия для реализации х — (хь выборки X. По определению, оценкой максимального правдоподобия (о. м. п.) 6 параметра 6 (точнее, значением о. м. п. при заданной реализации х выборки X) называется такая точка параметрического множе- ства 0, в которой функция правдоподобия L (х; 6) при заданном х достигает максимума. Таким образом, L (х; 9)5=L(x', 6), V6, или L (х; 9) = sup Л(х; 6). о ее Если для каждого х из выборочного пространства fE максимум Е(х; 9) достигается во внутренней точке 0 и L(x; Э) дифферен- n п д/, (х; 6) цируема по О, то о. м. п. 9 удовлетворяет уравнению —— = 0 й In L(x: 6) л „ . „ _ пли---------=0. Если 9 —векторный параметр: 0 = (9Ь ..., 6,), » „ д In L (х: 6) Л то это уравнение заменяется системой уравнении ------------ = 0, i = 1, г. Последние уравнения называются уравнениями правдоподобия. Отметим следующие свойства оценок максимального правдо- подобия. 1) Если существует эффективная оценка Т (X) для скалярного параметра 9, то 9 = Т(Х). Это очевидное следствие критерия эффективности Рао —Крамера (см. теорему 2.4): _ IsLfoJj) = it (х) — 61 2) Если имеется достаточная статистика Т — Т (X), а оценка максимального правдоподобия 0 существует и единственна, то она является функцией от Т. Действительно, из представления (2,36) следует, что в данном случае максимизация £(х; 9) сводится к максимизации g (Т (х); 6) по 9. Следовательно, 6 зависит от ста- тистических данных через Т (х). Примерами оценок максимального правдоподобия 9 для ряда моделей со скалярным параметром являются приведенные в табл. 2.2 соответствующие эффективные оценки. Так, для моделей ©Г* (9, о2), Г (9, 1), Bi(l, 9), П(9) оценка 9 = Х. Рассмотрим еще несколько примеров нахождения оценок максимального правдоподобия. 3 Заказ [054 65
Пример 2.17 (общая нормальная модель, оценка максимального правдоподобия ее параметров), Рассмотрим общую нормальную модель @4^ (Si, 6^). Как следует из примера 2.7, максимизация функции правдоподобия L (х; 9), 9 = (91, Э2), эквивалентна здесь минимизации по 9 функции п где s2 — — 2 (х; — х)2 — реализация выборочной дисперсии S2 i = 1 (см. § 1.2). Как легко проверить, Ina^n—1, Vn>0. Отсюда, в частности, имеем неравенство 1пх=С (х2—1)/2, Vx>0; знак равенства достигается только при х=1. Учитывая это неравен- ство, получаем, что ф(х; 6) 3s 0; знак равенства имеет место лишь в точке 9 = (х, s). Таким образом, в данном случае оценка мак- симального правдоподобия существует, единственна и при этом 6 = (61, 62) = (А:, S). Отметим, что полученная о. м. п. О —функция достаточной статистики Т — (Т1} Т2), рассмотренной в примере 2.7. Можно проверить, что полученное решение совпадает с решением уравнений правдоподобия. Пример 2.18 (многомерная нормальная модель, оценка макси- мального правдоподобия ее параметров). Предположим, что наблю- дается многомерная (скажем, размерности &) случайная величина Е, распределенная по невырожденному нормальному закону W(p, 2), где вектор средних значений р, = (рь ..., ц/г) и матрица вторых моментов S = |*(detS = |2| =4 0) — неизвестные параметры. Общее число неизвестных параметров (с учетом симметричности матрицы 2) равно 1)/2. Пусть X = (Xi, ..., Хл) — вы- борка из распределения X (|), т. е. — независимые А-мерные случайные величины с плотностью f(х: е) = ехр{“ (х~ 2-1 (Х ~’ °=2>' Найдем оценки параметров 0 такой модели по методу максималь- ного правдоподобия. В данном случае функция правдоподобия п L(x; б)=ПНх/; б) = (п 1 - у 2 (ъ - Ю' (х* - н)л (2-45) Пусть X = (хх +... + хл)/п (сложение векторов производится по- координатно); тогда У (xz-p)'2-1(xz-ii) = 2=1 п — — — = 2 (xJ-x)'2-1(xi-x) + n(x-p),2-1(x-li)- (2.46) 2=1 66
Введем выборочную матрицу вторых моментов, положив, по опре- делению, п =i 2 ~ х> <хг ~ =I I?» 1=1 где (Г, /)-й выборочный второй момент сту = ау(х) вычисляется по формуле п = - 2 (^--V,)(xz7-Xy), i, / = 1, k 1=1 (здесь хг = (хп, хд). / = 1, •••> п, x = (Xi.....xfr), х; = *= (хи +• • • + *л/)У Воспользовавшись равенством у'Ву = tr (BY), Y = yy', и линейностью оператора tr (взятия следа от матрицы), получим У, (xz- x)'2~l(xz-x) = п tr (2-12(х)). (2.47) i= i Учитывая равенства (2.46) - (2.47), формулу (2.45) можно пере- писать в виде L (х; 0) = (2n)-ft«/2 exp (х — р)' 2”1 (х — р) — - Jtr(2-12(x))- "lnj2|}. Отсюда следует, что максимизация по 6 функции L (х; 6) эквива- лентна минимизации по р и 2 функции ф (х; р, 2) = (х — р)' 2-1 (х — р) + [tr (2~]2 (х)) — k — In 12^2 (х) |] (постоянные k и 1п|2(х)| введены здесь для упрощения дальней- ших преобразований). Обозначим через Х1( ..., X* корни харак- теристического уравнения j 2~12 (х) — /.Ej. | = 0 или уравнения 12 (х) — 121 =0. Тогда выражение в квадратных скобках равно 11 +Ха — й — In (Ах... 1*) и можно записать _ k ф (х; И, 2) = (X - р)' 2-1 (X - Р) + У (1; - 1 - In 1,). I — 1 Поскольку 2”1 — положительно определенная матрица и а —1 — — In а 2s 0, а 2s 0, из последнего соотношения получаем ф (х; р, 2)2= 2s0, причем равенство имеет место только при р = х, li = ... .,. = lft = l, т. е. при р = х, 2 = 2(х). Таким образом, оценками максимального правдоподобия параметров р и 2=||ог;-|| являются в данном случае соответственно статистики X и S (X) =|| <тгу (X) Ц. Пример 2.19 (равномерная-l модель, оценка максимального правдоподобия ее параметра). Если Х = (Хх........ Хп) —выборка 3* 67
из равномерного распределения R (0, 6), то из формулы для L(x’t 8), полученной в примере 2.9, следует, что L(x; 9) монотонно убывает по 6 для 9^хгя>. При 8 = л-(Я) функция правдоподобия достигает максимума. Таким образом, о. м. п. 9 = Х(я1, т. е. совпа- дает с достаточной статистикой. В этой точке функция правдо- подобия разрывна, поэтому производная L (х; 9) в этой точке не существует. Таким образом, в данном случае о. м. п. не является решением уравнения правдоподобия. Это характерно для ситуа- ций, когда выборочное—пространство X зависит от неизвестного параметра. Призер 2.20 (равномерная модель (продолжение)). Пусть X = = (ХЬ ..., Х„) — выборка из распределения R (8, 9ф-1). Тогда из формулы (2.37) имеем L(x; 6) = е(8+1-х(л))е(х,п-6). Отсюда следует, что любое 8 е [х(„1 — 1, х(П] максимизирует функ- цию правдоподобия; таким образом, о. м. п.. не единственна. В качестве решения можно выбрать, например, д==(Х(1) +-Х(я)—1 )/2, в этом случае 6 —функция достаточной статистики Т = Х(я)) (см. пример 2.9). 2. Принцип инвариантности для о. м. п. Полезным свойством оценок максимального правдоподобия является их инвариантность относительно преобразований параметра. Это означает, что если q = q (g) — произвольная функция от у, взаимно однозначно ото- бражающая 0 в Q, где Q = |q = (<7i, .... <р)} — некоторое множе- ство в Rr, то о. м. п. q = q(g). Действительно, поскольку q — взаимно однозначное отображение, существует обратная функция o = o(q)- Тогда sup L (х; G) = supZ.(x; 0 (q)), See qeQ „ и если максимум по g функции L (х; д) достигается в точке д, то максимум по q функции L (х; g(q)) имеет место в точке q, удовлетворяющей уравнению g(q)=g, т. е. в точке q = q(g). Согласно этому, в.каждой конкретной задаче можно выбирать в качестве исходной наиболее удобную параметризацию, а о. м. п. получать затем с помощью соответствующих преобразований. Проиллюст- рируем это на нескольких примерах. Пример 2.21 (общая нормальная модель, оценка максимального правдоподобия’ параметрической функции). Пусть в условиях при- мера 2.17 требуется оценить параметрическую функцию т (д) = = Ф.9|\, представляющую собой вероятность P9(£sSxo). В этом случае можно положить, например, q(g) = (x(g), в2) и, согласно принципу инвариантности, о. м. п. ц = (т(д), д3), откуда ^ = т(е) = ф(^»^к \ о / Пример 2.22 (двумерная нормальная модель, оценка максималь- ного правдоподобия ее параметров). Пусть Х = (Х1( ..., Хл) — вы- 68
борка Г о2 ро2 ро2 о2 из двумерного нормального распределения 0), | с неизвестными ст2>0 и ре(—1, 1), т. е. Xz — двумер- ные случайные величины с плотностью распределения fix. U-, + 2-l„[o'(l-P’)]}. в = (<Л Р>- ' (2.48) Найдем о. м. п. о2 и р. Здесь плотность сложным образом зави- сит от параметров, поэтому удобно перейти к новым параметрам Ч = (<Ь<?г), положив qi = Qi(u)= — 1/[2сг2 (1 - р2)], ^=^(9)== =р/[о2(1 — р2)]. Тогда формулу (2.48) можно переписать в виде f (-г, У> ч) — 2Л ехР {’?1 (*г 4* У') И- <hxy 4* *(ч)}> где т(ч) =(1/2) In (4(j7 —ф;). Отсюда сразу же получаем, что урав- нения правдоподобия для нахождения о. м. п. и q2 имеют вид п ‘ (2.49) 1 V „ ,,_____дт (q) _ <?2 п L dq. 44|-4f ^ = 1 Но о2= — ~q> „, р = —q2!(2qi), поэтому из соотношений (2.49) находим, что значения о. м. п. о3 и р для заданной реализации выборки X вычисляются по формулам О2 = 2п 2 (*< 4- У'О. Р = 2 У, x.'Pz/y (XI + у‘/)> где (xt, yt) — наблюдавшееся значение Xi, 1= 1, ..., п. 3. Метод накопления для приближенного вычисления о. м. п. Оценки максимального правдоподобия в явном виде не всегда удается получить; в таких случаях прибегают к приближенным методам решения уравнений правдоподобия (когда такие уравне- ния можно составить). Это, например, метод накопления, предло- женный Фишером. Он заключается в следующем. Пусть 6 — ска- лярный параметр и функция правдоподобия А(б) = А(х; 9) дважды дифференцируема по 9. Разложим функцию вклада 1/(6) = С/(х; 9) [см. формулу (2.15)] в ряд Тейлора в окрестности точки 9в, выбран- ной в качестве начального приближения для 9 = 9 (х), и вычислим это разложение при 6 = 0*. В этом случае так как U (6) = 0, то О = U (90) + (§ — 90) U' (9*), где 9* — некоторая промежуточная точка между 9 и 0о- Отсюда 0=9o-U (60)/1Х (&*). (2.50) 69
Если заменить теперь в этом равенстве 6* на 30 и U' (б0) на — ni (90) = Ед0£7Л (X; 60) (см. п. 1 § 2.2), то получим первое при- ближение 6l = е0+[/(90)/ш (So). Теперь этот процесс можно повто- рить, взяв в качестве нового начального приближения 9Г и т. д. Таким образом, (fe-J-l)-e приближение по методу накопления вычисляют рекуррентно по формуле = + и (Wni (0А), k = 0, 1, 2, ... (2.51) Процесс вычислений продолжают до достижения желаемой точно- сти: 10*+i — 9й | <е. Важным является выбор начальной точки 60. Обычно в качестве 90 берут значение какой-нибудь легко вычис- ляемой состоятельной оценки (определение см. ниже в п. 4); тогда все три точки 60, 9* и 9 при больших объемах выборки п будут находиться вблизи истинного значения параметра. Метод накоп- ления, как правило, быстро приводит к цели, хотя в некоторых случаях этот процесс может и не сходиться. Пример 2.23 (модель Коши, оценка параметра по методу накопления). Пусть Х = (Х1) ..., Х„) — выборка из распределения Коши &С (S). Здесь функция вклада п '-"й>=2 2 щй? 1=1 и получить точное решение уравнения правдоподобия [7(6) = О невозможно. Функция информации для модели Коши равна 1 /2 (см. табл. 2.1), поэтому последовательность (2.51) принимает вид 9л+1 — S* 4” (2/и) 17 (S*), fe = 0, 1,.... В качестве начального приближения 90 можно взять значение выборочной медианы X([n/2j+1>, которая, согласно теореме 1.7, сходится по вероятности при п->со к истинному значению пара- метра 9, являющегося в данном случае теоретической медианой. Пример 2.24 (модель степенного ряда, метод накопления для нее). Рассмотрим распределение типа степенного ряда, введенное в примере 2.12. Здесь функция вклада (п 9-f-(9)JJfl(x;) t= i где р (9)— теоретическое среднее распределения. Действительно, р(9) = ^ха(х)9х//?(9) =0Г(6)//(9)- Таким образом, уравнение X правдоподобия U (6) = О имеет вид р(9) = х. (2.52) Вычислим функцию информации i(S). Имеем i (8) = Ее1Д (Хь 6) = ± Е0 (Хх - р (6))2 = ~ DeXx = a2 (S);S2, 70 пх „ Г (9> _я Мв) — "0 ’ / (0) 0
где о2 (9) — теоретическая дисперсия; кроме того, i (9) = -ЕВ (А и (Хх; 9)] = Ее + 4^) = И' (9)/S. Если уравнение (2.52) нельзя решить точно, то для приближенного определения значения о. м. п. 6 можно применить метод накоп- ления. В частности, для усеченного в нуле распределения Пуассона f(9) = ee —1 и уравнение (2.52) принимает внд 6=х(1—е~®), а функция информации равна i (9) = [1 - (1 + 9)е-е]/[9 (1 - е-9)2]. 4. Асимптотические свойства о. м. п. Метод максимального правдоподобия не всегда приводит к несмещенным оценкам. Так, из примера 2.17 следует, что оценкой максимального правдопо- добия дисперсии 9| модели (9Х, 9|) является выборочная дисперсия 5а, которая (см. п. 1 § 2.1) является смещенной оценкой. Однако ее смещение Е032 — 63 =— 9j/n, 0 = (61( 9-3), убывает при увеличении объема выборки и в пределе, при п->оо, оценка становится несмещенной. Оценки (вообще говоря, смещенные), обладающие указанным свойством, называются асимптотически несмещенными. Таким образом, в данном случае о. м. п. является асимптотически несмещенной, т. е. свойства этой оценки, свя- занные с несмещенностью, с увеличением объема выборки «улуч- шаются». Это положение имеет достаточно общий характер. Именно: важнейшие свойства оценок максимального правдоподобия имеют асимптотический характер, т. е. справедливы для больших выборок. Широкое применение оценок максимального правдоподобия связано именно с их «хорошими» асимптотическими свойствами. Изложение асимптотической теории оценок максимального правдоподобия и составляет дальнейшее содержание этого параграфа. Чтобы подчеркнуть зависимость рассматриваемых ниже статистик от объема выборки, будем отмечать их индексом п. Когда говорят об асимптотических свойствах оценок (или свойствах для больших выборок), то прежде всего имеют в виду их состоятельность, или, что эквивалентно, сходимость по вероят- ности рассматриваемых оценок к соответствующим оцениваемым теоретическим характеристикам. Так, в гл. 1 было показано, что большинство выборочных характеристик (выборочные моменты, квантили, значение эмпирической функции распределения в каждой точке и т. д.) сходятся по вероятности при п-^оа к значениям соответствующих теоретических характеристик и, следовательно, являются состоятельными оценками последних. Дадим строгое определение понятия состоятельности. Пусть X = (Xi, ..., Х„) — выборка нз распределения X (£) е e/ = {F(,t; 6), Эеб}, где параметрическое множество 0 — в общем случае некоторый невырожденный открытый интервал r-мерного евклидова пространства Rr. По определению, оценка Тя = Тп(Х.) для заданной параметрической функции т(9) назы- 71
вается состоятельной, если при п->со Т„-Pfl-т (6), VO ge 6, т. е., каково бы ни было истинное значение параметра 0, оцен- ка Тп сходится по вероятности (относительно распределения Р0) к истинному значению оцениваемой функции. Свойство состоятельности обязательно для любого правила оценивания, однако оно, по существу, является асимптотическим и не связано со свойствами оценки при фиксированном объеме выборки (в отличие от свойств несмещенности и оптимальности). Рассмотрим простой и важный критерий состоятельности. Теорема 2.10. Пусть Е07\ = т(9) + ел, D0Tn = 5„ и ел — ел (6)-> О, 6„-6,(5)->0 при п -> со для всех 6 е 0, тогда Тп —состоятельная оценка функции т —т(9). □ Поскольку I Тп — ЕеТл | 5= | Тп — т | — | Е07\ — т I, событие —т|>?е} влечет событие {( Тп — Е07\ | ZS е — | е„ ^}. Отсюда на основании неравенства Чебышева имеем Ре (j T„-T|^e)^P0(i7’„-E0T„|^e-|e?!;)<^=^-F->O при и—> со и всех 9 Е 0. Приведем некоторые утверждения о сходимости функций от случайных величин, которые будут полезны в дальнейшем. 1°. Имеет место следующее непосредственное обобщение теоре- мы 1.5: если ти-ц и функция <р непрерывна, то Ф (л«) Ф (л)> а также X (ф (Лл)) (<р (ц)). 2°. Пусть {т]л, п = 1, 2, — последовательность пар случайных величин. Тогда: а) Лл — —0- — — 6) г]л-^-р 0, в) X (Л,) -> X (п), 0 Ля£л - 0; г) ^(цл)->^(ц), const =>^(т]л + и-*^(п + 0. Х^п1п)-^Х(сгд, Х(х\М-^Х(х\1с) при с#=0; Д) Л. - Л 0- % -> X (С), функция <р непрерывна ф (тр,) - Ф (Q-Д 0. Проверка этих простых утверждений предо- ставляется читателю. 3°. Пусть Т„ = ГП(Х), Х = (ХЬ ..., Хп},~оценка скалярного параметра 6 в модели X=-{F(x; 6), В Е0} такая, что Хвх х(Уп(Тп — 8))->«Г(0, о2 (9)) пРи п-+<х> и всех 5 е 0. Пусть, далее, функция <р дифференцируема и ф'=#0. Тогда X^V'n (<р (Т„) - Ф (9)))->аГ (0, [ф' (9)Р о* (9)). (2.53) Кроме того, если ф' непрерывна, то Хв (Vn (ф (7„) - ф (9))/ф' (Т„)) -> (0, о2 (9)), (2.54) 72
а если и о (6) непрерывна, то п- (2-55) Доказательство основано на разложении Тейлора ф(т„)- ф(6)=(тя- о) (ф' (в)+:„), где для Ve>0 |Сч!<е при [Тп — 91<д = 6(к). Отсюда Р9 (| j < е) Р0 (I Тп — 9 < 6). Но здесь правая часть по условию стремится к 1 при п->оэ. Следовательно, Отсюда на основании свойства 2° в) К» (Ф (Т„) - ф (9)) - У'п (Тп - 9) ф' (6) = У п (Тп - 9) 0. Это в силу свойства 2° б) означает, что случайная величина \ п(ф(7\) — ср (9)) имеет такое же предельное распределение, как и величина У п (Тп — 9) ф' (6), т. е. нормальное распределение ©/" (0, [ф'(б)]гог(9)), что доказывает (2.53). Далее, если ф' непре- рывна, то на основании свойства 1° ф'(7\)<р'(9). Отсюда и из предыдущего в силу свойства 2° г) следует (2.54). Рассуждая аналогично, можно убедиться в справедливости формулы (2.55). Приведем без доказательства обобщение утверждения 3° на случай векторного параметра 0 = (61, ..., 6Г). 4°. Пусть Тп = (Т\п......Тт} —оценка параметра в, удовлет- воряющая условию.........(Тя — 0))-> .#Д0, 2(9)) при n-t-oo и всех 0 е 0. Тогда для любой дифференцируемой функции ц> от г переменных ^(рЛ«(ф(П)-ф(9)))-*вГ(°, (2.56) при условии, что о(П)=£0, где и2 (0) = Ь' (0) 2(0) Ь (0), Ь(0) = / Ар (6) Ар (6) \ г , = -, ..., - ]. Если, кроме того, функция ф непрерывно дифференцируема и все элементы матрицы вторых моментов 2(0) непрерывны по 0, то ^5(У«(ф(Л1)-ф(»))/и(Т„))->^Г(0, У- (2.57) Сформулируем теперь основные асимптотические свойства оценок максимального правдоподобия. Предположим,что модель ^является регулярной в смысле § 2.2, а функция правдоподобия £ч(х; 0) при всех п 2г 1 и х Е J имеет лишь один локальный максимум по 0, лежащий внутри &, и притом достижимый (т. е. о. м. п. 6Л существует и совпадает с локальным максимумом). Тогда: 1) 0п является состоятельной оценкой параметра 0 (без дока- зательства); 2) если дополнительно функция f(x\ 0) триждыдифференцируема по 9 и при этом существует не зависящая от 9 функция М (х) 73
такая, что для всех 0 еб ГдаУк1'1’ <*>><“ <* /. *=i..о, то при п-^оо #о(/н(Ол-0))->®Г(О, Ь^Э)), (2.58) где I (9) — информационная матрица, определенная в (2.32) и являю- щаяся (по условию) невырожденной. Более того, если т (9) — непре- рывно дифференцируемая функция от 6 и тл = т(бл) — ее оценка максимального правдоподобия, то ^в(К«(4-т(О))->^Г(О, а?(О)), (2.59) где щ (9) =Ь' (6) Н (О) b (9), b (0) = .... . Таким образом, для широкого класса моделей оценки макси- мального правдоподобия являются состоятельными и асимптоти- чески нормальными. Для случая скалярного параметра соотношения (2.58) и (2.59) принимают соответственно вид X0 (9Л - 9))-> (0, 1/»(9)) и (2.60) X, (Vn (т„ -т (0)))-> (0, [т' (9)]4 (9)), (2.61) где i(9)— функция информации, определенная в (2.18). Доказательство свойства асимптотической нормальности о. м. п. (если ограничиться случаем скалярного параметра) основывается на разложении функции вклада Un (о) = Un (X; 9) в ряд Тейлора относительно истинного значения параметра 6 и рассмотрении этого разложения в точке 0Л. Имеем 0 = Un (0„) = Un (9) + (6Л - 6) Un (9) + 4 (8„ - 6)2 Un У), где 9*—некоторая промежуточная точка между 6 и равенство можно записать в виде 9.. ото Г«(9л-9) _ г 4^1(0) L Ш (6) (2.62) где л п | е„ | = | 9Л - 911 Un (6*) \i2ni (0) . 4^ 5F 2 М » /=! Поскольку 9л-^9, из условия, наложенного на функцию М (х), на основании свойства 2° в) следует, что 8Л —0. Применим к величине --^(9) = I у d2 In f (Х/; 6) п бб2 /=1 74
закон больших чисел, согласно которому [см. (2.19)] _____!_ту /ю Ге _ J_Е 9)\_ . ni (0) СУп W i (9) ffi2 / *' К случайной величине 1 т > (tix___L_ V din/ (X/; fl) Vni(6) п( M применима центральная предельная теорема, по которой в силу соотношений (2.16) и (2.18) при и-»-со <2?0 (-7-^— (fi)'l (Ч -М - \/яЦ9) М ’} \ ’ i(6)/ Отсюда и из соотношения (2.62) в силу свойства 2° г) следует, что такое же предельное распределение имеет и случайная вели- чина ]/ц(9л — 6), т. е. справедливо соотношение (2.60). Утверждение (2.61) является прямым следствием (2.60) и утверждения 3°. Назовем асимптотической дисперсией статистики Тп, удовлет- воряющей при н->со условию #9(/п(Тя-т(е)))->®<г(0, о2о. величину о2(6)/н. Тогда из соотношений (2.60) — (2.61) следует, что асимптотическая дисперсия о. м. п. 9Я (о. м. п. тя) совпадает с нижней границей в неравенстве Рао —Крамера (2.20) для дисперсий всех несмещенных оценок рассматриваемой параметри- ческой функции. Введем следующее понятие, являющееся в неко- тором смысле асимптотическим аналогом понятия эффективности (см. п. 2 § 2.2): если оценка Тп (для параметра 6) является асимптотически нормальной ®./Д9, 1/ш(0)), то эта оценка — асимптотически эффективная. Для любой оценки Тп, удовлетворяющей условию <£0(ТЛ)~^(О, а’г(9)/н), (2.63) ее асимптотическая эффективность eff (Тп; 9) определяется как отношение нижней границы Рао — Крамера к асимптотической дисперсии оценки Тп: eff (7\; 6) = [i(9)aH9)H- (2.64) Из соотношений (2.60) и (2.64) следует третье свойство оценок максимального правдоподобия. 3) Оценка 0Я является асимптотически эффективной оценкой параметра 6, т. е. ее асимптотическая эффективность eff(9„; 8)=1. Приведем пример, показывающий, что оценки максимального правдоподобия не всегда асимптотически нормальны. 75
Пример 2.25 (равномерная модель, распределение о. м. п. ев параметра). Пусть X —(Хъ ..., Х„)~выборка из равномерного распределения R (0, 6). Тогда, как показано в примере 2.19, 9Л = Х1Л), Но, как было показано в § 1.4, экстремальные значения выборки не являются асимптотически нормальными. В частности, в рассматриваемом случае по теореме 1.8 при п->оо (б-ё„))->г (1, 1), т. е. в пределе имеем экспоненциальное распределение. Причина, по которой предельное распределение не является нормальным, заключается в нерегулярности модели. Замечание I. Из соотношения (2.61), вообще говоря, не следует, что пОбт,, -> ]т' (6)]’/i (6) при (из сходимости распределений еще не следует сходимость моментов). Более того, можно привести примеры, когда у стати- стики тл вообще не существуют конечные моменты ни при каком п, но утверждение (2.61) имеет место. Рассмотрим, например, задачу оценивания параметрической функции т(6)=1/9 в пуассоновской модели П (9). Здесь теоретическое среднее р(6) = 6, поэтому из результата примера 2.24 следу;Т, что о. м. п. 9Л совпадает с выборочным средним X. На основатщи принципа инвариантности о. м. п. тя=1/Х и для нее справедливо утверждение об асимп- тотической нормальности. Соотношение (2.61) в данном случае принимает вид #0(Гп(Ч.—6-3), V9 > О (см. табл. 2.1). В то же время («Х) = П (пб), откуда Pg (X = 0) = е пв >0. Следовательно, с положительной вероятностью X принимает нулевое значение и поэтому статистика тл ни при каком п не имеет конечных моментов. Замечание 2. В соотношениях (2.58)—(2.61) вторые моменты предель- ных распределений зависят от неизвестного параметра 6. Часто эту неопреде- ленность бывает необходимо исключить, т. е. заменить неизвестные характе- ристики оценками, которые можно вычислить по выборочным данным, и при этом так, чтобы нормальная форма предельного распределения не изменилась. Такое преобразование можно сделать на основании утверждений 3е и 4* [см. соотношения (2.55) и (2.57)], заменив 0 на его о. м. п. 6„. Сохранение формы предельного распределения гарантируется при этом условием непре- рывности по 6 вторых моментов. Так, например, если I (0) и т'(0)— непрерыв- ные функции, то справедливо вытекающее из (2.61) соотношение =^0 (Vni (0Л) "* ’)• (2.65) Замечание 3. Определение асимптотически эффективной оценки пред- полагает, что невозможно построить оценку с меньшей асимптотической дисперсией. Как правило, эго имеет место для регулярных моделей, удовлет- воряющих указанным выше условиям асимптотической? нормальности оценок максимального правдоподобия, хотя и существуют исключения, как это видно из примера 2.26. Для нерегулярных моделей (когда неприменимо неравенство Рао —Крамера) асимптотическая дисперсия о. м. п. может иметь порядок, меньший п-1. Так, из результатов примеров 2.15 и 2.19 следует, что дисперсия о. м. п. 0 в модели R (0, 0) имеет при больших п порядок п-2. Пример 2.26 (нормальная-l модель, сверхэффективная оценка ее параметра).' Пусть X = (X,...Хп) — выборка из ©/'"(9, I). Тогда о. м. п. 0Л = А' и 76
«5?е — (В> 1/я). Рассмотрим оценку т =f X при |Х|>=ап, л t ЬХ при ; X | < ап, где константа а„->0, но fnan-+со при п-»-со. Найдем предельный закон распределения этой оценки. Имеем Pfl (fn (Тл - 6) х) = рпР9 (| п (X - 6) х) + (1 - рй) Р0 ( fn (ЬХ — 0) х), где рч=Р0С X |5га„)=Ф(/п(0-а„)) + Ф(—/п(0 + ал))„—^J^0’ Таким образом, при п-+со для i 6 | > 0 и 0 = 0 соответственно имеем Хв (fn (Т'п-6))-> (0, 1), (р'н Т„)-> ;«/' (О, Ь’-). ( 1 при 0 j > О, Оценка Тп удовлетворяет условию (2.63) с (0) = < Следова- тельно, ее асимптотическая эффективность (см. табл. 2.1) „ . .. _ f । при 0 > О, е < «’ ) { tyfc2 при 0 = о При \ b ! < I eff (Тп-, 0) ~~1 со строгим неравенством в точке 0 = 0. Причина этого заключается в данном случае в нарушении непрерывности функции о|. (0) в нуле. Точки 0, в которых eff (Тп; 6) > 1, называют точками сверхэффектшности. В рассмотренном примере это точка 6 = 0. Как показал Ле Кам (1953 г.), множество точек сверхэффективности не более чем счетно, поэтому явление сверхэффективности не играет существенной роли в теории оценивания. Известны дополнительные условия регулярности, которые исключают это явление. Так, Рао доказал, что для этого достаточно потребовать равномер- ности по параметру 6 в предельном соотношении (2.63). В заключение рассмотрим асимптотическую эффективность оценивания среднего 0 нормальной модели @Фа(6, о1 2) с помощью выборочной медианы, т. е. когда Тп — Х([П/2]-р i>. В силу соотно- шения (1.24) выборочная медиана удовлетворяет условию (2.63) с о'т (6) = ла2/2, а так как в данном случае t(S) = 1/сг- (см. табл. 2.2), то eff (Т„; 0) = 2/л = 0,637 .... Это означает, что при больших п выборочное среднее X (= 6„) для выборки объема п’ —2п/п. оценивает истинное значение ё с такой же точностью, что и выборочная медиана Ацл/г]^ i) выборки объема п, независимо от значений 0 и о2. § 2.5. Метод моментов и другие методы, основанные на группированных данных 1. Метод моментов. Кроме рассмотренных в предыдущих параграфах общих подходов для оценивания неиз- вестных параметров распределений_______на практике используют и другие методы получения оценок. ;Исторически первым общим методом точечного оценивания неизвестных параметров является метод моментов, предложенный К. Пирсоном. Суть этого метода состоит в следующем. 77
Пусть, как обычно, X = (Xi, Х„) — выборка из распреде- ления X (£) е J7" = [F (х; 0), 0 е ©}, где 0'= (бь ..., 9Г) и 6 £ Rr. Предположим, что у наблюдаемой случайной величины £ суще- ствуют первые г моментов аА = Е£*, &=1, .... г. Они являются функциями от неизвестных параметров 0: ai = afr(0). Рассмотрим соответствующие выборочные моменты Лл*(Х) (см. п. 1 § 1.2); пусть а^ = Л„&(х)~значения этих величин для наблюдавшейся реализации х выборки X. Тогда метод моментов состоит в при- равнивании значений ак и теоретических моментов: ak(&) = all, k=l, ..., г. (2.66) Решая эти уравнения относительно 6]. ..., 6Г, получаем значения оценок параметров по методу моментов. v. Обоснуем этот метод. Известно (см. § 2.3), что выборочные < //моменты ЛП/,(Х) являются несмещенными и состоятельными оцен- ками теоретических моментов ос* (0). Предположим, что соответствие между 61, ..., и ai, ..., «г взаимно однозначное и взаимно непрерывное, т. е. существуют непрерывные функции од..............<рг такие, что 6е = (р;(аь ..., аг), 1 = 1, ..., г. Тогда решения урав- нений (2.66) можно записать в виде 9,-(х) = <рг (fli, ..., аг), 1 = = 1,..., г, а соответствующие оценки & (Х)=ср, (Ак1 (X),..., ЛЯГ(Х)) в силу теоремы 1.5 при каждом 0 будут сходиться по вероятности (по распределению Р9) при п-*со к 9;, т. е. статистики 6,(Х) являются состоятельными оценками 5,-, i = l, ..., г. Таким образом, метод моментов при определенных условиях приводит к состоятельным оценкам; при этом уравнения (2.66) во многих случаях просты и их решение (в отличие, например, от метода максимального правдоподобия) не связано с большими вычислительными трудностями. Пример 2.27 {модель гамма, оценивание параметров методом моментов). Рассмотрим модель гамма Г (Si, 62), когда оба пара- метра неизвестны (здесь © = {0 = (6i, 62): 6г> 0, i = 1, 2}). Имеем (см. табл. В.1) ОО = С дв/н- fe-.ie-x/e, dx/Г (62) 9* = = О — 61 02(02 1) . • • (02 + k — 1). В частности, «1 = 6162. = 6|92 (6е-|- 1), откуда 0i = (а2 — «i)/ai, 02 = a|/(tX2 — ос-i). Окончательно имеем, что оценками параметров по методу моментов являются в данном случае статистики [см. формулы (1.10) и (1.12)] 0'1 (X) Д ____ Д2 02 Д2 V2 „ __ Ъ ~ Ат = Л - ля1 X' Отметим, что метод моментов неприменим, когда теоретические моменты нужного порядка не существуют (например, для распре- деления Коши). Кроме того, оценки метода моментов, вообще 78
говоря, неэффективны. Поэтому их часто используют только в качестве первых приближений, ссновываясь на которых можно находить последующие приближения с большей эффективностью. 2. Метод минимума хи-квадрат. Систему различных методов построения оценок можно получить, ковструируя тем или иным способом меру & отклонения эмпирической функции распределе- ния F„(x) от F (х; 6). В любом случае такая мера является функ- цией от выборки X = (Xlt ..., Хп) и параметра 0: ^ = ^(Х; 0). Если такая мера имеется, то в качестве оценки параметра 0 следует взять значение, минимизирующее меру Рассмотрим в качестве примера одну из наиболее известных и употребительных мер — меру хи-квадрат, предложенную К. Пир- соном. Это мера определяется следующим образом. Разобьем множество S возможных значений наблюдаемой случайной вели- чины £ на N непересекающихся подмножеств ..., ^д>, (8 = = U • • №, = Ф> и пусть V/-число элементов выборки Х=(Х1, ..., Х„), попавших в подмножество V/ = = |{i: Хг <=£,}[, / = N (vi + .-. + va^h). Обозначим через Pj (0) вероятность попадания в подмножество pj (0)=Рэ (5 s £/)= = dF(x; 0), / = 1, N (pi(0) + -.. + p,v(0) = 1). Относительная частота Vj/n попадания в подмножество является состоятельней оценкой вероятности р7(0), поэтому мерой отклонения выборочных данных от теоретических значений может быть мера ~ Pi <е)Л j=i Если здесь положить веса cj = nlpj(fi), то получим меру хн- квадрат: £р/(?)\П РЛ )] 2^ пр;(&) npt (b) * ' /=1 /=1 /=1 В дальнейшем иногда будем также использовать для этой меры название мера икс-квадрат и обозначать ее через X2, обозначая символом величину, имеющую распределение хи-квадрат. Оценку 0, полученную из условия обращения меры %2 в минимум, называют оценкой по методу минимума %2. При достаточно общих условиях эта оценка оказывается состоятельной, асимптотически нормальной и асимптотически эффективной (как и оценка максимального правдоподобия). Для нахождения указанной оценки надо решить систему уравнений ....... <’=<’>• ’'»• /=1 ' 79
Однако это трудно сделать даже в простейших случаях, поэтому вместо нее обычно рассматривают систему у V/ Ор/ (5) Z Pi (9) k= 1, . . . , Г, (2.68) решение которой находить, как правило, гораздо проще. Оценки параметров 0, получающиеся как решение системы (2.68), назы- вают оценками по видоизмененному методу минимума %*. При весьма общих условиях последний метод позволяет получить оценки, обладающие в случае больших выборок теми же асимп- тотическими свойствами, что и оценки, найденные с помощью метода минимума х2 3. Мультиноминальные оценки максимального правдоподобия. Описанные в п. 2 способы оценивания параметров предполагают использование не самих исходных наблюдений Х = (Хь ..., Хп), а частот v = (vb v1V) попадания элементов выборки в соот- ветствующие подмножества Si, ..., SA-. Такой «частотный» спо- соб представления статистических данных называют методом группировки наблюдений, а подмножества Si, ..., Жд- — множест- вами (или интервалами, если ^ — интервалы на действительной прямой) группировки. В каждом конкретном случае метод груп- пировки полностью определяется разбиением S = Si U... U Если такое разбиение построено, то тем самым однозначно опре- делены вероятности р = р (0) = (pi (0),..., pN (0)) попадания резуль- тата каждого наблюдения в соответствующие подмножества .... SN и каждая реализация x=(Xi, ..., х„) выборки Х = = (Xi, .... Х„) однозначно определяет соответствующую реали- зацию h = (hi, ..., hN) вектора частот v = (-vb ..., vv). Обозна- чим через LnN множество всех реализаций вектора v, т. е. hn.\-= {h = (/ii, ..., йл): йу = О, 1, ..., п, /=1, ..., N, /гг + ... + /1л-=п’, (2.69) и найдем вероятности Ps(v = h), he/.,--. Число различных спо- собов зафиксировать hi элементов выборки, попавших в подмно- жество Si, ..., hN элементов выборки, попавших в подмножество Sh, очевидно, равно <ohl/-h2 n! C-n l-n — hl • -On — ht— ~ h I /, f . * A Вероятность того, что hj элементов выборки попадут в подмно- жество Si, / — 1, .... N, в силу независимости испытаний равна к П и не зависит от конкретных номеров испытаний. Следовательно, N • Pg(v = h) = L(1) (h; 0)=^ h = U (2.70) 1 " Л’7=1 80
Полученное распределение случайного вектора v=(vi, vN) называется полиномиальным или мультиномиальным распределе- нием с параметрами п . . + yv и р,(6), N, и обозначается символом М (п, p = (pi, р^)). Таким образом, с любым методом группировки наблюдений связано соответству- ющее полиномиальное распределение вектора частот попадания элементов выборки в подмножества группировки. Если число подмножеств группировки N = 2, то распреде- ление (2.70) совпадает с биномиальным распределением ВЦп, рд числа осуществлений события {g е ifi} в п независимых испы- таниях. Определенную в (2.70) функцию ZJ1’ (h; 0) можно считать частотней функцией правдоподобия в методе группировки наблю- дений в отличие от обычной функции правдоподобия L (х; 0) = = П № 0). 1=1 Опенку параметра 0, получаемую из условия максимизации (при фиксированном h) функции Lfl) (h; 6), называют мультиноми- альной оценкой максимального правдоподобия. Уравнения для отыскания этей оценки dlnL,l) (h; 6)/d6* = 0, ...» г, совпа- дают с уравнениями (2.68). Таким образом, оценки по видо- измененному методу минимума уг совпадают с мультиномиаль- ными оценками максимального правдоподобия. § 2.6. Интервальное оценивание В предыдущих параграфах были рассмот- рены точечные оценки для параметра 6 исследуемой модели & — = {F(х; 0)$O Е0} и функций этого параметра. Любая точечная оценка представляет собой функцию Т — Т (X) выборки X = (ХЬ ... ..., Хл), т. е. является случайной величиной, и при каждой реализации х выборки X эта функция определяет единственное значение i==T(x) оценки, принимаемое за приближенное значе- ние оцениваемой характеристики. При этом надо принимать во внимание, что в каждом конкретном случае значение оценки может отличаться от значения параметра; следовательно, полезно знать и возможную погрешность, возникающую при использова- нии предлагаемой оценки. Например, указать такой интервал (или область в случае векторного параметра), внутри которого с высокой вероятностью у находится точное значение оценивае- мого параметра. В этом случае говорят об интервальном или доверительном оценивании, а соответствующий'интервал называют доверительным. Величину у выбирают заранее; она отражает «степень готовности мириться с возможностью ошибки». При заданном у длина доверительного интервала характеризует точ- ность локализации значения параметра, поэтому желательно вы- бирать кратчайший интервал. Если этот интервал можно по- строить, то он обеспечивает наиболее точную (при заданном у) 8!
локализацию параметра. Подобный подход к задаче оценивания неизвестных параметров распределений и будет рассмотрен в дан- ном параграфе. 1. Понятие доверительного интервала. Рассмотрим доверитель- ное оценивание скалярного параметра. При интервальном оце- нивании ищут две такие статистики Т1 = 7'1(Х) и Тг — Тг(Х), что Ti<T2, для которых при заданном уе(0, 1) выполняется условие Ре(Т1(Х)<0<Т2(Х))^?, V9s©. (2.71) В этом случае интервал (7\(Х), Г2(Х)) называют у-доверитель- ным интервалом (для 6); число у — доверительным уровнем или дове- рительной вероятностью, 7\ (X) и Т2 (X) — нижней и верхней дове- рительными границами соответственно. Таким образом, у-довери- тельный интервал—это случайный интервал в параметрическом множестве 0: (T'i, зависящий от выборки X (но не от 0), который содержит (накрывает) истинное значение неизвестного параметра 9 с вероятностью, не меньшей у. Если выполнено условие (2.71), то это практически означает следующее. Пусть проводится большое число не зависящих друг от друга экспериментов, в каждом из которых по п наблюдений над случайной величиной 5 с <5? (g) е «F. Оценивается параметр 6 и используется следующее статистическое правило: если резуль- таты эксперимента описываются выборкой X, то неизвестное зна- чение параметра 6 лежит внутри интервала (7\(Х), Г2(Х)). Тогда это правило иногда может оказаться ошибочным, но число таких случаев при у, близком к 1, мало и составляет примерно (1—у) 100% общего числа случаев применения этого правила. На практике обычно используют значения доверительного уровня у из небольшого набора заранее выбранных, достаточно близких к 1 значений, например у = 0,9; 0,95; 0,99 и т. д. Иногда рассматривают односторонние доверительные интервалы, соответственно верхний (вида 6<С Т"2 (X)) и нижний (вида 7\(Х)< <6), определяемые условиями, аналогичными (2.71), в которых опускают соответствующую вторую границу. Аналогично определяется доверительный интервал для отдель- ной компоненты (например, 91) в случае многомерного пара- метра 0: Ре (Tr (X) < 61 < Т2 (X)) у, ve е= 0, а также доверительный интервал для скалярной параметрической функции т (9) (9 может быть как скаляром, так и вектором): Р0(Г1(Х)<т(9)<Т2(Х))^у, V6S0. 2. Построение доверительного интервала с помощью централь- ной статистики. Общий прием, с помощью которого в ряде случаев можно построить доверительный интервал, состоит в сле- дующем. Пусть модель <У абсолютно непрерывна и существует случайная величина G (X; 6), зависящая от 9 и такая, что: 82
1) распределение G (X; 9) не зависит от 0 и 2) при каждом xeJ функция G(x; 9) непре- рывна н строго монотонна по 9 —такую случайную величину называют иногда цент- ральной статистикой (для 6). Аналогично определяется центральная статистика для отдельной компоненты (например, бЛ) в слу- чае многомерного параметра О — G(X; 9j), а также для скалярной параметрической фун- кции т=-г(9) (9 может быть как скаляром, так и вектором)—G(X; т). Далее будем рас- сматривать для краткости лишь случай скалярного параметра 9. Пусть для модели «F построена центральная статистика G(X; 9) и — ее плотность распределения. Функция fa(g) от параметра 6 не зависит [условие 1)], поэтому для любого уе(0, 1) можно выбрать величины gx<.g-z (многими способами) так, чтобы pe(gi<G(X; 9)<gj>)= fa(g)d£=y. gi (2.72) Определим теперь при каждом хе.Г числа 7\(х), i = I, 2, где 7\(х)<7\(х), как решения относительно 9 уравнений G(x; Э)=£1, Й2 (2.73) [однозначность определения этих чисел обеспечивается условием 2), наложенным на функцию G(x; 6)]. Тогда неравенства gx<. <G(x; Э)<^2 эквивалентны неравенствам Тх (х) < 6 < Т2 (х) (рис. 2.1) и, следовательно, (2.72) можно переписать в виде Ре (7\ (Х)<19 < Т2 (X)) =у, V9. Таким образом, построенный интервал (ГДХ), 7\(Х)) является у-доверительным интервалом для 9. В каждой конкретной задаче при построении центральной статистики для оцениваемой характеристики обычно приходится учитывать специфику рассматриваемой модели (см. следующие ниже примеры), однако можно выделить класс моделей, для которых центральная статистика всегда существует и имеет про- стой внд. Именно: если функция распределения F (х; 9) непре- рывна и монотонна по параметру 9, то можно положить G(X; 9)=— 2 InF(X); 9). (2.74) с= i Действительно,. непрерывность и монотонность по 9 здесь оче- видны, а так как <5?9(F(X{; 9)) = 7? (О, 1) при любом 9, то распре- деление G(X; 0) не зависит от 6. Далее, из X (т]) = Я (0, 1) следует, что —1пг|) = Г(1, 1). Таким образом, слагаемые в*(2.74) независимы и каждое из них имеет распределение Г(1, 1). По воспроизводящему свойству гамма-распределения окончательно получаем, что плотность распределения статистики G(X; 9) есть 83
плотность распределения Г(1, п), т. е. (см. табл. B.l) f0(g) = = gn~l е~8/Г(п), g>0. Отсюда и из (2.72) получаем следующий метод построения доверительного интервала для 6: при заданном у выбираем числа gi<gi так, чтобы Я’ гЬ = 8. Решая уравнения -2 1пГ(хг; e) = gn ёг, (2.75) i=i находим корни Ti(x)<T2(x). Тогда (7\(Х), 72(Х)) —искомый y-доверительный интервал для 9. Очевидно, наибольшая труд- ность в применении этой методики к конкретным задачам возни- кает при нахождении решений уравнений (2.75). Рассмотрим несколько важных примеров использования цент- ральных статистик при построении доверительных интервалов для параметров нормальных моделей. Пример 2.28 (нормальная-1 модель, доверительный интервал для среднего). Пусть по выборке Х = (Х2, ..., Х„) требуется по- строить доверительный интервал для неизвестного среднего 9 в модели <s^(9, о2). Известно (см. теорему 1.10), что J50(]/n (X— — 6)/о) = ®У“(0, 1). Следовательно, в данном случае централь- ная статистика G(X; е) = Гп^-в. Решения уравнений (2.73) имеют вид 7\(х) = х—7~g2, Т2(х) = Х— У п ---/~gi> поэтому у-доверительным для 9 является любой интервал V1 Av(X) = (X-^2, *-^gt), (2-76) где giCga’—любые числа, удовлетворяющие условию ®(gz)-®(gi)=T- (2.77) Отметим, что, хотя интервал Д¥(Х) случаен, его длина постоян- на и равна /v(gi, ga)=<r (g2 — gij/V'n, поэтому, чтобы среди всех интервалов вида (2.76) выбрать кратчайший, надо мини- мизировать функцию ly(gi, g2) при условии (2.77). Применяя метод Лагранжа нахождения условного экстремума, получаем следующую систему уравнений: (gi) = о/К'О >•<₽ (gi) = о/К«,. Ф (gs) - Ф (gi) = Г» где «р (х) = Ф' (х) = -yL= е~*г/2. Отсюда находим, что <p (gt) = <р (g2). у 2л Так как функция q>(x)—четная, то ё1 ——gz- Учитывая это, 84
а также последнее уравнение и соотношение Ф(—х) = 1—Ф(Л), получаем равенство Ф (g4) = (1 + у)/2, из которого находим, что :;cv — ф-1 ((1 + у)/2) — (I + у)/2-квантиль стандартного нормаль- ного распределения ©^"(О, 1). Итак, оптимальным [среди интервалов AY (X)] у-доверитель- ным интервалом для параметра 6 в модели ст2) является интервал Ду (Х)=[х-Лсу, Х + 4 Су = ф-1Л+1\; (2.78) т. е. симметричный относительно случайной точки X интервал длины 2осу/]/л. В частности, для доверительного уровня у —0,99 величина су = 2,5758; су = 3,0902 для у = 0,998. Симметрия опти- мального интервала отражает тот факт, что распределение цен- тральной статистики в давнем случае оказалось симметричным относительно оцениваемого параметра. Пример 2.29 (нормальная-2 модель, доверительный интервал для дисперсии). Построим доверительный интервал для неиз- вестной дисперсии 62 в модели ©/'(р, 92). В этом случае также легко найти центральную статистику, зависящую отт = т(6) = 62: И G(X; т) = | УдХ,-м)2. i= 1 Действительно, так как =5fe ^ = аС(0, 1), то = = у2(I) (см. п. 1 § 1.5). Следовательно, Jf0(G(X; т)) = у2 (/г). Здесь л п Ti<K>=t, 2 г,<х,-л 2 1=1 1=1 — решения (относительно т) уравнений G(x; x)=glf g.2. Следова- тельно, у-доверительным для т=92 является в данном случае любой интервал /Л п Ъ xY(xMgl; У (х, -М)2, g' <2-79* \ / = 1 / С’ где gi<g2 находят из условия ku(x)dx = y [плотность &л(л). gi распределения х2(п) определяется формулой (1.28)]. Как правило, gi и g-> следует выбирать так, чтобы выполнялись равенства &л(х)(1х = -Ц^, j/г„(х)ск = Цр, (2.80) о S’ т. е. gi = Xu — v>/a- п, gr2 = X(i+v>/2. п, где yj. п-р-квантиль распре- деления хг(^)- В этом случае соответствующий доверительный 85
интервал называют иногда центральным. Соотношения (2.79)—(2.80) и определяют рекомендуемое для практического использования правило доверительного оценивания неизвестной дисперсии в мо- дели ®-Г(ц, 62). Задача отыскания наикратчайшего интервала среди интервалов вида (2.79) сводится к минимизации отношения g2/gi при условии Hi $ fen(x)dx = y. Метод неопределенных множителей Лагранжа при- gi водит в данном случае к уравнениям gtkn (gi) — g2k„ (g2), & 5^n(x)dx = y или, если положить gi = x«i.»> gz — Xi-a^n, где gi a14-ct2 = l —у, к уравнению (Xi -а-,. Л „)™/2 = exp {(Xl-а2. n - Хаь n)/2}. (2.80') Значения аг и а?, удовлетворяющие (2.80'), определяют оптималь- ный у-доверительный интервал вида (2.79): / п п \ А? (X) = -А- У № - P)s, У (*. - Ю2 (2.79') \А1 — Оз, я t Лсс1( п ] Таким образом, центральный интервал в данном случае не является наикратчайшим. В табл. 2.3 [10, с. 275] приведены значения (й.«; Xi-as> п) и (Х(1-т>/2. п, Х(1+т>/2.«) Для У = 0,95 и некоторых значений п. Таблица 2.3 а (Ха,, Xi—txj, п) (хи— у)/2. п; *(l+V)/2, п) (Ха.,, п ~~ X(l — v)/2, п' Xi—as, п ~ Х<14-т)/2, п) 2 (0,08; 9,53) (0,05; 7,38) (0,03; 2,15) 5 (0,99; 14,37) (0,83; 12,83) (0,16; 1,54) 10 (3,52; 21,73) (3,25; 20,48) (0,27; 1,25) 20 (9,96; 35,23) (9,59; 34,17) (0,37; 1,06) Заметим, что центральной статистикой для оценивания средне- квадратического отклонения 6 является, очевидно, n 11/2 £ G(X; 9) = 1 2 (Xf-p)’ Пример 2.30 (общая нормальная модель, доверительные интер- валы для среднего и дисперсии). Рассмотрим доверительное оцени- вание параметров в общей нормальной модели 85). Из тео- ремы 1.10 следует, что G(X; 6^) = nS2 (Х)/61 — центральная ста- тистика для оценивания дисперсии 0|. Здесь S2 (X) — выборочная дисперсия. Доверительный интервал для 8| находим по схеме 86
предыдущего примера; окончательно получаем: центральным у-до- верительным интервалом для 91 является интервал (/zSWXa + w/s. n-ь n^(X)/x?i-vV2. «-О- (2.81) В частности, для выборки объема и = 10 и доверительного уровня 7 = 0,9 имеем Хо.от; # = 3,3251, Хо.эа; э= 16,9190, поэтому централь- ный 0,9-доверительный интервал для 9| имеет вид (0,5911 S2(X), 3,007 S2(X)). Наикратчайший в данном случае интервал (aS2 (Х)/Х|_а21 п_1( nS2 (X)/xalt п — i), oti-f-a2 = l—у, (2.8Г) где Х«,. и-1 и Xi-ai, n-i определяются соотношением (2.80'), в котором п заменено на п— 1. В силу теоремы 1.11 центральной статистикой для оценива- ния среднего 61 является G(X; 91)=/^l|=§-, причем распределение этой статистики (распределение Стьюдента S(n — 1)) симметрично относительно своей средней точки. Расчет доверительного интервала проводится так же, как в примере 2.28. Окончательно получаем: у-доверительным для 91 является интервал /у S (X) j у । S (X) , \ QQ-. где tv,n-i~ (1 + у)/2-квантиль распределения S (п — 1). Построен- ный интервал имеет минимальную длину среди всех у-доверитель- ных интервалов вида (X —OiS(X), X-f-asS (X)). В частности, А).9»;»—2,262, поэтому для выборки объема п=10и доверитель- ного уровня 7 = 0,95 интервал (2.82) имеет вид (X — 0,754 S(X), Х + 0,754 $(Х)). Методику, основанную на использовании центральных стати- стик, можно применять и в других случаях. Приведем два практи- чески важных соответствующих примера, относящихся к проблеме сравнения двух нормальных выборок. Пример 2.31 (доверительный интервал для разности средних двух нормальных моделей). Пусть X=(Xlt..., Хп) и Y=(Y!,..., Ym)— две независимые выборки, причем первая —из распределения ©/'"(Э)1', 91), а вторая —из распределения ©-//'(9'12!, 9|). Таким обра- зом, соответствующие модели отличаются только своими средними и требуется оценить их разность 6/' —Э)21. Эту задачу называют задачей сравнения двух средних. Согласно замечанию к теореме 1.12, отношение Стьюдента t _ -.f тп (т + X — Y - (О1,11 - О)81) 1 т-\-п [n$8(X) + mS3(Y)]1(2 имеет распределение S(m + n — 2) при любых значениях парамет- ров 9(1’, б/2, 9|, поэтому величину t можно использовать в каче- стве центральной статистики для оценивания разности б)1’— 6)2’. Соответствующий у-доверительный интервал строится так же, как 87
и интервал (2.82) в примере 2.30, и имеет вид (X - F ± ("S* (X) + <Y)) . Если дисперсии моделей известны и равны соответственно а’| и о.2, то центральную статистику для оценивания разности сред- них 6'11 — можно легко построить, рассуждая следующим образом. Выборочные средние X и Y независимы и нормальны ©/№(6(1\ 11 ®/°(612>, щ/от) соответственно, поэтому их раз- ность X — Y также нормальна ©/Цв11’— 0^’, <ц,'п + о;//л). Следо- вательно, случайная величина [/Y — Y — (S'11 — 8,2*)]?|/oi’/« + ol/wi имеет распределение ©/ '(0, 1) при любых значениях параметров 0(1> и в<2) и поэтому является центральной статистикой для данной задачи. Расчет у-доверительного интервала проводится здесь ана- логично примеру 2.28, и искомый интервал для 0'° — 6>21 имеет вид (X — Y + с\ = Ф 1 ((1-|-у)/2). Пример 2.32 (доверительный интервал для отношения диспер- сий двух нормальных моделей). Рассмотрим теперь случай, когда Х = (ХЬ ..., X,) — выборка из распределения 02’'2), a Y = — (Уь ..., Pm) —из распределения W'/Sp', 0/2) и выборки неза- висимы. Требуется оценить отношение 9^/0/2 неизвестных дис- персий. Центральную статистику в этой задаче можно построить на основании теоремы 1.13, согласно которой случайная величина ~m(n-l) S2(Y) / имеет распределение Снедекора S(n — 1, т — 1) при любых зна- чениях параметров 97, 9'7, 07, 9/'. Следовательно, F является искомой центральной статистикой для оценивания отношения SV'/Qf’2. Соответствующий у-доверительный интервал строится так же, как и интервал (2.81) в примере 2.30, и имеет вид /п (m—1) S-(X) 7 р fl(m-l)S2(X) /,, \ \ т (ч —1) S2 (Y) / ГЦЛ п-l. m-l’ гч (rl — 1) S3 (Y) / Цр, « - 1. т- 1!’ где Fp< 1 — р-квантильраспределения5(н—1 ,т—1).В частности, Ео.95. & в — ».ч= 3,44, ц.н ^'в.от, н.н ~ 2,69, поэтому 0,9-доверительный интервал для выборок объемов п = т = 9 есть (0,58S2(X)/S2(Y), 3,44S2(X)/S2(Y)), а для выборок объемов п = = т - 13 - (0,37S2 (X)/S2 (Y), 2,69S’ (X)/S2 (Y)). Пример 2.33 (доверительный интервал для параметра равно мерной-! модели). Построим по выборке X = (Xi, ..., Х«) из рав- номерного распределения R (0, 6) доверительный интервал для параметра 0. Здесь F(x- 6) = х/6, 0<х<9, т. е. функция распре- деления непрерывна и монотонна по 9 при 0>О; следовательно, можно использовать, например, центральную статистику (2.74), 88
которая в данном случае принимает вид G(X; 6) = — V 1пХ, + »1пе. i = i Решениями уравнении (2.75) являются числа Tj (х) = е«/п (ГТ Х[!' , j=l, 2, '\i=i / поэтому у-доверительным для 0 в данном случае будет любой интервал.(Tj(X), 7\(Х)), в котором gi<.gi удовлетворяют усло- вию гро ) gn'1e-8'dg = y. Кратчайшим среди всех таких интерва- лов при о = 1 является интервал (Хъ Хх/(1 — у)), а при n> 1— интервал / / п \1/ге / п Hqnxj , е^||Хц 1, \ 4=1 / 1 ! ! где g*<gl однозначно определяются из соотношений 1 g* 1 е* 1 рм (п — 1) 1 _ J in — 1 > - gt £t g* —-— i 2п~ ’р4’ dff = v Г («) J ® а У’ В данной задаче можно указать н другую центральную ста- тистику. Именно, из результата примера 2.15 следует, что ^е((Х(л)/6)«) = /?(0, 1), V9>0. Таким образом, величину (Х(Л)/9)" также можно использовать в качестве нейтральной статистики для оценивания 0. Согласно общей методике [см. соотношения (2.72) — (2.73)], у-щоверительным для 6 является любой интервал вида (х,„,/>/”g, Х(л)/>/£—у), y Cg^l. Среди всех таких интервалов наименьшую длину имеет, очевидно, интервал, соответствующий значению g = l, т. е. интер- вал (Х(л), Х(Я)/»< 1 -у). При п = 1 оба метода приводят к одному результату, при п>1 однозначно ответить на вопрос о том, какой из этих двух методов приводит к более точной локализации параметра, трудно. 3. Построение доверительного интервала с использованием распределения точечной оценки параметра. Если уже имеется не- которая точечная оценка 7' = 71(Х.) для параметра 9 и известна ее функция распределения FT (F, 9), то доверительный интервал для 9 можно построить, основываясь на этой функции. Предпо- ложим, что распределение оценки Т непрерывно и функция Fr(t; 9) непрерывна й монотонна по 6. Пусть задан доверитёль- 89
Рис. 2.2 ный уровень у. Определим при каждом 6е9 числа /< = ^(6), i = l, 2, где G < t2 и P9^<T(X)<i2)=Fr(^ 9)-Fr(4; 8)=V- (2.83) Чтобы данная процедура была однозначной, часто рекомендуется выбирать эти числа так, чтобы выполнялись условия FT(tr, 9) = (1-у)/2, 1-Л-(/2; е) = (1-у)/2, (2.84) т. е. речь идет о построении центрального доверительного интер- вала. Обозначим через подмножество 0X0: = = {(6, 6'): 4(9)<6'<Д2 (9)} (рис. 2.2). Тогда Рв((9, Т(Х)) е= <Fy)=y при V8 0. Определим теперь при фиксированном 6' сечение zFv(0') множества ^rY(6') = {6: (9, 9')^.®^} —и рассмотрим случайное множество (Г (X)) с 0. Событие 6 е (Т (X)) про- исходит тогда и только тогда, когда Т (X) <= (Ч (9), t2 (6)) и, сле- довательно, при каждом 9 имеет вероятность у. Таким образом, построено случайное множество (Т (X)), которое накрывает истинное значение параметра 9 с вероятностью у. Если это мно- жество является интервалом, то тем самым построен у-довери- тельный интервал для 9. Это имеет место, если кривые 9'=/,(9), i = l, 2, являются монотонными одного типа (т. е. одновременно либо возрастают, либо убывают), что обеспечивается условием непрерывности и монотонности функции FT(t-, 9) по 9 (рис. 2.3). Таким образом, при сделанных предположениях множество (О') при каждом 9' представляет собой интервал; следовательно, опре- делены его концы 6i(9')<02 (9'), а тем самым и соответствующий у-доверительный интервал (ТДХ), Т2(Х)) для 9, где ТДХ) = = 6ДГ(Х)), 1 = 1, 2. Построение диаграммы придает наглядный смысл этой методике. Диаграмму строят по вертикали (для любой абсциссы 9 находят из условия (2.84) соответствующие ординаты ir и А>); «читают» же ее по горизонтали, т. е. для наблюдавшейся ординаты / = Т(х) (х— реализация выборки X) «считывают» две величины 91 и 62 и утверждают, что 9 е (9j, 92). Таким образом, если «читать» диа- грамму по вертикали, то границы области описываются парой переменных точек (9, ti) и (9, t2) таких, что выполняется усло- вие (2.84). Если же «читать» диаграмму по горизонтали, то гра- ницы можно эквивалентно описать парой переменных точек 90
Рис. 2.4 (t, 62) и (t, 02), взяв за независимую переменную наблюдаемое значение t оценки Т (X). Тогда соотношения (2.84) можно переписать в терминах этих ве- личин так: если функции tt (6) возра- стают (см. рис. 2.2), что соответствует убыванию по 0 функции Fr(t; 9), то 1-^^; 6i) = (l—V)/2, FT(F, 02) = = (I — у)/2, если же функции t, (0) убы- вают, что соответствует возрастанию по О функции Fr(F, 0), то Fr(t; 9,) = (1 — у)/2, 1 — Fr(t; fi2) = (l —у)/2. Итак, алгоритм построения центрального у-доверительного интервала для 0 в случае, когда функция распределения Fr(t-, 0) оценки Г — Г (X) непрерывна и монотонна по 0, состоит в сле- дующем. Пусть t — Т (х) — наблюдавшееся значение оценки. Решая относительно 0 уравнения /';(/; 0) = (1—у)/2, (1 + у)/2, (2.85) найдем два числа 6i<92. Далее утверждаем, что 0 е (01, Э2). Приведенная теория гарантирует, что при у, близком к 1, вероят- ность ошибки в случае применения этого правила равна 1—у. Аналогичные рассуждения можно провести и для случая дискретной мо- дели. Единственное отличие состоит в том, что из-за ступенчатости функции распределения FT(t- 0) в соотношении (2.83) можно, вообще говоря, обеспе- чить лишь выполнение неравенства Ро(/1<Г(Х)</2) = Ег(/2-О; 6)-Fr(/v 6)^у, (2.83’) поэтому вместо условий (2.84) следует ввести условия />(\; 6)^(1-у)/2, 1-Е^-О; 0)<с(1-?)/2, (2.84') где (j—наибольшее, a f2 —наименьшее значения Т, удовлетворяющие этим не- равенствам. Кривые 0'=1!;(6), ! = 1, 2, в данном случае являются ступенчатыми (рис. 2.4) и при «считывании» величии 0,- (&'), (=1, 2, следует брать крайнюю правую точку отрезка пересечения горизонтальной прямой с левой кривой и крайнюю левую точку — с правой кривой (когда линия пересечения попадает на горизонтальные отрезки «ступенек» кривых). Алгоритм построения цент- рального "у-Доверительного интервала для 0 в дискретном случае в основном тот же, что и для непрерывного, только вместо уравнений (2.85) надо решать относительно 0 уравнения FT(f- 6) = (i—v)/2, 1—0; 0) = (1—у)/2, (2.86) где t — наблюдавшееся значение оценки Т. Замечание. Часто вместо центрального доверительного интервала в дискретном случае рекомендуется строить множество по принципу вклю- чения в него значений статистики Т с наибольшими (при каждом 0) вероятно- стями их появления. В случае применения этого метода вместо условий (2.83')— (2.84’) границы (г=/г(6), 1 = 1, 2, определяют из условия P9(G<T</2) = J) P9(T = ()=sy. tt < I < t2 При этом требуют, чтобы в сумму были включены значения f с наибольшими вероятностями их появления и чтобы интервал (ifj, (2) был наименьшим, удов- 01
летворяющим данному условию. В ряде случаев, когда распределение стати- стики Т асимметрично, такой способ позволяет получить более короткие дове- рительные интервалы. Отметим, что, выбирая различные оценки Т (X), будем полу- чать различные доверительные интервалы. Но конечная цель— это получить как можно более короткие интервалы (при фикси- рованном доверительном уровне у). Предположим, что исполь- зуются несмещенные и приблизительно нормальные опенки; тогда введенные выше интервалы тем короче, чем меньше дисперсия оценки. Таким образом, эффективные и асимптотически эффектив- ные оценки приводят к кратчайшим или асимптотически кратчай- шим интервалам. Выше было показано (см. п. 4 § 2.4), что при весьма общих условиях оценки максимального правдоподобия 0П являются асимптотически эффективными и асимптотически нор- мальными и при этом [см. соотношение (2.65)] при и->оэ Р0 (| 6« - 6 j JZ Ф^) <су) +Ф(су) -Ф(-су) = 2Ф’(су) _ | _ 7, (9.87) если cv — Ф1 р-)- Отсюда следует, что (ёл — Су/И tii (6Л), 6Л+ (6Л)) — асимптотический кратчайший у-доверительный интервал для параметра 6. Проиллюстрируем эти общие принципы примерами. Пример 2.34 (доверительный интервал для параметра бернил- лиевской модели). Пусть требуется построить доверительный интер- вал для параметра 0 модели Bi(l, в). Если имеется соответствую- щая выборка Х = (ХЬ то оптимальной оценкой для О является статистика Т = Х. Случайная величина Т принимает значения 0, 1/«, 2/л, .п(п, при этом k е) = 2 СХ1-9)’- г = 0 Здесь * ; э) =— пСп-10л(1 — 0)'г~* ’ <0, k<Zn, так что функ- ция FT(k!n\ 0) монотонно убывает по 0 при k <Zn. Следовательно, применима описанная выше методика, согласно которой прн Т = kin (0Ь 02) — центральный у-доверительный интервал для 9, где 01 и 62 определяются в соснветствии с уравнениями (2.86), которые в данном случае принимают вид п 6i)= 2 С^(1-01)Л-Г=Ц1. r = fe k Ft (4; е4 = 2(1 ~ Вг)я~г= г = 0 Доверительные интервалы (01т 92) рассчитаны для широкого диа- пазона значений п и у = 0,9; 0,95; 0,99 [2]. 92
Если число наблюдений п велико, то для быстрого нахожде- ния приближенного доверительного интервала для 6 можно вос- пользоваться асимптотической теорией. В рассматриваемом слу- чае о. м. п. 9Л = X и функция информации i (9) = 1/[9 (1 — 9)] (см. табл. 2.1), поэтому из соотношения (2.87) имеем, что (х-^ухп -X), х+^-у'х7Г^Т)|, = — асимптотический у-доверительный интервал для 9. Пример 2.35 (доверительный интервал для параметра пуассо- новской модели). Рассмотрим теперь оценивание параметра В мо- дели П (6). Оптимальной оценкой для 6 здесь также является статистика Т = Х, принимающая значения k/n, k=0, 1, 2, ... I п \ Так как У Х;1 = П(п9), то 'i=i / k Fr(- 61 = У е-«0^. \ п ) rl г = О Здесь Fr{kn', s'l = — /ге^-^-сО, т. е. функция Fr(k;'n-, 8) мо- нотонно убывает по 6. Согласно изложенной выше методике, если Т — kin, то центральным у-довер и тельным интервалом для 9 является интервал (9Ь 82), где 9Х и 62 определяются соответ- ственно уравнениями ОО r—k k Рт!Ь.. 9\= V = \п j-i Г! I г =0, Как и в предыдущем примере, для больших значений объема выборки можно просто рассчитать приближенный доверительный интервал. В рассматриваемом случае о. м. п. 8П =» X и i (В) == 1/8, поэтому из соотношения (2.87) имеем, что (Х± Су]/X,'и) —асимп- тотический у-доверительный интервал для 6. ' Пример 2.36 (доверительный интервал для параметра модели степенного ряда). Построим асимптотический у-доверительный интервал для параметра 9 распределения типа степенного ряда (см. пример 2.12). Из результатов примера 2.24 и соотноше- ния (2.87) следует, что искомый интервал имеет вид [о I л 1 f в'1 | — •’0 С —--------- Г - cv ]/ П(1, {ёа)) - - с>- о (У уп/ где 9Я — решение уравнения р(9) = Х, а ц (В) и <т2 (В)— теоретиче- ские среднее и дисперсия соответственно. Построенный в преды- 93
дущем примере приближенный интервал — частный случай этого решения. 4. Доверительные области для многомерного параметра. До сих пор рассматривалось доверительное оценивание скалярного пара- метра и речь шла о построении такого случайного интервала, который с заданной вероятностью накрывает истинное значение неизвестного параметра. Если оценивается векторный параметр 0 = (91, ..., 0Г), то вместо доверительных интервалов определяют доверительные области (или зоны) = J- (X) с: 0 с помощью усло- вия, аналогичного (2.71): P5(9e^(X))2:V, VOe=0. (2.88) Таким образом, у-доверительная область —это такое случайное подмножество в параметрическом множестве 0, зависящее от выборки X (но не от 0), которое накрывает истинное значение неизвестного параметра 0 с вероятностью, не меньшей у. Общий метод построения доверительной области состоит в сле- дующем. Сопоставим каждому значению 0 е О такое подмноже- ство И (0) выборочного пространства ST, Н (в) cz SV, чтобы выпол- нялось условие Р0(ХеО))^. (2.89) Таким образом, получаем в выборочном пространстве семейство подмножеств {Н (0), в е 0}. Определим теперь для каждого х Е J подмножество 5-(х)сд 0 по следующему правилу: ^(х)={0:х <=Н(0)}. Таким образом, в параметрическом множестве 0 получаем семей- ство подмножеств {S (х), хе.^}. Рассмотрим случайное подмно- жество £(Х). События {Хе Н (6)} и {0 е S (X)} — эквивалентные, так как по построению каждое из них влечет за собой другое, поэтому их вероятности при каждом 0 совпадают. Учитывая (2.89), получаем, что для S (X) выполняются неравенства (2.88); следо- вательно, £ (X) — искомая у-доверительная область для пара- метра 0. Отметим, что в этой методике доверительная область строится неоднозначно (так как при заданном доверительном уровне у множества Н (0) можно выбрать различными способами) и задача состоит в построении доверительной области минимальных разме- ров, обеспечивающей наиболее точную (при заданном у) локали- зацию параметра. В конкретных задачах множества Н (0), удов- летворяющие условию (2.89), строят обычно с помощью некото- рой статистики Т (X) (вообще говоря, векторной), распределение которой известно. Проиллюстрируем изложенный метод на сле- дующем примере. Пример 2.37 (доверительная область для параметра общей нормальной модели). В примере 2.30 были построены доверитель- ные интервалы отдельно для неизвестных среднего 0! и дисперсии т = 01 нормальной модели ©<Г(01, 01). Было бы неверным считать, что двумерная точка (0Ь т = 6|) с вероятностью у лежитвпрямо- 94
угольнике [см. формулы (2.81) —(2.82)] * ~ л-1 < Si < X + ty. п-1, nS2/Xi+v <91<nS2/xi-v , S2 = S2(X), > ’ п 1 о > п 1 так как случайные величины (X —9i)/S и S2, на основании которых строились эти интервалы, за- висимы; у-доверительную область для пары (9Ь т) можно построить, например, используя двумерную статистику (X, S2), компоненты которой в силу теоремы 1.10 являются неза- висимыми случайными величинами. Соответствующее построение можно выполнить, принимая во внимание результаты примеров 2.17 и 2.19. Сопоставим каждой паре 0 — (Si, т) подмножество Н (0) вида Я (0) = {х: j/"у | х — Si | < t = с71, 1/ 2 2.0 ч 1 f = X(1 - Vs)/i, я — 1 < -— < f = X(1 + y2)/S, n — 1J > где s2 = S2(x), yiy2 = Y, Су^Ф-1 (Цр-), Xp, n-i-p-квантиль рас- пределения x2(n—1). Тогда в силу независимости X и S2 Ps (X f= И (0)) = Р5 (]/7^ I X - 0! I < с71) Рв (Г < «52/т < Г) = у!?, = у (см. теорему 1.10), т. е. построенные подмножества удовлетворяют условию (2.89). Разрешая неравенства, определяющие подмноже- ства И (6), относительно параметров Si и т, получаем искомые до- верительные множества J-(x), определяемые условиями т> > (х — Oi)2 nit, ns2!? < т < ns2/C. Область '5 (х) представляет собой в данном случае часть плоскости (0), т), ограниченную параболой т = (Х — 0i)2n/i и двумя прямыми x — ns^H" и x — ns2!tr (рис. 2.5). Другие примеры построения доверительных областей приве- дены в гл. 5. Задачи 1. Пусть требуется оценить функцию т (6) = 1/6 по выборке X = (Хг,..., Хп) из распределения Bt(l, 6). Показать, что в данном случае несмещенных оце- нок не существует. 2. Пусть по одному наблюдению над случайной величиной £ с распреде- лением f (х; е) = е_0-у / (1—е-0), х=1, 2, ... (урезанное в нуле пуассонов- ское распределение), требуется оценить функцию т(9) = 1—е~®. Найти стати- стику, удовлетворяющую условию несмещенности ЕдТ (Хг) =т (6), и показать, что она практически бесполезна. 3. Пусть производится одно наблюдение над случайной величиной £ с рас- пределением Bi (п, 6). Оценить функцию тай (0) = 6а (1 — fl)& (а, b >-0 — целые числа) и показать, что при а-\-Ь^.п несмещенной оценкой таЬ (6) является статистика Т (Х1) = (Х1)а (п—ХО^п)^ (здесь (z)o = z(z—1) ...(z—a-J-1), (г)0=1) и что в других случаях несмещенных оценок не существует. 95
4. По результатам п испытаний оценивается неизвестная вероятность успеха 0 в схеме Бернулли Bi (1, 6). Обозначая через г число успехов в этих испытаниях и рассматривая класс оценок вида Г(Х) = (г4-а)/(« + Р), вычис- лить среднеквадратическую ошибку оценки Т и показать, что при а=К«/2, Р=Уп она не зависит от 0 и равна 1/[4 (р п-f-l)2]. Сравнить эту ошибку с ошибкой обычной оценки г/п. 5. Вычислить функции информации i (0), приведенные в табл. 2.1. 6. Проверить данные, приведенные в табл. 2.2. 7. Имеется выборка X = (Xj.Х„) из распределения Г (я, 6). Восполь- зовавшись критерием для экспоненциального семейства, показать, что стати- п стика Т (Х)=-— In X, — Ina является эффективной оценкой для т (0) = г=1 = Г'(0)/Г(0) и при этом DgT = т' (0)/п. 8. Доказать, что в модели W'a (ц, 02) ие существует эффективной оценки — Л для т(0) = в; статистика Т (Х) = -^- j/~~ I — Н ; является несмещенной i — 1 оценкой 0 и DgT = (« —2) 62/(2л). 9. Проверить с помощью непосредственных вычислений, что указанная В примере 2.5 статистика Т* является несмещенной оценкой 02 в модели о./" (0, о2). 10. С помощью непосредственных вычислений убедиться, что в случае логистического распределения, плотность которого имеет вид f (х; 0) = _ е-х+9 (1 e-x+8)-2t — оо <х <оо: а) статистика Г (Х) = Х —несмещенная оценка 0 и DpT = л2/(3л); б) функция информации i (&) = 1/3 и, следовательно, X не является эффек- тивной оценкой 0. 11. Доказать, что для экспоненциального семейства функция информации i (0) = (С' (б) А" (0) — С (0) А' (6))/Л' (0). Указание. Сравнить представле- ния (2.20) и (2.27) для дисперсии эффективной оценки. 12. Вычислить величину ЕрВ (д) для экспоненциального семейства. Ука- зание. По определению, < (9) =- Е9^1п/е?: В-— л" (6) Е°® ®-с' (9): далее использовать результаты задачи 11. 13. Продолжительность горения электрических ламп имеет распределение Г (6, 1). Чтобы оценить 0, берется выборка из п ламп и наблюдаются «вре- мена жизни» первых г перегоревших ламп Х(1| < Х(2| < ... < X(rt. Построить Г оптимальную оценку вида Т (Х)= У Х^Х^,. Указание. Воспользоваться ft = 1 результатом задачи 12 гл. 1 и перейти к независимым величинам Кг = = [(п—/-[-1)/6] (X(r) X(r_i)), г = 1, .... п. Отсюда ЕрТ = еУ Л£/(« —i-f-1). D9T = 62 У, Л|/(п—i + I)2 и оптимальный , = 1 <==1 выбор Л; таков: Л?=(п —i-|-l)/r, 1 = 1, •••. г. Ответ. Т'*^х(Х[1)-(---.4-Х(г1)/г-|-(я г) Х(Г)/г. 14. Пусть наблюдаемая случайная величина | имеет область изменения [а (6), М, где а (0) —Чадаиндя монотонная функция 0. Показать, что мини- мальное значение выборКт^Хц, является достаточной статистикой для 0 тогда и только тогда, когда плотность f (х; 6) имеет вид f (х; 0) = g (x)/h (6); a(9)-<. 96
t^xsczb. Этот же результат справедлив и для статистики Х(л1 в случае об- ласти [а, b (0)], где & (6)—заданная монотонная функция 6. Указание. Воспользоваться критерием факторизации. 15. Доказать, что в случае модели (в, о2) среднее арифметическое выборки является полной достаточной статистикой. Указание. В данном оэ случае Ее<р (А') = 0 <р (?) е—df = 0. Этот интеграл есть - \ двустороннее преобразование Лапласа от ср (/) е~поэтому <р(/)=0. '• 7' Показать, что в случае модели @,4^ (9, у29г) достаточной статистикой с )явлЙЕТСя пара Т = {Х, S2), ио эта статистика не полная. Указание. Рас- ' смотреть функцию ср (/) = (л + у2) 52/[(л — 1) у2]—X3 и показать, чсо Ео<еЙ),= О. ... Г 17. \ Доказать полноту статистики Т = (Х(1), Х[л)) в случае модели '^‘-4 Rfitr-QQ- Получить отсюда, что 7\ = (Xm4-Xm,)/2 и 7\ = ((« +1 )/(п — !)] X X (Х,п|—Х(1)) —оптимальные оценки средней точки (6i + 92)/2 и ширины 92—61 интервала, на котором сосредоточено распределение. Вычислить дис- персии этих оценок. Указание. Воспользоваться результатами задачи 12 гл. 1. Ответ. D&74 = (?i2 — 6г)2/[2 (п-}-1) (л + 2)], ВбГ2 = 2 (6-г — 6i)2/((« — 1) («4-2)]. 18. В условиях задачи 17 построить оптимальные оценки для 6Х и 6g. 19. Показать, что в случае овухпараметрического экспоненциального рас- пределения, задаваемого плотностью Дх; 6) = е-(х-е1)/е762, хЭ=6|, 9=(01, бг), достаточной статистикой является пара (X(1|i X). 20. Пусть X = (Xi, ..., Хп)— выборка из распределения Г (5, X): п а) показать, что Т (X) = У] Хг— полная достаточная статистика для 6; ( = 1 б) пусть tp — заданная функция, для которой т(6)=Едф(^) существует. Тогда оптимальная оценка для т(5) имеет вид 1 ’’ = rwfxg-Л» J ’|Я’|Х» Получить отсюда при ф(х)=х/А результат, приведенный в табл. 2.2. Ука- зание. Использовать тот факт, что X (Т (X)) = Г (9, Ал) (см. замечание в п. 1 § 1.5). 21. Проверить, что в условиях задачи 20 оптимальной оценкой для функ- ции надежности т (6, 0 = *>в(5^:0 является статистика t ( 0 при Т (X) st t, Х “I 1—В(7/Т(Х); А, А («—!)) при Т(Х)>/, г где В (г; а, — хя-1 0 —х)*'1 dx, 0 «сг<1 —неполная бета-функция. В част- ности, для экспоненциального распределения Г (9, 1) * Г 0 ПРИ Г(Х)==£?, т “t (Д-t/T (Х))«-* при Т(Х)>?. „ (0 при x<t, Указание. Взять ф(х) = /(дю1 (х) = < , ( 22.\Показать, что для распределения Вейбула, задаваемого плотностью /(х;~СУ== —е— х^О, полной достаточной статистикой для 0 явля- 4 Заказ № 1054 97
fl ется T (Х) = а оптимальная оценка функции т (6) = Ее<р (£), где <р — i = i 1 заданная функция, имеет вид т* = (п— 1) j <р ([(Г (X)]1''''" (1 — l)n~2 d(. 23. Показать, что для функция f (В), входящей в определение распределе- ния тяпа степенного ряда [см. формулу (2.41)], /* = 8ra.i (Т)/Ьп (Т), Т = = Л1+... + Лп, — оптимальная оценка по выборке X = (Ai, ..., Хп) [bn (Т) определены в (2.42)]. Указание. Применить формулу (2.43). 24. Показать, что т* = (1-|-1/п)г— оптимальная оценка функции т (6) =е0 в случае пуассоновской модели П(0). Вычислить D9t* и показать, что D9t*~ ~ 9е20/п, п оо. Указание. Воспользоваться результатом задачи 23 [здесь Ь„ (f) = n'/(l, Dpr* = e20 (ее/п—1)]. 25. Показать, что т* = (1 — 1/п)т—оптимальная оценка для пуассоновской вероятности т (6)=Р9 (д=0) = е-6 и при этом Вдт* = е-20(е0'я — 1)~6е~2С/п, п-> со. Указание. Воспользоваться результатом примера 2.13, 26. Показать, что оптимальной оценкой для т (9) = 8 усеченного в нуле пуассоновского распределения является статистика т* = Г5 (п, T—l)lS(n, Т), п Т э* п -1-1, где S (щ £)= (—1)я_г Сгпгк. Указание. Положить в фор- г=о муле (2.44) /(8) = е0 —1. _ 27. Показать, что в случае выборки из распределения Bi (г, 8) статистика п t*=JJ(1—Т/(Т-\-гп—j) — оптимальная оценка для вероятности т(8) = / = 1 = Р9(g = 0) = (1 — 8)г. Указание. Воспользоваться результатами приме- ра 2.14. 28. Составить уравнения правдоподобия для модели (Bj, 6j) и найти их решения. 29. Доказать, что полученная в примере 2.18 оценка максимального правдоподобия 2 (X) ковариацяонной матрицы 2 многомерного нормального распределения ©-Л’ (це 2) удовлетворяет соотношению Е2 (X) = ------2 и, п следовательно, -— i(X)=^:T (X/— Х)(Х/~X)'— несмещенная оцеи- 1=1 ка 2. Указание. Рассмотреть случайную величину Хц-Хц, дисперсия которой равиа c1J--|-2a[/ + a//, и воспользоваться известным результатом о не- смещенном оценивании дисперсии скалярной случайной величины. 30. Найти выражение для абсолютного максимума функции правдоподо- бия в случае распределения (ц, 2). *7 -Ответ. L(x; Д, 2) = (2ne)“W2 | 2 Гл/г. 31,’ Пусть Х = (Х1( ..., Хп)~выборка из распределения 1?(9, 29). Пока- 'зать; что: а) в данном случае не существует одномерной достаточной статистики; б) любое значение бе [Х(л!/2, Х^,] можно взять в качестве оценки мак- симального правдоподобия. Рассмотреть оценки вида 51О, р)=аХ[п> + РХ<ц, а, Р > 0, и найти среди них оптимальную (несмещенную с минимальной дисперсией). Указание, Воспользоваться результатами задачи 13 гл. 1. Ответ. Оптимальная оценка определяется значениями (n+l)(n+2) (2«-1) „ 2(л-Ц)(2лЗ-[-4п2-Зл-3) 5п-Н ’ Р (n-f-2) (5«-f-4) 98
i 32. Показать, что в случае выбора из распределения Г (6, к) оценкой максимального правдоподобия параметрической функции т (6) = 1/6 является п хп = К/Х, где Х=— Xi. Проверить состоятельность этой оценки и найти i=i ее предельный при н—«-со закон распределения. Ответ, g (т„) ~ ©X''(1/6, l/tnXQ2)). 33. Показать, что 0=_Х/(г-|-Х)—оценка максимального правдоподобия параметра 9 для модели Bi (г, 0). Вычислить ее асимптотическую дисперсию. Указание. Воспользоваться результатами примеров 2.12 и 2.24. 34. Случайная величина характеризующая срок службы элементов электронной аппаратуры, имеет плотность f (х, 6) = (2х/0)е— х2/0, хЭ=0. Постро- ить по соответствующей выборке Х = (ХЪ .... Хп) оценку максимального правдоподобия неизвестного параметра 6. п Ответ. ?=- У X? П Ь 1 i=1 35. Пусть X = (Xi, .... Хп) — выборка из распределения Коши 5^ (8). Показать, что статистика ТЯ(Х)=Х ие является состоятельной оценкой па- раметра в. Указание. Характеристическая функция, а следовательно, и распределение Т„ не зависят от п и поэтому Pg (| ТЛ(Х)—8 | g:e) одна и та же при всех п (Ege1Z n = eii0~ lzl). п Зб. Доказать, что выборочная дисперсия 5^ = ~ (X; — X)2 является i = i Указание. Воспользоваться состоятельной оценкой 8| в модели (9д, 6?). критерием состоятельности и результатами примера 2.7. 37. Имеется выборка ((Хх, Ух), ..., (Хя, Кя)) из двумерного нормального распределения @/^[(0, 0), | 6е(—1, 1). Показать, что; \ II б 1||/ а) асимптотическая дисперсия оценки бл равна (1—02)®/п (1-f-62); б) eff (Тп; 6) = [(1—fl2)/(l -j-02)]2 — асимптотическая эффективность оценки в п вида Тя = — XiYj (выборочный коэффициент корреляции). Указание. i =1 С помощью характеристической функции установить, что Е0(Х?У2) = 1-|-282 и, следовательно, ОдГя= (1-|-в2)/п. 38. Доказать, что для распределения Лапласа f (х; 8) =(1/2) е~ *~0*, хе R, о. м. п. £ совпадает с выборочной медианой. 39. Оценить с помощью метода максимального правдоподобия параметр 6 в модели (р, 82) и найти предельное распределение 6Я. Вычислить асим- птотическую эффективность оценки в задаче 8. (6, &/2пу, eff (Тя; 6) = Ответ. <5fg = 1/(л—2)=0,88... . 40. Показать, что асимптотическая эффективность выборочной медианы распределения Коши равна 8/л2«= 0,8 ... . Указание. Воспользоваться тео- ремой 1.7. 41. Пусть Х = (Хх, .... Х„) —выборка из логнормального распределения, т. е. Xi=eV‘, где ^?(Кг)=®^°(в1. 6!). Показать, что: a) E0X1=ft=exp{61-f-8i/2}1 D0X1=<?2=^(e02-l); 4* 99
б) оценки максимального правдоподобия для и q, имеют соответственно вид <Л = ехр {У + (1/2)3'2(У)Ь ?2 = Г2 (е'Х2(И —1), где Y = (У( = 1пХ;. ; = 1, ... ..., л), a Y и Si(Y)—соответствующие выборочные среднее и дисперсия. Указание. Воспользоваться свойством инвариантности о. м. п. 42. Показать, иго если существует эффективная оценка Т* для функции т(Е), то оценка 6 однозначно определяется уравнением Т* (X) ==т (6). Ука- &1 In L заме. Применив равенство (2.24), убедиться, что —<0. 43. Убедиться в том, что оценки в задачах 24 и 25 являются асимптоти- чески эффективными. 44. Показать, что у-доверительный интервал для параметра 9 в модели @.Са(9, 62) имеет вид (Л/(1 -феу/^л), Х/(1—сх/угп)), Су = Ф-1 . У^а-зание. Использовать тот факт, что Х§ ((Д'—В)/(в/угп)) — (0, 1). ! 4эХПроверить, что в случае больших выборок асимптотически кратчай- шем у-доверительным интервалом является: ^а)для параметра 9 гамма-распределения Г (9, А) — (.Х/А) (I ± гу/)Л’:7. ); С) для параметра 6 отрицательного биномиального распределения ВЦг, 6) — ± cY V (1 — 9\)2Дгл)) = —(х ± Су VrX/[n (г + А')]); г + Х в) для параметра 6 нормального распределения (и, 62) — Г. V (X; —р)2(1 _tcY/pr2n). Указание. Использовать результаты задач П 32,‘ 33 и 39, 46. Показать, что в случае экспоненциального распределения с плотно- стью f (х: 6) = е_ 1Л а', 0 х < сс, у-доверительный интервал для 9 имеет вид (Хц> + —— —, хА где Хц)= min X,-. Указание. Найти распре- \ п 1 IС г С п деление статистики X(ik и учесть, что событие {Xtlj 3= 9} является досто- верным. 47. Пусть в полиномиальном распределении М (п, Р=(р1, • Рд/)) веро- ятности pz- = p;(6), / = 1, , N, где 9 —неизвестный скалярный параметр. Записать уравнения для приближенней оценки максимального правдоподо- „ ~ ,, „ dlnL бия 6 методом накопления. Указание. В данном случае —— = » о0 У h; = 2^ р. Pt- а количество информации о 9 равно .-=1 /&1п1Л (Р;.(9))2 ЕЧ ж Гп я® • 48. Пусть п, X и S2 — соответственно объем, выборочное среднее и дис- персия выборки из нормального распределения с неизвестными параметрами. Показать, что с вероятностью у результат следующего, (н-|-1)-го испытания находится в интервале „.jS>^(« + 1 >/(« — !))• Указание. Применить теорему 1.10, согласно которой X (У (п— 1 )/(п + 1) (X — Хл+1)/Х) = = Sr(nXl). Г 49. В результате пяти независимых взвешиваний одного и того же тела получены следующие результаты (в граммах): 4,12; 3,92; 4,55; 4,04; 4,35. Считая погрешности измерений нормальными (0, о2) случайными величи- 1С0
нами, указать доверительные границы для результата предстоящего шестого взвыййвЪшя (доверительный уровень принять равным 0,95). / 50. Дно результатам ,т,2 независимых измерений диаметра круга по- строди/ оптимальную оценку его площади (погрешности измерений распреде- лены по закону (0, о2) с неизвестным о2). Указание. Использовать тот факт, что выборочные среднее X и дисперсия S2 образуют полную доста- точную статистику. Ответ. Т (X, 5г) = (л/4) (№ —S2/(» —1)). 51. Доказать, что оптимальная оценка всегда является симметрической функцией наблюдений. Указание, Если Г= Т (X) — несмещенная оценках, то рассмотреть симметрическую - 1 V статистику 7’ = —.- / Т (лХ), где л == = . ., ( — перестановка из п элементов, лХ--/Х,- , •••, А,- ) и суммиро- ваиие производится по всем п! перестановкам. Показать, что DT DT.
Глава Проверка статистических гипотез Эта глава представляет собой введение в теорию проверки статистических гипотез. Здесь приводятся основные понятия этой теории (статистической гипо- тезы, статистического критерия, критической области, функции мощности и др.). Сформулированы типич- ные и наиболее распространенные в приложениях статистические гипотезы и на примерах решения за- дач проверки этих гипотез излагаются общие прин- ципы построения и исследования критериев согла- сия. Рассматривается метод группировки наблюдений с последующим применением классического крите- рия согласия х2- Излагаются некоторые результаты для схемы группировки с растущим числом интер- валов. § 3.1. Понятие статистической гипотезы и статистического критерия. Критерии согласия 1. Статистические гипотезы. Задача разра- ботки рациональных методов проверки статистических гипотез — одна из основных задач математической статистики. Статисти- ческой. гипотезой (или просто гипотезой) называют любое утвер- ждение о виде или свойствах распределения наблюдаемых в экс- перименте случайных величин. Такие утверждения можно делать на основании теоретических соображений или статистических исследований других наблюдений. Пусть, например, эксперимент состоит в многократном измерении некоторой физической вели- чины, точное значение а которой не известно и в процессе изме- рений не меняется. На результаты измерений влияют многие случайные факторы (точность настройки измерительного прибора, погрешность округления при считывании данных и т. д.), поэтому результат i-ro изменения Xt можно записать в виде Хг = а-|-ег, где ег —случайная погрешность измерения. Обычно считают, что общая ошибка в, складывается из большого числа ошибок, каж- дая из которых невелика. На основании центральной предельной теоремы можно предположить, что случайные величины X; имеют нормальное распределение. Такое предположение является стати- стической гипотезой о виде распределения наблюдаемых случай- ных величин. 102
Если для исследуемого явления (процесса, ситуации и т. д.) сформулирована та или иная гипотеза (обычно ее называют основ- ной или нулевой гипотезой и обозначают символом Но), то задача состоит в том, чтобы сформулировать такое правило, которое по- зволяло бы по результатам соответствующих наблюдений (по имею- щимся статистическим данным) принять или отклонить эту гипо- тезу. Правило, согласно которому проверяемая гипотеза Но при- нимается или отвергается, называется статистическим критерием (или просто критерием) проверки гипотезы Но. Разработка таких правил и их обоснование с точки зрения требований оптималь- ности и составляют предмет теории проверки статистических ги- потез. Приведем несколько примеров математических формулировок наиболее распространенных в приложениях статистических гипотез. Пример 3.1 (гипотеза о виде распределения). Пусть произво- дится п независимых наблюдений над некоторой случайной вели- чиной g с неизвестной функцией распределения F%(x). Гипотезой, подлежащей проверке, может быть утверждение типа Но: F^ (х) = = F(x), где функция F (х) полностью задана, либо типа Но: F% (х) е аЕ, где — заданное семейство функций распределе- ния. При этом обычно семейство задается в параметрическом виде: — \F (х\ 0), Например, наблюдается неотрицатель- ная целочисленная случайная величина £ и требуется проверить гипотезу Но: X (£) е П (8), где П (6) — семейство всех пуассонов- ских распределений. Во всех этих случаях Но — это гипотеза о виде распределения наблюдаемой случайной величины. В других случаях гипотеза состоит в том, что фиксируются некоторые част- ные характеристики функции распределения F^(x). Например, она может иметь вид Но: F* (£,) =/?,-, i = 1, ..., k, где — оо < <?!<••.<2s<oo и 0<p1<...<pft<l—заданные числа. Здесь Но— это гипотеза о том, что распределение X (£) имеет заданные квантили £, для заданных уровней р,. Пример 3.2 (гипотеза однородности). Произведено k серий независимых наблюдений, результаты которых таковы: (хЛ, ... • • •, i = 1, ..., k. Имеются ли основания рассматривать эти данные как результаты наблюдений над одной и той же случай- ной величиной, или, другими словами, можно ли с достаточной надежностью считать, что закон распределения наблюдений от серии к серии не менялся? Если это так, то говорят, что стати- стические данные однородны. Пусть Е,- (х) — функция (вообще го- воря, неизвестная) распределения наблюдений i-й серии, t = 1, ... ..., k. Тогда задача состоит в проверке гипотезы однородности H0.Ft(x) ==...s2Fk (х). Пример 3.3 (гипотеза независимости). В эксперименте наблю- дается двумерная случайная величина g = (gi, g2) с неизвестной функцией распределения F^ (х, у) и есть основания предполагать, что компоненты щ и независимы. В этом случае надо прове- рить гипотезу независимости Но ’ F% (х, у) = F%t (х) FQ (у), где Ftjx) и F& (у) — некоторые одномерные функции распределения. 103
В общем случае можно рассматривать Л-мерную случайную вели- чину с; и проверять гипотезу независимости ее компонент. Пример 3.4 (гипотеза случайности). Результат эксперимента описывается «-мерной случайной величиной X —(Хь ..., с не- известной функцией распределения Fx (х), х = (ху, ..., х„). Можно ли рассматривать X как случайную выборку из распределения некоторой случайной величины £ (т. е. являются ли компоненты Xi независимыми и одинаково распределенными)? В данном случае требуется проверить гипотезу случайности На: Ех (х) = /ч(Х])... . ..F~.(x„), где F$ (х) — некоторая одномерная функция распреде- ления. Эти примеры не охватывают возникающих в приложениях задач проверки статистических гипотез. В частности, бывают до- вольно часто ситуации, когда проверяемая гипотеза состоит в том, что некоторый параметр семейства распределений соответствующей совокупности, например среднее значение, дисперсия н т. п., имеет наперед заданное значение или множество значений. Такие гипотезы называются параметрическими. Более подробно они будут рассмотрены ниже. Рассмотрим общие методы проверки гипотез описанных выше типов. Во всех этих случаях формулируется только одна гипо- теза Но и требуется проверить, согласуются ли имеющиеся ста- тистические данные с этой гипотезой или же они ее опровергают. Соответствующие критерии называют критериями согласия. Введем понятие простой и сложной гипотезы. Если гипотеза Нй одно- значно фиксирует распределение наблюдений, то ее называют простой, в противном случае — сложной. В предыдущих примерах только гипотеза Но: F-.(x) = F(х) является простой, а остальные — сложные. 2. Критерии согласия и основные их характеристики. Рассмот- рим общий метод построения критериев согласия. Пусть о рас- пределении случайной величины Х = (Хх, ..., Х,„), описывающей результат изучаемого эксперимента, сформулирована некоторая гипотеза Н,}. Чтобы построить критерий проверки этой гипотезы, в большинстве случаев поступают следующим образом. Пытаются найти такую статистику Т = Т (X), характеризующую отклонение эмпирических данных от соответствующих (гипотезе Но) гипоте- тических значений (обычно такие статистики неотрицательны), распределение которой в случае справедливости Но можно было бы определить (точно или приближенно). В частности, если Но — сложная гипотеза, то распределение Т (X) должно быть одним и тем же для всех простых гипотез, составляющих Но- Предположим, что такая статистика и ее распределение при гипотезе Нп найдены. Пусть зГ — {t'.t=T (х), хе.?'}- множество всех возможных значений статистики 7"; определим для фиксиро- ванного заранее достаточно малого числа <х>0 подмножество с^Гг, cz так, чтобы вероятность осуществления события (Т(Х)Е 1а} в случае справедливости гипотезы Но (в дальней- шем для обозначения этой вероятности используется символиче- 104
«кая запись Р(7'(Х) = <Г1.х! Яс)) удовлетворяла условию Р (7 (X) f= сТja | Я, | У а. (3.1) Тогда правило проверки гипотезы Но можно сформулировать сле- дующим образом. Пусть х — наблюдавшаяся реализация случаи ной > е.шчины X и t — Т (х) — соответствующее значение статистики Т. Если окажется, что t е i^, то в предположении справедливо- <ти гипотезы Нп произошло маловероятное событие и эта гипо- теза должна быть отвергнута как противоречащая статистиче- • ним данным. В противном случае (т. е. если VJ нет осно- ваний отказываться от принятой гипотезы и следует считать, что наблюдения не противоречат гипотезе (или согласуются с ней). В описанной выше ситуации критерий имеет следующий вид: « ели 1= Т (х) — наблюдавшееся значение статистики 7Г(Х), то при / е ЕГг, гипотеза Я» отвергается; в противном случае считается, что данные не противоречат гипотезе. Отметим, что факт (е сд ЕГ — Е!Г \ ЕГне является доказательством истинности ги- потезы На\ он лишь свидетельствует о том, что согласие опытных данных и теоретических предположений достаточно хорошее («на уровне а»), В описанной методике статистику Т называют статистикой критерия, а подмножество ее значений ЕЕ^ — критической об- шитью для гипотезы Но (этот термин отражает тот факт, что зна- чения рассматривают как свидетельствующие проз ив этой гипотезы). Число а в соотношении (3.1) называют уровнем значи- мости критерия, и его можно считать вероятностью ложного от- вержения гипотезы И,,, когда она верна (т. е. вероятностью оши- бочного решения в ситуации, когда Но истинна). В конкретных плачах величину а выбирают обычно равной 0,1; 0,05; 0,01 н т. д. Итак, согласно описанной методике, критерий определяется зданием соответствующей критической области в множестве зна- чений статистики Т. По своему смыслу критическая область должна включать все маловероятные при гипотезе Нп значения статистики критерия. Обычно используют области вида (для неотрицательных статистик Т) или вида хотя в конкретных задачах возможны и другие варианты выбора кри- тической области. Вид критической области во многом определя- ется целью, для которой строится критерий. Ограничимся пока следующим общим замечанием: каждый критерий строится для юго, чтобы определять, имеют ли место те или иные отклонения от основной гипотезы. Характер таких отклонений может быть разным, поэтому надо иметь критерии как универсального типа («улавливающие» любые отклонения от основной гипотезы), так и предназначенные для выявления отклонений только определен- ного типа. Так, часто большие и малые значения статистики Т (X) указывают на разный характер отклонения от нулевой гипотезы, поэтому может оказаться, что в одних случаях лучше использо- вать критерий, основанный на критической области {t 105
а в других —на критической области {t^trj.}. Примеры таких | ситуаций приводятся в дальнейшем. Для проверки одной и той же гипотезы Но можно строить различные критерии согласия, основываясь на разных статисти- ках Т (X), и чтобы выбрать в конкретной ситуации тот или иной критерии, надо иметь принципы сравнения различных критериев. Идея построения таких принципов состоит в исследовании пове- дения критериев при тех или иных отклонениях от основной ги- потезы. Введем понятия альтернативного распределения (альтер- нативной гипотезы) и мощности критерия. Любое распределение F\ = F наблюдаемой случайной вели- чины X, которое может оказаться истинным (т. е. допустимо в дан- ной ситуации), но отличающееся от гипотетического (т. е. распре- деления при основной гипотезе Но), называют альтернативным распределением или альтернативой. Совокупность всех альтерна- тивных распределений называют альтернативной гипотезой и обозначают символом Hi. Пусть, далее, для проверяемой гипотезы Но построен некото- рый критерий с уровнем значимости а, основанный на статистике Т (X), и пусть 1а — соответствующая критическая область. Ве- личину W (F) = W ia', F), представляющую собой вероятность попадания значения статистики критерия в критическую область, когда истинным распределением наблюдений является распреде- ление F, называют функцией мощности критерия. (Условимся записывать в дальнейшем эту вероятность в виде Р(Т(Х)е es^ia|F), так что W (F) = P(7'(X) esT'la|F).) Таким образом, функция мощности —это некоторый функционал на множестве всех допустимых распределений {F}. Для распределений F, со- ставляющих нулевую гипотезу (условимся этот факт записывать как F е Но), значения функции мощности удовлетворяют по по- строению критерия условию (3.1); перепишем это условие в новых терминах в виде W(F)^a, VFe=H0. (3.2) Если F ее Hlt то значение W (F) называют мощностью критерия при альтернативе F. 1 Функция мощности играет в теории проверки гипотез фунда- ментальную роль. Она полностью характеризует критерий, так как показывает, насколько хорошо критерий соответствует своему основному назначению — «улавливать» возможные отклонения от основной гипотезы. В терминах функции W (F) можно сказать, что критерий тем лучше («тем мощнее»), чем больше его мощ- ность при альтернативах. Действительно, если наблюдавшееся . значение t (х) попадает в критическую область, то нулевую гипо- тезу отклоняют, и если истинной действительно является некого- ’ рая альтернатива (нулевая гипотеза не верна), то тем самым при- ) нимают правильное решение. Следовательно, значение W (F) при 1 F е Hi характеризует вероятность принятия правильного решения в ситуации, когда нулевая гипотеза ложна. 106
Желательным свойством критерия является свойство несме- щенности, которое означает, что одновременно с условием (3.2) должно выполняться условие №(F)>a, VF(=Hr. (3.3) Другими словами, несмещенность критерия означает, что вероят- ность отвергнуть нулевую гипотезу, когда она истинна, не пре- вышает заданного уровня значимости а, и в то же время если гипотеза Но ложна, то она отвергается с вероятностью, боль- шей а. Вычисление функции мощности критерия— трудная задача, так как для этого требуется знать распределение статистики кри- терия не только при нулевой гипотезе, но и при альтернативах. Поэтому функцию W (F) удается найти далеко не во всех случаях. В заключение отметим, что важным показателем каждого кри- терия является трудоемкость практической реализации соответ- ствующего алгоритма. На практике, когда требуется быстро по- лучить ответ, предпочтение нередко отдается просто реализуемому критерию, даже если он не является оптимальным в теоретическом смысле. Продемонстрируем общую методику построения критериев согласия на примерах решения задач проверки описанных выше гипотез. § 3.2. Проверка гипотезы । о виде распределения Пусть X =(ХЬ ..., Хп) — выборка из распре- деления <5?(|) с неизвестной функцией распределения F^(x), о ко- торой выдвинута простая гипотеза Н„: F^(x) = F(x). Наиболее известными критериями проверки этой гипотезы являются крите- рий Колмогорова и критерий %а. 1. Критерий согласия Колмогорова. Его прямейяют в тех слу- чаях, когда функция F (х) непрерывна. Статистикой критерия яв- ляется величина >Л = ^И(Х) = sup | Fn (х) - F (х) |, (3.4) — оо<х<оо представляющая собой максимальное отклонение эмпирической функции распределения Fn(x) от гипотетической функции распре- деления F (х). При каждом х величина Fa(x) является оптималь- ной оценкой для F (х) [см. замечание к теореме (2.2)] и с увели- чением объема выборки п происходит сближение г„(х) с F (х), поэтому, по крайней мере при больших п, в тех случаях, когда гипотеза Н« истинна, значение не должно существенно от- клоняться от нуля. Отсюда следует, что критическую область критерия, основанного на статистике <2&п, следует задавать в виде l'z = P==S^a[- Особенностью статистики является то, что ее распределе- ние при гипотезе Но не зависит от вида функции F(x). Действи- ( 10?
тельно, полагая в формуле (3.4) х = F- (и), 0 =с и < 1, где F-1 (и) —> функция, обратная к F(x), получаем 3^п= SUP Перейдем к новым случайным величинам, используя формулу i/,= F(X,), z— 1, п;.пусть £/(1 >«=;... Ut„, — их вариацион- ный ряд. Функция F (х) монотонна, поэтому t/(fr) = F k — 1, ..., п, и неравенства F~l (и\ Xк эквивалентны неравенст- вам u^zUilty. Но тогда из представления (1.5) имеем п п Fn (F-1 (и)) = ± У е (F1 (и) - Х^) = ~ £ е (и - U^) = Фя (и). *=i *=1 Независимо от вида функции F (х) (если только F (х) непрерывна) £(Ui) — R(9, 1) и Фл («)— эмпирическая функция распределения для выборки из равномерного R (0, 1) распределения. Таким обра- зом, статистика совпадает с sup | Фл (и) — и | и, следова- 0<«<1 тельно, ее распределение не зависит от F (х) (если справедлива гипотеза Но). Этот факт имеет принципиальное значение, так как тем самым достаточно вычислить и протабулировать распределе- ние только один раз, а именно для выборки из равномерного R (0, 1) распределения, и использовать ее для проверки гипотезы относительно произвольной непрерывной функции распределения F(x). Вторым замечательным фактом является то, что распределение статистики &п при достаточно больших п (уже при п'^ 20) прак- тически от п не зависит и имеет указанный вид (1.8). Отсюда следует, что при п 5^20 критическую границу /а = /а(«) можно полагать равной Ха/]Лл, где Х(ХД = 1 — а [функция K(t) опре- делена в (1.8)]. Действительно, в этом случае Р(Я s ' Но) = Р (Кп S* К | Но) ъ 1 - К (>Д = «• Так, Аа=*1,3581 при а = 0,05 и Ха= 1,6276 при а = 0,01. Таким образом, при заданном уровне значимости а число Ц определяют из соотношения /((АД—1—а и в этом случае пра- вило проверки гипотезы Но имеет (при nSs20) следующий вид: если наблюдавшееся значение t = &n(x) статистики (3.4) удов- летворяет неравенству ]Лл(^Ха, то гипотезу Но отвергают; в противном случае делают вывод, что статистические данные не противоречат гипотезе. Следуя этому правилу, можно оши- бочно отклонить гипотезу Но, когда она верна, с вероятностью, приблизительно равной а. Эго правило называется критерием согласия Колмогорова. Для небольших значений п точное распределение &п также протабулировано и для расчета точных значений критической границы ta [10, с. 611] можно воспользоваться соответствующими таблицами. 108
2. Критерий согласия хи-квадрат К. Пирсона. На практике вычисление статистики Dn — трудоемкая задача, поэтому часто применяют другой критерий, называемый критерием у2. Его можно использовать для любых распределений, в том числе и многомер- ных. Чтобы воспользоваться этим критерием, выборочные данные предварительно группируют, как это описано в п. 2 § 2.5, т. е. переходят к частотному представлению исходных данных. Пусть v = (vlt ..., vAr) —вектор частот попадания выборочных точек в соответствующие интервалы группировки ..., (у,-J-... ... + v/v = n) и р° = (р?.рх), где р] = Р(Е е=jНо), /=1, ... .... N. В этом случае X (у | На) = М (л; р°) и гипотеза Но сво- дится к гипотезе о том, что вероятности полиномиального рас- пределения построенного вектора частот v имеют заданные зна- чения р“, /=1, •., N. В качестве статистики, характеризующей отклонение выборочных данных (т. е. частот v7) от соответствую- щих гипотетических значений (в данном случае от средних Е (у/1 Но) = лр5), принимают величину X2 = X; (V) = £ (у/ - пр^ / (пр;) = £ v; / (пр?) - л, (3.5) /=1 /=1 а критическую область задают в виде эГ' = Точное рас- пределение X (Хл | Но) неудобно для вычисления (при заданном уровне значимости) критической границы /а, но для больших объемов выборок п статистика Х'2п имеет при гипотезе Но простое предельное распределение, не зависящее от гипотезы (т. е. от чисел pj). Справедливо следующее утверждение. ' Георема 3.1. Если OCp/Cl, /=1, ..., N, то при п-+оо X(X2n\Ho)^72(N-l). □ Используя формулу («1 + • • + «Л')" = 2 ft.! ...hv! ai1" 'aUN h1+...+hN = n (здесь суммирование производится по всем' целым неотрицатель- ным значениям (h1, ..., /t.v), удовлетворяющим условию ... 4~ v = л), получаем, что характеристическая функция вектора v = (vi, ..., 4v) при гипотезе Но имеет вид Ee£‘'’ = (pJe,7i + ...4-p?ve!^)n, t = (G, ..., fv). Введем нормированный вектор v* = (у®, • •, v^), где v* — = (Vj — np'j)/]/ n, j=l, ..., N. Имеем <рл (t) = Ee1*'”* +2 Р/(е‘////л- l)j . 109
Логарифмируя это соотношение и применяя формулу In (1 4-е) = в —e2/2-i~O(в3), е->0, получаем, что при ц->оо и |t|^c-<oo n In <рл (t) = - i VTi t'p° + n У - 1) - /=i N ( P10~Pl) ПРИ j = k, где 2 = |i<Mi 11 = { jO0no nnu ; , . Отсюда следует, I —PiPk при I к» что предел характеристической функции вектора v* есть ехр {—(1 /2) t’2t} — характеристическая функция нормального за- кона а-/'" (О, 2). По теореме непрерывности для характеристиче- ских функций отсюда имеем ^(v* 2) при п->оо. Матрица вторых моментов 2 предельного распределения вырож- дена. ^Это является следствием того, что компоненты вектора у* л’ \ связаны линейной зависимостью У) v® = 0.) Но определитель 1 / (У—1)-го порядка матрицы Z(N— 1) = |]оу*~1 уже отличен от нуля. Таким образом, предельное распределение подвектора у* (N — . , является уже невырожденным нормаль- ным законом ©/* (0, 2(?Г-1)). Отсюда по теореме 1.9 следует, что при п->-оо X(Q„ = v*' (У - 1) 2-1 (N - 1) г* (N - 1) | Яо) -> х2 № ~ О- (3.6) С другой стороны, из формулы (3.5) имеем - N — 1 = v*' (tf - 1) Av* (N -1), Л7 1 I + ПРИ /=6» где А=|«л|!'-’ и »,,=( ,/л при Непосредственной проверкой убеждаемся, что А2 (N — 1) = 2(.V — 1) А ==Е^-ь т. е. А = 2~1(А/’ — 1). Таким образом, совпадает с квадратичной формой Qn в соотношении (3.6). На практике предельное распределение х2(^ —1) можно использовать с хорошим приближением уже при п^50 и V;2s5. При выполнении этих условий в соответствии с теоремой 3.1 кри- тическую границу ta выбирают равной х’-«, лг-ь т. е. (1—а) — ЦО
квантили распределения хг(Л^—1). Действительно, в этом случае Р(Х^ееГ1а|Я0) = Р(Х^х1-а, .v-i iWo)^ J &,v-i(х)с!л-=а XI— а, .V—1 (здесь kty-i (х) — плотность распределения х2 (<V — 1)). Таким образом, критерий согласия Xs имеет следующий вид: пусть заданы уровень значимости а и объем выборки п и наблю- давшиеся значения h = (hi, ..., hN) вектора частот v = (vi,..., удовлетворяют условиям п^50, hjSs5, /= 1, ..., .V; тогда если наблюдавшееся значение / = Хд(Ь) статистики (3.5) удовлетворяет неравенству /SsXi-а. лг-ь 'по гипотезу Нв отвергают', в против- ном случае гипотеза Нв не противоречит результатам испытаний. Сделаем несколько общих замечаний. Критерий согласия х2 применяется в тех случаях, когда в каждом опыте наблюдается одно из N несовместных событий Л1( .... AN и заданы частоты появлений этих событий в п испытаниях (говорят также, что наблюдается дискретная случайная величина, принимающая W различных значений). Если же выборка имеет непрерывный закон распределения, то, применяя предварительно метод группировки данных, приходят к рассмотрению дискретной схемы, в которой в качестве событий А} рассматриваются события {с е %,}, где интервалы группировки. Недостатком метода явля- ется то, что группировка данных по классам (интервалам) при- водит к некоторой потере информации. Кроме того, остается еще вопрос о выборе числа интервалов N и длине самих интерва- лов Sj. (Более подробно эти вопросы освещены в [10, гл. 30].) Однако критерий %2 имеет и некоторые достоинства: при его при- менении нет необходимости учитывать точные значения наблюде- ний (бывают случаи, когда исходные статистические данные носят не числовой характер; см. пример 3.7). Несомненным преиму- ществом этого критерия является его универсальность. Приведем несколько примеров применения критерия Пример 3.5. При п=4040 бросаниях монеты Бюффон получил Al = 2048 выпадения «герба» и h2 = n— hi = 1992 выпадений ре- шетки. Проверим, используя критерий х2> совместимы ли эти данные с гипотезой Но о том, что монета была симметричной, т. е. что вероятность выпадения «герба» р — 1/2. Здесь Л1«=2, р] = р=1/2, 1—/? = <?= 1/2 и из (3.5) имеем / = X’(fc) = — (hi — npyi(np) 4- (й2 — nq)2l(nq) = (hi — np)*!(npq) = 0,776. Пусть уровень значимости а был задан равным 0,05. По таблицам рас- пределения х2 находим Хо,95; 1 = 3,841. Сравниваем полученное значение t с табличной величиной хо.95; ь Так как /<Хо.95; i, то делаем вывод, что данные не противоречат гипотезе. Рассмотрим пример [13, с. 459], когда гипотетическое распре- деление является непрерывным. Пример 3.6. Наблюдались показания 500 наугад выбранных часов, выставленных в витринах часовщиков. Пусть i — номер промежутка от /-го часа до (/-}-1)-го, i — 0, 1, ..., 11, a ht^— 111
число часов, показания которых принадлежали 4-му промежутку. Результаты наблюдений оказались следующими: » 0 1 234 56789 10 11 Всего hi 41 34 54 39 49 45 41 33 37 41 47 39 « = 500 Согласуются ли эти данные с гипотезой Но о том, что пока- зания часов равномерно распределены на интервале (0, 12)? Здесь 12 и, согласно гипотезе Но, pl — . = /?;а — 1/12. Отсюда значение статистики Л’ XI (h) = V (йу - пр^ / (пр]) = 10,000. / = 1 По таблицам распределения х2 находим Хо.эз; п — 19,675, поэтому следует признать, что согласие предположения с опытными дан- ными хорошее. Пример 3.7 [10, с. 563]. В экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей, определяемые в соответст- вии с теорией наследственности Менделя, приведены в следую- щей таблице: Селена Частота hl Вероятность О Pl Круглые и желтые 315 9/16 Морщинистые и желтые 101 3/16 Круглые и зеленые 108 3/16 Морщинистые и зеленые 32 1/16 га = 556 1 Следует проверить гипотезу На о согласовании частотных дан- ных с теоретическими вероятностями. Здесь XA(h) = 0,47. Из таблиц распределения х2 следует, что при любом уровне значимости а ««0,90 критерий х2 не отвергает гипотезу, или, другими словами, между наблюдениями и гипотезой имеется очень хорошее согласие. Для критерия х2 можно исследовать предельное при п-^<х> поведение мощности при произвольной альтернативе. В рассмат- риваемой методике гипотезы характеризуются вектором р = = (Pi-.., р.\) вероятностей, с которыми появляются в каждом опыте события Д, ...» Ду, поэтому для функции мощности будем 112
использовать обозначение W (р), а о соответствующей гипотезе будем говорить для краткости как о гипотезе р. Чтобы подчерк- нуть зависимость функции мощности от объема выборки, будем писать №п (р). Исследуя асимптотические свойства критериев (т. е. поведение функций мощности при п—>оо), прежде всего рассматривают вопрос, является ли критерий состоятельным. По определению, критерий называют состоятельным, если при n->-co Wn (F) -* 1, VFeHi. Состоятельность критерия означает, что с ростом числа наблюдений он позволяет с вероятностью, близкой к 1, «улавли- вать» любые отклонения от основной гипотезы. В частности, состоятельный критерий является асимптотически несмещенным [см. (3.3)]. В рассматриваемом случае справедливо следующее утверждение. Теорема 3.2. Для любого еектора р=#Р° функция мощности 1С„(р) стремится к 1, т. е. критерий уф является состоятельным. □ Вычислим среднее и дисперсию статистики Х^ при гипо- тезе р. Для этого перепишем формулу (3.5) в виде (v7-/1pJ2W/)+2Z: рЪ'р:+ /=i /=1 Л' +»S {pi-p^ipl- i= 1 Так как Е (у,- I р) = пр}, Е [(у, - пр}? | р] = D (у, | р) = пр, (1 - р?), то U N E(X-p) = nV (Ру-рЖ+Х Р/О-рМ- (3-7) /= 1 /= i Отсюда, в частности, имеем Е(Х« |р°) = Л' — 1. Этот точный ре- зультат согласуется с асимптотическим результатом теоремы 3.1, поскольку среднее предельного распределения уф(У —1) равно N — 1 [см. (1.29)]. Приведем без доказательства формулу дисперсии: d (х^: р)=4 -(п-14(п-~- (Яз2 - Rh)+ +2-—- (3R.2, - 2RiXRn - Rir) + (Я12 - Rid, (3.8) Лг где Rfts = ^l pk!pf. Отметим частные случаи этой формулы. Если 7=1 все Pj = p<j, т. е. дисперсия вычисляется при нулевой гипотезе, то Rks = ^ (p<i)k~s и, в частности, R21 = R2i = N, R21 = R32 = \, /?12= м 1 = У, 1//?/' В этом случае из формулы (3.8) имеем 7= I / К . \ D (Хй [ р°) =2 (Л’ - 1) + -Ч 2 1 //?; - № - 2N + 2 . ф=1 / 113
Отсюда, в частности, следует, что lim D (X» |р°) = 2(Х — 1), что Л.—* С© также согласуется с теоремой 3.1. Пусть теперь р —любой вектор вероятностей, удовлетворяющий условию р=#р°. Тогда (Ру — Р/)3//?/> 0 и из формул (3.7) —(3.8) 1 = 1 следует, что при л->со среднее и дисперсия статистики Х„ при гипотезе р имеют порядок роста п. Отсюда на основании нера- венства Чебышева имеем 1 — (р) = Р(ХА<Х1—а, лг —i )р) = Р (Е(ХА |р) —ХА>Е (ХА |р)—< —х!-а. A1-I |р)Р(| Е (ХА |р)-Х‘п |>|Е (ХА|р)~х?-«. jv_, |р)< D (ХА | р)/[Е (ХА | р) - х!-а, Д'-1]2 = О 3. Критерий согласия хи-квадрат для сложной гипотезы. Метод группировки наблюдений с последующим примением критерия согласия хг применим и в более сложной ситуации, когда требу- ется проверить гипотезу о принадлежности неизвестной функции распределения наблюдаемой в опыте случайной величины | задан- ному семейству функций распределения. В общем виде.задача формулируется так. Пусть еГ = {F(x; 9), 6 е 0} — заданное пара- метрическое семейство функций распределения (параметр 6 может быть как скалярным, так и векторным) и Х = (Хх, ..., Хя) — выборка из распределения X (|) с неизвестной функцией распре- деления. Требуется проверить гипотезу Но: Х(с,)=<Х. Таким образом, в данном случае речь идет о проверке сложной гипотезы. Пусть исходные данные сгруппированы и v = (vb ..., vN) — соответствующий вектор частот попадания наблюдений в интервалы группировки. Составим статистику, аналогичную (3.5). В данном случае вероятности попадания в интервалы группировки при гипотезе 7/0 уже не будут заданы однозначно, а представляют собой некоторые функции от параметра 9: р, (9) = Р Яо) = dF(x; 9), /=1............N, поэтому статистика ХА имеет вид ХА = ХА (9) = S (vy -пр} mnpj (6)]. (3.9) i= 1 Эта статистика зависит от неизвестного параметра; следовательно, непосредственно использовать ее для построения критерия пока нельзя — требуется предварительно исключить в (3.9) неопреде- ленность, связанную с неизвестным параметром 0. Для этого поступают следующим образом: заменяют 6 некоторой оценкой 0Я = 0л (X) и получают, таким образом, статистику XA = XA(9„) = S (v/-«P/(M)W- (9«)]. (3.10) /= 1 114
Эта статистика уже представляет собой функцию только от выбо- рочных данных; следовательно, ее значение можно однозначно вычислить для каждой заданной реализации выборки X. Если бы распределение статистики Х„ при гипотезе Но можно было найти (хотя бы приближенно) и при этом распределение не зависело бы от конкретных функций F (х; 6), составляющих гипо- тезу то, основываясь на Хгп, можно было бы построить кри; терий согласия для гипотезы На. В данном случае величины р; (6„) уже не постоянные, а пред' ставляют собой функции от выборки (случайные величины). Поэтому теорема 3.1 к статистике Х2п неприменима. Более того, следует ожидать, что распределение этой статистики (даже если оно существует) будет, вообще говоря, зависеть от способа пост- роения оценки 9п. Проблема нахождения предельного (при п->оо) распределения для Х2п при этих усложненных условиях впервые была рассмотрена Р. Фишером (1924 г.), который показал, что существуют методы оценивания параметра 9, при которых предель- ное распределение имеет простой вид, а именно является распре- делением хи-квадрат с числом степеней свободы N — 1 — г, где г — размерность оцениваемого параметра 6. Одним из таких методов оценивания является описанный в щ. 2 §2.5 метод максимального правдоподобия, основанный на частотах ..., т. е. когда в качестве 9Л в формуле (3.10) используют мультиномиальную оценку максимального правдоподобия. Теорема 3.3. Пусть функции ру (в), j = 1.АГ, 0 = (9Ь .... 9Г), г <z N — 1, удовлетворяют следующим условиям: к a) S Р/(в) = 1, V0E0; /=1 б) р/(в)>с>0, / = 1......N, и существуют непрерывные про- , др/ (в) д2р< (®) , , . изводные - и Дд д/ , k, I = 1, ..., г; 00* O0fe Ooj в) матрица Д др^ | размера Nxr имеет ранг г для всехбеЭ. Тогда если ВЛ = 0Л — мультиномиальная оценка максимального правдоподобия для параметра 6 и Х« = ХЛ(6„), то при п-+оа (3.11) Доказательство этой теоремы можно найти в [13, с. 462—470]. Приведем схему использования критерия согласия %2. Пусть в опыте наблюдается одно из # несовместных событий Дг, ..., Луу и о вероятностях ръ ..., p,v появления этих событий выдвинута гипотеза Но: Pi=~Pjf^)< /' = !,•••» Где 9 = (01, . •, 9г)е0 — некоторому невырожденному интервалу в Rr, и функции рДО) удовлетворят условиям теоремы 3.3 (если в опыте наблюдается случайная величина | непрерывного типа, то, как уже было отмечено, задачу сводят к такой дискретной схеме, предварительно группируя данные по N интервалам ..........и рассматривая 115
в качестве Aj события Пусть произведено «2s50 опытов п наблюдавшиеся частоты , /i,v событий удовлетворяют условиям й72г5, / = N. Определим значение оценки 6Л, решая относительно 0 уравнения N У о £—1 , гЗ 121 Zp;(5) Л—1, - г. (3.12) 4,= 1 Вычислим j = l, N, и найдем значение статлстп- Л' ки ХА по формуле ХА=У] (fy ~ «Р/)2/(лру). Пусть задан уровень /= 1 значимости а, Определим по таблицам распределения y2{N — •—/"—!) значение (1 — а)-квантнли Xi-a. v-r-i и сравним с ним найденное значение ХА. Если ХА ^Xi-%. х—г- и то гипо- тезу Но отвергают; в противном случае можно только сказать, что гипотеза Н() не противоречит результатам испытаний. Изло- женная теория гарантирует, что используя это правило, можно ошибочно отклонить гипотезу Но, когда она истинна, с вероят- ностью, приближенно равной а. Замечание. Если данные предварительно группируются, то оценивать параметр 9 можно и до группировки наблюдений, например максимизируя по 9 функцию правдоподобия £(Х; 6)=/(Xt; 6).../(Х„; 9). В этом случае оценка максимального правдоподобия параметра 9 «использует» сами наблюдения X, а не частоты интервалов ..., <SN. Можно было бы ожидать, что такой метод оценивания должен приводить к более точным выводам; кроме того, обычную оценку максимального правдоподобия часто находить гораздо проще, чем решать систему уравнений (3.12). Однако, как показали Чернов и Леман (1954 г.), при таком методе оценивания предельное соотношение (3.11), вообще говоря, уже не имеет места, а поэтому асимптотические результаты не будут иметь такую простую форму [21]. Пример 3.8. (пуассоновская модем, критерий у? для нее). Пусть производится п независимых наблюдений над неотрицательной целочисленной случайной величиной с. Требуется проверить гипо- тезу Hnt X (g) <= П(0). Положим £,- = {/—1}, /=1, .V —1, ^x’ = {iV — 1, N, ...}. СО Тогда л(9) = /(/-1; 6), / = 1, ..., Х-1, рл-(6)= £ f (£; 6), h=N— I где f(k\ 6) = е-р8*/&1, fcSsO. Найдем оценку 9,. В данном случае неизвестный параметр только один, поэтому система (3.12) сводится к уравнению Л — 2 со оо v (j—2 6> 2 f(k-,t>)=o. i = o ' k = N — I k = N — 1 - Отсюда kf(k-, e) не
Первый член в скобках равен сумме всех х£ таких, что х. -"X — 2, а последний член приближенно равен сумме всех лу, которые больше или равны N — 1 (хь .... — наблюдавшиеся значения £). Таким образом, оценкой 9л для 6 может служить среднее арифме- тическое выборочных значений: в„ = х. (Напомним, что обычная оценка максимального правдоподобия для параметра 6 пуассонов- ского распределения точно равна х.) Теперь находим | — 1)! при /=1, N — 1, ^“|е-* 2 ПРИ / = Л'> I A=,V—1 и гипотеза Но отвергается тогда и только тогда, когда 2 (hj - np^Knpj) ' • 7.1— a, N -2- / = 1 4. Критерий квантилей. Метод у2 можно применять для пост- роения критериев согласия и в задачах другого типа. Рассмотрим задачу проверки описанной в примере 3.1 гипотезы о том, что неизвестное распределение (g) имеет некоторое количество заданных квантилей. Пусть выборка X = (Xi, ..., Х„) извлечена из непрерывного на Я1 распределения =5? (£), о котором выдвинута гипотеза Но: F^(Zj) = Pj, N — l, где — оо<£1<...<СЛг_1<оо и О<pi<Рл’-1 < 1 —заданные числа. Гипотеза Но сложная и включает все непрерывные распределения с указанными кван- тилями. Построим критерий проверки этой гипотезы. Положим F} = (?/-!, Су], / = !,•, Са =—ол, tv, и пусть V;—число выборочных точек Xit принадлежащих интервалу^-. Таким образом, имеем схему группировки данных с естественными (т. е. поро- ждаемыми самой проверяемой гипотезой) интервалами. Тогда =5? (v = (vn .... v.v) j Яе) = М (п; р° = (р?, ..., р"„)), где pj — pj — р:-ъ N, po = O, рЛ-=--1, и гипотеза Н» эквивалентна утверждению, что нероятности всходов в построенной полиномиальной схеме равны заданным числам рЧ, , p"N. Следо- вательно, для проверки этой гипотезы можно применить описанный в п. 2 критерий согласия у2, который основан на статистике (3.5). Этет критерий в данном случае называют критерием квантилей. При N— 2 и /?1 = 0,5 соответствующий критерий называют кри- терием знаков. В этом случае гипотеза Нп — это гипотеза о том, что выборка X извлечена из распределения =5?(£) с медианой а статистика (3.5) сводится к статистике (4/л) (v, — п/2)2, где Vy — число компонент вектора X, значения которых лежат в интервале (—оо, £j], или, что то же самое, число отрицательных разностей Xt. —Ci, i= 1, ..., п. 117
На практике критерий знаков чаще всего применяют в следую- щей ситуации. Пусть ((Хь Fj), (Х„, ¥„)) — выборка из дву- мерного распределения X (| = (g1( g2)). Требуется проверить гипо- тезу Яо о том, что компоненты L и независимы и одинаково распределены, т. е. что у) —F(x)F(y), где Fix) — некоторая одномерная функция распределения. Для проверки этой гипотезы поступают следующим образом: составляют разности 7, = Хг — F,, п. Тогда если гипотеза Яо верна, то P(Z,-<0) = = P(Z(>0)= 1/2 и исходная гипотеза сводится к утверждению, что выборка (Zj........ZK) извлечена нз распределения, медиана которого равна 0. В этом случае статистика vi есть число отри- цательных величин среди Zi, ..., Z, и по теореме 3.1 при п->-со X (4('vi—ft/2)2/n | Яо)у2 (1), что позволяет рассчитать соответст- вующую критическую границу в критерии согласия х2. § 3.3. Симметрические критерии в схеме группировки с растущим числом интервалов. Критерий пустых ящиков 1. Критерий согласия X2 для непрерывных распределений, вопросы его состоятельности. Вернемся к задаче проверки простой гипотезы Но: F* (x) = F (х) о виде распределения и условимся считать, что функция распределения F (х) непрерывна. В случае применения описанного в п. 2 § 3.2 критерия согласия х2 обычно рекомендуется интервалы группировки ..., выбирать равновероятными при нулевой гипотезе, т. е. чтобы все p»=l/W. В этом случае ?/] 7=1. АГ, &>=-со, ^ = со, (3.13) где F (£,)=/,'Л\ /=1. , N— 1, и критерий согласия %2 является, по суще- ству, критерием квантилей (см. п. 4 § 3.2). Но этот критерий учитывает лишь вероятности лопадавия в интервалы группировки и не фиксирует локального поведения функции распределения, поэтому по критерию %2 все непрерывные распределения с указанными квантилями не различаются. Таким образом, при применении критерия %2 задачу проверки исходной простой гипотезы заменяют задачей проверки некоторой сложной гипотезы, в которую помимо F (х) входит множество отличных от F(x) функций распределения с теми же квантилями &.,••• ,?ЛГ-И что и F (х). Можно сказать, что в случае применения методики критерия %2 в задаче проверки гипотезы На: F?(x)=F(x) получают критерий согласия, не чувствительный к любым таким отклонениям от НЙ, при которых распределение X (S) сохраняет заданные квантили g/y-i, т. е. для любого распределения F%, удовлетворяющего условиям ^ (£/) = //#, /=1,..., N — 1, выполняется предельное при п->со соотношение \ >=1 / В частности, критерий %2 оказывается несостоятельным против альтернатив F& имеющих данные квантили (в этой связи отметим, что рассмотренный в n. I § 3.2 критерий согласия Колмогорова является состоятельным против любых альтернатив Например, на рис, 3.1 изображены графики трех функций распределения, у которых точка х=0 является медианой. Если для проверки гипотезы Но: Fj(x) = F(x) применить методику %2 с двумя (N = 2) равновероятными интервалами, то по соответствующему критерию все три. ИЗ
функции не будут отличимы. Этот недоста- ток критерия у2 можно попытаться «умень- шить», увеличивая вместе с ростом числа наблюдений число интервалов группировки ЛГ, сужая тем самым класс неотличимых от F (х) (по критерию у3) функций распределе- ния. Однако тогда критерий у3 становится трудоемким, так как подсчет "и обработка большого (при больших ,¥) числа частот vi> ’ v.v—сложная вычислительная задача. Следует также иметь в виду и то обстоятельство, что теорема 3.1, определяющая предельное распределение статистики Х^ при гипотезе На, справедлива только при фиксированных значениях параметров N и р°, ..., p"N и ее уже нельзя использовать для расчета критической границы критерия, если N -+ оэ. Выход из этой противоречивой ситуации можно найти, сконструировав более простые, чем Х^, статистики критерия и доказав предельные теоремы для распределений этих статистик, которые учитывают одновременное неогра- ниченное возрастание параметров п и Л'. Изложенные ниже результаты позво- ляют получить ответ на некоторые возникающие здесь вопросы. 2. Симметрические статистики в схеме группировки. Итак, пусть ©х, ... ...,^v — определенная в (3.13) система равновероятных (при гипотезе Яо) интервалов и т'= (Vj, ..., — соответствующий выборке Х = (Х!, ..., Хл) вектор~частот~попадания в эти интервалы. Рассмотрим класс статистик вида N $яЛ^)= 5 (3.14) / = 1 где g(x)—заданная функция, определенная во всех целых неотрицательных точках х=0, 1, 2...В выражение для SnN(g) все частоты ......vN входят симметрично, поэтому будем называть такие статистики симметрическими. Если {1 при х=г, О для некоторого целого ге(0, 1, .... nJ, то SnJV(g), очевидно, равно числу интервалов среди *1....каждый из которых содержит ровно г выборочных точек (элемен- тов выборки X); такую статистику обозначают символом рг~р.г(п, Лг). Таким образом, с любой схемой группировки связан набор симметрических статистик Цо, щ, .... рп. Эти статистики удовлетворяют двум очевидным линейвым соотношениям: 2 pr (п, N)=N, 2 Фг(«. Я)=». (ЗЛ5) г=0 В терминах статистик ц. формулу (3.14) можно переписать в виде S„y(g)= S g W Hr. r=0 откуда следует, что любая симметрическая статистика является линейной комбинацией статистик р0, Pi, Верно и обратное: любая линейная комбинация этих статистик — симметрическая статистика. Действительно, п F 2 сгр.,= 2 £r(v/)> где g(r)—cr> r = 0s 1, ..., п. Таким образом, класс сим- г =0 i1 метрических статистик совпадает с классом всех линейных комбинаций вели- чин Ро> ••• Ил- Отметим, в частности, что статистика X* [см. (3.5)] в случае равновероят- ных интервалов—симметрическая статистика, для которой g (х) = Кх2/п—х. ПЭ
3. Критерий пустых ящиков. Простейшей симметрической статистикой является величина ц0, которая определяет число интервалов, ие содержащих )5и одной выборочной точки. Критерий, основанный на этой статистике, назы- вают критерием пустых ящиков. Вычислим первые два момента этой статистики для произвольного распре- деления наблюдений Введем для этого случайные величины i|t........ц положив, по определению, [ 1, если интервал S/ пуст, '7 I 0 в остальных случаях. Очевидно, что 110=^4-...+ qv, откуда .V W ЕМо = 2 ЕЛ/= 2 Р(П/ = 1). /=1 /=1 N Dpi0= У Dr)Z+2 У cov (],., п>) = /=1 i ;/ N = S P(n/=l)(l-P0V=l))-F2 S |Р(Пг=П/=1)-Р('1.—1)Р(Ъ = 1)1. ;=1 Испытания независимы, поэтому Р (т|/= 1) = (1—ру)4, Р (ц — ц,- = 1) = = (1—Pi — Р/)п- Следовательно, Л1 Ец0= У (1 -Р,Г, D(.0 = 2 J] (l_p._p/)» + Eg0_(Eii0)2. (3.16) / = 1 i <. i С помощью метода неопределенных множителей Лагранжа легко проверить, что среднее Ерп как функция параметров рг...рЛ, достигает минимума при р1 = ... = pN = 1/,V, т. е. при F^=F. В этом случае формулы (3.16) принимают соответственно вид Eji0==/V (1 — 1/Л'р, u v 7 (317) Du0=A'(-V--1)(1—2/V)'t4-'V(l-l.CV)” —'V2(1-I/,V)2«. ' Таким образом, при любом отклонении от нулевой гипотезы, таком, что вероятности попадания в интервалы—группировки не все равны 1/Л\ стати- стика.Ви лмеет тенденцию.увединиваться^ т.^.^лтппйбмбольщне Значения р0 «свидетельствуют» против гипотезы Нп~ Отсюда следует, что критическую область критерия следует задавать в виде Л/)}- -18) Для нахождения критической границы (n, N) надо знать распределение статистики р0 при гипотезе Но. Точное ее распределение имеет сложный вид и неудобно для практических расчетов. Одиако если п и N одновременно велики, то случайная величина имеет простое предельное распределение ври любом абсолютно непрерывном распределении наблюдений F^ (а не только для F£=F). Это предельное распределение дается в приводимой ниже теоре- ме 3.4 (доказательство теоремы можно найти, например, в [8)). Без ограниче- ния общности все распределения можно рассматривать заданными на отрезке |0, 1), а в качестве распределения при нулевой гипотезе использовать равно- мерное распределение R (0, 1). Действительно, если это не так, то всегда можно перейти от исходной случайной величины £ к случайной величине r\ — F (;), принимающей значения уже из [0, 1]. Тогда (т) | //,)) =R (0, 1) и для любого альтернативного распределения F^ P^^x\F^=P(F(z)^xiF^ = P(Z^F^(x)\F0=^Fl(F^(x^, х е [О, I]. 120
Таким образом, если сформулирована некоторая нулевая гипотеза На: F^=F, то с помощью указанного преобразования случайной величины £ задачу можно свести к проверке нулевой гипотезы о равномерном распределении на oipea- ке [0, 1]. В этом случае система интервалов (3.13) принимает вид X _ / /-1 i I , V UN Обозначим через р,= ft (х) dx, j=l................. N, вероятности попадания </—L>/.V наблюдений в интервалы группировки для распределения с плотностью Д (х). В дальнейшем предполагается, что все допустимые плотности (х) > О и непрерывны. Теорема 3.4. Пусть п, Л;-»-со так, что n,IN -+ р > 0. Тогда =5? (р0 (п. Л') । /£) (Nm (ft), No2 (f-.)), где m (it) ~ \ e <X> dx, b o2 (ft) = e— p/? <A) (l — e— p,b<A)) dx—p [pt (x) e~<A> dx о I о (3.19) Для нулевой гипотезы ft(x)szl, x e [0, 1], поэтому утверждение теоре- мы 3.4 принимает вид Jf ( -У)—Л'е-Р _ , \ ~ ((), ]) \)/We-.°<l-e~s>(l-1-р)) } (3.20) Этот результат позволяет приближенно рассчитать критическую границу в (3.18) при больших п и N и заданном уровне значимости а. В самом деле, из (3.20) следует, что если в соотношении (3.18) выбрать (а(п, ЛГ)=Л’еР+У Л'еР (1 —е*Р (1 + Р))(а. Ф(-(а) = а, (3.21) то при п, jV-»-co, n/N -* о > 0 критерий (3.18) будет иметь в пределе уровень значимости а. Соотношения (3.18) и (3.21) и определяют критерий пустых ящиков, который формулируется следующим образом: если наблюдавшееся число пустых интервалов удовлетворяет неравенству у0;т-СЛ(п, .V), где ty(n, N) задано в (3.21), то гипотезу отвергают', в противном случае счи- тают, что данные не противоречат гипотезе. Следуя этому правилу можно ошибаться, отвергнув истинную гипотезу с вероятностью, приблизительно равный а, если параметры п н N достаточно велики и п/N — р >0. 4. Асимптотическое поведение мощности критерия пустых ящиков. Тео- рема 3.4 позволяет не только найти кричическую границу в критерии пустых" ящиков, ио и исследовать предельное поведение мощности W п (f) критерия при произвольной альтернативе, задаваемой плотностью f (x) = fg (х) 1. Из (3.18) и (3.21) по этой теореме имеем (/) = Р (ро («- Л') ta (п, N) ; f) = = р /Ро(п, N)-A’m(f) Za (V), f\ % Ф(2а oV))_ (3.22) \ У N a (f) ) где ^(N) = VN ^ = е-Р(1-е-Р(1-:-р)). Далее, для любой неотрицательной случайной величины т| с конечным математическим ожиданием Ei| > exp |Е In 1])*; равенство имеет место только * Эго неравенство является частным случаем неравенства Йенсена', для любой случайной величины q и любой выпуклой вниз функции g (х) имеет место неравенство g (Ет|) =5 Eg (т)) (предполагается, что указанные математи- ческие ожидания существуют). 121
в случае, когда r] = const. Полагая T| = e~f'''l=1, получаем при Z(l) — R (0,1} J е_Р/,х’ dx 5- exp I — р j' / (х) dx> —е_₽; о I и J равенство имеет место только в случае, когда /(x) = const=! (так как / (х)— это функция плотности на отрезке [0, 1]). Отсюда и из (3.19) следует, что для любой альтернативной плотности f (х) 1 разность m(f} —еР>0, поэ- тому га(Лг) в (3.22) при 2V->co неограниченно возрастает. В силу соотно- шения (3,22) это означает, что litn Wn(j) = 1, т, е. критерий пустых яти- Л'-* со ков является состоятельным. Итак, если выполнены условия теоремы 3.4, то мощность критерия пустых ящиков при любой фиксированной альтернативе стремится к 1. Однако если при изменении п и N изменяется также альтернатива, «приближаясь» к основ- ной гипотезе Но, то мощность критерия уже не обязательно будет сходиться к 1—это зависит от скорости сближения альтернативы с нулевой гипотезой. Теорема 3.4 дает возможность ответить и на вопрос о том, с какой ско- ростью может сближаться альтернатива с пулевой гипотезой, чтобы критерий пустых ящиков обладал еще способностью «реагировать» на такие отклонения от На. В данном случае альтернативами являются абсолютно непрерывные распределения на [0, 1], отличающиеся от равномерного распределения R (0, 1); следовательно, «близкую» альтернативу Fn можно задать, например, плот-, ностью fn (х)=1 +a(n)b (X), (3.23) где а (п)-* 0 при n->co, а b (х) — непрерывная функция, удовлетворяющая I условию j Ь (x)dx = 0. Здесь а(п) и определяет скорость сближения (в смысле о поточечной сходимости) альтернативной плотности fn (х) с плотностью при нуле- вой гипотезе. Следующее утверждение является простым следствием теоремы 3.4. Теорема 3.5. Если в соотношении (3.23) положить а(п) = п~1^, то при п, N оо, п/Л' -> р > О ® (Л (&=, Р)-'а), (3.24) где Д (&2, р) — ~ 1—р, Z>2 = ( &2 (х) dx. о Из этен теоремы следует, что критерий пустых ящиков позволяет отличать от гипотезы Но альтернативы, сближающиеся с ней со скоростью Более близкие альтернативы вида (3.23) (т. е. при а (п) -> 0) этот кри- терий «не отличает» (т. е. Wn (fn) -j- а), а для более удаленных альтернатив (т. е. при а (п) a~l!l -> со) он сохраняет свойство состоятельности (т. е. Г„(Г0)->1). 5. Общие симметрические критерии. Критерий пустых ящиков весьма прост для практического применения, однако статистика ра включает далеко не всю информацию, содержащуюся в выборке X = (%i, ..., Хл). Очевидно, более полно статистическая информация будет использована, если рассматривать п статистику вида 2 гАе со> с1< ••• сп~некоторые «веса», выбираемые '==0 - « из следующего условия: соответствующий критерии должен иметь наиболь- шую асимптотическую мощность в классе всех симметрических критериев. Более подробно с теорией симметрических критериев можно ознакомиться в [8]. Отметим только, что в условиях теоремы 3.5 наибольшую асимптотическую мощность средн всех симметрических критериев имеет известный уже критерий 122
N n X2, определяемый статистикой X2 = — vj—n=^ V r2pz —n. Криги чес- 5=1 r=o кая граница для этого критерия имеет вид ta(n, N) = N + У2Л7а, Ф (—/а)=а, а предельная мощность равна Ф (b^f^p/S —7а). Можно сравнить, насколько уступает по мощности нритернй пустых ящиков оптимальному критерию %2. Из (3.24) следует, что Д(*2, р) = 52 Ур/2 е (р), где е (р) = р/у 2 (е? — 1 — р)• Как функция от р величина е (р) монотонно убы- вает от 1 при р=0 до 0 при р=со, т. е. при малых значениях параметра р простейший из симметрических критериев — критерий пустых ящиков — по мощности мало уступает оптимальному, но сравнительно трудоемкому для практической реализации критерию %2, В заключение приведем краткую таб- лицу значений функции е (р). Таблица 3.1 р 0,05 0,10 0,15 0,20 0,30 0,40 0,50 0,60 0,70 0,80 е(р) 0,992 0,983 0,975 0,967 0,950 0,933 0,917 0,900 0,884 0,867 Р 0,90 1,00 1,10 1,20 1,30 1,40 1,50 1,60 1,80 2,00 е(р) 0,851 0,834 0,818 0,802 0,786 0,769 0,753 0,738 0,706 0,675 § 3.4. Гипотеза однородности Одной из важных прикладных задач мате- матической статистики является задача проверки однородности статистического материала. Пусть имеются две независимые выборки X = (Xi, ...,ХЛ) и У=(У1, Ут), описывающие один и тот же процесс, явление и т. д., но полученные в разное время или, вообще говоря, в разных условиях; требуется установить, являются ли они выборками из одного и того же распределения или же закон распределения наблюдений от выборки к выборке менялся. Такая задача может возникнуть, например, при контроле каче- ства некоторой продукции, когда по контрольным выборкам из различных партий надо установить, не менялось ли ее качество от смены к смене или в результате изменения технологического процесса и т. д. В общем случае можно рассматривать произ- вольное конечное число независимых выборок. В общем виде задачу можно сформулировать следующим обра- зом. Пусть Х = (ХЬ ..., Х„) —выборка из распределения с некоторой (неизвестной) функцией распределения Л(х), a Y= =(У1, ...» Ут) —выборка из распределения <$?(?]) с неизвестной функцией распределения Г2(х). Требуется проверить гипотезу 123
однородности Нп: Fi (х) = F2 (х). Рассмотрим несколько способов’ построения критерия согласия для этой гипотезы. 1. Критерий однородности Смирнова. Одним из критериев проверки гипотезы однородности является критерии Смирнова, который применяют в случае непрерывных распре,делении. Отое критерий основан на статистике S’пт -- sup Ft,, (х) — F .,„ (х) --ОО < X < -Y5 где Fin (х) и F.;m (а) — эмпирические функции распределения, по- строенные по выборкам X и Y соответственно. Эмпирическая функция распределения является оптимальной оценкой для тео- ретической функции распределения, и с увеличением объема выборки они сближаются, поэтому в случаях, когда справедлива гипотеза Но, функции Fla (х) и Fim(x) оценивают одну и ту же неизвестную функцию распределения. Таким образом, в этих слу- чаях (по крайней мере при больших п н т} статистика не должна существенно отклоняться от нуля. Отсюда следует, что если имеют место слишком большие значения этой статистики, то этот факт следует расценивать как свидетельство против нуле- вой гипотезы Но. Таким образом, в данном случае разумно выби- рать критическую область в виде 1Х = {((н, т)\. Критиче- скую границу ta(n, т) при заданном уровне значимости а. нахо- дят на основании известного при гипотезе Но предельного при n, щ—>оо распределения статистики & пт. По теореме Смирнова при больших п и т можно положить tri (и, т) = (n + tri)l(nm)‘Ky, где а^(Ха)=1—а [функция SK {i) определена в (1.8)]. Действи- тельно, в этом случае Р (&„т е= I Но) = Р [ |/^ &пт ,! Яо) 1 - Ж = а. Сформулируем критерии однородности Смирнова: если объемы выборок достаточно велики, то, вычислив по выборочным данным значение t статистики Sr,m, принимают решение отвергнуть гипотезу Но в том и только том случае, когда t Дгф7{п-с тр:(пт)Ху.. Вероятность ошибочно отвергнуть при этом истинную гипотезу приблизительно равна а. Отметим также, что этот критерий со- стоятельный [альтернативой здесь является любая пара распре- делений (Fx, F2) такая, что Fj (х) F2 (х)]. Указанное правило проверки неизменности функции распреде- ления не зависит от конкретного вида функции. Для приложений это имеет важное значение, так как истинное 'распределение наблюдаемой случайной величины, как правило, бывает неизвестно, а интерес представляет вопрос о том, не изменялось ли неизвест- ное распределение от выборки к выборке. Для применения кри- терия Смирнова необходимо выполнение только условия непре- рывности, которое обычно вытекает из физической природы изу- чаемого явления и не требует специальной проверки. 2. Критерий однородности у2. Часто применяемым критерием является критерий однородности %2. Его используют для про- верки однородности данных, имеющих дискретную структуру, 124
т. е. когда в опытах наблюдается некоторый переменный признак, принимающий конечное число, например s, различных значений’ Но, как известно, к такой схеме можно свести любую другую модель, применяя предварительно метод группировки данных. Поэтому метод х2 применим на самом деле к анализу любых дан- ных, т. е. является в этом смысле универсальным. Кроме того, с помощью этого метода можно анализировать одновременно любое конечное число выборок, в то время как с помощью кри- терия Смирнова можно сравнивать только две выборки. Итак, предположим, что осуществлено k последовательных серий независимых наблюдений, состоящих из .............. nk наблю- дений соответственно. При этом в каждом опыте наблюдается некоторый переменный признак, принимающий одно из s различ- ных значений (исходов). Пусть v,y— число реализаций i-го исхода в /-й серии, так что S У, = /= 1, ..., k. 1 = 1 Требуется проверить гипотезу Но о том, что все наблюдения производились над одной и той же случайной величиной. Другими словами, если р!}- — (неизвестная) вероятность появления i-ro исхода в испытаниях /-й серии (j = l,..., s; /=!,..., k), то гипотеза Но означает утверждение: (plf, ..., p.v) = (/?i, .... ps), j = l, ..., k, где p = (/?i, ..., ps) — некоторый (неизвестный) вектор вероятностей (Pi + --- + Ps= О- Так как Е (vi?- | Но) = rtjpi, то, следуя принципу Z2, в качестве меры отклонения опытных данных от их гипотетических (при гипотезе Нп) значений в данном случае следовало бы выбрать статистику s fe X1,. (р) = У I] (vo‘ - >bPi)2'(niP‘) (3-25) i=i/=1 Однако здесь pt, .... ps неизвестны, поэтому, чтобы воспользо- ваться данной статистикой, следует предварительно оценить не- известные параметры. Для этого воспользуемся методом макси- мального правдоподобия. Здесь функция правдоподобия (при гипо- fe тезе Но) равна L(p) = c VI. = У V,y (с от пара- I. j I / = 1 метров pt не зависит). Применяя метод неопределенных множи- телей Лагранжа, получаем, что оценки максимального правдопо- добия pi параметров pi таковы: pi — viJn, 1=1, ..., s, где н = = Hi +... + пк — У Vtj — общее число наблюдений. >. i Таким образом, получена следующая статистика критерия: s k , , /st \ «^22 <V"~Z ) — 2 2^4 <3-26> ' *• 4=i /=1 у “ ! 125
Критическую область задают в виде эГ'ia = {£Ss/a}, а для нахож- дения критической границы ta применяют следующий предельный результат [13, с. 483], аналогичный теореме 3.2: при п—>о-о (У X (ХЦр) I Яо) -> X2 <(s— 1)(Л— 1)). В силу этого предельного соотношения при больших п можно полагать ta — '/j—-z, (S —i)(&—1>- Окончательно критерий однородно- сти у2 имеет следующий вид: гипотезу однородности Но отвергают тогда и только тогда, когда вычисленное по фактическим данным значение t статистики (3.26) удовлетворяет неравенству ^yj—a. (s—1)(* — и- Вероятность ошибочно отклонить при этом истинную гипотезу приблизительно равна а, если п достаточно велико. Эту же методику можно использовать н для проверки гипотезы о том, что k серий наблюдений произведены над одной и той же случайной величиной, имеющей распределение задан- ного типа, например распределение Пуассона, нормальное и т. п. В этом случае предварительно следует найти мультиномиальную оценку максимального правдоподобия дл параметров распределе- ния при гипотезе Но (т. е. рассматривая все данные как одну выборку с групповыми частотами vj., ..., vs.) и заменить в (3.25) Pi=Pi(e) на Pt (о»)- Число степеней свободы в предельном распре- делении у2 заменяют при этом на (s— 1)й — г, где г —число пара- метров, определяющих гипотетическое распределение (размерность параметрического вектора д). '' Выделим два важных частных случая общей ситуации. Случай 8 = 2 соответствует испытаниям с двумя исходами А и Л, а гипо- теза однородности представляет собой утверждение, что событие Л имеет во всех испытаниях одну и ту же постоянную (хотя и неизвестную) вероятность реализации р. В этом случае оценкой для р является относительная частота появления события Л во k всей совокупности данных: р = 1 — q —— 2 vj, где v, —число по- /=1 явлений события А в испытаниях /-й серии, а статистика (3.26) принимает вид Для случая двух выборок (й = 2) статистика (3.26) принимает следующий вид: S X,8, (р) = П1П2 2 ~ Viil i = 1 * 1 Если положить «1 = va/fvn + vi2), <о = Hi/(«i + «2), то последнее выражение можно преобразовать к виду, более удобному для 126
практических вычислении: 1 / JL \ Х* <р> = “№1 ” “"7' Описанный критерий однородности х2 является состоятельным, т. е. с вероятностью, стремящейся к 1 при п->оо, он «улавли- вает» любые отклонения от нулевой гипотезы, при которых веро- ятности появления исходов от серии к серии не сохраняют по- стоянного значения. 3. Другие критерии однородности для двух выборок из непрерывных рас- пределении. Кроме двух описанных критериев для проверки гипотезы однород- ности разработаны н другие методы, основанные на различных принципах. Приведем краткий обзор некоторых из них, применяемых в случае двух выбо- рок из непрерывных распределений. а) Критерий знаков. Простой для применения критерий однород- ности, не требующий сложных вычислений, представляет собой описанный в п. 4 § 3.2 критерий знаков. Основным недостатком этого критерия является «неэкономное» использование информации, содержащейся в результатах наблю- дений, поэтому его обычно рекомендуют применять только на стадии предва- рительного анализа. Кроме того, этот критерий можно использовать лишь для выборок одинакового объема. б) Критерий пустых блоков. Целый класс критериев однород- ности можно построить, исходя из следующих соображений. Рассмотрим вариа- ционный ряд выборки Х = (%!...Хп). Он порождает естественное разбиение оси Ох на интервалы бг = (Хц_1,, Xlit\, »=1, ... ..., 1 (Хо=— со, Х,л+11=оо), которые называются выборочными блоками. Пусть sr = sr(n, т)— число этих блоков, каждый из которых содержит ровно г элементов второй выборки Y = (Ki.Ут), r = 0, 1, ..., т. Тогда в качестве статистики критерия можно взять произвольную линейную комбинацию ЗДп, т)= = 2 сг$гг где с0, Cj, ..., ci — некоторые заранее выбранные «веса». В частно- г = 0 сти, при 1 = 0 получаем критерий пустых блоков, статистикой которого явля- ется So —число блоков, не содержащих ни одного элемента второй выборки. Основным при [построении и расчете асимптотического варианта этого крите- рия является следующее утверждение о предельном распределении статистики So [19, с. 453]: если п, т-»~ со так, что т/п-+ р > 0, то X (So (rt, m) | //») ~ ©-Г (n/(l +р), пр8/(1 +Р)3). При выполнении этих условий критерий пустых блоков формулируется сле- дующим образом: гипотезу однородности На отвергают тогда и только тогда, когда So(n, т)^-^—+Уп-—~3/2 Ф(—<а) = а. 1+Р (1+РГ Доказано [19, с. 454], что этот критерий является состоятельным против аль- тернатив (Flf Fa), удовлетворяющих следующему требованию: функ- ция F2 (fp1 (и)), и е [0, 1], имеет производную g (и), отличную от 1 на мно- жестве положительной лебеговой меры (если справедлива нулевая гипотеза Яо, то£(ц)=1, и е [0, 1]). в) Критерий серий. В ряде случаев особый интерес представляют такие отклонения от нулевой гипотезы Нй-. F1(x) = F2{x), когда одно распределение сдвинуто относительно другого, т. е. если, например, F1(x}> F2(x). В этом случае говорят, что случайная величина т] «стохастически больше», чем 1 (при каждом х случайная величина ц с большей вероятностью превосходит х, чем Простой критерий, хорошо «улавливающий» такие отклонения, можно построить 127
следующим образом. Объединим обе выборки X и Y в одну (Х(............Х„, Ух.....Пст) объема н-'-т и построим вариационный ряд объединенной выборки. После этого заменим все элементы выборки X буквой С, а все элементы вы- борки Y—буквой С. В результате получим некоторую последовательность из п букв Сит букв С. Число всех таких последовательностей равно С" , п, и интуитивно ясно, что при гипотезе Яо (элементы обеих выборок X и Y должны вести себя одинаково), все возможные последовательности из X и Y равнове- роятны. Описанные выше отклонения от нее приводят к тому, что с повышен- ной вероятностью будут наблюдаться последовательности, в которых элементы одного вида имеют тенденцию смещаться к какому-нибудь краю последова- тельности (в рассмотренном выше примере буквы С смещаются к правому краю последовательности). Одной из статистик, с помощью которой можно количественно характеризовать степень перемешивания в получаемой последо- вательности букв С и С, является число серий W (п, т), составленных нз этих букв. Серией называется участок последовательности, состоящий из под- ряд идущих одинаковых букв и ограниченный с обеих сторон (или с одной стороны, если речь идет о концах последовательности) буквами другого вида. Число серий будет мало, если одинаковые буквы группируются в одном месте, поэтому в данном случае следует задать критическую область в виде — [Гт(ri, m)). Критерий, основанный па статистике Ж (н, т) н задаваемый такой критической областью, называется критерием серий [предложен в 1940 г. Вальдом и Вольфовитцем]. Асимптотический вариант этого критерия можно рассчитать на основании следующего утверждения [19, с. 459]: если п, т-^со так, что т;п р > 0, то При этих условиях критерий серий формулируется 'следующим образом: гипо- тезу однородности Но отвергают тогда и только тогда, когда W(n, m)^z-^- +/п 1+Р 2о (1+р)3“^“’ Ф<-^ = а- Построенный критерий является состоятельным против тех же альтернатив, что и рассмотренный в п. б) критерий пустых блоков. г) Ранговые критерии. Иногда исходная статистическая информа- ция может быть задана не числовыми значениями наблюдений, а отношением порядка между ними (типа «больше-меньше»). Особенно часто это имеет место в психологических исследованиях. В таких случаях наблюдения ранжируют, т. е. упорядочивают по степени их предпочтения. Номер места, которое зани- мает наблюдение в таком упорядоченном ряду, называют рангом соответствую- щего набладення. Таким образом, статистическая информация с самого начала может быть задана рангами наблюдений, статистические методы, которые при- меняю! в таких ситуациях, называют ранговыми методами, статистики, являю- щиеся функциями только рангов,—ранговыми статистиками, а критерии, основаш1ые на таких статистиках, — ранговыми критериями. Ранговые методы можно применять н в тех случаях, когда заданы число- вые значения наблюдений, т. е. выборка Х = (Хт, ••-, Хя), так как при этом всегда можно упорядочить элементы выборки, построив соответствующий вариа- ционный ряд. В этом случае рангом г-го наблюдения (случайной величины Хг) является номер места /?/, которое занимает Х[ в вариационном ряду X(l, sg X 2, rg...-g Х Л(. Теория ранговых критериев является важной и хорошо разработанной частью математической статистики, она достаточно полно изло- жена в [4], В дальнейшем будут рассмотрены примеры ранговых критериев. Одним из таких критериев в задаче проверки гипотезы однородности является критерий Вилкоксона. Рассмотрим, как и в предыдущем случае, объединенную выборку (X,, ..., Хп, rlf .... Кт) и построим ее вариационный ряд. Пусть Rt.........—ранги величин Xi, .... Хп соответственно и Т = Rl-\~... + Rn. Таким образом, t —сумма номеров мест, которые занимают в общем вариационном ряду эле- 128
менты первой выборки. Критерий, основанный на ранговой статистике Т, и есть критерий Вилкоксона. Он был впервые предложен Вилкоксоном (1945 г.) для выборок одинакового объема и распространен на случай выборок произ- вольных объемов Маннсм и Уитни (1947 г.). „ .. ( 1 при X, < К- Введем случайные величины Zrs—\ и положим I. О в противном случае и m U=U(n, т)= Л У Zrs, (3.27) Г = I 8 = 1 так что (/—общее число тех случаев, когда элементы выборки X предшест- вуют в общем вариационном ряду элементам выборки Y. Можно показать, что статистики Т и U связаны линейным соотношением T-}-U = nm-}-n (га-}- 1)/2, поэтому критерий Вилкоксона эквивалентен крите- рию, основанному на статистике U. Вычислим первые два момента статистики U при любой гипотезе, задавае- мой парой непрерывных функций распределения [F\, F2). Из (3.27) имеем E7/ = nmEZu = rjmP (Xi < К1) = «т J Ft (х) dF2 (х) = пта. (3.28) — со В частности, для случая Fi (х) = F2(xj (т. е. при нулевой гипотезе) с= 1/2. Аналогично можно получить, что DU — пт [а-{- (п — 1) b--(m — 1) с — т— 1) а2], (3.29) где b= j F|(x)dF2(x), с= (1 — F2 (х))2 dF, (х). — со — со При нулевой гипотезе 6 = с= 1/3, поэтому DU—nm(n-x-m-T-1J/12. Извесгно, что при п, v,,,, , , и , tnm пт fra-J-m 4-1)\ X (U (п, т) | На) ~ -2- , --. Это предельное соотношение можно с хорошим приближением использовать уже при n, mj:4, n-J-zn^ 20. Основываясь на полученных результатах, можно построить и рассчитать критерий согласия проверки гипотезы Яо. Критическая область имеет раз- личный вид в зависимости от целей, для которых строится критерий. Если хотят получить критерий, состоятельный против альтернатив, для которых величина а в (3.28) удовлетворяет условию а< 1/2, то критическую область задают в виде sF10.= {< s£/a tn, m)}, где при больших пит можно положить , . , пт , 1 Г пт (л 4- m + 1), , . . 7а(п, /я) = -2-+ |/ ---- Ф(— Случай а >1/2 сводится к рассмотренному перестановкой F( и F.,. Наконец, критерий, состоятельный против альтернатив, определяемых условием а. 4 1/2, задают двусторонней критической областью Отметим, что в последнем случае критерий ие отличает от нулевой гипотезы те альтернативы (Ft, F2), Fj F2, для которых а=1/2. Рассмотренный в п. 1 критерий Смирнова также, по существу, является ранговым критерием [4, с. 112}. 5 Заказ № 1054 129
§ 3.5. Гипотеза независимости В данном параграфе будут рассмотрены не- сколько вариантов проверки гипотезы независимости, описанной в примере 3.3. В этом случае имеется выборка ((Xj, Yj), ... .... (Х„, Y„)) из двумерного распределения = g2)) с не- известной функцией распределения /^(х, у), для которой требуется проверить гипотезу Ня: (х, у) — (х) Д2 (у), где F^., /==1,2, — некоторые одномерные функции распределения. 1. Критерий независимости х2- Простой критерий согласия для гипотезы Нй можно построить, основываясь на методике х2. Как известно, эту методику применяют для дискретных моделей с ко- нечным числом исходов, поэтому условимся считать, что случай- ная величина принимает конечное число s некоторых значений, которые будем обозначать буквами аъ ..., as, а вторая компо- нента £г — k значений bi, .... Ь*. Если исходная модель имеет другую структуру, то предварительно группируют возможные значения случайных величин отдельно по первой и второй ком- понентам. В этом случае множество значений разбивается на s интервалов ..., ^1J, множество значений — на k интерва- лов gj21, ..., а само множество значений £ = (|ь &) — на N = sk прямоугольников g'/’X^2’. Обозначим через v.y число наблюдений пары (a,, bj) (число элементов выборки, принадлежащих прямоугольнику SFX&f", s k если данные группируются), так что У 2 = Результаты i = I ;=t наблюдений удобно расположить в виде таблицы сопряженности двух признаков (табл. 3.2). В приложениях и обычно озна- чают два признака, по которым производится классификация результатов наблюдений. Таблица 3.2 а 11 Сумма *i bl ... bk V11 V12 ... Vi* Vf. V21 -v2. as Vjl Vsa ... vs* •vs. Сумма V.1 v-a ... V.* n Пусть рг/= Р(|i = li — bj), / = !, .... s, / = 1, .... k. Тогда гипотеза независимости означает, что существуют s-J-Л постоян- 130
s k ных pi. p.j таких, что p(.= У p.j = l и рц = р(.р.ь т. e. z=i j=i % = (Vi/, 1 = 1, S, 7 = 1, k\Ho)=M(n; p = (pt.p.j, f= 1, .... 5, /=1, .... fe)). Таким образом, гипотеза Яо сводится к утверждению, что ча- стоты Vij (число их равно <V = sfe) распределены по полиномиаль- ному закону с вероятностями исходов, имеющими указанную спе* пифическую структуру (вектор вероятностей исходов р опреде- ляется значениями r=s+fe— 2 неизвестных параметров pL., ... .... ps_i., p.t...p.fe-j). Для проверки этой гипотезы, следовательно, можно применить описанную в п. 3 § 3.2 методику %2. Найдем оценки максималь- ного правдоподобия для определяющих рассматриваемую схему неизвестных параметров. Если справедлива нулевая гипотеза, то функция правдоподобия имеет вид ь (р) =СП {Pi-P-tfu 11 рТ П py \ <, / i ! где множитель с от неизвестных параметров не зависит. Отсюда по методу неопределенных множителей Лагранжа получаем, что искомые оценки имеют вид pi. = Vi.ln, s = l.......s; p./ = v.z7n, / = 1, ..., fe. Следовательно, статистика s k = <33»> и, по теореме 3.2, |/70)->-x2((s—1) (fe—1)) при n-+eo, по- скольку число степеней свободы в предельном распределении %а равно N — 1 — r — sk — 1 — (s + fe — 2) = (s— l)(fe— 1). Итак, при достаточно больших п можно использовать следую- щее правило проверки гипотезы: гипотезу Но отвергают тогда и только тогда, когда вычисленное по фактическим данным значе- ние t статистики (3.30) удовлетворяет неравенству Этот критерий имеет асимптотически (при /1->-оо) заданный уро- вень значимости а и называется критерием независимости %2. Пример 3.9 [10, с. 781]. В эксперименте каждый индивидуум классифицировался по двум признакам: цвету глаз и цвету волос; при этом по первому признаку' Bi индивидуум относился к одной из трех категорий ai, а2, а3, а по второму — к одной из четы- рех категорий blt ..., b4. Соответствующие данные для п = 6800 индивидуумов приведены в табл. 3.3. Здесь значение статистики (3.30) равно t— 1075,2. По табли- цам распределения х2 находим, что, например, Хо.ш; « = 22,5. Таким образом, гипотезу о независимости этих двух признаков следует отклонить; вероятность ошибки при этом значительно меньше 0,001. б» 131
Таблица 3.3 Цвет глаз Цвет волос Сумма *1 ь. Йд «1 (768 807 189 47 2811 948 1387 746 ЗА 3132 «3 115 438 288 16 857 Сумма 2829 2632 1223 116 6800 2. Критерий Спирмена. На практике для проверки гипотезы независимо- сти часта используют ранговые критерии (см. п. Зг) предыдущего параграфа). Наиболее известным из них является критерии Спирмена, который можно построить следующим образом. Обозначим через Я,- ранг X,- среди элементов Xj, ..., Х„ (т. е. номер места, занимаемого величиной Х( в вариационном ряду Хг1)...sg Х(л1); аналогично, пусть S; — ранг К; среди элементов Kj, •••> Yп- Таким образом, исходная выборка порождает множество пар ран- гов (/?ь Si), ..., (Rn, Sn). Переставив эти пары в порядке возрастания перг вой компоненты, обозначим пглучеииое множество пар через (1, 7't), .... (п, Т„), Рассмотрим теперь ранговую статистику п i Г ft п ]1/2 Р=2 (Ri-R)(Si-S) 2 S (Si-S)2 , i=l / i = l i = t J представляющую собой коэффициент корреляции двух множеств рангов (R1, .... R„) и (Sj..Sn) (здесь R и S — соответствующие арифметические средние). Но (Rlf Rn) и (Si S„)—некоторые перестановки множества (1, л), поэтому п s-s-1 п 2 ' :=1 ’ п п п 2_ V V (1±1у _ i ~- 1 i — 1 i— 1 Отсюда * * п 1=1 - 12 V (i _2±1\ (т--2+1А (3.31) п(л2— 1) Zi \ 2 А ‘ 2 Л I— I Таким образом, р—линейная функция рангов Т{. Часто используют также формулы п п 13 * * * * 13-32) 1=1 i = l совпадение которых с (3.31) проверяют непосредственно. Величину р называют статистикой. Спирмена, а критерий проверки гипотезы На, основанный на этой статистике, — критерием Спирмена. 132
Исследуем некоторые свойства этой статистики при гипотезе Нв. Множе- ство рангов (7\, .... Тп) — это некоторая перестановка (1, ..., га), и интуитивно ясно, что при гипотезе Ио все п\ таких перестановок равновероятны. Поэтому ? г = « + 1 7 , ' и! О га! 2 и из (3.32) имеем = 0, Аналогично можно найти Dp=l/(ra —1). (3.33> При полном соответствии рангов = г = 1, ..., га) р=1, а при противо- положных рангах (Т, = га —/-j-I, 1=1, ..., га) р =—I, вообще, —l^psgl. Значения р, близкие к крайним, рассматривают как свидетельствующие про- тив гипотезы На, поэтому критическую область критерия Спирмена задают в виде р | ^ta (я)}. Для определения численного значения критической границы /п(га) при заданных объеме выборки га и уровне значимости а исполь- зуют таблицы табулированного распределения статистики р, рассчитанные для га = 2, ..., 30. При больших га можно воспользоваться приближенным распре- делением. Известно [10, с. 644], что X ([Ап р | На) -► (0, I) при га->оэ. Отсюда следует, что если выбрать ta [п) = сл'Уп, где Ф {— са) = а/2, то при больших п Р (р «= | Я0) = Р (Кга ' р | =s са | Но) =2Ф (—са) = а, т. е. уровень значимости критерия приблизительно равен а. 3. Критерий Кендалла. Другой известный ранговый критерий предложен Кендаллом и основан на статистике T=wlsign(7’'-7’i)- r~ J t , у * _ 4.V Ъ lA где signa = l, если а>0, и sigrtc = — 1, если а<0. Известно [10, с. 643,, что Е (т [ Яо) = 0,. D (т I Но) = 2 (2га+5)/[9га (га—I)] и X (т | Нв) ~ W" (0,4/(9га)) при п->оэ. Отсюда следует, что при больших п критическую область следует выбрать в виде = |>2са/(3'[А«)}> Ф{—ca) = a,ft. Статистики р и т имеют разную форму, однако они сильно коррелиро- ваны; если гипотеза Нй истинна, то [10, с. 683J korr (р, т) = kn = = 2(га+1)//2га(2п+5). Функция kn убывает от 1 при га = 2 до минимального значения 0,98 при п=5 и затем возрастает до 1 при п->оо, т. е. критерии Спирмена и Кен- далла асимптотически эквивалентны. § 3.6. Гипотеза случайности В различных статистических задачах исход- ные данные X = (Х1г .Хп) часто рассматривают как случайную выборку из некоторого распределения X (£), т. е. считают компо- ненты Xi вектора даИных X независимыми и одинаково распре- деленными случайными величинами. Как правило, это предполо- жение оправдано и вытекает из самого характера задачи, но иногда оно нуждается в проверке. Математически задачу можно сформулировать следующим образом: проверить гипотезу 133
fa’. Fxfxj^F (xJ.-.F (xn), x = (xi...xn), где F (x) - некоторая функция распределения. Такую гипотезу называют гипотезой слу- чайности. Критерий согласия для проверки этой гипотезы можно построить, исходя из следующих соображений (далее предполагает- ся, что вектор X имеет непрерывное распределение). Если гипотеза случайности действительно имеет место, то ком- поненты вектора X «равноправны» и поэтому данные не должны быть ни в каком смысле упорядочены. Другими словами, ситуа- цию, соответствующую гипотезе fa, можно охарактеризовать как «полный хаос», или «полный беспорядок». При отклонениях от fa исходные данные имеют тот или иной порядок, проявляются связи. Следовательно, критерий проверки fa можно построить на основании статистик, измеряющих степень «беспорядка» исходных данных. Одной из таких статистик является число инверсий в выборке. Эта статистика определяется следующим образом. По- строим вариационный ряд Х<г)<.. .<Х(п) выборки Х=(ХГ,.... Х„). Говорят, что компоненты X, и X; образуют инверсию, если i<Zj, но Xi стоит правее Xj в вариационном ряду, т. е. наблюдению с меньшим номером соответствует большее значение. Пусть Др— число инверсий,' образованных компонентой X, (в вариационном ряду левее Xt стоит гр элементов выборки с большими номерами), •i = l, ..., л—1. Тогда Тл = 7’л(Х) — г|1-Г... + 1]ч_1Л-общее число инверсий для выборки X. Статистика Тп является естественной мерой «беспорядка» среди наблюдений, и ее можно использовать для проверки гипотезы fa. Крайние случаи, когда вариационный ряд имеет вид Xi<X2 <. .<Хп или Хп <X„_i<.. .<Xi, естественно рассматривать как свидетельства «полного отсутствия беспорядка», т. е. противоречащие гипотезе fa. В первом случае статистика Тп принимает минимальное значение, равное 0, а во втором случае она максимальна и равна (п — 1)±(п — 2)4-... ...+1 = п(п — l)f2. Таким образом, слишком малые значения Тп и слишком большие (близкие к (п —1)/2) естественно рассматри- вать как критические для гипотезы 7/0. Чтобы определить число- вые характеристики этого критерия, найдем распределение ста- тистики Тп /три гипотезе fa. Из соображений симметрии ясно, что при гипотезе fa любое из п! относительных расположений элементов выборки в соответ- ствующем вариационном ряду имеет одинаковую вероятность Цп\ Введенная случайная величина гр определяется расположением компоненты Х; по отношению к Xi+i, ..., Хп в вариационном ряду и не зависит от относительного расположения последних между собой, т. е. тр при любом i = 1, ..., п — 2 не зависит от *Ч»+1» •••’ Таким образом, т]Х, ..., взаимно независимы. Далее, тр может с одной и той же вероятностью l/(/i —i-J-l) принимать значения 0, 1, ..., п — i, поэтому ее производящая функция имеет вид Л—i - У Р(щ==г)2г = —(1+з4--..4-2^(), . fl ь ~г 1 л = 0 134
а производящая функция статистики Тп — вид л — 1 п — 1 Ф„(г) = (Tn = r)zr = | |р(г) = ~ JJ(1 +г+..,+zr)t г 1 = 1 /=! Отсюда имеем: Ецг = (fl(1) = , Dib = cpf (1) + Етц- (ЕПг)2 = , п — 1 л — 1 ЕТЛ= 2 ЕЛг = '^Л DT^y Вп< = ^я±_3”2-5\ i=i i=i Итак, среднее значение статистики Тп при нулевой гипотезе совпа- дает с серединой промежутка [0, п (п —1)/2], и в критическую область -зГia следует включать все целые точки этого промежутка, достаточно удаленные от середины, т. е. можно положить эГ'1а = = {(< — п(п— 1)/4£а(п)} (в данном случае t (возможное значе- ние статистики Тп) пробегает все целые точки 0, 1,п(п — 1)/2). Границу ta(n) при заданном уровне значимости а выбирают из условия Р(Тп^еГ'ia\H0)^a или, что эквивалентно, из условия Р(Т„^^=1а(Я0) = = Р - ta(я) < Т„ + ta(п) | Но\^ 1 - а (^а (га) —это минимальное число, удовлетворяющее данному соот- ношению). Раскладывая функцию Ф„ (г) в ряд по степеням г и вычисляя коэффициент при гг, можно вычислить вероятности Р(Тп=г\ Но) при заданном п и любом г и использовать их для нахождения критической границы ta(n). Распределение статистики Тп прота- булировано для значений п —2, 3, 12 [2]. Для больших объемов выборки п применяют простой асимпто- тический вариант этого критерия. Используя производящую функ- цию Ф„(г), можно показать, что характеристическая функция нормированной статистики Тп = (Тп — п(п — 1)/4)(6/п3/2) сходится при п->-<х> и любом конечном t к е—/1/2 —характеристической функции нормального распределения. Это означает, что.#’(Т*\Н0)->- ->@4^(0, 1) при п->оо. Последний результат дает возможность построить следующее правило проверки гипотезы Но, когда п велико: 'для заданного уровня значимости а определяют число ta из условия Ф (—/а) =а/2; по фактически наблюдавшимся данным x=(xi,..., хп) вычисляют зна- чение t = T„ (х) числа инверсий в выборке-, если 11 — п (п — 1) /416/п3/г > >ta, то гипотезу Нй отвергают как противоречащую исходным данным-, в противном случае признают, что гипотеза независимо- сти и одинаковой распределенности наблюдений согласуется с опыт' ными данными. 135
Вероятность ошибочно отвергнуть при этом истинную гипо- тезу Но равна Это правило можно использовать уже при «>10. Задачи 1. При и = 4000 независимых испытаний события .4,, Л2 и .4-., составляю- щие полную группу, осуществились 1905, 1015 и 1080 раз соответственно. Проверить, согласуются ли эти данные на уровне 0,05 с гипотезой На : р± = 1/2, Л/~Рз=1/4, где р, = Р(Л;). 2. Доказать формулу (3.8) для дисперсии статистики Х^, 3. В опытах наблюдалась неотрицательная непрерывная случайная вели- чина g. Ее значения (упорядоченные по величине л округленные с точностью до 0,01) для и = 50 опытов оказались равными: 0,01; 0,01; 0,04; 0,17; 0,18; 0,22; 0,22; 0,25; 0,25;» 0,29; 0,42; 0,46; 0,47; 0,5В; 0,59; 0,67; 0,68;\0,70; 0,72; 0,76; 0,78; 0,83; 0,85; 0,87; 0,93; 1,00; 1,01; 1,01; 1,02; 1,03; 1,05; 1,32; 1,34; 1,37; 1,47; 1,50; 1,52; 1,54; 1,59; 1,71; 1,90; 2,10; 2,35; 2,46; 2,46; 2,50; 3,73; 4,07; 6,03. Проверить гипотезу Но : f^(x)= 1 —е~х, х:з:0, применяя метод груп- пировки с четырьмя равновероятными интервалами (уровень значимости принять равным 0,1). Указание. Здесь ^ = 0,288; ^ = 0,693; £з= 1,386 (f (u;) = //4, /=1, 2, 3). Zo;9. 3 = 6,25; Х?„ = 3,9. Реализацией выборки (Хг.......Xs) является целочисленный вектор (47, 46, 49, 53, 50). Можно ли с уровнем значимости 0,1 считать распределе- ние наблюдавшейся случайной величины пуассоновским? 5. Поступающие в институт абитуриенты разбиты иа два потока по 300 че- ловек в каждом. Итоги экзамена по одному и тому же предмету на каждом потоке оказались следующими; 1-й поток: баллы «2», «3», «4» и «5» получили соответственно 33, 43, 80 и 144 человека; 2-поток: баллы «2», «3», «4» и «5» получили соответственно 39, 35, 72 и 154 человека. Можно ли считать оба потока однородными (на уровне значимости 0,05)? у iy/кз айне. Критический уровень Xq>95; s = 7,82. Из 300 абитуриентов, поступивших в институт, 97 человек имели батат «5» в школе и 48 получили «5» на вступительных экзаменах по тому же предмету, причем только 18 человек имели «5» и в школе и на экзамене. С уровнем значимости 0,1 проверить гипотезу о независимости оценок «5» в школе и на экзаменах. Указание. Таблица сопряженности двух приз- наков (см. табл. 3.2) в данном случае имеет следующий вид: Использовать значение 9;1=2,71. 7- Таблица «случайных чисел» содер- жит реализации 10 000 независимых и оди- наково распределенных случайных вели- чин, принимающих значения 0, 1, 2, 3, 4, 5, 6, 7, 8, 9. Корректно ли предположение о равновероятности этих значений, если в упомянутой таблице числа, ие превосходя- щие 4, встречаются 4806 раз? При каком уровне значимости гипотеза равновероятно- сти отвергается? 1ожно ли с уровнем значимости 0,001 считать, что последовательность 05; 1,12; 1,37; 1,50; 1,51; 1,73; 1,85; 1,98 является реализацией слу- Сумма «5* «не 5» «5» 18 30 48 «не 5» 79 173 252 Сумма 97 203 300 136
чайного вектора, все 8 компонент которого—независимые одинаково распреде- лещгые случайные величины? ( 9._<реди 2020 семей, имеющих двух детей, 527 семей, в которых два маль- чйтг57 н 476—две девочки (в остальных 1017 семьях дети разного пола). Можно ли с уровнем значимости 0,05 считать, что количество мальчиков в семье с двумя детьми—биномиальная случайная величина? Е, Сумма ^2 Ьз «1 3009 2832 3008 8849 с3 30-17 3051 2997 9095 Й.э 2974 3038 3018 9030 Сумма 9030 8921 9023 26974 10. Для заданной таблицы сопряженности двух признаков проверить гипо- тезу независимости (уровень значимости взять равным 0,05). 11. Используя формулы (3.17), убедиться, что при п, /V->co, м/'.V ->р>0 Еро/М -> е Р, Dp0.',V -* е~Р (1 —е_₽ (1 ф-р)). 12. Доказать теорему 3.5 об асимптотическом поведении мощности крите- рия пустых ящиков. 13. Доказать, что число инверсий в повторной выборке объема п распре- делено асимптотически нормально (п (п—1)/4, п3/36).
Глава 21 Параметрические гипотезы Параметрические гипотезы, рассматриваемые в на- стоящей главе,— это гипотезы об истинном значении неизвестного параметра, определяющего заданное параметрическое семейство распределений. В дан- ной главе изложены и продемонстрированы на кон- кретных примерах основные принципы построения оптимальных или асимптотически оптимальных кри- териев проверки таких гипотез, в основе которых лежит предложенный Ю. Нейманом и Э. Пирсоном метод отношения правдоподобия. Отдельный пара- граф посвящен последовательному анализу, основ- ные элементы которого рассматриваются на приме- ре различения двух простых гипотез^ § 4.1. Общие положения 1. Понятие параметрической гипотезы. Важ- ный класс статистических гипотез составляют гипотезы о пара- метрических моделях. В этом случае класс допустимых распре- делений наблюдаемой случайной величины £ имеет вид = = {F(x; 6), 0е0}, т. е. является классом специального функ- ционального вида. Функции этого класса находят в соответствии со значениями вещественного параметра 6 = (0Ъ 0г) из неко- торого параметрического множества 0 s Rr, поэтому гипотезы, по существу, относятся к неизвестным параметрам распределения и называются параметрическими. Примерами параметрических гипотез являются утверждения следующего типа: 1) /70:9 = 90, где 60 е 0 — некоторое фиксированное значение параметра; 2) Яо:01 = ... = 9Г; 3) Но :g (В) =go. где g (9) — некоторая (в общем случае вектор- ная) функция 6, gQ — фиксированное значение. В общем случае параметрическая гипотеза задается указанием некоторого подмножества ©о cz 0, элементом которого является, по предположению, неизвестная параметрическая точка 6. Запи- сывается это так: Альтернативная гипотеза имеет вид Hi: 6 е ©1 = ©\0О; точки В е ©i называют альтернативами. Если множество 0О (01) состоит из одной точки, то гипотезу Но (альтер- нативу 771) называют простой', в противном случае гипотезу (или альтернативу) называют сложной. Так, например, гипотеза 1) — 138
простая, гипотеза 2) — сложная, а гипотеза 3) может быть как простой, так и сложной. Приведем пример конкретной параметрической гипотезы. Пусть класс еГ = @^(в1г 6|). Тогда утверждение ЯО:61 = 61(), 62 = 620, где 6ю, 620 —заданные числа, есть простая гипотеза о нормальном распределении наблюдений. Гипотеза, выраженная равенством 61 = 610 и оставляющая значение дисперсии 6| неопределенным,— сложная. 2. Критерии проверки гипотез. Пусть имеется выборка X = = (Xi, .... Х„) из распределения <5?(t)eeF, о котором сформу- лирована некоторая гипотеза Но : 6 е 0О (6 может быть как ска- ляром, так и вектором). Требуется выяснить, верна или неверна гипотеза Нп, т. е. надо построить такое правило (критерий), кото- рое позволяло бы для каждой реализации х выборки X принять одно из двух решений: принять гипотезу Нй или отклонить ее (принять //J. Тем самым каждому критерию соответствует раз- биение выборочного пространства 37 на два взаимно дополнитель- ных множества и ^1 (^’0^’1 = ф, 3\ilj 3\ = 37), где 370 со- стоит из точек х, для которых гипотеза Но принимается, a JTj —из точек, для которых Но отвергается. Множество J&’o называют областью принятия гипотезы Но, а ^i — областью ее отклонения или критической областью. Таким образом, выбор правила про- верки гипотезы Но эквивалентен заданию критической области j^i. Если выбрана критическая область 37то критерий можно сфор- мулировать следующим образом: пусть х — наблюдавшаяся реали- зация выборки X; тогда при х е 371 гипотезу Но отвергают (при- нимают альтернативную гипотезу Hi), если же хе37о — 37 г, то гипотезу Но принимают. Критерий, определяемый критической областью 37lt часто для краткости называют критерием 3\. В некоторых случаях удобно рассматривать критерии более сложной структуры — так называемые рандомизированные критерии, когда при наблюде- нии х гипотезу На отвергают с некоторой вероятностью ф (х) и принимают с дополнительной вероятностью 1—<р (х). Рандомизированный критерий, таким образом, полностью характеризуется критической функцией ср (х) (0ф(х)sg 1, Vx s 37). Если функция <р(х) принимает тольио два значения О и 1, то при- ходим, очевидно, к случаю нерандомизированного критерия с критической обла- стью ^’1={х;<р(х)= 1). Далее будут рассмотрены в основном нерандомизирован- ные критерии, которые, как правило, и используют на практике. 3. Общий принцип выбора критической области критерия. В процессе проверки гипотезы Но можно прийти к Правильному решению или совершить ошибку первого рода — отклонить Яо, когда она верна, или ошибку второго рода —принять Яв, когда оиа ложна. Иными словами, ошибка первого рода имеет место, если точка х попадает в критическую область 37ъ в то время как верна нулевая гипотеза Яв, а ошибка второго рода —когда х е ^е, но гипотеза Яо не верна (верна альтернатива Hi). Вероятности этих ошибок можно выразить через функцию мощности W (6) критерия 37г. W (6) = W (37t; 6) = Ре (Хе/Г i), 9 е 9. .139
Именно: вероятности ошибок первого и второго рода равны соот- ветственно IF (6), 0s(-»e, и 1— IF (0), 9 е= Иногда удобно эти вероятности записывать в символическом виде: Р(Н1\Н0) (вероят- ность ошибки первого рода) и Р(Н0 Н^ (вероятность ошибки второго рода). В случае рандомизированного критерия, задавае- мого критической функцией ср(х), функция мощности определя- ется соотношением W (9) = W (<р; S) = Ee<p (X). Желательно провести проверку гипотезы так, чтобы свести к минимуму вероятности обоих типов ошибок. Однако при дан- ном числе испытаний п в общем случае невозможно ни при каком выборе критической области одновременно обе эти вероятности сделать как угодно малыми. В то же время, выбирая критическую область, можно добиться произвольной малости вероятности какой- либо одной из ошибок первого и второго рода. Так, положив = будем иметь 1Е(9)=1 и поэтому вероятность ошибки второго рода равна 0; если A"i = 0, то IF(9) = O и нулю равна вероятность ошибки первого рода. Ясно, что ни с одним из этих решений согласиться нельзя. Рациональный принцип выбора кри- тической области можно сформулировать следующим образом: при заданном числе испытаний п устанавливается граница для вероят- ности ошибки первого рода и при этом выбирается та критиче- ская область 371, для которой вероятность ошибки второго рода минимальна..Иными словами, выбирается число а. между 0 и 1 и налагается условие IF(9)sSa для-всех 9 е 0о; (4.1) при этом условии желательно сделать минимальной (за счет вы- бора критической области 3\) величину 1 — W (9) для всех 6 е ©ь или, что то же самое, максимальной мощность W (6) для всех 6 <= 01. (4.2) Величину сс в соотношении (4.1) называют уровнем значимости, а тот факт, что критерий имеет уровень значимости а, часто подчеркивают обозначением 371а. - В конкретных задачах выбор уровня значимости до некоторой степени произволен и связан с практической стороной вопроса. Так, часто ошибочное принятие или отбрасывание гипотезы Я» связано с материальными затратами. Если принятие гипотезы Но в то время, когда онв не верна (ошибка второго рода), приводит к большим затратам, тогда как отклонение истинной гипотезы 77О (ошибка первого рода) приводит к небольшим потерям, то ясно, что желательно сделать как можно меньшей вероятность ошибки второго рода, допуская сравнительно большие значения а. Обычно для а выбирают одно из следующих стандартных значений: 0,005; 0,01; 0,05; для этих значений рассчитывают соответствующие таб- лицы, используемые при проведении различных испытаний. 4. Равномерно наиболее мощные критерии. Пусть*— два критерия одного и того же уровня значимости а для гипо- тезы Но. Если №(.Ж7а; 9)^Г(.Г1а; 9), 9е=0о, и (4.3) 140
W № 6)2s w (^la; 9), 9 <= ©1( (4.4) причем строгое неравенство в (4.4) имеет место хотя бы при одном значении 6, то говорят, что критерий &*a равномерно мощнее критерия В этом случае, очевидно, следует отдать предпо- чтение критерию ^*а, как приводящему к меньшим ошибкам. Если соотношения (4.3) и (4.4) выполняются для любого крите- рия то называют равномерно наиболее мощным (р. н. м.) критерием для проверки гипотезы Нь. В случае когда множе- ство ©1 состоит из одной точки (гипотеза Hi простая), вместо термина р. н. м. критерий используют термин наиболее мощный критерий. Равномерно наиболее мощный критерий не всегда существует, так как, как правило, критерий, максимизирующий мощность при определенной альтернативе 9 е ©lt зависит от этой альтернативы и экстремальная задача (4.2) при ограничении (4.1) имеет реше- ние только в некоторых специальных случаях. Примеры таких ситуаций встретятся в дальнейшем.. Часто ограничиваются рассмотрением подкласса несмещенных критериев, для которых одновременно с (4.1) выполняется условие W (6) 2s а для всех 9 е ©i. (4.5) В ряде задач, для которых р. н. м. критерии не существуют, могут иметь место р. н. м. несмещенные критерии. В заключение отметим, что обычно критическая область за- дается с помощью некоторой статистики Т (X) и имеет, как пра- вило, следующий вид: J^\ = jx : T(x)2sc}, или г2-\ = {х: T(x)s-f}, или 3?1 = {х: | Г (х) |2sc}. Функцию наблюдений Т (X) называют в этом случае статистикой критерия. § 4.2. Выбор из двух простых гипотез. Критерий Неймана — Пирсона 1. Постановка задачи. В этом параграфе рассмотрен важный частный случай описанной в § 4.1 общей ситуации, а именно когда основная и альтернативная гипотезы Являются простыми. В этом случае параметрическое множество 0 состоит из двух точек: 0 = {9О, Sj} —и проверяемая (основная) гипотеза означает утверждение Но: 9 = 90, а альтернатива — утверждение Hi: 9 =-= 6j. Другими словами, допустимыми распределениями наблюдаемой случайной величины | являются только два распределения (две функции распределения): F0(x) = F (х; 90) и Л (х) = F (х; 61); тре- буется по выборке X — (Xi, ..., Хл) из распределения X (£) опре- делить, какое из этих двух распределений истинно. Предположим, что практические соображения приняты в расчет и уровень значимости а выбран. Тогда, согласно изложенному в § 4.1 общему принципу, задача построения наилучшего крите- рия. сводится к решению экстремальной задачи максимизации по мощности W (X'ia-, 9i) при ограничении IE (JT10,; 60)==а. Решению этой задачи, впервые найденному Ю. Нейманом и Э. Пир- соном (1933 г.), и посвящен настоящий naparpad^O^ 141
Напомним, что в рассматриваемом случае наилучший крите- рий называется наиболее мощным критерием. 2. Критерий Неймана—Пирсона в случае абсолютно- непре- рывных распределений. Предположим, что распределения Fa и Fi абсолютно непрерывны и соответствующие плотности f0 (х) и Д (х) удовлетворяют условию /у (х) > 0, j = 0, 1. Рассмотрим статистику отношения правдоподобия п I л '<к)=Н^=Пмад Щмад (4.6) 1 = 1 I 1=1 и определим функцию ф (с) = Ре0 (1(Х) ^с). С ростом с эта функ- ция может только убывать; кроме того, ф(0) = 1. Далее имеем P9l (/(X) с) = J £(х; Bj)dxS3C $ £(х; 90)dx — х : Z (х) с х : Z (х) > с = сРе0(/(Х)>с) = сф(с), (4.7) поэтому ф(с)^1/с, откуда следует, что ф(с)->0 при с->оо. Будем далее предполагать, что существует такое значение с—са, для которого ф (с) — а (в частности, это всегда имеет место, если функция ф(с) непрерывна). Тогда имеет место следующее утверждение. Теорема 4.1 (Неймана — Пирсона). При сделанных предположе- ниях существует наиболее мощный критерий проверки гипотезы Но- Этот критерий задается критической областью ^Га = {х:/(х)^с}, (4.8) где критическая граница с определяется из условия ф(с) = а. □ Рассмотрим любой другой критерий уровня значимо- сти а. Тогда 60= $ -L(x; 60dx = 93 la = £(х; 6i)dx-|- § £(х; 90 dx. 93la Э3*а Аналогично имеем 90= $ £(x; 6i)dx+ 5 i(x; 0i)dx- Отсюда ^(^la; 90 = ^№ 60 + 4- $ l(x)£(x; 60)dx — J l(x)£(x; 60)dx. Но согласно определению множества ^ia, вне этого множества (первый интеграл) !(х)<с, а в точках этого множества (второй интеграл) — I (х) <= — с; следовательно, из последнего соотношения 142
получаем неравенство W(^la; 9!)<^№ 91) + + с/ J L(x; 60)dx- J L(x; 9a)dx’ По условию, $ L(x; Ba)dx = J £(x; 0a)dx = a, la *^1» '(4.9) откуда имеем, что каждый из интегралов в правой части (4.9) отличается от а на одну и ту же величину $ L (х; So) dx. •^la^la Таким образом, оба этих интеграла равны и получено требуемое неравенство W 6i) < U7 (JT^; 6i). Построенный критерий проверки гипотезы Но называют кри- терием Неймана —Пирсона. Покажем, что этот критерий является несмещенным [см, усло- вие (4.5)]. Если в (4.8) с>1, то из (4.7) получаем № (лГГа; 01) ca > a. Если 1, то Г(++Л; 0i) = 1- L(x; 9i)dx>l- $ £(x> 8o)<& = la la c= К L (x; 0o)dx = a, erm la поскольку L (x; 6i)<cL(x; 6li)s^L(x; 60) при XEjfa- Следова- тельно, в любом случае U7 6i)>a. 3. Критерий Неймаиа — Пирсона в случае дискретных распределений. Соответствующие рассуждения можно провести и для дискретных распределе- ний, для которых вероятности /)• (?*) >0 (/ = 0, 1) для всех г^-возможных значений наблюдаемой случайной величины g /^//(z*)=l, /=0, Ц. В этом \ k ! случае также «упорядочивают» выборочные точки x=(xlt .... хя) соответ- ственно величине отношения п I п II'-W 1 = 1 / 1 = 1 и включают в критическое множество максимальное число точек, согла- сующееся с требованием V £- (х; ®о) =£ Однако в отличие от непрерыв- кого случая здесь в с>$лу дискретности распределения выборки, вообще говоря, уже нельзя получить точное значение а за счет выбора границы с в неравен- стве /(х)^с, определяющем множество +"i: может быть так, что, вклю- чив в очередную точку, мы еще не достигнем уровня а, а включив сле- дующую—превзойдем его. Подробнее это можно объяснить следующим образом. Обозначим через {... < 1^ < /А+1 <...} возможные значения статистики I (X). 143
Тогда в общем случае можно определить такое k = k(a), что 2 L (х; 6„) < а й 2 9°)- х:/(х)>ГА+1 (4.10) Если в правой части соотношения (4.10) имеет место равенство, то, полагая &*а= {х • z W ta)} и повторяя рассуждения, проведенные в п. 2, можно показать, что это критическое множество задает наибол^е/мощный критерий уровня значимости сс для проверки гипотезы Нв против а/ьтериа гивы II Рассмотрим теперь более подробно случай, когда в (4,10) имеют место строгие неравенства (как это чаще всего и бывает). Пусть «/= 2 (х; М н yi.i 1^ х : 1 (х) 2= Р/ = Ра/НХ) = /л)= 2 £ (х; 9Z), j = 0, ). х : Г (X) =/й Тогда соотношение (4.10) запишется в данном случае в виде 0 < а — < pf. Чтобы построить критерий с уровнем значимости а, надо использовать прием рандомизации, т. е. поступить следующим образом. Когда выполняется равен- ство /(x) = Z*(Ct),— произвести дополнительный случайный эксперимент с исхо- дами R и R, вероятности которых равны соответственно (а —Оо)/р0 и 1—(а—Ool/Pt), и отвергнуть гипотезу Яо, если наблюдается R. и Принять На в противном случае. Если I (х) > Ikia» то гипотезу Но следует отвергнуть, а при I (х) < 1к ,а, —принять. Другими словами, строят рандомизированный критерий, основанный на критической функции (1 при Z(x)>/fcia„ (a—OflJ/po при Z (х) =/* («.,, 0 при I (х) < I/, <а>. Вероятность ошибки первого рода такого критерия равна [см. (4.11)] Р №! н,)=м* (z (X) > lk что и требовалось показать. Мощность вычисляют по аналогичной формуле U7 (ф*; 9!)=£Е91ф* (Х) = а1+(а—а0) Р1/ра. Покажем, что это наиболее мощный критерий. Рассмотрим произвольный критерий с уровнем значимости а, задаваемый некоторой критической функ- цией ф (х): Е0оф (X) -1 а, и обозначим {х : <р* (х) — ф (х) =g0} [знак «4-в (г—») соответствует неравенству >(<)]. Если хб^+, то ф*(х)>0 и поэтому L (х; 90 l^L (х; 60); если х е то ф* (х) < 1 и, следовательно, £(х; 01)гСЛ*£(х; 90). Таким образом, 2(ф* (х)—Ф W) (^(х; ЭД —/*£ (х; 90))= 2 + X £ Xs х Отсюда для разности мощностей Д=Еэф*(Х)— Е91ф (X) получаем Д=2(Ф* (*) —ф(х))£ (Х1 61)5г/*2(ф*(х) —ф(х)) Lfc ®о) = = (ЧФ* (X)-Ево<р (X)) ^1к (а-и) =0, что и требовалось доказать. И4
Итак, в дискретном случае всегда можно построить наиболее мощный кри- терий, который, вообще говоря, является рандомизированным. Отметим, что рандомизация необходима лишь на пограничном множестве {х: I (x) = lh (Я,} и только в том случае, когда желательно иметь вероятность ошибки первого рода равной точно а. На практике предпочитают в таких случаях несколько изменить уровень значимости так, чтобы отпала необходимость в рандомиза- ции, т. е, замейеть а на а» и использовать нераидомизированный критерий '^’*a0==V lk который, по предыдущему, является наиболее мощ- ным критерием уроайя значимости осо(Са). Можно также использовать неран- домнзированный крит&^ин $?*а' =={< (х) 5= 1Л (а)} с большим уровнем значимо- сти a' = а34-р1). Эти общие положения проиллюстрированы ниже в примере 4.2. 4. Примеры применения критерия Неймана — Пирсона. Пример 4.1 (нормальная-l модель, проверка простых гипотез). Пусть о нормально распределенной случайной величине £ с извест- ной дисперсией <т’2 и неизвестным средним 6 имеются две гипо- тезы: Нп-. 8 = 9» и Я1:0 = 61 (для определенности будем считать, что 91 > Во)- Если X == (Хь..., Хл) — выборка из (£) их — наблю- давшаяся реализация X, то п I (х) = exp - i 2 - 01>2 - - 6°)21 = expU(9l- 90)Х- 2^(61 — и неравенство /(х)г>с эквивалентно неравенству х a2 In с/[п (9t - 60)]+(9х+60)/2, которое можно переписать в виде ? тг1П с+(01 - м = * U у п (et — 9о) 2о Так как (X) = ©-F (90, afyn),To отсюда имеем t (с) = Р6о (/ (X) с) = (X - 60) > t (с)} = Ф (-1 (0). При с>0 функция 1(c) непрерывно зависит от с, поэтому ф(с)— непрерывная функция и для любого ае(0, 1) однозначно опре- делена величина са, где 1(са) = 1а, а Ф(—Ах) = а. Таким образом, все условия теоремы 4.1 выполнены и, следо- вательно, наиболее мощный критерий для проверки гипотезы //о против альтернативы Hj задается в данном случае критической областью = {х : /п (х - 60)/аtaj, Ф (— ta) = а. (4.12) В данном случае статистикой критерия является выборочное сред- нее X, а критическая область не зависит от конкретного значе- ния альтернативы 91>6О. 145
Вычислим мощность критерия (4.12). Так как «Sf91(X)=; = .^(0!, о2/п), то 1 В частности, отсюда видно, что W (.ЯПа! 91)>Ф(—ta)=a (не- смещенность). Аналогично, при 6i<9o наиболее мощный критерий имеет вид JHa = {x:V^(x-e0)/a^-tJ, Ф (-/«) = а, (4.14) а его мощность 1Г(№ е1) = Ф(/п(90-91)/о-^). (4.15) Из (4.13) следует, что вероятность ошибки второго рода кри- терия (4.12) равна ₽ = Р(а, п) = ф(/а-Кл (91-90)/о). (4.16) Наглядной иллюстрацией приведенных рассуждений служит рис. 4.1. Рассмотрим следующую задачу. Пусть заранее заданы вероят- ности ошибок первого и второго рода а и р. Определим, каким должно быть минимальное число п*=п*(а, Р) испытаний, необ- ходимых для того, чтобы ошибочные заключения могли быть сде- ланы с вероятностями, не превосходящими аир. Из (4.16) следует, что р (а, п) с ростом п убывает к нулю, поэтому искомое число п* есть наименьшее из тех п, для кото- рых Р (a, n)ssp. Для определения п имеем два уравнения: Ф(—U = a и Ф((х —Vп (91 — 9о)/а)=р. Обозначим р-квантнль распределения @/Г(0, 1) через С^т. е. —решение уравнения Ф(£) = р. Отсюда имеем —/а=Ха> *« — Vn (&! — 60)/о = С₽, т. е. n = aa(k + £₽№-0o)2. Но число п* должно быть целым, поэтому надо положить n*=b2(^+^)2/(6i-6o)2]+l, (4.17) где [а] —целая часть числа а. Отсюда следует, что при фиксиро- ванных ошибках число наблюдений пропорционально дисперсии и обратно пропорционально квадрату разности между средними значениями. Если, например, а = р =0,001, то 5а —5ь =—Л,09 и йз формулы (4.17) имеем п* =[38,2а2/(91 — 90)2]-|-1. При а = 1, 6Х — 0О = 1 значение п* =39. Таким образом, если требуется раз- личить гипотезы с указанными параметрами, то только при числе 146
испытаний, не меньшем 39, можно быть уверенным в том, что, поступая согласно кри- терию (4.12), будет принято ошибочное решение с вероят- ностью, не большей 0,001. Пример 4.2 (беркуллиевская модель, проверка простых гипо- тез). Пусть о неизвестной вероят- ности «успеха» в в бернуллнев- скон модели Bi (1, 6) имеются две гипотезы: На : в = 60 и Яj : 9=> в0. *„), Xi е= {0, 1}, 1 = 1, ..., п, Рис. 4.1 Здесь для любой точки х — (г1( ... , L (х; 6у) = 9< (1 - ву)я-г, j = 0, 1, п где т=т(х)=^ Xi — наблюдавшееся число «успехов», а >=1 L“o (1— °i) J U — “о/ Функция ф(9) = 9/(1 —6) возрастает на интервале (0, 1), поэтому при 6j > 90 <Р (61)/ф (9«) > 1 и неравенство 1(х)^с эквивалентно неравенству г(х)Эг ^(Inc-npil/p, где р = 1п ([6x0 —0о)]/[6в (1 —6д)]>, Pi = ln((l - 60/(1-Эо)). Следовательно, критическая область задается в данном случае условием ^’♦={x:r(x)Ssra}. (4.18) Для определения критической границы г = га заметим, что =5?eo(r(X)) — = Bi (n, fl0), поэтому условие (4.10) принимает вид S (1 -Wm < а < J] (1 —90)я-от. (4.19) 7Л==Г-|-1 Я1 = г Если в этом соотношении имеет место зиак-равенства, то тем самым построен критерий Неймана—Пирсона с уровнем значимости а дли гипотезы Но протии альтернативы Hi. Здесь также критическая область ие зависит от альтернативы. Поскольку (г (X)) = Bt (n, Эх), мощность этого критерия Г 8i)-3 ^(l-exf-m. т = га Чаще всего при заранее заданном а в (4.19) имеет место случай строгого не- равенства; следовательно, критерий, определяемый критической областью (4.18), будет иметь уровень значимости не точно равный а, а больший, именно т=га Если бы в данной ситуации требовалось построить критерий с уровнем значимости, точно равным а, то следовало бы прибегнуть к рандомизации и поступить следующим образом. Положив Ро=Ф?(‘ -9о)"_Га=₽0(1 f Ш
задать критическую функцию <р* (х) = 1 при (р0+а—а')/рв при О при г (X) > Га, ' (X) = га, '(») <га> т. е. условиться отвергать гипотезу Но, если г(х)>ла, и принимать ее, если г(х)<га; если л(х)=,-а, то отвергать Н„ с вероятностью (ро+«—а')/ро и принимать с дополнительной вероятностью (а' — а)/р0. Тогда вероятность ошибки первого рода такого рандомизированного критерия равна Р (Hi! Яо) = Е6вф* (X)=Р% (г (X) > ra) + --±^— Pee <Г (X) =та) = , . ро + а—а' = а — Р9 -------А)=а. Ро Мощность этого критерия вычисляется по формуле W (ф*; 61)=Ее1<Р* (Х)= = 2 W(’-^rw+(P«+«-Z“* /я=га4-1 Случай BjCSo рассматривается аналогично, при этом критическая область имеет вид {г(х)^га[. § 4.3. Выбор из двух простых гипотез. Понятие о последовательном анализе В примере 4.1 при рассмотрении задачи выбора одной из двух гипотез о нормальном распределении была установлена [см. соотно- шение (4.17JJ связь между числом необходимых наблюдений и значениями ве- роятностей ошибок аир. Это число можно рассчитать заранее (до проведе- ния испытаний), и оно ие зависит от исходов самих испытаний. Кроме правил проверки гипотез, основанных на выборках фиксированного объема, известны последовательные правила (критерии). В случае использования этих правил вопрос о числе необходимых наблюдений решают в процессе наблюдений; следовательно, это число (объем выборки) является случайной величиной. Последовательные правила впервые были предложены А. Вальдом (1947 r.J, и их изучение составляет предмет важного раздела математической стати- стики— последовательного анализа. В этом параграфе кратко на простейшем примере различения двух простых гипотез о распределении наблюдаемой слу- чайной величины будут рассмотрены некоторые особенности последователь- ных критериев. С общей теорией последовательного анализа можно ознако- миться в [3] и [24], где дана современная трактовка соответствующих задач. ]. Оиределеиие критерия Вальда. Пусть, как обычно, х,—наблюдавшаяся реализация случайной величины | в Z-м испытании, i—l, 2, ..., « и L/n = п = L (хх, ..., хп\ в/) = Ц fj (х,) —функция правдоподобия для первых « испы- i = i таний при условии, что истинной является гипотеза Я/.’6=9/, /=О, 1 (как и в § 4.2, fj (х) — плотность распределения g (или вероятность в дискретном' случае) при гипотезе Я?). Согласно теории Неймана—Пирсона, иаилучшая процедура проверки гипотезы Яо против альтернативы состоит в принятии или отклонении гипотезы Яо в зависимости от того, меньше или больше отно- шение правдоподобия Lln/Lnn некоторой выбранной константы с, при этом' объем выборки п фиксируется заранее и не зависит от наблюдений. Однако если объем выборки сделать случайным и зависящим от исходов наблюдений, то.можно добиться выигрыша в среднем числе наблюдений до принятия окон- чательного решения. 14Й
а, Принимать В, '///////////////</ Оо 0 t Рис. 4.2 Принимать Ня Последовательный критерий отношения вероятностей [критерий Вальда) состоит в следующем. Задаются две положительные константы Аа < 1 < и наблюдения про- водятся до тех пор, пока не будет впервые нарушено какое-нибудь из неравенств (4.20) Если н момент прекращения испытаний (момент остановки) Lin'Lon^ Аа, то прини- мается гипотеза Но; если Lln/LQn Ль то принимается гипотеза Н±. Эта процедура характеризуется обычно вероятностями оши- бок первого и второго рода а=Р (Hi | На) и р = Р(Н0|Я1) н средним ЧИСЛОМ Ey(v) = = Е (v I Н/) наблюдений v до момента остановки (/ = 0, 1). Если вероятно- сти ошибок а в Р заданы, то любой критерий с такими ошибками назы- вают критерием силы (а, Р). В классе критериев данной силы (а, Р) пред- почтительным является тот, который требует меньшего числа наблюдений. Критерий, минимизирующий одновременно как Eo(v), так и Et (v), называют оптимальным. Оптимальным свойством и обладает критерий Вальда. В част- ности, этот критерий требует в среднем меньше наблюдений, чем критерий Неймана — Пирсона с такими же вероятностями ошибок. Эти и другие свойст- ва критерия Вальда рассмотрены ниже. 2. О числе испытаний -до момента остановки в критерии Вальда. Пусть функции /=0, 1, при всех возможных значениях случайной вели- чины g и не тождественны (иначе гипотезы Но и Н1 неразличимы). Это озна- чает, что определена и не вырождена случайная величина Z = 1п (Д (g)//0 (g)); будем предполагать, что существуют EeZ=^0 и DgZ = a2 (6) > 0 (9 = 9о, 9^. Обозначим также Z, = ln (Д (X;)/f0 (Xf)), 1 = 1, 2, где Xlt Х2, ... — после- довательные независимые наблюдения над g. Тогда Z2, ... — независимые наблюдения над Z, и если г^г^,, ... — наблюдавшиеся реализации этих величин, то в этих обозначениях процедура проверки заианчивается прийятием гипо- тезы На или при первом п, прикотором нарушается какое-нибудь из не- равенств й0 = 1п Аа <?!-)-...-4-2л < In Ai—a1, «о < 0, aL > 0. (4.2t) Критерию можно дать следующую наглядную геометрическую интерпре- тацию, Рассмотрим блуждающую на плоскости частицу, находящуюся в на- чальный момент времени в начале координат, ордината которой в каждый целочисленный момент времени 1 = 1, 2, ...-получает приращение 2/. Тогда ордината частицы в момент t = n будет равна 21-j-...-|-2„ и блуждание про- должается, пока траектория частицы впервые не выйдет за пределы полосы, ограниченной двумя горизонтальными прямыми иа уровнях о0 и (рис. 4.2). Выход траектории на верхнюю (нижнюю) границу приводит к принятию гипо- тезы Hf (Но)- Ответ на вопрос о том, не может ли блуждание .продолжаться бесконечно долго (в этом случае процесс проверки гипотезы никогда бы не закончился), дает следующее утверждение. Теорема 4.2. Критерий Вальда с вероятностью I заканчивается за конеч- ное число шагов, т. е. Jim Pe(v>n) = 0 (6 = 0о, вж). п —КОО □ Зафиксируем некоторое целое г и введем случайные величины те = = Zj+...-|-Z„ ••• Тогда событие {v > rfc}, эквивалент- ное событию аа < -\-Zt < alt izgzrk, включается в событие ae<t]l4-... • Ч-'Ч/<aj, j^k, которое, в свою очередь, включается в событие = at — Оо, j-'-U. Величины г),- независимы и одинаково распределены, поэтому Рв(^ж/г)^р^(е), , (4.22) где р (9) = Рр (| Hi! < Ь) = Ре (т)? < Ь2). Но Egijf > De7]! = га2 (9) > b2, если вы- брать г > max (b2to2 (9о)> Ь^а2^)). Отсюда следует, что, выбирая г, можно обеспечить неравенство р (9) < 1. Но тогда, переходя в неравенстве (4.22) 149
к пределу при k-+oo, получаем Jim P0(v>n)=lim Pg(y>rk) — O. Ц «-♦co fe-*co Итак, в критерии Вальда число испытаний V до момента остановки с ве- роятностью 1 принимает конечное значение. Справедливо и более сильное утверждение. Теорема 4.3. Все моменты случайной величины v конечны. □ Пусть t^O; тогда для производящей функции моментов Ф (/) = Е0е^ = е^Р0 (v=fe) имеет место следующая оценка: е^+^Ре (Az< v^(£+l)T)=ge^ е'*'Р6 (v > Ат). Но из соотношения (4.22) следует, что Ре (v > kr) ^pk, p=max (р (6о), р (6i)), и, выбирая г, можно обеспечить неравенство pel. Из этих неравенств имеем, что для любого Ф(0^е^/(1—ре^), при этом pe^cl. Аналогично, если то ф (О е?АгРе (& < v sg (А-Н) г) 1 /(1 — ре''-'). Л>0 Для любого Z < (1/г) In (1/р) ряд для ф(0 сходится; следовательно, сущест- вуют все производные ф(Л1 (0), а тем самым и все моменты Еэ(ч*) = ф,(г1 (0). В Из этой теоремы, в частности, следует, что для критерия Вальда вели- чины Ео (v) и Ei (v) конечны. Вычисление этих величин при заданных ошиб- ках (a, |J) рассмотрено в п. 4. 3. О выборе границ в критерии Вальда. Выясним теперь, хак связаны границы Д| и Л1 в (4.20) [или, что то же самое, границы а0 и at в (4.21)] с вероятностями ошибок а и fl. Теорема 4.4. Постоянные Ло и Л1 критерия Вальда силы (a, fi) удовлетво- ряют неравенствам А0>А; = Р/(1-а), A=sAI = (l-p)/a. (4.23) При этом если границы Ао и заменить их оценками А'и и Д', то сила по- лученного критерия будет равна (а', 0'), где а'<а/(1 —Р), р'^р/(1—а) иа' + Р'^а + Р- (4.24) □ Обозначим через оа (д%\п) множество Тех результатов наблюдений (Xi, ..., хп), для которых процедура заканчивается на v — n шаге принятием Hq (#i), т. е., например, •Ян),, = {(Х|, ..., Xn): Ao <Z <. k=l, ..., n — 1, i-m/i-on В силу теоремы 4.2 2 P0(v=n)=2 P6(^)+S p8(^=1 (9=80,6!). n=l п=1 И=1 Далее имеем OO 00 «=₽ (Hl \на)~2 рв0 2= ДаН П==1 150
так как в точках множества $*1Л выполняется неравенство LOn Ь^/Лх. Ана- логично получаем оз оз р = Р (Яо | Hi) = Ё ₽01 (^оп) Л J Р0О (^Ол) = П—I /1=1 = Дв(1-Р(Н1|Но)) = Ао(1-а), поскольку в точках множества выполняется неравенство Lln^A0Lan. Тем самым, неравенства (4.23) доказаны. Рассмотрим теперь критерий Вальда с границами к А', определенными в (4.23), к пусть а' и 0' —его ошибки. Тогда на основании первой части теоремы должны выполняться неравенства P/(L — а) P'/(L — а'), (1—Р)/а^ sg(l—Р')/а'. Из первого и второго неравенств соответственно имеем (1 —а') Р/( 1 —а) s' ₽/( 1 — а), а' ss (1 — ft') а/(1 — Р) а/(1 — fi). Складывая неравенства р — ра'^Р'— аР' и —а' + а'Р а+ар', получаем, что Р—а'э=Р' —а или a' + fJ'sga-|~p. Ha практике теорему 4.4 используют следующим образом. Если требуется построить критерий Вальда силы (а, Р), то границы в (4.20) полагают рав- ными соответственно и А{ [см. (4.23)]. В этом случае последнее неравен- ство (4.24) гарантирует, что сумма действительных ошибок а' и р' такого критерия не превосходит суммы а+Р заданных ошибок; далее, обычно аир не превышают 0,1, поэтому из остальных неравенств (4.24) следует, что раз- ность между действительными и заданными ошибками в этих случаях незна- чительна, Таким образом, можно утверждать, что такой специальный выбор границ в критерии Вальда приводит к более сильному критерию. Отметим в этой связи интересную особенность последовательного критерия по сравнению с обычными критериями. В обычном критерии для определения критической области при выбранном уровне значимости и вычисления вероят- ности ошибки второго рода (или мощности) надо знать распределение стати- стики критерия и при нулевой гипотезе и при альтернативе, при расчете же критерия Вальда не возникает проблемы отыскании распределений. Действи- тельно, границы А', и Ai зависят только от заданных ошибок а и р и отно- шение Lln/Lan можно вычислить на основании данных задачи без отыскания каких-либо распределений. Необходимость иметь информацию о распределе- ниях при использовании последовательного критерия возникает только при нахождении закона распределения числа наблюдений v до принятия решения. 4. О среднем числе наблюдений в критерии Вальда. Рассмотрим вопрос о вычислении среднего числа наблюдений v в критерии Вальда. Предвари- тельно установим одно интересное равенство, которое называется тождеством Вальда. ‘ Пусть Sv=Zt+•-.4-Zv—ордината блуждающей частицы в момент пре- кращения блуждания (см. п, 2). Тогда имеет место тождество Вальда Ee(Sv) = E0(Z)E0(v). (4,25) □ Введем случайные величины Ylt Y?......где {I, если решение не принято до n-го шага, О в противном случае, Тогда Y„, очевидно, есть функция только Zi......Zn_j и, следовательно, не оо зависит от Zn, Нетрудно показать, что Sv= J] FrtZn, откуда л=1 оо со оо Ев (Sv) = 2] Ее (YnZ„) = Ее (Z) 2 Ее (Г„) =Ее (Z) £ Р0 (Y„ = 1). (4,26) /1=1 /1=1 /1=1 Событие {Ул = 1} эквивалентно событию а так как для любой цело- численной положительной случайной величины % Ех = Р (х = 1)4~2Р(х = 2)-j- 151
4-3P(x = 3) + ...= 2 Р(х = Л)+У р(х = £)+у Р(х = А)-|-...-- ю 4 = 1 к=2 "з = S P(zS=n)> то из (4.26) следует тождество (4.25). л = 1 Пусть теперь заданы значения ошибок а и [). Как показано в н. 3, прак- тически при малых аир границы в (4.21) можно заменить соответовепио на а„ = In А', = In —н a[ = ln Л; = 1п ?-- . (4.27) I—a 1 a ' При малых аир длина интервала (а,'„ а{) велика, а величина Eg (Z) от a и р не зависит и, по предположению (см. п. 2), конечна. Поэтому можно пре- небречь эффектом превышения суммой j$v границы в момент остановки, т. е. положить Sv=cOy, если принимается гипотеза = 1). Другими словами, можно считать среднее значение суммы Sv равным приближенно соответст- вующей границе aj или а(. Из этих рассуждений и тождества Вальда (4.25) имеем Еро С*) Ер» (Z) = Ee„ (Sv) = a,’,P (Яо [ //0)-}-а[Р (Я, | Яо) = (1 — a) aj -|- аа[. Аналогично получаем Eei (v) Eg, (Z) = Ее, (Sv)~ о'Р (Яо j Ях) + а(Р (Яг | Я1) = ₽а; + (1 — ₽) a't. Таким образом, Е/ (v) — Eg,. (v) можно вычислять по следующим приближен- ным формулам: Eo(v)^('~ —, Е, (v)^-P°;y~P) °', (4.28) Ее (4) Е, {£) где а'а и а' определены в (4.27). Для произвольного последовательного критерия такой же силы (a, Р) можно показать, что среднее число наблюдений до момента остановки при гипотезе Я/ оценивается снизу правой частью соответствующего равенства (4.28). Таким образом, среднее число наблюдений для критерии Вальда близко к наименьшему значению, т. е. этот критерии является (с принятой выше сте- пенью приближения) оптимальным. 5. Пример «экономичности» последовательного критерия. Рассмотрим на примере, насколько «экономична» последовательная процедура. Пусть для раз- личения двух простых гипотез о среднем нормальной случайной величины сформулированных в примере 4.1, применяется последовательный критерий отношения вброятиостей. Тогда , ]т, fi(xi) (Xj—Во)2— (х, — 6i)2 _ 9i—Йо f во + 91 \ (4 291 г = ТГСМ “ 2& \Х,~ 2 ) J и критерий Вальда силы (а, 0) определяется в данном случае следующим образом. Наблюдения продолжают до тех пор, пока впервые не нарушится какое-нибудь из неравенств 1 = 1 если нарушается левое (правое) неравенство, то принимается гипотеза (^i). Вычислим среднее число наблюдений до принятия решения. Из (4,29) имеем ©1 — 00 /. во + Mf-(Oi-e^a*) при / = 0, ----2 / I (6i-6a)2/(2a2) при j = l. 152
[ Отсюда и из (4.28) находим Fo (v) ~ — ---2р Г(1 — a) In 4-аIn , (Uj — bo)- L *—ot Ct J ь и "= [»л +(| -»• |Для критерия Неймана — Пирсона с теми же ошибками аир необходимое , (число испытаний п* определяется формулой (4.17). Отношение среднего объ- ема выборки в последовательном критерии Вальда, когда истинной является гипотеза Но, к объему п* равно \ ~ if w (О-”)1п № 1п (4.30) 1 «* (£а+?0)2 V 1-« а 1 ' ' и не зависит ни от а2, ни от б, — 60. (Напомним, что определяется урав- нением Ф(Са) = а.) В том случае, когда справедлива гипотеза Hv это отно- шение равно — „--j"' (Р 1п Т^~ + (1-₽)1п—-V (4.31) « (ta+tpH V 1 —а а ) ‘ 7 Если задаться ошибками а=Р, то £а = £р, In ; Р - — — In ~ - н из соот- ношений (4.30) — (4.31) следует, что (4.32) п* п* 21^ a Y' < При а=0,05 имеем ^=1,6449 и, вычисляя по формуле (4.32), получаем ф (а) =0,4897; это свидетельствует, что экономия наблюдений составляет при- близительно 50 %. Если воспользоваться известной асимптотической формулой для нормаль- ной функции распределения Ф (х) |20, с. 183] -Х2/2 1 —ф(х)=—— (1+0(1)), х-ьоо, (4,33) к У 2л то можно показать, что при а-*О м, (аЧ - 1 {1 + 1п1п<* 1^) + 1п 4*+<>(1)\ (4 34) ’Р(а)-4^1+ 21п(1/а) (4d4) Действительно, так как Ф((^)=а, то при а->0. Но Ф (yz) = = 1—Ф(—£а), поэтому иа основании (4.33) можно записать асимптотическое равенство . 1+0(1)с-^/2_а. Ьх’ИЗл Непосредственной подстановкой нетрудно убедиться, что этому соотношению удовлетворяет величина ta, определяемая равенством (£ = 2 In (1/а)—In In (1/ct) — In 4я+о(1). Отсюда и из (4.32) получаем представление (4.34), из которого следует, что при ошибках а=р-*О последовательная процедура в среднем приблизи- тельно в четыре раза экономнее оптимальной процедуры с фиксированным объ- емом выборки, § 4.4. Сложные гипотезы Случай, когда основная и альтернативная гипотезы являются простыми, встречается в приложениях сравни- тельно редко. На практике чаще имеют место ситуации, когда 153
обе гипотезы (или по крайней мере одна из них) сложные. В этих случаях равномерно наиболее мощные (р. н. м.) критерии суще- ствуют только если допустимые распределения (статистическая модель) удовлетворяют определенным ограничениям. Рассмотрим некоторые наиболее типичные случаи. 1. Р. н. м. критерии против сложных альтернатив. Модели с монотонным отношением правдоподобия. Пусть проверяется простая гипотеза Н0:в=в0 против сложной альтернативной ги- потезы Hi: 9 е= 61 = 0\ {0О}. Построим для каждой фиксирован- ной альтернативы Ore©! критерий Неймана — Пирсона 3^\а.= = ^’*а(6о, ©1), как это описано в § 4.2. Если (90, 6Г) зависит от альтернативы 91, то это означает, что не существует критиче- ской области, которая была бы наилучшей для всех Oie0i. Дру- гими словами, в данной задаче не существует р. и. м. критерия. Однако может оказаться, что критерий ^'ia(90> Si) не зависит от конкретной альтернативы ^^(Оо, 01) = ^П!(Х(9о). Тогда соответ- ствующая критическая область максимизирует мощность при лю- бой допустимой альтернативе и поэтому ^'*к(90) является р. н. м. критерием проверки гипотезы Яо: 9 = 9О против альтернативы Нй В е= 61. Такие случаи уже были рассмотрены в § 4.2. Так, в при- мере 4.1 построен критерий Неймана —Пирсона для проверки гипотезы Яо'- 6 = 60 относительно неизвестного среднего нормаль- ной модели ®^(6, ст2). Было получено, что при альтернативе В = 61>9« критическая область ^*а, определенная в (4.12), не зависит от ®i; следовательно, этот критерий является одновре- менно р. н. м. критерием при сложной правосторонней альтерна- тиве Щ: 9>9О. Аналогично, р. н. м. критерием при левосторон- ней альтернативе 9 <_ So в рассматриваемой модели является критерий (4.14). Таким образом, здесь имеем примеры существо- вания р. н. м. критериев при сложных односторонних альтерна- тивах. Если же рассматривать полный класс альтернатив Нг = В=#90, то р. н. м. критерия не существует, так как всегда один из двух критериев (4.12) или (4.14) лучше любого другого критерия с тем же уровнем значимости. Аналогичные выводь! можно сделать и на основании результатов примера 4.2. Сформулируем общее достаточное условие существования р. н. м. критерия в случае односторонних альтернатив. Итак, предположим, что параметр 9 —скалярный и альтернативная ги- потеза Hi — односторонняя, т. е. либо/Л =///: 9 ;> 0в, либо/Л = = Hi: 9<9О. Пусть, далее, семейство допустимых распределений = {F(x; 0), 5е0} (здесь 0={9 5s9o} или О = {9ет90|) обла- дает достаточной статистикой Т=7’(Х), X = (Xi........ Хл) (см. § 2.3). Тогда из критерия факторизации [см. (2.36)] следует, что статистика отношения правдоподобия в данном случае имеет вид /(Х) = £(Г(Х); 91)/ёг(Т(Х); 90) и, следовательно, критерий Неймана — Пирсона формулируется в терминах достаточной статистики [соответствующая критическая область выражается через Т (X)]. 154
Выделим важный класс моделей для которых отношение g(T; 6i)/g(T; 90) является монотонной функцией Т; говорят, что такие модели имеют монотонное отношение правдоподобия (многие модели, встречающиеся в статистике, обладают этим свойством). Для таких моделей в задаче проверки простой гипотезы Но: 6 = 6<> против односторонней альтернативы Hi существует р. н. м. кри- терий, который совпадает с критерием Неймана— Пирсона про- верки гипотезы На против произвольной фиксированной альтер- нативы из Hi. Действительно, пусть, например, Н1 = Н^ и при фиксированном 9i>60 отношение g(T\ $i)/g(T', 90) монотонно возрастает по Т. Рассмотрим критерий Неймана —Пирсона проверки гипотезы Нп против альтернативы Э = ех. В данном случае неравенство /(х)^с эквивалентно неравенству T(x)5scJ, причем граница опреде- ляется заданным уровнем значимости а и распределением F (х; 0fl). Таким образом, этот критерий не зависит от выбора альтерна- тивы 91 и поэтому одновременно является р. н. м. критерием при сложной альтернативе Если отношение g(T', f>i)/g(T; Оо) убы- вает по Т, то неравенство для Т(х) заменяется на противопо- ложное. Аналогично рассматривается случай левосторонней аль- тернативы Hi. Пример 4.3 (экспоненциальная модель, р. н. м. критерий при односторонней альтернативе). Рассмотрим экспоненциальную мо- дель, введенную в п. 3 § 2.2. Из представления (2.25) следует, п что статистика Т (X) — В (X,) является достаточной и i = l I (X) - exp {(A (6i) - А (9о)) Т (X) + п (с (9t) - с (90))}. Следовательно, если функция А (9) строго монотонна, то Z — моно- тонная функция Т, поэтому для таких моделей всегда существует р. и. м. критерий проверки гипотезы Но: 6 = 90 против односто- ронних альтернатив. При этом если А (9) —возрастающая функ- ция, то при альтернативе Я[:6>0О критическая область имеет вид {Г (х) Са}, а при альтернативе Нт: 9< 0О — внд {Т (х) =Сс«1. Если же функция А (5) убывает, то неравенства, определяющие критические области, меняются на противоположные. Пример 4.4 (нормальная-2 модель, р. н. м. критерий при одно- сторонней альтернативе). Пусть в модели О2) требуется проверить простую гипотезу Но: 62 = 6g о неизвестной дисперсии. п Здесь имеет место экспоненциальная модель с Т (X) = У, (Xi — р)2 и А(0) =—1/(292). Поэтому р. н. м. критерий против альтерна- тивы Н(‘. В2>6# задается критической областью ^Та = {Т(х)2зсД, а против альтернативы Нт : 92 < 9# — областью = {Т (х) ей). При этом так как (Т (Х)/02) = %2 (п), то = 9оХ1 - а. п, Ca=Vfy.a, п, где Хр, п — р-кваитиль распределения %2 (и). Замечание 1. Можно доказать {14, с. 101J, что для моделей с моно- тонным отношением правдоподобия р. и. м. критерий проверки простой гипо- 155
тезы Но :6 = 0О против правосторонней альтернативы Н) : 6 > % является одно- временно р. н. м. критерием проверки сложной гипотезы : в 6j против /1г того же уровня значимости. Аналогичное утверждение справедливо и для двойственной проблемы про- верки против левосторонней альтернативы /ZL_: Э^9и. Пример 4.5 (бернуллиевская модель, р. н. м. критерий для одно- сторонних гипотез). В процессе производства изделия обычно подвергают выборочному статистическому контролю. Предположим, что каждое изделие независимо от других может оказаться дефект- ным с некоторой одной и той же, но неизвестной вероятностью 9(0<9<1) и исправным с дополнительной вероятностью 1 — 6. Пусть для контроля взято п изделий и результат описывается вектором X = (Хъ ..., Хп), где Хх= 1, если г-е изделие дефектно, и Х,= 0 в противном случае. Часто бывает нужно проверить гипотезу где 9П —некоторая критическая доля брака (если гипотеза Но истинна, то процесс производства необходимо приостановить и усовершенствовать для уменьшения доли брака). п При сделанных предположениях число г(X) — У, дефектных i= 1 изделий в выборке является достаточной статистикой и J£0(r (X))— =В1 (и, 6). Но биномиальная модель является частным случаем экспоненциальной модели с монотонным отношением правдопо- добия, поэтому в силу замечания 1 существует р. н. м. критерий проверки гипотезы Но против альтернативы /Уг:6<90, который задается критической областью вида {г(х)^ла}. Рассчитывают этот критерий (вычисляют границу га) так же, как в примере 4.2. Пример 4.6 (бернуллиевская модель (продолжение)). В условиях предыдущего примера иногда применяют другой план контроля, который называется обратным биномиальным выбором. В этом случае испытания продолжают до получения заданного числа г «успехов» (здесь под «успехом» понимается появление дефектного изделия). Пусть У;—число испытаний между (I — 1)-м и г-м успе- хами. Тогда Ре(У£=г/)=6(1—у=0, 1,..., т. е. У = (У1,..., Yr) — выборка из распределения Bi(\, 1—9) (см. табл. В.1), которое являете!) распределением экспоненциального типа с Т (Y) = == У Yt и А (6) = In (1 — 9). Так как А (6) —убывающая функция 6, i = l то существует р. н. м. критерий проверки гипотезы при альтернативе fff:9<90, который задается критической обла- стью вида {^(yls&c'f. Этот вывод совпадает и с интуитивным представлением, так как при больших значениях 9 естественно ожидать, что г-й успех произойдет достаточно быстро. Для опре- деления критической границые используют тот факт, что^0(7,(У)):= = Bi(r, 1 —6). Пример 4.7 (модель гамма, р. н. м. критерий для односторон- них гипотез). Предположим, что время «жизни» некоторого устрой- ства есть случайная величина распределенная по экспонен- циальному закону с неизвестным параметром 9 > 0, т. е. <5? (£) — 156
=Г (6, 1). Пусть Хь Х2, .... Хя —времена «жизни», полученные при испытании п контрольных устройств. Так как гамма-модель п является экспоненциальной моделью и для нее Т (X) = X, и i = 1 Л(8) =—1/0, то р. н. м. критерий проверки гипотезы Но: при альтернативе Яг:8<6|, существует и задается критической областью вида {T(X)sgc}. Это также ожидаемый результат, по- скольку параметр 9 имеет здесь смысл среднего величины g: Ееё=6» и слишком малые значения Т естественно интерпретировать в пользу альтернативы. Заметим далее, что случайная величина 2Х,/е имеет плотность х>0, т. е. Хв (2Х;/8) = %2 (2) [см. формулу (1.27)]. Отсюда на основании воспроизводящего свойства распределения %2 (см. п. 1 § 1.5) имеем, что Х$ (2Т (Х)/8) =у2 (2п) и, следовательно, границу критической области можно определить по таблицам Х2-распределения. Именно: так как Pe, iJ-T(X)<Xa„ 2л) = а, то критическая область Л={х:Т(х)4ха,4 задает р. н. м. критерий уровня значимости а в данной задаче. Пример 4.8 (экспоненциальная модель с векторным параметром, р. н. м. критерий для нее). Пусть семейство допустимых распре- делений задается плотностью / (х; ц) = в- е~(х-в1>/е*, xS=8lt т. е. здесь 0 = {e = (8i, 02): — оо< 61<с», 82>0}. Проверим простую гипотезу Яо: ц = Оо = (6ю, В20) против альтернативы Яг: Эх < 610, 82< 820. Следуя общему принципу, зафиксируем некоторую аль- тернативу Ох —(8ц, 621) и построим критерий Неймана —Пирсона проверки гипотезы Но против этой альтернативы. Здесь Z(x) _ L (х; 8t) Z. (х; 80) при х(1)= min х, 's? 810, 1 i « оо в противном случае, поэтому неравенство /(х)>с эквивалентно неравенствам {х(1)<8ю} U X(i) Эю}. При гипотезе Яо событие {Х^^вю} имеет вероятность 1, поэтому, определив са из условия Рв, (Х<са)=а, получим, что критерий Неймана — Пирсона имеет вид = = [х : Х(1> <81о либо х<са} н не зависит от альтернативы бъ сле- довательно, он одновременно является р. н. м. критерием для всего класса альтернатив Hi. 2. Проверка простой гипотезы против двусторонней альтерна- тивы. р. н. м. несмещенные критерии. Как отмечалось выше, даже для экспоненциальных моделей с монотонным отношением правдо- подобия р. н. м. критерия для двусторонней альтернативы Hi = = Hi\JHi (0 —скалярный параметр), вообще говоря, не 157
существует. В этих случаях обычно поступают следующим обра- зом: используют статистику Т’(Х), с помощью которой строятся р. н. м. критерии против односторонних альтернатив и Н$, н задают критическую область в виде — (Т(х) <с«,} 0 ЩТ(х) 2s т. е. объединяют две соответствующие односторон- ние критические области с уровнями значимости ах и «2 такими, что а14-«2=а. Таким образом получают критерий с уровнем значимости а. Рассмотрим применение этого правила на примере проверки гипотезы Но: 9 = 90 против альтернативы Hi: 0 =/= 90 для нормаль- ной модели (6, о2). Как отмечено в начале п. 1, р. н. м. кри- терий уровня значимости «1 при левосторонней альтернативе Hi задается критической областью = {к: (Уп /а) (х — 60) , Ф (— tai) = аъ а р. н. м. критерий уровня значимости «2 при правосторонней альтернативе Hi — критической областью = {х : (УЙ/а) (X - 90) и, Ф (— ta2) = а2. Следовательно, в данной задаче можно использовать любой кри- терий вида #ia = {х: (Уй/а)(х — 90)< — либо (Уй/а)(X — 90) 2' «14- а2 = а. (4.35) Интуитивно предпочтителен выбор «симметричного» критерия, т. е. когда «1 —«2 = а/2; в этом случае критерий имеет вид = (х: (Уй/а) ( х - 9012= ^/2}, Ф (— k/a) = а/2. (4.36) Чтобы исследовать свойства этих критериев и выбрать среди них наилучший, рассмотрим функцию мощности W 9) = = Pe(Xe^Ta1)4-P0(Xe^'i'a2). Из формул (4.13) и (4.15) имеем Г (^i«; 9) = Ф (Уй Д/су - U + Ф (—Уй Д/а - Q = ф (Д), д = е-90. Исследуем мощность как функцию Д. Ее первые две производ- ные соответственно равны ♦' -1VJ R {-1 4 -- “р {-1 (*?4+‘-Л] и + Д + ехР у (^Г }]" Отсюда имеем, что ф' (Д) = 0 только при Д = До = о (ta, — ^а.)/(2 У В этом случае ф" (Дв) — еХР 8~ + ^2}' 158
При малых а величины ?а, и ta2 положительны, поэтому ф" (Ао)> О, т. е. До — точка минимума функции ф (Д). Поскольку До = 0 только при ai = aa = a/2, а ф(0) = ф(—/а2) + Ф(—?И1) = а2-|-ai = а, лишь для «симметричного» критерия (4.36) выполняется условие № 6) 2s В остальных случаях (т. е. при ai=#a2) критерий (4.35) при некоторых альтернативах имеет мощность, меньшую а, т. е. является смещенным критерием [см. условие (4.5)]. Таким образом, среди критериев вида (4.35) только «симметричный» кри- терий (4.36) —несмещенный и, следовательно, ему надо отдавать предпочтение. Критерий (4.36) на самом деле обладает наибольшей мощностью среди всех несмещенных критериев уровня значимости а, т. е. является р. н. м. несмещенным критерием. Это утверждение есть следствие приведенной ниже теоремы об общем виде р. н. м. не- смещенного критерия. ч •Пусть © — интервал действительной оси и — внутренняя точка 0. Пусть, далее, да^усгжуше распределения абсолютно не- прерывны и функция правдоподобия £(х; 0) имеет во всех~внут= ренних точках интервала 0 производную (х; 0) такую, что | Li (х; 0)|<Л4(х), где М (х) — интегрируемая функция на ^тогда L(x; 0)dx = J Li(x; 0) dx для любого подмножества S £= X и любого 0). Определим, наконец, множество Х^ = {х: L (х; 0t) ^cL (х; 0g) -J-CiZ-i (х; 0О)}, (4.37) где 01 =#0о и постоянные с2=0 и Ci определяются (по предполо- жению однозначно) из условий Ре.(А^= L(x; 90)dx = a, Р^(Ла)= j Li(x; 6„)dx = 0(4.38) «^la «^la (для краткости здесь и далее пишем Р»(1) вместо более строгой записи Р9 (XeS), где S ст X). Теорема 4.5. Если множество Х1а, определенное в (4.37), не зависит от Slt то оно задает р. н. м. несмещенный критерий уровня значимости а для проверки простой гипотезы Но: 6 = 6о против двусторонней альтернативы Н1'.в=£ 60. □ Рассмотрим любой несмещенный критерий X1Qt проверки гипотезы В = 6о-*Т«< как W (Х1а-, 0о) = а и производная функции мощности по 8 существует, то W'(Xla-, 0о) = О. (4.39) Но Ре»Ре. (Х^Х^ = Р6, (Х^Х^Х^) (4.40) м в силу соотношений (4.39) и (4.38) имеем Йе» (X ia \ X^X ia) -J- Р9» (X -^Х ia) = 0, Be. UVzX + Ре. = 0, 159
т. е. выполняются равенства Р% (&1Я \ = — Ре. (^1Лх) - Ре0 (4.41.) Из определения (4.37) множества и равенств (4.40) и (4.41) получаем следующую цепочку соотношений: Ре, (^laX.^ia.^ia) За ЗасРй, ia) + CiPe. (Я"la\^la)=cPe()(^'1гх)"Ь + c1PeJ^ia\^Y^ia)3aPe,(^’la\^ia^’ia), откуда следует, что P0,GTia)^P9l(^ia). Тем самым показано, что критерий, опираю- щийся на критическое множество JTla, является р. н. м. крите- рием проверки гипотезы 6 = 90 против альтернативы 91 в классе всех несмещенных критериев ^1а. По условию, множество не зависит от конкретной альтернативы 0Ь поэтому этот критерий одновременно является р. н. м. несмещенным критерием против любой допустимой альтернативы 6 99. Замечание 2. Аналогичное утверждение справедливо также и для дискретных распределений с теми же оговорками, что и при построении кри- терия Неймана —Пирсона в § 4.2. Применим доказанный результат к критерию (4.36). Здесь £i(x; 6) = J(x-9)L(x; 6); (4.42) следовательно, неравенство в (4.37) эквивалентно неравенству которое можно легко привести к неравенству exp|zVIT’(x)—2-j>c + c;T’(x), (4-43) где 74 (x) = рлп (x — бц)/сг, М =Ул (6i —Be)/a, c[ = Ci]/n/o. Нера- венство, противоположное (4.43), эквивалентно неравенствам (<1’<Т(х)^^2’. (4.44) Статистика Т(X) при нулевой гипотезе распределена по закону @^(0, 1),» симметричному относительно нуля. Отсюда и из (4.42) следует, что для обеспечения второго из соотношений (4.38) не- обходимо, чтобы интервал (4.44) был симметричен относительно нуля. Это означает, что = — №. Для обеспечения одновре- менного выполнения и первого из соотношений (4.38) надо поло- жить /(2,=/сс/2, где Ф (—1а/2)=а/2. Таким образом, условия (4.38) вы- полняются тогда и только тогда, когда область (4.37) имеет вид ^ia = {х: | Т (х) | > t^}, Ф = (— fa/2) = «/2. т. е. мы пришли к (4.36). Следовательно, по теореме 4.5 крите- рий (4.36) является р. н. м. несмещенным критерием проверки гипотезы Но: 6 = 60 против двусторонней альтернативы Яг: 6 =£9». Функция мощности этого критерия W 0) = Ф(/п(6-ео)/о-<се/2) + Ф(Кп(9р -в)/о-Гсе/г) : 160
симметрична относительно точки 9 = %, в которой она имеет мини- мум, равный а. При В=^60 мощ- ность строго больше а и стремится к единице при 9-чиХ.Со. $ соответ- ствии с теоремой 4.5 график этой функции лежит выше соответствую- щего графика любого другого несме- щенного критерия в данной задаче. Сравним функцию W (^ia; S) с функциями мощности соответ- ствующих односторонних р. н. м. критериев U7 (^ща; 8) и W б) (рис. 4.3). Функция W7 0) всегда заключена между этими двумя функциями (они изображены на рисунке пунктирными линиями с соответствующим знаком), за исключением точки 9 = 0О, в кото- рой все три графика совпадают. Это означает, что критерий Я\а всегда менее мощный, чем один из односторонних критериев &{a или но всегда более мощный, чем другой односторон- ний критерий. Замечание 3. В приложениях теорему 4.5 чаще всего применяют для построения р. и. м. несмещенных критериев в случае экспоненциальных моде лей с монотонным отношением правдоподобия [см. рассмотренную задачу для модели (в, о2)] Изложение общей соответствующей теории можно найти, например, в [14, гл. 4]. 3. Локальные наиболее мощные критерий. На практике особый интерес представляют малые отклонения от нулевой гипотезы Й0:д — 60. В этом случае при исследовании свойств критерия можно ограничиться только анализом локального поведения функции мощности критерия № (6) в окрестности точки (fo. При таком подходе часто удается построить локальный наиболее мощный (л. и. м.) критерий, даже тогда, когда р. н. м. критерия не существует. Пусть 9 — вещественный параметр и выполнены условия регулярности, приведенные перед формулировкой теоремы 4.5. Кроме того, будем предпола- гать, что для любой критической области функция мощности W (9) = = 6) (6о)=а) допускает разложение в ряд Тейлора в окрестности точки во." ' • > ^(9)=а+(6-е0)В7' У (60)+... > ' (4.45) Пусть гипотеза Но : 6 = 6О проверяется против альтернативы г В > 0О. Тогда для получения л. н. м. одностороннего критерия необходимо максимизировать величину W (80) = ) Lj(x; 6о) dx при ограничении 47 (80) = ( L (х: 60) dx=a а* ю -лг ю Повторяя рассуждения, использованные при доказательстве теоремы 4.1, полу- чаем, что оптимальная критическая область имеет вид ^1а = {х : £-1 (х; 6о)/£. (х; (4.46) где константа определяется из условия № (80) = а. Аналогично, критическая область = |х Lj (х; 80)/£ (х; 80) ==S } (4.47) задает л. н. м. критерий в случае левосторонней альтернативы ffj! 8<8О. При двусторонней альтернативе Нх: 6 =/= % необходимо ввести дополнитель- ное условие несмещенности критерии: 47'(8и)=О; тогда л. н. м. критерием 1/г 6 Заказ № 1054 161
является критерий, максимизирующий W7 " (60) —коэффициент при (8 —%)i 2 * в раз- ложении (4.45). Как и при доказательстве теоремы 4.5, можно показать что в этом случае оптимальная критическая область имеет вид ^ta={x; Z,a (х; 0о) Ss«i£.i (х; в0) -f-cL (х; 60)}. (4.48) где L3 (х; 6) = Z.t (х! 8) и константы с и с} определяются условиями Xff {(i0)=a, об (Во)—0. Пример 4.9 (нормальная-1 модель, л. н. м критерий для среднего). Рас- смотрим задачу проверки гипотезы Но ! 8 = 6о против альтернативы ff^.B^Bq для модели (В, оа) Здесь Ц (х; 6) = |(гга/а4) (х—6)2—n/a2] L (х; 6), поэтому Li (х; %) п о , М*; %) в «2 f= 6п)а « Г^-ад-~5з^-б0), —_ = _г(х-ад Следовательно, область (4.48) задается условием Г2 (х) > kxT (х) + Аа, Т (х) = — Уп(Х— 90)/а. Чтобы было выполнено условие несмещенности, эта область должна быть симметричной (поскольку распределение статистики Т (X) при гипотезе Hq симметрично относительно нуля), что имеет место только при А1=0. Таким образом, условие можно переписать в виде | Т (х) | k. Наконец, из условия IF (60) = a находим k—ta/i, где Ф(—*a/g)“aa/2- Окончательно получаем, что критическая область (4.48) имеет вид |х 11 Т (х) | I. е. результат совпадает с полученным в п. 2, Это ожидаемый результат, так как л. н. м. несмещенный критерий должен совпадать с р. н. м. несмещенным критерием, когда последний существует. Рассмотрим снова односторонние альтернативы и проанализируем более подробно условия в (4.46) —(4.47). На основании определения вклада выборки U (X; 8) [см. (2.15)] имеем п i «= I Как показано в § 2.2, для регулярных моделей (X; 9о)=О, (X; 60)= = ni(9o), где /(8)—функция информации Фишера. Если п велико, то, по цен- тральной предельной теореме. »йв (О (X; 9о)//^(М) ~ (0, 1). (4.49) Следовательно, при большом объеме выборки п при вычислении границ в (4.46)—(4.47) можно использовать нормальную аппроксимацию (4.49) и в (4.46) приближенно полагать с£*= (а (90) -а в (4.47) считать Са ~—/а рш (9»), где Ф(—Za)«=a. Таким образом, получено общее решение задачи построения л. и. м. односторонних критериев для больших выборок Применяя описанный в п. 2 прием объединения двух односторонних кри- тических областей, можно построить и асимптотический двусторонний критерий | U (х; 90) 1<a/s /ni (во), Ф (- Za/2) =а/2, (4.50) проверки гипотезы На 9-»9о против альтернативы Нх t S =/= 60. Из свойства сим- метрии предельного распределения U (X; Во)/У п вытекает, что критерий (4.50) — несмещенный и не существует другого несмещенного критерия, который имел бы асимптотически большую мощность. Таким образом, критерий (4.50) является асимптотически оптимальным критерием против локальных альтернатив. По- строенный приближенный критерий (4,50) совпадает с полученным в примере 4.9 точным критерием для нормальной модели (в, о8), основанным на стати- стике Т (xJ-aySi (5—8в)/о, поскольку в этом случае U (х; 90) — У п Т (х)/о, а i(9)=l/o2 (см. табл. 2.1). Пример 4.10 (модель Коши, л. н. м. критерий для параметра). Пусть тре- буется проверить гипотезу Hq I 9—во против альтернативы Нх i в ф 9 для модели 162
Коши aft (fl). Здесь функция вклада и функция информации соответственно равны (см. пример 2.23) (=1 поэтому при больших п критическая область критерия задается условиями п 2/2 /я 2х,—90 1 + (X; —%)а Т = 1 ф(—*а/г) — 4. Проверка гипотез и доверительное оценивание. Между задачей проверки простой гипотезы о параметре 9 и построением довери- тельной области для этого параметра имеется тесная связь. Рас- смотрим для каждого 9ве0 какой-либо критерий = ^’ljt(90) проверки гипотезы Но : В = 60. Пусть 3^Оа (90) = (90) — область принятия Но- Тем самым в выборочном пространстве задано семейство подмножеств {^Оа (6), Определим при каждом xsJ подмножество 5(х)е9, положив Jl(x) = {6:xs.?'ta(6)}. Таким образом, в параметрическом множестве © получаем семей- ство подмножеств {£(х), xs.?’}. Рассмотрим случайное множество J-(X). События {в е & (X)} и {X е З^оп (6)} эквивалентны, так как по построению каждое из них влечет за собой другое, поэтому их вероятности при каждом 6 совпадают. Но вероятность второго события равна по построению 1 — а; следовательно, Ро(6 е £ (X)) = Р9(Х з(9)) = 1 — а, т. е. ^(Х) является (1 — а)-доверительной областью для 9 [см. (2.88)]. Верно и обратное, т. е. если имеется семейство у-доверительных множеств {J-V(x), хе.?’} для 6, то множество .#’o,i-v = {х : Go s s/(x)| определяет область принятия гипотезы Но: 9 = 9в с уров- нем значимости а — 1 — у. Таким образом, задача построения доверительного множества для параметра 9 и задача проверки простой гипотезы относительно 9 взаимно обратные: если для некоторой модели известно решение одной из них, то по описанному алгоритму можно получить реше- ние другой. При этом р. н. м. критерий (когда он существует) соответствует наикратчайшему доверительному множеству и на- оборот. Пример 4.11 (нормальная-} модель, оптимальный доверитель- ный интервал для среднего). Рассмотрим модель «7^(6, ст2). В п. 2 построен оптимальный (р. н. м. несмещенный) критерий проверки гипотезы Но: 9 = 90, который задается критической областью (4.36). Здесь &оа (9) = {х: Vn | х — 9 |/ст < Ф (— ta/2) =• а/2, и множе- ство S (х) имеет вид ^x) = {9:^-!*-9|<ia/J = {G:X-^a/2<9<.? + ^ V а J V у п У п 9 Следовательно, интервал (X ±(ст/]Лч) /а/4) является наикратчайшим среди всех (1 — а)-доверительных интервалов для неизвестного 7*6* 163
среднего закона (9, ст2) — это значительное усиление результата примера 2.28. Далее, так как р. н. м. критерий против правосторонней аль- тернативы Hi : 9>6О задается критической областью, определенной в (4.12), то ^ооДб) = {х: Уп (X — 9)/ст<Ц, Ф(—/а)=а, и поэтому множество S (х) = {в : 9> X — ст1а/]/7г}. Отсюда имеем, что опти- мальный односторонний (нижний) (1 — сс)-доверительный интервал для 6 имеет вид (X —<ria/]/n, оо). Аналогично, используя критическую область (4.14), можно по- строить и верхний доверительный интервал. Пример 4.12 (нормальная-2 модель, оптимальный доверительный интервал для дисперсии). В примере 2.29 построен доверительный интервал Ду (X) для неизвестной дисперсии В2 в модели (р, В2). Используя этот результат и применяя описанную методику, полу- чаем, что критерий уровня значимости а=1— у для проверки гипотезы Но'. В = 6о против альтернативы Д1:0У=бо задается кри- тической областью SFla = п I 2 (Х, -р)а^Ха.. JU 0 1=1 ' {п Х:^ 2 (Х, _ В)гЭ=Х1-а„.л { »1 (4.51) где а1 + а4 = а и границы определяются из уравнения (2.80'). Эта область представляет собой объединение двух р. н. м. одно- сторонних критических областей, приведенных в примере 4.4. Проверим, является ли этот критерий несмещенным. Пусть Fn (f) —функция распределения закона х3(м), тогда, учитывая, что 2 № —Н)а1 = Ха (п) (см- пример 2.29), получаем W (В) = W СГ1а; В) = Fn (tfa, п) + 1 - Fn (/yj-a,. n) =4 (0, i = 03/62- Отсюда ф* (0 1=3 Ха,, n^n КХа,. n) X* —а». (^Xl —а». »)• Из соотношения (2.80') следует, что Г 1 i 2 1 — "1 . / 1 п — д/2 | л Г” чьи п л о~ Х1—п Iе 2 -е ]• Так как х£>.«<Xi-at, ш то Ф' (0 <0 = о . >0 при при при 1<1, I = 1, f>l. 164
Это означает, что функция мощности W7 (8) монотонно убывает при изменении 6 от 0 до 90 и монотонно возрастает при измене- нии 8 от 90 до оо, а ТГ(90)=», т. е. критерий (4.51) не смещен. Применяя теорему 4.5, можно убедиться, что построенный критерий является р. н. м. несмещенным критерием в задаче про- верки гипотезы /7О:6«=9О против двусторонней альтернативы Hi: 6 90. Одновременно это означает, что интервал А* (X), опре- деленный в (2.79'), — наикратчайший среди всех (1 —^-доверитель- ных интервалов для неизвестной дисперсии 92 в модели ъ!-'" (р, 9*). Методику, устанавливающую связь между задачами довери- тельного оценивания и проверки гипотез, можно применять и в более общих ситуациях, когда требуется оценить не весь пара- метрический вектор 6 (в случае многомерного параметра), а только его некоторый подвектор 6*11 (так что 9 = (в(1), 9(а)) и о коорди- натах, образующих подвектор 0W, говорят как о «мешающих» параметрах), а также когда соответствующие статистические вы- воды требуется сделать о заданной параметрической функции т (9) (9 может быть как скаляром, так и вектором). Пусть, например, имеется семейство у-доверительных мно- жеств £v(x) для т. е. семейство подмножеств параметриче- ского множества = {9d>; (0(1>, 6*21)е0}, удовлетворяющих условию P(ecu G<s!) (0(1) в J* (X)) За у, V (0(1>, 918|)е0. Определим для фиксированного бо11 подмножество ^o.i-y = ^o.i-y (0о) в выбо- рочном пространстве^ с помощью правила i-Y = {x ео’ е aE^v(x)}. Тогда по построению P(5on. »<2J) ® #о.1-Y) = ,(>)) (во11 е (Х))^ У, или Р W, 9'1’) (X е ^0, 1-y) 1 — у. Следовательно, область ^i, а = х_у> а = 1 — у, задает критерий уровня значимости а для проверки гипотезы Но: О’11 =6^' (это гипотеза сложная, так как оставляет неопределенным значение 0(а)). Как и выше, можно провести обратные рассуждения: от задачи проверки гипотезы перейти к задаче доверительного оценивания. Продемонстрируем эту методику на примерах проверки неко- торых гипотез для общей нормальной модели. Пример 4.13 (общая нормальная модель, проверка гипотез для среднего и дисперсии). В примере 2.30 построены доверительные интервалы для неизвестных среднего 91 и дисперсии 6| закона ®^“(9i, 9|). Используя эти результаты и применяя описанную методику, получаем, что критическое множество J (4.52) задает критерий уровня значимости а для проверки гипотезы о среднем п0: 9Г == 610 (6а произвольно) против альтернативы /71:91 910, а критерий проверки гипотезы о дисперсии /70: 6а=6го (0! произвольно) против альтернативы Hi. 6а =/= определяется 165
критической областью [ср. с (4.51)] ^1а = {х : nS2 (х) л-1} и {х : nS2 (х) 5г О|0х? - а,, л -1} (4.53) Здесь приняты такие же обозначения, что и в (2.81')- Известно [14, с. 222 — 228], что критерии (4.52) и (4.53) являются оптимальными (р. н. м. несмещенными), поэтому и соот- ветствующие доверительные интервалы являются наиболее точными. Пример 4.14 (гипотеза о равенстве средних двух нормальных моделей). Пусть, как и в примере 2.31, X и Y — независимые выборки из нормальных совокупностей с одинаковыми диспер- сиями. Используя результат этого примера, определяющий дове- рительный интервал для параметра А = в?’— 9[2‘— разности не- известных средних, получаем критерий проверки гипотезы Яо:А=О (гипотезы о равенстве средних), который определяется критической областью = {(х, У): I * - 9 \ S. + Эта область задает р. н. м. несмещенный критерий [14, с. 234], тем самым и соответствующий доверительный интервал для А является наиболее точным. § 4.5. Критерий отношения правдоподобия 1. Метод отношения правдоподобия проверки общих гипотез. Одним из наиболее универсальных методов по- строения критериев проверки сложных гипотез является метод отношения правдоподобия, суть которого состоит в следующем. Для проверки гипотезы (/о^а0оС0 против альтернативы Ht: в е 0Х = 0 \ ©0 вводится статистика отношения правдоподобия Л'=Л;(Х; 0О) = sup Ln(X; 6)/sup ДДХ; 6), Х = (Хх, .... Хп), 160: 1е0« представляющая собой естественное обобщение на случай слож- ных гипотез ‘ статистики I (X) критерия Неймана — Пирсона [см. (4.6)]; как н в критерии Неймана —Пирсона, здесь в крити- ческую область включаются большие значения этой статистики. Предпочтительнее использовать эквивалентную статистику ЛП = Л„(Х; 0О)= sup Ln (X; 0)/sup L„(X; 0), !g0 Ie9, которая связана с Л„ соотношением A„ = max(l, Л„). В литера- туре, однако, чаще рассматривают обратную статистику X, = Х„ (X; ©о) = 1/Л„ (X; ©0) (4.54) и критическую область задают в виде = {х: Х„ (х; 0О) =< с}. (4.55) 166
Критическую границу с в (4.55) следует выбрать так, чтобы кри- терий имел заданный уровень значимости а: Ps(XeJij= L„(x; 0)dx = P6(An(X; 0о)^с)^а, (4.56) V0 е= 0о Соотношения (4.54)—(4.56) определяют критерий отношения правдоподобия (к. о. п.) для проверки гипотезы Как было показано в § 4.2, метод отношения правдоподобия для простых гипотез приводит к оптимальному критерию. В общем случае для сложных гипотез это свойство оптимальности не вы- полняется. Тем не менее этот метод широко применяют, получая удовлетворительные решения во многих практических задачах. Кроме того, как будет показано ниже, при некоторых условиях к. о. п. обладает свойством асимптотической оптимальности для больших выборок. Пример 4.15 (общая нормальная модель, к. о, п. для среднего). Продемонстрируем изложенный метод на уже рассмотренном при- мере 4.13 —задаче проверки гипотезы /7о:91==6ю в модели •^*(01, В«)- Здесь 0 = {О = (01, 02):—оо<9!<оо, 02:> 0} — полу- плоскость, 0о = -{0 = (01, 0а): 6j = 0ю, 02>0} — полупрямая. Учи- тывая результаты примера 2.17, получаем sup Ln(x; 0) = Ln(x; В ==(.?, s)) = (2nesa)~"/a. вей Далее имеем sup Ln(x; e) = L„(x-, (9г1), s0)) = (2nes.'j)-'1/a, 1ЕЙ> n где so = ~ У (%i — Зю)2 — оценка максимального правдоподобия для =i дисперсии Oj при гипотезе Но 1ак как sii«=s24-(X —й10)2, то отсюда находим Кп = (sj/sa)~n/2 = (1 + ia/(n — l))-"-'2, где t = t (х) = = Vn — 1 (Я — 0io)/s. Таким образом, между значениями и существует взаимно однозначное соответствие. Отсюда, в частно сти следует, что неравенство эквивалентно неравенству Но, по теореме 1.11, £ (t (X) | На) = S (п— 1), т. е. ста тистика f(X) при гипотезе На имеет распределение, независящее от «мешающего» параметра 62, а именно распределение Стьюдента сп— 1 степенями свободы. Таким образом, можно рассчитать границу с' при заданном уровне значимости а и получить еле дующий критерий, эквивалентный к. о. п.: = Iх : I (х) I ^1-a/s, л-1} v [здесь tPi Л~1 — р-квантиль распределения £(«—!)], т. е. приходим к критерию (4.52). Таким образом, в данном случае метод отно- шения правдоподобия приводит к оптимальному критерию. В рассмотренном примере найдено точное распределение ста- тистики (точнее^ некоторой взаимно однозначной функции от 167
нее) при нулевой гипотезе, что и позволило рассчитать соответ- ствующий критерий. Такое обстоятельство характерно для нор- мальной модели. Для других моделей точное распределение Хл удается найти не всегда, поэтому для конечных выборок метод отношения правдоподобия не всегда позволяет получить решение задачи. В то же время для выборок большого объема при доста- точно общих условиях удается получить простое асимптотическое распределение статистики — 21пХл, которое можно использовать для построения приближенной критической области. Таким обра- зом, в большинстве случаев можно рассчитать простой асимпто- тический вариант критерия отношения правдоподобия, основан- ный на критической области вида {х:—21пХ„(х; ©о) 5= с}. Далее излагаются основные элементы асимптотической теории критерия отношения правдоподобия. 2. К. о. п. для больших выборок. Будем далее предполагать, что выполняются условия регулярности, обеспечивающие сущест- вование, единственность и асимптотическую нормальность оценки максимального правдоподобия вл = (91л, .... 9ГЛ) параметра 0 = = (0!....9Г) (см п. 4 § 2.4). Рассмотрим случай простой нуле- вой гипотезы. Теорема 4.6. Пусть требуется проверить простую гипотезу Но: 9 = Оо, где 60 = (M 9г0) — фиксированная внутренняя точка множества 0. Тогда для больших выборок (п—»-сс) при выполнении указанных условий регулярности к. о. п. задается асимптотически критической областью = 21пХя(х; 90)^Xi-a, 4. (4.57) т. е. при п-+<х> PJo (X е ,Г1а) = Р9о (—2 in Хл (X; в0) Xi’ - а. г) а. □ Покажем, что в условиях теоремы JiM-2 In MX; %)) -* Xs (И. (4.58) отсюда следует (4.57). Если справедлива гипотеза Но, то в силу состоятельности о. м. п. при больших п точка 0л близка к 0о, поэтому для 1п£л (0О) = 1п£л (X; 0о) можно записать разложение Тейлора относительно точки 9Л: Г 1п£я(Оо) = 1п£л(0п)+4 ^6,У~ ~ 9io) ~ где 19* — в0 ] < 16Л — в0Отсюда следует, что —2 1п Хл = 2 [In Ln (в„) — In Ln (90)] = = 2 ~ V~n ^in ~ Sio) Yn ~ (4-59) Так как в*-—состоятельная оценка для 0о, а вторые производные функции правдоподобия, по предположению, непрерывны по 6, 168
то, по теореме 1.5, d2 In (6*) ч 1П Ln (90) dfy дб/ дО, д0} На основании закона больших чисел при величина 1 In Ln (&„) _1 У ^1п/(ХЛ; 90) п d6j дО/ п h 59, 50, k= i сходится по вероятности (по распределению Р(„) к среднему —go-до-—г 1аким образом, матрица предельных значении коэффициентов квадратичной формы в (4.59) совпадает с инфор- мационной матрицей I (Оо) [см. (2.34)]. Далее, из соотношения (2.58) следует, что случайный вектор т]„ = ]/ п (0„ — Оо) имеет в пределе такое же распределение, что и нормальный W/= (О, I-1 (0о)) слу- чайный вектор т]. Таким образом, правая часть (4.59) имеет в пре- деле такое же распределение, как и квадратичная форма Q = = т)'1(Оо)т]. Но, по теореме 1.9, =$?(Q) =х2(г), откуда и следует соотношение (4.58). Замечание I. Предельные распределения статистик —2 In и = = 1)Д (6Л) при нулевой гипотезе совпадают, поэтому к. о. п. асимптотически эквивалентен критерию вида (4.60) Если здесь матрицу I (а„) заменить на I (а0), то получим еще один критерий, асимптотически эквивалентный к. о. п. Замечание 2. Из доказательства асимптотической нормальности о. м. п. следует [см. соотношение (2.62)], что в случае одномерного параметра предель- ные распределения т]п и Un (0о)/[1/<п 4 (6о)] совпадают. В случае векторного параметра этот вывод остается в силе, если Un (0О)/[/« i (So)] заменить на [1-1 (60) ил (S0)]//n, где ил (6) =4(С/1П (5).Uгп (5)) и Uin (6) = —^ (В), Z= 1, г. Отсюда и из предыдущего замечания следует, что статистики Q^1 и Q^'=(i/n) и; (в0) 1-1 (а0) ия(б0) имеют при гипотезе Но одно и то же пре- дельное распределение, поэтому к. о. п. асимптотически эквивалентен также критерию вида ^2а=Ж>Х12-а. ,} (4-61) Достоинство этого варианта критерия заключается в том, что при его исполь- зовании не надо вычислять о. м. п. и его удобно использовать в тех слу- чаях, когда явный вид пщучить невозможно. Итак, в задаче проверки простой гипотезы Нв:6 — 0„ против сложной альтернативы Н1: 8 е0\{8о| все три критерия (4.57), (4.60) и (4.61) асимпто- тически эквивалентны, т. е. уровень значимости каждого из них при п->-са стремится к а. Рассмотрим важный пример применения изложенных резуль- татов к полиномиальному распределению М (п, р = (ръ .... Рн)). Пример 4.16 (метод отношения правдоподобия для полиномиаль- ного распределения). Пусть производятся независимые испытания, 7 Заказ № 1054 169
в каждом из которых реализуется один из N исходов Ait Адг, т. е. наблюдается случайная величина £, принимающая значения 1, — если реализуется исход А/). Обозначим через р = (pi, .... pN) вектор вероятностей этих исходов (а. +. • + Av = 1) и через v = (vi, вектор частот реализаций соответствую- щих исходов в п испытаниях (vj-f-... + v,v = п). Как известно (см. п. 3 § 2.5), распределение вектора vh является полиномиаль- ным распределением М (п, р). Предположим теперь, что вероят- ности исходов pi, pN неизвестны и требуется проверить гипо- тезу //0:? = ?°, где р° = (Рь ..., р"м) — заданный вектор, удовлет- воряющий условиям 0<р}<1, i — l, N, Pi + <•• +Рл» = 1. Альтернативная гипотеза имеет вид /71: Р=И=Р° Здесь роль параметра 6 — (Si, ..., Sr) играет вектор р, но так как на значения параметров наложено ограничение A + --- + AV — — 1, то желательно это ограничение устранить, исключив, напри- мер, Av = 1 — pi —. . — рл'-i. Таким образом, далее полагаем 0 = = (pi, Pn-i), так что r = dim6 = W —I. Оценками максимального правдоподобия для параметров р( являются относительные частоты реализаций соответствующих исходов, т. е. pj — Vjjn, /=1, N, поэтому в данном случае статистика отношения правдоподобия имеет вид Мх; Р->-П^/Пй)’'-П^Л I e= I / /== 1 г == I Отсюда JV —21пХл(Х; P°)»2j vyln^. f=i ' Вычислим информационную матрицу I (0о). В рассматриваемом случае вероятности f (х; 0) = Р6 = х) — рх, х — 1, 2, ..,, N, удобно записать в виде f (х; 6) = П Р-f* = П Р}'х (1 ~ Pi “ • • ~ f=i /=1 где —символ Кронекера (6# = 1 при j — l и др —О при Отсюда — (х; 6) _ Г Sixlpi + ^Nxlpfa при i = /, dPidPt I &nx!Pn при /=#=/. Так как Е»дд = Ps (£»/) —ру, /«1, N, то __Е б0)\ = I 1/Р'+ 11р" ПРИ Н» dpi дР/ ) | цр^ при /. Ивпользуя обозначения, введенные при доказательстве теоремы 3.1, имеем, что 1(90) совпадает с матрицей А, а обратная матрица Н(0О) — с матрицей S(A/ —1). Заметим также, что вектор т|л — 170
' СЧ л V = ]/п (0Л —0О) в данном случае совпадает с векторому^ (IV — 1)>! к~ поэтому квадратичная форма Q„ = (0О) q„=v*' (.V — 1)AvT7?V — 1) совпадает co статистикой X„, введенной в (3.5). Далее, для квад- ратичной формы Qi,1’ в (4.60) имеем представление Наконец, _ у _ у /Ч _ 7 ЭР; \ Р, РЛ f Ру I = I i — 1 и квадратичная форма в (4.61) также совпадает со статистикой Хп. Таким образом, в рассматриваемой задаче критерий можно строить, используя любую из статистик м —21пХо(Х; р°)=2 2 1=1 /=1 ’ Если справедлива гипотеза #о:р = р°, то в пределе при п->оо все эти статистики имеют одно и то же распределение хг(Л^ —1), поэтому при заданном уровне значимости а критическую границу выбирают равной xi-«. лг-i- Последнюю статистику называют статистикой хи-квадрат Пирсона. В пл. 3 она была введена из других соображений. В § 3.2 было получено то же самое пре- дельное распределение статистики Х„ при нулевой гипотезе и построен асимптотический вариант критерия согласия х2. Здесь эти же результаты получены как простое следствие метода отно- шения правдоподобия применительно к полиномиальному распре- делению. Таким образом, для полиномиального распределения метод отношения правдоподобия и метод ха асимптотически экви- валентны. С точки зрения простоты вычислений статистика Хл предпочтительнее статистики —2 In Хп, но по сравнению со ста- тистикой Q„' у нее преимуществ нет. 3. Асимптотические свойства к. о. п. Рассмотрим асимптоти- ческие свойства критерия (4.57) [а также эквивалентных ему кри- териев (4.60) и (4.61)] при альтернативах 0=/=0о и покажем, что критерий отношения правдоподобия состоятелен, т. е. что его мощность Wa (0) = Wn (tfial ®) удовлетворяет предельному соотно- шению lim W„ (0) = 1, Vg=?t0o. Для простоты рассмотрим случай п -*со скалярного параметра (г = 1). 7* 171
Пусть 9j =0= 9U — произвольная фиксированная альтернатива, являющаяся внутренней точкой 0. Запишем статистику ln(X; 90) = = (Оо) в виде = 61)- Wfl) Ln (uj Отсюда —21nX„(90) = — 2 1пХл (9i) + no„ (90> Oj), (4.62) где v„ (Оо, 0i) = —~ lnv„(60) 9i) = ^[lnLn(Oi)-lnL„(0o)l = In n 2 Infix-, 61)-2 ln/(X<; So) - i = 1 i = 1 Введем функцию И (9) = E()1 (ln/’(Xi; 9)); тогда на основании закона больших чисел, если истинной параметрической точкой является 01, то при п-^оо п U 1п/(Х;; 6 = 0,1. i = 1 Далее имеем ДО>(8)-Е9.Г1П^1; 9Z). /=1. 2. Отсюда [см. (2.16) и (2.19)] /Z'(Gi) = O, Z/"(9i) =— i (9i) < 0. Та- ким образом, в точке 0Г функция Н (9) имеет максимум, поэтому случайная величина vn (90, 61) сходится по вероятности к положи- тельному числу 2[Н(9j) — Н (90)]. По теореме 4.6, (—21nZn(91))-* ->Xu); следовательно, из (4.62) имеем, что при альтернативе 9t случайная величина —21пА.„(60) по вероятности неограниченно возрастает при п-^-оо. Отсюда следует, что при п-^оо (01) = ?е, (~2 In (90)^Xi-a, i)-> 1. Таким образом, для к. о. п. последовательность функций мощности . ( а при 9 = 0», W„(0), п=1, 2..., сходится к функции Ц6) = { ( 1 при Это означает, в частности, что критерий отношения правдоподо- бия асимптотически не смещен. Итак, если альтернатива (ц фиксирована, а объем выборки п->оо, то мощность к. о. п. стремится к единице. Однако если с изменением и изменяется и альтернатива (0i = 9(i'1>), «прибли- жаясь» к нулевой гипотезе (б<1л) —<-Ф, при ц->оо), то мощность ТЛ(О, вообще говоря, уже необязательно стремится к единице. Характер асимптотического поведения мощности при таких «близ- ких» альтернативах зависит от скорости сближения альтернативы с проверяемой гипотезой, и для ее вычисления надо исследовать ±72
предельное распределение статистики —21пАл(Х; 60) не только при гипотезе (что было сделано в теореме 4.6), но и при альтернативах. Теорема 4.7. Пусть близкая альтернатива 9in) имеет вид А*/1* = 0в + р/'Кп, где р = (ръ .... рг) — фиксированный ненулевой вектор. Тогда при выполнении условий регулярности теоремы 4.6 и п—>сс # (п)(—21пХ„(Х; %))-*x2(r; X2), (4.63) т. е. (см. п. 1 § 1.5) предельное распределение статистики —2 In (X;. 0о) при рассматриваемой альтернативе является не- центральным распределением х2 с числом степеней свободы г — dim© и параметром нецентральности Г2, вычисляемым по формуле Х2 = р'1(6о)р. (4.64) Приведем идею доказательства этого утверждения, ограничившись случаем скалярного параметра (для многомерного параметра рассуждения обобщаются непосредственно). Имеем —2 In (90)= 2 [In L„ (6Л) - In L„ (б'л))] + 2 [,n (в!"’)-1" Ln (%)]• <4-65) Пусть справедлива альтернатива, т. е. 6*”' — истинная параметрическая точка. Тогда из доказательства теоремы 4.6 имеем, что первое слагаемое в (4.65) Имеет в пределе такое же распределение, что и случайная величина £2=i (в0) т]а, где X (т]) — (0, (-1(в0)); следовательно, X (£) = (0, 1). Далее, по фор- муле Тейлора второе слагаемое в (4.65) равно 2 Уп (0<л>-во) JL Un (0W)_n (0(")-еоу 1 и'п Г), (4.66) где ' S* —60\ < 10*п)—80 [. Здесь при больших» на основании закона больших чисел случайную величину (1/л) U'n (0*) можно заменить константой — i (0О), а случайная величина (l/]/n) I7n(0[rt)) иа основании центральной предельной теоремы асимптотически нормальна (0, i (0О)). Поэтому все выражение (4.6б) неограниченно возрастает, если Уп (б[л^ — 60) -► оо; сходится к нулю, если ]Лг(б[л) — 6о)->-0, и сходится к 20 УI (So) t + (J2! (60), если угл(б[г’>—%)->(}. Оиончательно можно записать X w (-2 In X„ (X; 60)) -> X (ft+P /Над)2) =Х2 (1; рч (0.)), 01 т. е. получены утверждения (4.63) —(4.64) для г=1. Итак, для близких альтернатив вида 6in) = %мощность к. о. п. удовлетворяют при п->оо соотношению wn (о[" V 1 - Рг (Х?-а. б А2), (4.67) где Fr(t\ А2) — функция распределения закона х2 (г; А2). Для более близких альтернатив (случай-А.2-> О или У п (Oj”* — 6в)->0) мощ- ность стремится к уровню значимости а, т. е. такие альтерна- тивы по к. о. п. асимптотически от нулевой гипотезы не отли- 173
чаются. Более далекие альтернативы (случай или У гг(О1Л) — О0)->оо) критерий улавливает с вероятностью, стремя- щейся к 1 при п-+оо, когда они верны, поскольку для таких альтернатив мощность стремится к единице. Эти же выводы спра- ведливы и для критериев (4.60) и (4.61). Пример 4.17 (полиномиальное распределение'). Для локальных N альтернатив = р/ + ₽у/К«. /=Ь N, У, Р/ = 0, параметр 1=1 нецентральности %2 равен (см. пример 4.16) Следовательно, мощность любого из полученных в примере 4,16 критериев при такой альтернативе равна в пределе (при п -»-оо) 1 —Ftf-l \ Xi — а. Д' —1>’ У 1 ;=1 < 4. Асимптотические свойства к. о. п. (сложная нулевая гипотеза). Ранее рассматривалась задача проверки простой гипотезы. Но оказывается, что все важные асимптотические свойства критерия отношения правдоподобия сохра- няются и для случая сложной нулевой гипотезы. Приведем формулировки соответствующих утверждений (доказательства можно найти в [26] и [27]). Пусть требуется проверить сложную гипотезу Но : Э е 0о cz 0, т. е. под- множество 0О не сводится к одной точке. Альтернативная гипотеза также сложная и имеет вид : 6 е 0\0О. Рассмотрим типичную задачу, соответ- ствующую случаю, когда 0О — евклидово подпространство размерности мень- шей, чем размерность всего параметрического множества 0 (напомним, что 0—либо все r-мерное евклидово пространство Рг при некотором r=sl, либо его подмножество той же размерности г). Пусть s = dim0o, так что s<r = = dim 9; тогда значение параметра 5 е Оо можно выразить в виде функции некоторогб нового параметра 8 = (0!, ..., бу) с некоторым множеством возмож- ных значений А, т. е. 0О имеет параметрическое представление в терминах параметра 8: 0о={9 = (е1....6r):8 = h(8), 6 = (61, .... 8^) е Д}. (4.68) В общем случае будем предполагать, что функции h(8) = (ft1(8)..... удовлетворяют следующим условиям регулярности: они трижды непрерывно дифференцируемы, и ранг матрицы их производных I dht (8)/д8у- ] равен s всюду в Д. Другой, эквивалентный, способ задания нулевой гипотезы состоит в сле- дующем. Обозначим через В'21 совокупность тех координат вектора 6, которые являются взаимно однозначными функциями от 8. Предположим для простоты, что 6'2' = (6Г_.?+!• ’ М- Тогда 8 можно выразить через 8'2) и записать 8 =» «=8(8l2i). Если теперь ввести функции (8) = 8Z —(8 (5t21)), /=1.....r — s, то гипотеза На : 5 s= 0о принимает вид Но : Н] (Э)=0, [=1, .... г — s. (4.69) Таким образом, гипотезу Но можно задавать также указанием некоторого числа ограничений иа возможные значения параметра 9. 174
Выделим часто встречающийся в приложениях случай, когда в„ задается как цилиндрическое подмножество О, например 0О= (Э в = (01о....вг_,,0, 8r_J+i...6Г)}, (4.70) где 6,0" 7=1, • г—в, — некоторые фиксированные значения координат 61, .... Sr.v. Это частный вид гипотез (4.68) и (4.69) и сводится к ним, если положить 6 = (9r_J+1, ..., в.) и /1у(6) = В,о, /=1...r — s, Л/(8) = 0/, / = = г —s+ 1, ..., г. Если 0с имеет вид (4.70), то гипотезу На : 9 е 0В называют линейной. Таким образом, линейная гипотеза — это гипотеза, фиксирующая значения части координат 6'1' параметрического вектора 9 [в данном случае 9|1=(В1, ..., 6Л_.,)], остальные координаты 512’ [в данном случае 512’ = = (8z_s+j....-«мешающие» параметры. Пусть проверяемая гипотеза задана в параметрической форме (4.68). Если функцию правдоподобия наблюдений рассматривать при этой гипотезе, то она является функцией нового параметра 6 : L„ (х: 9) = Ln(x; h (8)) и при выпол- нении всех условий регулярности оценка максимального правдоподобия 8Л параметра 8 будет обладать стандартными асимптотическими свойствами. Это позволяет провести асимптотическое исследование статистики отношения правдо- подобия (4.54) (аналогично проведенному в п. 2 и 3), которая в данном случае имеет вид ХЛ(Х; 0о) = Ел(Х; h(g„))/L„(X; 9„), и получить для больших выборок (при п-»-ос) следующие результаты: 1) ^(-21пХл(Х; 9e)l#n)->X2(r-s); (4.71) 2) критерий отношения правдоподобия, основанный на критической области & 1а= {х : -2 1п (х; ®о) Xi -a, ,-J, (4.72) состоятелен; 3) в случае линейной гипотезы (4.70) этот критерий имеет асимптотически вевырождающуюся мощность (т. е. мощность, стремящуюся при п -> оо к не- которому пределу у, а<у<1) для локальных альтернатив вида 0^1 = = Sjo + fW^" <=li г~Si равную 1-^ДхГа. г-,; П (4.73) где X2 = ^(9*)=P'(I-i(r-s))-*P, 9*=(61О, ..., 8г^,о, 9r_s+1, 6Г), ₽ = = (pi, ..., Pr_j), 1 1 (г—а) — главный минор порядка r—s матрицы 1-1(9*) (выражение для параметра нецентральное™ в случае задания гипотезы в виде (4.68) или (4.69) можно найти в [26]). Отметим, что все полученные .ранее результаты для случая простой гипо- тезы Но можно получить из приведенных при s=0. Пример 4.18 (общая нормальная модель, к. о. п. для дисперсии). Применим сформулированные результаты к задаче проверни сложной гипотезы На: 62=В2в (Вх произвольно) для нормальной модели (6Х, 6|). Используя результаты примера 4.15, найдем \п (х) = ^/Э?„)л/2 ехр {- (гг/2) (^/в|0 -1)} или -2 in /.« (х) =л (s2/5fo - 1)-л In [1 + (s2/0*o -1)]. Выборочная дисперсия S2 является состоятельной оценкой теоретической дис- персии, поэтому в случае справедливости гипотезы Но отношение s2/0fo при больших п близко к единице и — 2 1п (х) = (п/2) (sa/et„ -1)2. (4.74) В рассматриваемом случае параметры r=2, s= 1; следовательно, к, о, п, (4,72), если учесть (4.74), можно записать в виде = (х : (n/2) meo- l?S=X?-a, (4-75) 175
В данном случае утверждение (4.71) легко получить непосредственно из (4.74), Напомним, что, по теореме 1.10, £ (п52/в|01 На) = у2 (п— I). Далее, если вос- пользоваться свойством воспроизводимости распределения %2.и записать пред- ставление %2=Xi+,"+Xn-i> гДе £ (X2) = X2 (п~ !) слагаемые независимы и £(%%)=?? (V), £=!.......n—1, то по центральной предельной теореме при п->-со имеем -^->^(0, 1). ^У2(л-1)У (см. п. 1 § 1.5). Таким образом, при п->оо £ (___!___ ’У2 (п-1) nS2 , — -(п-1) _ бзо но -> (0, 1). Последний результат справедлив и для статистики (1/]/2п) (nS2/0|o — п) = = УЛп/2 (S2/6|„ — 1). Отсюда и из (4.74) следует, что при гипотезе Но стати- стика — 2 In Xn (X) распределена при больших п приближенно так же, как квадрат нормальной •_ /' (0, 1) случайной величины, т. е. по закону у~ (1), что и утверждается в (4.71). Рассмотрим теперь локальную альтернативу = °20₽/Уп, гДе Г» 0, и вычислим предельную мощность (4.73) прн этой альтернативе для критерия (4.75). Информационная матрица 1 (6) для модели '=Л~' (t^, 6|) вычислена в п. 5 § 2.2 и имеет вид 1 (6) = этой матрицы, соответствующий фиксируемому гипотезой параметру, есть 6|/2, поэтому параметр нецентральности X2 в (4.73) в данном случае равен 2р2/в|0. Окончательно имеем: искомый предел мощности равен 1 —fi(Xi-a, i! 2р2/0|о). 5. Доверительные области максимального правдоподобия. Изложенные ре- 1/в| 0 о 2/е| |[в? 0 . Отсюда l~i(8) = II0 9f/2 . Главный минор зультаты дают возможность получить общее решение задачи доверительного оценивания параметров распределений для общих параметрических моделей.. При этом используют методику, изложенную в п. 4 § 4.4; в результате полу- чают доверительные области максимального правдоподобия. Далее будем пред- полагать, что выполняются стандартные условия регулярности, формулируе- мые в асимптотической теории критерия отношения правдоподобия. Рассмотрим к. о. п. уровня значимости а= 1 —у для простой гипотезы 6 = (91, .... 8Г). Согласно (4.57), область принятия этой гипотезы-в случае больших выборок имеет вид (8) = |х : — 2 1п (х; 8)<Х?, г}. Отсюда имеем, что ^у(Х) = {8:-21пХл(Х; 8)<4 г} (4.76) — асимптотическая у-доверительная область для параметра 8, так как, по теореме 4.6, при п-*ос Р8 (6 е= (Х)) = Рв (- 2 1п (X; 8)<х’,г)-*У. V5 е ©• Определенное таким образом случайное подмножество параметрического мно- жества 0 называется доверительной областью максимального правдоподобия. Таким образом, множество (4.76) строится на основании статистики отноше- ния правдоподобия Хл (X; 6) = ГЯ(Х; 8)/L„ (X; 6Л) и вклю.чает все значения параметра, при которых функция правдоподобия близка к своему максималь- ному значению Ln (X; 9Л), или, как говорят, все достаточно правдоподобные значения 8*. В частности, наиболее правдоподобное значение параметра — * Если L (X; 61)>L(X; 8а), то говорят, что значение параметра Qi более правдоподобно, чем значение 02. 176
оценка максимального правдоподобия —всегда принадлежит^ (X) (рис. 4.4). Приближенную доверительную об- ласть максимального правдоподобия можно построить и для произвольной совокупности координат параметричес- кого вектора в при наличии мешающих параметров. Пусть, например, требу- ется оценить координаты 5<1’ = (в1, .... 6Л_$) (остальные координаты б'21 = = (Sr_j+i...9Г) являются мешающими параметрами). В этом случае следует рассмотреть'линейную гипотезу относительно б*1’ (см. предыдущий пункт), вычислить статистику Л„(Х; 6<i’)'=sup Ln (X; (б'”, 6™))/Ln (X; б„) e,2J и на основании (4.72) положить (X) = р-ь :_2 in (Х; 9<1>) ,_Д Это и есть искомая асимптотическая у-доверительная область для 6'1', так как из (4.71) —(4.72) следует, что при «->оо Р5 (6«> е= (X)) = Р5 (- 2 1п Хя (X; б'1’) < х2, r.s) Ъ V6 е 0. Сделаем несколько общих замечаний о критерии отношения правдоподо- бия. Применяя метод отношения правдоподобия и используя приведенные предельные теоремы, можно получать асимптотическое решение широкого класса задач. В то же время этот подход имеет границы применимости. Так, в случае его использования необходимо выполнение довольно жестких усло- вий регулярности от исходной модели, что не всегда имеет место. Кр.оме того, с его помощью можно проверять только гипотезы вида Яо: 8 е 90, где 0О — евклидово подпространство пространства 0, dim9o<dim0; многие же инте- ресные задачи к этому типу не относятся. Задачи 1, В последовательности независимых испытаний вероятности положи- тельных исходов одинаковы и равны р. Построить критерий проверки гипо- тезы Не: р — 0 против альтернативы р=0,01 и определить наименьший объем выборки, для которого вероятности ошибок первого и второго рода не превосходят 0,01. Выборочные значения непрерывной случайной величины 5 оказались равными —0,460, —0,114, —0,325 , 0,196, —0,174. Проверить гипотезу Но: X (5) = Л (—0,5; 0,5) против альтернативы /Л : X (£) — (0; 0,09) (ве- роятность ошибки первого рода принять равной 0,1). 3) Пусть для распределения Коши К (6) проверяется гипотеза : В = 0 против альтернативы Нх: 6 = 1. Показать, что р. н. м. критерий уровня зна- чимости а= 1/2 — (1/л) arctg (1/2) =и0,352 по одному наблюдению задается кри- тической областью {х$? 1/2} и что его мощность равна 1/2 + (1/л) arctg (1/2) «= 0,648. Если а=(1/л) (arctg3—arctg 1)«=0,148, то критическая область имеет вид {1 х 3}, а мощность равна (1/л) arctg 2 «=0,352. Пусть X = (Xj......Хл) —выборка из экспоненциального распределе- ния / (6, 1). Построить критерий Неймана —Пирсона проверки гипотезы Нб '^>=^о против альтернативы Я1:б = 91. Найти функцию мощности этого критерия. <53 Пусть для пуассоновской модели П (6) проверяется гипотеза На: В = 60 протдй сложной альтернативы Я1:6>90. Показать, что р. н. м. критерий задается критической областью вида {х>=с}. Вычислить функцию мощности критерия и показать его несмещенность. Установить, что при большом объ- 177
еме выборки л критическая граница с = са с уровнем значимости а может быть выбрана равной 0,3 + /а )'' 9о/п, ® (—!«) = « Рассмотреть альтернативу вида Hi: 6 < 90. в. Показать, что при большом объеме выборки критическую границу га в критерии примера 4.5 можно вычислять с помощью приближенной формулы га — п90 — ta V ибо (1 —во). Ф (— = « 7. Построить асимптотическую форму к. о. п. проверки гипотезы /7О:6 = = 6о в модели П (9) и вычислить его предельную мощность при альтернативе в<л> = 90 + р//л. 8. Установить равенство О.„ =Х~п в примере 4.16. 9. Пусть в модели Bi (1, 0) проверяется гипотеза 7/о:0 = 9о. Построить к. о. п. и вычислить его предельную мощность при альтернативе 0(лЭ = 0о-|- + п (п — объем выборки). 10. Показать, что предельная (при п-^оо) мощность построенного в при- мере4.15 и. о. п. при альтернативе 9J"* = &10-{-р/\'п равна 1— Fi(Xt-a:i; P3/E>i). L11. Имеются две независимые выборки из пуассоновских совокупностей П (6Х) й П (02), соответственно Х! = (Хц.....Х1л) и X2 = (X2t, .... A'2nj. Требуется проверить гипотезу Но: 0t-- 92 (гипотезу однородности). Построить к. о. п. и установить, что статистика этого критерия имеет вид ХП1 Л! = = Х^'Х"1*1}, л = л14-п2, 'Л' = (п1А'1 + л2Х2)/л. Найти предельное рас- пределение — 2 In „ при щ, п2->ос. Обобщить на случай k выборок. 12. Пусть Sj, .... — выборочные дисперсии, построенные по независи- мым выборкам объемов пх, .... пь из совокупностей ®7Z’(911? 9|j), ... ..., (01;г, соответственно. Показать, что к. о. п. для гипотезы Но • Э21 = • = основан на статистике Ч...п,=п (ЗД)""2; 1 * г=1 ^-ь--+«А2 nt Ч~ • + Построить асимптотическую при nt.......пк-+ао форму этого критерия. Убе- диться, что в случае k = 2 статистика взаимно однозначно связана с от- ношением Снедекора f = [n1 (л2— 1) S;]/[n2 («х— 1) S|], которое имеет при ги- потезе Но распределение Снедекора 5(^—1, п2— 1). 13. Построить и рассчитать асимптотический вариант к. о. п. проверки гипотезы однородности в случае независимых выборок из распределений В((1, 9;), / = 1, 14. Пусть л,-, Xi и S? — соответственно объем, выборочные среднее н дис- персия для выборки из совокупности (Biz, 6|), i= 1, 2. Построить к. о. п, для гипотезы ff0:911 = 612. Показать, что статистика отношения правдоподо- бия эквивалентна в этом случае стьюдентову отношению 1=^4^ (П14-л2 — 2)/(rt!4-Пг) (Xi — A'2)/}^n1S^H-n2Sl> которое имеет при гипотезе Но распределение Стьюдента S (пх-фпа —2).
Глава Линейная регрессия и метод наименьших квадратов В этой главе рассматривается практически важный случай неодинаково распределенных наблюдений с одинаковыми дисперсиями, когда их средние — ли- нейные функции неизвестных параметров (схема ли- нейной регрессии). Излагаются классический метод наименьших квадратов для оценивания параметров модели и его оптимальные свойства, рассматрива- ются вопросы его практического применения. В пред- положении нормальности наблюдений приводится полное решение задач доверительного оценивания произвольных линейных функций параметров регрес- сии и проверки линейных гипотез для них. Рассмат- ривается применение модели нормальной регрессии к задачам дисперсионного анализа. Излагаются эле- менты теории статистической регрессии и корреля- ции. § 5.1. Модель линейной регрессии До сих пор рассматривались статистические выводы для моделей, соответствующих повторным независимым наблюдениям над некоторой'случайной величиной В этих слу- чаях исходные статистические данные представляют собой реали- зацию случайного вектора Х = (ХЬ ..., Хл), компоненты которого независимы и одинаково распределены, а именно FXi = F^, i — = 1, ..., п. В приложениях математической статистики предпо- ложения о независимости и одинаковой распределенности компо- нент X; не всегда выполняются. В этой главе будет рассмотрен важный случай таких ситуаций, часто встречающихся в прило- жениях, которые описываются в терминах линейной регрессионной модели. В этой модели предполагается, что математические ожи- дания наблюдений Х; являются линейными функциями фг(0) от неизвестных параметров 0 = (01......0*) и делаются некоторые предположения о вторых моментах. В общем случае речь идет об изучении таких случайных экс- периментов, когда на их исход влияют некоторые неслучайные переменные (факторы) Zi, ..., zk, значения которых меняются от опыта к опыту. Например, zr, ..., zk могут быть входными ха- рактеристиками прибора, при каждой задаваемой произвольно комбинации значений которых наблюдается некоторый эффект («отклик») как исход эксперимента. В других случаях значения факторов для каждого опыта могут быть обусловлены независя- щими от исследователя причинами (как правило, это имеет место, 179
например, в экономических исследованиях). Но в любом случае статистические данные состоят из множества наблюдавшихся зна- чений «откликов» Xi, Хп и соответствующих значений фак- торов, т. е. имеют вид г'0, г)*'1), 1=1, п; при этом всегда предполагается, что k < п. Часто можно считать, что факторы Zi, .... zk оказывают влия- ние только на среднее значение «отклика», при этом математиче- ское ожидание исхода t-ro опыта имеет вид k EXf = z<‘>0, = zt‘>'₽, = (z<‘>, ..., z»>), i=i t. e. является линейной функцией неизвестных параметров ₽ = = (Pi, ..., р*). (Напомним, что при матричных преобразованиях векторы всегда понимаются как вектор-столбцы.) Другими сло- вами, случайную величину Х>, описывающую результат t-го опыта, можно представить в виде Xf = z<‘>'p4-в,, 1 = 1, ..., п, где Ее, = 0 и распределение «ошибки» е, от параметров р не за- висит. Введем матрицу плана Z = ||z<1)... z(n) || размером kxn, со- ставленную из вектор-столбцов z<n, ..., и вектор ошибок e = (8i, ..., 8„). Тогда в матричных обозначениях предыдущие равенства принимают вид X = Z'p4-e, Е(е) = 0. (5.1) Далее обычно предполагают, что случайные величины еь .. t ..., е„ (или, что то же самое, Хъ ..., Хп) не коррелированы й имеют одинаковые дисперсии DX/ = De; = 0, t=l, ...,п, где ст2 обычно неизвестна. В этом случае матрица вторых моментов вектора наблюдений X имеет следующий вид: D(X) = D(e) = E(ee') = o2E„. (5.2) Если выполняются условия (5.1) —(5.2), то говорят, что имеет место модель линейной регрессии. Параметры ₽i, .... Р* называют коэффициентами регрессии, а о2 — остаточной дисперсией. В описанной схеме переменные гъ ..., z* могут быть функ- ционально зависимы. В частности, все могут являться функ- циями одной переменной t, например Zj — aj (/), где — полином степени />1, в этом случае говорят о параболической регрессии. В более общем случае возможны корреляции между наблюде- ниями, т. е. вместо условия (5.2) вводится условие D(e) = o2G. Если матрица G известна, то, положив Y = G"1/aX, получим, что преобразованные таким образом данные удовлетворяют модели (5.1) —(5.2) (при линейном преобразовании V = LX первые и вто- рые моменты случайного вектора преобразуются следующим обра- зом: Е (Y) = LE (X), D (Y) = LD (X) L'). Таким образом, подробного изучения заслуживает только стандартная модель (5.1) —(5.2). Далее определяющую роль играет матрица A = ZZ'. (5.3) 180
Эта матрица всегда неотрицательно определена и положительно определена тогда и только тогда, когда rangZ = &, т. е. когда строки матрицы Z линейно независимы. Действительно, квадра- тичная форма t'At = t'ZZ't = (Z't)' (Z't)SsO, Vt = (£r, при- чем равенство нулю возможно только при Z't = O. В свою оче- редь, это равенство эквивалентно равенству /1Z1 +____f-/*z* = O, где zi, z^ —столбцы матрицы Z'. Таким образом, равенство нулю t'At при некотором t#*0 имеет место только в случае ли- нейной зависимости векторов ..., zh, т. е. при rangZ<6. Излагаемая далее теория строится в предположении, что мат- рица А не вырождена (или, что эквивалентно, rangZ = &). Полные результаты, относящиеся и к вырожденному случаю, можно найти в [16, гл. 4]. § 5.2. Оценивание неизвестных параметров модели В этом параграфе будет рассмотрена задача построения точечных оценок параметров Pi, ...» Р* и о2 модели линейной регрессии (5.1) —(5.2). 1. Метод наименьших квадратов. Общим методом оценивания неизвестных коэффициентов регрессии ръ ..., р& является разра- ботанный К- Гауссом (1809 г.) и 'А. Марковым (1900 г.) метод наименьших квадратов, в соответствии с которым оценки этих параметров находят из условия обращения в минимум квадра- тичной формы S(p) = S(X; р) = (Х —Z'P)'(X —Z'P), (5-4) представляющей собой сумму квадратов разностей между наблю- дениями и их математическими ожиданиями. Точку b = (l>j, ... .... bk), удовлетворяющую равенству S(b) = minS (р), называют, по определению, оценкой наименьших квадратов (о. н. к.) пара- метра P = (Pi, .... р*). Пусть Y = ZX; тогда с помощью непосредственных вычислений можно убедиться, что система уравнений dS(p)/dP; = O, / = 1, ... ..., k, в матричной форме записывается в виде Ap = Y, (5.5) где матрица А задана в (5.3). Это уравнение для экстремальных точек Р называют нормальным уравнением метода наименьших квадратов. Справедливо следующее утверждение. Теорема 5.1. Пусть р — любое решение нормального уравнения. Тогда min S (Р) = S (0) в и, следовательно, этот минимум одинаков для всех 181
Если | А | =£ 0, то о. н. к. единственна и определяется равен- ством b = 0 = A~1Y = A1ZX. (5.6) □ Пусть 0* — произвольное фиксированное значение 0; тогда из (5.4) имеем S (0) = [X - Z'0* + Z' (0* - 0)}' [X — Z'0* + Z' (0* — 0)] =» = S (0*) + 2 (0* - 0)' (Y - A0*) + (0* - 0)' A (0* - 0). (5.7) Если 0* = 0, то S (0) = S (0) + (0 - 0)' A (0 - 0) > S (0), (5.8) поскольку матрица А неотрицательно определена. Таким образом, минимум S (0) равен S (0), достигается при 0 = 0 и одинаков для всех решений 0 уравнения (5.5). Отсюда следует, что любое ре- шение нормального уравнения является о. н. к. для 0. Для не- вырожденной матрицы А уравнение (5.5) однозначно разрешимо и, следовательно, в этом случае о. н. к. единственна и имеет вид (5.6). В ряде случаев интерес представляют не сами параметры 0Ъ ... ..., 0*, а их некоторые линейные комбинации, т. е. новый пара- метрический вектор t = (/i, ..., tm), связанный с 0 соот- ношением t = Т0, где Т — заданная матрица размером mxk. В этом случае о. н. к. t для t определяется равенством t = T0, где 0 — любое решение нормального уравнения (5.5). Если | А [ =f= 0, то из (5.6) следует, что t определяется однозначно и имеет вид t = TA-1Y = TA-1ZX. (5.9) 2. Оптимальность оценок наименьших квадратов. Исследуем свойства полученных оценок. В общем случае будем рассматри- вать задачу оценивания вектора t = T0 в классе линейных оце- нок, т. е. ж оценок вида 1 = LX, являющихся линейными функ- циями от наблюдений X = (Xi, ..., Хя). Теорема 5.2. Пусть матрица А не вырождена. Тогда для про- извольного вектора t = T0 о. н. к. t, определенная равенством (5.9), является несмещенной оценкой с минимальной дисперсией в классе всех линейных несмещенных оценок t; при этом матрица вторых моментов случайного вектора t имеет вид D (t) = о2ТА-1Т' = o2D. , (5.10) □ Из (5.9) и (5.1) имеем Е (t) = Е (TA-1ZX)« TA-1ZE (X) «TA^ZZ^ = Т0 = t, т. е. t —линейная несмещенная оценка t. Пусть I = LX— произ- вольная линейная несмещенная оценка t, т. е. E(1) = LE(X) = = LZ'0 = T0. Это равенство должно, выполняться для всех 0, по- 182
этому отсюда следует, что LZ' = T. (5.11) Из (5.2) находим D (1) = LD (X) L'= <y2LL'. (5.12) Наша цель —минимизировать дисперсии оценок /1( ..., 1т, т. е. диагональные элементы матрицы LL'. Для этого запишем тож- дество LL = (TA-1Z) (TA-1Z)' +(L -TAXZ) (L - TA^Z)', которое непосредственно следует из равенства (5.11). Каждое слагаемое правой части этого тождества имеет вид НН', откуда следует неотрицательность диагональных элементов. Но от L за- висит только второе слагаемое, поэтому диагональные элементы D(l) одновременно достигают минимума тогда и только тогда, когда L = TA-1Z. Соответствующая оптимальная оценка имеет вид I* = TA-1ZX = t, т. е. совпадает с о. н. к. (5.9). Наконец, фор- мула (5.10) следует из соотношения (5.12), если подставить вместо L найденное оптимальное решение. В качестве простого следствия теоремы 5.2 получаем, что D (Р) = оЗД-1 или cov (Р,, Р7) = I, (5.13) где JаО {== А-1 =|! ауР. Замечание. Если матрица Т имеет вид Т = ЛА, то формулы (5.9) и (5.10) принимают соответственно вид t = AY, D(t) = o2AAA' т. е, необходимость в вычислении обратной матрицы А-1 для нахождения о, н, к. и их вторых моментов отпадает. Итак, теорема 5.2 позволяет решить задачу о построении опти- мальных оценок для произвольных линейных функций от коэф- фициентов регрессии; это оценки наименьших квадратов. 3. Оценивание остаточной дисперсии. Из равенства (5.4) имеем ES(P) = £ DX,= no2. i я= ] Далее, учитывая (5.13), найдем k E(P-P)'A(0-P)= S ауЕ(Р,-₽;)(^-₽/) = I, /==) /г = о2 У! ci/Je> = CT8tr(AA-1) = cT2tr(Efc) = Aoa. Отсюда и из тождества (5.3) следует, что ES(P) = (rc — А) ст8, т. е. несмещенной оценкой для остаточной дисперсии о2 является ста- 183
тистика ^ = ^l5(3)=^(X-Z'P)'(X-Z'P). (5.14) Вектор U = X —Z'P называют остаточным вектором, а его ком- поненты— остатками. Таким образом, оценка а2 равна сумме квадратов остатков, поделенной на и — k (разность между числом наблюдений и числом параметров 0г). Приведем другое выражение для (5.14), которое понадобится в дальнейшем. Используя разложение (5.7), запишем остаточный вектор в виде U = (E„-Z'A1Z)X = BX. (5.15) Непосредственно можно проверить, что матрица В, определяемая этим равенством, симметрична н идемпотентна (В® = В); следова- тельно, вместо (5.14) можно использовать представление с2=—-Х'ВХ, (5.16) показывающее явную зависимость оценки б2 от наблюдений. На- конец, из (5.15) имеем, что первые и вторые моменты остаточного вектора имеют вид E(U) = 0, D (U) = о2В = D (X) — D (Z'P). (5.17) 4. Обобщенные о. н. к. Ранее рассматривался случай, когда на возможные значения параметров P = (₽i...Р*) не наклады- валось никаких ограничений, т. е. областью их возможных зна- чений было все евклидово пространство Однако в ряде задач допустимые значения £ бывают ограничены теми или иными усло- виями. Часто эти условия имеют вид линейных ограничений на параметры Ръ ..., рй, что в общем виде будем записывать так: Tp = t0, (5.18) где Т — некоторая заданная матрица размером т х k (m sC fc) и t0 —заданный m-мерный вектор такой, что система (5.18) сов- местна. Другими словами, условие (5.18) означает, что допусти- мые значения коэффициентов регрессии рь .... рА удовлетво- ряют т заданным линейным ограничениям t/P = t,o, /=1, ..., т, (5.19) где t0 = (/1о, ..., /то) и ti, ..., t« —строки матрицы Т. Естест- венно предполагать, что ограничения (5.19) линейно независимы (иначе можно перейти к меньшему числу уравнений, исключив линейно зависимые). Таким образом, в дальнейшем будем считать, что rangT = m (случай m = k, однозначно фиксирующий вектор р, в последующих рассуждениях формально допускается). Рассмотрим задачу оценивания параметров р в этой услож- ненной ситуации. Обозначим ST= min $(₽) (5.20) gi Tg = t0 184
и назовем обобщенной оценкой наименьших квадратов 0| то зна- чение р (удовлетворяющее условию (5.18)), при котором .S = -5(рт). Нахождение обобщенной о. н. к.—это задача нахожде- ния условного экстремума функции S(p), и ее можно решить методом неопределенных множителей Лагранжа. Приведем только окончательный результат: pr = P-A-H'D-*(TP-10), (5.21) где р —обычная о. н. к. (без ограничений на параметры Р), опре- деленная равенством (5.6), а матрица D = TA-’T' размеромtnxm положительно определена. Докажем тот факт, что рг — точка условного минимума квад- ратичной формы 5(Р). Из (5.21) непосредственно получаем, что ТРт = 10, т. е. точка pi удовлетворяет условию (5.18). Восполь- зуемся далее разложением (5.7) для S (Р) и положим в нем р* = - Рт: S (Р) = S (Рт) + 2 (рт - р)' (Y - Арт) + (рг - Р)' А (рт - Р). Так как Ap = Y, то из (5.21) следует, что Y — ApT = T'D~l х х(Тр —10). Учитывая также, что Т(рт — Р) = tn — Тр, получаем равенство S (р) = S (Рт) + 2 (to - Тр)' D-1 (TP - to) + (р г - Р)' А (Рт - Р), (5.22) справедливое при всех р. Пусть теперь р удовлетворяет условию (5.18); тогда средний член обращается в нуль и ,S(p) = 5 (Рг) + (Р г - Р)' А (Рт - Р) 5 (рт), причем равенство достигается только при Р = Рт- Замечание. Полагая в (5.22) [} = р и учитывая, что в силу (5.21) (|iT-P)' А $т-&) = Сгё-М' D-r(Tp — to), получаем следующее представле- ние условного минимума ST=S(Pr) через абсолютный минимум 5 (р): <S’T = S (р) + (Тр —10)' D~i(Tp-t0) = S(P) + QT (5.23) (QT определено этим равенством), 5. Оптимальный выбор матрицы плана. Рассмотрим «активный» эксперимент, т. е. когда значения факторов г1(.... г* для каждого опыта выбирает исследователь. Покажем, как в этом случае опти- мально задать матрицу плана Z=|z(1* ...г<л)Ц, где е-й столбец zli) — комбинация значений факторов для i-ro опыта (i= 1, ..., п). В качестве критерия оптимальности естественно использовать величину дисперсий оценок |\ [см. (5.13)]; тогда задача сводится к выбору такой матрицы Z, чтобы диагональные элементы матрицы hr1 — (ZZ')--1 были минимальны. 8 Заказ № 1054 185
Если значения факторов выбирать произвольными, то все эле- менты матрицы А'1 можно сделать одновременно как угодно малыми, так как если Z заменить на aZ, то А-1 заменится на а-2Д-1_^0 при а-+оо. Чтобы исключить этот случай, предположим, что значения факторов можно менять в ограниченных областях, именно: наложим ограничения вида = £ (6°)a=a?’ .....(5.24) i=l где zi, ..., z* — столбцы матрицы Z' (наборы значений п уровней соответствующих факторов) и а*, al — заданные положитель- ные константы. При ограничениях (5.24) на допустимые значения п уровней каждого фактора следует подобрать комбинацию значений факто- ров (т. е. выбрать столбцы матрицы Z), так, чтобы дисперсии о. н. к. параметров 0Ъ ..., $к приняли наименьшие возможные значения. Теорема 5.3. При условиях (5.24) имеют место неравенства DPy^o2/^-, / = 1, .... k, и минимум достигается тогда и только тогда, когда столбцы матрицы Z' ортогональны. □ Пусть / = 1. Запишем матрицу А = ZZ' в виде где b = (zf2zj, ..., zlzv). Тогда a11 = | F |/| А Далее, умножая определитель |А| справа на определитель, равный 1, получаем следующую формулу: zjzi — b'F^b : b' ......О..... i F = |F | (zjzj - b'F-ib). Отсюда, учитывая соотношения (5.13) и (5.24), имеем Dp! = ст2а11 = a2l(al — b'F~lb) cr2/«j', так как b'F^b^O. Знак равенства имеет место только при Ь=0 (поскольку подматрица F положительно определена), т. е. при z'-zr = 0, / = 2, ..., k (первый столбец матрицы Z' ортогонален всем остальным столбцам). Доказательство для других ( можно получить простой перенумерацией факторов. В заключение отметим, что для оптимальной матрицы плана Z матрица А является диагональной с диагональными элементами a} = x'iZj, / = 1, ..., k, поэтому проблема обращения А для вычис- 186
ления о. н к. и их вторых моментов отпадает; в этом случае * LjX. „О2 А = О₽/ = -тГ, соу(₽л М = 0, /¥=/ (5.25) /У .. гг> 6. Примеры применения метода наименьших квадратов. Пример 5.1 (простая регрессия, оценивание параметров). Про- иллюстрируем общую теорию на примере важного для практичес- ких приложений случая простой регрессии, когда число пара- метров £ = 2, т. е. 0 = (Pi, 02), а векторы z^'1 имеют видг(П=(1, i = 1, ..., п. Тогда ЕХг = р! + р^, » = 1.....................................(5.26) т. е. среднее значение наблюдений является линейной функцией одного фактора t. Так, / может быть температурой, при которой производится эксперимент, дозой лечебного препарата, возрастом обследуемых лиц и т. д., и речь идет об изучении связи между откликом (исходом эксперимента) и фактором t на основании выборки, при этом регистрируют п пар измерений (X,, t,), где Xi наблюдается при значении б фактора t. Прямую ф (0 = 0Т021, соответствующую (5.26), называют линией регрессии, а коэффициент 02 —ее наклоном. В данном случае матрицы Z, А и столбец Y = ZX равны: Z= 1 Н 1 А J « Y = \ztiXj' Будем предполагать, что не все одинаковы (чтобы rangZ = 2), тогда п 1 а‘ \2 п Iai = п 2 <;- S ч =п 5 (W)2>o г = 1 4 = 1 I i=\ (черта сверху означает арифметическое среднее) и д., = I IZ И - nt II = я /X S К - /1 tiXA = А' ||—nt п I)’ iAi tiXi — nXt / \Р2/ В результате несложных преобразований запишем оценки и 02 в следующем удобном для вычислений виде: ^ = 2(«(--0(Х,— Х)/2^-7)2, 0х = Х-702. (5.27) Вторые моменты этих оценок образуют матрицу оаА-\ поэтому У't} а о2 • 1 = п^АЦ — Гр °2’ D^2 = Wi—tf ’ C0V = — °2’ Наконец, величина 5(0) (5.14) равна i'(₽) = S(X(-X)a-^S^-fr (5.28) и несмещенная оценка для остаточной дисперсии о2 имеет вид ft’,»S(0)/(R-2). 8* 187
Рис. 5.1 тора t для п опытов. В блюдения Х{ имеет вид Пример 5.2 (параболическая регрес- сия) Пусть /-й фактор Zj является полиномом aj (t) степени / — 1 от об- щей переменной t; тогда Z/ = (a/(^), ..., а} (tn)), / «= 1, . • , fe, — набор его значений для п уровней, a z(i) = (аг (tj), ..., а» (ti)), i — 1.. n, — комбинация значений факторов zit zk для i-го опыта. Таким образом, матрица плана Z = | z(11... 2<л) J определяется выбором п точек <1, .... tn значений общего фак- этом случае среднее значение i-ro на- к EXt=<p(if; ₽)= 2 i = l....... /=1 (5.29) Определенная здесь функция <р (/; 0) представляет собой полином (параболу) степени fe — 1 и называется кривой параболической регрессии. Приведем типичную ситуацию, когда имеет место схема параболической регрессии. Предположим, что имеется теоретическая зависимость вида х=гр(Л 0) между переменными t и х, причем значения t и х получают из наблюдений. Задача состоит в определении по экспериментальным данным неизвестных параметров fJj...₽*, входящих в это уравнение. Каждое измерение х при заданном i дает уравнение, связывающее неизвестные параметры, и если бы измерения величины х производились без погрешностей, то дл; определения параметров 0!....было бы достаточно k измерений. Однако точные изме- рения на практике чаще всего невозможны, поэтому для заданных значений i соответствующие значения х известны с какими-то погрешностями, т. е. реально вместо точного значения х;=ф(/,; 0) имеем случайный результат 0)4-е<, где 8;—ошибка измерения. Если условия эксперимента обеспечивают отсутст- вие систематической ошибки (Ев/ = 0), равноточиость (Вв( = а2, с—1.п) н некоррелированность (cov(8j, г/)=0. |) результатов измерений, то приходим к схеме регрессии вида (5.29). Чтобы исключить влияние погрешностей измерений, иужиа дополнитель- ная информация. Для этого производят большое число измерений п > k. Полу- ченные экспериментальные данные обрабатывают по методу наименьших квад- ратов. В результате находят неточные значения коэффициентов ..., а определяют их в. н. к. .... В данном случае этому методу можно дать следующую наглядную геометрическую интерпретацию (рис 5.1). Нанесем на плоскости (t, х) наблюдавшиеся точки X,), г'=1, ... п. Тогда значения 0* неизвестных коэффициентов Р подбирают так, чтобы соот- ветствующий эмпирический график х=<р(/;0*) наилучшим образом проходил около наблюдавшихся точек. Если в качестве критерия оптимальности взять п величину (Xj—<р (fjj Р*))а, то приходим к методу наименьших квадратов 1= 1 с решением 0*=f). Формально такой же вид имеет и классическая задача математического анализа приближения функций многочленами. В этом случае данные (/,-, XJ, i=l, ..., л, интерпретируют как пары соответствующих абсцис' и ординат графика изучаемой функции и задача состоит в подборе интерполяционного 18В
многочлена вида <р (t; 0), который давал бы наилучшее приближение в среднем, п т, е. минимизировал бы величину 2 (X,—₽)р. ; = 1 .7. Ортогональные многочлены Чебышева. В описанной в при- мере 5.2 схеме предполагалось, что многочлены (t) известны. В частном случае «;(/) = (/-’, /=1, ..., k; тогда <р(t; 0) = и = У т. е. —коэффициенты многочлена <р ((; 0) (это имеет i = 1 место в примере 5.1). В других случаях (что особенно характерно для задач интерполяции) многочлены aj (t) можно выбрать доста- точно произвольно; их следует взять такими, чтобы можно было упростить дальнейшие вычисления. Наиболее просто решается задача вычисления о. н. к. 0 при диагональной матрице A —ZZ'. В этом случае [см. (5.25)] &= /=1........fe. (5.30) i=l / 1 = 1 Условием диагональности матрицы А является ортогональность векторов if. п S аДМаг(М = °. (5.31) £=1 Многочлены, удовлетворяющие условиям (5.31), называют орто- еональными многочленами Чебышева. Покажем, что при заданных г,..tn такие многочлены всегда можно по- строить. Без потери общности будем предполагать старший коэффициент аДД равным единице, т. е. at (0=1, <М0=^+с....Из условия (5.31) при j — 1, г е=2 имеем п п о«= 0.(7;)= У! ti+nc, i =г 1 г » 1 Т. е. с = —/. Таким образом, а2 = Выведем рекуррентную формулу, позволяющую вычислять следующий мно- гочлен по двум предыдущим — этим и доказывается существование всех много- членов a,(t). Предположим, что для некоторого т^2 многочлены ... .... a^if) уже построены. Рассмотрим произвольный многочлен фр) степени <т. Его можно однозначно выразить в виде линейной комбинации многочленов г в, (0, .... ат(^).-ф(О = У] asas (I). Действительно, из условия ортогональности S=1 (5.31) при /=1, .... т имеем У, Ф(0)<Ш) = «/ У, а* (М, /= I i=l т. е. эти равенства однозначно определяют коэффициенты сех.ат Отсюда, В частности, следует, что если ф(<)—многочлен степени <т—1, то (5.32) 189
Рассмотрим теперь многочлен степени т следующего вида: а (0 — (i+a) o-t (0 + Рат-1 У) (5.33) (старший коэффициент здесь равен I). Если j <т—1, то в силу (5.32) У a/№)a(4) = У, (4+ «)<>/(/<) <4 (<г) + 3 У a, W a-r-i (У = ° '=1 Г=1 < = 1 (так как степень многочлена (14-a) a.j (t) равна j < х—1), т. е. при любых по- стоянных а и р многочлен (5.33) ортогонален всем многочленам (/), at_2p). Выберем эти постоянные так, чтобы многочлен (5.33) был ортогонален также uT_t (t) и пт (/). Для этого должны выполняться следующие условия: Z <4-< = Z ^t_i((f)at(^+P £ —i Ci)=U, г cm I t = 1 i = I У at (^) а У 4-Дт (*;) + « У arft) = 0. : = ! i = l Отсюда «=- Z Ш)/ Z «ИУ, 3 = - S 'A-ittPrft)/S <5-34) t=1 / ( = 1 f=l I '=1 При таком выборе постоянных аир многочлен (5.33) ортогонален всем много- членам Qj (/)> • •-, <4(0 и, следовательно, является следующим многочленом «т+1 (0 системы Чебышева. Таким образом, приведен алгоритм построения системы ортогональных многочленов Чебышева. Первые два многочлена этой системы указаны выше; в частности, из (5.33) и (5.34) имеем общий внд третьего многочлена . = (5.35) \ s2 (.*>/ п где t = (4, .... tn), sfero=4 2 I Итак, если в схеме параболической регрессии (5.29) много- члены aj{t) являются ортогональными многочленами Чебышева, то о. и. к. р вычисляют по формулам (5.30), а соответствующее значение S (Р) = min S (0) таково: е п j J? а к . s(P)= Z U- Z М/&) == Z х? -2 2 0, Z (==1\ «! / Z=1 /«=1 i.= l л n ft + Z 0/ Z= Z - Z « <5-36) ! ~ ! (’ = I ( “ I / ! I где a/ = У aj(к), / = 1, .... k. i=i Отметим следующее важное обстоятельство. Как видно из фор- мулы (5.30), о. н. к. определяется только многочленом aj(t) и не зависит от параметра k схемы (5.29). Это позволяет упростить задачу построения интерполяционного многочлена более высокой 190
степени, если требуется повысить точность интерполяции. Так, предположим, что для заданного k построен интерполяционный k многочлен <р (f; Pi,..., Р*) = У, Р;а/(О, однако значение S (Pi,..., Р*) /= 1 [см. соотношение (5.36)] еще велико, что означает недостаточную точность приближения исследуемой функции многочленом степени fe — 1. Точность интерполяции можно повысить, приближая функ- fe+1 цию многочленом степени k вида <р((; Pi, ..., P*+i) = 2 two. /=1 т. е. добавляя следующий, (/г-|-1)-й многочлен системы Чебышева. При нахождении такого оптимального многочлена оценки коэф- фициентов Pi, ..., Р* остаются теми же Pi, ..., Р*, необходимо вычислить только pft+i по формуле (5.30). Далее имеем S(Pi, .... M = S(Pi______Pft)-4 + iPUi, ‘ (5.37) и если точность приближения, достигнутая с помощью много- члена k-й степени, недостаточна, то можно подбирать далее много- член (/г-|-1)-й степени и т. д. Пример 5.3. 3 «Основах химии» Д. И. Менделеев приводит следующие данные о количестве (х) азотнонатриевой солн NaNO3 которое можно раство- рить в 100 г воды в зависимости от температуры (Z): ti 0 4 10 15 21 29 36 51 68 X; 66,7 71,0 76,3 80,6 85,7 92,9 99,4 113,6 125,1 Построим по этим данным приближенную эмпирическую формулу вида хв=с04-С1б описывающую зависимость между рассматриваемыми величинами. Здесь имеет место линейная зависимость, поэтому это схема простой регрессии, рассмотренная в примере 5.1. Используя формулы (5.27), получаем: с0 = 67,5, с, =0,87. Таким образом, искомая приближенная формула имеет вид х=67,5 + 0,87Л (5.38) При этом сумма квадратов отклонений, вычисленная по формуле (5.38), равна 11,1. Установим, как повышается точность приближения, если в качестве интер- поляционного многочлена использовать квадратичную параболу. Запишем иско- мый многочлен в виде 'Р (б Р) = Mi (0 + (Мг (0 + ₽зй3 (0> где Я/(/)—многочлены Чебышева [здесь aj (/)=!, = T—t—26, много- член a3 (0 определен в (5.35)]. Результат (5.38) можно записать в виде « = 90,10! (f) + 0,87a2 (7); следовательно, ^ = 90,1; 6^=0,87. Таким образом, достаточно вычислить по формуле (5.30) р3. В данном случае а3 (/) = (<—26) (t—40)—451,1, поэтому значения a3 (/) в точках t; таковы: 588,9; 340,9; 28,9; —176,1; —356,1; —484.1 —491,1;—176,1; 724,9. Отсюда al = 2 a] (f,-)~ 1,6 10«, У] аз (it) Х[ 2,2 • 103 и, по формуле (5.30)’ р3~— Ю'3; поправка в (5.37) ej ~ 2,7. 191
Таким образом, учитывая многочлен второй степени, мы незначительно увеличиваем точность аппроксимации данных; в начестве удовлетворительной эмпирической зависимости можно принять формулу (5.38). § 5.3. Нормальная регрессия. Интервальное оценивание 1. Модель нормальной регрессии. До сих пор делались предположения только р первых и вторых моментах наблюдений [см. условия (5.1) и (5.2)]. Развитая при этих мини- мальных предположениях теория наименьших квадратов позво- ляет получать только точечные оценки для параметров ₽х,..., 0* и их линейных комбинаций. Чтобы получать более сильные утвер- ждения (например, оценивать вероятности заданных отклонений о. н. к. от истинных значений рассматриваемых параметров), не- обходимо сделать дополнительные предположения о виде распре- деления случайного вектора Х = (Хх, ..., Х„) или, что то же, вектора ошибок 8 = (еь ..., ел), определенного в (5.1). Чаще всего задачи .регрессионного анализа решают в предположении, что наблюдения подчиняются нормальному закону распределения; в этом случае к условиям (5.1) и (5.2) добавляют третье условие Л? (в) = (О, о2Е„). (5.39) Если выполнены условия (5.1) и (5.39) [условие (5.2) вытекает из (5.39)], то говорят о нормальной регрессии. Отметим, что условия (5.1) и (5.39) можно объединить и запи- сать в виде (X) = @^(Z,₽, о2Е„). (5.40) 2. Оценки максимального правдоподобия параметров нормаль- ной регрессии. Нормальная модель.(5.40) определяется (А-(-^-мер- ным параметром g = (pi, ..., 0*, о2), область возможных значений которого представляет собой евклидово полупространство 0 = ={д : — оо < 0/ < оо, j — 1, ..., k, а2 ;> 0}. Если х = (х1г хп) — наблюдавшаяся реализация вектора X, то функция правдоподо- бия для этой модели имеет вид где квадратичная форма S (х; 0) определена в (5.4). Вычислим оценки параметров g с помощью метода максималь- ного правдоподобия (см. § 2.4). Из (5.41) имеем, что при любом о2 > 0 максимизация L(x; д) по 0 эквивалентна минимизации по 0 квадратичной формы S (х; 0). Таким образом, для нормальной модели оценки наименьших квадратов коэффициентов регрессии 0Ь 0fe совпадают с оценками максимального правдоподобия этих параметров. Из теоремы 5.2 следует, что о. н. к. являются оптимальными в классе линейных оценок. Для схемы нормальной регрессии справедливо более силь- 192
ное утверждение: о. н. к. являются оптимальными в классе всех (не только линейных) несмещенных опенок рассматриваемых параметрических функций. Найдем оценку максимального правдоподобия б2 для остаточ- ной дисперсии о2. Подставив в (5.41) вместо 0 оценку 0 и про- логарифмировав, находим, что б2 —это то значение о2, которое минимизирует выражение S (0)/о2 + n In о2. Отсюда имеем б2 = S (0)/л. (5.42) Но, как было показано [см. (5.14)], в общем случае несмещенная оценка для о2 имеет вид S(0)/(n — fe), поэтому о. м. п. б2 оказы- вается смещенной и ее смещение E62-o2 = e(— б2’)-ст2 = /—= _ \ п 1 \ п J п убывает с ростом числа наблюдений п. Таким образом, оценка (5.42) является асимптотически несмещенной (что характерно для о. м. п.). 3. Основная теорема. Докажем следующую важную теорему теории нормальной регрессии, которая будет неоднократно исполь- зоваться в дальнейшем. Теорема 5.4. Случайные величины 0 и S (0), а также S (0) и Q = S(0)-S(0) независимы', при этом #s(0) = ®^(0, ст2А-1), ^s(S(0)/o2) = =X2(/i-fe), Jfe(Q/a2) = X2(A). (5.43) □ Введем нормированный вектор ошибок в* =8/ст: X (s*) == = Е„)); тогда равенство (5.1) принимает вид X = Z'0 + o»*. (5.44) а равенство (5.6) —следующий вид: fl ==0 + ctA-iZ8*. (5.45) Подставив вместо X его выражение (5.44) в (5.16), получим S (Р)/ств = 8*'В8*, (5.46) поскольку ZB = BZ'=0 [матрица В определена в (5.15)]. Наконец, из тождества (5.8) имеем следующее представление для Q: Q = S (0) — S(0) = (0 — 0)'А (0 — 0). (5.47) Независимость 0 и S(0) следует из представлений (5.45) и (5.46), легко устанавливаемого факта A-1ZB=0 и леммы 1.2. Далее, из представления (5.47) имеем, что случайная вели- чина Q зависит от выборки X лишь через 0; следовательно, в силу независимости 0 и S (0) случайные величины Q и S (0) также не- зависимы. Первая часть теоремы доказана. Докажем теперь утверждения (5.43) о распределениях рас- сматриваемых случайных величин. Так как 0 — линейная функция 193
нормального вектора [см. представление (5.45)], то закон распре- деления 0 также нормален. Первые и вторые моменты вектора 0 вычислены в п. 2 § 5.2. Закон распределения Q/a2 устанавливается на основании пред- ставления (5.47), факта нормальности вектора 0 и теоремы 1.9. Наконец, закон распределения S (р)/сг2 устанавливается на осно- вании представления (5.46) и леммы 1.4, поскольку tr В = tr Е„ — tr (Z'A-lZ) = n — tr (ZZ'A-1) = n — trEft = n — k. Следствие 1. Из первого соотношения в (5.43) имеем, что для любого / = 1, ..., k и 0/ не зависит от 3 (0). Поэтому из определения распределения Стьюдента (см. п. 4 § 1.5) и из теоремы 5.4 следует, что при любом g (5-49) Следствие 2. Из определения распределения Снедекора (см. п. 5 § 1.5) и теоремы 5.4 имеем, что при любом g X. (F = - 4. Доверительное оценивание параметров нормальной регрессии. Найдем доверительный интервал для коэффициента регрессии 0у. Из соотношения (5.48) следует, что статистика 0, имеет распре- деление ©<С(0_/, <т2аЛ). Следовательно, имеет место задача оцени- вания неизвестного среднего нормального закона с неизвестной дисперсией (так как о2 неизвестно) по наблюдению над случайной величиной 0/. На основании (5.49) стыодентово отношение яв- ляется центральной статистикой для оценивания 0/ (см. п 2 §2.6), поэтому у-доверительный интервал для 0; строится по схеме при- мера 2.30 и имеет вид (0>±f(1+,V2.„_ft|//'7^S(0)j. (5.51) Это симметричный интервал относительно точки 0/ длины n-k у п_-£ S (₽). Чтобы построить доверительный интервал для остаточной дис- персии о2, воспользуемся вторым из соотношений (5.43), из кото- рого следует, что 5 (0)/о2 — нужная центральная статистика. Искомый у-доверительный интервал строится здесь по схеме при- 194
мера 2.30 и имеет вид S(P)/X?i+W2, п-Хо2<$(РШ-тИ2. n_k. (5.52) Итак, можно построить доверительный интервал для каждого из коэффициентов регрессии ..., (V Если построить k таких интервалов с одним и тем же уровнем у, то среднее значение числа интервалов, накрывающих соответствующие значения ру, равно ky. Оценим вероятность одновременного накрытия построен- ными интервалами соответствующих параметров. Обозначим через Aj событие, состоящее в том, что интервал (5.51), в котором у заменено на у/, накрывает параметр Р;-, т. е. Рв(АД = У/, / = 1, ..., k. Тогда вероятность совместного осущест- вления событий Ai, ..., Ак можно записать так: Ps (Аг...Ай) = 1-Р6 (ЛхС-.-иЛ). Но £Р6(Л-)==£ (1-уД 1 = 1 /=| поэтому fe fe Р« (Aj... Ak) Ss 1 - 2 (1 - у,.) = 2 yj - л+ 1- (5.53) . i=। i=i Если выбрать все yj равными 1— (1 — y)/k при некотором у, то P,(At...Afe)^Y. (5.54) Формулы (5.53) и (5.54) позволяют оценить вероятность пра* вильного решения (одновременное накрытие доверительными интер- валами всех параметров), однако желательно иметь более точный результат, т. е. уметь строить (случайную) доверительную область 6У в евклидовом пространстве Rk, накрывающую неизвестную параметрическую точку P = (Pj, ..., р*) с вероятностью у. Такую область в данном случае можно построить, основываясь на резуль- тате (5.50). Действительно, если .ь.п-ъ есть у-квантиль распределения S(k, n — k), то из (5.47) и (5.50) следует, что при любом g V = = где (5.55) Gy(X = |р: (Р — Р)'А(р — Р) <^-^-S(p) (5.56) Тем самым построена искомая у-доверительная область для р. Это внутренность эллипсоида с центром в точке р, граница кото- рого задается уравнением (Р - р)' А (р - Р) = (X) s (p)FY,tt_k. (5.57) Пример 5.4 (простая регрессия, доверительное оценивание пара- метров). Найдем доверительный интервал уровня у для наклона р2 195
простой регрессии (см. пример 5.1). Из (5.51) и (5.27)— (5.28) следует, что это интервал п — ^(i+y)/2. у S(p)/[(rt—2) 02|j- Аналогично, из (5.55) — (5.57) и формул примера 5.1 имеем, что внутренность эллипса (Pi - Pi)2 + 2f (Pj - h) (Ра - Ра) +1 J il = i = i “ 2. л-s в плоскости переменных (Pi, р2) с вероятностью у содержит не- известную точку р. 5. Доверительная область для линейных комбинаций пара- метров Pi, ..., Р^. Пусть требуется оценить одновременно tn-zik линейных комбинаций t = (Zlt ..., (m): t = Тр, где Т — заданная матрица размером mxk и rangT = m. Тогда из теоремы 5.4 сле- дует, что о. н. к. t = Тр имеет распределение (t, o2D), где матрица D определена в (5.10). Отсюда по теореме 1.9 имеем «£в(0т/а2) =7? (т), где QT = Qt (X, t)=(t -1)' D-1 (t -1) (5.58) При этом QT как функция p не зависит от S (р). Следовательно, отношение Снедекора F в данном случае имеет вид Р___п _£т_ т S (Р) ’ и при этом (F) = S (т, п — k). Таким образом, как и в случае оценивания Р, получаем следующий у-доверительный эллипсоид для t: •GTv (X) ={t: (TP -1)' D-1 (TP -1) < S (p) Fv.m, . (5.59) При Г=Е* полученное решение сводится к (5.56). Отметим некоторые частные случаи общего решения (5.59). При т = 1 речь идет об оценивании одной линейной комбинации <г Х'Р= Х/Р/. В этом случае эллипсоид (5.59) вырождается в интер- /=i вал (*'₽ ± S (р) (гA-iX)]1/2). (5.60) Распределение Снедекора S (1, n — й) совпадает с распределением квадрата случайной величины, имеющей распределение Стыодента <8 (л — й), поэтому Fv 1, и_* = /(1 + v)/2> „и выражение (5.60) можно 496
записать в виде it ^(1+у)/2. n—k (5.61) Пусть матрица Т имеет следующую структуру: в каждой строке только один элемент отличен от нуля, при этом в r-й строке на месте jr стоит единица, г = 1, ..., т, ji<j2<. Тогда ТР = (₽/1, .... Р,m) = P(rn) и, следовательно, речь идет об одно- временном оценивании части координат параметрического вектора р. В этом случае матрица D [см. (5.10)] представляет собой.минор А_1(/1, .... /от) = А(т) матрицы А-1, получающийся вычеркиванием всех строк и столбцов с номерами, отличными от /ь jm, и из (5.59) получаем, что у-доверительный эллипсоид для парамет- ров р(т) имеет вид GTT (X) = {р (т): (р (т) - р (m))' А* (/и) (р (m) - р (т)) < < <^is(P)fv. -».»-*}• (5-62) Пример 5.5 (доверительный интервал для ординаты линии регрессии). Построим доверительный интервал для ординаты <р (t) — = ф((; P) = ₽i + |W линии регрессии в произвольной точке t в случае простой регрессии (см. пример 5.1). Используя обозна- п чение sa (t) — — У (tj — t)2, из формул примера 5.1 получаем, что i = i при Х = (1, 0 1'А-1Х = --Г1 п I (t) ) J Кроме того, <р(/; Р) = k'P = X + ((— f) Отсюда и из (5.61) окон- чательно имеем, что искомый у-доверительный интервал имеет вид (^ + (( ~ 0 Рг ± ((1+у)/2. У п S (Р) [ 1 + ]) • 6. Совместные доверительные интервалы. В каждом конкрет- ном случае построение эллипсоидов в (5.56) и (5.59) — трудная вычислительная задача. Поэтому предпочтительнее иметь [более точный, чем (5.54)] результат, позволяющий строить доверитель- вые интервалы для отдельных компонент оцениваемого вектора, с заданной вероятностью одновременно накрывающие соответст- вующие координаты, или, другими словами, систему совместных доверительных интервалов. Решение этой задачи нетрудно полу- чить из уже известных результатов. Для этого понадобится сле- дующее утверждение из теории квадратичных форм. Теорема 5.5. Пусть В — положительно определенная матрица и t, 1 — вектор-столбцы. Тогда t'Bt = max ЛцХ . (5.63) A. D 197
□ Представим В в виде В = НН'. Это всегда можно сделать, выбрав Н = UA1/a, где U — ортогональная матрица, приводящая В к диагональному виду Л. Положим теперь X = Hzt, Y = Н~*Х; тогда X'Y = t'X, X'X = t'Bt, Y'Y = X'B-1X. Но, по неравенству Коши — Буняковского, (X'Y)2-С (Х'Х) (Y'Y), причем знак равен- ства имеет место только когда векторы X и Y линейно зависимы. Отсюда и из предыдущих соотношений имеем (X’t)2sg(t'Bt) (Х'В-Ч), или t'Bt 5s (X't)2/(X'B-1X). Отсюда следует (5.63). Положим теперь в соотношении (5.63) t = 0 — 0, В = А; тогда соотношения (5.55) — (5.57) можно записать в виде у = Ре (max < а. (X)] = Рв (| X' (р - ₽) | < и. (X; X), VX), \ х. У ХА гХ / где ну(Х; Х) = я¥ (Ю/Х'А^Х. (5.64) Таким образом, для любого 0 выполняется соотношение Ре (Х'0 — hy (X; X) < Х'0 < Х'0-|-Uy (X; X), VX) = y. (5.65) Соотношения (5.64) — (5.65) позволяют решить задачу о построе- нии системы совместных доверительных интервалов для всех ли- нейных функций Х'р. Если требуется построить систему совмест- ных доверительных интервалов для конечного числа заданных линейных комбинаций XJ0, ..., Х™0, то из (5.65) имеем следую- щий результат: Ре(Х;р- Uy(X; XJ < Х;р < Х;р + hy (X; Хг), г= 1, ..., m)Ssy. (5.66) Рассмотрим несколько примеров использования соотношения (5.66). Пример 5.6 (совместные доверительные интервалы для коэффи- циентов регрессии). Пусть и Хг = (0...010...0), где 1 стоит на месте jr, г=1.....т. Тогда Х'|} = , X'A"xXr = а'г‘г и на основании (5.66) ±aY (X)^а1г'г), г=1, .... т} — система совместных доверительных интервалов уровня 5s у для коорди- нат р71, ..., Р;т. В частности, при m = k получаем систему сов- местных доверительных интервалов для всех координат 0Ъ ..., рА. Пример 5.7 (оценивание средних). Положим X. = z(<), i=l, ... ..., п. Тогда с помощью формулы (5.66) можно найти систему совместных доверительных интервалов уровня 5= у для средних значений всех наблюдений Xt, Хп. § 5.4. Общая линейная гипотеза нормальной регрессии 1. Понятие линейной гипотезы. При приме- нении схемы нормальной регрессии на практике часто возникает необходимость проверить те или иные гипотезы о значениях ко- эффициентов pi, .... В общем виде задача формулируется 198
следующим образом: по наблюдениям Х = (Х2, Хп) требуется проверить гипотезу Н^, согласно которой коэффициенты регрес- сии Pi, Р* удовлетворяют некоторым заданным ограничениям, локализующим их допустимые значения в некотором подмноже- стве с: Rb. Если эти ограничения линейные, то говорят о ли- нейной гипотезе. Для линейной гипотезы подмножество яв- ляется линейным ^подпространством вида ^0 = {Р‘. ТР = М, (5.67) где Т — заданная матрица коэффициентов ограничений, t0 — вектор значений соответствующих комбинаций (предполагается, что си- стема Тр —10 совместна). В дальнейшем будем считать, что мат- рица Т имеет размер mxk (m^k) и rangT = m. Таким образом, в общем случае линейная гипотеза записывается в виде : р е €= <£®й. В любом случае это сложная гипотеза, так как оставляет произвольным значение параметра ст2: в терминах общего пара- метра модели 6 = (р, ст2) гипотеза /70 имеет вид Но : 6 <= 0О = {6 : Р е о2>0}. 2. F-критерий проверки линейной гипотезы. Чтобы построить критерий проверки гипотезы Но> воспользуемся уже известным решением задачи доверительного оценивания (см. п. 4 — 5, § 5.3) и принципом соответствия между теорией проверки гипотез и по- строением доверительных областей (см. п. 4 § 4.4). Напомним общую схему этого соответствия. Пусть имеется система у-доверительных областей {Gv(x), x s для некоторой параметрической функции g = g(O). Тогда подмножество выборочного пространства, задаваемое условием •2^0. i-v = {x : go G-у (х)}, определяет область принятия гипотезы Но: g = go с уровнем значимости а=1—у. В данном случае согласно (5.58) — (5.59) у-доверительная об- ласть для t = Тр имеет вид Gtv (X) = (t: Qt (X, t)/S (P (X))< i Fy. m. , поэтому область принятия гипотезы На: t = t0 с уровнем значи- мости а=1 — у задается условием 2-"оа = {х : <2т (х, t„)/S (0 (х)) < . Окончательно можно сформулировать следующий результат: критерий уровня значимости а для проверки гипотезы Но: р е где Ж определено в (5.67), задается критической областыо ( n — k QT (х, t0) ) — {x : _ rf . .. El-а, m, n-kj • (5.68) I m S (0 (x)) j Статистикой этого критерия является величина _ n — k QT(X, t0) n—k F =-------UT =---------<TP “ to)' <TP “ M/S (5-69> m о (p) m 199
большие значения которой в соответствии с (5.68) являются кри- тическими для проверяемой гипотезы. Построенный критерий называют F-критерием. Критерий (5.68) можно получить, исходя из других соображений. Рас- смотрим о. н. к. f=T0 для t и составим вектор отклонений этих оценок от проверяемых значений Т$—t0. Если гипотеза Но не верна, то весьма вероятно, что эти отклонения велики. Будем измерять степень отклонения с помощью величины QT (X, to). Тогда, поскольку математическое ожидание квадратичной формы можно преобразовать следующим образом: E(Y'BY) (У|У/) = 2*г/о1/+а26<7Е Е /) = i, / i. I i. i = tr (BX)-(-E(Y') BE(Y) [здесь S = D(Y)], учитывая (5.10), имеем ~ EQT (X, t0) =J tr (D-iD) + 1 E (ТВ -10)' D~iE (T0-10) = = O2 + L (TP - to)' D1 (TP - to) > o«; Знак равенства имеет место только при Tp = t0, т. е. когда верна нулевая гипотеза. С другой стороны, S (|)/(п—А) —несмещенная оценка для оа всегда, т. е. безотносительно к истинному значению р. Поэтому у отношения Р = QT (X, t0) / s (&) =----------/ ----г числитель в среднем больше знаменателя, когда гипотеза т I n — k Нй не верна, и поэтому большие значения F естественно рассматривать как свидетельствующие против гипотезы Н9. Из этих рассуждений также следует, что статистику F можно считать отношением двух независимых и несмещен- ных (при гипотезе Но) оценок для остаточной дисперсии о2. С такой интер- претацией и связан термин дисперсионное отношение, используемый иногда для статистики F (см. п. 5 1.5). Для вычисления статистики F можно использовать также фор- мулу и k ST S(jJ) F = (5.70) щ S(|) которая следует из (5.23). Таким образом, F непосредственно можно выразить через условный S (т. е. при условии Т0 = t0) и абсолютный S ($) минимумы исходной квадратичной формы S (0). В конкретных задачах условный минимум ST зачастую находят непосредственно, поэтому представление (5.70) более удобно для практических расчетов, чем (5.69). Пример 5.8 (простая регрессия, гипотеза о наклоне линии регрессии). Требуется проверить гипотезу Яо:р2 = 0м, фиксирую- щую значение наклона линии регрессии. В данном случае пара- п метр т — \ и ST— min У (X; — ₽2о<; — Pi)2. Этот минимум дости- гается при Pi = X —Вад/, и его значение, учитывая соотношения 200
(5.27) —(5.28), можно записать в виде 5т=5(Д) + (02 -02О)2 Д (ti-W- По формуле (5.70) имеем, что в данном случае статистика F = (п - 2) (02 - 02О)2 2 (t< - t)2/S (р), / = I а критическая граница в (5.68) выбирается равной Fi-a, i_ л_2. Так как F\_a 1 и_2 = Г а , где tp п — р-квантиль распределения I —-у. л —5 Стыодента S (п) [см. замечание к формуле (5.60)], то F-критерий в данном случае сводится к критерию, критическая область ко- торого определяется условием I Ps — Рго I G-a/s, л-2 (п-2)2 («(-О2 г = 1 что соответствует результату примера 5.4. § 5.5. Применение теории линейной регрессии Развитая в предыдущем параграфе теория проверки гипотез о коэффициентах регрессии имеет широкое при- менение. К схеме регрессии могут быть сведены многие гипотезы о математических ожиданиях нормальных совокупностей, которые иногда имеют форму, отличную от рассмотренной выше. Некото- рые из таких задач рассматриваются в этом параграфе. 1. Гипотеза о параллельности линий регрессии. Предположим, что имеется г^=2 групп независимых наблюдений Х(Д Х^, 1=1, .... г (п,— объем i-й группы), распределенных нормально с общей дисперсией а2 и средними ЕХ(/> = ц!°=01/) + /=1, , пс, «=1, Г. (5.71) Другими словами, имеется г различных схем простой регрессии и проверяемая гипотеза Яо состоит в том, что все линии регрес- сии (5.71) имеют один и тот же наклон, т. е. : ₽2,)= -- = ₽зИ- Такая гипотеза может встретиться, например, при проверке равен- ства нескольких скоростей роста, при сравнении нескольких спо- собов обработки и т. д. Покажем, что рассматриваемый случай можно свести к схеме общей линейной гипотезы. Положим Х = (Хь ..., ХП1, ХЯ1 + 1, ... .... ХЯ)=(Х1(1), .... Х^ Х*2)......X"), п^П1 + .:. + пг, 0 = = (Pi, ...» Ргл) = (Р*1*, Ps , 0?’.02°) и введем матрицу Z раз- 201
мером 2гхп, составленную из вектор-столбцов z(n вида 1 . .. 1 0 . .. 0 ! Д' • . Г11 0 . ••0 0 0 . .. 0 1 . .. i Z=|z(1) ...z(niMn‘+1)... z(n4 = 0 . .. 0 .. tt3‘ 0 1 ... 1 Ф - В этих обозначениях вектор X распределен по закону ©^(Z'P, о2Еп). Таким образом, имеем частный случай (при ука- занном выборе z('}) схемы нормальной регрессии. Гипотезу можно записать в виде — ₽s = 0, р2г — 02 = 0, т. е. в данном случае Но задается (г—1)-м линейно независимым со- отношением между коэффициентами регрессии и, следовательно, для ее проверки можно применить F-критерий. Для этого надо найти абсолютный Si = S(0) и условный St (т. е. при гипотезе Но) минимумы по 0 квадратичной формы S (₽) = 2 (*» -z<'’'₽)2 = (Xj£) - • (5.72) i —1 I, i Нахождение Sx сводится здесь к минимизации выражения S(₽)=2 ( = 1 ni где 5<г»=2 0Ф~ « = 1..г, /=1 т. е. достаточно найти минимум каждой квадратичной формы S(0 отдельно. В других обозначениях эта задача решена в примере 5.1, поэтому из (5.27) и (5.28) имеем, что минимум S^ достига- ется при = (ф, Ф где nt 2 (х/>-/<”) ₽V’=—----а----------------, = Х^> - (5.73) 2 (ф-ду Г = 1 / п. лг (здесь Х<п = ~ 2 X/1’, = —2^/£) н при этом предполагается, \ 1,=1 1 г=1 что для любого / = 1, .... г не все числа ф, ..., одинаковы^. Таким образом, в данном случае sx = 2 2 1(хУ’-х^)-^ЧФ-^<. (5.74) i = I i = 1 202
Введем следующие обозначения: ni ni si (t) = s (*/> - st (X) = 2 - W /=i /=1 ni Si(X, t) = X -/('’). (5.75) /=i [с точностью до множителей — это выборочные дисперсии и кова- риация множеств Х^) н .... ^)]. Тогда из (5.73) и (5.74) следует, что 3] можно записать в виде S1 = Si(X) + ...+^(X)-si(X, t)/sr(t) —...-s;(X, t)/st (t). (5.76) Вычислим St- Для этого минимизируем сумму У (Х*г|—р Непосредственным дифференцированием можно проверить, что при любом фиксировании минимум достигается при р)1’ = b\l\ где ^> = Хи)-₽гД*\ i = l, ..., г, и сумма квадратов при этом равна У, [(ХУ1 — — pa(£j° — Пб)]2, Минимум последнего выражения I, i достигается при р2 = Ьг, где У (хД-Х'Д (4°-/‘Д h = = S1|X’ t)+-+sr(X, t) 2 SG/0-^'’)8 s?(t)+...+^(t) i. t ’ [cm. (5.75)], и он равен Q __ „2 /V\ I I c2 zy\ (Si (X, t) 4~ • •-+Sr (X, t))2 /С 771 ОТ — 81 (A)-f-...-j-sr(A)----s] (t)4-.-. +s; (t)-• P-7/) В данном случае параметры k и т в (5.70) равны соответственно 2г и г—1, поэтому статистика F в силу соотношений (5.76) и (5.77) равна . / ' \! ' \ / г \2 I 2 s= (t) I 2 (X, t)^ (t) - S s< (X, t) c n — 2r \./=i /V=1 / './=1 / p ~ Г-I I r \ / Г Г "1 ' ( S4(t) j 2 s|(X)- 5 s?(X, t)/sf (t) \i = i / \t = i i = i I При гипотезе Ho эта статистика имеет распределение Снедекора S (г — 1, п — 2г); следовательно, критическая область уровня значи- мости а для гипотезы Яо определяется условием FStFi-a, ,-1, л~2г. 2. Критерий однородности. Пусть ХД, ..., Хл? — независимые наблюдения над совокупностью ®^°(ц;, о2), 1= 1, Рассмот- рим гипотезу однородности Но: щ =.. . = pft, т. е. при гипотезе До все наблюдения производятся над одной и той же нормальной совокупностью ®^Г(р, о2) с некоторыми (неизвестными) парамет- рами. Такая гипотеза возникает, например, при сравнении не- скольких различных способов обработки или процедур, условий, размещений и т. п. с целью выяснения, влияют ли различия 203 -„tr-
между ними на интересующий исследователя исход. Вообще по- добная схема имеет место каждый раз, когда интересуются влия- нием на исход эксперимента какого-то одного фактора Если число различных значений этого фактора (число уровней, на ко- торых может находиться фактор) равно k, то — число наблюде- ний, соответствующих t-му уровню фактора, а Х{1) при / = 1, ... ..., П( —сами наблюдения (результаты эксперимента). В этом слу- чае говорят об одинарной классификации исходов. Сведем рассматриваемую схему к схеме регрессии. Для этого положим Х«=(Хъ .... Хп„ ХП1+1, ..Х„)-=(Х)П,..., Х'п'‘, Х)а|,... •••> Xrlfy п = «!-}-•••+ пк> 1 ... 1 0...0 ... о... о О ... О 1 ... 1 ... о ... о Z = | z(1)... г1я‘’2(Л1+1>... z(n> | = О...........О ... 1 ... 1 где в ;-й строке матрицы Z на местах ГС1 + .-- + «/-1+1, ... ..., Пт +••• + «/ стоят единицы, а на остальных местах —нули, / = 1, .... k (по = 0). Тогда Хь .... Хп независимы и X (Х;) = = (zl'*’(Li, os), 1=1, .... п (здесь р.= (рь ..., pfe)). Таким обра- зом, имеем частный случай схемы регрессии, для которой требу- ется проверить гипотезу Но: р2 — рт = 0, ..., — pi = 0 (в данном случае Но задается (/г —1)-м линейно независимым соотношением между коэффициентами регрессии). Следовательно, можно приме- нить теорию F-критерия. Для этого вычислим сначала St и Si, т. е. минимальные значения квадратичной формы S = У, (X/Z> — Иг)* с i при гипотезе Но и без ограничений на параметры р. соответст- венно. Так как п. S = У(х<°—х + Уп,(Х(‘)-pj», Х(О =12 i, ! • i — l то при отсутствии ограничений на рт, ..., рА минимум достига- ется при p,i = X<‘\ 1 = 1, ..., k, и равен и nt 51=1](Х5О-Х(‘)У = 2 st = £ (XH-X^)S. (5.78) i, i i—l /=1 Далее имеем St = min У (X)*’ — p)a, но ^(X’1' —p)2 = i. i l". t = 2(x'()— X)’ + n(X — p)s, X = -^2X/0, поэтому l. f ' k ST = 2 (X/1 - X)8 = St + S (X[,) - X)a (5.79) i, f i = l _ и минимум достигается при ц = А'. 204
Таким образом, в данном случае к _ _ 5 М*"’-*)* n — k |=1________ и при гипотезе Н() эта статистика распределена по закону Снеде- кора S(k — 1, n — k). Отсюда следует, что критическая область уровня значимости а для гипотезы Но определяется условием F "5^ Fi-at k-1, n-k- Отметим, что соотношение (5.79) можно интерпретировать как разложение полной суммы квадратов отклонений наблюдений от общего среднего («полной изменчивости») на сумму квадратов от- клонений каждой величины от соответствующего группового сред- него значения («изменчивость внутри групп») и сумму 'квадратов отклонений групповых средних от общего среднего («изменчивость между группами»). При этом так как при гипотезе Н» EST=E2W-X)2 = (n- 1) о2, С / ft ni к ESX = j] Е 2 (х)г> - X^f = 2 (п,- - 1) o’ = (п - k) о2, £ = 1 / = ! ! = 1 к Е 2 nt (Х& - ^)г = EST - ESi = (k - 1) ст2, x=i то каждая из величин Q« -Д-Г2(хр-Я)’. <5,- —»)s. — пРинУлеВ0Й ги- потезе определяет несмещенную оценку для дисперсии о2 и кри- терий F можно считать критерием совместности независимых оце- нок Qj и Q2 (статистику F можно записать в виде F — Qt/Qt). Такое разложение полной изменчивости исходных данных и его интерпретация характерны для дисперсионногд анализа — раздела математической статистики, объединяющего совокупность стати- стических приемов, широко применяемых в самых разнообразных экспериментах, в которых наблюдения тем или иным способом классифицируются (разбиваются на группы) в соответствии со значениями некоторых факторов. 3. Двойная классификация. Рассмотренный в предыдущем пункте случай является простейшей схемой дисперсионного ана- лиза (один фактор), в которой решение получают с помощью ме- тодов регрессионного анализа. Рассмотрим применение регресси- онного анализа еще к одной имеющей большое практическое значение схеме дисперсионного анализа, когда число факторов, влияющих на исход эксперимента, равно двум. Предположим, что исход эксперимента зависит от значений двух 205
факторов 5? и С, причем фактор R может находиться на г уров- нях Ri, .... Rr, а фактор С — на s уровнях Съ ..., Cs. Пусть, далее, при каждой возможной комбинации уровней обоих факто- ров производится ровно одно наблюдение. Обозначим через Xi} (i = 1, ..., г; / = 1, ..., s) результат наблюдения, соответствую- щего случаю, когда фактор R находится на уровне R-, а фак- тор С —на уровне Cj. Предполагаем, что наблюдения Хц незави- симы и распределены нормально е одинаковыми дисперсиями о2 и средними значениями EX,y = ^/ = p + ai + P7', где (5.80) £ а,-=2 Р/ = 0. (5.81) £=1 /=1 Условия (5.80) и (5.81) означают, что оба фактора действуют не- зависимо (в этом случае говорят, что они аддитивны). Действи- тельно, если обозначать через а' и р' действия факторов R и С соответственно, то аддитивность означает, что &/=<Xf + P/. Если положить теперь р = 5'-]-Р', а; = а(' — а' и Ру = Р/ —р' (черта сверху означает среднее арифметическое), то получим соотноше- ния (5.80) — (5.81). Такую схему удобно представлять в виде прямоугольной таб- лицы из г строк, соответствующих уровням /?!, ..., Rr, и s столб- цов, соответствующих уровням Ci, ..., Cs. Случайную величину Xij называют реагирующей', она описывает реакцию, вызываемую комбинацией (Rit Су) факторов R и С. Из (5.80) получаем, что ЕХгу для любых i и / оказывается при условии (5.81) линейной функцией от r-f-s— 1 неизвестных коэффициентов р, аь Ру. Таким образом, здесь также имеем част- ный случай схемы линейной регрессии и, следовательно, можно применить развитую выше теорию. Как известно, все положения теории нормальной регрессии основываются на анализе квадратичной формы <5-82) В данном случае удобно предварительно преобразовать эту форму S следующим образом. Обозначим через Х„ = — i. i /=1 г Х./ = ~ 2 Kip Тогда, учитывая (5.80), имеем S = S (4 — р — Ру)2 = S [(Ху - Xi. - X., 4- Х„) + + (£ - Х„ - оц) + (Х.у - Х„ - Ру) -ИХ., - ц)]2 = = S (Ху - - Х.у + X..)2 + s 2 (X,-. - X.. - ctf -f- + 'г S (Х.у -X.. - py)2 4-rs (X„ - p)2, (5.83) 206
так как все попарные произведения после суммирования исче- зают. Оценки наименьших квадратов для коэффициентов регрессии — это значения параметров, которые обращают квадратичную форму (5.82) в минимум, поэтому из разложения (5.83) следует, что в данном случае Р = Х.„ &i = Xt. — X.„ ^ = Х./-Х... (5.84) Из (5.83) и (5.84) также имеем, что минимальное значение формы S равно S1 = 5 (Х!7 - U)8 = 2 (*у - Х{. - X.j + Х..У (5.85) i } i. i г Найдем дисперсии полученных оценок. Так как Х„= — Х{.= * z = i 1 V Y = т 2 х-1' то ' = 1 х‘- - 7 2 х‘-' ~ ‘ 2 *•" z=i 1=1 ’j- Но Xit, /=1, ..., г, независимы и DX;_ = a2/s; аналогично, Xj, t = 1....s, независимы и DX_, = о2/г; следовательно, Da(.=£zila2, Dp;=^a2, Dp=la2. (5.86) В соответствии с общей теорией (см. п. 4 § 5.3) отсюда нахо- дим, что у-довер и тельными интервалами для параметров р, az и 0; являются соответственно [в данном случае параметр п — k в (5.51) равен rs —(г-Н—1) = (г—l)(s—1)] (Н — ^l+T)/2, КSi/[rs (г — l)(s — 1)])» (“> — ^(l+y)/2, (z-l) Ii-1) KSi/[rs (s— 1)]), ^(l+v)/2. (r- 1)(J-1» V Si/[rs (r— 1)]), где p, a;, 07 и Si определены в (5.84) и (5.85). Отметим также, что Si/(r—1)(s—1) — несмещенная оценка аг. Рассмотрим теперь задачу проверки наиболее интересных в исследуемой ситуации гипотез. Пусть требуется проверить ги- потезу :«! = ... = «, = 0. (5.87) Другими словами, гипотеза Н<}' означает, что фактор не вли- яет на исход испытаний. Так, например, главным интересующим фактором может быть фактор С, соответствующий, например, раз- личным способам обработки, в то время как R соответствует 207
классификации по месту, где производятся наблюдения. В этом случае гипотеза Н'о' соответствует предположению о том, что эта вспомогательная классификация не влияет на результаты экспе- римента и, следовательно, может не приниматься во внимание. Следуя общей теории F-критерия (см. § 5.4), вычислим сна- чала St —минимальное значение квадратичной формы S в (5.82) при гипотезе HJ'. Из (5.83) и (5.85) имеем St = S1 + s^ (Х;.-Х..)% Г = 1 поэтому статистика F [см. (5.70)] имеет в данном случае следую- щий вид (при m — r— 1): F = F(X) = s(s-l)£ (Х;.-Х..?1 £(Xii-Xi-X.j+X..r. (5.88) i= I I i. i При гипотезе H'd' статистика (5.88) имеет распределение Снеде- кора S(r— 1, (г — 1) (s — 1)), поэтому критическая область уровня значимости а для На“ имеет вид ^Td= {х : F (х) SsF^, r-i. r-i) (5.89) Аналогично строится критерий проверки гипотезы Я'о” = О (5.90) о несущественности влияния на исходы испытаний второго фак- тора С. Здесь критическая область уровня значимости а для Яо ’ имеет вид Наконец, критическая область уровня значимости а для гипо- тезы Я»1’: «1 = • • • = «'= ₽! = • • • = ₽s = 0 о независимости резуль- татов испытаний от влияния обоих факторов имеет вид Найдем, наконец, доверительные области для различных групп параметров схемы (5.80). Пусть требуется построить у-довери- тельную область Ry1 для эффектов ои, .... первого фактора. В соответствии с общим принципом, чтобы построить надо рассмотреть соответствующую гипотезу Я0:а1 = а?, .... аг = а? 208
I a* = 0j. Критическую область уровня значимости 1— у для 4 = 1 I нее можно получить из (5.88)—(5.89), заменяя на xi}- — а’; она имеет вид Е ~ ~а<)2 Fv. r-i, (г-d (,-1) 2 (х‘7 - Xi- “ Х->+ Х'^' i = 1 i. i Отсюда следует вывод, что /?^ = j(ai, аг): У а,= 0 и У (аг - (X,. — Х..))2< V i = I i = I < Fv, г_г, tz_n (i_t) 7^) 2 (Xv - хг. - x.}+X ,.)4. <. i J Здесь неравенство определяет внутренность шара в пространстве параметров (аь ..., аг) с центром (Хь — X.., плоскости £аг = 0. Таким образом, в дан- ном случае доверительная область Ry" состоит из внутренности гиперсферы, по- лучающейся в пересечении r-мерной сфе- ры с гиперплоскостью £аг = 0. Так, если г = 2, то доверительная область — отрезок биссектрисы 02 = — «ь являющийся диа- метром некоторой окружности с центром на этой биссектрисе (рис. 5.2). Аналогично строится доверительная об- ласть для эффектов pj, ..., pj второго фактора. В заключение дадим интерпретацию рассмотренной схемы, характерную для дисперсионного анализа. Положим в разложе- нии (5.83) все и р/ равными нулю, а р = Х„. В результате получаем соотношение У (Хо — X.. )2 = s У (Х;, —Х..)24- _ _ _ г-1' _ __ ‘ + r.S(X.;—X-)2 + У\(Ху — Xi. — X, 4~Х„)2, которое можно интер- » . ! претировать как разложение полной изменчивости So = ^j(X,; — _ i. i — X..)2 на три компоненты: S.0=s 2 (Х{. - X..)2. So. =г 2 (X.f - X „)2, ..., Xr. — Х„) в гипер- Рис. 5.2 S„=S1 = 2 (Хгу-Хг.-Х.,- + Х.)2. (5.92) с / Компонента S.o описывает изменчивость, обусловленную первым фактором R, компонента So.— вторым фактором С. Компонента же S.. есть сумма квадратов величин с нулевыми средними: Е (Ху — Х(. — Х.уX..) = р а.,ру — (р. 4-а;) — (р, Ру) р, = О, 209
поэтому она не может быть связана с факторами R и С. (Напом- ним, что величина Q = S../(r — 1)(s — 1) определяет несмещенную оценку дисперсии а1 2.) Поэтому S.. часто называют «ошибкой», подчеркивая, что она связана со случайностью результатов наблю- дений, а не с каким-либо расхождением в средних значениях наблюдений Вычислим ES.o и ESo.. Из (5.84) и (5.86) имеем Е(^.-^.)2 = Оаг + (Еаг)2 = ^ст2 + а,2. Отсюда и из (5.92) следует, что ES.0 = (г — 1) + « “Ь (5.93) ( = । Аналогично находим ES0. = (s-l)o2 + r £ ₽?. (5.94) > = i Из (5.93) имеем, что при гипотезе (5.87) величина Qi = S.o/(r — 1) может служить несмещенной оценкой для о2. Аналогично, из (5.94) заключаем, что Q2 = So./(s — 1) — несмещенная оценка для ст2, когда справедлива гипотеза (5.90). Теперь /•'-критерий (5.89) для гипотезы (5.87) можно интерпре- тировать как критерий совместности двух независимых оценок Qi и Q для о2 [статистика (5.88) в этих обозначениях равна отноше- нию Qi/QJ- Аналогично можно интерпретировать и критерий (5.91) для гипотезы (5.90) [статистикой этого критерия является отно- шение Qa/Q]- Обычно составляющие этой двухфакторной модели объединяют в таблицу дисперсионного анализа (табл. 5.1). Таблица 5.1 Источник дисперсии Степень свободы Сумма квадратов Среднее суммы квадратов Отношение Снедекора F Строки г—1 S.Q Qi = S.o/(r- 1). F .t=Qi/Q Столбцы S— 1 So. Qi — So-/(s— 1) Fa- = Qa/Q Ошибка (г — 1) (s— 1J S.. ?=S../[(r—1) (s—1)] Первое отношение Снедекора F.o служит для проверки гипо- тезы о том, что все а; равны нулю, второе—для проверки гипо- тезы о равенстве нулю всех (3/. § 5.6 Элементы теории статистической регрессии и корреляции 1. Задачи статистического прогноза. Предположим, что слу- чайные величины Y и Х = (Хх......Хр) связаны некоторой стати- стической зависимостью, которую в общем случае можно выра- 210
зить их совместной функцией распределения Fxy(xt, хр, у). Пусть, далее, случайная величина X доступна наблюдению, в то время как значение Y непосредственно измерить невозможно. Тогда возникает задача предсказания (прогноза, оценки) величины Y на основании информации, доставляемой измерением величин Х1( Хр, которые в этом случае называются предсказывающими переменными. Функция от предсказывающих переменных ф(Х), которую используют в качестве оценки для Y, называют предик- тором величины Y по X. Задачей разработки методов построения оптимальных в том или ином смысле предикторов занимается теория статистической регрессии. Прогноз необходим во многих практических ситуациях. При- мерами могут быть прогнозирование погоды по результатам соот- ветствующих атмосферных измерений, селекционирование новых видов растений и животных, определение возможностей индиви- дуумов в определенных областях с помощью соответствующей системы контрольных тестов и т. д. Во всех этих случаях речь идет о величинах, относящихся к будущему, недоступных наблю- дению в данный момент, которые надо оценивать (прогнозировать) с помощью доступных измерению сопутствующих величин. 2. Оптимальный предиктор и его свойства. Научно обоснован- ный прогноз использует наличие статистической связи между пере менными У и X. (Если Хи/ независимы, то предсказать У по X нельзя.) Предположим сначала, что совместное распределение X (X, У) известно. Тогда можно определить условное распределе- ние =5?(У!Х = х). Так, если исходное распределение абсолютно непрерывно и /х у (х, у) — его плотность, то соответствующая услов- ная плотность равна fr|x (У|х) = /Ху (х, у) / f /Ху(х, i)dt. / —оо Для дискретных распределений интеграл в последней формуле заменяют соответствующей суммой. Это условное распределение имеет среднее ’ М (х) = Е(У|Х=х)/ (5.95) которое зависит от х и называется Ьункцией регрессии У на Хь Хр. Например, для абсолютно непрерывного распределе- ния М (х) = J yfy । х (у | х) dy (везде предполагается, что все соот- ветствующие моменты существуют). Пусть (X) — произвольный предиктор У по X. Назовем сред- неквадратической ошибкой этого предиктора величину Е[У — ф(Х)]2. Предиктор ф* (X) называют оптимальным (в среднеквадратическом смысле), если ЛеЕ[У-ф*(X)]2 = inf Е [У-ф(X)]2. (5.96) ф Ответ на вопрос о существовании и виде оптимального предик- тора дает следующее утверждение. 211
Теорема 5.6. Оптимальный предиктор <р* (X) существует и имеет вид ф* (X) = М (X). □ По определению условного математического ожидания, Е [(У - М (X)) (М (X) - <р (X))] = Е {Е [(У - М (X)) (М (X) - -ф (X)) IX]} = Е \(М (X) -ф (X)) Е (У—М (X) IX)} = О, поэтому Е [У - ф (X)]2 = Е [(У - М (X)) + (М (X) - ф (X))]2 = = Е [У - М (Х)]2+ Е [Л/ (X) - ф (X)]2 S& Е [У - М (X)]2. Знак равенства здесь имеет место при у — М-, следовательно, оптимальный предиктор есть определенная равенством (5.95) функ- ция регрессии У на X. Заметим, что минимальную ошибку предсказания \ в (5.96) можно записать в виде Д = Е {Е [(У - М (X))2 | X]} = ED (У | X) S стЬ, (5.97) т. е. она представляет собой среднее значение условной диспер- сии У при данном X. Например, для абсолютно непрерывного распределения условная дисперсия D (У | X =х) = Е [(У - М (X))2 | X = х] = 5 (у - М (х))2 fY, х {у | х) dp. Оптимальный предиктор М (X) обладает следующим важным свойством: он имеет максимальную корреляцию с У среди всех предикторов. Для доказательства этого прежде всего заметим, что для произвольного предиктора ф==ф(Х) cov (ф, У) = Е [(ф - Еф) (У — ЕУ)] = Е {(ф — Еф) Е (У — ЕУ [X)} = = Е[(ф — Еф) (М — ЕМ)] = cov (ф, М). В дальнейшем используются обозначения р(£1( |2) = korr(|i, gs), При ф=Л1 из предыдущего равенства получаем cov (М, У)= = gmSsO. Отсюда р (М, У) — ам/(омау) = aM/oY- Используя этот факт и свойства коэффициента корреляции, имеем cov2 (<р, У) cov2 (ос, /И) al. р2(ф, У)° -Л - = X- ^-р2(ф. М)р2(М, У)^рчм, У), причем знак равенства имеет место только если ф —линейная функция М. Таким образом, р(Л1, У)эНр(Ф> У)) для любой ф. Квадрат максимального значения коэффициента корреляции р2(Л4, У} = 0м)о\ s обозначают qyx и называют корреляционным отношением. По опре- делению, 0^т]тх=^1, при этом Цух = 1 тогда и только тогда, когда У = Л1(Х), т. е. когда У функционально связано с X. Выразим т]ух через ошибку предсказания оуХ, определенную в (5.97). Для этого запишем разложение дисперсии: <ту = Е [У - ЕУ]2 = Е [(У - М) (М - ЕЛ!)]2 = офх + ofc. 212
Отсюда т)уХ = 1 —стух/оф. (5.98) Из этого представления следует, что т)кх-*1, если ошибка прог- ноза стух-*0, и г]уХ — 0, если, учитывая X, мы не уменьшаем ошибки прогноза (стух =<Гу). Таким образом, корреляционное отно- шение г|ух является мерой зависимости между У и X. (мерой точ- ности прогноза) и с ее помощью можно сравнивать различные совокупности предсказывающих переменных в конкретных задачах. Пример 5.9 (нормальное распределение, оптимальное прогнози- рование для него). Пусть X имеет размерность р—\ и пара (X, У) распределена нормально с параметрами ЕХ=рх. ЕУ=pr, DX=ax, ОУ = сту, korr(X, У)=р, IpK 1. Тогда совместная плотность распределения имеет вид ’ / 1 (X—g„)2 Ixy(x, t/) =-----Г__exp )----------------— — 2iwxayKl-P3 ( 2(1—p2) °Xar °Y J J и в результате несложных вычислений получаем, что условная платность У по X . . . , 1 I (и — т (х)>2 ) Iy I х (у х) = —==• ехр (----, где У ау/2л(1-р») 2a3v(l-p2)J ОТ(х)=рУ+-Xpfx-pj. (5.99) ax Таким образом, в данном случае условное распределение X (Y | X =х) = @XZ' (т (х), 0/(1—р2)) и, следовательно, М (х) = Е (У | X = х) = т (х), D (У | X =х) =оу (1 — Р2) (5.100) Условная дисперсия здесь не зависит от х, поэтому на основа- нии (5.97) аух =ffy(l -Р2)- Из (5.99) и (5.100) следует, что в данном случае функция регрес- сии У на X является линейной, а оптимальный предиктор для У можно записать а виде Л1 (X) = ЕУф- Г) ~ ЕХ). (5.101) Среднеквадратическая ошибка для этого предиктора равна . (5.102) Наконец, отсюда и из формулы (5.98) имеем 2 cov2 (X, У) .. Ьхру ~Р> 213
т. е. корреляционное отношение для нормально распределенной пары (X, Y) равно квадрату их коэффициента корреляции. 3. Прогнозирование в случае линейной функции регрессии. Пусть функция регрессии (Б.95) является линейной, т. е. имеет вид М (х) = р0 + 0'х = Ро + Р1X1 + РрХр. (5.103) Найдем выражение коэффициентов р;, 1 = 0, 1,..., р, через харак- теристики распределения X (X, Y). Как было показано в при- мере 5.9 для нормально распределенной пары (X, Y), коэффи- циенты регрессии [см. (5.99) и (5.101)] выражаются только через первые и вторые моменты исходного распределения. Покажем, что это обстоятельство имеет общий характер. Теорема 5.7. Пусть имеет место представление (5.103) и матрица вторых моментов вектора X, 2 = D (X), не вырождена. Тогда оптимальный предиктор Y по X имеет вид М(Х) = ЕГ + а'2-1(Х-ЕХ), (5.104) где a = («i, ..., ар), п( = соу(У, Хг), 1 = 1,..., р. □ Так как согласно теореме 5.6 оптимальный предиктор есть Л4 (X) и имеет место представление (5.103), то оптимальными являются те значения р* коэффициентов р„ которые минимизи- руют величину Е [У - Ро-0'Х]2 = Е [(У - ЕУ) -Ь - 0' (X - ЕХ)]2 = = ОУ + Ь2 + Р'2Р - 2р'а, (5.105) где b = р0 — ЕУ + Р'ЕХ. Из этого представления следует, что опти- мальные значения Ь и 0 таковы: Ь*=0, р*=2-1а. (5.106) Действительно, при 0 = 0* + 6 fe2 + P'S0-20'a= — р*'а + 6'26 + й2^-0*'а (5.107) и равенство достигается только при Ь = 0, 6 = 0. Из (5.106) сле- дует, что оптимальным значением коэффициента 0» является 0* = ЕУ-0*'ЕХ. (5.108) Таким образом, из (5.106) и (5.108) имеем, что оптимальный пре- диктор Ф*(Х) = М(Х) = рё + р*'Х (5.109) имеет вид (5.104). Отметим также, что в силу соотношений (5.105) —(5.107) средне- квадратическую ошибку предиктора (5.104) можно записать в виде оух =Е [У — Л4 (Х)]2 = ОУ — а'0* = ОУ — а'2-1а. (5.110) Отсюда имеем, что корреляционное отношение цух [см. (5.98)] совпадает с величиной р|,х = а'2-1а/оу, (5.111) 214
которая называется множественным коэффициентом корреляции. Эта величина зависит только от дисперсий и ковариаций пере- менных н является обобщением квадрата коэффициента корреля- ции двух величин на случай многих переменных (для случая двух переменных рух=р2(Х, У)). Отметим, что отношения (5.101) и (5.102) являются соответственно частными случаями соотношений (5.104) и (5.110). Замечание. Разлагая определитель 2 а I ..... I по элементам последней а' ..| строки, а затем и алгебраические дополнения этих элементов (за исключением алгебраического дополнения элемента по элементам их последнего столбца, для о^,х можно получить следующее эквивалентное представление: 2 : а а'; 4. Линейное прогнозирование. Предположим теперь, что вид функции регрессии неизвестен и нужно построить оптимальный предиктор в классе линейных предикторов q> (X), т. е. вместо всех функций от X будем рассматривать только функции вида ф(Х)= = Ро + Р'Х. Тогда имеет место следующее важное утверждение. Теорема 5.8. Линейная функция <р* (X) = P# + Р*'Х, определен- ная соотношениями (5.106), (5.108) и (5.109), является оптималь- ным линейным предиктором для У. Эта функция имеет также максимальную корреляцию с У среди всех линейных предикторов. □ Первая часть утверждения следует из того, что Рп и р* определяются из условия минимума Е (У — р0 — 0'Х)2. Далее, из определения векторов а и р* имеем следующие равенства: cov(y, Р'Х) = Р'а = P'Sp*, cov (У, р*'Х) = 0*20* = D (0*'Х) =&0. Из последнего равенства получаем <4р2(У, 0*Х) — со\,2(У, 0* X)/D (P*'X) = p*'Sp*. (5.112) Воспользовавшись неравенством Коши — Буняковского (0'20*)г = =(Р'21/221/2р*)2 sg (0'20) (0*'20*) и учитывая соотношение (5.112), получаем 0"кРа(У, ₽'Х) = ^^^ = в^^Р*'2р*=ойр2(У, 0»'Х). Таким образом, р(У, 0*'Х) = р(У, <р*(Х))^|р(У, <р(X))| для любой линейной функции ср (X). Отметим, что на основании соотношений (5.112), (5.106) и (5.111) квадрат максимальной корреляции р2 (У, <р* (X)) = 0*'20*/оф = pVx, т. е. множественный коэффициент корреляции равен квадрату коэффициента корреляции между У и оптимальным линейным предиктором для У Так как т)УХ — максимум корреляции между У и любыми функ- циями X, а ргх — максимум корреляции между У и лишь линей- 215
ними функциями X, то т]ухЗ^Рух- При этом, как было показано в п. 3, при линейной регрессии обе эти величины совпадают и разность Цух — рух может служить показателем отклонения рег- рессии от линейности. Величины т)уХ и рух принято записывать в виде r]o (I... р) и ро и ... р). 5. Использование дополнительной информации. В ряде случаев бывает не- обходимо исследовать, насколько увеличивается точность прогноза при увели- чении числа предсказывающих переменных. Среднеквадратическая ошибка предсказания ¥ по величинам X = (Xi, .... Хр) равна [см. (5.98)] офх = = о0{1 р| = оу (1—T|q (| р(). Если же учитывать какое-то число дополни- тельных предсказывающих переменных Х^, ..., Xk (k > р), то эта ошибка равна (1 = 0У (J—Чои ... р ... fe))’ что бУдет не больше предыдущей величины, н уменьшение ошибки определяется числом а|, (г]§ ц р — — Чо (I р))- Относительное уменьшение ошибки в результате использования дополнительных переменных, следовательно, равно Чо(р -н ... Л) (I ... р>= (Чо(1 ... р ... k)~Чо и ... ₽))/(' —4q (i ... р0. (5.113) Эту величину называют частным корреляционным отношением. Если для прогиозировання используются только линейные предикторы, то соответствующее выражение для относительного уменьшения среднеквадрати- ческой ошибки прогноза можно получить из (5.113), заменяя ц на р: Ро(р + । ... и ... pi = Ро<1 ... р ... о ... р))/(* “Рои ... Р))- (5.114) Эту величину называют частным множественным коэффициентом корреляции; она измеряет корреляцию между Y и Х-ц, .... Xk, исключая зависимость от X,. ...,хр. Если необходимо исследовать целесообразность добавления отдельных пере- менных к уже имеющимся, то надо вычислить р_ 1(. Из (5.114) имеем 1—Рб (р) (1 ... р— D = (' ~Ро о ... р))/(1 “Ро(1 ... р- !>)• (5.11а) Используя представление (5.111), можно показать, что 1“Рй u...p) = b'Pw- (5.Н6) где | р"> ’=ИР|/Г1 и */)> h ) = °> И •• > Р> (Х6 = У). Из (5.115) — — (5.116) легко получаем Рд(Р)(1...Р-Ц=РдрО ...₽_ )> = (₽“₽WW (5-117) Определенный в соотношении (5.117) коэффициент pgp (1 _ р_ i, называют част- ной корреляцией между ¥ и Хр, исключающей влияние переменных Х1Я ..., Xp_i. Можно показать, что рОр(г ..рЛ-, =р (et, ег), где е1 = ¥1 — (Ро + ?Л + -.. ... + Рр_1Х'р_1), е2 = Хр—(ao+aA-b-’ + ap-iXp-!), т. е. это обычная корре- ляция между остатками, получающимися вычитанием из Y и Хр их оптималь- ных линейных предикторов, основанных иа Хъ .... Хр_, (гак исключают влия- ние общих факторов X,.....Хд_, на переменные Y и Хр). 6. Эмпирические предикторы. Изложенная теория предсказа- ния величины Y по сопутствующим переменным X предполагает известным совместный закон распределения X (X, Y); при линей- ном же прогнозировании достаточно знать только первые и вто- рые моменты этого распределения. В практических приложениях точный вид зависимости между У и X чаще всего неизвестен, и поэтому все сведения, необходимые для построения оптимальных предикторов, получают в результате обработки статистических 216
данных, которые представляют собой выборку из распределения X (X, Y). Оценив по такой вспомогательной выборке (по резуль- татам прошлых измерений X и У) соответствующие характери- стики распределения X (X, У) (для построения линейных предик- торов это первые и вторые моменты [см. (5,104)]) и заменив этими оценками теоретические характеристики, строят эмпирический пре- диктор, который и используют для предсказания в других слу- чаях (в будущих измерениях). Более подробно теория статисти- ческой регрессии изложена, например, в [16, гл. 4] и в [10, гл. 26—28.]. 7. Прогнозирование стационарных последовательностей. Тео- рия линейного прогноза имеет наиболее широкое применение при прогнозировании стационарных, случайных процессов. Под этим термином будем понимать бесконечную в обе стороны последова- тельность случайных величин {X/}, / = ..., — п, ..., —1, 0, 1,... ..., п, ..., удовлетворяющих следующим условиям: EX(. = m = const, cov (Хе+к, Xt) = E.(Xt+k — m)(Xt — m) = Rk. (5.118) Таким образом, для стационарной последовательности случайных величин их среднее постоянно, а ковариация любых двух величин зависит только от разности номеров этих величин. Последователь- ность-чисел k = ..., —1, 0, 1, ..., называют ковариационной функцией последовательности {Xf}. Отметим следующие ее свойства: /?п = Е (X; — m)2 = DX< = <i2 = const; korr(X(+A, = => = (5.119) У, Rb-jCt£)= У, cftc?cov(X*, Х?-) = о( У cfcXfe)^0. Й. / = 1 k. j — I = 1 > Последнее свойство называется свойством положительной опреде- ленности. Особый интерес представляет случай, когда ряд нз Rk сходится абсолютно: 00 оо S |£*|' = Я0 + 2 £ (5.120) k ——ОО k — 1 Это условие везде в дальнейшем будем предполагать выполненным. Рассмотрим преобразование Фурье ковариационной функции {/?*}: ОО со Яо + — У Rficaikk—~ У RfeCoskl, >.е[-я, л]. (5.121) /г= 1 /? = —оо Условие (5.120) обеспечивает равномерную сходимость ряда (5.121) к непре- рывной функции, и его сумму f (X) называют спектральной плотностью после- довательности (XtКоэффициенты сходящегося ряда Фурье однозначно опре- деляются его суммой по формуле л Rk= j /(Mcosfem. (5.122) — л 9 Закат № 1054 217
Эти соотношения 'показывают, что спектральная плотность / (л) (когда она существует) и ковариационная функция (+4 находятся во взаимно однознач- ном соответствии, поэтому стационарную последовательность {Х<} можно описывать в терминах любой из этих функций. Предположим теперь, что известны значения процесса {Х(} в «прошлые» моменты / = — п, —п+1, ..., —1, 0 и требуется предсказать Хг, т, е. значение процесса в «будущий» момент t— 1. Обозначим оптимальный линейный предиктор для Хг через Х*п; тогда, по теореме 5.8, (5.123) .—1, 0,— значения минимизирующие вы- о У, . Согласно соотношениям (5.106), ве- 2 о Х*хп = i = -n где ₽?п, t = — п, ражение Е Хг — личины Р*п определяются в данном случае ковариационной функ- цией процесса {X/f 1 =— п, ..., —1, Обозначим 0 по следующим формулам: Р*п= У R^'Rj-u о, a, j=-n, Г.; ~i, о). 7?о /?1 /?i Ro ... Rn R(n+1) = Rn-i Rn Rn-i •••Ro тогда в силу четности функции /?А[см. (5.119)]|^J = 7?*'1(n+1). Наконец, принимая во внимание замечание к теореме (5.7), по- лучаем, что средний квадрат ошибки предиктора (5.123) о8(п)^Е[Х1-Х?пГ=^<;+^. (5.124) Ответ иа вопрос, при каких условиях на процесс (Х^} существует а2 = = lim о2 (и) и когда о2=0 или о2>0, получен А. Н. Колмогоровым (1941 г.) п —»со и состоит в следующем. Обозначим через /=1, ..., я+L собственные значения матрицы R(n-(-I). Тогда если п + 1 lim — У 1пХ/п=К, то о2 = ек. (5.125) л-* со п . Таким образом, если К = — оо, то предел величины (5.124) при неограничен- ном увеличении числа наблюдений равен нулю, т. е. в этом случае прогноз является асимптотически точным. Наконец, если предел в (5.125) конечен (Х> —со), то он равен ГС К = )п 2л + J In / (X) dX. — л 218
Итак, если ковариационная функция {/?&} (или спектральная плотность ((Z.)) процесса {XJ известны, то линейный предик- тор (5.123) и его среднеквадратическая ошибка (5.124) опреде- ляются однозначно. Если же {} неизвестна, то ее предварительно следует оценить по вспомогательной выборке. Рассмотрим кратко вопросы оценивания среднего т и ковариационной функции по выборке (Хх, ..., Хл) из процесса {XJ (таким образом, здесь имеем дело с зависимыми наблюдениями). Среднее арифметическое Х~ (Xx-f-...-|-Xn)//i на основании условия (5.118) является несмещенной оценкой для /п:ЕХ = /п. Вычислим дисперсию этой оценки. Имеем 1 ” п 2 cov<x*’ 2 Rk-< k, S = I k, S = 1 Г " ~1 =1 r.+2 2(i-4)s, . fc = l J (5.126) Отсюда и из условия (5.120) следует, что DX->0 при п->оо, имея порядок l/п, т. е. X — состоятельная оценка т. Нетрудно t Л — 1 оо показать, что lim У (1 — k/n)Rk = У, Rk, поэтому из (5.126) и п-*°°ь=1 j. = i (5.121) следует, что DX~^/(0). Рассмотрим теперь задачу оценивания Rk (в силу четности Rk достаточно рассмотреть только fe^sO). Если среднее т известно, то, полагая п — k Ck{n) = ^-k 2 (Xt-m)(Xlvk-m), Q^k<n, (5.127) / = i по формуле (5.118) имеем n — k ЕСj (ц) 2 Rk = Rhf т. е, статистика СЛ(п) является несмещенной оценкой Т?А. Если же т неизвестно, то в формуле (5.127) вместо т надо подставить его оценку X; тогда в качестве оценки Rk можно рассматривать статистику n — k = (Х‘~Х')(ХМ'-Х). (5.128) t = i Эта статистика уже не является несмещенной оценкой Rk, но можно показать, что при выполнении условия (5.120) смещение ECk(n) — Rk — O{\/n), т. е. Ck(п) — асимптотически несмещенная оценка Rk для любого фиксированного fe. а* 219
Исследование вторых моментов оценок Сь (п) и Ck (л) более сложно и тре- бует более сильных предположений о структуре процесса {XJ. При соответ- ствующих условиях дисперсии и ковариации этих оценок стремятся к нулю при л-*оо (для ограниченных k), т. е. они являются состоятельными оцен- ками ковариационной функции (по крайней мере, прн ограниченных значе- ниях k). Например, для гауссовских последовательностей (XJ (т. е. когда распределение любой конечной совокупности величин из {Х^) нормальное) не- обходимое и достаточное условие состоятельности этих оценок имеет вид п i 2 л->со- k=i i Задачи 1. Вывести нормальное уравнение (5.5) метода наименьших квадратов. 2. Доказать формулу (5.21), определяющую обобщенную оценку наимень- ших квадратов $т, и проверить, что матрица D в ней положительно определена. 3. По данным независимых равноточных измерений (X,-, <,•), (=1, ..., п, значений некоторой линейной функции x = Pi + |V (погрешности измерений подчиняются нормальному распределению (0, о2) с неизвестной дисперсией) построить донерительиый интервал для интеграла от этой функции на отрезке — a-sg.tt=za (а задано). Произвести соответствующие вычисления для следую- щих данных: (2,96; —2), (3,20; —1), (3,41; 0), (3,63; 1), (3,79; 2) при а=2 и доверительном уровне у =0,95. 4. В» четырехугольнике ABCD результаты независимых и равноточных измерений углов ABD, DBC, ABC, BCD, CDB, BDA, CDA и DAB (в граду- сах) соответственно таковы: 50,78; 30,25; 78,29; 99,57; 50,42; 40,59; 88,87; 89,86. Считая, что ошибки измерений распределены нормально (0, о2), найти о. н. к. углов Pl=.4BL>, p2=£)BCt fa=CDB и fa—BDA. Построить 0,95-до- верительиый интервал для а2. 5. Результаты замеров координаты а (/) движущейся равномерно н прямо- линейно точки в моменты / = 1, 2, 3, 4, 5 оказались соответственно равны: 12,98; 13,05; 13,32; 14,22; 13,97. Предполагая погрешности измерений незави- симыми и нормальными ©#"(0, о2), построить 0,95-доверительный эллипс дли точки (а(0); г?), где v—скорость точки. 6. Значения независимых случайных величин Х*/* (г = 1, 2, 3, 4; j= 1,2) приведены в следующей таблипе: I 2 3 4 1 8,67 9,71 10,16 13,65 2 10,03 10,23 9,26 13,79 Предполагая, что <55 (Xj/!) = о2) (все параметры неизвестны), построить оценки для |Xi, ц2, р.3, щ и о2 и проверить гипотезу однородности : iir = = р2=ра=ц1 (уровень значимости принять равным 0,1). 7. Пусть имеются k предметов, веса которых ..., За неизвестны. Для определения этих весов взвешинают комбинации предметов: каждая операция (одно взвешивание) состоит в том, что несколько предметов кладут на одну чашу иесов, несколько — иа другую и добавляют равновес для приведения несов в равновесие. В результате получают соотношения 220
(для i-ro взвешивания, » = 1, п), где zj.^—l, —1, 0 в зависимости от того, лежит /-й предмет на левой чаше весов, на правой илн вообще не участвует в данном взвешивании, а у,— добавляемый равновес. Считая погрешности измерений независимыми и нормальными @/Ла (0, о2), оценить веса четырех предметов по данным следующей таблицы восьми взвешиваннн: Pl 1 1 1111 1 1 Pa 1 —1 1 —1 1 —1 1 -1 Рз 1 I — 1 — 1 1 1 -1 -I Pr I —1 —1 I 1 —1 —1 1 Bee 20,2 8,1 9,7 1,9 19,9 8,3 10,2 1,8 ~ S (В) Fv, fr, n_fc (а" - ЧаЧ 4- aJi)] ), 1 sS / < »sS k. Найти матрицу ковариаций оценок, а также оценку для о2. Сравнить точность этих оценок с точностью оценок, получаемых обычным способом, Когда каждый предмет взвешивают несколько раз и в качестве оценки его веса принимают среднее арифметическое результатов взвешиваний. Указание. Использовать теорему 5.3. 8. Для данных задачи 7 построить систему совместных доверительных интервалов для (Ц, ..., р4 уровня Эг0,95. 9. Убедиться в том, что иитервалы образуют систему совместных доверительных интервалов уровня Zr у для раз- ностей pj —р7, i> j- 10, Доказать, что последовательности {Х7 = £ cos t -f- т] sin /, t = / k 1 = 0, ± 1, ±2, ...} t=0, ± 1, ±2, ...L где g, г)н^,? = I 1 = 0 J = 0, ± I, dr 2, ..., — некоррелированные случайные величины с одинаковыми средними и дисперсиями, — являются стационарными, вычислить их ковариа- ционные функции. 11. Доказать соотношение (5.116). 12. Доказать асимптотическую несмещенность оценки Ск(п) ковариацион- ной функции Rfe, определенной в (5.128).
Элементы теории решений. Дискриминантный анализ Эта глава является кратким введением в одно из важных направлений современных статистических исследований — теорию статистических решающих функций. Здесь излагаются некоторые основные идеи и результаты этой теории в рамках двух тра- диционных подходов к принятию решения — байе- совского и минимаксного. Общие идеи рассматрива- ются на примере решения практически важной за- дачи классификации наблюдений по нескольким ка- тегориям (классам). Подробно исследуется ряд си- туаций, характеризующихся предположением о нор- мальном законе распределания наблюдений. § 6.1. Статистические решающие функции. Байесовское и минимаксное решения) 1. Понятие решающей функции. Во многих случаях конечную цель статистического анализа можно выразить в форме решения о том или ином поведении или действии. Так, при выборочном контроле продукции следует принять одно из двух решений: принять партию изделий или забраковать ее; врач, анализируя симптомы болезни, должен отнести ее к одному из конечного числа стандартных видов, т. е. принять одно из конеч- ного числа возможных решений; анализируя данные наблюдения за некоторым случайным процессом с постоянным, но неизвестным средним, требуется принять решение о величине воздействия на процесс (его коррекции) для приведения среднего, например, к нулю; это воздействие может быть выражено некоторым дей- ствительным числом I и, следовательно, здесь число решений бесконечно. Во всех этих случаях решение принимается на осно- вании анализа наблюдения х над соответствующей случайной ве- личиной X и, следовательно, представляет собой некоторую функ- цию 6(х) на выборочном пространстве ^ = {х}, область значений которой — множество возможных в данной ситуации решений D=]d}. Таким образом, 6(х) —это правило, ставящее в соответ- ствие каждому результату наблюдения хе.У решение d = 6 (х) s ей, которое должно быть принято. Функцию 6(х) называют решающей функцией (илн решающим правилом, или процедурой), и ее следует выбирать в соответствии с некоторыми требованиями оптимальности. Принципы решения этой задачи развивает теория статистических решающих функций (теория решений), разрабо- 222
тайная А. Вальдом (1950 г.). Кратко изложим некоторые основ- ные идеи и результаты этой теории. 2. Функция риска и допустимые решающие правила. Пусть заданы класс распределений eF = {F(x- 9), бей}, которому, по предположению, принадлежит распределение наблюдаемой случай- ной величины X, и множество решений D — {d}, которые можно принимать на основании наблюдения над X. Чтобы получить критерий выбора решающей функции, необходимо сравнить ре- зультаты использования различных правил б. Введем для этого неотрицательную функцию потерь L (6, d), определенную на пря- мом произведении ®хО, где для каждых бей и d<=D число L(9, d)3=0 интерпретируется как убыток или потеря от приня- тия решения d при условии, что распределение X есть F (х; 9). Тогда для всякого правила б можно определить функцию R (9, б), называемую функцией риска, как среднее значение функции по- терь Л(9, б(Х)): Я (9, 6) = E9L(9, б(Х)). (6.1) Таким образом, R (9, б) —это средние потери, которые имеют место в случае применения решающего правила б, когда истин- ным распределением наблюдений является распределение F (х ; 9). Функция риска дает критерий сравнения различных решаю- щих правил. Действительно, если имеются два правила б' и б такие, что /?(9, 6')s£/?(9, 6), V9s=0, (6.2) со строгим неравенством хотя бы для одного 9, то, очевидно, правило 6' предпочтительнее б, так как использование б' приво- дит в среднем к меньшим потерям. С другой стороны, решающие правила 6t и б2 могут оказаться несравнимыми по критерию (6.2), если R (9, б1)</?(6, б2) для некоторых значений 9, а для осталь- ных значений 9 имеет .место обратное неравенство. Чтобы выбрать в такой ситуации одно из двух правил, необходимо привлечь дополнительные соображения. Решающее правило б называют недопустимым, если существует правило, б', предпочтительнее б в смысле (6.2). Решающее пра- вило, не являющееся недопустимым, называется допустимым. Все недопустимые решающие правила должны быть отвергнуты, так как для каждого из них можно найти более оптимальное (в ука- занном смысле) правило. Если класс допустимых решающих пра- вил состоит из единственного правила, то имеет место оптималь- ное решение. Но обычно этот класс достаточно широк и никакие два решающие правила из множества допустимых несравнимы. Поэтому для дальнейшего упорядочения допустимых правил и выбора среди них лучшего привлекают дополнительные соображе- ния. Для решения этой задачи *в статистике традиционно приме- няют два подхода: байесовский и минимаксный. 3. Байесовское решение. При байесовском подходе дополни- тельно предполагается, что параметр 6 —это случайная величина 223
с некоторым распределением, задаваемым плотностью распределе- ния (или вероятностью в дискретном случае) л (6). (В таких слу- чаях будем использовать одно и то же обозначение в как для случайной величины, так и для принимаемого ею значения, пола- гая, что это ие вызовет затруднений при чтении.) Это распреде- ление называют априорным распределением параметра и считают известным. В этом случае можно подсчитать полную среднюю потерю от применения решающего правила 6. Эту потерю обо- значают г (6) и называют байесовским риском: г(Й) = $Я(6, 6) jt(9)d0. (6.3) Если 9 принимает дискретные значения, то вместо интеграла пишут соответствующую сумму. Таким образом, в такой (байесов- ской) ситуации каждое решающее правило характеризуется одним числом и, следовательно, все решающие правила могут быть упо- рядочены в соответствии со значениями этой характеристики. Оптимальной является процедура 6*, минимизирующая байесов- ский риск г (6); она называется байесовским решением. Отметим, что б* зависит от априорного распределения л, поэтому для раз- личных априорных распределений параметра байесовские реше- ния, вообще говоря, различны. Байесовское решение 6* находят на основании теоремы Байеса, согласно которой апостериорное распределение параметра при условии Х = х задается плотностью распределения (или вероят- ностью в дискретном случае) л (91 х) = f (х; 6) л (9)// (х), (6.4) где / (х) = Е/(х; 9) = Jj/(x; 9)n(9)d9, или = i если 9 принимает дискретные значения {9(}. Тогда равенство (6.3) можно записать в виде r(6) = J/(x)E[L(6, 6 (X)) J X = х] dx (6.5) (если случайная величина X дискретна, то вместо интеграла пишут соответствующую сумму), где математическое ожидание вычисляется относительно апостериорного распределения (6.4), т. е., например, в дискретном случае Е[£(9, 6(Х))|Х = х]=££.(96 6(х)) л (9; Iх). (6.6) г Из соотношения (6.5) следует, что оптимальной является такая процедура, которая при каждом х минимизирует средние потери относительно апостериорного распределения л (9 | х). Таким образом, для заданного априорного распределения па- раметра л (9) алгоритм нахождения байесовского решения имеет следующий вид: а) для Х — х по формуле (6.4) находят апостериорное распре- деление л (61 х); 224
б) после этого для каждого возмож- ного решения d^D вычисляют среднюю потерю относительно этого апосте- риорного распределения; в) в качестве искомого выбирают ре- шение с минимальной средней потерей. (Здесь предполагается, что такое ре- шение входит в множество D, что всегда, в частности, имеет место для конечных множеств D.) Отметим, наконец, что байесовское решение, построенное для любого распределения л(9)>-0, является допустимым. Действи- тельно, пусть 6* — соответствующее байесовское решение и пред- положим, что существует процедура 6, для которой 7? (6, 6)s?; - (9, 5*) со строгим неравенством на множестве значений б, имеющем положительную (относительно распределения л) вероят- ность. Тогда, очевидно, для соответствующих байесовских рисков имеет место [см. (6.3)] неравенство г(б)<У(б*). Но это противо- речит факту, что байесовское правило минимизирует байесовский риск. 4. Минимаксное решение. При отсутствии априорной инфор- мации» о 0 применяют прием упорядочения допустимых решающих правил, в котором в качестве основной характеристики функции риска 7? (9, б) используется ее максимальное значение (или мак- симальный риск) т (б) = sup 7? (9, б). Тогда из двух решающих 1)е9 правил предпочтительным считают то, которому соответствует меньший максимальный риск. Правило б, минимизирующее т (б), называется минимаксным решающим правилом. Таким образом, минимаксное правило избавляет от чрезмерных потерь: наихуд- ший ожидаемый ущерб, связанный с использованием этого пра- вила, настолько мал, насколько это возможно. Принцип мини- макса не всегда является благоразумным (рнс. 6.1). Здесь б.> имеет худшие свойства по сравнению с 6j для большинства значений 9, ио предпочтительнее 61 по принципу минимакса. В общем случае вопрос о существовании и строении минимакс- ного правила достаточно трудный и здесь не рассматривается. Отметим один случай, когда удается просто установить минимакс- ность некоторого решающего правила. Именно: предположим, что существует априорное распределе- ние параметра л (9) > 0, для которого функция риска соответ- ствующего байесовского правила б* постоянна: Р(9, 6*) = я = = const (такое распределение л называют наименее благоприят- ным априорным распределением). Тогда б* — минимаксное решение. Действительно, в противном случае существовала бы про- цедура б, для которой максимальный риск /п(б)<а. Но это означало бы, что R (9, б) <7? (9, б*), V6, в противоречии с до- пустимостью байесовского решения. Пример 6.1 (бернуллиевская модель, решающие правила для нее). Пусть X — бернуллиевская случайная величина, причем вероят- 225
ность «успеха» 6 может быть либо 0! = 1 /3, либо 0 = 1/2. Таким образом, здесь ^ = {0, 1}, 6 = {1/3, 1/2} и f(x; 6) = 0Д’(1 — О)1-*, х = 0, 1. Пусть, далее, множество решений D состоит из двух элементов di и d2, а функция потерь L (9,, d,) определяется таблицей Si 6г di «2 0 1 2 3 1 В данном случае для каждого х е J возможны только два реше- ния, а множество Я? содержит две точки, поэтому всего имеются четыре решающие функции б*, А=1, 2,3, 4, а именно: 61 (0) = = db = б2(0) = dlt б2(1)=^; 63(0) = d2, 63(l) = di; 64(0)=d2, 64(1) =d2. По формуле (6.1), которая в данном случае имеет вид /?(9, 6A) = L(9, 640))(l-9) + L(9, бА (1)) 9, 9 = 0!, 02, находим четыре вектора риска (Я(9Ь б*), R (02, 6&)), А=1,...,4, числовые значения которых соответственно равны (0, 3); (2/3, 2); (4/3, 2); (2, 1). Здесь процедура 63 является недопустимой, так как процедура б2 предпочтительнее, а среди допустимых про- цедур 61, б2 и б4 две последние обладают минимаксным свойством: пг(б2) = т(б4)==2<;т(б1) = 3. Следовательно, в данном случае в качестве минимаксной процедуры можно выбрать либо 5s, либо б4. 5. Оценивание параметров и проверка гипотез с позиций тео- рии решений. В заключение отметим, что рассмотренные в преды- дущих главах задачи оценивания параметров и проверки гипотез также можно сформулировать в терминах принятия решений. Рас- смотрим задачу точечной оценки скалярного параметра 9. Выбор статистики Т (X), оценивающей 0, можно трактовать как решаю- щее правило, предписывающее принимать решение dt о том, что оцениваемое значение параметра равно /= Т (х), если наблюдается Х = х. В этом случае функция потерь может быть, например, L(9, dt) = <0 (| t — 9 I), где со — строго возрастающая функция ошибки | f — В |. Если, в частности, выбрать ©(z) = z2, то функция риска /? (9, 6) = R (0, Т) = Е0 (Т (X) — 6)2 совпадает со среднеквадратиче- ской ошибкой оценки Т. В гл. 2 была рассмотрена задача отыска- ния оптимальных оценок (минимизирующих эту функцию риска) в классе несмещенных оценок. Рассмотрим пример, иллюстрирую- щий возможности подхода с позиций теории решений. Пример 6.2 (минимаксная оценка вероятности успеха в схеме Бернулли). Пусть X —число успехов в п испытаниях Бернулли с постоянной вероятностью успеха 0 (наблюдаемая случайная величина). Как известно (см. теорему 2.2), оптимальной несме- 226
щенной оценкой 6 является статистика Т—Х/п. Предположим теперь, что параметр 6 —случайная величина с априорным рас- пределением типа бета-распределения с плотностью л (6) = 9я-1 (1 - 9)й-!/В (а, Ь) при известных постоянных а, &>0 [здесь В (а, Ь) = =± Г (а) Г (Ь)/Г (а-]-&)]. Тогда по формуле (6.4) плотность апосте- риорного распределения 9 при X = к е {0, 1, ..., п} равна л (91 х) = 6Л+Я-1 (1 — (хa, n-x-j-b). Это другое бета-распределение, с новыми параметрами (х + а, п — х + й). Вычислим средние потери для каждого возможного решения dt относительно этого апостериорного распределения. Имеем f (t - 9)2 л (91 х) d6 = t* - 2t n• Минимизируя полученное выражение no t, получаем, что байесов- ской (при заданном априорном распределении л) оценкой 9 является статистика 6* (Х) = (Х + а)/(я + «+&). (6.7) Функция риска этой оценки равна [см. (2.2)] сумме квадрата смещения b (9) = Е6б* (X) - 9 = (п9 + а)/(п + а + Ь) - 9 = = [а — 9 (а 4~ &)]/(» а Ь) и дисперсии D06*(X) = [«e(l-6)]/.(n + a + &)2, т. е. R (9, 6*) =° -6) • (6.8) ' ’ 1 (п+а-^-ЬУ2 4 ' Чтобы получить минимаксное решение, надо найти такое априор- ное распределение, для которого эта функция риска постоянна. Из (6.8) следует, что это имеет место при (aA-b'f — n и 2a(a-)-&)=«, откуда а = & = ]/п/2. Следовательно, минимаксная оценка 9 в дан- ной задаче имеет вид б(Х)= (X +]/п/2)/(п +Уп), (6.9) а ее риск равен R (6, 6) = m(6) = a2/(n-ba + b)2=l/[4n(I + l/V/'n)2]. (6.10) Для сравнения рассмотрим риск оптимальной несмещенной оцен- ки Т = Х/п. Имеем T) = DeT = 9(1—9)/». 227
Ее максимальный риск т(Т) = sup n—f = (8), [см. (6.10)], но в данном случае имеет место ситуация, подобная изображенной на рис. 6.1: минимаксная оценка (6.9) точнее оценки Т только для значений параметра 9 е (1 /2 ± ел), где е„ = у ]/1 — (1 + l/j/n)-2-»^ пРи п->оо. Рассмотрим теперь интерпретацию задачи проверки гипотез в терминах теории решений. Предположим, что требуется про- верить гипотезу Но: 8 е 0О при альтернативе Hi: 9 е 0Х = 0\6О. Тогда любой критерий можно интерпретировать как решающее правило с двумя решениями: do (принимать Н») и di (прини- мать Hi). Здесь естественно считать, что потеря равна нулю, если выбрано правильное решение. Тогда функция потерь должна удовлетворять условиям L(S, dil) = 0, V6 е 0(|; £(9, di) = 0, V9 е 0Х. Если дополнительно принять, что потери от неправиль- ного решения в любом случае равны единице, т. е. L (9, d0) = 1, V9e0x; L(9, di)= 1, V5e6e, то при такой простой функции потерь для любого решающего правила 6 функция риска имеет вид [см. (6.1)] /? (0 61= f P0(6(X) = dx) = P(tfx|tfo) прибеОо, } I Pe(6(X) = do) = P(Ho|Wt) при 9е0ь Таким образом, значения функции риска совпадают в данном случае с вероятностями ошибок первого и второго рода (см. §4.1). § 6.2. Задача классификации наблюдений 1. Постановка задачи классификации. Будем рассматривать один частный, но представляющий большой прак- тический интерес случай, когда параметрическое множество мо- дели состоит из конечного числа точек: 0 = {6Х.....9А[, т. е. имеется всего k распределений Е, (х) = F (х; 0;), i = l, ..., k, одно из которых является истинным всякий раз, когда произво- дится наблюдение над X. Пусть по наблюдению над X. тре- буется решить, какое из распределений истинно. Таким образом, множество решений имеет в данном случае вид D = {d<, ..., dfc[, где решение d£ означает, что в качестве истинного следует выби- рать распределение F), i = l, ..., k. Типичный случай, когда возникает подобная задача, можно описать следующим образом. Пусть множество исследуемых объ- ектов разбито на k классов или групп Hi, .... Ht:. Каждый объект характеризуется набором X числовых параметров, кото- рые непосредственно могут быть измерены. Предполагается, что X—случайная величина, а принадлежность объектов к разным 228
классам выражается в том, что для объектов из класса Н, эта случайная величина имеет распределение Fiy i= 1, k. Задача состоит в том, чтобы по наблюдению над X определить тот класс, к которому принадлежит соответствующий объект, или, что то же самое, какое из распределений Л, ..., Fk истинно. Такие зада- чи называют задачами дискриминации, классификации или иден- тификации. Рассмотрим общие принципы решения таких задач с позиций теории решений и проиллюстрируем их на примерах наиболее важных моделей таких ситуаций. 2. Функция риска в задаче классификации. Пусть б = б(х)— любое решающее правило в рассматриваемой задаче. Тогда оно порождает разбиение выборочного пространства FF на k взаимно непересекающихся областей UZj, ..., где №< = {х:б(х) = 4}, i=l, .... k. (6.11) Таким образом, множество Wt включает все такие точки х, когда при наблюдении Х = х в качестве истинного выбирается распре- деление Fj. Пусть, далее, задана функция потерь Л (6, d), определяющая потерн от неправильной классификации, т. е. заданы числа L (Gidj) = l(j\ i), i, j = 1, .... k, где I (j | /) — убыток, который имеет место в случае, когда объект i-ro класса отнесен к /-му (/ =/= I). В данной задаче естественно считать, что потеря равна нулю, если выбрано правильное решение, т. е. — i= 1, ..., k. Тогда функция риска (6.1) представляет собой ^-мерный вектор риска R(6) = (Ri(6), .... ЛЛ(6)), где k = 6)=S 1(/10p(/I0 (6.12) 7=1 и р(/| i) = Ре, (X е ~ вероятность того, что объект t-ro класса отнесен к /-му классу. Можно сказать, что R, (б) — средние по- тери, которые имеют место при классификации по правилу 6 произвольного объекта i-ro класса. Задача состоит в построении оптимального (т. е. с наименьшими потерями) решающего пра- вила 6. Найдем байесовское и минимаксное правила в данной ситуации. 3. Байесовское решение. Предположим, что известно априор- ное распределение л = (Я1, ..., пА), т. е. произвольный наблю- даемый объект принадлежит i-му классу с вероятностью п,, i=l, ..., k. Тогда байесовский риск (6.3) на основании (6.12) равен k k k г (б) = 2 ^0)^ = 2 £ i(i lOH/IO*.. (6-13) »=1 j= 1 i= ! В соответствии с общим алгоритмом построения байесовского решения (см. п. 3 § 6.1), т. е. правила б, минимизирующего риск (6.13), по формуле (6.4) находим апостериорные вероятности 229
классов при условии Х = х: k Я;(Х) = ^(Х) Л;/2 nsfs(x), 1=1, .... k. (6.14) s= 1 Далее, если принять решение отнести объект с характеристикой х к /-му классу (т. е. если 6(x)=dj), то для такого правила средние условные потери равны [см. (6.6)] k k f £ S t (€i, dj) Ki (x) = у I (j I j) Hjfi (x)/ У (x), j = 1, ..., k. 1=1 1=1 / s=l (6.15) Наконец, решение dj должно быть выбрано так, чтобы миними- зировать правую часть (6.15). Итак, оптимальный способ действия в данном случае состоит в следующем: если наблюдалось Х — х, то надо определить мини- мальную сумму k /=1, (6.16) 1=1 Номер j этой суммы и определяет класс, к которому относится наблюдаемый объект. Если при этом минимум достигается при нескольких значениях j, то можно взять любое из них (напри- мер, наименьшее). Итак, имеет место следующее утверждение. Теорема 6.1. Оптимальное (байесовское) решающее правило б* в задаче классификации определяется следующим разбиением выбо- рочного пространства = W, U ... (J W%: W* = {х : hi (х) = min hj(x}}, i—l........k, (6.17) 1 где функции hj(x) определены в (6.16) и i — минимальное значение индекса, удовлетворяющее указанному условию. Пусть I (j 1t) = 1, / =# i; тогда fe k hj W = У (х) = — njfj (х) 4- У Kifi (х) l=1 i—l и условие в (6.17) принимает вид jtif, (х) = шах л/7- (х). (6.18) 1 ^7 < fe Величины Ujfj(x) пропорциональны апостериорным вероятностям классов [см. (6.14)], поэтому в данном случае байесовский прин- цип сводится к следующему: относить объект с характеристи- кой х к тому классу, апостериорная вероятность которого мак- симальна. Такой принцип называют принципом максимума апо- стериорной вероятности. Этот принцип используют во всех слу- чаях, когда потери I (j | i) либо неизвестны, либо их труда© оце- нить числом. 230
Выделим случай двух классов (k = 2), т. е. когда объекты классифицируют по альтернативному признаку. Здесь й1(х) = = 2(1 | 2) л2/2 (х), й2 (х) — I (211) nxji (х) и, следовательно, решение di (отнести объект с характеристикой х к первому классу) при- нимается тогда и только тогда, когда Z (1 12) л2Д (х) I (211) (х). 'Другими словами, байесовское правило б* имеет в данном слу- чае следующий вид: ( dr при х е= W?, О* (х> = s __ v 7 (d2 при = П где W7 = (х: ^4 < - TTHvS > (6.19) а соответствующий ему вектор риска (Z?i(5*), Т?2(6*)) [см. (6.12)] равен I (211) PS1 (X е= Г|), Z (112) Р9г (X е ТГ*)). (6.20) 4. Минимаксное решение. Если априорные вероятности клас- сов неизвестны, то для построения решающего правила исполь- зуют минимаксный подход (см. п. 4 § 6.1), в соответствии с ко- торым ищется правило Ъ, минимизирующее шах /?Д6) [см. (6.12)]. 1 < i < k В ряде случаев минимаксное правило 6 удается построить, опре- делив наименее благоприятное априорное распределение л — = («1, ..., лД т. е. такое распределение, при котором для соот- ветствующего байесовского решения 6* компоненты вектора риска R (6*) все одинаковы —в этом случае 5 совпадает с решением 6*. Например, в случае двух классов из (6.20) следует, что лх (л2 = = I — лх) надо определить из условия I (211) Р61 (X 6= W) = I (112) Р0, (X е ТГ.Г), (6.21) где область Wf определена в (6.19) (^2 = W)- Отсюда следует, ято даже в этом частном случае для общих распределений задача построения минимаксного решения достаточно сложна. В следующих параграфах эти вопросы рассмотрены для некото- рых конкретных распределений. § 6.3. Классификация наблюдений в случае двух нормальных классов 1. Байесовский подход. Предположим, что X — нормальный вектор размерности г, распределенный для объ- ектов из класса Hi по закону ®.Z^*(ix'1), А), а для объектов из класса Нг — по закону ®^(ц(2), А). Таким образом, здесь имеет место случай двух нормальных классов, различающихся только средними значениями (общая ковариационная матрица А далее предполагается невырожденной). В данном случае функции /,(х) 231
имеют вид fi (Х) = ехр ”2 (х “ А-1 <х ” 1 1 = 1 ’ 2; а их отношение — ехр {А (х - р^)' А-1 (х - 1 (х - ^а>)' А"1 (х - р<а>)}. Введем вектор а=А_1(р.<1) —р<2)) (6.22) . nJ (1 2) п л и константу с = In . ... Простые преобразования позволяют Л1Л (2 I 1) записать область наилучшей классификации U7t. определенную в (6.19), в виде F* = {х : а'х - (1 /2) а' (pd> + р'2’) с}. (6.23) Линейную функцию наблюдений <р (х) = а'х называют дискрими- нантной функцией. Таким образом, области наилучшей классификации U7* и определяются в данном случае дискриминантной функцией ф (х): наблюдение х относится к первому классу тогда и только тогда, когда ср (х)2>С1, где константа = у а' (р(1) + р(21) +с опреде- ляется параметрами модели, априорным распределением и задан- ными потерями. Если потери неизвестны или их трудно оценить числом, то применяют указанное правило классификации, где /(112) = /(2| 1)= 1. 2. Минимаксный подход. Найдем минимаксное решение 6 (ко- торое используют в случае, когда априорные вероятности неиз- вестны). Для этого вычислим вероятности ошибочных классифи- каций p(j\i) для произвольного байесовского правила (6.23) и найдем из условия (6.21) наименьшее благоприятное априорное распределение. Соответствующее этому априорному распределению правило (6.23) и является искомым минимаксным решением б. Введем случайную величину У = а'Х— А. а'(р^114-р(2)) и най- дем ее распределение при «гипотезах» Hl и Так как X — нормальный вектор при обеих гипотезах, то К, как линейная функция от нормального вектора, в любом случае также нор- мальная случайная величина; следовательно, достаточно вычис- лить только ее первые и вторые моменты. Имеем пр“ ££ где [см. (6.22)] а = а' (р<« -р<2>) = A-1 (р(» - р<2>); (6.24) D(Г| Hi) = D (а'Х | Hi) = а'Аа=а, i= 1, 2. 232
Таким образом, X (У | /Л) (у, а), X (Y | /Л) = (- -J, а), где а определено в (6.24). , Вычислим вероятности ошибочной классификации. Из (6.23) имеем: С 1 / сс р(2|1)=Р(Г«!|«^?^ Ш=Ф(^2), г —со * со \ 2 р(11 2) = Р (У=&с|Я2) = + <И = ф(-^£\ r v 1 * * * * * ' v 1 Угла \ v а г Следовательно, уравнение (6.21) для определения наименее благо- приятного априорного распределения (лъ 1— Лх), или, что экви- валентно, константы с, имеет вид ' /(2| 1)Ф^=^) = /(1 |2)Ф^-^±^_ (6.25) k 1 ’ /а / 1 \ Г Итак, если априорные вероятности классов Hi и Я2 неиз- вестны, то минимаксные области классификации определяются с помощью формулы (6.23), где константа с выбирается из усло- вия (6.25). Отметим, что если I (1 | 2) — I (211), то решением уравнения (6.25) является с=0. В этом случае вероятность ошибочной клас- сификации произвольного объекта равна Ф(—]/а/2). Величину а, определенную в (6.24), называют расстоянием Махаланобиса между распределениями @^°(ц(11, А) и А). Из предыдущего следует, что чем более далекими (в метрике а) являются гипотезы Hi и Н2, тем меньше вероятность ошибочной классификации правила (6.23). § 6.4. Классификация нормальных наблюдений. Общий случай 1. Байесовский подход. В этом параграфе будет при- менена изложенная выше (см.§6.2) теория к общему случаю нескольких клас- сов, заданных многомерными нормальными распределениями. Предположим, что эти распределения различаются только своими средними, и пусть А)— распределение наблюдений X для объектов из класса Ht (i — = I, .... ft). Кроме того, будем считать, что все цены ошибочных классифи- каций равны. Тогда байесовское решение (при заданных априорных вероят- ностях я,= Р (Н,), /= 1, .... ft) можно получить с помощью принципа мак- симума апостериорных вероятностей [см. (6.18)]; оно соответствует случаю, когда области классификации (6.11) имеют вид Й7, = {х : ft (x)/f,(x) itf/a;, /=1....ft, /=/=«}, (=1, ..., ft, или Wi=[x:ui/(>C)^ci-Cj, /=1, ..., ft, (6.26) где с< = 1п (1/лг), t=l, .... ft и иН (x) = In (fz (x)/fz (x) = aj)x—(1/2) a;;. (p'‘> (6.27) ar/=A 1 i, /= i,... t k, l^i. (6.28) 233
Отметим, что каждая классификационная функция и^х) связана только с Z-й н y-й совокупностями: иц(х)=—и^(х), при этом все функции являются линейными относительно результатов измерений х. Следовательно, области Wj ограничены гиперплоскостями. 2. Минимаксный подход. Если априорные вероятности классов неизвестны, то области классификации будем искать в виде (6.26), где неопределенные константы Cj > 0, 7=1, ..., k, следует ныбирать из условия равенства всех компонент иектора риска (6.12), которое в данном случае (при одинаковых I U I 0) приводит к равенствам р(1 | l)=p(2|2) = ...=p(ft|ft), (6.29) где р(7|7)= J /i(x)dx = P(“,7(x)^^—с/, /=1........... ft, веро- w. ятиость правильной классификации объектов 7-го класса. Области TFj, ..., с определенными таким образом константами сг......с* задают минимаксное правило классификации. Из (6.29) следует, что задача сводится к отысканию распределения слу- чайного вектора U; = (u(7 (X), /=1, .... ft, /¥=7) при гипотезе Я/. Введем матрицу А;, составленную из вектор-столбцов а;/, /=1....ft, j^=i, опреде- ленных в (6.28). Тогда из формулы (6.27) следует, что вектор (J, можно получить нз X с помощью линейного преобразования вида Ц=А('Х-J-fy. Следовательно, ^(1)г I Нд= ®^(А><г’+Ь{, А<АА;). (6.30) Отсюда имеем, что /-я координата вектора средних равна а;.р<‘>-(1/2) а<,. (ц<7'+.и^) = (1/2) a'z (р'^-р'/i)=«yA где ai/=(p"’’ —р'^’У А-1 (р"’—pf;i) — расстояние Махалонобиса между г-м и 7-м классами, а (/, «)-й элемент aijS матрицы ковариаций, равный скалярному произведению j-fl строки матрицы А' (т. е. вектора асу) на s-й столбец матрицы АА; (т. е. Ааг5.=р'г)—p(S)), имеет вид а,м= (рг''1 — р‘7’)' А-1 (р"1—р(”). Тем самым распределение (6.30) полностью определено. Оно является невырож- денным (| А'АА^ | =/=0) тогда и только тогда, когда А; —матрица полного ранга, т. е. когда rang А, = ft—1. Это имеет место, в частности, если векторы сред- них значений р(1), ...,p(ftl линейно независимы: r=dim X ^sft—1. В этом случае, согласно (6.29), СО оо Р («i')= j S £>(u)du> ci~ci ci~ck где gi (u) — плотность распределения, определенного в (6.30). В качестве примера рассмотрим случай трех классов (ft = 3), задаваемых двумерными нормальными распределениями (г = 2). В давиом случае области W;, 1=1, 2, 3, имеют соответственно вид TV'1=(x: UtS (х) Эгс, —-с2< ии(х)> ?ЗС1 — сэ}, №'г = (х: “12 (х) < ci —f2, «23 (х) ^с2 — с3], U73 = (x: и13(х) <с1 — с3) «за (х) <Са—«з). Эти области должны исчерпывать все пространство R-, поэ- тому линии, задаваемые уравнениями uls (x) = Ci — c2, (х) = с1 — с3 и «и (х)= — Сц — Cg, должны пересечься в точке, а равенство вероятностей р (1 I 1) = = р(2 | 2) = р (3 j 3) однозначно определяет разности Q — cy. Для их опреде- ления можно воспользоваться таблицами двумерного нормального распределе- ния. Соответствующие области минимаксного правила классификации изобра- жены иа рис. 6.2. 3, Классификация наблюдений при наличии неизвестных караметров. Выше предполагалось, что все допустимые распределения наблюдений пол- костью известны. Однако в приложениях эти распределения часто известны лишь с точностью до значений некоторых параметров (например, ц'6, 7= 1, ... ..., ft, илн А, или одновременно всех этих параметров). В таких случаях 234
можно решать задачи классификации, если до- полнительно известно, что произвольно взятые объектов из класса Hi имели характеристи- ки х^1) (1 = 1, k). Другими ело- i вами, предполагается, что имеются обучающие выборки. (х^, -•, х<1)), 1=1, ..., k из со- ответствующих распределений (р."’>, д), 1=1......k. Эти выборки можно использовать для оценки соответствующих неизвестных па- раметров распределений и, заменив неизвестные параметры их оценками, поступать далее, как и в случае полностью известных распределений. ni Если неизвестны средние р.'1’, то их заменяют оценками |х<г> = — хр — ' 1 = 1 средними арифметическими иыборок (см. пример 2.18). Ковариационная мат- рица А (когда она неизвестна) оценивается выборочной ковариационной мат- рицей; при этом так как матрица А—общая для всех классов, то для ее оценивания следует использовать информацию, доставляемую всеми выборками. Эту информацию объединяют следующим образом. Введем выборочные матрицы л. А</> =7^rf 2 *=1« ••••*• i=i каждая из которых является несмещенной оценкой матрицы А (см. зада- чу -2.29). Тогда И / k \ Е 2 (П1-1)А«>= 5 «i-fe A. \z=l I Л k I/ k \ поэтому матрица А = 2 (ni~~ О А"’’ \ У я,-—А), построенная с учетом всех 1=1 I \/=1 ' / данных, также является несмещенной оценкой А. Построив эти оценки параметров распределений, далее можно ввести оценки “1/ (х> = ь'ц* — у %(£“' + Д°!), = А -1 (£«’ - Р для классификационных функций (6.27) и использовать их для построения приближенных областей классификации 1Г; = {х: u(/ (x)>q —с,, /=1, ..., kf j Ф 1), заменяющих в данном случае области (6.26). В качестве обоснования этого метода приведем следующие «асимптотичес- кие» рассуждения. Предположим, что объемы обучающих выборок велики (цг-»-оэ, 1=1, ..., А). Тогда оценки 1=1, ..., k, и А как арифметичес- кие средние сходятся по вероятности соответственно к р'‘‘, i=l, ..., k и А. Отсюда следует, что а(У сходится по вероятности к а,у, а а^. (р.«'1-(-р.'1|)— к а^(ц<г,+р.'/’). Следовательно, пределфюе распределение «//(X) «впадает с распределением izl7 (X), поэтому для достаточно больших обучающих выбо- рок функции uij (х) можно использовать так же, как если бы были точно известны распределения совокупностей. Задачи t. Пусть в примере 6.1 параметр в имеет априорное распределение л (0J = = 2/3, п (63) =1/3. Найти байесовское решение. 235
2. Пусть X(X) = Bi(3, 9), е = {1/100, 1/10}, Р={<4, дг}, а функция потерь L (0£, dj) задана таблицей О dt 2 е, о i fe=l, 2, 3. Рассмотрев решающие функции ( di при х=0, 1, k— 1, Од (х) = { I d3 в остальных случаях, показать, что функция 61 (х) дает минимаксное решение задачи. Построить байесовское решение для заданного априорного распределения. 3. Пусть Л? (X)=Bi (1, 6). 6={1/10, 2/10}, £>=№, d2} и функция потерь задана таблицей dj d2 О 92 2 О fe=l, 2, 3, 4. Определить минимаксную решающую функцию средн функций J dt при х = 0, 1, ..., Л—1. b^X t d2 при x=k, fe4-l, ...» Построить байесовское решение для заданного априорного распределения. 4. Проверить, что полученная в примере 6.2 байесовская оценка пара- метра в совпадает с апостериорным средним этого параметра. 5. Пусть (Х) = П (об) и Л>(в) = Г(у, Л). Показать, что апостериорное распределение в при Х = х есть X (9 | х) = Г • 6. Пусть Х$ (X) = Bi (г, 6), а параметр 9 имеет бета-распределение с пара- метрами (а, &) (см. пример 6.2). Показать, что апостериорное распределение в при условии Х=х является также бета-распределением с параметрами (а+х, Ь-|-г). 7. Пусть Х = (Х1..Х„)~выборка нз распределения R (0, 9) и при этом 9—случайная величина с плотностью л (9)=аоа/91ХИ, O^sa (а, а>0) [такое распределение называют распределением Парето с параметрами (а, а)]. Показать, что апостериорная плотность л (6 j х) при условии, что Х=х = = (xi, . ..,хл), есть также плотность Парето с параметрами (max (a, хи ... ..., хв), а-[-п). 8. Пусть случайный вектор v = (v1, ..., х’д.) имеет полиномиальное распре- деление Л4 0, р = (рг ..., PN))> где п — известное целое число, а компоненты вектора р случайны н нх совместное распределение является распределением Дирихле с параметрами 0=^..........aN), аг>0, i— 1, ..., У, т, е. нх сов- местная плотность распределения ’ РУ- “)={ Г(“1) /(Р1> •"Гадг1 а,—I aw —1 , , , •Pn при Р14-...+pyV= 1, О в остальных точках. Показать, что апостериорное распределение р при условии v = h = ^lt ... ..., Лд,) —также распределение Дирихле с параметрами a-|-h.
ПРИЛОЖЕНИЯ 1. Нормальное распределение 1 сР Квантили распределения: р = —= I е~*^2 dx р “р р иР р иР 0,50 0,000 0,68 0,468 0,86 1,080 0,51 0,025 0,69 0,496 0,87 * 1,126 0,52 0,050 0,70 0,524 0,88 1,175 0,53 0,075 0,71 0,553 0,89 1,227 0,54 0,100 0,72 0,583 0,90 1,282 0,55 0,126 0,73 0,613 0,91 1,341 0,56 0,151 0,74 0,643 0,92 1,405 1 0,57 0,176 0,75 0,674 0,93 1,476 0,58 0,202 0,76 0,706 0,94 1,555 0,59 0,228 0,77 0,739 0,95 1,645 0,60 0,253 0,78 0,772 0,96 1,751 0,61 0,279 0,79 0,806 0,97 1,88-1 0,62 0,305 0,80 0,842 0,98 2.0зЬ 0,63 0,332 0,81 0,878 0,99 2,326 . 0,64 0,358 0,82 0,9(5 0,999 ЗД901 . 0,65 0,385 0,83 0,954 0,9999 3,7‘20 0,66 0,412 0,84 0,994 0,99999 4,265 0,67 0,440 0,85 1,036
2. Распределение Пуассона ОО Значения функции У е~^ k~x 0.1 0,2 0,3 0,4 05 0.6 0 1,000 1,000 1,000 1,000 1,000 1,000 1 0,095 0,181 0,259 0,330 0,394 0,451 2 005 018 037 062 090 122 3 001 003 008 014 023 4 001 002 003 X 0.7 03 0,9 1,0 2.0 а,о 0 1,000 1,000 1,000 1,000 1,000 1,000 1 0,503 0,551 0,593 0,632 0,865 0,950 2 156 191 228 264 594 801 3 034 047 063 080 323 577 4 006 009 014 019 143 353 5 001 001 002 004 053 185 6 001 018 084 7 005 034. 8 001 012 X 4,0 5,0 6,0 7,0 8,0 9.0 О 1,000 1,000 1,000 1,000 1,000 1,000 1 0,982 0,993 0,998 0,999 1,000 1,000 2 908 960 983 924 0,997 0,999 3 762 875 938 970 986 994 4 567 735 849 918 958 979 5 371 560 715 827 900 945 6 215 384 554 699 809 884 7 111 238 394 550 687 793 8 051 133 256 401 547 676 9 021 068 153 271 408 544 Ю 008 032 084 170 283 413 и 003 014 043 099 184 294 12 001 005 020 053 112 197 13 002 008 027 068 124 14 001 004 013 034 074 15 001 006 017 042 16 001 002 008 022 I7 001 004 011 18 002 005 I9 001 002 20 001 238
3. Биномиальное распределение 95 %-ные доверительные пределы 62) для параметра в: Р0 (Э1<в<62)=0,95 О 1 2 3 4 5 в 7 8 9 10 11 12 0 I 2 3 4 5 6 7 8 9 10 0,98 0,84 0,71 0,60 0,52 0,46 0,41 0,37 0,34 0,31 .— 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,99 0,91 0,81 0,72 0,64 0,58 0,53 0,48 0,45 0,41 0,03 0,01 0,01 0,01 0,01 0,00 0,00 0,00 0,00 0,00 0,00 1,00 0,99 0,93 0,85 0,78 0,71 0,65 0,60 0,56 0,52 0,48 0,16 0,09 0,07 0,05 0,04 0,04 0,03 0,03 0,03 0,02 0,02 1,00 0,99 0,95 0,88 0,82 0,76 0,70 0,65 0,61 0,57 0,54 0,29 0,19 0,15 0,12 0,10 0,09 0,08 0,07 0,06 0,06 0,05 1,00 1,00 0,96 0,90 0,84 0,79 0,74 0,69 0,65 0,61 0,58 0,40 0,29 0,22 0,18 0,16 0,14 0,12 0,11 0,10 0,09 0,08 1,00 1,00 0,96 0,92 0,86 0,81 0,77 0,72 0,68 0,65 0,62 0,48 0,36 0,29 0,25 0,21 0,19 0,17 0,15 0,14 0,13 0,12 1,00 1,00 0,97 0,93 0,88 0,83 0,79 0,75 0,71 0,68 0,65 0,54 0,42 0,35 0,30 0,26 0,23 0,21 0,19 0,18 0,16 0,15 1,00 1.00 0,97 0,93 0,89 0,85 0,81 0,77 0,73 0,70 0,67 0,59 0,47 0,40 0,35 0,31 0,28 0,25 0,23 0,21 0,20 0,18 1,00 1,00 0,98 0,94 0,90 0,86 0,82 0,79 0,75 0,72 0,69 0,63 0,52 0,44 0,39 0,35 0,32 0,29 0,27 0,25 0,23 0,22 1,00 1,00 0,98 0,95 0,91 0,87 0,84 0,80 0,77 0,74 0,71 0,66 0,56 0,48 0,43 0,39 0,35 0,32 0,30 0,28 0,26 0,24 1,00 1,00 0,98 0,95 0,92 0,88 •0,85 0,82 0,79 0,76 0,73 0,69 0,59 0,52 0,46 0,42 0,38 0,35 0,33 0,31 0,29 0,27 1,00 1,00 0,98 0,95 0,92 0,89 0,86 0,83 0,80 0,77 0,74 0,72 0,62 0,57 0,49 0,45 0,41 0,38 0,36 0,34 0,32 0,30 1,00 1,00 0,98 0,96 0,93 0,90 0,87 0,84 0,81 0,78 0,76 0,74 0,64 0,57 0,52 0,48 0,44 0,41 0,38 0,36 0,34 0,32 П 12 0,29 0,27 0,00 0,00 0,39 0,36 0,00 0,00 0,45 0,43 0,02 0,02 0,51 0,48 '0,05 0,04 0,55 0,52 0,08 0,07 0,59 0,56 0,11 0,10 0,62 0,59 0,14 0,13 0,64 0,62 0,17 0,16 0,67 0,64 0,20 0,19 0,69 0,66 0,23 0,22 0,70 0,68 0,26 0,24 0,72 0,69 0,28 0,27 0,73 0,71 0,31 0,29 Примечание. Значения 62 набраны В первых строках, значения 0,—во вторых.
4. Распределение х2 (я) Хр, п Яр, п Квантили распределения: р= I kn(x)dx = —т—-!------------- ( хп!~~dx О 2"/-Г(п/2) .1 0,1 0,3 0,5 0,7 о,э 0,95 0,899 0,8999 1 0,016 0,148 0,455 1,07 2,71 3,84 6,63 10,8 2 0,713 1,39 2,41 5,99 « 9.21 13,8 - 3 > 1,42 2,37 3,67 7,82 11,3 16,3 - 4 Ь61 2,20 3,36 4,88 ^^78 9,49 13,3 18,5 5 3,00 4,35 6,06 9,24 и, Г 15,1 20,5 6 2,20 3,83 5.35 7,23 10,6 12,6 16,8 99,5 7 2,83 4,67 6,35 8,38 12,0 11,1 18,5 24,3 8 3.49 5,53 7,34 9,52 13,4 15,5 20,1 26,1 9 4,17 6,39 8,34 10,7 14,7 1Д9^ 21,7 27,9 Ж 4,87 7,27 9,34 11,8 16,0 23,2 29,6 11 5,58 8,15 10,3 12,9 17,3 19,7 24,7 31,3 12 6,30 9,03 11,3 14,0 18,5 21,0 26,2 32,9 13 7,04 9,93 12,3 15,1 ]9,8 22,4 27,7 34,5 14 7,79 10,08 13,3 16,2 21,1 23,7 29,1 36,1 15 8,55 11,7 14,3 17,3 22,3 25,0 39,6 37,7 Д£- 9,31 12.6 15,3- 18,4 23,5 26,3 32,0 39,3 17 10,09 13.5 16,3 19,5 24,8 27,6 33,4 40,8 18 10,9 14,4 17,3 20,6 26,0 28,9 34,8 36,2 42,3 19 Н,7 15,4 18.3 21,7 27,2 30,1 43,8 20 12,4 16,3 19,3 22,8 28,4 31,4 37,6 45,3 21 13,2 17,2 20,3 23.9 29,6 32,7 38,9 46,8 22 14,0 18,1 21,3 24,9 30,8 33,9 35,2 40,3 48,3 23 14,8 19,0 22,3 26,0 32,0 41,6 49,7 24 15,7 19,9 23,3 27,1 33,2 36,4 43,0 51,2 25 16,5 20,9 24,3 28,2 34,3 37,7 44,3 52,6 26 17,3 21,8 25,3 29,2 35,6 38,9 45,6 54,1 27 18,1 22,7 26,3 30,3 36,7 40,1 47,0 55,5 28 18,9 23,6 27,3 31,4 37,9 41,3 48,3 56,9 29 19,8 24,6 28,3 32,5 39,1 42,6 49.6 58,3 30 20,6 25,5 29,3 33,5 40,3 43,8 50,9 59,7
5. Распределение Стьюдента S (п) Значения функции V п ^'ч'\ 0,9 0,95 0.S8 0.99 1 6,314 12,706 31,821 63,657 2 2,920 4,303 6,965 9,925 3 2,353 3,182 4,541 5,841 4 2,132 2,776 3,747 « 4,604 5 2,015 2,571 3,365 4,032 6 1,943 2,447 3,143 3,707 - 7 1,895 2,365 2,998 3,499 8 1,860 2,306 2,896 3,355 9 1,833 2,262 2,821 3,250 10 1,812 2,228 2,764 3,169 12 1,782 2,179 2,681 3,055 14 1,761 2,145 2,6'25 2,977 16 1,746 2,120 2,584 2,921 18 1,734 2,101 2,552 2,878 20 1,725 2,086 2,528 2,845 22 1,717 2,074 2,508 2,819 24 1,711 2,064 2,492 2,797 26 1,706 2,056 2,479 2,779 ' ' 28 1,701 2,048 2,467 2,763 30 1,697 2,042 2,457 2,750 СО 1,645 1,960 2,326 2,576 1
6. Распределение Снедекора S (nt, nJ Значении функции Л,а FP. ГЦ, ns Р = j при p = 0,95 и p=0,99. «Левые» границы доверительных интервалов находятся из условия Fi-P, П1, пг=Гр' П1. ns rii «1 1 2 3 4 6 8 10 12 20 50 100 161 200 216 225 234 239 242 244 248 252 253 4052, 4999 5403 5625 5859 5981 6056 6106 6208 6302 6334 9 18,51 19,00 19,16 19,25 19,33 19,37 19,39 19.41 19,44 19,47 19,49 98,49 99,01, 99,17 99,25 99,33 99,36 99,40 99,42 99,45 99,48 99,49 з 10,13 9,55 9,28 9,12 8,94 8,84 8.78 8.74 8,66 8,58 8,56 34,12 30,81 29,4ft 28,71 27,91 27,49 27,23 27,05 26,69 26,35 26,23 л 7,71 6,94 6,59 6,39 6,16 6,04 5,96 5,91 5,80 5,70 5,66 21,20 18,00 16,69 15,98 15,21 14,80 14,54 14,37 14,02 13,69 13,57 5 6,61 5,79 5,41 5,19 4,95 4,82 4,74 4,68 4,56 4,44 9,24 4,40 16,26 13,27 12,06 11,39 10,67 10,27 10,05 9,89 9,55 9,13 л 5,99 5,14 4,76 4,53 4,28 4,15 4,06 4,00 3,87 3,75 3,71 13,74 10,92 9,78 9,15 8,47 8,10 7,87 7,72 7,39 7,09 6,99 8 5,32 4,46 4,07 3,84 3,58 3,44 3,34 3,28 3,15 3,03 2,98 11,26 8,65 7,59 7,01 6,37 6,03 5,82 5,67 5,36 5,06 4,96 10 4,96 4,10 3,71 3,48 3,22 3,07 2,97 2,91 2,77 2,64 2,59 10,04 7,56 6,55 5,99 5,39 5,06 4,85 4,71 4,41 4,12 4,01 12 4,75 3,88 3,49 4,26 3,00 2,85 2,76 2,69 2,54 2,40 2,35 9,33 6,93 5,95 5,41 4,82 4,50 4,30 4,16 3,86 3,56 3,46 9Л 4,35 3,49 3,10 2,87 2,60 2,45 2,35 2,28 2,12 1,96 1,90 8,10 5,85 4,94 4,43 3,87 3,56 3,37 3,23 2,94 2,63 2,53 30 4,17 3,32 2,92 2,69 2,42 2,27 2,16 2,09 1,93 1,76 1,69 7,56 5,39 4,51 4,02. 3,47 3,17 2,98 2,84 2,55 2,24 2,13 50 4,03 3,18 2,79 2,56 2,29 2,13 2,02 1,95 1,78. 1,60 1,52 7,17 5,06 4,20 3,72 3,18 2,88 2,70 2,56 2,26 1,94 1,82 100 3,94 3,09 2,70 2,46 2,19 2,03 1,92 1,85 1,68 1,48 1,39 6,90 4,82 3,98 3,51 2,99 2,69 2,51 2,36 2,06 1,73 1,59 200 3,89 3,04 2,65 2,41 2,14 1,98 1,87 1,80 1,62 1,42 1,32 6,76 4,71 3,88 3,41 2,90 2,60 2,41 2,28 1,97 1,62 1,48 1000 3,85 3,00 2,61 2,38 2.10 1,95 1,84 1,76 1,58 1,36 1,26 6,66 4,62 3,80 3,34 2,82 2,53 2,34 2,20 1,89 1,54 1,38 Примечав и я: 1. Значения Fq.95: - набраны в первых строках, значения f0,99; Л|. л3 ~ во вторых. 2. Здесь лх— Степени свободы для меньшей дисперсии. степени свободы для большей дисперсии; п* — 242
7. Критерий КолмогОр°иа Значения функции р = Р «= SUP I Fn (х) — F (*) I > Хр) р п 0.10 0,05 0,01 X. р п 0,19 0,05 0,01 1 0,950 0,975 0,995 19 0,271 0,301 0,361 2 776 842 929 20 265 294 352 3 636 708 829 25 238 264 317 4 565 624 734 30 218 242 290 5 509 563 669 Зб 202 224 269 6 468 519 617 40 189 210 252 7 436 483 576 4б 179 198 238 8 410 454 542 50 170 188 226 9 387 430 513 55 162 180 216 10 369 409 489 60 155 172 207 11 352 391 468 65 149 166 199 12 338 375 449 70 144 160 192 13 325 361 432 75 139 154 185 14 314 349 418 80 135 150 5 179 15 304 338 404 85 131 145 174 16 295 327 392 90 127 141 169 17' 286 318 381 95 124 137 165 18 279 309 371 100 121 134 161 8. Критерий Смирнова Значения вероятности P(^„„^fe/n), где ^пп = sup | Fln (х) — Г2п (х) |. X. п k X. 1 2 3 4 5 6 7 8 9 10 Н 1 2 3 4 5 6 •7 8 9 10 1,000 0,667 1,000 400 0,900 1,000 229 771 0,971 1,000 127 643 921 0,992 1,000 069 526 857 974 0,998 1,000 037 425 788 947 992 0,999 Ь000 020 340 717 913 981 998 Ь000 011 270 648 874 966 993 0,999 006 213 582 832 948 988 998 1,000 1,000 1,000 1,000 1,000 1,000 11 003 167 521 789 925 979 996 0,999 1,000 1,000 1,000 12 002 131 464 744 900 969 992 999 1,000 1,000 1,000 13 001 102 412 700 874 956 987 997 1,000 1,000 1,000 14 ООО 079 365 657 845 941 981 995 0,999 1,000 1,000 15 ООО 062 322 614 816 925 974 992 998 1,000 1,000 16 ООО 048 284 574 785 907 965 989 997 1,000 1,000 17 ООО 037 249 535 755 888 955 984 995 0,999 0,999 18 ООО 028 219 497 725 868 944 979 993 998 999 19 ООО 022 192 462 694 847 932 973 991 997 999 20 ООО 017 168 429 664 825 919 966 988 996 999 21 ООО 013 147 397 635 804 905 959 984 995 998 22 ООО 010 128 368 606 782 891 951 980 993 998 23 ООО 008 112 340 578 759 876 942 975 991 997 24 ООО 006 098 314 551 737 860 932 970 988 996 25 ООО 004 085 290 525 715 844 922 964 985 994 26 ООО 003 074 267 499 693 828 911 958 982 993 27 ООО 003 064 246 474 671 811 900 952 978 991
ЛИТЕРАТУРА 1. Андерсон Т. Введение в многомерный статистический анализ. М., 1963. 2. Большее Л. Н., Смирнов И. В. Таблицы математической статистики М., 1965. 3. Вальд А. Последовательный анализ. М., 1960. 4. Гаек Я., Шидак 3. Теория ранговых критериев. М., 1971. 5. Де Гроот М. Оптимальные статистические решения. М., 1974. 6. Дэйвид Г. Порядковые статистики. М., 1979. 7. Закс Ш. Теория статистических выводов. М., 1975. 8. Ивченко Г. И., Медведев Ю. И. Разделимые статистики и проверка гипотез для группированных данных. —Теория вероятностей и ее примене- ния, т. XXV, 1980, вып. 3. 9. Кендалл М., Стьюарт А. Теория распределений. М., 1966. 10. Кендалл М.< Стьюарт А. Статистические выводы н связи. М., 1973. 11. Кокс Д„ Хинкли Д. Теоретическая статистика. М., 1978. 12. Кокс Д., Хинкли Д. Задачи по теоретической статистике с реше- ниями. М., 1981. 13. Крамер Г. Матейат ячеек не методы статистики. М., 1975. 14. Леман Э. Проверка статистических гипотез. М., 1964. 15. Липцер Р. Ш., Ширяев А. И. Статистика случайных процессов. М„ 1974. 16. Рао С. Р. Линейные статистические методы и их применения. М., 1968. 17. Севастьянов Б. А., Чистяков В. П., Зубков А. М. Сборник задач по теории вероятностей. М., 1980. 18. Смирнов И. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. М., 1980. 19. Уилкс С. Математическая статистика. М., 1967. 20. Феллер В. Введение в теорию вероятностей и ее приложения. М., 1967, т. 1. 21. Чибисов Д. М. Некоторые критерии типа для непрерывных рас- пределений.—Теория вероятностей и ее применения, т. XVI, 1971, вып. 1. 22. Чистяков В. П. Курс теории вероятностей. М., 1982. 23. Шеффе Г. Дисперсионный анализ. М., 1980. 24. Ширяев А. И. Сттистический последовательный анализ. М., 1976. 25. Billingsley Р. Statistical Inference for Markov Processes. Univ, of Chi- cago, 1961. 26. Davidson R., Lever IF. The limiting distribution of the likelihood ratio statistic under a class of local alternatives. Sankhya, ser. A, v. 32, p. 2 (1970), 209 — 224. 27. Wald A. Tests of statistical hypotheses concerning several parameters when the number of observations is large. Trans. Amer. Math. Soc., v. 54. (1943), 426 - 482. ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Аддитивные факторы 206 Альтернатива (альтернативная гипотеза) 106. 138 е— односторонняя (право- и левосторонняя) 154 Байесовский подход 223 Бернуллиевская модель 11 —, оценивание параметра 43—44. 92 —, — минимаксное 226—227 , — параметрических функций 60 —, проверка простых гипотез 147—148 —, — сложных односторонних гипотез 156 —, решающее правило 225 —, функция информации 46 Вариационный ряд 13 — . его члены (крайние и средние) 25 Выборка 7 — , ее вклад 45 Выборочные блоки 127 Выборочный момент 18 — пространство В — распределение 19 — среднее 18. 22 — теория 13 — характеристика 18, 20 244
Гамма-модель 10 —, свойство воспроизводимости 28 —, метод моментов 78 проверка гипотез 156—157 —, функция информации 47 -г, оценка параметра 47 Гауссовская последовательность 220 Генеральная совокупность 8 Гипотеза линейная 175 — независимости 103, 130 — о виде распределения 103, 107 — однородности 103, 123, 203 — о параллельности линий регрессии 201—203 — основная (нулевая) 1Ьз — параметрическая 104 — простая 104 — сложная 104 — случайности 104, 133 Гистограмма 16 Двойная классификация 205 Дисперсионный анализ 205 Дисперсия асимптотическая 75 — выборочная 18, 22 — остаточная 180 Доаернтельные границы 82 Доверительный интервал 81 — асимптотический 92 — односторонний 82 — центральный 90 Доверительная область 94 — максимального правдоподобия 176 Инверсия 134 Интеграл Стнлтьеса 9 Квантиль выборочная 23 Корреляционное отношение 212 — частное 216 ' Корреляция частная 216 • Коэффициент корреляции множественный 215 — асимметрии 21 — эксцесса 21 Критерий Бхаттачария оптимальности оценке 50 — Вальда (последовательный критерий отношения вероятностей) 149 — Внлкоксоиа 128 ,— знаков 117 — квантнлейЛП — Кендалла 133 — локальный наиболее мощный 161 — независимости хн-квадрат 130—131 — Неймана—Пиподпа 14^-145 — несмещенный<107, 140 — однородности СмтгрЙова 124 ---хи-квадрат 124—127 — отношения правдоподобия 167 — пустых блоков 127 — пустых ящиков 120—122 — равномерно наиболее мощный 141 — Рао'.Крамера оптимальности оценки 48 — ранговый 128 — рандомизированный 139 — серий 128 — симметрический 122 — Согласия 104 — — Колмогорова 107—108 — — хи квадрат Пирсона 109—111 — Состоятельный 113 — Спирмена 132 Статистический 103, 139 j— факторизации 55 ^Критическая область 105, !39 татринп идемпотентная 30 I информационная 52 f плана 180 t f-. ее < |гд 30 ес спектральное представление 29 Медиана выборочная 24 Мера хи-квадрат Пирсона 79 Метод группировки наблюдений 80 — максимального правдоподобия 65 — моментов 77 — наименьших каадратоа 181 — накопления 69 — отношения правдоподобия 166 Минимаксный подход 223 Минимальная ошибка предсказания 212 Многочлен интерполяционный 188 Многочлены ортогональные Чебышева 189 Множество параметрическое 9 Модель абсолютно-непрерывная 9 — биномиальная 10 ----. функция информации 47 ----, оценка параметра 49 — геометрическая 11 — дискретная 9 — Коши 10, 57 ----, метод накопления 70 ----, проверка гипотезы 162 ----, функция информации 47 — отрицательная биномиальная 10, 61 ----, оценивание параметра 40, 46, 63 ----, функция информации 47 — параметрическая 9 — регулярная 46 — с монотонным отношением правдоподо- бия 155 — статистическая 6, 8 — экспоненциальная 48, 155 Неравенство Бхаттачария 50 — Йенсена 121 — Рао—Крамера 48, 51 Нормальная модель 16 —, гипотеза о равенстве двух средних 166 —, доверительный интервал для среднего в 84, 163 -------в 8|) 87 —.-----для дисперсна в Л*(ц, бг) 85, 164 -------в ^=(8р 8|) 87 —.-----для разности двух средних 87, 166 —, ----для отношения двух дисперсий 88 —. доверительная область для в|\ 94—95 —, достаточные статистики 56 —, задача классификации 231—235 —, информационная матрица 53 —, критерий отношения правдоподобия для среднего в 167 —, — — — для дисперсен в 8J) 175—176 —, локальный навболее мощный критерий а’) 162 —, односторонние альтернативы в Л°(ц, 6е) 155 —, оптимальное прогнозирование 213 —, о. м, п, 66—67 —. оценнаание 6 в <Г8) 49, 77 —. — В» в Л* (в, о2) 51 —. — 08 в ^(ц, 6®) 49 —. — 6t в в|) 52 _ 62 в Ж 6|) 40, 53—54 68 f cf|[ —, последовательный критерий 152—153 ’ ^4и^пооверка гипотезы в «4е (в, о2) 145—146 / ^Ьрхэффективная оценка для 6 в Ж(8,1) 76—77 —, сложные двусторонние альтернативы в о2) и ./Г (И, 02) 158, 160. 162, 164 245
—. — — гипотезы для ©i я в Л’рр ®|) 165 —, — одностороннее альтернативы 154 —, функций информация 47 —, эффективные оценки 49 Обратный биномиальный выбор 155 Остаточный вектор 184 Оценивание интервальное 81 — точечное 38 Оценка 38 — асимптотически несмещенная 71 ---эффективная 75 —, ее асимптотическая дисперсия 75 —, ее асимптотическая эффективность 75 —, ее смещение 39 —, ее среднеквадратическая ошибка 39 — максимального правдоподобия 65 ---, свойство инвариантности 68 ---, состоятельность, асимптотическая нормальность н асимптотическая эф- фективность 73—75 ---мультиномиальная 81 ~ наименьших квадратов 181 ---обобщенная 185 — несмещенная 39 — оптимальная (несмещенная оценка с минимальной дисперсией) 38. 42 — до методу минимума хи-квадрат 79—80 — саерхэффективная 76 — состоятельная 72 — эффективная 4В, 52 — ядерная 17 Ошибки 1-го и 2-го рода 139 Плотность спектральная 217 Подмножество цилиндрическое 175 Полигон частот 17 Порядковые статистики 13 Последовательный анализ 148 Предиктор оптимальный 211 — эмпирический 217 Предсказывающие переменные 211 Принцип максимума апостериорной веро- * ятиоств 224 Пуассоновская модель 10, 61 —, доверительное оценивание параметра 93 —, критерий согласия хи-квадрат 116 „ оценивание параметрических, функций 39. 62 —. о. м. п. параметра 65, 76 —, функция информации 47 —, эффективная сценка параметра 49 Равномерная модель 10 доверительный интервал для парамет- ра 88 —, достаточные статистики 56—57 —, оценивание параметра 63 —, о. м tl параметра 87—68. 76 Ранги наблюдений 128 Распределение альтерк^^вное 196 — апостериорное 224 — априорное 224 ----наименее благоприятное 225 — бета 227 — биномиальное 10 — Вейбула 97 — гамма 10 — гипотетическое 107 - - Дирихле 236 — Коши 10 — Лапласа 99 — логарифмическое 61 — логистическое 96 - — логнормальное 99 ‘ — нормальное 10 — отрицательное баяомпальаое 10 Парето 236 — полиномиальное (мульттаомиальцоеф I 81 — пуассоновское 16 — равномерное Ю — Снедекора (Т-распределяае) 33 — Стьюдента (/-распределадие) 31 — типа степенного ряда И, 70, 93 — усеченное 61 — хн-квадрат 27, 28 — экспоненциальное (показательное) Ж Расстояние Махаланобнса 933 Регрессия 180 —, ее коэффициенты 180 — нормальная 192 ----, общая линейная гипотеза 199—Ж ---, совместные доверительные актам лы 197 — параболическая 180, 189 — простая 187 ---, доверительное оценкмние памп ров 195 ----, проверка гипотез 200 Решающее правило (функция, процедура — допустимое 223 Решение байесовское 224 — минимаксное 225 Риск байесовский 224 — максимальный 225 Серия 128 Статистика 38 — достаточная 54 ----минимальная 55 ---- полная 58 — Кендалла 133 — критерия Ю5, 141 — отношения правдоподобии 142 — симметрическая 119 — Спирмена 132 — центральная 83 Статистический аналог 15 Стационарный случайный провесе 217 Сходимость по вероятности 10 — по распределению (слабая) 10 Таблица дисперсионного анмза -219 — сопряженности двух орнзмакев 130 Теорема Байеса 224 — Глнвенко 15 — Колмогорова 15 — Неймана—Пирсона 142 — Рао—Блекуэлла—Колмогорова 50 — Смирнова 16 — Фишера 31 Тождество Вальда 151 Точки сверхэффективностн 77 Уравнение несмещенности S0 — нормальное метода надмиваих кмдра тов 181 — правдоподобия Уровень значимости 105. 140 Функция вклада 45 — дискриминантная 232 — информация 46 — классификационная 234 — ковариационная стацнбдармого лраце. Са 217 — критическая 139 — мощности 106, 139 — правдоподобия 45 ---частотная 8! — параметрическая 39 — потерь 223 „^^распределения теоретическая U •х----. доверительная зона для мае 99 — ^эмпирическая И, 44 — регрессии 211 — риска 223 — Хевисайда 14
। Предисловие 3 Введение 5 ОГЛАВЛЕНИЕ Пим Основные понятия и элементы выборочной теории § 1.1. Вариационный ряд выборки и эмпирическая функция распределения 13. § 1.2. Выборочные характеристики ’ 18. § 1.3. Асимптотическое поведение выборочных моментов 20. § 1.4. Порядковые г- ~ 23. § 1.5. Распределения некоторых функций от нормальных слу- к величин 27. Задачи 34. I . у/ Оценивание неизвестных I . Глава / параметров распределений I § 2.1. Статистические оценки и общие требования к Л Несмещенные оценки с минимальной дисперсией 37. § 2.2. Критерии оп- /кльиости оценок, основанные на неравенстве Рао — Крамера и его обоб- /|иях 45. § 2.3. Принцип достаточности и оптимальные оценки 54. § 2.С / |нки максимального правдоподобия 65. § 2.5. Метод моментов и другие* / Оды, основанные на группированных данных 77. § 2.6. Интервальное / йивание 81. Задачи 95. О ) Проверка Ц S статистических Глава У гипотез § 3.1. Понятие статистической гипотезы и статист’; еского критерия. Критерии согласия 102. § 3.2. Проверка гипотезы о виде распределения 107. § 3.3. Симметрические критерии в схеме группировки растущим числом интервалов. Критерий пустых ящиков 118. § 3.4. Гипоте- а Однородности 123. § 3.5. Гипотеза независимости 130. § 3.6. Гипотеза лучайности 133. Задачи 136. Параметрические гипотезы § 4.1. Общие положения 138. § 1.2. Выбор из двух простых гипотез. Критерий Неймана — Пирсона 141. § 4.3. Выбор из двух простых гипотез. Понятие о последовательном анализе 148. § 4.4. Сложные гипотезы 153. § 4.5. Критерий отношения правдоподобия 166. Задачи 177. v 247