/
Автор: Лагутин М.Б.
Теги: теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов математика
ISBN: 978-5-94774-996-0
Год: 2009
Текст
Μ. Б.Лагутин НАГЛЯДНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие 2-е издание, исправленное Рекомендовано Учебно-методическим объединением по классическому университетскому образованию в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлениям «Математика» и «Математика. Прикладная математика» Москва БИНОМ. Лаборатория знаний 2009
УДК 519.22 ББК 22.17 Л14 Рецензенты: кандидат физ.-мат. наук Э. М. Кудлаев, зав. каф. матем. статистики ф-та ВМиК МГУ академик РАН Ю. В. Прохоров, доктор физ.-мат. наук, проф. Ю. Н. Тюрин Лагутин М. Б. Л14 Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. — 2-е изд., испр. — М. : БИНОМ. Лаборатория знаний, 2009. — 472 с. : ил. ISBN 978-5-94774-996-0 Основы теории вероятностей и математической статистики излагаются в форме примеров и задач с решениями. Книга также знакомит читателя с прикладными статистическими методами. Для понимания материала достаточно знания начал математического анализа. Включено большое количество рисунков, контрольных вопросов и числовых примеров. Для студентов, изучающих математическую статистику, исследователей и практиков (экономистов, социологов, биологов), применяющих статистические методы. УДК 519.22 ББК 22.17 Учебное издание Лагутин Михаил Борисович НАГЛЯДНАЯ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Учебное пособие Ведущий редактор М. Стригунова Художник С. Инфантэ Оригинал-макет подготовлен О. Лапко в пакете ВД^Х 2ε с использованием кириллических шрифтов семейства LH Подписано в печать 04.09.08. Формат 70 χ 100/16. Усл. печ. л. 38,35. Тираж 2000 экз. Заказ 6743 Издательство «БИНОМ. Лаборатория знаний» 125167, Москва, проезд Аэропорта, д. 3 Телефон: (499) 157-5272, e-mail: binom@Lbz.ru, http://www.Lbz.ru При участии ООО «ЭМПРЕЗА» Отпечатано с готовых файлов заказчика в ОАО «ИПК «Ульяновский Дом печати». 432980, г. Ульяновск, ул. Гончарова, 14 ISBN 978-5-94774-996-0 © Лагутин М. Б., 2009 © БИНОМ. Лаборатория знаний, 2009
ПРЕДИСЛОВИЕ Перед Вами, уважаемый читатель, итог размышлений автора о содержании начального курса математической статистики. Настоящая книга —это, в первую очередь, множество занимательных примеров и задач, собранных из различных источников. Задачи предназначены для активного освоения понятий и развития у читателя навыков квалифицированной статистической обработки данных. Для их решения достаточно знания элементов математического анализа и теории вероятностей (краткие сведения по теории вероятностей и линейной алгебре даны в приложении). Акцент делается на наглядном представлении материала и его неформальном пояснении. Теоремы, как правило, приводятся без доказательств (со ссылкой на источники, где их можно найти). Наша цель —и осветить практически наиболее важные идеи математической статистики, и познакомить читателя с прикладными методами. Первая часть книги (гл. 1-5) может служить введением в теорию вероятностей. Особенностью этой части является подход к освоению понятий теории вероятностей через решение ряда задач, относящихся к области статистического моделирования (имитации случайности на компьютере). Ее материал, в основном, доступен школьникам старших классов и студентам 1-го курса. Вторая и третья части (гл. 6-13) посвящены, соответственно, оценкам параметров статистических моделей и проверке гипотез. Они могут быть особенно полезны студентам при подготовке к экзамену по математической статистике. Четвертая и пятая части (гл. 14-21) предназначаются, в первую очередь, лицам, желающим применить статистические методы для анализа экспериментальных данных. Наконец, шестая часть (гл. 22-26) включает в себя ряд более специальных тем, обобщающих и дополняющих содержание предыдущих глав. Собранный в книге материал неоднократно использовался на занятиях по математической статистике на механико-математическом факультете МГУ им. М. В. Ломоносова. Автор будет считать свой труд небесполезным, если, перелистав книгу, читатель не потеряет к ней интереса, а захочет ознакомиться Что за польза от книги без картинок и разговоров? Льюис Кэрролл, «Приключения Алисы в стране чудес»
4 Предисловие Ей сна нет от французских книг, а мне от русских больно спится! Фамусов в «Горе от ума» А. С. Грибоедова Никогда не теряй из виду, что гораздо легче многих не удовлетворить, чем удовольствовать. Козьма Прутков, «Мысли и афоризмы» с теорией и приложениями статистики как по этому, так и по другим учебникам. При работе над книгой образцом для автора была популярная серия книг для школьников Я. И. Перельмана. Хотелось, по возможности, использовать живую форму изложения и стиль, характерный для этой серии. Я благодарен моим коллегам по лаборатории Математической статистики МГУ им. М. В. Ломоносова М. В. Козлову и Э. М. Куд- лаеву за прочтение рукописи этой книги и полезные замечания. М. Лагутин
К ЧИТАТЕЛЮ В книге Д. Пойа «Математическое открытие» (см. [62] в списке литературы) выделены три принципа обучения. Первым (и важнейшим) из них является Стимулирование Надо заинтересовать учащегося, убедить в полезности изучения предмета. Для успешности учебы необходимо четкое представление о том, зачем нужна сообщаемая информация. Приведем мнение по этому вопросу известного героя детективного жанра (ведь восстановление по частностям общей картины есть также и задача математической статистики). «Мне представляется, что человеческий мозг похож на маленький пустой чердак, который вы можете обставить, как хотите. Дурак натащит туда всякой рухляди, какая попадется под руку, и полезные, нужные вещи уже некуда будет всунуть, или в лучшем случае до них среди всей этой завали и не докопаешься. А человек толковый тщательно отбирает то, что он поместит в свой мозговой чердак. Он возьмет лишь инструменты, которые понадобятся ему для работы, но зато их будет множество, и все он разложит в образцовом порядке. Напрасно люди думают, что у этой маленькой комнатки эластичные стены и их можно растягивать сколько угодно. Уверяю вас, придет время, когда, приобретая новое, вы будете забывать что-то из прежнего. Поэтому страшно важно, чтобы ненужные сведения не вытесняли собой нужных.» А. Конан Дойл, «Этюд в багровых тонах» Математическая статистика — один из наиболее часто используемых в приложениях разделов математики. На результаты практически любого научного эксперимента влияют неучтенные в модели факторы, накладывается случайный шум. Методы математической статистики, как правило, позволяют наиболее полно и надежно извлекать полезную информацию из зашумленных данных. В книгу включены многочисленные примеры применения статистических методов для решения практических задач. Чтобы побудить читателя глубже изучить теорию вероятностей, на языке которой формулируются Статистические теоремы, многие главы завершаются вероятностным^ парадоксом или занимательным экспериментом. Основа, подлинное содержание всякого познания доставляется именно наглядной концепцией мира, которая может быть добыта лишь нами самими и отнюдь не может быть как-либо преподана извне. Артур Шопенгауэр, «Афоризмы житейской мудрости* Студент — это не гусь, которого надо нафаршировать, а факел, который нужно зажечь.
6 К читателю То, что вы были вынуждены открыть сами, оставляет в вашем уме дорожку, которой вы можете снова воспользоваться, когда в этом возникнет необходимость. Г. Лихтенберг, «Aphorismen», Berlin, 1902-1906 При изложении математического рассуждения мастерство заключается в умении дать образованному читателю возможность сразу, не заботясь о деталях, схватить основную идею; последовательные дозы должны быть такими, чтобы их можно было глотать «с ходу»; в случае неудачи или если бы читатель захотел что-либо проверить, перед ним должна стоять четко ограниченная маленькая задача (например, проверить тождество; две пропущенные тривиальности могут в совокупности образовать непреодолимое препятствие). Дж. Литлвуд, «Математическая смесь» Всякое человеческое познание начинается с созерцаний, переходит от них к понятиям и заканчивается идеями. И. Кант, «Критика чистого разума» Следующим принципом обучения является Активность По-настоящему разобраться в некоторой теории можно лишь самостоятельно решая задачи из данной области. Пассивного чтения даже хорошего учебника, увы, недостаточно для подлинного овладения предметом. Каждая глава этой книги (за исключением дополнительных глав 22-26) содержит задачи (с решениями). Они обычно упорядочены по сложности, самые трудные отмечены звездочкой. Автор надеется, что читатель попробует решить некоторые из заинтересовавших его задач или, хотя бы, разберет решения, так как в них содержится значительная часть материала. Кроме того, по ходу изложения встречаются контрольные вопросы, ответы на которые приведены в конце соответствующей главы. Возможность активного усвоения материала во многом определяется стилем его изложения. Наконец, третий принцип - фаз обучения - это соблюдение последовательности Исследование —► формализация —► усвоение Важно начинать новую тему с содержательных примеров, чтобы можно было «потрогать руками», прочувствовать ситуацию. Можно попробовать придумать какой-нибудь способ решения проблемы лишь на основе здравого смысла. Если он на самом деле окажется бесполезным, то это лишь подтвердит важность теории, позволяющей получить приемлемое решение. Абстрактные определения становятся по-настоящему понятны лишь тогда, когда они используются при решении конкретных задач в различных моделях. В книге «Теория катастроф» В. И. Арнольд пишет: «Абстрактные определения возникают при попытках обобщить «наивные» понятия, сохраняя их основные свойства. Теперь, когда мы знаем, что эти попытки не приводят к реальному расширению круга объектов (для многообразий это установил Уитни, для групп — Кэли, для алгоритмов — Черч), не лучше ли в преподавании вернуться к «наивным» определениям? (...) Пуанкаре подробно обсуждает методические преимущества наивных определений окружности и дроби в «Науке и методе»: невозможно усвоить правило сложения дробей, не разрезая, хотя бы мысленно, яблоко или пирог.» При написании этой книги автор старался следовать указанным принципам обучения. Вероятно, какие-то методические приемы окажутся полезными преподавателям статистики, хотя, безусловно справедливо утверждал Козьма Прутков, что У всякого портного свой взгляд на искусство!
Часть I ВЕРОЯТНОСТЬ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ Глава 1 ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН В основе математической статистики лежит теория вероятностей. Аксиоматика теории вероятностей была разработана А. Н. Колмогоровым (опубликована в 1933 г.). Читателю, возможно, известны такие основные понятия этой теории, как независимость событий или математическое ожидание случайной величины. Тем не менее, будет полезно напомнить самое необходимое для дальнейшего изложения (см. также приложение Ш*) и учебники [19], [39], [90] в списке литературы). § 1. ФУНКЦИИ РАСПРЕДЕЛЕНИЯ И ПЛОТНОСТИ Пример 1. Измерим время ξ от первого включения до перегорания электрической лампочки. Пример 2. Подбросим монетку. Если она упадет гербом вверх, будем считать, что ξ = 1, иначе положим ξ = 0. Обобщая эти примеры, представим, что проводится эксперимент, результат которого (действительное число ξ) зависит от случая. Как охарактеризовать случайную величину £, дать вероятностный закон ее поведения? Допустим, что возможно повторить эксперимент несколько раз. Обозначим через £ι,...,£η полученные при этом значения. Тогда для произвольной точки χ на прямой можно подсчитать νη — количество значений, попавших левее χ (рис. 1). Предположим, что существует некоторое число, к которому будет приближаться частота vnjn при неограниченном увеличении п. Естественно рассматривать это число как вероятность того, что ξ не больше, чем х. Обозначим эту вероятность через Ρ (ξ ^ χ). (Формальные определения понятий вероятности и случайной величины приведены в Ш.) Пример 3. На рис. 2 показан график частоты появлений буквы «а» в стихотворении М. Ю. Лермонтова «Бородино». Размах Вероятность — это важнейшее понятие в современной науке особенно потому, что никто совершенно не представляет, что оно означает. Бертран Рассел, из лекции, 1929 г. Читал ли что-нибудь? Хоть мелочь? Репетилов в «Горе от ума» А. С. Грибоедова Сперва аз да буки, а там и науки. Р: Probabilitas (лат.) — вероятность. *) П1 обозначает ссылку на раздел 1 приложения.
8 Глава 1. Характеристики случайных величин Рис. 2 t · 0,08 0,06 0,04 ( \ 500 1000 1500 » -ш—·—· 1 ► 2000 25^00 " колебаний частоты быстро уменьшается, она стабилизируется ца уровне чуть большем, чем 0,06. В таблице приведены вероятности, с которыми встречаются в большом по объему тексте буквы русского алфавита, включая «пробел» между словами (данные взяты из [92, с. 238]). Отметим, что итоговая частота появлений буквы «а» в стихотворении «Бородино», равная 162/2461 « 0,066, лишь незначительно отличается от соответствующей вероятности 0,062. 0,175 Ρ ; о,040 я 0,018 X 0,009 о 0,090 в 0,038 ы 0,016 ж 0,007 е, ё 0,072 л 0,035 3 0,016 ю 0,006 а 0,062 к 0,028 ь, ъ 0,014 ш 0,006 и 0,062 м 0,026 б. 0,014 Ц 0,004 τ 0,053 д 0,025 г 0,013 щ 0,003 н 0,053 π 0,023 ч 0,012 э 0,003 0,045 У 0,021 й 0,010 Φ 0,002 Зафиксируем η и рассмотрим поведение частоты vnjn при изменении «границы» χ (см. рис. 1). При сдвиге точки χ вправо, количество значений £ι,... ,£п, оказавшихся левее #, будет увеличиваться. Поэтому вероятность Р(£ ^ х) (как предел частоты) будет неубывающей функцией от #, которая стремится к 1 при χ —► + оо и стремится к 0 при χ —► — оо. -If i—!-► Определение. Функция F^(x) = Ρ (ξ ^ χ) называется функцией α " с распределения случайной величины £. Рис. 3 Зная F^(x), можно найти вероятность попадания ξ в любой промежуток (а,Ь] на прямой (рис. 3): Р(а < £^ Ь) = Ρ(ξ О) - Ρ(ξ < а) = F*(b) - F€(a). Если функция распределения F^(x) имеет разрыв в точке с, то К°кП,£о доказать величина скачка Fe(c) - F€(c-) равна формально, используя свойство непрерывности ρ(ξ = β) = ρ{ξ ^ с) _ ρ{ξ < с)
§ 1. Функции распределения и плотности 9 Случайные величины мы будем задавать с помощью функций распределения. Определение. Случайная величина η равномерно распределена на отрезке [0,1], если {О при χ < О, χ при 0 < χ < 1, 1 при χ ^ 1. Такое распределение соответствует выбору точки наудачу из отрезка [0,1], поскольку для любых 0 ^ а < Ь ^ 1 вероятность попадания значения η в отрезок [а, Ь] равна его длине Ь — а (рис. 4). Определение. Случайная величина г называется показательной с параметром λ > 0, если *«-{!..- при χ ^ 0, Хх при ж > 0. График функции распределения FT(x) приведен на рис. 5. Показательное распределение можно использовать для описания времени эксперимента из примера 1. Определение. Если существует такая функция Ρξ(χ) > 0, что для произвольных а < Ь ь Ρ(α<ξ<6)= Lfc(a)<fc, Рис. 5 Вопрос 2. Чему равна Р(т > 3/λ) точно и приближенно? Ρ(α<Ξξ<:6) υ=Ρξ(χ) то говорят, что случайная величина ξ (или ее распределение вероятностей) имеет плотность Ρξ(χ) (рис. 6). Когда плотность существует, ее можно найти дифференцироваг нием функции распределения: / \ d А? / \ ν Ft(x + Δχ) - Ft(x) Таким образом, плотностью равномерной величины η является функция /[о, ι] (здесь и далее Ια обозначает индикатор множества А: 1а(х) = 1 при χ € А, 1а(х) = 0 при χ £ А), & плотностью показательной величины г служит рТ(х) = λβ~λχ/[ο, +οο) (рис. 7). Не у всякой случайной величины есть плотность. Например, ее нет у дискретных (принимающих конечное или счетное ) число значений) величин. Такова определяемая ниже бернуллиевская случайная величина. *) Множество называют счетным, если его элементы можно перенумеровать натуральными числами. У = Рг(х) Рис.7 Я. Бернулли (1654-1705), швейцарский математик.
10 Глава 1. Характеристики случайных величин 1 \-р y = Fc(x) ►! О1 1 χ Рис. 8 Вопрос 3. Как выглядит график функции распределения дискретной случайной величины ξ, принимающей значения х\ < Х2 < ... с соответствующими вероятностями р± ,рг, · · ·? Рис. 9 Определение. Случайная величина ζ имеет распределение Берну лли с вероятностью «успеха» ρ (0 ^ ρ ^ 1), если она принимает значения 0 и 1 с такими вероятностями: Ρ (ζ = 0) = 1 — ρ иР« = 1)=р. График функции распределения Fq(x) бернуллиевской случайной величины ζ приведен на рис. 8. Распределение Бернулли при ρ = 1/2 годится как вероятностная модель эксперимента из примера 2. Значение ρ φ 1/2 отвечает случаю несимметричной монеты. §2. МАТЕМАТИЧЕСКОЕ ОЖИДАНИЕ И ДИСПЕРСИЯ Не всегда требуется полная информация о случайной величине £, выражающаяся в ее функции распределения F^{x), Иногда достаточно знать, где располагается область «типичных» значений £. Одной из важных характеристик «центра» этой области является математическое ожидание. Проблема. На тонком стержне (числовой прямой) в точках с координатами Хк находятся массы гпк (рис. 9). Где следует выбрать точку а крепления стержня к вертикальной оси, чтобы минимизировать момент инерции относительно нее 1а = Σ (xk — α)2ιη*? Оказывается, точку крепления стержня надо поместить в центр масс с = Σχ*>™>ΐΰ/Σπι*: (см· задачу 1). Вероятностными аналогами центра масс с и момента инерции относительно него 1С служат математическое ожидание и дисперсия. Определение. Для дискретной случайной величины £, принимающей значения #ι,#2ί··· с соответствующими вероятностями РьР2) · · ·, математическим ожиданием называется число М£ = 5>*Р*. (1) к Например, для бернуллиевской случайной величины ζ имеем Μζ = 0·(1-ρ) + 1·ρ = ρ. Определение. Когда у случайной величины ξ есть плотность Ρζ(χ), ее математическое ожидание вычисляется по формуле +оо Μξ= χρξ(χ)άχ. (2) Для показательной случайной величины г нетрудно подсчитать, интегрируя по частям, что Mr = x\e~Xxdx = - у e ydy = j 0 + dy 1 λ
§2. Математическое ожидание и дисперсия 11 Рис. 10 Оба приведенных выше определения являются частными случаями следующего определения математического ожидания как интеграла Стильтьеса. Определение. Для случайной величины ξ с функцией распределения F^(x) математическим ожиданием называется +оо Щ = I xF^dx) = ton Σ Ъ №(хг) - F€(s<-i)], —oo где D = ifrax I X% %i—l | — диаметр разбиения. Рисунок 10 иллюстрирует геометрическое представление математического ожидания как разности площадей закрашенных областей со знаком «+» и знаком «—». Действительно, интегральная сумма в определении Μξ совпадает с суммой площадей (с учетом знака Xi) прямоугольников с шириной χ ι и высотой Ρξ(χΐ) ~ Ρξ(χί-ι)· При измельчении разбиения она приближается к площади (с учетом знака) закрашенной области. Геометрическое представление дает другой способ подсчета математического ожидания Mr показательной случайной величины (см. рис. 5): Mr оо оо оо = [ Р(т > х) dx = [ [1 - Fr(x)] dx = [ . -x*dx = \. Л Общее определение Μξ как интеграла Лебега приведено в приложении П2. Для случайной величины ξ, принимающей только целые неотрицательные значения: Ρ (ξ = k) = р&, k ^ 0, геометрическое представление величины Μξ (рис. 11) объясняет следующую формулу: fc=0 (3) Замечание. Математическое ожидание определено не для всякой случайной величины. Возможна ситуация, когда на рис. 10 и площадь области со знаком «+», и площадь области со знаком «—» i 1 . 1 Po+Pi- Ро- 0 ^ 1 1 » ] » » Ζ у=Щх ! 3 χ Рис. 11
12 Глава 1. Характеристики случайных величин О. Коши (1798-1857), французский математик. равны оо. В этом случае возникает неопределенность вида оо — оо. Например, для закона Коши с плотностью Ρξ(χ) = 1 /[π (1 + χ2)] каждая из площадей есть xpe(x)dx = - —^—~ dx = — т^—— 7г- b(l-fy) =оо. J ^ξν; π J 1+χ2 2π J 1 + 2/ 2π ν У)\ 0 0 0 Следовательно, Μξ не существует, несмотря на то, что 0 — nei распределения (плотность Ρζ(χ) симметрична относительно 0). ν=Ρξ(χ) Рис. 12 Вопрос 4. Как получить формулу (4) с помощью свойств математического ожидания из приложения П2? Вы давиче его мне исчисляли свойства, но многие забыли? — Да? Чацкий в «Горе от ума» А. С. Грибоедова [В слове «давеча» сохранена авторская орфография.] Обсудим теперь понятие дисперсии случайной величины. Как правило, помимо Μ ξ бывает важно знать величину типичного «разброса» значений ξ вокруг среднего. Мерой этого «разброса» может служить стандартное отклонение y/Βξ (рис. 12), где дисперсия Οξ определяется формулой Οξ = Μ(ξ-ίΑξ)\ т. е. D£ — это среднее квадрата отклонения ξ от Μξ. Для вычисления дисперсии полезно равенство Οξ = Μξ2 - (Μξ)2. (4) Для примера вычислим дисперсию бернуллиевской случайной величины ζ. Прежде всего, заметим, что ζ2 и ζ одинаково распределены. Поэтому Μζ2 = Μζ = ρπΟζ = ρ — ρ2= ρ{\ — ρ). §3. НЕЗАВИСИМОСТЬ СЛУЧАЙНЫХ ВЕЛИЧИН Обычно вероятностную модель необходимо построить не для одного эксперимента, а для серии опытов. В этом случае нередко можно предполагать отсутствие взаимного влияния разных опытов друг на друга, их независимость. Определение. Случайные величины ξι,... ,ξη называются независимыми, если для любых а* < Ь* (г = 1,... ,п) η Р(аг < & < fc, i = 1,... ,n) = JJ P(ai < & < bi). В частности, если все а* = — оо, то для произвольных я ι,..., хп Ρ (ξι < хи · · · An < Хп) = ΡξΛχι) * · · · * Ρξη(χη)- (5) Независимые равномерно распределенные на отрезке [0,1] случайные величины ryi,... ,ι/η можно считать координатами случайного вектора, равномерно распределенного в n-мерном единичном кубе. Действительно, равенство P(a,i ^Vi^bi, i = 1,... ,η) = (bi - αϊ);... · (bn - αη),
§ 4. Поиск больных 13 Рис. 13 где 0 ^ di < bi ^ 1, означает, что вероятность попадания точки (r/i,... ,77п) в произвольный параллелепипед с параллельными осям координат ребрами и находящийся целиком внутри единичного куба равна его объему (рис. 13 при η = 3). На самом деле, параллелепипед можно заменить на любое множество А, для которого определено понятие n-мерного объема. Говорят, что бесконечная последовательность {&} образована независимыми случайными величинами, если свойство независимости выполняется для любого конечного набора из них. Определение. Последовательность независимых бернуллиевских случайных величин СьСг»··· с одинаковой вероятностью «успеха» ρ называют испытаниями (или однородной схемой) Бернулли.*^ В заключение параграфа приведем интуитивно понятное утверждение, которое часто применяется при доказательстве статистических теорем. Лемма о независимости. Пусть ξι,... ,£n+m — независимые случайные величины; / и а — борелевские функции (см. приложе- Доказательство этой ' J * * ^J v ^ леммы можно найти, ние П2) на Rn и Rm соответственно. Тогда случайные вели- например, в [48, с. 53]. чины 77i = /(ξι,... ,ξη) и 772 = #(£п+ь · · · £п+гп) независимы. §4. ПОИСК БОЛЬНЫХ Применим элементарную теорию вероятностей к решению одной проблемы выявления больных (см. [82, с. 254]). Во время второй мировой войны всех призывников в армию США подвергали медицинскому обследованию. Реакция Вассер- мана позволяет обнаруживать в крови больных сифилисом определенные антитела. Р. Дорфманом была предложена простая методика, на основе которой необходимое для выявления всех больных число проверок удалось уменьшить в 5 раз! Методика. Смешиваются пробы крови к человек и анализируется полученная смесь (рис. 14). Если антител нет, то этой одной проверки достаточно для к человек. В противном случае кровь каждого человека из этой группы нужно исследовать отдельно, и для к человек всего потребуется к + 1 раз провести анализ. Вероятностная модель. Предположим, что вероятность обнаружения антител ρ одна и та же для всех η обследуемых, и результаты анализов для различных людей независимы, т. е. моделью является последовательность из η испытаний Бернулли с вероятностью «успеха» р. Допустим для простоты, что η делится нацело на к. Тогда надо проверить п/к групп обследуемых. Пусть X, — количество ο#όόοο@ο#οοο#οο Φ болен О здоров Рис. 14 \U *) Если у каждой случайной величины ζΐ своя вероятность «успеха» pi, то схему называют неоднородной.
14 Глава 1. Характеристики случайных величин Вопрос 5. Чем плох слишком большой размер группы? Вопрос 6. Какая ошибка допущена на рис. 15 в изображении графика функции Н(х) при малых р? х. \* + 1 Рис. 15 проверок, потребовавшихся в j-ft группе, j = 1,... ,η/Α;. Тогда с вероятностью (1— р)к (все к человек здоровы), с вероятностью 1 — (1— р)к (есть больные). Обозначим общее число проверок Χι + ... + Xn/k через Ζ. Задача заключается в том, как для заданного значения р*) определить размер группы ко = &о(р), минимизирующий ΜΖ. Согласно формуле (1) находим МХ1 = 1-(1-р)к + (к + 1)-[1-(1-р)к]=к + 1-к(1-р)к. Отсюда по свойствам математического ожидания (П2) имеем MZ = MX1 + ... + MXn/k = l MXi=n[l + l/fc-(l-p)fc]. κ Положим Н(х) = 1 + 1/х — (1 — р)х при χ > 0. Для близких к нулю значений ρ минимум функции Η (χ) достигается в точке #о, где хо — наименьший из корней уравнения Н'(х) = 0, т. е. уравнения 1/я2 + (1-р)*1п(1-р)=0. (6) Его нельзя разрешить явно относительно х. Поэтому, используя формулу (1 — р)х « 1—рх при малых р, заменим Н(х) на функцию Н(х) = 1 + 1/х — 1 + рх = 1/х + р#, имеющую точку минимума ^о = 1/л/р> причем Н(хо) = 2у/р. Для ρ = 0,01 получаем xq = 10 и Н(х0) = 1/5, т. е. MZ » п/5.**> Не пропускайте их, они еще не раз пригодятся в дальнейшем! Я занимался до сих пор решением ряда задач, ибо при изучении наук примеры полезнее правил. И. Ньютон, «Всеобщая арифметика» ЗАДАЧИ 1. Докажите, используя свойства математического ожидания (П2), что функция /(а) = М(£ — а)2 при а = М£ имеет минимум, равный D£. 2. Случайные величины ryi,...,ryn независимы и равномерно распределены на отрезке [0,1]. Вычислите Μη и Dfj среднего арифметического η = — (щ + ... + ηη). 3. Для случайных величин из задачи 2 найдите функцию распределения FVin)(x), Мщп) и Dr7(n), где щп) = тах{г/1,... ,r/n}. 4. Обозначим через ι/ число «неудач» до появления первого «успеха» в схеме Бернулли с параметром р. Вычислите Μ ν. Указание. Примените формулу (3). 5. Рассмотрим следующую стратегию поиска больных. Все обследуемые разбиваются на пары. Если объединенная проба крови не содержит антител, то оба здоровы. В противном случае исследуется кровь первого из них. Если этот человек здоров, то другой должен быть болен, и в таком случае достаточно двух *) Это значение можно оценить с помощью частоты выявления заболевания в предыдущих обследованиях. **) Асимптотика хо и #(#о) при ρ —► 0 исследуется в задаче 6.
Решения задач 15 тестов. Если же первый оказался больным, то кровь второго также должна быть подвергнута анализу, и поэтому потребуется три теста. Выясните, при каких значениях вероятности ρ обнаружения заболевания у отдельного обследуемого данная стратегия будет в среднем экономичнее индивидуальной проверки. 6? Пусть xq = хо(р) — наименьший из корней уравнения (6). Докажите, что хо ~ 1/\/р и H(xq) ~ 2 у/р при ρ —► 0.*) РЕШЕНИЯ ЗАДАЧ 1. С учетом свойств математического ожидания (см. приложе- Растолковать прошу, ние П2) и формулы (4) находим, что функция /(α) = Μ [ξ2 - 2αξ + а2] = Щ2 - 2аЩ + а2 = (а- Щ)2 + Οξ есть квадратный трехчлен с минимумом в точке а = М£. ι 2. Согласно формуле (2) Мщ = j xdx = 1/2. (Это можно понять о и без вычислений: плотность ρηι (χ) = 7[0, ι] симметрична относительно прямой χ = 1/2.) 1 Далее, в силу следствия из П2 имеем Μη2 = J x2dx = 1/3. о Применяя формулу (4), получаем, что ϋηι = 1/3 — 1/4 = 1/12. Наконец, согласно свойствам математического ожидания и дисперсии из приложения П2 запишем: Репетилов в «Горе от ума» А. С. Грибоедова Μη = - (Mr/i + ... + Μηη) = Мщ = ^, Οη = — (Dr/i + . + Опп) = ±*п = Ш (во второй строке использована независимость случайных величин Г/1,. .. ,77п). Обратим внимание на то, что случайные величины щ и η имеют одинаковое математическое ожидание, но дисперсия у η в η раз меньше. Эти соотношения, очевидно, выполняются и для произвольных независимых одинаково распределенных случай- QeMb отмерь а один — ных величин ει,...,εη с конечной дисперсией. Такая модель отрежь, используется для описания ошибок измерения. 3. Максимум из случайных величин r/i,..., ηη не превосходит χ тогда и только тогда, когда все щ не больше, чем χ (рис. 16), ■ поэтому 0 FV(n)(x) = P (V(n) < я) = Ρ (ηι *ζ χ,... ,7fo ^ х). г?2 ηη ηι r?(n) • · · · J χ 1 Рис. 16 *) Здесь f(p) ~ g(p) означает, что f(p)/g(p) —*■ 1.
16 Глава 1. Характеристики случайных величин п-т — -■ В силу независимости случайных величин щ из формулы (5) для χ £ [0,1] выводим, что Fn<n)(x) = Ρ(*?1 < Х) ' ··· · P(Vn < Χ) = [P(l?l ^ *)]" =*П. График соответствующей плотности Ρη(η)(χ) = dFrjin)(x)/dx = пхп-11{ъЛ] изображен на рис. 17 (для η > 2). Применяя формулу (2), вычисляем 1 1 Мг/(п) = #п#п_1<&г = η \xndx = . qqqqqpqqpq οοοοο·οο·ο 12... *... Рис. 18 Замечание. Интуитивно ясно, что длины отрезков, на которые делят [0,1] взятые наудачу η точек, распределены одинаково (см. задачу 7 из гл. 10). Поэтому самая правая из точек будет находиться в среднем на расстоянии 1/(п + 1) от 1. [Однако, наименьший из отрезков разбиения имеет длину порядка 1/п2 (задача 4 из гл. 4).] ι Наконец, Μη?, = J x2nxn~1dx = п/(п + 2), откуда в силу соотношения (4) находим, что Ощп) = п/(п + 2)- [п/(п + I)]2 = п/[(п + 1)2(п + 2)]. Замечание. Дисперсия Ощп^ с ростом п убывает намного быстрее, чем дисперсия Dfj: порядок малости первой есть 1/п2, второй — 1/п. Это связано с тем, что плотность ρηι (χ) = /[0? ц имеет разрыв в точке х = 1. Вероятность рк того, что до первого «успеха» в схеме Бернулли будет ровно к «неудач», в силу независимости испытаний равна qkp1 где q = 1 — ρ (рис. 18). Это так называемое геометрическое распределение*^ Случайная величина ν дает пример дискретной случайной величины, имеющей счетное множество значений: Р(и = к) = рь к ^ 0. Суммируя геометрическую прогрессию, находим Ρ(ι/> к) = Pk+i + Pfc+2 + · · · =qk+1p(l + q + ...) =qk+l. Применяя формулу (3), получаем Μι/ = q + q2 + q3 + ... = q/p. Пусть Yj — число проверок, потребовавшихся для j-й пары обследуемых (J = 1,2,... ,n/2), q = 1 — р. Тогда Yj = < 1 с вероятностью q2 (нет больных), 2 с вероятностью qp (первый здоров, второй болен), 3 с вероятностью (pq+p2)= p (в противном случае). *) Вероятности pk образуют геометрическую прогрессию.
Решения задач 17 Согласно формуле (1), MYj = 1 · q2 + 2 · qp + 3 · ρ = 1 + Зр — ρ2. Отсюда находим ожидаемое общее число проверок ΜΖ=ΜΥ1 + ... + ΜΥη/2 = (η/2)ΜΥι=η(1 + 3ρ-ρ2)/2. Следовательно, «парная» стратегия в среднем эффективней индивидуальной проверки, когда 1+Зр—р2 < 2, т. е. при условии, что ρ < (3 - \/Ь)/2 = 1 - κ « 0,382. Здесь κ = (у/Ь - 1)/2 « « 0,618 обозначает «золотое сечение» — пропорцию, почитавшуюся в древнегреческом искусстве и архитектуре, при которой «меньшее» относится к «большему», как «большее» к «целому»: (1-х) : к = к : 1 (рис. 19). Любопытно, что при ρ ^ 1 — κ вообще не существует стратегии проверки, которая экономичнее индивидуальной. Этот красивый результат получил в 1960 г. П. Ангар (см. [82, с. 147]). 6. Положим ε = ε(ρ) = — ln(l — ρ). Разложение логарифма в ряд при ρ —► 0 дает эквивалентность ε ~ р. Подставив ε в уравнение (6), получим 1/х2 = εβ (7) у2е~у = ε. (8) Дифференцированием устанавливается, что левая часть уравнения (8) на множестве {у ^ 0} имеет максимум Μ = 4е~2 в точке У+=2. Из рис. 20 очевидно, что при ε < Μ уравнение (8) имеет два корня: у0 = Уо{е) —► 0 и у\ = у\{ё) —► оо при ε —► 0. Покажем, что хо = yo/ε ~ l/y/ε. Для этого оценим xq снизу и сверху. Из убывания функций 1/х2 и εβ~εχ при χ > 0 (рис.21) вытекает, что в качестве оценки снизу можно взять величину х-, определяемую равенством \/х2_ = ε, т. е. #_ = l/y/ε. В качестве начальной оценки сверху возьмем #+ = 2/+/ε = = 2/ε. Уточним ее методом итераций (см. рис. 21): £e"£XL=x+=£e_2=1/^2|x=4=>< = e/Vi, Так как е^1) = 1 + о(1), имеем х0 ~ 1/\/ε ~ VVP· Для доказательства эквивалентности Н(х0) ~ 2 >/р остается подставить найденную асимптотику в формулу, определяющую функцию Н(х). 1-κ Рис. 19 Покажем, что при достаточно малых ε это уравнение имеет два корня: xq = #ο(ε) и х\ = χι(ε) — соответственно точка минимума и точка локального максимума функции Н(х) (рис. 23). Пусть у = εχ. Легко видеть, что (7) равносильно уравнению У2е-у > 2/о У+ = 2 Рис. 20 XQPC+X+ Рис. 21
18 Глава 1. Характеристики случайных величин ОТВЕТЫ НА ВОПРОСЫ Прошу мне дать ответ. Софья в «Горе от ума» А. С. Грибоедова У = Ft(x) Pk О Xk Xk+\ Рис. 22 У = Н(х) Хо Χι Рис. 23 Для меня давно уже аксиома, что мелочи — это самое важное. А. Конан Дойл, « Установление личности» 1. Возьмем Ак = (с — 1/fc, с], к = 1,2,... . Эти события вложены: Ак D i4fc+i, причем с = Г\Ак- По свойству непрерывности (Ш) ρ (ξ = с) = lim P(c - 1/fc < ξ ζ с) = F^c) - F^(c-). Отсюда к—юо заключаем, что если функция Fs(x) непрерывна, то вероятность попадания ξ в любую фиксированную точку на прямой равна 0. 2. Р(т > З/λ) = 1 - Р(т < З/λ) = 1 - FT(3/A) = е"3 w 0,05. Те, кто знаком с усиленным законом больших чисел (П6), могут отсюда заметить, что только 5% приборов с показательным временем работы до поломки служат более трех средних сроков l/λ (согласно примеру к формуле (2)). 3. См. рис. 22. 4. Используем свойства 1 и 2 математического ожидания из П2: Μ(ξ - МО2 = Μ[ξ2 -2ξΜξ-τ- (МО2] = = Щ2 - 2 (МО2 + (МО2 = Щ2 - (МО2· 5. В группе очень большого размера к почти обязательно будут присутствовать больные, и поэтому объединенная проверка станет излишней. 6. На рис. 23 изображен правильный график Н(х) в случае малого р. Действительно, Н(х) —► +оо при χ —► 0 и Н(х) —► 1 при χ —► +оо, причем в последнем случае функция 1/х убывает медленнее, чем (1 — р)х, и поэтому график Н(х) приближается к асимптоте у = 1 сверху.
Глава 2 ДАТЧИКИ СЛУЧАЙНЫХ ЧИСЕЛ Пусть г/1,7/2,.. . — координаты точек, взятых наудачу из отрезка [0,1], т.е. независимые и равномерно распределенные на отрезке [0,1] случайные величины. Проблема. Как построить числовую последовательность yi,y25 · · ·> которую можно было бы рассматривать как реализацию случайных величин г/1,7/2,...? Элементы такой последовательности называются псевдослучайными числами, а устройства (или алгоритмы) для их получения — датчиками. Бросая в воду камешки, смотри на круги, ими образуемые; иначе такое бросание будет пустою забавою. Козьма Прутков § 1. ФИЗИЧЕСКИЕ ДАТЧИКИ Простейшим физическим датчиком является, вероятно, рулетка и подобные ей устройства. Рассмотрим вращающуюся с малым трением вокруг оси стрелку, конец которой описывает окружность единичной длины (рис. 1). Раскручивая повторно стрелку, будем получать в качестве уьУ2> · · · координаты конца стрелки в местах остановок. Другой датчик основан на следующем утверждении из теории вероятностей (см. [12, с. 242], [39, с. 49]). Утверждение. Для того, чтобы случайная величина η была равномерно распределена на [0,1] необходимо и достаточно, чтобы оо разряды Сг ее двоичной записи (т. е. η = Σ 2~г£) образовывали г=1 схему Бернулли с вероятностью «успеха» ρ = 1/2 (см. § 3 гл. 1). Таким образом, для получения одного псевдослучайного числа с точностью до 2~п можно подбросить симметричную монетку п раз и сложить 2~г для тех г (г = 1,... ,п), при которых выпадал герб. Вместо монетки можно использовать шум в электроприборах (см. [58, с. 269]). Обозначим через Ti моменты времени, когда шум переходит некоторый пороговый уровень С снизу вверх или сверху 0,25 Вопрос 1. Как с помощью ζι>С2,· · · построить бесконечную последовательность независимых равномерно распределенных на [0,1] случайных величин 77ь?72,·--?
20 Глава 2. Датчики случайных чисел Рис. 2 Вопрос 2. Обратно, как из щ ,7/2, · · · получить схему Бернулли СьСг,··· с заданной вероятностью «успеха» р? вниз (рис. 2). Положим & равной 0 или 1 в зависимости от того, перейден ли порог во время первой или во время второй половины цикла электронных часов, у которых длина цикла At намного меньше, чем среднее время между переходами шума через уровень С. Этим и другим физическим датчикам свойственны следующие общие недостатки: 1) для работы датчиков необходимо специальное оборудование, которое обычно требует тщательной настройки; 2) опыт, использующий генерируемые физическим датчиком числа, не воспроизводим в том смысле, что нельзя получить те же самые yi,2/2, · · · при его повторном проведении; 3) физические датчики плохо совместимы с компьютерами, так как время получения псевдослучайных чисел несоизмеримо велико по сравнению со скоростью расчетов. Для преодоления этих недостатков используют таблицы случайных чисел и математические датчики. Т1 обозначает табл. 1 в конце книги. Рис. 3 §2. ТАБЛИЦЫ СЛУЧАЙНЫХ ЧИСЕЛ Таблица случайных чисел представляет собой зафиксированные результаты работы некоторого датчика. Обычно она имеет вид последовательности псевдослучайных цифр, разбитых на группы для удобства использования (см. Т1). Каждый может составить собственную таблицу, вынимая из шляпы бумажки с номерами от 0 до 9 или подбрасывая правильный икосаэдр, у которого каждая из цифр нанесена на 2 из 20 граней (рис. 3). Как с помощью такой таблицы получать псевдослучайные числа? Сначала выберем наугад первое число; для чего можно, не глядя в таблицу, загадать номера строки и столбца. Соответствующий набор цифр принимается в качестве знаков после запятой в десятичном представлении у\. Например, загадав в таблице Т1 строку 1 и столбец 2, получим у\ =0,09.
§ 3. Математические датчики 21 Далее, начиная с выбранного места, будем считывать таблицу по столбцу (по строке или в любом другом порядке, который не зависит от содержания таблицы) и получать уг> 2/з> · · · · Так, считывая Т1 вниз по столбцу, генерируем Vi = 0,09; у2 = 0,54; у3 = 0,42; у4 = 0,01; ... Если требуются псевдослучайные числа с точностью не до двух, а до четырех знаков после запятой, то нужно считывать также и пары цифр, расположенные в соседнем столбце: уг = 0,0973; у2 = 0,5420; у3 = 0,4226; у4 = 0,0190; ... При всей своей простоте использование таблицы случайных чисел может приводить к неверным заключениям (см. § 5), да и сама таблица может оказаться недостаточно качественной. В книге [72) в качестве случайных цифр предлагаются 20000 знаков после запятой в десятичном представлении числа π. Однако среди первых 10000 цифра 0 встречается только 937 раз. Согласно центральной предельной теореме (П6) для независимых равновероятных цифр такое может наблюдаться не чаще, чем в двух случаях из ста (см. также задачу 2 гл. 18). Таблицы случайных чисел неудобны для использования в компьютерных программах тем, что требуют для своего хранения довольно много оперативной памяти. По этой причине для генерации псевдослучайных чисел чаще применяют так называемые математические датчики. §3. МАТЕМАТИЧЕСКИЕ ДАТЧИКИ Эти датчики обычно представляют собой рекуррентные алгоритмы, генерирующие число уп по предыдущему числу yn-i- Рассмотрим вначале простой, но довольно «плохой» датчик — метод середины квадрата (Дж. фон Нейман, 1946). Зададим произвольное четырехзначное*) число ко. Например, пусть ко = 8473. Вычислим к$ = 71791729. Выделив средние 4 цифры, получим к\ = 7917. Положим у\ = к\ · 10~4 = 0,7917. Затем вычислим к\ = 62678889. Тогда к2 = 6788, у2 = 0,6788 и т. д. Ясно, что 1) выбор числа ко полностью определяет всю последовательность 2/1,2/2»···; 2) процесс зациклится не позднее, чем через 104 шагов (существует число, которое сразу воспроизводит самое себя: 37922 = 14379264); 3) можно так неудачно задать ко (например, 1000 или 0085), что уп = 0, начиная с некоторого п. Более сложный и часто используемый на практике мультипликативный датчик работает по следующей схеме. Задаются стартовое число к0 (например, 1), множитель т и делитель d. Далее *) Чтобы молено было использовать 8-разрядный калькулятор.
22 Глава 2. Датчики случайных чисел Здесь запись «a mod 6» обозначает остаток от деления α на 6. Рис. 4 последовательно вычисляются уь уг> · ■ А:п = (ш · A:n_i) mod d, по формулам J кп = {т-к, \уп = kn/d. (1) Какие значения можно рекомендовать для чисел га и d? Выбор простого числа с? = 231 — 1 = 2147483647 предпочтителен для тех компьютеров, которые позволяют использовать 32 двоичных разряда для представления целых чисел. Множитель га выбирают так, чтобы последовательность fci, Afe,..., прежде чем зациклиться, пробегала все возможные значения от 1 до d — 1. В результате изучения статистических свойств датчика для различных множителей Дж. Фишман и Л. Мур предложили использовать, в частности, га = 630360016 или га = 764261123 (см. [58, с. 271]). В программном обеспечении иногда встречаются быстро работающие, но недостаточно качественные датчики. Так, датчик RAND из библиотеки STDLIB Borland C++ зацикливается всего через 232 шага. В [31, с. 190] анализируется датчик RANDU (d = 231,га = = 216 + 3 = 65 539), вошедший в SSP — библиотеку научных программ для IBM-360. Оказывается, что все точки с координатами (Узп-2)Узп-ъУзп) располагаются в точности на одной из 15 плоскостей вида 9узп-2 - бузп-i + Узп = &> где к = -5,... ,9, вместо того, чтобы равномерно плотно заполнять единичный трехмерный куб (рис. 4)*^. В заключение, рассмотрим датчик (см. [58, с. 272]), который был исследован Б. Уичманом и И. Хил лом в 1982 г. Чтобы получить уп, запустим одновременно три мультипликативных датчика с параметрами rfi =30269, d2 = 30307, d3 = 30323, rai = 171; ra2 = 172; ra3 = 170. Каждый из них на n-м шаге генерирует у^, у^ и у'^ соответственно. Положим уп = {у'п + у'п + Уп}·) гДе {'} обозначает дробную часть действительного числа. Этот датчик имеет период около 3 · 1013, что значительно превосходит период датчика Фишмана и Мура 231 — 2 и на компьютере он работает в несколько раз быстрее. 2 · 109, Природе разума свой- § 4. СЛУЧАЙНОСТЬ И СЛОЖНОСТЬ ственно рассматривать но^акНнеобходиУмыеНЫе' Проблема построения псевдослучайных чисел волновала в XX веке б. Спиноза, «Этика», многие умы. Фон Мизес рассматривал бесконечные последователь- часть 2, теорема XLIV НОСТИ, у КОТОрЫХ чаСТОТЫ СИМВОЛОВ СТабиЛИЗИруЮТСЯ ПО ПОДПО- следовательностям. Какими подпоследовательностями при этом *) Легко проверить, что 9кзп-2 — 6/сзп-1 + кзп = 0 mod 231
§ 4. Случайность и сложность 23 разумно ограничиваться — вопрос, который уточнял Черч. Принципиально иной подход предложил А. Н. Колмогоров. Он провел параллель между случайностью и алгоритмической сложностью: случайным выглядит то, что очень сложно получить. Кстати, на волновавший одно время общественность вопрос о возможности получения кодированной информации из других миров А. Н. Колмогоров отвечал, что если уровень развития иных космических цивилизаций намного выше земного, то сообщения от них будут восприниматься как случайный сигнал. Приведем отрывок из [72, с. 177] о связи между случайностью и сложностью. «В связи с псевдослучайными числами возникает следующий вопрос. В каком смысле их можно считать случайными, если они получены с помощью детерминированных (неслучайных) алгоритмов? В 1965-66 гг. Колмогоров и Мартин-Леф представили понятие случайности в новом свете. Они определили, когда последовательность из 0 и 1 можно считать случайной. Основная идея состоит в следующем. Чем сложнее описать последовательность (т. е. чем длиннее «самая короткая» программа, конструирующая эту последовательность), тем более случайной ее можно считать. Длина «самой короткой» программы, естественно, различна для разных компьютеров. По этой причине выбирают стандартную машину, называемую машиной Тьюринга. Мерой сложности последовательности является длина наиболее короткой программы на машине Тьюринга, которая генерирует эту последовательность. Сложность — мера иррегулярности. Последовательности, длина которых равна N, называются случайными, если их сложность близка к максимальной. (Можно показать, что большинство последовательностей именно таковы.) Мартин-Леф доказал, что эти последовательности можно считать случайными, так как они удовлетворяют всем статистическим тестам на случайность. Таким образом, сложность и случайность тесно взаимосвязаны. Если программист собирается получать «настоящие» случайные числа, то в силу результатов Колмогорова и Мартин-Лефа он сможет это сделать только с помощью достаточно длинной программы. В то же время на практике генераторы случайных чисел очень короткие. Как совместить эти два факта?» Что кажется подчас лишь случаем слепым, то рождено источником глубоким. Ф. Шиллер На практике в отношении к математическим датчикам в основном господствует «презумпция случайности»: алгоритм используют, если не установлено, что он «плохой». Почти каждый датчик выдает приемлемые по качеству псевдослучайные числа в количестве нескольких десятков или сотен. Однако при моделировании случайных процессов порой приходится генерировать многие тысячи чисел. Непросто найти датчик, чтобы на таких длинных последовательностях существующие методы проверки (см. § 2, гл. 12) его не забраковали.
24 Глава 2. Датчики случайных чисел §5. ЭКСПЕРИМЕНТ «НЕУДАЧИ» В [82, с. 29] приведен пример задачи, при попытке решения которой с помощью таблицы случайных чисел возникает интересный парадокс. ЗАДАЧА. Пусть Xq обозначает величину моей «неудачи» (скажем, время ожидания в очереди, сумму штрафа или других финансовых потерь). Предположим, что мои знакомые подвергли себя опыту того же типа. Обозначим размеры их «неудач» через Χι, Хг, · · · · Сколько (в среднем) знакомых придется мне опросить, пока не встретится человек, размер неудачи которого не меньше, чем у меня? Формализуем задачу. Допустим, что Xq , Х\,... — независимые величины с одной и той же непрерывной функцией распределения. Введем случайную величину N = min{n ^ 1 : Хп ^ Хо}· Чему равно математическое ожидание МЛГ? Как будет показано ниже, ответ не зависит от того, какое именно непрерывное распределение имеют случайные величины Хп, поэтому будем считать, что они равномерно распределены на отрезке [0,1]. Имея в виду усиленный закон больших чисел (П6), попытаемся эмпирически оценить МЛГ средним арифметическим значений щ, получаемых при моделировании ситуации с помощью таблицы Т1. Сначала разыграем значение #0, выбирая наугад некоторое число в таблице. Пусть, скажем, это будет третье число в первой строке. Тогда xq = 0,73. Для моделирования #ι,#2,··· будем считывать таблицу от выбранного числа вниз по столбцу. Получим χι = 0,20, Х2 = 0,26, хз = 0,90. Этого достаточно, так как 0,90 ^ 0,73, поэтому πι = 3. Повторив опыт к раз, можно оценить Вопрос 3. МЛГ с помощью η = (πι + ... + Пк)/к. 4βΜν°ΜΒΗο°^?Τ ра3 ^ теперь найдем ответ теоретически. Из непрерывности распределения величины Хп следует, что P{Xq = Хп) — 0 при η ^ 1 (см. вопрос 1 гл. 1). Поэтому неравенство в определении случайной величины N можно заменить на строгое. Далее, Р(ЛГ > п) = Р(Х0 = тах{Х0Л,... Л»})· (1) Если под знаком вероятности заменить Xq (слева от равенства) на любую из Xi, г = 1,... ,п, то вероятность, очевидно, не изменится. Поэтому вероятность того, что именно Xq окажется наибольшей среди Xq^Xi, ... ,ХП, равна 1/(1+п) (и не зависит от распределения при условии его непрерывности). Поскольку случайная величина N принимает только целые неотрицательные значения, то, согласно формуле (3) гл. 1, получаем MiV = !o;rhi = l + i + ! + i + ... = oo, (2) так как гармонический ряд расходится (см. [46, с. 14]). Чему равно п?
§5. Эксперимент «Неудачи» 25 Почему же попытка оценить МЛГ с помощью моделирования приводит к результату, совершенно не похожему на теоретический ответ? Этому можно дать несколько объяснений. Прежде всего, используя псевдослучайные числа, округленные до двух знаков после запятой, мы неявно непрерывную модель заменяем дискретной: Р(Хп = г/100) = 0,01, г = 0,..., 99. Поэтому Р(Х0 = Хп) Φ 0 при η ^ 1 и юо ι ΜΝ=Σ^, (3) 71=1 П где, в отличие от формулы (2), суммирование членов гармонического ряда идет до 100, а не до оо (см. задачу 4 ниже). Воспользовавшись тем, что оо lim (У) lnra ) = 7 = - е~х Inxdx « 0,577, m-°° \η=ι п ) J о где 7 обозначает постоянную Эйлера, получаем, что MN « In 100 + 7 « 4,605 + 0,577 « 5,2. Однако обычно моделирование дает еще меньшее значение. Это происходит потому, что иногда экспериментатор, неудачно выбрав Xq (например, 0,98), не желает долго ждать появления еще большего псевдослучайного числа и выбирает другое xq — поменьше. Тем самым он производит подгонку данных и, отбрасывая большие значения гц, занижает результат. Еще одной причиной несоответствия теории и моделирования является малый размер выборки. Дело в том, что на результат эксперимента сильно влияют редкие события — появления очень близких к 1 значений xq, которые обычно не происходят при малом числе испытаний. Замечание. Используя в эксперименте псевдослучайные числа, округленные до к знаков после запятой, получим MN « к In 10 + 7, т. е. результат зависит от точности представления чисел χο,χι,... . Эта ситуация напоминает тот факт, что длина береговой линии, измеряемая по карте, зависит от ее масштаба (рис. 5). Таблица случайных чисел аналогична так называемым фракталам — геометрическим объектам, сколь угодно малые части которых подобны целому.*^ Куда как чуден создан свет! Фамусов в «Горе от ума» А. С. Грибоедова Л. Эйлер (1707-1783), швейцарский математик, механик, физик и астроном. В 1727-1741, 1766-1783 гг. работал в России. Рис. 5 Правильно в философии рассматривать сходство даже в вещах, далеко отстоящих друг от друга. Аристотель *) См., например, А. Д. Морозов «Введение в теорию фракталов», Москва- Ижевск: Институт компьютерных исследований, 2002.
26 Глава 2. Датчики случайных чисел §6. ТЕОРЕМЫ СУЩЕСТВОВАНИЯ И КОМПЬЮТЕР Рис. β Верится с трудом... Чацкий в «Горе от ума» А. С. Грибоедова Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. Дж. Бокс Книга книгой, а своим умом двигай. Рис.7 Приведем пример из области численного решения дифференциальных уравнений из [5, с. 85], показывающий, что нужно с осторожностью относиться к компьютерным вычислениям. Для приближенного решения задачи Коти Гу'(я) = /(я,у), I У(хо) = Уо можно использовать метод Эйлера: Уг+ι = Уг + hf(xilyi)^ Xi+\ = = Xi + ft, где ft > 0 —некоторый малый шаг (см. [6, с. 430]). Рассмотрим пример. Пусть /(#,у) = —ж/у, у(—1) = 0,21. График численного решения с шагом ft = 0,1 приведен на рис. 6. На самом деле, правая часть уравнения —х/у имеет разрыв при у = 0, поэтому теоретическое решение у = ^/1,0441 — х2 (переменные разделяются) не может быть продолжено в полуплоскость у < 0. При yi « 0 касательная имеет большой наклон и метод Эйлера «перепрыгивает» на другую интегральную кривую. ЗАДАЧИ 1. Попробуйте придумать «свой» датчик случайных чисел (важно не качество датчика, а оригинальность идеи). 2. Случайные величины 771,772,... — независимы и равномерно распределены на [0,1]. Положим К = {п ^ 2: 771 > 772 > · · · > Vn-i < Vn}, т. е. (К — 1) —длина «нисходящей серии». а) Смоделируйте 20 значений случайной величины К с помощью таблицы Т1 и оцените МК их средним арифметическим. б) Найдите Μ К теоретически. Указание. Вычислите вероятность Ρ (К > п) и примените формулу (3) гл. 1. 3. Выполните то же самое для случайной величины L, где L = min{n ^ 2: 771 + ... + Г7п > 1} (рис. 7). Указание. Для нахождения вероятностей P(L > η) используйте формулу свертки (см. ПЗ). 4. Докажите формулу (3) с помощью свойств условного математического ожидания (П7): а) вычислите М(ЛГ | Х0 = #о) = Σ Р(^ > η \ Х0 = #ο)> ~ п=о б) найдите ΜΝ по свойству 1 из П7.
Решения задач 27 5? Пусть случайная величина Μ равномерно распределена на множестве {1,2,... ,п}: Р(М = га) = 1/п, га = 1,... ,п. Случайная величина J равна остатку от деления η на, М. Найдите lim P( J ^ М/2). Рис. 8 Замечание. Ввиду рис. 8 кажется правдоподобным, что при увеличении η распределение J будет приближаться к равномерному на множестве {0,1,... ,М — 1}, и, следовательно, искомая Вопрос 4. вероятность должна стремиться к 1/2. Однако на самом деле в ?ем заключэется этот предел равен примерно 0,386. РЕШЕНИЯ ЗАДАЧ 1. По-видимому, можно считать случайными последние четыре цифры номеров телефонов из записной книжки. 2. Используя строки таблицы Т1, начиная с первой, получим к\ = 3, &2 = 2,..., к\ + ... + &2о = 64» оценка для МАГ равна 3,2. Ввиду симметрии любой порядок 771,..., г)п равновозможен. Поэтому Р(К > п) = P(r/i > 772 > · · · > Ήη) = 1/п\. Отсюда ОО ОО ι по формуле (3) гл. 1 имеем ЬЛК = Σ Р(К > η) = Σ ~τ = Λ ~. Λ п=0 п=0 = е « 2,718. 3. Так же, как и в предыдущей задаче, для моделирования используем строки таблицы Т1. Получим 1\ = 4, /г = 3..., /ι + ... + /го = 55, оценка для ML равна 2,75. Пусть Sn = 771 + ...+ ηη. Тогда P(L>η) = Ρ(5η^ 1) = FSn(l). Докажем по индукции с помощью формулы свертки (ПЗ), что функция распределения Fsn(x) = хп/п\ при 0 ^ χ ^ 1. (При произвольных χ функция распределения Fsn (x) задается формулой (4) гл. 4.) База. При η = 1 функция распределения Fsx (χ) = Fm (x) = #, O^x^l. Шаг. Так как Sn — Sn—i + ?7п> ГДО Sn—i и τ\η независимы, то +оо χ Если на клетке слона прочтешь надпись «буйвол», не верь глазам своим. Козьма Прутков Подставив х = 1, находим P(L > η) = 1/п!. Следовательно, случайные величины L и К из задачи 2 одинаково распределены, ML = ЬЛК = е. Иное (геометрическое) решение вытекает из того, что подмножества точек n-мерного единичного куба, удовлетворяющие неравенствам χχ + ... + хп ^ 1 и х\ ^ х^ ^ ... ^ #п, представляют собой n-мерные симплексы*): первому из них, *) Вершинами произвольного n-мерного симплекса служат (п + 1) точек из пространства Мп, не лежащие ни в какой (п — 1)-мерной гиперплоскости.
28 Глава 2. Датчики случайных чисел помимо начала координат (0,... ,0), принадлежат вершины куба вида (0,... ,0,1,0,... ,0), а второму — вида (1,... ,1,0,... ,0) (рис. 9 для η = 3). Линейное преобразование с верхнетреугольной матрицей Ζ1 1 о ι \о ... о υ отображает первый симплекс на второй. Якобиан преобразования (П9) равен 1, поэтому объемы не изменяются. При решении задачи 2 было установлено, что второй симплекс имеет объем 1/п!. 4. Используем независимость и равномерную распределенность на множестве {0; 0,01; ...; 0,99} случайных величин Х0> · · · > Хп- P(N>n\X0 = x0) = = Ppfi < а?о,..., Хп < хо\Хо = хо) == η = Ρ(Χι < So, . . . , Хп < Χθ) = Π Р(Хг < Хо) = Хо- г=1 Отсюда находим Μ(Ν\Χ0 = хо) = Σ χο = τ~Ζ—· Наконец, n=o L х° усредняя по жо, докажем формулу (3): ΜΝ = Σ M(N\X0 = хо)Р(Хо = хо) = хо Л 0,99 Л 100 ! = J_ у L_ = Τ - 100/^п1-ж0 эт_1 η* xq=0 n=l 5. Пусть /д/ = 2п/М — 2 [п/М], где [ · ] — целая часть числа. Так как п = Μ [η/Μ] + J, то 0 ^ 1М = 2 J/M < 2. Отсюда [/м] = 2гг1 _^ In] _ 12J] _ \ 1, mJ LMJ~LMJ~\o, если J^M/2, если J < Μ/2. В соответствии с формулой полной вероятности (П7) запишем P(J > М/2) = - £ [/т] = - Σ Γί—1 - 2 ί-2-1 V
Ответы на вопросы 29 При η —► оо эта сумма стремится к интегралу 1 l/m О l/(m+l) =^Ife-^)=2(rbri+···)· Из разложения ln(l -f χ) = χ — χ2/2 + #3/3 — ж4/4 +... получаем, что искомый предел равен 2 In 2 — 1 « 0,386. ОТВЕТЫ НА ВОПРОСЫ 1. Запишем СъС2>··· по диагоналям и по каждой ϊ-й строке построим свою случайную величину щ: VI <-&>С2>С4,С7, ··· V2 <~ Сз»Сб>С8> ··· VS <-Сб,С9, ··· 2. Если щ ^ р, то положим & = 1, иначе ζ» = 0 (рис. 10). 3. Обычно получается результат около 2 или 3. 4. На рис. 8 изображен случай, когда Μ много меньше п. Однако, О для всех Μ > 2п/3 (что происходит с вероятностью 1/3) справедливо неравенство J < Μ/2 (рис. 11). Μη 2Μ Рис. 11
Глава 3 МЕТОД МОНТЕ-КАРЛО — Думаю, вам не стоит беспокоиться, — сказал я.—До сих пор всегда оказывалось, что в его безумии есть метод. — Лучше бы было сказать, что есть безумие в его методе, — пробормотал инспектор. А Конан Доил, «Записки о Шерлоке Холмсе» Замечательно, что науке, начинавшейся с рассмотрения азартных игр, суждено было стать важнейшим объектом человеческого знания. Лаплас, «Аналитическая теория вероятностей» П. Лаплас (1749-1827), французский математик У = φ(χ) ^Δ ν/1 О .τ, Рис. 1 Б. Тейлор (1685-1731), английский математик. В широком смысле методом Монте-Карло называется численный метод решения математических задач при помощи псевдослучайных чисел. Его название происходит от города Монте-Карло в княжестве Монако, знаменитого своими игорными домами. § 1. ВЫЧИСЛЕНИЕ ИНТЕГРАЛОВ Знакомство с методом начнем с рассмотрения задачи численного интегрирования функции φ(χ), заданной на отрезке [0,1]. Как ι вычислить приближенно интеграл I = Ιφ{χ)άχΊ Пожалуй, про- о стейший способ — метод прямоугольников. Он состоит в замене I г 1г / ^ г - 1/2 на интегральную сумму 1п = - 2^ φ\Χϊ), где %i = это п i=i п «узлы» равномерной сетки, т. е. середины интервалов разбиения отрезка [0,1] на η равных частей (рис. 1). При условии, что φ(χ) дважды непрерывно дифференцируема, можно оценить погрешность метода прямоугольников δη = \Ι—Ιη\ так: Доказательство. Положим а\ = х\ - —, Ь\ = Xi + —-. По 2п 2п 1 формуле Тейлора φ{χ) = φ(χί) + φ'(χί)(χ - ж<) + j </>"(£) (х ~ χί)2> где χ е [α*, bi] и ξ = ξ(χ) е [α*, ЬЦ. Поскольку ^φ/(χί)(χ - χ^) dx = 0, Ri = [φ(χ) - φ(χ%)] dx = 2 ψ"[ξ(χ)] (x ~ xi)2dx, ai a,i Остается применить неравенство η г=1 <Е1Д»1- г=1
§2. «Правило трех сигм» 31 Таким образом, для гладких функций погрешность метода прямоугольников имеет порядок малости 1/п2. Вопрос 1. Метод Монте-Карло для вычисления интеграла / отличается „« ^выборе^ от метода прямоугольников тем, что в качестве «узлов» использу- «узлов» не середин, о а правых концов отрезков ются псевдослучайные числа yi,..., уп. разбиения? Обоснование. Пусть случайные величины 171,772,.. . — независимы и равномерно распределены на [0,1]. Положим & = φ(ηι). По теореме о замене переменных из П2 оо оо 1 Щ\ = I <р(у) Рщ (У) dy = I <р(у) /[о, ι] dy = I ip(y) dy = Ι. Согласно усиленному закону больших чисел (см. П6) имеем ■^ Μ£ι = J при η -~* 1 1 ιη = - Σ 6 = - Σ φ(ν%) 00. 4=1 ηϊ= i=l Таким образом, если рассматривать псевдослучайные числа yi,..., уп как реализацию щ,..., ηη, то с ростом η погрешность приближения должна стремиться к нулю. §2. «ПРАВИЛО ТРЕХ СИГМ» Получим оценку для величины погрешности метода Монте- Карло на основе центральной предельной теоремы (П6). Если ι О < D£i = J <р2(у) dy — I2 < 00, то при η —► оо о η у/п{1п — 1) _ i=l d v у/Щ1 y/nU& где —* обозначает сходимость по распределению (см. П5), а предельная случайная величина Ζ имеет функцию распределения X Ф(х) = Ρ(Ζζχ) = -^= [ е""2/2du \/2π J (рис. 2). Такая случайная величина называется стандартной нор- мольной (обозначение: Ζ ~ΛΓ(0,1)). В силу указанной сходимости/для любого χ ^ О при η —► оо Р l·^^11 < *) - Р(-« < £ < *) = *(*) - *(-*)· В силу симметрии имеем равенства Ф(-х) = 1 - Ф(х) и Ф(а?) - Ф(-х) = 2 Ф(я?) - 1. Для получения численных оценок рассмотрим подробнее поведение функции Ф(х). К сожалению, ее нельзя выразить через элементарные функции. Для приближенного вычисления Ф(х) можно -3-2-10 1 2 3 Рис.2
32 Глава 3. Метод Монте-Карло 0«7о ^ Ч/< 95% А ■] 99,7%^ -3 -2-1 0 1 Рис . 3 2 3 воспользоваться таблицей Т2. Рисунок 3 иллюстрирует некоторые табличные значения. Определение. Случайная величина X = μ + σΖ, где Ζ ~ ЛГ(0,1), называется нормальной с параметрами μ и σ2 (обозначение: Χ ~ Λ/Χμ,σ2)). При этом Вопрос 2. Как вы думаете, какие три ошибки чаще всего допускают студенты на экзамене, пытаясь написать формулу плотности закона λί(μ,σ2)? = 2 Рис. 4 (s-/i)2 2<г* Какой вероятностный смысл имеют характеристики μ и σ2? Нетрудно убедиться, что μ = MX, а σ2 = DX. Геометрический смысл параметров μ и σ заключается в том, что прямая χ = μ является осью симметрии плотности ρχ(χ)1 а μ ± σ — точками перегиба ρχ(χ). Графики плотностей при μ = 0 и нескольких значениях σ приведены на рис. 4. Согласно определению случайной величины X и с учетом рис. 3 имеем Ρ(μ - 3σ ^ Χ ^ μ + 3σ) = Ρ(|Ζ| < 3) » 0,997. Другими словами, случайная величина Χ ~ Λ/^μ,σ2) принимает значения из отрезка [μ — 3σ, μ + 3σ] с вероятностью 0,997, которую зачастую не отличают от 1. Это утверждение известно на практике как «правило трех сигм». Возвращаясь к оценке погрешности метода Монте-Карло, заг ключаем, что при достаточно больших η в соответствии с «правилом трех сигм» выполняется неравенство с вероятностью близкой к 1. (2) А А/п, ^1 у 0 It Vj Рис. 5 1 1 1 г> 1 § 3. КРАТНЫЕ ИНТЕГРАЛЫ Неразумно использовать метод Монте-Карло для вычисления одномерных интегралов — для этого существуют квадратурные формулы (см., например, [6, с. 375]), простейшая из которых — рассмотренная выше формула метода прямоугольников. Дело в том, что метод Монте-Карло имеет ряд существенных недостатков. 1) Оценка погрешности (2) имеет порядок малости 1/\/п в отличие от порядка 1/п2 оценки (1). Это можно связать с тем, что метод Монте-Карло нерационально использует информацию: прямоугольники «случайной» интегральной суммы частично перекрываются (рис. 5). (Вообще же, для математической статистики это обычно, что оценка отстоит от оцениваемого параметра на величину порядка 1/\/п, где п — число наблюдений.) Из-за мед-
§ 3. Кратные интегралы 33 ленной сходимости метод обычно применяют для решения тех задач, где результат достаточно получить с небольшой точностью (5-10%). 2) Для вычисления правой части формулы (2) надо знать, 1 чему равна D£i = ^2{y)dy — J2, или хотя бы уметь ее оцени- о вать. 3) В отличие от метода прямоугольников оценка погрешности метода Монте-Карло справедлива лишь с некоторой вероятностью. Тем не менее, этот метод (или его модификации) часто оказывается единственным численным методом, позволяющим решить задачу. Особенно он бывает полезен для вычисления интегралов большой кратности. Дело в том, что число «узлов» сетки возрастает как nfc, где А: —кратность интеграла (так называемое «проклятие размерности»). Так, чтобы найти интеграл по десятимерному кубу, используя в качестве «узлов» только его вершины, надо 210 = 1024 раза вычислить значение интегрируемой функции. В практических задачах эти вычисления могут оказаться довольно долгими, например, когда для расчета значений требуется численное решение систем нелинейных или дифференциальных уравнений. Напротив, метод Монте-Карло не зависит от размерности: чтобы найти приближенное значение интеграла 1 1 ■ = J...J*xi, ,Xk)dx\.. .dxk с точностью порядка 1/^/п достаточно случайно набросать η точек в fc-мерный единичный куб (разбив псевдослучайные числа на группы из к элементов) и вычислить среднее арифметическое значений φ в этих точках. В частности, если функция — индикатор некоторой области D, то с помощью метода Монте-Карло можно приближенно определить объем этой области. Например, частота случайных точек, попавших под дугу окружности на рис. 6 будет служить приближением к π/4. Отметим, что формула (2) оценки погрешности, полученная для одномерного случая, сохраняется и для к > 1. > х2 + у2 ζ 1 Рассмотрим модификацию метода Монте-Карло (см. [29, с. 124]), которая называется расслоенной выборкой (выборкой по группам). Каждую из сторон единичного fc-мерного куба разобьем на N равных частей. При этом куб разбивается на η = Nk «кубиков» Δ< со стороной Ι/iV. В каждом из Δ« (г = 1,... ,п) выбирается независимо равномерно распределенная fc-мерная «точка» r/i = (ι^1 , *»* ^ и интеграл оценивается с помощью случайной суммы ..Л Ιη = -Σ vim)· (3)
34 Глава 3. Метод Монте-Карло Рис. 7 Ж. Лагранж (1736-1813), французский математик. Найдем порядок малости стандартного отклонения у ΌΙη при увеличении п. Так как слагаемые в сумме из (3) независимы, то 01п n i=l (4) Ввиду формулы (4) гл. 1 верно неравенство 0<р(г1{) ^ М<^2(7^). Отсюда для ограниченной функции φ получаем оценку foL ^ \fuil < м/у/й, где Μ = max\<p(x)\. Это —обычный порядок точности. Однако точность увеличивается, если колебания функции φ в пределах каждого из Аг имеют порядок линейных размеров «кубиков». Это выполняется, когда функция φ имеет ограниченные частные производные по каждой из переменных χ у. \d<p/dxj\ ^ L, j = 1,... ,k (рис. 7). Для получения оценки стандартного отклонения для таких функций выберем внутри каждого Δ» произвольную неслучайную точку yi (например, центр «кубика»), и, перемещаясь от yi к tqi вдоль осей координат, по теореме Лагранжа о среднем (см. [45, с. 277]) запишем *Ш - V(l/i) = Σ «Г Uj) - yij)) , (5) 3 = 1 Ч 7 где α± —значения производных δφ/dxj в некоторых точках из Δ» (зависящих от ту< и уг). Положим £У' = а\3' (η^ - j/j J. Для произвольных случайных величин ξι,... ,£*, имеющих конечный второй момент (П2) справедливо неравенство (задача 3) к к DEC* < Σ щ. (6) Из него и формулы (5) следует, что ^офп) < Σ ν^ < Σ Jm (tf>)2. 3 = 1 3=1 V V ' Так как точки »|i и yi принадлежат Δ», то № \ ^ L/N — Ln~l^k. Поэтому ϋφ(τιί) ^ L2k2n~2^k. Наконец, из равенства (4) выводим оценку JUL < Lkn-1'2-1'" = Cn"1'2"1". Таким образом, порядок малости \ΏΪη меньше, чем порядок п~1^2 погрешности обычного метода Монте-Карло. Однако при к = 1 погрешность убывает со скоростью п-3/2, что медленнее скорости сходимости п метода прямоугольников на гладких функциях. Замечание. Для некоторого класса функций к переменных Холто- ном и Соболем были построены (неслучайные) последовательности «узлов», для которых погрешность имеет порядок lnfc η/η, что на практике эквивалентно η -1+ε где ε > О сколь угодно мало. Свойства, формулы и программы для их расчета содержатся в [74].
§ 4. Шар, вписанный в k-мерный куб 35 §4. ШАР, ВПИСАННЫЙ В А>МЕРНЫЙ КУБ В многомерном случае при использовании метода Монте-Карло могут возникнуть неожиданности, связанные с тем, что наша обычная геометрическая интуиция может навести на неверное представление о fc-мерных множествах. Рассмотрим fc-мерный шар {х: х\ + ... + х\ ^ 1}, вписанный в fc-мерный куб {х: \xj\ ^ 1, j = Ι,.,.,Α:} (рис.8 для к = 3). Вероятность рк того, что выбранная случайно в кубе точка окажется внутри шара, равна отношению объема fc-мерного шара радиуса г = 1 к объему fc-мерного куба со стороной 2. Очевидно, вопрос 3 ft = hP2= «г*/*» = тг/4 « 0,785, р3 = | *г»/2» = π/6 « 0,524. Х^Гр^ой Оказывается, в общем случае вероятности при к=10? Рис. 8 Рк=Ш2)к/т{^). Здесь Т(х) = J 1х~1е~ь<И — известная из анализа гамма-функция о Эйлера, график которой приведен на рис. 9. Интегрированием по частям легко установить основное свой- ство гамма-функции: Г(х + 1) = хГ(х). Из него вытекает, что Г(п) = (п — 1)! при η = 1,2,..., т. е. гамма-функция интерполирует точки плоскости с координатами (η, (η — 1)!). Отметим, кстати, что постоянная Эйлера η, появившаяся в § 5 гл. 2, равна —Г'(1). В отличие от чисел π и е, неизвестно (на сегодняшний день), является ли эта постоянная иррациональным числом. Выведем формулу для вероятности р&. Ввиду симметрии она равна объему части fc-мерного шара, находящейся в области {х: Xj ^ 0, j = 1,... ,k} (см. рис. 6 для к = 2). Перейдем от переменных (χι, Х2, · · ·,Хк) к полярным координатам (г, φι,..., φΐε-ι)'- хх = rcos<£i, Х2 = rsin<£i cos<^2, (8) Xk-i = r sin φι... sin <pfc_2 cos φ^ι, Xk = r sin φι... sinφ^-τ. sin φι<-\- „fc-l oi„fc-2 Якобиан замены J = r sin 2 <^i sin φ2 ... sin <^fc_2 ([22, с 440]). вдвое. Pfc В результате замены получаем представление 1 π/2 π/2 = ... |J| άτάφι...άφ^-i. (9) Любая формула, включенная в книгу, уменьшает число ее покупателей Стивен Хокинг
36 Глава 3. Метод Монте-Карло Г. Вейль (1885-1955), немецкий математик. Доказательство этой теоремы можно найти в [29, с. 95] Поскольку sirnpj ^ 0 при 0 ^ φ3 ^ π/2, знак модуля в формуле (9) можно убрать, и кратный интеграл распадается в произведение 1 тг/2 rk~ldr · lfc_2 ·... · /ι, где Im = sinm φάφ, τη = 1,..., к — 2. о о Первый сомножитель равен 1/к. Для вычисления 1Ш сделаем замену у = sin2 ψ. Тогда Im = i}i/—1)/2(l - у)~1/2 dy = \в(^±1, j), где 1 B(rJs)=\yr-\l-yy-Uy=^p^;, r>0,*>0, (10) J Г(г -f s) о — бета-функция Эйлера. Так как То = π/2 = ο ^ ( о' о )' το из фор- мулы (10) следует, что r(j) = ^и 7m = (0F/2)r(^±±)/r(^). При перемножении /т, т = 1,... ,fc — 2, гамма-функции перекрестно сокращаются, что и приводит к указанному выше ответу, который можно записать в явном виде: _ ί (π/2)7 (2.4·6·...·ϋ5), если к = 2», Рк ~ \ (π/2)7 (3 · 5 · 7 ·... · к), если к = 2г + 1. (И) В частности, по первой из этих формул находим, что рго ~ 2,5 · 10 8. Рассмотренный пример наглядно показывает, что может потребоваться очень много псевдослучайных точек, чтобы получить удовлетворительное приближение методом Монте-Карло для интеграла от функции, принимающей большие значения на «тощих» многомерных областях. При этом «тощими» могут оказаться области, которые на первый взгляд таковыми не представляются. §5. РАВНОМЕРНОСТЬ ПО ВЕЙЛЮ Определение. Числовая последовательность χχ,Χ2, ···> где Xi Ε [0,1], называется равномерной по Вейлю , если частота попаданий точек χι на любой отрезок [а, Ь] С [0,1] стремится к его длине b — а при η —► оо. Согласно усиленному закону больших чисел (П6) реализация r/i ,7/2, · · · последовательности независимых и равномерно распределенных на отрезке [0,1] случайных величин обладает этим свойством с вероятностью 1. Существуют и неслучайные последовательности, равномерные по Вейлю (см. задачу 5). Такой пример дает Теорема 1. Пусть хп = {an}, где {·} обозначает дробную часть числа, а — любое иррациональное число. Тогда последовательность я ι, #2, · · · является равномерной по Вейлю.
§ 6. Парадокс первой цифры 37 Если последовательность #ι,#2, · · · равномерна по Вейлю, то для произвольной интегрируемой по Риману на отрезке [0,1] функции φ(χ) осуществляется сходимость (см. [45, с. 561]) 1 п п г=1 = Ι φ(χ) ах при η —► оо. (12) Б. Риман (1826-1866), немецкий математик. При использовании равномерной по Вейлю последовательности для вычисления кратных (в частности, двойных) интегралов возможно такое (см. задачу 4), что при η —> оо 1 1 1 п ~ Σ ^(S2t-l»S2t) -+ С Φ п i=l у>(ж,у) d^dy. о о Определение. Числовая последовательность #ι,#2,..., гДе #i Ε [0,1], называется вполне равномерной, если для произвольного натурального числа к частота попаданий fc-мерных точек (я(п-1)&+ь · · · ixnk) в любой находящийся внутри единичного fc-мерного куба параллелепипед с параллельными координатным осям ребрами стремится к его объему при η —> оо. В начале тридцатых годов Д. Шамперноун доказал, что число 0,1234567891011121314151617181920212223... (т. е. десятичные знаки являются последовательными натуральными числами) обладает следующим свойством: частота, с которой любая группа из к цифр встречается в его записи, стремится к 10_fc. (Неизвестно, обладают ли этим свойством числа π и е.) Отметим, что вполне равномерность — асимптотическое понятие. Это означает, что конечный отрезок последовательности можно как угодно «испортить», скажем, заменив все элементы нулями, и тем самым сделать ее непригодной для вычислительных целей. Вопрос 4. Будет ли (12) выполняться оо для φ(χ)= Σ'{χ=χί}. i=l при условии, что последовательность #ь#2,··· равномерна по Вейлю, причем все Xi различны? §6. ПАРАДОКС ПЕРВОЙ ЦИФРЫ Как вы думаете, с какой вероятностью число 2П начинается с цифры 7? (Под вероятностью здесь понимается предел частоты появления 7 при η —> оо, если он существует.) Если вы полагаете, что эта вероятность равна 1/9, то ошибаетесь! Действительно, 2П начинается с цифры т, 1 ^ т < 9, если найдется такое Ζ, что т 101 < 2П < (ш + 1) · 10ζ. Логарифмируя, получаем log10 т + / < nlog10 2 < log10(m + 1) + /.
38 Глава 3. Метод Монте-Карло Все три числа, участвующие в этом двойном неравенстве, принадлежат отрезку [/, / + 1]. Поэтому, переходя к дробным частям, имеем log10 m < {nlog10 2} < log10(m + 1). Так как log10 2 — иррациональное число, то в силу теоремы 1 последовательность хп = {nlog10 2} является равномерной по Вейлю. Отсюда искомая вероятность Рт = logi0(m + 1) - bgio m (13) В частности, ρη = log10 8 — log10 7 « 0,058, что почти вдвое меньше, чем 1/9 « 0,111. Можно предложить пари (см. [72, с. 187]), что первая цифра некоторого взятого наугад «большого числа» N окажется не больше, чем 4. Вероятность выигрыша в нем для N = 2п — вовсе не 4/9 « 0,444, а с учетом формулы (13) имеет значение Pi + Р2 + Рз + Р4 = log10 5 - log10 1 « 0,699. Любопытно, что подсчитанная по таблице 7.6 из [10] частота выигрышей в этом пари для N = п\ (п = 1,... ,100) равна 0,68. Как раз четыреста!... Нет! триста... ЗАДАЧИ 1. Сколько случайных точек надо бросить в единичный квадрат (см. рис. 6), чтобы получить две верные цифры после запятой Фыусоэ и Хлесгое* числ& π с BepoaTHOCTbIO (),997? в «Горе от ума» " А. с. Грибоедова 2. Используя разложение числа е в ряд, докажите, что хп = = {en!} —► 0 при η —► оо. 3. С помощью неравенства Коши—Буняковского (П4) получите неравенство (6). 4. Для датчика хп = {an}, где a > 0 — произвольное иррациональное число, найдите предел частоты попаданий точек (#2г-ъ#2г) в подмножество единичного квадрата а) у < х, б) х + у ^ 1 (рис. 10). Указание. Для 0 < a < 1 выразите #η+ι через хп. Б* Рассмотрим два числовых треугольника: а) 1/2 б) 1/2 1/3 2/3 1/4 2/4 3/4 1/4 2/4 3/4 1/8 2/8 3/8 ... 7/8 Либо дождик, либо снег, БуДУт ли получаться равномерные по Вейлю последовательно- либо будет, либо нет. сти, если считывать эти треугольники по строкам?
Решения задач 39 РЕШЕНИЯ ЗАДАЧ 1. Если «успехом» считать попадание точки под дугу окружности х2 Л- у2 = 1 (см. рис. 6), то результаты бросаний образуют схему Бернулли с вероятностью «успеха» ρ = π/4. Поскольку дисперсия отдельного испытания в этой схеме равна р(1 — р), то для частоты «успехов» 1п согласно формуле (2) имеем \1п - тг/4| ^ Сп = 3ν/(π/4Κ1 πΖΐ) с вероятностью 0,997. Оценка для погрешности вычисления самого π равна 4СП. Приравнивая ее к требуемой точности 0,005, находим η « 970835. Таким образом потребуется почти миллион точек! 2. Как известно из математического анализа, 1 e = 1 + h + h+· где 1 (п+1)! 1 < (п + 1)! 1 1 + п! + ...= 1 (п + 2)! 1 п + 2 (п + 2)(п + 3) + , ·) (п+1)! ч Поэтому {е п!} 1+2 + ? ·) = — J (п + η! εη < п + 1 1)! ' 0 при η оо. Таким образом, подпоследовательность равномерной по Вейлю последовательности сама может и не обладать этим свойством. 3. Преобразуем квадрат левой части неравенства (6): к /к к \2 / к \2 0Σ&=Μ(Σ6-ΜΣίί) =Μ(Σ3) = = Μ Σ ί# = Σ Μ^, где $ =fc - Mfc. Квадрат правой части неравенства (6) представляется в виде Остается применить свойство (4) математического ожидания из П2 и неравенство Коши—Буняковского (П4). 4. Прежде всего, можно считать, что 0 < a < 1, ибо иначе о/ = {а} задает ту же самую последовательность хп. Для таких а справедливо представление χη+ι = {хп + а} (два возможных случая приведены на рис. 11). Таким образом, #n+i = f(xn), где f(x) = {χ + α} (рис. 12). Поэтому все точки (#2i-i,#2i) будут лежать на графике этой функции, вместо того, чтобы равномерно плотно заполнять весь квадрат. Доход не бывает без хлопот.
40 Глава 3. Метод Монте-Карло Вопрос 5. Почему это верно? у = {тпх} 1 ТПк-l П ТПк Рис. 14 Далее, из равномерности по Вейлю последовательность точек Xi вытекает, что ординаты х^% тоже обладают этим свойством. Так как х<ц ^ Х2%-\ тогда и только тогда, когда х<ц попадает на отрезок [0, а], то частота в случае а) будет стремиться к а, а не к 1/2 (площади треугольника), как должно быть для «настоящего» датчика случайных чисел. В случае б) из-за симметрии графика f(x) относительно диагонали квадрата χ + у = 1 предел частоты равен 1/2. Замечание. Мультипликативный датчик из § 3 гл. 2 Г кп = (га · A:n_i) mod d, ^ ^ f Уо = ko/d, \уп = K/d I 2/n+i = {m · уп} также удовлетворяет соотношению уп+1 = /(Уп) с f(x) = {mx} (рис. 13). В [29] приведен ряд утверждений, из которых следует, что при га —► оо этот датчик позволяет правильно вычислять интегралы любой кратности. В случае а) обозначим через га& = к{к + 1)/2 —общее число элементов последовательности в к первых строках треугольника. Пусть rrik-i < η < rrik (т. е. хп принадлежит к-ft строке). Тогда хп = (п - m,k-i)/{k + 1) (рис. 14). Оценим сверху ι/η — количество попаданий точек ж», г = 1,..., п, в промежуток (0, х] при 0 < χ < 1 (здесь [ · ] — целая часть числа): Аналогично оценим ι/η снизу: j=i i=2 V l J Отсюда -^ ^ ^ ^ 6fc -, где обе границы стремятся к χ при ТПк U ТПк-\ к —► оо. Поэтому последовательность χι,Χ2,··· равномерна по Вейлю. В случае б) количество попаданий точек χι в промежуток (0,1/2] для подпоследовательности вида п'к = 2fc+1 — к — 2 (А: полных строк) и для подпоследовательности вида nl = 2к - к - 1 + 2*"1 (к - 1/2 строк) одинаково и равно /& = 2fc — 1. При к —► оо получаем, что Wnfc ~* 1/2) в то время как /fc/n'fc' равномерности по Вейлю. 2/3,,что противоречит
Ответы на вопросы 41 Замечание. Рассмотрим частоту появлений произвольной цифры на j-м месте после запятой в десятичном представлении a) y/ri) б) log п. Оказывается, что в первом случае предел 1 к+ этой частоты равен —, что следует из равномерности по Вейлю ь ΪΤ '__ 10' последовательности хп = {у/п} (рис. 15). Во втором же случае предела нет, а множество предельных точек представляет собой некоторый отрезок внутри отрезка [0,1]. у = \[х ОТВЕТЫ НА ВОПРОСЫ 1. По теореме Лагранжа φ(χ) = φ(χί)+φ'(ξ)(χ—Χί). Рассуждая так же, как при выводе формулы (1), получаем оценку: δη ^ ~ ^/п, где L = max |у/(ж)|. Таким образом, при использовании в ка- честве «узлов» правых концов отрезков разбиения обычным порядоком малости погрешности является 1/п. Причиной тому служит отсутствие взаимной компенсации площадей со знаками «+» и «-» на рис. 16, происходящей при выборе «узлов» посередине. 2. В следующей формуле допущены все три ошибки: 1 (χ-β)2 /2πσ Согласно формуле (11), вероятность рю ~ 2,5 · 10~3. Таким образом, почти весь «объем» десятимерного куба сосредоточен в его 1024 «углах». В результате в среднем только одна из 400 случайных точек попадает внутрь десятимерного шара. Для интегрируемости по Риману на отрезке согласно критерию Лебега необходимо и достаточно (см. [59, с. 34]), чтобы функция была ограниченной, а множество ее точек разрыва имело лебегову меру нуль (т. е. чтобы существовало покрытие этого множества конечной или счетной системой интервалов, сумма длин которых сколь угодно мала). Равномерная по Вейлю последовательность обязана, очевидно, быть всюду плотной в [0,1] (в любом интервале из [0,1] должны присутствовать ее точки). Поэтому множеством точек разрыва функции φ(χ) является весь отрезок [0,1]. Следовательно, эта функция не интегрируема по Риману. Однако φ(χ) отличается от 0 только на счетном множестве точек #;, в силу чего интеграл Лебега от нее существует и равен 0. В свою очередь, левая часть формулы (12) при каждом η равна 1. Подпоследовательность ординат х<ц генерируется датчиком {/Зг} с иррациональным β = 2а. Человек редко ошибается дважды — обычно раза три или больше. Джон Перри Барлоу А. Лебег (1875-1941), французский математик
Глава 4 ПОКАЗАТЕЛЬНЫЕ И НОРМАЛЬНЫЕ ДАТЧИКИ Нормальные герои всегда В этой главе мы расскажем, как с помощью псевдослучайных идут в обход. чисел имитировать реализации случайных величин с заданным И3 Ай^^бТ РаспРеДелением· Прежде всего, познакомимся со стандартным способом моделирования — методом обратной функции. Затем рассмотрим специальные датчики для показательного и нормального законов. § 1. МЕТОД ОБРАТНОЙ ФУНКЦИИ Допустим, что функция распределения F(x) непрерывна и строго возрастает. Тогда на интервале (0,1) существует непрерывная и монотонная обратная функция F~1(y) и справедливо Утверждение 1. Если случайная величина η равномерно распределена на отрезке [0,1], то случайная величина ξ = F-1^) имеет функцию распределения F(x). Доказательство. Так как 0 < F(x) < 1, то (см. рис. 1) ОД = Ρ(ί < *) = P(F(f) ^ F(x)) = Ρ(η ζ F(x)) = F(x). Ш Определение. Выборкой размера п из распределения F называ- ется случайный вектор (£ι,...,£η)> компоненты которого незави- \У— \х) симы и одинаково распределены с функцией распределения F(x). Ввиду утверждения 1 для того, чтобы моделировать реализацию #ι,... ,#п выборки (£ι,... ,£п) из распределения F, достаточно Рис. 1 преобразовать псевдослучайные числа yi,... ,уп с помощью обратной функции F~l. Применим метод обратной функции для моделирования выборки из показательного закона с функцией распределения F(x) = = (1 — е~Хх) 1{х>0у. Найдем обратную функцию: у = 1-е~Хх <=> х = --\п(1-у). Поэтому формула для моделирования выглядит так: Вопрос 1. Нельзя ли предложить ~. _ _ i W1 — */Λ похожую, но более х% ~ χ "Η1 Уг" простую формулу, дающую тот же результат? где у; (г = 1,... ,п) — псевдослучайные числа.
§ 2. Распределения экстремальных значений 43 Еще один пример применения метода обратной функции содержится в задаче 1. Замечание 1. Многие утверждения, выполняющиеся для последовательности независимых и равномерно распределенных на [0,1] случайных величин щ,г}2·,··· (например, усиленный закон больших чисел или центральная предельная теорема из П6) остаются верными и после преобразования, если «хвосты распределения» 1 — F(x) и F(—x) достаточно быстро убывают при χ —► -foo. С другой стороны, в § 2 показано, что выборки из распределений с «тяжелыми хвостами» ведут себя иначе. §2. РАСПРЕДЕЛЕНИЯ ЭКСТРЕМАЛЬНЫХ ЗНАЧЕНИЙ Рассмотрим пример из [17, с. 18]. Пусть элементы выборки (Χι,... ,ХП) имеют функцию распределения Хвост сзади, спереди какой-то чудный выем. Чацкий в «Горе от ума» А. С. Грибоедова ,-,/ ч J 1 - i ПРИ Х > е> F(x) = { Inx 1 0 при χ < е. (1) Обозначим max{Xi,... ,ХП} через Х^ и вычислим приближенно 7 = Р(Х(п) > Ю7) ПРИ п = 4.*) С учетом независимости и одинаковой распределенности случайных величин ΛΊ,... ,Хп запишем Р(Х{п) < я) = Р(Хг ^ х,..., Хп < х) = [F(x)]n . Поскольку In 10 « 2,3, а (1 — е)п « 1 — еп при малых ε, получаем Л \ Л 1/4 -1_(1_7ЬПо) И1"(1_7^з)-Щ (более точный подсчет η на калькуляторе дает значение 0,226). Таким образом, примерно β каждом четвертом случае (!) значение Х(4) будет превышать 107. Вопрос 2. Оказывается, из-за того, что функция распределения F(x) Можно ш указать такую ' ' ^J —г г г π \/ последовательность имеет «сверхтяжелый» правый «хвост» (рис. 2), распределение констант Ьп, чтобы случайной величины Х^ чрезвычайно быстро с ростом п «ухо- Х(п)/Ьп—>0 прип-юо? дат» на +оо, и никаким линейным преобразованием не удается «вернуть» его в конечную область. Точнее: невозможно подобрать такие «центрирующие» константы ап и «нормирующие» константы Ьп > 0, чтобы последовательность (Х(п) — ап)/Ьп сходилась бы по распределению (см. П5) к невырожденному закону**) (см. [17, с. 82]). *) Для выборки, скажем, из закона Л/"(0,1) ввиду правила «трех сигм» (см. § 2 гл. 3) такая вероятность ничтожно мала. **) Распределение случайной величины ξ вырождено, если Ρ (ξ = const) = 1.
44 Глава 4. Показательные и нормальные датчики Если такой закон для максимума выборки из некоторого распределения существует, то он (с точностью до сдвига и масштаба) обязательно принадлежит (см. [17, с. 66]) одному из трех типов распределений экстремальных значений: Тип I: F(x) = ехр{-е~х} , - оо < χ < оо; О, χ ^ О, ехр{-я"а}, х > 0; exp {-(-s)Q}, s<0, Тип II: F(x) = | Тип III: F(x) = { ** Здесь типы II и III представляют собой однопараметрические классы распределений с параметром a > 0. В приведенной ниже теореме даются простые достаточные условия «притяжения» (т. е. сходимости (Х(п) — ап)/Ьп для некоторых ап и Ъп) к каждому из трех возможных типов. Теорема 1. Допустим, что 1) lim ех[1 - F(x)] = β > 0, тогда Х(п) - 1η(/?η) Λ ξ, где х—кх> случайная величина ξ имеет функцию распределения типа I; 2) для некоторого а > 0 существует lim ха[1 — F(x)] = β > 0, X—КХ> тогда Χ(η)/(/3η)1/α —* г/, где случайная величина г/ имеет функцию распределения типа И; 3) F(c) = 1, где с < оо, и для некоторого α > 0 существует lim (с - z)-Q[l - F(x)] = β > О, тогда (/3n)1/Q(X(n) -с)Д(, где ж—неслучайная величина ζ имеет функцию распределения типа III. Доказательство. В первом случае Ρ(Χ{η)-\η(βη)ζχ) = = [F(z + ln(/?n))]n = [l-/? βχρ{-χ-\η(βη)} + ο(1/η)]η = = [l-e~x/n + o(l/n)]n->ехр{-е~х} при га—>оо. В остальных случаях доказательство аналогично. ■ Необходимые и достаточные условия «притяжения» были получены Б. В. Гнеденко в 1943 г. (см. [17, с. 49]). Возвращаясь к примеру функции распределения F(x), заданной формулой (1), покажем, что неосуществимое с помощью линейного преобразования, можно ъ этом случае осуществить с помощью нелинейного. Положим Xi = ΙηΧ;. Очевидно, что функцией распределения случайной величины Xi будет F(x) = (1 j I{x>iy.
§ 3. Показательный датчик без логарифмов 45 В силу теоремы 1 последовательность Х(п)/п сходится по распределению к закону экстремальных значений И-го типа с a = 1.*) Так как min{Xi,... ,ХП} = — тах{— ΛΊ,..., — Хп}, то предельные распределения для минимума выборки получаются из законов трех экстремальных типов с помощью преобразования G(x) = l-F(-x). Например, закону Ш-го типа соответствует функция распределения 1 — ехр{—#α}, χ ^ 0. Это распределение известно в теории прочности материалов под именем закона Вейбулла—Гнеденко («принцип слабейшего звена»). Его частным случаем при а = 1 является показательный закон с параметром λ = 1 (см. задачу 2). § 3. ПОКАЗАТЕЛЬНЫЙ ДАТЧИК БЕЗ ЛОГАРИФМОВ Выборку из показательного закона можно моделировать и без вычисления логарифмов (см. [82, с. 59]). Для этого рассмотрим таблицу из независимых равномерно распределенных на отрезке [0,1] случайных величин Vn, ϊ7ΐ2, ... Vij, ... Ϊ721, ^22, ... V2j, ... Ήα, ϊ)ϊι·> ... Vij, ... Для г-й строки таблицы определим случайную величину Κι как U ^ 2: Vn > Vi2 > ..· > Vi(j-i) < Vij}, т. е. (Ki - 1) —это длина «нисходящей серии», начиная от начала г-й строки (см. задачу 2 гл. 2). С последовательностью независимых и одинаково распределенных случайных величин К{ свяжем схему Бернулли, считая «успехом» событие {Ki четно} и «неудачей» — {Ki нечетно}. Утверждение 2. Обозначим через ν число «неудач» до первого «успеха». Тогда Ρ(ι/ + ?7(ι/+ΐ)ΐ ^ ж) = 1 — е~х, χ > 0, т. е. сумма числа «неудач» и первой величины в строке «успеха» показательно распределена с параметром λ = 1. Доказательство. Прежде всего, вычислим Ρ(Κι > η, 77η < у) = Р(у >ηι\>ηΐ2>---> ηΐη)· Последнее событие происходит тогда и только тогда, когда все η точек попадают на отрезок [0, у] и оказываются упорядоченными *) Переход от Χι κ Χχ сильно сжимает прямую с распределенной на ней вероятностной массой, благодаря чему становится возможным получить предельный закон дальнейшим линейным сжатием прямой.
46 Глава 4. Показательные и нормальные датчики 1 0 [ У = р{ /''''' ' ] τ}(χ) у = 1-е [ X Рис. 3 по убыванию. Каждому порядку точек соответствует одно из п! равных по объему подмножеств n-мерного куба со стороной у (см. задачу 3 гл. 2). Таким образом, Р(К\ > η,ηη ^ у) = уп/п\. Отсюда имеем Р(К1=п,щ1^у) = Р(К1>п-1,щ1^у)-Р(К1>п,щ1^у) = Уп~1 Уп (п-1)! п\ Суммируя по четным значениям п, находим Р(ЛГ1четно,г?11<2/) = ^-| + ^-^ + ... = 1-е-«. Если положить в этом равенстве у = 1, то получим, что вероятность «успеха» ρ = Ρ (Κι четно) = 1 — е-1. Вычислим совместное распределение случайных величин ν = Ρ (Kj нечетно, j = 1,... ,г, Ki+i четно, η^+ιμ ^ у) = = Ρ (Kj нечетно, j = 1,... ,г) Ρ (Ki+i четно, r7(i+i)i < у) = -ι = ql (l — e y), где g = 1 — ρ = e Для завершения доказательства утверждения 2 потребуется следующее утверждение (проверить которое предлагается в задаче 3). Утверждение 3. Целая [ · ] и дробная {·} части показательной случайной величины г с параметром λ = 1 независимы, причем [г] распределена по геометрическому закону: Ρ ([г] = г) = дгр, где ρ = 1—е-1, g = 1— ρ, а {г} имеет функцию распределения F{Ty(x) = = - (1 - е-*) при 0 < χ < 1 (рис. 3). Отсюда находим совместное распределение [т] и {г}: Р(М = <, Μ < У) = Р(М = г) Р({т} < у) = ςτ* (l - е~У). Оно совпадает с распределением ν и ?7(ι/+ΐ)ΐ· Следовательно, ι/ + ?7(ι/+ΐ)ΐ и [г] + {г} = г распределены одинаково. ■ §4. БЫСТРЫЙ ПОКАЗАТЕЛЬНЫЙ ДАТЧИК*) Вычисление In x на компьютере обычно основано на разложении логарифма в ряд Тейлора, и для получения достаточной точности надо выполнить около 20 арифметических действий (см. [6, с. 362]). Из-за этого моделирование показательной выборки с помощью метода обратной функции происходит довольно медленно. *) Материал этого параграфа технически более сложен, но важен: леммы 1-3 будут неоднократно использоваться в дальнейшем.
§ 4. Быстрый показательный датчик 47 При расчете математических моделей (скажем, при определении надежности системы, состоящей из элементов со «случайными» временами работы и ремонта) показательный датчик обычно является глубоко вложенной подпрограммой. Ввиду этого ускорение его работы представляет значительный интерес. Оказывается, на основе приводимой ниже теоремы 2 время моделирования можно существенно уменьшить. Для ее доказательства потребуются несколько новых понятий. Определение. Случайная величина Τ имеет гамма-распределение χ. с параметрами а > О и λ > 0 (обозначение: Τ ~ Γ(α,λ)), если ее плотность (см. графики на рис. 4) задается формулой „ /м\ Л <& — 1Л—λχ τ Рт(:г) = —-х е /{ж>0}, где Г (а) — гамма-функция Эйлера (см. § 4 гл. 3). Показательный закон является частным случаем гамма-распределения при а = 1. Момент к-го порядка МТк гамма-распределения равен 10<а<1 у=Рт(х) Ла L*+«-VA*d* = r(Q + fc) = а(а + Г(а) J \кГ(а) l)...(g + fc-l) Хк (2) Лемма 1. Если случайные величины Τι ~ Γ(αι,λ) и Τ<ι ~ Г(с*2,А) независимы, то их сумма Τι + Τ<ι ~ Γ (αϊ + с*2, λ). Доказательство. Без ограничения общности докажем эту лемму при λ = 1. По формуле свертки (ПЗ) запишем плотность х о Сделав замену t = ху, приведем выражение для рт1+т2(х) к ВИДУ ι Cat-^-V*. где C-j^L^jjr^a-y)··-1*. О Поскольку интеграл от плотности равен 1, без вычислений находим, что константа С = 1/Γ(αι + аг). Попутно была выведена формула (10) гл. 3, связывающая бета- и гамма-функции: ι В(г18) = \уг-\1-Уу-Чу=ЩЩ, г>0,*>0. ■ а=11<а<2 ,а>2 Вопрос 3. Чему равна дисперсия показательного закона?
48 Глава 4. Показательные и нормальные датчики Вопрос 4. Какую плотность имеет вектор (ξ(ΐ),...,€(п)). если компоненты выборки распределены с плотностью р(х)1 Рис. 6 Рис. 7 Определение. Набор ξ^ ^ £(2) < ... < £(п) упорядоченных по возрастанию значений компонент выборки (£ι,...,£η) называется вариационным рядом, а сами случайные величины ξ^) ~ порядковыми статистиками: ξ{1) = min{fi,...,£n}, ξ{2) = max{min{fb... ,&_ь &+ь... ,fn}}, ξ{η) = max{£b...,£n}. Лемма 2. Пусть случайные величины ryi,...,ryn независимы и равномерно распределены на отрезке [0,1]. Тогда плотность вектора (ί/(ΐ),...,^(η)) (см. П8) равна п! на множестве 5 = = {х: 0 < χι < ... < хп < 1} и равна нулю вне этого множества. Доказательство. Для произвольной точки (ж5,...,#^) из 5 построим «кубик» {х: х® ^ Х{ < #? + £, г = 1,... ,п} с ребрами достаточно малой длины $, целиком лежащий в 5 (рис. 5 для η = 2). Так как все перестановки η^ <η%2 < ... < r/in равновероятны, то Ρ (я? < 4(0 <«? + ί, г = 1,...,п) = = η! Ρ (ж? < ту< < ж? + ί, г = 1,... ,гг, 771 < ... < туп) = η! ίη. Переход к пределу при δ —► 0 (см. П8) завершает доказательство. ■ Следствие. Рассмотрим так называемые равномерные спейсинги Аг = »7(г) -»7(г-1), г = 1,... ,гг+1, щ0) = 0, 77(η+ΐ) = 1 (рис. 6). Вектор (Δι,...,Δη) получается из (/7(1)? · · · )4(n)) c помощью линейного преобразования с верхнетреугольной матрицей (см. ШО), на диагонали которой стоят единицы. Якобиан преобразования равен 1. По формуле преобразования из П8 плотность вектора (Δι,... ,Δη) равна п\ в области {χ: χι +... + хп < 1, Xi > 0, г = 1,... ,п} и равна нулю вне этой области. Лемма 3. Пусть τ = (τι,... ,тп) — выборка из показательного распределения с параметром λ, Si = τχ + ... + п (рис. 7). Тогда вектор (Si/Sni... ,5η_ι/5η) распределен так же, как вектор порядковых статистик (г7(1),... ,?7(η,—ι)) Для выборки размера η — 1 из равномерного распределения на [0,1]. Доказательство. То же самое линейное преобразование, что и в следствии леммы 2, переводит случайный вектор S = (5ι,...,5η) в вектор т. Используя независимость т^, по формуле преобразования (П8) находим плотность S: п Ps(su^^sn) = l[\e-x^-Si-^=Xne-Xs\0 = so<s1<...<sn. г=1 Положим Xi = Si/Sn, г = 1,... ,η - 1, Хп = Sn. Тогда Si = XiXn, г = 1,... ,τι — 1. Нетрудно убедиться, что якобиан J этого преобра-
§4. Быстрый показательный датчик 49 зования равен #™ г. Отсюда плотность вектора X = (ΛΊ,... ,ХП) рх(хи... ,хп) = И Ps(xix<n, · · · ,Χη-ιΧη,Χη) = \nXn~le~XXn (3) на множестве {χ: 0 < х\ < ... < хп-\ < 1, #п > 0}. Проинтегрировав по последней координате (см. П8), получим оо Ρ(χ1ι...,χη-θ(^ι»···^η-ι) = λη|χΓ1β-^ηώη = Γ(η) = (η-1^ о на множестве {ж: 0 < #ι < ... < xn-i < 1}· И Теперь все готово, чтобы сформулировать и доказать основной результат этого параграфа. Теорема 2. Пусть случайные величины ι/ι,...,ι/2η-ι независимы и равномерно распределены на [0,1], £ι,... ,£η_ι —расставленные в порядке возрастания величины rfo+i,... ,?72η-ι> £о = 0, ξη = 1. Тогда вектор т; с компонентами τ[ = - у (& — &-ι) 1η(ι/ιΐ/2 · · · Ήη), г = 1,... ,η, представляет собой выборку из показательного закона с параметром λ. Например, в случае η = 2 имеем Τι = ~ д *7з hfaiTft), T2 = - - (1 - Г7з) 1η(τ7ι%)· Экономия времени при моделировании возникает из-за того, что для получения показательной выборки размера η требуется только одно вычисление логарифма. Однако при этом приходится генерировать 2п — 1 псевдослучайных чисел и упорядочивать по возрастанию η -1 из них. Расчеты на компьютерах разных типов показали, что практически оптимальным является вариант алгоритма при η = 3 (см. [29, с. 27]). Такой датчик работает примерно вдвое быстрее метода обратной функции. Доказательство. Положим Х[ = &, г = 1,...,п - 1; Х'п = 1 п 1 = --rln(77i772...r7n) = Σ τ%·> гДе Тг = ~т 1пг7г· Согласно методу г—1 обратной функции, случайные величины Т{ показательно распределены с параметром λ, τ. е. τι ~ Γ(1,λ). При этом ri,... ,тп независимы, будучи функциями от независимых величин щ (см. лемму о независимости из § 3 гл. 1). Отсюда в силу леммы 1 выводим, что х;~г(п,а), т. е. ^(χ)=(^Ί)ίχη"ΐ6"λΧ^>0}· Очевидно, случайный вектор (Х[,... ,^ή-ι) распределен так же, как и вектор порядковых статистик (г7(1)> · · · ,г7(п,—ι)) дая выборки
50 Глава 4. Показательные и нормальные датчики размера η — 1 из равномерного распределения на отрезке [0,1]. По лемме 2 его плотностью является Pixi^x^jfau · · · ,^η-ι) = (η - 1)! в области {χ: 0 < χι < ... < χη-ι < 1}. При этом (Х[1... ,Α^-ι) и Х'п независимы как функции от независимых векторов (г7п+1,... ,r/2n-i) и (771,... ,r/n). Следовательно, плотность вектора X' = (Х{,... ,Х^) имеет вид Рх>(х\, · · · ,хп) = Р&'^х^Ы* · · · >χη-ι) Ρχ'η(χη) = ХпХп~1е~Ххп в области {х: 0 < χι < ... < χη-ι < 1, #η > 0}, т. е. она совпадает с задаваемой формулой (3) плотностью вектора X из леммы 3. Осталось заметить, что X' преобразуется вт'с помощью того же взаимно однозначного отображения, которое в лемме 3 перевоза один раз дерева не дит X в т: Т; = (Х{ - Χ;_ι)Χη, г = 1,... ,П - 1; тп = (1 - Xn-i)Xn сруоишь. (убедитесь!). Поэтому векторы т'ит одинаково распределены. ■ §5. НОРМАЛЬНЫЕ СЛУЧАЙНЫЕ ЧИСЛА*) Для моделирования реализации выборки из распределения Λ/^Ο,Ι) с помощью метода обратной функции надо уметь вычислять значения обратной функции Ф_1(у) к функции распределения Ф(х) стандартного нормального закона. Приближенно это можно делать, например, интерполируя достаточно подробную таблицу Ф~1(у) или заменяя ее «близкой» функцией. Так, Хамакер (см. [58, с. 281]) предложил следующую аппроксимацию: Ф~\у) « sign(y - 0,5)(1,238* (1 + 0,0262*)), где г = >/-1п(4у(1-у)), sign(#) = < —1, если χ < 0, 0, если χ = 0, — знак числа х. 1, если χ > 0. Она обеспечивает две верные цифры после запятой для \Ф 1(у)\ ^ Другой метод приближенного моделирования основывается на центральной предельной теореме (П6). Для независимых и равномерно распределенных на [0,1] случайных величин 771,772... согласно задаче 2 гл. 1 имеем Мт7г = 1/2, D77i = 1/12. Центральная предельная теорема для суммы 5П = 771 + ... + 77п дает сходимость (Sn - п/2) /у/гф2 ±*Ζ~ ΛΓ(0,1) при η — оо. *) В табл. Т1 приведен фрагмент таблицы таких чисел из [10].
§ 5. Нормальные случайные числа 51 Взяв η = 12, получим случайную величину S\2 — 6, распределение которой мало отличается от стандартного нормального закона ЛГ(0,1). Замечание 2. Обратим внимание на то, что, в отличие от Z, при любом η случайная величина 5П ограничена. Используя формулу свертки (ПЗ), можно доказать (см. [82, с. 42]), что функция распределения суммы 5П имеет вид Ήη(*0 = 3Σ(-ΐ)*σ*(*-*)ΐ, п\ СГ{ fc=0 (4) где /+ = тах{0, /}. На каждом из отрезков [г — 1, г], г = 1,... ,п, она является многочленом степени η (Fsn (х) на [0,1] была вычислена при решении задачи 3 гл. 2). На концах отрезков графики гладко «состыкованы». На рис. 8 изображены соответствующие плотности Psn(x) = (d/dx) FSn(x) для η = 1,2,3. В заключение рассмотрим способ точного моделирования, базирующийся на нелинейном преобразовании пары независимых и равномерно распределенных на [0,1] случайных величин щ, щ в пару независимых ЛГ(0,1) случайных величин Χ, Υ: X = у/-2In771 cos(2π772), Υ = \/—2\пщ sin(2^2). (5) Доказательство. Для независимых ΛΓ(Ο,Ι) случайных величин X и Υ плотностью вектора (Χ,Υ) служит p{x,Y)(x,y) = -/= *2 2 . 1 ч/2тг *2 1 *2+ι/2 - е 2 = — ρ 2 2тг Обозначим через R и Φ полярные координаты точки (Χ,Υ): Χ = = RcosΦ1 Υ = RsmΦ. Используя формулу преобразования из П8 (якобиан замены равен г), находим плотность вектора (Д,Ф): 1 _ri Р(Н,ф)(г,<р) = — е 2 г, г > 0, 0 < φ < 2тг. Так как она распадается в произведение плотностей _г2 ι pR(r) = re 2 /{г>0} и рф(<р) = — /{0<ν?<2π}) то R и Φ независимы. Интегрируя плотности, вычисляем функцию распределения Fr(t) = 1 — е~г /2 при г^Ои F<p(np) = φ/(2π) при О < ν? ^ 2π. Отсюда методом обратной функции получаем формулы для моделирования случайных величин R и Ф: R = у^—2 In 771, Φ = 2π7/2, которые только остается подставить в формулы замены координат. ■ Задача 6 дает способ моделирования выборки из закона Коши на основе датчика нормальных случайных чисел. „=1 » = Ps» ^ η = 2
52 Глава 4. Показательные и нормальные датчики §6. НАИЛУЧШИЙ ВЫБОР Иногда приходится полагаться на случай; ни в чем нельзя быть вполне уверенным в морском сражении. Г. Нельсон Вопрос 5. Почему при любом четном η и m = n/2 вероятность наилучшего выбора будет не менее 1/4? Сказка. В некотором царстве, некотором государстве жила-была царевна. И приехали к ней свататься добры-молодцы, один другого лучше. Заходили женихи в палаты царские по очереди да кланялись царевне. Все бы хорошо, да вот беда — добры-молодцы уж больно обидчивы! Коли сразу не давала своего согласия царевна, садились на коня да и подавались восвояси. А ей-то о женихах заранее ничего не ведомо, известно только, сколько всего их пожаловало. Как тут царевне быть, как выбрать из них самого достойного? Вероятностная модель. Предполагая, что женихи становятся в очередь в случайном порядке, будем считать, что пространством элементарных событий (см. Ш) является множество всех перестановок из η элементов: ω = (ii,...,in), где г& — различные числа от 1 до п, а вероятностная мера — равномерная: ρ(ω) = 1/п!. Удобно наглядно представлять перестановку в виде точек на действительной прямой с координатами Χι,...,Χη, такими что Хк находится правее Х^ если ik > Ц (см. [69, с. 15]). Точки появляются одна за другой, и желательно остановиться на точке с наибольшей координатой. Обсуждение. Если царевна выберет первого «попавшегося» жениха, то вероятность, что именно он окажется наилучшим, равна всего лишь 1/п. Можно, пропустив га первых женихов (чтобы осмотреться, какие вообще бывают женихи), затем остановиться на том, кто понравится больше всех предыдущих, а если такого не окажется —на последнем. Конечно, при этом не исключена возможность упустить самого лучшего! Оказывается, для произвольного η можно подобрать га£, при котором эта вероятность будет больше, чем 1/е « 0,368. Докажем это. Рассмотрим процесс появления точек Х{ на прямой.*) Для следующей после первой точки имеются две возможности—быть левее или правее (мы исключаем возможность равноценных женихов). Вообще, после г-й точки имеется г +1 промежутков, куда может попасть следующая (г + 1)-я точка. Понятно, что число всех возможных размещений равно 2 · 3 ·... · η = η!. Предположим, что рассматриваемая стратегия приводит к выбору к-й по счету точки (событие А*), к = га+1,... ,п. Такой выбор означает, что все точки при г = га + 1,..., А: — 1 располагаются левее крайней правой из первых пробных га точек, а к-я — правее всех. На расположение первых га точек это не налагает никаких ограничений, но для (га+1)-й точки имеется не га+1 промежутков, а лишь га (она не может быть крайней правой), для (га+2)-й — лишь *) Возьмите лист бумаги и карандаш и нарисуйте точки в соответствии с тем, что написано ниже.
§ 6. Наилучший выбор 53 га+1 промежутков,..., для (к — 1)-й — лишь к —2 промежутков, для к-й имеется единственная возможность — попасть правее всех предшествующих, затем для (к + 1)-й имеется уже к + 1 промежутков и т. д. Таким образом, при fc = m + l,...,n вероятность _ 1-2·...-mm·...-(fc-2Hfc+l)·.. ~ 1·2·3·...·η P(^fc) 123·. ...η "(jfe-l)jfe· Конечно, максимальная точка может попасть и в число пропускаемых первых т. Обозначим это событие через Ат. Пусть событие В означает остановку на максимуме. Рассмотрим событие ВПАь, к = m+1,... ,η, состоящее в том, что остановка произошла на А:-м шаге и привела к наилучшему выбору. Для случая, когда fc-я по счету точка оказывается абсолютно максимальной, для следующей (к + j)-Vl точки (j = 1,2,...,η — к) имеется не к + j промежутков, куда она может попасть, а лишь к + j — 1 (она не может попасть правее наибольшей). Это означает, что вместо последних сомножителей (к + 1) ·... · η в формуле для Р(Ак) надо взять к ·... · (п — 1), что влечет равенство Ρ (Β Π Ак) = т/[п(к — 1)]. Пользуясь формулой полной вероятности (П7) для разбиения Ак, к = т,...,п, находим вероятность выбора «наилучшего жениха» при заданном т: Рт(в)= Σ Р(впАк) = к=т+1 к=т К Обозначим через т£ то значение т, при котором Рт(В) будет наибольшей. В следующей таблице, взятой из [9, с. 38], для некоторых значений η приведены соответствующие числа т£ и р^ = Рт* (В). η ГПп Рп 2 0 0,5 3 1 0,5 4 1 0,458 5 2 0,433 7 2 0,414 10 3 0,399 20 7 0,384 50 18 0,374 100 37 0,371 1000 368 0,368 Можно доказать, что р^ убывает с ростом п. Из неравенства η т п^ 1 т Г dx _ т , т т п^ 1 И khm Ь^+ϊ ^^J^"~ ^ П^ ^ ^ к=тЬ т и того, что функция f(x) = —x\nx имеет максимум в точке х* = е"1, вытекает, что р£ —► /(#*) = е-1 « 0,368. Таким образом, предложенная стратегия является оптимальной (в смысле максимума вероятности сделать наилучший выбор), когда количество пропускаемых женихов приблизительно равно целой части числа п/е. В заключение отметим, что если ΑΊ,... ,ХП — выборка из равномерного распределения на [0,1] (или, в силу метода обратной функции,—из любого непрерывного распределения), благодаря тому,
54 Глава 4. Показательные и нормальные датчики что Х{ ограничены сверху 1, существует стратегия, при которой остановка на максимуме происходит с вероятностью не менее 0,58 (см. [9, с. 60]). ЗАДАЧИ Навык мастера ставит. 1. Пусть случайная величина Ζ имеет плотность Komu pz(x) = = — ~-. Получите формулу для моделирования выборки из 7Г(1 +Х ) этого распределения методом обратной функции. 2. Выясните, к какому закону «притягивается» а) максимум, б) минимум выборки из показательного распределения с функцией распределения F(x) = 1 — е~х при χ ^ 0. Указание. Запишите функцию распределения минимума и подберите ап и Ьп. 3. Докажите утверждение 3. 4* Пусть Δ(!) = πιίη{Δι,... ,Δη+ι}, где Δ& — k-ft спейсинг выборки из равномерно распределенных на [0,1] случайных величин (см. следствие в § 4). Установите на основе леммы 3 сходимость распределения п2А^ при η —► оо к показательному закону сА = 1. Указание. Используйте свойства сходимости (П5) и закон больших чисел (П6). 5? Для выборки τι,... ,тп из показательного распределения а) убедитесь, что спейсинги Δ* = τ^) — T(i_i), г = 1,...,п, независимы (здесь tq = 0); б) найдите распределение минимального показательного спей- синга. 6* Докажите, что если X и Υ — независимые ЛГ(0,1)-случайные величины, то Ζ = Χ/Υ распределена по закону Коши. Указание. Примените формулу преобразования плотности из П8 при замене (Χ,Υ) -> (Χ/Υ,Υ). РЕШЕНИЯ ЗАДАЧ 1. Прежде всего, вычислим функцию распределения случайной величины Ζ: χ Fz(x) = - —^-2 =J + -arctg:z. 7Г J 1 + и * π —оо Отсюда получаем искомую формулу для моделирования *г = tg[7T(j/< - 1/2)] = - Ctg(7H/i), (6) где у ι — псевдослучайные числа.
Решения задач 55 2. а) Согласно теореме 1 для показательного закона с λ = 1 имеем: Т(п) - Inn -+ f, где Ρ(ξ < χ) = exp {-e~x} (тип I). б) Так как показательное распределение является частным случаем закона Вейбулла—Гнеденко при α = 1, то предельный закон для минимума выборки тщ также должен быть показательным. Действительно, используя независимость и одинаковую распределенность случайных величин т», г = 1,... ,п, запишем η Ρ(τ(ΐ) >αη + Ъпх) = Ц Р(т< > ап + Ьпя) = е-п<в»+ь-*>. г=1 Взяв αη = 0 и Ьп = 1/п, видим, что случайная величина птщ показательно распределена с λ = 1. 3. Для г = 0,1,..., 0^2/^1, д = 1—р = е-1 имеем: При 2/ = 1 находим, что Р([т] = г) = дгр. Сложим вероятности несовместных событий {[т] = г, {т} t^y}, г = 0,1,... ,η (Π7): Р([т]< п, {т} < у) = ± (1-е"») £)«*? = р »=0 = ^(1-е-»)Р([т]<п). Устремляя здесь η —► оо, находим F{r}(2/) и, тем самым, устанавливаем независимость случайных величин [г] и {г}. 4. Пусть (τι,... ,τη+ι) — показательная выборка с параметром λ = = 1, £η+ι = τι + ... + τη+ι. Вектор равномерных спейсингов (Δι,... ,Δη+ι) по лемме 3 распределен так же, как вектор (Ti/Sn+i,... ,rn+i/Sn+i). Отсюда Δ(1) ~ Τ(ΐ)/5η+ι. Согласно решению задачи 2, случайная величина тщ имеет показательное распределение с параметром η +1. В силу закона ρ больших чисел (П6) Sn+i/(n + 1) —> Μτι = 1. Учитывая непрерывность при χ > 0 функции φ(χ) = 1/х, из представления „^ = |n/(„ + 1)f__|__(„ + 1)r(1) по свойствам сходимости (П5) получаем в качестве предельного закона показательное распределение с параметром λ = 1. Доказанное утверждение также легко выводится из следующего изящного результата Б. де Финетти (1964 г.): для произвольных χι ^ 0,..., #η+ι ^ 0 Ρ (Δι > xu..., Δη+ι > χη+ι) = (1 - χι - ... - χη+ι)+, где /+ = max{0, /}.*) Если положить h = χι =... = χη+ι, то Ρ(Δ(1)>Λ) = [1-(η + 1)Λβ. (7) *) Как его доказать, можно узнать из учебника [82, с. 57].
56 Глава 4. Показательные и нормальные датчики Взяв h = χ/η2 для произвольного χ ^ О, видим, что правая часть формулы (7) сходится к е~х при η —► оо. 5. а) Пусть для краткости λ = 1. С учетом ответа на вопрос 4 запишем плотность распределения вектора показательных порядковых статистик: η ^(г(1),...,г(п))(^Ь---^п) =п! Пе **> 0<^1 < ··· <^η· г=1 Отсюда (аналогично следствию из § 4) по формуле преобразования плотности (П8) для линейного отображения с якобианом 1, находим плотность вектора спейсингов: *>(*„....*.)(«ь · · · -u") = nl Пе-(и1+-+,ц) = nie_iUn+1_< i=l i=l в области {и: щ > О, г = 1,... ,п}. Таким образом, плотность представляется в виде произведения плотностей. Поэтому случайные величины Δ», г = 1,...,гг, независимы и показательно распределены с параметрами η + 1 — г соответственно. б) Используем этот результат для нахождения распределения минимального спейсинга A(i) = min{Ai,. · · >Δη}· η η г=1 г=1 т. е. случайная величина Α(ΐ) распределена по показательному закону с параметром п(п +1)/2. Ввиду свойств сходимости (П5) отсюда следует, что предельным распределением для п2А^) при η —► оо служит показательной закон с λ = 1/2. 6. Совместной плотностью независимых Л/"(0,1)-случайных величин X и Υ является , ν 1 _*£ 1 _Ζ Ι _*2+у2 Р(х,у,(зд) = ^е 27=е . =-е > . Сделаем замену s = х/у, t = у. При этом якобиан обратного преобразования равен t. Согласно формуле преобразования плотности получаем P(s,T)(*,t) = 1*1 P(x,Y)(*t,t) = \t\ — е" s 2 . Интегрируя по ί, находим 2π J π(1+5 ) J π(1+5 ) -оо О Другое доказательство вытекает из формул (5), периодичности функции ctg и формулы (6) для моделирования Z: X/Y = ctg(27TT72) ~ ctg (71772) ~ - ctg(^2).
Ответы на вопросы 57 ОТВЕТЫ НА ВОПРОСЫ 1. Если случайная величина η равномерно распределена на [0,1], то 1 — η имеет, очевидно, такое же распределение. Поэтому для моделирования можно использовать следующую формулу: Х{ = = -jlnyi. 2. Возьмем Ъп = епСп, где 0 < сп —> оо при π —► оо. Для любого χ > 0 при достаточно больших π выполняется условие хепс" > е. Тогда Р(Х{п)/Ьп < я) = Р(Х{п) < хепс") = = [1 - (псп + 1п#)_1]п —► 1 при η —► оо. 3. Для показательной случайной величины τ из формулы (2) при α = 1 находим Мт = l/λ, Mr2 = 2/λ2, откуда Dr = Mr2 - (Mr)2 = 2/λ2 - 1/λ2 = 1/λ2. 4. Вектор (£(ΐ),...,£(η)) получается из вектора равномерных порядковых статистик (?7(ΐ),.. -,Щп)) с помощью преобразования Xi = F_1(2/i), где F-1 (у)— обратная функция к функции распределения элементов выборки. Очевидно, что якобианом об- п ратного преобразования служит J = J\ ρ{χι). Следовательно, t=l плотностью вектора порядковых статистик (£(i), · ·. ,£(п)) является функция η Р«(1),....*(п))(жь · · · ,яп) =п\ ]\р(хг) при χι <х2 <... <хп. г=1 5. Обратим внимание на места в перестановке чисел η — 1 и п. В том случае, когда число η — 1 попадает в первую половину перестановки, а п — во вторую, рассматриваемая стратегия приводит к наилучшему выбору. Из симметрии вероятность такого расположения чисел η — 1 и η равна 1/4.
тация, моделирование. Глава 5 ДИСКРЕТНЫЕ И НЕПРЕРЫВНЫЕ ДАТЧИКИ § 1. МОДЕЛИРОВАНИЕ ДИСКРЕТНЫХ ВЕЛИЧИН Начнем с рассмотрения общего метода моделирования реализации Simulation (англ.) —ими- #ι,...,#η выборки (£ι,...,£η) из произвольного дискретного распределения. Положим pk = Ρ(£ι = с*;), к = 1,2,.... Разобьем отрезок [0,1] на части длины рк и обозначим через гт сумму т Σ Рк (^о = 0). Если псевдослучайное число yi (см. гл. 2) попадает к=1 в промежуток (τ^-ι,τ^·], то полагаем ж* = Cj (рис. 1).*) Этот метод на самом деле является методом обратной функции (см. § 1 гл. 4), если определить F~l(y) = inf {χ: F(x) ^ у} (рис. 2). Для некоторых дискретных случайных величин можно предложить специальные (более простые или более быстрые) датчики. — -ц- ·? Так, для моделирования случайной величины ι/, имеющей геомет- \)Pj у~ ^х' рическое распределение: pk = P(f = к) = (1 — р)кр, к = 0,1,..., -*—^ достаточно подсчитать число «неудач» до первого «успеха» в схеме Бернулли. Другой пример дает биномиальный закон. 1 + ri-i + f Xi = F-l(yi) Определение. Случайная величина Zn имеет биномиальное рас- Рис· 2 пределение с параметрами η и ρ (η = 1,2,...,0 ^ ρ ^ 1), если Ъ{к,п,р) = Ρ(Ζη = к) = С*р*(1 -р)п~\ к = 0,1,...,η (рис.3). (Здесь Ск = п\/[к\(п — к)\\ — число сочетаний из η по к). { ,η,ρ) Способ моделирования случайных величин с таким распределе- ~щ нием основан на следующем утверждении. пР & п Утверждение 1. Пусть Ci?C2? · · · — схема Бернулли с вероятностью Рис. 3 «успеха» р. Тогда число «успехов» в η испытаниях Ζη = ζι +... + ζη имеет биномиальное распределение. Доказательство. Докажем его по индукции, используя непосредственно проверяемое тождество С^-1 + Ск = С^+1. В силу леммы о независимости из § 3 гл. 1, случайные величины *) В частности, для бернуллиевской случайной величины получаем способ моделирования, предложенный в ответе на вопрос 2 гл. 2.
§ 1. Моделирование дискретных величин 59 Zn = Ci + · · · + ζη и Cn+i независимы. Поэтому 6(fc,n + Ι,ρ) = = Ρ(Ζη = k) P(Cn+i = 0) + P(^n = k - 1) P(Cn+i = 1) = = Σ cj-y-^i -p)n-fc+V(i -p)1_i = i=0 = (^ + C*-1)pfe(l-p)"+1-fe. ■ На основе утверждения 1 с помощью свойств математического ожидания и дисперсии из П2 получаем, что MZn = пр и DZn = = пр(1-р). Определение. Случайная величина N имеет распределение Пуассона с параметром λ > 0, если для к = 0,1,... р(к,Х) = Р(ЛГ = fc) = ^ e~\ Рисунок 4 дает представление о поведении ρ(λ;,λ) при λ > 1. Легко вычислить математическое ожидание закона Пуассона: оо оо \fc—1 Вопрос 1. К какому предельному закону сходится при п-юо (Zn-np)/y/np(l-p)7 (Здесь вероятность р€ (0,1) и не зависит от п.) С. Пуассон (1781-1840), французский физик μν=ς кР(к,\) = \ ς τπΰ fc=l k=l V*- Ч1 = λ. Замечание 1. Пуассоновское распределение получается предельным переходом из биномиального при η —► оо, ρ —► 0, пр —► λ: 6(fc,n,p) = ^^^ _ Μ* fc! fe! (1-рГ (n-fc + l)pfc(1_p)n_fc = [О":)--!'-^)»-')- и математик. Τ ^^Йи"^(^'А) ^ Е1 | | 0 λ к Рис. 4 где (1— р)п —► е , а выражение в квадратных скобках стремится к 1. Пуассоновское приближение биномиального распределения при больших η и малых ρ иногда называют законом редких событий. Для моделирования пуассоновской выборки понадобится Утверждение 2. Пусть η,Τ2,... — независимые показательно распределенные с параметром λ случайные величины. Положим 5П = = τι + ... + τη, Ν — число значений 5η, η = 1,2,..., на отрезке [0,1]. Тогда случайная величина N имеет распределение Пуассона с параметром λ. Доказательство. Согласно лемме 1 гл. 4 случайная величина 5η ~ Γ(η,λ), т.е. плотностьpsn(х) = Хпхп~1е~Хх/(п — 1)! при χ > 0. Дифференцированием нетрудно проверить, что соответствующей этой плотности функцией распределения является FSn (x) = l- e~Xx "ff {\хУ/г\ при χ > 0. (1) г=0 Вопрос 2. Чему равна DAT? а) Угадайте. б) Вычислите.
60 Глава 5. Дискретные и непрерывные датчики Sn 1 s Рис. 5 Положим So = 0. Тогда с учетом положительности τη+ι находим Р(ЛГ = п) = Р(5п<1,5п+1>1) = Р(5п^1)-Р(5п+1^1) = ^е-\ что и требовалось установить. Докажем утверждение 2 другим способом. Для η ^ 1 запишем равенство Р(ЛГ = п) = Р(0 < 5η < 1,τη+ι > 1 - Sn). Поскольку 5П и τη+ι независимы, их совместная плотность имеет вид P(Sn,Tn+i)(*»t) = Psn(5)Prn+1(*)· Проинтегрируем ее по множеству {0 ^ s ^ 1, t > 1 - s} (рис. 5): 1 оо 1 Р(ЛГ=п)=| | pSn(e)pTn+1(i)iftde=JpSn(e)P(rn+i>l-e)de= 0 1-s J (n-1)! .-1е-А..е-А(1-.)Л = \ η (n-1) J'-1*-* ,-λ Так как ζ Ρ(^ = η) = 1, то η=0 P(jv = о) = ι - Σ ?(N = n) = e~A. ■ 71=1 На основе утверждения 2 и метода обратной функции (см. § 1 гл. 4) получаем формулу для моделирования пуассоновских случайных величин: щ = min < к ^ 0: \\yij < е λ > , где yij — псевдослучайные числа (г = 1,2,...; j = 0,1,...). §2. ПОРЯДКОВЫЕ СТАТИСТИКИ И СМЕСИ Для выборки (ϊ7ι,...,ϊ7η) из равномерного распределения на [0,1] найдем распределение к-й порядковой статистики щк) (см. § 4 гл. 4). Утверждение 3. FVk)(x) = £ Сгпх{(1 - х)п~\ 0 ^ х ^ 1. г=к 77(i) Щк) У(г) У(п) Доказательство. «Успехом» будем называть попадание точки 0 х 1 ^ левее х (рис. 6). При этом случайные величины ζ* = I{Vi^.x} Рис. 6 образуют схему Бернулли с ρ = ж, а число «успехов» имеет биномиальное распределение. Другими словами, вероятность того, что β точности г из η точек попадут левее (и, следовательно,
§ 2. Порядковые статистики и смеси 61 η — г точек правее) #, равна С^#г(1 — х)п~г. Но Р(г7(А:) ^ ж) —это вероятность того, что по крайней мере к точек окажутся слева от χ (г = /с,к + 1,... ,п). ■ Дифференцированием функции Fn{k) (x) вычисляем плотность: рщк)(*) = Σ с*ахх*-\1 -х)п-<- Σ ση{η-ϊ)χ\ι-χ)»-*-1. Так как последнее слагаемое во второй сумме равно нулю, запишем Вопрос 3. Какая функция распределения у случайной величины £(fc), если компоненты выборки & имеют непрерывную функцию распределения F >унк- п-1 п—1—г *!<*>(*) = Σ «^ ar-^l - *)п- - Σ ηΟ_! х»(1 - *) Все слагаемые в первой сумме, кроме первого, сокращаются: p4w(x)=nC*Z11xfc-1(l-x)n-*. (2) Поскольку (п — 1)! = Г(п), из (2) и формулы (10) гл. 3 выводим при 0 < χ < 1, что W*) = B(fc,n.fc + 1)* Μ1-*) \П—fc Определение. Случайная величина f/ имеет бета-распределение с параметрами г > 0 и s > 0, если ее плотность задается формулой Ри{х) = щ^ ЯГ_1(1 " z)S-1J{0<a:<l}· Графики на рис. 7 дают представление о плотности ри(х) при разных значениях г и s. В частности, при г = s = 1 бета- распределение сводится к равномерному распределению на [0,1]. Другим частным случаем (при г = s = 1/2) является арксинус- распределение с функцией распределения F(x) = - arcsin yfx на [0,1]. Оно возникает в качестве предельного закона для времени, в течение которого находился в выигрыше первый из двух равных по силам η игроков: δη = Σ ^{5fc_i^o,5fc^o}, где Sk = Χι + ... + Xk, случайные fc=l величины Xi независимы, P(Xi = — 1) = Р{Х% = 1) = 1/2, г = 1,2,.... Тогда Ρ(δη/η ^ х) —► -F(x) при η —► оо (см. § 4 гл. 16). Так как F(0,976) « 0,9 (рис. 8), то в среднем β каждом пятом случае один из игроков будет лидировать на протяжении не менее 97,6% времени игры. Легко подсчитать момент к-го порядка бета-распределения: ι шк = -^—, \xk+*-l(i - χ)'-1** = B{rJk:s). B(r,s) J B(r,s) (3)
62 Глава 5. Дискретные и непрерывные датчики Рис. 9 Вопрос 4. _ Можно ли F(x) представить в виде смеси с положительными весами других функций распределения? Вопрос 5. Почему в этом примере оо fc=0 С. Η. Бернштейн (1880-1966), российский математик. К. Вейерштрасс (1815-1897), немецкий математик. Для того чтобы познакомиться с еще одним методом моделирования (так называемым методом суперпозиции) потребуется ввести понятие смеси распределений. Определение. Пусть рк ^ 0, Y^Pk = 1, F^ (ж) —некоторые к функции распределения. Тогда функция распределения F(x) = = J2pkFk(x) называется смесью распределений Fk(x) с весами рк- Пример 1. Функция F{x), приведенная на рис. 9, представляет собой смесь с весами 1/2 функций распределения F$(x) = I{x^i] (т. е. ξ = 1с вероятностью 1) и Fv(x) случайной величины г/, равномерно распределенной на отрезке [0,1]. Для моделирования случайной величины, функция распределения которой является смесью, используется основанный на формуле полной вероятности (П7) Метод суперпозиции 1) Разыгрывается значение дискретной случайной величины, принимающей значения к = 1,2,... с вероятностями рк (см. § 1). Обозначим полученное в результате розыгрыша значение через ко. 2) Моделируется случайная величина с функцией распределения Fk0 (x) некоторым способом (скажем, методом обратной функции из § 1 гл. 4). Пример 2. Пусть ξ распределена на [0,1] с плотностью р$(#), оо представимой в виде степенного ряда Σ акХк с а^ ) 0 ([29, fc=o оо с. 20]). Положим рк = ак/(к + 1). Тогда р$(х) = £) Рк (к + 1)хк. к=0 Но случайная величина Щк+i) = max{77i,... ,77fc+i}, где щ независимы и равномерно распределены на [0,1], обладает плотностью Рщк+1) (х) = (к +1) хк (см. задачу 3 гл. 1), т. е. Щк+i) имеет бета-распределение с параметрами r = fc + lns = l, и для моделирования ξ можно применить метод суперпозиции. К сожалению, рассмотренный подход нельзя использовать, если среди коэффициентов а& есть отрицательные. Однако для непрерывных плотностей можно предложить способ приближенного моделирования, основанный на аппроксимации их полиномами Берн- \п—к штейна fn(x)=tf(^)ckxk(i-xY Теорема Вейерштрасса. Если функция f(x) непрерывна на отрезке [0,1], то fn(x) —► f(x) равномерно по χ при η —► оо. Доказательство. Известно, что всякая непрерывная на отрезке [0,1] функция ограничена: \f(x)\ ^ Μ < оо (см. [45, с. 193]). Кроме
§ 2. Порядковые статистики и смеси 63 того, она является равномерно непрерывной: для всякого ε > О найдется δ > О такое, что \f{x) — f(y)\ ^ ε, коль скоро \х — у\ ^ δ (см. [45, с. 446]). Пусть Ζη — количество «успехов» в η испытаниях Бернулли с вероятностью «успеха» х. Обозначим для краткости через рк биномиальную вероятность 6(λ;,η,#) = Ρ(Ζη = А:), т. е. Рк = С*хк(1-х)п-\ к = 0,1,..., п. Отметим, что в силу теоремы о замене переменных (П2), полином Бернштейна fn(x) равен M/(Zn/n). Используя неравенство Чебышева (П4), получаем .-х1>лг VIп I / η δ ηδ ϊ*>* Αηδ2 {fc:|±-x|>*} Отсюда выводим равномерную по χ Ε [0,1] оценку погрешности приближения: \№-fn(x)\ = \£[f(x)-f(%)]Pk\ < Σ \f(x)-f(£)\pk+ Σ \f(x)-f(^)\pk< {fc:|t-|<*} {*:|4-|>*} Переход к пределу при ε-^Оип-^оо завершает доказательство. Следствие. Непрерывную на отрезке [0,1] плотность f(x) можно равномерно приблизить плотностями, в качестве которых годятся нормированные полиномы Бернштейна ι fn(x) = fn(x)/dn, где dn = fn(x) dx. В самом деле, из равномерной сходимости fn(x) к f(x) вытекает, 11 _ что dn = J* fn(x) dx —► J* /(ж) <£r = 1, т. е. /n(#) —► f(x) равномерно, oo _ _ Для моделирования случайной величины ξη с плотностью /п(#) методом суперпозиции представим нормированный полином fn(x) в виде смеси: Ш = Σ /Щт [(» + 1) С* **(1 - *)-fc], (4) fc=0 "nV71 "г а; где в квадратных скобках стоит (см. формулу (2)) плотность (к + 1)-й порядковой статистики для выборки размера η + 1 из
64 Глава 5. Дискретные и непрерывные датчики Дж. фон Нейман (1903-1957), американский математик. равномерного распределения на [0,1]. Из формулы (4) интегрированием получаем, что При больших η равномерные порядковые статистики разбивают отрезок [0,1] на примерно равные по длине части, так что приближенное моделирование случайной величины ξ с плотностью f(x) методом суперпозиции, основанное на формуле (4), по существу является заменой ξ на дискретную случайную величину, принима- k .(k\ ющую значения - с вероятностями, пропорциональными / - . η \п/ §3. МЕТОД НЕЙМАНА (МЕТОД ИСКЛЮЧЕНИЯ)*) Предположим , что случайная величина ξ распределена на отрезке [а,Ь], причем ее плотность ограничена: max Ρξ(χ) = С < оо. хе[а, Ь] Случайные величины 171,772,... — независимы и равномерно распределены на [0,1], Х{ = а + (Ь - α)η2ί-ι, У% = Сщ% (i = 1,2,...). Таким образом, пары (Xi,Yi) независимы и равномерно распределены в прямоугольнике [а, Ь] χ [0, С] (рис. 10). Обозначим через ν помер первой точки с коордипатами (А"*,!*), попавшей под график плотности Ρξ(χ), т. е. ν = min{z: Y\ ^ p^(Xi)}. Положим оо Xv — 2-jXrJ-{v=n\- 71=1 Утверждение 4. При выполнении приведенных выше условий случайная величина Хи распределена так же, как £. Доказательство. Пусть р — это вероятность попадания точки (XiXi) под график плотности, q = 1 — р. Тогда вероятность ρ = P(Yi ^ ρξ(Χι)) есть отношение площади под графиком у = ρξ (χ) к площади прямоугольника: ]ρξ(χ)άχ Р = С{Ъ - а) С{Ъ - а) ' По формуле полной вероятности (см. П7) представим функцию распределения Χν\ оо FXv(x) = 9{Χν <ι)=ΣΡ(" = η,Χη ζ χ). η=1 Принимая во внимание, что {„ = η} = {Yi > pe(Xt),i = 1,... ,η - 1, Yn < ρξ(Χ„)}, ) Материал этого параграфа не используется в дальнейшем.
§ 3. Метод Неймана (метод исключения) 65 и что события {Yi > ρξ(Χί),ι = 1,...,п-1} и {Υη ^ρξ(Χη)1Χη < χ} независимы согласно лемме из § 3 гл. 1, получаем (см. рис. 10): FX„(*) = С» = Σ P(Yi>Pt(Xi),i = l,...,n-l,Yn^pt(Xn),Xn^x) = n=l χ = Σ qn-lP(Yn*iPdXn),Xn*ix)= Σ яп~1 α η=1 οο 71=1 С(Ь-о) Σ fc Pk |Δ*| Вопрос б. Сколько в среднем точек (Xi,Yi) потребуется «вбросить» в прямоугольник [a,b] χ [0,С] для получения одного значения ξ? = Е«п_1[р*€(*)]=ад, 71=1 что и требовалось доказать. ■ В случае, когда площадь прямоугольника [a, b] х [0, С] значительно превышает 1, время моделирования можно существенно уменьшить, применяя модифицированный метод Неймана (расслоенную выборку). Он состоит в разбиении [а, Ь] на отрезки Δ*, на каждом из которых ρξ(χ) не намного отличается от Сk = max р$(х) (рис. 11). хеАк Тогда Ρξ(χ) представляется в виде смеси плотностей Д (ж): Pt(x) = T,Pk Л (ж), где0<рь= p*(xdx, /fc(a?) = 5^ifi /Δ fc J Pfc Afc Отсюда видим, что для моделирования случайной величины ξ надо: 1) разыграть номер отрезка разбиения А к с вероятностями рк\ результат розыгрыша обозначим через &о, 2) моделировать методом Неймана случайную величину с плотностью Д0(х) ^ Ско/рко, бросая случайно точки в прямоугольник Ак0 х [0, Ск0/рк0] до первого их попадания под график плотности Д0 (х) или, что то же самое, в прямоугольник Ак0 χ [0, Ск0] до первого попадания под график функции р^{х). Из ответа на вопрос 6 и свойства 1 условного математического ожидания (П7) следует, что среднее число бросаний будет равно т.е. сумме площадей прямоугольников А к х [0,С&], которая при измельчении разбиения стремится к 1, так как Ρζ(χ) — плотность. Пример 3. Плотность показательной с параметром λ = 1 случайной величины г представляется в виде смеси (g = e_1,p = l — q): оо оо рТ(х) = е-х1[0,+оо)= Σ e"fce-(x-fc)/[fc,fc+1)= Σ (Якр) Р{т}(х~к) к=0 к=0 (см. утверждение 3 гл. 4). Этот пример демонстрирует возможность моделирования модифицированным методом Неймана случайной величины, плотность которой имеет неограниченный носитель.*) *) Носитель — множество, на котором плотность положительна.
66 Глава 5. Дискретные и непрерывные датчики Замечание 2. Рассмотренный в § 3 гл. 4 способ моделирования последовательности {т} без вычисления логарифмов, является обобщением метода Неймана. Вместо бросания точек в прямоугольник [α,6] χ [О, С] производится выбор случайных точек r\i = (r7ii,?7i2> · · ·) из бесконечномерного единичного куба /°° = [0,1] χ [0,1] х ... . Момент первого попадания под график плотности Ρξ(χ), τ. е. в множество {(х,у): a^x^b.O^y^ Ρξ(χ)}, заменяется на момент попадания в множество Л = {у = (уьУ2, · · ·): У\ >Уч > · · · >Ук-1 <Ук,К четно} С/°°, имеющее бесконечномерный объем ρ = 1 — е-1. §4. ПРИМЕР ИЗ ТЕОРИИ ИГР Представьте, что вам предложили принять участие в следующей простой игре (см. [72, с. 54]). Одновременно со своим противником вы называете одну из двух цифр— «1» либо «2» (поднимаете один или два пальца). Если сумма названных цифр —четное число, то вы выигрываете, а если нечетное, то проигрываете эту сумму. Платежная матрица игры приведена на рис. 12. Стоит ли играть на таких условиях? Давайте разберем, к каким результатам приводят разные стратегии в этой игре. Прежде всего, заметим, что если бы вы сумели точно предсказать следующую цифру противника, то смогли бы выиграть, назвав такую же. Аналогичной возможностью играть в противофазе обладает и противник. Поэтому обоим игрокам надо применять случайные стратегии. Однако, совершенно случайно (например, подбрасывая монету) называть «1» или «2» игрокам также нет резона, так как в этом случае их средний выигрыш равен +2 — 3 — 3 + 4 = 0 (говорят, что игра имеет «нулевую сумму»). Давайте сыграем! Ниже приведена последовательность из «1» и «2», названных противником без учета вашего поведения. Закройте эти цифры листком бумаги и, постепенно сдвигая его вправо, попытайтесь угадывать следующую цифру. Запишите свои выигрыши и проигрыши в соответствии в платежной матрицей, изображенной на рис. 12, и подсчитайте итог. 21221211121121122112 Удалось победить? На самом деле эта игра выгодна для противника: используя приведенную ниже стратегию, он сможет при достаточно большом числе партий вас разорить! Действительно, если вы называете «1» с вероятностью р\ и «2» с вероятностью 1 — pi, а противник —с вероятностями рг Добрый пример лучше ста слов. (\ \ё [* 4 +2 -3 Т| -3 +4 / Рис. 12 Вопрос 7. Допустим, что противник все же решил называть «1» и «2» равновероятно, невзирая на ваше поведение. Как'вам следует играть в таком случае?
Задачи 67 и 1— р2> соответственно, то средний выигрыш за партию Ζ(ρι,ρ2) = = +2ριρ2 - 3ρι(1 - Р2) - 3(1 - pi)p2 4- 4(1 - ρι)(1 - p2) = 12pip2 - - 7pi - 7p2 + 4. Поверхность 2 = Z(pi,p2) является гиперболическим параболоидом («седлом»), в сечении которого плоскостью р% = 7/12 получается прямая, параллельная оси абсцисс: Ζ(ρι,7/12) = —1/12 (рис. 13). Таким образом, если противник называет «1» с вероятностью 7/12 « 0,583 и «2» с вероятностью 5/12 « 0,417, то независимо от значения pi вы будете в среднем проигрывать 1 за каждые 12 партий. Приведенная выше последовательность из «1» и «2» была получена с помощью последнего столбца таблицы случайных чисел Т1 в соответствии с оптимальной стратегией противника: если очередное число в столбце меньше или равно 58, то записывалась «1», иначе— «2». Однако, чтобы в серии независимых игр выиграть определенную небольшую сумму 5 (скажем, S = 20) с вероятностью близкой к 1, противнику потребуется вовсе не 125 (= 240) партий, а намного больше (см. задачу 5). Вопрос 8. Допустим, что вам известно значение до и то, что противник не станет его менять, как бы вы не играли. Какой стратегии следует придерживаться в такой ситуации? Рис. 13 Медленно, но верно. IV, И ЗАДАЧИ Счастье в том, чтобы без ^ помех упражнять свои „ _ способности, каковы бы 1. Для равномерной порядковой статистики η^) сравните точку они ни были. Максимума ПЛОТНОСТИ (так Называемую МОду распределения) Аристотель, «Политика», и Мщк). 2. Чему равно математическое ожидание случайной величины ξ с функцией распределения F(x) из примера 1? 3. Пусть случайные величины X ~ Г(г,А) и Υ ~ Γ(θ,λ) независимы. Проверьте, что тогда Χ/(Χ+Υ) имеет бета-распределение с параметрами г и s. Указание. Примените формулу преобразования плотности случайного вектора из П8. 4. Выборка 77ι,... ,г/п взята из равномерного распределения на [0,1]. Используйте леммы 1 и 3 гл. 4 для доказательства того, что при п —► оо имеет место сходимость пщк) —* Τ ~ Г(А:,1), где Щк) ~ &-я порядковая статистика. Указание. Используйте свойства сходимости (П5) и закон больших чисел (П6). 5. Допустим, что в примере из теории игр противник играет по оптимальной стратегии (рг = 7/12), а вы равновероятно называете «1» и «2» (pi = 1/2). Сколько примерно партий потребуется противнику для выигрыша S = 20 с вероятностью 0,975? Указание. Для оценки вероятности используйте центральную предельную теорему (П6) и таблицу Т2.
68 Глава 5. Дискретные и непрерывные датчики РЕШЕНИЯ ЗАДАЧ 1. Дифференцируя правую часть формулы (2), нетрудно установить, что плотность случайной величины η^) имеет максимум в точке гпк = (к — 1)/(п — 1). Ito формуле (3) находим Мщь) — к/(п + 1) (выбранные наудачу η точек разбивают отрезок [0,1] на η +1 интервалов в среднем одинаковой длины). Плотность случайной величины щк) симметрична плотности величины 77(п+1_*.) относительно прямой χ = 1/2. При к < (п+1)/2 мода Шк < МЩк)^ распределение «скошено» влево (правый «хвост» тяжелее). При к > (п+ 1)/2 —наоборот. 2. Μξ = JxF(dx) = iJxF€(dr) + \lxF„{dx) = \ + \ = |. 3. Используем тот же прием, что и при решении задачи 6 гл. 4: а) дополним случайную величину Х/(Х + Y) до двумерного случайного вектора; б) найдем его плотность по формуле преобразования (см. П8); в) проинтегрируем плотность по последней координате. Пусть и = х/(х + у), г/ = χ + у. Обратное преобразование задается формулами ж = ш/, у = ν — гш, 0 < м < 1, ν > 0. Отсюда dx/du = ν, dx/dv = г/, dy/du = —ν, dy/dv = 1 — u n\J\=v. Р(^)М = щт (uv)r-1(v-t«/)e-1e-,\ 0<ti<l,v>0. oo , ч «r-1(l-u)»-1 f r+s_i _„, ur-1(l-u)s_1 0 4. Пусть (τι,... ,rn+i) — показательная выборка с параметром λ = = 1, Sk = η + ... + 7>. По лемме 1 гл. 4 Sk ~ Г(А;,1). В силу леммы 3 гл. 4 Щк) ~ Sk/Sn+i- Согласно закону больших ρ чисел (П6) Sn+i/(n+l) —-» Μ η = 1. Из непрерывности функции φ{χ) = 1/х при χ > 0 и представления п -А. = п ( 1 П Sn+i n + 1 V5„+i/(n + l) используя свойства сходимости (П5), получаем Г(А:,1) в качестве предельного распределения для случайной величины пщк)- 5. Приведем решение, следуя [79, с. 107]. При pi = 1/2 и рг = 7/12 размер выигрыша в одной партии Χι имеет не зависящее от г распределение: он принимает значения —3,2,4 с вероятностями 1/2,7/24,5/24 соответственно. При этом μ = ΜΧι = —1/12, σ2 = DXi = ΜΛ?-(ΜΛΊ)2 « MX? = (9·12+4·7+16·5)/24 = 9. Поскольку |μ| = 1/12 значительно меньше, чем σ « 3, в одной партии преобладает случайный разброс, а не снос. Однако, при продолжительной игре систематический отрицательный снос W
Ответы на вопросы 69 Рис. 14 μ = —1/12 в соответствии с усиленным законом больших чисел неминуемо (почти наверное) приводит к уходу траектории блуждания на —оо (рис. 14). Насколько быстро происходит этот уход? Обозначим через 5П = Χι + ... + Хп размер выигрыша за η партий. Тогда в силу центральной предельной теоремы (П6) при достаточно больших η P(Sn < -20) = Ρ (^^ к =™=ϋ») * Φ (-*> + "/") , где Ф(х) — функция распределения закона ΛΓ(Ο,Ι). Из таблицы Т2 находим, что 0,975 « Ф(1,96) « Ф(2). Отсюда получаем квадратное уравнение для определения требуемого числа партий: п/12—6<^п—20 = 0. Оно имеет положительный корень щ « 5600. Таким образом, пройдет немало времени, пока проигрышная тенденция перевесит случайные колебания 5П. На большом пути и малая ноша тяжела. Игра не стоит свеч. Софья в «Горе от ума» А. С. Грибоедова ОТВЕТЫ НА ВОПРОСЫ 1. Для центрированных и нормированных сумм бернуллиев- Ответа не хочу, я знаю ских случайных величин в силу центральной предельной тео- ваш ответ ремы (П6) предельным законом является ЛГ(0,1). 2. Так как при η —► оо, ρ —► 0, пр —► λ биномиальное распределение стремится к пуассоновскому, то можно предположить, что и дисперсии сходятся: lim np(l — ρ) = λ. Однако, в общем случае п—юо из сходимости по распределению (П5) не следует сходимость дисперсий, поэтому вычислим DN непосредственно: ОО \fc-2 Μ [Ν(Ν - 1)] = Σ *(* - 1)ρ(*,λ) = λ2 Σ (k _ 2)! - ΟΛΓ = Μ [Ν(Ν - 1)] + ΜΛΓ - (ΜΛΓ)2 = λ2 + λ - λ2 = λ. -λ _ \2 = У, 3. Учитывая непрерывность F(x), воспользуемся методом обратной функции (см. § 1 гл. 4): *€<*,(*) = Р (*<*) < х) = Р (Ftiw) < F(x)) = = р (Щк) < f(x)) = Σ с;ад<(1 - f(x))»-\ i=k
70 Глава 5. Дискретные и непрерывные датчики Доказательство законности суммирования (тауберовой теоремы) приведено, например, в [33, с. 57]. Можно. Например, F{x) = ~ F(x) + ~ F(x). С другой стороны, разложение на дискретную и непрерывную составляющие единственно (см. [12, с. 53]). оо Степенной ряд Ρξ(χ) = Σ a,kXk сходится на [0,1]. Поэтому fc=o можно почленно интегрировать на (0,1). Будучи функцией распределения, ад = ς ^γ fc=0 Л + l JH-l 1 при χ —► 1. Так как коэффициенты этого ряда неотрицательны, то его можно суммировать при χ = 1. 6. Согласно задаче 4 гл. 1 в среднем потребуется Mi/+1 = q/p+1 = = Ι/ρ = С (b — α) точек. 7. Всегда называя «2», вы будете выигрывать больше (+4), чем проигрывать (—3). 8. Надо максимизировать Ζ(ρι,ρ2) = Ρι(12ρ2 — 7) — 7рг + 4 по Pi € [0,1] при фиксированном значении рг- Очевидно, что для Р2 < 7/12, максимум достигается при pi = 0, а для рг > 7/12 — при pi = 1.
Часть II ОЦЕНИВАНИЕ ПАРАМЕТРОВ Эта часть книги рассчитана в основном на студентов, изучающих математическую статистику. Поэтому к большинству утверждений и теорем приведены доказательства, что может оказаться полезным при подготовке к экзамену. Рассмотрено много примеров, на которых проясняется смысл важнейших понятий статистики. Тем читателям, кто интересуется в первую очередь методами обработки прикладных данных, можно сразу после просмотра §§ 1-2 гл. 6 перейти к части III.
Глава 6 СРАВНЕНИЕ ОЦЕНОК Если у тебя спрошено будет: что полезнее, солнце или месяц? — ответствуй: месяц. Ибо солнце светит днем, когда и без того светло, а месяц —ночью. Но, с другой стороны: солнце лучше тем, что светит и греет, а месяц только светит, и то лишь в лунную ночь! Козьма Прутков Хг 0? 10 20 30 40 Рис. 1 Вопрос 1. Может ли это значение равняться а) 28, 6) 100? Анализируемые методами математической статистики данные обычно рассматриваются как реализация выборки из некоторого распределения, известного с точностью до параметра (или нескольких параметров). При таком подходе для определения распределения, наиболее подходящего для описания данных, достаточно уметь оценивать значение параметра по реализации. В этой главе будет рассказано, как сравнивать различные оценки по точности. § 1. СТАТИСТИЧЕСКАЯ МОДЕЛЬ Эксперимент. Пусть 0 — некоторое неизвестное положительное число. Ниже приведены (с точностью до 0,1) координаты χι десяти точек, взятых наудачу из отрезка [0,0]. 3,5 3,2 25,6 8,8 11,6 26,6 18,2 0,4 12,3 30,1 Они были получены по формуле Хг = 0у^, г = 1,...,10, где у ι — псевдослучайные числа (см. гл. 2). Попробуйте угадать значение параметра 0 с помощью рис. 1, на котором изображены эти точки. С формальной точки зрения в данном эксперименте мы имеем дело со следующей моделью: набор Х{ — это реализация независимых и равномерно распределенных на отрезке [0,0] случайных величин Xi с функцией распределения ад = < 0, если χ ^ 0, ж/0, если 0 < χ < 0, 1, если χ ^ 1 (рис. 2). Здесь 0 Ε θ = (0, +оо) — неизвестный параметр масштаба. Статистическая модель. В общем случае задается семейство функций распределения {Fo(x), 0 Ε θ}, где θ —множество возможных значений параметра; данные #ι,...,#η рассматриваются как реализация выборки ΛΊ,... ,Хп, элементы которой имеют функцию распределения F$0 (x) при некотором неизвестном значе-
§ 2. Несмещенность и состоятельность 73 нии 0о € Θ. Задача состоит в том, чтобы оценить (восстановить) 0о по выборке #ι,... ,#п, по возможности, наиболее точно. Те, кто знаком с методом обратной функции из § 1 гл. 4, могут представлять себе задачу так: кто-то задумал 0о, а затем получил реализацию по формуле #; = ^1(у»), где у* — псевдослучайные числа (рис. 3). Как «угадать» задуманное значение, основываясь на наблюдениях #ι,... ,#п? Будем оценивать 0о ПРИ помощи некоторых функций 0 от η переменных я ι,... ,#п.*) Для приведенных выше данных эксперимента в качестве оценок неизвестного параметра масштаба можно использовать, скажем, θι = #(п) = max{#i,... ,#п} и 02 = 2 (#ι+.. .+хп)/п. Интуитивно понятно, что при увеличении η каждая из оценок будет приближаться именно к тому значению 0, с которым моделировалась выборка. Но какая из них точнее? Каким образом вообще можно сравнивать оценки? Прежде чем дать ответы на эти вопросы, познакомимся с важнейшими свойствами оценок — несмещенностью и состоятельностью. §2. НЕСМЕЩЕННОСТЬ И СОСТОЯТЕЛЬНОСТЬ Определение. Оценка 0(#ι,... ,#п) параметра 0 называется несмещенной, если М# 0(Χι,... ,Хп) = 0 для всех 0 Ε θ. Замечание. Важно, чтобы условие несмещенности выполнялось для всех 0 £ Θ. Тривиальный контрпример: оценка 0(#ι,... ,#п) = = 1, идеальная при 0 = 1, при других значениях 0 имеет смещение Ь(0) = М0-0 = 1-0. Иногда представляет интерес получение оценки не для самого параметра 0, а для некоторой заданной функции φ(θ). Здесь индекс θ у М# означает, что имеется в виду математическое ожидание случайной величины θ(Χι,...,Χη), где Xi распределены с функцией распределения Fq(x). В дальнейшем этот индекс будет опускаться, чтобы формулы не выглядели слишком громоздко. Пример 1. Для выборочного КОНТРОЛЯ ИЗ Партии ГОТОВОЙ ПрОДуК- 6: bias (англ.) — смещение. ции отобраны η приборов. Пусть Χι,... ,ХП — их времена работы до поломки. Допустим, что Χι одинаково показательно распределены с неизвестным параметром 0: F$(x) = 1 — е~вх, χ > 0. Требуется оценить среднее время до поломки прибора оо оо φ(θ) = МХг = θ ί χε~θχάχ = i f ye ■Uy=\ Вопрос 2. Будут ли несмещенными определенные выше оценки 01 и 02? (Посмотрите решения задач 2 и 3 из гл. 1.) По свойствам математического ожидания (П2) выборочное среднее X будет несмещенной оценкой для функции φ(θ): MX = φ(θ). *) Предполагается, что функции являются борелевскими (см. П2). В частности, годятся любые непрерывные функции 0(χι,... ,хп)·
74 Глава 6. Сравнение оценок Замечание, ^сли в примере 1 попытаться оценить сам параметр 0 при помощи 0 = 1/Х, то получим смещенную оценку. Это следует из строгой выпуклости функции φ(χ) = 1/х при χ > О и неравенства Иенсена (см. П4). Несмещенная оценка для 0 приведена в задаче 6. Следующий пример показывает, что не всякую функцию φ в заданной статистической модели можно несмещенно оценить. Пример 2. Пусть элементы выборки Xi имеют распределение Бер- нулли с неизвестной вероятностью «успеха» 0 Ε θ = (0,1): P(Xi = 1) = 0, Р(Х{ = 0) = 1 - 0. В этой модели при η = 1 нельзя несмещенно оценить φ(θ) = 1/0. Действительно, условие несмещенности имеет вид φ(0) (1-θ) + £(1)0 = 1/0. При 0 —► 0 линейная функция в левой части стремится к <р(0), а гипербола в правой — к бесконечности. Пример 3. Рассмотрим выборку из какого-либо распределения с двумя параметрами μ и σ, где μ = Μ Χι и σ2 = DXi (скажем, нормального закона Λί(μ, σ2) из § 2 гл. 3). По свойствам математического ожидания (П2) выборочное среднее X несмещенно оценивает параметр μ. В качестве оценки для неизвестной дисперсии φ(σ) = σ2 можно взять выборочную дисперсию S2 =1-±{Хг-х? =1-±х* -х2. (1) п г=1 п г=1 Вопрос 3. юмнстаоЭ не приводя* Однако, оценка 52 имеет смещение. Действительно, так как вычислений, а опираясь случайные величины Xi независимы и одинаково распределены, глЛКи тео^му^замене то» применяя свойства математического ожидания (П2) на основе переменных (П2)? формулы (1), получаем: \пг=1 п i,j=l / п г=1 п г=1 - Α Σ MXi MXj = MX2 - - MX2 - —i (MXi)2 = 5^1 DXi. n2 ^ ^ η η η Чтобы устранить смещение, достаточно домножить 52 на п/(п-1). В нормальной модели Ν (μ, σ2) можно несмещенно оценить само стандартное отклонение σ с помощью оценки σ = Cn^/nS2/(n — l)
§2, Несмещенность и состоятельность 75 - гамма- (см. [15, с. 29]), где сп = ]^Г (^—^ /т (|) , Г(х) - функция Эйлера, определенная ранее в § 4 гл. 3. Отметим, что с ростом η коэффициент сп довольно быстро убывает к 1: η Сп 2 1,253 3 1,128 4 1,085 5 1,064 10 1,028 20 1,012 50 1,005 Само по себе свойство несмещенности не достаточно для того, чтобы оценка хорошо приближала неизвестный параметр. Например, первый элемент Χι выборки из закона Бернулли служит несмещенной оценкой для θ: ΜΧι =0·(1 — θ) + 1 · θ = θ. Однако, его возможные значения 0 и 1 даже не принадлежат θ = (0,1). Необходимо, чтобы погрешность приближения стремилась к нулю с увеличением размера выборки. Это свойство в математической статистике называется состоятельностью. Определение. Оценка 0(#ι,... ,#п) параметра θ называется состоятельной, если для всех θ Ε θ последовательность θη = Θ(Χ\,... ,Χη) —► θ при η —► οο. ρ Здесь —► обозначает сходимость по вероятности (см. П5): для любого ε > 0 Р(|0П — 0\ > ε) —> 0 при η —► оо. Состоятельность оценки (а точнее — последовательности оценок {^п}) означает концентрацию вероятностной массы около истинного значения параметра с ростом размера выборки η (рис. 4). Как установить, будет ли данная оценка состоятельной? Обычно оказывается полезным один из следующих трех способов. 1) Иногда удается доказать состоятельность, непосредственно вычисляя функцию распределения оценки (задачи 1 и 2). 2) Другой способ проверки состоит в использовании закона больших чисел (П6) и свойства сходимости 3 из П5. (Так, оценка θ = 1/Х из примера 1 будет состоятельной ввиду непрерывности функции φ(χ) = 1/х при χ > 0.) 3) Часто установить состоятельность помогает Лемма. Если смещение Ъп(в) = Μθη—Θ и дисперсия Οθη стремятся к нулю при η —► оо, то оценка θ состоятельна. Доказательство. По неравенству Чебышева (П4) p(ifln-fli>g)<M(*;2~g)2· Но М(0„ - Θ)2 = Μ(θη - Μθη + Μθη -Θ)2 = Μ [(θη - Μθη) + Ьп(в)}2 = = Οθη + 2 Ьп(в) Μ(θη - Μθη) + ЬЦв) = Οθη + ЪЦв). ■ П2>П\ У=РвП1(х)
76 Глава 6. Сравнение оценок Кто не рискует, тот не пьет шампанского. Если используется функция штрафа р(и) = |и|, то риск называют абсолютным, а если р(и) = и2 — квадратичным. §3. ФУНКЦИИ РИСКА Проблема. Как измерить точность оценки? Пусть p(u) ^ 0 обозначает функцию штрафа (потерь) в том смысле, что мы платим штраф ρ(θ — θ) за отклонение оценки θ(χι,... ,#п) от истинного значения параметра Θ. Обычно р(0) = О и р(и) возрастает с ростом \и\. Определение. Функцией риска оценки θ называется Щ{в) = Щф{Хи...,Хп)-в), т. е. средняя величина потерь при оценивании θ с помощью Θ. _1_ An RxiO) 1/2 Рис. 5 Рис. β Рис. 7 Ri(9) J К о' θ Рис. 8 Т. Байес (1702-1761), английский математик. Пример 4. Вычислим квадратичный риск частоты X для схемы Бернулли из примера 2. В силу несмещенности X и свойств дисперсии %(0) = М(Х - Θ)2 = ЩХ - MX)2 = DX = = n~2D(Xi + .. .+Хп) = n_1DXi = θ(1-θ)/η (дисперсия случайной величины Χι была найдена в § 2 гл. 1). График функции ϋχ(θ) (верхняя часть параболы) для θ G (0,1) приведен на рис. 5. Как же сравнивать оценки? Можно считать ту оценку лучшей, у которой риск меньше. Но риск —это функция от Θ. Каким образом выбрать «наименьшую» из двух функций, скажем, таких, как на рис. 6? (Что больше, синус или косинус?) Рассмотрим три подхода к этой проблеме. 1) Минимаксный (осторожный) подход заключается в сравнении функций по их наибольшему значению на множестве θ (см. рис. 7): выбирается та оценка, у которой при самом неблагоприятном значении θ риск меньше. Таким образом, при этом подходе выбор оценки диктуется желанием избежать крупного штрафа, если θ окажется вблизи точки максимума функции риска. Однако, возможна ситуация, когда минимаксный подход противоречит здравому смыслу (рис. 8). В подобных случаях более разумным представляется 2) Байесовский (интегральный) подход: сравниваются два интеграла, Д = jRi(9)dQ и /2 = J#2(0)c?Q, где Q — некоторая мера на множестве Θ. В частности, когда θ — скалярный параметр и Q — равномерная мера на Θ, лучшей при таком подходе считается оценка, у которой меньше площадь под графиком функции риска. Байесовскими в математической статистике называются методы, при которых априорная информация о параметре, если таковая имеется, формализуется в виде некоторого распределения Q (не обязательно вероятностного) на параметрическом множестве θ (см. [38, с. 168]). При этом, если Q — вероятностная мера (см. Ш), на сам параметр θ можно смотреть, как на случайную величину. В некоторых ситуациях предположение о случайности параметра θ
§3. Функции риска 77 выглядит весьма естественно: «природа» как бы разыгрывает значение θ в соответствии с распределением Q перед моделированием очередной выборки. На практике можно оценить функцию распределения меры Q по частоте появления θ в ранее проведенных экспериментах. Иногда из соображений равной возможности всех значений θ априори полагают, что Q — это равномерная мера на множестве Θ. 3) Ограничение множества оценок: для некоторых статистических моделей существуют оценки, обладающие равномерно мини- мольным риском в заданном классе оценок (рис. 9). Так, в нормальной модели из примера 3 оценки μ = X и σ· 2 _ nS2/(n — 1) имеют равномерно минимальную дисперсию среди всех несмещенных оценок с конечной дисперсией (см. [50, с. 83]). То же самое справедливо (см. [50, с. 75]) для частоты X как оценки неизвестной вероятности «успеха» в схеме Бернулли и для несмещенной оценки 0з = maxiXi,... ,ХП} = 0ι η η параметра масштаба 0 в модели равномерного распределения на отрезке [0,0] из § 1. Для последней оценки согласно задаче 3 гл. 1 имеем V η ) η2 (η + 1)2(η+ 1 _(п±}У_ η θ2 = (η + 1)2(η+2) η(η + 2) Ρ. (2) Отметим, что за устранение смещения максимума θ\ пришлось заплатить увеличением дисперсии в ( — J раз. Ввиду задачи 2 гл.1 дисперсия D02 = 4DX = 02/(Зп). Отсюда находим, что отношение D03/D02 = 3/(п + 2) ^ 1 и стремится к 0 при η —► оо. Сравним точность этих оценок для данных эксперимента. На самом деле выборка была получена умножением на 0о = 35 десяти псевдослучайных чисел из первой строки таблицы Т1. Легко вычислить, что 02(#ъ· · · ,#п) = 28,1 и 0з(жь...,жп) = 33,1. Значит, оценка 0з в данном случае точнее, а значение 02 оказалось даже меньше, чем хю = max{#i,... ,#п} = 30,1. В заключение, обсудим проблему выбора функции штрафа. Во многих статистических моделях существуют несмещенные оценки с равномерно минимальным риском для любой выпуклой (П4) штрафной функции (см. [50, с. 79]). С другой стороны, реальные (например, финансовые) потери всегда ограничены. Но ни одна ограниченная на (—оо, +оо) функция р(и) φ const не может быть выпуклой. К сожалению, для ограниченных штрафных функций (скажем, для р(и) = const ·1{\ν\>δ})ι как правило, не существует несмещенных оценок не только с равномерно, но и с локально минимальным риском (см. [50, с. 81]). К счастью, для выборок большого размера ситуация упрощается. Для гладкой функции потерь ее разложение в ряд Тейлора в нуле Рис. 9
78 Глава 6. Сравнение оценок Взирая на солнце, прищурь глаза свои, и ты смело разглядишь в нем пятна. Козьма Прутков дает ρ(θ' - 0) = α + 6(0' -0) + с(0' - 0)2 + ε, где остаток ε пренебрежимо мал при достаточно малом |0' — 0|. Условия р(0) = 0 и р(и) ^ 0 влекут, соответственно, равенства α = О и Ь = 0. Следовательно, р(0' — 0) = с(0; — 0)2 + ε. Таким образом, для состоятельных оценок 0 минимизация риска Мр(0 — 0) при больших п, по существу, равносильна минимизации квадратичного риска М(0 — 0)2 (т. е. не зависит от конкретного вида функции р). Однако, оценки, наилучшие при квадратичной функции потерь, часто бывают слишком чувствительными к выделяющимся значениям элементов выборки (так называемым «выбросам»). Эту проблему мы рассмотрим подробнее в главе 8 при обсуждении устойчивости оценок к «выбросам». 0,17 0,83 Рис. 10 Не всякой сказке верь. §4. МИНИМАКСНАЯ ОЦЕНКА В СХЕМЕ БЕРНУЛЛИ Как было отмечено выше, выборочное среднее X в схеме Бер- нулли — несмещенная оценка вероятности «успеха» 0, обладающая равномерно минимальной дисперсией. Однако минимаксной (име-. ющей наименьший максимум риска) для квадратичного штрафа является (см. [50, с. 228]) оценка Ходжеса—Лемана ё=х+тт^Ц-х) (3) Давайте проведем эксперимент по сравнению точности оценок X И в. 1) Задумайте вероятность «успеха» во £ (0,1). 2) Смоделируйте выборку размера η = 9 из распределения Бернулли с помощью таблицы Т1 (см. вопрос 2 гл. 2). 3) Вычислите значения оценок и определите, какая из них оказалась ближе к во. Например, пусть во = 0,17. По первой строке в таблице Т1 получаем реализацию выборки: 1, 1, 0, 0, 0, 0, 0, 1, 0 (если число в таблице меньше 17, то пишем «1», иначе— «0»). Для таких _ 1 3 Xi находим, что χ = ц « 0,333 и в = ^ = 0,375. Видим, что в данном случае частота оказалась точнее. А как у вас? Если проводить этот эксперимент многократно (каждый раз загадывая новое значение 0о)> то примерно в половине случаев оценка в будет ближе к 0о> ч^м х. Но согласно изложенной ниже «теории» такое, казалось бы, должно происходить намного чаще! Действительно, из рис. 10, на котором приведены графики квадратичных рисков при η = 9 оценок X и в (см. задачу 4), следует, что доля тех в, при которых Я§(в) < Λγ(0), равна примерно 0,83 — 0,17 = 0,66. Почему же на практике оценка в обычно выигрывает лишь в 50% случаев?
Задачи 79 Объяснение. Дело в том, что, сравнивая X и 0, мы смотрим, значение какой из них оказалось ближе к 0о, а не платим квадратичный штраф за погрешность оценивания параметра 0о- Другими словами, средний выигрыш в пари при ставке С на оценку 0 равен_Ср((9) + (-С)[1 - р(0)] = 2С \ρ(θ) - 1/2], где ρ(θ) = = Р(|0 - 0| < \Х - 0|). Игра выгодна, когда ρ(θ) > 1/2. Функция ρ(θ) симметрична относительно 1/2. Нетрудно вывести, что при ^ ^ 1/2 № = 1-р(££<х<з)' где^ = 4(1 + ^п) Ее можно вычислить, используя то, что случайная величина пХ имеет биномиальное распределение (см. утверждение 1 гл. 5). Предполагая равномерность выбора значения 0о из [0,1] (байесовский подход), заметим, что при η = 9 площади над и под уровнем 1/2 графика ρ(θ) на рис. 11 отличаются всего на 0,008. Похожая ситуация возникает при оценке параметра сдвига μ в нормальной модели Х% ~ ΛΓ(μ, σ2) с известным параметром масштаба σ. Эта модель может использоваться для измерений, точность которых заранее известна. В ней выборочное среднее X будет не только несмещенной оценкой с равномерно минимальной дисперсией, но и минимаксной оценкой для квадратичного риска. Тем не менее, существует такая оценка Д, что Р(|Д — μ\ < \Х — μ\) > 1/2 при всех μ. Эта оценка выглядит так: μ = Χ- -1= sign(X) min{y/K\X\/c, Φ{-^\Χ\/σ)} , где Ф(х) —функция распределения закона ЛГ(0,1) (см. [15, с. 14]). На хорошее всегда найдется лучшее. ЗАДАЧИ 1. Для случайных величин Х{ г = 1, ...,п, взятых^ наудачу из отрезка [0,0], докажите состоятельность оценки θ ι = Χ(η) = = max{Xb...,Xn} а) непосредственно из определения, б) применяя лемму из § 2. 2. ,Д[ля статистической модели из задачи 1 проверьте, что оценка 04 = (п + 1) Х(1), где Х(1) = min{Xb ... ,ХП}, а) не имеет смещения, б) не является состоятельной. 3. Придумайте какую-нибудь несмещенную и состоятельную оценку для параметра 0 в модели сдвига показательного распределения (см. рис. 12) Fb(x) -{; _ €-(χ-θ) при χ > 0, при χ ^ 0.
80 Глава 6. Сравнение оценок 4. Вычислите смещение, дисперсию и квадратичный риск минимаксной оценки Ходжеса—Лемана в схеме Бернулли (см. формулу (3)). 5. Для схемы Бернулли при η = 3 нарисуйте график абсолютного риска X. Будет ли эта функция а) непрерывной, б) гладкой? 6. Для показательной выборки ΧΊ,... ,ХП из примера 1 положим 5П = Х\ + ... + Хп. Установите несмещенность оценок а) 0 = (η — 1)/5п для параметра 0, б) φ = (1 — t/Sn)n~ I{sn>t] Для функции надежности φ(θ) = = Ρ(Χι > t) = е"**, где ί"> 0. Указание. Примените лемму 1 гл. 4 и теорему о замене переменных (П2). 7* Для модели из задачи 1 сравните дисперсии несмещенных оценок 03 = ^— Х(П) и 05 = Χ(ΐ) + Х(п)· Указание. Найдите функцию распределения F(x1y) и плотность р(х,у) вектора (Х(!),Х(П)) и вычислите математическое ожидание МХщХ(п) = J" J ху p(x,y)dxdy. РЕШЕНИЯ ЗАДАЧ 1. а) Ввиду задачи 3 гл. 1 Fx(n)(x) = (χ/θ)η при 0 ^ χ ^ 0. Поскольку Р(Х(П) ^ 0) = 1, Для любого ε из (0,0) имеем Pflfli - 0| > ε) = Р(Х{п) ^ θ - ε) = (1 - ε/θ)η -> 0 при η —► οο. б) Из той же задачи Μ0ι = —► 0 и D0i = -~- г -*0. ' ^ п + 1 (п + 1)2(птЬ2) 2. а) Очевидно, что случайные величины Х[ = 0 — Х^ г = = 1,... ,п, также образуют выборку из равномерного распределения на отрезке [0,0]. Поэтому случайная величина XL* = = min{X{,... ,Χ^} = 0 - X(п) распределена так же, как Χ(ΐ). Отсюда с учетом решения предыдущей задачи получаем МХ{1) = 0 - МХ{п) = 0 - п0/(п + 1) = 0/(п + 1). б) Используя независимость случайных величин Х^, находим, что при η —+ оо ρ(^>^+ε) = Πρ(^>^τ) = V θ{η+\)) 3. Рисунок 12 подсказывает взять Χ^ι) = πάα{Χ\,... ,Хп} в качестве состоятельной оценки параметра сдвига. Поскольку
Решения задач 81 Ρ(Χ(ΐ) > 0) = 1, эта оценка имеет смещение. Вычислим его. Для Δ = X(i) — 0 в силу независимости величин Х^ находим: Ρ(Δ > χ) = Ρ(Χι > χ + 0) ·... · Ρ(Χη > χ + 0) = e"na\ Иными словами, случайная величина Δ имеет показательное распределение с параметром п. С учетом ответа на вопрос 3 гл. 4 получаем ΜΔ = 1/п и ϋΔ = 1/п2. Следовательно, 0 = Х(!) — 1/п —несмещенная и состоятельная (в силу леммы из § 2) оценка. Другим решением задачи может служить несмещенная оценка X — 1 (случайные величины Χι — Θ показательно распределены с параметром 1). Ее состоятельность вытекает из закона больших чисел (П6) и свойств сходимости (П5). 4. Минимаксную оценку 0 можно записать так: 0 = (1-εη)Χ + (1/2)εη, где еп = 1/(1 + у/п). (4) Поскольку MX = 0 и DX = 0(1 — 0)/п, по свойствам из П2 смещение 6(0) = М0 - 0 = (1/2 - 0) εη, D0 = (1 - εη)2 DX = = (1 — εη)20(1 - θ)/п. Таким образом, 0 —смещенная, однако состоятельная (в силу леммы из § 2) оценка. Квадратичный риск 0 легко найти по формуле, полученной при доказательстве леммы: R§(0) = D0 + Ь2(0) = 1/[4(1 + \/п)2]. Замечание. Так как %<1/2) = 1/(4п), то Щ{в) < Д^(0) в некоторой окрестности точки 1/2 при любом η (см. рис. 10). Поэтому для достаточно близких к 1/2 значений параметра θ оценка 0 предпочтительнее. Это и понятно: ввиду формулы (4) она, являясь «взвешенным средним» X и 1/2, подправляет оценку Х1 притягивая ее к 1/2. 5. Приведем решение для произвольного η (см. [15, с. 31]). Абсолютный риск частоты X в схеме Бернулли есть Дх(0) = Μ \Х - 0| = £ 11 - θ\ Сгпв\1 - θ)η~\ г=0 I П I Пусть dj(0) = (0 - £)С£0*(1 - Θ)η~\ Так как MX = 0, то , л = 1,2,. . . ,?Ί, 'fc-1 fc Σ<^(0) = 0. С учетом этого для 0 G г=0 L П nJ абсолютный риск представляется в следующем виде: %(0) = Е<к(в) - £χ(0) = 2ΣΜΘ) - Σ*(θ) = 2Σάί(θ). г=0 г=к г=0 г=0 г=0
82 Глава 6. Сравнение оценок Рис. 13 Аналогично выводу формулы (2) из § 2 гл. 5 устанавливается, что правая часть равна 2C*Z{ 0fc(l —0)n_fc+1 (проверьте!). В случае η = 3 имеем %(*) = { 2(9(1 - (9)3 при О ОО/З, 402(1-0)2 при 1/3 < 0 ζ 2/3, [2 03(1-0) при2/3^0^1. График этой функции приведен на рис. 13. На отрезке 0,~ риск имеет локальный максимум при 0 = -т. Части графика на \k-l к] концах отрезков (к = 1,2,3) не стыкуются гладко. 6. а) В силу леммы 1 гл. 4 случайная величина 5n ~ Г(п,0) с плотностью psn(s) = 0nsn~le~98/Г(п) при s > 0. Далее, по теореме о замене переменных из П2, определению и основному свойству гамма-функции (см. § 4 гл. 3) имеем о б) Аналогично, сделав замену χ = 0(s — £), получим оо оо M^=|(l-*/*)n-1Ps(*)de=i^|(e-i)n-1e-fl'<fa=e- et 7. Так как 0 — параметр масштаба для распределений оценок 0з и 05, то достаточно найти отношение D05/D03 при 0 = 1. Вычислим совместное распределение случайных величин Хщ и X(n): F(x,y)=P(X(1) ζχ,Х{п) ^у)=Р(Х{п) <у) -Р(Х(1)>я,Х(п) <у) = (УП — (у—χ)η·> если 0<ж<у<1, уп, если 0<я^у<1, поскольку Ρ(Χ(ΐ) > а?,Х(п) < у) = Р(ж < Х< ^ у, г = 1,...,п), а эта вероятность равна (у — #)п, если ж < у, и равна 0 в противном случае. ПЛОТНОСТЬ р(х,у) = flgfy = П(П - 1)(у - ж)П"2/{0<а:<2/<1}, 1 1 ЬЛХ(1)Х(п) = п(п — 1) J χ J y(y — x)n~2dy dx. С помощью замены о χ ζ = у — χ легко получить, что внутренний интеграл равен (1 - х)п/ η + χ (1 - χ)71-1/ (η - 1).
Ответы на вопросы 83 Согласно определению бета-функции и формуле (10) гл. 3, выражающей ее через гамма-функцию, находим: МХ(1)Х(П) = (n-l) B(2,n + l) + nB(3,n) = = [(η-1)Γ(2)Γ(η + 1)+ηΓ(3)Γ(η)]/Γ(η + 3). Поскольку Г(п) = (п — 1)!, окончательно получаем, что MX(1)X(n) = [(n-l)l!n!+n2!(n-l)!]/(n+2)! = l/(n+2). С учетом свойств дисперсии (П2) и решений задач 1-2 D05 = DX(1) + DX(n) +2 (MX(1)X(n) - MX(1) MX{n)) = w Vn + 2 n + 1 n+V V n/ ^ ^ 2 Отсюда и из формулы (2) имеем 1 < D05/D03 = \—τη * 2 1 -+- 1/71 при η —► оо. ОТВЕТЫ НА ВОПРОСЫ 1. а) Значение θ не может равняться 28, так как хю = 30,1. б) Хотя значение 100 для θ теоретически возможно, но интуитивно представляется крайне маловероятным (вероятность получить наблюдаемое расположение точек при θ = 100 не превосходит (тах^/0)п = 0,30110 « 6,1 · Ю-6). 2. Оценка θ ι всегда недооценивает θ и поэтому смещена. Несмещенность оценки 02) очевидно, вытекает из симметрии распределения величины Χι относительно 1/2 (откуда ΜΧι = 0/2) и свойств математического ожидания (П2). 3. Для дискретной случайной величины £, принимающей значения Хг (г = 1,... ,п) с одной и той же вероятностью 1/η, Μξ = χ. В силу теоремы о замене переменных (П2) Me=l-t*i ο*=±ς(*<-*)2· n i=l n г=1 Таким образом, при любых χι проверяемое равенство — частный случай формулы (4) гл. 1. Из пушки по воробьям.
Глава 7 АСИМПТОТИЧЕСКАЯ НОРМАЛЬНОСТЬ Все верят в универсальность нормального распределения: физики верят потому, что думают, что математики доказали его логическую необходимость, а математики верят, так как считают, что физики проверили это лабораторными экспериментами. А. Пуанкаре Рис. 3 § 1. РАСПРЕДЕЛЕНИЕ КОШИ В [11, с. 178] приведено описание следующего эксперимента по локализации источника излучения. В некоторой точке трехмерного пространства с неизвестными координатами (а, Ь, с) находится источник 7-излучения. Регистрируются координаты (#г»Уг)> г = = 1,... ,п, точек пересечения траекторий 7-квантов с поверхностью детекторной плоскости ζ = 0. Требуется оценить параметры а и b по этим данным, предполагая, что направления траекторий 7-квантов случайны, т. е. равномерно распределены на сфере с центром в точке (а,Ь,с) (рис. 1). Какую оценку можно было бы предложить для (а, Ь)? Первое, что приходит в голову,— это (Χ,Υ). Ясно, что точки пересечения траекторий с плоскостью ζ = 0 располагаются гуще непосредственно под источником излучения. В подобных случаях прибегают к усреднению данных, чтобы, по возможности, устранить разброс измерений (предполагается, что при этом происходит взаимная компенсация отклонений в разные стороны). Однако, в данном случае усреднение совершенно бесполезно. Для объяснения, почему это так, рассмотрим одномерный аналог эксперимента (двумерная модель разбирается в задаче 7): из точки (0,1) выходит случайный луч (рис. 2), направление которого равномерно распределено на нижней полуокружности с центром (0,1). Случайная величина X — координата пересечения этого луча с осью абсцисс. Какая плотность р(х) у этой величины? Решение. Понятно, что плотность — четная функция. Вычислим ее для χ ^ 0. Найдем сначала функцию распределения F(x) = Р(Х ^ х) (см. рис. 2): F(x) = Р{Х ^ 0) + Р(0 < X ^ х) = J + — = \ + - arctgx. Δ 7Г ^ 7Г Отсюда р(х) = F'(x) = 1/[π(1 + χ2)]. Это — плотность Коши. На первый взгляд она похожа на плотность стандартного нормального закона ЛГ(0,1) (рис. 3). Однако, они различаются по скорости убывания к нулю при χ —► оо вероятностей Р(Х < —х) и Ρ(Ι ^ а;) (так
§1. Распределение Коши 85 называемых «хвостов распределения»). У закона Коши «хвосты» намного «тяжелее». Ленивой лошади и хвост Чем опасны «тяжелые хвосты»? Тем, что случайная величина втягость с таким распределением с довольно существенной вероятностью может принимать большие по абсолютной величине значения. Поэтому в реализации выборки большого размера из такого закона обязательно появятся одно или несколько наблюдений, которые сильно отличаются от остальных (их называют «выбросами»). В этом случае при оценивании «центра» распределения при помощи выборочного среднего X произойдет резкое смещение оценки в сторону наибольшего «выброса» (см. задачу 6). Куда один баран, туда Из-за слишком «тяжелых хвостов» у закона Коши не суще- и все стадо ствует даже математического ожидания (см. замечание в § 2 гл. 1). Если бы оно существовало, то по усиленному закону больших чисел (П6) среднее арифметическое сходилось бы к Μ Χι с вероятностью 1 при η —► оо. А что происходит с X для выборки из распределения Коши? Чтобы выяснить это, используем характеристические функции (П9): оо ψΧι (t) = MeitXl = (cos tx + г sin tx) p(x) dx = —oo oo _ 1 f COStx ~ π J 1 + x2 tx , dx. Этот интеграл, зависящий от параметра £, можно явно вычислить с помощью теоремы о вычетах (см. [73, с. 239]). Ответ таков: ΨχΑΐ) — e~l*L (Другой способ — применение к е-'*' обратного преобразования Фурье из П9.) Отсюда, используя свойства 2 и 3 характеристических функций из П9 (при а = О, Ъ = 1/п), находим: ^x(t)=П^(*)=e-n|t|' <м«)=e_n|t/n|=e_|t|· г=1 Таким образом, характеристическая функция среднего X совпадает с характеристической функцией величины Χι. Так как характеристическая функция однозначно определяет функцию распределения (см. [90, с. 301]), то X также имеет распределение Коши при любом п. Поэтому наблюдаемое значение X будет отклоняться от 0 ничуть не меньше значений самих Х{. Как же, все-таки, состоятельно оценить θ в модели сдвига F(x — Θ), когда F — функция распределения закона Коши? Подходящей оказывается, например, оценка, определяемая в следующем параграфе.
86 Глава 7. Асимптотическая нормальность §2. ВЫБОРОЧНАЯ МЕДИАНА Рассмотрим ранее встречавшийся в § 4 гл. 4 вариационный ряд X(i) < Х(2) < ... < Χ(η)ι состоящий из упорядоченных по возрастанию элементов выборки (Χι,... ,ХП). Определение. Выборочной медианой называется оценка ч · " ' » МДЯ=/Х(*+1)' если η = 2*+ 1, Х{1) Х{2) MEDX{n) |(X(fc) + X(fc+1))/2, еслип = 2А: Рис. 4 (рис. 4 при η = 5). Выборочная медиана MED служит оценкой для теоретической медианы х\/2, которая определяется как решение уравнения „/ ч у F(x) = 1/2, где F(x) — функция распределения элементов выборки. ^/ Для непрерывной функции F(x) решение всегда существует, но | может быть не единственным (рис. 5). ~Щ ► Подобно математическому ожиданию (см. § 2 гл. 1), медиана х ΧιJ2 является характеристикой, показывающей, где располагается Рис. 5 «центр» распределения: P(Xi ^ Xl/2) = Р(Хг > Xl/2) = \ (см. также задачу 4). Пример 1. Модель радиоактивного распада ([68, с. 5]). Как известно, радий (Да) с течением времени превращается в радон (Rn). В момент распада атом радия излучает α-частицу — ядро атома гелия (Яе), и происходит переход Ra —► Rn. Допустим, что время г до распада отдельного атома Ra не зависит от состояния других атомов и имеет показательное распределение: pt = Р(т > t) = e~xt. Если имеется всего η атомов радия (в одном грамме насчитывается приблизительно 1022 атомов), то среднее число остающихся через время t атомов есть n(t) = npt = ne~xt. Определяемая из равенства п(Т) = п/2 величина Τ (период полураспада) не зависит от исходного количества Да: Τ = 1η2/λ (для радия Τ « 1600 лет). На языке теории вероятностей Т —медиана показательного распределения. Какими свойствами обладает MED как оценка для #ι/2? Теорема 1. Пусть элементы выборки имеют плотность р(#), причем р(х\/2) > 0. Тогда при η —► оо Эта сходимость вытекает (см. [50, с. 314]) из теоремы 2, доказываемой в § 3. Контрпример. Плотность р(х) на рис. 6 симметрична и равна 0 при |х| ^ а. При η —* оо MED для нечетных η будет принимать
§ 3. Выборочные квантили 87 бесконечное количество раз значения как из интервала (—оо, — а), так и из интервала (а, + оо). Поэтому она не может сходиться ни к какой из точек отрезка [—α,α]. При выполнении условий теоремы 1 выборочная медиана будет состоятельной оценкой для #ι/2· Более того, из теоремы 1 следует, что точность оценки MED при больших η имеет порядок малости \j\fn. Действительно, умножая (MED — X1/2) на у/п («коэффициент увеличения микроскопа»), мы получаем нечто «практически ограниченное» (с вероятностью 0,997 по «правилу трех сигм» из § 2 гл. 3). Задача 5 дает пример состоятельной оценки с иной асимптотикой погрешности. Возвращаясь к оценке параметра сдвига распределения Коши, видим, что #!/2 = θ (это вытекает из симметрии плотности случайной величины Х{ относительно 0), причем р(х\/2) — 1/я" > 0· Следовательно, MED — состоятельная оценка для параметра сдвига. Другие (более точные) оценки θ в этой модели будут приведены в двух следующих главах. Замечание. Для оценивания координат α и b в эксперименте по локализации источника излучения можно было бы поставить вторую детекторную плоскость, если излучение достаточно сильное, чтобы пройти сквозь первую, или установить над плоскостью непроницаемый экран с «окошком» и использовать «сверхэффективность» (т. е. точность порядка 1/п) крайних членов усеченной выборки (см. эксперимент по сравнению 2Х и Х(п) Для выборки из равномерного распределения на [0, Θ] в § 1 гл. 6). Тем не менее, рассмотренный пример поучителен тем, что такая «естественная» оценка центра симметрии распределения и «сгущения» наблюдаемых значений элементов выборки, как X, оказывается несостоятельной, и поэтому требуются более сложные оценки. §3. ВЫБОРОЧНЫЕ КВАНТИЛИ Понятие теоретической медианы можно обобщить. Определение. Пусть α Ε (0,1). Для непрерывной функции распределения F теоретической a-квантилъю ха называется решение уравнения F(x) = а (рис. 7). Так же, как и в случае медианы (а = 1/2), это решение может быть не единственным. Оценить ха можно с помощью порядковой статистики Χ([αη]+ΐ)ι где [ · ] обозначает целую часть числа. Эту оценку называют выбо- Вопрос 1. Почему MED состоятельна? (См. свойства сходимости из П5.) 1- 0 ---yf Xq, У = F(x) X Рис. 7
88 Глава 7. Асимптотическая нормальность рочной а-квантилъю. Ее состоятельность вытекает из следующей теоремы. Теорема 2. Пусть элементы выборки имеют плотность р(#), причем р(ха) > 0 для заданного а € (О,1). Тогда у/п (Χ([βη]+ΐ) - Яа) -* ξ ~ Μ (0, а(1 - а) /р2(ха)) при η -^ оо. Для доказательства теоремы 2 потребуется Лемма 1. Пусть φ(θ)— дифференцируемая функция, причем φ'(θ) ф 0. Если ^/η{θη-θ)±>ξ~Ν(0,σ2) при η -+ оо, то V* [φΦη) ~ φ(θ)] ±φ'№~Μ* (θ, σ V(*)]2) · Пояснение. При η —► оо распределение оценки 0П приближенно нормально и концентрируется около Θ. Отображение φ в малой окрестности θ практически является линейным растяжением с коэффициентом φ'(θ) угла наклона касательной к графику У = φ(β) у = φ(χ) в точке θ (рис. 8). Так как распределение оценки θη в основном сосредоточено на расстоянии порядка 1/у/п от точки 0, то нормальность сохраняется (см. П9), а дисперсия умножается на коэффициент [φ'(θ)]2. Доказательство леммы 1. Разложим φ(χ) в точке θ по формуле Тейлора: φ(θη) - φ(θ) = (θη — θ) [φ'{θ) + ζη], где для любого ε > 0 величина |£η| < ε при \θη - θ\ < δ(ε). Отсюда P(|Cn| < ε) ^ ^ Ρ(\θη — 0| < ί) —► 1 при η —► оо, так как θη —» θ (см. вопрос 1). ρ Поэтому ζη —► 0. С учетом свойства сходимости 1 из П5 V» [ψΦη) - ψ{θ)] = WH (θ„ - θ)} (φ'(θ) + ζ„)^ξ· φ'(θ). Ш Доказательство теоремы 2. Докажем ее сначала для выборки (?7ъ?72> -- - Μη) из равномерного распределения на [0,1]. По лемме 3 гл. 4 порядковая статистика щь) ~ Sk/Sn+i, где Sk = η + ... + τ&, г» — независимые показательные случайные величины с параметром λ = 1, г = 1,... ,п+1. Поэтому у/п(щк) — ol) ~ y/n(Sk/Sn+i—a). Проведем следующие простые преобразования: v^ (Sfc/Sn+i - α) = >/ϊί [(1 - α) Sfc - α (S«+i - Sk)]/Sn+i = = [η/5η+ι] · [bnYn - cnZn + dn], где bn = (1 - α) y/k/n, cn = a y/(n + 1 - fc)/n, dn = (A; - cm - a)/y/n, Yn = № - fc)/Vfc, Zn = [(Sn+1 - Sfc) - (n + 1 - fc)]/Vn + l-fc. ρ В силу закона больших чисел (П6) 5η+ι/(η+1) —► Μτι = 1 при η —► —► оо. Применяя свойства сходимости 1 и 3 из П5 для непрерывной ρ при χ > О функции </?(#) = 1/ж, получаем, что n/Sn+i —-» 1.
§ 4. Относительная эффективность 89 Заметим, что случайные величины ξη = bnYn и ζη = cnZn независимы, так как являются функциями от независимых векторов (τι,...,τ^) и (ть+1,... ,τη+ι) соответственно (см. лемму из § 3 гл. 1). Поэтому характеристическая функция вектора (£п»Сп) (см. П9) в силу свойства 5 математического ожидания из П2 имеет следующий вид: Положим А: = кп = [απ] + 1. Тогда Ьп —* (1 — а)<у/а, Сп —► а>/1 — а. Согласно центральной предельной теореме (П6) распределение обеих случайных величин Υη и Ζη стремится к ЛГ(0,1). Отсюда с учетом свойства сходимости 1 из П5 получаем, что ξ„^ξ~^(0,(1-α)2α) и Сп^С~^(0,а2(1-а))· Применяя теорему непрерывности характеристической функции (П9), из приведенного выше представления для ^(£п,Сп)(^ь^2) выводим, что (ξηιζη) —* (£>С)> гДе (£>С) ~~ нормальный. вектор с независимыми компонентами. Свойство 3 из П5 (для непрерывной функции <р(х,у) = χ — у) обеспечивает сходимость ξη — ζη —» ξ — ζ. Здесь предельная величина ξ — ζ1 являясь линейной комбинацией компонент нормального вектора, также имеет нормальное распределение, причем Μ (ξ — ζ) = О и D (ξ — ζ) = Οξ + DC = α(1 — α) ввиду независимости случайных величин ξ и ζ (Π2). Чтобы установить сходимость распределения у/п (щ[ап]-\-1) — а) к ЛГ(0,а(1 - а)), остается заметить, что dn —► 0 при к = [an] + 1, и воспользоваться свойством 1 из П5. Для выборки (Χι,... ,ХП) из закона F с плотностью р(х) в силу метода обратной функции (см. § 1 гл. 4) порядковая статистика X(k) распределена как F_1(r7(fc)). Производная обратной функции d F-\a) = l l da v ; p(F_1(a)) p(xa) ' Применение леммы 1 завершает доказательство теоремы 2. ■ §4. ОТНОСИТЕЛЬНАЯ ЭФФЕКТИВНОСТЬ В качестве оценок мы использовали различные функции от выборки: Х(п) = max{Xi,... ,ХП}, X, MED. Λ ^ «. m ^ Любые непрерывные Определение. Статистикой Τ будем называть произвольную функции η переменных борелевСКую (СМ. П2) функцию ОТ выборки (Хи . . . ,Хп). являются борелевскими. Определение. Статистика Τ = Тп называется асимптотически мет^^к^ео1?еРраций нормальной, если найдутся такие числовые последовательности ап над борелевскими, иЬ >0 что а также их суперпозиций и ип ^ и, 4ΐυ и предельного перехода, . - снова будут борелевскими. при η —► оо.
90 Глава 7. Асимптотическая нормальность Пример 2. Гипотеза случайности ([32, с. 133]). Такой гипотезой называют предположение о том, что данные (#ι,... ,#п) — это реализация выборки, т. е. случайного вектора (ΛΊ,... ,ХП) с независимыми и одинаково распределенными компонентами. Допустим, что Χι имеют непрерывную функцию распределения. Тогда из соображений симметрии все п! вариантов расположений Χι относительно друг друга равновероятны. Одной из статистик, измеряющих степень «беспорядка», является Rn — общее количество инверсий в выборке: говорят, что Χι и Xj образуют инверсию, если г < j, но Xi > Xj. Крайние случаи, когда Χι < ... < Хп (Rn = 0) и Χι > ... > Хп (Rn = (η - 1) + (η - 2) + ... + 1 = п(п - 1)/2) естественно рассматривать как свидетельства «полного отсутствия беспорядка». Слишком малые или слишком близкие к числу п(п —1)/2 значения статистики Rn служат основанием для того, чтобы отвергнуть гипотезу случайности. Известно, что статистика Rn асимптотически нормальна: (Rn - MRn) /y/DRn~ 1+Z~ ЛГ(0,1) при η -> оо, где MRn = п(п - 1)/4, DRn = п(п - 1)(2п + 5)/72 (см. [81, с. 271]). Это позволяет при достаточно больших η проверить гипотезу случайности, например, по «правилу трех сигм» (см. § 2 гл. 3). Для асимптотически нормальных оценок параметров в регулярных (см. § 3 гл. 9) статистических моделях типичным порядком маг лости коэффициента Ьп является \j\fn. Условие асимптотической нормальности для них представляется в следующем виде: \/η(θη-θ)^ξ~Λ/ΧΟ,σ2(θ)) при η — оо. Определение. Величина σ2(θ) > 0 называется асимптотической дисперсией асимптотически нормальной оценки 0П. Например, если 0 < DXi < оо, то согласно центральной предельной теореме (П6) Vn(Xr-MX1)^f~A/'(0,DA'i) при η -> оо, (1) т. е. асимптотической дисперсией выборочного среднего X (как оценки для Μ Χι) служит DX\. Теоремы 1 и 2 дают еще два примера асимптотически нормальных оценок. Замечание. Вообще говоря, асимптотическая дисперсия σ2(θ) может не совпадать с пределом при η —► оо последовательности сп = D(y/n(0n — θ)) = ηΟθη по той причине, что из сходимости распределений не следует сходимость моментов (см. П5). Так, условия теоремы 2 выполняются для выборки с функцией распределения F(x) = 1 — (1/ In χ) при χ > е (и плотностью р(х) = (жIn2x)~lI{x>e}) (это распределение встречалось ранее
§ 5. Устойчивые законы 91 в § 2 гл. 4). Легко видеть, что ΜΧι = оо. Покажем, что также бесконечны и математические ожидания порядковых статистик Х(Ь) для всех к = 1,... ,п. Действительно, метод обратной функции показывает, что Х^к) распределена так же, как F-1^^))- Согласно формуле (2) гл. 5 плотностью 77(*.) является рщк)(х) = nCkZ{хк~1(1 — x)n~kI{o<x<i}- Применяя формулу преобразования с якобианом J = Ff(x) = р(х) из П8, находим, что pXw(x) = nCknZ\ F{x)k-\l - F(x))n-kp(x). (2) Наконец, заметим, что при любом к (проверьте второе равенство!) ОО °° 4-1 MX(fc) ^ MX(i) = хрх{1) (х) dx = η ί — J dx = oo. —оо е Асимптотическая дисперсия σ2(θ) характеризует точность асимптотически нормальной оценки, вычисленной по большой выборке. Определение. Относительной асимптотической эффективностью асимптотически нормальной оценки θ\ по отношению к асимптотически нормальной оценке 02 называется величина Почему относительная эффективность eg j определяется как σ2/σϊι а не как σ<ιΙσ\ или σ|/σι? Пусть требуется оценить параметр θ с заданной точностью £, причем за каждое наблюдение Х{ мы должны заплатить цену С. Тогда размеры выборок п\ и пг, обеспечивающие заданную точность для оценок θ\ и 02 соответственно, определяются из соотношения δ = σι/^/ηΓ = аг/\/п2. Таким образом, е?ь?2 = σ2/σ1 = П2/П1 = КС)/(Щ(7), т. е. относительная эффективность ej j представляет собой ога- ношение затрат при использовании оценки 02 к затратам при использовании оценки θ\. Примеры вычисления е-§ j для некоторых распределений приведены в задачах 1-3 и ряде задач следующей главы. Вопрос 2. При каких размерах выборки будет конечна дисперсия MED для распределения Коши? (Используйте то, что для закона Коши x{l-F{x)) -► 1/π при ж—►Н-оо.) §5. УСТОЙЧИВЫЕ ЗАКОНЫ В определении асимптотической нормальности участвуют константы: центрирующие ап и масштабирующие Ьп > 0. В связи с этим возникает следующий вопрос: нельзя ли подобрать другие а'п и Ь'п > 0 такие, что (Tn — a'n)/b'n сходилось бы к невырожденному*) закону, отличному от нормального? Следующая лемма дает отрицательный ответ. *) Распределение случайной величины ξ вырождено, если Ρ (ξ = const) = 1. На все свои законы есть. Фамусов в «Горе от ума» А С. Грибоедова
92 Глава 7. Асимптотическая нормальность Лемма 2. Пусть (Тп - an)/bn —► ξ и (Tn - a!n)/b'n -» f', причем обе случайные величины ξ и ξ' имеют невырожденное распределение. Тогда существуют такие константы α и b > О, что b'n/bn —► Ь, (с4 — an)/bn —> α и ξ' ~ a + bξ (т. е. невырожденный предельный закон определяется однозначно с точностью до преобразований Доказательство приведено сдвига и растяжения), в [90, с. 371]. В § 2 гл. 4 в качестве предельных законов для порядковых статистик (Х(п) — an)/bn, где Х(п) = max{Xi,... ,ХП}, возникали так называемые распределения экстремальных значений. Оказывается, и для 5η = Χι + ... + Хп (сумм независимых и одинаково распределенных случайных величин) можно полностью описать класс предельных законов для статистик (5П — ап)/Ьп. (Условия сходимости приведены, например, в [82, с. 643].) Такие законы (и только они) обладают свойством устойчивости. Определение. (Невырожденное) распределение F устойчиво, если для любых αϊ, 6ι > 0 и аг, 6г > 0 найдутся а и b > 0 такие, что F(ai + bix) * F(u2 + b2x) — F(a + bx). Другими словами, при сложении независимых случайных величин, имеющих устойчивое распределение, получается снова тот же закон, но, вообще говоря, с другими параметрами сдвига и масштаба. Нормальный закон устойчив: если Χ ~ Ν(μι,σ{) hF~ Ν{μ2, &%) независимы, то X + Υ ~ λί(μι + μ2> σ\ + сг§). Согласно теореме Леви —Хинчина характеристические функции устойчивых законов (с точностью до сдвига и масштаба) допускают следующее представление: <ψ(ί) =exp{-|t|Q(l + ιβ G(t,a) sign *)}, (3) где а и β — постоянные, 0 < а ^ 2, — 1 ^ β ^ 1, { —lnltl, если а = 1, tg 7> α, если α ψ 1. Соответствующие распределения имеют непрерывные плотности, которые вычисляются по формуле обратного преобразования Фурье из П9. Явный вид плотностей известен для нормального закона (а = 2, β = 0), распределения Коши (а = 1, β = 0) и законов с а = 1/2, /3 = ±1: р+(*) ^^e-W/^o,, p-(*) =*>+(-*). Легко проверить, что функция распределения F+(#) закона с плотностью р+(х) удовлетворяет соотношению F+(x) = 2 (1 — Ф(1/^/х)) Здесь * означает свертку гэункций распределения см. ПЗ). П. Леви (1886-1971), французский математик. А. Я. Хинчин (1894-1959), советский математик.
Задачи 93 Рис.9 при χ > О, где Ф(х) — функция распределения случайной величины Ζ ~ ЛГ(0,1). Иначе говоря, случайная величина 1/Z2 имеет функцию распределения F+(x). Закон F+(x) возникает в качестве предельного в задаче о частоте возвращений в 0 симметричного случайного блуждания Sk = = Χι +... + Хк, где Xi независимы, P(Xi = -1) = P(Xi = 1) = 1/2, г = 1,2, — Обозначим через Zn время до η-го возвращения в О (рис. 9). Тогда Zn — сумма времен между последовательными возвращениями. Интуитивно понятно, что эти времена независимы и одинаково распределены. Поэтому предельный закон для Zn должен быть устойчивым. В [82, с. 492] доказано, что P(Zn/n2 ^ х) —► F+(x) при η —► оо. Иными словами, число возвращений в 0 растет не пропорционально количеству шагов п, а как у/п. Это связано с тем, что ΜΖι = оо, и закон больших чисел (П6) не применим к сумме величин с таким распределением. Пример 3. Гравитационное поле звезд. Представим, что в шаре радиуса г с центром в начале координат расположены наудачу η звезд единичной массы. Обозначим через Χι,... ,Хп ^-компоненты гравитационных сил, создаваемых в центре шара отдельными звездами. Положим Sn = Χι + ... + Хп. Тогда при таком стремлении г —► оо и η —► оо, что ^ пг3/п —► А, рас- о пределение случайной величины Sn стремится (с точностью до масштаба) к устойчивому закону с а = 3/2, β = 0 (так называемому распределению Хольцмарка) (см. [82, с. 252]). Когда ж постранствуешь, воротишься домой... Чацкий в «Горе от ума» А. С Грибоедова Вопрос 3. а) Какую характеристическую функцию имеет разность двух независимых случайных величин с функцией распределения F+(x)? б) Будет ли соответствующий закон устойчивым? в) Как ведет себя X для такого закона при возрастании размера выборки п? (Используйте свойства характеристической функции из П9.) ЗАДАЧИ 1. Вычислите eMED^ для выборки из закона Λ/Χ0,1). 2. Пусть случайные величины X и Υ независимы и показательно распределены с λ = 1. а) Докажите, что разность X — Υ имеет распределение с плотностью р(х) = ^ е-'*' (закон Лапласа). б) Вычислите D(X — F), используя свойства дисперсии из П2. в) Для выборки из сдвинутого на θ закона Лапласа найдите eMEDjC' Первое —это понять правило, второе — научиться его применять. Первое достигается разумом и сразу, второе — опытом и постепенно. Артур Шопенгауэр, «Афоризмы житейской мудрости»
94 Глава 7. Асимптотическая нормальность 3* Элементы выборки распределены согласно закону F(x — 0), где F(x) = (1 - ε) Φ(χ) +εΦ(χ/3), О ^ ε ^ 1, Ф(х) — функция распределения ЛГ(0,1). Другими словами, F(x) — это омесъ (см. § 2 гл. 5) с весами 1 — ε и ε законов Л/ХО, 1) и Л/ХО, 9) соответственно. Определите приближенно значение ε, при котором MED становится эффективней X. Указание. Линеаризуйте функцию ^ΜΕΕ>^(ε) в окрестности 0. 4. а) Найдите значение а, при котором достигается минимум функции д(а) = М|£—а| для случайной величины ξ с плотностью р(х) (ср. с задачей 1 гл. 1). б) Определим в общем случае медиану га распределения случайной величины ξ как любое число, удовлетворяющее неравенствам Ρ(ξ ^ га) ^ 1/2 и Ρ(ξ ^ га) ^ 1/2. Пусть М|£| < оо. Докажите, что функция д(а) = Μ\ξ — а\ имеет минимум при а = га. Указание. Установите, что д(а) — д(ш) ^ 0, если а ^ га. 5* Выборка размера η получена из распределения Fe{x) = 1 - (1 - я/0)а при 0 ^ χ < 0, где а > 0 — известный параметр. Каков порядок малости величины θ — Х(п) при η —► оо? Сколько (с точностью до порядка) наблюдений потребуется, чтобы оценить θ = 1 с погрешностью 0,1 при а = 5? 6. Докажите, что для максимума выборки из закона Коши Ρ(πΧ(η)/η ^ х) —► 6_1/χ/{χ>0} при η —► оо (т. е. предельным является распределение экстремальных значений И-го типа с а = 1, появившееся в § 2 гл. 4). Указание. Примените правило Лопиталя. 7* Пусть в эксперименте по локализации источника излучения из §1а = 0, 6 = 0, с = 1. Будут ли независимыми а) полярные координаты йи$ точки (Xi,Yi), б) сами Χι и Yi? Указание. Перейдите к полярным координатам (П8) и используйте формулу площади поверхности вращения. РЕШЕНИЯ ЗАДАЧ 1. Медиана Xij2 = θ в силу симметрии закона λί(θ11)1 причем ρ(θ) = 1/V5UF. Теорема 1 дает σ^ = 1/[4р2(0)] = π/2. Согласно формуле (1) имеем σ^ = DXi = 1. Отсюда εΜΕΕ>·χ = = 2/π « 0,64. Таким образом, для нормального закона оценка X эффективней MED примерно на 36%. 2. а) Так как Χ -Υ ~Υ — X = -(X - У), в силу следствия из П8 ρχ-γ(χ) = ργ-χ(χ) = Ρχ-γ(—х)·, т. е. эта плотность — четная
Решения задач 95 функция. Вычислим ее при χ ^ 0. Ввиду того, что р-у(у) = = ру(—у) = eyI{y^o}i используя формулу свертки (ПЗ), запишем оо О рх_у(х) = | е-(-»)/{1,<в} еУ1{у<0} dy = е~' | e^dy = \ е~х. —оо —оо График плотности закона Лапласа приведен на рис. 10. б) Из ответа на вопрос 3 гл. 4 имеем DX = l/λ2 = 1. Согласно _~2~Γι лемме из § 3 гл. 1 случайные величины X и (-Υ) независимы. Применяя свойства дисперсии 2 и 1 из П2, находим: D(X — Y) = = DX + D(-Y) = OX + Dr = 2. в) В силу симметрии ху2 = θ, причем ρ(θ) = 1/2. Теорема 1 дает σ\ίΕΌ = 1/[4р2(0)] = 1. С учетом пункта б) из (1) получаем, что σ^τ = eMED-% = 2. Таким образом, выборочная медиана MED вдвое эффективней выборочного среднего X как оценка параметра сдвига закона Лапласа. 3. ЬЛХ\ = #ι/2 = θ ввиду симметрии функции распределения F{x) , причем ρ(θ) = —= (1 — ε + ε/3). Дисперсия случайной ν2π величины Χι — смесь вторых моментов: DXi = J x2 dF(x) = = (1-ε)$χ2άΦ(χ) + ε$χ2άφ(^) = 1 -ε + 9ε = 1 + 8ε. Отсюда в силу теоремы 1 и формулы (1) имеем: «И = «МИ>,Х = \ (1 + 8е) (l " | СУ = -1(>+¥-¥«'+?«·)· График этого многочлена приведен на рис. 11. Ближний к 0 корень εο уравнения β(ε) = 1 можно приближенно найти из pa- q 2 / 20 \ венства -(l-f-^-εΙ =1 (функция заменяется на касательную в нуле). Получаем εο « 0,1. Отметим также, что преимущество выборочной медианы MED максимально при ε = 5/12 и составляет около 44%. 4. а) По формуле замены переменных из П2 запишем функцию g(a) = Μ\ξ — α\ в виде 2АУ=Рх-у(х) 0 1 2 Рис. 10 g(a) = (α - χ) dF(x) + \ (χ - a) dF(x) = —oo α a = 2aF(a)-2 xp(x)dx - a + Щ.
96 Глава 7. Асимптотическая нормальность Дифференцируя правую часть по а, приходим к равенству gf(a) = 2F(a) — 1. Поэтому g(a) имеет минимум при #ι/2· б) ТаккакМ|£—α\ ^ М|£|+|а| < оо, то функция д(а) определена при всех а. Используем для записи приращения Δ = д(а) — д(т) формулу замены переменных из П2: а +оо A = (a-m)F(m)+\(a+m-2x)dF(x)- (a-m)dF(x). Добавляя и вычитая интеграл /(а — га) dF(x), получаем: Δ = (α - га) [2F(ra) а 1] + 2 ί (а x)dF(x). Ha безрыбьи и рак— рыба. Г. Лопиталь (1661-1704), французский математик. Оба слагаемых в правой части неотрицательны: первое — в силу определения медианы га, второе — из неравенства а ^ га и неотрицательности интегрируемой функции на области интегрирования. Случай а ^ га рассматривается аналогично. 5. Найдем £п, убывающие к нулю при η —► оо, из условия, чтобы вероятность Ρ(θ — Χ^η) ^ δη) сходилась к пределу, отличному от 0 и 1. Из задачи 3 гл. 1 имеем Р(Х(П) < х) = [Fe(x)]n. Следовательно, P(x(n)>e-sn) = i-^-^i-^yj=i-^i-(^yj. Поэтому величина (δη/θ)α должна убывать со скоростью 1/п. Это влечет для δη порядок малости η_1/α. В частности, для оценивания θ с точностью δη = 0,1 при а = 5 потребуется примерно 105 наблюдений. Причина столь большого значения необходимого размера выборки кроется в гладкости при а > 1 функции распределения Fq{x) в точке χ = Θ. В соответствии с методом обратной функции (см. § 1 гл. 4) для близости Χ(η) κ θ нужна «сверхблизость» к 1 одной из координат щ точек, взятых наудачу из отрезка [0,1] (рис. 12). Хотя Х(п) в этой модели и не является асимптотически нормальной оценкой (это вытекает из теоремы 1 гл. 4 и леммы 2 текущей главы), она, по крайней мере, очевидно, состоятельна при любом а > 0. 6. Применим для вычисления lim х[1 — F(x)] правило Лопиталя χ—>+οο (см. [45, с. 284]): lim :—►Ч-оо Л , = lim ——* l/x ж—+оо -1/аГ zpW= lim 1/H1+/)] ж-»+оо 1/аг π
Решения задач 97 Чтобы установить для χ > О сходимость Ρ(πΧ(η)/η ^ х) —► —► е_1/х при η —► оо, достаточно сослаться на теорему 1 гл. 4. Вывод:. 7. Без ограничения общности можно считать, что сфера имеет „* "закона Ко(ши *μη&Γ радиус 1. Вычислим Fr^(v^) = Р(Д ^ г, Φ ^ φ). В силу порядок η при η->оо. симметрии она, очевидно, равна ^- Sh/Si. Здесь S& — пло- Ζ7Γ щадь поверхности шарового сегмента («шапочки»), отсекаемого плоскостью ζ = ft, где ft = ftr определяется из пропорции (1 — ft) : 1 = 1 : л/1 + г2 (рис. 13). 5/j можно вычислить по формуле площади поверхности вращения, образованной дугой функции f(x) = у/1 — х2 (проверьте второе равенство!): ι Sh = 2π ί f(x)y/l + [f'(x)]*dx = 2π/ι. (4) l-h Поясним происхождение формулы для вычисления площади поверхности вращения (подробнее см. [45, с. 652]). Разобьем отрезок [а, Ь], на котором задана вращаемая дуга у = /(х), на части длины Axi (рис. 14). При малых Axi общая площадь поверхности вращения приближенно равна сумме площадей поверхностей усеченных конусов, получаемых вращением вокруг оси абсцисс хорд длины Ah = y/(AxiY + {Ayiy. Для неусеченного конуса с образующей длины U и радиусом основания уг (см. рис. 14) площадь поверхности Si = nyik. Действительно, эту поверхность можно развернуть в сектор круга радиуса U и длиной дуги 2куг (рис. 15). Тогда Si находится из пропорции 2-пуг : 2nh = Si : πΐ2. Следовательно, для усеченного конуса, образованного хордой длины /i, площадь равна π [(yi + Ayi)(h + Ah) - ydi] = π [yiAh + hAyi + AyiAh]. (5) Подобие прямоугольных треугольников на рис. 14 влечет пропорцию Ауг : AU =уц1г <=Ф Ауг = (уг/к) Ah. Подставив выражение для Ау% в (5), получим 2тгу* Ah + (yi/k) (Ah)2 = 2пуг Ah + o(Ak). Отсюда видим, что главная часть интегральной суммы есть У = /0*0 2пуг (ф\ Рис. 15 2π Σ Уг AZi = 2π Σ Vi V1 + (Ayi/Axi)2 Ax^ При измельчении разбиения она стремится к 2π J* у у/1 + {у')2 dx.
98 Глава 7. Асимптотическая нормальность Вопрос 4. Как вычислить объем тела вращения? Бывает, что усердие превозмогает и рассудок. Козьма Прутков Из (4) следует, что FR#(r,<p) = ^ h = ^ ί 1 - -j==\. Поэтому R и Φ независимы. Плотность ριι,φ(τ,φ) = = — г(1 + г2)-3/2 получается при замене координат на полярные из функции рх1^у1(х1у) = — (1 + ж2 + у2)~3^2 Ζ7Γ (двумерная плотность Коти). Интегрированием по у (см. П8) находим маргинальную плотность +оо '*<*> = К ί ,i + t* - ~- V ΔΈ J (1 +аг + yz — oo 1 1 „2ϊ3/2 )3/2 2π1+χ2 ^1 + ^2 + ^2 +oo —oo πΐ +аГ Таким образом, случайные величины Х\ и Υί имеют распределение Коши, но они зависимы, так как ρχχух (ж,у) φ ρχλ (χ)ργλ (у). ОТВЕТЫ НА ВОПРОСЫ 1. Представим (MED - Χι/2) в виде βηξ,η, где βη = —= и ξη = y/n(MED - х1/2) -* ξ ~ λί(0,1/[4р2(ж1/2)]) при η -> oo. ρ Тогда MED —> Х\/2 в силу свойств сходимости 1 и 2 из П5. 2. Дисперсия порядковой статистики Х^) конечна тогда и только тогда, когда МХ?к\ < оо. Так как для закона Коши х2р(х) Fk~l(χ) —► 1 при χ —► +оо, то с учетом формулы (2) заключаем, что J ж2 Px(fc) (ж) dx сходится и расходится одновременно с интегралом J [1 — F(x)]n~kdx. Используя указание, выводим отсюда, что МХ?к\ < оо при 3 ^ к < η — 2. Следовательно, дисперсия выборочной медианы MED конечна для η ^ 5. 3. а) По формуле (3) ψ~*~(ί) = exp{—^s/Щ(l + г sign ί)}. Согласно свойствам характеристической функции (П9) разность таких независимых случайных величин имеет характеристическую функцию ψ+(ί) ψ+(-ή = е"2\/Й. б) С точностью до масштабного коэффициента эта функция совпадает с характеристической функцией устойчивого закона при а = 1/2 и β = 0. в) Очевидно, характеристическая функция суммы Χι +...+ХП равна e~2nv'*', откуда X имеет характеристическую функцию e~2v'nt', т. е. распределение X растянуто в η раз по сравнению с распределением Χι. 4. Разрезая тело вращения на слои толщины Дж*, получаем инте- ь тральную сумму J2ny2 Дж», которая сходится к π jy2dx.
Глава 8 СИММЕТРИЧНЫЕ РАСПРЕДЕЛЕНИЯ § 1. КЛАССИФИКАЦИЯ МЕТОДОВ СТАТИСТИКИ Согласно одному из подходов к классификации статистических методов, их можно условно разделить на три класса (см. [84, с.21]): параметрические, робастные и непараметрические. Первые, как правило, обладают максимальной эффективностью в рамках заданной модели Fe(x), θ Ε θ С Rm, т. е. на некоторой т-параметрической кривой в пространстве всех функций распределения (рис. 1а). Так (см. пример 4 гл. 9), X — эффективная оценка параметра сдвига μ закона Λ/Χμ,σ2). Здесь т = 2, θ = (μ,σ), θ = R χ (Ο,οο). Однако, она весьма чувствительна к утяжелению «хвостов» распределения, приводящему к появлению в реализации выборки выделяющихся наблюдений («выбросов»). Оценки, которые обладают высокой эффективностью для заданной параметрической модели, и, кроме того, не боятся небольших отклонений от нее, т. е. достаточно точны в некоторой окрестности m-параметрической кривой (рис. 16), называются робаст- ными (см. § 4). Наконец, непараметрические методы успешно работают на целом классе законов распределения (рис. 1в), скажем, на множестве fic всех непрерывных функций распределения. В этой главе мы обсудим поведение ряда оценок параметра сдвига на классе Ω8 симметричных гладких распределений. Определение. Функция распределения F принадлежит классу Ωβ, если существует такое с: 0 < с ^ +оо, что F(—c) = 0, F(c) = 1 и F(x) на (—с, с) имеет четную, непрерывную и положительную плотность р(х) (рис. 2). Обратим внимание на то, что\ распределение с плотностью р(#), график которой приведен на рис. 6 гл. 7, не входит в класс Ωβ, так как носитель*) этой плотности н£ является интервалом. Симметрия является той идеей, посредством которой человек на протяжении веков пытался постичь и создать порядок, красоту и совершенство. Г. Вейль Нам нравится смотреть на проявление симметрии в природе, на идеально симметричные сферы планет или Солнца, на симметричные кристаллы, на снежинки, наконец, на цветы, которые почти симметричны. Р. Фейнман Robust (англ.) — крепкий, надежный, устойчивый. Рис. 1 у = ρ{χ) *) Носитель — множество, на котором плотность положительна.
100 Глава 8. Симметричные распределения Хотя условие симметричности распределения может показаться искусственным и редко выполняющимся в точности на практике, бывают задачи, где оно возникает довольно естественно. Пример 1. Контроль и обработка. Пусть имеются два ряда наблюдений: Χι,... ,ХП (так называемая «контрольная» выборка) и Υί,... ,УП («обработка»). Это могут быть, скажем, размеры растений на двух грядках, на второй из которых применялся определенный вид удобрений, а на первой — нет. Нас интересует, есть ли эффект, т. е. значимое увеличение размера растений, от применения удобрения. Рассмотрим следующую статистическую модель: Xi = μ + ε^, Yi = μ + θ + ε^, где μ —средний размер растений, θ — увеличение размера за счет удобрения, е^ и ε\ — случайные величины, включающие в себя влияние неучтенных факторов на размер конкретного растения. Допустим, что Με* = ЬЛе[ = 0, случайные величины {ε*, ε^, г — Ι,.,.,η} независимы и одинаково распределены с непрерывной и ограниченной на своем носителе (а,Ь) (—00 ^ а < b ^ +оо) плотностью. Образуем новые случайные величины Zi = Yi — Xi = θ + £*, где Si = ε\ — Si. Зная плотность распределения ρει(χ)1 можно записать плотность Ρδλ(χ) по формуле свертки (ПЗ), откуда вытекают ее четность, непрерывность и ограниченность (убедитесь!). Следовательно, получаем, что распределение Fsx(x) принадлежит классу Ωβ. Таким образом, мы приходим к модели сдвига симметричного распределения. Как проверить гипотезу Η: θ > 0 и как оценить параметр 0, если гипотеза Η подтвердилась? Проверке гипотез посвящена часть III этой книги. Сейчас же мы познакомимся с двумя оценками для параметра сдвига в распределении F(x) € Ω8 и обсудим их поведение с точки зрения эффективности и робастно- сти. §2. УСЕЧЕННОЕ СРЕДНЕЕ На соревнованиях по некоторым видам спорта (например, по прыжкам в воду, гимнастике) при учете оценок, выставленных судьями, наименьшая и наибольшая отбрасываются, а остальные усредняются. Определение. Пусть О < а < 1/2, к = [απ], где [·] — целая часть числа, an- объем выборки. Усеченным средним порядка а называется Ха = W=2k (X(fc+!) + · · · + Х(п-к)), где Χ(!) ^ Χ(2) ^ ... ^ Χ(η) —вариационный ряд (см. § 4 гл. 4). Вопрос 1. Какой носитель имеет плотность р$г (ж)? Вопрос 2. Останется ли верным это утверждение, если отказаться от предположения, что носителем ре1(#) является (а, 6)?
§2. Усеченное среднее 101 Предельные случаи α = 0 и α = 1/2 соответствуют оценкам X и MED (рис^З). Оценка X достаточно эффективна (в смысле точности) на распределениях, близких к нормальному, но слишком чувствительна к «выбросам». С другой стороны, на нормальном законе MED проигрывает X в эффективности 36% (см. задачу 1 гл. 7), но весьма устойчива: даже если «выбросами» окажутся почти половина #*, она не почувствует их присутствие (не сместится в их сторону). Изменяя значение α от 0 до 1/2, будем получать компромиссные оценки Ха. Наибольшая доля «выбросов» в выборке, которую игнорирует усеченное среднее Ха (так называемая толерантность, см. § 4), определяется выбором а. А как ведет себя асимптотическая дисперсия усеченного среднего Ха (см. § 4 гл. 7) при изменении а? Ответ дает следующая теорема об асимптотической нормальности Ха на Ωβ. Теорема 1. Пусть элементы выборки Χι распределены согласно закону F(x — 0), где F £ Ωβ. Тогда для О < а < 1/2 имеем у/п(Ха - Θ) Д ξ ~λί(0,σ1) при η -* оо, где σΙ = (1-2α)2 ί t2p{t)dt + ax\_c Здесь p{t) — плотность, отвечающая функции распределения F, χι-α — (единственное) решение уравнения F(x) = 1 — α, т. е. (1 — а)-квантиль распределения F (см. § 3 гл. 7). Таблица, полученная на основе приведенной выше формулы для σ£, демонстрирует, как уменьшается с ростом а асимптотическая относительная эффективность е^ -χ для нормальной модели сдвига (F(x) = Ф(х) —функция распределения закона ЛГ(0,1)): α еха>х 0 1,00 1/20 0,99 1/8 0,94 1/4 0,84 3/8 0,74 1/2 0,64 В частности, при а = 1/8 (при защите от 12,5%-го «загрязнения» выборки) потеря эффективности составляет всего 6%! Варианты поведения асимптотической дисперсии σ\ на некоторых других симметричных распределениях рассмотрены в задаче 2. А что можно сказать об относительной эффективности оценок Ха и X на всем классе Ωβ? Оказывается, верна следующая теорема. Вопрос 3. Чему равно точное значение эффективности в последней графе этой таблицы? а) Догадайтесь. б) Вычислите.
102 Глава 8. Симметричные распределения Теорема 2. Для всех распределений F € Ωβ справедливы неравенства (1 - 2а)2 ^ е^а x(i^) ^ оо· Доказательство. Первое неравенство немедленно вытекает из того, что Xl-at ОО Xl-ot ОО \ DXi = I t2p(t) dt + J t2p(t) dt^ \ t2 p(t) dt + x\_a f p(t) dt = t2p(t)dt + ax2_a = Ι σ2α (Ι -2α)2. Бесконечная верхняя граница достигается на распределениях с бесконечным вторым моментом (например, на законе Коши). ■ Несложно установить, что нижняя граница является точной, рассматривая последовательность распределений, которые могут быть произвольными внутри [#α,#ι_α], но лежащая вне этого отрезка вероятностная масса которых все более концентрируется около его концевых точек. Приведем таблицу нескольких значений нижней границы: α (1-2α)2 0 1,00 1/20 0,81 1/8 0,56 1/4 0,25 3/8 0,06 1/2 0,00 Из нее видно, что, скажем, при α = 1/8 потеря эффективности может составить 44% (сравните с 6% на нормальном законе). Это слишком много. Таким образом, на всем классе Ω8 усеченное среднее Ха не обеспечивает удовлетворительный компромисс между точностью и робастностью. Следующая оценка справляется с этой задачей существенно лучше. Вопрос 4. а) Зависимы ли величины Υι,.,.,Υν? б) Верно ли, что W = MED{Zi,...,ZN}, rfleZfc = ±(X(i)+X(j)), «J? Вопрос 5. А все-таки, чему равно точное значение ew-^7 §3. МЕДИАНА СРЕДНИХ УОЛША По выборке ΑΊ,... ,ХП построим N = п(п + 1)/2 новых случайных величин Yk = л {Х% + Xj)i i ^ 3 (их называют средними Уолша). Рассмотрим статистику W = MED{Yi,... ,Yjv}. Теорема 3. Если Χι имеют функцию распределения F(x — 0), где F е Ωβ, то σ2ρ) при η —► оо, где a2F = 1/E(F), E(F) = 12 (jp2(t) dt) , p(t) — плотность, отвечающая функции распределения F. Отсюда нетрудно подсчитать, что для нормального закона ew~x *** 0>955, т. е. потеря эффективности всего 4,5%.
§4. Робастность 103 Более того, на всем классе Ωβ верна следующая оценка снизу. Теорема 4. Для всех распределений F Ε fls справедливо неравенство ew^(F) ^ 108/125 « 0,864. Таким образом, используя W вместо X для оценки параметра сдвига симметричного распределения, мы в самом худшем случае потеряем только 14% эффективности! (Этот случай реализуется 3v/5 (см. [86, с. 86]) при плотности р(х) = — (5 - х2) /{W<v/5}·) С другой стороны, ew~x может быть сколь угодно велика (бесконечна, если ΏΧ\ = оо). При сохранении высокой эффективности медиана средних Уо- лша оказывается достаточно робастной оценкой: она «не боится» даже того, что доля «выбросов» в реализации выборки достигнет 29% (задача 4). В § 4 определяется одна из характеристик устойчивости оценок — асимптотическая толерантность, и приводится пример, Доказывающий, как резко может уменьшаться точность неробаст- ных оценок даже при крайне малом возмущении модели. 40 35 30 25 20 15 10 5 0 | ® t s'jb* Ι ι ι ι ι ι ι ι *Λ ι ι Ι 012345678 910 Рис. 4 §4. РОБАСТНОСТЬ В реальных данных доля «выбросов» (выделяющихся значений) обычно составляет от 1% до 10%. Это происходит из-за большого числа неучтенных факторов (в медицине, психологии), сбоев оборудования, скажем, скачков напряжения в электросети (в экспериментальной физике), ошибках при вводе с клавиатуры чисел в компьютер и т. д. Даже в астрономических таблицах встречается |до 0,1% ошибок. Казалось бы, можно придерживаться такой стратегии борьбы с «выбросами»: найти их и исключить, а затем применить эффективные параметрические методы для анализа оставшихся данных. Конечно, среди точек на прямой «выброс» хорошо заметен. Но реальные данные, как правило, многомерные. На рис. 4 приведена двумерная выборка, где обведенная кружком точка (очевидный «выброс») не выделяется среди остальных ни по координате X, ни по координате Υ. Однако, если попытаться формально подогнать прямую под это «облако» точек, например, с помощью метода наименьших квадратов (см. § 1 гл. 21), то ее угловой коэффициент будет существенно искажен под влиянием «выброса». Возможна ситуация, когда даже проецирование многомерных данных на всевозможные двумерные плоскости не позволит выявить выделяющиеся наблюдения. Вопрос 6. Так что исключение «многомерного выброса» (или группы та^ое^Гб^ко^в^? «выбросов»)—весьма непростая задача. По-видимому, лучше использовать робастные методы, которые за счет небольшой, как
104 Глава 8. Симметричные распределения Пусть во всяком деле лучшим советником будет умеренность. Хорошо обрабатывать землю необходимо, а превосходно — убыточно. Плиний Старший правило, потери в точности по сравнению с параметрическими процедурами автоматически уменьшают влияние выделяющихся наблюдений и не допускают существенного смещения оценок параметров модели.*) Замечание. Анализ многомерных данных часто сопряжен с большим числом подвохов и сложностей, возникающих из-за так называемого «проклятия размерности». При вычислении объема к- мерного шара в § 4 гл. 3 мы уже встречались с тем, что наша трехмерная интуиция не помогает предвидеть результат с должной точностью. Параметрические методы, как правило, крайне чувствительны (уже при к « 7) к возмущению модели (см. пример 2 в гл. 16). По- видимому, чтобы не ввести себя в заблуждение, следует совместно анализировать не более четырех—пяти столбцов таблицы данных. Даже и для одномерного случая, как показывает следующий пример, точность некоторых оценок может резко уменьшаться при незначительном утяжелении «хвостов» закона распределения элементов выборки. Пример 2. Смесь нормальных законов (Дж. Тьюки, 1960, см. [89, с. 10]). Пусть Х\ имеют функцию распределения где Ф(х)— функция распределения ЛГ(0,1), а параметры μ € R, σ > 0 и 0 $ е < 1 неизвестны. Данная модель —смесь законов Λ/Χμ,σ2) и Λ/Χμ, 9σ2) с весами 1 — ε и ε соответственно (сравните с задачей 3 гл. 7). Все наблюдения имеют общее среднее μ, а разброс у некоторых из них (в количестве « εη) в 3 раза больше, чем у остальных. Рассмотрим задачу оценивания разброса. Сравним следующие две оценки: среднее абсолютное отклонение Rn и среднее квадра- тинное отклонение Sn: Rn = - Σ \%i ~ ^|» &n = ~~ Σ {%% ~ ~Щ · n i=l n i—\ Следует учесть, что Rn и 5П оценивают разные характеристики разброса. Скажем, если ε = 0 (наблюдения имеют в точности нор- р мальное распределение), то 5П —► σ (см. пример 3 гл. 6), в то время Р у как Rn —► σγ2/π « 0,798 σ. Кроме того, эти пределы зависят ρ ^________ от ε (например, 5П —► σ>/\ + 8ε). Поэтому необходимо уточнить, как проводить сравнение эффективности этих оценок. Возьмем в качестве меры относительной точности оценок при больших η *) Для данных на рис. 4 молено применить, скажем, робастный метод Тейла из § 1 гл. 21.
§4. Робастность 105 предел отношения (не зависящих от масштаба) коэффициентов вариации: ёп с (f\ = lim DSnAMSn)2 = [3(1 + 80ε)/(1 + 8ε)2-1]/4 e«n.«nV ) n^ooORnKMRnj1 π(1 + 8ε)/[2(1 + 2ε)2]-1 ' Приведем таблицу некоторых значений этой функции из [89, с. 11]: ε eRnfnie) 0 0,88 0,002 1,02 0,01 1,44 0,05 2,04 од 1,90 0,5 1,02 1 0,88 За малым погнался - большое потерял. Как видно, функция очень быстро возрастает: 12%-ное преимущество 5П при ε = 0 исчезает уже при ε = 0,002 (достаточно всего двух «плохих» наблюдений на 1000 для того, чтобы оценка Rn стала эффективнее). Если же доля наблюдений из распределения с чуть более «тяжелыми хвостами» составит 5%, то среднее абсолютное отклонение окажется точнее более чем в 2 раза! Этот пример показывает, что малое возмущение моделей может приводить к качественному изменению статистических выводов, в данном случае — выводов о сравнительной эффективности Rn и5п. Робастные оценки, как правило, осуществляют компромисс между точностью и защищенностью от «выбросов». Если асимптотическая дисперсия — это характеристика точности асимптотически нормальных оценок, то каким образом можно измерить защищенность? Одной из простых мер робастности является асимптотическая толерантность (см. [86, с. 31]). Содержательно она выражает ту Tolerantia (лат.) — наибольшую долю «выбросов» в выборке, которую «выдерживает» теРпение· статистика, не смещаясь вслед за «выбросами» на —оо или +оо. Дадим формальное Определение. Пусть для оценки 0(#(i),... ,#(п)) найдется такое целое число А:, 0 < к < п, что а) если X(k+2)i- · · ιχ(η) фиксированы, а X(k+i) —► —оо, то 0(я(1),...,Я(п)) -+ -оо; б) если #(ΐ),... ,^(n_fc_!) фиксированы, a X(n-k) —* +оо, то 0(ж(1),...,Ж(п)) -++00. Обозначим через к^ наименьшее такое к (тем самым θ допускает по крайней мере А£ выделяющихся наблюдений). Асимптотической толерантностью оценки θ называется предел τ г = lim к* In (если, конечно, этот предел существует). * Очевидно, что т^ = 0, т^ = а и tmed = 1/2. Примеры вычисления толерантности других оценок см. в задачах 3 и 4. ) Отметим, что толерантность основывается на поведении оценки θ как функции от η переменных и (в отличие от относительной эффективности) не связана с распределением элементов выборки Χι,... ,Χη·
106 Глава 8. Симметричные распределения Главное, делайте все с увлечением, это страшно украшает жизнь. Л. Д. Ландау Ф. Гальтон (1822-1911), английский психолог и антрополог. ЗАДАЧИ 1. Сравните W как оценку параметра сдвига распределения Лапласа (см. задачу 2 гл. 7) с оценками X и MED. 2* Постройте график асимптотической дисперсии σ\ (см. теорему 1) для модели сдвига закона Лапласа. Будет ли эта функция монотонной? Найдите пределы при а—►Оиа—>1/2. 3. Вычислите асимптотическую толерантность оценки Гальтпона: θ = ΜΕϋ < 2 С*Х0 + ^(n-i+i)), г = 1,..., —2~ > , где [ · ] обозначает целую часть числа. Найдите точное значение tw Пусть величины Xi равномерно распределены на [Θ — ~,0 + «]· а) Смоделируйте с помощью таблицы Т1 выборку размера η = 5 для θ = ~ и сравните точность оценок W и θ = = £ C^(i) + ^(п)) на этих данных. б) Какая из этих оценок предпочтительнее при больших п? Указание. Используйте результат задачи 3 гл. 1 и формулу (6) гл. 3. Рассмотрим модель сдвига F(x — 0), где F имеет четную плотность р(#), причем р(0) ^ р(х) при всех х. Докажите, что среди всех таких распределений наименьшую асимптотическую эффективность eMED -^(F) = 1/3 имеет равномерное распределение. Усердный в службе не должен бояться своего незнанья; ибо каждое новое дело он прочтет. Козьма Прутков РЕШЕНИЯ ЗАДАЧ Вычислим σ\ (см. теорему 3) для закона Лапласа: +оо +оо Отсюда E(F) = Yll\ = 3/4 и σ\ = 4/3. В свою очередь, из решения задачи 2 гл. 7 имеем σ^ = 2 и σ2ΜΕΌ = 1, т. е. оценка W точнее, чем X, но проигрывает MED примерно 33%. Интегрируя плотность Лапласа, находим функцию распределения: F(x) = 1 — т>е~х при χ > 0. Следовательно, для α ^ ~ квантиль х\-а = — 1η 2α. Дважды интегрируя по частям, нетрудно получить, что -In 2α Η t2 e"* dt = l-2a + 2a\n2a-a (In 2a)2
Решения задач 107 Из теоремы 1 находим асимптотическую дисперсию оценки Ха: σ"=(1-22α)2(1~2α + 2α1η2α)· Функция σ£ монотонно убывает от 2 до 1: для закона Лапласа MED оказывается эффективней, чем любая из оценок Ха (рис. 5а). Любопытно, что у закона Коши, несмотря на более «тяжелые хвосты», оптимальной долей усечения будет не 1/2, аао ~ 0,38 (рис. 56). При этом выигрыш в эффективности по сравнению с MED составляет около 8%. (В примерах 11 и 12 гл. 9 появятся еще более точные оценки для параметра сдвига распределения Коши.) "п + : 3. Всего имеется — I пар вида (Х(^,Х(п_^+1)) (рис. 6а). Если при некотором к + 1 значение статистики X(k+i) равно —оо, то и у всех пар с г ^ к +1 первая координата — тоже — оо. Медиана полусумм 2 PQi) + ^(n-i+i)), г = 1,..., [^-γ-\» «уходит» в -оо при к + 1 ^ « П 2 * Деля на п и переходя к пределу, находим, что толерантность оценки Гальтона равна д. Аналогично (рис. 66), чтобы W не обращалась в — оо, необходимо, чтобы (п — к — 1)(п — к)/2 ^ п(п + 1)/4 полусумм порядковых статистик были конечны. Положив к ~ т^тг, получаем отсюда, что (1 - rw)2 = 1/2 или rw = 1 - >/2/2 « 0,293. а) Возьмем, скажем, из 3-й строки таблицы Т1 первые 5 псевдослучайных чисел: х\ = 0,08; #2 = 0>42^ хз = 0,26; х± = 0,89; #5 = 0,53. Для этих данных W = 0,395 и θ = 0,485, т. е. значение оценки 0 оказывается ближе к 1/2. б) Равномерное распределение на — о' 2 пРинаДлежит классу Ωβ. В силу теоремы 3 точность оценки W имеет порядок \/у/п. С другой стороны, из задачи 3 гл. 1 порядок малости дисперсии DX(n) равен 1/п2. Случайные величины θ — Хщ а а) 1/2 Эксперимент можно считать удавшимся, если нужно отбросить не более 50% сделанных измерений, чтобы достичь соответствия с теорией. (Следствие из законов Мейерса.) Χι (1) Х< (fc+i) L(n) Χ, (1) χ, (fc+1) Рис. 6 а) Х(п) — оо — оо — оо — ОО ^ОС —оо — оо — оо — оо — оо — ОО — оо — оо "ОО — оо —оо — оо —оо —оо — оо с с о с — оо — оо -«, с с с с -оо — оо с с (?ΐ С — то — оо С ° \ С С *(1) *(fc+i) б) х(п) Х(1) -оо — оо — оо —оо —:оо —о© — оо — оо — оо —во ~~ос X(k+1) — оо — оо — оо —оо ~»оо — оо с с? с С -~ С С с с — оо С с с с? Х(п) — оо С С С с
108 Глава 8. Симметричные распределения И в ком не сыщешь пятен? Чацкий в «Горе от ума» А. С. Грибоедова и Х(п) — θ ввиду симметрии одинаково распределены. Поэтому DX(!) = DX(n). В соответствии с формулой (6) гл. 3 стандартное отклонение V D0 оценивается сверху величиной порядка 1/п. Таким образом, при больших η для модели сдвига равномерного распределения оценка θ = ~ PQi) + ^(п)) значительно точнее оценки W. Замечание. Распределение величины п(Х^— # + « ) согласно задаче 4 гл. 5 стремится при η —► оо к показательному закону с λ = 1. В силу симметрии величина η(θ + ~ — Х(п)) имеет тот же предельный закон. Можно доказать, что случайные величины Χ(ΐ) и Х(п) асимптотически независимы (см. задачу 7 гл. 6). Отсюда и из задачи 2 гл. 7 получаем, что имеет место сходимость η ( 2 (^(ΐ) Η" ^(η)) — β) —* £, где ξ распределена по закону Лапласа. 6. По теореме 1 гл. 7 и формуле (1) гл. 7 относительная эффективность eMED j£ = 4p2(0) DXi. Причем она не зависит от масштаба. (Действительно, если Υ = сХ, то согласно следствию из П8 плотность ργ(χ) = \c\~lpx(x/c), откудару(0) = с~2р^(0), а согласно свойствам дисперсии (П2) DY = c2DX.) Поэтому можно считать, что р(0) = 1. Таким образом, в силу четности плотности р(х)1 задача 6 сводится к следующей: минимизировать no f функционал ±oXl -I x2f(x) dx при выполнении условии оо <К/(*) < ДО) = 1, |/(x)dx = i. Утверждение. Минимум /*(*) ='[о,*]· функционала достигается на Доказательство. Оценим снизу приращение функционала: оо 1/2 оо lx2(f(x)-f*(x))dx = \x2{f{x)-l)dx + \x2f{x)dx> 1/2 П/2 >Λ (f(x)-l)dx + f(x)dx-l)=0.
Ответы на вопросы 109 Замечание. Эту задачу можно обобщить (см. [50, с. 321]): для распределений F Ε Ωβ, плотность которых имеет максимум в нуле, ex x(F) > т-Л- Αα,χν ι ' 1 + 4α (сравните с теоремой 2). Минимум достигается при равномерном распределении на отрезке — о' 2 * ОТВЕТЫ НАгБОПРОСЫ 1. Носителем плотности Ρδλ{χ) является интервал (—с,с), где c = b — a. 2. Нет. Скажем, для плотности с носителем (0,1) U (8,9) носителем | Рбг(х) служит множество (—9, — 7) U (—1,1) U (7,9). 3. а) Точное значение равно 2/π (τ. е. асимптотической эффективности MED относительно X). б) Выражая асимптотическую дисперсию σ£ через квантиль χ = χι-α и дважды применяя правило Лопиталя, находим: ]t2p{t)dt + {l-F{x))x2 ton <j*=2-lim£- α->ι/2 α *->ο \2F{x) -1]2 4ρ2(0) * 4. а) Вообще говоря, зависимы, поскольку увеличение Χι приводит к росту и Х\ + Хг, и Χι + Хз- б) Верно, так как в обоих случаях пробегаются всевозможные значения ~ (Xi + Xj), где 1 ^ г ^ j < п. 5. IF = — je~t2dt = —=, откуда ежХ = 12 Тр. = 3/π. 6. Например, «облако» сферической формы с «выбросом» (или группой «выбросов») вблизи центра сферы.
Глава 9 МЕТОДЫ ПОЛУЧЕНИЯ ОЦЕНОК Следует поставить перед собой цель изыскать способ решения всех задач одним и притом простым методом. Ж. Даламбер Занимаясь той или иной научной проблемой, лучше исходить из ее индивидуальных особенностей, чем полагаться на общие методы. Д. Курант, Г. Роббинс Вопрос 1. а) Какое распределение имеет случайная величина 1{χί<χ}1 б) Как называется последовательность в) Что такое Fn{x) по отношению к этой последовательности? г) К чему сходится Fn{x) при η —► оо для фиксированного xl В этой главе рассматриваются несколько простых и универсальных методов получения оценок параметров статистических моделей, в том числе —метод моментов и метод максимального правдоподобия. Прежде всего, познакомимся с графическим анализом на вероятностной бумаге. § 1. ВЕРОЯТНОСТНАЯ БУМАГА Построим по выборке Χι,... ,ХП случайную ступенчатую функцию Fn(x), возрастающую скачками величины - в точках Хи\ (рис. 1). Она называется эмпирической функцией распределения. Чтобы за- Н- У = Ргь(х\+^ Рис. 1 *<1>0 дать значения в точках разрывов, формально определим ее так, чтобы она была непрерывна справа: л ι τι ι η Fn{x) = - Σ 7{Χ(ο^} = - Σ hxi^)· n t=l n t=l Проблема. Пусть элементы выборки Χι,... ,Χη имеют функцию распределения F((x — μ)/σ), где F известна, а параметры сдвига μ и масштаба σ > 0 — нет. Как их оценить? Из ответа на вопрос 1 вытекает, что эмпирическая функция распределения Fn(x) служит естественным приближением к теоретической функции распределения F((x — μ)/σ). Среди функций этого двухпараметрического семейства следовало бы выбрать такую функцию F((x — /£)/σ), чтобы она «меньше всего» отличалась от Fn(x)1 и взять соответствующие μ и σ в качестве искомых оценок. Однако, в общем случае из-за нелинейности F это сделать затруднительно. Идея метода оценивания, приведенного ниже,
§1. Вероятностная бумага 111 состоит в «распрямлении» графика F((x — μ)/σ) и последующей подгонки прямой, сглаживающей соответствующее «облако» точек плоскости. Для простоты допустим, что F непрерывна и строго монотонна. Тогда для нее определена обратная функция F-1. Посмотрим, во что переходит график функции у = F((x — μ)/σ) при преобразовании (я,у) -> (x.F^iy)): (x,F((x - μ)/σ)) -> {x,F~\F{{x - μ)/σ))) = (χ, (χ - μ)/σ). Значит, график переходит в прямую у = (χ — μ)/σ. Отсюда вытекает следующий способ оценивания μ и σ: преобразуем график эмпирической функции распределения у = Fn(x) в у = F~1(Fn(x)) и подберем «на глаз» наиболее тесно прилегающую к нему прямую у = (х — μ)/σ. При этом оценка μ —это координата точки пересечения с осью абсцисс, а σ — котангенс угла наклона построенной прямой. Если функция у = F~1(Fn(x)) слишком сильно отличается от линейной, то предположение о том, что выборка взята из совокупности с функцией распределения F((x — μ)/σ), скорее всего не выполняется. Для реализации этого способа получения оценок нет необходимости строить целиком график у = F~1(Fn(x)). Достаточно отметить только точки (ж(ф^-1(г/п)), отвечающие скачкам функции Fn(x), и подогнать прямую к этому «облаку» точек (это можно осуществить с помощью метода наименьших квадратов или других регрессионных (сглаживающих) методов из гл. 21). Чтобы избежать неудобства, связанного с построением точки (x(n),F_1(l)), когда случайная величина Χι не ограничена сверху, обычно используют точки (ж(^), F_1((z — 0,5)/η)), ι = 1,... ,η. Пример 1. Моделируем нормальную выборку с помощью таблицы нормальных случайных чисел из [10, с. 371]. Взяв первые η = 10 чисел Ζχ из 3-й строки этой таблицы, преобразуем их в реализацию выборки из распределения Λ/Χμ,σ2) по формуле хг= μ + σΖχ для μ = 1 и σ = 2. Получим следующие значения: 3,97 0,29 -0,27 2,39 2,85 3,75 2,57 -0,93 -0,71 -2,73. По таблице обратной функции Ф~1{у) к функции распределения ЛГ(0,1) (см. Т2 или [10, с. 136]) вычислим Ф~1{(г - 0,5)/п), г = 1,... ,п: -1,65 -1,04 -0,68 -0,39 -0,13 0,13 0,39 0,68 1,04 1,65. Точки (#(фФ-1((г — 0,5)/п)) и подогнанная к ним «на глаз» прямая приведены на рис. 2. Отсюда находим, что μ « 1,2 и σ » 1,8. Как видно, графический анализ позволяет в данном случае получить довольно точные оценки параметров, несмотря на малый размер выборки. Рис. 2 Будто —тяп-ляп., да и корабль.
112 Глава 9. Методы получения оценок Рис. 3 0,1 + Для сравнения: выборочное среднее X и стандартное отклоне- ние 5, где S2 = - ^2(Х% — X)2, которые в этой модели являются г=1 оценками максимального правдоподобия (см. § 4 и задачу 2), имеют значения 1,12 и 2,16 соответственно. Графический анализ удобно проводить на так называемой вероятностной бумаге. Для ее изготовления строится неравномерная шкала на оси ординат на основе преобразования у' = F~l(y). Шкала на оси абсцисс остается прежней. В новых шкалах непосредственно наносятся точки (#(г), (г — 0,5)/п). Оцифровка новой оси ординат для нормального закона показана на рис. 3. Следует отметить, что рассмотренный метод применяется исключительно к модели сдвига-масштаба и моделям, сводимым к ней при помощи некоторых преобразований. (Так, логнормальная модель с плотностью ρμ σ{χ) = -== ехр \ ^ (Inχ — μ)2 \ΐίχ>ο\ 9 χσν2π Ι 2σ У х при логарифмировании Х[ — \\хХ\ сводится к Λ/^μ,σ2).) Излагаемые далее методы получения оценок можно использовать для более широкого класса статистических моделей. А. М. Ляпунов (1857-1918), русский математик. Вопрос 2. Как вывести неравенство Ляпунова из неравенства Иенсена (П4)? § 2. МЕТОД МОМЕНТОВ Моментом к-го порядка случайной величины X называется величина otk = MXk. Моменты существуют не всегда. Например, у закона Коши математическое ожидание αϊ не определено (см. § 2 гл. 1). Из неравенства Ляпунова (М\Х\к)1/к ^ (M\X\l)1/l upnk^l и свойства |М£| ^ М|£| следует, что конечность М|Х|т гарантирует существование всех моментов ctk для к s= 1,... ,га. 1 п Положим Ак = - Σ Χ{· Если момент а& существует, то в силу пг=1 ρ закона больших чисел (П6) Ак —► &к при η —► со. Поэтому для реализации #ι,... ,#п выборки достаточно большого размера можно 1 п утверждать, что ак = - Σ xi w аь τ· е· эмпирические η /г моменты г=1 к-ro порядка ак близки к теоретическим моментам од. На этом соображении основывается так называемый Метод моментов Допустим, что распределение элементов выборки зависит от га неизвестных параметров #i,...,0m, где вектор θ = (0i,...,0m) принадлежит некоторой области θ в Rm. Пусть M|X|W < со для всех θ Ε θ. Тогда существуют все од = од(0), к = 1,... ,га, и можно
§2. Метод моментов 113 записать систему из m (вообще говоря, нелинейных) уравнений <*к{в)=ук, fc = l,...,m. (1) Предположим, что левая часть системы задает взаимно однозначное отображение д: θ —► В, где В —некоторая область в Rm, и что обратное отображение д~г: В —► θ непрерывно. Другими словами, для всех (j/i,... ,ym) из В система (1) имеет единственное решение, которое непрерывно зависит от правой части. Компоненты решения θ = (#ι,... ,0m) при у к = Ак называются оценками метода моментов*^ Пример 2. Рассмотрим модель сдвига показательного закона, в которой плотностью распределения величин Х{ служит функция рв{х) = β-(χ-θ>>Ι{χ>θ} (рис. 4). Здесь оо оо αι(0) = ΜΛΊ= lxe-{x-e)dx= [(у + в)е~уау = 1 + Θ. θ о Из уравнения 1 + 0 = Αι = X, находим по методу моментов оценку Θ = Χ-1. гамма-распределение θ2: соответствующая Пример 3. Пусть величины Х{ имеют с двумя неизвестными параметрами θ\ и плотность имеет вид Ρθ(χ) = е^х^-1е-^Ч(х>0} /Г(02). Согласно формуле (2) гл. 4 находим αϊ = θ2/θ\ и а2 = θ2(θ2 + \)/θ\. Решив систему (1), получаем в качестве оценок метода моментов 01 = Аг/(А2 - А\) = X/S2 и 02 = А\/{А2 - А\) = X2/S2. Какими статистическими свойствами обладают оценки, полученные методом моментов? Их состоятельность вытекает из непрерывности определенного выше отображения g~l и свойства сходимости 3 из П5. Для гладких отображений g~l такие оценки будут также асимптотически нормальными. Это следует из того что, во-первых, в силу центральной предельной теоремы (П6) имеет место сходимость у/й (Ак - ак) -i ξ ~ ЛГ(0, а2к - а2к), если а2к < оо. А во-вторых, справедливо обобщение на многомерный случай леммы 1 гл. 7 (см. [11, с. 33]). Однако обычно асимптотическая дисперсия (см. § 4 гл. 7) оценок, полученных по методу моментов, довольно велика. Поэтому в §§ 4-6 будут рассмотрены оценки с наименьшей возможной асимптотической дисперсией для так называемых регулярных (см. § 3) статистических моделей. У = Рв(х) ) Величины 0fc случайны, так как Ак —функции от Χι,... ,Xn.
114 Глава 9. Методы получения оценок §3. ИНФОРМАЦИОННОЕ НЕРАВЕНСТВО Пусть f(x,0) обозначает плотность распределения случайной величины Χι. Для дискретных моделей используем это же обозначение для Ρ (Χι = χ). Допустим, что выполняются следующие условия регулярности: R1) параметрическое множество θ — открытый интервал на прямой (возможно, бесконечный)'; R2) носитель распределения А = {х: f{x,6) > 0} не зависит от параметра Θ; R3) при любых χ Ε А и θ Ε θ производная — f(x,0) суще- υθ ствует и конечна; R4) для случайной величины U\ = — 1η/(Χι,0) при всех 0 Ε θ υθ справедливы тождество MUi = 0 и неравенство 0 < Л(0) = = DUi < оо. Заметим, что условие MC/i = 0 верно для тех статистических моделей, где производная по 0 правой части тождества 1 = J f{xfi) dx А может быть вычислена дифференцированием под знаком интеграла: д . . ° = | h ί{χβ) dX = \ \χ,θ) ί(Χ'θ) άχ = Μίθ 1η^(Χι'«) = Μί/χ. Α Α Контрпримером может служить равномерное распределение на отрезке [0,0], где 0 Ε (0, + оо). Носитель А = [О, 0] зависит от 0, и θ \ θ θ ° = έ1 = ^ \dx)*\m{l)dx = -eidx=-i· Для выборки X = (Χι,... ,Χη) совместная плотность распределения (или вероятность Р(Х\ = #ι,... ,ХП = хп)) в силу независи- п мости компонент распадается в произведение: /(ж,0) = Π ί(χίβ)·> где χ = (#ι,... ,#п). Рассмотрим случайную величину ип = £ ынх,в) = ± ± ы/(хив). Тогда применение свойств из П2 дает MUn = О и DUn = пД(0). Р. Фишер (1890-1962), Определение. Информацией Фишера для случайного вектора ξ английский статистик. с плотностью (в дискретном случае — с совместной вероятностью компонент) /(ж,0) называется величина ig(fl) = Μ |Ш/(^)Г
§ 3. Информационное неравенство 115 Отметим, что содержащаяся в выборке информация Ιχ (0) = = Ιη(θ) = DUn = ηΙι(θ) пропорциональна размеру выборки. Она интересна тем, что участвует в следующем ограничении снизу на дисперсии оценок в регулярных моделях. Информационное неравенство (Рао — Крамер). Допустим, что выполнены условия R1-R4, 0 — любая оценка с М02 < оо, для которой производная по 0 от функции α(0) = ΜΘ = θ(χ) /(ж,0) dx, где χ = (#ι,... ,#η), существует и может быть получена дифференцированием под знаком интеграла. Тогда "" ^ Ιη(θ) п1г(в) * В частности, для оценок, имеющих смещение 6(0) (т. е. для α(0) = 0 + 6(0)), нижней границей служит [1 + Ь'(0)]2//п(0), а для несмещенных оценок— 1/7п(0). Доказательство. Дифференцируем под знаком интеграла: α'(θ) = | θ(χ) ^/(χ,θ)άχ = J θ(χ) ί^1η/(χ,0)1 /(Ж,0)с*ж. Справа стоит Μ(0£/η). Отсюда, поскольку MUn = ηΜ[/ι = О, получаем представление α'(0) = М[(0 — Μ0)[/η]. Применяя теперь неравенство Коши — Буняковского (П4), оценим [а'(0)]2 сверху: [α'(θ)}2 < [М(9- ΜΘ)2] [Mt£] = (D0)/n(0), что и требовалось установить. ■ Несмещенные оценки, на которых достигается нижняя граница 1/7п(0), называются эффективными. Пример 4. Пусть случайные величины Xi имеют нормальное распределение Λ/"(0, σ2), где параметр масштаба σ известен, а параметр сдвига 0 — нет. Здесь ίΊ = 4ΐη ay/2w 0-ϊ(Χι-θ)2/σ* д_ дв {Χχ-θΥ 2σ2 =4№-ί)· Отсюда Д(0) = Di7i = σ 4D(Xi - 0) = σ 2. Поэтому оценка X с дисперсией σ2/η является эффективной в этой модели. Информационное неравенство показывает, что для регулярных моделей погрешность оценки ν D0 не может убывать быстрее, чем С/у/п. Контрпримером служит Х(п) — максимум выборки
116 Глава 9. Методы получения оценок Χι,...,Χη из равномерного распределения на [0,в], который оценивает 0 с точностью порядка 1/п (см. задачу 3 гл. 1). Подобные оценки называются сверхэффективными. Замечание. Другие условия регулярности, обеспечивающие выполнение неравенства Рао—Крамера, приведены в [11, с. 150]. §4. МЕТОД МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ Метод получил распространение после появления в 1912 г. статьи Р. Фишера, где было доказано, что получаемые этим методом оценки являются асимптотически наиболее точными при выполнении условий регулярности из приведенной ниже теоремы 1. Для знакомства с методом предположим для простоты, что элементы выборки Х{ имеют дискретное распределение: /(#,0) = = Ρ (Χι = χ) (здесь 0 = (0ι,.. .βτη) — вектор неизвестных параметров модели). Тогда совместная вероятность выборки /(ж,0) = = /(жι,0) · ... · /(#п,0) зависит от η + т аргументов (здесь х = (χι,... ,#п)). Рассматриваемая как функция от 0ι,... ,0m при фиксированных значениях элементов выборки #ι,... ,#п, она называется функцией правдоподобия и обычно обозначается через L(0). Величину Ь(0) можно считать мерой правдоподобия значения 0 при заданной реализации х. Представляется разумным в качестве оценок параметров 01) · · · )0т взять наиболее правдоподобные значения 0ι,... ,0т, которые получаются при максимизации функции L(0) (рис. 5). Такие оценки называются оценками максимального правдоподобия (ОМП). Часто проще искать точку максимума функции lnL(0), которая совпадает с 0 = (0ι,... ,0m) в силу монотонности логарифма. Пример 5. Для схемы Бернулли Χι,...,Χη с вероятностью «успеха» 0 имеем: /(я,0) = Р{Х\ = х) = θχ(1 - 0)1_а:, где χ принимает значения 0 или 1. Поэтому функция правдоподобия L(0) = 0s* (1 — 0)n_Sn, где sn = χι + ... + #η, представляет собой многочлен n-й степени (рис. 6 при sn > 1 и η - sn > 1). Найдем точку максимума In L(0) = sn In0+(n—sn) ln(l—0). Дифференцируя по 0, получаем уравнение sn/9 — (η — sn)/(l — θ) = 0, откуда 0 = sn/n = χ. Таким образом, ОМП в схеме Бернулли — это частота «успехов» в реализации #ι,... ,#п. Как и в § 3, в случае непрерывных моделей будем использовать обозначение /(#,0) для плотности распределения случайной величины Χι. Пример 6. Рассмотрим модель сдвига показательного закона с плотностью /(#,0) = β~(χ~θΪΙ{χ·^β}. В этом случае функция Likelihood (англ.) — правдоподобие.
§ 4. Метод максимального правдоподобия 117 правдоподобия равна Ηθ) = Π/(*<·*) = е-(11+-+х")е"в7{ж(1)^}. г=1 Отсюда (см. рис. 7) получаем в качестве ΟΜΠ θ = хщ, которая отлична от оценки метода моментов θ = χ — 1, найденной ранее для этой модели в примере 2. Заметим также, что здесь L(0) не является гладкой функцией, и поэтому ОМП нельзя вычислять, приравнивая нулю производную функции правдоподобия. В случае, когда L(6) гладко зависит от 0ι,... ,0m, оценки максимального правдоподобия являются компонентами решения (вообще говоря, нелинейной) системы уравнений: J- ЫЦ9) = Σ\щ In/(ж,*) = 0, J = 1,... ,ш. (2) Иногда эта решение можно найти явно (см. задачу 2), но чаще приходится вычислять его приближенно с помощью итерационных методов (например, метода Ньютона из § 5). Пример 7. Для закона Вейбулла—Гнеденко, используемого в моделях, описывающих прочность материалов (см. § 2 гл. 4), с функцией распределения Faip(x) = 1 — ехр{—χα/β} при χ > 0 (параметры α и β предполагаются положительными) система (2) после некоторых упрощений приводится к виду α η i=l i=l / i=l n i=l В [50, с. 387] доказано, что первое уравнение системы (следовательно, и вся система) при любых χχ,... ,#п (не равных одновременно 1) имеет единственное решение. Как показывают два следующих примера, функция правдоподобия с вероятностью 1 может быть не ограничена сверху, т. е. глобальный максимум L(0) на множестве θ может не достигаться. Пример 8 [50, с. 391]. Рассмотрим (рис. 8) смесь плотностей (см. § 2гл. 5) ^Ζΐ ρ (*=JH) + ± ρ (£^),Гдее 6 (0,1), σχ > 0, V\ \ V\ J &2 \ &2 J &2 > 0, p(x) — любая положительная при всех х плотность, (скажем, стандартная нормальная р(х) = —= е"х /2). Тогда плотность выборки л/2тг Ш^К^ИК^)}
118 Глава 9. Методы получения оценок представляет собой сумму положительных членов, один из которых равен η—Ι η 1-ε σι K^)fe) π/(^) Когда μι=#ιΗσι—►(), этот член стремится к бесконечности при любых фиксированных значениях ε, μ<ι, σ<ι, х2,... ,#η. Стало быть, L(0) неограничена и глобальной ОМП не существует. Однако отметим, что для смеси нормальных плотностей выполняются условия теоремы 1, приведенной ниже, и поэтому при достаточно большом η функция правдоподобия будет иметь (с вероятностью 1) локальный максимум в точке, которая находится как решение системы (2). Пример 9 [61, с. 71]. Допустим, что у модели сдвига-масштаба — ρ ( — 1, плотность р(х) такова, что χι+ερ{χ) —► оо при χ —► оо σ \ σ J для любого ε > 0 (например, годится р{х) = ^(1 Η- |α:|)—х[1 Ч- 1п(1 Ч- + |#|)]~2). Тогда для η > 1 глобальной ОМП не существует. Доказательство. Как всегда, хщ ^ Х(2) ^ · · · ^ х(п) —вариационный ряд, построенный по реализации χ = (ж ι,... ,#п). Возьмем с φ О такое, что р(с) > 0. Положим μ = хщ — са. Тогда /(χ,μ,σ) = η η = σ-ηΥ[ρ((χί - μ)/σ) = р(с) а~п]\р(с + (χ{ί) - χ(ΐ))/σ) = »=1 i=2 Для η > 1 множитель, заключенный в фигурные скобки, стремится к бесконечности при σ —► 0, независимо от того, равно ли х^ величине хщ или нет. Следовательно, /(χ,μ,σ) —► оо. В [61, с. 72] доказано обратное утверждение: если плотность р(х) ограничена и непрерывна, а функция |#|1+ερ(#) ограничена при некотором ε > 0, то с вероятностью 1 глобальная ОМП (μη,ση) существует при достаточно большом η и (μη&η) *> (μ,σ) при η —► оо. ■ Для заданной статистической модели координаты точки максимума функции правдоподобия L(0) зависят от реализации #1,... ,#п, т. е. 9j = 9j(xi1... ,#n), j = 1,... ,ra. Подставив вместо аргументов в эти функции компоненты выборки (Χι,... ,ХП), получим случайные величины Oj(Xi,... ,ХП)· Какими свойствами обладают такие оценки?
§ 5. Метод Ньютона и одношаговые оценки 119 Для простоты далее в этом параграфе ограничимся случаем скалярного параметра (векторный случай рассматривается, скажем, в [11, с. 237] или [50, с. 379]). Предположим, что помимо условий R1 - R4 из § 3 выполнены дополнительные условия регулярности: R5) распределения Fq различны при разных θ Ε θ; R6) плотность f(x,6) при каждом χ Ε А трижды непрерывно дифференцируема по 0; R7) §f(x,0)dx можно дважды дифференцировать по параметру θ под знаком интеграла; R8) существует функция h(x) такая, что при всех χ Ε А д3 ^зЬД*,0) ^ h(x) для всех θ Ε θ и Mh(X\) < оо. Теорема 1. При выполнении условий R1-R8 для достаточно большого η существует с вероятностью 1 решение θ = θη уравнения правдоподобия £pnf(Xi)9)=0, (3) дающее сильно состоятельную оценку: θη п' н'> θ при η —► оо, причем у/п{вп-в) Α ξ ~ Л/"(О,1/Д(0)), где h(θ)-информация Фишера случайной величины Х\ (см. § 3). Доказательство этой теоремы можно найти m «π -ηι -по л* в учебнике [69, с. 205]. Теорема 2. Пусть выполнены условия R1-R8 и θ — некоторая асимптотически нормальная оценка: Vn(0n ~ Θ) -i С ~λί (Ο,σ2(0)) при η — оо, где асимптотическая дисперсия σ2(0) непрерывно зависит от Θ. Тогда σ2(θ) ^1/Ιι(θ) при всех 0G Θ. (4) Ле Кам в 1953 г. доказал, На основании неравенства (4) заключаем, что ОМП (при вы- что для разрывных σ2(θ) полнении условий R1 - R8) имеет наименьшую возможную асимп- нарушат™не бо^ееГчем тотическую дисперсию, равную 1/Д(0). Это свойство называется на множестве лебеговой г, /. η меры нуль. Соответ- асимптотическои эффективностью. ствующий контрпример приведен в задаче 7. §5. МЕТОД НЬЮТОНА И ОДНОШАГОВЫЕ ОЦЕНКИ Для численного решения нелинейного уравнения φ(χ) = О можно использовать метод Ньютона (метод касательных), который состоит в следующем. Прежде всего, задается начальное приближение #о· Затем вычисляются значения #&+ι, к = 0,1,..., по формуле хк+\ = хк - ч>{хк)/ч>'(хк), (5)
120 Глава 9. Методы получения оценок О ^ χ* Xfc+i Xk Рис. 9 К. Ф. Гаусс (1777-1855), немецкий математик. Доказательство теоремы 3 приведено в [6, с. 107], обобщение ее на многомерный случай можно найти в [77, с. 192]. Рис. 10 которая получается в результате проведения касательной к графику у = φ(χ) в точке (xki<p(xk)) (рис. 9). Действительно, полагая у = 0 в уравнении касательной у = <р(хк) + <£'(х&)(# — х*), находим, что координата Xk+ι точки ее пересечения с осью абсцисс удовлетворяет соотношению откуда (при <p'(xk) Φ 0) следует итерационная формула (5). (в) Замечание. Для нелинейной системы уравнений φ{χ) = О аналогом уравнения (6) будет линейная система (pf{xk){xk+\ — Хк) = = — <р(хк), где <р'(х) = \\8φί{χ)/8χ^\\ — матрица Якоби. Решив линейную систему методом Гаусса (см. [6, с. 137]), найдем очередной шаг Aajfc+i = Xk+i - Xk- Оценку скорости сходимости приближений Xk в скалярном случае дает Теорема 3. Пусть в ί-окрестности корня х* уравнения φ(χ) = 0 функция φ дважды непрерывно дифференцируема, 0 < α < |<//(ж)|, \φ"(χ)\ ^ β. Положим ε = min{£/2,a//3}. Тогда, если \х0 - х*\ ^ ε, то при всех к ^ 0 выполняются неравенства \xk+i — х*\ ^ |#fc+i ~хк\ и |a?fc+i - х*\ ^ $~1\хк - я*|2· Первое неравенство позволяет оценить погрешность текущего приближения через предыдущие. Второе неравенство показывает, что при выборе начального приближения х0 из достаточно малой окрестности простого тсорнл, т. е. такого, что φ'{χ*) ф 0, метод Ньютона сходится квадратичпо (существенно быстрее геометрической прогрессии). Это означает, что на каждой итерации число верных знаков приближения примерно удваивается. Если xq взято достаточно далеко от корня ж*, процесс может расходиться, в частности, могут возникать так называемые «осцилляции» (рис. 10). Приведем пример алгоритма, который является частным случаем метода Ньютона. Пример 10. Задачу численного извлечения квадратного корня из числа а > 0 можно представить как поиск корня уравнения φ(χ) = = χ2 — а = 0. Применим метод касательных. Здесь φ'(χ) = 2х nxk+i = Xk — {x\—o)/(?Xk) = о(ж*+а/ж*)> т,е* получаем известный алгоритм усреднения Xk и а/ж*. Пример 11. Для модели сдвига закона Коши с плотностью ί{χβ) = 1 /[π (1 + (χ — θ)2)] уравнение правдоподобия (3)
§ 5. Метод Ньютона и одношаговые оценки 121 имеет вид Xi-Θ »=1 ! + (Xi-Θ)2 = 0. (7) +оо В этой модели информация Фишера 1\{θ) = - J -( гТз ^х = о * По теореме 1 асимптотическая дисперсия ΟΜΠ 0 равна 1/Л(0) = 2. Следовательно, относительная эффективность её med = тг2/8 « 1,234. Другими словами, в этой модели ОМП 0 асимптотически точнее выборочной медианы MED примерно на 23%. При поиске решения уравнения правдоподобия (3) в качестве начального приближения 0о нередко используется значение оценки, полученной по методу моментов, или любой другой легко вычисляемой оценки (желательно, устойчивой к выделяющимся наблюдениям). Оказывается, для регулярных моделей справедлив следующий интересный статистический результат: достаточно сделать всего один шаг по методу Ньютона, начиная с любой асимптотически нормальной^ оценки, чтобы получить асимптотически эффективную оценку 01 (т. е. столь же точную, как ОМП). Сформулируем его более строго. Теорема 4. Пусть выполнены условия R1 - R8 из § 3 и § 4, а оценка 0о такова, что у/п(во — 0) —► ξ ~ ΛΓ(Ο,σ2(0)) при η —► оо. Тогда одношаговая оценка 0ι = 0о — φ(θο)/φ'(θο)ι где φ(θ) = — lnL(0) = Ου П Q = Σ оБт/(ж»,0), обладает асимптотической дисперсией 1/Д(0). г=1 όθ Пример 12. Возьмем для модели сдвига закона Коши из примера 11 в качестве начальной оценки 0О выборочную медиану MED. Из теоремы 4 и теоремы 1 гл. 7 имеем, что одношаговая оценка 0ι с ψ(θ) = -2 Ε Xi-Θ и φ'(θ) = 2Σ I-(Xi-Θ)2 • £11+ (*-*)» " irv"/ "£i(l + (X<-*)aja является асимптотически эффективной для параметра сдвига 0. Пример 13 [50, с. 377]. Пусть случайные величины Х\ имеют плотность /(#,0) = (1 — θ)ρι(χ) + Θρ2(χ)> где плотности pi и р2 известны, а вес 0 £ [0,1] — нет. Допустим, что у распределений с плотностями ρι(χ) и Р2(х) математические ожидания μι и μ*ι различны, а дисперсии — конечны. Поиск ОМП приводит к уравнению степени п—1 относительно 0: Α ρ2№)-ρι№) Si (i-0)pi№) + 0p2№) = ο, Вопрос 3. а) Всегда ли это уравнение имеет хотя бы один корень? 6) Какое наибольшее число корней может быть у него? Доказательство теоремы см. в [50, с. 375].
122 Глава 9. Методы получения оценок решить которое при больших η довольно сложно. Применение теоремы 4 позволяет, не решая его, асимптотически эффективно оце- Благодарение Всевыш- нить Θ. Для этого достаточно использовать в качестве 0О оценку ме- нему, что нужное Он ТОда моментов, которая находится из уравнения (1— 0)μι+0μο = X: сделал нетрудным, ^ — ν ' ^ а трудное—ненужным. во = (X — μι)/(μ2 — μι)· При сделанных предположениях 0О асимп- г. Сковорода тотически нормальна в силу центральной предельной теоремы. §6. МЕТОД СПЕЙСИНГОВ Познакомимся теперь с оригинальным методом, предложенным Ченом и Амином в 1983 г. (см. [15, с. 90]). Оценки, полученные этим методом, асимптотически эффективны при выполнении условий регулярности и оказываются состоятельными даже для тех моделей, где глобальной ОМП не существует. Рассмотрим хщ ^ #(2) ^ ··· ^ х(n)~~ вариационный ряд, построенный по реализации выборки из закона с функцией распределения F{x,6) и плотностью /(#,0), 0 Ε θ, носителем которой является некоторый интервал (μι,μ2)· Параметры μι и μ<ι могут быть неизвестны. В этом случае их следует считать компонентами вектора 0. Положим Х(0) = μι и #(η+ΐ) = μ2· Спейсингами называются величины Di= [ f(x,e)dx = F(x{i),e)-F(x{i_1)ie)1 г = 1,...,п + 1. X(i-i) Метод спейсингов рекомендует в качестве оценки векторного параметра 0 взять такую статистику 0, которая максимизирует п+1 произведение G(0) = ΓΙ ^ или> что то же самое, максимизирует г=1 функцию Я(0) = lnG(0). Мотивировкой метода служит то обстоятельство, что в силу п+1 условия Σ Di = 1 максимум функции G достигается, когда все г=1 Di одинаковы (задача 8). Выбор значения 0, которое «уравнивает» спейсинги, является разумным ввиду того, что при истинном 0 величины А(Х(фХ^_!),0) представляют собой в силу метода обратной функции из § 1 гл. 4 одинаково распределенные спейсинги с равномерным распределением на отрезке [0,1] (см. § 4 гл. 4). Пример 14. Для модели сдвига показательного закона с плотностью f{xfi) = ε~(χ~θ^Ι{χ·^θ} из примера 6 легко установить, что п+1 Η(θ) = In (1 - e*"^1)) + θη + Σ 1η (e"^"1) - e~x^). i=2 Из уравнения Η'(θ) = 0 находим θ = Хщ — 1п(1 + -) = = Х(!) Ь 0(п~2) при η —► оо. Сравнивая ее с ОМП ^(ΐ), видим,
Задачи 123 что смещение уменьшилось до величины порядка η 2 (см. решение задачи 3 гл. 6). Сопоставим поведение логарифма функции правдоподобия η η+1 InL(0) = Σ ln/(X(i),0) и поведение функции Η(Θ) = Σ In Di. На основании теоремы Лагранжа о среднем можно записать, что 1П А = ln/(X(i),0) + ln(X(i) - X(i_1}) + ДЛХ(г)Д(г-1),0). В случае, когда μι и ^2 известны, остаточный член Ri хоть и зависит от 0, но имеет величину О(Х^) — X(;_i)). Так как р Χ(ή — X(i-i) —► 0 при η -^ оо, вклад остаточного члена в InDi становится пренебрежимо малым, и поведение dH/θθ не отличается от д In L/θθ* Это приводит к асимптотической эффективности оценок метода спейсингов. Если же μι (или дг) неизвестен, то вклад ϋι (или ϋη+ι) уже не стремится к нулю при η —► оо. Это приводит к различному поведению In L и Н: In L может быть, скажем, не ограничена сверху, в то время как Η ^ О, поскольку 0 ^ Д ^ 1. Пример 15 [15, с. 92]. Для выборки из сдвинутого на μ распределения Вейбулла—Гнеденко с функцией распределения FMja(#) = = [l — e~^~^a] 1{χ>μ}1 где параметры μ и a > О неизвестны, логарифм функции правдоподобия имеет следующий вид: 1η£(μ,α) = nlna + (a - 1) £ ln(X(i) - μ) - £ (X{i) - μ)<*. г=1 г=1 При а<1ид—>Х(!) эта функция стремится к -f оо. В свою очередь, метод спейсингов позволяет получить состоятельные оценки параметров μπα; правда, решать систему уравнений дН/θμ = дН/да = 0 приходится численно. Другие примеры применения метода спейсингов встречаются в задачах 4 и 5. задачи 1. Вычислите информацию Фишера Ι\(θ) для случайной величины Χι, имеющей распределение Бернулли с неизвестной вероятностью «успеха» Θ. Указание. Выразите U\ = (д/д0)1п/(Хь0) через Хг. 2. Пусть Xi ~ Λ/Χμ,σ2). Найдите ΟΜΠ μ и σ. (Почему найденное решение —это точка максимума функции правдоподобия, а не, скажем, седловая точка?) Числом поболее, ценою подешевле. Чацкий в «Горе от ума» А. С. Грибоедова
124 Глава 9. Методы получения оценок = Ip-\*S 3. Случайные величины Χι имеют функцию распределения F ί χ~Ρ\? где F(x) = (1 — е~х) 1{х^о} (модель сдвига-масштаба показательного закона). Найдите ОМП параметров μ и σ. Указание. Учтите, что плотность разрывна в точке μ. 4. Для равномерного распределения на отрезке [μι,μ2] вычислите а) ОМП, б) оценки по методу спейсингов. 5. Случайные величины Χι имеют плотность ρ(χ,θ) = к е~ (сдвиг распределения Лапласа). Как устроено множество, на котором функция правдоподобия максимальна для а) четного, б) нечетного размера выборки? Указание. Сравните с задачей 4 гл. 7. 6? Для логнормальной модели с плотностью ρ"·*(χ) = i^mехр {" Ъ(1пж"μ?)1{х>0} найдите оценки параметров μ и σ по методу моментов. 7* Для выборки из закона Ν(θ, 1) рассмотрим оценку \ьх, если \Х\ ^ αη, если \Х\ < αη, где |Ь| < 1, 0 < ап —► О, но апу^ —► оо при η —► оо. Вычислите асимптотическую дисперсию этой оценки. 8. С помощью метода Лагранжа проверьте, что максимум функции п+1 п+1 Π Di при условиях Σ D{ = 1, 0 ^ А ^ 1, г = 1,... ,п + 1, г=1 г=1 достигается, когда Di = ... = £>η+ι = 1/(я--f l). РЕШЕНИЯ ЗАДАЧ Принимаясь за дело, , , соберись с духом. 1. Ux = Χχ/Θ - (1 - Χι)/(1 - θ) = (Χι - θ)/[θ(1 - θ)}. Отсюда Козьма Прутков /х(0) = MUl = [0(1 - θ)]~2ΟΧ1 = [0(1 - β)]"1. Этот результат можно получить и без вычислений: согласно примеру 5, частота X является ОМП в этой модели; в силу центральной предельной теоремы у/п (Χ—Θ) —> ξ ~ ЛГ(0,0(1-0)) при η —► оо; наконец, согласно теореме 1, асимптотическая дисперсия 0(1 — 0) равна 1/7ι(0). 1 Π 2. ΙηΙ,(μ,σ) = —nln\/27r — ηίησ g Σ№ ~~ А*)2· Необходимым условием экстремума этой функции является равенство нулю
Решения задач 125 частных производных: Первое уравнение дает μ = X. Подставив μ во второе уравнение, находим, что σ = 5, где 52 = - Σ № ~~ ^02 ~~ выборочная пг=1 Убедимся, что найденное решение является точкой максимума функции L, а не, скажем, точкой минимума или седловой. Подробности малейшей не Для этого вычислим производные второго порядка: d2\nL η d2\nL _ η 3 A ,v x2 θμ2 __ = --, (Χ-μ). Учитывая, что при η > 1 с вероятностью 1 статистика S2 > О, эти производные в точке (μ,σ) = (X,S) будут иметь значения —n/S2 < О, —2n/S2 < 0 и 0 соответственно. Поскольку определитель (Θ21ηΖ,/0μ2) (02 InΖ,/0σ2) - (д2 InΣ/θμθσ)2 > О, то выполняются достаточные условия максимума (см. [46, с. 195]). 3. В данной модели θ = (μ,σ) £ θ = R χ (0, + оо), L = ехр j-ηΐησ - ± £ (Х< - μ) J /{*(1)>μ}. При любом σ > 0 эта функция возрастает по μ до точки Х(!) = min{Xi,... ,ХП}, а затем обращается в 0. Рассмотрим поведение функции InL в сечении μ = Χ(ι)· Приравнивая частную производную нулю, получаем уравнение einL = -5 + ?£W-Jf(i)) = ol да решением которого является статистика σ = X — X(i)· Заметим, что Χ(ΐ) оценивает сдвиг μ, а X служит оценкой для ΜΧχ = μ+σ (рис. 11). 4. а) Функцию правдоподобия можно записать так: η ^=(μ2-μι)"ηΠ/{μι<χ^μ2} = (μ2-μι)"η/{μι^χ(1)}/{χ(η)<μ2}. г=1 забуду. Чацкий в «Горе от ума» А. С. Грибоедова υ = ΡμΛχ) μ Χ φ Χ Рис. 11 Максимизация L приводит к ОМП (ДьДг) = (^(ΐ)^(η))·
126 Глава 9. Методы получения оценок б) В этой модели функция Η имеет следующий вид: Η(μΐιμ2) = 1п(Х(1) - μι) + £ ln(X(i) - X(<_i))+ г=2 + 1η(μ2 - 1пХ(п)) - (η + 1) In (μ2 - μι) · Приравнивая частные производные нулю, получаем систему дН = 1 п + 1 = Ш_ = _± п + 1 _Q #μι Χ(1)-μι μ2-μι ' #μ2 μ2--Χ"(η) μι-μ\ ' решение (Дь/хг) которой нетрудно найти: μι=Χ(ΐ)- ^—γ (Χ(η) -Χ(ΐ)), h =Χ(η) + —[ (Χ(η)-Χ(ΐ))· В отличие от ОМП эти оценки не имеют смещения. ϊδ &(η—1)δ «£ Действительно, среднее расстояние δ между любыми сосед- ними из η взятых наудачу из [μι,μ2] точек, очевидно, равно ^ι Μ (η) ^2 (μ2 — μι) Ι (η + 1). Поэтому математическое ожидание размаха Рис. 12 выборки Х(п) — X(i) есть (п — 1)£ (рис. 12). Следовательно, (Х(п) —Х(1)) — это поправка, устраняющая смещение оценок Х(1) И Х(П). 5. а) Для модели сдвига распределения Лапласа 1ηΖ,(0) = -η1η2- Σ \Χί-θ\· г=1 Максимизация этой функции равносильна поиску такого значения 0, при котором сумма расстояний от него до всех элементов выборки Xi была бы минимальной. Пусть η = 2k. Покажем, что в качестве решения годится любое θ из [X^)^X(k-\-i)]- Минимизируем сначала сумму расстояний до Х^) и X(k+i)· Она равна Δι = X(k+i) ~ X(k) Для θ G [X(fc),X(fc+1)] и больше Δι для θ <£ [X(fc),X(fc+1)]. Добавим точки Х(к-\) и X(fc+2) (рис. 13). Сумма расстояний до них при θ Ε [Χ(*._ΐ),Χ(*.+2)1 равна Δ2 = X(k+2) — X(k-i) и больше Δ2 вне этого отрезка. _► Очевидно, что только θ из [X(fc),X(fc+1)] С [X(k-i),X(k+2)] ми- X(k-i) Хм Х(к+\)Х{к+2) нимизируют обе суммы сразу. Далее рассуждаем аналогично. Рис. 13 б) «Склеив» точки Х^) и Х(*.+1), видим, что в случае выборки нечетного размера ОМП будет выборочная медиана MED. Интересно, что функция Η метода спейсингов из § 6 имеет единственную точку максимума MED = ~ (Х(к)+Х(к+1)) и в случае выборки четного размера (убедитесь!). 6. Вычислим сначала момент к-ro порядка +оо
Ответы на вопросы 127 Сделаем замену у = In χ и выделим полный квадрат: +оо —оо —оо Заметив, что справа стоит интеграл по всей прямой от плотности распределения Μ(μ + σ2λ;, σ2), получим α& = βχρ{λ;μ + k2a2/2}. Приравнивая первый и второй теоретические моменты выборочным, получим систему уравнений βχρ{μ + σ2/2} = Аи βχρ{2μ + 2σ2} = А2. Нетрудно убедиться, что она имеет решение μ = 21ηΑι-(1ηΑ2)/2, σ = (ΙηΑ2 - 21ηΑι)1/2. 7. В этой модели X ~ Л/Х0, 1/п). Поэтому при η —► оо Р(|Х| ^ αη) = Ф(д/п (в - on)) + Ф(-д/п (в + αη)) - /{^0} (Ф(ж) — функция распределения закона ЛГ(0,1).) Так как Р(л/п(Θ - 0) < я) = Р(у/п(Х - 0) < я, |Х| ^ αη)+ +P(^(bX-0)^z,|X|<an), то при 0 φ О и 0 = 0 имеем, соответственно, >/n(9-9)i{~J\r(0,l) и ^0 Λξ'~ΛΓ(0,62). При 0 = 0 асимптотическая дисперсия σ2(0) = Ь2 < 1 = Д(0), и неравенство (4) нарушается, несмотря на гладкость модели. 8. Максимизируем Η = £)1ηΑ· Для этого составим функцию Лагранжа (см. [46, с. 271]): F = Σ Ь А - λ (£ А - 1)· Приравнивая нулю частные производные функции FT запишем систему уравнений для поиска экстремальных точек: |£ = 1/Д-А = 0, г = 1,...,п + 1; Ц=£А-1 = 0. Из первых η + 1 уравнения находим, что А = Ι/λ. Подставляя в последнее уравнение, получим λ = п+1, откуда А = 1/(п + 1). ОТВЕТЫ НА ВОПРОСЫ 1. а) Случайная величина /{χ^χ} имеет распределение Бернулли с вероятностью «успеха» F(x). б) Схема Бернулли с вероятностью «успеха» F(x). в) Для фиксированного χ величина Fn{x) есть частота «успехов» — попаданий левее х.
128 Глава 9. Методы получения оценок г) По усиленному закону больших чисел (П6) эмпирическая функция распределения Fn(x) сходится с вероятностью 1 к теоретической функция распределения F(x). 2. Положим г = l/k > 1, η = |£|fc. Применяя неравенство Иенсена к функции φ(χ) = |#|г, находим, что |Мг/|г < М|г/|г, т.е. (M|£|fcy/fc ^ М|£ |*, что и требовалось доказать. 3. а) Левая часть уравнения (7) — сумма непрерывных функций, каждая из которых положительна при θ < Х^ и отрицательна при θ > Х(п). Следовательно, хотя бы один корень всегда есть. б) Если привести слагаемые к общему знаменателю, то в числителе появится многочлен степени 2п — 1. Поэтому максимальное число решений уравнения (7) равно 2п — 1. Математика дает наиболее чистое и непосредственное переживание истины; на этом покоится ее ценность для общего образования людей. Макс Лауэ Красивый результат для этой модели получил Дж. Риде в 1980 г. (см. [50, с. 376]): если 2К + 1 есть число корней уравнения (7), то К сходится по распределению к закону Пуассона с параметром l/π при п —> оо (см. § 1 гл. 5). Удивительно, но для более сложной модели, когда присутствует не только параметр сдвига, но и параметр масштаба, решение (μ,σ) системы уравнений (2) для закона Коши всегда единственно. Это установил Дж. Копас в 1975 г. (см. [50, с. 387]).
Глава 10 ДОСТАТОЧНОСТЬ § 1. ДОСТАТОЧНЫЕ СТАТИСТИКИ Некоторые статистические модели допускают сжатие информации—замену выборки X = (Χι,... ,ХП) размера η на статистику Т(Х), которая «эквивалентна» всей выборке в задаче оценивания неизвестного параметра Θ. Рассмотрим для примера схему Бернулли с неизвестной вероятностью «успеха» Θ: Р(Хг = χι) = θΧί(1 — θ)ι~Χί, где χι = 0 или 1. Выборка X имеет совместное распределение По одной капле воды... человек, умеющий мыслить логически, может сделать вывод о возможности существования Атлантического океана или Ниагарского водопада. А. Конан Дойл, «Этюд в багровых тонах» ί{χ,θ) = θ\\-θ)η-\ где χ = (а?ь... ,яп), t = Τ (χ) = X>t. г=1 Как было установлено в примере 5 гл. 9, оценкой максимального правдоподобия для схемы Бернулли является частота X = Т(Х)/п — функция от Т. Найдем условное распределение (см. П7) выборки X при условии {Т(Х) = t}1 t = 0,1,... ,η: Р(Х = х\Т(Х) =t)= θ'(1 ΘΤ οιηθι{ΐ-βγ _1_ если точка χ такова, что Υ^χι = ί, иначе вероятность равна 0. Заметим, что это условное распределение не зависит от Θ. Определение. Статистика Т{Х) = (Τι(А"),... ,Тт(Х)) в дискретной модели называется достаточной, если для всех θ Ε θ, χ £ Rn и любых возможных значений t = (ίι,... ,£m) условная вероятность Р(Х = χ | Г(Х) = t) не зависит от Θ. Оказывается, достаточная статистика содержит точно такую же информацию (см. задачу 6) о значении параметра 0, что и вся выборка. Чтобы убедиться в этом, заметим, что моделирование выборки можно разбить на следующие два этапа. 1) Розыгрыш значения £0 статистики Г, имеющей распределение Р(Т(Х) = £). (В схеме Бернулли Τ распределена по биномиальному закону: Р(Т(Х) = t) = С* 0< (1 - 0)η_ί.) Это понятие было введено Р. Фишером в 1922 г.
130 Глава 10. Достаточность 2) Розыгрыш положения реализации выборки X на множестве {х: Т(х) = to} («линии уровня») (рис. 1) в соответствии с условным распределением Р(Х = χ \ Т(Х) = to). (Для схемы Бернулли на этом этапе надо случайно (равновероятно) расставить ίο единиц в наборе из нулей и единиц длины η (рис. 2).) При этом от того, какое значение имеет параметр 0, ввиду достаточности статистики Τ зависит только первый этап — розыгрыш линии уровня. 0,1,0,0,...,10,0,1,0 V П Рис. 2 Factor (англ.) — множитель. § 2. КРИТЕРИЙ ФАКТОРИЗАЦИИ Как для заданной статистической модели найти достаточную статистику? Ответ на этот вопрос дает Теорема 1 (критерий факторизации). (Векторная) статистика Τ в дискретной модели достаточна тогда и только тогда, когда существуют функции д и h такие, что совместная вероятность /(χ, 0) выборки X представляется в виде f(x,9)=g(T(x),9)h(x), (1) т. е. распадается в произведение двух функций (факторизуется): первая зависит от 0, но от χ зависит лишь через Т(х), а вторая от параметра 0 не зависит. (В частности, для схемы Бернулли можно взять функции g(tfi) = 0*(1 - 0)η_ί и h(x) = 1, где t = Т(х) =хг + ... + хп.) Доказательство [32, с. 55]. Если статистика Τ достаточна, то при любом χ условная вероятность Р(Х = х\Т(Х) = Т(х)) не зависит от Θ. Возьмем эту вероятность в качестве функции h(x). Так как событие {X = х} С {Т(Х) = Т(ж)}, то совместная вероятность имеет вид /(х,0) = Р(Х = х) = Р(Х = х,Т(Х) = Т(х)) = = Р(Т(Х) = Т(х)) Р(Х = х\Т(Х) = Г(х)), где Р(Т(Х) = Т(х)) играет роль функции д в представлении (1). Обратно, пусть имеет место разложение (1). Тогда при любом χ таком, что Т(х) = t, запишем: _ Р(Х = х) _ , . p(T(X) = t) -Ηχ>ν> Σ №,<>) = x':T(x')=t = g(tft)h(x) Σ g(tft)h(x')=h(x) x':T(x')=t ι Σ Hx') , x':T(x')=t т. е. условная вероятность не зависит от θ. Если же χ таково, что Т(х) φ t, то, очевидно, Р(Х = χ | Т(Х) = t) = 0. Таким образом,
§ 2. Критерий факторизации 131 при любом χ условная вероятность Р(Х = χ \ Т(Х) = t) не зависит от0. ■ Замечание. Если Τ достаточна, то таковой же будет и статистика S = φ{Τ), где φ — взаимно однозначная (борелевская) функция (отображение, когда Τ — векторная статистика). Действительно, в этом случае существует обратная функция (отображение) φ~ι: Τ = (ρ-1 (5), и из представления (1) имеем /(χ,θ) = 9(φ-1(8),θ)Η(χ) = 9l(S,e)h(x). Отсюда в силу теоремы 1 статистика S является достаточной. Теперь определим понятие достаточности для непрерывных статистических моделей. Обозначение /(ж, Θ) станем использовать для совместной плотности выборки X = (Χι,... ,ХП). Тогда для статистики Т(ж), непрерывно зависящей от ж, верно равенство Р(Т(Х) == £) = 0. Корректное определение условной вероятности Р(Х = χ \ Т(Х) = i) в этом случае выходит за рамки математического аппарата, используемого в этой книге. Поэтому вместо введения понятия достаточности на языке условных вероятностей, ) примем критерий факторизации в качестве определения: будем считать статистику Τ достаточной, если она факторизует плотность /(ж,0) в виде (1). Пример 1. Для нормальной модели ΛΓ(μ, σ2) с неизвестными параметрами μ и σ (т. е. θ = (μ,σ)) плотностью выборки служит /(*,«) = Π -4= е-^^-")2 = 1=- е-*Ы2>?-2мЕ*<+^2). г=1 ал/2тт (ал/2тг)п Из этого представления видно, что статистика Т(ж) = (^ #», Σ #?) является достаточной. Так как компоненты Τ взаимно однозначно выражаются через χ = -^ii и s2 = —J2xf — (χ)2, το вся информация о значениях параметров μ и σ содержится в я и s2. Пример 2. Для модели сдвига показательного закона совместная плотность X факторизуется так: f(x,9)=Πβ~(*,~*) w>=«·" w·) · e~Exi- „ , i=1 Вопрос 1. Какая статистика Таким образом, для оценивания параметра θ достаточно знать 6УДет достаточной для г ,. . fv ν ί выборки из равномерного значение статистики A(1) = minjAi,... ,An}. распределения на [0,0]? *) С таким подходом (и доказательством критерия факторизации для него) можно познакомиться по учебнику [11, с. 431].
132 Глава 10. Достаточность Вопрос 2. Принадлежит ли экспоненциальному семейству модель показательного закона с неизвестным параметром масштаба σ: Γσ{χ) = 1-β~χ/σ при х^О (рис.3)? Рис. Э §3. ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО Всегда существует тривиальная (векторная) достаточная статистика—вся выборка. Важным является вопрос: для каких статистических моделей существуют достаточные статистики, размерность которых не зависит от длины выборки? Примером класса таких моделей может служить так называемое экспоненциальное семейство. Определение. Модель принадлежит экспоненциальному семейству, если найдутся такие функции <7ο>0ι> · · · )#т и статистика Τ = (Ti,...,Tm), что совместная плотность (или вероятность) выборки представляется в следующем виде: /(*,*) = ехр ί90(θ) + Σ 9ά{θ)Τά{χ)\ h(x). При этом статистика Τ, очевидно, является достаточной. (2) Так, нормальная модель из примера 1 удовлетворяет условию (2), если взять 9ο(θ) = -η(]ησ+£^, 9ι{θ) = £, д2{0) = -±, Λ = (2π)""/2. Некоторые другие распределения из экспоненциального семейства приведены в задаче 2. Отметим, что равномерное распределение на отрезке [О, Θ] и модель сдвига показательного закона из примера 2 в него не входят. Замечание. Как доказали Е. Б. Дынкин и Т. С. Фергюсон (см. [50, с. 40]), среди моделей сдвига только нормальный закон и распределение const·InX, где случайная величина X имеет гамма-распределение, допускают представление (2) с т = 1. В частности, модели сдвига законов Коши и Лапласа не входят в экспоненциальное семейство. Более того: для этих двух законов не существует достаточной статистики, размерность которой меньше длины выборки (см. [50, с. 47]). В каких еще семействах, помимо экспоненциального, есть достаточные статистики фиксированной размерности? Ответ дает следующая «пессимистическая» теорема из [50, с. 48]. Теорема 2. Предположим, что элементы выборки имеют непрерывную по χ плотность /(#,0), носитель А = {х: f(x,0) > 0} которой есть интервал, не зависящий от θ Ε θ. Пусть для совместной плотности выборки существует непрерывная т-мерная достаточная статистика. Тогда 1) если т = 1, то найдутся функции g0l 9\ и Λ, такие что справедливо равенство (2);
§4. Улучшение несмещенных оценок 133 2) если га > 1 и f(x,0) имеет непрерывную частную производную по #, то существуют функции Qj и Л, такие что равенство (2) справедливо с га' ^ га. Таким образом, среди гладких семейств распределений с фиксированным носителем только экспоненциальное семейство допускает сокращение размерности данных через достаточность. При этом важным условием в теореме 2 является независимость носителя от Θ. Если оно не выполняется, то, как показывает пример 2, для любого размера выборки может существовать одномерная достаточная статистика. §4. УЛУЧШЕНИЕ НЕСМЕЩЕННЫХ ОЦЕНОК Пусть 0 — несмещенная оценка параметра 0, т. е. Μθ = θ для всех θ Ε θ. Допустим, что в модели существует достаточная статистика Т. Тогда ее можно использовать для улучшения оценки Θ. Теорема 3 (Колмогоров — Блекуэлл — Рао). Предположим, что дисперсия ΟΘ < оо для всех θ Ε θ. Рассмотрим оценку θτ = = Μ(Θ(Χ) Ι Τ) (см. П7). Тогда θτ также будет несмещенной оценкой для параметра 0, причем Όθτ ^ ΟΘ при всех Θ £ θ. Доказательство. Тот факт, что θτ = Μ(Θ(Χ) \ Τ) является оценкой, т. е. не зависит от 0, следует из достаточности статистики Т: распределение выборки X при фиксированном значении Τ от θ не зависит. Свойство 1 условного математического ожидания (П7) влечет несмещенность оценки θτ'- Μθτ = ММ(0|Т) = ΜΘ = θ. Для доказательства неравенства заметим, что ΟΘ = Μ(θ-θτ + θτ-θ)2 = = М(0 - θτ)2 + 2 М(0 - θτ)(θτ -θ) + Όθτ > D0T, поскольку первое слагаемое неотрицательно, а второе равно 0. Действительно, так как θτ — функция от Т, то согласно свойствам 1 и 3 из П7, имеем: М(0 - θτ)(θτ - θ) = ММ \(θ - θτ)(θτ -θ)\τ\ = = Μ [(0Τ - Θ)Μ(Θ- θτ | Τ)] = Μ [(0Τ - Θ)(Μ(Θ | Τ) - θτ)\ =0. Ш Отметим, что попытка дальнейшего^улучшения оценки θτ при помощи статистики Τ бесполезна: Μ(θτ\Τ) = θτ по свойству 3 изП7. Замечание. Можно доказать (см. [15, с.73]), что операция усреднения по достаточной статистике не приводит к увеличению риска Every cloud has a silver lining (Джон Мильтон). « Нет худа без добра.
134 Глава 10. Достаточность Щ(в) = Μ ρ(θ — θ) (см. § 3 гл. 6) относительно произвольной непрерывной выпуклой функции потерь р. Поэтому хорошие оценки, как правило, являются функциями от достаточных статистик. Следующий пример показывает, что в качестве исходной в теореме 3 может фигурировать даже оценка, не обладающая свойством состоятельности. Пример 3. Для выборки X = (Χχ,...,Χη) из закона Бернулли с неизвестной вероятностью «успеха» θ попробуем улучшить оценку θ = Χι с помощью достаточной статистики Τ = Σ,Χΐ- Проверим несмещенность θ: ΜΧχ = 1 · Р(Хг = 1) + 0 · Ρ(Χχ = 0) = 0. С учетом П7 выводим, что Μ(β\Τ = ί) = = ι · ρ (хг = 11 f: Xi = Α + ο · ρ (χλ = ο Ι Σ *i = t) = P (xx = 1, Σ Xi = t) Ρ (Χι = 1, Σ Xi = t - l\ αθ\ι-θ)η-* = αθ\\-θ)η-* = = θ . Сг~_\ θ'-1 {I - ΘΥ~1 = Сг~_\ = (n - 1)! tl(n-t)l = t θΙθ\ΐ-θ)η~ι Cl (t-l)I(n-t)! n\ n' Отсюда получаем, что θτ = Μ(Θ\Τ) = Τ/η = Χ. Дисперсия при этом уменьшилась в η раз. § 5. ШАРИКИ В ЯЩИКАХ Ниже в задаче 3 встретится частный случай так называемого полиномиального распределения, возникающий при случайном размещении шариков по ящикам. Предположим, что шарики, занумерованные числами от 1 до η раскладываются по N ящикам (рис. 4). Произвольное размещение описывается набором ω = (ji,J2>- -- ,3η)·> где ji — номер ящика (от 1 csr\ ^ £~\ до ^)> кУДа попал г-й шарик. Всего существует Nn различных на- 4jJ\J. .ч!р. MJ боров. Говоря о «случайном» распределении шаров по ящикам, мы имеем в виду, что все размещения имеют одинаковые вероятности N~n. Вычислим в этой модели вероятности некоторых событий. Пусть lj — неотрицательные целые числа (j = 1,... ,ΛΓ), /ι + .. .-Μλγ = η. Случайная величина ι/j — количество шариков в j-м ящике. Какова вероятность события А = {ν\ = /χ,... ,ζ/^ = /./ν}? Событие {ι/\ = 11} происходит, когда среди номеров ji оказывается ровно 1\ единиц. Расставить Ζ χ единиц по η местам можно С^1 способами. На оставшихся η — 1\ местах надо разместить 1<ι двоек Cln-i способами и т. д. Перемножая все возможности и перекрестно /\\ ... j ... N Рис. 4
§ 5. Шарики в ящиках 135 сокращая факториалы, получаем, что Р(А) = С* ■ Cth ■■-θ£7ί-...-ΐκ-1*-η = ЩгЬ^ТΝ~η· <8> Подсчитаем теперь вероятность того, что ровно к ящиков из N окажутся пустыми. Для этого потребуется Теорема 4. Вероятность события В&, состоящего в том, что произойдут ровно к событий из Αι, Α<ι... ,Α/ν, вычисляется по формуле Р(Дк) = Е(-1)'"*с?5,, 1=к где Si= Σ P{A3lA32...A3l), S0 = l. Доказательство. Проверим, что индикатор 1вк представляется в виде следующей двойной суммы: ift = £(-!)'-*C-f[ Σ lAilAj2...Aj] ■ (4) l^Ji<J2<».<ji^N Действительно, пусть элементарное событие ω (см. ΠΙ) принадлежит ровно га множествам из Αχ, Α<ι... ,Αν (см. рис. 5 для N = 3). Если m < А:, то 1вк = 0 и все члены правой части выражения (4) равны 0. Если га = к1 то 1вк = 1. В правой части равенства (4) член, стоящий в квадратных скобках, равен 1, когда I = А:, и равен 0 в противном случае. Таким образом, правая часть также есть 1. Пусть теперь га > к. Тогда 1вк = 0. Сумма в квадратных скобках при / > га равна 0, а при I ^ га равна С1т (числу наборов по I событий из га, содержащих ω). При этом вся правая часть превращается в Доказательство теоремы завершается взятием математических \£$/ ШШВ3 ожиданий от обеих частей тождества (4). ■ Следствием теоремы 4 является так называемая принцип включения—исключения: вероятность того, что произойдет хотя бы одно из событий Αχ, Α<ι... Αχ, равна ρ (\Ja}) = ι - р(Во) = Σ (-iy-% = Рис. 5 Ν Σ \Ν-1 ι = Σ Ρ(^) " Σ P(AkAi) + ... + (-Ι)""1 Ρ(ΑιΑ2... ΑΝ). 3 к<1 Пример 4. Задача о совпадениях [81, с. 126]. Вычислим вероятность наблюдать ровно к совпадений при случайном сопоставлении двух одинаковых колод, состоящих из N различных
136 Глава 10. Достаточность карт (или случайной раскладке N писем по конвертам). Множеством элементарных событий (Ш) здесь будет пространство перестановок из первых N натуральных чисел. Каждой перестановке ω = (ii,z*2,... 4ν)> где ц φ im при Ι φ m, приписана одна и та же вероятность 1/ЛП. Пусть Аш обозначает множество перестановок, оставляющих m на своем месте: гт = га. Тогда P(AhAh ... Αόι) = (Ν - l)\/N\ при 1 ^ ji < j2 < ... < ji < N. Таким образом, Si = ClN(N - l)\/N\ = \/l\. В силу теоремы 4 p(**) = E(-i)'-fccf 1 = 1 Следовательно, P(Bk) —► e~l/к\ при Ν —► oo, т. е. предельным законом для числа совпадений является распределение Пуассона с λ = 1 (см. § 1 гл. 5). В частности, вероятность 1 — Р(#о) того, что встретится хотя бы одно совпадение, стремится к 1 - е-1 « 0,632. Точность приближения при небольших N видна из следующей таблицы: N 1 - Р(Д>) 2 0,500 3 0,667 4 0,625 5 0,633 6 0,632 Вернемся к вычислению вероятности pk того, что при случайном размещении η шариков по N ящикам окажется ровно к пустых ящиков. Обозначим через Aj событие {j-ft ящик пуст}. Чтобы для заданных I номеров ящиков 1 ^ j\ < 22 < · · · < ji ^ N произошло событие AjxAj2 ..-Ajn все шарики должны попасть в оставшиеся N — I ящиков. Очевидно, вероятность этого равна (N — l)nN~n = = (1 - l/N)n. Отсюда, St = ClN(l - l/N)n. Согласно теореме 4, искомая вероятность задается формулой Pk = E(-Vl-kctclN(i-±y. (5) Изучим поведение р&, когда N и η возрастают так, что Ne~n/N —► —* λ > 0. Нетрудно проверить, что это условие равносильно соотношению η = N In Ν - (In X)N + o(N) при N - oo. (6) Теорема 5. Для k = 0,1,... при выполнении условия (6) вероятность pk —► \ke~x/k\1 т. е. предельным законом для числа пустых ящиков служит распределение Пуассона с параметром λ. Доказательство. Элементарными выкладками правая часть формулы (5) преобразуется к виду 11иГ1\(1.1)\1(1-1^1)(1.Ь1).....1]. (7) 1! ^ 2! 3! ^ ..+ (-1) N-k (Ν - k)\
§ 5. Шарики в ящиках 137 Так как 1 - χ ^ е~х при О ^ χ ^ 1, то (1 - 1/Ν)ηΝι *ζ (Ne-n/N)1. Таким образом, член в квадратных скобках в формуле (7) оценивается сверху величиной (ЛГе"71/^) . Поскольку Ne~n/N —► λ, каждое слагаемое в сумме выражения (7) по абсолютной величине не превосходит (λ + l)l/(l — k)\ при всех достаточно больших N и п. оо Сходимость ряда Σ (λ + lY/jl обеспечивает законность перехода j=o к пределу под знаком суммы. Проверим, что [(1 — x/N)Nex] —► 1 для всех χ > 0. Действительно, раскладывая логарифм по формуле Тейлора, видим, что InN [Nln(l - χ/Ν) + χ] = \ηΝ [(-χ - χ2/(2Ν) + ο^"1)) + χ] = = ο(1). Отсюда, поскольку при выполнении условия (6) In Ν — η/Ν —> In λ, имеем lim (1 - l/N)nNl = lim [(1 - l/N)Nel]n/N e^nN-n^1 = X1. N—юо N—юо L J Замена индекса j = 1 — k в формуле (7) завершает доказательство. ■ Пример 5. Неразличимые тары [81, с. 58]. Рассмотрим варианты размещения η неразличимых шариков по N ящикам. На рис. 6 приведены для сравнения всевозможные варианты размещения при η = 2 и N = 2 как различимых (занумерованных) шариков (вверху), так и неразличимых (внизу). Для неразличимых шариков каждый вариант описывается вектором ω = (ж1,Ж2>· ··>#//)> где Х{ — число шариков в j-u ящике. Взглянем на него как на последовательность символов, в которой «О» обозначает шарик, а «|»—стенку, разделяющую два соседних ящика (рис.7). Так как имеется N ящиков, то количество вертикальных черточек на приведенной схеме равно N—1. Общее число позиций, занятых либо ноликом, либо чертой равно η + N — 1. Причем η из них заняты ноликами. Поэтому всего разных вариантов размещения будет Сп+лг-1· Если считать, что все они равновероятны, то каждому ω надо приписать вероятность 1/С^+ЛГ_1. η = 2Ν = 2 |(Ш)| I 1® 1 (D I ® 1 1 ® 1 1 £Ш ^ ' ιΟΟι ι ιΟ lOl ι ιΟΟι ч^ >■ Рис. β 100 Рис. 7 XN Вопрос 3 Приведем небольшой отрывок из [81, с. 60], посвященный при- что^и^мме'шеним менению этой модели в статистической физике. «Рассмотрим механическую систему, состоящую из η неразличимых частиц. В статистической механике обычно разбивают фазовое пространство на большое число N малых областей или ячеек, так что каждая частица приписывается ровно одной ячейке. В результате состояние всей системы описывается как случайное что при размещении η неразличимых шаров по N ящикам все ящики окажутся занятыми?
138 Глава 10. Достаточность размещение η частиц по N ячейкам. На первый взгляд кажется, что (во всяком случае при подходящем выборе η ячеек) все Νη размещений будут равновероятны. Если это так, то физики говорят о статистике Максвелла — Больцмана (термин «статистика» используется здесь в смысле, специфическом для физики). Делались многочисленные попытки доказать, что физические частицы ведут себя в соответствии со статистикой Максвелла — Больцмана, однако современная теория, вне сомнения, показала, что эта статистика не применима ни к каким известным частицам; ни в одном случае все Νη размещений не являются примерно равновероятными. Были введены две различные вероятностные модели, каждая из которых удовлетворительно описывает поведение некоторого класса частиц. (...) В статистике Бозе—Эйнштейна каждому из размещений приписывается вероятность 1/C£+N_V В статистической механике показано, что это предположение справедливо для фотонов, атомных ядер и атомов, содержащих четное число элементарных частиц. Для описания других частиц должно быть введено третье возможное распределение вероятностей. Статистика Ферми — Дирака основана на следующих предположениях: 1) β одной ячейке не могут находиться две или более частиц и 2) все различные размещения, удовлетворяющие первому условию, имеют одинаковую вероятность. Для выполнения первого предположения необходимо, чтобы η ^ N. Тогда размещение полностью описывается указанием того, какие из N ячеек содержат частицу, и, так как существует η частиц, соответствующие ячейки могут быть выбраны Cpf способами. Следовательно, в статистике Ферми—Дирака существует Cft возможных размещений, каждое из которых имеет вероятность l/C^. Эта модель применима к электронам, нейтронам и протонам. Здесь мы имеем поучительный пример невозможности выбора и обоснования вероятностной модели на основе априорных соображений. Действительно, нет оснований говорить, что фотон и протон не подчиняются одним и тем же вероятностным законам». Приведенные ниже результаты показывают, что размещения неразличимых частиц (статистика Бозе—Эйнштейна) имеют ряд существенных отличий по сравнению с размещениями различимых частиц (статистика Максвелла—Больцмана). Обозначим через т> вероятность того, что фиксированный (скажем, первый) ящик содержит ровно к различимых шариков. Так как остальные (п — к) шариков надо разместить по (N — 1) ящикам, то гк = Ck(N- l)n-kN~n = Ск (1/N)k(l - 1/N)n~k. Это — биномиальное распределение с ρ = 1/Ν. Как было доказано в § 1 гл. 5, при N —► оо и η —► оо так, что среднее число шариков
§ 5. Шарики в ящиках 139 на ящик η/Ν стремится к λ > 0, это распределение сходится к закону Пуассона с параметром λ. Рассматривая отношение τ>+ι/τ>, несложно установить (проверьте!), что максимум вероятностей г к достигается при к* = [(п + 1)/ЛГ] « λ, где [ · ] — целая часть числа. Пусть г^ — вероятность того, что фиксированный ящик содержит ровно к неразличимых шариков. Рассуждая так же, как выше, получаем гк = ^η"Λ)+(ΛΓ-ΐ)-ι/°ϊϊ+ΛΓ-ι = C^-kN_k_2/C^N_v При том же предельном переходе, что и выше, для к = 0,1,... имеем: к /fc+l г=1 I г=1 Это — геометрическое распределение с ρ = (λ + I)-1 (см. задачу 4 гл. 1). Поскольку ffc+i/ffc = 1 — (Ν — 2)/(η — к) (убедитесь!), то при N > 2 вероятности т> монотонно убывают по к. Следовательно, наиболее вероятным является то, что фиксированный ящик пуст. В случае неразличимых шаров относительное преобладание размещений с большим количеством пустых ящиков еще заметнее проявляется при сравнении предельного поведения вероятности события Вь обнаружить роено к пустых ящиков. В случае различимых шаров вероятность рк этого события задается формулой (5), а ее асимптотика приведена в теореме 5. Для неразличимых шаров обозначим вероятность события Вк через рк- Пусть Aj —это событие, состоящее в том, что j-ft ящик пуст. Для заданных I ^ ji < J2 < - - - < ji ^ N события Ajx, Aj2,..., Ajt означают, что I ящиков с номерами ji, j29 · · ·> ji пусты. Число таких размещений равно числу способов, которыми η одинаковых шариков могут быть распределены по N — I оставшимся ящикам. Поэтому P(i4j1i4J2 ...Ajt) = С^+ЛГ_/_1/С^+ЛГ_1. В силу теоремы 4 Pk = Σ ("Ι)*"* С\ ClNCl+N_x_xICl+N_x. (8) 1=к Приведем без доказательства предельную теорему для вероятностей pfc· Теорема 6. Распределение вероятностей рк1 заданное формулой (8), сходится к закону Пуассона, если η, Ν —> оо так, что N2/n - λ > 0. В частности, чтобы при λ = 1 для достаточно большого N с вероятностью р0 « 1/е « 0,368 не осталось ни одного пустого ящика, потребуется случайно бросить ЛГ2 неразличимых шариков. Это отличается по порядку от величины Ν 1η ΛΓ, которая (согласно теореме 5) понадобится в случае различимых шариков.
140 Глава 10. Достаточность ЗАДАЧИ Достоинство человека измеряется не той истиной, которой он владеет, а тем трудом, который он приложил для ее приобретения. Г. Лессинг С помощью критерия факторизации найдите достаточную статистику для а) равномерного распределения на отрезке [0ι,02]> б) модели сдвига-масштаба F((x — 0ι)/02) показательного закона с функцией распределения F(x) = 1 — е~х при χ > 0. 2. Докажите, что экспоненциальному семейству принадлежат а) биномиальное распределение: /(#,0) = С^ θχ(1 — 0)m_a:, x = = 0,1,..., m (в частности, при га = 1 — закон Бернулли), б) гамма-распределение с неизвестным параметром 0: /(#,0) = = ψτ-τ ^α~1^~θχΙ{χ>ο} (ПРИ α = 1 — показательный закон). 3. Пусть X — выборка из распределения Пуассона с неизвестным параметром 0 > 0: f{xfi) = θχβ~θ/χ\, χ = 0,1,2,.... Найдите а) распределение суммы ξ + г/, где ξ и η — независимые пуас- соновские случайные величины с параметрами λ и μ соответственно, б) условное распределение X при условии Χι + ... + Хп = га. 4* Пусть величины ΛΊ,... ,ХП выбраны случайно (с повторением) из множества {1,2,... ,ΛΓ}. Значение N неизвестно. а) Докажите достаточность и найдите распределение статистики Х(п). б) Укажите такую функцию #, чтобы статистика д(Х^) несмещенно оценивала значение N. 5? Элементы выборки имеют гамма-плотность из задачи 2 с a = 2. а) Проверьте несмещенность оценки 0 = \/Х\. б) Улучшите ее с помощью достаточной статистики (см. теорему 3). 6? Рассмотрим Ιζ(θ) = Μ ΙθΐηΜ,θ) l2 информацию Фишера, введенную в § 3 гл. 9. Докажите, что для выборки X из произвольной дискретной модели а) для любой статистики Τ верно неравенство /т(Х)(0) ^ ^х(0) при всех 0, б) для достаточной статистики неравенство в п. а) превращается в равенство. Пусть 77ι,... ,77п — координаты точек, взятых наудачу из отрезка [0,1]. Точки разбивают [0,1] на (п + 1) частей, длины которых Δ^ называются равномерными спейсингами (см. следствие в § 4 гл. 4). Найдите распределение наибольшего спейсинга Δ(η+ΐ) при помощи принципа включения—исключения из § 5 и следующего результата Б. де Финетти (см. [82, с. 57]): Ρ (Δι > хи ..., Δη+ι > a?n+1) = (1 - χι - ... - ζη+ι)+ для произвольных х\ ^ 0,... ,#η+ι ^ 0 (здесь /+ = max{0, /}).
Решения задач 141 РЕШЕНИЯ ЗАДАЧ 1. а) ПЛОТНОСТЬЮ выборки X = (Χι,... ,ХП) служит Истинное знание самостоятельно. η Π If ^α ι If ^α ι τ Л- W· ТОЛСТОЙ _ Ht'{»<>«!> '{»«<«2> ^ /{g(1)>gl}/{g(n)^} ЛЯ' j №-0i)n (02-0i)n Стало быть, (Х(!),Х(П))—достаточная статистика, б) Поскольку плотность величины Χχ равна θ21β~^χ~θι^θ2Ι[χ^01^ то г=1 Следовательно, статистика Τ = (Χ(ΐ)Σ,Χί) является достаточной. Отметим, что вектор оценок максимального правдоподобия в этой модели (Χ^,Χ—Χ^) (см. задачу 3 гл. 9) связан со статистикой Τ взаимно однозначным (линейным) преобразованием. 2. а) Совместная вероятность выборки X = (Χι,... ,ХП) /(*»*) = (ПСт ) 0^>(1 -0)™-Σ*< = = ехр\ exp jmn 1η(1 -θ)+ (in ^) £ **} Π <%' Видим, что Τ = Σ*ΰ 9ο(θ) = runln(l - β) и 9ι(θ) = In ^. б) Плотность выборки X из гамма-распределения имеет вид f(xfi) = exp jnalnff - 0£я*} Γ(α)-η7{,(1)>0} Д*?"1· Таким образом, Τ = X)Xi> 0о(0) = naln0 и <?ι(0) = -θ. 3. а) Используя формулу полной вероятности (П7) и независимость случайных величин ξ и г/, получаем, что m Pm = Ρ (ξ + η = Ш) = EP(i + r/ = ^r/ = fc) = fc=0 τη m = ΣΡ(£ = ™"Μ = *) = Σ Ρ (ζ = m - fc) P(r/ = fc). fc=0 fc=0 Вопрос 4. Тем самым мы вывели дискретную формулу свертки из ПЗ. п^Ус^апо^едовате"ьно- Далее с учетом бинома Ньютона находим, что _п ™ пк _ сти Сп=е п 2^ —( Pm = Σ 1 7TT e ΤΓ e ι е , (Примените центральную fc=o (m""k)· k· m! предельную теорему (см. П6) к пуассоновским т. е. ξ + η имеет распределение Пуассона с параметром λ + μ. случайным величинам.)
142 Глава 10. Достаточность б) Согласно пункту а), сумма Χι + ... + Хп распределена по закону Пуассона с параметром ηθ. Поэтому P(X-x\X1 + ... + Xn-m)- 9{ΣΧί = πι) " _ Р(Х\ = Χι,. . . ,Χη-1 = Χη-ΐ,Χη = m — Χι — ... — Xn-l) _ (пв)те-п9/т\ nS θχ e Xi\ (ΠΘΓ с-пв ml ml xi\x2\...xnl Это — вероятность того, что при случайном размещении га различимых шаров по η ящикам в ящике с номером г (г = 1,... ,п) окажется ровно Xi шариков (см. формулу (3) из § 5). 4. а) Так как совместная вероятность выборки равна /(ж,ЛГ) = = Ν~ηΙ[Χ(η)^Ν^ то статистика Х(п) достаточна в силу критерия факторизации. Ввиду независимости случайных величин Χι,...,Χη имеем Р(Х(П) ^ га) = Р(Х\ ^ га,...,Χη ^ га) = = (m/N)n. Отсюда Р(Х{п) =т) = Р(Х{п) ^ га) - Р(Х{п) < m - 1) = = N-n[mn-(m-l)n]. б) Запишем условие несмещенности для функции д(Х(п)): Σ д(т) N-n[mn - (га - l)n] = N, т. е. Σ9{ηί) [тп - (га - 1)η] = ΛΓη+1, Ν = 1,2,.... Вычитая из суммы до N сумму до N — 1, находим, что при всех N g(N) = [ΛΓη+1 - Nn] J [Nn -(Ν- 1)η]. Нетрудно вывести, что g(N) « I 1 + - J ЛГ, когда N велико. ^ ^ оо 5. Проверим несмещенность оценки θ: ΜΘ = J (1/х) 92xe~9x dx = θ. о Согласно задаче 2 б), статистика Τ = Σ %г достаточна. В силу леммы 1 гл. 4 она имеет гамма-распределение с плотностью 9n{t)- {2η_ιγ 0 t e I{t>0}. η Плотность вектора (Χι, Σ Xг) равна плотности вектора г=1 η (^ъ Σ ^г) в точке (x,t — χ) (см. формулу преобразования г=2 плотности из П8): P(xltT)(^t) = РхЛх)9n-i(t - χ) = —Х *_ е— I{o<x<t}·
Решения задач 143 Тогда условная плотность (П7) случайной величины Χι при условии Τ есть Р<Х!|П(*,*) = (2п - !)(2п - 2)*(* - ^)2n_3<"2n+1^o<x<t}· ^ ОО Наконец, М(0|Т = *) = /(1/ζ)ρ(Χι|Τ)(:ζ,*)<£ζ = (2η - 1)/ί, τ. е. ^ J? искомая оценка 0Т = М(01 Т) = (2п - 1)/(Χι + ... + Хп). 6. а) Положим Qe(t) = Р(Т(Х) = £) и введем случайные величины f/ = d\nf(Xft)/M nV = d\nQe(T(X))/de. Рассмотрим тождество Μ(ί/ - V)2 = Ιχ(θ) + ΙΤ(Χ){Θ) - 2 M(UV). (9) Распишем M(UV) из правой части формулы (9): v f(pfi) Q'eJTjx)) .. , _ „ <#(t) v .,, βχ _ ?75^'ог(т(=П/м)-?о^.:^м/(м)- _ „<ye(t) a „ f r-r ^ - τ MM!- = Σ ο»(«) 2 <Ш = Μ Q'e(T) η2 <?·(Τ) = Ιτ(Χ) (β). Итак, правая часть тождества (9) равна Ιχ(θ) — Ιτ(Χ)(θ)· Так как его левая часть неотрицательна, то неравенство доказано, б) Для достаточной статистики Τ просуммируем правую часть формулы (1) по таким х, что Т(х) = t. Получим Qo(t) = g(t,e) Σ Η*)- (Ю) x:T(x)-t Подставляя соотношения (1) и (10) в левую часть тождества (9), обратим ее в нуль. 7. Для произвольного χ ^ 0 положим Aj = {Aj > χ}, j = = 1,... ,η + 1. Взяв в формуле Б. де Финетти одно из Xj равным #, а все остальные — равными 0, получим, что P(Aj) = (1 — ж)+. Таким образом, все спейсинги распределены одинаково (так же, как Δι = r/(i)), но, конечно, зависимы: их совместная плотность, найденная в следствии из § 4 гл. 4, не равна произведению плотностей случайной величины Aj. Ввиду очевидного равенства Ρ(Δ(η+ΐ) ^ х) = 1 — P(\JAj)1 для применения принципа включения—исключения осталось вычислить вероятности P(Aj1Aj2...Ajl) для любых 1 ^ Зг < 32 < · · · < 3ι ^ п+1· Положив в формуле Б. де Финетти Xjx,... ,Xjt равными #, а все остальные — равными 0, находим, что P(AjxAj2... Ajt) = (1 — /#)+. Группу из I упорядоченных
144 Глава 10. Достаточность Моделируйте задачу с помощью таблицы Т1. Сколько дуг понадобилось? индексов можно выбрать С1п+1 способами. Окончательно имеем: рп(х) = Ρ(Δ(η+1) < *) = Σ! (-1)' Ci+i (1" te)+· 1=0 Придадим этому результату другую форму, известную как теорема о покрытии (см. [82, с. 43]). Для этого свернем отрезок [0,1] в окружность единичной длины и будем считать точки 0,771» · · · Мп серединами дуг длины х. Тогда с вероятностью рп(х) дуги покрывают всю окружность. Вот некоторые значения этой вероятности для χ = 0,2: η Рп (0,2) 8 0,040 10 0,134 15 0,493 20 0,766 25 0,903 30 0,962 40 0,995 50 0,999 Таким образом, вместо 5 дуг, достаточных для регулярного покрытия, в среднем потребуется около 15 случайных дуг, и не менее 30 дуг обеспечивают полное покрытие окружности с вероятностью 0,962. Этот численный пример поясняет причину медленного уменьшения с ростом η погрешности метода Монте-Карло (см. § 3 гл. 3). ОТВЕТЫ НА ВОПРОСЫ 1. Для выборки из равномерного на отрезке [0,0] распределения η f{xfi) = θ-ηΥ[ΐ{χί>0}Ι{χ^θ} = 0~П1{х(1)>о}1{хы^в}' г=1 Взяв g(tfl) = 0-nJ{t<0} и h(x) = 1{Х{1)^о}> видим, что максимум Х(п) — достаточная статистика. 2. Плотностью выборки из показательного закона служит f{xft) =exp|-nln0-- έ^Μ{χ(,))θ}· Таким образом, Τ = ^Хи 9ο(θ) = —nln0 и #ι(0) = —1/0. 3. Положим сразу N шариков по одному в каждый ящик. Оставшиеся η — Ν шариков разместим C^Zn^-n-i = @η-ι способами. Стало быть, искомая вероятность есть С^Ц1/C%+N_1. 4. Пусть Χι,... ,ХП — выборка из закона Пуассона с λ = 1, 5η = Χι + ... + Хп. Тогда 5П имеет распределение Пуассона с параметром п, сп = Р(5П ^ п). Поскольку М5П = D5n = η (см. вопрос 2 гл. 5), то в силу центральной предельной теоремы = ρ (^-yJ^ < θ) -► Ф(0) = 1/2 при η 00.
Глава 11 ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ §1. КОЭФФИЦИЕНТ ДОВЕРИЯ Вместо того, чтобы приближать неизвестный скалярный параметр 0 с помощью «точечной» оценки 0, можно локализовать его иначе — указать случайный интервал (01,0г), который накрывает 0 с вероятностью близкой к единице (рис. 1). Определение. Пусть а € (0,1). Две статистики θ ι и 02 определяют границы доверительного интервала для параметра θ с коэффициентом доверия 1 — а, если при всех θ £ θ для выборки X = (Χι,...,Χη) из закона распределения Fq(x) справедливо неравенство ρ(θ1(Χ)<θ<θ2(Χ)) >\-а. (1) Часто на практике полагают а = 0,05. Если вероятность в левой части неравенства (1) стремится к 1 —α при η —► оо, то интервал называется асимптотическим. Как правило, длина доверительного интервала возрастает при увеличении коэффициента доверия 1 — а и стремится к нулю с ростом размера выборки п. Пример 1. Для модели сдвига показательного закона с плотностью рв(х) = ε~(χ~θ^Ι{χ·^θ} оценкой максимального правдоподобия согласно примеру 6 гл.9 является Хщ = min{Xi,... ,ХП}. Поскольку 0 < ^(ΐ), можно взять Х(!) в качестве 02. Попробуем подобрать константу са так, чтобы для в\ = Хщ — са (см. рис. 2) при всех 0 выполнялось тождество Ρ (Х(1) - са < θ < Х(1)) = Ρ (Х(1) -Са<0) = 1-а. (2) Используя независимость и показательность величин Χι — 0, перепишем условие (2): а = Ρ (Χ(1) -в^са) = = Ρ (Xi - θ ^ са, г = 1,... ,п) = ехр{-пса}. Откуда находим, что длина интервала са = (— 1η α)/η. Отметим, что са —► оо при а —► 0 и са —► 0 при η —► оо. Касательно расстояния от Земли до Солнца можно заметить, что каждое новое, более точное определение этой величины не укладывается в доверительный интервал, построенный по старым наблюдениям. В. Н. Тутубалин, [79, с. 313] н—У 01 0«0 Рис. 1 02 У = Рв(х) О 01 0 Х(1) Хг Рис. 2 Вопрос 1. Какое са подойдет для построения доверительного интервала с помощью статистики Х^ в модели равномерного распределения на отрезке [0,0+1]?
146 Глава 11. Доверительные интервалы Рис. 3 В «Философском очерке теории вероятностей» Лаплас, определив отношение массы Юпитера к массе Солнца, предлагает пари, что будущие поколения ученых не изменят найденное им число более чем на 1% (вероятность того, что это произойдет, согласно Лапласу, ничтожно мала). Но современное значение отличается от найденного Лапласом на 2%. В. Н. Тутубалин, [79, с. 313] §2. ИНТЕРВАЛЫ В НОРМАЛЬНОЙ МОДЕЛИ Пример 2. Допустим, что элементы выборки Χι распределены по закону Λί(θ, σ2), причем параметр масштаба σ известен, а параметр сдвига θ — нет. Эту модель часто применяют к данным, полученным при независимых измерениях некоторой величины θ с помощью прибора (или метода), имеющего известную среднюю погрешность (стандартную ошибку) σ (рис. 3). χ Пусть Ф(х) = (2π)-1/2 J e~u l2du — функция распределения —оо закона Л/ХО, 1). Для 0 < a < 1 обозначим через ха так называемую α-квантиль этого закона, т. е. решение уравнения Ф(ха) = α (см. § 3 гл. 7). Приведем некоторые значения #ι_α/2 (см. также таблицу Т2): а Xl-at/2 0,05 1,96 ИГ2 2,58 10"3 3,29 10"5 4,26 Согласно примеру 4 гл. 9, эффективной оценкой для θ служит X. Известно, что ~Х ~ Μ{θ,σ2/η). Тогда у/п(Х - θ)/σ - ΛΓ(0,1). Поэтому в качестве^ границ интервала с коэффициентом доверия 1 — а можно взять θ\ = X — σχι_α/2/\/η и θ2 = Χ - &ха/2/у/п: а. Ρ(0ι < θ < Θ2) = Р(ха/2 <yfii{X- θ)/σ < *ι_α/2) = 1 В силу четности плотности закона λί(011) верно равенство ха/2 = — #ι-α/2· Таким образом, из приведенной выше таблицы видим, что с вероятностью 0,95 истинное значение параметра сдвига θ находится в интервале X ± 1,96 σ/γ/^ ~ X ± 2а/у/п (правило двух сигм). Замечание 1. В теории измерений обычно предполагают, что наблюдения Χι = θ + ε^, где ошибки ε ι — независимые и одинаково распределенные случайные величины (не обязательно нормальные) с ЬЛбг = 0 и Dei = σ2 < оо. В силу центральной предельной теоремы (П6) у/п(Х-в)/а Д Z~JV(0,1) при η 00. Значит, X ± 1,96 σ/\/п— асимптотический 95%-й доверительный интервал. Если значение σ неизвестно, то на практике его заменяют на состоятельную оценку σ = 5, где S2 = - Σ № ~ ^02» получая приближенный 95%-й интервал X ± 2S/\/n. Однако нередко на самом деле Χι = θ + Δ + ε^, где Δ —это систематическая ошибка измерения. Попытка оценить величину возможного отклонения X от θ лишь на основе разброса наблюдений Xi вокруг X, вообще говоря, может приводить к ошибочным выводам.
§2. Интервалы в нормальной модели 147 Другими причинами неверных заключений могут быть зависимость наблюдений Х^ наличие которой не предполагалось исследователем (подробнее см. § 4 гл. 15), или нарушение однородности данных при слишком большом увеличении их количества. Пример 3. Предположим, что элементы выборки Χι распределены по закону ΛΓ(μ,β2), причем значение параметра сдвига μ известно, а параметра масштаба Θ — нет. Такую модель можно использовать для определения средней точности прибора (или метода) путем многократных измерений эталона (рис. 4). Чтобы построить доверительный интервал для 0, потребуется следующее Определение. Пусть случайные величины Ζι, ...,Ζ& распределены по закону ЛГ(0,1) и независимы. Тогда распределение случайной величины Щ. = Ζ2 + ... + Ζ\ называют распределением хи-квадрат с к степенями свободы (кратко: R\ ~ χ|). Отметим, что каждое слагаемое Ζ2 имеет гамма-распределение (см. § 4 гл. 4) с параметрами а = λ = 1/2, т. е. Z2 ~ Г(1/2,1/2). Отсюда согласно лемме 1 гл. 4 находим, что й£ ~ Г(А:/2,1/2). Таким образом, плотностью закона хи-квадрат служит функция рщ (х) = ск xk/2-le~xl2I{x>Q}, где ск = Вопрос 2. Как доказать это утверждение? 2к'2Г(к/2) Здесь Г(р) = J xp~le~x dx — гамма-функция Эйлера, график ко- о торой изображен на рис. 9 гл. 3. Дифференцируя pR2 (#), нетрудно убедиться, что при к > 1 плотность имеет единственный максимум в точке к — 2 (рис. 5). Закон χ2 дает пример распределения с неограниченной плотностью. Отметим, что МЩ. расположено правее точки максимума плотности (так называемой моды распределения) из-за того, что правый «хвост» плотности «тяжелее» левого, т. е. убывает медленнее. Дисперсию ОЩ. легко подсчитать с помощью формулы (2) гл.4. Она равна 2к (проверьте!). Поскольку R\— это сумма независимых и одинаково распределенных случайных величин Z?, согласно центральной предельной теореме имеет место сходимость (Щ. — к)/у/2к —> Ζ ~ ЛГ(0,1) при к —► оо. Нормальное приближение является довольно точным уже при к > 30. Значения некоторых квантилей закона χ| для к < 30 приведены в таблице ТЗ. Перейдем теперь к построению доверительного интервала для θ η по выборке Xi из распределения Λί(μ, θ2). Введем Όη=Σ (Xi-β)2- г=1 η Заметим, что величина Д^ = Dn/02 = J] [№—/Ό/0]2 распределена %=ι по закону \£. Обозначим р-квантиль этого закона через хр (рис. 6). к = 1 У = РнФ) Вопрос 3. Чему равно МЯ|? (Попробуйте догадаться без вычислений.)
148 Глава 11. Доверительные интервалы t V = PrI О) ^α/2 2l-a/2 Рис. β ki<k2 Тогда для 0ι = \/Dn/xi-a/2 и 02 = y/Dn/xa/2 при всех θ > О справедливо равенство 1 - α = Ρ (xa/2 <R2n< xi-a/2) = Ρ (θι < θ < 02) , т. е. (01,0г) — искомый интервал. Пример 4. Пусть Χι ~ ^(01,0^), где оба параметра 0ι и 02 неизвестны. Для построения доверительных интервалов понадобится Определение. Пусть случайные величины Ζ и Щ. независимы и распределены согласно законам ЛГ(0,1) и χ| соответственно. Тогда распределение случайной величины Тк = Ζ / у/Щ/к называют распределением Стпьюдентпа с к степенями свободы или t-распределением (кратко: Тк ~ £&). При ^каждом А: случайная величина Тк имеет четную плотность (см. [38, с. 58]) _zi._i.iwo Г./Л+1 -(fc+l)/2 где „fc = -(ψ) Рис. 7 Вопрос 4. К какому распределению стремится tk при к—>οο? (Используйте закон больших чисел (П6) и свойства сходимости (П5) или же найдите предел последовательности плотностей ртк (х).) V^k г(|) (3) В частности, при к = 1 получаем закон Коши с плотностью ртг (х) = = 1/[π (1+ж2)]. С ростом А: «хвосты» tk становятся «легче» (рис. 7). Математическое ожидание случайной величины Тк не существует при к = 1 (см. замечание в § 2 гл. 1) и равно 0 при к > 1 в силу четности плотности ртк(х)- Дисперсия величины Тк бесконечна при к = 2 и равна к/(к — 2), если к > 2 (см. [50, с. 315]). Теорема 1. Для нормальной выборки Х{ ~ Λ/χβι,β!) выборочное среднее X = - £) X* и выборочная дисперсия S2 = — Σ(Χί — X)2 независимы,*) причем nS2)в\ ~ χ2_ι, а \М — 1 (X — 6{)/S ~ ίη-ι· Доказательство теоремы опирается на следующую лемму. Лемма 1. Пусть (η χ п)-матрица С ортогональна: С-1 = Ст (см. П10), случайный вектор Υ = (ΥΊ,.,.,Υ^) имеет независимые Λ/ΧΟ, 1) компоненты. Тогда вектор Ζ = СУ распределен так же, как и У. Доказательство леммы. Заметим, что при ортогональном преобразовании ζ = Су длины векторов в Rn не меняются: |z|2 = zTz = (Cyf Су = (утСт) Су = ут (СТС) у = \у\\ (4) *) Оказывается, что из независимости выборочного среднего X и выборочной дисперсии S2 при η ^ 2 следует (как доказал Р. Гири в 1936 г.) нормальность распределения элементов выборки Χι,...,Χη (см. [72, с. 198]). Однако, для выполнения условия p(X,S2) — 0 достаточно, чтобы этот коэффициент корреляции (П2) существовал и распределение случайных величин Χι было симметричным.
§2. Интервалы в нормальной модели 149 Обратная матрица С 1 = Ст также будет ортогональной, причем | det С | = 1. Вопрос 5. Согласно условиям леммы плотность ру(у) = (2п)-п/2е~ъ М2. с ^омощью^свойств По формуле преобразования плотности (П8) с учетом (4) получаем: из П10? pz(z) = \detCT\pY(CTz) = (2π)-η/2ε-21°ΤΗ2 = (2π)-η/2β"ϋ*Ι8. ■ Другое доказательство леммы 1 немедленно вытекает из формулы для преобразования ковариационной матрицы нормального случайного вектора при умножении его на числовую матрицу (см. П9). Доказательство теоремы. Возьмем в качестве С ортогональную (η χ п)-матрицу с последней строкой (1/у/п,... ,1/у/п). Значения Cij при г < η не важны, лишь бы С была ортогональной (можно, скажем, дополнить последнюю строку до ортогонального базиса в Rn при помощи стандартного алгоритма Грама—Шмидта (см. соотношения (9) гл. 21). Нетрудно проверить, что годятся C{j — [ 1/у/г(г + 1), если j < г, -i/y/i(i + 1), если j = г + 1, О, если j > г + 1. В качестве Υ возьмем вектор с компонентами Yi = (Xi — 0ι)/02· Рассмотрим Ζ = CY. При умножении последней строки матрицы С на вектор Υ получается соотношение Zn = -J=(yi + ... + yn) = VnF. (5) η η С другой стороны, из формулы (4) следует, что Σ Ζ? = Σ Υ?. г=1 г=1 С учетом формулы (1) гл. 6 из этого равенства и соотношения (5) выводим, что =£ = Σ ^i^ = t(Yi- У)2 = ±Y?-nY2 = &2 г=1 **2 г=1 г=1 г=1 г=1 В силу леммы 1 имеем nS2 jQ\ ~ Χη-ι· Из соотношения (5) получаем, что у/п(Х — 0ι)/02 = y/nY = Ζη ~ ΛΓ(0,1). Так как X — функция от Ζηι а 5 —от Ζι,...,Ζη_ι, то X и 5 независимы (см. лемму о независимости из § 3 гл. 1). Наконец, случайная величина распределена по закону £η_ι согласно определению. ■
150 Глава 11. Доверительные интервалы На основе доказанной теоремы построим доверительные интервалы для неизвестных параметров θ ι и 02 закона //(θι,θ^). Доверительный интервал для параметра сдвига θ\ выглядит так: р(х-^^<01<Х-^)=Р(уа/2<Тп_1<у1_а/2) = 1-а, где ур— р-квантиль распределения Стьюдента tn-\ (см. таблицу Т4). В силу симметрии закона уа/2 = — 2/ι-α/2· Доверительный интервал для параметра масштаба 02 таков: где zp— р-квантиль закона χ2_ι (см. таблицу ТЗ). \y/Z\-a/2 y/zot/2 J \ Z*/2 < -ψ- < 2ΐ-α/2 )=ι-α, Замечание 2 [32, с. 95]. Было бы неверным считать, что двумерный параметр (01,0г) с вероятностью (1 — а)2 накрывается случайным прямоугольником Лу yi-a/2S у ya/2S \ χ ί VnS y/nS\ \ y/n-l ' y/n-l) \y/Z\-a/2 ' y/Z<x/2) ' так как случайные величины Τη_ι и 52, на основании которых строились эти интервалы, зависимы (обе являются функциями от 5). Чтобы построить доверительную область для вектора (0ι,02), используем независимость X и S2. Обозначим р-квантиль закона Λ/χθ, 1) через #р, а р-квантиль распределения χ2_ι через 2р. Тогда Ρ(να\Χ-θ1\/θ2< Χΐ-α/2, *α/2 < nS2/θ2 < Zl-a/2) = (1 - С*)2. Соответствующее (случайное) множество точек плоскости представляет собой трапецию, отсекаемую от угла 02 = = \/п\Х — 0ι|/#ι-α/2 ДВУМЯ параллельными оси абсцисс прямыми #2 = y/nS2/za/2 И θ2 = y/nS2/Zi_a/2 (рИС. 8). Замечание 3. Величину Τη_ι, определяемую формулой (6), можно представить также в виде При сравнении этого представления с величиной у/п{Х — 0ι)/02, имеющей стандартное нормальное распределение, замечаем, что различие состоит в замене неизвестной дисперсии 0\ на ее несме- щенную и состоятельную оценку Σ № — γλ2 п~ 1 г=1 из § 2 гл. 6). На то, что при этой подстановке закон ЛГ(0,1) меняется на ίη_ι, впервые обратил внимание в 1908 г. Уильям Д. Госсет, работавший в то время в Дублине на пивоваренном заводе Гиннеса X)2 (см. пример 3
§ 3. Методы построения интервалов 151 (см. [72, с. 122]). Условия контракта не позволяли Госсету публиковать результаты под его собственным именем. Госсет выбрал псевдоним «Student». С тех пор найденное им распределение стало называться законом Стьюдента. Сравним ряд квантилей Х\-а/2 закона ЛГ(0,1) с соответствующими квантилями у\-а/2 распределения tn-\ при η = 10: α #1-α/2 Vl-a/2 0,05 1,96 2,26 ΙΟ"2 2,58 3,25 ΙΟ"3 3,29 4,78 ΙΟ-5 4,26 8,83 В частности, видим, что для выборки размера 10 длина интервала для 01 с коэффициентом доверия 95% при замене неизвестной дисперсии на ее оценку возрастает примерно на 2,26/1,96—1 « 15%. §3. МЕТОДЫ ПОСТРОЕНИЯ ИНТЕРВАЛОВ*) Метод 1. Использование центральной функции Рассмотрим выборку X = (Χι,... ,ХП). Допустим, что найдется такая функция #(ж,0) (называемая центральной), что 1) распределение д(Х,в) не зависит от 0 для всех 0 Ε θ; 2) при каждом χ G Rn функция д(х,0) непрерывна и строго убывает (возрастает) по 0. Скажем, для модели сдвига показательного закона из примера 1 можно взять д{Х,9) = Χ(ΐ± - 0 ~ Г(1,п). Для Х\ ~ Λ/"(0ι,02) из примера 4 годятся у/η — 1 (X — 6\)/S ~ tn-i для параметра сдвига θ ι и nS2/el . ' Υ2 Λη- для параметра масштаба 02. Обозначим р-квантиль распределения #(-Х",0) через хр. Возьмем 0 ^ pi < р2 ^ 1 такие, что р2 — pi = 1 — а. Определим Τι (ж) и Т^{х) как решения относительно 0 соответственно уравнений g{xfi) = хР1 и g{xfi) = хР2. (7) Однозначность их определения гарантируется условием 2. Тогда при всех 0 е θ для #(ж,0), убывающей по 0 (рис. 9), Р(Т2(Х) < 0 < Γι(Χ)) = Р(хР1 < g(Xfi) < хР2) = 1 - α. Когда pi = α/2, интервал называется центральным. При помощи именно этого метода был построен доверительный интервал в примере 1 (р\ = 0), а также центральные интервалы для θ\ и 02 в примере 4. Нахождение р(св,0) для конкретной модели — отдельная задача, не всегда имеющая решение. Однако, можно выделить класс моделей, для которых такая функция существует: если функция распределения F(xft) элементов выборки Χχ непрерывна и строго монотонна *) Материал этого параграфа имеет более технический характер.
152 Глава 11. Доверительные интервалы Рис. 10 <>ЛП ПО 0, ТО МОЖНО ВЗЯТЬ ff(X,0) = - Σ lnF(X4,0). (8) t=l Действительно, ее непрерывность и монотонность очевидны, а в соответствии с методом обратной функции (см. § 1 гл. 4) случайные величины г/» = F{Xi,9) равномерно распределены на отрезке [0,1]. Там же установлено, что каждая из величин — In r/» имеет показательное распределение с параметром λ = 1, т.е. — lnr/t ~ Г(1,1). Наконец, η в силу леммы 1 гл. 4 находим, что д{Х,9) = — Σ In г/» ^^(η,Ι). t=l (Пример применения формулы (8) содержится в задаче 1(a).) Метод 2. Использование точечной оценки Предположим, что имеется точечная оценка Т(Х) для параметра 0 с функцией распределения Ft(£,0), которая непрерывна и строго убывает (возрастает) по 0. Возьмем 0 < pi < р2 ^ 1 такие, что Р2 — Pi = 1 — α. Для каждого θ £ θ определим ί*(0) как р^-квантиль распределения ^т(£>0), к = 1,2. Если функция Fr{t,0) убывает по 0, то обе функции tk(0) возрастают (рис. 10). Обозначим через Ga подмножество θ χ θ следующего вида: Ga = {{θft'): ίι(θ) < θ' < ί2(θ)} (рис. 11). Определим Δ(0') как сечение Ga при фиксированном 0': Δ(0') = {θ: {θβ') £ Ga}. Так как функции ίι(θ) и ^(0) строго возрастают, то множество Δ(0') является интервалом (возможно, бесконечным). Обозначим его левый и правый концы через 0χ(0') и 02(0')· Рассмотрим случайный интервал Δ(Τ(Χ)). Заметим, что событие {0 € Δ(Τ(Χ))} происходит тогда и только тогда, когда {Т(Х) € (^ι(0))^2(0))} и, значит, при каждом 0 G θ имеет вероятность 1 — а, что и требуется. Наглядный смысл метода состоит в том, что сначала строят диаграмму по вертикали: для каждой абсциссы 0 находят соответствующие квантили ίι(θ) и #2(0)> а затем для наблюдавшейся ординаты t = Т(ж), где ж —это реализация выборки, «считывают» по горизонтали значения 0ι(ί) и 02 (t). Другими словами, концы интервала (01,0г) находят как решения относительно 0 уравнений FT(T(x),e)=Pk, k = 1,2. (9) Пункт б) задачи 1 дает пример построения доверительного интервала с помощью этого метода. Аналогичные рассуждения можно провести и для дискретной модели. Отличие состоит в том, что из-за ступенчатости функции распределения i*r(£,0) удается, вообще говоря, добиться лишь выполнения неравенства P(ti < Т(х) < t2) = FT(t2 - ,0) - FT(ti,6) ^ 1 -a. При этом вместо квантилей берут наибольшее t\ и наименьшее t2i удовлетворяющие, соответственно, условиям FT(tu9) Οι и FT(t2 - ,0) ^ Р2.
§ 3. Методы построения интервалов 153 Кривые Θ1 = tk(9) также будут ступенчатыми (рис. 12). При «считывании» 01 и 02 следует взять крайнюю правую точку пересечения горизонтальной прямой с левой кривой и крайнюю левую точку — с правой кривой. Вместо уравнений (9) надо решать относительно θ уравнения FT{tft)=pi и FT{t-fi)=p2, где* = Г(ж). (Ю) Пример 5. Построим доверительный интервал для неизвестной вероятности «успеха» θ в схеме Бернулли длины п. В качестве точечной оценки возьмем частоту «успехов» Τ = X. Случайная величина Τ принимает значения k/η, к = ОД,... ,п, при этом FT{k/nfi) = Р(пт < к) = Σ σηθ\\ - θ)η-\ (и) г=0 Заметим, что правая часть соотношения (11) равна 1 — i^(fc+1)(0), где rj(k-\-i) ~ (& + 1)_я порядковая статистика выборки размера η из равномерного распределения на отрезке [Q, 1] (см. утверждение 3 гл. 5). При к < η статистика Щк+i) имеет бета-плотность nC*_!a?fc(l - x)n-k~l > 0 для 0 < χ < 1 (см. формулу (2) гл. 5). Следовательно, Ет(к/п,0) строго убывает по Θ при к < п. В соответствии с уравнениями (10), границы θ χ и 02 центрального доверительного интервала находятся из соотношений FT((ifc-l)/n,0i) = l-a/2 и FT(k/nfo) = α/2. (12) В таблицах [10] они указаны для 1 — α = 0,9; 0,95; 0,99. Пример 6. Пусть Χι распределены по закону Пуассона с неизвестным параметром Θ: Р(Хг = к) = е~99к/к\, к = 0,1,... . Построим доверительный интервал для θ с помощью метода 2. Как и в предыдущем примере, в качестве точечной оценки возьмем Г = X. Ввиду задачи 3 гл. 10 сумма Χι +... + Хп распределена по закону Пуассона параметром ηθ. Поэтому FT{k/nfi) = Р(пТ < к) = β~ηθ Σ (пву/г\. (13) г=0 В силу формулы (1) гл. 5 правая часть (13) равна 1 — Fsfc+1(0), где Sfc+i ~ Г(А: + 1,п) с плотностью nk+lxke~nx/к\ > 0 при χ > 0. Следовательно, Frik/nfl) строго убывает по Θ. Границы центрального доверительного интервала находятся из уравнений (12), где Ft задается формулой (13). Метод 3. Стабилизация асимптотической дисперсии Допустим, что известна асимптотически нормальная оценка (см.§ 4 гл. 7): у/п (θη — θ)-+ξ~ ΛΓ(0, σ2(0)) при η —> оо. Потребуем, чтобы асимптотическая дисперсия σ2(θ) была положительна и непрерывна при всех θ € θ. Построим асимптотический интервал для θ с помощью преобразования, стабилизирующего дисперсию, основанного на лемме 1
154 Глава 11. Доверительные интервалы гл. 7. Для этого подберем такую фушащю φ, чтобы асимптотическая дисперсия последовательности φ(θη) не зависела от неизвестного параметра Θ: σ(θ)ψ'(θ)=ο, т. е. т=с\^у (14) Тогда у/п (φ(θη) — φ(θ)) —► φ(ξ) ~ ЛГ(0, с2) при п —► оо. Отсюда, так же, как и в примере 2, получаем: Ρ (φ(θη) - X-^f- < ψ{θ) < φ(θη) + ^f) - 1 " α, (15) где #ι_α/2 обозначает (1 — а/2)-квантиль распределения ΛΓ(0,1). Ввиду предполагаемой положительности и непрерывности σ(0), из формулы (14) видим, что функция φ строго монотонна. Тогда из соотношения (15) очевидным образом находим асимптотический доверительный интервал для самого параметра Θ. Метод 4. Подстановка оценки параметра Пусть выполнены предположения, сформулированные при изложении метода 3. Тогда у/п(0п-0) = ν^(θη-θ) χ σψ)_ m σ(θη) σ(°) σ{θη)' Распределение первого сомножителя в этой формуле сходится к ЛГ(0,1). Из асимптотической нормальности оценки Θη вытекает ее состоятельность (см. ответ на вопрос 1 гл. 7). Ввиду непрерывности σ(θ) второй сомножитель в формуле (16) стремится к 1 по вероятности (П5). В силу свойства сходимости 1 из П5 произведение имеет в качестве предельного закона ЛГ(0,1), откуда Ρ [θη - Χι-ο,/2σ(θη)/^/η < θ < θη + Ζ!_α/2е(вп)/у/п) -+ 1 - α, где ^ι_α/2 —это, как и прежде, (1 — а/2)-квантиль распределения JV(o,i). Замечание 4. Используя разные асимптотически нормальные оценки, будем получать различные доверительные интервалы. Чтобы строить интервалы наименьшей длины (при заданном коэффициенте доверия), следует выбирать оценки, имеющие наименьшую возможную асимптотическую дисперсию σ2(0) (асимптотически эффективные). Если для модели выполняются условия регулярности, то годятся оценки максимального правдоподобия (см. § 4 гл. 9). Проиллюстрируем методы 3 и 4 на примере схемы Бернулли.
Задачи 155 Для применения метода 3, как и в примере 5, возьмем в качестве оценки неизвестной вероятности «успеха» θ частоту X. Она, согласно примеру 5 гл. 9, является оценкой максимального правдоподобия с σ2(0) = 0(1—0). Условие (14) при с = 1/2 приводит к функции φ(θ) = 9 ί β(* ~~ θ)]~ι^2άθ = arcsin \/θ. При этом в силу формулы (15) интервал с границами arcsin VX±%^ 2 у η накрывает arcsin y/θ с вероятностью, стремящейся к 1 — α при η —> оо. Применив функцию φ~1(χ) = sin2 ж к его границам, построим асимптотический доверительный интервал для самого параметра Θ. Метод 4, в свою очередь, приводит к интервалу с границами а/2 x±Xl \Jx(i-X)· ЗАДАЧИ 1. В модели выбора наудачу η точек с координатами Χι из отрезка [О, Θ] с неизвестным θ > О постройте интервал с коэффициентом доверия 1 — a а) на основе формулы (8), б) при помощи метода 2 с использованием оценки Х^ = = max{Xi,...,Xn}. 2. Элементы Χι выборки имеют функцию распределения F(x — 6). Пусть F(0) = 0, а плотность р(х) такова, что с = р(0) > 0. а) Найдите предельный закон для величины п(Х^ — 0), где Х{1) =min{Xi,...,Xn}. б) На его основе постройте асимптотический доверительный интервал для параметра сдвига Θ. 3. Рассмотрим модель сдвига из предыдущей задачи, но потребуем теперь, чтобы F(0) = 1/2 и F была непрерывной. Найдите коэффициент доверия интервала, образованного парой порядковых статистик (см. § 4 гл.4) (Χ^)^(ΐ))^ где к < I. Вычислите его значение для к = 2, / = 5, η = 6. 4. Докажите теорему 1 при η = 2 непосредственно. 5. Для распределения Пуассона из примера 6 постройте асимптотический доверительный интервал методами 3 и 4. 6. Пусть (Χ,Υ) — двумерный нормальный вектор (П9). Неизвестный коэффициент корреляции его компонент ρ = ρ(Χ,Υ) = ЩХ- ΜΧ)(Υ - MY) /VOX ΏΥ оценивается при помощи выборочного коэффициента корреляции Нужно обращать острие ума на самые незначительные и простые вещи и долго останавливаться на них, пока не привыкнешь отчетливо и ясно прозревать в них истину. Р. Декарт Р. Декарт (1596-1650), французский математик и философ. Заметим, что для α = 5%, η = 100 и χ = 0,03 в качестве левой границы последнего интервала формально получаем отрицательную величину -0,0034. Строили мы, строили и, наконец, построили. Чебурашка Только сокровища ума действительны. Ими можно делиться, ничего не теряя; они даже умножаются, когда ими делятся. Чтобы приобрести такое богатство, надо трудиться. Демофил
156 Глава 11. Доверительные интервалы Можно показать (см. [50, с. 391]), что распределение величины \/п(рп — р) сходится при η —► оо к закону ЛГ(0, (1 — р2)2). Найдите преобразование (впервые предложенное Р. Фишером), стабилизирующее дисперсию рп. Читать следует тогда только, когда иссяк источник собственных мыслей, что нередко случается и с самым умным человеком. Но спугнуть, ради книги, собственную, неокрепшую мысль —это значит совершить преступление против духа. А. Шопенгауэр Δ(Χ(η)) Рис. 13 Вопрос 6. При каком значении р2 доверительный интервал из задачи 16 имеет наименьшую длину? РЕШЕНИЯ ЗАДАЧ 1. а) Функция F{Xi,6) = χ/θ, О < χ < θ, убывает по θ при θ > 0. Согласно формуле (8), д(Х,в) = ηΐτιθ — Y^laXi. Решая уравнения (7) относительно Θ, находим границы интервала / » \ V» Tfe(X)=fex**]p4 ' * = 1>2> где хРк обозначает р^-квантиль закона Г(п,1), 0 < р\ < p<i ^ 1 и Р2 - Pi = 1 - ol. б) Функция распределения статистики Х(п), равная (χ/θ)η при О < χ < 0, убывает по Θ. Поскольку р-квантиль хр = ρλΙηβ, множество Ga представляет собой угол между лучами θ' = ρλ θ и V — Р2 θ, где Р2 — Pi = 1 ~ ol (рис. 13). Сечение Δ(Χ(η)) является интервалом уХ^р^ , Χ(η)ΡΪ /nJ. 2. а) Используем независимость величин Xi и формулу Тейлора: Р(п (Х{1) -θ)>χ) = Ρ(Χ(ΐ) > θ + х/п) = = P(Xi -θ> χ/η, i = 1,... ,η) = [1 - F(x/n)]n = = [1 - F(0) - p(0) s/n + o(l/n)]n = = [1 - p(0) я/п + o(l/n)]n —► ехр{-р(0)я} при η —► оо. б) Осталось, как в примере 1, взять 02 = ^(ΐ) и #ι = Х^) — cQ, где са = - In α / (ρ(Ο)η). 3. Рассмотрим случайные величины Yi = Xi — θ, имеющие функцию распределения F(x). Для них Y^ = Х^ — θ и P(X(fc) < 0 < Х(|)) = P(Y{k) < 0 < У(|)). Поскольку P(Y(k) < Y(i)) = 1 при А: < Ζ, выполняется равенство P(F(fe) < 0 < Y(l)) = P(Y{k) < 0) - Р(У(0 < 0). Согласно ответу на вопрос 3 гл. 5 о распределении случайной величины У(д.), P(F(fe) < 0) = Σ ^^(Ο)^! - F(0))"-\ Учитывая условие F(0) = 1/2, находим отсюда, что P(x{k)<e<x(l)) = 2-nlj:ci. i=k
Решения задач 157 Для λ; = 2,/ = 5,η = 6 получаем значение коэффициента доверия 2"6(С£ + Cg + С$) = 50/64 « 0,78. Отметим, что в отличие от предыдущей задачи доверительный интервал строится при помощи пары разных статистик, а не за счет «подправления» одной статистики. 4. Для η = 2 имеем: Х=\(Х1+ Х2), S2 = \ {XI + Х22) -Χ2 = \{Χγ- Х2)2. Случайные величины Υι = Х\ + Х2 и Υ2 = Χι — Х2 нормально распределены: Υί ~ Λ/Χ20ι,20^), Υ2 ~ ΛΓ(Ο,20|) (в частности, ΜΥ2 = 0). Причем ковариация между ними равна Μ(ΥιΥ2) - ΜΥι · MY2 = ЩХ* - XI) = ΜΧΪ - МХ| = 0. Следовательно (см. П9 или [90, с. 322]), они независимы. Поэтому независимы, как функции от них, X и 52. Наконец, так какУ2/(^202) ~Af(O,l),To2S2/0| = [Г2/(^2 02)]2 ~ χ?. 5. В силу центральной предельной теоремы (П6) для выборки из закона с конечной дисперсией у/п(Х — МХ\) при η —► оо сходится по распределению к ЛГ(0, DXi). Из ответа на вопрос 2 гл. 5 для закона Пуассона Μ Χι = DX\ = θ. По формуле (14) при с = 1/2 вычислим φ(θ) = i J θ~^2άθ = у/9. Таким образом, асимптотические доверительные интервалы строятся на основе сходимости к закону λί(0,1/4) (метод 3) к закону Л/"(0,1) (метод 4). 6. Для с = 1 найдем где arcthz — это функция, обратная к гиперболическому тангенсу th# = (еж — е~х)/(ех + е"*). При |р| близких к 1 и не слишком больших η распределение оценки рп сильно отличается от нормального. Преобразование Р. Фишера zn = arcthpn в этом случае существенно повышает точность нормального приближения (на рис. 14, взятом из [13, с. 381], изображены графики плотностей величин рп и 2П для Ρ = 0,8). В [10, с. 51] для статистики 2П приведены следующие асимптотические формулы: Μζη = arcthp + o(l/n), Dzn = Ι/(η — 3) + o(l/n) при η —* оо. Б. Л. Ван дер Варден в [13, с. 41] пишет: «Вообще в математической статистике часто оказывается, что 4 уже является большим числом». В формуле для Dzn, во всяком случае, η ^ 4. Рис. 14
158 Глава 11. Доверительные интервалы ОТВЕТЫ НА ВОПРОСЫ 1. Так же, как и в примере 1, запишем: 1-а = Р(Х{1)-са<в) = 1-[Р(Х1-в>са)]п = 1-(1-са)п. Отсюда находим, что длина интервала са = 1 — а1/71. 2. Обозначим через Ф(х) функцию распределения ЛГ(0,1). Тогда при χ ^ О P(Zl < χ) = Р(-у/х ^ Ζλ < yfx) = Φ(λ/χ) - Ф(-Vi). Дифференцируя по х1 вычислим плотность случайной величины Ζ ι: 2 --х/2_ 1 -χ/2 — i С· , γ2πχ которая совпадает с плотностью закона М^^Ь поскольку Γί 2) = л/тг- Этот результат можно получить и с помощью общей формулы преобразования плотности из П8 (убедитесь!), заметив, что Ζ\ = \Ζ\\2, где Ρ(\Ζ\\ < χ) = Ф(х) - Ф(-х) при ж^Ои, следовательно, p\zx\(x) = 2Ф,(х) при χ ^ 0. 3. MAg = M(Z? +...+ Z2) = fcMZ? = fcDZi=fc. 4. В соответствии с законом больших чисел (П6) имеем, что при А: —► оо. Функция 1/у/х непрерывна при χ > 0. В силу свойств сходимости 3 и 1 из П5 предельным законом для tk будет Λ/χο,ΐ). Другой подход: очевидно, (1 + х2/к)~^к+1^2 —► е"-* /2 при А: —► оо. Используя асимптотику Г(#) = \Ζ27Γ#χ_1/26_α:(1 + о(1)) при # —► +оо, обобщающую формулу Стирлинга на действительные χ (см. [81, с. 84]), нетрудно проверить, что dk —► 1/\/27г. Наконец, из поточечной сходимости плотностей κ плотности вытекает сходимость по распределению (см. [90, с. 394]). 5. Во-первых, (Ст)-1 = (С_1)т = (СТ)Т. Во-вторых, выполняются соотношения: 1 = det Ε = det(CT · С) = det CT · det С = (det С)2. 6. Длина доверительного интервала *<»> (рГ1/п -ν*1/η) = ^(η)Ρ2-1/η {[ι - (1 -«)/р2]-1/п -1} убывает по рг £ (1 — <*> 1]·
Часть HI ПРОВЕРКА ГИПОТЕЗ В этой части книги приводятся основные понятия теории проверки статистических гипотез: статистика критерия, критическое множество, ошибки I и II рода и др. Рассматриваются методы проверки равномерности, показательности и нормальности распределения элементов выборки. Устанавливается оптимальность критерия Неймана—Пирсона. Обсуждается последовательный анализ Вальда.
Глава 12 КРИТЕРИИ СОГЛАСИЯ § 1. СТАТИСТИЧЕСКИЙ КРИТЕРИЙ Эксперимент. Предположим, что кто-то подбросил 10 раз монетку, и в 8 случаях она упала гербом вверх. Можно ли считать эту монетку симметричной? Статистическая модель. Используем для описания эксперимента схему Бернулли, т. е. будем считать данные эксперимента реализацией выборки X = (ΛΊ,... ,Хю), где Х\ — 1 (выпадает герб) с вероятностью θ и Χι = 0 (выпадает решка) с вероятностью 1 — 0. Как проверить гипотезу Η о том, что θ = 1/2? Правило, позволяющее принять или отвергнуть гипотезу Η на основе реализации выборки #ι,... ,#п, называется статистическим критерием. Обычно критерий задается при помощи статистики критерия Τ (ж ι,... ,#п) такой, что для нее типично принимать умеренные значения в случае, когда гипотеза Η верна, и большие (малые) значения, когда Η не выполняется. Для приведенного выше эксперимента в качестве статистики Τ можно взять сумму χι + ... + хп. Тогда гипотезе Η: θ = 1/2 противоречат значения, которые близки к 0 или п. При проверке гипотез с помощью критериев всегда присутствует возможность ошибочно отвергнуть гипотезу if, когда на самом деле она верна. Например, симметричная монета может случайно упасть 10 раз подряд гербом вверх. Но вероятность наблюдать такое событие равна всего лишь 2~10 = 1/1024. Если мы готовы пренебречь возможностью осуществления столь маловероятного события, то появление 10 гербов подряд следует считать основанием для отклонения гипотезы Η: θ = 1/2. В общем случае задается малое число а — вероятность, с которой мы можем позволить себе отвергнуть верную гипотезу Η ι (скажем, а = 0,05). Это число называют уровнем значимости. ' Исходя из предположения, что гипотеза Η верна, определяется наименьшее значение #ι_α, удовлетворяющее условию I Р(Т(Хи...,Хп)>Х1-а)<<*. (1)
§ 2. Проверка равномерности 161 Если функция распределения статистики Τ непрерывна, то #ι_α является, очевидно, ее (1 — а)-квантилью (см. § 3 гл. 7). Такое #ι_α называют критическим значением: гипотеза Η отвергается, если ίο = Τ(#ι,. ..,#η) ^ х\-а (произошло маловероятное событие), и принимается — в противном случае. При этом величина qlq = Ρ(Τ(Χι,... ,Xn) ^ to) задает ή6ακ- тический уровень значимости. Он равен вероятности того, что статистика Τ (измеряющая степень отклонения полученной реализации от наиболее типичной) за счет случайности примет значение ίο или даже больше. Фактический уровень значимости — наименьший уровень, на котором проверяемая гипотеза Η принимается (рис. 1). Проверим для данных эксперимента гипотезу Η: θ = 1/2 на уровне значимости а = 0,05 и вычислим а$. Известно, что сумма Τ = х\ + ... + хп имеет биномиальное распределение: Р(Т>к)=±Сгп0\1-в)п-\ г=к Для θ = 1/2 правая часть этого выражения при к = 8 равна (45 + 10 + 1)/1024 » 0,055 и при к = 9 равна (10 + 1)/1024 w 0,011. Поэтому для α = 0,05 наименьшим #ι_α, удовлетворяющим условию (1), будет 9. Поскольку полученное в эксперименте значение ίο = Т(ж1, · · · ,#п) = 8 < 9, на заданном уровне значимости гипотеза Η: θ = 1/2 принимается. С другой стороны, фактический уровень значимости а$ = = Р(Т ^ 8) « 0,055, что всего на 0,005 превосходит заданный уровень: уже при а = 0,06 гипотезу Η следует отклонить. На основе данных эксперимента нельзя уверенно принять или отвергнуть гипотезу Η (хотя последнее представляется более правдоподобным). Следовало бы еще несколько раз подбросить монетку, чтобы прийти к более взвешенному заключению. Вычисление фактического уровня значимости нередко позволяет избегать категоричных (и при этом — ошибочных) выводов, сделанных лишь на основе сравнения ίο с критическим значением #ι_α, найденным для формально заданного а. Если значение Τ попало в область, имеющую при выполнении гипотезы Η высокую вероятность, то можно заключить, что данные согласуются с гипотезой Н. Отсюда происходит термин «критерии согласия». Рис. 1 Вопрос 1. Чему приближенно равна вероятность наблюдать не менее 60 падений гербом вверх при 100 бросаниях симметричной монеты? (Воспользуйтесь табл. Т2.) Не все стриги, что растет. Козьма Прутков §2. ПРОВЕРКА РАВНОМЕРНОСТИ Пример 1. Орбиты планет и комет [72, с. 113]. В 1734 г. Французская академия присудила Даниилу Бернулли премию за исследование по орбитам планет, в котором он пытался показать, что схожесть орбит является неслучайной. Если предположить, что Солнце и планеты образовались в результате концентрации вещества первоначального «волчка» (рис. 2), то согласно закону
162 Глава 12. Критерии согласия Д. Бернулли (1700-1782), швейцарский математик (племянник Якоба Бернулли (1654- 1705), установившего в 1713 г. справедливость закона больших чисел для частоты «успехов» в независимых испытаниях). Д. Бернулли известен своими результатами в области механики жидкостей и газов. В 1778 г. им была опубликована в изданиях Петербургской Академии наук работа «Наиболее вероятное определение по нескольким расходящимся между собой наблюдениям и устанавливаемое отсюда наиболее правдоподобное заключение», где впервые был высказан и использован для оценки неизвестного параметра принцип максимального правдоподобия (см. [19, с. 419]). Рис. 2 сохранения момента импульса J орбиты планет должны лежать примерно в одной плоскости, что и наблюдается в реальности. В 1812 г. Лаплас исследовал схожую проблему: образовались ли и кометы в общем «волчке» или же они —всего лишь «гости», захваченные притяжением Солнца. В последнем случае углы между нормалями к плоскостям орбит комет и вектором J должны не концентрироваться вблизи нуля, а быть равномерно распределенными на отрезке [0,π/2]. Проведя статистическую обработку известных к тому времени астрономических данных, Лаплас пришел к выводу, что гипотеза о равномерности не отвергается. Каким же образом можно проверить гипотезу равномерности? Рассмотрим несколько разных методов. Метод 1. Критерий Колмогорова Статистикой критерия является величина Dn= sup \Fn(x) - F(x)l —oo<a:<oo (2) где Fn(x) = - Σ Ι{Χί^χ] ~это эмпирическая функция распреде- п ;г г=1 ления, встречавшаяся ранее в § 1 гл. 9, F(x) — функция распределения элементов выборки (на рис. 3 изображен случай равномерного распределения на [0,1]). Для любого фиксированного xq согласно усиленному закону больших чисел значение Fn(#o), равное частоте попаданий Xi левее #о, ПРИ η -+ оо с вероятностью 1 стремится к F(xo) = Ρ (Χι ^ хо). Теорема Гливенко утверждает, что для произвольной функции распределения F(x) имеет место сходимость Dn ——'■+ 0. (Доказательство этой теоремы приведено в [19, с. 206].) Поэтому в случае, когда гипотеза равномерности верна, значение Dn для выборки достаточно большого размера не должно существенно отклоняться от нуля. Как количественно характеризуется значимость отклонения от нуля? В силу центральной предельной теоремы (П6) уД (Fn(x0) - F(x0)) ^ ξ ~ ΛΓ(0, F(x0)(l - F(xQ)). Поэтому в фиксированной точке xq величина \Fn(xo) — F(xo)\ имеет порядок малости 1/у/п. Оказывается, что и величина Dn имеет тот же порядок малости, причем справедлив следующий результат.
§ 2. Проверка, равномерности 163 Теорема Колмогорова. Если функция распределения элементов выборки F(x) непрерывна, то для χ > О lim Р(д/пDn < ж) = К(х) = 1 + 2 £ (-l)fce-2fc2*2. n->°° fc=i Быстрая сходимость к предельному закону позволяет пользоваться этим приближением уже при η ^ 20. Замечание 1. Особенностью статистики Dn является то, что закон ее распределения оказывается одним и тем же для всех непрерывных функций F. Он зависит только от размера выборки п. Действительно, полагая в формуле (2) χ = F~1(y) = sup{#: F(x) = у}, 0 < у < 1 (рис. 4), получаем Dn = sup |Fn(F_1(y)) - у\. Согласно методу обратной функции (см. § 1 гл. 4) случайные величины Yi = F(Xi) образуют выборку из равномерного распределения на отрезке [0,1]. В силу монотонности и непрерывности функции F(x) неравенства χ ^ F_1(y) и F(x) ^ у эквивалентны (см. рис. 4). Поэтому ^ _1 1 п 1 п Fn(F (у)) = - Σ I{Xi^F~4y)} = " Σ t{Yi<y}· n i=l n i=l Правая часть — эмпирическая функция выборки Υί,... ,Υη. Приведем таблицу некоторых квантилей функции К(х): a X\-ot 0,5 0,83 0,15 1,14 ОД 1,23 0,05 1,36 0,025 1,48 0,01 1,63 0,001 1,95 Таким образом, для заданного уровня значимости α критерий Колмогорова отвергает гипотезу равномерности, если для F(x) = = χ величина у/пDn(x\,... ,хп) ^ #ι_α. Так как функция распределения F(x) непрерывна и не убывает, a Fn (x) — кусочно-постоянна, то sup в формуле (2) достигается в одной из точек разрыва функции Fn. Отсюда получаем простую формулу для вычисления значения Dn(x\,... ,#п): Dn(xu...,xn) = max J I - F(a?w),F(a?(<)) - ί-=- \. В задаче 1 критерий применяется для проверки качества таблицы случайных чисел Т1. Задача 3 показывает, что условие непрерывности функции F(x) в теореме Колмогорова необходимо. А 1- уф" S~~\V = F(x) ι 0' x = F~\y) Рис. 4 Вопрос 2. Как может выглядеть эмпирическая функция распределения Fn, для которой Dn (χι,... ,#η) φ Φ max --F(x(i))? Метод 2. Критерий омега-квадрат Статистика Dn измеряет отклонение эмпирической функции распределения Fn от теоретической функции распределения F в равномерной метрике. Если воспользоваться (взвешенной) квадратичной
164 Глава 12. Критерии согласия метрикой, то получим статистику критерия омега-квадрат: оо "»М= J [Fn(x)-F(x)]24>[F(x)]dF(x), —оо где ψ(ν)— заданная на [0,1] весовая функция. Рассмотрим два варианта: ^ι = 1 (критерий Крамера — Мизеса), ф2(у) = 1/[у(1—2/)] (критерий Андерсона —Дарлинга). Первый из них хорошо улавливает расхождение между Fn и F в области «типичных значений» случайной величины с функцией распределения F (часто он оказывается более чувствительным, чем критерий Колмогорова). Второй же, благодаря тому, что ф^у) быстро возрастает при у —► 0 и у —► 1, способен заметить различие «на хвостах» распределения F, которому придается дополнительный вес. Так же, как и для статистики Dn, закон распределения величины ω^(φ) один и тот же для всех непрерывных функций F. При выполнении ряда условий относительно φ можно доказать, что существует lim Ρ(ηω^ι(/φ) ^ χ) = А(х), зависящий от ψ. Для ψι η—юо и ^2 известны разложения в ряды соответствующих законов А\(х) и Аъ(х) (см. [10, с. 83]). Приведем таблицу некоторых квантилей ур и ζρ этих законов (А\(ур) = Α2(ζρ) = ρ): а Уг-а Zl-a 0,5 0,12 0,77 0,15 0,28 1,62 ОД 0,35 1,94 0,05 0,46 2,49 0,025 0,58 3,08 0,01 0,74 3,88 0,001 1,17 5,97 Значения ηω^Ψι) и пи^ь('Ф2) вычисляются по следующим формулам (первая из них выводится в задаче 4): ιΊ2 η ηωΙ(ψ2)=-η-2Σ *Х*(г))- 2г-1 2п г=1 «zibF(x(0)+(l-^)ln(l-F(xw))] В гл. 18 появится еще один критерий (так называемый критерий хи-квадрат), с помощью которого можно проверять равномерность по сгруппированным данным. Многие вещи нам непонятны не потому, что наши понятия слабы; но потому, что сии вещи не входят в круг наших понятий. Козьма Прутков §3. ПРОВЕРКА ПОКАЗАТЕЛЬНОСТИ Прежде чем познакомиться с методом проверки показательности, введем формально понятие статистической гипотезы. Напомним, что под статистической моделью в § 1 гл. 6 понималось семейство функций распределения {F(#,0), θ € θ}, где θ — множество возможных значений параметра. При этом данные
§ 3. Проверка показательности 165 #1,...,жп рассматривались как реализация выборки Χι,...,Χη, элементы которой имеют функцию распределения F(xflo) с неизвестным значением θο € Θ. Пусть выделено некоторое подмножество θο С Θ. Под статистической гипотезой Η понимается предположение о том, что #о £ Фо· Если множество θο состоит всего из одной точки, то гипотеза Η называется простой, иначе — сложной. В последнем случае задача заключается в проверке принадлежности закона распределения величин Χι целому классу функций распределения {F{x,0), θ € θο}· Под гипотезой показательности понимается сложная гипотеза, в которой этот класс образуют функции распределения вида F(x,6) = (l — β~θχ) /{д:>о}, где θ > 0 (рис. 5). Рассмотрим методы проверки такой гипотезы. Метод 1. Исключение неизвестного параметра Согласно лемме 3 гл. 4, вектор (5ι/5η,... ,Sn_i/Sn), где Sk = Χι + ... + Xk, распределен так же, как вектор порядковых статистик (?7(ΐ),. · · Л{п-\)) Для выборки размера (п — 1) из равномерного распределения на отрезке [0,1]. Так как эмпирическая функция распределения строится по порядковым статистикам, то данное преобразование сводит задачу к проверке равномерности. Однако, за исключение «мешающего» параметра θ приходится платить уменьшением размера выборки на 1. Пример 2. Следующие данные представляют собой количества летных часов между последовательными отказами установки для кондиционирования воздуха на самолете типа «Боинг-720» [40]. 23 261 87 7 120 14 62 47 225 71 246 21 42 20 5 12 120 11 3 14 71 11 14 11 16 90 1 16 52 95 Считая времена между отказами независимыми, проверим гипотезу их показательности. Вычислим Sk = х\ + · · · + ж*, к = 1,... ,30: 23 284 371 378 498 512 574 621 846 917 1163 1184 1226 1246 1251 1263 1383 1394 1397 1411 1482 1493 1507 1518 1534 1624 1625 1641 1693 1788 В результате деления на $зо = 1788, получим ряд значений W*3(h к = 1,... ,29: 0,013 0,159 0,207 0,211 0,279 0,286 0,321 0,347 0,473 0,513 0,650 0,662 0,686 0,697 0,700 0,706 0,773 0,780 0,781 0,789 0,829 0,835 0,843 0,849 0,858 0,908 0,909 0,918 0,947
166 Глава 12. Критерии согласия Построенная по этому ряду эмпирическая функция распределения изображена на рис. 6. Максимальное отклонение Dn = = 0,65 - 10/29 « 0,306, \/29 £>п « 1,65. Из приведенной выше таблицы квантилей функции Колмогорова находим, что гипотеза показательности отвергается на уровне значимости 1%. Статистики ηω^ψι) и ηα^(^>2) критерия омега-квадрат равны, соответственно, 0,627 и 3,036. Из таблицы квантилей А\(х) и ^(я) следует, что первая значимо велика на уровне приблизительно 2%, вторая —на уровне 2,5%. Метод 2. Подстановка оценки параметра Пусть θη — оценка максимального правдоподобия для параметра θ (см. § 4 гл. 9). Рассмотрим модифицированные статистики Колмогорова и Крамера—Мизеса: Dn = sup \Fn{x) - F{xfin) , οο ώΙ= ί [fu(x) - F(x,en)]2 dF(x,en)- (3) Замечание 2 [80, с. 317]. Эти статистики, в отличие от их прототипов Dn и ω\ (V>i), не обладают свойством «свободы от распределения» элементов выборки, поэтому для каждого параметрического семейства распределений нужны отдельные таблицы. Более того, их распределения могут зависеть и от истинного значения неизвестного параметра (параметров). К счастью, для семейств сдвига- масштаба (к которым относятся, в частности, показательный и нормальный законы) этого последнего осложнения не возникает. Несложно проверить (см. задачу 3 гл. 9), что оценкой максимального правдоподобия для параметра θ показательного закона является θη = 1/Х1 где X = (Χι + ... + Хп)/п1 которая ранее встречалась в замечании к примеру 1 гл. 6. М. Стефенс (см. [35]) предложил вместо статистик y/nDn и mb\ распределение статистики использовать для показательной модели их несколько преобразо- Dn не зависит от Θ1 ванНые варианты (^ + 0,26 + 0,5/^ (Dn - 0,2/п) и (п + 0,16) ώ2η, распределения которых практически не зависят от п, начиная с η = 5. Приведем таблицу соответствующих квантилей х\-а и yi-a этих распределений (рассчитанную методом Монте-Карло): Вопрос 3. Почему в случае показательного закона α #1-α 2/1-α 0,15 0,926 0,149 од 0,990 0,177 0,05 1,094 0,224 0,025 1,190 0,273 0,01 1,308 0,337 Еще один критерий для проверки показательности («Новое лучше старого») рассматривается в § 1 гл. 13.
§ 4. Проверка нормальности 167 Рис. 7 §4. ПРОВЕРКА НОРМАЛЬНОСТИ Б. Л. Ван дер Варден в [13, с. 84] пишет: «Я до сих пор живо помню, как однажды, когда я был еще ребенком, мой отец привел меня на край города, где на берегу стояли ивы, и велел мне сорвать наугад сотню ивовых листочков. После отбора листьев с поврежденными кончиками у нас осталось 89 целых листиков. Вернувшись домой, мы расположили их в ряд по росту, как солдат. Затем мой отец через кончики листьев провел кривую и сказал: «Это и есть кривая Кетле. Глядя на нее, ты видишь, что посредственности всегда составляют большинство и лишь немногие поднимаются выше или так и остаются внизу». Если эту кривую расположить вертикально (рис. 7) и в качестве единицы масштаба на оси ординат выбрать отрезок, длина которого равна высоте всей фигуры, то ордината /ι, соответствующая абсциссе £, будет, очевидно, представлять собой частоту (или долю) тех ивовых л. А. Ж. Кетле листьев, длина которых меньше t. И так как частота h приближенно (1796-1874), бельгийский равна вероятности, то наша кривая приближенно представляет ρ = Чиолог = F(x) — функцию распределения длины листьев.» Как проверить сложную двухпараметрическую гипотезу нормальности о том, что выборка была взята из совокупности с функцией распределения ,Ρ(#,μ,σ) = Φ Ι χ~μ J с какими-то неизвестными параметрами μ и σ > 0? (Здесь, как обычно, 1 Х 2 Ф(х) = —== Г е~и t2du — функция распределения стандартного ν2π -оо нормального закона.) Прежде чем применять критерии, полезно посмотреть на данные на вероятностной бумаге (см. § 1 гл. 9): если точки ί#(ψφ-1 (г~ ' )) не расположены рблизи некоторой прямой, то гипотеза нормальности скорее всего ошибочна. Чтобы ее формально отвергнуть, можно использовать Метод 1. Исключение неизвестных параметров Пусть т — произвольное, но заранее фиксированное целое число от 1 до п. Положим -ι n + ^iti"1 Aj — Am, Xj+i ~ Ami l + ^"m' если j = 1,... если j = m,.. ,m - .,n- -i, -1. Оказывается, случайные величины Υί,... Χη-ι независимы и одинаково распределены по закону Λ/χθ,σ2) (ввиду нормальности Yi,... ,Υη-ι достаточно (см. П9) проверить, что MYj = 0, DYj = σ2 и cov (Υ{ι Yj) = 0 при г ф j).
168 Глава 12. Критерии согласия Переход от выборки Χι,...,Χη к набору случайных величин Υί,... Χη-ι позволяет избавиться от неизвестного параметра сдвига μ, однако при этом размерность данных уменьшается на 1. (Можно было бы попытаться исключить параметр μ за счет следующего простого преобразования: Х[ = Χι — X, г = 1,... ,п. Однако Х[ не будут образовывать выборку.) Для исключения оставшегося параметра σ совершим еще одно преобразование: Zk = Yk/y/~B~kl где Вк = J— "Σ Yf, * = l,...,n-2. К. Саркади показал (см. [10, с. 57]), что случайные величины Ζι,... ,Zn_2 также независимы, причем Z*., очевидно, подчиняется закону Стьюдента £n-fc-i (см. § 2 гл. 11). Обозначим через Fn-k-i(x) функцию распределения закона tn-k-i- Если гипотеза нормальности верна, то (согласно методу обратной функции из § 1 гл. 4) случайные величины Fn-k-i(Zk) должны быть независимыми и равномерно распределенными на [0,1]. Это проверяется с помощью одного из критериев, рассмотренных в § 2. Таблицы значений функций Fn-k-i для разных степеней свободы приведены в [10, с. 174]. Для вычисления ее на компьютере можно численно проинтегрировать плотность, задаваемую формулой (3) гл. 11 (множитель Cn-fc-i в которой легко определяется из свойства гаммагфункции Г(х + 1) = хГ(х) и тождества Г(1/2) = y/π), или воспользоваться рекуррентными формулами из [20, с. 22, 51], позволяющими выразить Fn-k-i через элементарные функции. Метод 2. Подстановка оценок параметров Согласно задаче 2 гл. 9, оценками максимального правдоподобия параметров μ и σ являются соответственно X и 5, где X = — V Х^, η Статистики y/nDn и mb\, определяемые формулой (3) при F{x,dn) = Ф((х — X)/S), сходятся при η —► оо к некоторым предельным законам. М. Стефенс (см. [35]) установил, что для нормальной модели распределения (сходящихся к тем же законам) модифицированных статистик (у/п—0,01+0,85/ν^) Dn и (η+0,5) ώ\ практически не зависят от η при η ^ 5. Приведем таблицу соответствующих квантилей х\-а и у\-а этих распределений: α Х\— α 2/1-α 0,15 0,775 0,091 од 0,819 0,104 0,05 0,895 0,126 0,025 0,955 0,148 0,01 1,035 0,178 Вопрос 4. Зависимы ли а) Х[ и ХГ при i#i, б) Х[ и XI Вопрос 5. Применим ли к ним критерий Колмогорова?
§ 4. Проверка нормальности 169 Замечание 3. Важно отметить, что предельные распределения статистик y/nDn и шо\ отличаются от К(х) и А\(х). Дело в том, что при вычислении значения θη используются те же самые #1,... ,#п, что и при построении эмпирической функции распределения. Поэтому Fn(x) и F{xfin) (в случае, если проверяемая гипотеза верна) оказываются ближе друг к другу, чем Fn(x) и F(#,0O)· При этом критическими становятся существенно меньшие значения статистик, чем в случае простой гипотезы. Например, сравнение £о,95 = 0,895 с медианой χι/2 = 0,83 и квантилыо #о,95 = 1,36 функции распределения К(х) показывает, что значения, типичные для y/nDni оказываются критическими для статистики y/nDn. Метод 3. Центральные выборочные моменты Простые критерии (см. [13, с. 281]), которые несколько больше, чем критерий Колмогорова, учитывают поведение «хвостов» распределения, основаны на центральных выборочных моментах п г=1 При помощи величин М2, Ms и М^ вычисляются выборочные коэффициенты асимметрии G\ и эксцесса G2: Gl=M3/M^/2, G2 = M4/M%-3. Эти случайные величины можно использовать в качестве оценок для (независящих от сдвига и масштаба) теоретических коэффициентов асимметрии 71 = Мз/Мг и эксцесса η2 = /Wm! ~~ 3, где μ\ζ = Μ (Χι — MXi)fc — центральные теоретические моменты. (Для нормального закона 71 =72 = 0.) При конечных η целесообразно заменить G\ и G2 на Если истинное распределение является нормальным, то математические ожидания величин G[ и G'2 в точности равны нулю, а дисперсии задаются формулами 2_ 6п(п-1) 2_ 24п(п- I)2 σι ~ (п - 2)(п + 1)(п + 3)' σ2 ~ (п - 3)(п - 2)(п + 3)(п + 5)' При этом статистики G[/ai и G2/a2 асимптотически нормальны (см. §4 гл. 7): распределение каждой из них сходится к закону λί(0,1) при η —► оо. Значимость их отклонения от нуля можно определить по таблице Т2. Замечание 4 [10, с. 56]. Как показал Э. Пирсон (1930 г.), распределение статистики G[/ai довольно быстро приближается к ЛГ(0,1), тогда как распределение величины G2/a2 даже при больших η
170 Глава 12. Критерии согласия оказывается далеким от нормального. Р. Гири (1935 г.) предложил заменить ее на статистику Сз = — Σ \Х% — X\/S, у которой п LV π/ п \п /J Распределение величины (G3 — MG3) /y/DGs удовлетворительно аппроксимируется стандартным нормальным законом при η ^ 50. Задача 2 показывает, что, как правило, нельзя надежно проверишь сложную гипотезу по небольшой выборке (состоящей из нескольких десятков наблюдений): критерии улавливают только очень крупные отклонения, так как за счет варьирования параметра (параметров) обычно удается достаточно хорошо подогнать F{x,9) к эмпирической функции распределения Fn(x). С другой стороны, для выборок большого размера (порядка нескольких сотен наблюдений) трудно гарантировать одинаковость условий при сборе данных (однородность наблюдений). По-видимому, хороший способ разрешения этой проблемы — использование статистических методов, не предполагающих строгую нормальность наблюдений, для которых требуется лишь непрерывность функции распределения элементов выборки. Именно такие критерии рассматриваются в гл. 14-17. Проверить нормальность по сгруппированным данным можно также при помощи критерия хи-квадрат (см. гл. 18). §5. ЭНТРОПИЯ Обозначим через ξ некоторый эксперимент с исходами Αι,... ,Αν, которые осуществляются с вероятностями pi,... ,рлг соответственно. Энтропией этого эксперимента называется величина H = Hti) = -jrPilog2Pi, (4) г=1 где по непрерывности полагаем 0 · log2 0 = 0. Ясно, что Η ^ 0, причем Η = 0 тогда и только тогда, когда все вероятности р^, кроме одной, равны нулю. Утверждение. Максимум энтропии Я, равный log2 N, достигается при pi = ... = ρΝ = 1/Ν. Доказательство. Поскольку вторая производная функции φ(χ) = #log2# положительна при χ > 0, то эта функция выпукла (П4). Записывая неравенство Иенсена (П4) для случайной
§5. Энтропия 171 величины г/, принимающей значения pi с вероятностями 1/ЛГ, получим неравенство / 1 N \ ( 1 \ 1 1 N 1 N которое равносильно доказываемому утверждению. ■ Энтропия может служить количественной характеристикой меры неопределенности эксперимента. Если, скажем, pi = 1, Р2 = · · · — PN = 0, то с полной уверенностью результатом эксперимента будет осуществление события А\. Если же р\ = = ... = pN = 1/iV, то такое распределение обладает максимальной неопределенностью в том смысле, что нельзя отдать предпочтение ни одному из событий А{. График значений энтропии Η (ζ) = —plog2p — (1 —ρ) bg2(l —p) для бернуллиевской случайной величины ζ при разных 0 ^ ρ ^ 1 приведен на рис. 8. Наибольшую неопределенность имеет опыт с равновероятным появлением «успеха» и «неудачи». Ценность понятия энтропии заключается в том, что выражаемая им «степень неопределенности» является именно той характеристикой, которая играет определяющую роль в реальных процессах в природе и технике, связанных с передачей информации. В конце XIX века психологами было установлено, что среднее время реакции человека на последовательность беспорядочно (равновероятно) чередующихся сигналов N различных типов с увеличением N растет примерно как Η = log2 N. Приведем небольшой отрывок из книги [92] на эту тему. «На рис. 9, заимствованном из работы американского психолога Р. Хаймана, кружками отмечены данные восьми опытов, состоящих в определении среднего времени, требующегося испытуемому, чтобы указать, какая из N лампочек (где N меняется от 1 до 8) зажглась. Это среднее время определялось из большого числа серий зажиганий, в каждой из которых частоты зажиганий всех лампочек были одинаковыми, причем предварительно испытуемый специально тренировался в подобных опытах. По оси ординат на рис. 9 отложено среднее время реакции (в секундах), по оси абсцисс — величина log2 N; при этом, как мы видим, все 8 кружков довольно точно укладываются на одну прямую. Исходя из этих данных, можно было бы предположить, что среднее время реакции во всех случаях определяется энтропией опыта ξ, состоящего в подаче сигнала. Из этого предположения следует, что уменьшение степени неопределенности опыта путем замены равновероятных сигналов неравновероятными должно на столько же уменьшить среднее время реакции, на сколько оно уменьшается при уменьшении числа используемых типов сигналов, приводящему к такому же изменению энтропии Η (ξ). Это утверждение допускает прямую экспериментальную проверку, полностью его подтверждающую. Так, на том же рис. 9 квадратиками отмечены i 0,6 0,4 0,2 < 'Т "У г 1 ri f « 2 ^ Η 3* Рис. 9
172 Глава 12. Критерии согласия результаты восьми опытов (проведенных с теми же испытуемыми, что и раньше), в которых N лампочек (где N равнялось 2, 4, 6 или 8) зажигались с разными относительными частотами pi,... ,рлг> причем предварительно испытуемый некоторое время тренировался на сериях зажиганий с такими частотами. Здесь снова по оси ординат откладывалось среднее время реакции Т, а по оси абсцисс — энтропия Η (ξ) = — pilog2pi — ... — pn log2 pn\ при этом оказывается, что квадратики с большой степенью точности укладываются на ту же прямую, что и кружки. Мы видим, таким образом, что энтропия Η (ξ) действительно является именно той мерой степени неопределенности исхода опыта, которая решающим образом определяет среднее время, требуемое для определенной реакции на появившийся сигнал. Причина изменения среднего времени реакции при изменении относительной частоты различных сигналов, очевидно, кроется в том, что испытуемый быстрее реагирует должным образом на более часто повторяющийся (т. е. более привычный для него) сигнал, но зато медленнее реагирует на редкий сигнал, являющийся для него неожиданным. Разумеется, эти факторы носят психологический характер. Тем не менее мы видим, что они могут быть количественно охарактеризованы величиной энтропии Η (ξ) опыта £». Понятие энтропии играет также важную роль в статистической механике и в теории кодирования информации. Сам термин был введен Р. Клаузиусом в 1865 г. в качестве меры «хаоса» термодинамической системы (см. [72, с. 138]): «Проблема обратимости-необратимости — это интересный парадокс классической механики и термодинамики. Суть проблемы заключается в том, что законы классической механики обратимы и поэтому не могут объяснить, почему кусок сахара растворяется в чашке кофе, но мы никогда не наблюдаем обратный процесс. Необратимость нашего мира отражает второй закон термодинамики, впервые сформулированный Л. С. Карно (первый закон термодинамики — это закон сохранения энергии). Спустя сорок лет Р. Клаузиус ввел математическое понятие энтропии, ставшее основным в теории необратимых процессов. (Согласно Клаузиусу слово «энтропия» происходит от греческого τροπή, означающего «поворот», «превращение». Клаузиус утверждает, что он добавил «эн», чтобы слово звучало аналогично «энергии».) Используя понятие энтропии, второй закон термодинамики можно сформулировать следующим образом: в изолированной системе энтропия не может уменьшиться, обычно она возрастает. Л. Больцман пытался проверить этот закон с помощью кинематики атомов и молекул. Он показал, что необратимость не противоречит обратимой механике Ньютона: применение последней к большому числу частиц с необходимостью приведет к необратимости, так как системы, состоящие из миллионов молекул, стремятся перейти в состояние, имеющее большую термодинамическую вероятность. Это и есть «основная причина» распада, износа, старения (и, как утверждают некоторые, упадка нравов или цивилизации)». ... а понял бы, уединясь, Вселенной внутреннюю связь, Постиг все сущее в основе, И не вдавался в суесловье. И. В. Гете, «Фауст»
§5. Энтропия 173 Подробнее о проблеме необратимости можно почитать, скажем, в пятом томе Берклеевского курса физики [67]. Рассмотрим теперь, следуя [69, с. 20], использование понятия энтропии в теории кодирования информации. При передаче сообщений по каналу связи их необходимо записать в «двоичном коде». Если используется алфавит из N символов (букв), то для кодировки каждого символа потребуется (с точностью до 1) log2iV «двоичных» символов 0 и 1. Например, для передачи текста на русском языке, состоящего из букв и пробелов, можно (при объединении «ь» и «ъ») каждый символ закодировать последовательностью из 0 и 1 длины log232 = 5. Для передачи текста из η символов алфавита понадобится код длины η log2 N. Для больших по объему сообщений можно существенно уменьшить эту величину, используя то, что разные символы алфавита встречаются в тексте с различными частотами (см. таблицу из примера 3 гл. 1). Если pi,... ,рлг — вероятности их появления, то в силу устойчивости частот среди сообщений длины η практически будут встречаться лишь сообщения, в которых каждый г-й символ алфавита будет появляться V{ « npi раз. Уточним это утверждение. Допустим, что каждый символ сообщения появляется независимо от других с соответствующей вероятностью р{. Для δ > 0 обозначим через Anj множество тех сообщений, у которых {\щ — npi\ ^ £, г = 1,... ,ЛГ}. Их станем называть типичными, так как в силу закона больших чисел N (\v Ι λ Р(Ап,б)^1- Σ р \\--Pi \>δ -*1 при η-^оо. г=1 VI п I / Пусть Мп?<5 обозначает число «типичных» сообщений. При условии, что все рг>0и0<$<1из теоремы Макмиллана (см. [90, с. 64]) следует, что - log2 Mnj стремится к энтропии Η = ~ΣΡί 1°ё2 Рг при η —► оо. (Обобщение теоремы Макмиллана на стационарные цепи Маркова можно найти в [12, с. 300], см. также задачу 5.) Другими словами, число «типичных» сообщений не превосходит 2п(#+е)^ где £ > q сколь угодно мало. Каждому такому сообщению можно присвоить порядковый номер, для записи которого потребуется п(Н + ε) «двоичных» символов, и вместо сообщения передавать эту запись. Тем самым, с вероятностью близкой к 1, осуществляется сокращение длины сообщений с коэффициентом сжатия 71 = Ηι/Η0 < 1, где Но = log2 N и Hi = Η. Для русского алфавита на основе таблицы из примера 3 гл. 1 имеем Η « 4,35, 7ι «0,87 (см. [92, с. 238]). Для независимо появляющихся символов невозможно предложить способ кодирования (бесконечно большого текста), который давал бы большую экономию, чем 71 (см. [92, с. 200]). Однако, символы текста на русском языке, очевидно, зависимы: если оче- Рассказывают, что создавая свой код, Морзе отправился в ближайшую типографию и подсчитал число литер в наборных кассах. Буквам и знакам, для которых литер в этих кассах было припасено больше, он сопоставил более короткие кодовые обозначения Μ. Η. Аршинов, А. Е. Садовский, «Коды и математика»
174 Глава 12. Критерии согласия редная буквой является гласной, то следующая вероятнее всего окажется согласной; «ь» не может следовать ни за пробелом, ни за гласной; за буквой «и» после пробела часто следует еще один пробел; после сочетания «тс» естественно ожидать букву «я» и т. п. Эти наблюдения подсказывают разбить текст на блоки длины к и считать эти блоки символами нового алфавита. Для подсчета частот двухбуквенных и трехбуквенных сочетаний Д. С. Лебедев и В. А. Гармаш использовали отрывок из романа «Война и мир» Л. Н. Толстого, содержащий около 30 000 букв (см. [92, с. 246]). На основе полученных данных были получены оценки соответствующих энтропии: #2 ~ 7,9, #з ~ 10,9, что приводит к коэффициентам сжатия 72 = Щ/Ц^Щ) « 0,79 и 7з = #з/(3#0) ~ 0>?3· Согласно [92, с. 245] коэффициент сжатия (бесконечно большого) текста не может быть меньше, чем 7оо = Ит Hk/(kH0). Лингвист Р. Г. Пиотровский (см. [92, с. 268]) к—юо оценил 7оо русских литературных текстов как 0,24, а деловых текстов —как 0,17. К. Шеннон назвал величину 1 — 7оо избыточностью языка. Во многих случаях она полезна тем, что позволяет выявлять опечатки и восстанавливать пропуски. (О кодах Хемминга, умеющих исправлять подобные ошибки, можно почитать в [91, с. 288] или [92, с. 392].) Последовательность независимых равновероятных символов, имеющая энтропию Η = log2 ΛΓ, несократима. Поскольку сильно сжатый текст похож на нее, практически невозможно восстановить в нем пропущенный или искаженный символ. Это обстоятельство нередко приводит к потере архивированных данных при возникновении дефектов на дискетах. На практике для кодирования неравновероятно появляющихся символов используют, например, оптимальный метод Хафмана (см. [91, с. 276] или [92, с. 206]). Он является самым экономным в следующем смысле: если г-й символ записывается цепочкой из 0 и 1 длины /i, то код Хафмана имеет наименьшее математическое ожидание Σ Upi длины элементарного кода среди всех кодов, обладающих свойством префикса: никакая цепочка не является началом другой, более длинной. В заключение параграфа приведем утверждение, объединяющее равномерный, показательный и нормальный законы как распреде- Отыщи всему начало, и ты ления с наибольшей энтропией. многое поймешь. Рассмотрим случайную величину £, имеющую плотность рас- Козьма Прутков Пределения р(#) с носителем А = {х: р(х) > 0}. Тогда максимум энтропии Η (ξ) = — $р(х) log2p(#) dx при одном из условий а) А = (0,1), б) А = (0, + оо) и Щ = 1, в) А = (-оо, + оо), Щ = 0 и Df = 1,
Решения задач 175 достигается на плотностях /{о<ж<1}, е х1{х>о\ и —= е х /2 соот- ν2π ветственно. Справедливость этого утверждения в случае в) предлагается установить в задаче 6. ЗАДАЧИ 1. Примените критерий Колмогорова для проверки любого столбца таблицы случайных чисел Т1. 2. Проверьте данные из задачи 1 на показательность. (Если тебе дадут линованную бумагу, пиши поперек. — Хуан Рамон Химе- нес) 3* Нарисуйте график плотности предельного закона статистики y/nDn для выборки из распределения Бернулли. 4* Выведите формулу для вычисления ηω^{φ{) из § 2. 5. Установите, что lim — log2 Mn s = Η даже при δ = 0. η—юо П ' Указание. Используйте формулу (3) гл. 10 и формулу Стир- линга: ^2ппппе~п/п\ —► 1 при η —► оо (ее доказательство см. в [81, с. 72]). 6* а) Докажите, что для произвольных плотностей р(х) и q(x) из неравенства Иенсена вытекает неравенство \p(x)\np(x)dx ^ \p(x)\nq(x)dx. (5) б) С помощью этого неравенства установите справедливость последнего утверждения из § 5 в случае в). РЕШЕНИЯ ЗАДАЧ 1. Выберем для проверки пятый столбец таблицы Т1: его максимум равен всего лишь 74, кроме того, 6 из 20 чисел (30% данных) попали в интервал от 29 до 35 (6% диапазона). Эмпирическая функция этого столбца (рис. 10, а) располагается целиком выше диагонали единичного квадрата и в точке 0,35 отклоняется от диагонали на величину Dn = 0,35. Значение статистики y/nDn равно 1,57, что значимо на уровне с*о = 1,5%. Еще к более категоричным выводам приводит критерий омега- квадрат: ηωΚψι) = 0,85 (α0 < 0,01) и ηω^{φ2) = 5,1 (а0 < 0,01) (при замене наблюдения 0 на 0,01). Однако для четвертого столбца картина совершенно иная. Отклонение эмпирической функции распределения от диагонали Dn = 0,17 (рис. 10, б). Отсюда получаем, что y/nDn = 0,76. Эта величина принадлежит области «типичных» значений распределения Колмогорова: с*о = 61%. Хорошее согласие с гипотезой равномерности подтверждается также критерием омега- Если у тебя есть фонтан, заткни его; дай отдохнуть и фонтану. Козьма Прутков Недостойно многократно опускать сосуд в пустой колодец. Пахарь не понесет зерна на голую скалу. Согласившийся легко примет выгоды, но первым препятствием устрашится. Поэтому испытывайте препятствиями. Агни-Йога, 264 Если тебе дадут линованную бумагу, пиши поперек. Хуан Рамон Хименес 1 I I I I I I I I 0' 0,2 0,4 0,6 0,8 1 а) 1η 0,8 I 0,6- 0,4- 0,2- 1Ц7г У* у = Fn(x) I I I I I I I I 1 1 ПО Π Λ Г\£! ПО 1 0' 0,2 0,4 0,6 0,8 1 б) Рис. 10
176 Глава 12. Критерии согласия 1- 0,8 " 0,6- 0,4- 0,2- 0 ΌηίϊΕ? jjy = Fn(x) ι ι ι ι ι ι ι ι Ι 0,2 0,4 0,6 0,8 1 a) 0,2 0,4 0,6 0,8 6) Рис. 11 То, в чем нет загадочности, лишено очарования. А. Франс квадрат: ηωη(ψι) = 0,103 (α0 = 57%) и ηωη(ψ2) = 0,723 (α0 = 54%). Так можно ли пользоваться таблицей Т1? С помощью компьютера была проверена вся ΤΙ (η = 300). Результаты следующие: y/nDn = 0,981 (α0 = 29%), ηυβη(φ{) = 0,196 (α0 = 37%) и ηω2η(φ2) = 1,98 (αο = 9,4%). Кроме того, тест на случайность, основанный на количестве инверсий Rn в выборке (см. пример 2 гл. 7) дал в качестве значения статистики (Rn — MRn^/y/DRn величину —1,16. По таблице Т2 находим, что фактический уровень значимости αο = 12,3%. Таким образом, в целом Т1 пригодна для имитации выбора наудачу из [0,1]. 2. Применим метод исключения неизвестного параметра к данным из четвертого столбца. На рис. 11, α по Yk = Sk/S2o (к = 1,... ,19), где Sk = Χι + · · · + Хк, построена эмпирическая функция распределения. Близость к диагонали исключительная! Статистика y/nDn = 0,343. Согласно [10, с. 346] функция Колмогорова в этой точке равна 0,002. Значение статистики попало далеко в область левого «хвоста». В чем же дело? Может быть, мала выборка? Применим (с помощью компьютера) критерий ко всей таблице Т1. Получим y/nDn = 0,656 (a0 = 79%). Неужели ΤΙ можно использовать в качестве таблицы показательных случайных чисел? Это, конечно же, не так, хотя бы потому, что все Х{ ^ 1. Объяснение. Рассмотрим поведение случайной величины Yk при к = [απ], где 0 < a < 1, [·] обозначает целую часть числа. Для любых Χι > 0 с MIj < оо в силу свойств сходимости (П5) и закона больших чисел (П6) ρ Yk = Sk/Sn = (\an]/n) · (Sk/k) · (n/Sn) —» α при η —► оо. Используя монотонность Fn(x), отсюда так же, как при доказательстве ρ теоремы Гливенко (см. [19, с. 207]), можно вывести, что Dn —> 0. Если DXi < оо, то в силу центральной предельной теоремы (П6) и леммы 1 гл. 7 (φ(χ) = 1/х) отклонение \Yk — a\ имеет порядок малости \/у/п. Поэтому величина y/nDn « const и вполне может попасть в область «типичных» значений закона Колмогорова (более аккуратное объяснение приведено в § 3 гл. 26). Главная цель расчетов — не цифры, а понимание. Р. В. Хэмминг Кроме опасности отвергнуть верную гипотезу Η из-за случайности (обычно статистика критерия принимает с малой вероятностью любые значения), существует опасность подтвердить Η в том случае, когда она ошибочна (подробнее эта проблема обсуждается в следующей главе). Метод подстановки оценки параметра с поправкой Стефенса для данных из четвертого столбца Т1 приводит к θ = 1,818,
Решения задач 177 Dn = 0,28 и (v/n4-0,264-0,5/Vn) (Z)n-0,2/n) = 1,308 (рис. 11, б). Это значимо на уровне ао = 1%. *^ 3. Функция распределения Ρζ{χ) бернуллиевской случайной величины ζ (см. § 1 гл. 1) имеет два скачка: в 0 высоты q = 1—рив1 высоты р. Эмпирическая функция выборки Χι,... ,Хп из этого закона отличается от нее лишь величиной скачков (рис. 12). Поэтому Dn = \Х — р\. В силу центральной предельной теоремы при η —► оо имеет место сходимость у/п{Х — р) —> ξ ~ Л/Х0,рд). По свойству сходимости 3 из П5 y/nDn —► |£|. Так как случайная величина \ξ\ положительна с вероятностью 1, то ее функция распределения и плотность при χ < 0 равны нулю. При ж^Ов силу симметрии закона ЛГ(0, pq) имеем Fm(x) = Р(-х ζξ^χ) = Ft(x) - Ft(-x) = 2Fz{x) - 1. Дифференцируя, находим, что при χ ^ 0 плотность распределения величины |£| равна удвоенной плотности ξ (рис. 13). (Отметим, что плотность предельного закона зависит от р.) 4. Сделав замену у = F(x), видим, что ι ω2η(ψ1)=Ιη = \(κ(ν)-ν)2άν, Не все то волк, что серо. 1" 1-р 1-Х¥ V = Ft(x) Рп\ y = Fn(x) ·+-* Рис. 12 Рис. 13 где Fn(у)— эмпирическая функция наблюдений Yi = F(Xi) (г = 1,... ,η) из равномерного распределения на отрезке [0,1] (см. замечание 1). Упорядочим величины Yi по возрастанию: Y(l) < У(2) < ··· < У(п)· Положим У(0) = 0, Υ(η+ΐ) = 1· Разбивая отрезок [0,1] на части [Y(i), У(г+1)]> г = 0,... ,п, представим интеграл 1п в виде Ум Поменяв индекс суммирования в первой сумме, запишем Воспользовавшись тождеством (а + Ь)3 — (а — Ь)3 = 26 (За2 + Ь2) ν 2г-1 , 1 для а = Y(i) ^— и о = —, окончательно получим 2п 1 п 2тГ к2 3(y(i)"V) +a]=i^?+i|i(y«"Hki) *) В примере 2 гл. 13 гипотеза показательности для этих же данных будет отвергнута с помощью еще одного критерия.
178 Глава 12. Критерии согласия 5. Согласно формуле (3) гл. 10 Мп0 = . .. . ' , ., где U = ηρι. Из l\\l2\ ...iNl формулы Стирлинга имеем Inn! = η In η — η + ο(η). Отсюда 1 Ν - 1ηΜη,ο = Inn - 1 - Σ \Pi lnnPi - Pi] + ο(1) = П i=l Ν = -Y^Pi\npi + o(l). i=l Для примера рассмотрим симметричную схему Бернулли (N = 2, р! = р2 = 1/2). Тогда М2п,о = С?п = (2п)!/(п!)2-количество последовательностей длины 2п, у которых число нулей совпадает с числом единиц. С помощью формулы Стирлинга легко вывести (проверьте!), что Ρ (Агп.о) = 2~2пМ2П,о ~ l/y/πη —> 0 при η —* оо, в то время, как Ρ (Α2η,δ) —► 1 при любом δ > 0. Поэтому сообщения из Лгп.о составляют пренебрежимо малую часть множества «типичных» сообщений Λ2μ,<5, несмотря на то, что lim — log2 M2n,o = Ит — log2 М^п.ь = Я = 1. η—юо 2п п—>оо 2п 6. а) Неравенство (5) равносильно утверждению оо J р0*0 р(0 —оо где случайная величина ξ имеет плотность р(х). Так как функция 1η χ выпукла на (0,оо), то с учетом неравенства Иенсена (П4) запишем оо Μ1ηϋ<1ηΜϋ=1ηί qMp{x)dx=lnl=0· — оо б) Возьмем в неравенстве (5) в качестве q(x) плотность закона Λ/ΧΟ, 1) и используем то, что Μξ2 = Οξ + (Mf )2 = 1: оо оо - р(х) \пр(х) dx ^ — р(х) < — In >/27г - %- > dx = In л/27гё, — оо —оо причем верхняя граница достигается при р(х) = q(x). ^ ОТВЕТЫ НА ВОПРОСЫ У = F(x) 1. По центральной предельной теореме (П6) при η = 100 ► Р(5П ^ 60) = Ρ (SnZ^!2 ^ W-J^A ~ ! _ φ(2) ~ o,023. ж \ yn/4 vW4 / 4 2. Например, может выглядеть, как на рис. 14 (п = 1).
Ответы на вопросы 179 3. Рассмотрим случайные величины Υι = ΘΧ{ с функцией распределения (1 — е~у) I{y^o}i не зависящей от Θ. Выразим через них Fn(x) и F(xft): F(x,e) = (l - β-/*) /{ж>0} = (l - e-e*'Y) 1{θχ>0]. Когда переменная х пробегает значения от — оо до +оо, этот же интервал значений пробегает и переменная у = θχ. Поэтому sup Fn(x) - F{xfi) = sup У ktl{Y^v}-^-e-y/Y)l{y>0} Распределение правой части равенства от θ не зависит. 4. Так как вектор (Х[1... ,Х'П) получается линейным преобразованием из нормальной выборки (ΛΊ,... ,ХП), то он также является нормальным (П9). Некоррелированность компонент такого вектора эквивалентна их независимости (см. [90, с. 322]). Положим Yi= Xi — μ. Тогда cov [XI Xj) = M(Yi - Υ) (Yj - Υ) = = -M(YiY)-M(YjY) + DY. Поскольку MCYi Y) = - DYi = - σ2 и DY = - σ2, находим, что η η η coy^X^Xj) = σ2 < 0. Следовательно, величины Х[ и Xj зависимы, т.е. набор Χ[1...1Χ,η не является выборкой. Более того, все Х[ связаны линейной зависимостью: Х[ +... + Х'п = 0. В свою очередь, cov (Х<,Х) = Μ [(Yi - Υ)Υ] = Μ (YiY) - DF = 0. Поэтому X не зависит от Хг', г = 1,... ,п. Согласно лемме о независимости из § 3 гл. 1, видим, что X и выборочная дисперсия 52 = - Σ (Х{ — X)2 независимы между собой (см. теорему 1 гл. 11). 5. Нет, так как случайные величины Ζ& ~ tn-k-i1 к = 1,... ,п — 2, имеют разные распределения (меняется число степеней свободы).
Глава 13 АЛЬТЕРНАТИВЫ Самый отдаленный пункт земного шара к чему- нибудь да близок, а самый близкий от чего-нибудь да отдален. Козьма Прутков Яр tfi θ() ta θ ι Рис. 1 Полезно подчеркнуть, что номинация ошибки как I или II рода зависит от того, какая из возможностей принимается за гипотезу, а какая — за альтернативу. Если поменять их местами, то изменятся и названия ошибок. § 1. ОШИБКИ I И II РОДА Пример 1. Рассмотрим модель Xi ~ Λί(θ1σ2)1 где дисперсия σ2 известна, а математическое ожидание Θ — нет (см. пример 2 гл. 11). Для проверки гипотезы Н0: θ = θο можно применить критерий, основанный на статистике Τ (Χι,... , Χη) = X. Если Щ верна, то X ~ М(во^2/п). Найдем критическое значение ta из условия α = Ρθο(Χ^ία): α = ρθο fy/n(X-0o) ^ y/n(ta-0o)\ =1_φ fy/n(ta-0o)\ ^ где Ф(х) — функция распределения закона Af(0,1). Обозначив р-квантиль этого закона (т. е. решение уравнения Ф(х) = р) через жр, получаем ta = θο + σχι-a/Vn. (1) Если значение выборочного среднего χ ^ ία, то гипотеза Щ отвергается. Понятно, что если она верна, то неравенство X ^ ta выполняется с вероятностью а. Отвергая в этом случае верную гипотезу #о, мы совершаем так называемую ошибку I рода. С другой стороны, может оказаться, что на самом деле верна не гипотеза Я0, а ее альтернатива Н\: θ = 0ι, где, скажем, θ\ > 9q. Если при этом случится, что χ < tai то мы примем ошибочную гипотезу if о вместо if ι. Тем самым мы допустим ошибку II рода. Найдем вероятность β ошибки II рода для рассматриваемой модели. Когда верна альтернатива, выборочное среднее X распределено по закону Ν(θ\,σ2/п). Поэтому из равенства (1) имеем (2) β=?θΛχ<^=φ(^-θι))=φ(χι-α-^φΙ-θο)). Наглядный смысл вероятностей а и /3 показывает рис. 1, где приведены графики плотностей распределения среднего X при гипотезах Я0иЯь В общем случае для параметрической статистической модели {F(#,0),0 е θ} в множестве θ выделяются два непересекающихся
§ 1. Ошибки I и II рода 181 подмножества θο и θι. Предполагается, что компоненты выборки X = (Χι,... ,ХП) имеют функцию распределения F{xfi), где θ принадлежит одному из этих подмножеств. Гипотеза Щ заключается в том, что θ £ θο, а альтернатива Н\—ъ том, что θ £ θ\. Когда множество θο (θι) состоит из единственной точки, гипотеза Но (альтернатива Hi) называется простой, иначе — сложной. Чтобы задать критерий уровня а, укажем в Rn критическое множество Ga такое, что Р#(Х Ε GQ) < α при всех θ Ε θο·*^ Вероятность ошибки II рода такого критерия β = β(θ) = Ρ θ (Χ φ Ga) при θ Ε θ\. Функцией мощности критерия называется W{9) = 1 - β(θ) = ΡΘ(Χ 6 Ga), θ 6 θχ. Так, если критерий из примера 1 использовать для проверки простой гипотезы Н0: θ = θ0 против сложной альтернативы #ι: θ > 0о> то из формулы (2) с учетом симметрии функции распределения Ф(х) находим (рис. 2) W(0) = 1_ф(Ж1_а_^(^ А 1- w(ey a 7 / 1 / 1 1 ! I θο θ Рис.2 Когда \¥(θ) ^ α при всех θ € θι, критерий называется несмещенным. Несмещенность означает, что попадание в критическое множество Ga (и, следовательно, — отвержение гипотезы Н0) при справедливости любой из альтернатив не менее вероятно, чем попадание в него при выполнении if о, т. е. правильное отвержение имеет не меньшую вероятность, чем неправильное. Если для любого θ Ε θι функция мощности \¥(θ) —► 1 при η —> оо, то критерий называется состоятельным. Вопрос 1. При непараметрическом подходе в множестве всех функций примераИ1 ^аГне^мещен- распределения выделяются два непересекающихся класса: класс ным, 6) состоятельным против сложной альтерна- гипотез и класс альтернатив. тивы#1:0>0о? Следующий пример содержит критерий для проверки сложной гипотезы показательности распределения элементов выборки, настроенный против непараметрических альтернатив определенного вида. Пример 2. «Новое лучше старого» (Холлендер—Прогиан), см. [88, с. 260]. Допустим, что времена Χι работы прибора до г-го отказа (г = 1,... ,п) образуют выборку из некоторого непрерывного закона. Нас интересует гипотеза Но: Ρ(Χι ^ х + у | Х\ ^ х) = Р(Х\ ^ у) для всех #,у ^ 0. (3) (Здесь Р(А\ В) — условная вероятность события А при условии события В (см. П7).) Гипотеза (3) означает, что вероятность отсутствия поломок за дополнительный период времени у при условии, *) То есть формально статистикой критерия (см. § 1 гл. 12) является индикатор множества Ga.
182 Глава 13. Альтернативы Φ. Прошан (см. [88, с. 262]) пишет: «Тенденция к удлинению интервалов, если она выявлена, может быть результатом опыта эксплуатации, доводки или смены поврежденных частей, а тенденция к их сокращению — напротив, может быть результатом износа, старения или плохого технического обслуживания». что прибор уже проработал в течение периода времени #, равна вероятности того, что новый (еще не работавший) прибор прослужит начальный период времени у. Утверждение о том, что это верно для всех #,у ^ 0 эквивалентно утверждению о том, что работающие приборы любого «возраста» не лучше и не хуже, чем новые. Гипотеза Щ равносильна сложной параметрической гипотезе показательности: Р(Х\ ^ х) — е~9х при некотором θ > 0. Легко убедиться, что показательности достаточно для выполнения гипотезы Щ: при любых #,у ^ 0 Р(Хг >х + у\Х1^х)=е-в <*+*> /е~вх = е'9* = Ρ(Χι > у). Необходимость доказать сложнее (см. [81, с. 475]). В качестве альтернатив рассмотрим два класса законов. а) «Новое лучше старого»: Н1:Р(Х1^х + у\Х1^х)^Р(Х1^у) для всех ж,у ^ 0, (4) причем хотя бы для некоторых #,у ^ 0 неравенство (4) строгое. б) «Новое хуже старого»: Н2: Р{Х\ >x + y\Xi>x)> P(Xi > у) для всех ж,у ^ 0, (5) причем хотя бы для некоторых #,у ^ 0 неравенство (5) строгое. Упорядочим величины Xi по возрастанию: X(i) < Х(2) < ... < ^(госстатистикой критерия Холлендера—Прошана является величина /, Тп= Σ V>(X(i)>XC?)+X(*o)> где V>(<M>) = < i>j>k I I u« cum u s u. V 7 (Суммирование здесь производится по всем п(п — 1)(п — 2)/6 упорядоченным тройкам (г j,fc), для которых г > j > к.) Поясним, почему Тп можно использовать в качестве статистики критерия для проверки гипотезы Н0 против альтернативы Hi (или Яг). Положим Г(х,у) = Р(Хг Ζ χ) Ρ(Χι > у) - Ρ(Χι > χ + у). Заметим, что Т'(х,у) = 0 для всех #,у ^ 0 тогда и только тогда, когда гипотеза Но (3) верна. Оказывается, (линейно связанная с Тп) статистика Т* = 1/4 — 2Тп/[п(п — 1)(п — 2)] служит оценкой для параметра A(F) = МТ"(Х',У), где X' и У' независимы и имеют распределение (времени безотказной работы) F. Мы можем рассматривать Т'(х,у) как меру отклонения от Но в точке (#,у), a A(F) — как среднее значение этого отклонения. Когда распределение F соответствует Hi (4) и непрерывно, параметр A(F) положителен. Если выборка берется из такой совокупности, величина Т* возрастает (что эквивалентно убыванию Тп). 1, 1/2, 0, если а > Ъ, если α = Ь, если α < Ъ.
§2. Оптимальный критерий Неймана,—Пирсона, 183 В [88, с. 432] приведена таблица критических значений Тп для η ^ 50. Для достаточно большой выборки можно воспользоваться нормальным приближением: (Тп — MTn)/y/DTn —* ξ ~ ЛГ(0,1), где ΜΤη = η(η-1)(η-2)/8, DTn = |n(n-l)(n-2) ^(n-3)(n-4) + ^(n-3) + l Известно (см. [88, с. 264]), что критерий состоятелен против if ι, #2· Применим его для проверки показательности четвертого столбца таблицы Т1 равномерных на [0,1] случайных чисел (см. задачу 2 гл. 12). Для равномерного закона справедлива альтернатива #ι (проверьте!), поэтому есть надежда отвергнуть Я0. Прежде, чем использовать критерий «Новое лучше старого», рекомендуется убедиться, что величины Х{ образуют случайную выборку из общей совокупности, т. е. проверить их независимость и одинаковую распределенность. Одним из способов проверки этого является критерий, основанный на асимптотической нормальности числа инверсий Дп в выборке (см. пример 2 гл. 7). Значение статистики (Rn — MRn)/y/DRn для четвертого столбца Т1 равно —0,389. Ему соответствует фактический уровень значимости (см. § 1 гл. 12) olq = 0,697. Следовательно, гипотеза случайности не отвергается. Вычисленная на компьютере статистика Холлендера—Прошана Тп приняла значение —3,16, что значимо мало на уровне а = 0,002. §2. ОПТИМАЛЬНЫЙ КРИТЕРИЙ НЕЙМАНА-ПИРСОНА При сравнении двух критериев уровня а, заданных при помощи критических множеств G'a и G£, лучшим будет тот, у которого мощность больше. Если альтернатива сложная, то (как и при сравнении точности оценок (см. § 3 гл. 6)) возникает проблема сравнения двух функций W'{0) и Wn{9) (рис. 3). В случае проверки простой гипотезы Н0 против простой альтернативы Hi ситуация проще: существует наиболее мощный критерий и можно явно указать его критическое множество G*. Прежде чем строго сформулировать и доказать этот результат ), обсудим подробнее проблему выбора критического множества. Для модели из примера 1 возьмем внутри диапазона «типичных» значений статистики X при справедливости гипотезы Щ маленький отрезок Δ такой, что Ρθ0(Χ G Δ) = α (рис. 4). В свою очередь, если для критерия с критическим множеством {х G Rn: χ ^ ta} сдвигать границу ta вправо для уменьшения ι' OL- \ W\Q)y/y^ yyWn{Q) ► 00 Рис. 3 Вопрос 2. Чем плох критерий, задаваемый соответствующим критическим множеством {x€Rn: χ€Δ}? *) Впервые он был получен Ю. Нейманом и Э. Пирсоном в 1933 г.
184 Глава 13. Альтернативы Рис. 4 Ничего не доводи до крайности: человек, желающий трапезовать слишком поздно, рискует трапезовать на другой день поутру. Козьма Прутков В. Гейзенберг (1901-1976), немецкий физик. М. Планк (1858-1947), немецкий физик. Байка. Студент на экзамене по физике, записав формулу для величины кванта энергии света E = hi/, сообщил, что ι/—это постоянная Планка. На вопрос «Что же тогда обозначает здесь Н1у> был немедленно дан ответ: «Высоту этой планки». Боюсь,... чтоб множество не накоплялось... Фамусов в «Горе от ума» А. С. Грибоедова H2>\Pi(*i)=Pi Рис. 5 величины α ошибки I рода, то дополнение к критическому множеству {х € Μη: χ < ta} будет увеличиваться, и соответствующая величина ошибки II рода β будет возрастать. Таким образом, не удается добиться того, чтобы α и β были обе сколь угодно малы при фиксированном размере выборки η (Тришкин кафтан). Проблема напоминает принцип неопределенностей в квантовой физике, сформулированный в 1927 г. Гейзенбергом: невозможно одновременно сколь угодно точно определить положение и скорость элементарной частицы (см. [14, с. 28]). Для погрешностей измерения координаты Ах и импульса Ар выполняется соотношение неопределенностей Ах · Ар ^ h, где h обозначает постоянную Планка (Ь«6,626-10-34Дж-с). Если за ошибку I рода приходится платить цену Са, а за ошибку II рода —цену С/?, то критическое множество можно постараться выбрать так, чтобы минимизировать «взвешенные» общие затраты аСа + βΟβ (см. задачу 1). Не всегда реальное значение ошибок сводится к величине общих затрат. Например, в случае проверки на основе результатов медицинских анализов гипотезы if о, состоящей в том, что пациент болен, против альтернативы if ι, что он здоров, ошибка I рода приведет к тому, что не будет оказана врачебная помощь больному человеку, а ошибка II рода — к тому, что станут лечить здорового. В этой ситуации более верным представляется следующий подход: при заданной (достаточно малой) вероятности ошибки I рода а постараться уменьшить вероятность ошибки II рода β насколько возможно за счет подбора критического множества. Для выборки X = (Χι,... ,ХП) и множества G Ε Rn положим Pk(G) = Pek(X £ G) для к = 0 и 1. Тем самым, гипотеза Но и альтернатива Hi порождают в Rn меры Р0 и Pi. В этих обозначениях задача сводится к нахождению множества G* такого, что Po(G*) ^ α, a Pi(G*) была бы как можно больше. Пример 3 [38, с. 216]. Рассмотрим дискретную модель, в которой при гипотезе Но мера Pq равномерно распределена на конечном множестве из Μ точек {a?i,..., хм} в Rn, а при альтернативе Hi j-ft точке приписана вероятностная масса Pi(xj) = Pj, j = 1,... ,Μ. Тогда для а = k/N любое подмножество из к точек задает критерий уровня а (рис. 5). Чтобы максимизировать мощность (вероятностный вес) этого подмножества при альтернативе #ι, очевидно, надо упорядочить величины pj по убыванию и набрать в критическое множество к точек с наибольшими pj. Немного усложним модель, предположив, что при справедливости гипотезы Но точки Xj имеют вероятностную массу qj = rrijS. Можно мысленно представить, что j-я точка («молекула») состоит
§ 2. Оптимальный критерий Неймана—Пирсона 185 из щ частей («атомов») массы δ при гипотезе Но и массы Pj/rrij при альтернативе Hi. Оптимальное критическое множество из «атомов» строится так же, как и раньше. Причем, поскольку для «атомов» фиксированной «молекулы» отношение Pj/rrij одно и тоже, можно считать, что при упорядочении они идут подряд. В результате видим, что оптимальное критическое множество «молекул» строится на основе включения в него точек с наибольшим отношением — = — $, другими словами, — с наибольшим отноше- rrij qj нием вероятностей (правдоподобий) Pi(xj)/Po(xj)- Для абсолютно непрерывной модели имеет место то же самое, только отношение вероятностей заменяется на отношение плотностей Pi(x)/po(x) выборки X при Hi и Щ. Для строгой формулировки теоремы Неймана — Пирсона рассмотрим для с ^ О систему вложенных множеств Gc = {х € Rn: Pi{x)/po(x) ^ с} (рис.6) и определим функцию <р(с) = Po(Gc)· Тогда φ(0) = 1 и <р(с) может только убывать с ростом с. Покажем, что φ(ό) ^ 1/с —► 0 при с —► оо. Действительно, 1 ^ Pi(6?c) = pi(x)dx ^ с po(x)dx = cPo(Gc) = с<р(с). (β) Потребуем выполнения двух условий: 1) плотности ро(х) и ρι(χ) положительны при всех ж€Кп; 2) для заданного уровня значимости а € (0,1) существует с = са, для которого v?(ca) = а (это всегда выполняется, если функция <р(с) непрерывна). Теорема 1 (Нейман—Пирсон). При сделанных предположениях 1 и 2 наиболее мощный критерий уровня а задается критическим множеством G* = GCa ={xe Rn:Pl(x)/p0(x) ^ с*}. (7) Доказательство. Пусть G — критическое множество некоторого критерия уровня а. Согласно определению множества G и условию 2 P0(G) < а = P0(G*). (8) Обозначим через 1(х) и /*(ж), соответственно, индикаторы множеств G и G* и рассмотрим функцию /(х) = (Г (х) - 1(Х)) Ых) - СаРо(х)). (9) Покажем, что она неотрицательна при всех χ £ Rn. В самом деле, при χ € G* оба сомножителя в формуле (9) неотрицательны: первый —так как 1*(х) = 1, а второй —по определению (7). При χ ф G* первый сомножитель в формуле (9) равен —1(х) ^ 0, Товарищи ученые, доценты с кандидатами! Замучились вы с иксами, запутались в нулях. Сидите, разлагаете молекулы на атомы... В. Высоцкий Рис. β
186 Глава 13. Альтернативы а ввиду определения (7) и второй сомножитель неположителен. Поэтому (К \f(x)dx = \I*(x)pi(x)dx- \I(x)pi(x)dx- I*(χ)Ро(х)dx - \I(x)po(x)dx\ = -cQ = Pi(G*) - Pi(G) - cQ [P0(G*) - P0(G)]. Отсюда и из неравенства (8) вытекает, что Pi(G*) ^ Pi(G). ■ В учебнике [38, с. 219] доказано, что если мера Лебега множества {х: Pi(x)/po(x) = с} равна нулю, то G* является единственным наиболее мощным критическим множеством критерия уровня a с точностью до подмножества Rn лебеговой меры нуль (контрпример см. в задаче 5). Покажем, что при выполнении условий 1 и 2 критерий Неймана — Пирсона является строго несмещенным. Теорема 2. Для множества G*, задаваемого формулой (7), справедливо неравенство Pi(G*) > a. Доказательство. Если в формуле (7) константа cQ > 1, то из соотношения (6) следует, что Pi(G*) ^ cQP0(G*) = caa > a. При ca ^ 1, поскольку pi (ж) < caPo(x) ^ Ро{х) при χ eG , имеем Pi(G*) = l- \pi(x)dx>l- \po(x)dx= \p0(x)dx = a. G* G* G* Итак, в любом случае Pi(G*) > α, что и требовалось доказать. ■ Укажем множество G* для модели примера 1. Ввиду (7) найдем Ρι(χ)/ρο(χ) = ехр |- ± Σ [(*» - 0ι)2 " (*i " 0o)2]} = = expj^01-0o)x-i^(02-0o2)}. Неравенство Pi(x)/po(x) ^ ca эквивалентно неравенству χ^σ2 lnca/[n(0i - θ0)\ + (Θι + 0ο)/2. (10) Отсюда заключаем, что критерий примера 1 является наиболее мощным при ία, равном правой части неравенства (10). Из формулы (1) можно найти соответствующее значение са. Отметим, что граница ta в равенстве (1) не зависит от θ\. Поэтому мощность рассматриваемого критерия максимальна при любом θ ι > #ο· Другими словами, критерий является равномерно наиболее мощным против сложной альтернативы Ηι: θ > 6q.
§ 3. Последовательный анализ 187 §3. ПОСЛЕДОВАТЕЛЬНЫЙ АНАЛИЗ Приведем небольшой отрывок из [72, с. 120], посвященный истории возникновения последовательного анализа. «В классической теории математической статистики предполагается, что элементы выборки (наблюдения) заранее известны. В основе одного из важнейших направлений современной статистики лежит понимание того, что не нужно фиксировать заранее объем выборки, его следует определять в зависимости от результатов более ранних наблюдений. Таким образом, о^ь^м аы<к*ркк сяучаек. Эта кдея последовательного выбора постепенно развивалась в работах Г. Доджа и Г. Ромига (1929 г.), П. Махаланобиса (1940 г.), Г. Хотеллинга (1941 г.) и У. Вертки (1943 г.), но настоящим основателем теории последовательного анализа в математической статистике является А. Вальд (1902-1950 гг.). Его последовательный критерий отношения правдоподобия (1943 г.) стал важным открытием, позволившим (в типичных ситуациях) на 50% уменьшить среднее число наблюдений (при тех же вероятностях ошибок). Неудивительно, что в годы второй мировой войны открытие Вальда было объявлено «секретным». Его основная книга «Последовательный анализ» опубликована лишь в 1947 г. Год спустя Вальд и Дж. Волфовиц доказали, что методы, отличные от последовательного критерия отношения правдоподобия, не дают такого уменьшения числа элементов выборки.» Рассмотрим последовательный критерий Вальда в случае, когда элементы выборки Χι при гипотезе Н$ имеют известную плотность ро(х) > 0, а при альтернативе Η ι — известную плотность Ρι(χ) > 0. Определим случайные величины Ζι = 1η(ρι(Χ;)/ρο№))· Потребуем, чтобы и при гипотезе Я0, и при альтернативе #ι были выполнены два условия: 1) ΜΖι ^ 0, 2) 0 < DZi < оо. Положим So = 0, Sk = Z\ + ... + Zfc, к = 1,2,.... Случайная величина Sk представляет собой координату «блуждающей частицы» после к независимых и одинаково распределенных «шагов» Zi случайного блуждания по прямой. Пусть Sk — это наблюдавшиеся значения величин Sk- На рис. 7 изображена возможная траектория (развертка во времени) случайного блуждания — ломаная, соединяющая точки плоскости с координатами (&,$&). Последовательный критерий Вальда состоит в следующем. Задаются константы со < 0 и ci > 0, и наблюдения продолжаются до момента выхода ν блуждания s^ из интервала (co,Ci). Если sv ^ со, то принимается гипотеза if о; если sv ^ Ci, то принимается альтернатива Н\ (см. рис. 7). Может ли блуждание продолжаться как угодно долго? Теорема 3. При выполнении указанных выше условий 1-2 про- „ _ \ Доказательство теоремы цедура Вальда с вероятностью 1 заканчивается за конечное число можно найти в [32, с. 149] шагов ι/, причем моменты Мик < оо для всех к ^ 1. или Р8· с· 2321-
188 Глава 13. Альтернативы Замечание 1. Первое утверждение теоремы интуитивно понятно вследствие условия 1, приводящего (ввиду закона больших чисел) к систематическому «сносу» блуждания и выходу его из интервала (co,ci) за время порядка Ci/MZi при ΜΖι > 0 и порядка co/MZi при ΜΖι < 0. Как вероятности α и /3 ошибок I и II рода критерия Вальда связаны с константами со и С\1 Ответ дает следующая теорема. Теорема 4. Зададим о! > 0 и /3' > 0, удовлетворяющие условию α' + β' < 1. Возьмем О = In [/?'/(!-<*% с1 = In [(1 -β')/α'}. (11) Тогда для вероятностей а и β выполняются неравенства α ζ а'/{\ - β'), β ^ /37(1 - α')> α + β ^ ο! + /3'. (12) Замечание 2. Эти неравенства показывают, что каждая из вероятностей а и /3 может лишь незначительно превысить а' и β', соответственно, когда последние малы. (Например, для а' = /3' = 0,1 граница сверху равна 1/9 « 0,111.) Кроме того, сумма а + /3 вероятностей ошибок не может превзойти задаваемую величину а'+/3'. Доказательство. Обозначим через А^ (А^) множество тех результатов наблюдений (жι,... ,жп), для которых процедура заканчивается на шаге η (у = п) принятием гипотезы #о (альтернативы #ι). Например, ^п = {(^ь... ,хп): со < 5fc < сь А: = 1,... ,п - 1, sn < со}. (13) При гипотезе Но в силу теоремы 3 справедливо равенство оо оо ΣΡο(^°)+ΣΡο(^) = ι. (14) 71 = 1 71=1 Так как в точках множества А^ согласно определению (13) вы- 71 71 полняется неравенство sn ^ со 4=> Πρι(^) ^ ^ο Π Ρο(#ΐ)> где г=1 г=1 do = ехр{со} = /3'/(1 — &'), то из соотношения (14) имеем оо оо / оо \ β= Σ Ρι«Κ<*οΣ Po(A°n) = do 1- Σ Po(4,))=do(l-a). 71=1 71=1 \ 71=1 / Аналогично доказывается, что a < (1 - /3)/db где di = exp{Cl} = (1 - β*)/a/. Из этих двух неравенств, соответственно, выводим соотношения β < (1 -α)0'/(1- α') ζ /37(1-00, α<(1-/3)α7(1-/30<«7(1-/?0· Складывая неравенства /3' — /З'а ^ /3 — Ыβ и —а + а/3' ^ —а' + а'/З, получаем а + /3 ^ а' + /3'. ■
§ 3. Последовательный анализ 189 Замечание 3. Сравним критерии Вальда и Неймана — Пирсона. Во-первых, у последнего заранее фиксируется число наблюдений п, и решение отвергнуть гипотезу Н0 принимается в случае попадания конечной точки блуждания sn в множество [1пса,оо) (рис. 8). Во-вторых, для определения са по вероятности а ошибки I рода надо знать распределение статистики критерия Неймана—Пирсона при справедливости гипотезы Я0, в то время как для расчета границ со и С\ критерия Вальда для заданных α и β не возникает проблемы отыскания распределений. Информация о плотностях Ро(х) и р\(х) требуется только для вычисления математического jnCa ожидания числа наблюдений ν до принятия решения. Вычисление опирается на теорему 5. Теорема 5 (тождество Вальда). При условии конечности величин ΜΖι и Μι/ справедливо тождество MSU = ΜΖι ·Μν. Контрпример. Это тождество справедливо не для всякого случайного момента остановки блуждания. Пусть Ρ(Ζι = —1) = = Ρ(Ζι = 1) = 1/2, ι/ = min{n: 5n = -1}. Тогда Ρ(ι/ < oo) = 1, но Mi/ = oo (см. теорему 2 гл. 14). Поскольку ΜΖι = 0, MS„/ = —1, слева получаем —1, а справа — неопределенность вида 0 · оо. Доказательство. Положим Yn = I{co<sk<cuk=i,...tn-i} = 1{ν>η}- oo oo Ввиду формулы 3 гл. 1 Mz/ = ΣΡ(ν ^ η) = J2MYn. Как функция 71=1 71=1 только от Ζι,...,Ζη_ι случайная величина Yn не зависит от Ζη. Отсюда оо оо η оо оо ms„ = Σ м sni{u=n) = Σ Σ м zki{u=n} = Σ Σ Μ zki{v=n) = η=1 η=1fc=l fc=ln=fc oo oo oo oo fc=l n=fc fc=l fc=l Здесь первое равенство и перемена порядка суммирования законны благодаря абсолютной суммируемости соответствующих рядов (см. [41, с. 343, 365]): оо оо оо оо Σ Σм\zk\i{v=n) = Σм\zh\Yk = Σμ|ζ*|·мп = fc=ln=fc fc=l fc=l = Μ|Ζι|·Μι/<οο в силу условий теоремы (ΜΖι конечно <==> Μ|Ζι| < оо). ■ Пусть заданы малые вероятности а и β ошибок. На основе замечания 2 они примерно равны константам о! и β1 из теоремы 4. Так как длина интервала (со, ci) при малых а' и /3' будет большой, a MZi конечно, то можно пренебречь величиной «перескока» случайным блужданием границы в момент остановки, т. е. считать, что Sv « Cj, если принимается гипотеза ifj, j = О, 1. Эти рассуждения Рис. 8
190 Глава 13. Альтернативы Более точные аппроксимации см. в [11, с. 360], [12, с. 223]. приводят к приближенным равенствам MS,, « со(1 — а) + cia, если верна гипотеза Я0, MS„ « со/3 + ci(l — /?), если верна альтернатива Щ. Применяя тождество Вальда, отсюда получаем ЬЛ0и ср(1 - a) + cia bAoZi Mil/ : cq/? + ci(1-/?) M!Zi (15) Выясним, насколько последовательная процедура Вальда экономичней критерия Неймана — Пирсона для модели примера 1. Прежде всего, выразим явно Zi через Х^. z =]nM*i) = (Хг-е0)2-(Хг- Po(Xi) 2σ2 Поэтому если верна Hj (j принимает значения 0 и 1), то M*Zi = 01 — θο L _ *°±*ιΛ = (_i)i+i № -θο)2 2σ* (16) Для критерия Неймана — Пирсона (см. задачу 3) с теми же вероятностями ошибок а и β необходимое число наблюдений п* равно [σ(χα + χρ)/(θι — θο)]2 (с точностью до 1), где хр обозначает р-квантиль закона ЛГ(0,1). Возьмем для простоты а = β. Из формул (11), (15) и (16) следует, что экономичность критерия Вальда равна Е(а) = ЪЛои ЬА\и 1 - 2а , 1 - а 2a£ а (17) Не во всякой игре тузы выигрывают! Козьма Прутков Что ни толкуй Вольтер или Декарт — Мир для меня —колода карт. Жизнь —банк: рок мечет, я играю, И правила игры я к людям применяю. М. Ю. Лермонтов, «Маскарад» При a = 0,05 по таблице Т2 находим ха « —1,645. Подставив эти значения в формулу (17), получаем £(0,05) w 0,49. Таким образом, в данном случае для принятия решения с помощью последовательного критерия Вальда потребуется в среднем примерно вдвое меньше наблюдений, чем для оптимального критерия Неймана — Пирсона с заранее фиксированным размером выборки (см. также задачу 4). Можно доказать, что критерий Вальда минимизирует средний размер выборки по сравнению с любым другим последовательным критерием, имеющим те же или меньшие вероятности ошибок I и II рода (см. [11, с. 358]). §4· РАЗОРЕНИЕ ИГРОКА Представим, что два противника принимают участие в игре, состоящей из большого числа независимых партий. Вероятность выигрыша первого игрока в каждой из партий равна р, а второго — q = 1 — ρ (ничьих не бывает). Плата за проигрыш в одной партии равна 1. Начальный капитал первого игрока составляет А:,
§ 4. Разорение игрока 191 второго— (Μ — к). Игра прекращается, когда один из участников проиграет все наличные. Ход игры можно наглядно представить при помощи поднятой на к единиц вверх траектории случайного блуждания 5П = = Ζ\ + Ζ<ι + ... + Ζη, где «шаги» Zi независимы, Ρ {Ζι = 1) = ρ, Ρ(Ζ{ =—l)=q (рис. 9). Величина (Sn+к) — капитал первого игрока после η сыгранных партий. Считая суммарный капитал игроков Μ заданным, найдем г к — вероятность разорения первого игрока. Перенесем начало координат на рис. 9 в точку (О,А:). Обозначим через и момент окончания игры (разорения одного из игроков). Поскольку ΜΖι = ρ — q и DZi = 1 — (ρ — q)2 < оо, при ρ φ 1/2 выполняются условия теоремы 3. Следовательно, Ми < оо. Докажем, что в случае ρ = 1/2 (ΜΖι = 0) Ми также конечно. Приведем, следуя [12, с. 90], доказательство для четного Μ = 2т. Пусть Ζ = min{fc,M — k}. Тогда с вероятностью 2~l ^ 2~т игра может закончиться за I партий. Поскольку в течение игры суммарный капитал Μ не меняется, разбивая блуждание на независимые отрезки длины т, видим, что Р(и > т) < 1-2"т,..., P(v > jm) ^ (l-2~m)J'. Но вероятности Р(г/ > г) убывают с ростом г, а при г = jm (j = 1,2,...) мажорируются членами геометрической прогрессии со оо знаменателем 7 = 1 — 2~т. Поэтому ряд JZ Р(и > *) сходится. г=0 Согласно формуле (3) гл. 1 его сумма равна ЬЛи. Конечность Ми обеспечивает законность всех переходов доказательства теоремы 5 (тождества Вальда) из § 3. Запишем его при ρ = 1/2 для со = -fc, ci = Μ - k, rk = Р(5^ = со): Su = con + ci(l - rfc) = MZi · Mi/ = 0 · Mu = 0. Отсюда находим т> = 1 — fc/M, т. е. шансы на выигрыш прямо пропорциональны величине начального капитала. Получим этот ответ другим способом — разложением по первому тагу блуждания (рис. 10). С учетом формулы полной вероятности (П7) интуитивно понятно, что вероятности г\~ должны удовлетворять рекуррентным соотношениям rfc=prfc+i-rgrfc_i, fc = l,...,Af-l, (18) с граничными условиями г0 = 1, гм — 0 (строгий вывод см. в [39, с. 39]). В случае ρ = 1/2 можно переписать соотношение (18) в виде rfc+i — г& = г\~ — γ^_ι, из которого следует, что точки плоскости (fc,rfc) лежат на одной прямой г к = А + Вк (рис. 11). Из граничных условий вытекает, что А = 1, В = —1/М. Прежде чем рассматривать случай ρ φ 1/2, обсудим аналогию между соотношением (18) и краевой задачей для дифференциального уравнения второго порядка у"(х) = f(x,y), у(х0) = а, у(х\) = Ь. (19) Рис. 9 Случай нечетного Μ разберите самостоятельно. Рис. 10 Ifc Ifc+i -1kk+ΙΜ Рис. 11
192 Глава 13. Альтернативы Я больше всего дорожу аналогиями, моими самыми верными учителями. И. Кеплер Рис. 13 Вопрос 3. Какое значение Z*. представляется наиболее правдоподобным при ρ = 1/2 для к = 10 и Μ=20 (рис. 14)? При малом h > 0 производную первого порядка у' (х) можно приближенно заменить на так называемую конечную разность [у(х + h) — y(x)]/h. Производная второго порядка у" (х) аппроксимируется второй симметричной разностью у(х + h)- у(х) _ у(х) - у(х - h) h h у(х + h)- 2y(x) + у(х - h) h h2 (20) При р = 1/2 соотношение (18) имеет вид г&+1 — 2г& -f Vk-ι = 0, аналогичный виду правой части равенства (20), если положить ж = fc, у(х) = Гк и h = 1. Общим решением соответствующего дифференциального уравнения у" = 0 является у = А + Вх. Чтобы найти г к при ρ φ 1/2 (задача 6), можно использовать основную идею метода стрельбы, применяемого для численного решения краевой задачи. Предположим, что мы умеем численно решать задачу Коши у"(х) = /(ж,у), у(х0) = а, у'(х0) = с, (21) например, методом Эйлера из § 6 гл. 2 или Рунге — Кутты (см. [6, с. 439]). Фиксируем а и будем менять с. Обозначим через д(с) значение решения задачи (21) при χ = х\ из краевого условия задачи (19). Тогда численное решение краевой задачи (19) сводится к поиску корня с* уравнения д(с) = Ь. Так как значения д(с) мы умеем вычислять в пробных точках сп (рис. 12), то можно приближенно найти с* с помощью деления отрезка пополам или метода Ньютона из § 5 гл. 9. Рисунок 13 объясняет происхождение названия «метод стрельбы». Приведем ответ задачи 6: т> = (λΜ — Afc)/(AM — 1), где λ = q/p. Устремляя Μ к бесконечности, видим, что предел г к равен 1, если ρ ^ 1/2, и равен Afc, если ρ > 1/2. Таким образом, искусный игрок может с положительной вероятностью 1 — \к никогда не проиграть даже «бесконечно богатому» противнику. (Если он не проиграл из-за случайности сразу, то в дальнейшем его шансы уйти от поражения резко увеличиваются по причине «сноса» вверх траектории блуждания.) Найдем среднее время до разорения одного из игроков (среднюю продолжительность игры) Ik = Μ ζ/, к = 1,... ,Μ — 1. Рис. 14 10 20 30 40 50 60 70 80 Те же рассуждения, что и при получении соотношений (18), приводят для Ik к уравнениям 1к =plk+i+qh-i + 1, к = Ι,.,.,Μ- Ι, (22)
§ 5. Оптимальная остановка блуждалия 193 с граничными условиями ίο = 0> 1м = 0 (единица в правой части уравнения (22) добавлена потому, что одна партия уже была сыграна). Нетрудно проверить, что при ρ = 1/2 ему удовлетворяют Ik = k(M — к). Следовательно, при больших Μ и k « olM среднее время игры равных по силе противников имеет порядок М2. Этот результат становится менее удивительным, если принять во внимание центральную предельную теорему (П6), согласно которой траектория симметричного случайного блуждания 5П колеблется в среднем в пределах ±у/п. Иначе дело обстоит при ρ φ 1/2 (см. замечание 1 из § 3). §5. ОПТИМАЛЬНАЯ ОСТАНОВКА БЛУЖДАНИЯ Проведем небольшой вероятностный эксперимент. Пусть в начальный момент частица попадает с равными вероятностями в любую из Μ + 1 точек с целыми координатами отрезка [О, М]. Если частица оказывается в одном из концов отрезка, то выигрыш равен 0. В противном случае участник эксперимента должен принять решение: остаться в данной точке и взять приз, равный высоте столбика над этой точкой (рис. 15 для Μ = 7), или же подбросить симметричную монетку и переместить частицу на 1 влево, если выпадет герб, и на 1 вправо, если выпадет решка. После этого снова можно или взять приз, или сделать еще один «случайный шаг» и т. д. Если в результате перемещения частица попадет в концевую точку отрезка [0, М], то блуждание принудительно останавливается, и выигрыш оказывается равным 0. Проблема состоит в выборе стратегии, приносящей участнику эксперимента максимальный средний выигрыш. Ответьте на вопрос 5. Предположим, что в начальный момент частица оказалась в точке с абсциссой 6 на рис. 15. Ответьте на вопрос 6. Давайте проведем моделирование. Прежде всего, разыграем начальное положение частицы. Для этого откройте какую-нибудь книгу «случайным образом» и обратите внимание, скажем, на вторую ) цифру справа номера правой страницы. Если эта цифра окажется больше 7, то открывайте книгу до тех пор, пока она не попадет в множество {0,1,... ,7}. Возьмите ее в качестве начальной координаты частицы на рис. 15. Если частица оказалась в 0 или 7, то выигрыш равен 0, и моделирование закончено. В противном случае надо принять решение: взять приз или начать блуждание. Если выбрано второе, то снова надо открыть «случайным образом» книгу и переместить частицу на 1 влево или вправо, в соответствии с тем, оказалась ли вторая справа цифра номера меньше 5 или нет. После перемещения надо или взять приз, или продолжить Вопрос 4. Чему равно Μι/ при р# 1/2? (Используйте для его вычисления тождество Вальда.) 4 3 2Н 1 0' 12 3 4 5 6 7 Рис. 15 *) Первые справа — всегда нечетные, а третьи — слишком медленно меняются. 01 Μ Рис. 16 Вопрос 5. Стоит или нет останавливаться, если частица находится в точке, указанной стрелкой на рис. 16? Вопрос б. Какая из двух стратегий в данной ситуации лучше: сразу взять приз или сделать ровно один «случайный шаг» и взять приз?
194 Глава 13. Альтернативы случайное блуждание и т. д. Если при этом частица попадет в О или 7, то моделирование прекращается с нулевым выигрышем. (Повторите моделирование 4 раза, каждый раз разыгрывая заново начальное положение частицы, и подсчитайте общий выигрыш.) Давайте рассмотрим некоторые стратегии. Стратегия «Никогда» Если никогда не брать приз, то в соответствии с задачей о разорении игрока из § 4, частица с вероятностью 1 рано или поздно попадет в один из концов отрезка, где выигрыш равен нулю. Стратегия «Сразу» Очевидно, что средний выигрыш при немедленной остановке в начальном положении составляет (О+ 2 + 3 + 4 + 6 + 4 + 1 + 0)/8 = 20/8. Стратегия «Все или ничего» При использовании такой стратегии блуждание продолжается до момента попадания или в точку 4 с максимальным выигрышем, равным 6, или до «поглощения» на одном из концов отрезка с нулевым выигрышем. Для подсчета среднего выигрыша воспользуемся свойством 1 условного математического ожидания (П7), в котором роль условия будет играть начальное положение. Рассмотрим, например, случай, когда в начальный момент частица оказалась в точке 5. Тогда блуждание до попадания либо в 4, либо в 7 представляет собой задачу о разорении игрока при ρ = 1/2, имеющего начальный капитал к = 7 — 5 = 2, в то время как суммарный капитал двух игроков Μ = 7 — 4 = 3. В§4 было доказано, что вероятность разорения игрока т> = 1 — к/М. Отсюда 1 2 находим условный средний выигрыш 0 · « + 6 · « = 4. Аналогично, перебирая все возможные начальные положения от 0 до 7, легко подсчитываем безусловный средний выигрыш: 6'(0+ϊ+5+!+1+Ι+3+0)/8=21/8· Наилучшая стратегия В [24] в качестве оптимальной для данной задачи приведена следующая красивая стратегия. Представим, что призовые столбики — это картонные полоски, приклеенные на лист бумаги. Закрепим кнопками резинку в концевых точках отрезка [0,М], оттянем ее вверх и отпустим (рис. 17). При этом столбики разделятся на два класса: такие, которые будут поддерживать резинку, и такие, над Вопрос 7. Чему равно среднее время до остановки при использовании стратегии «Все или ничего»? Вопрос 8. Чему равен максимальный средний выигрыш для столбиков, изображенных на рис. 15?
Решения задач 195 которыми резинка пройдет сверху, их не касаясь. (Мы наглядно построили то, что формально называется выпуклой оболочкой графика функции.) Оптимальная стратегия состоит в том, что нужно останавливаться в тот момент, когда частица попадет в точку, над которой располагается столбик из первого класса (на рис. 17 такие точки обведены кружками). ЗАДАЧИ 1. Каким следует взять ta для критерия из примера 1, чтобы минимизировать сумму a + /?? 2. Пусть выборка состоит из единственного наблюдения Х\ с плотностью р(х — Θ). Что представляет собой при разных значениях са критическое множество критерия Неймана — Пирсона для проверки гипотезы Щ: θ = 0 против альтернативы Ηι: θ = 1, если р(х) = [π(1 + х2)}~1 (плотность закона Коши)? 3. Докажите, что число наблюдений п*, обеспечивающее заданные вероятности а и β для модели примера 1, равно [σ(χα + Χβ)/(θι — θο)]2 (с точностью до 1), где хр обозначает р-квантиль закона ЛГ(0,1). 4. Вычислите предел при а —► О экономичности критерия Вальда Е(а), определяемой формулой (17), с помощью асимптотики 1 - Ф(х) ~ (ял/27г)-1 ехр{-я2/2} при χ —» +оо. 5? Дайте ответ на вопрос задачи 2 для модели сдвига показательного закона с плотностью р(х) = е~х1{х^0}. 6* Найдите вероятность т> разорения игрока при ρ φ 1/2 методом «стрельбы». Неусыпный труд препят- ства преодолевает. М. В. Ломоносов РЕШЕНИЯ ЗАДАЧ 1. В силу формулы (2) а + β = 1 - Φ (ж1-в) + Φ (si-α - у/п (0ι - θ0)/σ). (23) Положим для краткости с = у/п (θι — θο)/σ. Дифференцируя по χ = χι-α правую часть равенства (23), получим уравнение φ{χ) - φ{χ - с) = 0, (24) где φ(χ) = Φ'{χ) = —■== е~х /2 —плотность закона Л/ХО, 1). Так ν2π как φ(χ) — четная функция, строго убывающая при χ > 0, уравнение (24) имеет единственный корень х* = с/2. Подставив его в соотношение (1), найдем оптимальную границу ta = (0ο+0ι)/2. Другим доказательством может служить рис. 18, на котором а + β превосходит минимальную сумму на величину η. 2. Очевидно, оптимальное критическое множество задается неравенством ρι(χ)/ρο{χ) ^ с ф=ф (1 + х2)/[1 + (х - I)2] ^ с. Меньше читайте, меньше учитесь, больше думайте. Учитесь у учителей и в книгах только тому, что вам нужно и хочется узнать. Л. Н. Толстой Но Hi θο ta θι Рис. 18
196 Глава 13. Альтернативы График функции у(х) = Р\{х)/ро{х) приведен на рис. 19, где и = (л/5—1)/2 « 0,618 — «золотое сечение», ранее встречавшееся при решении задачи 5 гл. 1. Рис. 19 -3 -2 -1 0 1 + *г щимпиципип» Изменяя значение с от +оо до 0, видим, что критическим множеством является пустое при с > 2 + ус , точка при с = 2 + >*, отрезок при 1 < с < 2 + ус, луч при с = 1, два луча при 1 — ус < с < 1, прямая при 0 ^ с ^ 1 — ус. 3. В силу четности плотности закона ЛГ(0,1) для квантилей этого распределения верно тождество х\-а = — #α· Поэтому формулу (2) можно переписать в виде β = Φ (-χα - yfti (0i - θ0)/σ). (25) Применив обратную функцию Ф~1 к обеим частям формулы (25), получим равенство хр = — ха — у/п{в\ — θο)/σ, из которого следует доказываемое утверждение. 4. Выведем сначала саму асимптотику, следуя [81, с. 192]. Установим более сильный результат: для всех χ > 0 справедливо двойное неравенство (х'1 - х~3) φ(χ) < 1 - Ф(х) < χ~λφ(χ). (26) Оно легко доказывается интегрированием по лучу [#,оо) очевидного неравенства (1 - ЗаГ4) φ{χ) < φ{χ) < (1 + х~2) φ{χ), в котором участвуют производные с обратным знаком членов неравенства (26). Взяв натуральный логарифм от обеих частей равенства 1 - Ф{х) = х- V(x) (1 + о(1)) = -i= e-2/2 (ι + <,(!)), χ\/2π приходим к асимптотике 1п(1 - Ф(х)) = —х2/2 -In я - 1пл/27г + о(1) при χ —► +оо.
Ответы на вопросы 197 Теперь все готово, чтобы вычислить искомый предел: -1п(1-Ф(ж)) _ 1 lim E(a) = lim 0 = lim +о 2χί χ—>+οο 2χ2 5. Для χ > 0 отношение плотностей l(x) = Pi(x)/po(x) = = [e"x+1/{a;^i}] /[e~xI{x>o}] = el{x^i}' В частности, мера Лебега множества {χ: l(x) = е} равна бесконечности, и оптимальное критическое множество G* не определяется однозначно. Его можно представить в виде G' U G": в случае α < 1/е множество G пустое, G" —любое подмножество луча [1,оо) такое, что Po(G") = α (рис. 20); в случае α > 1/е в качестве G' годится ^^.Т.?0^ любое подмножество интервала (0,1) такое, что Ро(С) = а— 1/е, G" = [l,oo). 6. Аналогом производной у' (х) « [у (χ + /ι) — у (ж)]//ι является приращение Ak = rfc+i — τν Запишем соотношения (18) в терминах Afc: Ρ(η+ι ~ гк) = q(rk - rk-i) <=> Ak = λΔΛ_ι, где λ = q/p и к = 0,1,... ,М—1. Начальным условиям задачи Коши у(хо) = α и у'(#0) = с соответствуют го = 1 и Δ0 = с. Последовательно выражая Δ& через предыдущие, находим решение дискретной задачи Коши: Гк(с) = г0 + Δ0 + ... + Δ^_ι = 1 + с + сА + ...+ cAfc_1 = = l + c(Afc-l)/(A-l), если λ φ\. В соответствии с методом стрельбы, подберем константу с так, чтобы выполнялось второе краевое условие гм = 0. Получим с = — (λ — 1)/(λΜ — 1), что приводит при ρ φ 1/2 к ответу: rfc = 1 - (λ* - 1)/(λΜ - 1) = (λΜ - λ*)/(λΜ - 1). ОТВЕТЫ НА ВОПРОСЫ 1. Критерий будет несмещенным из-за возрастания функции Ф(х) и состоятельным, поскольку при θ > 0о W(fi) = Φ (y/n (θ - θ0)/σ - χι-α) -► 1 при η -^ οο. 2. Критерий плох тем, что он имеет вероятность ошибки II рода Пример наглядно де- β — Ρ* (Υ Φ К\ « 1 монстрирует характерное Ρ - Гвх [Л ψ Lb) ~ I. свойство азартных игр- они обычно длятся 3. Рисунок 14 подсказывает значение 1к ~ 50. На самом деле, как намного больше, чем доказано ниже, правильным ответом будет 1к = к(М-к) = 100. предполагалось. В [81, с. 367] выведена явная формула (восходящая к Лагранжу и многократно переоткрывавшаяся после) для вероятности разорения 1-го игрока в n-й партии υ. - _L Jn-k)/2 Jn+k)/2 Vk,n- M Ρ q I--(s)-(s)-(^)·
198 Глава 13. Альтернативы 6- 5 4 3 2 1 7 / / / / 4- _ -1 к— \ W V \ \ UiX 0 12 34 567 Рис. 21 На ее основе была вычислена таблица распределения времени до окончания игры ν при ρ = 1/2, к = 10 и Μ = 20: m Ρ(ι/ ^ πι) 20 0,053 40 0,235 60 0,400 75 0,495 100 0,634 150 0,803 200 0,894 300 0,969 В частности, медиана распределения μ « 75, но (в среднем) в каждом пятом случае ν будет больше, чем 150. 4. Mi/ = MSt//MZ1 = [-krk + (Μ - fc)(l - rfc)] /(ρ - q)> где rfc = = (λΜ — \k)/(XM — 1), λ = g/p (см. решение задачи 6). 5. Надо продолжать блуждание, так как и слева, и справа есть более высокие столбики. 6. Вторая стратегия в среднем вдвое выгодней, поскольку 4 · 1/2 + + 0-1/2 = 2. 7. Используя формулу Ik = к(М — к), получаем (0+1·3 + 2·2 + 3·1 + 0 + 1·2 + 2·1 + 0)/8 = 14/8 = 1,75. 8. Аналогично подсчету для стратегии «Все или ничего» из рис. 21 находим (0 + 2+[2.| + 6-|] +[2·| + 6.|] + +6 + 4+ [4 · | + 0 · |] +θ)/8 =22/8. Удалось ли вам набрать за 4 моделирования больше 11?
Часть IV ОДНОРОДНОСТЬ ВЫБОРОК Нужно различать понимающих и соглашающихся. Понявший Учение не замедлит применить его к жизни. Согласившийся будет кивать головой и превозносить Учение как замечательную мудрость, но не применит эту мудрость в жизни. Согласившихся много, но они, как сухой лес, бесплодны и без тени, только тление ожидает их. Понявших мало, но они, как губка, впитывают драгоценное знание. Е. И. Рерих, «Путями духа» В эту часть книги включены наиболее простые и полезные методы статистической обработки данных. Материал и стиль его изложения во многом почерпнут из книги [88] —одного из лучших, по мнению автора, руководств по непараметрической статистике для исследователей и практиков — экономистов, социологов, биологов и специалистов в других областях, использующих статистические методы. Один из моих друзей определил практика как человека, ничего не понимающего в теории, а теоретика — как мечтателя, вообще не понимающего ничего. Л. Больцмап Великая цель образования — это не знания, а действия. Г. Спенсер Руководство [88] особенно ценно тем, что около половины его объема занимают таблицы, позволяющие вычислять фактические, а не асимптотические, вероятности ошибок при обработке выборок небольшого размера, которые часто встречаются в прикладных исследованиях.
Глава 14 ДВЕ НЕЗАВИСИМЫЕ ВЫБОРКИ ίο i 1- -^ 0 к 1- У 0 i 1- ^ к \F/i OfG С\ \ ·) X а) к ^<л F^P / G 6) I /^ ^ в) ι р= . F/^ —► г) Рис. 1 § 1. АЛЬТЕРНАТИВЫ ОДНОРОДНОСТИ Данные. Два набора наблюдений #ι,..., хп и yi,..., ут будем рассматривать как реализовавшиеся значения случайных величин Χι,..., Хп и Υ\,..., Υ^. На протяжении всей главы будем считать выполненными Допущения Д1. Случайные величины ΧΊ,... ,ХП независг/лш г/ гшетога общую функцию распределения F(x). Д2. Случайные величины Υί,... ,Υ^ независимы и имеют общую функцию распределения G(x). ДЗ. Обе функции F и G неизвестны, но принадлежат множеству Ω0 всех непрерывных функций распределения. Нас будет интересовать Гипотеза однородности Н0: G(x) = F(x) при всех #.*) В качестве гипотез, конкурирующих с ifo> выделим следующие альтернативы (рис. 1): а) неоднородности Hi: G(x) Φ F(x) при некотором х (а в силу непрерывности — и в некоторой окрестности точки х); б) доминирования Я2: G(x) ^ F(x) при всех ж, причем хотя бы для одного χ неравенство строгое (говорят, что случайная величина Yi стохастически больше случайной величины Χι, поскольку Ρ(Υί ^ χ) ^ Ρ (Χι ^ ж) при каждом ж); в) правого сдвига Я3: G(x) = F(x — 0), где параметр θ > О (эта альтернатива — частный случай предыдущей); г) масштаба Н±: G(x) = F{x/0)1 где 0 < 0 ф 1. *) Формально Но представляет собой сложную непараметрическую гипотезу (см. § 1 гл. 13): в пространстве Ω0 χ Ω0 она задает «диагональ» {(F,G): G — F}.
§ 2. Правильный выбор модели 201 Причины, по которым следует рассматривать конкурирующие гипотезы, отличные от #ι, таковы: 1) с практической точки зрения бывает важно уловить отклонения от Но только определенного вида (скажем, наличие систематического прироста у yj по сравнению с χ ι); 2) за счет сужения (по сравнению с Hi) множества пар распределений (F,G), составляющих альтернативное подмножество, обычно удается построить более эффективные (чувствительные) критерии, настроенные на обнаружение отклонений от Но конкретного вида. Альтернатива доминирования Η2 встретится в§Зи§5.Вгл. 15 приведены два полезных критерия, применяемых против альтернативы правого сдвига Н^. Методы анализа альтернативы масштаба #4 (и ее обобщения, когда присутствует неизвестный «мешающий» параметр сдвига) изложены в гл. 24. §2. ПРАВИЛЬНЫЙ ВЫБОР МОДЕЛИ При проверке гипотезы однородности двух наборов данных х\,...,хп и 2/1,...,ут важно понять, с каким из двух случаев мы имеем дело: двумя реализациями независимых между собой выборок или парными повторными наблюдениями. Примером первого случая может служить определение влияния удобрения на размер растений. Здесь х\,...,хп обозначают размеры растений на грядке, где удобрение не применялось, Уь · · · > Ут — на соседней грядке, где оно применялось (см. пример 1 гл. 8). В этой ситуации можно предположить независимость выборок Χι,..., Хп и Υί,..., Ym. Формально это выражает допущение Д4. Все компоненты случайного вектора (ΛΊ,..., Хп, Υί,..., Ym) независимы (см. § 3 гл. 1). Пример второго случая — исследование эффективности определенного воздействия (лекарства) на величину измеряемого показателя (скажем, артериального давления), где ж ι,... ,#п — это значения показателя (у каждого из η наблюдаемых больных) до воздействия, a yi,... ,уп — после воздействия (га = п). Для каждого фиксированного г (г = 1,... ,га) числам χ ι и у; в вероятностной модели Д1—ДЗ соответствуют случайные величины Χι и Yi, которые нельзя считать независимыми, так как χι и у^ относятся к одному и тому же человеку. Статистические методы, применимые ко второму случаю, рассматриваются в гл. 15. Конечно, их можно использовать и для независимых между собой выборок, отбросив, если тфп, лишние наблюдения в одной из реализаций (их надо отбирать случайно, скажем, с помощью таблицы Т1). Однако при этом игнорируется важная информация о совместной независимости, что снижает
202 Глава 14. Две независимые выборки чувствительность методов по сравнению с критериями, рассматриваемыми в настоящей главе. В свою очередь, использование приведенных в этой главе критериев для данных, относящихся ко второму случаю, представляет собой грубую методическую ошибку, нередко допускаемую неопытными прикладниками, которые пытаются проверить однородность Не все йогурты одинаково своих наблюдений при помощи первого попавшегося метода, полезны. Рассмотрим три критерия проверки гипотезы однородности Из телерекламы. в ПредпОЛОжении справедливости допущений Д1—Д4. §3. КРИТЕРИЙ СМИРНОВА Н. В. Смирнов (1900-1966), русский математик. i ΙΟ k аУ Dn ^T^Gm χ Рис. 2 Для проверки гипотезы однородности #о против альтернативы неоднородности #ι используется критерий Смирнова , статистикой которого служит величина Αι,τη = SUp \Fn(x) - Gm(x)\ , где Fn(x) = - Σ *{*<<*}> Gm(x) = — Σ Ι{Υ^χ}> n i=i m i=i т. e. Dny7n — расстояние в равномерной метрике между эмпирическими функциями выборок (рис. 2). Слишком большое расстояние противоречит гипотезе Щ. В [10, с. 350] приведена таблица критических значений 2?n,m для п,га < 20 и уровней значимости 1, 2, 5, 10%. Для нахождения значения статистики на реализациях ац,... ,жп и Уь... ,ут можно либо построить графики функций Fn и Gm и визуально определить их наибольшее расхождение, либо произвести вычисления на компьютере согласно формулам Dn,m = max{D+m,Z?-m}, где E>n,m = sup (Fn(x) - Gm(x)) = max f i - Gm(X{i))\ , D"m = sup (Gm(x) - Fn(x)) = ™*т{± ~ Fn(Yu))} · Здесь X(!) ^ ... ^ X(n) и У(!) < ... < У(Ш)—упорядоченные по возрастанию элементы каждой из выборок. Н. В. Смирнов в 1939 г. доказал, что если гипотеза Но верна, то при выполнении допущений Д1—Д4 имеет место сходимость оо, (1) ( у/пт/(п + m) J5n,m ^ Ж) —► К(х) При П, Ш где UT(ж) —функция распределения Колмогорова, определенная в § 2 гл. 12 (там же приведена небольшая таблица значений этой функции). Доказательство сходимости (1) при условии Д5. Размеры п,т —► оо так, что п/(п + га) —► 7 £ (0,1)
§ 4. Критерий Розенблатта 203 можно найти в [11, с. 428]. Контрпример в задаче 3 показывает, что условие непрерывности ДЗ необходимо. Данное приближение является довольно точным уже при n,ra ^ 20 (см. [32, с. 108]). Расстояние от пункта А до пункта В равно 1 км. Пусть η — скорость движения из Л в В, а тп — скорость движения на обратном пути. Тогда 2/(1/η + 1/m) = 2nm/(n + m) —средняя скорость. Эту величину называют средним гармоническим чисел пит. На рис. 3 изображена верхняя половина окружности с центром в точке О, построенная на диаметре PR длины η + m, \PS\ = η, \SR\ = т. Перпендикуляр ST к диаметру PR пересекает окружность в точке Т. При этом а = \ОТ\ = (п + т)/2 — среднее арифметическое η и т. Из подобия APTS и ATRS следует, что Ь = \ST\ = у/пт — среднее геометрическое. Величина под корнем в формуле (1) представляет собой половину среднего гармонического пит. Почему половину? Дело в том, что Fn-Gm = (Fn - F) + (G - Gm), если G = F. При сложении независимых случайных величин их дисперсии складываются (П2). Поэтому для фиксированного χ дисперсия отклонения Fn(x) — Gm(x) при т = η будет в 2 раза больше дисперсии отклонения Fn(x) — F(x). Замечание 1. В случае альтернативы доминирования (см. § 1) вместо критерия Смирнова надо применять односторонний критерий, основанный на следующей предельной теореме для определенной выше статистики D+m: при справедливости гипотезы if о для любого χ ^ 0 имеет место сходимость Ρ [yJnm/{n + m)Dlm < ж) 1-е -2хг при п, т —► оо. (2) (Для случая т = п эта сходимость будет установлена в § 6.) Согласно § 2 гл. 12 для правого «хвоста» распределения Колмогорова справедливо разложение 1 - К(х) = 2 [е~ 2xz — е -8х* + е -18ж2 ....]. Второй член заключенного в квадратные скобки ряда представляет собой четвертую степень его первого члена. Пренебрегая им и всеми последующими членами, из сравнения сходимостей (1) и (2) видим, что фактический уровень значимости (см. § 1 гл. 12) данного критерия примерно вдвое меньше, чем у критерия Смирнова. Вопрос 1. Как на этом рисунке построить отрезок длины с = 2пт/(п + т) так, чтобы стало очевидным неравенство а^Ь^с? \а pn>S Om R Рис. 3 §4. КРИТЕРИЙ РОЗЕНБЛАТТА Для проверки гипотезы однородности Щ двух выборок против альтернативы неоднородности Н\ (см. § 1) можно воспользоваться
204 Глава 14. Две независимые выборки также критерием типа ω2 из § 2 гл. 12. Статистика этого критерия задается формулой оо <ш= | [Fn(x)-Gm(x)]2dHn+m(x), где Нп+т(х) = Fn(x) Η Gm(x) представляет собой η + т η + т эмпирическую функцию, построенную по объединенной выборке (Χι,... ,Xn,Yi,... ,У^п). Согласно [10, с. 86], статистика ш^т зависит лишь от порядковых номеров (рангов) выборочных элементов: 2 = J_ Шп>т пт 1 τι ι т i/6+^E№-i)2 + jE№-i)2 -2/3, где Ri — ранг Х(ф а 5^· — ранг Yyj в объединенном вариационном ряду (см. § 4 гл. 4). Положим для краткости Ζ = Zn m = ω2 . В 1952 г. п + т п,Тп М. Розенблатт доказал, что при условии справедливости гипотезы Н0 и выполнении допущений Д1—Д5 имеет место сходимость P(Z<aO-Ai(aO, (3) где предельный закон Αι тот же самый, что встречался в § 2 гл. 12. Математическое ожидание и дисперсия этого закона равны, соответственно, 1/6 и 1/45, в то время как 45 у n + mj |_ n + m 4 \n mJ'J Поэтому при вычислении приближенных критических значений рекомендуется вместо Ζ в формуле (3) использовать статистику Ζ* = (Ζ - ΜΖ)/λ/45 ΏΖ + 1/6.*) Это обеспечивает удовлетворительную точность приближения уже для n, m ^ 7. §5. КРИТЕРИЙ РАНГОВЫХ СУММ УИЛКОКСОНА Критерий ранговых сумм Уилкоксона применяется для проверки гипотезы однородности Щ против альтернативы доминирования if2 (см. §1), в частности, — против альтернативы правого сдвига Н%. *) Очевидно, MZ* = 1/6, DZ* = 1/45, причем из приведенных выше формул для MZ и DZ из (3) с учетом свойств сходимости (П5) следует, что Ρ(Ζ* ^χ)-+Αι(χ).
§ 5. Критерий ранговых сумм Уилкоксона 205 Вычислим статистику V критерия ранговых сумм Уилкоксона. 1. Обозначим через Sj ранг порядковой статистики Yyj (j = 1,... ,га) в вариационном ряду, построенном по объединенной выборке (ΛΊ,... ,Χη,Υι,... ,Ym) (рис. 4). 2. Положим V = Si + ... + Sm. Критерий, основанный на статистике У, был предложен Ф. Уил- коксоном в 1945 г. для выборок одинакового размера и распространен на случай га ^ η X. Манном и Д. Уитни в 1947 г. Суть критерия сводится к следующему: если верна гипотеза Я0, то значения Y^ должны быть рассеяны по всему вариационному ряду; напротив, достаточно большое значение V указывает на тенденцию преобладания Yj над Xil что свидетельствует в пользу справедливости гипотезы Я2. Таким образом, критическая область выбирается в виде луча {V > с}, где с —некоторая константа. Малые выборки. Критические значения статистики V для n,ra ^ 25 приведены в таблице [10, с. 357]. Большие выборки. Рассмотрим статистику η т (4) Вопрос 2. Верно ли, что все слагаемые I{xi<y.\ в сумме (4) независимы? При отсутствии совпадений среди Χι и Yj справедливо равенство (см. задачу 4) l/ = V-m(m+l)/2, (5) и, следовательно, критерии, основанные на V и С/, эквивалентны. Предложенная Уилкоксоном ранговая форма V удобнее для вычислений. С другой стороны, с помощью считающей формы С/, В [86, с. 143] сообщается, изученной Манном и Уитни, нетрудно установить (задача 5), что статистиков "работе в случае справедливости гипотезы Н$ имеем: Г. Дехлера, опубликован- 14тт ._ ^хт , ..ч /-л /лч ной в Германии в 1914 г. MU = nm/2, DU = nm(n + m + l)/12. (6) Когда гипотеза Н0 верна и выполнены условия Д1—Д5, имеет место сходимость u* = (u- mu)/Vdu Λ ζ - л/χο, ι). Доказательство этого результата можно найти в [86, с. 145]. (7) Поправка. К сожалению, нормальное приближение (7) не обеспечивает достаточную точность при п,га < 50. Например, при 25 ^ η, πι ^ 50 (см. [88, с. 87]) в 40% случаев истинные критические точки для статистики V отличаются от точек, полученных на основе сходимости (7), более чем на 1. Существенно точнее следующая аппроксимация, предложенная Р. Иманом в 1976 г. Она использует полусумму нормальной и стьюдентовской квантилей. Положим N = п + т. Критическим α-значением статистики
206 Глава 14. Две независимые выборки служит ζα = (χι-α + 2/ι-α)/2, где Χ\-α и 2/ι_α обозначают, соответственно, квантили уровня (1 — а) закона ЛГ(0,1) и распределения Стьюдента с (Ν — 2) степенями свободы (см. таблицы Т2 и Т4). Таким образом, если наблюдаемое значение статистики U* окажется больше или равно ζαι то гипотеза Н0 отвергается. Совпадения. Когда среди п + т наблюдений есть одинаковые, статистику V следует вычислять с учетом средних рангов.*) При подсчете U это соответствует назначению веса 1/2 нулевой разности Yj — Χι. В приближении (7) надо заменить DU на пт ~Ϊ2~ n+m+1- * uth(ll-l) (η + m)(n + m — 1) fc=1 (9) где д — число групп совпадений среди всех п + т наблюдений, Ik — количество элементов в k-ft группе. Наблюдения, не совпадающее с другими, рассматриваются как группы размера 1. Оценка параметра сдвига. Для альтернативы правого сдвига Щ в качестве оценки параметра θ можно взять θ = MED{Yj - Xu 1 ^ г ^ п, 1 ^ j < m}. (10) Известно (см. [86, с. 171]), что при выполнении условий Д1—Д5 имеет место сходимость у/пт/(п + т)ф- θ)^ξ~λί(0,l/E(F)), где E(F) = 12 ({ρ2(χ)dx\ , (11) ρ(χ) — плотность, отвечающая функции распределения F. (Отметим, что величина E(F) ранее встречалась в теореме 3 гл. 8.) Доверительный интервал. Описание способа построения доверительного интервала для параметра θ в случае малых выборок приведено в [88, с. 96]. При больших η и га приближенный доверительный интервал с коэффициентом доверия (1 — 2а) образует пара порядковых статистик (W(fce+i),W(nm_fce)). Здесь W{1) ^ ... ^ tV(nm) — упорядоченные по возрастанию разности Yj — Χι (1 ^ г ^ п, 1 ^ j ^ га); ка — целая часть числа пга/2 — 0,5 — xi-a \Jmn(n + га + 1)/12, χι-α обозначает (1 — а)-квантиль распределения Λ/ΧΟ,Ι); 0,5 — поправка на непрерывность, происхождение которой объясняется в § 2 гл. 15. *) Пусть, например, наименьшие 4 значения совпадают. Тогда всем им приписывается средний ранг (1 + 2 + 3 +4)/4 = 2,5.
§ 5. Критерий ранговых сумм Уилкоксона 207 Численный пример применения критерия ранговых сумм Уилкоксона— Манна—Уитни содержится в задаче 2. ) Комментарии 1. Как доказано в [86, с. 167], критерий ранговых сумм состоятелен против альтернативы доминирования if2, в частности, против альтернативы правого сдвига Яз. 2. Распределение случайной величины V = Si +... + Ьт можно найти, пользуясь тем, что при справедливости гипотезы Но вероятность каждого из С™+т возможных сочетаний Si,... ,5m (соответствующих расстановкам У}, j = 1,... ,га, по η + га местам) одна и та же. Вопрос 3. 3. Покажем, как оценка 0, определяемая равенством (10), свя- пе™% [^=27 ДЛЯ зана со статистикой U. Ввиду формулы (4) при отсутствии совпадений, U равна числу положительных разностей Yj — Χι. Естественной оценкой параметра θ будет такая величина 0', чтобы наборы (Υ[ = Yi — 0',..., Υ^ = Ym — θ') и (Χι,... ,Χη) выглядели как выборки из одного и того же закона. Для таких выборок распределение статистики U симметрично относительно среднего пт/2. Таким образом, приходим к следующему уравнению относительно 0': η т η т Σ Σ I{Y'-Xt>o} = Σ Σ I{Yj-Xi>9'} = пт/2. i=lj=l 3 г=1 j = l Когда величина θ' становится равной θ из формулы (10), происходит «перескок» через уровень пт/2. 4. Точный доверительный интервал для малых выборок строится с помощью метода 1 из § 3 гл. 11, примененного к 71 771 д(х>у,в)= Σ Σ J{w-**>*}· i=lj = l Когда известно, что наблюдения имеют нормальное распределение (см. § 4 гл. 12), для проверки однородности можно использовать критерии из примера 1. Пример 1. Однородность нормальных выборок. Проверим однородность двух независимых выборок (Χι,...,Χη) и (Yi,...,ym), где Χι ~ Λ/Χμι,σ?), Yj ~ ΛΓ(μ2,^), причем все параметры μι, μ2, 0Ί, σ2 неизвестны. Несмещенными оценками для дисперсий σ\ и σ\ служат ι τι ι т (см. пример 3 гл. 6). В силу теоремы 1 гл. 11 (п — 1) Sf/af ~ Хп-и (т — 1)51^2 ~ Xm-i> причем Si не зависит от X, а ввиду независимости выборок — также и от Y. Это же верно и для S2. *) Обобщение критерия для многомерных данных см. в § 3 гл. 23.
208 Глава 14. Две независимые выборки Вопрос 4. Что происходит с законом ^fci,fc2 ПРИ *ь k2-+oo7 Total (англ.) — общий. Вопрос 5. Какое распределение имеет статистика Т2? независимы. Определение. Случайная величина ζ имеет F-распределение (Фишера—Снедекора) с к\ и к^ степенями свободы (обозначается C~*fci,fca)> если Критерий Фишера. Если верна гипотеза Η': σι = σ2, μι и μι — любые, то в соответствии с приведенным выше определением статистика Sf/Sf распределена по закону Fn_i>m_i. Ее критические значения можно найти в таблице Т5. В случае, когда критерий Фишера не отвергает гипотезу if', для проверки однородности остается проверить гипотезу Η" \ μι = μ2· Обозначим неизвестную общую дисперсию через σ2 . Так как распределение хи-квадрат является частным случаем гамма-распределения (χΊ ~ Г(А:/2,1/2)), из леммы 1 гл. 4 вытекает, что α"2 [(η - 1) S2 + (m - 1) S2] ~ X2+m_2. Поскольку математическое ожидание закона Хп+т-2 равно ПтШ-2, статистика 5t2ot = [(η - 1) 52 + (m - 1) 5|]/ (п + т — 2) несмещенно оценивает σ2 по объединенной выборке. При справедливости гипотезы Нп ввиду независимости выборок имеем: X — Υ ~ ЛГ(0, (1/п -f l/m) σ2). При этом X — Υ (функция от X и Υ) не зависит от Stot (функции от 5ι и 5г) в силу леммы о независимости из § 3 гл. 1. Отсюда согласно определению закона Стьюдента tk с к степенями свободы (см. пример 4 гл. 11) имеем: т-(х-ю/(*ч/571)-^<х-г)/*.~* Это приводит к так называемому критерию Стьюдента, который позволяет проверить гипотезу Я". Критические значения статистики in+m_2 даны в Т4. Несмотря на то, что критерий Стьюдента оптимален для нормальных выборок, рассмотренная процедура проверки однородности имеет скорее теоретическое, чем практическое значение. Почему? Во-первых, это объясняется тем, что критические значения статистики 52/5| существенно изменяются даже при небольших возмущениях модели (см. в гл. 16 задачу 6 и замечание 2 при * = 2).*> Во-вторых, эффективность критерия Стьюдента быстро уменьшается при отклонении от строгой нормальности. (Относительная асимптотическая эффективность двух критериев при альтернативах правого сдвига определена, например, в [86, с. 76].) В частности, п+т—2· *) Устойчивая ранговая альтернатива критерию Фишера, не предполагающая нормальности наблюдений, описывается в § 2 гл. 24.
§ 6. Принцип отражения 209 эффективность критерия ранговых сумм Уилкоксона—Манна— Уитни по сравнению с критерием Стьюдента равна E(F) (см. формулу (11)). Рассмотрим для иллюстрации модель Тьюки смеси нормальных законов из примера 2 гл. 8 (при д = 0иа = 1),у которой функция распределения F выглядит так: F€(x) = (1 — έ)Φ(χ) + εΦ(χ/3)1 где Ф(х)— функция распределения ΛΓ(Ο,Ι), 0 ^ ε ^ 1. Следующая таблица (из [86, с. 85]) показывает изменение эффективности E(F€) в этой модели при небольшом утяжелении «хвостов». ε E(Fe) 0 0,955 0,01 1,009 0,03 1,108 0,05 1,196 0,08 1,301 0,10 1,373 0,15 1,497 В силу теоремы 4 гл. 8 эффективность E(F) = ew~x(F) ^ 0,864 при всех F £ Ω8 и может быть сколь угодно велика. Отметим также, что у критерия cm φ η по сравнению с критерием с га' = п' = (п + га)/2 эффективность уменьшается в 1/[47(1 - 7)] > 1 Р93» 7 = п/(п + т) (см· [86, с. 171]), поэтому желательно брать выборки одинаковых размеров (если, конечно, есть такая возможность). §6. ПРИНЦИП ОТРАЖЕНИЯ Материал этого параграфа в основном заимствован из гл. III замечательной книги [81], которую автор настоятельно рекомендует прочитать заинтересовавшемуся читателю. В конце параграфа некоторые из полученных результатов будут использованы для решения двух задач из области проверки однородности выборок. Рассмотрим случайное блуждание 5П = ξι + ... + £п, где независимые «шаги» & принимают значения +1 и —1 с одинаковой вероятностью 1/2. Траекторией (путем) блуждания длины η будем называть ломаную, соединяющую точки плоскости с координатами (г, 5г), г = 1,... ,п. Каждый из 2П возможных путей имеет одинаковую вероятность 2~п. Обозначим через ЛГП)Ш количество путей, ведущих из точки (0,0) в точку (п,га) (рис. 5). Пусть для такого пути А: —это число шагов вверх (& = +1), Z — число шагов вниз (& = —1). Тогда k + I = η и к — I = т, откуда к = (п + ш)/2. Расставить к «плюс единиц» по η местам можно С* способами. Поэтому ДГ — Wn+m)/2 (12) где подразумевается, что биномиальный коэффициент равен 0, если (п + т)/2 не является целым числом между 0 и п. Пусть а и Ь — положительные целые числа. Перенесем начальную ординату блуждания из 0 в α и потребуем, чтобы в момент η траектория приходила в точку с координатами (п,Ь) (рис.6). Рис. β
210 Глава 14. Две независимые выборки Рис.7 о' ι Очевидно, что количество таких путей равно Νη^-α· Сколько из них являются положительными^ т. е. лежат целиком над осью абсцисс? Ответ на этот вопрос получим с помощью следующего утверждения. Принцип отражения. Число путей, ведущих из (Ο,α) в (п,6) и касающихся или пересекающих ось абсцисс, совпадает с числом путей, ведущих из (Ο,α) в (п, — Ь), которое равно Nnia+b- Доказательство. Обозначим через г момент первого касания или пересечения траекторией оси абсцисс (рис. 7). Отразим относительно этой оси отрезок пути от (т,0) до (n, b). Присоединив к нему отрезок исходного пути от (Ο,α) до (т,0), построим новый путь, ведущий из (Ο,α) в (п, — Ъ). Очевидно, что по построенному пути исходный восстанавливается однозначно. ■ Следствие. Количество положительных траекторий из (Ο,α) В (П,Ь) раВНО Nnib-a ~ Νη,α+6· Геометрическая задача. По всей ширине дороги рассыпано зерно. Слева от дороги на заборе высоты α сидит ворона (рис. 8). Она хочет поклевать зерна, а затем перелететь на забор высоты Ъ (потому, что b > α), который находится справа от дороги. Частным случаем следствия принципа отражения является сле- 1 дующий результат, полученный У. Уитвортом в 1878 г. и заново Ж. Бертраном в 1887 г. (см. [81, с. 87]). Задача о баллотировке. Предположим, что на выборах первый кандидат набрал к голосов, а второй кандидат набрал I голосов, причем к > I. Тогда вероятность того, что при последовательном подсчете голосов первый кандидат все время был впереди второго, равна (к — 1)/(к + /). к _ / Доказательство. Траектория, удовлетворяющая условиям теоремы, обязательно проходит через точку (1,1) (рис. 9). Согласно ^ следствию принципа отражения и формуле (12), число положитель- к + Ζ ных путей из (1,1) в (к + Ζ,λ; — I) равно (п = к + 1 — 1, α = 1, Ь = А: — I) Рис 9 Λη,*-ί-ι - JVn.fc-1+ι = Ct'l, - CfeVi· Правая часть простыми преобразованиями приводится к виду Nk+i,k-i(k - 1)/{к + Z), что и утверждалось. ■ Среди путей за время 2п выделим пути, приходящие в (2п,0): и2п = Р(52„ = 0) = ЛГ2П)0 · 2~2п = С%п 2~2п («о = 1). (13) Формула Стирлинга*) (п\ ~ у/2пппп е~п при η —► оо) позволяет получить следующую асимптотику для U2n (убедитесь!): ^2п ~ l/y/πη при η —► оо. (14) *) Простое доказательство этой формулы можно найти в [81, с. 72]. Вопрос 6. В каком месте на дороге надо приземлиться вороне, чтобы общая длина двух перелетов была минимальной? i^J1 Рис. 8 τ—ι—ι—г—г
§ 6. Принцип отражения 211 Другими словами, доля среди всех 22п возможных траекторий путей, приходящих в точку (2п,0), стремится к нулю со скоростью порядка 1/\/п (см. решение задачи 5 гл. 12). Оказывается, что неотрицательных путей за время 2п ровно столько же, сколько путей, приходящих в (2п,0). Теорема 1. При всех значениях η справедливо равенство P(Si^0,...,S2n^0) = U2n. Доказательство. Э. Нелсон (см. [81, с. 115]) предложил следующее оригинальное преобразование, взаимно однозначно переводящее траектории, приходящие в 0, в неотрицательные. Обозначим самую левую (если их несколько) точку глобального минимума заданного пути, ведущего в точку (2п,0), через Μ = (λ;,-га) (рис. 10). Отразим участок, ведущий из начала координат в точку М, относительно вертикальной прямой у = к и передвинем отраженный участок так, чтобы его начальная точка совпала с точкой (2п,0). Примем Μ за начало новой системы координат, в которой построенный путь ведет из начала в точку (2п, 2т), а все его вершины лежат не ниже новой оси абсцисс. ■ Указание. Обратите внимание, что у такого пути обязательно 5ι = 1, а также S2n > 1> так как 2п —четное число. Рассмотрим траектории, имеющие единственный глобальный максимум в момент 2п (рис. 11). Траектория блуждания, не возвращающегося в 0 за время 2п, является либо положительной, либо отрицательной (не считая начальной точки). Из симметрии и вопроса 7 вытекает, что Р(А2п) = P(Si φ 0,... ,52η φ 0) = и2п. (15) Введем обозначения: В2п = {S2n = 0}, f2n = P(A2n-2B2n) вероятность вернуться в 0 впервые в момент 2п. Ввиду (15) hn = Р(А2п-2) - Р(А2п-2В2п) = и2п-2 - и2п. (16) С учетом того, что щ = 1 и и2п —► 0 при η —► оо, из формулы (16) получаем, что вероятность вернуться в 0 когда-нибудь h + /4 + · · · = 1· Из соотношений (13) и (16) легко выводится тождество i)m Μ 2η Рис. 10 Вопрос 7. Как вывести, что Ρ(5ι>0,...,52η>0) = 1 7 = 2ω2η? ¥\ S2n 2п Рис. 11 Вопрос 8. Чему равна Ρ(5ι<£>2η, ...,ί>2η-1<<ί>2η)? hn = 2^ ^2η-2· (17) Асимптотика (14) дает для f2n порядок малости η 3/2. Поэтому Σ 2η f2n ~cj] —= = 00, т. е. среднее время до первого возвра- 71=1 71=1 УП щения блуждания в 0 бесконечно. Пусть g2n-i — вероятность впервые достигнуть уровень 1 на (2п — 1)-м шаге.
212 Глава 14. Две независимые выборки Рис. 12 Рис. 13 Теорема 2. Имеет место равенство <?2η-ι = /2η· Доказательство. Величина Кп = 22η_1ρ2η-ι совпадает с числом отрицательных (за исключением крайних точек) путей, ведущих из (1, — 1) в (2п,0) (рис. 12). Соединив точку (1, — 1) с началом координат, получим траекторию, впервые возвращающуюся в 0 в момент 2п. Сопоставим исходному пути эту траекторию и симметричную к ней относительно оси абсцисс. Так как исходный путь по этим траекториям определяется однозначно, то 22п/2П = 2Кп. Ш Из теоремы 2 вытекает, что среднее время до момента первого достижения произвольного уровня h > О симметричным случайным блужданием бесконечно. Обозначим через ν<ιη момент последнего попадания β 0 за время 2п (рис. 13). Найдем распределение этой случайной величины. Положим а2г,2п = Р(^2п = 2г), г = 0,1,... ,п. Теорема 3. Справедливо соотношение с*2г,2п = ЩгЩп-2г- ДОКАЗАТЕЛЬСТВО. Мы интересуемся путями, у которых S^i = 0 и i>2i+i Φ 0,... ,52η Φ 0. Первые 2г вершин можно выбрать 22гг/2г различными способами. Взяв точку (2г,0) в качестве нового начала координат, согласно равенству (15) видим, что остальные (2п — 2г) вершин можно выбрать 22п~2ги2П-2г способами. Всего получаем 22nU2i U2n-2i вариантов. ■ Из теоремы 3 и асимптотики (14) следует, что предельным распределением для случайной величины ^2п/(2п) является распределение арксинуса с функцией распределения F(x) = (2/π) arcsin y/x и плотностью р(х) = 1/(пу/х(1 — ж)), 0 < χ < 1 (график р(х) приведен на рис. 8 в гл. 5). Действительно: X Ρ(^2η/(2η) < χ) = Σ a2i,2n ~ Σ Ρ ( ζ; ) ~ -Ч Р(У) dV- г<хп г<хп \п/ п J Рис. 14 Оказывается, что время, в течение которого траектория блуждания находилась в полуплоскости у ^ 0, распределено так же, как случайная величина ν<ιη (см. § 4 гл. 16). Но если ограничиться только путями, приходящими в момент 2п в 0 (рис. 14), то условная вероятность того, что в точности 2г (г = 0,1,... ,п) их звеньев лежат над осью абсцисс, равна 1/(п+1) независимо от г. Это утверждение известно как теорема о равнораспределенности.
§ 6. Принцип отражения 213 Доказательство. Рассмотрим отдельно случай г = п. Число путей, приходящих в точку (2п, 0), все звенья которых лежат выше оси абсцисс, совпадает с числом положительных путей из (0,2) в (2п — 1,1). В силу следствия принципа отражения оно равно &2η-ι ~ ^2η-ι = ~ ^2η· Это доказывает теорему при г = η и, а в силу симметрии — также и при г = 0. При 1 ^ г < η — 1 воспользуемся индукцией. Для случая η = 1 теорема очевидна. Предположим, что она верна для всех путей, длина которых меньше 2п. Пусть первое возвращение в 0 произошло в момент 2г. Участок пути до 2г расположен либо в положительной, либо в отрицательной полуплоскости. В первом случае 1 ^ г < г и участок после 2г имеет ровно 2г - 2т звеньев над осью абсцисс. Согласно предположению индукции и ввиду формулы (17), такой путь может быть выбран ι 22п—2г 22п—2 о 2 Гhr * 7-; U>2n-2r = —, -77 ^2r-2 ^2n-2r (18) 2 η — г + 1 r(n — г + 1) различными способами. Во втором случае конечный участок длины (2п — 2г) содержит ровно 2г положительных звеньев и, следовательно, η — г ^ г. Для фиксированного г число путей, удовлетворяющих этим условиям, также определяется величиной (18). Общее количество путей обоих типов получается суммированием слагаемых вида (18)по1 <г^ги1 ^ г ^ η — г соответственно. Во второй сумме заменим индекс г на j = η — г + 1. Тогда j меняется от г + 1 до п, а слагаемые имеют вид (18) с заменой г на j. Отсюда следует, что число путей, у которых г звеньев лежат в положительной полуплоскости, получается суммированием (18) по 1 ^ г ^ п. Так как г не входит в (18), сумма не зависит от г, что и утверждалось. ■ Применим изложенные результаты к некоторым задачам, возникающим при проверке гипотезы однородности Н0 двух независимых выборок X = (Χι,... ,ХП) и Υ = (Yi,... ,Yn) одинакового размера п. Допустим, что среди всех 2п значений обеих выборок нет совпадающих (условие ДЗ гарантирует выполнение этого с вероятностью 1). Упорядочим каждую выборку по возрастанию: Χ(ΐ) < ... < Х(п) и У(1) < ... < У(п). Положим L равным числу индексов г, при которых Х^ < Υ^ (г = 1,...,п). Близость этой величины к η указывает на то, что альтернатива доминирования #2 (см. § 1) предпочтительнее гипотезы однородности Щ. Чтобы вычислить критическую границу, надо найти распределение случайной величины L при условии справедливости гипотезы Hq. Для этого переведем задачу на язык случайных блужданий. Упорядочим по возрастанию все 2п значений обеих выборок в вариационный ряд. Пусть £ь = — 1 или +1 в зависимости от того,
214 Глава 14. Две независимые выборки 21 2п Рис. 15 элементом выборки X или выборки Υ является k-ft член построенного ряда (к = 1,... ,2n), Sk = ξ\ + ... + £&. Полный путь длины 2п соединяет начало координат с точкой (2п,0). Заметим, что событие Х^) < Y(k) происходит тогда и только тогда, когда S2fc-i содержит по меньшей мере к «плюс единиц», т. е. когда S2fc-i > О· Это влечет неравенство S2k ^ 05 и поэтому (2А:- 1)-е и 2к-е звенья траектории лежат выше оси абсцисс. Отсюда следует, что равенство L = I верно в том и только в том случае, когда в точности 21 звеньев лежат выше оси абсцисс. По теореме о равнораспределенности вероятность этого события равна 1/(п+1) независимо от /. Статистика L впервые была использована для проверки однородности Ф. Гальтоном при исследовании данных, предоставленных ему Чарльзом Дарвином. Значения I и η были равны 13 и 15 соответственно. Не зная реальных вероятностей, Гальтон отверг гипотезу #о. Однако в предположении Но вероятность того, что L примет значение 13 и более (фактический уровень значимости критерия, определенный в § 1 гл. 12), равна 3/16. Другими словами, в 3 случаях из 16 будет наблюдаться такое же или большее превосходство элементов Υ над элементами X при полном совпадении законов распределения элементов выборок. У. Феллер пишет ([81, с. 88]): «Это показывает, что численный анализ может быть полезным дополнением к нашей не совсем надежной интуиции.» В заключение получим с помощью принципа отражения предельную теорему (2) для статистики одностороннего критерия D+m = sup(Fn(:z) - Gm(x)) при га = η. χ Для этого заметим, что для любого 1(1 = 1,... ,п) №,„ > Чп} *=* {^2nSk > l, S2n В силу принципа отражения (рис. 15), а также формул (12) и (13) имеем -·}· ρ (d+ > -Ί = Ν2η·21 - Сп—Ι 9η Множитель у/пт/(п + га) в утверждении (2) при га = η равен yJn/2. Чтобы установить для произвольного χ ^ 0, что при η —* оо P(VW2Dt,n>x)^e-2x\ (19) остается применить формулу Стирлинга и разложение логарифма ln(l + t)=t- t2/2 + o(t2) при t -+ 0 (задача 6). ЗАДАЧИ Ум заключается не только 1. Пусть х\,... ,#2о — реализация выборки из равномерного распре- пРиНмен^ деления на отрезке [0,1], построенная по четвертому столбцу Аристотель таблицы Т1 (см. решение задачи 1 гл. 12); yi,... ,У20 ~~реализация выборки из закона с функцией распределения G(x) = χ3
Решения задач 215 на [0,1] (согласно задаче 3 гл. 1 ее можно моделировать, взяв в качестве у\ наибольшее из трех первых значений в г-й строке табл. Т1, деленное на 100). Проверьте гипотезу однородности с помощью одностороннего критерия из замечания 1. 2. В условиях задачи 1 примените критерий ранговых сумм Уил- коксона—Манна—Уитни. 3. При выполнении условия Д5 найдите предельный закон распре- деления для статистики критерия Смирнова у/пт/(п + га) Dnm в случае двух независимых выборок из распределения Бернулли с одинаковой вероятностью «успеха» р. Указание. См. задачу 3 гл. 12. 4. Выведите формулу (5), связывающую величины U и V при отсутствии совпадений среди всех Х\ и У}. 5? Получите выражения (6) для MU и DU. 6? Докажите асимптотику (19). РЕШЕНИЯ ЗАДАЧ 1. На рис. 16 приведены графики эмпирических функций распределения Fn и Gn для реализаций #ι,... ,#п и yi,... ,уп (п = 20). Значение статистики D+n равно 0,4. Отсюда получаем, что хо = у/п/2 D+n = 0,4 \/ϊϋ « 1,265. Следовательно, фактический уровень значимости с*о = е~2х° = е~3,2 « 0,04. 2. Вычисленная на основе данных задачи 1 статистика V равна 489 (для совпадений были взяты средние ранги). В соответствии с формулой (5) находим U = V — 210 = 279. Согласно (6) MU = 200. Подсчитанная по формуле (9) с учетом совпадений DU « 1365,2. Поэтому нормированная статистика [/*, определенная равенством (7), принимает значение 2,138. Вычислив поправку Имана (8), получим, что U* = 2,192. Для уровня значимости a = 0,025 по таблицам Т2 и Т4 (для к = т + η — 2 = 38) находим критическое значение ζα = (1,96 + 2,024)/2 « 1,992. Поскольку 2,192 > 1,992, гипотеза однородности Но отвергается на уровне 2,5%. 3. Эмпирическая функция распределения Fn выборки Χι,... ,ХП из закона Бернулли имеет два скачка: в точке 0 высоты 1-Х и в точке 1 высоты X. Аналогично устроена функция Gm, построенная по выборке Yi,...,Y^. Поэтому Dn,m = \Х — У\ (рис. 17). Пусть q = 1 — р. В силу условия Д5, центральной предельной теоремы и свойства 1 сходимости из П5 ; ( т ,Тг \ d п + т η п + т νΚ(Χ-ρ)^ξ~λί(0,(1-Ί)ρς), η ~ Λ/"(0,7Ρ?)· ^ι(ρ-Υ)± Леность всему (дурному) мать: что человек умеет, то позабудет, а чего не умеет, тому не научится. Владимир Мономах Рис. 16 1-г 1-У 1-Х \Dns Fn Рис. 17
216 Глава 14. Две независимые выборки *— J rn щ ulffl Рис. 18 'JTI И5^ О 1 Рис. 19 Следовательно, ввиду независимости X и У имеет место сходимость у/пт/(т + п)(Х — У) -» £ + 77 = С ~ АГ(0,рд). Согласно свойству 3 сходимости (П5) искомым предельным законом является распределение случайной величины \ζ\ (его плотность изображена на рис. 13 гл. 12). 4. Запишем ранг (т. е. номер в порядке возрастания) Sj статистики Y(j) в вариационном ряду, построенном по объединенной выборке (Χι,... ,Χη¥ι, · · · Хт), в следующем виде: η т η sj = Σ ^№<у(л} + Σ hy^Yu)} = Σ i{Xi<YU)y +j. i=l fc=l i=l Тогда статистика ранговых сумм Уилкоксона равна т т V= Σ S, = £7+Σ j = u4m(m +l)/2. i=i i=i 5. Если гипотеза Hq верна, то случайные величины Xi и Yj имеют общую непрерывную функцию распределения F(x). Введем величины ξι = F(Xi) и щ = F(Yj). Они независимы в силу независимости Х{ nYj и равномерно распределены на отрезке [0,1] в соответствии с методом обратной функции (см. § 1 гл. 4). При этом Uj = I{Xi<Yj} = I{b<Vj}- Отсюда Mlij = Р(£ < η,·) = dxdy = ^. 0<х<у<1 Поэтому DJy = Μ/?· - (MJ«)2 = MJy - i = i - i = i Поскольку Ρ=ΣΣ^ι Для вычисления D£/ воспользуемся t=lj = l формулой для дисперсии суммы (см. П2): η т η т г=1 j = l fc=l ί=1 Для фиксированных г и j разобьем слагаемые в двойной сумме по А: и Ζ на четыре группы: А) {к = г,/ = j}, В) {к = г J Φ j}, С) {к φ г,/ = j}, D){k φ ij φ j} (рис.18). В группе А cov (Iijilij) = D/ij = -. В группе В в силу независимости случайных величин &, r/j и 7# имеем M(lijlu) = Р(& < т^,& < г/г) = dxdydz = -, 0<х<2/<1 0<ж<г<1 так как интеграл равен объему пирамиды, основанием которой служит грань единичного куба, лежащая в плоскости χ = О, а вершиной — точка с координатами (1,1,1) (рис. 19). Следовательно, cov(IijJu) = M(lijlu) - Mlij · М1ц = - - - = — · Из соображений симметрии ковариация в группе С такая же, как
Ответы на вопросы 217 DU = nmU + -T2- + ^2-J = в В. Наконец, согласно лемме о независимости из § 3 гл. 1 и свойству 5 математического ожидания (П2), ковариация в группе D равна 0. Собирая все вместе, получаем nm(n + m+l) 12 ' 6. Пусть I равно целой части числа ху/2п. Чтобы установить асимптотику (19), достаточно вывести, что In (С?-1/С%п) = -12/п + о(1) при η -> оо, I = 0(у/п). К этому результату можно прийти и без формулы Стирлинга (см. [39, с. 58]), но с ней получается немного короче. Действительно, 1η η! = η In η — η + - In η + In у/2к + о(1). Элементарные выкладки показывают, что - In (Су-'/СЗ^) = In (η + l)\ + In (η - /)! - 2 In η! = = (n + 0b(l + ^)+(n-0b(l-^) + |b(l-^)+o(l). Разложение в ряд 1п(1 -И) при t —► 0 с учетом условия / = 0(у/п) позволяет завершить доказательство (проверьте!). ОТВЕТЫ НА ВОПРОСЫ 1. Опустим перпендикуляр SX на ОТ (рис. 20). Тогда отрезок ТХ — искомый. Это вытекает из подобия прямоугольных треугольников Δ STX и Δ OTS, имеющих общий острый угол: 2 ι nm 2nm c/b = b/a с = b2/a = (η + m)/2 n + m Неравенство α ^ b ^ с верно потому, что катет короче гипотенузы. Ρ η s О m Рис. 20 Можно строить и другие «средние», продолжающие это неравенство. Для начала опустим перпендикуляр XY на отрезок ST и положим d = \TY\ = с2/b = 4(nm)3/2(n + m)"2. Затем построим перпендикуляр YZ к отрезку ОТ. Получим е = \TZ\ = d2/c = 8(nm)2(n + m)~3 и т. д. 2. Например, 1{χ1<γ1} и 1{χλ<γ2), являющиеся функциями от ΛΊ, очевидно, зависимы (строгое доказательство вытекает из решения задачи 5). Однако для фиксированной пары индексов (zj), подавляющая часть индикаторов, а именно nm — η — m + 1 (см. рис. 18), не зависят от 1{χί<γ.) в силу леммы о независимости из § 3 гл. 1. 3. Из С™+т = С| = 10 возможных сочетаний трех «X» и двух «У» только наборы «ΧΧΧΥΥ» и «ΧΧΥΧΥ» имеют сумму рангов V ^ 8 (9 и 8). Поэтому P(V ^ 8) = 1/5.
218 Глава 14. Две независимые выборки Рис. 21 1 + Ич/\ А 2п χ Рис. 22 4. По определению закона χ2 (см. пример 3 гл. 11) Л\ х1 0 к У\ /Ч X >/ У у'\ 7. U 1 К\ Рис. 23 έ Σ ζ1 (20) где все Zi (г = 1,... ,fci + λ^) подчинены стандартному нормальному распределению и независимы. Согласно закону больших чисел (см. П6), делимое и делитель в формуле (20) стремятся по вероятности к MZj = DZi = 1. Так как функция </?(#,у) = χ/у непрерывна на множестве {х > 0,у > 0}, то по свойству сходимости 3 из П5 распределение случайной величины ζ при fci, Afe —► оо вырождается в 1. По определению закона tk (см. пример 4 гл. 11) Τ = ξ п + т — 2 V где ξ ~ Л/^О, 1), η ~ Xn+m-2» f и ^ независимы. Согласно определению F-распределения имеем Τ2 ~ Fi,n+m-2· Из рис. 21 понятно, что вороне следует лететь по траектории, у которой «угол падения равен углу отражения», так как прямая короче ломаной. Перенесем начало координат в точку (1,1) и продолжим путь из концевой точки еще на один шаг вверх или вниз (рис. 22). При этом из одного положительного получим два неотрицательных пути длины 2п. Изменим систему координат так, как показано на рис. 23. В новой системе траектория будет положительной.
Глава 15 ПАРНЫЕ ПОВТОРНЫЕ НАБЛЮДЕНИЯ § 1. УТОЧНЕНИЕ МОДЕЛИ Методы этой главы предназначены для выявления неоднородности реализаций выборок ΑΊ,... ,Хп и Υι,...,Υη одинакового размера, которые нельзя считать независимыми между собой (см. § 2 гл. 14). Прежде всего, уточним статистическую модель из § 1 гл. 14 применительно к данной ситуации. Вычислим приращения Zi = Yi—X^ г = 1,... ,η, и разложим каждое из них на две части: Zi = θ + ε», где θ — интересующий нас эффект воздействия — систематический сдвиг, который мы будем считать положительным, е% — случайная ошибка, включающая в себя влияние неучтенных факторов на Ζ{. В дополнение к допущениям Д1—ДЗ из § 1 гл. 14 предположим, что выполняется условие Д6. Случайные величины ει,... ,εη независимы и имеют непрерывные (вообще говоря, разные) распределения такие, что Р(е< < 0) = Р(е< ^ 0) = 1/2, г = 1,...,п. Это означает, что равны нулю медианы функций распределения случайных величин е\ (см. § 2 гл. 7). Замечание 1. Предположения Д1—ДЗ из § 1 гл. 14 не обеспечивают одинаковой распределенности ε». Действительно, пусть случайные величины Х\ и Х2 распределены по стандартному нормальному закону ЛГ(0,1) (см. § 2 гл. 3) и независимы. Положим Υ\ = Χι + Х2 и Υ2 = Х\ — Х2. Нетрудно проверить, что Υ\ и Υ2 распределены по закону ЛГ(0,2) и независимы, так как cov(Yi,y2) = 0 (см. П9). Но Zi = Υγ - Χγ = Х2 ~ ЛГ(0,1), Ζ2 = Υ2 - Х2 = Χι - 2Х2 ~ Л/Х0,5). Отсюда ει = Ζλ - θ ~ Λ/Χ-0,1), а ε2 = ^2 — θ ~ Λ/^—0,5). Кроме того, что ει и ε2 имеют разные распределения, они еще и зависимы, т. е. нарушается условие Д6: cov (ει,ε2) = cov (Χ2ιΧλ) - 2cov (X2lX2) = -2^0. Итак, пусть выполнено предположение Д6. Рассмотрим задачу проверки гипотезы Н'0: θ = 0 против альтернативы Щ: θ > 0 Да вместе вы зачем? Нельзя, чтобы случайно. Фамусов в «Горе от ума» А. С. Грибоедова
220 Глава 15. Парные повторные наблюдения (штрих указывает на то, что проверяемая гипотеза и сдвиговая альтернатива задаются не для пары законов (F, G) (см. § 1 гл. 14), а для распределений приращений Ζτ). Для ее решения используем критерии знаков (§ 2) и знаковых рангов Уилкоксона (§3). ) §2. КРИТЕРИЙ ЗНАКОВ Выполним следующие шаги. 1) Зададим уровень значимости (см. *§ 1 гл. 12) — малую вероятность α ошибочно отвергнуть верную гипотезу Щ. 2) Положим Ui = /{Zi>0}> г = 1,... ,η. 3) В качестве статистики критерия знаков возьмем сумму 5 = Ui + ... + Un и подсчитаем ее значение s на реализациях хи...,хп иуь...,уп.**) Малые выборки. При η ^ 15 вычисляем фактический уровень значимости, определенный в § 1 гл. 12 (см. рис. 1): а0 = Р0(5 > а) = 2~η Σ0ί = 2_П Σ* <?«· (1) i=s i=0 9ι 2П Если ао ^ а, отвергаем гипотезу Щ, в противном случае—прини- , _.,. - |_^ маем. В [10, с. 402] приведена таблица биномиальных коэффициен- [■^Ι,ΙΊ,Μ,^, г тов, облегчающая вычисление а0. On — s г Рис· 1 Большие выборки. Для расчета ао при η > 15 можно применить нормальную аппроксимацию распределения стандартизованной статистики 5* = (5 - MS) /VOS =(S- n/2) J v/n/4 . Если гипотеза Щ верна, то в соответствии с центральной предельной теоремой (П6) распределение величины 5* при η —► оо сходится к стандартному нормальному закону ЛГ(0,1) (см. § 2 гл. 3). Пусть χι-α —квантильзаконаЛГ(0,1) уровня 1—α (см. § 3 гл. 7), s*—наблюдаемое значение статистики S*. Если s* ^ #i-Q, то отвергаем гипотезу #0» в противном случае — принимаем. Поправка. Можно значительно улучшить качество приближения дискретного биномиального распределения непрерывным нормальным законом за счет введения поправки на непрерывность. Рассмотрим «подправленную» статистику <?* = (S - 0,5 - п/2)/у/ф . (2) *) Их обобщения для многомерных данных приведены в § 2 гл. 23. ) Если значение г-го приращения Ζχ = ух — Χχ > 0, то это отмечают знаком «+», если Ζχ < 0 —знаком «—». Отсюда происходит название критерия.
§2. Критерий знаков 221 Как показывает рис. 2, сдвиг влево на 0,5 позволяет точнее аппроксимировать сумму площадей прямоугольников площадью под графиком правого «хвоста» нормальной плотности. Совпадения. Если среди значений Zi встречаются нули, то их надо отбросить и соответственно уменьшить η до числа ненулевых значений Ζ^ Оценка параметра. Когда гипотеза Щ отвергнута, принимается альтернатива Щ. В этом случае представляет интерес величина сдвига Θ. В качестве ее оценки θ можно взять выборочную медиану приращений MED{Z^ г = 1,... ,п} (см. § 2 гл. 7). Доверительный интервал. Определим номер ка как наибольшее число слагаемых, при котором 2"nEQ^a. (3) г=0 Тогда пара порядковых статистик (Z(fca+i),Z(n-fca)) (см* § ^ гл* 4) образует доверительный интервал для θ с коэффициентом доверия 1 — 2а (см. § 1 гл. 11). Для нахождения ка можно также воспользоваться таблицей из [10, с. 353]. При большом η значение ка с учетом поправки на непрерывность приближенно равно целой части числа п/2 — 0,5 — #ι-αλ/η/4> где х\-а — квантиль закона ЛГ(0,1). Пример 1. Времена реакции [80, с. 123]. Числа Х{ и у ι в приведенной ниже таблице представляют собой времена реакции г-го испытуемого на световой и звуковой сигналы соответственно, Ζ% =: Ух Х{1 % = 1, . . . ,ΙΖ. г Хг У г Zi 1 176 168 -8 2 163 215 +52 3 152 172 +20 4 155 200 +45 5 156 191 +35 6 178 197 +19 7 160 183 +23 8 164 174 +10 9 169 176 +7 10 155 155 0 11 122 115 -7 12 144 163 +19 Поскольку 2ю = 0, отбросим это наблюдение, уменьшив размер выборки до η = 11. Статистика знаков 5 имеет значение s = 9. По формуле (1) находим ао = (1+11+55)/2048 « 0,033. Следовательно, на уровне значимости а ^ 3,3% гипотеза Щ: θ = 0 отвергается. Хотя в нашем случае η < 15, подсчитаем для сравнения значение статистики S* по формуле (2). Получим 1,809. В таблице Т2 этому значению соответствует уровень значимости 3,5%. Упорядочив Zi по возрастанию, вычисляем оценку параметра сдвига θ = MED{zi,.. .,29,211,212} = 19. Наконец, для а = 0,05 из неравенства (3) находим ка = 2, что приводит к интервалу (7,35) с коэффициентом доверия 90%. ί——г /с + 1 к + 2 Рис. 2
222 Глава 15. Парные повторные наблюдения Комментарии 1) Если потребовать, чтобы все величины ε ι в допущении Д6 имели одинаковое распределение, у которого нуль — единственная медиана, то в силу закона больших чисел (П6) критерий знаков будет состоятельным против альтернативы Н%: θ > 0. 2) В случае альтернативы Щ: θ < 0, очевидно, достаточно поменять местами выборки ΑΊ,... ,ХП и Υί,... ,Υη. 3) Покажем, как оценка MED параметра сдвига связана со статистикой 5 критерия знаков. Интуитивно понятно, что сдвиг разумно оценить такой величиной 0', чтобы набор Z\ = Zi — θ' (г = 1,... ,η) выглядел как выборка из распределения с нулевой медианой. Для такой выборки S имеет биномиальное распределение (см. § 1 гл. 5), симметричное относительно своего математического ожидания п/2. Эти соображения приводят к следующему уравнению относительно 0': η η Σ hz[>^} = Σ I{zi>o'} = η/2. г=1 г=1 Когда величина Θ' становится равной MED, происходит «перескок» через уровень п/2. 4) Нетрудно убедиться, что приведенный выше доверительный интервал получается в результате применения метода 1 из § 3 гл. 11 к функции g(zfi) = £/{*<>*}. 5) Ходжес и Леман показали (см. [88, с. 66]), что при оценивании сдвига с помощью MED следует использовать выборку четного размера η = 2А:, поскольку выборочная медиана для выборки размера 2к + 1 имеет ту же самую точность. §3. КРИТЕРИЙ ЗНАКОВЫХ РАНГОВ УИЛКОКСОНА Пусть кроме допущения Д6 выполнено условие Д7. Случайные величины ει,... ,εη имеют одинаковое распределение, симметричное относительно нуля: Fei (—χ) = 1 — F£l (χ) для всех х. Для проверки гипотезы Н'0 против альтернативы Щ (см. § 1) совершим следующие шаги. 1) Зададим уровень значимости критерия а (малую вероятность ошибочно отвергнуть верную гипотезу Н'0). 2) Вычислим Zi = Yi — Xi, г = Ι,.,.,η, и упорядочим |Ζι|,...,|Ζη| по возрастанию. Пусть R{ обозначает ранг (порядковый номер) величины |Z<|. 3) Положим Ui = I{Zi>o}i г = 1,... ,η.
§ 3. Критерий знаковых рангов Уилкоксона 223 4) В качестве статистики критерия знаковых рангов возьмем Τ = R\Ui + ... + RnUn и подсчитаем ее значение t на реализациях хи...,хп иуь...,уп. Малые выборки. При η ^ 15 отвергнем гипотезу Яд, если окажется, что t ^ £Q, где критическое значение ta берется из таблицы А А книги [88]. Большие выборки. Для η > 15 можно использовать стандартизированную статистику г = Г-МГ = Г-[п(п + 1)/4] (4) уДУГ у/п(п + 1)(2п+1)/24* распределение которой сходится к ЛГ(0,1) при η —► оо, если справедлива гипотеза ifq и выполнены условия Д6—Д7 (задачи 4-6). В случае, когда наблюдаемое значение этой статистики t* ^ xi-ot, где х\-а — (1 — а)-квантиль закона ΛΓ(Ο,Ι), гипотеза Н'0 отвергается, иначе — принимается. Поправка. В 1974 г. Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений. Она использует линейную комбинацию нормальной и стьюдентовской квантилей (см. [88, с. 47]). Положим i' = if[l + V(«-l)/[»-(i?]]. (5) С помощью таблиц Т2 и Т4 вычислим ζα = (#ι-α+2/ι-α)/2, где х\-а и у\-а обозначают соответственно квантили уровня (1 — а) закона Λ/ΧΟ,Ι) и распределения Стьюдента с (п — 1) степенями свободы (см. § 2 гл. 11). Если ϊ* ^ 2α, то гипотеза Н'0 отвергается, иначе — принимается. Совпадения. Если среди значений Zi встречаются нули, то их надо отбросить и, соответственно, уменьшить η до числа ненулевых значений Ζ ι. Если среди ненулевых \Ζχ\ есть равные, то для вычисления статистики Τ надо использовать средние ранги. В формуле (4) дисперсию ΌΤ следует заменить на 1_ 24 n(n + l)(2n + l)-i £/*(£-1) 1 fc=i (6) где д — число групп совпадений, Ik — количество элементов в к-й группе.*) ) Не совпадающие с другими наблюдения считаются группой размера 1. Если совпадений нет вовсе, то сумма в выражении (6) пропадает.
224 Глава 15. Парные повторные наблюдения Оценка параметра. Когда гипотеза Щ отвергается, в качестве оценки параметра сдвига θ можно взять медиану средних Уолша (см. § 3 гл. 8) W = MED{(Zi + Ζά)/2, l^i^j^n}. Доверительный интервал. Построение доверительного интервала для случая η ^ 15 описано в [88, с. 55]. При больших η пара порядковых статистик (V(fca+i),V(M-fca)) образует приближенный доверительный интервал с коэффициентом доверия 1 — 2а. Здесь V(i) ^ ... ^ У(м) —упорядоченные по возрастанию средние Уолша (Zi + Zj)/2 при 1^г^'^пиМ = п(п + 1)/2; ка — это целая часть числа п(п + 1)/4 - 0,5 - ζι_αλ/η(η+1)(2η + 1)/24, (7) где х\-а обозначает, как и ранее, (1 — а)-квантиль закона Λ/^Ο,Ι), а 0,5 представляет собой поправку на непрерывность (см. § 2). Проверка симметрии. Прежде чем применять критерий знаковых рангов, следует удостовериться в справедливости допущения Д7. Простой графический метод проверки основан на сходимости выборочных квантилей к теоретическим (см. § 3 гл. 7). Так как для теоретических квантилей ζρ симметричного относительно медианы Ζι/2 закона верно равенство Ζι/2 — ζρ = Ζ\-ν — Ζι/2ι то для порядковых статистик Ζψ) можно ожидать выполнения соотношений 6 = MED - Z{i) ъщ = Z(n+1_0 - MED, i = 1,... ,[n/2], (здесь [·] обозначает целую часть числа). Поэтому для выборки Zi,... ,Zn из симметричного относительно медианы распределения точки плоскости (£i»?7i) должны располагаться вблизи диагонали У = х- Замечание 2. Условие строгой симметрии относительно медианы является почти столь же нереалистичным, как и предположение, что распределение величин Z{ в точности нормально. Как правило, надежно проверить симметрию можно лишь по выборке из нескольких сотен наблюдений. Асимптотический критерий Гупты для решения этой проблемы приведен в [88, с. 76]. Ссылки на другие критерии см. там же на с. 81. Предположение о симметрии иногда оказывается справедливым в силу специфики получения наблюдений, приводящей к одинаковым вероятностям отклонения на произвольную величину от медианы как влево, так и вправо. Симметрия распределения величин Zi довольно естественно возникает в модели «контроль — обработка» (см. пример 1 гл.8). Однако подчеркнем еще раз, что в случае совместной независимости выборок Χι,...,Χη и Yi,...,y^ для проверки гипотезы
§ 3. Критерий знаковых рангов Уилкоксона 225 однородности следует использовать не критерии знаков и знаковых рангов Уилкоксона, а методы, изложенные в гл. 14. Пример 2. Для данных из примера 1 проверим гипотезу Щ: θ = О с помощью критерия знаковых рангов. После отбрасывания Ζιο = О в выборке останется η = 11 наблюдений. Упорядочим их: Z(j) | -8 | -7 | 71 10 1 19 | 19 | 20 | 23 | 35 | 45 | 52 Видим, что MED = 19. Для визуальной проверки симметрии построим точки (&,ту<), определенные выше. Проведем прямую у = χ (рис. 3). Хотя выборка слишком мала для уверенного заключения, построенная диаграмма, по-видимому, не противоречит допущению о симметрии распределения случайной величины Zi. Упорядочим по возрастанию величины |Z<| и присвоим средние ранги совпадающим значениям: \Zi\ А Ui 7 1,5 0 7 1,5 1 8 3 0 10 4 1 19 5,5 1 19 5,5 1 20 7 1 23 8 1 35 9 1 45 10 1 52 11 1 Согласно приведенной таблице статистика критерия знаковых рангов Τ = Y^R%Ui = 61,5. Учитывая, что среди величин \Ζχ\ есть две группы совпадений, по формуле (6) вычислим дисперсию DT = (11 · 12 · 23 - 3 - 3)/24 = 126,25. Отсюда по формуле (4) для нормированной статистики Т* получаем значение t* « 2,54. Положив α = 0,005, из таблиц Т2 и Т4 (при к = η — 1 = 10) находим ζα = (2,576 -f 3,169)/2 « 2,87. Согласно формуле (5) имеем ί* = 3,14. Так как 3,14 ^ 2,87, то гипотеза Щ отвергается на уровне значимости 0,005. С помощью компьютера вычисляем значение оценки параметра сдвига W = MED{(Zi + Ζ,·)/2, г ^ j} = 19,25. На основе формулы (7) строим 90%-цый доверительный интервал (V(15),V(52)) = = (15/2,31), который несколько уже интервала (7,35), полученного ранее при применении критерия знаков к этим же данным. 0 10 20 30 Рис. 3 Комментарии 1) Если в условии Д7 все ει имеют одинаковое симметричное гладкое распределение (см. § 1 гл. 8), то критерий знаковых рангов будет состоятельным против альтернативы Щ: θ > 0 (см. [86, с. 64]). 2) Покажем, что связь между статистикой Τ критерия знаковых рангов и медианой средних Уолша W аналогична рассмотренной ранее связи между статистикой S критерия знаков и выборочной медианой MED. Согласно задаче 1 при отсутствии нулевых значений и совпадений среди величин |Ζ*| статистика знаковых
226 Глава 15. Парные повторные наблюдения рангов Τ равна Σ I{(Zi+Zj)/2>о}> τ·е· Τ есть число положительных средних Уолша. ^Естественной оценкой параметра сдвига θ будет такая величина 0, чтобы набор Z[ = Zi — θ (г = 1,... ,η) выглядел как выборка из закона с θ = 0. Но при θ = 0 распределение статистики Τ симметрично относительно своего среднего п(п+1)/4. Тем самым, приходим к соотношению Σ Ι{(ζΐ+ζρ/2>ο} = Σ 1{(zi^zj)/2>d] = n(n + l)/4. Когда величина θ становится равной медиане средних Уолша, происходит «перескок» через уровень п(п + 1)/4. 3) Построенный выше доверительный интервал получается в результате применения метода 1 из § 3 гл. 11 к функции 9(*β) = Σ I{(zi+zj)/2>0}' 4) Сравним критерий знаков с критерием знаковых рангов по их «чувствительности» к обнаружению сдвиговой альтернативы Н'ъ: θ > 0. Их относительная точность при больших η (см. [86, с. 77]) совпадает с относительной асимптотической эффективностью (см. § 4 гл. 7) связанных с критериями оценок: выборочной медианы MED и медианы средних Уолша W (доказательство приведено в [86, с. 90]). Согласно теоремам 1 и 3 гл. 8 на классе fis гладких симметричных распределений верно равенство eMED^(F) = —Ά-Γ, (8) 3(}p2(x)dx) где р(х) = F' (#) — плотность закона с функцией распределения F(x). В частности, для нормального закона eMED,w = 2/3 < 1 (см. задачу 1 гл. 7 и вопрос 5 гл. 8), а для распределения Лапласа £med,w = 4/3 > 1 (см. задачу 1 гл. 8). Оказывается, чем «легче» хвосты у распределения F, тем предпочтительнее оценка W по сравнению с MED. Для уточнения этого утверждения приведем отрывок из [86, с. 122], в котором обсуждается предложенное У. Ван Цветом в 1970 г. упорядочение симметричных распределений по весу их хвостов: «Пусть F и G из Ω5. Будем говорить, что хвосты F «легче» хвостов G (или G имеет хвосты «тяжелее», чем у F), что обозначается F ^ G, если функция G~l(F{x)) выпукла при χ ^ 0.** Заметим следующее: 1) F ^ F, 2)F^GnG^H влечет за собой F ^ Н. Следовательно, ^ — слабое упорядочение. Если F ^! G и (? ^ F, то мы называем F и G эквивалентными. Пусть F(x) = G(ax) при α > 0, тогда G~1(F(x)) = αχ, так что F ^ G, также F~1(G(x)) = χ/а и поэтому G ^ F. Отсюда мы видим, что распределения, различающиеся лишь по параметрам масштаба, эквивалентны. *) Определения выпуклости и строгой выпуклости функции приведены в П4.
§ 4. Зависимые наблюдения 227 Так как F и G из Ω5, то их плотности / и g положительны в нуле. Далее положим /(0) = д(0) (общность при этом не теряется), что достигается преобразованием масштаба: F(x) = F{x/a) с σ = f(0)/g(0). Теперь допустим, что F ^ G, причем они не эквивалентны. Тогда q(x) = G~1(F(x)) строго выпукла для некоторого х, a q'(x) = f(x)/g(G~1(F(x))) строго возрастает для некоторых х. Поскольку <j'(0) = f(0)/g(0) = 1, то q'(x) > 1 для некоторых χ и, наконец, G~l(F(x)) > χ. Отсюда F(x) > G(x) и 1 - F(x) < 1 - G(x), так что вероятность попадания наблюдения «на хвост» G больше». Нетрудно проверить, что верно следующее упорядочение: равномерное ^ нормальное ^ закон Лапласа =^ закон Коти Можно доказать (см. [86, с. 137]), что для F, G £ Qs отношение F *4 G влечет неравенство eMED,w(F) ^ eMED,w(G), где eMED,w задается формулой (8). §4. ЗАВИСИМЫЕ НАБЛЮДЕНИЯ До сих пор мы предполагали, что приращения Zi независимы (допущение Д6). Для иллюстрации того, что происходит при отказе от этого допущения, рассмотрим следующий пример. Пример 3. Влияние сериальной корреляции [86, с. 38]. Пусть компоненты нормального случайного вектора (Ζι,...,Ζη) (см. П9) таковы, что Ζι ~ Λί(θ, 1), M(ZiZj) = ρ при ^ = г±1и0 — в противном случае, причем коэффициент корреляции \р\ ^ 1/2. (Корректность данного определения проверяется в задаче 2.) При /9 = 0 получаем независимые Ζ ι, а при ρ φ 0 зависимы лишь стоящие рядом случайные величины. Эта модель — частный случай m-зависимой последовательности с га = 1 (см. П6). Проверим гипотезу Щ: θ = 0 против альтернативы Щ: θ > 0. При ρ = 0 равномерно наиболее мощный критерий Неймана- Пирсона уровня значимости а задается критическим множеством {z e Rn: yfn~z ^ #ι_α}, где χ ι _α — квантиль закона Λ/ΧΟ, 1) с функцией распределения Ф(х) (см. пример 1 гл. 13). Выясним, каков истинный уровень значимости этого критерия, если на самом деле ρ φ 0, т. е. вычислим при справедливости гипотезы Щ. Как линейная комбинация компонент нормального вектора, статистика y/nZ распределена нормально с параметрами M(y/nZ) = 0 и D(y/nZ) = 1 + 2р(п — 1)/п (последнее равенство верно в силу свойств дисперсии 1 и 3 из П2). Отсюда при больших η имеем αρ(Ζ) = 1-Ф (Х1_а 1фЁ\ * 1 - Φ {χι-α /у/Т+Щ .
228 Глава 15. Парные повторные наблюдения Вычислим для критерия знаков аналогичную характеристику ap(S) = Ρ ((5 - η/2) /ν^/4 > *ι_α) . Здесь S = Х)£/г> где £7^ = /{^>о}· При выполнении гипотезы Щ находим, что MS = n Mt/i = η Ρ (Ζι > 0) = η/2, DS = η D*7i + 2(η - 1) cov (Uu U2) = = n/4 + 2(n - 1) [P(Zi > 0, Z2 > 0) - 1/4], поскольку D[/i = MJ7? - (MUi)2 = M^ - 1/4 = 1/4. Из задачи З Ρ(Ζι > 0, Z2 > 0) = i + -^ arcsin p. (9) Подставляя этот результат в предыдущую формулу, получаем -.^ η . η — 1 D5 = — Η arcsin p. 4 π Так как Μ |[/ι|3 = Μί7ι = 1/2 < οο, то выполняются условия теоремы Хефдинга и Робинса из П6, согласно которой распределение статистики (S— MS)/y/DS стремится к ЛГ(0,1). Отсюда при η —► оо РК ' V VOS ) \νΊ + (4/π) arcsin ρ) Наконец, приведем для сравнения аналогичную характеристику для статистики Τ критерия знаковых рангов Уилкоксона (см. [86, с. 99]). Из задачи 6 имеем ЬАТ = n(n+l)/4, DT = η(η+1)(2η+1)/24, а (Τ) = ρ (Т^МГ \ к1_ф ί χι-α \ Μ ' V VDT V V >/1 + (12/ir) axc8in(p/2) / В таблице указаны значения характеристик при а = 5%. Ρ Op(S) Ор(Г) -0,4 0,000 0,009 0,000 -0,3 0,005 0,018 0,006 -0,2 0,017 0,028 0,018 -ο,ι 0,033 0,039 0,033 0 0,05 0,05 0,05 ο,ι 0,067 0,061 0,067 0,2 0,082 0,071 0,081 0,3 0,097 0,081 0,095 0,4 0,109 0,092 0,107 0,5 0,122 0,101 0,120 Мы видим, что истинные уровни значимости всех трех критериев довольно существенно отличаются от 5%. При положительной корреляции далекие от нуля величины Zi как бы подтягивают к себе следующие за ними наблюдения, что приводит к увеличению дисперсии статистики критерия по сравнению с номинальной. Так, если ρ = 0,4, то гипотеза Н'0 отвергается примерно в 10% случаев вместо 5%. Заметим также, что строка для ар(Т) почти идентична строке для otp(Z). Это объясняется тем, что arcsin ρ = ρ + ρ3/6 + ... .
§ 5. Критерий серий 229 Поэтому 1 + — arcsin(/9/2) «1 + -/0«1 + 2/0. 7Г 7Г Наличие корреляции для реальных наблюдений — скорее правило, чем исключение. Б. Мандельброт и Дж. Уоллис исследовали около 70 рядов геофизических данных: речной сток, количество атмосферных осадков, частота землетрясений, годовые кольца на деревьях, мощность геологических слоев, а также число солнечных пятен (см. [84, с. 420]). В большинстве случаев была выявлена значимая положительная корреляция. Пример 4. Колебания уровня воды [90, с. 449]. Рассмотрим (упрощенную) вероятностную модель, описывающую отклонения от среднего значения уровня некоторого водного бассейна (например, Каспийского моря), вызванные испарением с водной поверхности и колебаниями в стоке. Обозначим через Нп уровень в бассейне в п-м году. Запишем для него уравнение баланса #п+1 = Нп — kS(Hn) +Tn+i, где к — коэффициент испарения^ S(H) — площадь водной поверхности на уровне Я, Τη+ι — величина стока в (п + 1)-м году. Пусть Ζη = Нп — if, где средний уровень Η можно считать известным из многолетних наблюдений. Предположим, что S(H) = S(H) + c(H — Я). (Для гладких 5(Я) это приближенно верно для не очень больших отклонений Η — Н.) Тогда величины Ζη подчиняются соотношениям Ζη+ι = θίΖη + εη+ι с а = 1 — ск и εη+ι = Τη+ι — kS(H). Будем считать случайные величины еп независимыми и одинаково нормально распределенными с нулевым математическим ожиданием и дисперсией σ2. Как установлено в [90, с. 448], указанные соотношения имеют при всех целых η и \а\ < 1 единственное стационарное (П6) решение Ζη = Σ α%εη-ί, причем cov (Z0, Zn) = σ2αη /(l - a2). i=0 Интересным практическим выводом в данной модели является то, что оптимальным (в среднеквадратичном смысле в классе линейных функций) прогнозом на следующий год по результатам наблюдений за предшествующие годы ..., Ζη_ι, Ζη служит просто величина aZn (см. [90, с. 489]). Законы математики, имеющие какое-либо отношение к реальному миру, ненадежны; а надежные математические законы не имеют отношения к реальному миру. А. Эйнштейн §5. КРИТЕРИЙ СЕРИЙ Рассмотрим один простой метод, позволяющий обнаруживать определенного вида корреляции наблюдений Ζ ι, который называется критерием серий (см. [10, с. 91]).
230 Глава 15. Парные повторные наблюдения Пусть h — некоторый заданный уровень. На практике обычно в качестве h берут предварительно вычисленное значение выборочного среднего, выборочной медианы или произвольную константу между минимумом и максимумом наблюдений. Положим ζι = I{Zi^h}- Если Ζι,... ,Zn — независимые одинаково распределенные случайные величины, то ζι,... ,£п — схема Бернулли (см. § 3 гл. 1) с неизвестной вероятностью «успеха» p = p(ft) = P(Zi<ft). Реализация случайных величин ζι,... ,£п представляет собой последовательность из символов 0 и 1 длины п. Сериями назовем цепочки символов одного вида. (Например, 111010 содержит 4 серии.) Обозначим число серий через Тп. Тогда Тп = 1 + δι + ... + ίη_ι, где Si = /{Ci+i#Ci} = ICt+i ~ C»l- (10) Вопрос 1. Чему в этом случае равны ЬЛТП и DTn? Вопрос 2. Чему примерно равна Р(Тюо>60)прир=1/2? Вопрос 3. Как доказать эту формулу, используя модель размещения неразличимых шариков по ящикам из § 5 гл. 10? Здесь δί — индикатор перемены символа на (г + 1)-м месте. Если Ci> · · · ιζη — схема Бернулли, то δι образуют стационарную га-зави- симую последовательность (П6) с га = 1. По теореме Хефдинга и Робинса (П6) при 0 < ρ < 1 распределение статистики (Тп - MTn)/\/DTn сходится к ЛГ(0,1). Поскольку в общем случае вероятность ρ неизвестна, для проверки независимости Ζ{ применим критерий, основанный на условной предельной теореме для Тп. Пусть 5η = ζι + ... + ζη. Для к = 1,2,... ,п — 1; га = 0,1,... ,η; Ι = η — га имеем р(т -u\q -m)- 1 2^-i^-i lC™ ' А: = 2г, (П~ ' П" J ~ I (C?r11Cj1_1 + ^.CSTiO/C-, * = 2i + l. Заметим, что условное распределение Р(ТП = k\Sn = га), к = 1,2,... ,п, при фиксированном га не зависит от неизвестного параметра р. Для него верен следующий результат. Условная предельная теорема. Пусть га, η —► оо так, что п/(п + га) —► 7 € (ОД) (допущение Д5 из гл. 14). Тогда Р(ТП < А: | 5П = га) = Ф((Л - Mm,n)^m,n) + о(1), где 2/т Доказать формулу для Дт,п предлагается в задаче 7. //m,n = M(Tn|Sn = ra) = l + „.2 _ п(гр ι Q _ ч _ 2/m(2/m - η) στη,η - D(?n I ^n - ТП) - 2 -— · ' η (η — 1) Здесь Φ(#) — функция распределения закона ЛГ(0,1), I = η — га. (П) Этим приближением можно пользоваться при η ^ 20. Критические значения для меньших η приведены в [10, с. 354].
Задачи 231 Для проверки независимости случайных величин Ζι,... ,Zn против альтернативы их положительной коррелированности Я+ (отрицательной коррелированности #~), ведущей к относительно малому (большому) числу серий, надо: 1) задать уровень h (скажем, равный ζ); 2) преобразовать реализацию ζι,... ,zn в последовательность из нулей и единиц I{Zl^hy,... J{zn^h}l 3) подсчитать количество серий к и число единиц га в этой последовательности; 4) вычислить дШ)П и σ^ η по формулам (11); 5) найти значение t* = /^ + °'5 ~ Рт,п)/°туп в случае Я+, [ (А; - 0,5 - μπι,η)Ιστη,η в случае Я"; 6) определить по таблице Т2 приближенный фактический уровень значимости а0 = Γι-ΦΗ*) в случае Я+, в случае Я~; 7) отвергнуть гипотезу независимости случайных величин Ζι,... ,Zn, если значение с*о достаточно мало, иначе — принять эту гипотезу. Пример 5 [10, с. 93]. Ниже указаны результаты проверки правильности прогноза температуры воздуха на сутки вперед в течение 28 последовательных дней. Знаками «—» отмечены дни, когда абсолютная ошибка прогноза была более 2°. В остальных случаях результаты прогноза отмечались знаком «+». ++++++++++ + + + --+ + + + + - + + Можно ли утверждать, что правильные и неправильные результаты прогноза группируются случайно? В данном примере к = 7, I = 20, га = 8, η = 28. По формулам (11) вычисляем дт?п = 12,429 и σ^ = 4,414. Отсюда находим t^ = —2,346, что согласно таблице Т2 значимо мало на уровне 1%. Таким образом, гипотезу о чисто случайном расположении знаков «+» и «—» следует отвергнуть. ЗАДАЧИ 1. Докажите, что при отсутствии нулевых значений и совпадений Мозг гораздо чаще ржа- \ Г7 \ т веет, чем изнашивается, среди величин |Z»| для статистики знаковых рангов Т, опреде- ' "™ш" aci^ ленной в § 3, имеет место представление Кристиан Бови Т= Σ/{(Ζ,+Ζ,)/2>0} = Σ/{(Ζ(ί)+Ζω)/2>0}· (12)
232 Глава 15. Парные повторные наблюдения 2? Проверьте, что для всех η матрица Σ = ||σ^·||ηχη) где (1, если j = г, ρ, если j = г ± 1, О в противном случае, положительно определена при \р\ < 1/2. Указание. Разложите главный минор порядка η сначала по первой строке, затем —по первому столбцу для получения рекуррентной формулы. 3* Выведите формулу (9) из примера 3. Указание. Запишите формулу плотности нормального вектора (Ζχ^) (Π9) и перейдите к полярным координатам. 4Ϊ* Убедитесь, что при выполнении условий Д6—Д7 случайные векторы U = (J7i,... ,Un) ий= (ϋι,... ,Λη), определенные при описании критерия знаковых рангов, независимы. 5? Определим антиранг Αι как такой номер, что IZ^J = 1^1 (г) (т. е. Ai есть индекс того наблюдения, которое соответствует г-му по величине абсолютному значению). Положим Wi = I{zA >o}· Докажите, что при выполнении гипотезы Щ и условий Д6—Д7 случайные величины Wi,...,Wn образуют схему Бернулли с ρ = 1/2. 6? Используя представление Τ = ^iW{, с помощью теорем Лин- деберга (П6) и Лебега (П5) установите при справедливости гипотезы Щ и условий Д6—Д7 сходимость распределения стандартизованной статистики Т* = (T—MT)/y/DT к закону ΛΓ(Ο,Ι). 7ί Проверьте формулу для дт>п из соотношений (11). Указание. Используйте представление (10). РЕШЕНИЯ ЗАДАЧ 1. Пусть Z(ix) < ... < Z(i) —положительные порядковые статистики. Тогда Τ является суммой рангов этих статистик относительно их абсолютных значений. Изобразим круг с центром в начале координат и радиусом Z(ix) (рис. 4). Тогда ранг Z^j равен числу точек Zyj в круге, включая Z(ix), поскольку мы ранжируем расстояния от 0. Во второй сумме из (12) выделим слагаемые с г = %\. Заметим, что полусуммы (Z(ix) + Z(j))/2 (1 < j < г) будут положительны только для Z(j), попавших в круг. Перебор всех г = ή,...,ζρ "р—τ——1*> завершает доказательство. (i) (n) 2. Обозначим главный минор порядка η через J9n. Условием положительной определенности матрицы Σ является положительность всех Di, г = 1,... ,п (см. П10). Разложив Dn сначала по первой строке, а затем —по первому столбцу, получим рекуррентное соотношение Dn+2 = Dn+l - p2Dn, (13) Рис. 4
Решения задач 233 которое представляет собой разностное уравнение 2-го порядка с постоянными коэффициентами (см. [42, с. 672]). Поскольку Di = 1 и Дг = 1 — р2, выводим из (13), что Do = Di = 1 (начальные условия). Так как в уравнении (13) участвует р2, то его решения при ри—р совпадают. Поэтому можно считать, что Р>0. Если 0 < ρ < 1/2, то характеристический многочлен /(λ) = = λ2 — λ + ρ2 уравнения (13) имеет действительные корни λι,2 = 2 (1 ^ λΑ ~~ 4р2), причем 0 < λ2 < λι < 1. Общее решение уравнения (13) в этом случае представляется в виде а\™ + 6λ2, где константы а и Ь находятся из начальных условий. Ответ таков: Dn = [(1 - λ2)λ? - (1 - Ai)AJ] / (λ! - λ2). (14) Неравенство О < λ2 < λι < 1 влечет неравенства 1 — λ2 > 1 — λι и λ™ > λ2. Поэтому правая часть равенства (14) положительна при всех п. Если ρ = 1/2, то λι,2 = 1/2. Общее решение уравнения (13) ищется в виде (а+Ьп) \™ 2. Начальные условия выполняются для Лп = (1 + п)2-п>0. Отметим, что если ρ > 1/2, то при достаточно большом η минор Dn станет отрицательным. Действительно, формула (14) и в этом случае дает решение уравнения (13), только теперь λι и Аг — комплексные числа. Записав их в тригонометрической форме, используя формулу для синуса суммы, нетрудно вывести, что Dn = т£т sin[(n + 1) arcsin#(р)], где Н(р) = ^4^ Функция Н(р) монотонно отображает луч (1/2, +оо) на интервал (0,1). Введем обозначение φ = arcsin Η (ρ). Тогда φ £ (0,π/2). Очевидно, что при п*, равном целой части от π/<ρ, аргумент синуса (η* + 1)φ впервые попадает в интервал (π,2π), где Dn становится отрицательным. 3. Согласно формуле из П9, искомая вероятность равна оооо J J 2тгуТ^ Ι 2(!-Ρ) J о о Переходя к полярным координатам х = г cos φ, у = r sin φ с якобианом замены г, получим
234 Глава 15. Парные повторные наблюдения Вычислим внутренний интеграл и введем замену ψ = 2φ: £ΞΖ\ ι #. 4π J 1 — ρ sin V> о Это табличный интеграл (см. [20, с. 66, 144]): при \р\ < 1 π 1 Φ 2 tg^"p с?^ = / arctg _ π Η- 2 arcsin p l-psin^ у/1-ρ2 \Λ - ρ2 Ι у/1-Р2 о Ιο 4. Для [Ti = /{Х;>о} по лемме о независимости из § 3 гл. 1 имеем η P(l/i = ti<, Ι-ΧΓ.Ι < a*,» = 1,... ,η) = JJ Ρ(*7; = tu, |Х<| < Xi). i=l Покажем, что перемножаемые вероятности также распадаются в произведения. Пусть щ = 1. Тогда в силу непрерывности и симметрии относительно нуля функция распределения F(x) случайной величины Xi имеем: P(Ui = 1, \Xi\ < s) = Р(0 < Xi ^ х) = F(x) - F(0) = = F^ -\ = \ (2FW -χ)= р(^ =*) р(№1 < *)■ Аналогично доказывается, что для любого χ верно равенство P(Ui = 0, |Х*| < я) = Р(£7< = 0) Р(\Хг\ < ж). Таким образом, U = (£/ι,... ,ί7η) и (|Χι|,... ,|-Х"п|) независимы. Так как R = (ϋι,... ,ДП) — вектор-функция от (|ΑΊ|,... ,Ι-Χ^Ι), toU и R также независимы. 5. Вектор антирангов А = (Αι,... ,АП) — вектор-функция от R. Действительно, образуем (2 χ п)-матрицу из столбцов (г,Дг) и переставим столбцы в порядке возрастания Д^. Тогда А — первая строка в полученной матрице: (1 ·· п\ (Аг ··· Ап\ \R! ·.· Rn) ~* V1 ··■ п)' [Например, (j з 1 4) ^ (l 2 3 ί) ] Ввиду задачи 4 случайные векторы U и А независимы. Используя это и формулу полной вероятности (П7), запишем: P(W = ν>) = Σ p(W = w\A = a)P(A = a) = = Σ Ρ(^{ζα.>ο} = Щ, г = 1, · · · ,η) Ρ(Α = о) = ;ρ(Α = α) = 2-η, что и требовалось установить. -G)"?1
Решения задач 235 6. Согласно определениям статистики Τ и случайных величин Wi имеем: T=±RiUi = tRi I{Zi>0} = t i hzAi>o) = tiWi. Другими словами, Т —линейная комбинация независимых и одинаково распределенных бернуллиевских случайных величин Wi. Отсюда по свойствам из П2 немедленно получаем, что МТ = Σ iMWi = Ι Σ г = η(η + 1)/4, ΏΤ = Σ ? OWi = \ Σ г2 = η(η + 1)(2η + 1)/24. Для установления асимптотической нормальности статистики Τ центрируем Wi (перейдем к & = Wi — MWi = Wi — 1/2) и используем следующее утверждение. Теорема 1. Пусть £ι,£2> · · · —независимые и одинаково распределенные случайные величины, причем Μ£ι = 0, 0 < σ2 = η = D£i < оо. Рассмотрим Sn = Σ °i£i> гДе {ci} — числовая г=1 последовательность. Если max{|ci|,...,|cn|} Λ rn = —/' ' "=Ц- —► 0 при η —► оо, то 5П /VE£ Α Ζ - ΛΓ(0,1), где DSn = σ2(с? + ... + с2). Доказательство. Проверим условие Линдеберга (см. П6): 1 2Гл2 Σ Μ &'(ш>«Щ] € <^Σ Μ [οΗΪΗ\ξι\>εσ/νη)] = ± Μ [&Ι№ >εσ/τη)} . При всех η случайные величины под знаком последнего математического ожидания мажорируются величиной £2 с М£2 = σ2 < оо. Так как εσ/τη —► оо, то они сходятся к 0 при всех ω. Чтобы завершить доказательство, остается применить теорему Лебега о мажорируемой сходимости (П5). ■ 7. Ввиду одинаковой распределенности случайных величин δί согласно формуле (10) имеем МГП = 1 + (п - 1) Щбг | Sn = πι). (15)
236 Глава 15. Парные повторные наблюдения Вычислим условное математическое ожидание (см. П7): Μ(ίι | Sn = m) = Ρ(ίχ = 11 Sn = m) = _ P(Si = l,Sn=m) _ Ρ(ζιφζ2,ζ3 + ... + ζη=τη-1) _ P(S„ = m) P(Ci + ... + <„ = m) _ 2p(l - p) Cr-lV""1 (1 ~ P)'"1 _ 2 CZ-2 _ 11m C?pm(l-p)1 C™ n(n-l)' где I = n — m. Остается только подставить его в (15). ОТВЕТЫ НА ВОПРОСЫ 1. Аналогично вычислениям в примере 3 из (10) имеем МТп = 1 + (п - 1)Μίι = 1 + (η - l)P(Ci ^ C2) = 1 + 2И(п - 1), где q = 1 — р. Согласно свойству 3 дисперсии (П2) запишем ОТп = (п - 1) Dii -f 2(n - 2) cov (ib &). (16) В соответствии с определением случайных величин δ{ Οδ1 = М£2 - (Μίι)2 = Mii - 4рУ = 2pq(l - 2pq), cov (SUS2) = P(ii = l,i2 = 1) - (Mil)2 = = P(Ci = 0,C2 = Us = 0) + P(Ci = 1,C2 = 0,Сз = 1)- — 4p2q2 = q2p + p2q — 4p2q2 = pq(l — 4pg). Подставляя в формулу (16), получим DTn = 2pq[(n - 1)(1 - 2pq) + (n - 2)(1 - 4OT)]. 2. При ρ = 1/2 по формулам, выведенным в предыдущем ответе, МТП = (п + 1)/2 и DTn = (η - 1)/4. Для η = 100 и Тп = 60 величина (Тп - MTn)/>/DTn « 1,91. По таблице Т2 искомая вероятность равна 0,028 (сравните с вопросом 1 гл. 12). 3. Условная вероятность любой последовательности из га единиц и I = η — га нулей при условии {Sn = га} одинакова и равна pmql/P(Sn = m) = 1/С™· Пусть fc = 2г + 1. Тогда имеется либо г серий из «0» и г + 1 серия из «1», либо г + 1 серия из «0» и г серий из «1». В первом случае разбиение I нулей на г (непустых) групп можно осуществить C\Z\ способами, га единиц на г + 1 группу — Сгш_х способами (см. вопрос 3 гл. 10).
Глава 16 НЕСКОЛЬКО НЕЗАВИСИМЫХ ВЫБОРОК В этой главе критерий ранговых сумм Уилкоксона—Манна—Уитни из § 5 гл. 14 обобщается на случай, когда данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза Но говорит об отсутствии различия в обработках, т. е. предполагается, что все наблюдения можно считать одной Не в совокупности ^ „ *» *. ищи единства, но выборкой из общей совокупности. более —в единообразии разделения. § 1. ОДНОФАКТОРНАЯ МОДЕЛЬ Козьма Прутков к Данные. Данные состоят из N = Y^rij наблюдений ж^·, по rij наблюдений в j-ft выборке (обработке), j = 1,... ,fc. Будем считать их реализацией случайных величин Xij, где Xij = μ + pj + Sij, г = 1,... ,n,·; j = 1,... ,k. (1) Здесь μ — (неизвестное) общее среднее, β$ — (неизвестный) эффект от воздействия фактора для j-ft выборки, е^ — случайная ошибка. Положим μ^; = μ + /3,. Обработки 1 #11 #21 3?πχ1 2 Х\2 #22 Хг%22 к Х\к #2fc #Hfcfc I Допущения Д1. Все ошибки ец независимы. Д2. Все е^ имеют одинаковое непрерывное (неизвестное) распределение. Для проверки гипотезы однородности Щ: μι = ... = μ\ζ можно использовать критерий Краскела—Уоллиса (§ 2) или критерий Джонкхиера (§ 3). §2. КРИТЕРИЙ КРАСКЕЛА-УОЛЛИСА Критерий Краскела—Уоллиса (см. [88, с. 131]) применяется для проверки гипотезы Н0 против альтернативы Hi: не все μ^ равны между собой.
238 Глава 16. Несколько независимых выборок Выполним следующие шаги. 1. Ранжируем все N наблюдений вместе от меньшего к большему Пусть Rij обозначает ранг наблюдения Х^ в этой совместной ранжировке. 2. Положим для j = 1,... ,λ; Sj = Σ -R»i> R-j — Sjln3'> R~ — ~jy Σ Rij = -^ ^ = 2 * Таким образом, R.j— это средний ранг наблюдений Хц, относящихся к обработке j, Д.. —общий средний ранг. 3. Найдем значение статистики критерия Краскела—Уоллиса W, определяемой формулой 12 Л ,п п ,2_ ^ = Щ^^пЛЯ,-Я^=[щ^0/п{ 12 Д„2, -3(ЛГ + 1). Если гипотеза Я0 верна, то все к выборок берутся из общей совокупности, поэтому величины R .j не должны сильно отличаться от Д... Это объясняет, почему большие значения статистики W противоречат гипотезе Щ. Малые выборки. Гипотезу Н0 следует отвергнуть, если наблюдаемое значение w статистики W окажется больше или равно к;а, где критическая граница wa для заданного уровня значимости а (см. § 1 гл. 12) определяется по таблице АЛ книги [88] (к сожалению, только для к = 3 и 1 < η j < 5). Большие выборки. Если гипотеза Щ верна, то при min{ni,... ,rifc} —► оо статистика W имеет в качестве предельного закона распределение хи-квадрат с к — 1 степенями свободы (см. [86, с. 190J). Приближенный критерий уровня а таков: отклонить гипотезу Но, если w ^ zi-ot, где ζι-α — это (1 — а)-квантиль χ|_ ^распределения (см. таблицу ТЗ); в противном случае — принять гипотезу Н0. Поправка. Для выборок среднего размера точность приближения может оказаться недостаточной. Например, согласно примечанию переводчика на с. 132 книги [88], при а = 5% для к = 2 и πι = П2 = 4,5,6 относительная погрешность ошибки I рода превосходит 33%. Следующая поправка статистики W, предложенная Р. Иманом и Дж. Давенпортом (1976 г.), позволяет существенно уменьшить эту погрешность (для указанного случая —в среднем в 5-6 раз). Именно, в качестве статистики для проверки однород-
§ 2. Критерий Краскела—Уоллиса 239 ности к выборок возьмем Й?=1 W[(N-k)/(N-l-W) + 1]. (2) Приближенное критическое значение уровня α для нее равно Wa = 2 [*1-α + (* " 1)Λ-α] , (3) где ζι-α и /i_Q —(1 — а)-квантили, соответственно, закона χΙ_ι (см. табл. ТЗ) и распределения Фишера—Снедекора Fk-i,N-k (см. табл. Т5). Совпадения. Если среди х^ встречаются одинаковые значения, то для вычисления W надо брать средние ранги, а затем заменить И^на ^\^ -1; m=i д — число групп совпадений, lm — количество элементов в га-й группе. Не совпадающие с другими х^ считаются группой размера 1. Сравнение обработок. Для того чтобы узнать, какие из обработок отличаются друг от друга, О. Данн (1964 г.) предложил следующий приближенный критерий уровня а: принять решение Mr 7^ ββ> если где ρ = 1 — а/[к(к — 1)], хр — р-квантиль стандартного нормального закона ЩО, 1) (см. табл. Т2). Оценка контраста. Для значимо различающихся обработок с номерами г и s представляет интерес контраст АГ8 = μΓ — μ8. В качестве первичной оценки для него возьмем оценку параметра сдвига, задаваемую формулой (10) гл. 14: Vrs = MED{Xir - Xl8, 1 ^ г ^ nr, 1 ^ I < ns}, r ^ s; Vrr = 0. (Отметим, что достаточно подсчитать лишь А:(А: — 1)/2 значений статистик V^s для г < s, поскольку Vsr = — V^.) Далее, вычислим взвешенные суммы к I к л к Wr = Y,n8Vr8 Ση8 = -~ΣηθΚθ, г = l,...,fc. (5) s=l / s=l iV s=l Наконец, определим уточненную оценку контраста как Ars = Wr-W.. (6) ΛΓ(ΛΓ + 1) 12 ll/Z (1/пг + 1/n,)1/2, (4)
240 Глава 16. Несколько независимых выборок Пример 1. Содержание влаги [83, с. 368]. Были взяты 14 образцов некоторого продукта, которые случайным образом разбили на пять групп заданных размеров. Все группы хранились в разных условиях, а после хранения у всех образцов определили содержание влаги. Данные (в %) приведены в следующей таблице (в скобках указан соответствующий ранг Rij): Условия хранения продукта 1 7,8 (7) 8.3 (10,5) 7,6 (6) 8.4 (12) 8,3 (10,5) Si =46 Д.1 =9,2 2 5,4 (1) 7,4 (5) 7,1 (3,5) 52 = 9,5 Д.2 = 3,17 3 8Д (9) 6,4 (2) S3 = 11 R.3 = 5,5 4 7,9 (8) 9,5 (13) 10,0 (14) £4 = 35 Д.4 = 11,67 5 7Д (3,5) Ss = 3,5 Ft .5 = 3,5 Статистика Краскела—Уоллиса W для этих данных принимает значение 8,39. Учитывая два совпадения, получаем W « 8,43. Для закона χ| по табл. ТЗ линейной интерполяцией находим, что приближенный фактический уровень значимости а0 « 8%. Так как размеры выборок малы, сделаем поправку Имана и Да- венпорта. В соответствии с формулой (2) статистика W « 12,51. Зададим уровень значимости а = 5%. Найдем квантили ζι-α и /ι_α, участвующие в формуле (3). Из табл. ТЗ для к — 1 = 4 берем ζι-α = 9,49. Для к\ = 4 и k<i — 9 согласно табл. Т5 имеем Д_а « 3,63. Отсюда wa ~ 12,01 < 12,51. Следовательно, гипотеза однородности отвергается даже на уровне значимости 5%. (Отметим, что относительная ошибка найденного ранее приближенного фактического уровня значимости с*о = 8% составляет (8 - б)/5 = 60%.) Для выяснения того, какие же из способов хранения значимо отличаются друг от друга, применим приближенный метод Данна (см. формулу (4)). Поскольку rtj малы, зададим не 5%-ный, а больший уровень значимости.*) Возьмем, скажем, а = 0,15. Тогда для ρ = 0,9925 из [10, с. 116] извлекаем хр « 2,43. Все значения Сг8 (г < s) указаны в таблице: Г, S |Д.Г — R-s\ Ors 1,2 6,03 7,42 1,3 3,70 8,51 1,4 2,47 7,42 1,5 5,70 11,14 2,3 2,33 9,28 2,4 8,50 8,30 2,5 0,33 11,74 3,4 6,17 9,28 3,5 2,00 12,45 4,5 8,17 11,74 *) Когда данных мало, функция дискретного распределения статистики |Д.Г — R-s\ растет большими «скачками». Поэтому неразумно устанавливать слишком жесткие условия.
§2. Критерий Краскела—Уоллиса 241 Неравенство (4) имеет место только для пары (r,s) = (2,4). Таким образом, при вероятности ошибочного решения 0,15 способы хранения 2 и 4 различаются значимо. S 1 2 3 4 5 Первичные оценки Vki = 1,2 Vu = 2,5 Vis = 1,7 V44 = 0 Vie = 2,4 Wa = 1,38 V2i = -1,2 1^22=0 V23 = -0,85 V24 = -2,5 V25=0 W2 = -1,09 ns 5 3 2 3 1 Оценим контраст Δ42. Приведем значения необходимых для этого первичных оценок Vr8 и их взвешенных сре^ших Wr. В данном случае значение уточненной оценки контраста Δ42 = W^ — W2 = = 2,47 мало отличается от значения первичной: V42 = 2,5. Комментарии 1) Распределение статистики W при условии справедливости гипотезы Hq можно получить из того, что в этом случае все ΛΠ/(ηι!.. .rife!) возможных наборов по п\ рангов для первой выборки, ..., Пк рангов для к-й выборки равновероятны (см. формулу 3 гл. 10). На каждом наборе подсчитывается значение W и заносится в таблицу. 2) Надо иметь в виду, что неоднородность некоторой пары выборок может быть замаскирована присутствием других выборок в таблице данных (см. [88, с. 135]). Как заметил К. Габриэль (1969 г.), статистика W имеет тот недостаток, что ее значение w8Ub, вычисленное для некоторого подмножества выборок, может превзойти значение wtot для всех выборок. Например, пусть выборке с номером 1 соответствуют ранги 8, 9,10,11; выборке с номером 2 — 1, 2, 6, 7; выборке с номером 3 — 3, 4, 5, 12. Тогда для выборок с номерами 1 и 2 (к = 2) w8Ub « 5,333, а для всех трех выборок Щоь ~ 4,769. (Отметим, что этот же изъян присущ и статистике Фридмана из следующей главы.) 3) Приближенные критические границы Сг8 в формуле (4) рассчитаны в предположении, что гипотеза однородности Hq верна. Когда она не верна, способность метода Данна обнаруживать значимо различные обработки резко уменьшается с ростом к. Это хорошо видно из примера 1, где к = 5. Хотя на уровне 0,15 мы и приняли решение μ<ι Φ μ±, уже на уровне 0,1 (хр = 2,58 и С24 = 8,81 > 8,50) мы не смогли бы сделать этого. *) В защиту *) Критерий ранговых сумм Уилкоксона—Манна—Уитни, примененный к обработкам 2 и 4 для проверки гипотезы Но против односторонней альтернативы № < А*4, имеет фактический уровень значимости ао = 0,05. Вопрос 1. Чему равна P(W^2) при к=т=П2 = 21
242 Глава 16. Несколько независимых выборок столь консервативного подхода приведем (см. [88, с. 145]) описание ситуации, где встречается другая крайность — тенденция различать на самом деле неразличимое. «Рекламируя по телевидению свое новое лекарство как панацею, каждая фирма непременно заявляет, что при испытаниях оно показало себя эффективнее всех известных препаратов. Целью таких испытаний (если, конечно, они не откровенно подделаны) является вовсе не помощь изготовителю в принятии решения, а лишь предоставление ему возможности оптимистически объявить о проведенном сравнении, дабы произвести впечатление на публику и увеличить продажу. Правильнее было бы потребовать от него использовать для статистического анализа метод множественных сравнений. Чем более одинаково неэффективны были бы хваленые лекарства, тем труднее было бы сделать убедительный вывод и тем большее число испытаний пришлось бы провести, чтобы прийти к желаемому заключению». 4) При оценке контрастов с помощью первичных оценок Vr8 мы сталкиваемся с тем неприятным обстоятельством, что они не удовлетворяют линейным соотношениям, которые выполняются для самих контрастов. Так, Δ42 = Δ41 + Δΐ2, но в общем случае V42 φ Vax + V12 (2,5 φ 1,2 + 1,2 = 2,4 в примере 1). На эту несогласованность величин Vr8 обратил внимание^. Леман. Э. Спе- тволль (1968 г.) предложил уточненные оценки АГ8 (см. формулы (5) и (6)), которые не только согласованы, но и состоятельны, когда пг и п8 стремятся к бесконечности, а остальные rij фиксированы. Недостатком оценки Аг8 является ее зависимость от выборок с номерами, отличными от г и s. 5) В случае, когда функция F£ распределения ошибок ец в модели (1) является нормальной, асимптотическая эффективность критерия Краскела—Уоллиса по отношению к оптимальному F-критерию однофакторного дисперсионного анализа (статистика которого задается равенством (9) в примере 2 ниже) равна величине E(F£) из формулы (11) гл. 14. Если справедливо допущение, что наблюдения Х^ имеют нормальное распределение (или очень похожее на него), то можно воспользоваться критериями из следующего примера. Пример 2. Проверка однородности независимых нормальных выборок. Пусть все Хц ~ Λ/Χμ^, σ|) (г = 1,... ,rij, j = 1,... ,λ;) независимы, причем параметры μ^ и Gj неизвестны. Несмещенными оценками для μ^ и σ| являются (см. пример 3 гл. 6) х., = ±Ъхц и s^-^—YKXij-Xj)2- (7) Положим Ν = Πι + ... + rife. Для проверки гипотезы Я': σι = ... = σ&, μι,... ,μ^ — любые, Статистика может доказать что угодно, даже правду. Ноэл Мойнихан
§2. Критерий Краскела—Уоллиса 243 обычно используется критерий Бартлетта, статистикой которого служит отношение взвешенных среднего арифметического и среднего геометрического величин S%,... ,5£: *-{*£*%)/Ш®14· (8) Вопрос 2. Если выполняется гипотеза Я' и все п5 > 3, то статистика в™$^%ч™ НП*™* Β* = Ί->ΝΙηΒ, ΓΛβ7 = ι + _1_[(έ^)-έ]. приближенно имеет χ^_χ-распределение (см. [10, с. 47]). Можно показать, что критерий Бартлетта обобщает критерий Фишера из примера 1 гл. 14 (задача 6). Когда гипотеза Н' принимается, для установления однородности выборок остается убедиться, что верна гипотеза #": μι = ... = Mfc. Для ее проверки используется F-критерий однофакторного дисперсионного анализа (см. § 4 гл. 21), основанный на отношении ι А ,„ „,а Ση^Χ-ί-Χ-Υ k-l Ά }К '3 "' 1 к п> Д= Ί JIn, , weX.. = j-ZEXij, (9) которое при справедливости гипотезы Н" распределено в точности по закону Fk-i,N-k (см. пример 1 гл. 14) для любых п$ > 1. Доказательство. По условию σι = ... = σ& = σ. Так как статистика R не зависит от σ, то без ограничения общности будем считать, что σ = 1. Для фиксированного j рассмотрим случайную величину Sj из формулы (7). По теореме 1 гл. 11 имеем (nj - 1) 5? = Σ (Xij - X.j)2 ~ X2nj_v (10) г=1 Так как выборки независимы и хи-квадрат является частным случаем гамма-распределения, из соотношения (10) и леммы 1 гл. 4 вытекает, что vint = Σ Σ (Хц - x-if ~ XN-k- (и) j=li=l Vint: от англ. variability- изменчивость, interior — Здесь Vint — мера общей изменчивости внутри выборок. внутренний. С другой стороны, случайные величины X.j ~ Λ/Χμ^·, 1/ftj) независимы между собой. Поэтому (см. задачу 4) при справедливости
244 Глава 16. Несколько независимых выборок Vout- outside (англ.) — внешний. гипотезы Я" статистика ^=Егъ(Х,--Х..)2~х£_1· (12) Здесь Vout — мера разброса между выборками. Ввиду независимости выборок и теоремы 1 гл. 11 Χι,... ,Х* не 1 k зависят от 5ι,... ,5^. Поскольку X. = — J] njXji т. е. является N j=i линейной комбинацией Xj, из леммы о независимости из § 3 гл. 1 вытекает независимость Vint и Vout. Использование определения закона Фишера—Снедекора завершает доказательство. ■ Замечание 1. Для любых Хц верно тождество (задача 3) Vtot. total (англ.) — общий. Вопрос 3. Как связана R при к = 2 с Τ из примера 1 гл. 14? vtot =ΣΣ (Хц - х~Г = Уш + v«,t. j=l i-1 (13) Таким образом, общая изменчивость (разброс, дисперсия) Vtot распадается на слагаемые, каждое из которых представляет свой источник изменчивости данных. Отсюда и происходит название «дисперсионный анализ». Отметим, что статистика критерия Краскела—Уоллиса W является нормированной величиной Vout для рангов Я^·, статистика F-критерия R из формулы (9) — это отношение нормированных величин Vout и Vint. Замечание 2. Критерий Бартлетта весьма чувствителен даже к небольшим отклонениям распределения элементов выборок от нормального. Так, допустим, что все наблюдения распределены по закону Стьюдента tj с 7 степенями свободы, которое очень похоже на нормальный закон ЛГ(0,1) (см. рис.7 гл.11). В следующей таблице приведены некоторые значения (взятые из [10, с. 114, 174]) функций распределения этих законов и разности Δ (χ) между ними. X *7 Λ/χο,ΐ) Δ(χ) 0,0 0,5 0,5 0 0,5 0,683 0,691 0,008 1,0 0,825 0,841 0,016 1,5 0,911 0,933 0,022 2,0 0,957 0,977 0,020 2,5 0,980 0,994 0,014 3,0 I 0,990 0,999 0,009 Наибольшее отличие Дтах = 0,022 достигается при χ « 1,5. Обозначим через Ьа критическое значение уровня α статистики Бартлетта В, т. е. Р(В ^ Ьа) = а при справедливости гипотезы Н'. Г. Бокс (1953 г.) установил, что даже для больших выборок при замене распределения ЛГ(0,1) на закон ίη эта вероятность меняется драматически (на рис. 1 изображен сдвиг плотности В при такой
§3. Критерий Джонкхиера 245 замене). Например, для уровня значимости α = 5% получаем следующую картину: Законы Ι Λ/χο,ΐ) Количество выборок k = 2 17% 5% к = Ъ 32% 5% fc = 10| 49% 5% Статистик, уверенный в том, что использует уровень 5%, в действительности может иметь дело с уровнем 49%! Приведем цитату на затронутую тему из [84, с. 38]: й ft О1 6Q Рис. 1 «Предполагалось, что отклонения от идеальных моделей можно игнорировать как несущественные; что статистические процедуры, оптимальные в строгой модели, останутся примерно таковыми и в приближенной модели. К сожалению, оказалось, что такие надежды зачастую не имеют под собой никакой почвы; даже безобидные отклонения часто имеют следствием эффекты гораздо более сильные, нежели это предвидело большинство статистиков». §3. КРИТЕРИЙ ДЖОНКХИЕРА На практике часто встречается ситуация, когда исследователь пытается выявить значимое возрастание (или убывание) уровня интересующего его фактора от выборки к выборке. В этом случае надо применять не критерий Краскела—Уоллиса, а более чувствительный критерий Джонкхиера ([88, с. 136]).*) Он используется для проверки гипотезы однородности Н0 против альтернативы возрастания влияния фактора Я2: μι ^ ... ^μ&, (14) где хотя бы одно из неравенств строгое. Выполняются следующие шаги. 1. Вычисляются к(к — 1)/2 значений статистики Манна—Уитни Ura, 1 ^ г < s ^ к (см. § 5 гл. 14), где Urs=ti:i{Xir<Xu}- (15) i=U=l 2. В качестве статистики критерия Джонкхиера берется J=Eur8= Σ1 Σ иГ8. (16) r<s r—1 s=r+l *) Критерий был предложен в работах Т. Терпстры (1952) и независимо А. Джонкхиера (1954) (ссылки на работы см. в [88, с. 140]).
246 Глава 16. Несколько независимых выборок Малые выборки. Гипотеза Но отвергается, если наблюдаемое значение статистики J окажется не меньше критической величины tai которую для /с = 3и2^п7^8 можно найти в таблице А8 книги [88]. Большие выборки. Пусть J* = (J — MJ)/VDJ, где ш = Емиг8 = \ Znrn8 = \{n2- jznf], Г<8 Δ Г<8 4 \ j = l / DJ = ^ \N^2N + 3) " Ση){2ηό + 3)1 , Ν=Σ4. 72 I j=i J j=i Если верна гипотеза Hq, то статистика J* имеет асимптотическое распределение ЛГ(0,1) при min{ni,... ,п&} —► оо (см. [86, с. 199]). Обозначим через х\-а квантиль уровня 1 — а для закона ЛГ(ОД). В случае, когда наблюдаемое значение J* больше или равно £ι_α, гипотеза Н$ отвергается, в противном случае — принимается. Совпадения. Для учета совпадений следует заменить индикаторы в (15) на /{xir<xls} + - I{xir=xls], чтобы в случае равенства значений сумма дополнительно увеличивалась на -. Сравнение обработок с контрольной. Такая задача возникает, например, при исследовании эффективности ряда новых методов лечения (лекарств), предназначенных для улучшения принятого ранее стандартного метода. (Разумеется, позже можно сравнить друг с другом те обработки, которые оказались значимо лучше контрольной.) Пусть роль контроля играет обработка 1. Приближенный критерий Данна уровня а выглядит так: следует принять решение №j > Mi) если v-lV2 \R.j-R.1\^Dj=xp N(N + 1) (Ι/η, + 1/щ)1/2, (17) 12 где ρ = 1 — a/(k — 1), хр —р-квантиль закона ЛГ(0,1) (табл. Т2). Пример 3. Роль мотивации [88, с. 137]. П. Хандел (1969 г.) исследовал влияние чистой мотивации (знания цели работы) на выполнение монотонных производственных операций (вытачивание металлических заготовок определенных форм и размеров). 18 мужчин были случайным образом разделены на 3 группы. Рабочие, попавшие в контрольную группу А1 не имели информации о требуемой производительности, в группе В они получили лишь общее представление о том, что должны делать, наконец,
§3. Критерий Джонкхиера 247 в группе С рабочие имели точную информацию о задании и могли контролировать себя по графику, лежащему перед ними. В таблице приведены числа заготовок, обработанных каждым из рабочих за время эксперимента (в скобках указаны ранги Rij)*^ Группа А 40 (5,5) 35(1) 38 (2,5) 43 (10,5) 44 (13) 41(8) Si = 40,5 Д. ι = 6,75 Группа В 38 (2,5) 40 (5,5) 47 (17) 44 (13) 40 (5,5) 42 (9) S2 = 52,5 Д.2 = 8,75 Группа С 48 (18) 40 (5,5) 45 (15) 43 (10,5) 46 (16) 44 (13) 53 = 78 Д.з = 13 Поскольку мы ожидаем таких отклонений от Но, при которых производительность растет с осведомленностью, применим критерий Джонкхиера. По формуле (15) с учетом совпадений получаем U12 = 22, U13 = 30,5, и2г = 26,5. Согласно (16) имеем J = 22 + 30,5 + 26,5 = 79. По [88, табл. А.8] находим, что фактический уровень значимости с*о = 0,023. Теперь применим приближение для больших выборок и сравним с тем, что дал точный критерий. Значение J* » 2,02. В табл. Т2 ему соответствует уровень 0,022. Сравним группы В и С с контрольной. Из приведенной выше таблицы имеем Д.2 — Д.ι = 2, Д.з — Д.ι = 6,25. Для a = 0,05 квантиль хр = 1,96, D2 = £>з ~ 6,04. Поэтому группа С значимо отличается от контрольной, а группа В — нет. Наконец, оценим контраст Δ31. Из таблицы данных находим, что Vi2 = —1,5, Vis = -4 и V23 = -3. По формулам (5) и (6) вычисляем Wi = -11/6, W3 = 7/3 и Δ31 = W3-Wi = 25/6 w 4,17 φ 7^31=4. Комментарии 1) Нетрудно видеть, что величину J можно вычислить по совместной ранжировке всех N наблюдений. Таким образом, хотя для подсчета J и не нужна совместная ранжировка, зная ее и не зная самих Xij, можно восстановить значение J. Поэтому распределение случайной величины J при условии справедливости гипотезы Щ можно найти тем же способом, что и распределение статистики Краскела—Уоллиса W: все Ν\/(ηι\... п&!) возможных наборов рангов при выполнении гипотезы if о равновероятны; для каждого из них вычисляется значение J. *) Ранжировка нужна для сравнения групп В и С с группой А на основе (17).
248 Глава 16. Несколько независимых выборок 2) Для обеспечения состоятельности критерия Джонкхиера против альтернативы #2 (см. условие (14)) достаточно, чтобы N —» оо и rij/N —► 7j, где 0 < η^· < 1, j = 1, — ,k. ι Рис. 2 §4. БЛУЖДАНИЕ НА ПЛОСКОСТИ И В ПРОСТРАНСТВЕ Материал этого параграфа продолжает тему поведения траекторий случайных блужданий из § 6 гл. 14, только теперь частица будет перемещаться по точкам с целыми координатами на плоскости или в пространстве (блуждание по fc-мерной целочисленной решетке рассматривается в § 4 гл. 17). Случайным будем называть такое блуждание, при котором частица переходит в одну из 2к соседних по осям координат точек с вероятностью — независимо от своего положения (на рис. 2 приведена возможная траектория блуждания*) для к = 2). Пусть, как и в § 6 гл. 14, U2n — это вероятность вернуться в начало координат на 2п-м шаге, f<in — вероятность того, что первое возвращение в начало координат произошло в момент 2п. Лемма. При η ^ 1 верно равенство u<in — Σ h%^2n-2i t=l Щ = 1). (здесь Доказательство. Общее число путей за время 2п очевидно равно (2к)2п. Попадание в начало в момент 2п может быть либо первым возвращением, либо первое возвращение произошло в некоторый момент 2г < 2п и далее через (2п—2г) шагов частица вновь вернется в начало. Вероятность последнего события при фиксированном г равна /2i^2n-2i> так как имеется (2А:)2г/2г путей длины 2г, оканчивающихся с первым возвращением, и (2к)2п~2ги2П-2г путей из начала в начало длины (2п — 2г). При разных г эти события несовместны. Складывая их вероятности, выводим доказываемую формулу. ■ Установим ряд интересных результатов с ее помощью. Теорема 1. Пусть к = 1. Обозначим через ^п время, в течение которого блуждающая по прямой частица, совершая 2п шагов, находилась правее нуля. Тогда при η ^ 1 /?2г,2п = Р(^2п = 2г) = = и>2г u>2n-2ii i = 0,1,... ,п (см. теорему 3 гл. 14). Доказательство. § 6 гл. 14.) Согласно теореме 1 гл. 14 /?2η,2η = ^2η· В силу симметрии имеем также βο,2η = Щп· Поэтому достаточно доказать теорему для 1 ^ г ^ η — 1. *) В отличие от терминологии § 6 гл. 14, траекторией (путем) теперь станем называть не развертку во времени, а ломаную в Rfc, соединяющую последовательные положения блуждающей частицы.
§ 4. Блуждание на плоскости и в пространстве 249 Пусть для такого г в течение ровно 2г из 2п шагов частица находилась правее нуля. При этом первое возвращение в нуль должно осуществиться в некоторый момент времени 2т < 2п, и имеются две возможности: либо частица до этого момента частица находилась правее нуля, либо она была левее нуля. В первом случае 1 < г ^ г, и на участке пути после 2г частица находилась правее нуля в течение (2г — 2г) шагов из (2п — 2г). Всего таких путей 1 cfir £ <y2n-2r о - Δ J2r ' * P2i-2r,2n-2v Во втором случае на участке пути после 2г частица находилась правее нуля в течение 2% шагов из (2п — 2г), откуда г ^ η — г. Таких путей 1 с%2г £ с\2п—2г о - Δ J2r · * P2i,2n-2r· Следовательно, при 1 ^ г ^ η — 1 имеем соотношение ι г ι п—г &2г,2п =л Σ f2rP2i-2r,2n-2r + « Σ $2τβ2%,2η-2τ- (18) Δ r=l Δ r=l Применим теперь индукцию. Теорема, очевидно, верна при η = 1. Предположим, что она справедлива для путей, длина которых меньше 2п. Тогда формула (18) сведется к равенству 1 г ι п—г $2г,2п = ό u2n-2i Σ hrU>2i-2r + « U2i Σ hr^2n-2i-2v Δ r=l Δ r=l С учетом леммы получаем, что первая сумма равна г/2г, тогда как вторая сумма равна U2n-2ii поэтому теорема верна и для путей длины 2п, что и требовалось доказать. ■ Рассмотрим степенные ряды с коэффициентами Щп и fc 2η· U(z) = Σ U2nz2n, F(z) = Σ f2nz2n, 0< * < 1. n=0 n=l Связь между функциями U(z) и F(z) устанавливает Теорема 2. Имеет место соотношение F(z) = 1 — 1/U(z). Доказательство. Используем условие % = 1и лемму: оо оо л / η \ ВД - 1 = Σ «2η ^2η = Σ *2П ( Σ Λ< "2n-2i = n=l n=l \i=l / — Vs f ~2г V* л, ~2п-2г __ = L·, J2i Ζ 2^ u2n-2i Z = г=1 п=г = (£/***) (Ё«2п22п) = F(*)tf(*). Изменение порядка суммирования законно в силу неотрицательности членов ряда. ■
250 Глава 16. Несколько независимых выборок Так как U(z) и F(z) — степенные ряды с положительными коэффициентами, то их пределы при ζ —► 1 (конечные или бесконечные) равны, соответственно, Ση2η и Σίΐη (см. [33, с. 57]). В силу теоремы 2 расходимость ряда Σ u2n равносильна тому, что Σ /2η = 1· Последнее равенство означает, что блуждающая частица рано или поздно вернется в начало координат с вероятностью 1. Такое блуждание называют возвратным. Докажем замечательный результат, впервые опубликованный Д. Пойа в 1921 г. Д. Пойа Теорема Пойа. Случайное блуждание на прямой и плоскости ский математикерИКЭН возвратно, а в трехмерном пространстве — невозвратно. Доказательство. Исследуем сходимость ряда Ση2η в двумерном и трехмерном случаях (возвратность одномерного блуждания была доказана ранее в § 6 гл. 14). Найдем U2n для блуждания на плоскости. Общее число путей длины 2п равно 42п. Для того, чтобы в момент 2п частица снова оказалась в начале координат, число шагов верх должно совпадать с числом шагов вниз, а число шагов вправо — с числом шагов влево. Поэтому, если г —это число шагов вверх, то число шагов вниз равно г, а число шагов вправо так же, как и число шагов влево, равно η — г (всего 2п шагов). Представим, что шаг —это шарик, направление — ящик, и мы случайно раскладываем 2п шариков по четырем ящикам. В соответствии в формулой (3) гл. 10 число таких размещений шариков равно iUl(n-i)\\n-i)\=C*a(C$ ■ (19) Поскольку г может принимать значения от 0 до п, то «а» = 4-2пС2"„ Σ (Сгп)2 = 4~2пС2п Σ С\ С:~' = (2-2"С£п)2. (20) г=0 г=0 Здесь мы воспользовались тождеством £.&пСГ* = С%п, (21) г=0 вытекающим из сравнения коэффициентов при tn в обеих частях раскрытого по биному Ньютона равенства (l+t)2n = (l+t)n(l+t)n. (Другое доказательство формулы (21) будет получено в примере 4 ниже.) Применение формулы Стирлинга к соотношению (20) (см. формулу (14) гл. 14) дает асимптотику ν>2η ~ (ΐ/λ/πη) = — ПРИ η -^ оо,
§ 4. Блуждание на плоскости и в пространстве 251 откуда следует, что ряд Σ u2n расходится, т. е. блуждание на плоскости возвратно. Аналогично в трехмерном случае имеем U2n = e-2" ^ М o«+kn ili!j'!j!(n-i-j)l(n-i- j)! 2 (22) = 2-2nc?n Σ 0<i+i<n n! ^(n-i-j)! Здесь в квадратных скобках стоят вероятности г^· наблюдать при случайном размещении η различимых шариков по трем ящикам в первом ящике i, во втором —j и в третьем — (n — i — j) шариков (см. § 5 гл. 10). Поэтому Σ rh < max rij Σ rij = max r^·. (23) Вероятности г^ достигают своего максимального значения при *о = jo ~ п/3 (задача 2). Используя формулу Стирлинга, получаем с Зл/3 /0,ч max r<?· ~ - , где с = ——. (24) o^t+j^n ■'η 2π ν ' Так как 2~2пС2П ~ l/y/πη, из соотношений (22)-(24) имеем, что в трехмерном случае г/2П по порядку не превосходит п~3/2. Следовательно, ряд Ση2η сходится, и блуждание невозвратно. При оо этом вероятность возвращения когда-нибудь F(l) = ]Г f^n при- п=1 ближенно равна 0,35 (см. § 4 гл. 17). ■ Приведем небольшой отрывок из [81, с. 374] о теореме Пойа. «Прежде всего, почти очевидно, что из этой теоремы вытекает, что в одномерном и двумерном случаях с вероятностью 1 частица бесконечное число раз пройдет через каждое возможное положение, однако в трехмерном случае это неверно. Таким образом, для двух измерений в известном смысле справедливо утверждение «все дороги ведут в Рим». С другой стороны, рассмотрим две частицы, совершающие независимые случайные блуждания, причем перемещения их происходят одновременно. Встретятся ли они когда-нибудь? Чтобы упростить изложение, мы определим расстояние между двумя возможными положениями как наименьшее число шагов, ведущих из одного положения в другое. (Это расстояние равно сумме абсолютных величин разностей координат.) Если две частицы продвигаются на один шаг каждая, то расстояние между ними либо остается тем же, либо изменяется на две единицы, и поэтому расстояние между частицами будет либо всегда четным, либо всегда нечетным. Во втором случае наши две частицы никогда не смогут занять одно и то же положение. В первом случае легко видеть, что вероятность их встречи на п-м шаге равна вероятности того, что первая частица за 2п шагов достигнет начального положения второй частицы.
252 Глава 16. Несколько независимых выборок Следовательно, теорема Пойа утверждает, что в двумерном (но не в трехмерном) случае две частицы наверняка бесконечное число раз будут занимать одно и то же положение. Если начальное расстояние между двумя частицами нечетно, то аналогичное рассуждение показывает, что они будут бесконечно много раз занимать соседние положения. Если назвать это встречей, то теорема утверждает, что β одномерном и двумерном случаях две частицы с достоверностью встретятся бесконечное число раз, однако в трехмерном случае они с положительной вероятностью никогда не встретятся». Пример 4. Гипергеометрическое распределение [81, с. 63]. В урне находятся Μ шаров черного цвета и (Ν — М) шаров белого цвета. Случайным образом без возвращения извлекается группа из η шаров. Тогда вероятность того, что в ней будет ровно т черных шаров задается формулой p{m,nW,N)=C%Cl-_mM/C%, m = 0,l,...,n. (25) Доказательство. Занумеруем черные шары числами от 1 до Μ, белые — числами от (М + 1) до N. Пусть черные шары появились при извлечениях с индексами 1 < г ι < %2 < ... < гш ^ п. Эти индексы можно выбрать С™ способами. Для фиксированного набора индексов количество вариантов выбора номеров шаров равно Ам Αν~™μ> гДе Ам = ЩМ-1) ...(М-т + 1) = т\С% обозначает число размещений из Μ по т. Так как количество всех элементарных событий равно А%1 находим, что s^m дт лп—т р(т,п,М,Ю = СпАм.пА»-м= (26) ΛΝ _ η rnl CM (η - m)\ CN_M _ CMCN_M n\ Cpf Сдг Поскольку сумма по всем га вероятностей (25) равна 1, взяв га = г, N = 2п и Μ = η, получим еще одно доказательство тождества (21). Название «гипергеометрическое распределение» происходит от гипергеометрического ряда (см. [42, с. 279]) С(аМ») = 1 + f ζ + i a<a + W + ^ ζ2 + ■ ■ ■, (27) который при а = 1 и Ь = с сводится к сумме геометрической прогрессии. Нетрудно проверить, что р(га,п,М,ЛГ) = Ап Лп 1 АМА% га! -Ajv-M-n+mJ где величина в квадратных скобках совпадает с коэффициентом при zm ряда (27), у которого а = -М, b=-nnc = N-M-n + l.
Задачи 253 Любопытно, что многие элементарные функции выражаются через функцию G: (1 + z)n = G(-n, 1,1, - ζ), 1η(1 + ζ) = ζ G(l,l,2, - г), arcsin г = ζ G (l/2,1/2,3/2, ζ2), arctg г = ζ G (l/2,1,3/2, -ζ2). Модель случайного выбора без возвращения применяется при выборочном контроле качества продукции. В партии из N изделий дефектные изделия играют роль черных шаров. Их число Μ неизвестно. Пусть в контрольной выборке размера η было обнаружено т дефектных изделий. Формула (25) позволяет сделать выводы относительно истинного значения М. Еще одним примером использования данной модели может служить оценка размера популяции по данным повторного отлова. Из озера вылавливают Μ рыб, помечают их краской и выпускают обратно. При повторном отлове η рыб га из них оказались помеченными. Как оценить общее число N рыб в озере (задача 1)? Наконец, отметим, что из формулы (26) вытекает сходимость p(m,n,M,N) -> С™рт(1 -р)п-т при N —► оо и M/N —► р, где 0 < ρ < 1. Другими словами, для больших N и Μ практически нет различия между выбором без возвращения и выбором с возвращением. ЗАДАЧИ 1. Пусть единственное наблюдение Χι представляет собой число помеченных рыб при повторном отлове из примера 4. Оцените общее число рыб в озере методом а) моментов, б) максимального правдоподобия (см. § 2 и § 4 из гл. 9). 2Ϊ* Проверьте, что г0 и jo» при которых вероятность г^ максимальна (см. пояснение к формуле (22)), принадлежат отрезку [2_1 ϋ + ι1 [3 1э 3+1J· Указание. Рассмотрите соседей точки (го Jo) по осям. 3* Получите тождество (13). 4? Подправьте доказательство теоремы 1 гл. 11 так, чтобы вывести, что статистика Vouti заданная формулой (12), имеет распределение x2k_v 5? Покажите, что наибольшее значение статистики критерия Крас- кела—Уоллиса W равно (ΛΓ3 - Σ>?)/[ΛΓ(ΛΓ + 1)]. 6* Установите, что критерий Бартлетта при к = 2 равносилен двустороннему критерию Фишера из примера 1 гл. 14. Если вы не добились успеха сразу, попытайтесь еще и еще раз. А потом успокойтесь и живите в свое удовольствие. Уильям Клод Филдс
254 Глава 16. Несколько независимых выборок РЕШЕНИЯ ЗАДАЧ 1. а) Вычислим момент ΜΧι = £ т CQ С£Г£ /Cfc: т=1 т=1 Отсюда находим оценку метода моментов Ν = [ηΜ/ΛΊ], где [ · ] обозначает целую часть числа. Доля т/п помеченных рыб в выборке примерно равна их доле Μ/Ν в озере, б) Рассмотрим отношение соседних вероятностей р(т,п,М,Ю = (Ν-Μ)(Ν-η) p{m,n,M,N - 1) (Ν -Μ -η + τη) Ν ' Простые выкладки показывают, что правая часть больше 1, когда mN < пМ и меньше 1, когда mN > пМ. Поэтому р(га,п,М,ЛГ) имеет максимум также при N = [пМ/т]. 2. Обозначим через го и jo те г и j, на которых достигается наибольшее значение функции T(t,j)sTy = 3nry = 7nr при 0 ^ г + j ^ п. i\j\(n-i- j)\ Сразу можно выписать следующие четыре неравенства: ϋ! <т . ϋ! <т. · (io-l)!jo!(n-io-io + l)!^ го30' (to + l)!jo!(n-t0-jo-l)!^ го'°' п! ■<Ti го !(jo-l)!(n-to-jo + l)!^ г°'0' to!Uo + l)!(n-to-io-l)!^ г°3° X. Гюйгенс (1629-1695), нидерландский астроном и механик. Они сводятся к двум таким: η - jo - 1 < 2t0 < η - jo + !> η - г0 - 1 < 2j0 ^ η - г0 -f 1. Подставляя в первое неравенство оценки сверху и снизу для jo из второго, получаем для го искомые границы. В силу симметрии они верны и для jo- 3. Для доказательства тождества (13) потребуется теорема Гюйгенса. Прежде, чем ее сформулировать, дадим несколько простых определений. Пусть в Rk заданы точки (векторы) Ж; с приписанными им массами га;. Положим га = J^m». Центром масс называется точка с = — У] гПгХг. Для нее, очевидно, выполняется равенство т Σ7ηι(χι — с) = О. Величину Ια = Σπι^Χι — о|2 называют моментом инерции относительно точки о.
Решения задач 255 Теорема Гюйгенса. Ia = Ic + т\с — о|: Доказательство. Используем очевидные равенства (см. ШО) \х\2 = χτχ и \х + 2/|2 = \х\2 + 2жт2/ + ll/l2· Пусть ^ = Ж; - с. Тогда /а = Σ ™ilVi + (с - а)|2 = /с + 2 (£ пцу^т(с - а) + ш|с - а|2. Но Х^ш*2/г = О» так как с —центр масс. Следовательно, второе слагаемое пропадает. ■ Примером применения этой теоремы может служить вычисление момента инерции тонкого обруча радиуса г и массы га относительно оси, проходящей через точку на ободе и перпендикулярной к плоскости обруча (рис. 3). Согласно теореме он равен 2mr2. Докажем теперь тождество (13). Для этого запишем теорему Гюйгенса отдельно для j-ft выборки, полагая га; = 1, га = η7·, α = X.. и с = X.ji %(Хц - х..)2 = Σ(Χα - x-i? + nj(x.j - х.)2· г=1 г=1 Остается только просуммировать по j от 1 до к. 4. Возьмем pj = rij/N (j = l,...,fc), где ΛΓ = Ση3· Тогда, по определению, X.. = Y^PjX.j- Если все щ = 1, то годится доказательство теоремы 1 гл. 11. Обобщим его на случай, когда есть щ > 1. Мы знаем, что X.j ~ Λ/Χμ^·, l/n^) и независимы между собой, кроме того, мы предполагаем, что верна гипотеза Η": μι = ... = μίς. Обозначим через μ это общее среднее. Станем дополнять до ортогональной матрицы не строку (1/у/к,... ,Ι/y/fc), а строку (\/ρϊ,... ,\/Pfc)· В качестве Υ возьмем вектор с компонентами Yj = -y/n^ (X.j—μ). Тогда случайная величина Yj ~ ΛΓ(0,1) и независимы. Рассмотрим Ζ = CY. При умножении последней строки С на У получается равенство Zk = y/piYi + ... + y/PkYk. (28) к к Из формулы (4) гл. 11 следует, что Σ Ζ? — Σ Yj. В силу .7=1 j=l теоремы Гюйгенса (при rrij = rij, га = ΛΓ, α = μ, с = Χ.) имеем Σ η,·(Χ,- - Χ.)2 = Σ njiX.j - μ)2 - Ν(Χ.. - μ)2. j=l 3=1 (29) Используя определение Yj и учитывая равенство (28), запишем правую часть (29) в виде к /к \2 к к-1 Σ*?- Σν^) =Σζ2-ζΙ=ςζ2. 3=1 \j=l / j=l j=l Z^L Рис. 3
256 Глава 16. Несколько независимых выборок Согласно лемме 1 гл. 11 вектор Ζ имеет независимые ЛГ(0,1) компоненты. ■ 5. Подставим ранги Rij в тождество (13) вместо Хц·,: Σ ηό{κά - д..)2 =ΣΣ(Κί- я··)2 - Σ E(Rij - Rj)2- (зо) Поскольку первая двойная сумма не зависит от разбиения рангов {1,2,... ,JV} на группы, минимизируем вторую двойную сумму. Покажем, что ее минимум достигается на любом из разбиений, у которых ранги, расставленные по возрастанию в каждой группе, идут подряд. Для этого нам потребуется Теорема о межточечных расстояниях (см. [64, с. 28]). Пусть с— центр масс точек Xi в Rfc с массами га;. Тогда Ic = Y^rrii\Xi - С\2 = — Σ ™>гЩ\Хг ~ Xj\21 ГДв πΐ = ΣΤηί· г т i<j г Доказательство. Обозначим через yi = xi — с. При этом \xi - Xj\2 = \Vi - 2// = Ш2 + \уа\2 - 2yJyj. Используя определение момента инерции относительно центра масс с, запишем ΣΣ™>ϊ™>3 (Ш2 + \уа\2) = Σ™ιΣ (™>з\Уг? + ™>э\Уэ\2) = = ЕШг (т|2/г|2 + /С) = 2т/с. г С другой стороны, Σ ς ™>i™>jyjyj = Σ тг2/Г (Emii/i) = о. г j г \ j / Отсюда получаем соотношение 2mlc = J2Ylmimj\xi — Xj\2 = 2 Σ rriimj\xi — Xj\2, г j i<j которое и требовалось установить. ■ nj Рассмотрим j-ю группу. Сумма Σ (Rij—R-j) равна моменту г=1 инерции относительно R.j точек Rij с массами 1. Убедимся, что он минимален, когда ранги идут подряд. (Это интуитивно понятно, так как только в таком случае rij точек с целочисленными координатами образуют наиболее компактную группу.) ' У* 111 #\.' ' Действительно, для любого упорядоченного по возрастанию φ ι ♦ φ ι φ ι ι ι φ набора из rij рангов соответствующие межточечные расстояния Рис. 4 могут быть только больше, чем у набора, где ранги идут подряд (рис. 4).
Ответы на вопросы 257 Вычислим это минимальное значение. Очевидно, что момент инерции не зависит от выбора начала координат, поэтому можно считать, что ранги равны 1,2,...,η,. Положим для краткости η = Пу Тогда по теореме Гюйгенса для rrij = 1, га = η, α = О и с = (п + 1)/2 г А/. 71+А2 " 2 fn+A2 = n(n + l)(2n + l)/6 - n(n -f l)2/4 = = n(n -f l)(n - 1)/12 = (n3 - n)/12. Остается только подставить полученные результаты в формулу (30) и учесть, что N = п\ + ... + п&. 6. Элементарные выкладки показывают, что статистика F = Sf/S^ критерия Фишера и статистика В критерия Бартлетта при к = 2 связаны соотношением В = [(nF + m)/N]NF-n1 где ΛΓ = η + га. При любом Во > 1 (см. ответ на вопрос 2) это уравнение имеет два действительных корня Fi < 1 и F2 > 1 (если Во = 1, то Fi = F2 = 1). Таким образом, событие {В > Во} эквивалентно объединению несовместных событий {F < Fi} и {F > F2} (рис. 5). ОТВЕТЫ НА ВОПРОСЫ 1. С точностью до перестановки столбцов возможны только 3 варианта распределения N = 4 рангов: [2 А)' (з ψ [а з)· Легко вычислить, что значения статистики W для них равны 2,4, 0,6 и 0 соответственно. Поэтому P(W ^ 2) = 1/3. 2. Заметим, что всегда В ^ 1. Действительно, применим неравенство Иенсена (П4) к выпуклой вниз функции у = ех и случайной величине ξ, принимающей значения #; = Ins? с вероятностями Pi = πι/Ν: Ы) 2\щ (4Γ]1/Ν = βΧΡ{ΐ( πι In s\ + ... + nk h"2)} = = exp{5>iM = eM* ^ Me* = 5>"р< = ±Σ*4*1 Таким образом, взвешенное среднее арифметическое не меньше, чем среднее геометрическое с теми же весами. Когда, скажем, s\ увеличивается, а остальные s? остаются фиксированными, среднее арифметическое растет линейно
258 Глава 16. Несколько независимых выборок по sf, а среднее геометрическое — как степенная функция с показателем —^ < 1, т. е. медленнее. Если гипотеза Н' не верна (одна из дисперсий σ? существенно больше остальных), то соответствующая оценка s? также будет отличаться от других, что приведет к значению статистики В, значимо превосходящему 1. При к = 2 статистика Д, задаваемая формулой (9), представляется в следующем виде: 1 _ Vout R = к — 1 Vout Vint Ν-2 "" η + τη - 2 В свою очередь, согласно примеру 1 гл. 14 имеем формулу Τ2 = ^р , (31) &tot где Sfot обозначает несмещенную оценку дисперсии одного наблюдения, построенную на основе объединенной выборки: 4 = ^b[(n-l)S? + (m-l)Sf] = η + т — 2 - ^L·-, Ε № - x? + Σ И - ΤΠ = —L_ *«· Следовательно, знаменатели уйиТ2 совпадают. Покажем, что совпадают и числители. Величина V^t по определению равна моменту инерции масс пит, расположенных в точках X и У, относительно общего центра масс (см. решение задачи 3). В силу теоремы о межточечных расстояниях из решения задачи 5 этот момент равен числителю правой части равенства (31).
Глава 17 МНОГОКРАТНЫЕ НАБЛЮДЕНИЯ В этой главе мы обобщим схему парных по