Автор: Боровков А.А.
Теги: теория вероятностей математическая статистика комбинаторный анализ теория графов математика учебник гипотезы теоремы теории оценок
ISBN: 978-5-8114-1013-2
Год: 2010
КЛАССИЧЕСКАЯ УЧЕБНАЯ ЛИТЕРАТУРА ПО МАТЕМАТИКЕ А. А. БОРОВКОВ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА УЧЕБНИК Издание четвертое, стереотипное HAUL® ЛАНЬ* САНКТ-ПЕТЕРБУРГ · МОСКВА · КРАСНОДАР 2010
ББК22.172я73 Б 83 Боровков А. А. Б 83 Математическая статистика: Учебник. 4-е изд., стер. — СПб.: Издательство «Лань», 2010. — 704 с. — (Учебники для вузов. Специальная литература). ISBN 978-5-8114-1013-2 В учебнике излагаются основания современной математической статистики, предельные теоремы для эмпирических распределений и основных типов статистик, основы теории оценок и теории проверки гипотез. Рассматриваются методы отыскания оптимальных и асимптотически оптимальных процедур. Значительное внимание уделено статистике разно- распределенных наблюдений и, в частности, задачам однородности, задачам регрессии и дискретного анализа, распознаванию образов и задаче о разладке. Излагается единый теоретико-игровой подход к задачам математической статистики. Изучаются статистические игры и основные принципы отыскания оптимальных и асимптотически оптимальных решающих правил. Многие результаты теории оценивания и теории проверки гипотез обобщаются на случай произвольной функции потерь. Учебник рассчитан на студентов и аспирантов математических и физических специальностей вузов. ББК22.172я73 Обложка А Ю. ЛАПШИН Охраняется законом РФ об авторском праве. Воспроизведение всей книги или любой ее части запрещается без письменного разрешения издателя. Любые попытки нарушения закона будут преследоваться в судебном порядке. © Издательство «Лань», 2010 © А. А. Боровков, 2010 © Издательство «Лань», художественное оформление, 2010
ОГЛАВЛЕНИЕ Предисловие ко второму изданию 11 Введение 18 Глава 1. Выборка. Эмпирическое распределение. Асимптотические свойства статистик 21 § 1. Понятие выборки 21 § 2. Эмпирическое распределение (одномерный случай) 24 § 3. Выборочные характеристики. Основные типы статистик 28 1. Примеры выборочных характеристик (28). 2. Два типа статистик (29). 3. L-статистики (31). 4. М-статистики (32). 5. О других статистиках (33). § 4. Многомерные выборки 33 1. Эмпирические распределения (33). 2*. Более общие варианты теоремы Гливенко-Кантелли. Закон повторного логарифма (34). 3. Выборочные характеристики (35). § 5. Теоремы непрерывности 35 §6*. Эмпирическая функция распределения как случайный процесс. Сходимость к броуновскому мосту 40 1. Распределение процесса ni^(i) (40). 2. Предельное поведение процесса wn(t) (43). § 7. Предельное распределение для статистик первого типа 46 §8*. Предельное распределение для статистик второго типа 51 §9*. Замечания о непараметрических статистиках 62 § 10*. Сглаженные эмпирические распределения. Эмпирические плотности 63
4 Оглавление Глава 2. Теория оценивания неизвестных параметров 69 §11. Предварительные замечания 69 § 12. Некоторые параметрические семейства распределений и их свойства 71 I. Нормальное распределение на прямой (71). 2. Многомерное нормальное распределение (71). 3. Гамма-распределение (72). 4. Распределение «хи- квадрат» Н* с к степенями свободы (73). 5. Экспоненциальное распределение (74). 6. Распределение Фишера с числом степеней свободы к\у &2 (74). 7. Распределение Стьюдента Т* с к степенями свободы (75). 8. Бэта-распределение (В-распределение) (77). 9. Равномерное распределение (78). 10. Распределение Коши Κα,σ с параметрами (α, σ) (80). II. Логнормальное распределение La<72 (80). 12. Вырожденное распределение (81). 13. Распределение Бернулли В£ (81). 14. Распределение Пуассона Па (81). 15. Полиномиальное распределение (81). § 13. Точечное оценивание. Основной метод получения оценок. Состоятельность, асимптотическая нормальность 82 1. Метод подстановки. Состоятельность (82). 2. Асимптотическая нормальность. Одномерный случай (85). 3. Асимптотическая нормальность. Случай многомерного параметра (86). § 14. Реализация метода подстановки в параметрическом случае. Метод моментов. М-оценки 87 1. Метод моментов. Одномерный случай (87). 2. Метод моментов. Многомерный случай (89). 3. М-оценивание как обобщенный метод моментов (90). 4. Состоятельность М-оценок (92). 5. Состоятельность М-оценок (95). 6. Асимптотическая нормальность М-оценок (96). 7. Замечания о многомерном случае (98). §15*. Метод минимального расстояния 99 § 16. Метод максимального правдоподобия. Оптимальность оценок максимального правдоподобия в классе М-оценок 101 1. Определения. Общие свойства (101). 2. Асимптотические свойства о. м. п. Состоятельность (109). 3. Асимптотическая нормальность о. м.п. Оптимальность в классе М-оценок (ИЗ). § 17. О сравнении оценок 115 1. Среднеквадратический подход. Одномерный случай (116). 2. Асимптотический подход. Одномерный случай (119). 3. Нижняя граница рассеивания для L-оценок (121). 4. Среднеквадратический и асимптотический подходы в многомерном случае (124). 5. Некоторые эвристические подходы к определению дисперсий оценок. Методы складного ножа и будстрэп (127). § 18. Сравнение оценок в параметрическом случае. Эффективные оценки 128 1. Одномерный случай. Среднеквадратический подход (129). 2. Асимптотический подход. Асимптотическая эффективность в классах М- и L-оценок (131). 3. Многомерный случай (138). § 19. Условные математические ожидания 140 1. Определение у.м. о. (140). 2. Свойства у.м.о. (143). § 20. Условные распределения 146 §21. Байесовский и минимаксный подходы к оцениванию параметров . . 150 § 22. Достаточные статистики 157
Оглавление 5 §23*. Минимальные достаточные статистики 164 § 24. Построение эффективных оценок с помощью достаточных статистик. Полные статистики 171 1. Одномерный случай (171). 2. Многомерный случай (173). 3. Полные статистики и эффективные оценки (173). § 25. Экспоненциальное семейство 178 §26. Неравенство Рао-Крамера и Д-эффективные оценки 185 1. Неравенство Рао-Крамера и его следствия (185). 2. Я-эффективные и асимптотически Я-эффективные оценки (191). 3. Неравенство Рао-Крамера в многомерном случае (194). 4. Некоторые выводы (200). §27*. Свойства информации Фишера 200 1. Одномерный случай (200). 2. Многомерный случай (203). 3. Матрица Фишера и замена параметра (206). § 28*. Оценки параметра сдвига и масштаба. Эффективные эквивариант- ные оценки 207 1. Оценки параметра сдвига и масштаба (207). 2. Эффективная оценка параметра сдвига в классе эквивариантных оценок (208). 3. Минимаксность оценки Питмена (211). 4. Об оптимальных оценках параметра масштаба (212). §29*. Общая задача об эквивариантном оценивании 215 §30. Интегральное неравенство типа Рао-Крамера. Критерии асимптотической байесовости и минимаксности оценок 218 1. Эффективные и сверхэффективные оценки (218). 2. Основные неравенства (220). 3. Неравенства в случае, когда функция q(6)/I(6) не дифференцируема (224). 4. Некоторые следствия. Критерии асимптотической байесовости и минимаксности (225). 5. Многомерный случай (228). §31. Расстояния Куль бака-Лейблера, Хеллингера и χ2. Их свойства . . . 228 1. Определения и основные свойства расстояний (228). 2. Связь расстояний Хеллингера и других с информацией Фишера (232). 3. Существование равномерных границ для γ(Δ)/Δ2 (233). 4. Многомерный случай (234). 5*. Связь рассматриваемых расстояний с оценками (236). § 32*. Свойства информации Фишера.Разностное неравенство типа Рао-Крамера 238 § 33. Вспомогательные неравенства для отношения правдоподобия. Асимптотические свойства оценок максимального правдоподобия 243 1. Основные неравенства (244). 2. Оценки для распределения и моментов о. м.п. Состоятельность о. м. п. (246). 3. Асимптотическая нормальность (247). 4. Асимптотическая эффективность (249). 5. Асимптотическая байе- совость о. м. п. (250). § 34. Асимптотические свойства отношения правдоподобия. Дальнейшие свойства оптимальности о. м. π 251 §35*. Приближенное вычисление оценок максимального правдоподобия . 260 § 36. Результаты § 33, 34 для случая многомерного параметра 269
6 Оглавление 1. Неравенства для отношения правдоподобия и свойства о. м. п. (результаты §33) (269). 2. Асимптотические свойства отношения правдоподобия (результаты §33, 34) (271). 3. Свойства о.м.п. (результаты §33, 34) (275). 4. Приближенное вычисление о.м.п. (278). 5. Свойства о.м.п. при отсутствии условий регулярности (результаты § 14, 16) (278). § 37. Равномерность по θ асимптотических свойств отношения правдоподобия и оценок максимального правдоподобия 278 1. Равномерные закон больших чисел и центральная предельная теорема (278). 2. Равномерные варианты теорем об асимптотических свойствах отношения правдоподобия и оценок максимального правдоподобия (280). 3. Некоторые следствия (283). § 38*. О статистических задачах, связанных с выборками случайного объема. Последовательное оценивание 284 § 39. Интервальное оценивание 285 1. Определения (285). 2. Построение доверительных интервалов в байесовском случае (286). 3. Построение доверительных интервалов в общем случае. Асимптотические доверительные интервалы (287). 4. Построение точного доверительного интервала с помощью заданной статистики (290). 5. Другие методы построения доверительных интервалов (293). 6. Многомерный случай (295). § 40. Точные выборочные распределения и доверительные интервалы для нормальных совокупностей 296 1. Точные распределения статистик х, S* (296). 2. Построение точных доверительных интервалов для параметров нормального распределения (298). Глава 3. Теория проверки гипотез 301 §41. Проверка конечного числа простых гипотез 301 1. Постановка задачи. Понятие статистического критерия. Наиболее мощный критерий (301). 2. Байесовский подход (303). 3. Минимаксный подход (308). 4. Наиболее мощные критерии (309). §42. Проверка двух простых гипотез 311 §43*. Два асимптотических подхода к расчету критериев. Численное сравнение 315 1. Предварительные замечания (315). 2. Фиксированные гипотезы (316). 3. Близкие гипотезы (320). 4. Сравнение асимптотических подходов. Числовой пример (323). 5. Связь н.м. к. с асимптотической эффективностью о.м.п. (328). § 44. Проверка сложных гипотез. Классы оптимальных критериев 329 1. Постановка задачи и основные понятия (329). 2. Равномерно наиболее мощные критерии (331). 3. Байесовские критерии (332). 4. Минимаксные критерии (333). § 45. Равномерно наиболее мощные критерии 333 1. Односторонние альтернативы. Монотонное отношение правдоподобия (333). 2. Двусторонняя основная гипотеза. Экспоненциальное семейство (336). 3. Другой подход к рассматриваемым задачам (341). 4. Байесовский подход и наименее благоприятные априорные распределения при построении н.м.к. и р.н.м.к. (342).
Оглавление 7 §46*. Несмещенные критерии 344 1. Определения. Несмещенные р. н.м. к. (344). 2. Двусторонние альтернативы. Экспоненциальное семейство (347). §47*. Инвариантные критерии 349 §48*. Связь с доверительными множествами 353 1. Связь статистических критериев и доверительных множеств. Связь свойств оптимальности (353). 2. Наиболее точные доверительные интервалы (356). 3. Несмещенные доверительные множества (359). 4. Инвариантные доверительные множества (360). § 49. Байесовский и минимаксный подходы к проверке сложных гипотез 363 1. Байесовские и минимаксные критерии (363). 2. Минимаксные критерии для параметра α нормальных распределений (366). 3. Вырожденные наименее благоприятные распределения для односторонних гипотез (373). § 50. Критерий отношения правдоподобия 375 §51*. Последовательный анализ 378 1. Вводные замечания (378). 2. Байесовский последовательный критерий (379). 3. Последовательный критерий, минимизирующий среднее число испытаний (383). 4. Вычисление параметров наилучшего последовательного критерия (385). § 52. Проверка сложных гипотез в общем случае 388 §53. Асимптотически оптимальные критерии. Критерий отношения правдоподобия как асимптотически байесовский критерий для проверки простой гипотезы против сложной 397 1. Асимптотические свойства к. о. п. и байесовского критерия (397). 2. Асимптотическая байесовость к. о. п. (399). 3. Асимптотическая несмещенность к.о. п. (403) § 54. Асимптотически оптимальные критерии для проверки близких сложных гипотез 404 1. Постановка задачи и определения (404). 2. Основные утверждения (407). § 55. Свойства асимптотической оптимальности критерия отношения правдоподобия, вытекающие из предельного признака оптимальности . . 412 1. А. р. н. м. к. для близких гипотез с односторонними альтернативами (412). 2. А.р.н.м.к. для двусторонних альтернатив (413). 3. Асимптотически минимаксный критерий для близких гипотез, касающихся многомерного параметра (415). 4. Асимптотически минимаксный критерий о принадлежности выборки параметрическому подсемейству (417). §56. Критерий χ2. Проверка гипотез по сгруппированным данным .... 423 1. Критерий χ2. Свойства асимптотической оптимальности (423). 2. Применения критерия χ2. Проверка гипотез по сгруппированным данным (427). §57. Проверка гипотез о принадлежности выборки параметрическому семейству 430 1. Проверка гипотезы X € В^(а). Группировка данных (430). 2. Общий случай (434). § 58. Устойчивость статистических решений (робастность) 438
8 Оглавление 1. Постановка задачи. Качественная и количественная характеризации ро- бастности (438). 2. Оценка параметра сдвига (445). 3. Статистики Стьюдента и So (448). 4. Критерий отношения правдоподобия (449). Глава 4. Статистические задачи с двумя и более выборками 450 § 59. Проверка гипотез об однородности (полной или частичной) в параметрическом случае 450 1. Рассматриваемый класс задач (450). 2. Асимптотически минимаксный критерий для проверки близких гипотез об обычной однородности (452). 3. Асимптотически минимаксные критерии для задачи об однородности при наличии мешающего параметра (458). 4. Асимптотически минимаксный критерий для задачи о частичной однородности (463). 5. Некоторые другие задачи (466). § 60. Задачи об однородности в общем случае 466 1. Постановка задачи (466). 2. Критерий Колмогорова-Смирнова (467). 3. Критерий знаков (469). 4. Критерий Вилкоксона (470). 5. Критерий χ2 как асимптотически оптимальный критерий проверки однородности по сгруппированным данным (475). §61. Задачи регрессии 476 1. Постановка задачи (476). 2. Оценка параметров (477). 3. Проверка гипотез относительно линейной регрессии (484). 4. Оценивание и проверка гипотез при наличии линейных связей (488). §62. Дисперсионный анализ 491 1. Задачи дисперсионного анализа как задачи регрессии. Случай одного фактора (491). 2. Влияние двух факторов. Элементарный подход (494). § 63. Распознавание образов 496 1. Параметрический случай (497). 2. Общий случай (497). Глава 5. Статистика ρазнораспредеденных наблюдений 500 § 64. Предварительные замечания. Примеры 500 § 65. Основные методы построения оценок. М-оценки. Состоятельность и асимптотическая нормальность 507 1. Предварительные замечания и определения (507). 2. М-оценки (508). 3*. Состоятельность М-оценок (514). 4. Состоятельность М-оценок (519). 5. Асимптотическая нормальность М-оценок (521). §66. Оценки максимального правдоподобия. Основные принципы сравнения оценок. Оптимальность о. м. п. в классе М-оценок 524 1. Оценки максимального правдоподобия (524). 2. Асимптотические свойства о. м.п. (526). 3. Основные принципы сравнения оценок. Асимптотическая эффективность о.м.п. в классе М-оценок (531). § 67. Достаточные статистики. Эффективные оценки. Экспоненциальные семейства 533 § 68. Эффективные оценки в задаче оценивания «хвостов» распределений (пример 64.7). Асимптотические свойства оценок 535
Оглавление 9 1. Оценки максимального правдоподобия (535). 2. Асимптотическая нормальность Θ* в задаче В (537). 3*. Асимптотические нормальность и оптимальность в задаче А (540). § 69. Неравенство Рао-Крамера 545 § 70. Неравенства для отношения правдоподобия и асимптотические свойства о. м. π 547 1. Неравенства для отношения правдоподобия и состоятельность о. м. п. (547). 2. Асимптотическая нормальность о.м.п. (550). 3. Асимптотическая эффективность (552). 4. Замечания об о.м.п. для многомерного параметра (552). § 71. Замечания о проверке гипотез по неоднородным наблюдениям .... 553 § 72. Задача о разладке (пример 64.6) 556 1. Задача о разладке как задача проверки гипотез (556). 2. Задача о разладке как задача оценки параметра (563). 3. Последовательные процедуры (566). Глава 6. Теоретико-игровой подход к задачам математической статистики 575 § 73. Предварительные замечания 575 § 74. Основные понятия и теоремы, связанные с игрой двух лиц 576 1. Игра двух лиц (576). 2. Равномерно оптимальные стратегии в подклассах (577). 3. Байесовские стратегии (577). 4. Минимаксные стратегии (579). 5. Полный класс стратегий (587). § 75. Статистические игры 587 1. Описание статистических игр (587). 2. Классификация статистических игр (590). 3. Две фундаментальные теоремы теории статистических игр (591). § 76. Байесовский принцип. Полный класс решающих функций 593 § 77. Достаточность, несмещенность, инвариантность 599 1. Достаточность (599). 2. Несмещенность (600). 3. Инвариантность (602). §78. Асимптотически оптимальные оценки при произвольной функции потерь 605 § 79. Оптимальные статистические критерии при произвольной функции потерь. Критерий отношения правдоподобия как асимптотически байесовское решение 616 1. Свойства оптимальности статистических критериев при произвольной функции потерь (616). 2. К. о. п. как асимптотически байесовский критерий (616). § 80. Асимптотически оптимальные решения при произвольной функции потерь в случае близких сложных гипотез 620 Таблицы 625 Приложение I 634 Приложение II 637 Приложение III 644 Приложение IV 647
10 Оглавление Приложение V 658 Приложение VI 664 Приложение VII 669 Приложение VIII 679 Библиографические замечания 685 Список литературы 692 Список основных обозначений 698 Предметный указатель 701
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Предлагаемая книга является существенно переработанной и дополненной версией книги «Математическая статистика», вышедшей в 1984 г. в двух частях: первая часть имела подзаголовок «Оценка параметров, проверка гипотез», вторая — «Дополнительные главы». Позже эти две книги были опубликованы в виде монографии на французском (1987) и испанском (1988) языках. В 1997 г. дополненная и переработанная версия книги издана на английском языке. Одним из главных нововведений в предлагаемой книге по сравнению с изданиями 1984 г. является появление новой главы, посвященной статистике разнораспределенных наблюдений. В целом в основу предлагаемой книги положены лекции по математической статистике, которые автор в течение многих лет читал на математическом факультете Новосибирского университета. Со временем курс лекций неоднократно менялся в поисках варианта, который был бы по возможности более стройным, доступным и в то же время соответствовал современному состоянию этой науки. Были испробованы варианты, начиная с курса преимущественно рецептурного характера с изложением основных типов задач (построение оценок, критериев и изучение их свойств) и кончая курсом общего теоретико-игрового характера, в котором теория оценок и проверка гипотез представлялись как частные случаи единого подхода. Ограничения во времени не позволяли объединить эти дополняющие друг друга варианты, каждый из которых в отдельности обладал очевидными недостатками. В первом случае набор конкретных фактов мешал развитию общего взгляда на предмет. Второй вариант испытывал недостаток в простых конкретных результатах и оказывался загруженным многими новыми непростыми понятиями, трудными для усвоения. По-видимому, наиболее приемлемым является вариант, в котором изложение элементов теории оценок и теории проверки гипотез сочетается с последовательным проведением линии на отыскание оптимальных процедур. Основу книги составляет объединение материала, читавшегося в разное время в лекциях, расширенное за счет разделов, присутствие которых диктуется самой логикой изложения. Главной целью являлось изложение современного состояния предмета в сочетании с максимально возможной доступностью и математической цельностью и стройностью. Содержание книги распадается на 6 глав и приложения. В главе 1 изучаются свойства (в основном асимптотические) эмпирических распределений, лежащие в основе математической статистики. В главах 2, 3 излагаются соответственно теория оценок и теория проверки статистических гипотез. Первые части каждой главы посвящены описанию возможных подходов к решению поставленных задач и отысканию оптимальных процедур. Вторые части посвящены построению асимптотически оптимальных процедур. Такую же структуру имеет глава 6, где излагается общий теоретико- игровой подход к задачам математической статистики.
12 Предисловие Глава 4 посвящена задачам, связанным с двумя и более выборками. Статистические выводы для разнораспределенных наблюдений в более общей, чем в главе 4, постановке задачи рассматриваются в новой главе 5, которая уже упоминалась выше. Книга содержит также 8 приложений. Они связаны с теми утверждениями в основном тексте, доказательство которых выходит за рамки основного изложения либо по своему характеру, либо по трудности. Имеются еще библиографические замечания, не претендующие на полноту, но позволяющие проследить возникновение и развитие основных направлений математической статистики. При этом везде, где это возможно, оказывалось предпочтение ссылкам на монографии (как на более доступный вид литературы), а не на оригинальные статьи. В настоящее время существует довольно много книг по математической статистике. Выделим из них следующие, в которых представлено большое количество материала, отражающее современное состояние предмета — это книги Г.Крамера [58], Э.Лемана [66, 67], Ш. Закса [48], И.А.Ибрагимова и Р.З.Хасьминского [49], L.Le Cam [63], G.R.Shorak, J.A.Wellner [139]. Из них наибольшее влияние на изложение настоящей книги оказали монографии [49] (некоторые идеи этой книги использовались в §33, 34, 36, 37 главы 2) и [67] (изложение §45-48 главы 3 близко по содержанию к соответствующим разделам [67]). Остальное изложение мало связано по строю с имеющимися книгами. Существует много других книг, занимающих заметное место в статистической литературе (такие, как книги Блекуэлла и Гиршика [9], Кендалла и Стьюарта [50], Кокса и Хинкли [54], Фергюссона [112], Рао [96] и ряд других — все перечислить невозможно), но они по духу и по подбору материала существенно отличаются от предлагаемой монографии. Наряду с известными результатами и подходами в настоящую книгу включены некоторые новые разделы, упрощающие изложение, ряд методологических улучшений, а также некоторые новые результаты и результаты, впервые публикуемые в монографической литературе. Ниже приводится краткое описание методологической структуры книги (см. также оглавление и краткие предисловия к каждой из глав). Глава 1 излагает основные результаты, связанные с понятиями выборки, эмпирического распределения и статистик. В § 1, 2 вводятся понятия выборки, эмпирического распределения и устанавливается теорема Гливенко-Кантелли, которую можно рассматривать как фундаментальный факт, составляющий основу статистических выводов. В §3 вводится два типа статистик (статистики I и II типов), включающие в себя подавляющее большинство практически интересных статистик. Эти статистики определяются как значения G(P*) функционалов G (удовлетворяющих некоторым условиям) от эмпирического распределения Р*. Класс рассматриваемых статистик расширен включением в него также так называемых L-, М- и [/-статистик. Позже, в § 7, 8, устанавливаются предельные теоремы о распределении этих статистик. Это разгружает последующее изложение и освобождает от необходимости для каждой конкретной статистики проводить очень схожие рассуждения, не относящиеся притом к самому предмету статистики.
Предисловие 13 В § 5 собраны вспомогательные теоремы (названные в книге теоремами непрерывности) о сходимости распределений статистик и о сходимости их моментов. Это также разгружает последующее изложение. В § 6 (он не обязателен при первом чтении) устанавливается, что эмпирическая функция распределения F£{t) есть условный пуассоновский процесс, и приводится формулировка теоремы (доказанной в приложении I) о сходимости процесса у/п (F*(t) — F{t)) к броуновскому мосту. В § 10 вводятся сглаженные эмпирические распределения, позволяющие приближать не только само распределение, но и его плотность. Глава 2 посвящена оценкам неизвестных параметров. В § 13 вводится единый подход к построению оценок, названный методом подстановки. Он состоит в том, что оценку Θ* для параметра 0, представимого в виде функционала θ = G(P) от распределения Ρ выборки, следует искать в виде Θ* = G(P*), где Р* -— эмпирическое распределение. Все «разумные» оценки, используемые на практике, являются оценками подстановки. Оптимальность оценки достигается путем выбора подходящего функционала G. Если статистика Θ* = G(P*) является статистической I или II типов, то теоремы главы 1 позволяют немедленно установить состоятельность этих оценок и их асимптотическую нормальность. В § 14, 15 этот подход иллюстрируется на оценках, полученных с помощью метода моментов и метода минимального расстояния. Там же доказаны состоятельность и асимптотическая нормальность М-оценок. С тех же позиций в § 16 рассматриваются и оценки максимального правдоподобия. Кроме того, установлена нижняя граница рассеивания М-оценок и доказана асимптотическая оптимальность оценок максимального правдоподобия в классе М-оценок. Более полное изучение асимптотических свойств оценок максимального правдоподобия проводится позже, в § 34, 34. В § 17 установлена нижняя граница рассеивания для L-оценок. Это дает возможность для параметра сдвига строить в явном виде асимптотически оптимальные L-оценки, асимптотически эквивалентные оценкам максимального правдоподобия. Сравнение оценок в главе 2 происходит на основе двух подходов: сред- неквадратического (сравниваются Е#(0* — Θ)2) и асимптотического (сравниваются дисперсии предельного распределения у/п (θ* — Θ) в классе асимптотически нормальных оценок). В качестве иллюстрации с помощью таких подходов строятся асимптотически оптимальные оценки в классе L-оценок. В параметрическом случае такие подходы позволяют выделить три типа оптимальных оценок: эффективные оценки в классах Кь с фиксированным смещением Ь, байесовские и минимаксные оценки. На основе тех же принципов выделяются классы асимптотически оптимальных оценок при асимптотическом подходе. Для построения эффективных оценок используются следующие традиционные методы: первый носит качественный характер и связан с принципом достаточности (§ 22-24); второй метод основан на количественных соотношениях, вытекающих из неравенства Рао-Крамера (§ 26); третий связан с соображениями инвариантности (§ 28, 29), позволяющими сузить класс рассматриваемых оценок. Отысканию асимптотически оптимальных оценок, а также изучению асимптотических свойств функции правдоподобия посвящены § 30-38. Параграф 30 содержит интегральное не-
14 Предисловие равенство типа Рао-Крамера, которое позволяет, в частности, получить простые критерии асимптотической байесовости и минимаксности оценок, а также обосновать выделение некоторого подкласса оценок Ко, которым следует ограничиться в поисках асимптотически эффективных оценок. Это позволяет путем изучения асимптотических свойств оценок максимального правдоподобия в § 34 сразу установить асимптотическую байесовость и минимаксность названных оценок и их асимптотическую эффективность в Ко. Параграфы 31-33 носят вспомогательный характер. Интервальное оценивание параметров рассматривается в §39, 40, 49 главы 3. Глава 3 посвящена проверке гипотез. В § 41, 42 рассматривается случай конечного числа простых гипотез. Выделяются (аналогично теории оценивания) три типа оптимальных критериев — наиболее мощные в подклассах, байесовские и минимаксные. Устанавливаются связи между этими критериями и находится их явный вид. При этом в основу рассмотрений положен байесовский принцип (а не лемма Неймана-Пирсона), что, на наш взгляд, упрощает изложение и делает его более прозрачным. В § 43 излагаются два асимптотических подхода к расчету критериев для проверки двух простых гипотез и производится их сравнение. В § 44 рассматривается общая постановка задачи о проверке двух сложных гипотез и определяются классы оптимальных критериев (равномерно наиболее мощные, байесовские, минимаксные). Параграф 45 посвящен отысканию равномерно наиболее мощных критериев в тех случаях, когда это возможно. В §46, 47 решается та же задача, но в классах критериев, суженных на основании соображений несмещенности и инвариантности. При этом в основу рассмотрений, как и в §41, 42, положен байесовский подход. В § 48 с помощью полученных результатов строятся наиболее точные доверительные множества. В § 49 рассматриваются байесовские и минимаксные критерии. Параграфы 50, 53 посвящены критерию отношения правдоподобия. Он оказывается равномерно наиболее мощным во многих частных случаях и обладает свойством асимптотической байесовости при весьма широких предположениях. Изучение свойств асимптотической оптимальности критерия отношения правдоподобия продолжено в § 55-57. В §51 установлена оптимальность этого критерия в задачах последовательного анализа. Параграфы 54, 55 посвящены отысканию асимптотически оптимальных критериев для проверки близких гипотез и найден их простой явный вид для основных статистических задач. Существенной особенностью первых трех глав является тот факт, что в них рассмотрены лишь статистические задачи, связанные с использованием одной выборки. Глава 4 книги, как уже отмечалось, посвящена задачам с двумя и более выборками. К ним относятся прежде всего задачи об однородности (полной или частичной, §59, 60), задачи регрессии (§61) и дисперсионного анализа
Предисловие 15 (§62). На основании результатов главы 3 для задач однородности в параметрическом случае построены асимптотически оптимальные критерии в предположении, что альтернативные гипотезы являются близкими к основной гипотезе об однородности. Для задач регрессии (как для линейной регрессии, так и для регрессии по произвольным функциям) с помощью результатов глав 2, 3 найдены эффективные оценки неизвестных параметров и построены критерии для проверки основных гипотез. Рассмотрены также так называемые задачи распознавания образов (§ 63), которые появляются в учебной литературе, по-видимому, впервые. Новая глава 5 «Статистика разнораспределенных наблюдений» по своей структуре во многом повторяет главу 2. Ее появление в настоящем издании вызвано тем, что в приложениях стало появляться все больше задач, связанных с неоднородными наблюдениями, типичным примером которых могут служить задачи нелинейной регрессии (но не только они). В то же время общие методы исследования таких задач были разработаны лишь фрагментарно, отсутствовало их систематическое изложение. Не претендуя ни в какой мере на то, чтобы полностью заполнить этот пробел, автор имел своей целью перенести на неоднородный случай основные результаты и подходы, изложенные в исходной книге для статистики однородных наблюдений. В § 64 приведен ряд типичных задач (некоторые из них представляют самостоятельный интерес), относящихся к статистике разнораспределенных наблюдений. Эти примеры в дальнейшем используются для иллюстраций и для более детального изучения. В § 65 излагаются основные методы построения оценок. В основном это метод М- и М-оценивания. На эти оценки переносятся основные результаты главы 2 о состоятельности и асимптотической нормальности этих оценок. В §66 с помощью результатов §65 устанавливаются асимптотические свойства оценок максимального правдоподобия (состоятельность, асимптотическая нормальность, асимптотическая оптимальность в классе М-оценок). В § 67 содержатся комментарии об использовании результатов, связанных с достаточными статистиками и экспоненциальными семействами в случае разнораспределенных наблюдений. В § 68 в качестве иллюстрации детально изучаются асимптотические свойства оценок параметров хвостов распределений. В § 69 рассмотрено обобщение на случай разнородных наблюдений неравенства Рао-Крамера и близких задач; § 70 посвящен обобщению (на тот же случай) результатов главы 2 об асимптотических свойствах оценок максимального правдоподобия (§33, 34). Перенос большинства результатов главы 3 на случай разнораспределенных наблюдений либо не требует подробных рассмотрений, либо основан на обобщениях результатов главы 2, упомянутых выше (комментарии по этому поводу см. в § 71). В § 72 изучается задача о разладке. Для нее найдены асимптотически оптимальные процедуры. Глава 6 посвящена общему теоретико-игровому подходу к задачам статистики. Он способствует выработке общего взгляда на предмет математической статистики и позволяет обобщить многие результаты глав 2, 3. В § 74 излагаются основные понятия и результаты «обычной» теории игр (рассматриваются лишь игры двух лиц). В частности, устанавливаются
16 Предисловие связи между основными типами оптимальных стратегий — байесовскими, минимаксными, равномерно наилучшими в подклассах. В § 75 изучаются статистические игры. В § 76 формулируется и доказывается так называемый байесовский принцип, который позволяет свести задачу отыскания байесовского статистического решения к значительно более простой задаче построения байесовской стратегии для обычной игры двух лиц. В § 77 обсуждаются принципы достаточности, несмещенности и инвариантности для построения решений, равномерно наилучших в соответствующих подклассах. Параграфы § 78-80 посвящены отысканию асимптотически оптимальных решающих правил. В § 78 изучаются асимптотически оптимальные оценки параметров при произвольной (не только квадратической) функции потерь. В этом случае удается установить результаты, близкие к результатам главы 2 об асимптотической оптимальности оценок максимального правдоподобия. В § 79, 80 изучаются асимптотически оптимальные критерии при произвольной функции потерь. В § 79 доказана асимптотическая байесовость критерия отношения правдоподобия; в § 80 установлен предельный признак оптимальности критериев для проверки близких гипотез (обобщение результатов § 54, 55 главы 3 на случай произвольной функции потерь). Из приложений выделим приложение VII, в котором найдены асимптотически оптимальные процедуры в задаче о разладке, и приложение VIII, в котором доказаны две фундаментальные теоремы теории статистических игр. Чтение приложений требует более высокой математической подготовки. Книга имеет многоцелевое назначение. В ее полном объеме она, конечно, ближе к программе кандидатского минимума по специальности «математическая статистика», чем к учебному пособию для студентов. Однако в книге предусмотрена система мер, упрощающих первое чтение, которая делает книгу доступной и для студентов. Параграфы повышенной трудности или «более продвинутые» по своему содержанию отмечены звездочкой, их следует при первом чтении опускать, как и текст, набранный петитом. Кроме того, изложение технически более сложного случая, относящегося к многомерному параметру, почти везде выделено в отдельные разделы и параграфы, которые также можно пропускать. Преподаватели вузов, уже знакомые хотя бы частично с предметом, могут выбирать из книги совокупность параграфов (вариантов может быть много), используя которые (не обязательно полностью) можно составить семестровый курс математической статистики. Вот один из вариантов: § 1, 3, 5 главы 1; § 12-14, 16-22, 24, 26 (31, 33, 34), 40, 49 главы 2; §41, 42, 44, 45, 52 (53, 56) главы 3. Параграфы, взятые в скобки, посвящены асимптотически оптимальным процедурам. Их следует в зависимости от подготовленности студентов либо максимально облегчить, либо опустить вовсе. Чтение книги предполагает знакомство с курсом теории вероятностей, например, в объеме учебника А.А. Боровкова [17]. (Возможно, конечно, использование и других источников.) Ссылки на эту книгу, в отличие от других ссылок, появляются в тех местах, которые предполагаются читателю известными, и служат, главным образом, для напоминаний. При этом мы будем использовать сокращенную запись этих ссылок. Например, вместо § 3 главы 13 в [17] мы будем писать [17, § 13.3].
Предисловие 17 Нумерация параграфов в книге сквозная; нумерация теорем, лемм, примеров и т. д. в каждом параграфе самостоятельная. Для удобства чтения используются разные системы для ссылок на теоремы, леммы, примеры, формулы и т. д. в зависимости от того, в каком параграфе они находятся. Если делается ссылка на теорему 1 или формулу (12) читаемого параграфа, то ссылки на них будут выглядеть так: теорема 1, формула (12). Если делается ссылка на теорему 1 и формулу (12) одного из предыдущих параграфов (например, §13), то ссылки будут иметь такой вид: теорема 13.1, формула (13.12). Значок < означает окончание доказательства. Разделы, помеченные звездочкой, при первом чтении можно опустить. Для удобства читателя в конце книги помещены список основных обозначений и предметный указатель. Написание этой книги было весьма трудным многоэтапным делом. Значительную помощь при подготовке первоначальных записок лекций к печати и по устранению недостатков в них мне оказал И.С.Борисов. Второй вариант рукописи прочел по моей просьбе К.А. Боровков, который представил мне длинный список полезных советов и замеченных им погрешностей. Он же существенно помог мне при «чистке» окончательного варианта рукописи. В поисках новой критики я обратился с просьбой ознакомиться с рукописью к А.И. Саханенко. Он также представил мне длинный список замечаний и предложений по улучшению изложения, многими из которых я воспользовался. Наиболее существенные изменения при этом коснулись доказательств в §26, 31, 33, 37 главы 2, §53-55 главы 3, приложениях II, IV, VIII (см. также библиографические замечания). Много ценных замечании, направленных на улучшение книги, было сделано Д.М. Чибисовым. Рукопись просматривали В.В. Юринский и А.А. Новиков и также сделали ряд полезных замечаний. Всем названным коллегам и всем тем, кто так или иначе помогал мне при работе над книгой, я хотел бы выразить здесь свою глубокую и искреннюю признательность и благодарность за их труд и содействие в написании книги. А. А. Боровков
Памяти моего учителя Андрея Николаевича Колмогорова посвящается ВВЕДЕНИЕ Настоящая книга посвящена изложению основ раздела математики, который называется математическая статистика. Последнюю для краткости называют иногда просто статистикой. Однако следует иметь в виду, что такое сокращение возможно лишь при достаточно хорошем взаимопонимании, поскольку сам по себе термин «статистика» соответствует часто несколько иному понятию. Что представляет собой предмет математической статистики? Можно приводить разные описательные «определения», которые в большей или меньшей степени отражают содержание этого раздела математики. Одно из самых простых и грубых основано на сравнении, связанном с понятием выборки из конечной генеральной совокупности и с задачей о гипергеометрическом распределении, которая обычно рассматривается в начале курса теории вероятностей. Зная состав генеральной совокупности, там изучают распределения для состава случайной выборки. Это типичная прямая задача теории вероятностей. Однако часто приходится решать и обратные задачи, когда известен состав выборки и по нему требуется определить, какой была генеральная совокупность (это делается, например, при социологических опросах общественного мнения). Такого рода обратные задачи и составляют, образно говоря, предмет математической статистики. Несколько уточняя это сравнение, можно сказать так: в теории вероятностей мы, зная природу некоторого явления, выясняем, как будут вести себя (как распределены) те или иные изучаемые нами характеристики, которые можно наблюдать в экспериментах. В математической статистике наоборот — исходными являются экспериментальные данные (как правило, это наблюдения над случайными величинами), а требуется вынести то или иное суждение или решение о природе рассматриваемого явления. Таким образом, мы соприкасаемся здесь с одной из важнейших сторон человеческой деятельности — процессом познания. Тезис о том, что «критерий истины есть практика» имеет самое непосредственное отношение к математической статистике, поскольку именно эта наука изучает методы (в рамках точных математических моделей), которые позволяют отвечать на вопрос, соответствует ли практика, представленная в виде результатов эксперимента, данному гипотетическому представлению о природе явления или нет. При этом необходимо подчеркнуть, что, как и в теории вероятностей, нас будут интересовать не те эксперименты, которые позволяют делать однозначные, детерминированные выводы о рассматриваемых в природе явлениях, а эксперименты, результатами которых являются случайные события. С развитием науки роль такого рода задач постоянно возрастает, поскольку с увеличением точности экспериментов становится все труднее избежать «случайного фактора», связанного с разного рода помехами и ограниченностью наших измерительных и вычислительных возможностей.
Введение 19 Математическая статистика является частью теории вероятностей в том смысле, что каждая задача математической статистики есть по существу задача (иногда весьма своеобразная) теории вероятностей. Однако сама по себе математическая статистика занимает и самостоятельное положение в табеле о науках. Математическая статистика может рассматриваться как наука о так называемом индуктивном поведении человека (и не только человека) в условиях, когда он должен на основании своего недетерминированного опыта принимать решения с наименьшими для него потерями*). Математическую статистику называют также теорией статистических решений, поскольку ее можно характеризовать как науку об оптимальных решениях (последние два слова требуют пояснения), основанных на статистических (экспериментальных) данных. Точные постановки задач будут даны позже, в основном тексте книги. Здесь же мы ограничимся тем, что приведем три примера наиболее простых и типичных статистических задач. Пример 1. Для многих изделий одним из основных параметров, которым характеризуется качество, является срок службы. Однако срок службы изделия (скажем, электролампы), как правило, случаен, и заранее определить его невозможно. Опыт показывает, что если процесс производства в известном смысле однороден, то сроки службы ξι, ξ2,· ■ · соответственно 1-го, 2-го и т. д. изделий можно рассматривать как независимые одинаково распределенные величины. Интересующий нас параметр, определяющий срок службы, естественно отождествить с математическим ожиданием θ = Εξ;. Одна из стандартных задач состоит в выяснении, чему равно Θ. Для того чтобы определить это значение, берут η готовых изделий и проверяют их. Пусть χι,Χ2,.. .,хп — сроки службы этих проверенных изделий. Мы знаем, что ι п П ^—' п.н. г=1 1 п при η -* оо. Поэтому естественно ожидать, что число χ = ~~/\]х* ПРИ г=1 достаточно большом η окажется близким к θ и позволит в какой-то мере ответить на поставленные вопросы. При этом очевидно, что мы заинтересованы в том, чтобы требуемое число наблюдений η было по возможности наименьшим, а наша оценка числа θ по возможности более точной (завышение параметра 0, как и его занижение, приведут к материальным потерям). Пример 2. Радиолокационное устройство в моменты времени t\, t^ ... .. .,£п зондирует заданную часть воздушного пространства с целью обнаружения там некоторого объекта. Обозначим через χι,...,χη значения отраженных сигналов, принятых устройством. Если в заданной части пространства интересующий нас объект отсутствует, то значения Х{ можно рассматривать как независимые случайные величины, распределенные так же, как некоторая случайная величина ξ, природа которой обусловлена характером различных помех. Если же в течение всего периода наблюдений объект находился в поле зрения, то х; будут наряду с помехами содержать «полезный» сигнал о, и значения х; будут распределены как ξ + α. Таким образом, если *) Подробнее об этом см. в [72].
20 Введение в первом случае наблюдения х^ имели функцию распределения F(x), то во втором случае их функция распределения будет иметь вид F(x — а). По выборке χι,.. .,хп требуется решить, какой из этих двух случаев имеет место, т. е. существует в заданном месте интересующий нас объект или нет. В этой задаче окажется возможным указать в известном смысле «оптимальное решающее правило», которое будет решать поставленную задачу с минимальными ошибками. Сформулированная задача может быть усложнена следующим образом. Сначала объект отсутствует, а затем, начиная с наблюдения с неизвестным номером 0, появляется. Требуется по возможности более точно определить момент θ появления объекта. Это так называемая задача о разладке, имеющая и целый ряд других интерпретаций, важных для приложений. Пример 3. Некоторый эксперимент производится сначала щ раз в условиях А и затемп^ раз в условиях В. Обозначим через χι,...,хП1 иу1г..,уП2 результаты этих экспериментов соответственно в условиях А и В. Спрашивается, сказывается ли изменение условий эксперимента на его результатах? Иными словами, если обозначить через Ρ а распределение х^, 1 ^ г ^ ηχ, и через Рв — распределение yi? 1 ^ г ^ П2, то вопрос состоит в том, выполнено соотношение Рд = Рв или нет. Например, если нужно установить, влияет ли некоторый препарат на развитие, скажем, растении или животных, то параллельно ставятся две серии экспериментов (с препаратом и без), результаты которых необходимо уметь сравнивать. Часто возникают и более сложные задачи, когда аналогичный вопрос ставится для многих серий наблюдений, проведенных в различных условиях. Если результаты наблюдений зависят от условий, то бывает необходимым проверить тот или иной характер этой зависимости (так называемая задача о регрессии). Список примеров типичных статистических задач, разных по сложности и по своему существу, можно было бы продолжить. Однако общими для всех них будут следующие два обстоятельства. 1. Перед нами не было бы никаких проблем, если бы распределения результатов наблюдений, которые фигурируют в задачах, были нам известны. 2. В каждой из этих задач мы должны по результатам экспериментов принимать какое-то решение относительно распределения имеющихся наблюдений (отсюда и название «Теория статистических решений», упоминавшееся выше). В связи с этими двумя замечаниями принципиальное значение для всего дальнейшего и, в частности, для решения приведенных в качестве примеров задач, приобретает следующий факт. Оказывается, по результатам наблюдений χι,.. .,хп над некоторой случайной величиной ξ можно при больших η сколь угодно точно восстановить неизвестное распределение Ρ этой случайной величины. Аналогичное утверждение справедливо и для любого функционала θ = Θ(Ρ) от этого неизвестного распределения. Этот факт лежит в основе математической статистики. Ему и более точным постановкам задач будет посвящена глава 1.
Глава 1 ВЫБОРКА, ЭМПИРИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ· АСИМПТОТИЧЕСКИЕ СВОЙСТВА СТАТИСТИК В § 1-4 вводятся понятия выборки и эмпирического распределения и рассматриваются их простейшие свойства, главным образом, асимптотические, лежащие в основе математической статистики. В §5 излагаются так называемые теоремы непрерывности (о сходимости распределений функций от последовательностей случайных величин), используемые на протяжении всей книги. Параграфы 6-10 посвящены более тонким асимптотическим свойствам эмпирических распределений и изучению предельных распределений для основных типов статистик. § 1· Понятие выборки Исходным материалом любого статистического исследования является совокупность результатов наблюдений. В простейших случаях они представляют собой экспериментальные (полученные в результате опытов) значения некоторой случайной величины ξ. Мы уже отмечали, что в задачах статистики распределение Ρ этой случайной величины хотя бы частично неизвестно. Точнее, пусть G — эксперимент, связанный со случайной величиной ξ. Формально для этого эксперимента со случайной величиной ξ мы должны построить математическую модель, в которую входит вероятностное пространство (Χ, ©,ν,Ρ), и задать на нем подходящим образом измеримую функцию, которая и называется случайной величиной ξ (см. [17]). Пространство (X, ЯЗ;г,Р), не ограничивая общности, можно считать «выборочным» (см. [17]), т.е. считать, что X есть пространство значений ξ(χ) = χ. В этом случае Ρ можно называть распределением ξ. Если ξ — числовая случайная величина, то X есть числовая прямая К; если ξ — вектор, то X = Km5 m > 1. В дальнейшем мы, как правило, и будем иметь в виду только эти два случая, т. е. под X понимать R (одномерный случай) или Мт, т > 1 (многомерный случай). В качестве 93χ чаще всего выбирают σ-алгебру борелевских множеств. В то же время следует отметить, что многие результаты книги, особенно в главах 2-6, вообще никак не связаны с природой выборочного пространства X, поскольку там рассматриваются не сами наблюдения, а функции от них со значениями в R или IRm, m > 1. Если заранее известно, что Ρ сосредоточено на части В Ε ΐ&χ пространства X, то может оказаться удобным под X понимать В, а под *Βχ — сужение σ-алгебры 93 д* на В.
22 Гл. 1. Выборка. Эмпирическое распределение Рассмотрим η независимых повторений эксперимента G (см. [17, § 1.3]) и обозначим через χχ,.. .,хп совокупность полученных наблюдений. Вектор Хп — (ХЬ · · ·)χη) называется выборкой объема η из совокупности с распределением Р. Иногда используются укороченные или более полные варианты этого термина: выборка из распределения Ρ или простая выборка объема η из генеральной совокупности с распределением Р. Символически соотношение «Хп есть выборка из распределения Р» будет записываться с помощью знака €= следующим образом: Хп €= Р. (1) Такого рода запись будет использоваться нами и для других случайных величин. Например, соотношение ξί= Ρ (2) будет означать, что ξ имеет распределение Р. Такое использование символа €= находится в соответствии с (1), поскольку последнее определено для любого п, в частности для η = 1. Если ξ и η есть две случайные величины (вообще говоря, заданные на разных пространствах) с одинаковыми распределениями, то этот факт будем обозначать ξ = τ/, так что если Хп и Yn есть две выборки одинакового объема d из распределения Р, то можем писать Хп = Yn. d В правых частях (1), (2) вместо распределения Ρ иногда может стоять функция распределения, соответствующая Р. Так что если F(x) = = Р((—оо,х)), то запись Xn^F будет тождественна с (1). Само понятие «выборки из генеральной совокупности» встречается также при рассмотрении простейших вероятностных моделей, связанных с извлечением шаров из урны в классическом определении вероятности (см. [17, §1.2]). Следует отметить, что введенное выше определение выборки находится в полном согласии с этим понятием, введенным ранее, и по существу совпадает с ним. Если х^ (или случайная величина ξ) могут принимать лишь s значений αχ,.. .,α5 и вероятности этих значений рациональны, т.е. ρ(ξ = «,·) = $, Σ>, = ;ν, то выборку Хп можно представить как результат «выборки с возвращением» (в смысле [17, § 3.2]) из урны с N шарами, из них на N\ шарах написано αχ, на Л^2 шарах написано аг и т. д. Как математический объект выборка X = Хп (индекс п мы часто будем опускать) есть не что иное, как случайная величина (χχ,.. ·,χη) со значениями в «n-мерном» пространстве Xй — Χ χ Χ χ •••хЛ'и распределением,
§ 1. Понятие выборки 23 определяемым для В = В\ χ Въ χ · - · χ Βη, Bj Ε *Βχ равенствами η ρ(Χ ε В) = Р(Х1 е Si,.. ,χη е вп) = JJ р(х* е я*), (з) Другими словами, распределение Ρ на Хп есть η-кратное прямое произведение заданных «одномерных» распределений. Относительно обозначений для распределения Ρ и других будем придерживаться следующих соглашений, которые мы отчасти уже использовали в (3) и которые нигде не приведут нас к недоразумениям. 1. Мы будем использовать один и тот же символ (в частности, Р) для распределений в (Χ,ΐβχ) и для прямого произведения этих распределений в (Л"\933>) (см. (3)), где 05^ — σ-алгебра борелевских множеств в Χν. Различие будет определяться лишь аргументом функции Р. 2. Вероятность попадания величины X в множество Л, скажем, из 93^, нам иногда будет удобно обозначать через Ρ (В), а иногда через Р(Х Ε В). Это одно и то же в силу того, что Хп есть выборочное пространство для X. 3. Наконец, символ Ρ будем использовать для обозначения общего понятия вероятности (т.е. для вероятности, относящейся к каким-то другим случайным величинам без конкретизации вероятностного пространства). В силу (3) можем рассматривать выборку X как элементарное событие в выборочном вероятностном пространстве (#,93^, Р) (см. [17, §3.5]). Отметим, что относительно выборки X будем допускать двойственное толкование этого обозначения и объекта: как случайной величины и как вектора реальных числовых данных, полученных в фактически осуществленных экспериментах. Как показывает опыт, такое двойное толкование вполне приемлемо и не приводит к недоразумениям, хотя и допускает одновременное существование записей вида Ρ(χχ < ί) = F(t) и вида χχ = 0,74, х2 = 0,83 и т.д. Отметим также, что координаты х; выборки X мы обозначаем «прямыми» буквами х, оставляя «наклонные» буквы χ для обозначения переменных величин. Вектор (χχ,. ..,xn) Ε Хп, хг Ε Χ, мы будем обозначать полужирными буквами χ = (χχ,.. .,χη)· Выборка является основным исходным объектом в задачах математической статистики. Однако на практике ее элементы χχ, хг,..- далеко не всегда являются независимыми. В своих рассмотрениях мы также не будем исключать такой возможности. Чтобы при этом не делать дополнительных оговорок, мы в случае зависимых наблюдений будем считать, что имеем дело с выборкой объема η = 1, а наблюдения представляют собой координаты вектора χχ (ведь природа пространства X произвольна). В следующих рассмотрениях нам часто придется иметь дело с выборками Хп неограниченно возрастающего объема п. В таких случаях удобно предполагать, что задана выборка Хоо = (χχ,Χ2, · · ·) бесконечного объема, а X = Хп есть совокупность ее первых η координат. Под выборкой бесконечного объема Хоо мы будем понимать элемент выборочного вероятностного пространства (A'oo,03;j?,P), где Х°° — пространство последовательностей (#ъ^2,.. .); сг-алгебра 05^ порождена множествами f] {χι Ε 5г}, В{ Ε 93χ, Ν = 1,2,...; распределение Р обладает свойством (3). По теореме Колмогорова [17] такое распределение всегда существует. Стало быть, предположение
24 Гл.1. Выборка. Эмпирическое распределение о существовании выборки Х^ бесконечного объема никак не ограничивает общность. Саму бесконечную последовательность (бесконечную выборку) Xqq в рассмотрениях, носящих теоретико-вероятностный характер, можно трактовать как элементарное событие (ср. с [17]). В тех случаях, когда нам нужно будет понимать Хп как подвектор -Хоо, мы будем писать где [·]η — оператор проектирования из Х°° в Хп, определенный очевидным образом. В соответствии с предыдущим запись *оо€= Ρ будет означать, что Xqq есть выборка бесконечного объема из распределения Р. Если возникает необходимость особо отметить тот факт, что речь идет о распределении в (Л^°°,23^) (или (Х71,^7^) при п<оо), а не в (Л\ Ъх), то будем использовать также обозначение Р°° (Рп). Сохранение верхних индексов ос и η во всем тексте привело бы к громоздким обозначениям. § 2. Эмпирическое распределение (одномерный случай) Пусть дана выборка X = (xi,...,xn) Ε Ρ, χ* Ε Χ = Ш. Рассмотрим вещественную прямую М с сг-алгеброй борелевских множеств 03 и дискретное распределение Р* на (К, 93), сосредоточенное в точках χχ,.. ,,хп, для которого вероятность значения х* полагается равной 1/п. Другими словами, для любого В £ 23 по определению К(В) = *&, (1) Π где и {В) — число элементов выборки X, попавших во множество В. Распределение Р* называется эмпирическим распределением, построенным по выборке X (или соответствующим выборке X). Его можно представить также в следующем виде. Пусть 1Х(В) — распределение, сосредоточенное в точке х: «*>={£ %% η тогда, очевидно, и {В) = У^1Х.(2?), = 1 *η{Β)=1~ΣΚ{Β). (2) <=1 η г=1 Ясно, что Ρ* (β) для любого борелевского В как функция от выборки есть случайная величина. Таким образом, мы имеем здесь дело со случайной функцией множеств, или со случайным распределением. Предположим теперь, что Хоо €=Р, Хп = [Хоо]п и га —>· оо. Мы получим тогда последовательность эмпирических распределений Р*. Замечательный
§ 2. Эмпирическое распределение (одномерный случаи) 25 факт состоит в том, что эта последовательность неограниченно сближается с исходным распределением Ρ наблюдаемой случайной величины. Этот факт имеет принципиальное значение для всего последующего изложения, поскольку он показывает, что неизвестное распределение Ρ может быть сколь угодно точно восстановлено по выборке достаточно большого объема. Теорема 1. Пусть В Ε 23 и Хп — [Χοο]η €=Ρ· Тогда при η —» оо К(в) ^ р(в). Сходимость с вероятностью 1 здесь имеется в виду относительно распределения Ρ = Р°° в (М00,©00,?). Предположение Хп = [Хоо] нужно нам для того, чтобы случайные величины Р^(-В) были заданы на одном вероятностном пространстве. Доказательство. Обратимся к определению (2) и заметим, что IXi{B) есть независимые одинаково распределенные случайные величины, Е1Х.(В) = P(IXi(B) = 1) = Ρ(χϊ е В) = Ρ {В). Так как Έ>*η{Β) есть среднее арифметическое этих величин, то остается воспользоваться усиленным законом больших чисел. < Теорема 1 устанавливает сходимость Р£(-5) и Р(-В) в каждой «точке» В. Однако имеет место и более сильное утверждение о том, что такая сходимость в известном смысле равномерна по В. Обозначим через 3 совокупность множеств 5, являющихся полуинтервалами вида [а, Ь) с конечными или бесконечными концами, и предположим опять, что Хп = [Хоо]п- Теорема 2 (Гливенко-Кантелли). sup|P;(B)-P(B)|—>0. Собственно, с именами Гливенко и Кантелли связано несколько иное утверждение, относящееся к важному понятию эмпирической функции распределения. По определению это есть функция распределения, соответствующая Р*. Другими словами, эмпирической функцией распределения F£{x) называется функция F:(x) = P*n((-oo,x)). Величина nF*(x) равна числу элементов выборки, которые меньше, чем х. В реальных условиях для построения F£{x) часто используют следующую процедуру. Элементы выборки (χι,...,χη) упорядочивают по возрастанию, т. е. образуют из нее последовательность х(1) < х(2) ^ · < х(п)> которая называется вариационным рядом. Тогда можем положить к Fn(x) = ~ при χ Ε (x(*),X(*+i)], где к пробегает значения от 0 до п, Х(0) = —оо, Χ(η+ΐ) = °°· Очевидно, F£{x) представляет из себя ступенчатую функцию, имеющую скачки величиной 1/го в точках Хг, если все х; различны.
26 Гл.1. Выборка. Эмпирическое распределение Пусть F(x) = Р((—оо, ж)) есть функция распределения ξ (или, что то же, χι) и Χη = [-Χ"οο]η· Теорема Гливенко-Кантелли состоит в следующем. Теорема 2А. При η —> оо 8υΡ^η*(χ)-^(χ)|-4θ. χ Π·Η· Ниже индекс η у обозначений F* мы будем опускать и писать просто F*. Доказательство теоремы 2А. Предположим сначала для простоты, что функция F непрерывна. Пусть ε > 0 — произвольно малое заданное число такое, что число N = l/ε целое. Так как F непрерывна, то можно указать числа zq = — оо, z\,.. .,гдг_1, ζχ = оо такие, что F(*0) = 0, F(*i) = е = ^, · · ·, ^Ы = ке = -, ..., F(zn) = 1. При 2 G [zjt,zjt+i) справедливы соотношения F*(z) - F(z) < F*(zfc+1) - F(zk) = F*(zk+1) - F(zk+1) + ε, F*{z) - F{z) > F*(zk) - F(zk+1) = F*(zk) - F{zk) -ε. U Обозначим через А^ множество элементарных событий ω = Xqq, на которых F*(zk) -> F(zic). По теореме 1 Р{А^) = 1. Стало быть, для каждого ω G А = лг = IJ -Ajt найдется n(cj) такое, что при всех η ^ η(ω) будет выполняться А;=0 |F*(zfc)-F(zfc)|<e, k = 0,l,...,N. (4) Но вместе с (3) эти неравенства влекут за собой sup \F*(z) - F(z)\ <2ε. (5) Ζ Итак, это соотношение имеет место для произвольного ε > О, всех ω Ε А и всех достаточно больших η ^ η(ω). Так как 'Р(А) = 1, то теорема для непрерывной функции F доказана. Для произвольной функции F(x) доказательство происходит совершенно аналогично. Надо лишь воспользоваться следующим обстоятельством: для любой F(x) существует конечное число точек — оо = zq < z\ < ■ · · < ζ^-ι < < ζм — оо таких, что F(zk+l)-F(zk+0)^e, k = 0,l,...,N-l (6) (для определенности можно считать, что множество {zj} содержит все точки скачков F, по величине больших, чем, например, ε/2). Совершенно аналогично (3) получаем, что при ζ Ε (ζ^,ζ^+ι] F*{z) - F{z) < F*(zk+1) - F{zk+l) + ε, F*(z) - F(z) > F*(zk + 0) - F(zk + 0) - ε. U
§ 2. Эмпирическое распределение (одномерный случай) 27 К множествам А^, которые определяются как прежде, добавим множества AjJ", k = 0,1,..., iV, на которых F*(z^ + 0) -> F(zfc + 0). Тогда по теореме 1 N Р{Ак) = Р(А^) = 1, и на множестве А = f) А*л4£, Р(А) = 1, при ДОСта- А^О точно больших η ^ η(ω) будет справедливо (4), а также неравенства \F*(zk + 0) - F(zA + 0)| < ε, А; = 0,1,.. , Ν. Вместе с (7) эти неравенства влекут за собой (5). < Теорема 2А является частным случаем теоремы 2, так как множества (—οο,χ) принадлежат 3; с другой стороны, теорему 2 нетрудно получить в качестве следствия теоремы 2А, поскольку для В = [а, 6) \К(В) - Р(В)\ < \К(Ь) - F(b)\ + \F*(a) - F(a)\, и, стало быть, sup\K(B) ~ Р(В)| < sup[|Fn*(b) - F(b)\ + \F*(a) - F(a)\] —► 0. Bed ajb Π·Η· Замечание 1. Нетрудно видеть, что такого же рода рассуждения позволяют нам в качестве совокупности множеств 3 в теореме 2 брать совокупности интервалов (а, 6), отрезков [а, 6] и их конечных (в числе не более некоторого Ν) объединений. С другой стороны, если в качестве 3 в теореме 2 взять достаточно богатый класс множеств, то утверждение теоремы перестает быть верным. Например, если 3 содержит объединения любого конечного числа интервалов, то множество Bn = U (Х* ~ ~2^ Хк + ~2 ) Ε α' Ρη(Βη) = 1, А;=1 ^ П П ' а для равномерного на [0,1] распределения P(i?n) < 2/п, так что suP|p;(b) - р(в)| ^ р;(в„) - р(вп) -> ι. вез В заключение этого параграфа отметим, что представление (2) позволяет получить для Р* и более точные теоремы об асимптотическом поведении, чем теоремы типа Гливенко-Кантелли (эти результаты будут представлены в §4, 6). Чтобы проиллюстрировать возможности, которые здесь есть, на- 71 помним, что yjlxi(i?) в (2) есть сумма независимых одинаково распреде- ленных случайных величин в схеме Бернулли, EIXi(B)=P(IXi(B) = l)=P(B), тЦв) = р(в), mXi(B) = p(b)(i - р(в)). Поэтому из центральной предельной теоремы немедленно вытекает следующее утверждение.
28 Гл.1. Выборка. Эмпирическое распределение Теорема 3. P£(i?) представило в виде Р*п(В) = Р(В) + ζ-^ψ-, (8) 1 n где распределение ζη(Β) = —^=)(1Х.(В)-Р(В)) сходится к нормальному распределению с параметрами (0,P(i?)(l — Р(1?))). Дальнейшее изучение Р£(5) в этом направлении содержится в § 6. Более точные теоремы о сходимости с вероятностью 1 см. в § 4. § 3. Выборочные характеристики. Основные типы статистик 1. Примеры выборочных характеристик. Выборочными характеристиками называют обычно различные измеримые функционалы от эмпирического распределения или, другими словами, функции от выборки, которые предполагаются измеримыми. Наиболее простые среди них — выборочные (или эмпирические) моменты. Выборочным моментом порядка к называется значение J ηί=ι Выборочный центральный момент порядка к равен а? = а*к°(Х) =/"(*- <)kdK(x) = Ι Σ> " <)к. J n i=i Для выборочных моментов а* и а™ в литературе распространены специальные обозначения χ и S2: В статистических задачах используются самые различные выборочные характеристики. Например, выборочная медиана ζ* — это среднее значение вариационного ряда, т.е. значение ζ* = X(m), если η = 2га — 1 (нечетно), и ζ* = (x(m) + X(m+1))/2, если η = 2га (четно). Напомним, что медианой ζ непрерывного распределения Ρ называется решение уравнения Ρ(ζ) = 1/2. Более общим понятием является понятие квантили ζρ порядка р. Это число, для которого F((p) = р. Так что медиана есть квантиль порядка 1/2. Если F имеет точки разрыва (дискретную компоненту), то это определение теряет смысл. Поэтому в общем случае будем пользоваться следующим определением. Квантилью ζρ порядка ρ распределения Ρ называется число ζρ = sup {x : F(x) <p}. Как функция от р квантиль ζρ есть не что иное, как функция F~1(p), обратная к F(x).
§ 3. Выборочные характеристики 29 Такое определение ζρ (или F~l(p)), в отличие от предыдущего, очевидно, имеет смысл для любых F{x). Ясно, что наряду с выборочными медианами можем рассматривать выборочные квантили ζ* порядка р, равные по определению значению Х(/), где / = [пр] + 1, Х(д.) — члены вариационного ряда для выборки Х) к = 1,.. .,п. Для ρ = 1/2 мы сохраним определение ζ* = ζ*/2, данное выше (оно совпадает с приведенным лишь при нечетных п). 2. Два типа статистик. Пусть дана измеримая функция S от η аргументов. Выборочная характеристика S(X) = S(xi,.. .,хп) часто называется также статистикой. Из сказанного выше ясно, что любая статистика есть случайная величина. Ее распределение полностью определяется распределением Ρ {В) = Ρ(χι Ε В) (напомним, что S(X) можно рассматривать как случайную величину, заданную на (#n,Q3^,P), где Ρ — η-кратное прямое произведение одномерных распределений χι). Мы выделим здесь два класса статистик, которые часто будут встречаться в дальнейшем. Они будут построены с помощью следующих двух видов функционалов G(F) от функций распределения F. I. Функционалы вида G(F)=hl I g(x)dF(x) где g — заданная борелевская функция, h — функция, непрерывная в точке а = / g(x) dFo(x), где Fq такова, что X €= F0. II. Функционалы G(F), непрерывные в «точке» Fq в равномерной метрике: G(F^) -> G{F0), если sup \fW(x) - ад| -> о, носители*) рас- х пределений принадлежат носителю Fo. Здесь Fo опять есть функция, для которой X €= Fo· Соответствующие классы статистик мы определим с помощью равенства s(x) = g{f:), где F* — эмпирическая функция распределения. Мы получим тогда: I. Класс статистик I типа, представимых в виде S(X) = h (/ д(х) dFn*(s)) = h (^ J2g(xi) J . Очевидно, все выборочные моменты имеют вид аддитивных статистик 1 п — 2_.9{хг) и относятся к статистикам I типа. г=1 ') Носитель Nf распределения Ρ с функцией распределения F есть множество, для которого Ρ(Νρ) = 1.
30 Гл. 1. Выборка. Эмпирическое распределение II. Класс статистик, которые будем называть статистиками II типа или статистиками, непрерывными в точке Fq. Ясно, что, например, выборочная медиана будет непрерывной статистикой в точке F, если существует медиана ζ, F(() = 1/2, и F непрерывна и строго возрастает в точке ζ. Принадлежность функционалов одному из названных классов, конечно, не является альтернативной. Функционал G(F) может не принадлежать ни одному из этих классов или принадлежать обоим сразу. Например, если G есть функционал I типа, носитель F сосредоточен на отрезке [a, b] {F(a) = 0, F(b) = 1), а функция g имеет ограниченную вариацию на [а, 6], то G будет одновременно функционалом II типа, так как в этом случае функционал о j g(x) dF(x) = g(b) - j F{x) dg(x) непрерывен относительно F в равномерной метрике. Сказанное означает, что статистики I типа χ и 52 будут также статистиками II типа, если X €= Ρ и Ρ сосредоточено на конечном интервале. Статистики вида G(F*) иногда называют также статистическими функциями. Их систематическое исследование было начато фон Мизесом (см. [75, 76, 115]). Теоремы 2.1 и 2.2 можем дополнить здесь следующим утверждением о п. н. сходимости выборочных характеристик. Теорема 1. Пусть, как и прежде, Хп = [Xoo]n^F. Тогда если S(X) = G(F*) есть статистика I или II типа, то при η —> оо G(F;) -► G(F). Здесь предполагается, конечно, что значение G(F) существует. Таким образом, выборки большого объема позволяют оценивать не только само распределение Р, но и функционалы от этого распределения — по крайней мере те, которые принадлежат одному из названных в теореме классов. Доказательство утверждения для обоих классов статистик почти очевидно. Пусть, например, G(F) = h Ι / g(x)dF(x) J . Тогда S = S(X)= i9(x)dF*{x) = ^g(xi) J n i=i есть сумма независимых случайных величин с математическим ожиданием Eg(xi)= fg{x)dF(x). Поэтому по усиленному закону больших чисел S —> Ε<?(χι). Пусть теперь А = {Хоо : S(X) -> ΕίΚχι)}. Тогда Р(А) = 1, и если Хоо € А, то S(X) -> —> E<?(xi)) h(S(X)) —> /ι(Ε<?(χι)). Другими словами, на множестве А G(F*) -> G(F).
§ 3. Выборочные характеристики 31 Утверждение теоремы для функционалов второго типа есть прямое следствие теоремы Гливенко-Кантелли. < Из теоремы вытекает, что абсолютные и центральные выборочные моменты п. н. сходятся при η -> оо к соответствующим моментам распределения Р: 4 = 4(x) = ^i^.E^ 1=1 ι п a? = a*k°(X) = - 2>i - х)* гт> Ε(χι - EXl)\ П ^ ' π.η. В частности, г=1 Таким образом, мы установили важный факт, имеющий для нас принципиальное значение: эмпирическое распределение и широкий класс функционалов от него с ростом объема выборки неограниченно сближаются с соответствующими «теоретическими» значениями. 3. L-статистики. Так называются статистики, являющиеся линейными комбинациями членов вариационного ряда или функций от них: Здесь функция д и коэффициенты φη^ заданы. Очевидно, что все выборочные квантили являются L-статистиками. Если положить φη{ί) = φη % при t Ε ( , — ) , то статистику Sn(X) \ η η J можно представить в виде 1 Sn(X) = JtpnMF-Htfidt, (1) о где F~l — обратная функция к эмпирической функции распределения F*. Если φη(ΐ) сближается при η —> сю в подходящем смысле с функцией (p(t), то естественно ожидать, что Sn(X) будет близко к статистике G(F^), где ι G(F) = J<p(t)g(F-l(t))dt = J<p(F(u))g(u)dF(u). (2) о Очевидно, что G(F*) есть L-статистика при φη^ = φ ( ] . Считая на время, что F*(u) непрерывна справа (это предположение ничего не меняет
32 Гл. 1. Выборка. Эмпирическое распределение в последующих доказательствах), получим несколько более удобную запись ψη г — φ ( ~~ ) · Представление (2) доставляет весьма широкий «регулярный» выбор для коэффициентов φη^ в определении Sn(X). Поэтому, чтобы избежать технических осложнений, ограничимся в дальнейшем рассмотрением L-статистик вида G(F*), построенных на основании функционала G, определенного в (2). Отметим, что выборочная квантиль порядка ρ и крайние значения вариационного ряда Х(х) и Х(п) являются L-статистиками вида (1), для которых φη{ί) сходятся при η —> ос к (S-функциям Дирака. В дальнейшем будем предполагать, как правило, что φ(ί) в (2) является «обычной» (не обобщенной) функцией. Так как функции φ и g в представлении (2) определены неоднозначно (с точностью до постоянных множителей, произведение которых равно еди- 1 нице), то можно фиксировать значение φ$ = I ip(t) dt. О Запись (2) показывает, что статистики I типа при h(x) = χ являются L-статистиками, а L-статистики при φ = 1 являются статистиками I типа. 4. М-статистики. Пусть ψ{χ,θ) — некоторая функция Χ χ Шк —> R. Рассмотрим функционал G(F), который определяется как точка максимума по θ функции ,φ(χ.θ)1Ρ(άχ). Μ-статистикой (или Μ-оценкой) называется значение Θ* = G(F£) или, что то же, точка #*, в которой достигается шахУ^^(хг,^) — шахη / ψ{χ,θ) dF^(x). (3) Если точек максимумов несколько, то любая из них является М-оценкой. Часто используется и несколько иное (более регулярное в известном смысле) определение. Μ-статистикой (М-оценкой) называется решение уравнений 5>(χ,,0) = ο, (4) где #, как и ψ, есть некоторая заданная функция на X х Шк. Кроме того, термин М-статистика будем использовать иногда и как собирательный, включающий в себя оба вида упомянутых выше М- и М-статистик. Если функция ψ в (3) дифференцируема по 0, то очевидно, что М-статистика (в смысле определения (3)) будет М-статистикой (в смысле определения (4) при замене в (4) g производной ф1 по Θ). При этом определение (4) может добавлять «ненужные» значения #*, в которых достигаются локальные экстремумы. Более подробно М-статистики будут изучены в главе 2. Они играют важную роль в теории асимптотически оптимальных оценок.
§ 4. Многомерные выборки 33 5· О других статистиках. Имеют распространение и некоторые другие «собирательные» классы статистик такие, например, как ίΖ-статистики, построенные на основе функционалов G{F) = h(xi,...,xm)P(dxi)...P(dxm), 1 ^ т < га, где h — симметрическая функция, называемая иногда ядром функционала. U-статистикой называется статистика G{F;)=n-mJ2h(x4,...,xim), где суммирование ведется по всем ii,..., im между 1 и гг. Очевидно, что выборочные моменты являются [/-статистиками. Почти все встречающиеся в приложениях статистики принадлежат одному из названных выше классов. С другой стороны, асимптотическое поведение распределений статистик для каждого из этих классов может быть изучено весьма полно. Результаты в этом направлении будут изложены в § 7, 8 и в главе 2. § 4. Многомерные выборки 1. Эмпирические распределения. Совершенно аналогичным образом выглядят построения эмпирического распределения и выборочных характеристик в многомерном случае, когда наблюдаемая случайная величина ξ, а вместе с ней и выборочные значения χι,...,χη есть векторы размерности т > 1: χ*; = (xfc,i·. .,Xfc,m)· Здесь Έ*(Β) = Ρ(ξ £ В) есть распределение в X = Rm, а выборочным пространством здесь будет (Α^,Ώ^,Ρ), где Ρ есть η-кратное прямое произведение распределений Ρ в (Km,53^ = 23д)· Обозначение X €= Ρ полностью сохраняет свой смысл. Эмпирическое распределение Р* по выборке X строится, как и раньше, как дискретное распределение с массами величины \/п в точках χι,..., хп, так что вд-^—Ем*), η η . где ν(Β) — число точек, попавших в множество J3, IXi — распределение, сосредоточенное в точке хг. Утверждение теоремы 1 о сходимости Р£(£?) —> Р(£?) здесь, очевидно, сохранится. Обобщение теоремы Гливенко-Кантелли на многомерный случай связано с появлением качественно новых вопросов. Один из них — обобщения понятия интервалов на многомерный случай. Таких обобщений может быть несколько — это могут быть, например, прямоугольники, выпуклые множества и др. Простейший вариант обобщения теоремы Гливенко-Кантелли таков. Пусть у = (yi,.. .,уш) есть точка Rm и Bt есть угол с вершиной в точке Bt = {y£mm:yk<tk, *=1,...,го}.
34 Гл. 1. Выборка. Эмпирическое распределение Функция iS(t) = p;(Bt) называется эмпирической функцией распределения. Теорема 1. Пусть Хп = [Хоо]П5 Xoo^F. Тогда sup|Fn*(i)-F(i)|^0 при η —> оо. 2*. Более общие варианты теоремы Гливенко-Кантелли. Закон повторного логарифма. Одно из возможных обобщений теоремы типа Гливенко- Кантелли состоит в следующем. Пусть С — класс всех выпуклых множеств вЕт. Теорема 2. Пусть Хп = [Хоо]т Аоо^Р? распределение Ρ абсолютно непрерывно относительно меры Лебега в Мт. Тогда suP|p;(B)-p(B)|—>о. (1) вес Π·Η· Другие возможные обобщения теоремы 1 можно получить с помощью утверждений приложения I. Замечание 1. Требование абсолютной непрерывности распределения Ρ относительно меры Лебега в теореме 2 существенно. На это указывает следующий пример. Пусть Ρ есть равномерное распределение на единичной окружности (т.е. на границе круга) в R2. Построим замкнутый многоугольник Βχ с вершинами в точках χι,...,χη, лежащих на окружности. Это выпуклое множество. Однако Ρ (Β χ) = О, Ρ^(Βχ) = 1, и, следовательно, соотношение (1), где £ — класс выпуклых множеств, не верно. Утверждения теорем типа Гливенко-Кантелли можно существенно уточнить — по крайней мере для простейших классов множеств. Например, для эмпирических функций распределений F*(t) (см. теорему 1) можно указать такую детерминированную последовательность Ьп —> 0 при η -> оо, для которой с вероятностью 1 (для почти всех «точек» Хоо) \imswpb-lsnp\F*(t)-F(t)\ = l. n-teo t /In In η Оказывается, что порядок малости Ъп такой же, как \ — . γ η Теорема 3 (закон повторного логарифма). Если F(t) непрерывна, то ,*%?\/Ж'Г\г"м-™\-1) = 1. Теорема 3 тесно связана с нормальным приближением для F*(t) вида (2.8), которое в многомерном случае, очевидно, также имеет место. Доказательство теорем 1, 2 отнесено нами в приложение I. Доказательство теоремы 3 см. в [52].
§ 5- Теоремы непрерывности 35 3. Выборочные характеристики. В многомерном случае, как и в одномерном, они представляют различные измеримые функции от выборки. Простейшие из них — выборочные моменты. Например, выборочные моменты первого порядка равны 1 п моменты второго порядка (обычные и центральные) — 1 п ahj = a2,ijW = - X^xMxA:j, г, j = 1,.. .,m, 1 n <*ад = Sij = - 5Z(xfc,i - αϊ,<) (xfcj - αί j) Jc=l и т.д. Как и в одномерном случае, легко убедиться с помощью усиленного закона больших чисел, что эти характеристики с вероятностью 1 сходятся к соответствующим «теоретическим» моментам. В частности, Sn —> J П.Н. —> E(xi,i — Exi)i)(xi>j — Exij). Нетрудно убедиться (подробнее об этом см. в следующем параграфе), что этим же свойством обладают и выборочные коэффициенты корреляции r _ Sjj Е(хм-Ехм)(хи-Ехц) y/SiiSjj Π·Η- ^/Dxi}iDxij Отметим, что все типы статистик, введенные в §3, за исключением L-статистик, допускают естественное обобщение на многомерный случай и случай произвольного выборочного пространства X. Для получения более точных теорем о распределении выборочных характеристик нам будут полезны так называемые теоремы непрерывности. § 5· Теоремы непрерывности В дальнейшем нам понадобятся некоторые вспомогательные утверждения, которые мы будем часто использовать и которые можно было бы назвать теоремами непрерывности. Для удобства выделяем их в отдельный параграф. Одну теорему такого типа мы уже использовали — это теорема 3.1. Первая теорема непрерывности будет очень близка к этой теореме. Теорема 1 (первая теорема непрерывности). Пусть X = [Х00]П^Р. Тогда если Sn = Sn(X) есть последовательность скалярных или векторных статистик таких, что Sn —> SO, и H(s) — функция, непрерывная п.н. почти всюду относительно распределения случайной величины SO (га. e. H(s) непрерывна в каждой точке множества В, Ρ (So Ε: В) — 1), то H(Sn(X)) —* H(S0). п.н. Если Sn сходится к So no вероятности (Sn —> So), то при тех -же ρ прочих условиях H(Sn) —> Η (So).
36 Гл.1. Выборка. Эмпирическое распределение Доказательство теоремы почти очевидно. Так как вероятности событий А = {Хоо : Sn(Хоо) -> 50(Хоо)} и С - {Хоо : 50(Хоо) G В} равны 1, то в силу равенства Р(АПС) = Р(Л)+Р(С)-Р(АиС) вероятность события А П С (на котором Я(5,п(Х0о)) -> Я"(5о(-Х"оо)) также равна 1. Чтобы упростить доказательство о сходимости по вероятности, предположим дополнительно, что Sq — const (нам только этот случай и понадобится). Для заданного ε > 0 найдется δ > 0 такое, что событие Ап = = {Хоо : |5П — 5о| < ί} влечет за собой \H(Sn) — Я(5о)| < ε и, кроме того, Р(АП) > 1 — ε при всех достаточно больших п. Следовательно, для таких η имеем 1 - ε < Р(ЛП) ^ Р(|Я(5П) - Я(50)| < ε). < Прежде чем формулировать последующие теоремы, введем некоторые обозначения, которые будут удобны в дальнейшем. Пусть дана последовательность случайных векторов ηη = (% ,.. .,r/n ) (не обязательно на одном вероятностном пространстве). Если распределения ηη слабо сходятся при η —> оо к распределению некоторой случайной величины 77, то этот факт будем обозначать символом Vn => τ/· (1) Здесь мы используем для случайных величин знак => слабой сходимости распределений. Этот знак будет употребляться по-прежнему и для самих распределений, так что соотношение (1) эквивалентно тому, что где Qn и Q суть соответственно распределения ηη и η. Такое соглашение удобно и не приводит к недоразумениям. Ясно, что из ηη —* η или ηη —► η следует ηη => '/7 (ср. с [17, § 6.2]). р п.н. Таким образом, если речь идет о соотношении (соответствующем слабой сходимости) между объектами одной природы (между случайными величинами или между распределениями), будем использовать символ =>. Наряду с этим нам было бы удобно иметь также символ для выражения «распределения ηη слабо сходятся при п —> оо к Q». Это соотношение будем записывать в виде Vn & Q, (2) так что символ €> выражает тот же факт, что и =>, но соединяет объекты разной природы так же, как это делает символ €= в соотношении η €= Q (слева в (2) стоят случайные величины, а справа — распределение). Пусть ηη и η есть случайные векторы из W. Теорема 2 (вторая теорема непрерывности). Если ηη => η и H(t), t Ε Μ5, есть непрерывная функция из Rs θ Rk, mo Η(ηη) => Η(η). Отметим, что эта теорема на самом деле верна и в более общей форме*): Если ηη =ϊ η и H(t) непрерывна в точках множества Α Ε 235, Ρ (г/ Ε Α) = = 1, то Η{ηη) => Η{η). *) Подробнее об этом см. в [7].
§ 5. Теоремы непрерывности 37 Доказательство теоремы 2. Пусть Qn и Q есть соответственно распределения ηη и η. Слабая сходимость Qn => Q означает по определению, что для любой непрерывной и ограниченной функции /: Rs —)► К выполняется / f(y)Qn(dy) -> J f(y)Q(dy), или, что то же самое, Е/Ы -> E/fo). (3) Аналогичное соотношение мы должны получить и для распределений Η(ηη) и Η(η). То есть мы должны установить, что для любой непрерывной ограниченной функции д: Rk —> К справедливо Ед(Н(щ)) —> Eg(Hfa)). Но это очевидным образом следует из (3), так как суперпозиция 'д = доН :RS —> —> К непрерывна и ограничена. < Теорема 3 (третья теорема непрерывности). Пусть ηη => η £ Κ, .#(£), t Ε 1, есть функция, дифференцируемая β точке а. Тогда если Ьп —> О есть числовая последовательность, то H(a + bnV)-H(a) ^ On Доказательство. Рассмотрим функцию Н{а + х)-Н(а) х^О, h(x) = { χ .Η'(α), χ = 0, которая будет непрерывной в точке χ = 0. Так как Ьпг\п => 0, то в силу первой теоремы непрерывности h{bnr\n) =Ф- h(0) = Η1 [а). Пользуясь второй теоремой непрерывности, получим Н(а + 6П?7П) - Н{а) , Г = HbnVnWn =* Η (α)η. < On Мы приведем теперь два последовательных обобщения теоремы 3 на многомерный случай, которые будут нам полезны. Теорема ЗА. Пусть ηη = (ηηι\ .. .,Vns)) =>η = (t/W, .. .,τ/β>), H{t) - скалярная функция вектора t = (£ι,...,£5) такая, что существует про- изводная Hit) = { ——,..., -ζ— Ι β точке а. Тогда при Ъп —> 0 Н(а + Ьпч)-Н(а) ^ η{Η,{α))Τ = А вЯМ^Ю (5) Здесь индекс Τ соответствует транспонированию.
38 Гл.1. Выборка. Эмпирическое распределение Если т/(Я'(а))т = О с вероятностью 1 (например, Н'(а) = 0), а ма- трица Η [t) производных — существует в точке а, то atiOtj Н{а + Μη) - Н{а) 1 „ т 1 А ш =ϊ-ηΗ(α)η = -^ 52Я(а) ь1 2' к J' 2.4^ aiiS* 7/«т/Л· (6) <J = 1 '^J Пусть теперь H(t) — векторная функция. Тогда, очевидно, предельное распределение для каждой компоненты Hj будет описываться теоремой ЗА, а относительно совместного распределения будет справедлива Теорема ЗВ. Пусть ηη => η Ε IK5, Я(£) Ε R* — векторная функция такая, что производные Я'·, j = !,...,&, удовлетворяют условиям теоремы ЗА. Тогда Ща + ЬпПп)-Ща) ^ η(Η,{α))τ On Если 77(Я'(а))т = 0 с вероятностью 1, α матрицы Я'7, j = 1,...,/с, существуют в точке а, то Доказательства этих утверждений по существу ничем не отличаются от доказательства теоремы 3, и поэтому предоставляем их читателю в качестве упражнений. Кроме того, предлагаем убедиться, что символ => в (4)-(6) можно заменить на —► или —>, если соответственно выполняется 4 ' п.н. ρ ηη —> η или ηη —> η. п.н. ρ Содержание теорем 1-3 можно резюмировать следующим образом. Пусть ~* означает один из символов —», —►, =ϊ . Тогда если Я непрерывна, то из П.Н. ρ ηη ~» η следует Η(ηη) ~> Η (η). Если Я дифференцируема в точке а, т^ ~* ?7, то для Ьп —> О Я(а + 6п;?п)-Я(а) ^ ^ £>п Замечание 1. Нетрудно видеть, что если α = ап зависит от п так, что ап = ао + ^(1), и производные в теоремах 3, ЗА, ЗВ непрерывны, то соотношение (7) сохранится в форме #К + Μη) - #К) ^ я,(ао) ( On Для доказательства достаточно заметить, что левая часть (8) предста- вима в виде Η'(αη)ηη, где ап = 9ап + (1 - 0)(αη 4- bn^n) ~* «о» 0 ^ 0 < 1, и воспользоваться второй теоремой непрерывности.
§ 5. Теоремы непрерывности 39 То же самое замечание справедливо для многомерных аналогов этого утверждения в теоремах ЗА, ЗВ. Сформулированные теоремы касались сходимости почти наверное и сходимости распределений. Четвертая теорема непрерывности относится к сходимости интегралов. Теорема 4 (теорема непрерывности для моментов). Пусть {ηη} — последовательность числовых случайных величин и ηη=> η при п —> оо. Тогда если выполнено хотя бы одно из следующих условий: 1) limsup / Р(|??п| > #) dx —> 0 при N —> оо, п—юо J N оо 2) Р(|тм| > ζ) < φ(χ), \ φ{χ)άχ < оо, о |1+α 3) Е|т7п| < с < оо для некоторого а > О, то lim Έηη = Е77. η—юо ОС / Отметим, что условие 1) означает равномерную по п сходимость к нулю Р(|*7п| > х) dx при N -> оо. N Доказательство. Из обобщенного неравенства Чебышева Р(Ы>я?) х1+а следует, что условие 3) влечет за собой условие 2). В свою очередь, условие 2) влечет за собой условие 1). Пусть выполнено условие 1). Для простоты рассуждений предположим сначала, что ηη ^ 0. Тогда, интегрируя по частям, получим оо оо Ет?п = - / χάΡ(ηη ^ х) = / P(?7n ^ x) dx. о о Из этого представления, из сходимости Ρ (77η ^ χ) —> Ρ (г/ ^ χ) для почти 00 всех а: и из равномерной по η сходимости интеграла / P(?7n ^ я) dx следует о законность предельного перехода под знаком интеграла, в силу которого оо оо lim Έηη = lim / Ρ(ηη ^ x)dx = / Ρ(η ^ x)dx — Ε77. η-»οο π-»οο у у О О В общем случае следует воспользоваться представлением г\п = η£ — η~, где 7/+ = max (т/п,0), η~ = max (-τ?η,0). <
40 Гл. 1. Выборка. Эмпирическое распределение Отметим, что условие 1) можно рассматривать так же, как условие равномерной интегрируемости ηη, из которой немедленно следует сходимость Εηη -> Εη (см., например, [17, гл. 6; 72, §6.2)]. § 6·* Эмпирическая функция распределения как случайный процесс· Сходимость к броуновскому мосту В этом параграфе будем предполагать известным понятие случайного процесса (скажем, в объеме [17]) и, в частности, определения и простейшие свойства винеровского и пуассоновского процессов. 1. Распределение процесса nF£(t). Ограничимся рассмотрением случая X = Ж. Пусть, как и прежде, F*(t) = Р*((—оо,£)) есть эмпирическая функция распределения, соответствующая выборке X = Хп €=Р. Функция F*(t) есть функция двух переменных: t и X, или, что то же, случайная функция от t или случайный процесс. Найдем конечномерные распределения этого процесса. Пусть t\ < < Ϊ2 < ... < tm — произвольные т точек числовой оси. Положим ίο = — оо, im+i = оо и обозначим через Aj0 = 0(*j+i)-0(*i) приращения функции g(t) на полуинтервалах Δ^· = [ij, ij+i)> J = 0,1,..., m. Рассмотрим приращение Δ^πη процесса πη(ί)=η^(ί). Очевидно, это есть число элементов выборки, попавших в Δ^. Вероятность попадания одного элемента выборки (скажем, χχ) в Δ^ равна pj = Ρ(Δ^). Так как попадания в Δ^, j = 0, 1,...,га, представляют собой т + 1 несовместных событий, то, очевидно, имеем здесь полиномиальное распределение (см. [17, § 5.2]) для вектора (Δοπη,..., Аткп) с вероятностями ро> · · *,Рт, ТП y~]pj = 1· Как известно, i=o Ρ(Δ0πη = fc0l.. ·, Δ™πη = fcm) = П> fp£°.. .ρ*Γ, (1) ko\...km\ m где V^ kj = n. j=o Пусть теперь η(ν), и Ε [0,1], есть непрерывный слева пуассоновский процесс (см. [17, § 16.4]) с параметром λ, 77(0) = 0. Приращения этого процесса независимы, P(iW=*)=e-to1^. Если функция распределения F(t) = Р((—οο,ί)) непрерывна, то можем сделать непрерывную замену времени, положив и = F(t), — 00 < t < 00,
§ 6. Эмпирическая функция распределения как случайный процесс 41 и определить тем самым процесс n(t) = η(Ρ(ί)) на всей оси. Рассмотрим приращения этого процесса Δ,π = n(tj+1) - π(ί,) = v(F(tj+i)) - v(F(tj)) на интервалах Δ^. Тогда Ρ(Δ0π = fc0,..,A^ = U = Де-^ШИ = e-^"J] Г7- m а условная вероятность того же события при условии π(οο) = \^Δ^π = η j=o будет равна Ρ Δ0π = feo,.. ·, Δ™π = fc, ^Δ,π = η ι = i=o Ρ(Δ0π = fcp,..., Δ7ηπ = fcm) Ρ(π(οο) = η) λ ! rn r) J = Ρ(Δ0π = fc0>. · -, Am* = km)^- = η! JJ -i-. (2) Мы получили при любом λ > 0 то же самое выражение, что и в правой части (1). Таким образом, мы доказали следующее утверждение. Теорема 1. EcAuF(t) непрерывна, то распределение процесса nF*(t) совпадает с условным распределением процесса π(ί) = (η(Ρ(ί)) при условии π(οο) = η (77(1) = η). Теорема показывает, что отклонения n[F^{t) — F(t)) распределены так же, как 7/(F(i)) — nF(t) при условии η(1) — η, и задача с точностью до замены времени и = F(i) сводится к изучению отклонений т/(и) — тш для условного (?7(1) = п) пуассоновского процесса на отрезке [0,1] или, что то же, к изучению отклонений n{F^(t) — t), где F£{t) соответствует равномерному на [0,1] распределению. Полезным бывает и другое представление для процесса nF*(t). Пусть Сь Сг> ■ · · — точки скачков пуассоновского процесса т;(£), так что ^(Ofc+O) ~ ^- Как известно [17], разности ^ — Cfc — Сл—ι (Со = 0), А = 1,2,..., независимы и показательно распределены, Ρ (ξ* > х) = е~Хх, ζΐς имеет Г-распределение с плотностью (см. также § 12)
42 Гл. 1. Выборка. Эмпирическое распределение Чтобы упростить формулировки, предположим, что F(t) — ί, t G [0,1], to = = 0, im+i = 1, так что η(ί) — π(ί). Теорема 2. Распределение процесса nF*(t) совпадает при любом ν > 0 с условным распределением процесса 7г(£г>), 0 < ί < 1, npw условии Cn+l = U> Другими словами, утверждение теоремы 1 сохранится, если условие π(1) = η заменить значительно более узким условием π(1) = η, π(1 + 0) = = η + 1 (мы считаем, что траектории π(ί) непрерывны слева). Поскольку вероятность этого нового условия равна 0, то, возможно, следует добавить (см. [17, §4.8 об условных математических ожиданиях, а также §19]), что под условным распределением мы понимаем здесь вероятности τ>(Δ//- ·λ Р(Л;Сп+1 edv) где А = {Δοπ(ίυ) = fco, · ·>, Δ771π(^) = fcm}, Δ^π(ίυ) = π(^>ι^) - n(tjv). Доказательство. Событие {ζη+ι € dv} представим в виде произведения двух событий В = {π{υ) = η}, С = {π(υ 4- cfo) - π(υ) = 1}. События 5 и АВ не зависят от С, так как события В и АВ, с одной стороны, и событие С — с другой относятся к приращениям процесса π на непересекающихся интервалах времени. Поэтому Р(Л/С„+1 = ν) = Щ^ = ^ = Ρ(Λ/π(«) = η). (3) Точно так же, как в (2), убеждаемся, что это выражение от ν (как и от λ) не зависит и совпадает с (1). < Следствие 1. Распределение процесса nF*(t) совпадает с распределением π(£ζη+ι), 0 ^ t ^ 1. Это вытекает из того, что для В = {Δ0π(*(η+ι) = fc0,. - ■> Am^(<Cn+i) = fcm} имеем в силу (3) Р(5) = У Р(Л/С„+1 = г;)Р(Сп+1 € rf«) = η! Ц -^-. Из следствия 1 вытекает Следствие 2. Совместное распределение элементов вариационного ряда Х(!),.. .,Х(П) выборки X из равномерного распределения совпадает с
§ 6. Эмпирическая функция распределения как случайный процесс 43 совместным распределением Cl Сп Сп+1 Сп+1 или, что то же, совместное распределение разностей х^), Х(2) — X(i),... ■ · ·5χ(η) — χ(η-ΐ)> 1 — х(п) совпадает с совместным распределением £ΐ ξη+1 Cn+1 Cn+1 В заключение этого пункта найдем моменты второго порядка для приращений процесса n(F*(t) — F(t))> Нам будет удобнее иметь дело с процессом wn(t) = yfr{FZ(t)-F(t)). Очевидно, что EAjWn = О, E{AjWn)2 = AjF(l - AjF). Для вычисления смешанных моментов заметим, что (г φ j) E(AiWn ■ AjWn) = i £ Ε(ΙΧ4(Δ<) - Ρ(Δ;))(ΙΧ,(Δ,·) - Ρ (Δ,·)) = = τ Σ {ΕΙχ,(Δί)Ιχ,(Δ,·) - Ρ(Δ<)Ρ(Δ,·)}. η k,l= "*,!= Так как ew*.)ma,)={r-)P(^ ^ίϊί: το Ε(Δ<ιι;η · Ajwn) = -Ρ(Δ,)Ρ(Δ;) = -A,F · AjF. Таким образом, приращения процесса wn отрицательно коррелированы. 2. Предельное поведение процесса wn(t). Мы будем считать, что F(t) непрерывна. В предыдущем пункте мы видели, что задача отыскания распределения nF^(t) для произвольной непрерывной функции распределения F может быть редуцирована в известном смысле к той же задаче для функции распределения U(t) = £, 0 < t ^ 1, соответствующей равномерному на [0,1] распределению. Такой редукцией будем пользоваться и в дальнейшем. Сделаем в связи с этим несколько предварительных замечаний. Пусть x(F) = ini{t: F(t) > 0} — левая граница носителя распределения F. Положим F~~l(0) = χ(ρ\ Ρ~λ(η) =sup{ir. F(v) < и} при и > 0. Функция F_1(u) называется обратной к F, она так же, как и F, непрерывна слева. Если F непрерывна, то F~l(u) есть минимальное решение уравнения F(v) = и (решение единственно, если F(v) строго монотонна). Нетрудно видеть также, что если F непрерывна, то F(F~l(t)) = ί, t Ε [0,1]. В этом случае функции от наблюдений у^ = -^(ха;) представляют собой выборку У из равномерного на [0,1] распределения, так как по определению обратной функции P(yfc < t) = P(F(xfc) < ί) = P(xfc < ^_1(ί)) = F(F~4t)) = t.
44 Гл. 1. Выборка. Эмпирическое распределение Так как, кроме того, PiF-Hyk) <t) = P(y* < F(t)) = F(t), ТО Y = (yi,...,Vk)eU, (F-Hy^.-.F-HykV^F. Если U£ — эмпирическая функция распределения, соответствующая выборке Υ из равномерного на [0,1] распределения, то из сказанного следует, что Fn*(t) = K(F(t)). (4) Действительно, левая и правая части этого соотношения равны k/n при t € (х(*),Х(А;+1)] или, что то же, при F{t) е {F{x{k),F{x{k+l})] = (у(*),У(*+1)], Л = 1,...,п. Итак, если найдем способы приближать тем или иным образом распределение процесса U*(t) при больших п, то тем самым в силу (4) мы найдем подходы и к приближенному описанию распределения процесса F*(t) для произвольной непрерывной F. В дальнейшем в этом пункте будем считать, что F(t) = U(t) есть равномерное на [0,1] распределение. Обозначим через w(t) стандартный винеровский процесс, т.е. процесс с независимыми приращениями, для которого w(t) распределено нормально с параметрами (Ο,ί). Процесс w°{t) = w(t)-tw(l) называют броуновским мостом (по той причине, что у него закреплены оба конца: w°(0) = w°(l) = 0). Распределение этого процесса совпадает с условным распределением процесса w(t) при условии w(l) — 0 (более точно, надо взять условие |ги(1)| < ε и перейти к пределу при ε ~> 0). Оказывается, что конечномерные распределения процессов wn(t) = ^(F*(t)-F(t)), i G [0,1], сходятся при η —> оо к соответствующим распределениям броуновского моста w°(t). Этот факт позволяет приближать процессы wn(t), которые называют иногда эмпирическими процессами, с помощью процесса w°(t). Именно, мы можем представлять себе, что при больших η имеет место приближенное равенство V^{F:(t)-F(t))*w°(t), (5) описывающее распределение уклонений F£{t) от F(t) (напомним, что мы считаем здесь F(t) = t, t Ε [0,1]). Однако утверждение типа (5) нам понадобится в более сильной форме. Рассмотрим, например, статистику S~\/nsup[F^(t) — (t)). Высказанное t утверждение делает естественным предположение о том, что при больших η
§ 6. Эмпирическая функция распределения как случайный процесс 45 случайная величина S приближенно распределена так же, как sup w°(t). Однако из нашего утверждения это никак не следует, поскольку 5 нельзя представить как функцию от значений wn(t) = y/n (F^(t) — f{t)) в каком- либо конечном числе точек. Поэтому существенно более сильным является следующее утверждение. Обозначим через D(a,b) пространство функций на отрезке [а,6], непрерывных слева (в точке α справа) и имеющих лишь конечное число скачков, и через C(a, b) пространство всех непрерывных на [а, 6] функций. Через i^o(a, 6), Со(а, Ь) будем обозначать подпространства функций из D(a,b), С(а, Ь) соответственно, обращающихся в нуль в точках а и Ь. Очевидно, что траектории wn(t) принадлежат А)(0,1). Кроме того, известно (см. [17, §16.2]), что траектории w°(t) принадлежат Со(0,1) с вероятностью 1. Для простоты можем считать, что все траектории w(t) и, следовательно, w°(t) лежат в С0(0,1) (см. [17]). Поскольку С0(0,1) С D0(0,1), то (£>о(0, l),crD), где σο есть σ-алгебра подмножеств из ί>ο(0,1), порожденная цилиндрическими множествами*), мы можем считать выборочным пространством**) процессов wn и w°. Теорема 3 (функциональная предельная теорема для эмпирических процессов). Пусть f — функционал, определенный на пространстве Do(0,1) и обладающий следующими свойствами: 1) f(wn) uf(w°) являются случайными величинами (m.e.f(y) осуществляет измеримое отображение (Dq(0,1),<7£>) в (R, 93)); 2) /(у) есть функционал, непрерывный в «точках» пространства Со(0,1) относительно равномерной метрики, т.е. f(yn) —> /(у) при η —> -> оо, если у е Со(0,1) и р{уп,у) = sup \yn{t) - y(t)\ -> 0. Если эти условия выполнены, то f(wn) => f(w°). Если функционал f непрерывен в равномерной мелп,рике в любой точке у Ε Do(0,1), то условие 1) выполняется автоматически. Очевидно, что функционал S, рассмотренный выше, удовлетворяет условиям теоремы, так что при η —> оо S=> sup w°{t). Поскольку распределение правой части в этом соотношении можно найти в явном виде (см., например, [7, 104]) Р{ sup w°{t) > ζ} = e~2z\ *) To есть множествами вида {y(t\) 6 £ι,.. .,y(im) € Вт}> где В\,.. .,Bm — борелев- ские множества. **) (-D, σ) есть выборочное пространство процесса ξ(ί), если на нем задано распределение процесса £, так что траектории £(£) лежат в D.
46 Гл. 1. Выборка. Эмпирическое распределение то мы получаем таким образом приближенное выражение для распределения 5. Использование теоремы 3 для вычисления предельного распределения других статистик рассмотрено в последующих параграфах. Доказательство теоремы 3 отнесено нами в приложение II. Возвращаясь к произвольным непрерывным функциям распределения F и пользуясь (4), можем записать Kit) = U*(F(t)) = F(t) + -±=wn(F(t)), (6) где поведение процесса wn(t) описано в теореме 3. Отметим, что левая и правая части (6) равны и без предположения о непрерывности F. § 7. Предельное распределение для статистик первого типа Напомним, что статистиками первого типа мы называем статистики Sn(X) = G(F*)i где функционал G имеет вид G(F) = Μ / g(x)dF(x)) . Другими словами, Sn(X) = /J±f>(Xi)J. Мы уже видели (теорема 3.1), что если Χ ξ= Fq и h непрерывна в точке a = / g(x) dFo(x), то Sn —> h(a). Теорема 1. Если X €= Fo, h дифференцируема в точке a, g (x)dFo(x) < оо, то yfr{Sn{X)-h{a))=>ti{a)t, где £ ξ= Φ л „г, σ2 = J(9(x)-a)2dFo(x), Φο,σ2 — нормальное распределение с параметрами (Ο,σ2). Доказательство. Статистику Sn(X) представим в виде где по центральной предельной теореме (см. [17], гл. 8 или приложение IV) 1 " Лп = -7= 53(з(хг) - а) ©■ *ο,σ2, σ2 = Ε(0(χι) - ο)2 = j{g{x) - a)2 dF0(x).
§ 7. Предельное распределение для статистик первого типа 47 Отстается воспользоваться третьей теоремой непрерывности при bn = = 1/у/п. < Иногда функционалы первого типа удобнее рассматривать в виде G(F) = g{x) d(F — Fq) 1 . Очевидно, все сказанное сохраняется и для них с -AI той лишь разницей, что α следует положить равным нулю. Приведем аналог теоремы 1 для случая, когда функция g = (<7ь.. ·, <7S) есть вектор (т.е. G{F) = h(jgi{x)dF{x),...,ig8{x)dF(x)j\ Теорема 1А. Пусть Sn(X) = G(F*), h(t) дифференцируема β точке = [ 9{x)dF0{x), а матрица вторых моментов σ = ||о"^*|| = Е(д(х\) — а a)T(g(xi) —α) конечна. Тогда dh{a) (Sn(X) - h[a))Ji => ξ(Λ'(α))τ = £ ^fr W с вероятностью 1, α матрица вторых производных существует в точке а, то Л"«) dijdi ■ли №№-Μ«))η*1ί»·(.)£τ.ΐΣ|^ *- Я2',.,,.,, ί=α Для доказательства теоремы ΙΑ следует воспользоваться теоремой непрерывности 5.ЗА и многомерной центральной предельной теоремой, в силу 1 п которой —1= У^(<7(хг) — а) => ζ (см. приложение IV). Совершенно аналогично выглядит теорема о предельном распределении 5П(Х), когда функция /г, а вместе с ней и статистика 5П(Х) являются векторами. Читатель без труда воспроизведет ее формулировку и доказательство с помощью теоремы 5.3В. Пример 1. Пусть X ^ Ро и Ро таково, что Εχι = а > 0, Dxi = = d2 < оо. Что из себя представляет в этих условиях предельное распределение статистики 1 / 1 п \ S = - Ι χ = — > Хг I ? Условия теоремы 1 здесь, очевидно, х V nU ) выполнены при h(t) = 1/ί, g(x) = χ, при этом α = α, σ2 = d2, /ι(α) = 1/α, fr'(a) = —1/α2. В силу теоремы 1 a/ or
48 Гл.1. Выборка. Эмпирическое распределение так что IS- -) \/η&Φ042/α*. Пример 2. Найдем предельное распределение статистики 524ς(*<-*)2> t=l если Εχι = α, Dxi = d2 и Ex4 < oo. (Мы уже знаем, что в силу первой теоремы непрерывности S2 —> (Р.) Найти требуемое предельное распреде- п.н. ление нетрудно непосредственно, воспользовавшись представлениями η s2 = -X>-«)2-(*-«)2. ni=i 1 n (S2 - d2)yfr = 4= Y[(*i ~ a)2 - d2} - y/H(x - a)2. Однако мы воспользуемся теоремой ΙΑ. В условиях этой теоремы мы должны положить G{F)= f{x-a)2dF{x)- (fxdF{x)-a\ , так что gi(x) = {χ — α)2, дъ(х) — х, h(t) = t\ — fa — a)2. Поскольку в точке a = (d2,a) dh(a) _ dh(a) _ то (S2 - d2)V^ =* ξ, ξ ^ Φ0,^5 ^2 = E(xi - a)4 - d\ Пример 3. Статистика χ2. В заключение этого параграфа рассмотрим пример статистики, которую можно относить к статистикам как I, так и II типов. Рассмотрим статистики, построенные с помощью функционалов вида G(F) = h\^J gdFj, (2) где д есть функция ограниченной вариации на отрезке [a, b] таком, что F(a) = 0, F(b) = 1 (α и Ъ могут быть бесконечными). Так как / gdF = = g(b) — / Fdg, то функционал G(F) будет непрерывным в равномерной
§ 7. Предельное распределение для статистик первого типа 49 метрике, если только непрерывна функция Л. Нетрудно понять, что выделенный класс статистик представляет собой пересечение классов статистик I и II типов. То же самое справедливо в случае, когда g есть векторнозначная функция с компонентами #, имеющими ограниченную вариацию. Рассмотрим теперь разбиение вещественной оси (пространства X) на непересекающиеся интервалы Δι,...,ΔΓ и положим щ = ηΡ*(Δζ), pi = = Ρο(Δζ·) (Ро есть распределение, соответствующее Fq, так что X €= Ро)· Статистикой «хи-квадрат» ξ2 = χ2{Χ) называют статистику t=l ПРг Очевидно, что это есть статистика II типа, так как она с точностью до множителя η соответствует функционалу Чтобы представить χ2{Χ) как статистику I типа, рассмотрим функционал вида (2) -(/ G(F) = h[ gd(F-Fo) с функцией h(u) = У^^ и векторной функцией g с координатами J —— при χ Ε Aj9 [О при χ φ Aj. Так как функция h дифференцируема, dh(0)/duj = О, д2!г(0)/дщ duj = 2δψ (5ij — символ Кронекера), то, положив Sn{X) = G(F£), мы получим „4№ _„£ [(a _W)_L]'_,»(*,. При X ^ Pq ъ силу второй части теоремы 1А x2{x)^J2il (з) 3 = 1 где ξ = (ξι,.. .,£г) есть нормально распределенный вектор (предельный для *Ί ~ "Pi ντ--ηρΛ\ 2 — , - -.,—# ] ι с нулевым средним и с матрицей σΔ = σ^· y/ηρι y/npr J J вторых моментов, <*ij = Щ£з = E(5i(xi) - y/Pi)(9j(xi) ~ V^J)
50 Гл. 1. Выборка. Эмпирическое распределение (из определения gj следует, что E#j(xi) = у/р])> Так как gi{x)gj{x) = 0 при г φ J и P(^?(xi) = l/Pj) = ρ,, PfaJ(xi) = 0) = 1 - Pj, то Выясним теперь, что из себя представляет распределение правой части в (3) (т.е. предельное распределение χ2{Χ)). Рассмотрим ортогональное преобразование в W с матрицей С и рассмотрим вектор η = ξϋ. Вектор η так же, как и ξ, будет нормально распределен. Действительно, нормальность величины ξ означает, что ее характеристическая функция (х. ф.) равна (см. [17, § 7.6]) Ее^Т=е-^2'т, где σ2 = ||σ^|| есть матрица вторых моментов. Но х.ф. для η ΕβίίηΤ = EeiicT^T = е-№т°2с*т имеет тот же вид и, следовательно, η есть нормальный вектор, но с матрицей вторых моментов d2 = С a2C — ||dyl|j так чт0 di3 = E^r/j = 22,cuaikCkj = 2^сц(81к - y/ptPkVkj = ΣСнС1з ~ (ΣciiVPi) (ΣСк'зV^fc) · (4) Выберем теперь матрицу С так, чтобы ее первый столбец имел координаты Qi = y/pi (это соответствует фиксированию первого вектора преобразован- г ной системы координат и возможно, так как Υ^ c?i = Σ^ = 1)· Тогда, оче- видно, второе слагаемое в (4) в силу ортогональности С равно единице лишь при г — j = 1 и нулю в противном случае. Это означает, что с/ц = Е771 = 0, dij — Er/i^j = Sij при г ^ 2, и, следовательно, 771 = 0 с вероятностью 1, а величины щ,.. .,т}т независимы и нормально распределены с параметрами (0,1). На основании ортогональности С получаем j=i i=i j=2 i=2 Распределение правой части в этом равенстве называется распределением χ2 («хи-квадрат») с г — 1 степенями свободы (см. [17, §7.7], а также § 12). Мы будем встречать это распределение в последующем изложении неоднократно. Еще одно доказательство (5) будет получено в следующем параграфе. Кроме того, (5) будет доказано в § 56 с помощью более общих соображений. Некоторые другие примеры использования теорем 1, 1А будут содержаться в последующих главах.
§ 8. Предельное распределение для статистик второго типа 51 § 8.* Предельное распределение для статистик второго типа В этом параграфе будем изучать предельное распределение G(F*) в случае X — R, где G{F) есть функционал второго типа, осуществляющий измеримое отображение (Ζ)(-οο,οο),σ£)) в (К, 55) (или измеримое отображение (V(—οο,οο),σν) в (К, 05), где V(—οο,οο) — пространство функций ограниченной вариации на (—οο,οο), σγ — σ-алгебра, порожденная цилиндрическими множествами). Применительно к рассматриваемым задачам в дальнейшем под С(—оо, оо) (D(—οο,οο)) можно понимать пространство функций / на (—οο,οο), полученных из элементов / Ε С(0,1) (/ Ε 12(0,1)) путем непрерывной замены «времени»: f(t) = f(F(t)), где F — непрерывная функция распределения. Отметим прежде всего, что для статистик II типа справедлива Теорема 1. Если Хп = [Х^]п <^ F0, mo G(F*) —► G(F0). Это утверждение немедленно следует из теоремы 2.2А. Для того чтобы можно было найти предельное распределение для функционала второго типа G(i^), необходимо, как и в предыдущем параграфе, наложить на функционалы G(F) некоторые условия гладкости. Положим для краткости \\х\\ — sup |#(£)|. —оо<£<оо Определение 1. Функционал G{F) называется непрерывно дифференцируемым порядка к в точке Fo, если существует функционал G'(-Fo,^), который для любой функции ν Ε С(—οο,οο) и любой последовательности Vh € D(—оо, оо) такой, что Цг^ — г>|| -> 0 при h -> 0, удовлетворяет соотношениям G{F° + hV^-GiFo)->G'(F0,v), G'{F^vh)->G\Fo,v). (1) Последнее соотношение означает, очевидно, непрерывность в равномерной метрике в точках из С(—οο,οο) функционала G'(Fq,v), который можно называть производной порядка к от G по направлению v. Замечание 1. Введенное понятие производной шире понятий производных по Гато и Фреше, так как здесь не предполагается линейность функционала С по г) и равенство к = 1. Названные производные применительно к задачам робастности (см. § 58) называются также функционалами влияния (подробнее см., например, [124-126] и §58). Значение G'(Fo,v) совпадает, очевидно, с обычной производной функции G(Fq + hv) по h в точке h = 0. Рассмотрим несколько примеров. В дальнейшем будем обозначать через F~l функцию, обратную F* (см. §6): F"1(0)=x(i), F-l{u) = sup {v :Fn»< и} при и > 0.
52 Гл. 1. Выборка. Эмпирическое распределение Пример 1. Пусть G(F) есть квантиль порядка ρ функции распределения F, т.е. G{F) = F~l(p). Это значит, что G(F*) = F~l(p) = ζ* есть выборочная квантиль порядка р. Покажем, что в этом примере G(F) дифференцируем первого порядка в точке i*o, если Fo(t) дифференцируема в точке CP = JF0-1(p)1F%)>0. Действительно, по определению G(F0 + hvh) = max{t: F0{t) + hvh(t) < ρ}. Так как этот функционал является непрерывным в равномерной метрике в точке Fo, то мы можем положить G(Fq + hvh) = ζρ + £, где 6 = 6(h) -> 0 при h —► 0. Далее, из соотношения \\vh - v\\ -+ 0, υ Ε С(—оо, оо), следует |«л(р + *)-ил(р)| ξγ(Λ) ->0 при /ι —> 0. Так как FoiCP + S)=p + SF^p) + o{S), то для £ = G(Fo + hvh) = ζρ + # получаем *b(i) + /юл(<) = Ρ + Мо(Ср) + о(*) + ΛνΛ(ζρ + «) = = Ρ + ^о(Ср) + ο{δ) + Η{υΗ{ζρ) + rr{h)) < ρ, где |г| ^ 1. Аналогичное обратное неравенство можно написать, пользуясь тем, что Fo(t + 0) + hvh{t 4-0) ^ р. Отсюда следует, что ό + о(6) = -τ-— , |п| < 1, так что G(Fo + ^)-G(Jb) = £ ν(ζΡ) h h F^PY Таким образом, производная G'(Fq,v) в этом примере равна Пример 2. Рассмотрим функционал G[F) = sjip\F(t)-F0(t)\. t Очевидно, что он дифференцируем первого порядка по любому направлению ν Ε С(—οο,οο), так как G(Fq) = 0, , G(F0 + hv) G{F0,v) = ^—r = sup v(t) , Л t при этом G^Fqjv) от Fq не зависит.
§ 8. Предельное распределение для статистик второго типн 53 оо Пример 3. Функционал G{F) = / \F{t) - F0(t)\k dR(t) для любой функции ограниченной вариации R(t) является непрерывно дифференцируемым порядка к по любому направлению ν Ε С(—οο,οο), так как оо 0'(Ρ0,ν) = 0{Ρο+Ηυ) = f\v(t)\4R(t). -оо Пример 4. Рассмотрим функционал G{F) ~ ^ A~F0 ' где AjF суть приращения функции F на интервалах Δ^· = [ij,<j-+-i)> образующих разбиение вещественной прямой. Очевидно, что nG(F*) есть не что иное, как статистика χ2, рассмотренная в примере 7.3 в качестве статистики I типа. Рассматриваемый функционал будет непрерывно дифференцируемым второго порядка, так как для него G'(F0,v) = G(F0 + hv) ,Α (Δ^)2 h? Обобщением функционалов в примерах 2-4 являются функционалы вида G(F) = Gi(F — Fo), где функционал Gi является однородным в том смысле, что Gi(hv) = hkGi(v). Очевидно, все такие функционалы будут дифференцируемыми. Пример 5. Статистики I типа, введенные в § 3, соответствуют функционалам G{F) =h( J g{x)dF{x)) . Эти функционалы будут одновременно функционалами II типа, если функция h непрерывна в точке / g(x) dFo(x), a д имеет ограниченную вариацию. В этом случае, считая, не ограничивая общности, д{—оо) = 0, получим, что интеграл / g(x)dF(x) = / (1 — F(x))dg(x) непрерывен относительно F в равномерной метрике. Если вариация д не ограничена, то такая непрерывность, вообще говоря, будет отсутствовать. Если, например, h(x) = χ, д{х) =х, FM = (l--jF04--Fi, где a = xdF0{x) < оо, ί xdFx{x) = = оо, то ||F(n) - Foil -+ 05 G(F0) = a, G{F^) = оо при всех п. Если функция h дифференцируема в точке a = / g(x)dFo(x), g имеет ограниченную вариацию, то функционал G дифференцируем первого по-
54 Гл.1. Выборка. Эмпирическое распределение рядка в точке Fo, при этом (\\νε — υ\\ -> 0 при ε -> 0) G;(Fo,t;) = lime""1 (h (α- ε / ^(ж)^(х) J -Λ(α)) = = -Λ#(α)^Φ)*(^) Пример 6. L-статистики были введены в §3. Мы будем рассматривать L-статистики, соответствующие функционалу 1 G(F) = JV(t)g(F-1(t))dt, (3) о где F"1 — функция, обратная к F\ ψ и g — заданные функции. Пусть ι f<p(FQ(t))gf(t)dt <оо, (4) о функции Fq и g непрерывно дифференцируемы. Опуская ввиду громоздкости обоснование предельного перехода под знаком интеграла, в силу примера 1 будем иметь (F^(t) = f(t)) ОД + hvh) = J <p(t)g hoHt) ~ уШШ + °(Л)) dt = 1 1 / _! ч = J' v(t)<p(F0-\t)) dt -hJ^y(F-\t))V-^^+ o(h); 0 1 lim /^[ОД + hvh) - G(F0)} = - Кш^Ч*))^}^· Это значит, что функционал G, определенный в (3), дифференцируем первого порядка, 1 _, оо G'(F0,v) = - J φ(ι)9'{F0-\t))V-^^ = - J V(Fo(t))^(t)t;(t)dt. О —оо (5) Сформулируем теперь основную теорему о предельном распределении функционалов второго типа. Через fg мы будем обозначать функцию fg{x) —
§ 8. Предельное распределение для статистик второго типа 55 Теорема 2. Пусть Fq непрерывна, X ^ Fq u функционал G(F) дифференцируем (порядка к в смысле определения 1). Тогда nk'2{G{F*n) - G(F0)) => G'(Fo,w°F0), (6) где w° есть броуновский мост. Доказательство. Воспользуемся теоремой 6.3. В ней доказана сходимость распределений функционалов от процесса wn(t) = y/n(F*(t) — F(t)), где X ^ Fq = U, U есть равномерное на [0,1] распределение. В соответствии с этим функционалы в теореме 6.3 определены на пространстве (ί}(0,1),σ£>), а не на (D(—οο,οο)σ#), как в общем случае. Поэтому предварительно мы должны произвести редукцию рассматриваемой задачи к условиям теоремы 6.3. Для этого воспользуемся соотношением F£ = U^Fq (см. (6.4)), где U£ — эмпирическая функция равномерного на [0,1] распределения, Fq — распределение, соответствующее выборке X. Это соотношение позволяет сводить изучение распределения G(F£) (G определен на D(—оо, оо)) к изучению распределения Gq(U*), где функционал Go определен на элементах Η из D(0,1) равенством Gq(H) = G(HFq), так что Go(·) есть значение исходного функционала G, но от функции, у которой произведена замена «времени» t на Fo(t). При таком определении Go имеем G(F) = GiFF-'Fo) = GoCFFo"1). Так как F^Fq1 = U* соответствует согласно (6.4) выборке из равномерного на [0,1] распределения, то g{f;)=g0(u:). Покажем теперь, что если функционал G дифференцируем, то Go также дифференцируем, G'Q(U,v) = G'(Fq,vFq). Действительно, при Цг^ — υ\\ —> 0 имеем G'Q(U,v) = limh-k[GQ{U + hvh)-GQ{U)] = = lim h-k[G(F0 + hvhF0) - G(F0)} = G'(F0>vF0). Итак, нам достаточно доказать теорему 2 в предположении Fq = U. Рассмотрим величину [G{F$ - G(U)]nk/2 = G'(U,wn) + Hn(wn), где Нп{х) = [G{U+x/y/n)-G{U)]nk/2-G'{U,x). Так как в силу теоремы 6.3 и определения 1 G'{U,wn) => G'(i7,ги°), нам достаточно убедиться, что Я„Ю -^ 0. (7)
56 Гл.1. Выборка. Эмпирическое распределение Заметим, что для любого компакта К С С(0,1) и любой последовательности hn —> 0 при η —> оо sup |Яп(ж)| -> О, (8) xGD(0,l) xe(K)hn где (if)e есть ε-окрестность множества К. Допустив противное, придем к существованию последовательности xn G jD(0, 1) такой, что \\хп — х\\ -> 0, χ Ε С(0,1). limsup\Hn(xn)\ > О, что противоречит дифференцируемое™ G. п—юо Напомним теперь (см., например, [7]), что компакты в метрическом пространстве непрерывных функций С(0,1) с равномерной метрикой описываются следующим образом. Каждой функции <£>(Δ) > О, </?(Δ) -* 0 при Δ —> О, и числу N > 0 соответствует компакт К = Κ(φ, N) = {ye С(0,1) : шА(у) ^ φ(Α), |у(0)| ^ Ν}, где о>д(у) есть модуль непрерывности у: ^д(у) = sup |y(i)-y(tz)|. Обозначим через К^ множество Kh = {ye £>(0,1) : соА{у) < φ{Α) для всех Δ ^ Л; |у(0)| ^ Ν}. Множества Kh можно было бы назвать «предкомпактами» (этот термин используется в функциональном анализе в ином смысле), порожденными ком- оо пактом К. Ясно, что К^ С К^2 при h\ < /12, Π К ι/η = К и что К^ С 71=1 с {K)^hl Покажем теперь, что для заданного δ > 0 существуют компакт К (и, стало быть, соответствующее ему семейство предкомпактов К^) и последовательность hn —¥ 0 при η —> оо такие, что limsupP(wn £#,>„) О- (9) 71—VOO Действительно, по теореме 6.3 для любого функционала /, непрерывного в равномерной метрике, выполняется f{wn) =>· /(w°), где wn(t) = = y/n(F*(t) — ί), 0 < t < 1. Так как о>д(у) является таким функционалом, то а>д (ги71) =>> о>д(м°). Но о>д(м°) —^ 0 при Δ -» 0, так как траектории п.н. ги° почти наверное непрерывны. Следовательно, для заданных ε и δ при достаточно малом Δ Ρ{ωΑ{υι°)>ε)^δ. Считая, не ограничивая общности, число ε точкой непрерывности распределения и;д(^°), мы получим HmsupP^ACu/1) > ε) ^ δ. η—>·οο
§ 8. Предельное распределение для статистик второго типа 57 Пусть теперь ε^ I 0 — некоторая последовательность, а числа Δ& | О таковы, что г limsupP(o;Afc(ujn) > ek) < -j-^. η—>·οο -ώ ^ Образуем функцию <£>(Δ) = ε& при Δ G [Δ^+ι, Δ^). Ясно, что <^(Δ) -> 0 при Δ —> 0, и мы можем рассмотреть предкомпакты К^ построенные по функции ψ. Тогда для любого к < оо HmsupP(ti;n £ К^к) ^ HmsupУ^(^ (wn) > Sj) < η—юо п->оо . - fc+1 , ^ VlimsupP^^71) > е,-) ^ - 1 п—»оо ^ .7=1 (при к — оо это неравенство может быть неверным). Полученное соотношение означает, что при каждом δ существует последовательность hn —> 0 при η —¥ оо такая, что выполнено (9). На основании (8), (9) получаем P(\Hn(wn)\ >е)^ Р(|ЯПК)| >*,«;»€ #Лп) + P(wn i Khn), HmsupP(|tfn(wn)| > ε) ζ δ. η-»οο Так как £ произвольно, το соотношение (7), а вместе с ним и утверждение теоремы доказаны. < Вернемся к рассмотрению примеров. В примере 1 для выборочной квантили ζ* = F~l(p) порядка ρ имеем согласно (2) и теоремы 2. Следствие 1. Если Xn €= Fo, Fq непрерывно дифференцируема в точке Ср, ^о(Ср) > О? wo Для доказательства надо заметить лишь, что условия следствия 1 означают непрерывную дифференцируемость F^~ в точке р: {F°~1{p))' щроЧр)) тРг Так как Ew°(p) = О, Ow°{p) = E(w{p) - pw(l))2 = Е(ги(р)(1 - ρ) + + p(w(l) — w(p)))2 = p(l -p)2 +p2{l —p) =p(l ~ p)» то утверждение след-
58 Гл.1. Выборка. Эмпирическое распределение ствия 1 можно записать также в виде (c;-Cp)^e>*o^ *2 = й^· < О распределении выборочных квантилей см. также п. 12.9. В примере 2 функционал G(F) — sup \F(t) - Fo(i)| дифференцируем и, стало быть, по теореме 2 G(F*)^^sjip\w°{FQ(t)\ = sup |u;0(i)|. Это соответствует тому, что для произвольной непрерывной функции распределения Fq распределение статистики D(X)=snp\F*{t)-F0(t)\ t остается тем же, что и для случая Fo(t) = t, t Ε [0,1]. Распределение η = sup |tu°(<)| найдено в явном виде [104]: оо Ρ(η < ζ) = К (ζ) Ξΐ+2 ]£(-1)*е-2*2*2. Jc=l Функция К (ζ) называется функцией Колмогорова. Мы получили, таким образом, Следствие 2 (теорема Колмогорова). Если X €= Fo, Fo непрерывна, то y/^D{X) & К. Это означает, что максимальное уклонение -D(A") функции F*(t) от Fo(£) имеет порядок \j\fn и может быть приближенно представлено в виде D(X) « В примере 3 в силу теоремы 2 получаем nk'2 j\F*{t) - F0(t)\k dR{t) => f\w°(F0(t))\kdR(t). В частности, при к = 2 и R(t) = Fo(t) мы получим статистику, обозначаемую о;2, распределение которой инвариантно относительно Fo и для которой справедливо Следствие 3. Если X ^ Fo, Fq непрерывна, то ι ,2 о f[w°{t)]2dt. 1 12 /[»°(*)] Распределение / [ги (t)] dt также найдено в явном виде и наряду с рас- о пределением К [ζ) табулировано.
§ 8. Предельное распределение для статистик второго типа 59 Применительно к примеру 4 теорема 2 дает X^l· W Если обозначить через SjF приращение F на интервалах Sj = [tj, τ^+ι), ту = = Fo(tj) и обозначить той же буквой 5j длину интервала <5у, то мы получим Следствие 4. ЕЪш А" ^ Fq, Fq непрерывна, mo г 'Γ „0Л2 Σ .2 . \^ W (ίΧ)2 ■ 1 *J Если положить ξ = (ξι,...,ξΓ)ϊ fj — $jw°/y/fij) T05 пользуясь тем, что (^•гу° = SjW — w(l)Sj, где w — стандартный винеровский процесс, получим г Здесь матрица σ2 = \\σ^\\ та же, что и в примере 7.3, так как 5jW° = SjW - ί Χ) **™ ) *7 = Σ akjhw> ^ k ' k=l akj = ifej - *j, E(^tu)(J^) = £fc/4 (£jw — символ Кронекера), Ε(<^)(<^°) 1 ^ σΐ3 = /ΊΓΊΤ = /ΤΤ~ / > akiakjOk = '#t<5j (£y Ji — ί,-ij) = % - y/S{Sj. Повторяя рассуждения примера 7.3, получим, что 2_] £у имеет распределение χ2 с г — 1 степенями свободы. Для примера 5 справедливо Следствие 5. Если X^Fq, Fq непрерывна, функция g имеет ограниченную вариацию, h непрерывно дифференцируема в точке а — = / g{x)dFo{x), то yfc{G(FZ-h{a)) => -ti(a)Jw0(FQ(x))dg(x). (10)
60 Гл.1. Выборка, Эмпирическое распределение Правая часть здесь имеет нормальное распределение с параметрами (o,(h'(a))2J(g(x)-a)2dF0(x)y (11) Чтобы вычислить распределение правой части в (10), можно воспользоваться простейшими свойствами стохастических интегралов, в силу которых (интегрирование по частям) - J w°(F0(x))dg(x) = J g(x)dw°(F0(x)) = = Jg(x)dw(F0(x))-w(l)J(g(x)dF0(x)) = J'(g(x) - a)dw(F0(x)). Этот интеграл имеет нормальное распределение с параметрами (o,J(g(x)-a)2dF0(x)y Если названные свойства стохастического интеграла (правило интегри- 1 Ib{t)dw{t) рования по частям и нормальность / b{t) dw[t) читателю не известны, о можно воспользоваться аналогичными свойствами сумм случайных величин, η , поскольку / b(t) dw(t) для непрерывных &(-) можно рассматривать как η предел /~^£а:,п&(&/п)> гДе £fe,n = w{k/n) — w((k — Ι)/η) суть независимые, A;=l одинаково (нормально) распределенные случайные величины с параметрами (0,1/п). Аналогичную трактовку следует использовать для исходного интеграла вида fw\t)dg(t) W£)=5>.»· -Ί;)-^)-^1» Тогда, меняя порядок суммирования (аналог интегрирования по частям), мы придем к асимптотическому равенству допредельных сумм, а следовательно, и к равенству пределов. Замечание 2. Второе утверждение следствия 5 (см. (11)), как показывает теорема 7.1, справедливо и при более общих предположениях, когда вместо ограниченности вариации функции g требуется лишь существование g2(x)dF0(x). I Для L-статистик G(F*) в примере 6 (функционал G определен в (3)) в силу теоремы 2 справедливо
§ 8. Предельное распределение для статистик второго типа 61 Следствие 6. Если X €= i<o, g и Fo непрерывно дифференцируемы и выполнено (4), то ι v^(G(Fn*) - ОД)) =► Ja(t)w°(t)dt, (12) о a(t)=<p(t)g'{F0-l(t))/f{F0-1(t)). Правая часть в (12) нормальна с параметрами О, о 1 ,j A*(t)dt-A2Y (13) zdeA{t) = I a{t)dt, A= I A(t)dt. t о Чтобы убедиться в последнем утверждении, надо, как и в предыдущем следствии, воспользоваться интегрированием по частям: 1 1 J a(t)w{t) dt = ( A(t)dw{t), о о 11 11 ί a{t)w°(t)dt = ( A(t)dw(t)-w{l) fta{t)dt = /{A(t) - A)dw(t), 0 0 0 где правая часть нормальна с параметрами ), Г {A{t) - A)2 dt) = (θ, ΓA2{t)dt-A2 Замечание 3. Можно показать (см., например, [102]), что второе утверждение следствия 6 (о нормальном предельном распределении y/n(G(F*) — G(Fq)) с параметрами (13)), как и в следствии 5 (см. замечание 2), остается справедливым и при более широких условиях, когда ι требуется лишь / A (t) dt < со JA\t), о Существует много других примеров, показывающих, что теорема 2 остается справедливой и при условиях более широких, чем те, что сфор-
62 Гл.1. Выборка. Эмпирическое распределение мулированы в теореме 2. Если воспользоваться представлением F£{t) — = Fo(t) -i—y=wn(Fo{t)) (см. (6.6)), где поведение wn описано в теореме 6.3, то можно записать Vii{G{F*) - G(F0)) =^(g (f0 + -^™nF0) - G(F0)\ « G'(F0,wnF0), (14) где производная G'(F0,v) = lim h-^GiFo + hv) - G{F0)) может быть определена на элементах ν из какого-нибудь другого пространства (не обязательно С( —οο,οο)), а функционал G'(F$,v) не обязан быть непрерывным относительно ν в непрерывной метрике. Тем не менее в этих условиях мы по-прежнему можем иметь требуемую сходимость Gf(Fo,wnFo) =*► G'(Fo,w°Fo) (как это имело место в примерах 5, 6), если, конечно, правая часть этого соотношения имеет смысл (см. также результаты § 14 о распределении М-оценок). По своему существу теоремы 1 и 2 близки соответственно теоремам непрерывности 5.1 и 5.3, но они действуют в функциональных пространствах. В заключение этого параграфа отметим, что далеко не все статистики, представляющие интерес, могут быть отнесены к статистикам I и II типа. Достаточно рассмотреть, например, [/-статистики (скажем, U(X) = η = 2_\ h{xi,Xj); см. §3) или статистики 5, связанные с функционалами Gn(F), где функционалы Gn «существенно» зависят от η (не только через выборку), такие, как, скажем, максимальный член вариационного ряда S{X) =x(n) = СГ_1/Пидр. § 9.* Замечания о непараметрических статистиках Есть одно свойство, в отношении которого статистика ζ* в примере 8.1 существенно отличается от статистик в примерах 8.2-8.4. Это свойство состоит в том, что предельное распределение статистик в примерах 8.2-8.4 (см. следствия 8.2-8.4) никак с функцией распределения Fo не связано. Этого нельзя сказать о статистике ζ* и о статистиках в примерах 8.5, 8.6 (ср. со следствиями 8.1, 8.4, 8.5). Определение 1. Статистика S(X) называется асимптотически непараметрической, если S(X) ©► Q, когда η -> оо, и Q не зависит от распределения X, т.е. не зависит от Fq, если X ^ Fq. Отметим, что сама функция S при этом может зависеть от Fq. Сам термин «непараметрическая» является не совсем удачным; однако он весьма распространен (он оправдан в случае, когда Fq принадлежит некоторому параметрическому семейству — тогда распределение Q не зависит от параметра и в этом смысле является непараметрическим). Иногда используется другой термин — «свободный от распределения».
§10. Сглаженные эмпирические распределения 63 Мы видели в §6-8, что статистики y/nD(X), ηω2(Χ), χ2{Χ) являются асимптотически непараметрическими. Заметим теперь, что теорема 6.1 делает возможным введение и более узкого понятия. В теореме 6.1 установлено, что nF^(t) распределено так же, как 77(^0(^)5 где v{u) — условный пуассоновский процесс с произвольным параметром λ > 0 при условии 77(1) = η (см. § 6), т. е. процесс, от Fq не зависящий. Таким образом, если статистика S построена как функционал G(F£) (или G(F£ — Fq)), который инвариантен относительно замены «времени» t у аргумента, то распределение S от Fq зависеть не будет. Например, D = snp\FZ{t)-Fo{t)\ = -suvfo{FQ(t))-nFo(t)\ = - sup \η(η)-ηη\. t d Π t пиф,1] (1) Сказанное делает уместным Определение 2. Статистика S(X) называется непараметрической, если ее распределение не зависит от Fq (X ^ Fq). Соотношения (1) означают, что статистика D является непараметрической. Мы отмечали также (см. следствие 8.3), что статистика ω2 наряду с D не зависит от Fq и, стало быть, тоже является непараметрической. Статистика χ2, являясь асимптотически непараметрической, не будет обладать свойством непараметричности. В этом легко убедиться непосредственно на примере, положив г = 2, η = 1. Другие примеры непараметрических статистик мы получим, если рассмотрим значения F*((p), где ζρ — квантиль порядка р, так что nF*((p) = d = η(ρ) (см. §6). Число rj элементов выборки X, меньших, чем х^, — так d называемая ранговая статистика — также будет непараметрической статистикой. Понятия непараметрической и асимптотически непараметрической статистик весьма полезны в теории проверки статистических гипотез (см. главу 3), так как распределение этих статистик, знать которое необходимо при построении критериев, достаточно вычислить лишь один раз (например, для равномерного распределения Fq) и оно будет годиться для любых других распределений выборки. § 10.* Сглаженные эмпирические распределения. Эмпирические плотности В § 2 мы каждой выборке X поставили в соответствие распределение P*j, которое назвали эмпирическим и которое представляет собой сумму η атомарных распределений, сосредоточенных в точках χχ,.. .,хп. Это распределение обладает рядом замечательных свойств, описанных в предыдущих параграфах. Однако использованное нами определение Р* далеко не единственно возможное, а в ряде случаев и не самое естественное. Существуют и другие подходы к определению Р£, при которых изученные выше полезные свойства эмпирических распределений не только полностью сохраняются, но и дополняются рядом новых.
64 Гл. 1. Выборка. Эмпирическое распределение Мы ограничимся здесь обсуждением вопроса о природе распределений, которые мы помещаем в точки х^. В использованном нами определении Р* это были вырожденные распределения IXi(i?), так что ρη(β) = ^Σ^(β)· w В этом случае эмпирическое распределение оказывается сингулярным относительно меры Лебега и, стало быть, не имеет плотности. Это может оказаться неудобным в тех случаях, когда нам заранее известно, что исходное распределение Ρ имеет плотность. При этом условии было бы желательно иметь такое гладкое эмпирическое распределение Р*, для которого вместе со сходимостью Р£ -4 Ρ во всех установленных выше смыслах имела бы место также сходимость плотностей /* —> /, где /* и / есть плотности, соответствующие Р* и Р. Этого нетрудно добиться следующим образом. Пусть Q — какое-нибудь распределение, имеющее плотность. Положим •WJ-sEQ^)· (2) В -χ где —;— есть множество точек у € •£, для которых χ 4- yh € В] hn —» О h при η —> оо. Очевидно, что Р**(В) есть не что иное, как «средняя сумма» распределений Q, сжатых до размеров hn и «посаженных» в точки х^. Определение (2) обобщает (1). Формула (1) получается из (2), если положить Q = Ιο, так как IXi(B) = Iq(B — xt·) = Ιο Ι —г—- ] при любой последовательности {hn}. Отметим следующие свойства распределения Р**, которое будем называть сглаженным эмпирическим распределением. 1. Распределение Р** есть свертка распределений Р£ и Q(B/hn), a РП(В) = ЕКЧВ) = J Q {^) РШ есть свертка распределений Ρ и Q(B/hn). Другими словами, Рп(В) есть распределение случайной величины ξ + /ιη77, где ξ ^ Ρ, η €= Q. Из теорем непрерывности следует, что при hn —> О Рп => Р. (3) Напомним, что для распределения Р£ мы имели точное равенство ер; = р.
§ 10. Сглаженные эмпирические распределения 65 2. Распределение Р** будет удовлетворять теоремам типа теоремы Гли- венко-Кантелли. Действительно, в этом случае сходимость (3) будет означать равномерную сходимость распределений по всем интервалам. Ограничиваясь для простоты одномерным случаем, будем иметь (F**(x), Fn(x) и Q(x) обозначают функции распределения, соответствующие Р**, Рп и Q) F? - F(x) = |Q (^) dF*n{y) - F(x) = = -JF*n{y)dyQ{^>j-F{x) = = Fn(x) - F(x) - f{F*{y) - F(y)) dyQ (^) . Здесь, как уже отмечалось, разность Fn(x) — F(x) -* 0 равномерно по я, а интеграл, присутствующий в правой части, не превосходит syxV\F*n{y)-F{y)\—Ю. у П.Н. 3. Преимущество Р** перед Р£, ради которого это распределение и вводилось, состоит в том, что это распределение имеет плотность я»-±р{Ч?)-Ы'{Ч?)'х (У) (4) (q(x) есть плотность распределения Q), которая при каждом χ при η —> оо, hn -> 0 сближается с плотностью f(x) распределения Р. Прежде чем доказывать соответствующее утверждение, заметим, что для получения хороших результатов о сближении f^\x) с f(x) следует пользоваться гладкими ограниченными плотностями q. При выборе, скажем, неограниченных q оценка f^{x) гладкой плотности f(x) будет нарочито портиться. Так как выбор q находится в наших руках, то мы можем считать, что по крайней мере выполнено условие d2= ί q2{t)dt <ос. (5) Теорема 1. Если q удовлетворяет условию (5), f(x) непрерывна и ограничена, hn -> 0 при η —> оо так, что nhn —> оо, то км = /„(*) + ^Ы=, (6) y/nhn где /п(ж) есть неслучайная функция fn(X)=Bf*(x)=m-1q(^^- = ^Jq(^1^)f(t)dt = Jq(z)f(x-zhn)dz^f(x) (7)
66 Гл.1. Выборка. Эмпирическое распределение при hn —> 0. Случайные величины ζη(χ) асимптотически нормальны, ζη{χ) & Φ0,σ2(*), <72(ζ) = f{x)d2. Доказательство. Сумма в (4) есть сумма независимых одинаково распределенных случайных величин в схеме серий, при этом /η(#) = Έ/*(χ) представлено в (7). Положим hnfn{x)\ s/c,n — y/nhn hn Тогда 1 n Vnhn^ hn \ hn J hn J \ hn J = fq2{z)f{x-zhn)dz->f{x)fq2{z)dz = f{x)d2. (8) Таким образом, Εξ^η ~ f(x)d2/n, если f(x) > 0. Условие Линдеберга в нашем случае имеет форму ηΕ(£?,η;|£ι,η|>ε)-»0 при η —>· оо и любом ε > 0. Так как hnfl{x) -> О, <«<2(^(^)+*"/«<*))' то для выполнения (9) достаточно, чтобы '№№> .(^)>.^)-а Это соотношение имеет место, так как левая часть его равна (ср. с (8)) / q2{z)f{x- zhn)dz ^c / q2(z) dz -> 0. (9) ς(^)>εν/η/ιη q(z)>ey/nhn Таким образом, к случайной величине ζη(χ) = /_~]£а;,п применима цен- k=l тральная предельная теорема. Это доказывает теорему 1. <
§10. Сглаженные эмпирические распределения 67 В рассматриваемой задаче естественно возникает вопрос об оптимальном выборе hn и функции q(t). Однако ответ на него зависит от свойств гладкости f(x). В самом деле, пусть, например, f(x) положительна лишь на конечном интервале и дважды непрерывно дифференцируема с фиксированным значением φ = / (f"{x))2 dx. Предположим также, что / zq(z) dz = 0 (это всегда так для симметричных q(z)) и что D2 = / z2q(z) dz < оо. Тогда fn(x) = / q{z)f(x - zhn) dz = = Jq(z) [/(χ) - zhnf'(x) + ^f"(x) + o{z2h2n)] dz = = f{x)^l^^jz2q{z)dz + o{hl). Мы видим, что Я(.)-/(.)-^И + ^ + .(«). E[№)-/(x)]2=(^^)2 + ^ + oW). Минимизация этого выражения по hn и q даст, в силу асимптотической нормальности ζη(χ)·> наименьший возможный «разброс» f^[x) около значения fix). Однако минимизирующие значения hnnq при этом будут зависеть от χ через неизвестные значения f(x) и f"(x). Чтобы избавиться от этого эффекта и получить оптимальность «в среднем», естественно рассмотреть интеграл "E[/*(x)-/(x)]2dx, (И) /' главная часть которого будет равна (Ζ)2/ι2/2)2<£> + d2/nhn (это получится, если в (10) убрать ο(Λ„))· Минимум этого выражения достигается при hn — (d2/nD4<p)1/5. При таком выборе hn интеграл (11) будет равен !»>,/5(1И2)4/5„-4/5 + (>(„-4/5)> дм - т - (gf (Ш + /(х)^?„) + «.-«·). (12) ξη & Φθ,1·
68 ГлЛ. Выборка. Эмпирическое распределение Таким образом, скорость сходимости здесь составляет лишь η 2'5 в отличие от скорости η""1'2, которая имеет место для сходимости функций распределения. Это естественный факт, так как в оценке значения f(x) принимает участие, грубо говоря, не вся выборка, а лишь те наблюдения, которые сосредоточились в некоторой убывающей окрестности точки х. Выражение (12) позволяет оптимальным образом выбрать и функцию q{z), т.е. функцию, для которой минимизируется Dd2. Считая, не ограничивая общности, что D = 1, получим задачу минимизации d2 = / q2(z)dz при условиях / q(z) dz = / z2q(z) dz = 1, / zq{z) dz = 0. Отметим, что если / имеет непрерывные производные более высокого порядка 2га > 2, то можно получать и более высокие скорости сходимости к нулю разности f^{x) — }{x)· При этом, однако, надо использовать обобщенные распределения Q, «плотность» которых q может принимать значения обоих знаков и позволяет удовлетворять условиям / z2mq(z)dz = 1, / z3q(ζ) dz = 0 при всех 1 ^ j < 2га — 1. В этом случае путем прежних рассуждений мы сможем получить скорость сходимости порядка η 2m/(4m+1) = = n-i/2+i/2(4m+i) ? к0т0рая будет тем лучше, чем больше т. Этот факт объясняется тем, что для более гладких f(x) к оценке значения f(x) привлекаются элементы выборки, лежащие во все более широких окрестностях точки х. С другой стороны, выбирая гладкие функции q(z), мы можем обеспечить возможность оценивать не только плотности /(ж), но и их производные. В этом также можно убедиться с помощью приведенных выше рассуждений. Функции fn(x) вида (4) называют часто оценками Розенблата-Парзена плотности f(x) или ядерными оценками /(ж). Функции q(z) называют при этом ядрами. На практике часто используют «прямоугольные» ядра, т.е. полагают «(*) = { 1 при ζ Ε 0 при ζ £ 1 1 2'2 1 1. 2'2 Иногда поступают еще проще — разбивают вещественную прямую на маленькие интервалы Δ^ (длиной hn) и полагают f^{x) = Vjjnhn при χ Ε Aj, где Vj — число элементов выборки, попавших в Δ^. Такая функция fn{x) называется гистограммой выборки. Нетрудно проверить, что если f(x) непрерывна, то гистограмма fnix) наряду с функцией, определенной в (4), также обладает свойством сходимости f^{x) —> /(#), если только hn —> 0, nhn —> оо.
Глава 2 ТЕОРИЯ ОЦЕНИВАНИЯ НЕИЗВЕСТНЫХ ПАРАМЕТРОВ Параграф 12 содержит описание наиболее распространенных параметрических семейств распределений и их основных свойств. В § 13-16 излагаются основные методы получения точечных оценок. В § 17, 18 обсуждаются подходы к сравнению оценок. Параграфы 19-30 посвящены методам построения оптимальных (в том или ином смысле) оценок. Выделены следующие 4 направления: 1) (§ 19-21, 30) Байесовский и минимаксный подходы к построению оптимальных оценок. Параграфы 19, 20 носят вспомогательный характер и содержат определения и изложение основных свойств условных математических ожиданий и условных распределений. 2) (§ 22-25) Построение оптимальных (эффективных) оценок с помощью принципов достаточности и несмещенности. 3) (§ 26, 27, 30-32) Построение оптимальных (эффективных) оценок на основе неравенства Рао-Крамера. 4) (§ 28, 29) Использование соображений инвариантности. В §31, 33-37 изучаются асимптотические свойства отношения правдоподобия. На этой основе устанавливается асимптотическая оптимальность оценок максимального правдоподобия. Результаты этих параграфов составляют также основу теории асимптотически оптимальных критериев, развитой в главе 3. Параграфы 39, 40 посвящены интервальному оцениванию. § 11. Предварительные замечания Как мы уже отмечали в предыдущей главе, исходным объектом статистических исследований является выборка Хп — (хь · · ·>χη)> χ^ Ε А', из распределения Р, которое полностью или частично неизвестно. В математической статистике традиционно выделяют в качестве основных два следующих класса задач. 1. Оценка неизвестных параметров. 2. Проверка статистических гипотез. Задачи первого класса возникают, когда по выборке X = Хп нужно оценить какую-нибудь неизвестную числовую характеристику θ распределения Ρ (оно ведь неизвестно). То есть для заданного функционала θ = 0(Р) от распределения Ρ мы должны указать функцию от выборки (или, что то же, статистику) Θ* = 0*(ХП),
70 Гл. 2. Теория оценивания неизвестных параметров предназначенную для использования вместо параметра θ в качестве его приближения. Мы видели в предыдущей главе, что предпосылки для этого существуют. Статистику Θ* называют оценкой параметра Θ. Разумеется, оценок для параметра θ может быть очень много. Теорема 3.1 показывает, что, например, для оценки функционала θ = 0(Р) вида θ = Jg(x)dF(x) естественно использовать статистику «* = ££>(*)■ Но можно, конечно, рассматривать и другие оценки, скажем L-статистики - п-и2 ^i/i + l (см. пример 8.5), где xyj, j — l,...,n, — элементы вариационного ряда и т. д. В качестве Θ* можно брать и значения, не зависящие от выборки. Можно положить, например, Θ* = 0, хотя это не всегда разумно и совсем плохо, если множество возможных значений θ не содержит 0. В связи с последним замечанием отметим, что часто в постановке задачи об оценивании содержится указание на то, каким является множество Θ возможных значений параметра Θ. Например, если оценивается доля θ какого-нибудь минерала в руде, то ясно, что θ Ε [0,1]. Во многих случаях бывает заранее известно также, что распределение Ρ выборки X не может быть произвольным, а принадлежит какому-то определенному семейству распределений V» К задачам оценки параметров относится пример 1 из введения. Задачи второго класса имеют дело с проверкой того или иного предположения (гипотезы) о неизвестном распределении Р. Например, мы можем проверять гипотезу о том, что Ρ имеет тот или иной заданный вид. К этому типу задач относится пример 2 из введения. Позже мы увидим, что качественной разницы между задачами первого класса (теории оценок) и второго класса (проверка статистических гипотез) не существует. В этой главе мы приведем постановки задач и подходы, которые тесно связаны с результатами предыдущей главы и которые можно назвать «чисто статистическими» в отличие от более общих теоретико-игровых подходов, изложенных в главе 6. В известной мере чисто статистические подходы выражают существо методов математической статистики. Исторически они были осознаны значительно раньше, чем более общие методы. Что же касается их применения, то, по-видимому, человек пользовался ими, явно или неявно, на протяжении всего пути процесса познания. Все это оправдывает отдельное изложение чисто статистических подходов несмотря на то, что некоторые моменты этого изложения в рамках более общих концепций можно рассматривать как частные случаи. Одновременно
§ 12. Некоторые параметрические семейства распределений 71 мы обнаружим некоторую недостаточность чисто статистического подхода для более точных постановок задач. Это поможет нам понять целесообразность других точек зрения. § 12. Некоторые параметрические семейства распределений и их свойства Рассмотрим некоторые семейства распределений, зависящих от параметров (или параметрические семейства распределений), которые часто возникают в приложениях и будут появляться в дальнейшем изложении как по существу его, так и в качестве иллюстраций. 1. Нормальное распределение на прямой. Символом Φα>σ2 мы будем обозначать нормальное распределение с параметрами (α,σ2), т.е. распределение с плотностью -(х-а)2/2<72 так что σ\/2π в Если ξ €= Φο,ι и к ^ 0 — целое число, то, очевидно, щ2к+1 = 0 Для моментов четного порядка, пользуясь заменой χ = \/2и, находим 00 00 ъ+2к 2 f 2k -x*/2 J 2 + Г к -и du 2к _ / 1 щ2к = _^ / х2ке χ /2 άχ = _^ ι ике и—^ = ρ А: + - х/2^ J yfa J V2u A V 2 где оо Γ(λ)= f x^e^dx (l) о есть Г-функция, Γ(λ) = (λ - 1)Γ(λ - 1), Г(1/2) = χ/тг, так что Е£2/с = (2* - 1)!! = (2к - l)(2fc - 3)... 1. Такой же результат мы получили бы, дифференцируя 2к раз характеристическую функцию е~ь /2 в точке t = 0. 2. Многомерное нормальное распределение. В многомерном случае # = = Мт символ Φα?σ2 означает нормальное распределение в Шт с вектором математических ожиданий а — (ai,...,am) и матрицей центральных вторых моментов а2 — ||σ^||, i,j = l,...,m. Если А есть матрица, обратная
72 Гл. 2. Теория оценивания неизвестных параметров к σ2 (в тех случаях, когда она существует), то плотность φα,σ2(χ) Β распределения Фа^2 будет иметь вид (см. [17, §7.6]) Ψν,σΦ) = ,2^)m/2 ехр ί --(χ ~ a)Aix ~ α)Τ) > где χΎ есть транспонированный вектор. Напомним также (мы этим фактом уже пользовались в §7), что х.ф. величины ξ €= &α,σ2 равна где t = (*ι,..., tm) есть вектор в Rm. 3. Гамма-распределение. Символ Га>д будет означать так называемое гамма-распределение (или Г-распределение) с параметрами (а, А). Плотность 7α,λ(χ) эт01,0 распределения зависит от двух параметров а>0иА>0и равна (см. [17, §7.7]) ( ^λ 7α,λ(χ) = < α -а*-^-**, я>0, Γ(λΓ , ~^, (2) 10, ζ<0, где Γ(λ) есть Г-функция, определенная в (1). Характеристическая функция Г-распределения имеет вид [17] Jeitx7aiX(x)dx=^^ . (3) о Если ξ ^ rQjA, то оо _ оо О О Такой же результат при целых t > 0 можно было бы получить, дифференцируя характеристическую функцию. Полагая t = 1,2, находим Εξ = -, ϋξ = Α (5) Из формул (3), (4) видно, что параметр α играет роль масштаба, так что - ^ Γα>λ, если η ξ= Γι)λ. α В силу этого обстоятельства многие свойства Г-распределения достаточно изучать при каком-нибудь одном значении а, например при α = 1 или a = 1/2. Второе значение часто будет для нас более удобным, так как распределение Γ!/2,λ играет важную самостоятельную роль в математической
§12. Некоторые параметрические семейства распределений 73 статистике и называется распределением «хи-квадрат» (или %2-распределе- нием). 4. Распределение «хи-квадрат» Щ с к степенями свободы. Так называется распределение Н* = Г1/2,А;/2 пРи целых к > 0. Мы сохраним это название за распределением Щ и при произвольных к > 0. Характеристическая функция распределения Щ равна в силу (3) (1-2ί*Γ*/2. Отметим следующие три свойства распределения Н*. 1) Если щ независимы, щ €= Hfct, г = 1,..., s, то S S <=1 t=l Это свойство сразу вытекает из вида характеристической функции распределения Η&. 2) Если ξ €= Φα>σ2, где Φα>σ2 есть к-мерное нормальное распределение с невырожденной матрицей вторых моментов σ2, то ρ(ξ) = (ξ-α)σ-2(ξ-α)τ^Η*. Действительно, характеристическая функция случайной величины Q(£) равна Ββ*κ° = (^Р / βΧΡ (4Q(*)(1 " Ш)) dxi··-dxk- Произведя замену переменных Xj\/1 — 2it = у^, мы получим выражение (l-2i*)-*^Iy'e-i«Wc^...^fc=:(l-2it)-t> что и требовалось доказать. Независимость интеграла в левой части от изменения области интегрирования вытекает из аналитичности подынтегральной функции и ее быстрого убывания при \у\ —> оо. Из сказанного вытекает, что распределение Η*, имеет случайная величина где £j независимы, £j ^ Φο,ι· Термин «число степеней свободы» связан именно с этим представлением. 3) Так как Εξ2 = 1, Щ* = 3, Όξ% = 2 для ξι ^ Φ0,ι, то в силу центральной предельной теоремы при к —> оо v2 -jfe -ж^*°->- (6)
74 Гл. 2. Теория оценивания неизвестных параметров Отсюда и из теорем непрерывности § 5 следует, что наряду с (6) 2χ2 - VU^l @> Фод. Эта сходимость служит основой для приближенного (при больших к и х) равенства Hfc((0,:r)) « Ф(л/2я - \/2fc - 1), Ф(х) = Φο,ι((-οο,ζ)), которое, как правило, оказывается более точным, чем приближение Н^((0,ж)) « « Φ [ — J , вытекающее из (6). Отметим еще один частный случай Г-распределения, часто встречающийся в приложениях. 5. Экспоненциальное распределение. Это есть распределение Гад с плотностью ae~ax, х > 0. Из формул (5) получаем для ξ ^ Гад щ = -, Ώξ = \ α az Рассмотрим теперь некоторые распределения, связанные с нормальным и Г-распределениями и играющие важную роль в математической статистике. В отличие от предыдущих эти распределения нам прежде не встречались. 6. Распределение Фишера с числом степеней свободы &ι, &2· Так называется распределение случайной величины Μι κ= ι—> «1*72 где щ независимы, r/j Ш Η*., j = 1,2. Нам будет удобнее изучать распределение Ffcb*2 случайной величины которая, очевидно, связана с ус соотношением ус = --—. Причина введения в определении ус нормирующего множителя — состоит в том, что при к\ -> оо, «1 /с2 —> со в силу закона больших чисел будет выполняться ус —> 1. Р Из свойств Г-распределений следует, что распределение ζ останется тем же при щ €= Та,к/2 и любом о: > 0 и что ζ при целых kj допускает представление , *? + ··· + & где случайные величины £j, ζ& независимы, ^· ^ Фод, Cfc €= Φο,ι-
§ 12. Некоторые параметрические семейства распределений 75 Найдем плотность распределения Ffcb£2. Имеем Р(С < х) = Л T1M(du)T1M(dv) =11 ^'^'^e-^dudv; u/v<x ^=0 u=0 00 . , , <iP(C<i) /,(»ι)Λι-1»Λ>-1 _^„ ^ 0 00 Γ(λι)Γ(λ2) /,υλ1+λ2-1 -„(!+«) rf _ ?_! Γ(Λ1 + Λ2) /7Ν Требуемая плотность получится, очевидно, если подставить сюда Xj = kj/2. Нетрудно найти моменты случайной величины ζ (если они существуют): w Γ(λ!+λ2) Г х>*+1-1 , _ Г(Л! + рГ(А2 -1) оо /Χλ (1+ж)А1+А2^= ' Γ(λ!)Γ(λ2) '- (8) О В частности, при / = 1,2 находим λι _2 λι(λι + 1) Е< = ^, ЕС- λ2-1' (λ2-1)(λ2-2)' Распределение Фишера называют иногда также распределением Снеде- кора. Это связано с тем, что Фишер предложил использовать и табулировал, собственно, не распределение х, а распределение случайной величины -1η χ. Распределение же к было несколько позже подробно табулировано Снедекором. В дальнейшем в формулировках результатов, связанных с распределением Фишера (см., например, §61, 62), нам будет удобнее использовать распределение Ffcb£2. При этом следует иметь в виду, что при отыскании квантилей распределения FkiM c помощью таблиц распределения Фишера надо вводить поправочный множитель: если /ε, >сЕ — квантили порядка 1-е распределений Fkifa и Фишера, соответственно, то f£ = —-—. 7. Распределение Стьюдента*) Т& с к степенями свободы. По определению это есть распределение случайной величины \/м«?+-+ш' *) Стьюдент — псевдоним В. С. Госсета.
76 Гл. 2. Теория оценивания неизвестных параметров где £j независимы, £j ^ Фо,ь 3 = О,...,Л. Очевидно, что —ί имеет то же самое распределение и, стало быть, распределение Стьюдента симметрично относительно начала координат. Далее, ίΔ = 2 оо~ ' где щ независимы, 771 ^ Hi, 772 €= Щ. Это значит, что t2 /к имеет распределение Фишера. Рассмотрим случайную величину τ — >/С, С = Vi/V2j щ €= Н^. Так как Ρ (г < χ) = Ρ (ζ < я2), то плотность /(т)(я) случайной величины г будет равна /(т) W ^;(ς)1χ ) ^Γ(λι)Γ(λζ) (1 + 3.2)λ1+λ2 _Γ(ΛΧ + Λ2) 2s2*'-1 _^ ΓίλΟΓ^α+χψι+λ»' j 2' 1>υ· Отсюда при λι = 1/2, λ2 = λ/2 очевидным образом можно получить плотность \t\/vk. Так как распределение t симметрично, то для плотности f(t)(x) случайной величины t окончательно получаем , , . Г((*+1)/2) {, i2V(l+1)/2 Ясно, что все моменты t нечетного порядка (если они существуют) равны нулю. Для моментов четного порядка 2/ имеем в силу (8) m -кЕС-к Γ(λι)Γ(λ2) , где следует положить λι — 1/2, Аг = fc/2, 2/ < /с. При / = 1 получаем ЕГ /с-2" По своей форме функция f(t){x) напоминает плотность нормального закона. Более того, с ростом к f(t)(x) -х2/2 что означает сходимость t ©► Фод при к —> со. Однако fm{x) имеет более «толстые хвосты», поскольку функция (9) убывает с ростом |д;| значительно медленнее, чем е~х /2, так что при всех Ъ > О Тк((-Ь,Ь))<Ф0А((-Ь,Ь)). (10) При этом разница между правой и левой частью в (10) при небольших к может быть существенной.
§12. Некоторые параметрические семейства распределений 77 Сходимость t = у/Що/у/П2 к нормальному закону читатель может доказать и другим путем с помощью теорем непрерывности. Например, достаточно заметить, что — = —(ξ? + · · · + ξϊ) —> 1; и, стало быть, t —> £о> к к п.н. п.н. 8. Бэта-распределение (В-распределение). Так называется распределение ВдьА2 с ПЛОТНОСТЬЮ [о, χ £ [ο,ι]. Своим названием оно обязано бета-функции ι В(АЬ А2) = jx^~\l - χ)**'1 Лх = Щ^ Γ(λχ)Γ(λ2) λ2)' Бета-распределение связано с гамма-распределением и с распределением Фишера путем следующего утверждения. Если щ независимы, η^ ^ Га>д; {или щ ^ Н^д,), mo m + m ζ +1 где ζ = 771/772 ^F2Ab2A2. Доказательство этого утверждения весьма просто, так как в силу (7) Для моментов случайной величины β имеем 1 ЪР ~ r(A0r(A2) J [1 X) dX~ Γ(λΟΓ(λι + λ2 О При 1 — 1,2 находим ±R 2+0' λΐ πα2_ Αι(Λι + 1) Έβ = -—L—, Εβ λι + λ2' и (λι + λ2)(λι+λ2 + 1)'
78 Гл. 2. Теория оценивания неизвестных параметров 9. Равномерное распределение. Частным случаем В-распределения является равномерное на [0,1] распределение, которое получится, если положить λ! = λ2 = 1. Символом \Jafb мы будем обозначать равномерное распределение на отрезке [а, 6], так что Вхд = Uo,i. С помощью В-распределения можно описать распределение членов вариационного ряда X(fe) выборки X. Теорема 1. Если X €= Ρ есть выборка из распределения Ρ с непрерывной функцией распределения F, то У (к) = ^(Х(А;)) ^ Вк,п-к+1- Доказательство. Так как yk^Ffa) €=Uo,i, то y^j =F(x^) можно рассматривать как член вариационного ряда выборки У^Иод. Найдем P(y(fc) ε (u,u + du)). Событие {у(^) G (u,u + du)} можно представить как объединение непересекающихся событий Аз = {у* ^ (гх,и + Ах), у,- = y(jb)}, которые происходят, когда yj попадает в (и, и + du) (вероятность этого равна du), к—1 иг оставшихся п — 1 наблюдений попадает в область (0, и), п — & наблюдений — в область (и, 1). Следовательно, P{Aj) = C^V-^l - u)n-*du, Р(У(*) е (и, и + du)) = пС^и*-1 (1 - u)n"*du. Это и значит, что плотность у^) существует и равна ϋ! ^(l - u^-* = Г(п + 1) uk-i(1 _ )П-к На основании теоремы 1 можно без большого труда получить и предельное распределение членов вариационного ряда, когда объем выборки X неограниченно возрастает. Мы остановимся здесь лишь на одном результате, вытекающем из теорем непрерывности. Теорема 2. Если а = —> ац Ε (0,1) при η —> оо, πιο η + 1 . \Λο(1 ~αο) t t ^ - У(А;) = « + " -д ξη, ξπ ©> *0,1- Доказательство. В силу теоремы 1 у^ ^ Β^η_£+ι и? стало быть, в силу свойств В-распределения справедливо представление 77т У(к) = —Τ—» %^Hfc., ki = 2k, k2 = 2(n-k + l). κ ' d ηι + η2 J
§ 12. Некоторые параметрические семейства распределений 79 Положим для удобства αϊ = а, а2 = 1 - а и предположим, что а = ао фиксировано. Тогда, очевидно, kj/(n + 1) = 2aj, j = 1,2, ив силу свойств распределения χ2 У(*) = . / Ql t(l) , / Q2 >(2) Остается воспользоваться теоремой непрерывности 5.ЗА при Так как щ (а стало быть, и ξη ) независимы и ая *2 зя ίι ati (*i+*2)2' dt2 (*ι+ί2)2' то мы получаем (У(*) - οι)λ/π + 1 =► α2λ/αΓ^(1) - ^л/^ £(2) = χ/αΐ^ f, ξ ^ Φ0|ι· Если α зависит от η, то следует воспользоваться замечанием 5.1. < Следствие 1. Если a = k/(n+ 1) —> αο Ε (0,1) w непрерывная функция F непрерывно дифференцируема в точке ζ$ = F~l(aa) (квантиль порядка ао), тпо X(fc) = C+ /(Co)v^ ' &е>*°.ь (11) г<?е ζ = F"1(a) — квантиль порядка α, f(x) = F'(x). Это утверждение получается сразу из теоремы непрерывности 5.3 (с учетом замечания 5.1), если воспользоваться представлением dF~llx) 1 и тем фактом, что — dx HF^ix))' тверждение (11) неск обобщить и в другом \F(x)-F(C)\~c\x-C\\ 7>0. Замечание 1. Утверждение (11) несколько обобщает утверждение следствия 8.1. Его можно обобщить и в другом направлении. Пусть при χ —> ζ
80 Гл. 2. Теория оценивания неизвестных параметров Тогда нетрудно видеть, что при у -> a |1/7 \F-l(y)-F-1(a)\r. и что, стало быть, (xW-On^^iaoil-oo))1^ 3/-α ξΙ1^ sign£, ξ^Φο,ι. (12) При 7 = 13 с — /(С) отсюда следует (11). 10· Распределение Коши Καί<τ с параметрами (α, σ). Так называется распределение с плотностью σ 1 1 π[σ2 + (χ - α)2] πσ (χ-α. Κα,σχΖ') — Как и в случае нормального закона, параметры α и σ здесь являются соответственно параметрами сдвига и масштаба. Форма распределения Код очень похожа на форму Фод, однако Atyi, как и плотность распределения Стью- дента, имеет значительно более «толстые хвосты» (т.е. более медленное убывание при |д;| —> со), так что распределение Код не имеет даже конечного математического ожидания. В [17, гл.8] отмечалось, что распределения Κα>σ, как и нормальные распределения, обладают свойством устойчивости. Характеристическая функция ход(0 распределения Код равна поэтому *r0,iW = exp(-|i|), ^α,σ(ί) = exp{iat - σ|ί|}, (ί) = ехр{г(с*1 + a2)t - (σι + σ2)|ί|}, так что свертка Και>σι и KQ2)(T2 равна Και+α2>σι+σ2. Нетрудно видеть, что Код = Τι- В приложениях часто приходится иметь дело с разного рода функциями от нормально распределенных случайных величин. Одна из них — экспоненциальная функция, с которой связано так называемое логнормальное распределение. 11. Логнормальное распределение La<T2. Мы будем говорить, что η ^ ^ Ι»ασ2, если 1ητ/ €= Φα,σ2. Другими словами, η = е^, где ξ €= Φα,σ2. Отсюда видно, что распределение La<72 сосредоточено на положительной полуоси. Плотность η €= LaiT2 в силу формул для плотности функции от случайной величины (см. [17, §3.2]) равна φα%σ2{]ιιχ)χ
§ 12. Некоторые параметрические семейства распределений 81 Кроме того, находим Ет/ = / ехру—7=ехр J σγ2π (v-<*) 2σ2 (α + σ2)2_α2 dy = exp — χ (у - α-σ2)2λ , ία + σ2 ay = exp exp (2y)-^ exp1 КУ } dy - exp (2a 4- 2σζ). 12. Вырожденное распределение. Символ Ια (это обозначение нами уже использовалось в § 2) будет означать вырожденное распределение, сосредоточенное в точке а. В общем случае, когда рассматривается произвольное семейство рас- пределенищ зависящих от параметра θ (скалярного или векторного), мы будем использовать обозначение Р#. Само семейство будет обозначаться символом {Рв}вев, где Θ — множество возможных значений параметра Θ. Такие же обозначения будут применяться к семействам распределений 1-12. Например, {Φα,ι}α^κ будет означать семейство всех нормальных распределений с единичной дисперсией. Распределения 1-11 абсолютно непрерывны относительно меры Лебега. Введем теперь обозначения для трех хорошо известных дискретных распределений (абсолютно непрерывных относительно считающей меры μ{Β): μ(Β) = А;, если В содержит к целочисленных точек). 13. Распределение Бернулли В™. По определению ξ €= В£ (п целое, ρ Ε G [0,1]), если P(£ = *) = C*p*(l-p)n-*, 0O<n. 14. Распределение Пуассона Ид. Это распределение определяется равенством Пл(В)=Е^в"А' λ>°· кев, 15. Полиномиальное распределение. Мы будем обозначать его В£, где г η > 0 — целое число, р= (pi,.. ·,ρΓ)> Pj ^ 0, /^Pj = 1· Для целочисленного i=i случайного вектора ν — {у\,..., vr) мы будем писать ν €= В™, если для к = г = (fci,..., fcr), kj ^ 0, 2_] kj ==: n справедливо
82 Гл. 2. Теория оценивания неизвестных параметров Распределение В£ соответствует последовательности η независимых испытаний, в каждом из которых наступает один из г несовместных возможных исходов Αι,.. .,АГ; при этом вероятность появления исхода А3 в одном испытании равна р3. Координаты v3 вектора ν означают частоты появления событий А3 после η испытаний (см., например, [17, §3.3]). Очевидно, что при каждом j = 1,..., г Исход j-το испытания в описанном эксперименте можно описать г-коорди- натным вектором xj5 у которого г — 1 координат равны нулю и одна координата равна единице. Номер этой координаты есть номер события, которое η произошло при j-м испытании. Очевидно, что ν — /^Xj. Относительно j = l выборки X, составленной из χι,.. .,хп, нам будет удобнее писать X €= Вр, где Вр = Вр. Пространство X для такой выборки, очевидно, конечно и состоит из г точек. Если ρ = (рьрг), Pi + Р2 = 1» то мы получим схему Бернулли, для которой мы будем использовать те же обозначения, отождествляя В(рьр2) с ВР1 = Βρχ (см. п.13). В общем случае распределение Вр зависит на самом деле лишь от (г — 1)-мерного параметра (ρχ,.. .,pr_i), так что вместо индекса ρ можно было бы писать (рь .. .,pr_i). Многие из рассмотренных выше распределений, например распределения Фо,ь Нь ^kuk2i Tjt, 1Г\, табулированы в руководствах по математической статистике и в специальных таблицах (см., например, [10]). § 13. Точечное оценивание. Основной метод получения оценок. Состоятельность, асимптотическая нормальность 1. Метод подстановки. Состоятельность. Понятие оценки было введено нами в § 11. Формально оценка — это то же самое, что и статистика, т.е. любая измеримая функция Θ* от выборки. Неформально смысл, вкладываемый в этот новый термин, состоит в том, что оценками Θ* мы называем лишь статистики, предназначенные для использования вместо неизвестного параметра Θ. Другими словами, Θ* есть некоторое приближение для 0, основанное на выборке. Величину Θ* называют также точечной оценкой для θ в отличие от интервальных оценок, которые будут рассмотрены позже. Задание оценки обычно предполагает задание функций (от выборок Хп), определенных при всех возможных значениях п. Поэтому в дальнейшем термин «оценка», будет означать семейство статистик Θ* = 0*(Хп), определенных при всех η = 1,2,..., где Θ* есть функция на Xй, или, что то же, одну функцию Θ* = 0*(гг,Хоо), определенную на произведении множества целых чисел и Х°°. В соответствии с § 11 мы будем считать, что в постановке задачи об оценивании определено множество Θ возможных значений параметра θ и семейство V возможных распределений Ρ выборки X (это могут быть, скажем, лишь нормальные распределения Фад или распределения Пуассона Щ, для которых требуется оценить неизвестные параметры α, λ). Если какие-либо
§13. Точечное оценивание. Основной метод получения оценок 83 ограничения на θ (на Р) отсутствуют, то можно считать, что Θ (V) совпадает с евклидовым пространством соответствующей размерности (с множеством всех распределений). Если для обозначения параметра вместо θ используется какая-нибудь другая буква, например λ, то оценки этого параметра будут обозначаться тем же способом: добавлением к λ верхнего индекса «звездочка». Например, для параметра α нормального закона естественно рассматривать оценку 1 п а* = -У^Хг· г=1 Выборочные моменты, используемые для оценки Εχι = / χ = P(dff), Dxi = / (χ - Exi)2P(cb), имеют свои специальные традиционные обозначения η г--' τι г—' г=1 г=1 Мы уже отмечали, что для данного параметра можно указать сколь угодно много разных оценок, и прежде чем обсуждать, каким образом в каждой конкретной ситуации следует сравнивать их достоинства, мы остановимся на некоторых общих «регулярных» методах их построения. Эти методы объединяют в себе наиболее разумные подходы к проблеме оценивания и позволят нам получать в дальнейшем наилучшие в том или ином смысле оценки. В основе почти всех приемов оценивания лежит следующий основной метод, который можно было бы назвать методом подстановки эмпирического распределения (или, для краткости, методом подстановки.) Пусть Хп §Ри неизвестный параметр θ представим в виде некоторого функционала G от распределения Р: θ = G(P). Пусть, далее, Ρ*, как и прежде, означает эмпирическое распределение. Тогда метод подстановки предписывает в качестве оценки Θ* взять функцию θ* = 0(Ρ*η). Такие оценки мы будем называть оценками по методу подстановки или просто оценками подстановки. Функционал G иногда бывает задан в неявном виде как решение некоторого уравнения #(#, Р) = 0, разрешимого относительно Θ. В этом случае оценками подстановки в соответствии с основным определением мы будем называть любое решение уравнения #(0,Р*) = 0. Если известно, что множество возможных значений параметра θ Ε Шк ограничено областью θ из Rfc, не совпадающей с Kfc, то эту информацию можно учесть при построении оценок подстановки. Допустим, что область Θ замкнута, и пусть V есть множество возможных распределений выборки X,
84 Гл. 2. Теория оценивания неизвестных параметров Θ = {<7(Р)}рер. Определим функционал Gi(P) для произвольного Ρ как значение t Ε Θ, для которого достигается min|i-G(P)| = |G1(P)-G(P)|, (1) так что (?ι(Ρ) есть точка из Θ, ближайшая к G(P). Так как Gi(P) = G(P) = = 0, если Ρ Ε V, то оценка e* = Gi(P;) (2) вместе с G(P^) будет оценкой подстановки, при этом множество возможных значений Θ* будет принадлежать Θ. Про оценки (1), (2) мы будем говорить, что они получены сужением метода подстановки. Пусть, например, оценивается параметр а нормального распределения Фад, и нам заранее известно, что а Ε [0,1]. Тогда может оказаться, что оценка а* = χ ^ [0,1] (очевидно, что χ = J t dF*(t) есть оценка подстановки). Сужение метода подстановки рекомендует в качестве оценки взять точку из [0,1], ближайшую к х. Отметим теперь, что в сформулированном виде метод подстановки не всегда имеет смысл. Дело в том, что исходный функционал G может оказаться не определенным на множестве эмпирических распределений. Пусть, например, заранее известно, что распределение Ρ принадлежит классу V абсолютно непрерывных относительно меры Лебега распределений, так что каждое Ρ Ε V имеет плотность /. Нас интересует значение θ = G(P) - J/2(x) dx=[ №\ dx. Ясно, что в этом случае (?(Р*) не имеет смысла, так как Р* есть дискретное распределение. В таких случаях метод подстановки всегда можно естественным образом модифицировать так, чтобы он сохранил свое существо. В приведенном примере, где б(Р) есть функционал от плотности /, следует в качестве Θ* в соответствии с методом подстановки рассмотреть значение G(P**), где Р** — сглаженное эмпирическое распределение (см. § 10), обеспечивающее сходимость эмпирической плотности к /(х). Может оказаться также, что в некоторых случаях С?(Р*) будет иметь смысл не для всех Хп, а лишь для Хп Ε Ап, где "Р{Хп Ε Ап) —> 1 при η —> оо. Это обстоятельство для существа дальнейшего изложения роли играть не будет, и для определенности можно положить G(P*) = 0 для Хп ^ Ап. В этом параграфе мы для простоты будем предполагать, что (7(Р£) имеет смысл при всех Хп Ε Хп и что Θ* есть случайный вектор, т.е. функция G(P*) осуществляет измеримое отображение Хп в R*, где к есть размерность Θ. Принцип подстановки представляет собой весьма естественный подход к задаче, поскольку, как мы уже знаем, распределение Р* неограниченно сближается с Ρ с ростом п. ПуСТЬ Хп = [Хоо]п-
§13. Точечное оценивание. Основной метод получения оценок 85 Определение 1. Оценка Θ* = 0*(ХП) (или последовательность Θ^(Χ)) называется состоятельной, если Θ* —>θ р при η —> оо. Оценка θ* называется сильно состоятельной, если при η —> оо 0*—> б. п.н. Пусть F, как обычно, есть функция распределения, соответствующая Р. Теорема 1. Пусть θ = G(P) w функционал G принадлежит одному из двух классов: либо он представим в виде G(P) = h^jg(x)dF(x)y (I) где h — функция, непрерывная в точке а = g(x)dFo(x) (функционал I типа), либо в виде G(P) = d(n (И) где функционал G\ непрерывен в точке Fo в равномерной метрике (функционал II типа). Тогда если X ^ Fo, то Θ* — G(P*) есть сильно состоятельная оценка: Θ* —> Θ. п.н. Утверждение этой теоремы немедленно следует из теоремы 4.1. 2. Асимптотическая нормальность. Одномерный случай Определение 2. Оценка Θ* параметра θ называется асимптотически нормальной (а.н.) с коэффициентом σ1 > 0, если (Θ* — в)у/п ©► Φο,σ2· Последнее соотношение может читаться также следующим образом: оценка Θ* а.н. с параметрами (θ,σ2/η). Коэффициент σ2 мы будем иногда называть также коэффициентом рассеивания (или разброса). Пусть Θ* есть оценка подстановки параметра θ = G(P) и выполнено (I), т.е. θ* = h[lΣ,^(χгη (3) есть статистика I типа. Тогда из результатов § 7 вытекает следующее утверждение. Предположим, что θ — скалярный параметр, a g — скалярная функция. Теорема 2. Пусть X€=Fo, h дифференцируема в точке а = = / g(x)dF0(x), 0 < \ti(a)\ < оо, / g2(x)dF0(x) < оо. Тогда Θ* — а.н. оценка с коэффициентом a2 = [ti(a)]2 J(g(x)-a)2dF0(x).
86 Гл. 2. Теория оценивания неизвестных параметров Примеры, рассмотренные в § 7, можно взять в качестве иллюстраций и к этой теореме, так как статистики, рассмотренные в них, используются в качестве оценок. Аналогичным образом мы могли бы, пользуясь результатами § 8, получить условия асимптотической нормальности оценок, являющихся статистиками II типа. Читатель может получить нужные утверждения, если воспользуется теоремой 8.1 без каких-либо ее изменений, потребовав, однако, чтобы в ее формулировке выполнялось к = 1, а производная д была такой, что g{F0,w°) ^Φ0,σ2· 3. Асимптотическая нормальность. Случай многомерного параметра Определение 2А. Оценка Θ* — (0f,...,0£) называется а. н. оценкой θ = (01,..., 6k) с матрицей σ2, если (θ*-θ)^^Φ0<σ2, (4) где Φο,σ2 есть ^-мерное нормальное распределение с нулевым вектором математических ожиданий и матрицей вторых моментов σ2 = ||о\;||. Плотность этого распределения равна (см. §12) где А — матрица, обратная к σ2, χ — (д;χ,.. .,£*). Матрицу σ2 мы будем называть также матрицей рассеивания (или разброса). Если Θ* есть оценка подстановки и она является статистикой I типа (т. е. представима в виде (3), где д, вообще говоря, вместе с Θ* и h есть векторная функция), то для выяснения условий асимптотической нормальности можно воспользоваться теоремой 7.1 А и замечанием к ней. Мы получим тогда следующее утверждение. Теорема 2А. Пусть θ* Ε Rk определяется равенством (I), где g = (gi,...,ffs) E Ms, а вектор-функция h(t) — (Λχ(ί),..., Λ*(ί)), t == = (ίι,.. .,is), имеет в точке а = (αϊ,.. .,αβ), α? = / <7j0&) di*o(s)j ΟΙ производные ——(α), / = 1,..., /с, j = 1,..., 5. Тогда если X ^ Fo, mo {θ* -0)\Λ^ξ#τ, где ξ = (£ι,···,£δ) €= ^od2 ^cmb нормально распределенный вектор с нулевым средним и матрицей вторых моментов d = ||<%||, d*j — = E(<7i(xi) — ai)(<7j(xi) ~ aj)> Μ = 15···55; -Η" — ||Лу|| есть матрица размера к χ s с элементами hij = тг^(а)? г = 1,..., fc; j = 1,.. .,5. Otj Это означает, в свою очередь, что 0* при выполнении условий теоремы 2А является а. н. оценкой с матрицей σ1 = Hd2HT = ΈΗξτξΗτ. Отметим, что матрицы σ2 и d2 здесь имеют, вообще говоря, разные размерности (к и s). частные
§14. Метод подстановки в параметрическом случае 87 § 14. Реализация метода подстановки в параметрическом случае. Метод моментов. iVi-оценки Пусть Χ ^ Р#, где {Ρθ}θεΘ есть известное нам семейство распределений Pfl, зависящих от параметра Θ. Неизвестный параметр θ из множества Θ может быть в наших рассмотрениях как скалярным, так и векторным. Например, если X €= Φα)σ2, то θ = (α,σ2) двумерно, а множество Θ может быть как полуплоскостью {—оо < α < οο, σ ^ 0}, так и какой-нибудь ее частью. Математическое ожидание и дисперсию статистики S — S(X) по распределению Р# будем обозначать соответственно E^S, OqS. Мы рассмотрим ниже несколько методов оценивания, каждый из которых можно трактовать как реализацию принципа подстановки эмпирике ского распределения. 1. Метод моментов. Одномерный случай. Выберем д(х) так, чтобы функция πι(θ) = Εθ9(χ1) = Jg(x)Pe(dx) (l) была монотонной и непрерывной. Область т(0) значений га(0), θ Ε Θ, имеет ту же «природу», что и Θ. Если, например, Θ есть отрезок вещественной оси, то ττι(Θ) также будет отрезком. Очевидно, что уравнение τη(θ) = t однозначно и непрерывно разрешимо в области ττι(Θ) относительно θ: θ = m-1(£), и что (1) эквивалентным образом можно записать в виде e = m-4J g(x)Pe(dx)\. (2) Предположим для простоты, что Г 1 " д= 9(χ)άΡ·η(χ) = -Σ9(χί)£τη(θ) J nU при всех X е Хп. Определение 1. Оценкой по методу моментов называется оценка в* = т-\д). (3) Если д ψ m(0), то можно положить согласно (13.1), (13.2) в* = т-1(д0), где (?о ^ τη(θ) есть ближайшая к ~д точка из т(0). Нетрудно видеть, что это есть оценка по принципу подстановки. Выбор функции т{в) позволил нам выразить θ в виде функционала (2). Ясно также, что оценка (3) является статистикой I типа, так что в силу теоремы 13.1 оценки по методу моментов будут сильно состоятельны. Если к тому же
88 Гл. 2. Теория оценивания неизвестных параметров функция m дифференцируема в точке 0, / д2(х)Р$(ах) < оо, то по теореме 13.2 оценка по методу моментов будет а. н. с коэффициентом рассеивания (m'(0))-2D,5(Xl). Метод моментов был предложен К.Пирсоном (в несколько более частном виде) и исторически является первым регулярным методом построения оценок. Свое название «метод моментов» получил потому, что его существо состоит в приравнивании друг другу «теоретических» и эмпирических моментов (математических ожиданий) величины д(х\): ведь оценка (3) есть не что иное, как решение уравнения ** · 1 Можно добавить также, что в качестве д(х) часто выбирают функцию д(х) = χ или д(х) = хк, к > 1, так что наше уравнение превращается в уравнение для обычных моментов. Равенство (4) можно рассматривать так же, как результат приравнивания среднего значения величины g{xi) «по пространству» ее среднему значению «по времени». Неоднозначность метода моментов, как и всего принципа подстановки, здесь видна особенно хорошо: ведь выбор функции д(х) почти ничем не ограничен. Пример 1. Пусть X €= Гад и α не известно. Построим оценки по методу моментов с двумя простейшими функциями д(х): д\{х) = х и ^(^) = я2· Справедливы следующие равенства (см. п. 12.2): 00 mi (a) = EQffi(xi) = / xTQti(dx) = -, J Οί о оо m2{a) = EQ#2(xi) = / x2Tail{dx) = —^. о 1 n Решая уравнения m\{a) = χ, 7712(a) = — Ух?, мы получим оценки по методу моментов / η 4-1/2 Обе эти оценки являются статистиками I типа, и мы можем описать их асимптотические свойства. На основании равенств (12.4) получаем 1 20 Daffi(xi) = Daxi = —, Da^2(xi) = Daxj = —т. ΟίΔ ОТ
§14. Метод подстановки в параметрическом случае 89 Так как для первой оценки m[(a) = —Ι/α2, а для второй га'2(а) = — 4/а2, то на основании теорем 13.1, 13.2 мы получаем, что обе оценки а* и а** являются сильно состоятельными и а.н. с коэффициентами рассеивания соответственно 1 4 2 20 а6 5 2 —а =а , — · — = -а . а1 а4 16 4 Видимо, оценку а* следует предпочесть, так как ее «разброс» при больших η вокруг истинного значения а, измеряемый дисперсией предельного распределения, меньше, чем «разброс» для а**. 2· Метод моментов. Многомерный случай. Совершенно аналогичным образом рассматривается случай, когда θ — многомерный параметр. Пусть, как и прежде, к есть размерность Θ. Выберем вектор-функцию g{x) = {gi{x),...,9k{x)) так, чтобы уравнение т(0) = ί, где t =(tb...,**), т(0) = (т!(0),...,т*(0)), mj{9) = Ε^-(χι) = / gj{x]PB(dx), было однозначно и непрерывно разрешимо относительно θ — m 1(t) в области τη(Θ) значений т(0), 0 Ε Θ. Допустим для простоты, что вектор = (-Σ^(χ«)'···'^Σ^(χί) \ г=1 г=1 / принадлежит области га(Э) при всех Χ Ε Л"\ Определение ΙΑ. Оценка θ* = m~l(jj) называется оценкой по методу моментов. Как и прежде, из теоремы 13.1 следует, что такие оценки Θ* будут сильно состоятельными. Для того чтобы имела место а.н. #*, нужно потребовать дополнительно, чтобы функция т была дифференцируемой, / д^(х)Р$(ах) < оо. Утверждение о предельном распределении Θ* нетрудно получить с помощью теоремы 13.2А. Пример 2. Рассмотрим в качестве {Р#} семейство нормальных распределений Φα>σ2. Полагая д\{х) — х, д2{%) = χ2, получим следующие уравнения для метода моментов: 1 п — 2 2 ■*· Ч Л 2 а = х, σ + α = - > χ», п. * * П · 1 г—1 решение которых есть =* (^2г = ^Ехг2-(х)2 = 52. α г=1
90 Гл. 2. Теория оценивания неизвестных параметров Мы предлагаем читателю в качестве упражнения найти оценки по методу моментов для всех параметрических семейств, приведенных в § 12. 3. М-оценивание как обобщенный метод моментов. Возможно следующее обобщение метода моментов, которое существенно расширяет рассмотренный выше класс оценок. Пусть 0о — истинное значение параметра: X €= Р#0. Оценка по методу моментов была основана на том, что уравнение относительно θ τη(θ) = j9(x)Pe(dx) = Jg(x)P(dx) (6) имело единственное решение θ = G(P) = πι λ ί / g(x)P(dx) I , совпадаю- ■ (/*> щее при Ρ = Р#0 с #о> так что оценка по методу моментов Θ* — G(P*), как мы уже отмечали, оказывается оценкой подстановки. Первое соотношение в (6) можно записать в виде /< (0(х)-т(0))Рв(<*г)=О, (7) а уравнение (6) в виде ' (д(х)-т(в))Р((1х) = 0. /< Основываясь на этих двух соотношениях, мы можем рассмотреть теперь более общее уравнение. Пусть функция д{х,в) ^ 0 такова, что / 9{χ,θ)Έ>θ{άχ)=0 (8) (д(х,9) = д(х) — πι(θ) в (7)). Функцию д{х,9), удовлетворяющую (8), можно получить из любой интегрируемой функции д\{х,в), положив д{х,в) = = 9ι(χ,θ) — / 9iix^)Pe{dx)· Если уравнение / g{x,0)P{dx) =0 (9) имеет единственное решение θ — G(P), то в силу (8) выполняется G(P^0) = = 0q. Стало быть, метод моментов допускает следующее естественное обобщение. Определение 2. Значение 0*, являющееся решением уравнения £>(xi,0) = O (Ю) (ср. с (9) при Ρ = Ρ*), называется оценкой решения θ уравнения (9) по обобщенному методу моментов или М-оценкой. Очевидно, что М-оценка является М-статистикой (см. п. 3.4).
§ 14. Метод подстановки в параметрическом случае 91 Здесь, как и прежде, 0* = G(P*), где G(P) есть решение (9) относительно 0. Нетрудно видеть, что определение 2 М-оценки допускает выход за рамки параметрического случая и сохраняется в более общем случае, когда речь идет об оценке по выборке X ^ Ρ фукционала θ = G(P), который определяется как решения уравнения (9) при некоторой функции д(х,9)\ при этом Ρ может быть произвольным распределением, не обязательно принадлежащим параметрическому семейству. Равенство (8) в параметрическом случае нужно лишь для справедливости равенства G(Pfl0) = во* Если 0 Ε Шк — многомерный параметр, то в качестве g в (9), (10) следует брать вектор-функцию той же размерности, что и 0, так, чтобы уравнения (9), (10) представляли собой систему из к независимых уравнений. Иногда М-оценки определяют иначе. Пусть ψ(χ,θ) — заданная скалярная измеримая функция. Определение 2А. М-оценкой 0* называется значение 0, при котором достигается η тахУ^(хп0). (И) θ t=l Если φ для п.в. χ дифференцируема по 0, то, полагая д(х,в) = ^(х,0), мы получим, что М-оценка будет М-оценкой в смысле определения 2. Обратное, вообще говоря, не верно, так как М-оценки в смысле определения 2 могут быть точками локальных экстремумов У^?/>(х;,0). Если решение 0* уравнения (10) единственно и в точке 0* достигается максимум, то, очевидно, 0* будет М- и М-оценкой. Использование М-оценок естественно в тех случаях, когда существует функция ^(я,0) такая, что неизвестный параметр 0о максимизирует ψ{χ,θ)Ρ{άχ). I Пример 3. Среднее 0 распределения Ρ минимизирует / (х — 0) P(dx)> Поэтому М-оценкой параметра 0 будет значение 0*, минимизирующее /J(xj — 0)2, или, что то же, решение 0* = χ уравнения /J(xi — 0) =0, являющееся М-оценкой. Здесь ip{x,t) = —(χ — 0)2, g(x,t) = 2(х — θ). Так как 0 = / xP(dx), то сказанное согласуется, очевидно, с тем, что 0* является также «непосредственной» оценкой подстановки 0*= xP^(dx) =x. Аналогичное замечание справедливо и относительно медианы выборки X. Предварительно заметим, что квантиль ζρ порядка ρ распределения Ρ с функцией распределения F может быть определена как решение уравнения / д(х - Θ) dF(x) = 0,
-1 0 Ρ 1 ~ при χ < 0, при χ = 0, при ж > 0. 92 Гл. 2. Теория оценивания неизвестных параметров где I 1 — ρ Поэтому выборочная квантиль ζ* является М-оценкой в смысле определения 2. Она определяется как решение уравнения - ^/(х,- < е)+^- χ;/(χί > б) = о. Медиану ^/2 распределения Ρ с непрерывной в точке Ci/2 функцией распределения F можно рассматривать также как значение, минимизирующее / \χ—θ\ dF(x), т. е. М-оценку. Действительно, производная этого интеграла п. в. существует и равна Р((0, оо)) — Р((—оо,0)). Она монотонно убывает с ростом 0 и обращается в нуль при 0 = ζ\/2· Мы получили, что ζ^2 является одновременно М- и М-оценкой. Она является решением уравнения £j(xi>0)-£;/(xj<0)=o. (Если η нечетно, то ζ*/2 = χ((η+ΐ)/2)· Если η четно, то левая часть этого уравнения обращается в нуль при любом 0 Ε (x(n/2)>x(n/2+i)); Для Определи х(п/2+1) + х(п/2) _ \ ленности можно положить θ — —^ — K—L-L = ζ*,2·) Более содержательные примеры М-оценок рассмотрены в § 16,33,34. Там же можно найти примеры М-оценок, не являющихся М-оценками (см. пример 16.5). Легко построить также примеры М-оценок, не являющихся М-оценками. Таким образом, классы М- и М-оценок близки, но не совпадают. В известном смысле М-оценки имеют более широкую область определения: М-оценки определены и в тех случаях, когда функция φ не дифференцируема, и уравнение (10) для д = ф'е не определено. Если же φ'θ существует, то М-оценки являются М-оценками. М-оценки были введены П. Хьюбером в [127] как обобщение оценок максимального правдоподобия (см. § 16; об М-оценках см. также [129, 67, 102]). Основное внимание в настоящей книге уделяется регулярному случаю, когда функция φ является гладкой. Изучение асимптотических свойств М-оценок (а стало быть, и М-оценок) посвящены п. 4-6. Для полноты картины мы приводим также условия состоятельности М-оценок в «нерегулярном» случае, когда не предполагается гладкость ф. 4. Состоятельность М-оценок. Мы приведем здесь условия сильной состоятельности М-оценок при весьма слабых ограничениях на функцию φ(χ,θ) в (11). Введем в рассмотрение следующие условия.
§14. Метод подстановки в параметрическом случае 93 /· (Ас) Множество Θ компактно. Это условие вводится для упрощения. С точки зрения приложений всегда можно указать достаточно большой компакт К = [ίο,ίι] такой, что искомое 0о наверняка принадлежит внутренности К и, следовательно, можно ограничиться поисками точки Θ* максимума (11) лишь в компакте К. При этом под Θ* можно понимать любую точку максимума (11), принадлежащую К, Если же максимум достигается вне К, скажем в точке θ > t\, то можно положить Θ* равной t\ или равной точке максимума на К, Содержание последующих утверждений от этого не зависит. [Ао] Функция φ[χ,ί) такова, что φ(χ,ί)Ρ(άχ) достигает своего максимума в единственной точке t = 0, так что Φ(ί, 0,Ρ) = ί{φ{χ, t) - φ{χ, θ))Ρ{άχ) < 0 при всех t φ 0, t £ Θ. Эти два условия мы будем предполагать выполненными на протяжении всего этого параграфа. Далее, по выборке Χ ^ Ρ строится М-оценка 0*, являющаяся точкой максимума Υ^?/>(χ;,ί), или, что то же, Φ(ί,0, Ρ*). Нам понадобится также следующий равномерный вариант условия [Ао]. (Ао) Для любого δ > О inf Φ(ί,0,Ρ) < -ε t:\t-e\^S при некотором ε = ε(δ) > 0. Очевидно, что условие (Ао) будет следствием (Ас), [Ао] и непрерывности Ф(£,0,Р) по t. Обозначим φ (ζ,ί) = sup φ(χ,ί + ύ) |ι*|$Δ и наряду с [Ао], (Ао) рассмотрим также условие (А^) Для любого δ > 0 существует Δ = Α(δ) такое, что при всех £, \ί-θ\>δ \φΑ{χ,ί) -φ{χ,θ))Έ>{άχ) < -ε (12) /< при некотором ε > 0. Теорема 1. Если выполнено (А^), то М-оценка 0* сильно состоятельна.
94 Гл. 2. Теория оценивания неизвестных параметров Как будет показано в § 16, одного условия (Ао) для состоятельности Θ* недостаточно. Доказательство. Так как *{θ;β,ρ·η) >φ(θ,θ,Κ) = о, то для доказательства теоремы нам достаточно убедиться, что с вероятностью 1 limsup sup Φ(ί,0,Ρ*) < -ε п-юо \ί-θ\^δ при некотором ε > 0. (Это и будет означать, что для п. в. Х^ €? Р, начиная с некоторого η = n(Xoo) < ε, выполняется \θ* — θ\ < δ.) Пусть δ фиксировано, Δ удовлетворяет (12), (θ)δ есть ^-окрестность точки 0. Покроем множество Θ \ (θ)δ окрестностями Δ^ = {t : \t — tk\ ^ Δ}, к = 1,.. .,iV < oo, где ijt € Θ, ijt ^ {θ)δ. Тогда по усиленному закону больших чисел в силу (12) \t-9\>6 * "" * ί€Δ, sup Φ (ί, θ, Ρ;) < max sup Φ (ί, 0, Ρ*η) ζ k teAk 1 η < max - У^ SUP [^(ХЬ *) ^ ФЫ, θ)} —> к П *—" л . п.н. к Π . —► ma.xE[ipA{xutk) -ф(хиЬк)] < -ε. < п.н. к Условие (Aq ) можно эквивалентным образом представить в несколько иной форме. Обозначим φ°(χ,ί) = limsup^(x, u). u-*t Теорема 2. Условие (А^) эквивалентно одновременному выполнению следующих двух условий: (Aq) для всех t φ θ [φΌ{χ,ί)-φ{χ,θ)]Ρ{(Ιχ) <0; / (J) при всех t и некотором Δ > 0 [φΑ(χ,ή - φ{χ,θ)]Έ>(άχ) < oo. / Условие (J), как, впрочем, и (А§), (А^), означает интегрируемость положительных частей подынтегральных функций. Такие функции естественно называть интегрируемыми сверху. Условие (J) в силу (Ас) по существу эквивалентно ограниченности сверху интеграла / [ф{х, Θ) - ф{х, θ)]Ρ{άχ) < oo, где φ(χ,θ) = δ\ιρφ(χ, t).
§ 14, Метод подстановки в параметрическом случае 95 Доказательство теоремы 2. Тот факт, что из (А^) следует (Aq) и (J), очевиден. Пусть теперь выполнены (Ад) и (J). Если допустить, что (А^) не имеет места, то найдутся последовательности tk —> t Ε Θ, Δ^ —> 0, Sk —> 0 такие, что J[rl>*b(x,tk) -φ(χ,θ)]Έ>(άχ) > -ek. Здесь подынтегральная функция мажорируется в силу условия (J) интегрируемой сверху функцией, поэтому в силу леммы Фату limsup [[tpAk{x,tk) -φ{χ,θ)]Ρ{άχ) ^ f[tl>°{x,t) - φ{χ,θ)]Ρ{άχ) < 0. /c-»oo J J Мы получили противоречие, доказывающее теорему. < Более простые достаточные условия, обеспечивающие выполнение (А§) и (J) для конкретных функций ψ(χ,ί), приведены в § 16. Асимптотическая нормальность М-оценок требует выполнения условий гладкости по t функции ψ(χ, t). Поэтому ее естественно изучать в рамках п. 6, посвященного асимптотической нормальности М-оценок. 5. Состоятельность М-оценок. Сначала мы ограничимся рассмотрением одномерного случая Θ С Μ и вновь для простоты будем предполагать везде, что выполнено условие (Ас) о том, что Θ С [£ο>*ι] — компакт. Положим з(0)=Ед(хив) = Jg(x,9)P(dx). (13) Нам понадобятся следующие условия. (Μι) Пусть sup|0(a;,0)| ^j{x), / nf{x)P{dx) < °о. 0€Θ J (М2) Функция g(x,9) для п. β. χ непрерывна по Θ. (Мз) Уравнение s{9) = 0 имеет внутри Θ единственное решение во. Теорема 3. При выполнении условий (Mi)-(Ma) М-оценка Θ* сильно состоятельна. Для доказательства теоремы нам понадобится следующее утверждение. Положим п *—' Лемма 1. При выполнении (Μι), (Μ2) wn-4oo функция s(t) непрерывна. sup|<(i)-s(i)|—>0, tee Π·Η·
96 Гл. 2. Теория оценивания неизвестных параметров Доказательство. Чтобы упростить рассуждения, везде в дальнейшем мы будем считать g(x,t) непрерывной по t при всех χ (этого можно добиться, выбросив из X множество нулевой Р-вероятности). Обозначим через шА{х)= sup \g{x,t + u) - g{x,t)\ модуль непрерывности функции s{i) на θ. Тогда ω δ = Εο;δ(χι) = / u)&(x)P(dx) -> О при Δ —> оо. Это следует из теоремы о мажорируемой сходимости, так как в силу (Μι), (М2) имеем с^д(я) -> 0 при Δ -> О, ω^(χ) < 2j(x). Из этих же соображений вытекает непрерывность s(t). По усиленному закону больших чисел 1 п ω*±{Χ) = sup \s*n{t + u) - s*n{t)\ < -ΣωΑ№ ΤΪ ωΔ' i€0,i+ue©,|u|^A ηχτ{ Π·Η· Далее, пусть η^ = ίο + ΑΔ, к = Ο, l,...,m (τ0 = to, rm = ίι), — точки разбиения отрезка [ίο,ίι] D Θ. Тогда s£(tj) —> s(r,·) при всех г. Остается заметить, что п,н" 5n = sup|5*(i) -a(i)| ^тах|5*(гг)-5(гг)| + ω*Α{Χ) +ωΛ —► 2ωΔ, te& г Π,Η· где левая часть от Δ не зависит, а правая выбором Δ может быть сделана сколь угодно малой. Это доказывает утверждение леммы. Доказательство теоремы 3. Пусть δ таково, что (#о — S,#о + δ) С Θ и для определенности s(t) > О при t > θο и s(t) < 0 при t < 9q. Ясно, что для любого δ > 0 найдется δι = δ\(δ) такое, что inf s{t) > 2ib sup s{t) < —2*i. (14) t>9o+S t<e0-6 В силу леммы 1 для п. в. Χ ^ Ρ найдется n(Jf) такое, что при всех η ^ п(Х) будет выполняться inf s*(£) > δ\, sup 5*(ί) < —ίχ. Так как функция 5* (ί) непрерывна, то при η ^ п(Х) существует б* G (#о — #, #о + Я) такое, что s^(0*) = 0. Итак, мы получили, что для заданного δ > 0 существует п(Х) такое, что при всех η ^ п(Х) выполняется |0* — θο\ < δ. < 6. Асимптотическая нормальность М-оценок. Здесь в дополнение к (Μι), (М2) нам понадобятся следующие условия. (Mj) Функция д(Х)О) для η. β. χ непрерывно дифференцируема по 0, s\ip\g'(x,t)\ < 71 (ζ), / 7i(s)P(<*x) < l€© У оо.
§ 14. Метод подстановки в параметрическом случае 97 Из этого условия следует, что в (13) законно дифференцирование по Θ: 5'(0) = Е</(хь0). (М4) a2 = Eff2(xi,0o) <oo. В этих условиях #о — решение уравнения (9). Теорема 4. При выполнении условий (М^), (М^), (Мз), (М4) М-оцен- ка 0* асимптотически нормальна с коэффициентом σ2[5'(0ο)]-2· Доказательство. Так как (М'х), (М^) влекут за собой (Μι), (Мг), то условия теоремы 3 выполнены и Θ* —> 0q. Так как s^(t) непрерывно дифференцируема, то (полагаем для краткости βη(θη = 0 = sn(90) + (θ* - θοΚ(θ), θ£ [0О,П (15) где θ—> θο. Π.Η. Заметим теперь, что в силу (M'J, (М'2) функция s'n(t) удовлетворяет условиям леммы 1 и, следовательно, sf(t) непрерывна, supl^O-*'(*)| —>0. tee Π·Η· Это значит, что з'п(в) - з'(в) —> 0, и так как s'(0) —> s'(9o), то з'п(в) —> =·«■ Итак, в силу (15) ^(Г - 0О) =-ч/^п(0о)К(0)) -1 где згп(в) —> sf(9o) φ 0 и по центральной предельной теореме — \fnsn{Oo) & & Φο,σ2· Нам остается воспользоваться второй теоремой непрерывности. < Из сказанного в доказательствах теорем 1, 2 легко извлечь также, что для любой последовательности δη —> 0 случайный процесс у (и) = y/nsnx χ (00 + и/у/п) допускает в области \и\ < 6пу/п представление где ξη <Ξ> Ν0>σ2, \εη(θο,Χ,ύ)\ ^ εη(θ0,Χ) -^> 0 при η -> оо. Замечание 1. Предельное распределение для М-оценок можно получать и пользуясь подходами §8, где изучалось асимптотическое поведение статистик второго типа (см. замечание в конце §8). Так как М-оценка параметра θ есть значение G(i^), где функционал G(F) является решением
98 Гл. 2. Теория оценивания неизвестных параметров относительно θ уравнения / д(х,9) dF(x) = О, то мы имеем тождество / g(x,G(F))dF(x) = 0, (16) пользуясь которым можно найти значение производной G'(Fq,v) (cm. §8). Пусть ν = F\ — Fo, где Fi, как и Fo, есть функция распределения. Тогда Fo + hv — снова функция распределения, и, подставляя в (16) Fq + hv вместо F, получим / [д(х, G{F0 + hv))] d{F0(x) + hv{x)) = 0. Предположим, что функция д(х,6) для всех χ непрерывно дифференцируема по Θ. Так как G'(Fq,v) является обычной производной функции G(Fo + hv) по h в точке h = 0 (см. замечание 8.1), то, пользуясь процедурой отыскания производной от неявной функции, получим Jg'(x,G(F0))G'(Fo,v)dFo(x) + jg(x,G(F0))dv(x) = 0, G'(F0,v) = -Jg(x,G(F0))dv(x) (Jg'(x,G(Fo))dFo) . Стало быть, в силу (8.10), (16) ^(G(Fn*)-G(F0))» *-Jg(x,G(F0))dwn(F0(x)) (Jg'(x,G(F0))dFo(xf) => =Ф -(s'tfo))-1 J g(x,0Q)dwo(Fo(x)) = -(s'tfo))-1 J g(x,eQ)dw(F0(x)). Это значит, что v^ (^(F^) — G(Fo)) асимптотически нормально с параметрами, указанными в теореме 2. 7. Замечания о многомерном случае. Если неизвестный параметр θ = = (01,...,0*) E R* многомерен (к > 1), то исходным при построении М-оценок является предположение о том, что 0 является решением системы уравнений з(в) = 0, где s(0) = (si(0),.. .,s*(0)), Si(6) = Jgi(x,e)P(dx). В соответствии с этим М-оценка определяется как решение системы урав- нений s*n(t) = 0, где <(ί) = «д(<),.. .,<,*(*)), 1 п ' 77 *■" ·* П ι
§15. Метод минимального расстояния 99 Утверждения, относящиеся к состоятельности и асимптотической нормальности М-оценок, сохранятся при естественной модификации условий. Основным для доказательства асимптотической нормальности является следующий аналог уравнения (15): <i(O = O = <j((9) + ((6*-(9,grad<i<(6))+o(|(9*-0|), г = 1,...,к. (17) 1К<(*) _ dsj{9) dtj сходится п. н. к матрице з'{9) = ||s^||, s^ — t=e Здесь матрица , i,j = l,...,fc. Поэтому уравнение (17) в векторной форме можно Эвг записать в виде 3*η(θ) + (θ*-θ)3'(θ)+ο(\θ*-θ\) = 0, которое в предположении \s'(0)\ Φ 0 дает соотношение (θ*-θ)*-3*η(θ)(3'(θ)Γ\ означающее асимптотическую нормальность в*: Μ = [(3'(θ))-ψϋ(3'(θ))-\ D = \\дЩ, д&) = E5i(xi,%(xb^). § 15·* Метод минимального расстояния Метод, указанный в заголовке, как и методы § 14, является реализацией принципа подстановки и состоит в следующем. Рассмотрим какой-нибудь функционал от двух распределений d(P,Q), который обладает тем свойством, что как функция от Q он достигает своего минимума при Q = Ρ и d(P, Q) > d(P,P) при Q φ Р. Мы будем рассматривать величину d(P, Q) (или d(P,Q) — d(P,P) как «расстояние» между Q и Р, так что Ρ можно определить как значение Q, при котором d(P, Q) достигает своего наименьшего значения. Пусть теперь X €= Ρ, Ρ неизвестно и принадлежит семейству V. Обозначим через {Q)v распределение из Р, ближайшее к распределению Q в смысле расстояния d, и допустим, что оно существует: d((Q)p,Q) = mjnd(II,Q), так что {Q)v = Q> если Q Ε V. Определение 1. Оценкой распределения Ρ по минимуму расстояния d называется распределение Р* = (Р^)^ Ξ Φι гДе Р£> как и прежде, эмпирическое распределение. Таким образом, при Π = Ρ*! = (Р£)^ минимизируется с/(П, Ρ*). Если V совпадает с множеством всех функций распределения, то, очевидно, Р* = = Р*
100 Гл. 2. Теория оценивания неизвестных параметров Пусть теперь V = {Ρθ}θξΘ еСть параметрическое семейство, удовлетворяющее следующему условию. (Ао) Пусть ΡΘι φ Ρθ2 при θλ φ 02. В этом случае отображение 0 -» Ρ# взаимно однозначно, так что распределение Ρ € V позволяет единственным образом восстановить параметр 0, для которого Ρ = Р#. Этот факт можно выразить и иначе: существует функционал G, определенный на V, такой, что 0 = G(P^). Введем в рассмотрение функционал G\(Q) = G((Q)p). Это есть, очевидно, значение 0 Ε Θ, при котором Р# будет ближайшим к Q распределением в смысле расстояния d, так что G1(Pe) = G(Pg)=e. (1) Определение 2. Оценка 0* = Gi(P*) называется оценкой параметра θ по минимуму расстояния d. Другими словами, 0* есть значение из Θ, для которого ά(Έ>θ.,Ρ*η) = Μά(Ρθ,Ρ*η). Очевидно, что здесь мы снова имеем дело с принципом подстановки. Это вытекает из определений и (1). Разумеется, расстояние d и семейство V = {Р#} должны обладать свойствами, обеспечивающими измеримость отображения Xй в R*, осуществляемого функционалом (?ι(Ρ*) так, чтобы 0* была случайной величиной. Отметим теперь, что β параметрическом случае при выполнении условия (Ао) сужение метода подстановки (см. (13.1), (13.2)) и метод минимального расстояния дают один и тот же класс оценок. Действительно, мы уже знаем, что оценки минимального расстояния 0* являются оценками по методу подстановки, при этом 0* £ Θ. Пусть теперь 0* есть оценка по методу подстановки: 0* = G(P£), где G{Pq) = 0, 0* G Θ. Определим расстояние rf(P, Q) = |G(P) —G(Q)|. Тогда, очевидно, при 0 = 0* достигается mf d(p,,p;) = mf |σ(ρ,) - g(p;)| = ы \θ- о{р*п)\ = о. Ясно, что можно указать много «разумных» расстояний с/, которые можно использовать для построения оценок. Мы могли бы в качестве d взять расстояние d(P,Q)=sup\FP(x)-FQ(x)\ X ИЛИ d(P, Q) = J(FP(x) - FQ(x))2 dFQ{x), где Fp(x) — функция распределения, соответствующая распределению Р. Оценками 0* по минимальному расстоянию здесь будут значения 0, для
§ 16. Метод максимального правдоподобия 101 которых достигается соответственно mfsup\FPe(x)-FZ(x)\, ν χ /ι η / k — 1 \2 (^) (*■*(*) - FZ(x))2dK(*) - У" Σ (*Ь(*<*>) " —J · В некоторых задачах (ср. с [58]) используются так называемые оценки по минимуму χ2 (хи-квадрат). Это есть оценки по минимуму расстояния ^■«»-§(Р(^У. где Δί,..., ΔΓ — разбиение R (или Мт, если х^ га-мерны) на г < оо интер- г валов, так что |J Δ, = R. Таким образом, оценка Θ* по минимуму χ2 есть t=l значение 0, при котором минимизируется η (Pfl(Ai) - ι/j/n)2 ^ (nPg(Aj) - vjf Здесь ι/, = ηΡ*(Δϊ) есть число наблюдений х^, попавших в интервал Δ*. Статистика в правой части (3) есть уже известная нам статистика χ2, отсюда и происходит название оценки. Ниже мы увидим, что существует такой функционал G, θ = G(P$), для которого оценки по принципу подстановки, называемые оценками максимального правдоподобия, будут в известном смысле наилучшими. Эти оценки будут являться также М-оценками, М-оценками (при некоторых условиях регулярности) и оценками минимального расстояния. Расстояние, минимизируемое этими оценками, будет близко к расстоянию Кульба- ка-Лейблера между распределениями, которое будет введено в §31. § 16. Метод максимального правдоподобия. Оптимальность оценок максимального правдоподобия в классе М-оценок 1. Определения. Общие свойства. Пусть снова V есть параметрическое семейство {Ρθ}θ€θ· Относительно этого семейства будем предполагать в дальнейшем везде, где это потребуется, выполненным условие (Ао) Пусть Ρ*ι/Ρ*2 при θχ+θϊ, а также условие (Αμ) Существует σ-конечная мера μ в фазовом пространстве (Х,Ъх) такая, что все распределения Р# £ V имеют относительно
102 Гл. 2. Теория оценивания неизвестных параметров этой меры плотность f$(x) = —:—(я), так что αμ Έ>Θ(Β) = f !9{χ)μ{άχ). в В этом случае говорят, что мера μ доминирует распределения Р#. Все семейства распределений, рассмотренные в § 12, очевидно, удовлетворяют условиям (Ао), (А^). В качестве μ для одних распределений надо взять меру Лебега (абсолютно непрерывные распределения), для других — считающую меру (дискретные распределения). Считающая мера μ определяется так: μ {В) = &, где к есть число точек с целочисленными координатами, принадлежащих В. К первым относятся нормальное Φα>σ2, логнормальное LQ σι распределения, Г- и В-распределения, равномерное распределение, распределение Коши, распределения Стьюдента и Фишера. Ко вторым — распределения Бернулли, Пуассона, вырожденное в нуле и полиномиальные распределения. Вид плотностей fe{x) этих распределений приведен в § 12. В дискретном случае (когда μ есть считающая мера) плотность fe{x) совпадает с вероятностью Р$({х}) события {χχ = χ}; здесь {χ} означает множество, состоящее из одной точки х. Можно отметить также, что, например, нормальное распределение Φα>σ2 и распределение Пуассона взаимно сингулярны. Вместо меры Лебега и считающей меры мы могли бы брать и другие меры — например, нормальное распределение Фод и распределения Пуассона Πι соответственно. Однако в этом случаи плотности fe(x) будут, очевидно, другими. Мы предлагаем читателю найти их. Приведенные выше примеры относились к случаю X = R или X — Rm, m > 1. В произвольном фазовом пространстве (X, 55^) природа меры μ может быть более сложной. Введение условия (Αμ) удобно прежде всего тем, что оно позволит нам в дальнейшем с единой точки зрения рассматривать два наиболее важных в приложениях типа распределений — абсолютно непрерывные и дискретные. С точки зрения условия (Αμ) качественная разница между ними отсутствует. Кроме того, становится несущественной размерность фазового пространства X. Условимся писать f{x)=g{x) п. в. [μ], если существует множество Α, μ{Α) = 0 такое, что f(x) = g(x) для всех χ £ А. Очевидно, f(x) = g(x) п. в. [μ] тогда и только тогда, когда 1(/(χ)-9(χ))2μ(άχ) = 0. Лемма 1. Пусть fug — две плотности вероятности относительно меры μ. Тогда Ι' /{χ)1η/{χ)μ{άχ) > f /{χ)\η9{χ)μ{άχ), (1) если оба эти интеграла конечны. Знак равенства возможен лишь в случае f = gn.e. [μ].
§ 16. Метод максимального правдоподобия 103 Здесь принято соглашение, что интегралы в (1) по множеству А, на котором f(x) = 0, равны нулю при любой д{х). Доказательство. Нам надо доказать, что / Так как 1п(1 + х) ^ χ при всех χ ^ — 1 и знак равенства возможен лишь при χ = 0, то и знак равенства здесь возможен лишь при f(x) = д(х). Поэтому Jf(x)\n^(dx) < Jf(x) (№ - l) „(ώ) = = J 9{χ)μ{άχ)- J f{xM<b)=Q. (2) Если соотношение f = д п.в. [μ] не имеет места, то, очевидно, знак неравенства в (2) будет строгим. < Рассмотрим теперь семейство V = {Ρθ}θβΘι удовлетворяющее условиям (Ао), (Αμ), и «расстояние» d(Pe, Q) между произвольным распределением Q и распределением P^GP d(Pe,Q) = -J\nfe(x)Q(dx). (3) Определим функционал G(Q) как значение Θ, при котором достигается mmd(Pe,Q) = d(PG(Q),Q). Из леммы 1 и условия (Ао) следует, что - / Ль 1η/β/ί(ώ;) > - / /в„ \η/θομ(άχ), ά(Ρθ,Ρθο)>ά(Ρθο,Ρθο) при # т^ $ο· Это означает, что <?(Ρθ0) = б0. (4) Определение 1. Оценкой максимального правдоподобия (о.м.п.) называется значение Θ* = <7(Р*), т.е. значение б, при котором достигается Г 1 п max / In/0(0;) Ρ* (da;) — max — У^ ln/g(xj). (5)
104 Гл. 2. Теория оценивания неизвестных параметров Символ «~» над обозначением оценки везде в дальнейшем будет соответствовать о. м. п. Из определения и (4) следует, что о. м. п. является оценкой подстановки. Ее можно рассматривать также как М~оценку и оценку по минимуму расстояния (3). Это расстояние, как уже отмечалось, тесно связано с расстоянием Кульбака-Лейблера между распределениями, которое играет в математической статистике особую роль и будет нами рассмотрено позже. В определении 1 семейство {Р#} предполагается таким, чтобы Θ* была случайной величиной *). Поскольку максимум некоторой функции может достигаться в нескольких точках, то о.м.п., вообще говоря, не единственна. Соответствующий пример мы приведем несколько позже. Название этой оценки связано со следующей важной интерпретацией выражения η η £>/,(*) =1пП/*(х<), 2=1 2=1 присутствующего в (5). Для простоты рассмотрим сначала дискретный слу- п чай, когда μ — считающая мера. Тогда ТТ/^(хг) есть вероятность появле- г=1 ния исхода X = (χι,.. .,хп). Стало быть, мы выбираем в качестве Θ* значение параметра, которое максимизирует эту вероятность (ведь функции φ(θ) > 0 и \ηψ(θ) достигают экстремумов в одних и тех же точках). Аналогичное толкование имеет место и в общем случае. В силу независимости хг· имеем для множеств В = В\ χ - · · χ Бп, В{ £ Я$х Р9(Х е В) = J MzMdxi)- · · f ίθ(Χη)μ(άχη)' (6) Βι Βη Напомним, что Х{ в отличие от элементов выборки хг обозначают переменные величины, вектор (а;ι,.. >,хп) обозначается через х. Пусть μη есть гг-кратное прямое произведение мер μ, так что μη(άχ) = Υ^μ(άχ{). Тогда (6) означает, 2=1 ЧТО Т?9{Х € В) = J (f[h(xi) J μη(άχ) В η и, стало быть, функция /я (ж) = ТТЛ(^г) есть плотность распределения г=1 случайного вектора X в Хп относительно меры μη, ff0(x№(dx) = l. хп *) То есть Θ* осуществляет измеримое отображение (^п,53дг) в (Rk,*Sk).
§16. Метод максимального правдоподобия 105 Таким образом, Τ\/θ{χί)μη{άχ) можно интерпретировать (аналогично дис- г=1 кретному случаю) как вероятность попадания выборки в параллелепипед, образованный пересечением «полос» (xi,x% + dxi), и оценка максимального правдоподобия максимизирует по θ эту вероятность. Функция η как функция от θ называется функцией правдоподобия, а функция η где 1(χ,θ) = lnfe(x), — логарифмической функцией правдоподобия. Такое же название за функциями / и L мы будем сохранять и в том случае, когда в качестве аргумента вместо X стоит переменный вектор ж. Таким образом, функция правдоподобия fe{x) есть функция на Хп χ Θ, являющаяся при каждом θ Ε θ плотностью вероятности относительно меры μη, так что плотность feixi) в X также есть функция правдоподобия для случая п = 1. С другой стороны, /#(^0, например, в случае X = Ш можно рассматривать как функцию правдоподобия выборки объема 1 в многомерном случае, когда X = Rm = Rn. Важно отметить, что о. м. п. от выбора меры μ никак не зависит, так как при замене μ на какую-нибудь эквивалентную меру μι функция правдоподо- άμη бия fe{x) изменится лишь на множитель —~{х), от θ не зависящий. αμι ^ В соответствии с определением 14.2А о. м. п. является М-оценкой для функции φ(χ)θ) = 1(χ,θ). Это соответствует тому, что значение t = θ максимизирует Jl(x,t)Pe(dx) = j 1η/,(*)/β(α0μ(ώ0. (7) Если 1(χ,θ) имеет непрерывные производные 1'{χ,θ) по 0, то точка 0*, в которой достигается максимум (5), будет с необходимостью удовлетворять уравнению η L'(X,e) = J2H^0) = 0. (8) i=l В соответствии с определением 14.2 и замечаниями к нему это означает, что в этом случае о. м. п. Θ* является М-оценкой (надо положить в определении 14.2 g(x,9) = l'(x,t)). Это соответствует тому, что значение t = θ в предположении законности дифференцирования интеграла (7) удовлетворяет уравнению ' l'{x,t)Pe(dx) = 0. (9) /-
106 Гл. 2. Теория оценивания неизвестных параметров Тот факт, что о.м.п. является М-оценкой, можно получить и из других соображений, не связанных с максимизацией (как и тот факт, что t — 0 является решением уравнения (9)). Для этого в рамках параметрического случая надо предполагать, что законно дифференцирование по 0 равенства /· /θ{χ)μ{άχ) = 1, что дает нам равенство вида (14.8) при д = V ίΐ'(χ,θ)Ρθ(άχ) = [ϊ{χ,θ)Μχ)μ(άχ) = [ ffaMdx) = 0. (10) В этом случае согласно определению 14.2 решение уравнения (8) (или уравнения (14.10)) является М-оценкой параметра 0. Обратное утверждение о том, что М-оценка, соответствующая функции д(х, 0) = /'(ж, 0), является о. м. п., вообще говоря, не верно. Функция L(X, 0) может иметь несколько изолированных точек локальных максимумов, в которых будет удовлетворяться (8), однако maxL(X, 0) достигаться не будет. Это будет иметь место в тех случаях, когда J(t) = f 1(χ,ί)Ρβ(άχ) имеет несколько точек максимума по t и, следовательно, решение уравнения (9) не единственно. Соответствующие примеры легко построить, если взять в качестве 0 параметр сдвига: /^(ж) = /(ж — 0) (# = R, θ = R), а в качестве f(x) симметричную «двухгорбную» функцию (например, f(x) = = -(φ(χ + 1) + φ{χ — 1)), где φ — плотность нормального распределения с параметрами (0,1)). Тогда интеграл J(0) будет иметь три точки 0 = 0, 0 = ±0ι, 01 > 0, в которых J(0) достигает локальных максимумов, J'(0) = = J'(±0i) = 0, при этом J(0) > J(±0i). Примерно такая же картина при больших η будет иметь место и для функции L(X,9). Найдем функции правдоподобия и о.м.п. для некоторых распределений из § 12. Для гладких функций правдоподобия максимум проще всего искать путем приравнивания нулю первых производных. Пример 1. Нормальное распределение Φα>σ2 и X = R имеет плотность (χ - α)2Ί Ψ"·ΑΧ) = ^^[ Ίο* Полагая в этом случае θ = (α,σ2), получим -оо < α < оо, σ > 0. Мх) = (2π)-"/2σ-"βχρ { -^ £> - «)2| , ЦХ,в) = -| 1η2π - ηίησ - ~ ]Г(х* - а)2. г=1
§16. Метод максимального правдоподобия 107 Так как In есть монотонная функция, то, как уже отмечалось, / и L достигают максимума при одних и тех же Θ. Имеем dL 1 ^, ч dL η Ι χ^, ч2 г=1 г=1 Решая для точки максимума систему уравнений 9α 'da получаем α* = χ, (σ2)* = 52 = ±][>-ϊ)2. Нетрудно проверить, что в этой точке действительно достигается максимум L. Пример 2. Рассмотрим Υ-распределение с плотностью 1а{х) = ^ду^"16"^' * ^ °> α > °> в случае, когда параметр λ известен. Имеем η η L(X,a) = ληΐηα - η1ηΓ(λ) + (λ — 1) ^1ηχζ - α^χ^, i=l i=l dL Xn _ λ •χ- = χη, α = -. σα α χ Пример 3. Биномиальное распределение Вр. Здесь для X ^ Вр имеем Р(х, = 1)=р, Р(х,=0) = 1-р, /р(Х)=р1/(1-р)яЛ где ν — число появлений 1 среди элементов χι,.. .,хп. Стало быть, L(X,p) = *Лпр + {п — ^)1п(1 — р), dL ν η — ν ^+ ν op ρ I — ρ η Мы предлагаем читателю в виде упражнения попытаться найти о.м.п. для всех параметрических семейств, приведенных в § 12, и сравнить их с оценками по методу моментов. Приведем теперь два примера несколько иного типа, когда функция fe не является гладкой по θ и методы отыскания о.м.п., связанные с дифференцированием, не действуют.
108 Гл. 2. Теория оценивания неизвестных параметров Пример 4. Пусть X ё U^i+fl (равномерное распределение на [Θ, 1+0]). Здесь /·(*) хе[в,1 + θ], χϊ[θ,ι + θ], fe(X) = lh 0<χ(ΐ)^χ(η)<1+0, \θ в противном случае, где Х(!) ^ ... ^ Χ(η) — вариационный ряд. Оценка м.п. в этом примере не единственна. Действительно, f$(X) = 1 (т.е. максимальному значению) при любых 0, удовлетворяющих соотношениям Х(п) -1^0^ х^. Так как х(п) ~~ х(1) ^ 1» т0 такие 0 всегда существуют. Мы можем взять, в частности, 0* = х(1) или 02 = х(п) - 1· Та« как θ\ > 0, 02 < 0, то лучше, по-видимому, взять ^ = |Й + ^) = ^(х(1)+Х(п)-1). Пример 5. Пусть Χ £ Uq,0. Здесь Λ(χ) = \о, х£[О,0], , /л_ч Г0~п> если χ, G [0,0] при всех г = 1,2, ...,п, 1^0 в противном случае. Чтобы получить более простую запись функции fe(X) как функции от 0, перепишем условие х^ Ε [0,0], i = Ι,.,.,η, в эквивалентной форме 0 ^ > таххг = Х(„). Таким образом, fe(X) = 0 при 0 Ε [0,Х(П)) и /^(Х) = 0"п при 0 £ [х(п),оо). График этой функции представлен на рис.1. Здесь, как * ив предыдущем примере, функция /# раз- | AW рывна. Максимум fg достигается в точке ^=Х(п)· Аналогичным образом читатель может найти о. м. п. для двумерного неизвестного параметра (α.β), когда Χ ^ υα,β· χ Q Если fe[x) не ограничена и точки xq, в которых fe(xe) = оо, зависят от 0, то ме- Рис· 1 тод максимального правдоподобия в значительной мере теряет свой смысл (мы приняли здесь соглашение fei^e) = оо, если fe(x) -> оо при χ I xq или χ ^ xq). Проще всего это понять на примере параметра сдвига, когда fe(x) = f{x - 0), f(x) > 0, /(0) = оо. Тогда fe{X) = оо при 0 = χι,..., 0 = хп и, стало быть, 0* принимает по крайней мере η значений, совпадающих с элементами выборки. Существо этого эффекта в том, что в этом случае «всплески» fe(X) не дают возможности судить о положении точки «истинного» максимума fe{X), обусловленного влиянием всей выборки (ср. с §34). Чтобы получить таковой, следовало бы каким-то образом «сгладить» выбросы fe{X)-
§ 16. Метод максимального правдоподобия 109 Оценки м. п. обладают следующим важным свойством инвариантности относительно замены параметра. Теорема 1. Пусть β(θ) есть функция, осуществляющая взаимно од- позначное отображение множества θ на множество В. Тогда если Θ* есть о.м.п. по выборке X параметра 0, то β* = β(θ*) будет о.м.п. по выборке X параметра β = β(θ) для параметрического семейства {Qp = *Ρ0(β)}β€Β, где θ(β) есть функция, обратная κ β(θ). Доказательство теоремы мы опускаем ввиду его очевидности. Отметим, что неявно мы уже пользовались теоремой 1 в примере 1, где в поисках о. м. п. для σ2 искали максимум L по σ и затем взяли (σ2)* = (Э*)2. Другой пример использования теоремы 1 — отыскание о. м. п. в случае X €= La<72, т.е. в случае, когда распределение хг- логнормально: 1пхг- ^ €= Φασ2. Для таких х^ среднее а и дисперсия d2 равны соответственно (см. § 12) а — ехр < а + — >, d2 = a2(exp (σ2) — 1). Если обозначить α* и (d )* о.м.п. для а и d2, то в силу свойства инвариантности получим для функции (a,d2) = /3(α,σ2) (см. пример 1) {-#}· а* = ехр (У + "f j ι (*)* = (S*)2(«P(#) - 1), 1 п 1 п где У = (у1,...,уп), Уг = lnxi, у = - УЧЙ, S£ = -У)(уг-у)2· г—I г=1 Приближенному вычислению о. м. п. в более сложных ситуациях посвящен § 35. 2. Асимптотические свойства о.м.п. Состоятельность. Как уже отмечалось, о. м. п. являются М-оценками и при выполнении некоторых условий регулярности — М-оценками. Если сравнивать условия состоятельности, которые можно получить для о. м. п., используя соответствующие результаты для М- и М-оценок, то окажется, что М-оценки являются более общими уже потому, что не требуют дифференцируемости /(я, Θ) по Θ. Поэтому для получения условий состоятельности о. м. п. мы воспользуемся результатами § 14 о состоятельности М-оценок. Следуя п. 14.1, мы будем предполагать везде, что выполнено условие (Ас) о компактности Θ (замечания по этому поводу см. в п. 14.1). Условие [Ао] и его аналоги в § 14 мы будем использовать в новой редакции применительно к функциям ψ(Χ)θ) = 1(χ,θ) и Р{А) = Pq(A). Эта новая редакция [Aq] следует из леммы 1 и приведена в начале параграфа в виде условия (Ао).
по Гл. 2. Теория оценивания неизвестных параметров Она означает, что расстояние Кульбака-Лейблера (см. §31) p(9,t)= ί\η^.Μχ)μ(άχ)>0 J ft[x) при t φ θ. Условия (Ао), (А(^) будут иметь соответственно вид: (Ао) Для любого δ > 0 inf ρ(θ,ί) > ε при некотором ε = ε(<5) > 0. (ΑΑ) Для любого δ > 0 существует Δ = Δ(<5) > 0 такое, что при всех ί, \t — θ\ > <5, Jlnj^yfe(xMdx)>e (11) при некотором ε > О, где ftA{x) = sup ft+u{x)· Из теоремы 14.1 вытекает Следствие 1. Если выполнено (А^), то о.м.п. Θ* сильно состоятельна. Пусть Л°(я) = limsup/u(a;). Из теоремы 14.2 вытекает u-*t Следствие 2. Условие (Aq ) эквивалентно одновременному выполнению следующих двух условий. (Aq) Для всех t φ θ I \ηψ&·Μχ)μ(άχ)<0. (J) При всех t и некотором Δ > О / fAlx) \ηψ^-'/θ{χ)μ{άχ) <оо. Условие (J), означающее интегрируемость положительных частей подынтегральных функций, эквивалентно по существу ограниченности / fQ(x) In —7— - /θ(χ)μ(άχ) < оо, где /θ(x) = sup ft(x). tee Приведем теперь более простые достаточные условия, обеспечивающие выполнение (А§) и (J) и, стало быть, сильную состоятельность о.м.п. Определение 2. Будем говорить, что ft(x) принадлежит классу Д), если для каждого t € Θ существует множество Ct € 93,*, Pe(Ct) — 1, на котором ft{x) непрерывна по t ftk(x) —> ft(x) при t^ —> t, x Ε Ct.
§16. Метод максимального правдоподобия 111 Классу -Do помимо непрерывных (по t) ft{x) на не зависящем от t множестве С, Р#(С) = 1> принадлежат, конечно, и многие другие функции такие, например, для которых ft{x) в плоскости (£,я) имеет изолированные линии разрыва, не имеющие участков, параллельных оси х. Так будет, в частности, если ft{x) как функция от χ имеет изолированные разрывы в точках (1) (2) х\ ' ,х\ ,..., которые непрерывно зависят от t. Теорема 2. Если ft{x) £ -Do и выполнено (J), то выполнено условие (Aq), Щ следовательно о.м.п. Θ* сильно состоятельна. Доказательство. Если ft(x) G Д>, то ft{x) = ft(x) при χ Ε Ct и, стало быть, / In £М · MxMdx) = -р(0, <) < 0. < Следствие 3. Ясли /*(ж) € Do ограничена, а интеграл /θ{χ)1η/θ{χ)μ{άχ) (12) /· конечен, то о. м. п. сильно состоятельна. Утверждение следствия 3 немедленно вытекает из теоремы 2, так как ограниченность ft(x) и конечность интеграла (12) влекут за собой условие (J). Следствие 4. Если φ(Α) = / sup \ft+u(x) - Μχ)\μ{άχ) -> 0 (13) J \u\^A при Δ —> 0, то о. м. п. сильно состоятельна. Доказательство. Воспользуемся теоремой 2. Принадлежность ft{x) £ Dq очевидна, так как (13) может выполняться лишь в случае, когда ft+u{x) -* ftix) при гл —> 0 для п. в. [μ] значений х. Далее, J £[χ)μ{άχ) < φ(Α) + jίι{χ)μ{άχ) = φ(Α) + 1, fA(X) и условие (13) означает также интегрируемость f^(x). Так как In f ^ few fA(x) ^ ь v — 1, то отсюда получаем, что интеграл в условии (J) не превосходит ЛИ Ι/ίΑ(χ)μ(άχ)-1^φ(Α). < Вместо (13) мы могли бы требовать сходимости к нулю величины <Ρι(Δ)= / sup {y/ft+u{x) - y/ft{x) )2μ{άχ), J Ы\<А
112 Гл. 2. Теория оценивания неизвестных параметров так как φ(Δ) можно оценить с помощью φι{Δ) неравенством φ(Δ) ^ / sup \y/ft+u(x)- \βάχ)\ sup \y/ft+u(x) + \ίΰ(χ)\μ{άχ) < < φ\Ι2{Δ) / sup (Vft+u(x) - у(Щ+ 2\/7t(^) )V(<*r) < <[2¥>1(Δ)(^1(Δ)+4)]1/2. Следствие 5. Если ft(x) дифференцируема no t для η. β. [μ] значений χ и (14) \ίΆχ)\μ(άχ) <с<оо, то о. м. п. Θ* сильно состоятельна. Доказательство. Принадлежность ft(x) G Do очевидна. Для выполнения условия (J) достаточно, как мы видели в доказательстве следствия 4, интегрируемости /гЛ(я). Но f &(χ)μ(άχ) ^ J Шх) + f\ft+u{x)\ du μ(άχ) = = 1 + Δ - f [f\fl+u{x)№dx) -Δ du < 1 + 2Δα Остается воспользоваться теоремой 2. Следствие 6. Пусть θ есть параметр сдвига семейства fe(x) = = f(x — 9), J f(x) lnf(x) dx > — оо. ^слг/ функция f(x) ограничена (иначе метод максимального правдоподобия теряет свой смысл; см. замечание перед теоремой 1) и имеет множество В точек разрыва, лебегова мера замыкания которого μ(Β°) равна нулю, то о. м. п. Θ* сильно состоятельна. Доказательство. Проверим выполнение условий теоремы 2. Условие (J) выполнено очевидным образом. Принадлежность ft{x) G Do вытекает из определения Do, в котором надо положить Ct — Bc — t (это есть сдвиг множества Вс на t, Bc есть дополнение к замыканию множества В). Так как множество Вс открыто, то χ — t G Bc — t влечет за собой χ — ί* G Bc — t при достаточно малых |ί* — ί|. Это означает, что f{x — tk) —> f(x — t). Следствие доказано. < Отметим, что в условиях следствия б предполагать выполненным условие (Ао) излишне — оно выполняется автоматически. Если допустить, что
§16. Метод максимального правдоподобия 113 (Ао) не имеет места, то мы придем к периодичности функции /(ж), что невозможно. Относительно условий следствия 6 заметим, что условие на «непрерывность» /(я), сформулированное в нем, является весьма слабым. Но и оно, по-видимому, не существенно. На это указывает в какой-то мере следующий пример. Пример 6. Пусть f(x) — произвольная функция, имеющая ограниченный носитель (а, Ь) = {х : f(x) > 0}. Тогда Р*# - 0| > *U (1 - F0(a + δ))η + F£(b - ί), (15) χ где Fo(x) = / f(y)dy. Неравенство (15) означает сильную состоятель- -00 ность Θ*. Оно следует из соотношений вида (71 ") П Ц/,+,(*,) > О I С р|{хг ^ α + θ + δ}, i~l J i=l Ρθ{θ* -0>S)<^[l-Fo{a + 9 + δ)]η = [1 - F0(a + i)]n. Условие на конечность интеграла / f(x)lnf(x)dx в следствии 6 в известном смысле тоже не существенно: легко построить пример, когда этот интеграл обращается в —оо, а условие (J) будет выполнено. Все сказанное в следствии 6 и после него полностью сохраняет свою силу для параметра масштаба. Если бы для отыскания условий состоятельности о. м. п. мы стали применять теорему 14.3 о состоятельности М-оценок, то мы столкнулись бы среди других с требованием дифференцируемости ft(x) по £, которое само по себе есть намного более сильное условие (при выполнении (Ао)), чем, скажем, (11). Замечание 1. В целом применительно к о.м.п. имеет место в известном смысле парадоксальная ситуация (мы будем убеждаться в этом на примерах): для доказательства состоятельности (и особенно асимптотической нормальности; см. ниже) мы предполагаем выполнение некоторых свойств гладкости ft{x)· На самом же деле, чем менее регулярна /^(а:), тем, как правило, лучше оказываются свойства о. м. п. Иллюстрации этого факта можно найти в § 30, 32. 3. Асимптотическая нормальность о.м. п. Оптимальность в классе JVf-оценок. Обратимся теперь к свойству асимптотической нормальности о. м. п. Она будет вытекать из следующего утверждения, являющегося следствием теоремы 14.4. Это утверждение устанавливает также нижнюю границу для разброса М-оценок и оптимальность о. м. п. в классе М. Теорема 3. Предположим, что функцияд(х,0) удовлетворяет условиям теоремы 14.4 и законно дифференцирование под знаком интеграла
114 Гл. 2. Теория оценивания неизвестных параметров β равенстве 9{χ,θ)/θ{χ)μ{άχ) = 0. /■ Пусть, кроме того, выполнены следующие условия: a) Ι(χ,θ) дважды непрерывно дифференцируема по 0; sup|Z"(x,0)| </(z), [1{χ)/θ{χ)μ(άχ) < οο; (16) 0€θ J b) пусть 0 < Ι(θ) = Εβ(ΐ'(χι, θ))2 = J(l'(x, θ))2Μχ)μ(άχ) < οο; (17) c) законно дифференцирование под знаком интеграла в равенствах j ίθ{χ)μ{άχ) = 1, [ ϊ(χ,θ)Μχ)μ(άχ) = 0; d) уравнение относительно t 1'(χ,ί)Μχ)μ(άχ)=0 l· имеет единственное решение t = Θ. (В с) второе равенство получается дифференцированием первого; из с) вытекает, что Ε^/7(χι,θ) = —7(0).) При выполнении этих условий М-оценка 0*, соответствующая функции д, и о. м. п. Θ* асимптотически нормальны. Коэффициент разброса Θ* (см. теорему 14.4) удовлетворяет неравенству Έθ92(χ1,θ)(Εθ9'(χ1,θ))-2 > Г1 (θ) (18) и достигает своего наименьшего значения, равного Ι~ι(θ) при д(х,в) = = Ι'(χ,θ) (т. е. коэффициент разброса 0* всегда больше или равен коэффициенту разброса 0*). Доказательство. Заметим прежде всего, что условия a)-d) достаточны для того, чтобы функция V(x,6) наряду с д(х,9) удовлетворяла условиям теоремы 14.4. Поэтому нам надо доказать лишь последнюю часть теоремы, связанную с неравенством (18). Имеем (аргументы для краткости опускаем) УV/ + jV = o = уV/ + Уgi'f, Евд'(хив) = Jg'f = -jgl'f = -Ввд(хив)1'(хив).
§ 17. О сравнении оценок 115 По неравенству Коши-Буняковского отсюда находим (Евд'(хив))2 = (Евд(хив)1'(хив))2 < Εβ92(χ1,θ)Εθ(ϊ(χ1,θ))2. (19) Это доказывает неравенство (18). В силу a)~d) все сказанное применимо и к функции д = /', для которой в (19) достигается равенство. Теорема доказана. < Замечание 2. Условие с) о законности дифференцирования будет выполнено, если эти интегралы после дифференцирования сходятся равномерно по θ (в окрестности точки Θ). Это условие, в свою очередь, будет выполнено, если в (16) и в условии {М[) из § 14 потребовать, чтобы оценочные интегралы вида / 1(χ)/β(χ)μ(άχ) сходились равномерно по θ (в окрестности точки Θ); см. об этом также в §34 и в приложении V. Значение Ι(θ) = Ε0(/'(χι,0))2, присутствующее в (17), (18), играет значительную роль в теории оценивания параметров. Оно будет характеризовать наименьший возможный разброс оценки около истинного значения параметра θ не только в классе М-оценок, но и в классе вообще всех оценок. Асимптотические свойства о.м.п. будут более подробно изучены в § 33-37. В примерах 1-5 мы имели дело с распределениями, для которых о. м. п. без труда могла быть найдена в явном виде. В общем случае поиски о. м. п. сопряжены обычно со значительными вычислительными трудностями. Например, для параметра сдвига θ распределения Коши с плотностью [π(1 + (χ — 0)2)]"1 о.м.п. θ* является решением уравнения степени 2п — 1, так что при больших η отыскание Θ* становится весьма сложным. Все условия теорем 2, 3 при этом выполнены, так что Θ* будет в этом случае 1'{χ,θ) = ; —, 1 + (ж — θγ Ε»«'<^»2 = !/(ΤΤ^ = {)- Процедура приближенного вычисления Θ* в этом примере приведена в § 35 (см. также §18 об асимптотической эквивалентности Θ* L-оценке). Там же содержатся другие примеры, удовлетворяющие условиям теорем 2, 3 и иллюстрирующие процедуру вычисления о. м. п. § 17· О сравнении оценок Мы видели, что существует много весьма естественных подходов к получению оценок. Возникает вопрос — как сравнивать между собой разные оценки и какие оценки следует предпочитать другим? В этой главе мы выделим два подхода к сравнению оценок — среднеквадратический и асимптотический. Более общий подход, основанный на использовании элементов
116 Гл. 2. Теория оценивания неизвестных параметров теории игр и произвольных (не только квадратических) функций потерь, изложен в главе 6. Первый из двух названных подходов основан на сравнении среднеквадратичных уклонений. Второй подход применим лишь к выборкам большого объема, так как он основан на сравнении «рассеиваний» распределений для (0* — 0)у/п при больших п. Основанием для такого сравнения служит обычно вид предельных распределений для (0* — в)у/п при η —> со (если таковые существуют). Соответствующие предельные теоремы дают нам условия, при которых распределение (0* — 9)у/п при больших η можно приближать с помощью упомянутых предельных распределений. В этом параграфе предполагается, что оценки сравниваются при каком-то одном неизвестном, но фиксированном распределении выборки Р. 1. Среднеквадрэтический подход. Одномерный случай. Этот подход используется при рассмотрении оценок по выборке X любого фиксированного (не обязательно большого) объема. Он состоит в сравнении среднеквадратичных уклонений Е(0* — 0)2. Правило 1. Оценку 0*, в соответствии со среднеквадратическим подходом, будем считать лучшей, чем 0£, если Έ,{ΘΙ-Θ)2<Έ,{Θ*2-Θ)\ (1) Широко распространено представление о том, что среднеквадратичная погрешность является наиболее подходящей числовой характеристикой точности оценки, хотя это обстоятельство со многих точек зрения является спорным — ведь можно сравнивать, скажем, величины Е|0* — 0|, также описывающие средние значения уклонений 0* от 0. Несомненное преимущество характеристик Е(0* — Θ)2 составляет тот факт, что (0* — 0)2 есть аналитическая функция разности 0* — Θ. Это делает многие рассмотрения более удобными, а также позволяет приближать, как мы увидим позже, значения Е/(0* — 0) для гладких функций /. Наряду со среднеквадратичным уклонением для описания свойств оценок часто используется также величина смещения. Определение 1. Смещением оценки 0* называется величина b = Е0* - 0. Оценка 0*, для которой 6 = 0, называется несмещенной. Среднеквадратичное уклонение связано со смещением и дисперсией оценки равенством Е(0* - 0)2 = D0* + б2, так что для несмещенных оценок среднеквадратичное уклонение совпадает с дисперсией. Само по себе свойство несмещенности представляется, очевидно, желательным свойством оценок, поскольку оно означает, что в данной последовательности оцениваний среднее значение оценок будет совпадать с истинным значением параметра. Если этого свойства нет, то оценка называется смещенной.
§17. О сравнении оценок 117 Пример 1. Рассмотрим следующие три оценки для среднего значения θ = Εχι распределения Ρ 6>Г = х, (?| = Г, ^з = Х(1)2Х(П)' (2) где ζ* — выборочная медиана, Х(м, к = 1,..., п, — значения вариационного ряда, так что С* = Χ((η+ΐ)/2)ι если п нечетно, и (* = ^(п/2) + Χ(η/2+ΐ))ι если η четно (при η = 1,2 все три оценки совпадают). Все оценки являются несмещенными, если распределение Р, из которого извлечена выборка, симметрично относительно θ (Р((—оо, θ — t)) = Р((0 + t, оо)) при любом t ^ 0). Это следует из того, что распределение всех трех оценок также будет симметричным относительно 0. Для χ утверждение о несмещенности Ех = 0 очевидно и без предположения о симметрии. Вычислим среднеквадратичные уклонения оценок (2). Для простоты мы ограничимся случаем Ρ = Uo,i, n = 3, для которого оценки (2) перейдут в д* _ = д* _ ν й* _ χ(ΐ) + Х(3) Имеем 2 36 ^-/(.-i)'*-!, ЕИ-^ = И-^-^ Далее, в силу определения медианы (п нечетно) {С* < х} — {F^{x) > 1/2} и, стало быть, ^ ' к=(п+1)/2 (3) Для η = 3 p{f;(x) = ι) = ρ т{* < *}) = **(*). P(3F3*(z) = 2) =3i?2(s)(l-*"(*))■ Вероятность Р(С* € (гх,г* + с/и)) складывается из вероятностей событий вида {xi Ε (г*, г* + du)}{x2 < ^}{хз > ^}· Так как всего возможно шесть таких комбинаций, то Р(С* £ {щи + du)) = 6f{u)F{u){l — F{u))du, и, следовательно, С* имеет плотность, равную (это вытекает и из (3)) 6f(u)F(u)(l-F(u)),
118 Гл. 2. Теория оценивания неизвестных параметров где F(u) = / f{t)dt = Ρ(χι < и). В случае Р = Uo,i эта плотность будет — 00 равна 6х{\ — х) при χ Ε [0,1], так что ι Е(С*)2 = |б*3(1 - x)dx = 6 Q - \} - iQl о DC* = Е(С*)2 - (ЕС*)2 = — - - = —. s ^ ; ^ ^ 10 4 20 Нам осталось найти дисперсию оценки 0* _ x(i) + х(з) 3 2 Рассуждая аналогично предыдущему, нетрудно убедиться, что вероятность Ρ(χ(ΐ) £ {u,u + du), Х(з) € (υ,υ + ώ)) при u < ν равна 6f(u)f(v) x χ (F(i;) — i^(w)) dudv. Поэтому для Р = Uo,i ι ν 2 Значение этого интеграла равно 11/40 (вычисления читатель может провести самостоятельно), так что ва; = ЕИ)'-(Е*з)2 = 1Н = |;. Итак, оценка θ% оказалась наилучшей. Для других значений η и других распределений Ρ положение может оказаться другим. Мы увидим, например, что для Ρ = Φα?σ2 наилучшей оценкой для α будет 0* = х. При мер 2. Несмещенные оценки дисперсии. Рассмотрим оценку для дисперсии а также оценку S! = -T(xi- Ex;)2 = - У; х2 + (ЕхО2 - 2хЕХ1 (обе по принципу подстановки) в том случае, когда Εχι известно. Оценка S\, очевидно, является несмещенной. В то же время 52 = - ]Г(х; - χ)2 = i J> - χ ± ΕΧ1)2 = = - Σ(χ< - ЕхО2 - (χ - ЕхО2 = Sf - (χ - EX1)2 < Si
§ 17. О сравнении оценок 119 Таким образом, оценка S2 является смещенной, ES2 = Dxi - Dx = (1 - - J Dxi. Это соотношение показывает, что мы можем рассматривать и в случае неизвестного Εχι несмещенную оценку дисперсии, равную So2 = -V2 = -Ц- Σ(χ< - χ)2' Е5о = Dxi· П — 1 П — 1 ^—-' Перейдем теперь к асимптотическому подходу к проблеме сравнивания оценок. В этом случае правило для предпочтения оценок выбирается однозначно. 2. Асимптотический подход. Одномерный случай. Пусть даны две оценки 0* и 0£ такие, что -U UL- ^ q5 L* L ^ q5 (4) σι σ2 где Q — некоторый предельный закон распределения, один и тот же для 0* и #2? ^ σ2 > 01- Тогда при больших η распределения (0* — 0) χ/η/σ^, г = 1,2, будут близки к Q, и несомненно, что «рассеивание» 0£ вокруг 0 будет больше «рассеивания» 0*, и нам следует предпочесть θ\. Числа <т; естественно называть коэффициентами рассеивания. Таким образом, существо асимптотического подхода состоит в сравнении предельных распределений оценок. Мы уже видели и будем убеждаться в этом и в дальнейшем, что многие возникающие естественным образом оценки, в том числе и оптимальные (об этом ниже), являются асимптотически нормальными, т.е. для них справедливо (4) при Q = Фол· Это позволяет нам сформулировать следующее естественное правило сравнения а. н. оценок. Пусть даны две а. н. оценки 0* и 0£ с коэффициентами рассеивания σ\ и σ? соответственно 2 Правило 2. Оценку 0* следует признать лучшей, чем 0£, если σ\ < σ\. Мы использовали это правило для выделения оптимальных оценок в п. 16.3. В дальнейшем, при использовании этих и других правил, будем наряду с термином «лучше» использовать, где это требуется, также слова «не хуже», «хуже», «не лучше». Они будут соответствовать знакам неравенства ^, >, ^ между σ\ и σ\ (или между Е(0* — 0) и Ε(02 - θ) в (1)). Если σ\ = σ\, то оценки мы будем называть асимптотически эквивалентными. Предлагаемое соглашение естественно, и в дальнейших определениях мы оговаривать его каждый раз не будем, а будем ограничиваться лишь определением отношения «лучше» или аналогичных ему. Отметим, что в классе а. н. оценок минимальность рассеивания 0* означает, что величина lim Р(|0*-0|/<г^) π—юо
120 Гл. 2. Теория оценивания неизвестных параметров будет максимальной при каждом и. Это обстоятельство делает указанное правило для сравнения а. н. оценок бесспорным. Асимптотический подход при всей своей естественности обладает существенным недостатком: он применим лишь к выборкам большого объема и лишь в классе a. w. оценок. Отмеченные два подхода в известном смысле близки друг к другу — в обоих случаях дело сводится к сравнению дисперсий или величин, близких к ним. Конечно, величина σ2/η в (4) при Q = Ф0д может, вообще говоря, существенно отличаться от Е(#* — Θ)2. Однако примеры, иллюстрирующие этот факт (мы предлагаем читателю построить их), носят, как правило, искусственный характер. Дальнейшее изложение этой главы во многом связано с построением оценок, оптимальных для каждого из двух введенных подходов. Пример 3. Пусть X €= Γαιι· В примере 14.1 было показано, что обе оценки -1/2 «ί-m-. «4-(sE^)' являются оценками по методу моментов. Кроме того, а* является также о. м. п. Было установлено, далее, что обе оценки а.н. с коэффициентами соответственно а2 и ~а2, так что оценка а* лучше, чем а^, с точки зрения асимптотического подхода. Тот же результат при η ^ 2 получим для среднеквадратического подхода. Приведем теперь пример, показывающий, что в зависимости от свойств распределения одна и та же оценка может быть лучше или хуже, чем некоторая другая фиксированная оценка. Пример 4. Рассмотрим задачу об оценке θ = Εχχ, если известно, что I § Ρ иР — симметричное относительно точки θ распределение (ср. с примером 1). В этом случае медиана распределения ζ совпадает с Θ. Мы рассмотрим две оценки для θ (обе по принципу подстановки): среднее 0* = χ и выборочную медиану Q\ = ζ*. Пусть, для определенности, η нечетно. Из следствия 12.1 при к = (п + 1)/2 следует, что если функция распределения F непрерывно дифференцируема в точке θ = £, то (С*-СЬ/^=*2Лё), ^фо,ь f(x) = F'(x). Иными словами, в этом случае ζ* является а.н. оценкой с коэффициен- том а\ = 1/(4/2(0). С другой стороны, а.н. оценка χ имеет коэффициент σ\ = Dxi. Таким образом, если / Ϊ2 — ν . 1 (x-CYdF{x) < 4/2(С)' то мы должны предпочесть оценку х. Если знак неравенства будет обратным, то С*. Следует отметить, что числа / (х — ζ)2 dF(x) и /(ζ) представляют очень мало связанные между собой характеристики распределения.
§17. О сравнении оценок 121 Рассмотрим важный частный случай, когда мы оцениваем параметр α по выборке X €= Φα,σ2. В этом случае /(α) = /(ζ) = 1/<7\/27г, так что 2 π 2 ^ 2 2 ^2 = 2σ >σ =σι· Это значит, что статистика х, являющаяся в данной ситуации о. м. п. для а, лучше, чем ζ*. Это обстоятельство тесно связано с общим фактом, который будет установлен нами несколько позже, что в широких классах а. н. оценок Θ* о. м. п. Θ* является асимптотически наилучшей: ее коэффициент рассеивания является наименьшим в этих классах. Возвращаясь к примеру 4 о сравнении выборочных медианы и среднего, еще раз отметим, что, как было показано, существуют распределения, для которых выборочная медиана будет предпочтительнее х. Пример с медианой весьма поучителен и в другом отношении. Он показывает, что скорость убывания степени рассеивания ζ* — ζ с ростом η может быть любой. Чтобы убедиться в этом, достаточно обратиться к замечанию 12.1. В условиях этого замечания нормирующим множителем, который обеспечивает сходимость распределения ζ* — ζ к предельному распределению, является величина nl^2l\ где 7 может быть любым неотрицательным числом (см. (12.12)). Множитель у/п соответствует лишь гладким распределениям. Приведем теперь один численный эксперимент с выборкой X объема η = = 101 из нормальной совокупности Фдд и посмотрим*), как значения χ и ζ* приближают 0 при η = 11, 21, 51, 101. Полученные данные приведены в следующей таблице: η X г 11 -0,283 -0,291 21 -0,254 -0,292 51 -0,148 -0,078 101 -0,072 -0,044 В этом примере оценка ζ* при η = 51, 101 ведет себя лучше, что есть результат случайного отклонения. Чтобы почувствовать преимущества х, надо было бы провести много таких экспериментов. Приведем теперь некоторые общие результаты, связанные с рассмотренными примерами. 3. Нижняя граница рассеивания для Ь-оценок. В связи со сформулированным выше правилом сравнения а. н. оценок возникает естественный вопрос, насколько малым может быть сделан коэффициент рассеивания этих оценок. Для некоторых классов оценок нижняя граница возможных значений рассеиваний может быть найдена в явном виде. Для М-оценок такие границы были найдены в теореме 16.3. Здесь мы остановимся на этой задаче для L-оценок, т.е. для оценок, являющихся L-статистиками, рассмотренными нами в §3, 8. Это есть класс оценок (или статистик), представимых в виде линейной комбинации членов вариационного ряда (мы предполагаем, *' Выборка X построена с помощью случайных чисел, взятых из таблиц в [10] (взяты первые 101 чисел на с. 434).
122 Гл. 2. Теория оценивания неизвестных параметров что Xi ЕМ), или функций от них. Как и в главе 1, ограничимся L-оценками не самого общего вида: η . °° θ* = 1^φ(^9^{ΐ))= j ψ(Ρ*{η))9{η)άΡ*{η) = 0{Ρ*η), (5) 1=1 -оо или в несколько иной, близкой, записи: 1 o* = fv>(t)g{F;1{t))dt, (6) о где ψ, д — заданные функции, F~l — функция, обратная к F£- В §8 было установлено (см. следствие 8.6, замечание 8.3), что если X €= F, φ и F непрерывно дифференцируемы, то L-оценки являются а.н. оценками: yfr{G{FZ)-G{F))&*w, 1 σ2- /A2{t)dt-A\ о 1 A{t) = J α(ί)Λ, ο(ί) t Так как σ2 инвариантно относительно замены A(t) на ±A(t) + с, то можно сказать также, что в (7) A(t) — любая функция с производной Л'(£), равной —α(ί), и считать ее выбранной так, что А = 0. Простоты ради положим ^(х) ξ я. Это не очень ограничивает общность, так как для монотонной д значения #(x(i)) вместе с х^ образуют вариационный ряд (см. (5)). В этом случае все разнообразие L-оценок доставляется функцией φ. Фиксируем значение ι / ψ{ί) dt = const = φο, (8) о где φο может выбираться, например, так, чтобы оценка Θ* была несмещенной. Итак, если X €= F) F имеет плотность /, то в сделанных предположениях мы можем записать ι a2 = jA\t)dt, А'(*) = -"М = -п%-щу О) О где φ удовлетворяет (8). Через /, /, /, I будем обозначать производные f(x) и 1{х) — In/(а;) по х, сохраняя обозначения /#. /^', /', I" для производных fe{x) и Ι(χ,θ) = Infe(x) по параметру Θ, ι А= J A{t)dt, о 4>W(F-l(t)) F'(F-Ht)) ■ (7)
§17. О сравнении оценок 123 Теорема 1. Если f имеет производную /, то при всех φ, удовлетворяющих (8), σ2 > σΐ = ψΐΓ\ (10) iij^du^J{i{u))2f(u)du. (11) 7 = Если I < oo, / имеет вторую производную f и существует / f(u)du, то I — — If {и) du и равенство в (10) достигается при <p{t)=<p0r4(F-1{t)), (12) где φο из условия (8). Здесь мы опять сталкиваемся с тем, что интеграл 7, аналогичный (16.17), определяет нижнюю границу возможных значений коэффициентов разброса. Доказательство. Так как f(u) —> 0 при и —> ±оо, то, интегрируя по частям, получим в силу (9) i 1 1 φ0= I\p{t)dt = fa{t)f(F-l(t))dt = ί A(t) о о По неравенству Коши-Буняковского 1 1г. f(F-4t)) dt. Ψο ^ ίA2{t)dt ί ο ο L f(F-4t)) dt, (13) где второй интеграл после замены t = F(u) превращается в 7. Отсюда следует (10). Равенство (11) следует из соотношений / = *"/, f = 'if + (i)2f, y/(«)d« = o, последнее из которых получается, если два раза продифференцировать по θ в точке θ = 0 равенство / f{u + 0)du = 1. Знак равенства в (13) достигается при ^i)=c/Pi=c,'(F"1(i))· Отрицательная производная этой функции равна 'i(F-Ht)) (14) a(t) = —с f(F-4t)Y
124 Гл. 2. Теория оценивания неизвестных параметров Сравнивая это с (9), получаем <p(t) = -d(F-1(t)). Для этой функции A(t) = cl(F~l(t)) +с\. Условие А = 0 и соотношение (14) будут выполнены при с\ = 0. Условие (8) будет выполнено при с = —φοί"1. Теорема доказана. < Заметим, что свойство l(u) = const реализуется лишь для нормального закона. С другой стороны, из (6) видно, что оценка Θ* будет статистикой I типа (см. § 3) лишь при φ(η) = const. Это означает, что нижняя граница возможных значений σ2 может достигаться на статистиках I типа (в классе L-статистик) лишь для выборок из нормальных совокупностей. Посмотрим теперь, как выглядят два подхода к сравнению оценок, сформулированные в п. 1,2 в многомерном случае, когда θ есть вектор (0ι,..., θ^)· 4. Среднеквадрэтический и асимптотический подходы в многомерном случае. Асимптотический подход, как и прежде, мы будем использовать лишь в классе а. н. оценок. В этом случае все дело сводится к сравнению многомерных нормальных распределений (предельных для (Θ* — 0)\/п), которые полностью описываются матрицей вторых моментов σ2 (см., например, теорему 13.2А). Если рассматривать среднеквадратический подход к сравнению точных распределений 0*, то дело также сведется к возможности сравнивать два распределения в Шк на основании знания моментов (θ* — Θ) второго порядка. Таким образом, в обоих случаях мы должны уметь сравнивать по «степени рассеивания» матрицы моментов второго порядка. Рассмотрим наиболее естественные способы сравнения. Пусть Qi и Q2 — произвольные распределения в Шк. Обозначим через ξι и £2 какие-нибудь случайные векторы, обладающие этими распределениями: ^ €= Q^. Определение 2. Мы будем говорить, что среднеквадратичное рассеивание распределения Qi около точки α Ε Шк не больше, чем рассеивание Q2, если для любого вектора α = (αϊ,..., α&) Ε(ξι-α,α)2<Ε(ξ2-α,α)2, (15) к где (х, a) = 2_.xiai есть скалярное произведение. i=l Будем говорить, что рассеивание для Qi меньше, чем для Q2, если в (15) имеет место знак строгого неравенства хотя бы для одного а. Если а = Εξι = Е^2? то неравенство (15) означает, что по любому направлению а дисперсия распределения Qi (т.е. дисперсия проекции ξι на а) не превосходит такой же величины для Q2. Если df = \\dJ\\ — матрица вторых моментов Qj, I = 1,2, то, раскрывая скобки в (5) при α = 0, получим для любых αϊ,..., α& к к Σ 4))а^ < Σ diij)aiaj' (16) ij=l i,j=l
§17. О сравнении оценок 125 Это соотношение на языке матриц мы будем обозначать 4 ^ 4 (17) Оно означает неотрицательную определенность матрицы d| — ^ϊ· Таким образом, среднеквадратичное рассеивание Qi около нуля не превосходит такового для Q2 тогда и только тогда, когда для матриц моментов второго порядка имеют место неравенства (16), (17). Правила предпочтения оценок в многомерном случае можно сформулировать следующим образом. Среднеквадратический подход: оценка 0* лучше, чем 0£, если среднеквадратичное рассеивание 0* около точки 0 меньше, чем такая же величина для #2- Если df есть матрица вторых моментов 0г* — 0, то утверждение «оценка 0* лучше, чем 0£» означает, что d\ < d\. Асимптотический подход: оценка 0* лучше, чем 0г[, если среднеквадратичное рассеивание около нуля предельного распределения для (0* — 0) у/п меньше, чем такая же величина для (02 — в)у/п. Другими словами, если (0* — 0) у/п ©► Φα σ2, то утверждение «оценка θ\ лучше, чем 0£» означает, что σ\ <σ\. Можно показать, что если 0* и 02 — две а. н. оценки и 0* лучше, чем 02, то lim ((0? - 0)7^ £ В) > lim Р((0£ - 0)^ Ξ В) (18) для любого центрального эллипсоида*) В. Мы видим, что в обоих случаях сравнение оценок сводится к установлению неравенств для матриц моментов второго порядка. Некоторое отличие состоит в том, что в первом случае моменты не обязательно центральные. Установим теперь некоторые соотношения, эквивалентные (16), (17). Положим <;(0*) = E(0*-0)F(0*-0)T и обозначим через 93+ множество всех неотрицательно определенных матриц V = \\vij\\. Если \\dij\\ есть матрица вторых моментов 0* — 0, то, очевидно, ν{θ*) = Y^Vijdij. Лемма 1. d\ ^ d\ тогда и только тогда, когда г>(0*) ^ ^(0^) для любых V G 55+. Доказательство. В одну сторону утверждение очевидно, так как матрица Va = ||α;α^'|| Ε 55+, и для такой матрицы να{θΙ) = Ε (β? - Θ)να{θΐ - θ)Τ = Σ*αί4'} (см. (16)). А: *' Ради краткости условимся область Σ dijXiXj ^ с называть эллипсоидом в R*, а к поверхность Σ dijXiXj = с — эллипсом.
126 Гл. 2. Теория оценивания неизвестных параметров Чтобы доказать утверждение в обратную сторону, заметим, что частичный порядок, основанный на неравенствах (15), инвариантен относительно вращения осей координат. Именно, если С — матрица ортогонального преобразования и Θ* лучше #2 Для параметра 0, то 9\С лучше Q\C для параметра 0С. Это следует из равенств (θΐΟ - ΘΟ, а) = ((в; - в)С, а) = (θ\ - 0, аСт) и определения 2. Пусть теперь d\ < ά%, т.е. Σφααι, К^ЛУащ. (19) Это означает, что ν(βΐ) < ν {θ2) для матриц V вида Va = ||ai%"||> a стало быть, и для диагональных матриц Vdiag Ε 23+, поскольку последние пред- ставимы в виде суммы к матриц вида Va. Пусть теперь V — произвольная матрица из 55+, С есть ортогональное преобразование такое, что CTVC — = Vdiag- ТогД3 υ{θΙ) = Έ(θί - θ)ν(θ{ - Θ)Ύ = E(0J - θ)θνάΪΆ&Οτ{θΙ - Θ)Τ. Из сделанных выше двух замечаний и из (19) следует, что правая часть этого равенства меньше, чем Е(02* - e)CVdiaeCT(ΘΪ - Θ)Τ = Ε{θ*2 - θ)ν(θ*2 - θ)Τ = υ(θ*2). < Существует и другой способ сравнения рассеивания (см. [58]), который предполагает, однако, что оба распределения Qi и Q2 не вырождены в Rfc и имеют нулевое среднее. В этом случае матрицы центральных вторых моментов df будут положительно определены, и для них существуют обратные 4 = КГ1. Пусть d2 есть матрица вторых моментов распределения Q и А = (d2) l. Определение 3. Эллипсоидом рассеивания распределения Q называется эллипсоид tAtT ^ к + 2, который однозначно выделяется среди всех эллипсоидов следующим своим свойством: если рассмотреть равномерное распределение U на этом эллипсоиде (т. е. распределение вКАс постоянной плотностью внутри эллипсоида и нулевой плотностью вне его), то первые и вторые моменты Q и U совпадают (см. [58, с. 333]). Лемма 2. Пусть матрицы d2, I = 1,2, невырождены. Среднеквадратичное рассеивание Qi около нуля не больше рассеивания Q2 тогда и только тогда, когда эллипсоид рассеивания для Qi лежит в эллипсоиде для Q2- Доказательство. Пусть эллипс tA\tT — 1 лежит внутри tA2tT — — 1. Как известно, существует невырожденное линейное преобразование
§17. О сравнении оценок 127 t = uL, которое переводит эллипс tA\tT = 1 в единичную сферу 5ι, а эллипс tA2tT = 1 — в эллипс #2 с главными осями по направлениям осей координат. Это означает, что А\ = LA\LT — Ε (единичная матрица), A2 = LA2LT = diag (λ?,...,λ|), 0 < Aj < 1, j = 1,...,Л. Так как If1 = β, Α^1 = diag (λ^2,..., λ^2), то эллипс tA^t1 = 1 будет инверсией относительно единичной сферы S\ эллипса 5г, и, следовательно, он будет располагаться в S\. Так как А^ = {L )~lA2L~l, то, делая «обратное» преобразование и — tLT, получим, что эллипс tA^ltT = td\tT = 1 лежит снаружи от tA^t1' = td\tT = 1. Очевидно, что такое же соотношение справедливо для эллипсов td\tT = с и td\tT = с. Но это означает, что равенство tdftr -=- с влечет за собой td\t^ = с ^ td2tT. Утверждение в обратную сторону доказывается точно так же. <] Важно заметить теперь, что в отличие от одномерного случая сравнение рассеиваний распределений с помощью матриц вторых моментов устанавливает лишь частичный порядок на множестве всех распределений. Например, матрицы d\ = ( 9 J и d2 = ( п ) не лучше и не хуже одна другой, так как для вектора a = (1,0) неравенство (16) справедливо, а для вектора a = (0,1) оно будет обратным. Это существенное неудобство введенного порядка, хотя сам по себе он сомнений не вызывает. Мы можем сделать множество оценок (или множество распределений) вполне упорядоченным, если будем сравнивать, скажем, Έ\θ* — 0|2, где | · | есть евклидова норма в R*, так что к Е\в*-в\2 = Е^2(в*г-9г)\ (20) Такой способ упорядочивания является уже спорным, так как в разных обстоятельствах точность по различным направлениям может цениться по- разному. Чтобы как-то учесть это обстоятельство, можно в качестве обобщения рассматривать меру точности ν{θ*) = Ε{θ*-θ)ν{θ*-θ)τ, где V — неотрицательно определенная матрица (случай (20) соответствует V = E). Из леммы 1 следует, что если рассеивание 0* около θ меньше, чем рассеивание #2> т0 ν{θι) < v(02i)· Обратное, вообще говоря, неверно — выполнение неравенства ν (β*) < ν[θ2) для какой-нибудь одной матрицы V (предложенный выше полный порядок основан на фиксированной матрице) не означает еще, что рассеивание Θ* около θ меньше, чем рассеивание 6%. 5. Некоторые эвристические подходы к определению дисперсий оценок. Методы складного ножа и будстрэп. Мы видели, что важнейшую роль при сравнении оценок играют величины дисперсий этих оценок. Однако вычисление этих величин может представлять значительные трудности. В связи
128 Гл. 2. Теория оценивания неизвестных параметров с этим был предложен ряд эвристических процедур (иногда они могут быть теоретически обоснованными) для определения дисперсий оценок по самой выборке. Мы ограничимся рассмотрением лишь одномерного случая θ Ε R. L Метод складного ножа (jacknife; см. [78, 107]). Для определения дисперсии заданной оценки Θ* = 0£(Х), построенной по выборке X объема η (т.е. заданной функции от X и п) предлагается рассмотреть η «подвыборок» Χ^,.,.,χΜ объема η - 1, где X® получается из X выбрасыванием г-го наблюдения xj. По каждой из этих подвыборок строятся оценки 9^_г(Х^) 1 п и Θ*(Χ) = — ^ 0*_Χ(Χ^) (последняя оценка, как правило, имеет меньшее г—1 смещение по сравнению с Θ*(Χ)). В качестве оценки дисперсии σ2 = ΌΘ* предлагается использовать значение (σ2)* = ^ΣΚ-ι(*(ί)) -Θ*{Χ))\ г=1 2. Вудстрэп (bootstrap; см. [47]). Здесь для оценки σ2 = ΌΘ* = a2(F), Χ €= F предлагается использовать значение σ2 (F*), а для оценки σ2 (i^) — следующую процедуру типа Монте-Карло. По выборке X = (χι,.. .,хп) строятся новые выборки Х^\ ..., χ(Ν\ каждая из которых получается независимым образом как выборка из распределения F£* Иначе говоря, элементами χΜ — (xj',. .., Xn ) являются χι,..., хп, при этом х^ есть результат случайного равновероятного выбора с возвращением из совокупности (χι,.. .,хп). Точно также независимо от х^ определяется х^ и т. д. Оценкой будстрэпа для 0, построенной по Х^г\ называется значение 0* (Х^). В качестве оценки значения a2(F*) принимается величина г=1 г=1 которая выбором N может быть сделана сколь угодно точной. Вернемся к общей задаче оценивания и перейдем к рассмотрению важного параметрического случая, когда оцениваются неизвестные параметры распределений из параметрических семейств. § 18· Сравнение оценок в параметрическом случае. Эффективные оценки В предыдущем параграфе мы выделили два подхода (среднеквадрати- ческий и асимптотический) к сравнению качества оценок. Введем теперь некоторые понятия, связанные с этими подходами в параметрическом случае, когда распределение выборки X принадлежит некоторому семейству V = {Р#}. Символами Е# и Ό о обозначаем, как и прежде, математическое ожидание и дисперсию по распределению Р#.
§18. Сравнение оценок в параметрическом случае 129 1. Одномерный случай. Среднеквадратический подход. Напомним, что в соответствии со среднеквадратическим подходом мы должны говорить, что θI лучше, чем 0£, если d\{9) = Έ6{θ\ - θ)2 < Εθ(θ*2 - θ)2 = 4(θ). (1) Но в параметрическом случае g^(0), / = L2, суть функции от θ, и мы должны говорить «0J1 лучше 0£ β точке 0», если d\{9) < d<2.(6). Аналогичным образом дело обстоит при использовании асимптотического подхода, когда сравниваются а.н. оценки при больших объемах выборки η путем сравнения их предельных распределений. Оценка 0* считается лучше, чем 0£, в точке 0, если в соотношениях {Θ! - Θ) = yfc & Ф0^{в), 1 = 1,2, (2) справедливо σ\(θ) < σ2{θ)*). Таким образом, в обоих случаях задача сравнения оценок приводит к вопросу о сравнении функций, скажем, άι(θ), 0 Ε Θ. Это множество неупорядоченное, и в классе всех оценок можно ввести частичный порядок следующим образом. Правило 1. Оценка 0* лучше, чем 0£, если d\{9) ^ с^(0) (или соответственно σ\(θ) ^ σ2(0)) при всех 0 Ε Θ и хотя бы для одного 0 выполняется строгое неравенство ά\(θ) < cfeW· Если оценка 0* такова, что для нее существует оценка 0|, которая лучше, чем 0*, то в таких случаях говорят, что 0* — недопустимая оценка. Остановимся сначала на среднеквадратическом подходе в одномерном случае и рассмотрим существующие тут возможности сравнивать оценки. Прежде всего следует отметить, что наилучшей оценки в смысле приведенного определения, вообще говоря, не существует. То есть не существует оценки 0* такой, что для любой другой оценки 0* справедливо неравенство d(9) < di(0), где d\{9) определено в (1), d{9) соответствует 0*. Действительно, если взять оценку 0* = θ\ = const Ε Θ, το ά\(θ) = = Ε^(0ι — 0) =0 при 0 = 0ι, и для наилучшей оценки 0* (если бы такая существовала) будет выполняться d2(0i) = Έθι{θ* — #ι)2 = 0. Поскольку 0χ произвольно, то d2(0) = 0. Но это возможно лишь в «вырожденном» случае, когда наблюдения однозначно определяют значение параметра 0. Например, когда X €= 1θ или X ^ U^+i и Θ = {1,2,...}. Таким образом, нижняя огибающая всех функций d2{9) равна нулю, но в «невырожденных» случаях ни для какой оценки 0* эта функция не реализуется. Задачу можно сделать более содержательной, если искать наилучшие оценки 0* в тех или иных подклассах оценок, которые выбираются достаточно разумным образом. Одним из возможных способов выделения таких подклассов является фиксирование смещения 6(0). *) Мы уже отмечали, что в широком классе случаев d](6) = η~ισ?(θ) + о{п~1). Однако из определений чисел df (θ) и af(9) это не следует.
130 Гл. 2. Теория оценивания неизвестных параметров Определение 1. Оценка θ$ Ε К называется эффективной в классе К, если для любой другой оценки Θ* Ε К Έο(θ^ -θ) ^ Εο{θ* - θ)2 при всех θ е Θ. Особую роль играет класс Kq несмещенных оценок — это класс оценок, для которых Ь(в) = 0. Эффективные оценки в классе Ко = {Θ* : Едв* = 9} несмещенных оценок называются просто эффективными. Так что эффективные оценки — это несмещенные оценки с минимальной дисперсией. Само по себе свойство несмещенности, как уже отмечалось, является несомненно желательным, так как оно означает отсутствие систематической погрешности при использовании оценки. Вопрос о существовании оценок с данным смещением Ъ{в) (в частности, несмещенных оценок) сводится к разрешимости интегрального уравнения относительно д(х) [д{х)Ре{Хеах)=в + Ъ(в)) (3) где д{Х) = Θ*; левая часть этого уравнения представляет собой Eq6*. η Если выполнено условие (Αμ) и fe{x) = ТТ/0(#г) есть функция правдо- подобия, то уравнение принимает вид J 9(χ)/θ(χ)μη(άχ) = в + Ь{в). (4) Следует отметить, что решение (4) для заданной Ъ{9) существует далеко не всегда, и, в частности, не для всех семейств {Ре} существуют несмещенные оценки параметра Θ. Рассмотрим, например, схему Бернулли с неизвестным параметром ρ (вероятностью исхода {х\ = 1}) и допустим, что нам дано оценить параметр θ = <р(р), где φ — заданная функция. Тогда уравнение (4) для несмещенной оценки будет иметь вид 2>(а)Л(а) = 0 X или, что то же, f^G(k)pk(l-p)n-k = <p(p), (5) А;=0 где G(k) = \2 9{χ)·> Ak есть множество точек я, у которых к коорди- нат равны единице. Но левая часть (5) есть полином от ρ степени п. Это означает, что уравнение (5) может быть разрешимо, если только φ(ρ) есть полином степени не выше п. Рассмотрим теперь класс Кь оценок с фиксированным смещением Ь(в) и допустим, что существует эффективная в Кь оценка.
§18. Сравнение оценок в параметрическом случае 131 Теорема 1. Эффективная в Кь оценка единственна с точностью до значений на множестве А С Xй, для которого Р#(А) = 0 при всех Доказательство. Пусть 0J, θ* — две эффективные в Кь оценки. Обозначим Ό = Όθθΐ At = e;-e, в* = ?Ц?±, ι = ο,ι. Так как (6) то /Δρ + ΔΛ2 + /Δο-ΔΛ2 = Δ^ + Δ2 Εθ(θ* - θ)2 + -АЩ{в1 - θ*,)2 = D + Ь2{0). (7) Но θ* е Kb, и, стало быть, Έθ{θ* - θ)2 ^ D + Ь2(в). Из (7) вытекает тогда, что 0* = 0о*п.в.*) < Проведенное обсуждение проблемы сравнения оценок относилось к сред- неквадратическому подходу. К нему же относится по существу и следующее Определение 2. Оценка θ{ Ε К называется асимптотически эффективной (а. э.) в классе К, если при η —> оо для любой другой оценки Θ* из К и каждого θ Ε Θ Εθ(θ*}-Θ)2 "iSPs&bsH1· (8) 2. Асимптотический подход. Асимптотическая эффективность в классах Λί- и L-оценок. Мы перейдем теперь к асимптотическому подходу, с которым определение 2 тесно связано. Задача здесь, как и прежде, состоит в сравнении функций σ(#), характеризующих предельное нормальное распределение, но проблема в целом несколько упрощается. Дело прежде всего в том, что сравнение происходит лишь в классе а. н. оценок, который мы в дальнейшем будем обозначать через Кф. *) Справедливо следующее утверждение, обобщающее в известном смысле теорему 1. Если во — эффективная в Кь, о, Θ* — произвольная в Кь оценки, так что h = = Όβθο/Όβθ* ζ 1, то коэффициент корреляции ρ{θ{,θ*) между оценками 6q и Θ* равен Доказательство читатель может провести самостоятельно, убедившись, что при р(#о>0*) Φ \/h и соответствующем выборе а оценка θ\ — (1 — α)θο + <*θ* 6 Кь будет удовлетворять неравенству Oq9{ < Όβθ^ противоречащему эффективности 0J.
132 Гл. 2. Теория оценивания неизвестных параметров Пусть К — некоторый класс оценок из Кф. Временно вместо (8) мы будем использовать несколько иное определение асимптотически эффективной оценки. Определение 3. Оценка 0* Ε К называется асимптотически эффективной в К, если для любой другой оценки θ* Ε К σ\{θ) ^ σ2{θ) при всех θ £ Θ, где σ2(0) и σ\(θ) — коэффициенты рассеивания 0* и 0J соответственно. Позже мы покажем, что при широких предположениях определения 2 и 3 эквивалентны. Если в качестве К взять класс М-оценок Км, построенных по функциям д, удовлетворяющим условия теоремы 14.4 (об асимптотической нормальности), то из теоремы 16.3 немедленно вытекает следующее утверждение. Следствие 1. При выполнении условий регулярности, приведенных в теореме 16.3, о. м. η. Θ* является а. э. оценкой в Км с коэффициентом рассеивания σ*(θ) = Γι{θ); Ι(θ) = Ι{ΐ'(χ1,θ))2Μχ)μ(άχ), (9) где fe(%) — плотность наблюдений х^. Класс Км является весьма широким (в него входят, например, все оценки, являющиеся статистиками I типа; достаточно положить д{х,в) = = д(х) — h~l(9), где jh/i — функции из определения статистик I типа в §3). Однако остается неясным, содержит ли Км все а.н. оценки, т.е. все оценки из класса Кф, в котором нам хотелось бы построить а.э. оценки. Чтобы двигаться в этом направлении, мы произведем несколько позже иное сужение класса Кф, по-видимому, менее существенное. Обратимся теперь к L-оценкам применительно к задачам оценивания параметров (изначально определение L-статистик с параметрическими семействами не связаны). Использование результатов теоремы 17.1 в параметрическом случае будет эффективно, если функция l(FQl{t),e) (см. (17.12)) от Θ не зависит. По- видимому, это возможно лишь для параметров сдвига и масштаба. Рассмотрим сначала задачу об оценке параметра сдвига θ = а для параметрического семейства Ра(А) = Ρ (А — а) (А — а = {х : х + а Ε Α}, Χ = К, Θ = R). В этом случае Fa(x) = F(x - α), /α(χ) = f{x — α), где функции F и / = F' известны, F~l{t) = а + F^t); fQ{F-l(t)) = f{F~l(t)) от α не зависит. Заметим, что ι ι G(Fa) = /\>{t)F-l{t)dt ^ftpWia + F-1®) dt = ау>о + ОД) = a + G{F) о о
§ 18. Сравнение оценок в параметрическом случае 133 при любой функции </?, удовлетворяющей условию Ψο= f<p{t)dt = l. (10) Поэтому оценка подстановки a* = G(F*) — G(F) является с точностью до постоянной G(F) (зависящей от φ\) L-статистикой, зависящей от φ, и естественно поставить вопрос об оптимальном выборе </?. Оценки, являющиеся с точностью до постоянных слагаемых L-статистиками, также будем называть L-оценками. Пусть / имеет вторую производную / и φ удовлетворяет (10). Обозначим через Kl класс L-оценок вида а* = G{FZ) - G(F), a* = J<p(FZ(u))udK(u) ~ G(F). Тогда согласно следствию 8.6 и замечанию 8.3 Kl С Кф. Несомненное преимущество L-оценок перед М-оценками состоит в том, что первые выписываются в явном виде. Из теоремы 17.1 вытекает Следствие 2. Пусть 1(х) = 1η/(α:), 0 < I = f(i{x))2f{x) dx < ос. (11) Тогда L-оценка a* G Kl при φ(χ) = I"4(F~1(x)) является а.э. в классе Kl и имеет коэффициент рассеивания 7-1. Очевидно, что для параметра сдвига θ = а значение /(а) в (9) от а не зависит и совпадает с I. Это означает, что оценка а* = J"1 yV"1^)))"^») - <W = = (n/)"1X;r(li-1(i))x(0-G(i·) (12) (мы считаем здесь в соответствии с договоренностью в § 3, что F*(и) непрерывна справа, так что F*(x^) = г/п) асимптотически эквивалентна о.м.п. (имеет то же предельное распределение) и в этом смысле оценку (12) можно рассматривать также как М-оценку, соответствующую решению уравнения 2_]ЧХ1 "~ а) — 0-* она будет обладать всеми свойствами асимптотической оптимальности, каким обладает о.м.п. δ*. Замечание 1. Так как 1{и) = const лишь для нормального распределения, то представление (12) дает следующую характеризацию этого распределения: а.э. оценка параметра сдвига (или о. м. п.) реализуется как статистика вида — YJ φ Ι — J x, (статистика I типа) лишь для нормального закона F = Ф.
134 Гл. 2. Теория оценивания неизвестных параметров Аналогично обстоит дело с оценкой параметра масштаба θ — σ для параметрического семейства Ί?σ{Α) = Ρ Ι —- В этом случае *·,(*) = *■(!), 1М = У(1), (13) где функции F и / = F' известны, F~] (t) = aF~l(t). Имеем 1 1 G(Fa) = J<p(t)F^(t)dt = aj<p(t)Fr1(t)dt = aG(F), (14) о о так что при любой φ такой, что G(F) = G(F, φ) -ψ 0 * ~ "ОД"· (15) Это делает естественным рассматривать в качестве оценки σ* параметра σ значение » G(Fn) " G(F) ' являющееся L-оценкой. Для этой оценки функция φ в «исходном» представлении L-оценок (как / ip(t)F~l (t) dt) удовлетворяет условию f<p(t)F-4t) dt = 1. (16) (Это равенство дает возможность аналогично (17.10) получать с помощью неравенства Коши-Буняковского другие нижние границы для разброса L-оценок.) Следствие 3. Если выполнено (11) и то L-оценка h = [l{u)uf{u)du/0, (17) соответствующая функции φ(ί) = l(F l{t))1 является а.э. в классе L-оценок, удовлетворяющих (16), и имеет коэффициент рассеивания σ2ΐΓ2Ι. Доказательство. Воспользуемся теоремой 17.1, в которой роль F, 7, f(F~l(t)), /'(F"1^)) бУлУт играть соответственно Fa, σ~2Ι, -/(F"1^)), σ
§18. Сравнение оценок в параметрическом случае 135 —l(F 1{t)), где F и / из (13) от σ не зависят. Согласно этой теореме в каче- & стве оптимальной ψ надо взять φ(ί) = φοΙ~ 1/(F~1(i)), где </?о определяется из (16): φ0Γ1 fl(F-l(t))F-1(t)dt=h φο^ΐΓ1!· Следствие доказано. <] Для весьма распространенного класса симметричных распределений F (/(—х) — /(#), /(—х) = /(х)) условие (17) не выполнено. В этом случае можно перейти к наблюдениям у* = |х;| (в §22 увидим, что {|χϊ|} образуют здесь достаточную статистику и потери информации при переходе от хг к |х^| не происходит). После этого можно перейти к наблюдениям ζ; = In у*, для которых P(z, < t) - Р(|хг| < ег) = 2Fa{el) - 1 = 2Р{ег~1псг) - 1 = F{t- α), где α = Ιησ, F(u) = 2F(ew) - 1. Мы свели задачу об оценке параметра масштаба σ к оценке параметра сдвига для параметрического семейства с плотностью f(u — α), f(u) = 2f(eu)eu, и > 0. Остается воспользоваться следствием 2. При этом в новой задаче при очевидном соглашении относительно обозначений Т(и) = 1{еи) + In 2 + щ Т{и) = 1{еи)еи + 1, Г= /"(eu)e2u + /(eu)eu, так что оо 7 = -2 f f{t)dt[i{t)t2 + l{t)t]. (18) о Итак, из следствия 2 вытекает Следствие 4. Если распределение F симметрично, то оценка a- = (nf)-1X;f(ii-1(i))zw-G(ii), G(F) = 7"1 il(F-l{u))F-\u)du = Г1 [T(u)uf(u)du, (19) будет а. э. β классе оценок L и будет иметь коэффициент разброса I 1. Оценка σ* = еа* будет а. к. с коэффициентом разброса σ2/-1. Для стандартного нормального распределения 1(и) = — и, /(гх) = —1, 7 = 2 (см. (18), а также §26,27) и оценка σ* = ea* будет иметь разброс σ2/2. Такой же разброс будет иметь о.м. п. σ*~ ϊΣ* Τ 1/2 (20)
136 Гл. 2. Теория оценивания неизвестных параметров Это вытекает из следствия 1 или непосредственно из соотношений „„-2/^2 ^ тт с ... ησ-2{σ*)2-η ησ (σ) § Ηη, ξη — ί== ©> Φο,ι (см. 12.4), так что ""-'('WI) =σ(1+^;ίη+ε")' где εη —> 0. Таким образом, для нормальных распределений оценка σ* = = еа* оказалась асимптотически эквивалентной а. э. оценке σ* в классе Км- Отметим еще раз, что несомненным преимуществом оценки σ* — еа* является наличие ее явного вида. Сравним оценки (19), (20) с естественной несмещенной L-оценкой параметра σ вида σ* = — V>,|, (21) па ^—' 00 где а = 2 / xdF(x), так что Е|х;| = ασ (X ^ Fa, распределение F симме- о оо трично). Если обозначить d = χ dF(x) < ос, то мы получим, что σ* — 00 является а. н. оценкой с коэффициентом разброса (σ* - σ)ν^ = ^ Σ ("t" " σ) ^ φο,^2σ2· Для нормального закона а2 = —, d2 = 1, D2 = σ2 Ι— — 1) . Так как — — π V 2 / 2 — 1 > -, то коэффициент разброса для оценки (21) больше, чем для оценок (19), (20). Вернемся теперь к общим определениям 2, 3 асимптотической эффективности и введем в рассмотрение несколько иное сужение Кф, упоминавшееся выше, которое, по существу, обеднять Кф не будет. Именно, будем рассматривать класс Кф}2 С Кф а.н. оценок 0*, обладающих тем свойством, что для них сходимость происходит вместе с двумя первыми моментами: Εθ(θ* - 0)Vn -» Ο, Εθ{θ* - θ)2η -> σ2(0). (22)
§ 18. Сравнение оценок в параметрическом случае 137 Отметим, что первое из этих двух соотношений нетрудно получить из второго с помощью теоремы непрерывности для моментов (см. §5). Сужение Кф до класса Кф% мало обедняет первый из этих классов по двум причинам. Во-первых, а.н. оценки, в которых (22) нарушено, практически не встречаются (мы отмечали, что для этого обычно нужны искусственные построения). Во-вторых, для θ* Ε Кф по лемме Фату \ιπιΜΕθη{θ* - θ)2 > σ2(θ) n-юо (мы имеем дело с интегралами от неотрицательных функций), так что Ε#η(0* — θ)2 при больших η может отличаться от σ2(θ) лишь в сторону больших значений. Но оценки с таким свойством вряд ли могут конкурировать с оценками, для которых (22) выполнено. Таким образом, при асимптотическом подходе мы можем в качестве класса а.н. оценок, в котором производится сравнение, рассматривать класс Кфу2- Он будет для нас удобнее. Если К — класс оценок такой, что К С Кф^, то определение 3 асимптотической эффективности эквивалентно определению 2. Эквивалентность определений вытекает из того, что для θ* Ε Кф^ Εθ{θ*-Θ)2= 2-^1(1+ rn(0)), rn(0)->O при η "Чоо. η В этом случае соотношение (8), означающее, что Εθ{θί - θ)2 < Εθ(θ* - Θ)2{1 + r'n(9)), τ'η{θ) -». О, для любой θ* Ε К, очевидно, эквивалентно неравенству в определении 3. < Упомянутое ранее некоторое упрощение проблемы сравнения при асимптотическом подходе состоит в том, что здесь мы сравниваем лишь дисперсии предельных законов. Роль смещения Ь{в) оценок здесь исчезает, поскольку в классе Кф$ в силу (22) выполняется соотношение 6(0) = о(1/>/п), означающее «почти несмещенность» оценок или «асимптотическую прене- брегаемость» смещения с точки зрения соотношений (2). Аналогично теореме 1 может быть получена Теорема 2. Пусть К С Кф^· Тогда если θ\ и θ% — две а.э. оценки в К такие, что —{θ* + #£) ^ ^ то они асимптотически совпадают, га. е. νϊι{θΐ-θ*2)^ο, Εθ[νϊϊ{θΐ-θ*2)}2->ο. Доказательство. Нам достаточно установить второе соотношение, так как первое из него следует. Пусть Μι>η = Εθη{θϊ-θ)2, Αι = θ!-Θ, θ* = %^1, 1 = 1,2.
138 Гл. 2. Теория оценивания неизвестных параметров Тогда на основании (6) получаем в,п(в. _ θγ + ι-Έθη(θι - θΐγ = Μ^ + Μ2,η (23) Но θ* Ε К и, стало быть, после перехода к пределу в последнем равенстве получим в силу асимптотической эффективности 0* lim Εθη(θ{ - ΘΧ)2 < 0. < Приведенные выше рассмотрения содержали лишь один из возможных путей выделения оценок (в нашем случае — эффективных оценок), которые по ряду естественных соображений следует предпочесть другим. Однако возможны, конечно, и иные подходы (напомним, что нам приходится сравнивать неупорядоченные элементы — функции ά(θ) или σ(θ)). Поскольку оценок с наименьшим при каждом θ возможным значением с/(0), вообще говоря, не существует, можно сравнивать, скажем, средние значения / d(t)q(t)dt, где q(t) ^ 0, / q(t)dt = 1, или максимальные значения maxd(0). Это есть J 0€θ способы упорядочивания множества всех оценок. Первый из этих двух способов мы назовем позже байесовским, второй — минимаксным. Байесовские и мимимаксные оптимальные оценки будут рассмотрены нами в § 21, эффективные оценки — в более поздних параграфах. Более подробно проблема выбора оценок будет рассматриваться в главе 6. 3. Многомерный случай. Рассмотрим теперь случай, когда θ и Θ* есть векторы из R*. Здесь задача сравнения оценок становится труднее. Дело в том, что в многомерном случае нам пришлось ввести частичный порядок уже для сравнения оценок при фиксированном Θ. Для сравнения оценок на всем множестве Θ, как и в одномерном случае, также приходится вводить частичный порядок, но уже в «другом направлении» (ведь в основе сравнения лежит среднеквадратичное уклонение, которое есть функция двух переменных: θ и вектора о, на который проектируется уклонение θ* — Θ). Наилучшие оценки в «обоих направлениях» и составляют предмет следующих определений. Определение 4. Оценка θ$ является эффективной в классе К, если для любой оценки Θ* из К среднеквадратичное рассеивание Θ* около θ при всех θ Ε Θ не меньше, чем рассеивание 0q. Это определение эквивалентно следующему. Векторная оценка θ$ параметра θ эффективна в К, если для любого вектора а оценка aj = (#ο>α) является эффективной оценкой скалярного параметра а = (0,а) в классе оценок а* = (#*,а), Θ* £ ЯГ, т.е. если при всех θ е Θ, а е Rk, 0* е к Εθ(ΘΖ-θ,α)2^Εθ{θ*-θ,α)2. (24)
§ 18. Сравнение оценок в параметрическом случае 139 Как мы уже видели, это неравенство эквивалентным образом записывается в виде άΙ(θ) ^ бР(0) или id id при всех 0 е Θ, a£Rk, где ά2{θ) = ||dy (0)|| и d§(0) = ||^O)(0)|| — матрицы вторых моментов 0* — 0 и 0q — 0 соответственно. Эффективные оценки в классе Kq несмещенных оценок называются просто эффективными. Поскольку определение (24) эффективности строится на использовании одномерного случая, из теоремы 1 нетрудно установить, что эффективная оценка в классе Къ оценок с фиксированным смещением Ь(в) = Е0* — θ единственна. Определение а. э. оценок в многомерном случае аналогично определениям 2, 3. Определение 5. Векторная оценка θ\ параметра 0 асимптотически эффективна в К, если для любого вектора а оценка (0*,а) является а. э. оценкой скалярного параметра а = (0,а) в классе оценок а* = (0*,а) € К. Другими словами (см. §17), среднеквадратичное рассеивание предельного распределения (0* — в)у/п для а. э. оценки является наименьшим. Это, в свою очередь, означает что для любых 0* Ε К, a Ε R*, 0 G Θ выполняется σ?(0Κσ2(0), или ^σ^\θ)αια^ ^ ]Γσ^·(0)α^·, id id гдеа2(0) = ||o"ij(0)||, σΊ(θ) = \\σ\„; (0)|| суть соответственно матрицы вторых моментов предельных распределений (0* — 9)у/п и (0* — 9)у/п. Из рассмотрений предыдущего параграфа можно заключить, что множество оценок в многомерном случае при фиксированном 0 можно сделать упорядоченным, если качество оценки измерять количеством (при средне- квадратическом подходе) υ{θ*) = Εθ(θ* - θ)ν{θ* - 0)τ = ν{θ\ 0), (25) где V — неотрицательно определенная матрица. Аналогичное количество, связанное с матрицей вторых моментов предельного нормального распределения, можно рассматривать и при асимптотическом подходе в классе Яф,2· Двигаясь дальше по этому пути, можно сделать вполне упорядоченным множество всех оценок и на всем множестве Θ. Именно, можно проводить сравнение средних ( ν{θ*,t)q(t) dt, q{t) > 0, Jq{t)dt = 1, аксималы в (25). или максимальных тахг;(0*,£) значений количеств г>(0*,0), определенных
140 Гл. 2. Теория оценивания неизвестных параметров Если окажется, что оценка, наилучшая при таком подходе, будет оставаться наилучшей при любой неотрицательно определенной матрице V, это будет означать в силу леммы 17.1, что эта оценка будет наилучшей и в смысле частичного порядка, установленного в § 17 (т.е. усредненное среднеквадратичное уклонение будет наименьшим в любом направлении). Чтобы строить оценки, оптимальные в смысле определений, рассмотренных в этом параграфе, нам понадобятся понятия и свойства условных математических ожиданий и достаточных статистик. § 19. Условные математические ожидания В этом параграфе напомним определение и основные свойства условных математических ожиданий (у.м. о). Более полное изложение см. в приложении III, а также в [17, 35, 46, 72, 137]. 1. Определение у. м. о· Пусть ξ и η есть две случайные величины, заданные на вероятностном пространстве (Ω,#, Ρ). Условное математическое ожидание Έ(ξ/Β) случайной величины ξ относительно события i?, Ρ (В) > 0, определяется равенством т/в) = Щ^, (1) где Έ(ξ]Β) = / ξάΡ = Ε(ξΙ#), 1в = Ib{u) есть случайная величина, в равная индикатору множества В. Допустим, что ξ и η независимы, В = {η = χ} и Ρ (Β) > 0. Тогда для любой измеримой функции φ(χ,ν) согласно (1) «г (t w ί Е<^(^у/)/{т?=х} Ey^aQi^s} 4<P&v)h = *]= Р(,Л) = P{f,Jx) '=ίΜ&*)- (2) Последнее равенство справедливо, так как случайные величины φ(ξ)χ) и Ιίη-Χ\ как функции соответственно от £ и η независимы и, стало быть, Εφ{ξ,χ)Ι{η=χ} = Εφ{ξ,χ)ΕΙ{η=χ} = Εφ{ξ,χ)Ρ(η = χ). Соотношения (2) показывают, что понятие у.м.о. может сохранять свой смысл и в случае, когда вероятность условия равна нулю — ведь само по себе равенство Ε[φ{ξ,η)/η = χ]=Εφ{ξ,χ) для независимых ξ и η представляется естественным и с предположением Ρ (η = χ) > 0 никак не связано. Пусть 21 есть σ-подалгебра #. Определим теперь понятие у.м.о. случайной величины ξ относительно 21, которое будем обозначать через Ε(ξ/21). Определение дадим сначала для «дискретного» случая, но так, чтобы оно легко обобщалось.
§ 19» Условные математические ожидания 141 «Дискретным» мы называем случай, когда σ-алгебра 21 образована (порождена) не более чем счетной последовательностью непересекающихся событий Αι, ^2,...; UAi = Ω, P{Ai) > 0. Этот факт мы записываем в виде 21 = σ(Αι, Α<ι,...); это означает, что элементами 21 являются всевозможные объединения множеств Αι, Α<ι,... С помощью случайной величины ξ и системы событий (Αι, Α<ι,...) по- строим новую случайную величину ξ = ξ (ω) следующим образом: £=Ук = Щ/Ак) = Щ^ при ые4Ь1,2,... Другими словами, ζ~^ Ρ(Λ) Л*' А; где Ια есть индикатор множества А, ^+* Определение 1. Случайная величина ξ называется у. м. о. ξ относительно о-алгебры 21 и обозначается Е(£/21). Таким образом, в отличие от обычных математических ожиданий у. м. о Е(£/21) есть случайная величина. В нашем случае она постоянна на множествах Ак и равна на этих множествах усреднению ξ по А^. Если ξ и 21 независимы (т.е. Ρ(ξ Ε В;Ак) = Ρ(ξ G B)P(Ak)), то, очевидно, Е(£; Afc) = Если же 21 = #, то 5 тоже «дискретна», ξ постоянна на множествах А^ и, стало быть, ξ = ξ. Отметим следующие два основных свойства у. м. о.: 1) ξ измерима относительно 21; 2) для любого события А £ 21 Е(£Л)=Е(е;Л). Первое свойство очевидно. Второе следует из того, что любое событие А Е 21 представимо в виде Л = (J А^ и, стало быть, к Β(ξ;Λ) = ΣΒ(6^Λ) = Σ»*Ρ^Α) = Σ>(^Λ) = Ε^ ^ Это свойство довольно ясно: усреднение по множеству А величины ξ дает тот же результат, что усреднение уже усредненной по Ajk величины ξ. Лемма 1. Свойства 1), 2) однозначно определяют у. м. о. и эквивалентны определению 1. Доказательство. В одну сторону утверждение леммы уже доказано. Пусть теперь выполнены условия 1), 2). Измеримость ξ относительно 21 означает, что ξ постоянна на множествах Аь- Обозначим значение ξ на А^ через у к- Так как А^ £ 21, то из свойства 2) следует, что Щ&Ак)=укР(Ак) = ЩЬАк)
142 Гл. 2. Теория оценивания неизвестных параметров и, стало быть, при wE4 Теперь мы может дать общее определение у.м. о. Определение 2. Пусть ξ есть случайная величина на вероятностном пространстве (Ω,#, Ρ) и 21 С # есть σ-подалгебра $. Условным математическим, ожиданием ξ относительно 21 называется случайная величина ξ, обозначаемая Ε (ξ/21), которая обладает следующими свойствами: 1) ξ измерима относительно 21; 2) для всякого А Е 21 справедливо Ε(ξ; Α) = Ε(ξ; А). В этом определении случайная величина ξ может быть как скалярной, так и векторной. ^+* Сразу возникают вопросы: существует ли такая величина ξ и единственна ли она? В «дискретном» случае мы видели, что ответ на эти вопросы положителен. В общем случае справедлива ^+* Теорема 1. Если Έ\ξ\ конечно, то функция ξ = Е(£/21) в определении 2 всегда существует и единственна с точностью до значений на множестве вероятности нуль. Доказательство. Предположим сначала, что ξ скалярна, ξ ^ 0. Тогда функция множества Q(A) = f£dP=E(bA), Ae% А будет мерой на (Ω,21), которая абсолютно непрерывна относительно Р, поскольку Ρ {А) = 0 влечет за собой Q{A) = 0. Следовательно, по теореме Радона-Никодима (см. [17, приложение 3]). существует 21-измеримая функ- ция ξ = Е(£/21), единственная с точностью до значений на множестве меры нуль такая, что ' ξάΡ. Q(A) = fl А В общем случае положим ξ = ξ+ — ξ~, ξ+ = max(0,£) ^0, ξ~ = = max(0, -ξ) > 0, ξ = ξ+-ξ-, где ξ* — у.м.о. для ξ*. Этим доказано существование у.м.о., так как ξ будет удовлетворять условиям 1), 2) определения 2. Отсюда же следует и единственность, так как предположение о неединственности ξ будет означать неединственность ξ+ или ξ~. Доказательство для векторных ξ сводится к одномерному случаю, так как свойствами 1), 2) будут обладать коорди- наты ξ, существование и единственность которых нами доказана. <
§19. Условные математические ожидания 143 Существо проведенного доказательства достаточно прозрачно: ведь по условию 2) для всякого А Ε 21 задано Ε(ξ;Α) = / £dP, т.е. заданы зна- А чения интегралов от ξ по всем множествам А Ε 21. Ясно, что это должно определять 21-измеримую функцию ξ однозначно с точностью до значений на множестве меры нуль. Смысл Ε(ξ/21) остается прежним — грубо говоря, это есть усреднение ξ по «неделимым» элементам 21. Если 21 = #, то, очевидно, ξ = ξ удовлетворяет свойствам 1), 2) и, стало быть, Е(е/$) = ξ. Определение 3. Если ξ = 1с есть индикатор множества С G 5, то E(/c/2t) будет называться условной вероятностью Ρ (С/21) события С относительно 21. Функция множеств Ρ (ξ Ε С/21) называется условным распределением ξ относительно 21. Рассмотрим теперь важный специальный случай, когда σ-алгебра 21 порождена некоторой случайной величиной η. Определение 4. Пусть ξ и 77 — случайные величины на (Ω,^,Ρ), 21 = σ(η) есть σ-алгебра, порожденная случайной величиной η. Тогда Ε(ξ/21) называется также условным математическим ожиданием величины ξ относительно η. Иногда ради упрощения записи будем вместо Έ(ξ/σ(η)) писать Έ(ξ/η). Это не приводит к недоразумениям. Так как Ε(ξ/η) по определению есть а(т7)-измеримая случайная величина, это означает (см. [17, §3.4]), что существует измеримая функция д(х), для которой 4tft) = Sfo)· (3) По аналогии с дискретным случаем мы можем истолковывать здесь величину д(х) как результат усреднения ξ по множеству {77 = я}. (Напомним, что в дискретном случае д(х) = Έ(ξ/η = х).) Аналогично определению 3 в случае 21 = σ(η) будем называть функцию множеств Ρ (ξ Ε С/η) условным распределением ξ относительно η (см. также §20). 2. Свойства у. м. о. 1. У. м. о. обладает свойствами обычных математических ожиданий (см. [17, §4.9]) с той лишь разницей, что они выполняются почти наверное (с вероятностью 1): 1а) Е(с£/21) = сЕ(£/21), если с = const, lb) Ε(ξ! + ξ2/21) = Ε^/21) + Ε(ξ2/21), 1с) если ξι ζ ξ2 п. к., то Ε(ξι/21) < Ε(ξ2/21). 2. Справедливо неравенство типа Чебышева: если ξ вещественна, ξ ^ > 0, то для любого χ > 0 Р(?г1/я)<5Ш).
144 Гл. 2. Теория оценивания неизвестных параметров Это соотношение между у.м. о., как и равенства п. 1, выполняется п.н. Такое же соглашение будет справедливо в дальнейшем для всех соотношений между у.м.о. 3. Если σ-алгебры 21 и σ(ξ) независимы, πιο Ε(ξ/21) = Εξ. Отсюда следует, в частности, что если ξ и η независимы, то Ε(ξ/η) = Εξ. Если σ-алгебра 21 тривиальна, очевидно, также получим Ε(ξ/21) = Εξ. 4. Для у. м. о. верны теоремы сходимости, справедливые для обычных математических ожиданий, например теорема о монотонной сходимости: если ξη f ξ, ξη > 0, το Ε(ξη/2ί) t Ε(ξ/21) п. н. 5. Если η скалярна и измерима относительно 21, Ε|ξ| < оо, Ε|ξη| < оо, то Ε(ηξ/Κ) = ηΕ(ξ/Χ). Другими словами, 21-измеримые случайные величины ведут себя относительно операции у.м.о. как постоянные (ср. со свойством 1а)). 6. Для у. м> о. остаются справедливыми все основные неравенства для обычных математических ожиданий, в частности неравенство Коши- Буняковского E(|fcfc|/a) ^ [Ε(ξ?/2ΐ)Ε(ξ22/2ΐ)]1/2 и неравенство Иенсена: если Ε|ξ| < оо, то для любой выпуклой вниз функции д(х) 9(Ε(ξ/Ζ)) < Е((/(0/Я). 7. Формула полной вероятности (свойство 2 определения 2 при А — Ω) Εξ = ΕΕ(ξ/21). 8. Последовательное усреднение (обобщение свойства 7): если 21 С С Qli С 3, то Ε(ξ/21)=Ε(Ε(ξ/211)/21). Доказательство этих свойств можно найти в приложении III. Очевидно, что свойства 1, 3-5, 7, 8 справедливы как для скалярных, так и для векторных случайных величин ξ. Отметим, что если рассматривать у. м. о. ξ = Ε(ξ/η) относительно случайной величины η, то их, пользуясь свойствами 5, 7, иногда удобно определять эквивалентным (по отношению к определению 2) образом так: Определение 2А. Случайная величина ξ является у.м.о. относительно 77, если она измерима относительно σ(77), и для любой измеримой функции т Ε(ξπι(η)) = Ε(ξτη(η)). (4) Действительно, если ξ = Ε(ξ/η), то согласно свойствам 5, 7 Ε(ξτη(η)) = ΕΕ(ξπι{η)/η) = Επι(η)Ε{ξ/η) = Ε(ξτη(η)).
§19. Условные математические ожидания 145 Обратно, если выполнено (4), то, полагая гп(у) = /с, получим Е(£ η 6 С) = Etfmfa)) = Е(£; ту 6 С), что означает выполнение условий определения 2. Вернемся к свойствам у.м. о. в общем случае. Следующее свойство проясняет «геометрическую» сущность у.м.о. 9. Известно, что функция φ(α) = Ε(ξ — α)2 достигает своего минимума при α == Εξ (см., например, [17, §4.5]). Аналогичное свойство справедливо и для у.м.о.: при α(ω) = Ε(ξ/21) достигается минимум Έ(ξ — α(ω))2 среди всех ^измеримых функций α(ω). Действительно, Ε(ξ - α(ω))2 = ΕΕ((ξ — (ω))2/21), но α(ω) ведет себя как постоянная относительно операции Ε(·/21) (см. свойство 5), так что Ε((ί - а(и,))2/Ъ) = Ε((ξ - E(£/2l))2/2l) + Ε((Ε(ξ/21) - а(и))2/Щ, и минимум этого выражения достигается при α(ω) = Ε(ξ/21). Это свойство можно рассматривать как определение у. м. о., эквивалентное определению 2. Согласно нему Ε (ξ/21) можно трактовать как «проекцию» ξ на 21. Свойство 9 допускает обобщение на многомерный случай, когда ξ = = (£ъ · · ->6?) есть случайный вектор в Ms. 9А. Пусть V = \\vij\\ — произвольная неотрицательно определенная матрица размера s x s, a EW, ζ(α) = (ξ-α)ν(ξ-α)τ (в частности, при V = Ε получим ζ(α) — |ξ —α|2). Тогда на функции α(ω) = = Ε(ξ/21) достигается минимум ιηΐηΕζ(α) по классу А всехШ-измеримых авЛ функций. Доказательство этого факта протекает так же, как и в одномерном случае. Положим α = Ε(ξ/21). Тогда Εζ{α) = EE(C(a)/2l), В(С(а)/Я) = Ε((ξ - α)ν(ξ - α)τ/21) = = Ε((ξ - α)ν(ξ - α)τ/21) + Ε((α - α)V(ξ - α)1» + + Ε((ξ - a)V(a - α)Τ/21) + Ε((α - a)V{a - a)T/2t). (5) Так как а — а есть 21-измеримый вектор, то по свойству 5 Е((а - а)У (ξ - а)т/21) = (а - а)УЕ((£ - а)т/21) = О, Ε((ξ - а)У(а - а)т/21) = [Е((£ - а)/21)]У(а - а)т = 0. Поскольку последнее слагаемое в (4) неотрицательно и равно нулю при о = = а, утверждение доказано. <
146 Гл. 2. Теория оценивания неизвестных параметров § 20. Условные распределения Наряду с у.м. о. можно рассматривать условные распределения относительно σ-подалгебр и относительно случайных величин. В этом параграфе остановимся лишь на последних. Пусть ξ и η — две случайные величины на (Ω,#, Ρ) со значениями соответственно в Rs и Шк и 05s — σ-алгебра борелевских множеств из R5. Определение 1. Функция Р(В/у) двух переменных у Ε Rfc, В Ε 535 называется условным распределением ξ при условии η = у, если: 1) при каждом В Ε 55s Ρ(Β/η) есть условная вероятность (условное распределение) Ρ(ξ Ε Β /η) события {ξ Ε В} относительно η, т.е. Р(В/у) есть борелевская функция от у такая, что для любого А Е 93fe Ε(Ρ(Β/η);η Ε Л) = J P(B/y)P(V E dy) - Ρ(ξ Ε 5, r/ Ε Α); Л 2) при каждом у Р(В/у) есть распределение вероятностей по В. Функцию Ρ (В/у) мы будем иногда записывать в более «расшифрованной форме» в виде р(в/у)=Р((ев/п = у). Мы знаем, что для каждого В Ε 535 существует борелевская функция 5в(у) такая, что <7в(?7) = Ρ(ξ Ε #/77). Таким образом, положив Р(В/у) = = 9в{у), мы удовлетворим условию 1) определения 1. Однако условие 2) при этом из свойств у.м.о. никак не следует и выполняться совсем не обязано — ведь условная вероятность Ρ (ξ Ε Β /η) определена при каждом В с точностью до значений на множестве Νβ меры нуль (так что существует много вариантов у. м. о.), и это множество может быть своим для каждого В. Поэтому если объединение N — (J Νβ имеет не нулевую вероятность, то Be*ss может оказаться, что, например, равенства Ρ(ξ Ε Вг U Β2/η) = Ρ(ξ е Βι/η) + Ρ(ξ Ε Β2/η) (аддитивность вероятности) сразу для всех непересекающихся В\, В2 из 555 не выполняются ни для одного ω из iV, т. е. на ω-множестве N положительной вероятности функция дв{у) не будет распределением как функция В. Однако в нашем случае, когда ξ есть случайная величина со значениями в W с σ-алгеброй борелевских множеств *В5, дв{я) = Р(£ € Β/η) всегда можно выбрать таким образом, что дв{у) будет условным распределением (см. [35, 46]). Как и следовало ожидать, условные распределения обладают тем естественным свойством, что у. м. о. выражаются в виде интегралов по условным распределениям.
§ 20. Условные распределения 147 Теорема 1. Для любой измеримой функции д(х), отображающей Ks β IK, такой, что Ε|^(ξ)| < со, справедливо равенство Ε(9(ξ)/η)=Ι9(χ)Ρ(άχ/η). (1) Доказательство. Достаточно рассмотреть случай, когда g(x) ^ 0. Если д(х) = /л(х) есть индикатор множества А, то формула (1), очевидно, верна. Стало быть, она верна для любой простой функции дп(х) (т.е. для функции, принимающей конечное число значений). Остается взять последовательность дп | д и воспользоваться монотонностью обеих частей в (1) и свойством 4 в § 19. < В реальных задачах для подсчета условных распределений часто можно пользоваться следующим простым правилом, которое для наглядности мы запишем в форме Очевидно, что формально оба условия определения 1 будут удовлетворены. Если ξ и 77 имеют плотности распределения, этому равенству будет придан точный смысл. Определение 2. Пусть условное распределение Р(В/у) при каждом у абсолютно непрерывно относительно некоторой меры μ в W >(ξ£Β/η = ν)= J f{x/yMdx). В Тогда плотность f{x/y) называется условной плотностью ξ (относительно меры μ) при условии η = у. Другими словами, измеримая по паре переменных гг, у функция f(x/y) есть условная плотность ξ при условии η = у, если 1) для любых борелевских множеств А С К*, В С Rs f J f(x/yMdx)P(V e dy) = Ρ(ξΕΒ,ηΕ Α); (3) уел хев 2) при каждом у функция f{x/y) есть плотность распределения вероятностей. Из теоремы 1 вытекает, что если существует условная плотность, то ЕШМ = Jg(x)f(x/vMdx). Если предположить дополнительно, что распределение η имеет плотность q(y) относительно некоторой меры λ в Rfc, то (3) можно записать в виде J f f{xlv)q{vMte)\(dy) = Ρ(ξ е в, η е А). (4) уеАхеВ
148 Гл. 2. Теория оценивания неизвестных параметров Рассмотрим теперь прямое произведение пространств Rs и Шк и на нем прямое произведение мер μ χ λ (если С = В χ А, В С Is, А С КА, то μ χ λ (С) = μ(Β)λ(Α)). В этом пространстве соотношение (4) означает, очевидно, что совместное распределение ξ и η в W χ Шк имеет плотность относительно μ χ λ, равную ffav) = /(я/уМу)· Справедливо и обратное утверждение. Теорема 2. ^слг/ совместное распределение ξ и η β Κ5 χ Шк имеет плотность /(#,у) относительно μ χ λ, mo функция f(x/y) = ^^-, где q{y) = j f{x,yMdx\ есть условная плотность ξ при условии η = у, а функция q(y) есть плотность η относительно меры λ. Доказательство. Утверждение теоремы относительно q(y) очевидно, так как / q{y)^{dy) = Έ*(η £ А). Остается заметить, что f{x/y) = А = 1{хтУ)/я{у) удовлетворяет всем условиям в определении 2 условной плотности (равенство (4), эквивалентное (3), выполнено очевидным образом). < Замечание 1. Случайные величины ξ и η в теореме 2 можно поменять местами. Тогда получим, что наряду с f(x/y) существует условная плотность q(y/x) = ^0-, f(x) = J f(x,y)X(dy), случайной величины η при условии ξ — х. Это простое следствие теоремы 2 будет играть существенную роль в последующем изложении. Применительно к задачам статистики оно позволит нам в следующем параграфе получить формулу Байеса, которая будет затем часто использоваться на протяжении всего курса. Пример 1. Пусть Φα,σ2 есть двумерное нормальное распределение величин ξι и ξ2, где α = (аьа2), а* = Е&, а2 = ||ау||, σ# = Е(& -а*)^· -ау), i,j = 1,2. Определитель матрицы вторых моментов равен \σ | = аца22 - σ12 = <гц<Г22(1 - Ρ ), где ρ есть коэффициент корреляции между ξι и £г- Таким образом, если \р\ φ 1, то матрица вторых моментов не вырождена и для нее существует обратная матрица 1 Ρ
§ 20. Условные распределения 149 Стало быть, совместная плотность ξι и £2 (относительно меры Лебега) равна (см. § 12) /(я, у) = 2πΛ/σιισ22(1 - Ρ2) ν *™ / 1 |>-αι)2 2p(s-a1)(y-a2) , (y~Q2)211 X exp < ; тг 7= 1 > . L 2(1-/^)L ση \Μισ22 ^22 J J Одномерные плотности ξι и £г соответственно равны V/πσιι νζπσ22 Поэтому условная плотность ξι при условии £г = У равна Ηχ,ν) ι ЯФ) q(y) y/2nan{l-p2) хехр -r-7—~2T (a;-0!i-pA/?ii(y-a2) 2σιι(1-^) V V σ22 )'l· это есть плотность нормального распределения со средним αχ + р\/&п/&22 х х {у — #2) и дисперсией ац(1 — р2). Отсюда следует, в частности, что у. м. о. ξι относительно ξ2 равно Β(ξι/ξ2)=αι + Ρ*/^(ξ2-α2). V σ22 Прямую χ = αχ 4- P\JonJG<i2 {у — #2) называют линией регрессии ξι на £г- Она дает наилучшие среднеквадратичные приближения величины ξι при данной ξ2 = у. Пример 2. Рассмотрим задачу о вычислении плотности случайной величины ξ = φ{ζ,η), где С и 77 независимы. Из формулы (3) при А = К* вытекает, что плотность f(x) распределения ξ выражается через условную плотность f{x/y) равенством f(x) = Jf(x/y)P(Vedy). (5) Применительно к рассматриваемой задаче под f{x/y) надо понимать плотность случайной величины <^(С,у), поскольку Ρ(ξ Ε Β/η = у) = = РМС,у)ев). Формула (5) бывает очень полезной при вычислении распределений различных статистик. Например, в п. 12.6 мы могли бы формулу (12.7) для для плотности распределения Фишера выписывать сразу, а не выводить ее из вида функции распределения.
150 Гл. 2. Теория оценивания неизвестных параметров § 21. Байесовский и минимаксный подходы к оцениванию параметров Суть байесовского подхода состоит в том, что неизвестный параметр θ рассматривается как случайная величина с некоторой (известной или неизвестной) плотностью распределения q(t), ί Ε θ, относительно меры А, которая, как и мера μ в условии (Αμ), чаще всего будет представлять из себя либо меру Лебега, либо считающую меру. Плотность q(t) называется априорной, т. е. данной до эксперимента. Байесовский подход предполагает, что неизвестный параметр θ выбран случайным образом из распределения с плотностью q{t)> Пусть, далее, ft{x), t Ε Θ, χ Ε Χη, есть функция правдоподобия, введенная нами в §16. Как мы отмечали, ft{x) при каждом t есть плотность распределения в Xй. Поэтому функция f(x,t)=ft(x)q(t) есть плотность некоторого распределения в Хп χ Θ относительно меры μη χ λ, которую можно интерпретировать как плотность совместного распределения X и Θ. При таком подходе в силу теоремы 20.2 функция /г(ж), χ Ε Χη, есть условная плотность X при условии θ = t ft(x) = f(x/t), Έθ9(Χ) = Β(9(Χ)/Θ). В этих рассмотрениях формальная сторона дела требует, чтобы ft{x) была измеримой по t и χ функцией. В дальнейшем везде, где это потребуется, будем предполагать, что это свойство имеет место. В последующем параметр, как случайную величину, везде будем обозначать через 0, в то время как для фиксированных значений параметра часто будем использовать обозначения £, и и др., так что Etg(X) = Ε(9(Χ)/Θ = t). Наряду с f{x/t) мы можем выписать условную плотность q{t/x) величины θ при условии X = х: q{t/x) = М*$*\ /И = /Mx)q(t)\(dt). (1) Эта плотность определяет так называемое апостериорное (т.е. после эксперимента) распределение #, которое мы будем обозначать через Qx. Равенство (1) называется формулой Байесаяля плотности апостериорного распределения. В дальнейшем эта формула будет играть существенную роль. Свойство 9 у.м. о. применительно к байесовскому случаю означает следующее: среди всех функций θ* = φ{Χ) наилучшей оценкой для θ (в смысле минимизации Έ(θ — φ(Χ))2) является функция e*Q = Щв/Х) = Jtq(t/X)X(dt) = JtQx{dt). (2) Определение 1. Оценка 0q, определенная формулами (2), (1), называется байесовской, соответствующей априорному распределению Q с плотностью q(t).
§21. Байесовский и мимимаксный подходы 151 Отметим еще раз, что для байесовской оценки безусловное среднеквадратичное уклонение Ε{Θ*-Θ)2 = ΕΕ{{Θ*-Θ)2/Θ)=ΕΕΘ{Θ*-Θ)2 = (Et{e* -t)2q{t)\{dt) (3) принимает наименьшее возможное значение. Соотношение (3) показывает, что байесовская оценка минимизирует среднее значение (с данной весовой функцией q(t)X(dt)) величины Et(6* — t)2. Другими словами, если θ выбирается случайно, с плотностью q(t): то байесовская оценка является наилучшей в смысле среднеквадратичес- кого подхода. Среднеквадратичное уклонение (3) байесовской оценки можно представить в виде (см. (1)) E{e*Q - θ)2 = JEt{e*Q - t)2q(t)X(dt) = = J/(t - 9*Q)2ft(x)q(t)X(dt№(dx) = ΙσΙα/(χ)μη(άχ) = Ba2Qx, где Oq есть дисперсия апостериорного распределения Qx: σ1χ = /(* - e*Qfq{tlX)\{dt) = |(ί - E(0/X))2Qx(dt). (4) Это был байесовский подход к отысканию наилучших оценок. Другой подход к сравнению оценок, который отмечался нами в § 18, основан на сравнении supE^(0* — £)2, где Г С Θ — заданное подмножество Θ teT (Г либо совпадает с Θ, либо равно той его части, относительно которой удалось установить, что θ Ε Γ). —* Определение 2. Оценка θ называется минимаксной, если для любой другой оценки Θ* supEt(0* - t)2 ^ supEi(0* - t)2. ter ter Другими словами, для минимаксной оценки достигается inf supEt{9* - t)2 = supEttfP - *)2. (5) θ* ter ter Установим некоторые полезные связи между байесовскими и минимаксными оценками. Теорема 1. Обозначим через 0q байесовскую оценку для априорного распределения Q с плотностью q. Если существуют оценка Θ* и распределение Q такие, что при всех t Μθ*ι-*Ϋ< 1ВЛвЪ-и)2я(и)Ч<1и), (6) то оценка Θ* минимаксна.
152 Гл. 2. Теория оценивания неизвестных параметров Доказательство. Пусть Θ* — любая другая оценка. Тогда supEt(0* - t)2 > [ει{Θ* - t)2q(t)\{dt) > > JEt(9*Q - t)2q(t)X(dt) > Et(ei - t)\ < Заметим, что почти для всех /, принадлежащих носителю Nq = = {t : q(t) > 0} распределения Q, в неравенстве (6) с необходимостью должно выполняться равенство, так как в противном случае мы получили бы J Et(0i - t)2q(t)X(dt) < JEt{e*Q - t)2q(t)X(dt), что противоречит определению байесовской оценки. Это замечание позволяет нам сформулировать следующий критерий минимаксной оценки, эквивалентный теореме 1. Теорема 2. Если оценка Θ* 1) является байесовской для некоторого распределения Q, 2) Еь{в* -t)2 = с = const при t e Nq, 3) Et(6* — t)2^c для остальных ί, то θ* является минимаксной оценкой. Если Θ* = 9q = θ удовлетворяет этому критерию, то, очевидно, supE*(0* - tf = /*Е*(Г - t)2q{t)X(dt). (7) Таким образом, минимаксная оценка — это есть байесовская оценка, которая «выравнивает» погрешности Ει(θ — t)2 при различных t. Это значит, что априорное распределение Q, соответствующее этой оценке, заставляет быть одинаково внимательным ко всем возможным значениям 0, а не ориентироваться, как это делают байесовские оценки 0q, соответствующие другим априорным распределениям Q φ Q, на какие-то выделенные (более вероятные) значения Θ. Поскольку в последнем случае мы используем дополнительную информацию о #, то естественно, что при Q φ Q оценки 0q будут обладать меньшими значениями безусловных среднеквадратичных уклонений У Et(0£ - t)2Q(dt) < У Et(^ - t)2Q(dt). В связи с этим распределение Q в теореме 2, соответствующее минимаксной оценке θ , часто называют наихудшим, Так как такое наихудшее распределение Q не всегда существует (это бывает обычно в случаях, когда Θ — неограниченное множество), то можно предложить следующий модифицированный критерий для отыскания минимаксной оценки.
§21. Байесовский и мимимаксный подходы 153 Теорема 3. Если существует оценка Θ* и последовательность рас- пределений Q^) с плотностями q(k' такие, что при всех t Et(0i - tf < limsup (Μθ*α<*> ~ t)2qW(t)X(dt), k-юс J то оценка θ\ минимаксная. Доказательство этой теоремы столь же просто. Для любой оценки Θ* справедливо 8upEt(0· - tf > JВД* - t)2qW(t)\(dt) > JEt(FQW - t)2qW(t)X(dt). Отсюда следует, что supEt(0*-i)2^ Hmsup f E<(0* (k) - t)2q^{t)X(dt) > Et(ej - if. < ί jfe-юо У v Пример 1. Пусть X ^ Φα,ι· Выясним, что из себя представляет байесовская оценка ct*(k) параметра а с априорным нормальным распределением Q(*0 = Ф0)А;. В этом случае мы должны положить X(dt) = dt. Апостериорное распределение Q^' будет иметь плотность q(k'(t/X), пропорциональную (как функция от t) q^(t)ft{X) или, что то же, пропорциональную «ρ{-δ-ϊΣί*-«>2}· Из равенства следует, что п(*) л Чх — φχη£/(1+ηΑ;),Α;/(1+ηΑ;)· Так как байесовская оценка ot*^ параметра а равна математическому ожиданию апостериорного распределения, то отсюда получаем ^ хпк __ χ пк
154 Гл. 2. Теория оценивания неизвестных параметров к Дисперсия апостериорного распределения σ2 {к) = от X не зави- Qх 1 -г τικ сит. Стало быть, в силу (4) среднеквадратичная ошибка байесовской оценки равна к 1 1 + пк η при к —> оо. Поэтому для оценки α* = χ имеем Εί(χ-ί)2 = - = lim /Et(a* w -<)Vfc)(<)*. и, стало быть, по теореме 3 оценка α* = χ минимаксна. «Наихудшим» распределением здесь было бы равномерное распределение на всей прямой («предельное» для Φο,λ), если бы таковое существовало*). В следующем примере множество θ компактно и «наихудшее» распределение существует. Пример 2. Пусть X €? Вр, т. е. xj, j = 1,..., η, принимают значения 1 и 0 соответственно с вероятностями ρ и 1 — ρ, ρΕ θ = [0,1]. Как мы знаем, в этом случае для оценки ρ* = χ справедливо так что критерий теоремы 2 не выполнен. Рассмотрим оценку _ х + 1/2у^ р - тттмг· (8) Для нее погрешность η fp{l-p) + (1 ~ 2р)2 (l + v^)2V n 4n j 4(1+ ^η)2 не зависит от р. Если мы убедимся теперь, что оценка (8) является байесовской, мы установим тем самым ее минимаксность. Рассмотрим априорное распределение Q = Вдг+1,лг+ъ где Вдьа2 есть бэта-распределение с плотностью (см. п. 12.8) Γ(Λι + Λ2) Λι_1η _ -чАа-l Тогда, поскольку MX) = Р41 - *)n(1-*\ g(t) = p^^W -<)N' *) Интересно отметить, что оценка α* = χ перестает обладать отмеченным свойством, если X есть выборка из многомерного нормального распределения размерности, большей двух (xj е Шк, a € Rfc, к ^ 3). Подробнее об этом см. в [49].
§21. Байесовский и мимимаксный подходы 155 то апостериорное распределение будет иметь плотность q(t/X), которая как функция от t будет пропорциональна ft{X)q(t) или, что то же, пропорциональна Это означает, что апостериорное распределение совпадает с B;v+xn+i,iv+n(i-x)+i· Так как среднее значение распределения Вдьд2 равно λχ/(λι 4- Аг) (см. п. 12.8), то байесовская оценка рд, соответствующая Q, будет равна „ _ Ν + ήχ + 1 _ х+ (Ν + 1)/п Pq~ 2Ν + Π + 2 ~ 1 + 2{Ν + 1)/η При N 4- 1 = у/п/2 эта оценка будет совпадать с оценкой р*, определенной в (8), ив силу теоремы 2 будет минимаксной. Распределение Q будет наихудшим. Оно концентрируется с ростом η около «наихудшего» значения параметра ρ = 1/2, при котором дисперсия оценки х, равная р(1 —р)/п = 1/(4п), будет максимальна. Сама оценка χ не является минимаксной, так как р(1-р) . ι ^ ι SpP n 4η 4(1 +V"")2' В то же время ясно, что для всех значений р, лежащих вне узкой окрестности точки ρ = 1/2, оценка χ все же будет лучше, чем р%, — это будет иметь место для всех р, для которых ρ(ΐ-ρ)< 4(1 + 1Д/п)2' В общем случае отыскание точных выражений (явных функций от X) для байесовских и минимаксных оценок не всегда возможно. Поэтому естественно использовать также асимптотический подход. Прежде чем вводить соответствующие определения, напомним, что байесовские и минимаксные оценки 0д и 0 определялись неравенствами Е(0£-0)2-Е(0*-0)2 <0, supE<(0* - t)2 - supEt(0* - t)2 < 0 (9) для любой оценки 0*. Было бы неразумно определять асимптотическую байе- совость и минимаксность оценок, просто добавляя к левым частям знак предельного перехода lim , так как обычно для а.н. оценок Е#(0* — θ)2 ~ п-»оо ~ σ2(θ)/η и левые части в (9) будут сходиться к нулю. Поэтому естественно рассматривать, скажем, отношение слагаемых в (9). Учитывая, что в дальнейшем мы будем иметь дело главным образом с оценками, для которых Е#(0* — 0)2 имеет порядок малости 1/го, можно эквивалентным образом использовать следующее определение.
156 Гл. 2. Теория оценивания неизвестных параметров Определение 3. Оценка 0* называется асимптотически байесовской или асимптотически минимаксной, если для любой другой оценки 0* выполняется соответственно limsup[En(0J - θ)2 - Εη(θ* - θ)2] < О, η—юо limsup[supEtn(0i - t)2 - supEtn(0* - t)2} ^ 0. n-юо ter гег Отыскание асимптотически байесовских и асимптотически минимаксных оценок возможно, как мы увидим, при весьма широких предположениях. В многомерном случае (когда θ Ε Rk есть вектор) свойство 9 у.м.о., как мы видели, сохраняется, и оценка e*Q = щв/х) будет минимизировать υ(θ*) = Ε{θ* - 9)V{9* - θ)τ = ЕЕ„(0* - θ)ν(θ* - θ)τ = = [ε№* - t)V(0* - t)Tq(t)\(dt) для любой неотрицательно определенной матрицы V или, что то же (см. § 18), минимизировать усредненное (с весом q(t)) среднеквадратичное уклонение 0* — θ по любому направлению а € R*. Определение 4. Оценка 0д называется байесовской, если для любой другой оценки 0* и для любой неотрицательно определенной матрицы V Оценка θ\ называется асимптотически байесовской, если lim sup[m>(0f) -ηυ(θ%)] < 0. η—>оо Определение 5. Оценка 0 называется минимаксной, если для любой другой оценки 0* и для любой неотрицательной определенной матрицы V supE*(0* - t)V{T - t)T - supEt(0* - t)V{9* - t)T < 0. ter ter Оценка 0* называется асимптотически минимаксной, если Hmsup[supEtn(01* - £)ν(θ\ - t)T - supEtn(0* - t)V{0* - t)T] < 0. n->oo ter ter В заключение этого параграфа еще раз отметим, что обозначения Е^5, Рв(А), fe(x) в байесовском случае можем рассматривать, если потребуется, с новой точки зрения — как условные относительно 0 математические ожидания, вероятности и плотности Е(5/0), Έ*(Α/Θ), /(χ/θ).
§ 22. Достаточные статистики 157 § 22. Достаточные статистики В предыдущем параграфе мы рассматривали вопрос о построении двух типов оптимальных оценок — байесовских и минимаксных. В этом параграфе введем понятие достаточной статистики, которое позволит нам строить эффективные оценки — другой тип оптимальных оценок, выделенный нами в § 18. Понятие достаточной статистики играет важную роль в математической статистике вообще и в теории оценок в частности. Условимся обозначать статистики, т. е. произвольные измеримые (скалярные и векторные) функции от X символом 5 = S(X). Пусть X €= Р#, Р# G V = {Р#}. Рассмотрим условное относительно случайной величины S распределение Р#(Х Ε B/S), В Ε 93^, порожденное распределением Р# в Хп. Определение 1. Статистика 5 = S{X) называется достаточной для параметра Θ, если существует вариант условного распределения Ί?β(Χ £ B/S), не зависящий от Θ. Очевидно, что это определение эквивалентно следующему (ср. с определением 19.2А и теоремой 20.1): статистика S является достаточной, если для любой статистики Τ = Т(Х) существует вариант у. м. о. Е^(Т/5), не зависящий от Θ. Мы знаем, что Vq{X £ B/S) при каждом В есть у. м. о. и, следовательно, существует функция P[B/s), борелевская по s при каждом В такая, что Pe(XeB/S) = P(B/S). Мы можем считать (см. §20), что P(B/s) как функция от В есть условное при условии 5 = 5 распределение вероятностей. Это распределение можно интерпретировать как распределение X на поверхности S(x) = s. Но если S -— достаточная статистика, то это распределение не зависит от ΘΙ Это означает, что знание того, где находиться выборочная точка X на поверхности S{x) = s, не сообщает нам никакой дополнительной информации о параметре Θ. (Ведь ясно, что никто не станет определять неизвестный параметр в примере 1 введения с помощью подбрасывания монеты по той причине, что распределение числа «гербов» или «решек» при таком подбрасывании от θ никак не зависит.) Это важное обстоятельство означает, в свою очередь, что вся информация о параметре θ содержится в значении статистики 5. Отсюда и происходит ее название — достаточная статистика; грубо говоря, знания S(X) достаточно для построения оценки параметра 0; остальные данные, содержащиеся в выборке X, бесполезны. η Пример 1. Пусть X ^ ГГ\. Покажем, что статистика S = ήχ = У^х» является достаточной для параметра закона Пуассона λ. Нам надо убедиться, η что распределение положения точки X на поверхности yj Х{ = s (s целое) ·=ι
158 Гл. 2. Теория оценивания неизвестных параметров то от А не зависит. Так как Ρ ( Χ = χ, Υ^ хг· = s) = Р(Х = χ) при \^ ^ = s, г=1 η г=1 η О, если 2_] хг Φ 5. г=1 η Поскольку Х{ независимы, У^хг' €= Ппд, то правая часть (1) равна Р(Х = ж/пх = 5) = < J ХГ\Х\ — Х\, . » -?Χη — #п) Р(ггх = 5) η если г=1 η Ε г=1 (1) г=1 -1 η И^1) π е Л — = — г=1 Ж<· ns Π *i! t=l Таким образом, условное при условии S = s распределение X совпадает с полиномиальным распределением В£ (см. § 12) с η равновероятными исходами (т. е. с вектором вероятностей ρ = (1/п,..., 1/п)) и с 5 независимыми испытаниями. Очевидно, это распределение от λ не зависит, так что S = пх является достаточной статистикой для λ. Понятие достаточной статистики было введено Фишером в 1922 г. Следующая теорема Неймана-Фишера носит название факторизационной теоремы, она устанавливает простой критерий существования достаточной статистики. Предположим, что выполнено условие (Αμ) о существовании плотности Л(.) - f М- Теорема 1. Для того чтобы S была достаточной статистикой для Θ, необходимо и достаточно, чтобы функция правдоподобия /#(ж) = TT/fl^i) была представима в виде i=l Mx)=t(S(x),e)h{x) п. в. [μη], (2) где каждая из функций φ ^ 0 и h ^ 0 зависит только от своих аргументов, φ{δ,θ) измерима по s, h(x) измерима по х. Понятно, что представление (2) неоднозначно. Компоненты его определены с точностью до произвольной положительной функции от S(x). В рассмотренном нами выше примере с распределением Пуассона /л(*) = Пе_А^т = е'пААП5ЕПЛ' ™ = f>> i\ Xil tiXil έί
§ 22. Достаточные статистики 159 так что мы можем положить при S = пх V>(S,A)=e"nAA5, h(x) = f[—. Отсюда в силу теоремы 1 будет следовать, что S = пх есть достаточная статистика. Из методических соображений мы приведем два варианта доказательства теоремы 1. Первый — для наиболее простого специального случая, когда наблюдения хг· дискретны. В этом случае доказательство оказывается весьма простым. Второй, несколько более сложный вариант доказательства теоремы Неймана-Фишера, будет относиться к некоторому обобщению теоремы 1, в котором условие (Αμ) не предполагается. Доказательство теоремы 1 в дискретном случае. В дискретном случае μ есть считающая мера на счетном множестве X возможных значений χι, и, стало быть, fe{x) — Ρ#(χι — я), я Ε Χ. Пусть сначала выполнено (2). Тогда для фиксированной точки χ Ε Xй τ>θ(χ = x/s(x) = s[x)) = Ρθ{8{χ) = s{x)) . (3) Так как {Χ — ж, S(X) — S(x)} = {Χ = ж}, то правая часть (3) равна Ре(Х = х) __ Мх) Pe(S(X) = S(x)) Σ Л(У) y:S(y)=S(x) iP{S{x),0)h{x) h{x) Σ *(S(x),e)h(y) Σ НуУ y:S(y)=S(x) y:S(y)=S(x) Таким образом, Vq{X = x/S(X) = S(x)) от в не зависит. Наоборот, если левая часть в (3) от θ не зависит, то, обозначая ее через Л(ж), из (3) находим Рв(Х = х)= Мх) = Έ>Θ(Χ = ж; S(X) = S(x)) = h(x)Pe(S(X) = S(x)), где "Pq(S(X) = S{x)) = ip(S(x),9) зависит только от S(x) и θ. < Лишь немногим сложнее доказывается теорема 1 и в другом важном частном случае — «гладком», когда μ есть мера Лебега в К, а статистика S(X) предполагается гладкой функцией от X. Чтобы доказать теорему 1 в общем случае, сначала несколько изменим ее формулировку. Заметим прежде всего, что для простоты мы можем, не ограничивая общности, считать η = 1, так как выборку X мы можем рассматривать как выборку объема 1 из совокупности с плотностью распределения η /β(χ) = ТТ /^(^i). Тогда теорема 1 будет эквивалентна следующему утверж- i=l дению.
160 Гл. 2. Теория оценивания неизвестных параметров Теорема 1А. Для того чтобы S была достаточной статистикой, необходимо и достаточно, чтобы при каждых 0, Θ' отношение Л'(я) было функцией от S(x), га. е. чтобы существовала измеримая по s функция rQ}or(s) такая, что Ш-ге^Б{х)\ (4) Л'(я) Действительно, если верно (2), то (4) очевидно. Если верно (4), то, фиксируя θ1, получим равенство Л (я) = refi>(S(x))f9'(x), которое влечет за собой (2) при h(x) = /#'(#), ^{6,s) = rofit(s) [θ' фиксировано). < Характеризация достаточности с помощью теоремы 1А обладает двумя пр еиму ще ства ми. 1. В ней отсутствует проблема неоднозначности представления (2), связанного с неопределенным множителем, зависящим от S. (Поэтому в ряде случаев для отыскания достаточной статистики S удобнее пользоваться теоремой 1А, а не теоремой 1.) 2. Она позволяет получать критерии достаточности, не связанные с условием (Αμ). Чтобы убедиться в последнем, заметим, что теорему 1А можно переформулировать следующим образом. Статистика S является достаточной тогда и только тогда, когда при каждых θ, Θ1 отношение М*)'+М*) ΞΚθ"'{Х) = 1 ТгеХ) (5) является функцией от S(x). Рассмотрим теперь усредненное распределение P = iV = 2(p* + ]EV)· Очевидно, что распределение Р# абсолютно непрерывно относительно Ρθ,Θ' и, стало быть, существует плотность /v(*) = ^-(«) (6) (она всегда ограничена, так как fe,e'{x) + ίθ',θ(χ) = 2). Если выполнено условие (Αμ), то ίθ,θ'{χ) = 2Β>θ}θ'{χ)- Таким образом, функция R, присутствующая в (5), допускает определение, никак не связанное с условием (Αμ) (этого нельзя сказать о функции г в
§ 22. Достаточные статистики 161 теореме 1А, так как Р# не всегда абсолютно непрерывно относительно Ρ#>, как, например, в случае, когда θ есть параметр сдвига: Έ*θ{Β) = Р(В — 0), Р0О([0,1]) = 1 при некотором 9q). Теперь мы можем сформулировать характеризационную теорему в виде, не связанном с условием (Αμ). Теорема 1В. Статистика S является достаточной тогда и только тогда, когда при каждых θ, Θ' плотность /θ,θ'{χ) есть функция от S, т. е. существует измеримая по s функция g9fl(s) такая, что /$β'(χ) = Из сделанных выше замечаний ясно, что при выполнении (Αμ) это утверждение эквивалентно теореме 1А и, следовательно, теореме 1. Доказав теорему 1В, тем самым докажем теорему 1. Доказательство теоремы 1В. Необходимость. Пусть статистика S является достаточной. Тогда для любой статистики Τ = Г(Х) Ев(Г/5) = Ey(T/S) ξ H(S(x)) (7) от θ и θ' не зависит. Наряду с у^м. о. Е#, построенным по распределению Р#, можем строить также у.м.о. Ε по усредненному распределению Ρ = Т?е,е'- Покажем, что Е(Т/5) = Е^(Т/5) и, следовательно, также не зависит от 0, Θ'. Действительно, для любой измеримой функции т в силу (7) и свойств у. м. о. B(Tm(5)) = |pB,(Tm(S)) +E,(Tm(S))] = = i[E*(tf (S)m(S)) + Eef(H(S)m(S))} = ЁЯ (S)m(S). Отсюда следует, что (см. определение 19.2А) ЩТ/S) = H(S) (8) от θ и θ1 не зависит (т. е. S является достаточной статистикой и для семейства Ρ = Р(9,0')· Нам надо доказать, что / = /θ,Θ'(χ) является функцией от S(x). Для этого покажем, что Л,ИХ)=Ё(Л,ИХ)/5) п. в. или, что то же, d = Ё[/ - Ё(//5)]2 = Ё/2 - 2Ё/Ё(//5) + Ё(Ё(//5))2 = 0. Но в этом соотношении в силу свойств у. м. о. Ё/Ё(//5) = Ё(Ё(//5)Ё(//5)) = Ё(Ё(//5))2 и, стало быть, d = E/2-E/E(//5),
162 Гл. 2. Теория оценивания неизвестных параметров где в силу равенства (6) Ё/2 = J f ■ fPefi,{dx) = JfPeidx) = E9f, (9) Ё/Ё(//5) = JvUIS)rP0fi.(dx) = JE(f/S)Pe(dx) = E9E(f/S). Но согласно (7), (8) Е(//5) = Ee(f/S). Следовательно, правая часть (9) будет равна E$E0{f/S) = Ε*/, d = 0. Достаточность. Пусть теперь Jqji(x) = gej'{S(x)) является функцией от 5(ж). Покажем, что тогда для произвольной статистики Τ и произвольных б, Θ' E9(T/S) = E9,(T/S), (10) что означает независимость E9(T/S) от 0 и достаточность S. Положим H(S) = E(T/S). Тогда для любой измеримой функции m Евт(5)Я(5) = f m{S{x))H(S(x))Pe(dx) = = [m(S(x))H(S(x))fe,9.(x)P(dx) = ί m(s)H(s)g9,9l(S)P(S(X) G ds) = = Em(S)H(S)g9,9.(S) = Em(S)Tg9i9.(S). Те же рассуждения в обратном направлении позволяют продолжить эти равенства следующим образом: = fm{S{x))T{x)gBtei{S{x))P{dx)= Im{S{x))T(x)Pe{dx) = Eem{S)T. Отсюда следует H(S)=E9(T/S). Поменяем теперь местами θ и Θ1. Функция /^/^(ж) также будет функцией от S(x). Поэтому совершенно аналогично получим H(S) = E9,(T/S), что доказывает (10). Теорема доказана. < Вернемся теперь к теореме 1 и примерам достаточных статистик. Пример 2. Пусть Χ ξ= Φα>σ2. Здесь параметр θ = (α,σ2) двумерный. Имеем
§ 22. Достаточные статистики 163 Полагая S = (Si, S2), Si = пх, S2 = /Jx*» получим представление (2), где t=l *(5,*) = α-exp {-52"^1+а2} , НХ) = (2π)""/2. Здесь мы могли бы, конечно, множитель (2π)~η/2 отнести и к функции ψ, положив h(X) = 1. Таким образом, мы получили, что статистика (Si, S2) является достаточной векторной статистикой для (α, σ2). Из всей информации, содержащейся в выборке, нам достаточно знать χ и 2_] xi - Предлагаем читателю найти достаточные статистики для всех семейств распределений, приведенных в § 12. Остановимся подробнее лишь на одном их этих семейств. Пример 3. Пусть X €= Uo,0. Здесь условие (Αμ) выполнено относительно меры Лебега и -г , если 0 ^ х2^ θ при всех г = 1,..., п, ίθ{Χ) = i п в противном случае. Пусть Х(!) = minxj, X(nj = таххг. Тогда, как мы видели в примере 16.5, функцию f$(X) можно записать в виде f${X) = ψ{χ.(η),θ)Ιι(Χ), где Ηχ) = μ> еслих(1)^0, в противном случае, ч (θ~η / ( а\ )~ при 5 ^ Θ, в противном случае. Это означает, что S(X) = Х(п) есть достаточная статистика для Θ. Аналогичным образом читатель может убедиться, что для выборки X €= €= Ueti+o достаточной статистикой для параметра θ является двумерная статистика S(X) — (x(i),X(n)). Такой же будет достаточная статистика и для двумерного параметра θ = (α, 6), когда выборка извлечена из распределения Ufl)6. Приведем некоторые следствия теоремы 1. Следствие 1. Если S — достаточная статистика для 0, то оценка максимального правдоподобия зависит лишь от S. Точнее, о. м.п. Θ* не зависит от X при фиксированном S(X). Это следствие очевидно, так как о.м.п. есть значение 0, при котором достигается максимум fe{X) = Ψ(8(Χ),θ)}ι(Χ) или, что то же, максимум Следствие 2. Если S — достаточная статистика и функция φ такова, что отображение и = φ(ν) взаимно однозначно и измеримо в обе стороны, то Si = ip{S) также будет достаточной статистикой.
164 Гл. 2. Теория оценивания неизвестных параметров Это следствие также очевидно, поскольку ip(S, Θ) в (2) можно записать в Bmef/>{<p-l{Si),e)=tl>i{Sue). Следствие 3. Пусть нам надо оценить параметр η = φ{θ), где φ осуществляет взаимно однозначное отображение, так что определена функция θ = φ~ι(Ί)' Пусть, далее, S — достаточная статистика для Θ. Тогда S будет также достаточной статистикой для у. Это следствие вытекает из тех же соображений, что и в следствии 2. Действительно, функция правдоподобия для 7будет иметь вид /φ(8(Χ),ψ~ι(^)) χ χ h(X), где первый множитель можно записать в виде t/>i(S(X),7)· Справедлив еще один критерий достаточности статистики 5, который можно рассматривать как некоторую модификацию теоремы 1В. Теорема 2. Статистика S является достаточной для θ тогда и только тогда, когда для любого априорного распределения Q параметра θ апостериорное распределение Qx зависит от X только через S(X) (т. е. остается неизменным на поверхности S(X) = s). Доказательство. Пусть S — достаточная статистика, q(t) — плотность Q относительно какой-нибудь меры λ. Тогда апостериорная плотность q{t/X) относительно этой меры будет по формуле Байеса равна дШХ) = МШ*) = iKS(X)tt)q(t) ί fu{X)q{u)X{du) ί 1/>{S{X), u)q{u)X{du) Докажем теперь обратное утверждение теоремы. Выберем априорное распределение так, чтобы q(t) > 0 всюду на Θ и при всех t ft{x) = q{t/xq(/){x)> пх) = /шшч<ь). Если q{t/X) = g{t,S{X)), то, полагая tp{s,t) = g{t,s)/q(t), h{X) = f(X), получим представление (2). < Следствие 4. Если S — достаточная статистика, то все байесовские оценки и минимаксные оценки, определенные с помощью теоремы 21.2, зависят лишь от S. В дальнейшем получим много других подтверждений того, что достаточная статистика S содержит в себе исчерпывающую информацию о 0. § 23.* Минимальные достаточные статистики Рассмотрим теперь вопрос о выборе достаточных статистик. Ясно, что их может быть очень много. Например, статистика S(X) = X, очевидно, всегда является достаточной. Эта достаточная статистика называется тривиальной достаточной статистикой. Однако мы заинтересованы (и в дальнейшем станет ясно, почему) в более «экономных» статистиках. Оказывается, далеко не всегда можно построить достаточные статистики, которые были бы существенно «экономнее» тривиальной достаточной статистики. К этому вопросу мы вернемся после того, как определим более точно понятия, связанные с
§ 23 Минимальные достаточные статистики 165 «экономностью» достаточных статистик. Для этого введем на множестве всех достаточных статистик (для некоторого параметра Θ) частичный порядок. Определение 1. Будем говорить, что статистика Si подчинена 5г, если Si есть измеримая функция от S2'. Si = ^(S^)· Это соотношение и означает, что Si «экономнее» #2- Определение 2. Если 5χ подчинена S2 и 5г подчинена 5Ί, то статистики Si и 5г называются эквивалентными. Очевидно, S\ эквивалентна 5г тогда и только тогда, когда Si = ^(^г) и φ — взаимно однозначное измеримое в обе стороны отображение. Определение 3. Достаточная статистика Se называется минимальной, если она подчинена любой другой достаточной статистике S. Минимальная достаточная статистика является самой экономной. Если мы построили минимальную достаточную статистику S, то при сохранении свойства достаточности дальнейшее сокращение данных по сравнению с S невозможно. Остальные данные, содержащиеся в выборке, можно рассматривать как порожденные некоторым случайным механизмом, не зависящим от 0. Они не несут в себе никакой информации о Θ. Введенные понятия, как и исходное понятие достаточной статистики, можно в слегка обобщенной форме излагать на языке σ-алгебр, который в ряде случаев оказывается более удобным и наглядным. В самом начале — в определении 22.1 предыдущего параграфа — условное распределение Ρθ(Χ € B/S) можно заменить на условное распределение Pq(X Ε G В/21) относительно σ-подалгебры 21 С 25д> и называть 21 достаточной σ-алгеброй, если существует вариант Рв(Х € В/%), не зависящий от Θ. Факторизационная теорема при таком подходе сохранится, если функцию ifj{S{X),9) заменить на 21-измеримую по X функцию ψ(Χ,θ). Доказательство этой теоремы по существу останется прежним. Достаточную статистику теперь можно определить как статистику S, для которой порожденная ею σ-алгебра σ(5) будет достаточной. Подчиненность достаточных статистик (см. определение 1) на языке σ-алгебр не требует введения дополнительных понятий и совпадает просто с вложением σ-алгебр: Si подчинена S2, если σ(ί>ι) С σ^)· Таким образом, S\ экономнее 5г, если σ-алгебра σ(5ι) беднее (грубее), чем а(5г). Эквивалентность Si и 52 означает, что σ(5ι) = а(5г). Минимальная достаточная σ-алгебра 21о определяется как σ-алгебра, которая вкладывается в любую достаточную σ-алгебру. Минимальная достаточная σ-алгебра всегда существует. Прежде чем сформулировать соответствующее утверждение, заметим, что существует распределение Q на Θ такое, что все Р# абсолютно непрерывны относительно распределения Pq = / PtQ(dt). Действительно, рассмотрим байесовскую постановку задачи, когда θ есть случайная величина с априорным распределением Q. Пусть q(t) > 0 есть плотность распределения относительно подходящей меры λ на Θ.
166 Гл. 2. Теория оценивания неизвестных параметров Допустим для простоты, что для п. в. χ функция ft(x) в каждой точке t Ε Ε Θ непрерывна справа и слева. Тогда все распределения Pt будут абсолютно непрерывны охношхельно Р, = /р„(()А(<й), «, „ак Рв(Л) = 0 влечет за собой Р^ (А) = 0 для всех t. Это означает, что либо /q{X) = / ft{X)Q(dt) > 0 при всех X, либо из равенства }q{X) — 0 следует fe{X) = 0 при всех Θ. В этом случае говорят, что Pq доминирует семейство {Р#}, так что мы могли бы Pq взять в качестве меры μ. Плотность распределения Р# относительно этой меры равна dPQ[x) /«И ( ' )- Ясно (ср. с теоремой 22.2), что если S — достаточная статистика, то г(х,6) зависит от χ лишь через S{x). Теорема 1. σ-алгебра Slo = σ(τ(Χ,θ)\ θ Ε Θ), порожденная случайными величинами τ(Χ,θ) = fg(X)//q(X) при различных 0 Ε θ, является минимальной достаточной σ-алгеброй. Доказательство теоремы весьма просто. Достаточность 51о следует из факторизационной теоремы и того, что fg(X)=r(X,e)fQ(X), (1) где }q{X) не зависит от 0, а г(Х,Θ) измерима относительно Slo. Пусть теперь 31 есть любая достаточная σ-алгебра. Тогда fe{X) = = ф{Х)в)к{Х)^ где функция ψ(Χ,θ) 51-измерима. Рассмотрим σ-алгебру ЗЦ = σ(ψ(Χ,θ), θ Ε Θ) С SI. Из определения г(Х,в) следует, что fi,(X,W(dt)' и, стало быть, Sto С ЗЦ С 31. < С этой теоремой и теоремой 22.2 тесно связано другое полезное замечание. Апостериорная плотность, соответствующая q(t), равна яШХ) = У^=г(ХЛф), и, стало быть, минимальную достаточную σ-алгебру Slo можно рассматривать как порожденную апостериорным распределением: α0 = σ(9(ί/Χ);ί€θ). Отыскание распределений Q и Pq, фигурирующих в теореме 1, обычно труда не составляет. Например, если носитель Νρθ распределения Ρ я от θ не зависит, что имеет место для большинства распределений, перечисленных в § 12, то можно взять Pq = Р#0 при любом #о € Θ.
§ 23. Минимальные достаточные статистики 167 Таким образом, мы располагаем теоремой существования и конструктивным способом построения минимальных достаточных сг-алгебр*). Однако в большинстве случаев нам все же будет удобнее иметь дело со статистиками. Основная задача этого параграфа — отыскание минимальных достаточных статистик. Прежде всего, каким образом можно проверить, что данная достаточная статистика Sq является минимальной? Одна из возможностей состоит в использовании теоремы 1. Если σ(5ο) совпадает с σ-алгеброй, порожденной fe{X)/Jq(X), to Sq есть минимальная достаточная статистика. Пример 1. Мы видели, что статистика S = пх является достаточной для параметра λ распределения Пуассона Пд. Это будет минимальная достаточная статистика, так как a(S) совпадает, очевидно, с σ-алгеброй, порожденной fx(X)/f\l(X) = βη(λι_λ)(λ/λι)5 (мы взяли здесь распределение Q, сосредоточенное в точке λι). Пример 2. Пусть X €= Uo,0. Тогда статистика 5 = X(n) = тахх* является минимальной достаточной статистикой. В самом деле, возьмем в качестве Q какое-нибудь распределение на [0, оо) с плотностью q(t) > 0 при всех t > 0. Тогда 0, θ < 5, 00 ОО /qW = J ft(X)q(t)dt = jrnq(t)dt > О О 5 при всех X. При этом 5 = sup{0: fo{X)/Jq(X) = 0}. Это означает, что 5 измерима относительно минимальной σ-алгебры 21ο, σ(5) С 21о и что, стало быть, 5 — минимальная достаточная статистика. Можно указать другой способ отыскания минимальных достаточных статистик, также связанный с функцией правдоподобия. В самом деле, любая статистика, и в частности достаточная статистика 5, порождает разбиение выборочного пространства на классы эквивалентности — т.е. на подмножества точек χ с одинаковым значением S(х). Если Si подчинена S%, т.е. S\ = <^(52), то> очевидно, разбиение для Si будет более крупным, так как классы эквивалентности для S2 содержатся в классах эквивалентности для S\. Таким образом, минимальной достаточной статистике соответствует самое «крупное» среди разбиений, порожденных достаточными статистиками. Можно рассматривать просто разбиения пространства на классы эквивалентности, не связывая их непосредственно со статистиками. Класс эквивалентности, содержащий точку ж, обозначим через D{x). Каждый класс однозначно определяется какой-нибудь одной своей точкой. Разбиение на классы D будем называть достаточным, если Μχ) = φ(χ,θ)Η(χ), (2) ίθ(Χ) - *) Существование минимальной достаточной σ-алгебры 21о можно установить и иным путем, доказав, что 21о есть пересечение всех пополненных достаточных σ-алгебр.
168 Гл. 2. Теория оценивания неизвестных параметров где φ(χ,θ) = φ(χο,θ) постоянно при χ G D(xq) (т.е. φ{χ,θ) = const внутри класса эквивалентности). Если классы D(x) определяются соотношениями S(x) = = 5, то из теоремы 21.1 сразу вытекает, что статистика S(x) достаточна тогда и только тогда, когда разбиение на классы D достаточно. Рассмотрим теперь разбиение, построенное следующим образом: возьмем точку хо и объявим, что χ принадлежит классу D(xq), если отношение AM"*"·"·' <3) не зависят от Θ. Очевидно, что при таком построении D{x\) = D{x2) = D(xq), если χι Ε D(xo), χ<ι € Ώ(χ§), так что правило (3) порождает разбиение всего пространства на непересекающиеся классы. Это разбиение соответствует разбиению, порожденному минимальной достаточной статистикой S. В самом деле, пусть S — минимальная достаточная статистика. Возьмем произвольную точку xq. Тогда на поверхности S(x) = S(xq) отношение fe(x)/fe(xo) равно h(x)/h(x0) и, стало быть, от θ не зависит. Таким образом, разбиение на кассы D не менее крупное, чем разбиение для 5. С другой стороны, это разбиение достаточное. Действительно, каждой поверхности D мы можем поставить в соответствие одну какую-нибудь ее точку χ в, по которой эта поверхность будет однозначно определяться. Рассмотрим функцию Хо(х), которая определяется соотношением хо(х) = xd-> если χ € D. Тогда в силу (3) при xeD fe{x) = fe(xD)h(x,xD) = fe(xo(x))h(x,x0(x)), (4) что означает выполнение (2). Проведенные рассмотрения были не совсем строгими, так как мы не связывали их с вопросом об измеримости функций, входящих в (4). Сказанное можно резюмировать следующим образом. Пусть дана статистика S(X) такая, что S(x) = S(xo) тогда и только тогда, когда отношение (3) не зависит от Θ. В этом случае S есть минимальная достаточная статистика. В отличие от подходов, связанных с теоремой 1, где рассматривались отношения fe{x)lIq{x) или fe(x)/fe1(x) при разных θ и θχ (называемые часто отношениями правдоподобия), правило, сформулированное выше, использует отношение fe(x)/fe(xo) при одинаковых значениях параметра Θ. В примере 1, например, отношение А (ар = ТТ bXi~XioXiol = Λη(*-*ο) ТТ ££: Д(*о) И Хг\ И Хг\ 1 п не будет зависеть от λ тогда и только тогда, когда χ = х0 = — У^ЯгО, где Хю — ι=1 координаты вектора xq. Этого достаточно, чтобы заключить, что S(x) = χ есть минимальная достаточная статистика. Рассмотрим теперь с помощью предложенного правила пример, когда «экономных» достаточных статистик не существует. Прежде заметим, что вариационный ряд Sy = (х(!),Х(2),.. .,Х(П)), построенный по выборке X, очевидно, всегда является η η достаточной статистикой, так как fe{X) = ТТ/#(хг) = ТТ fe(*(k))· Эта статистика г=1 к=1 «чуть-чуть экономнее» самой выборки X. Отсюда, в частности, следует, что любая минимальная достаточная статистика инвариантна относительно перестановки координат χι в выборке X.
§ 23. Минимальные достаточные статистики 169 Если плотность fe(x) симметрична, т.е. /#(—х) — fe(%) при всех 0, то, очевидно, будет существовать еще немного более «экономная» достаточная статистика, представляющая из себя упорядоченную по возрастанию совокупность (х2,.. .,х^), которую мы обозначим через Sy2. Пример 3. Если Χ ^ Κο,σ, га. е. если х* имеют плотность распределения Коши с параметром θ — σ £θ,σ0*0 π(χ2 + σ2)1 mo статистика Буг является минимальной достаточной статистикой. Действительно, в этом случае /^)=©пгЫ+*2)_1> г=1 так что fa(x) _ ТТ 4) + °2 =пз& и Ισ(Χθ) есть отношение двух полиномов от σ2. Оно не зависит от σ тогда и только тогда, когда коэффициенты при соответствующих степенях σ2 в числителе и знаменателе совпадают. Это, в свою очередь, имеет место тогда и только тогда, когда множества «нулей» {—xfQ} и { —х2} совпадают. Другими словами, для независимости (5) от σ необходимо и достаточно, чтобы точка х2 = (я2,..., х2п) имела координаты, которые отличаются от координат х\ разве лишь перестановкой их мест. Это и означает, что Sy2 есть минимальная достаточная статистика. Совершенно аналогично можно показать, что Sy является минимальной достаточной статистикой для параметра а и, стало быть, для параметра θ = (α,σ) распределения Κα>σ. Другой пример, в котором Sy будет минимальной достаточной статистикой, получим, если рассмотрим семейство Pajlts2 = &Ρθι + (1 - α)Ρθ2, α G [0,1], где {Ρ β} — экспоненциальное семейство (см. § 25; в качестве Р# можно взять нормальное распределение или распределение Пуассона) и где хотя бы один из параметров а, #1, 02 неизвестен. Докажем теперь теорему, указывающую простой «конструктивный» способ отыскания минимальных достаточных статистик. Для простоты изложения рассмотрим случай одномерного параметра Θ. Теоре ма 2. Пусть функция правдоподобия fe{x) при всех χ как функция от θ непрерывна справа (или слева). Тогда если оценка м.п. Θ* единственна и является достаточной статистикой, то Θ* есть минимальная достаточная статистика. Доказательство. Пусть S — произвольная достаточная статистика. Мы докажем теорему, если покажем, что Θ* измерима относительно a(S) и, стало быть, Θ* подчинена S.
170 Гл. 2, Теория оценивания неизвестных параметров В силу факторизационной теоремы fe(x)=il>(S{x),e)h{x) п. в. [μη], (6) где h(x) — измеримая функция по ж, ip(s,t) непрерывна (справа или слева) по t и измерима по s. Так как Р# не изменится, если плотность /я (ж) изменить на множестве /лп-меры 0, мы можем считать, что (6) справедливо при всех ж. В силу (6) точка абсолютного максимума /#(#) является точкой абсолютного максимума и для ?/>(5(ж),0). Поэтому в силу единственности Θ* {Θ* < t} = {sup</>(SpO,0) > sup</>(S(X),0)}. 0<t θ^ί Так как ip{S(X),0) при каждом S(X) непрерывна по θ справа (или слева), то существует счетное всюду плотное множество Эс = {%}^ι С Θ (одно и то же для всех S(X)) такое, что sup</>(S(X),0) = sup ^(S(X),0,)· (7) 9<t »j<t Такое же соотношение будет справедливо для области θ ^ t. Так как tJ)(S(X), 6j) измеримы относительно cr(S), то в силу (7) значения sup^(5f,θ) 0<t и sup ip(S, θ) будут случайными величинами, также измеримыми относите* тельно σ(5). Следовательно, {Θ* < t} Ε cr(S'), и теорема доказана. < Условие достаточности о. м. п. Θ* в условии приведенного утверждения существенно, поскольку оценка м. п. Θ* сама по себе не обязана быть достаточной статистикой. Соответствующий пример легко получить, рассмотрев любое семейство распределений {Р#} со скалярным параметром θ и векторной (размерности, большей единицы) минимальной достаточной статистикой 5. В этом случае оценка м. п. Θ* будет также скалярной, так что σ-алгебра σ(5) будет более богатой, чем σ(θ*), и, стало быть, включение σ(5) С 0-(0*), вытекающее из минимальности S и достаточности 0*, невозможно. Пример 4. Пусть X ^ U^i+0, Θ = R. Тогда, как мы видели в примере 16.4, f (χ) = <Г при θ ^ Χ(1) ^ Χ(η) ^1 + θ> \θ в противном случае, ■β так что fe(X) зависит от X только через Χ(χ) и Х(п\. Это означает, что S = (χ^,χ^)) есть достаточная статистика. Ни одна из величин х^), Х(п) в отдельности не является достаточной статистикой, на что указывают следующие соотношения: η Р(х(1) > щ χ(η) < ν) = Π Р(хг е [щ ν)) = (ν - гх)п г=1 при гх > 0, г> ζ 1 + 0, г; > гх.
§ 24. Достаточные статистики и эффективные оценки 171 Поэтому совместная плотность распределения (х^\,х^п\) будет равна (п(п - 1)(ν - u)n~2 при u^ θ, ν ^ 1 + 0, υ > u, l^U в остальных случаях. Далее, P(x(i) ^ и) = (1 + 0 — u)n при θ < u < 1 + θ, так что плотность x^j равна g(u) = n(l 4- (9 - и)71"1 при б < ti < 1 + 0. Отсюда уже легко получить, что условная плотность g(v/u) величины Х(п) при условии Х(!) = и (а стало быть, и соответствующее условное распределение) будет зависеть от 0. Это означает, что х^) (как и Х(п)) в отдельности не являются достаточными статистиками. Так как в качестве о. м. п. Θ* мы можем взять Θ* = х^) (см. пример 16.4), то мы доказали, что для семейства Ήθ,ι+θ о. м. п. 0* не является достаточной статистикой. Предлагаем читателю с помощью теоремы 1 убедиться, что S=(x^, X(n)) является минимальной достаточной статистикой для ияд+я. Условие о достаточности Θ* в теореме 2 будет автоматически выполнено, если предположить, что существуют скалярная (для одномерного 0) достаточная статистика So, для которой функция φ в равенстве Θ* = ^(SO) будет взаимно однозначной (т.е. Θ* и So будут эквивалентными). § 24. Построение эффективных оценок с помощью достаточных статистик. Полные статистики Определение 1. Оценка 0* называется достаточной, если она является достаточной статистикой. 1. Одномерный случай. Будем предполагать здесь, что 0 — скалярный параметр. Пусть Кь есть класс всех оценок 0* со смещением Ь(0), так что 0* е Кь если α{θ) = Εθθ* = θ + 6(0). Для 0* Ε Kb имеем ΕΘ{Θ* - θ)2 = Εθ{θ* - α(0))2 + (α(0) - θ)2 = Ό0Θ* + 62(0). Индекс θ у символов Е#, D# будем в этом параграфе иногда опускать. Следующее утверждение было получено независимо Блекуэлом, Рао и Колмогоровым. Теорема 1. Пусть S — достаточная статистика, 0* £ К\>. Тогда функция 9*s = E$(6*/S) является оценкой, обладающей свойствами: 1) e*s e кь, 2) θ $ зависит от выборки лишь через S{X), 3) Εθ(θ*8 - θ)2 < Εθ{θ* - θ)2 при всех 0. Последнее неравенство превращается в равенство, если только 0* = 9*s п. е. относительно Р#.
172 Гл. 2. Теория оценивания неизвестных параметров Другими словами, в классе Кь применение к 0* операции Е^(-/5) равномерно улучшает оценку 0*. Доказательство. Тот факт, что 0J является оценкой, означает, что 9*s не зависит от 0 и является измеримой функцией от X. Независимость от 0 вытекает из свойств достаточных статистик, так как распределение X при фиксированном 5 от 0 не зависит (Eq(9*/S) для произвольной статистики 5, вообще говоря, от 0 зависит). В то же время в силу свойств у.м. о. θ*3 есть измеримая функция от 5, а стало быть, и от X. Таким образом, 0J является оценкой, удовлетворяющей свойству 2 теоремы. Равенство Εθθ*3 = EeEe(e*/S) = Εθθ*, доказывающее, что θ3 € Кь, также следует непосредственно из свойств у.м.о. Далее, Εθ{θ* - θ)2 = ΕΘ(Θ*-Θ± θ*5γ = = Εθ(θ3-θ)2 + Εθ{θ*-θ3)2 + 2Εθ(θ3-θ){θ*-θ*3). Используя опять свойства у.м.о., получим εθ{θ3-θ){θ*-θ3)=εθεθ[{θ3-θ){θ*-θ;)/8] = = Εθ[{θ3-θ)Εβ{θ*-θ3/8)]=0, и, следовательно, Έθ(θ* - θ)2 = Εθ{θ*3 - θ)2 + Εβ(θ* - θ*3)2. < Собственно, неравенство З) теоремы 1 можно получить непосредственно из свойства у.м.о. (Ε(ξ/5))2 < E(£2/S), так как тогда (0£ - θ)2 = [Εθ((θ* - 0)/S)]2 ^ Ε9[(θ· - Θγ/Sl ®θ{θ*3-θ)2 <E(0*-0)2. Факт, изложенный в теореме 1, можно интерпретировать следующим образом. Пусть S и Τ — две достаточные статистики, 0* = φ(Τ) и S подчинена Г, тогда Εθ(θ*3 - θ)2 < Efl(0* - 0)2. Другими словами, чем «экономнее» достаточная статистика S (или чем беднее соответствующая σ-алгебра), тем оценки 9*s лучше. Таким образом, для построения оптимальных оценок мы должны искать минимальные достаточные статистики (или минимальные достаточные σ-алгебры). При этом в качестве исходных оценок 0* могут фигурировать и «плохие» оценки, не обладающие, например, даже свойством состоятельности. Поучительным в этом отношении является следующий Пример 1. Пусть X ^ Пд. Оценка λ* = χι, очевидно, является несмещенной Ελ* = Εχι = λ (b(X) = 0), но не состоятельной, так как она от η не зависит. Минимальной достаточной статистикой для λ является статистика S = пх = /™]xi- Из примера 22.1 следует, что условное относительно S
§ 24. Достаточные статистики и эффективные оценки 173 распределение χι есть распределение В[/ в схеме Бернулли с вероятностью успеха 1/п Pfc-*/*-.)-<*(£)'(l-i)~\ Следовательно, AJ = E(x,/5) = !>C!(iHl-ir' = f=x· В одном из последующих примеров покажем, что χ — эффективная оценка. 2, Многомерный случай. Получим аналоги теоремы 1 для многомерного случая, когда θ и Θ* есть векторы из Шк. Как и в одномерном случае, вектор Ь{9) — Е#0* — θ будем называть смещением оценки Θ* и обозначать через Kf, класс всех оценок со смещением Ь. Теорема 1А. Пусть S — достаточная статистика и θ* Ε Κ\>. Тогда оценка θ$ = E#(0*/5) обладает свойствами: 1) θ*5 е Кь; 2) θ*3 зависит лить от S(X)\ 3) среднеквадратичное рассеивание θ$ не превосходит среднеквадратичного рассеивания 0*, или, что то же, для любого вектора оЕМА Εθ{θ*3-θ,α)2ζΕθ(θ*-θ,α)2. (1) Равенство (при всех а) здесь возможно лишь в случае θ* = θ*8 η. е. относительно Pq. Доказательство. Первые два утверждения очевидны. Неравенства (1) следуют из теоремы 1, поскольку все сводится к рассмотрению одномерных оценок (0*,а) и Е^[(б*,а)/5] = (0£,а) параметра (0,а). Если в (1) при всех α справедливо равенство, то при каждом а будем иметь (θ^,α) = {θ*, а) п. в. Это и означает, что 9*s = θ* п. в. < Таким образом, в многомерном случае роль достаточных статистик та же: квадратичная форма 2_Ισ4α*α3ΐ где σ2 = \\συ\\ есть матрица вторых моментов для 9*s — 0, будет тем меньше, чем меньше σ-алгебра cr(S'), порожденная S. 3. Полные статистики и эффективные оценки. Приведем теперь весьма простой критерий неулучшаемости оценок, основанный на понятии полноты статистики S. Размерность статистики S будем обозначать через I. Обычно она больше или равна размерности к параметра 0. Для двух измеримых функций /i(s) и /2(5): Rz —> Шк будем писать /ι(5) = /2(5) п.в. [V], где V — семейство распределений в (К*,93*), если /ι(5) = /2(5) всюду, за исключением множества N такого, что P(iV) = О для всех Ρ 6 Р.
174 Гл. 2. Теория оценивания неизвестных параметров Определение 2. Семейство Q = {G#} распределений в (Мг,*8г), зависящих от fc-мерного параметра θ € Θ С R , называется полным, если равенство η y{s)Ge{ds) = 0 при всех Θ е Θ (2) влечет за собой y(s) =0п.в. [Q]. Уравнение (2) рассматривается в классе функций у\ R1 —> М.к, для которых интеграл (2) существует. Определение 3. Статистика S называется полной, если семейство Q ее распределений G#, индуцированных распределением Р# в (Л^Шд,), является полным. Уравнение (2) для статистик может быть написано в виде Е^у(5) = О при всех θ е Θ С К*. Теорема 2. Статистика S является полной тогда и только тогда, когда при каком-нибудь bo(9) a(S)-измеримая*) оценка Θ* единственна в классе К^ всех a{S)-измеримых оценок из Кь0. Если σ(5)-измеримая оценка единственна в К^о, то σ(5)-измеримые оценки будут обладать свойством единственности и в любом другом классе К^'. Доказательство этого утверждения почти очевидно, так как наличие в Кь0 двух а(5)-измеримых оценок в\ = <£>i(S), 0£ = ^2 (5) означает, что f <Pi{s)Ge(ds) = Ъо{в), г = 1,2, / [ψι{3) — WzMJGflids) = О при всех θ G Θ, так что полнота S влечет за собой <^i(s) = ψ2{^) п>в· [£/]· Наоборот, пусть для всех θ 6 Θ, θ* — φ\ (s) E Къ- Тогда θ\ = φι (s)+y(s) G Кь, единственность а(5)-измеримой оценки означает, что y(s) = 0 п. в. [Q]. < Теорема 3. Если достаточная статистика S является полной и θ* Ε Кь, то оценка 9*s = Efl(0*/S) является единственной эффективной оценкой в Кь* Эта теорема дает нам достаточно простые критерии эффективности оценок. Доказательство. В силу теоремы 2 а(5')-измеримая оценка в классе К^ единственна. Пусть Θ** — любая другая оценка из Кь. Тогда θ§* = Ee(6**/S) € Κξ и, стало быть, θ*<? = θ*§ п. в. [£]. Отсюда и из теоремы 1 следует, что Εθ{θ3 -θ)= Εθ(θ*3* - θ)2 ζ Εθ(θ** - θ)2, и равенство возможно лишь при θ** = θ*8 п. н. < *) То есть измеримая относительно σ-алгебры a(S), порожденной 5, и, стало быть, пред- ставимая в виде w(S). где <р — борелевская функция.
§ 24. Достаточные статистики и эффективные оценки 175 Следствие L Если S — достаточная полная статистика, α Θ* — несмещенная оценка, то θ$ есть эффективная оценка и она единственна. Пример 2. В примере 1 с распределениями Пуассона мы получили, что для λ* = χι A£ = EA(xi/S)=x, где S = пх. Покажем, что S — полная статистика и, стало быть, χ — эффективная оценка. Уравнение (2) для статистики S имеет вид ^у{к)е~пХ^-^ = 0 при всех λ>0 или, что то же, zk v(z) ^ 2J^)t7 = о при всех z ^ о. (з) Это, очевидно, влечет за собой у (к) = 0, так как из сходимости ряда (3), скажем, при ζ = 1 следует, что υ (ζ) аналитична при \ζ\ < 1 и тождественно равна нулю. Стало быть, коэффициенты у(к) ее разложения в ряд равны нулю. Пример 3. Пусть X €= Uo^. Покажем, что статистика S = Х(п) = = maxxi является полной. Достаточность (и минимальность) S была уста- новлена в примере 23.2. Распределение 5 определяется равенством Р(5 < 5) = (s/0)n, 0 < 5 < б, так что S имеет плотность, равную nsn~le~n при s € [0,6]. Уравнение (2) в этом случае имеет вид θ ι nsn~l y(s) ds = 0 при 0<Е(О,оо). о θ есть единственная Из равенства / y(s)sn 1 ds = 0 при всех θ следует, очевидно, что y{s)sn l — о = 0, y(s) = 0 п. в. Мы предлагаем читателю проверить, являются ли полными достаточные статистики, найденные методами § 22, для других параметрических семейств. В частности, установить, что а* = - [ 1 1 χ V nj эффективная оценка параметра а семейства Гад (см. § 12). Замечание 1. Во всех приведенных выше утверждениях и примерах молчаливо предполагалось, что множество возможных значений оценок Θ* принадлежит Θ. Если это не так, то в изложение надо внести некоторые коррективы. Проиллюстрируем сказанное на примере 2, в котором мы показали, что λ* = χ является эффективной оценкой параметра λ для распределения Пуассона Пд. Рассмотрим теперь простейшую модификацию этого
176 Гл. 2. Теория оценивания неизвестных параметров примера. Пусть по-прежнему надо оценить параметр λ распределения Пуассона, но нам даны в качестве наблюдений не значения ъ\ €= Пд, а «зашум- ленные» значения х; = Ъ{ + у», где у г Ш Πχ, у^ не зависят от Zj. Это значит, что мы должны в этом случае оценить λ по выборке X €= Πλ+ι· Как и в примере 2, здесь полной достаточной статистикой является х. Однако при этом мы не можем воспользоваться конструкцией примера 2. Действительно, там в качестве основы для построения эффективной оценки параметра θ = λ + 1 мы использовали несмещенную оценку θ* = χχ. В нашем случае аналогичная оценка могла бы иметь вид λ* = χχ — 1. Но это невозможно, так как λ* с вероятностью е~х~~1 принимает «недопустимое» значение —1, которое естественно заменить на ближайшее допустимое значение, равное нулю, так что «подправленная» оценка имеет вид λ* = max(0,xx — 1). Эта оценка имеет положительное смещение, равное е~А_1 и не годится для построения эффективной оценки. Более естественно подправлять не исходную оценку, а эффективную оценку в примере 2, взяв в качестве оценки А* = max (0, χ — 1). Эта оценка также не является несмещенной, но смещение ее при больших η очень мало*). К тому же ее качество по сравнению с «недопустимой» оценкой χ — 1 может только улучшиться, так как Ελ(λ* - λ)2 = Ελ((χ - 1 - λ)2; χ > 1) + Ελ(λ2; χ < 1)< ^Ελ(χ-1-λ)2 = ^±1. η Смещение оценки λ* равно η к ]ζΡλ(χ- 1 = -Λ/η)- <Ρ(ηχ<η) = = Ρ(-η(χ - λ - 1) > λη) < 6"ηλ(λ + 1)η. Последнее неравенство получается, если воспользоваться неравенством Че- бышева для сумм Sn = —п(х — λ — 1) центрированных случайных величин и тем, что Exe~tn* = en(A+i)(e-*-i) (CMt также [17, §8.8]). Таким образом, смещение λ* экспоненциально убывает при n-^оои пренебрежимо мало по сравнению с «разбросом» оценки, имеющим порядок 1/у/п. *) Несмещенных оценок в этом случае вообще не существует. Пусть для простоты η = 1. Существование несмещенной оценки для λ означало бы существование функции φ ^ 0 такой, что при всех λ > 0. Полагая λ 4- 1 = θ, последнее соотношение запишем в виде Ё^.л.-.) —+Ё«'(ГгЬ5-н)· Из этого равенства двух степенных рядов следует с необходимостью φ{0) = — 1, что противоречит предположению о существовании несмещенной оценки λ* = φ(χι) ^ 0.
§ 24. Достаточные статистики и эффективные оценки 177 Аналогичным образом дело будет обстоять и в других примерах, поскольку замена значений #*, вышедших за пределы допустимой области Θ, на подходящие значения, лежащие на границе этой области, будут приводить лишь к уменьшению разброса исходной «недопустимой» оценки Θ* около истинного значения. Величины смещений при этом будут экспоненциально малы. Отметим теперь, что теорема 3 указывает на существование связей между понятиями полноты и минимальности. На этот счет справедливо следующее утверждение, дающее вместе с теоремами § 23 критерий минимальности достаточных статистик. Теорема 4. Всякая полная достаточная статистика S является минимальной достаточной статистикой. Доказательство. Пусть 21о — минимальная достаточная сг-алгебра (по теореме 23.1 такая существует). Предположим, что Е#5 существует, и рассмотрим функцию φ = S — Eo(S/$io)> Так как 21о С сг(5), то φ будет а(5)-измеримой, так что φ = "0(5). Обозначим через Ge распределение S. Тогда при всех 0, очевидно, Έβφ(8) = 0 или, что то же, ^(s)Ge{ds)=0 при всех θ G θ. Отсюда в силу полноты S следует, что φ(β) = О п. в. [£/], Q = {G^}. Это означает, что S = Еб(5'/21о) п.в. [Q] и, стало быть, S измерима относительно*) Ио, σ(5) - Яо- Если EqS не существует, надо вместо 5 рассмотреть статистику arctgS', которая, очевидно, эквивалентна S относительно свойств достаточности, полноты и минимальности. < Отметим, что обратное утверждение не верно: минимальная достаточная статистика не обязана быть полной. Соответствующие примеры легко получаются в случаях, когда размерность I статистики больше, чем размерность к параметра Θ. Например, в § 23 мы видели, что совместная плотность минимальной достаточной статистики S = (x(i),X(n)) для семейства и#д+0 равна (п(п - l)(v - u)n~2 при и ^ θ, ν < 1 + 0, ν > щ 9θ\η,ν) = < 1^0 в остальных случаях. Если взять функцию у (и, ν) = (p(v — u) и сделать ортогональное преобразование (ν — и)/у/2 = tj (υ + и)/у/2 = я, то интеграл в (2) (по треугольнику и ^ 0, υ ^ 1 + 0, ν > и) будет равен ι / y{u,v)go{u,v) dudv = п(п — 1)1 φ(χ)χη~2(1 — χ) dx. о Очевидно, что интеграл в правой части от 0 не зависит и легко подобрать функцию φ(χ) ^ 0, обращающую его в нуль. *) Под 21о здесь надо понимать σ-алгебру, пополненную множествами Ν, для которых Έ>Θ(Ν) = 0 при всех θ
178 Гл. 2. Теория оценивания неизвестных параметров § 25. Экспоненциальное семейство Пусть θ = (#ι,.. .,#&) — А;-мерный параметр и плотность fe(x) предста- вима в виде Мх) = h(x)exp Ι Х>(0)ВД + ν(θ) Ι , (1) где все функции, входящие в правую часть, конечны и измеримы. Определение 1. Семейства распределений {Р#} с плотностью такого вида будем называть экспоненциальными семействами и обозначать их символом £. Чтобы сделать представление (1) по возможности более однозначным, предположим, что функции αο(θ) = 1, αχ(0),.. .,α^(0) линейно независимы на Θ. Как мы увидим, экспоненциальные семейства занимают особое место среди параметрических семейств распределений, так как для них многие общие конструкции математической статистики можно реализовать в явном виде. Иногда экспоненциальными семействами называют семейства распределений более частного вида*), когда aj{9) = θ у К эскпоненциальным семействам относятся, например, семейства распределений {Φα>σ2}, {Πλ}, {Βρ}, {rQjA} и ряд других. Пример L Рассмотрим распределение Га>/\. Плотность 7α,λ(^) этого распределения можно представить в виде Ία,Λχ) = ρηΛ^"1 ехР (~ах) = Х~Х ехр < Alns - as + In —— \, χ > О, так что здесь можно положить (х-\ х>0, "(1) = {о, *«0, U\(x) = In2:, U2{x)=x, V(a, λ) = In Γ(λ)' αι(α,λ)=λ, α2{α,λ) =-α> < Функция правдоподобия для X ^Р £ Ε равна η f$(X) = ехр {(α(0), S) + nV(6)} Ц /ι(χ,), ί=1 *) По существу это то же самое: мы придем к частному виду, если сделаем взаимно однозначное преобразование η — ί(Θ), η = (7ι»···>7*) над параметром 0, положив jj = = aj(9).
§ 25. Экспоненциальное семейство 179 где а(0) = Ы0),...,М0)), S=(Su...,Sk), П г=1 (α, S) есть скалярное произведение. Отсюда и из теоремы 22.1 следует, что S есть достаточная статистика для Θ. Мы докажем, что S является минимальной достаточной статистикой. Так как функции ау(0), Uj(x), V{6) конечны, экспонента в (1) всегда положительна. Это означает, что в качестве распределения Q в теореме 23.1 (при котором все Р# абсолютно непрерывны относительно Рд = / PjQ(di)) можно взять распределение, сосредоточенное в любой фиксированной точке 0°. Поэтому из теоремы 23.1 вытекает, что σ-алгебра 21о> порожденная функцией ν(Χ,θ) = j№- = ехр{(а(0) - a(0°),S) +n(V(Θ) - ν(θ°))}, является минимальной достаточной σ-алгеброй. Теорема L Статистика S является минимальной достаточной статистикой. Доказательство. Из линейной независимости функций 1, α\(Θ),... ...,ajt(0) на Θ следует линейная независимость α\{θ) — αι(00),.. .,α*(0) — — α&(0°). Это значит, что в Θ найдутся к точек 01,..., вк таких, что значения &ij = аг (θί) - αί{θ°) образуют матрицу А с определителем, отличным от нуля. Это означает, в свою очередь, что уравнения (α(θή - α(θ°), S) = lnr(X,Ρ) - n(V(0>') - ν(θ0)), j = 1,..., к, однозначно разрешимы относительно S и, стало быть, σ(5) С a(r(X,6j)\ j = l,...,fc) C2l0. < В примере 1 мы рассмотрели Г-распределение и установили, что для него справедливо представление (1) при θ — (α, λ) с функциями U\(x) = In χ, U2{x) = χ, αι(α,Α) = Α, α2(«, λ) = —α. Очевидно, что условия теоремы 1 выполнены, и статистика S = iV^lnxj, /_^х») или? чт0 т0 же5 статистика (ТТхг>У^хг) является минимальной достаточной статистикой. Если условия теоремы 1 несколько усилить, то статистика S будет полной достаточной статистикой (в этом случае минимальность S можно было бы получить как следствие полноты).
180 Гл. 2. Теория оценивания неизвестных параметров Теорема 2. Пусть X €= Ρ Ε £. Если функция α и множество Θ таковы, что α(θ) зачеркивает k-мерный параллелепипед, когда θ пробегает Θ, то S — полная достаточная статистика. Условия теоремы относительно параллелепипеда, очевидно, будут выполнены, если множество Θ «телесно», т.е. содержит внутренние точки (а вместе с ними и сферы в Rk достаточно малого радиуса), а функции clj(9) в окрестности какой-нибудь «телесной» точки 0° являются линейно независимыми и гладкими. Тогда преобразование а = α(θ) переводит окрестность точки 0° в телесное множество. Очевидно, что пример 1 с Г-распределением удовлетворяет условиям теоремы 2, так что статистика (ТТхмУ^хг) является полной. Столь же просто читатель может проверить, что для нормального распределения Φα>σ2 статистика (У^хг?У^х?) является также полной достаточной статистикой. Доказательство теоремы 2. В нашем случае функции z/>(s,0) и h(x) в факторизационной теореме Неймана-Фишера равны ф(з, θ) = ехр {(а(в),з) + ηΚ(0)}, η Ηχ) = JJMsj). Рассмотрим на (R*,93*) не зависящую от θ меру и{В) = ί Η{χ)μη{άχ), s-цв) где S"1(B) есть множество всех я, для которых S(x) Ε В. Выделим в виде лемм следующие два вспомогательных утверждения. Лемма 1. Распределение Gq(B) = T?e{S{X) Ε В) статистики S абсолютно непрерывно относительно и и имеет плотность в точке s, равную tp(s,6). Доказательство следует из равенства G$(B)= ί ψ(3(χ),θ)Η(χ)μη(άχ) = ί\l>(s,9)v{ds), s(x)eB seB которое является следствием замены переменных. < Лемма 2. Пусть G\ и G2 — две σ-конечные меры в (Rk,*&k). Тогда если / e'a,ti'Gi(dzz) = / е^а^G2{du) существуют для всех а из некоторого параллелепипеда I в Шк, то G\ = G2.
§ 25. Экспоненциальное семейство 181 Доказательство. Чтобы упростить рассуждения, рассмотрим одномерный случай к = 1 и будем считать, что 7 = {х : \х\ ^ а}. Тогда hj(a) = j eauGj{du), j = 1,2, есть аналитические функции при \а\ < а. Кроме того, при всех b Ε Ш определены функции hj(z) — \ е'а+г 'uGj(du) комплексного переменного ζ = = a + ib. Ясно, что hj{z) будут аналитическими в полосе \а\ < а, —оо < b < < оо. Так как h\(z) = h<i(ζ) на отрезке прямой 6 = 0, \а\ < а, то h\(z) = = h,2{z) при всех ζ из указанной полосы. Стало быть, fe^Giidu) = feibuG2(du). (2) Заметим, что так как /ij(0) = / Gj(dw) < оо, то Gj можно считать вероятностными мерами. Из теоремы о взаимно однозначном соответствии между характеристическими функциями и распределениями (см. [17, § 7.2]) и из (2) следует, что Gi = G2. Если параллелепипед I имеет вид {х : \х — αο| ^ с*}, то следует перейти к мерам G^du) = ea°uGj{du). В многомерном случае А; > 1 доказательство проходит точно так же. < Мы можем перейти теперь непосредственно к доказательству теоремы 2. Нам надо доказать, что если φ — измеримая функция в (Rfe,55fc) и существует /■ <p(s)Ge(ds)=0 при всех Θ Ε Θ, (3) то <p(s) = 0 п. в. [Q], Q = {Ge}eee- Пусть φ = φ+ - φ~, где φ± ^ 0. Тогда из (3) следует / (p*(s)Gs(ds) = / </?~(s)G0(ds) или в силу леммы 1 j φ+{8)ψ{81θ)ν{ά3) = j4>~{a)${s,e)v{ds), Если образовать оконечные меры i/^ds) = ^(sji^ds), получим /"β<*·β>ι/+(ώ)== fe^v-{ds) при всех α из некоторого параллелепипеда в R*. Остается воспользоваться леммой 2. < Следствие 1. £7сли X § Ρ G f, б* G -Кь, w выполнены условия теоремы 2, то оценка 0J = E(0*/S) является эффективной оценкой в Къ-
182 Гл. 2. Теория оценивания неизвестных параметров Предположим теперь, что нам надо оценить параметр η = φ(β), где φ осуществляет взаимно однозначное непрерывное отображение θ в Г, множество Г телесно в Rk. В этом случае определена непрерывная функция θ = φ~ι(η), переводящая Г в Θ, и согласно теореме 2 статистика S(X) = η = 2_] и(хг) будет полной достаточной статистикой и для параметра 7 (см. г-1 также следствие 22.3). Следовательно, для η сохраняется и утверждение следствия 1: если 7* £ Кь1 — оценка 7> т0 7s = ^(7* I S) будет эффективной оценкой в классе Кь1, 61(7) = Е#7* —η = Έφ-\^η* — η. Если φ — линейная функция и Θ* — эффективная оценка, то 7* = φ{@*) будет эффективной оценкой для 7· Пример 2. Задача восстановления изображения. Рассмотрим следующую простейшую задачу восстановления «дискретного» изображения, представляющую существенный интерес в томографии, астрофизике (см., например, [106]) и в других приложениях. Имеется источник излучения, которому на плоской фотопластине (будем считать ее квадратной) соответствует изображение, описываемое функцией (полем) яркости θ(ν) = = 9(u\ ,1x2), u £ [0,1]2. Дискретизируем это изображение, разбивая пластинку ί Г*-! Л \з -1 з \\ на маленькие квадраты Ду = < и: щ Ε , — , и^ 6 , — г и [ [ m mj ι m m J J введя для описания изображения усредненные яркости θ^ = I 6(u)du, i, j = 1,..., га. Значения полей 9{и) и, стало быть, {θ^} неизвестны. Наблюдателю доступно лишь «зашумленное» и «размытое» («рассеянное») изображение источника. Более точно, будем предполагать, что имеем фотографическое изображение суммарного воздействия двух пуассоновских источников частиц. Первый соответствует изучаемому источнику. Для него «в идеале» каждая частица попадает в квадрат Ду с вероятностью θ^/θ (θ = / θ (и) du есть интенсивность источника). Однако из-за присутствия эффекта рассеивания этого не происходит. Реальная интенсивность 7ij попадания частиц в Ду определяется не только «идеальной» интенсивностью 0у, но и интен- сивностями соседних квадратов, так что 7ij есть взвешенное среднее 7ij = EMUJ)> ΣΛ*/) = 1. iJ = l...-,m. (4) к,I i,j Здесь суммирование в первой сумме ведется по 1 ^ к ^ га, 1 ^ / ^ т, так что (4) исключает влияние «квадратов», расположенных вне фотопластины. Во многих случаях рассеивание можно считать инвариантным относительно сдвига, т.е. считать, что г (*+aJ+6) __ , (i,j) в области, не затрагивающей границу.
§25. Экспоненциальное семейство 183 Второй пуассоновский поток частиц представляет собой «шум»: число частиц второго потока, попавших в Δ^ за единицу времени имеет распределение Пуассона с параметром aij. Если поток однороден, то а^ = а не зависят от г, j. (i i) Значения α^·, hKk^ нам известны. В приведенном выше описании мы имеем дело с «расщеплением» и сложением пуассоновских потоков. Если пуассоновский поток частиц с параметром θ I вероятность появления к ча- стиц за единицу времени равна е — I, то под «расщеплением» будем понимать разделение этого потока на г «подпотоков» следующим образом: каждая частица независимо от других с вероятностью ρ*;, к = l,...,r, /Jpjt = 1, направляется в к-ft подпоток. Полученные подпотоки снова будут пуассо- новскими (с интенсивностями Opk) и независимыми. Действительно, вероятность иметь набор fci,...,A;r, \&i = &, частиц соответственно в первом, ..., г-м подпотоке равна 6 A:! *1!...*r!Pl ~'Pr "Пе Л-1 " При сложении независимых пуассоновских потоков мы, очевидно, также будем получать в результате пуассоновский поток с интенсивностью, равной сумме интенсивностей слагаемых. В силу сказанного рассматриваемое фотографическое отображение можно описывать как результат воздействия га2 независимых пуассоновских потоков частиц, соответствующих квадратам Δ^·, г, j = 1,.. .,га. Интенсивности этих потоков равны соответственно λ^· = 7zj +&ij· Стало быть, количества Vij частиц, попавших в Δ^· за время п, независимы и будут иметь распределение Пуассона с параметрами ηλ^, Набор частот ν = {fij} можно рассматривать как достаточную статистику для параметра λ = {λ^·} (построенную по выборке X = {^· },.·., {^,·" }? где ν\· — число частиц, попавших в Δ^· за к-ю единицу времени). Функция правдоподобия в этом случае имеет вид Ш) = Π П*"^ = ГК*^ Π -щ- fc=l ij vij · ij к vij · Очевидно, что мы имеем дело с экспоненциальным семейством и ν является полной достаточной статистикой для λ при этом λ* = u/n будет эффективной оценкой А. Если матрица Η = {Щ\ } имеет обратную, отображение (4), которое можно записать в виде λ = ΘΗ + α,
184 Гл. 2. Теория оценивания неизвестных параметров обратимо: θ = (λ — α)Η~ι и, стало быть, ν будет полной достаточной статистикой и для θ (см. замечания, предшествующие примеру 2). При этом было бы естественно положить θ* = (λ* — a)if_1. Однако здесь возникают ограничения, сьязанные с областью возможных значений θ ^ 0. Эти ограничения были рассмотрены на простом примере в замечании 24.1. В соответствии со сказанным в этом замечании мы должны положить θ*^[{Χ*-α)+Η^]+} где [0]+ для θ = {0ij} означает «вектор» {<й}, #Л = max(0,^j). При этом качество оценки от введения операции []+ только улучшится (см. замечание 24.1). С технической стороны наибольшие трудности во всем этом может представлять вычисление обратной матрицы Я"**1. Если изображение сосредо- s τη — s (#zj = 0 при г φ [s + 1, m — s] или j $ точено в квадрате m m t [s + 1, m - s], s > 0) и hffiffi = Л$ = 0 при \i - k\ > s, \j - l\ > s (ограниченное однородное рассеивание), то построение обратного преобразования можно осуществить с помощью производящих функций (отметим, что при этом будем иметь дело с (т — 2s)2 независимыми параметрами 0$j, i, j = 5 + 1,.. -,77i — 5, и таким же числом независимых 7ij> hj = 1,.. .,m). Действительно, положим hkl α> ' = /ια^, S 771 — S ТП h{y,z)= Σ hajbzazb, 9(y,z)= Σ Wz\ 7(y.*) = ^7i^V· a,b=-s i,j=s+l i,j Тогда уравнение (4) можно записать в виде свертки s Ί%3 = X, 9i-kj-ihk,h k^—s что при переходе к производящим функциям дает га s 7(У>*) = Σ V%Z% Σ ei-k,j-lhk,l = s m = 53 ^yV^y^V-^j.^My.^^z), (5) %i*) =7(y^)^"1(y,^). Разлагая /i_1(y,^) в ряд по положительным и отрицательным степеням у и ζ (в подходящей области изменения у и ζ) h"l{y,z)^^9^ykzl
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 185 и приравнивая коэффициенты при одинаковых степенях в (5), получим обратное линейное преобразование га θυ = Σ lkji9i-kj-u г, j = s + 1,.. .,m - s. kJL-l Если, например, h-Si-s > 0, то h(y,z)y$zs образует полином, отличный от нуля в точке у = ζ — 0, так что при достаточно малых у, ζ 00 h-1(y,z)=yszs[yszsh(y,z)}-1 = £ 9k,lVkzl. k,l=s Если теперь воспользоваться теми же, что и прежде, правилами построения оценок, получим Ясно, что во всех этих рассмотрениях для получения достаточно хороших оценок нужно, чтобы частоты v^l были велики или, что то же, чтобы время наблюдения η было велико по сравнению с размерностью га2 (или (га — 2s)2) неизвестного параметра θ — {0Zj} (считаем, что θ сравнимо с единицей). Точность оценки поля θ = {&ij} можно значительно увеличить, если уменьшить размерность оцениваемого параметра. Это можно сделать, если нам заранее известна возможная форма поля θ^ (или θ(η)). Если, например, 9{j есть «одновершинное» поле вида 9ij = сехр{&!(г-а!)2 + b2{j ~α2)2}, то дело сводится к оценке всего лишь пяти (а не га2) неизвестных параметров с, αϊ, α2, bi, ί>2· §26· Неравенство Рао-Крамера и Д-эффективные оценки 1. Неравенство Рао-Крамера и его следствия. Результаты предыдущих параграфов дали нам ряд критериев эффективности оценок. Однако эти критерии носили в известном смысле качественный характер. В этом параграфе мы продолжим изучение вопроса об эффективных оценках, но с несколько иной точки зрения. Выясним прежде всего, какова минимальная величина среднеквадратической погрешности, которую можно получить. Рассмотрим сначала одномерный случай, когда θ — скалярный параметр. Относительно множества Θ будем предполагать для определенности, что это есть конечный или бесконечный интервал, замкнутый или открытый. Для того чтобы ответить на поставленный вопрос, нам понадобятся условия регулярности на fe(x)- Пусть, как и прежде, η Ζ (χ, θ) = 1η/,(χ), ЦХ, θ) = Σΐ{χύ θ), α{θ) = Εθθ* = θ + b{0). 1 -τ- Σ (Xh~awY9i-kj-i ΠΜ=ι ' η
186 Гл. 2. Теория оценивания неизвестных параметров Предположим, что выполнено условие (R) Функции \/fe{x) для η. β. [μ] значений χ непрерывно дифференцируемы по 6 Ε Θ, интеграл 1{θ)= ί^ψ^μ{άχ)^ΒΘ[ΐ\^θ)γ (1) существует, положителен и непрерывен по 6. (Здесь и в дальнейшем штрих означает дифференцирование по 6.) Относительно интеграла (1) необходимо отметить следующее. Если χ вместе со своей окрестностью не принадлежит носителю Νρθ = {χ : fe(x) > > 0} распределения Р^, то подынтегральная функция (/ρ{χ)) /ίθ(χ) превращается в неопределенность типа 0/0. Условимся считать это отношение равным нулю. Такого же правила будем придерживаться относительно производной 1'{χ,θ) = /${х)//в{х) ПРИ ее интегрировании. Этих оговорок можно не делать, если с самого начала рассматривать интегралы вида Έ$φ(χι,θ) лишь по области Νρθ. Функция 7(6) носит название информации Фишера. Мы уже встречали ее в § 16. Она играет важную роль в математической статистике и будет неоднократно встречаться в дальнейшем. Некоторые свойства функции 7(6) обсуждаются в § 27. Если множество Θ компактно, то непрерывность 7(6) в условиях (R) эквивалентна условию supE,(p'(xi,0)]2; |/'(xi,0)| > Ν) -> 0 вее при N —> со, которое можно назвать равномерной сходимостью интеграла 7(6) (см. приложение VI). Имеет место следующее неравенство для дисперсии оценок 6* со смещением Ь. Теорема 1 (неравенство Рао-Крамера). Еслив* Ε ϋΓ&, выполнено условие (R) и Ея(0*)2 < с < оо, то Όθθ > ηΙ(θ) ■ (2) Если в этом неравенстве достигается равенство на некотором отрезке 6 Ε [61,62] С Θ и Όβθ* > 0 на этом отрезке, то функция правдоподобия fe{X) при 6 Ε [61,62] представима в виде MX) = ехр {Θ*Α(Θ) + В{9)ЩХ), (3) где Л(6), Β(θ) от X не зависят. Обратно, если 6* = const или если справедливо представление (3), то в неравенстве (2) достигается равенство. Условие (3), очевидно, означает принадлежность распределения в Хп с плотностью f$(x) к экспоненциальному семейству S.
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 187 Следствие 1. При выполнении условий теоремы 1 Для любой несмещенной оценки Θ* Εθ(θ*-Θ)2> * Таким образом, в классах К^ наименьшее возможное значение среднеквадратичных уклонений отлично от нуля и определяется правыми частями выписанных неравенств. Замечание 1. По поводу условия Έθ(Θ*)2 < с < оо можно заметить, что при Έθ(Θ*)2 — оо выполняется Όρθ* = оо и неравенство (2) становится тривиальным. Условие D#0* > 0 в силу (2) можно заменить на (1+ί/(0))2 > 0. Замечание 2. Наряду с условием (R) можно указать несколько других условий, обеспечивающих утверждение теоремы 1, которые будут отличаться друг от друга очень мало. Мы остановились на том из них, которое нам будет удобнее в последующих параграфах. Условия несколько иного вида будут приведены в § 32. Нам понадобится одно вспомогательное утверждение. Лемма 1. Пусть выполнено условие (R) и S = S{X) есть любая статистика, для которой Е#52 < с < оо при θ Ε θ. Тогда функция α$(θ) = EeS = J 3(χ)Μχ)μη(άχ) (4) непрерывно дифференцируема по 0, причем α'3(θ) = f 3(χ)Ι'θ(χ)μη(άχ) = E6SL'(X, θ). (5) Это утверждение носит технический характер, а его доказательство существенно отяготило бы рассмотрения. Поэтому доказательство леммы 1 отнесено нами в приложение V. Доказательство теоремы 1. Полагая в (5) S = 1, получим as(0) = 1, EeL' = О, E9a{9)L' = 0. (6) Используя снова (5) при S = Θ* и (6), получаем Евв*Ь' = α! (θ), Е9(в*-а{в))Ь' = а'{в). (7) По неравенству Коши-Буняковского (α'(θ))2ζΕθ(θ*-α(θ))2Εθ(1')2 (8) или, что то же, Όθθ > Ee{Vf ■ (9)
188 Гл. 2. Теория оценивания неизвестных параметров Так как случайные величины lj = i'(xj,0) независимы, одинаково распределены и имеют в силу (6) ненулевое математическое ожидание EqIj — О, то Eeklj = 0 при г φ j, E^L')2 = Εβί Σ1*) = ΣΕ<^ = ηΕ^ι = з hj = ηΙ(θ). Вместе с (9) это доказывает неравенство (2). Докажем второе утверждение теоремы. Для простоты будем считать, что Θ совпадает с [01,0г] и чт0 X совпадает с объединением носителей X = = U Ήν tee Итак, пусть в (2) (или в (8)) достигается знак равенства. Тогда функция &θθ* = —тТТгГ вместе с α'{θ) и 1{θ) непрерывна по θ и ηΐ (Θ) (Εθ(θ* - α(θ))Σ')2 = Εθ(θ* - α(θ))2Εθ(Σ')2. Последнее равенство вместе с (7) при с(в) = \/ тл п дает Εθ(ο(θ)(θ* - α(θ)) - L'f = ηΙ(θ) - 2^~^^Ώθθ*-ηΙ{θ) + ηΙ{θ) = О или, что то же, У(с(0)(0· - α(θ)) - L'(x, θ))2Μχ)μη(άχ) = 0, (10) где функции а(0), с(0) непрерывны. Пусть M(t) — множество точек χ Ε Xn, для которых [ф)(0* - α(ί)) - L'(*, *)]λ/Λ(^) = 0. (11) Из (10) следует, что μη(Μ(ί)) = 0, где Μ(ί) — дополнение к М(£). Обозначим Μ = Ρ| Μ(ί), где Τ — счетное всюду плотное на Θ множество. teT Тогда, очевидно, μη(Μ) = 0. Фиксируем точку χ Ε Μ. Так как ft(x) непрерывна по t и Я* совпадает с объединением носителей, найдется интервал (*ь*2) С Θ, <2 > *ь на котором /г (ж) > 0 и, стало быть (см. (11)), £'(ж, i) = c(i)(0* - α(ί)) для teT f] [ib t2]. (12) Обе части этого равенства непрерывны на [ίι,^] и> следовательно, это равенство справедливо всюду на (ίι,^)· Кроме того, правая часть равномерно ограничена на (ίι, £г)· Но это означает, что L(x, t) также равномерно ограничена, a ft(x) равномерно положительно всюду на (^ь^)· Эт0 противоречит допущению о существовании интервала (ίι,^)? на котором /*(ж) > 0, но mm(f^(x), ft2(x)) = 0. Поэтому ft{x) положительно всюду на Θ = [0ι,#2]? так что (12) справедливо при всех t. Интегрируя (12) в пределах от θ\ до 0,
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 189 получим θ θ L{x,0) = Θ* c{t)dt- c{t)a{t)dt + L(x,ei), что эквивалентно (3) для [μη] п. в. х. Так как изменение /я (я) на множестве дп-меры нуль роли не играет, то (3) доказано. Обратимся к последнему утверждению теоремы. Если Θ* = const, то Ь'(в) — — 1, и обе части неравенства (2) обращаются в нуль. Пусть теперь выполнено (3). Тогда, дифференцируя по θ функцию L(J*f, 0), получим 1'{Χ,Θ) = Θ*Α'(Θ) + Β'{Θ). Из (7) следует, что α(θ)Α(θ) + Β(θ) = 0. Поэтому £,'{Χ,θ)=Α'(θ){θ*-α{θ)) и, стало быть (см. (12)), в (2) достигается равенство. < θ Замечание 3. Так как в представлении (3) Α(θ) = / c(t)dt > 0, то (3) означает, что носитель Νρθ = {χ: h(x) > 0, θ* > —οο} от θ не зависит, и можно считать Νρθ = X. Таким образом, если Νρθ зависит от θ (как, например, в задаче оценки параметра сдвига, когда fe{x) = f(x — θ) и f(x) > 0 лишь для а; Е [0, а], 0 < a ^ оо), то не существует оценок 0*, для которых в (2) достигалось бы равенство. Если доказывать второе утверждение теоремы 2 лишь для случая Νρθ = — X, то доказательство можно несколько упростить, сделав ненужными рассмотрения, связанные с (11), (12) и непрерывностью функций с(0), α(θ). Чтобы получить требуемое представление для L(x,0), достаточно заметить, что при fe{x) > 0, χ Ε Хп, наряду с (10) справедливо ί[φ){θ*-α(ί))-1'{χ,ί)]φ(χ)μη{άχ)=0 для любой ограниченной измеримой функции φ. Надо теперь проинтегрировать это равенство по t в пределах от θι до 0, поменять порядок интегрирования и воспользоваться произвольностью φ. В дальнейшем тривиальный случай 0* = const будем исключать из рассмотрений и предполагать, что Όβθ* > 0 всюду на Θ. Тогда справедливо Следствие 2. При выполнении условий (R) для достижения нижней границы в неравенстве Рао-Крамера необходимо и достаточно, чтобы оценка Θ* была достаточной и функция ^(0*, 0) в факторизационном равенстве имела вид ψ{θ\θ) = ехр{в*А{в) + Β{θ)}> где Α(θ) и Β(θ) — дифференцируемые функции.
190 Гл. 2. Теория оценивания неизвестных параметров Следствие 3. Если выполнены условия (R), θ* Ε Кь, и в неравенстве Рао-Крамера достигается равенство, то Θ* — эффективная в Кь оценка. Это утверждение следует из представления Ев{в*-в)2=Ввв* + Ъ2(в). Заметим, что обратное, вообще говоря, не верно: оценка может быть (1 + *>'(0))2 эффективной в К&, но нижняя граница -ггт:— для дисперсии может не достигаться. Пример 1. Пусть X €? ГаД. Здесь fa(X) = апе~ап*. Условия (R) в области Θ С {а ^ δ > 0} выполнены. Очевидно, S = пх есть полная достаточная статистика. Поэтому оценка а* = х-1 = Еа(х_1/5) является эффективной в классе Кь со смещением Ь(а) = EQx-1 — α. Заметим теперь, что S €= Га)П, так что при η > 1 (см. § 12) Εαχ_1 = ^ η 1 П = nEaS-1 = -а. η — 1 Таким образом, оценка а** = —— = а* ( 1 1 будет при η > 1 пх \ п/ несмещенной. Аналогично при η > 2 находим (см. § 12, а также пример 14.1) EQ(02 = (n-l)2EQS-2 = ^a2, п — I Όαα** = α »-!_■ η-2 α2 η-2' Итак, при η > 2 оценка α** является эффективной. Однако критерий (3) не выполнен, так как fa(X) = α-η6-α(η-1)/α·^ Следовательно, в неравенстве Рао-Крамера нижняя граница не достигается. В этом можно убедиться и непосредственно. В самом деле, здесь /(я, а) = = In а — ах, 1'(х,а) = 1/а — а: и /(α)=Εβ[/'(χι,α)]2=Ββ^-χΛ = ^. Стало быть, при η > 2 1 с? сг _ — < _ JJ α # η/(α) η η — 2 Таким образом, достижение нижней границы в (2) есть более жесткое требование, чем эффективность.
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 191 2· R-эффективные и асимптотически Д-эффективные оценки. Пусть выполнены условия (R). В этом случае достижение нижней границы (точное или асимптотическое) для дисперсии в неравенстве Рао-Крамера может служить важным показателем качества оценок, тесно связанным с понятием эффективности. Определение 1. Оценка Θ* £ i£&, для которой называется R-эффективной (или регулярно эффективной) в классе Кь- jR-эффективная оценка в классе Kq несмещенных оценок называется просто R-эффективной. Оценка Θ* называется асимптотически R-эффективной (а.Д-э.), если Έθ{θ ~θ) - пЩ ' Мы видим, что в отличие от определений § 18, которые носили более качественный характер, определения Τϊ-эффективности основаны на сравнении с известными числовыми значениями, связанными, главным образом, с информацией Фишера, точнее, с количеством (ηΙ(θ))~ι. Для ϋ-эффективности оценки Θ* необходимо и достаточно выполнение (3). Из сказанного выше следует, что R-эффективные оценки являются эффективными, но не наоборот; Д-эффективные оценки просто реже существуют, что является недостатком нижней границы в неравенстве Рао- Крамера, а не оценок. В существующей литературе по математической статистике Л-эффек- тивные оценки называются просто эффективными. Однако нам представляется более естественным сохранить термин «эффективность» для наилучших оценок в более широком понимании (см. определение 18.1). Теорема 2. Если выполнены условия (R) и R-эффективная оценка существует, то она совпадает с оценкой м. п. Доказательство. Мы уже видели, что выполнение (3) влечет за собой равенство (см. (11)) L'{X,0) = (0*-0)c(0). Кроме того, так как Ь(в) — 0, из (12) следует для любых θ Ε Θ. Это означает, что Lf(X,0) < 0 при Θ > θ* и Ι'(Χ,Θ) > 0 при θ < θ*. Следовательно, при θ = Θ* достигается максимум L(X,0). < Приведенный выше пример 1 показывает, что эффективные оценки в отличие от Д-эффективных могут не совпадать с о.м. п. В этом примере
192 Гл. 2. Теория оценивания неизвестных параметров о. м.п. есть (х) , в то время как эффективная оценка равна (х) . η Обе эти оценки являются, очевидно, а. R-э. оценками. Рассмотрим класс Kq оценок 0*, для которых \Ь(в)\^Щ£, |6'(0)|<ε(0,π), Έθ(θ*)2 < с < оо при некоторой функции ε(0, η) — о(1) при η —> оо и каждом θ Ε Θ. Каждый такой класс замечателен тем, что для него нижняя граница в неравенстве Рао-Крамера имеет вид (1 + ο(1))/[ηΙ(θ)]. В § 30 мы увидим, что в ряде случаев при отыскании асимптотически оптимальных оценок можно ограничиться изучением оценок Θ* из таких классов. Теорема 3. Пусть выполнены условия (R). Тогда всякая а. R-э. оценка из Kq является а. э. в Kq оценкой. Доказательство теоремы очевидно: если 0* есть а. R-э. оценка, то Кроме того, как уже отмечалось, по неравенству Рао-Крамера для всех Θ*£Κ0 limmfE<,n(0* - θ)2 > Γ\θ) = lim E<jn(0f - θ)2. < η—юо η-»οο Ясно также, что если а. R-э. оценка существует, любая а. э. оценка в Kq будет а. R-э. оценкой. Позже мы увидим (см. §34), что при некоторых дополнительных предположениях а. R-э. оценки существуют всегда. Ими оказываются о.м.п. 0*. Этот факт тесно связан с теоремой 16.3, в силу которой у/п(в* — Θ) & & &oj-i(0)· Чтобы установить, что Θ* является а.Д-э. оценкой, нужны дополнительные рассмотрения, которые будут проведены в §33. Сказанное означает, что утверждение теоремы 3 справедливо и в обратную сторону: а. э. оценка в Kq является а. R-э. оценкой, т.е. для нее Е#(0* — θ)2 ~ [ηΙ(θ)]~ι. Теорема 4. Пусть выполнены условия (R). Если 0*, 0£ принадлежат Kq и являются а. R-э. оценками, то они асимптотически эквивалентны в следующем смысле: sft (θ{ - θ*2) -+ о. Доказательство этого утверждения проходит точно так же, как в теореме 18.2. Так как Θ* — (θ* + б^)/2 £ ^о, на основании (18.11) и неравенства Рао-Крамера получаем lim sup Εθη(θΙ - θ*2)2 <0. <
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 193 Пример 2. Оценка а* = χ среднего значения α нормальной совокупности Фа5(Т2 при известном σ2 является Д-эф фективной оценкой. В этом легко убедиться, проверив, например, условие (3). Другая возможность состоит в сопоставлении Όαα* = σ2/η с наименьшим возможным значением (nl(a))~l дисперсий несмещенных оценок. В нашем случае Ι(χ,α) = -1ην2πσ —ъ—, l'{x,a) = 2σ2 χ — a σ* w ч -г. г,// м9 Εα(χι - α)2 Ι 1(a) = Εαρ#(χι,α)]2 = ^4 = ^, так что Daa* = (nZ(a))^1 = σ2/η. 1 η Пример 3. Рассмотрим оценку θ* = S2 = — 7 (χ; — α)2 параметра η г—' г=1 θ = σ2 нормальной совокупности с известным а. Нетрудно подсчитать, что D#0* = Έο(θ* - σ2)2 = 2σ4/η. С другой стороны, здесь /(хьв)-~20+ 202 ' /(б) = Ε,[ί'(χι, *)]2 = ^Е,[(Х1 - а)2 - 0]2 = ^ = ^1 · Таким образом, здесь также D#0* = (ηΖ(θ))"1, и оценка Θ* = 52 является jR-эф фективной. тт <-»2 ^ \~""V —\2 ^® Дисперсия несмещенной оценки Ьп = г > (х* — х) равна г, так η — 1 ^—' η — 1 что она не является Д-эф фективной или просто эффективной оценкой σ2. В то же время очевидно, что 52 есть а. Д-э. оценка. Если мы будем в качестве неизвестного параметра оценивать не σ2, а θ = σ, то i?-эф фективной оценки мы не получим. Несмещенной оценкой σ будет оценка V2r/n + l Ч- так как ,^2 где Εσ5ι = -*,Ε,^5>-α)», —^- = — 2j(xt - о)2 имеет распределение Ηη = Γι/2,„/2, поэтому (см. § 12) г. п + 1 aV2 2 , vs Γ (ι
194 Гл. 2. Теория оценивания неизвестных параметров Так как S\ есть минимальная и полная достаточная статистика, то σ* является эффективной оценкой. С помощью формулы Стирлинга нетрудно убедиться, что σ*=5ι(1 + 0(1/η)). Сравним теперь величину Όσσ* с нижней границей (η/(σ))-1. Имеем Όσσ* = Εσ rr5f (13) С другой стороны, здесь ι// ч 1 (х-а)2 Ι(σ) - Ε,Ρ'(χι,*)]2 = ΛΕσ[(χι - ос)2 - σ2]2 = 2 2' так что (η/(σ)) * = σ2/(2η). Но это значение отличается от (13). Их отношение, например, для η = 3 равно 0,936. Таким образом, Λ-эффективных оценок здесь не существует. При η —> оо коэффициент при σ2 в (13) ведет себя асимптотически как i+°(*)· так что σ* есть а. Д-э. оценка. 3. Неравенство Рао-Крамера в многомерном случае. В этом пункте θ = = (0i,...,0fc) есть Aj-мерный вектор, как и оценка Θ* = (0*,...,0£). Как и прежде, положим а(0) = Е<,0* = θ + 6(0), 6(0) = (6ι(0),..., bk(0)) и рассмотрим классы Кь оценок с фиксированным смещением Ь{9). Обобщение условий (R) на многомерный случай будет выглядеть следующим образом. Обозначим l(x,e) = \ogfe(x), Ι'άχ,θ) = щЦх,в), Iij(e) = E9l'l(xue)l'j(xue) и предположим, что выполнено условие (R) Функции y/feW) непрерывно дифференцируемы no 6j для η. в. [μ] значений х. Матрица 1(0) = ||';#)||, 1ц{В) = J 1'ί(χ;θ)1^χ;θ)Μχ)μ(άχ) непрерывна по 0*), ее определитель \1{θ)\ отличен от нуля. *) Для этого достаточно требовать равномерной сходимости интегралов Uj{9) (см. приложение V).
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 195 Так как 1(0) есть матрица вторых моментов Eehlj случайных величин 1{ = ί|·(χι, 0), то она будет положительно определенной матрицей, так как для любого вектора α = (αϊ,..., α&) φ 0 выполняется ]Г aiajEelilj = Ε* (^ αώ) ^ 0, где равенство нулю исключается условием |/(0)| Φ 0. Неравенство между матрицами σ\ ^ σ|, как и раньше, будем понимать как неравенство ασ2α ^ ασ|ατ для любой вектор-строки α = = (αϊ,.. .,α*;) т^ 0. Это эквивалентно, очевидно, тому, что матрица σ\ — σ\ неотрицательно определена. Строгое неравенство будет соответствовать положительной определенности, так что, например, Ι(θ) > 0. Теорема 1А. Если Θ* £ Кь и выполнено условие (R), то для матрицы вторых моментов σ2 = ||σ^·|| = Е#(0* — α(θ))τ(θ* — α(θ)) любой оценки Θ* вектор-строки θ справедливо неравенство σ2>-{Ε + Ό{Θ))Γ\Θ){Ε + D{0))T, (14) η где Ε есть единичная матрица, D(0) = \\Ь^(в)\\, °ij(Q) = ~~^bj—· OVj Пусть \σ2\ > 0 (или \E + D(6)\ > 0) при всех θ. В этом случае знак равенства в (14) достигается тогда и только тогда, когда распределение выборки принадлежит экспоненциальному семейству специального вида, т. е. когда для некоторых скалярных функций Β(θ) и h(X) выполняется MX) = ехр {(*·, А(9)) + В(в)ЩХ), (15) где вектор Α(θ) = (Αι(θ),..., Аь{в)) имеет матрицу производных, равную IIAjll — дАг{в) d9j = η[(Ε + ϋ(θ)Γιγΐ(θ) Для несмещенных оценок Θ*, очевидно, σ2 > (ηΙ(θ)Γ1, и равенство возможно лишь при выполнении (15), где \\Aij\\ = ηΙ(θ). Таким образом, если нам удастся найти несмещенную оценку Θ* с матрицей вторых моментов [ηΙ(θ)]~ι, то она будет эффективной оценкой. Отметим, что Εθ{θ* - θ)τ(θ* - θ) = σ2 + bT{9)b{0). Доказательство теоремы ΙΑ. Положим η Ц = L'jiX, Θ) = Σ l'j(xu θ), L' = L'(X,θ) = {L[,.. .,L'k).
196 Гл. 2. Теория оценивания неизвестных параметров Тогда совершенно аналогично одномерному случаю устанавливаем, что справедливы равенства Egl'j (χι , 0) = О, Е„ОД (Χ, 0) = 1 + bij (θ), в которых bij (θ) непрерывны, или, что то же, равенства EeL' = О, (16) Ee{e*)TL' = E + D{0), (17) в которых матрица D{6) непрерывна. Отсюда получаем Εθ{θ* - a(0))TL' = Ε + Ό(Θ). (18) Докажем теперь следующее неравенство (матричный вариант неравенства Коши-Буняковского). Лемма 2. Пусть ξ и η — матрицы одинакового размера (не обязательно квадратные) со случайными элементами, матрица Εηητ имеет обратную. Тогда ΕξξΤ > ΕξηΤ{ΕηηΤ)-1ΕηξΤ. (19) При этом равенство возможно лишь в случае ξ = ζη> ζ = Έξη^(Έηη^)~ι. Доказательство. Так как для любой матрицы А справедливо неравенство ААТ > О (ААТ неотрицательно определена), то О < Ε(ξ - ζη)(ξ - ζη)Τ = ΕξξΤ - ζΕηξΤ - ΕξηΤζΤ + ζΕηηΤζΤ. Полагая ζ = Έξη (Έηη )~ι, получим требуемое неравенство. Утверждение относительно условий равенства в (19) очевидно. < Вернемся к доказательству теоремы 1А. Положим в (19) ξ = (0* — α(0))Τ, η = (Ζ/)Τ. Тогда ΈθξξΤ = Εθ(θ* - α(θ))Τ(θ* - α(θ)) = σ2. Из (16) и независимости хг· получаем Εθηητ = Ee{L')TL' = nl(0). Наконец, из (18) находим Εθξητ = Εθ{θ* - a(0))TL' = Е + D{9). Неравенство (14) доказано. Равенство в (14) возможно в силу леммы 2, если только для точек (аз,0) таких, что fe(x) > 0, справедливо (0· - α(θ))τ = (Ε + ϋ(θ))(ηΙ(θ))-1{Ώ')τ или, что то же, V = (Θ* - α(θ))η[{Ε + ZW))-1]1"/^). (20)
§ 26. Неравенство Рао-Крамера и R-эффективные оценки 197 Заметим теперь, что из равенства в (14) следует \Ε + ϋ(θ)\2 = η\σ2\.\Ι(θ)\, и отделенность от нуля определителя \σ2\ означает то же самое для \Е + + D(0)\ и означает существование равномерно ограниченной обратной матрицы (Е 4- D(0))~l. Поэтому производная V в (20) будет ограниченной, /#(ж) > 0 всюду на Θ и само равенство (20) будет справедливо всюду на Θ. Если теперь s есть любой путь, соединяющий точки #о и θ в области Θ, то ВД0)= f(L\ds)+L(X,e0)t S где ds означает векторный элемент пути s, ((Lf,ds) = (Z/, sf(l)) dl есть приращение L(X, θ) на этом пути, I — «длина» пройденного пути). Стало быть, в силу (20) ЦХ, θ) = Θ*Α{Θ) + Β{θ) + # (Χ), (21) где Β(θ) и Н(Х) — скалярные функции, Α(θ) = (А\ (0),..., Α^{β)) — вектор, зависящий только от своих аргументов. Это означает справедливость (15). Если выполнено (21), то L' = θ*\\Αιό\\ +Β'(Θ), где в силу равенства EgZ/ = 0 справедливо ВЧв) = -а(в)\\А15\\. Умножая обе части равенства V = (Θ* — α(θ))\\Α^\\ слева на (θ* - α(θ))τ, получим в силу (18), что для выполнения условия (20), означающего равенство в (14), должно выполняться WAuW^nHE+Dm-vw). < В многомерном случае сохраняют свою силу все замечания, сделанные к одномерному неравенству Рао-Крамера, а также определение Д-эффектив- ности, в которые следует внести лишь очевидные изменения, связанные с размерностью Θ. В частности, а. Д-э. оценками будем называть оценки 0*, для которых Е*(0* - θ)τ{θ* -θ)=σ2 + Ът{в)Ь{в) = {ηΙ{θ))~ι + ο(1/η). Аналог теоремы 2 здесь будет выглядеть следующим образом. Теорема 2А. Пусть выполнены условия (R). Если Θ* есть R-эффек- тивная оценка, то это есть оценка максимального правдоподобия. Доказательство. Чтобы доказать, что Д-эффективная оценка является единственной точкой максимума, достаточно убедиться, что L'(X, 0*) = = 0и что при 0 = 0* + w, и φ 0 (gradL(X,0),u) = (L'(X,0), θ-Θ*) <0.
198 Гл. 2. Теория оценивания неизвестных параметров Но в случае существования Я-эффективной оценки выполняется (см. (20)) L'(X,0) = (0*-0)nJ(0), откуда немедленно вытекают оба требуемые соотношения. Второе следует из того, что (L',u) = -unI(0)uT, где ul(0)u есть положительно определенная квадратичная форма. < Пример 4. Рассмотрим двупараметрическое семейство нормальных распределений Φασ2. Оно принадлежит экспоненциальному семейству, так как (здесь θ = (0Ь02), 01 = а, 02 = σ2) . , ч 1 / (я-а)2\ 1 [ х2 ха а2 л Л 1 п Оценка 0* = (0?,05), где 0f = χ, ^ = S^ = —— £(х; - х)2 = п 1 «=ι — г f/Jxf ~~ ηχ2) 5 является эффективной, поскольку она принадлежит Ко и статистика (/Jxi> У^ХП > как мы видели в §25, является полной достаточной статистикой (см. теорему 24.4). Оценка м.п. (х, — /(х» — х) ) отличается от 0* лишь множителем η — 1 при второй координате, что делает ее смещенной. Для выбранной η оценки Θ* специальное экспоненциальное представление (15) функции fe(X) реализовываться не будет, так как = (2.) п/2ехр|_,Г___^__(,Г) ____η1ησ|. Это значит, что нижняя граница в многомерном неравенстве Рао-Крамера достигаться не будет. Наименьший эллипсоид рассеивания, определяемый по теореме 1А матрицей 1(0) (или /_1(#)), будет достигаться лишь асимптотически при η —> —> оо, так что оценка 0*, не являясь Д-эффективной, будет а. /2-э. оценкой. Убедимся в этом непосредственно. Вычислим сначала матрицу 1(0). Имеем ;' t„ m (х~а) // {tr й\ (χ -α)2 !
§ 26- Неравенство Раю-Крамера и R-эффективные оценки 199 (напомним, что 1'2 есть производная по σ2, а не по σ; ср. с примером 3). Поэтому Ιηψ) - Έ,θ -ι -ζ, Ι12(Θ)=Ι21(Θ) = ΕΘ 1 (χι — α)3 χι — α 2σ6 2σ4 1 0, Ы0) = ^Е,[(х1-а)2-а2]2 = ^. Отсюда находим (пЩГ1 = η 0 0 2σΑ η J (22) Вычислим теперь для сравнения матрицу вторых центральных моментов оценки Θ*. Имеем Ее(^-0!)2 = Ее(х-а)2 = ^, Ε,(^-^2)2 = Ε(?(502-σ2)2= 2σ4 n-V Εθ{θ*ι-θ1)(θ*2-θ2)=0. Последние два равенства устанавливаются непосредственным подсчетом Рассмотрим, например, второе из них. Нам достаточно убедиться, что Efl(x-a)5g = 0. (23) Но 5ο = ^[Σ(χ*-")2-(χ--«)2], <*" °rt = ^Ьт) [Σ<* - °>] [Σ<* - «)2] - ет (χ ~ «)3· Поскольку Εβ(χ - a)3 = Εθ{χ{ - a)3 - Εθ{χ{ - α) (χ, - a)2 = 0, то (23) доказано. Таким образом, матрица вторых моментов Θ* — θ равна * о η о ^ п-1. Ясно, что различие между этой матрицей и матрицей (п/(0))-1 может быть существенным лишь при небольших значениях п.
200 Гл. 2. Теория оценивания неизвестных параметров 4. Некоторые выводы. В заключение этого параграфа подведем некоторые итоги исследований, проведенных в последних шести параграфах. Главная их цель состояла в отыскании способов построения оптимальных (в том или ином смысле) оценок и установлении нижних границ для их среднеквадратичных уклонений. В результате можно указать следующие четыре основные направления, по которым можно идти в поисках наилучших оценок. 1. Построение байесовских (если есть априорная информация о Θ) и минимаксных оценок. 2. Отыскание полных (или минимальных) достаточных статистик S. Тогда оценка θ§ = Ε^(θ*/5) будет эффективной в том классе К\>, которому принадлежат Θ*. 3. Использование о. м. п. в тех случаях, когда выполнен критерий (3) теоремы 1 (или критерий (15) теоремы 1А). При этом также получим эффективные (и даже Д-эффективные) оценки в классах с фиксированным смещением. 4. Количественный подход, основанный на сравнении среднеквадратичного уклонения Έβ(θ* — θ)2 оценки 0*, которую хотим использовать, с нижней границей Д, определяемой неравенством Рао-Крамера. Если отношение Eq(0* — θ)2/R будет близко к единице, то оценка Θ* может быть рекомендована к использованию. На этом пути мы получим в дальнейшем весьма общие результаты, связанные с построением асимптотически эффективных, асимптотически байесовских и асимптотически минимаксных оценок. Сделаем также следующее замечание. Во всех отмеченных выше направлениях существенную роль играет форма зависимости распределения выборки Р# от оцениваемого параметра Θ. На практике, однако, нередко возникают задачи оценки не самого 0, а некоторой функции от него φ{θ). При этом нетрудно видеть (см. пример со схемой Бернулли в (18.4), (18.5)), что оценка φ* = φ{θ*) далеко не всегда будет обладать теми же свойствами, которыми обладала оценка Θ* (несмещенность, эффективность и т.д. Сохранятся лишь свойства асимптотической эффективности, если φ — гладкая функция). С этой точки зрения представляется естественным с самого начала рассматривать задачу оценивания функций φ(θ) от исходного параметра Θ. Мы отказались от такого подхода, так как на этом пути многие основные результаты, полученные нами, существенно усложнились бы. С другой стороны, если φ осуществляет взаимно однозначное отображение, то задача об оценке φ(θ) сводится к задаче, рассматриваемой нами путем «перепараметризации», т.е. введения нового параметра η = φ{θ), которому будет соответствовать семейство распределений G7 = Ρ^,-ι^. § 27.* Свойства информации Фишера Мы уже видели и будем убеждаться в дальнейшем, что информация Фишера играет важную роль в математической статистике. В связи с этим выясним некоторые ее полезные свойства. 1. Одномерный случай. Информация Фишера Щ = Ι^^-μ(άχ) = Ев(1'(хи0))2
§27 Свойства информации Фишера 201 появилась в рассмотрениях § 16, 26. Величину Ιχ(θ) = Εθ[Σ'(Χ,θ)}'2 принято рассматривать как меру количества информации, содержащейся в выборке X относительно параметра Θ. В теореме 26.1 мы доказали аддитивность информации: Iх(θ) = ηΙ{θ), т.е. что Iх(Θ) равна сумме информации /Xt(0) = Έθ[1'{χι,Θ)}2 = Ι(θ), содержащихся в независимых наблюдениях χ χ,..., χη. Докажем еще одно свойство информации Фишера. Пусть S = S(X) есть некоторая статистика со значениями в R1 и ge(s) есть плотность ее распределения, индуцированного распределением Ρ в в (A*n,93^) относительно некоторой меры λ в (Кг, 05'). В соответствии с предыдущими обозначениями величину /s(0) = E*[(log5*(S))']2 будем называть информацией, содержащейся в статистике S относительно параметра Θ. Отметим, что значение Is(Θ) не зависит от выбора меры λ. Действительно, пусть λ — какая-нибудь другая мера и ν = λ + λ. Тогда λ и λ абсолютно непрерывны относительно и, а плотность g^(s) распределения S относительно меры ν равна ~ m dX dX где qq — плотность относительно А. Так как — и — от θ не зависят, то dv dv производные от логарифмов всех трех выражений будут совпадать. Теорема 1. Пусть плотности f${x) и ge{s) удовлетворяют условиям (R). Тогда Ι3(θ)ζΙχ(θ). (1) Равенство здесь достигается тогда и только тогда, когда S есть достаточная статистика. Доказательство. Для любого В Ε 93* обозначим через 5-1 (В) Ε 93д> множество χ (Ξ Xй, для которых S(x) Ε В. Тогда по определению у.м. о. / L'(x,9)Pe{dx) = ΕΘ[Σ'(Χ,Θ); Χ Ε S~l(B)] = S'1(B) = Ee[Ee(L'(X,e)/S); S Ε В]. (2) С другой стороны, J Σ'(χ,θ)Έ>θ(άχ) = ^ J Μχ)μη(άχ) = ^ Jge(s)X(ds) = s-^B) s-цв) в = I ^ge(s)X(ds) = E,[(logff6(5))'; S € B]. (3) в
202 Гл. 2. Теория оценивания неизвестных параметров Сравнивая (2) и (3), видим, что п. в. [Pq] E<,(L'(X,9)/S) = (\ogge(S))'. (4) Далее, имеем 0 < E9[L'(X,9) - (\ogge(S))'}2 = Ιχ(θ) + Is(9) - 2EeL'(Χ, 9) (log ge(S))', где в силу (4) EeL'(X,9)(logge(S))' = = Ee[(]ogge(S))'Ee(L'(X,e)/S)] = Ee[(log^(5))']2 = Is(9). Это доказывает неравенство (1). Пусть теперь S — достаточная статистика для Θ. Тогда fe(X)=iP(S,9)h(X). (5) Возьмем в качестве А меру А(В) = Ι Η{χ)μη{άχ). s-нв) Тогда, как показано в лемме 25.1, распределение S будет абсолютно непрерывно относительно λ и будет иметь плотность go(s), равную ge(s) = φ(β, 0). Отсюда в силу (5) получаем Iх (Θ) = ΕΘ[Σ'(Χ,Θ)}2 = E9[(log^(S,9))'}2 = Is(9). Покажем теперь, что из равенств Iх (Θ) = Is(Θ) при всех θ следует, что S — достаточная статистика. Действительно, Iх(Θ) есть дисперсия L'(X, 0), так что Iх(9) = E9[L'(X,9) - Ee(L'(X,9)/S)}2 + Ee[Ee(L'(X,9)/S)}2. (6) Но в силу (4) последнее слагаемое равно Ee[(\ogge(S)y\2 = Is(9). TaKnaKlx(9) = Is(9), то в (6) п. в. [Pq] при всех θ L,(X,e)-Ee{L'(X,e)/S)=0. То есть L'(X,9) измерима относительно σ(5) и, стало быть, существует измеримая функция </?(5. Θ) такая, что L'(X, 9) = tp(S,9), L(X, θ) = Ф(5, θ) + /ц (Χ), Л(Х) = ехр[Ф(5,е) + /ц(Х)]. < Мы уже отмечали, что достаточные статистики являются тем единственным типом статистик, которые сокращают выборочные данные без потери информации о параметре Θ. Теорема 1 придает этому утверждению точный смысл применительно к информации Фишера.
§ 27. Свойства информации Фишера 203 Пример 1. Пусть X ^ Вр. Здесь где χ равно нулю или единице, fp{x) есть плотность относительно считающей меры. Поэтому χ 1 — χ 1(х,р) = χ In p + (1 - х) In (1 - ρ), 1'{χ,ρ) = - - , ρ 1-ρ Таким образом, информация одного наблюдения в схеме Бернулли равна (р(1 — р))-1 и достигает своего наименьшего значения при ρ = 1/2. Информация всей выборки равна п/(р(1 — р)). Обозначим теперь через ν число «успехов» в выборке X (число единичных исходов) и найдем информацию этого наблюдения. Плотности (опять относительно считающей меры) для ν будут равны 9Р{х) = Схпрх{1-р)п-х, х = 0,1,...,п, так что \oggp(x) = χ logp + (η - χ) log (1 - ρ) + log Cx, r{p) = Ep[0oggp{u))f = г-х(х-пр)2 = Σθχ(ΐ -рГ~х (f - γτ|У = Σ^ρχ(ι -Ρ)η" χ=0 ^^ Ρ' χ=0 (ρ(ι-ρ)) 1 т-ч П rDi/ (ρ(1-ρ))2 Ρ(1-Ρ)' Это равенство полностью согласуется с теоремой 1. Мы предлагаем читателю найти в виде упражнений информации наблюдений для выборок из распределений, зависящих от одномерного параметра и приведенных в § 12. 2. Многомерный случай. Пусть теперь θ £ Rfc, к > 1. В этом случае будем иметь дело с информационной матрицей Фишера наблюдения χχ Ι(θ) = ||Jy(0)||, 1ц{9) = Еощ^в^Цхив), где предполагается, конечно, что функция fe{x) дифференцируема. Если положить φ{χ,θ) = (φι(χ,θ),...,φ^χ,θ)) = о( /Γμυ * fdfe{x) dfe{xA =2(х/Ш)=7Ш1^Г'-'"^г)'
204 Гл. 2. Теория оценивания неизвестных параметров то матрицу Ι(θ) можно записать также в виде 1(0) = J φΤ{χ,θ)φ{χ,θ)μ{άχ). Χ Мы уже установили в §26, что, как и в одномерном случае, информация Фишера аддитивна, т.е. информационная матрица Фишера выборки X равна сумме информационных матриц отдельных наблюдений. Если обозначить то Iх {θ) =ηΙ{θ). Теорема 1 также сохраняется полностью. Пусть ge{s) — плотность некоторой статистики 5 = S(X) со значениями в R1 относительно некоторой меры λ. Положим Ι8(θ) = ||jg(0)||, ф) =Ee^.\ogge(S)-^-loggg(S). Это есть информационная матрица наблюдения 5. Теорема 1А. Если плотности fe{x) и ge{s) удовлетворяют условиям (R) §26, то Ι3(θ)ζΙχ(θ), (7) т.е. матрица Iх (Θ) — 1(9) является неотрицательно определенной. Равенство в (7) имеет место тогда и только тогда, когда S — достаточная статистика. Доказательство этой теоремы вполне аналогично доказательству теоремы 1, и для сокращения текста мы его опускаем. Это доказательство можно найти, например, в [48, 49]. Пример 2. В §26 мы уже вычисляли информационную матрицу для нормального распределения. Вычислим теперь информационную матрицу для двупараметрического семейства распределений И^)· Μχ) = -/ где θ = (α, σ), / — заданная дифференцируемая функция, для которой существуют интегралы U = fxi{-^fdx = Ε(0ι1)χί(ί'(χι))2, i = 0,1,2. Здесь l(x) = log/(x), штрих означает обычное дифференцирование, параметры а и σ суть параметры сдвига и масштаба распределения с плотностью /(х). Таким образом, нам известен вид распределения, но лишь с точностью до линейного преобразования аргумента. Параметры а и σ нормального
§27. Свойства информации Фишера 205 распределения Фа5(Т2, очевидно, являются параметрами сдвига и масштаба. Параметр α Г-распределения при фиксированном А является параметром масштаба, как и параметр θ в распределении Uq,0. Имеем /о™ /у 1{χ,θ) = hgfe(x) = -loga + Z Θ1{χ,θ) da \(χ,θ) __ 1 (ж - α) . /д; — сЛ да σ σ2 \ σ ) Отсюда находим 1 Ιη(θ) = -ζΕ$ ■г/х^а\12_ 1 r[f{X σ)\ . V ο )\ σ2 J ^Jx-a\ 12 ;— dx = —tzIq, Ι12(θ) = \ΈΘ1> ( Xl ° σ* 1 + ίυΐ^^χι-α _ 1 г Τ^1 σΑ /22 W σ* ΓΕ0 l + ^LZ^r^1-" = £fc " 1], так как /χ ~~ ol /χ — cx\ dx Γ /' ί J — = -2 / f{x) dx = -2. Таким образом, г/m _ 1 К0 х σ^ ||ii i2 — J- Если / — симметричная функция, то, очевидно, 1\ = 0. Вырождение матрицы Ι(θ) означает, что ее определитель обращается в нуль или, что то же, [Eio.Di'ixOCl+xi/'ixO^^E^a'ixO^o.DCl + Xi/'ix!))2. Это возможно лишь в случае, когда либо l + xV(x) = cl'(x) при каком-нибудь с, либо 1'{х) = 0. Из первого равенства следует, что eCl 1{х) = — In (ж — с) + ci, /(χ) = . χ — с Ясно, что такая функция f{x) не может быть плотностью распределения. Аналогично рассматривается возможность 1'{х) = 0. Стало быть, Ι(θ) положительно определена.
206 Гл. 2. Теория оценивания неизвестных параметров В частности, для нормального семейства [Φα>σ2] при θ = (α, σ) w - ? 1 0 0 2 так как в этом случае 1(х) = —х2/2 — 1η\/2π, V{x) = —я, /о = Е^пх? = 1, h = Ε(ο,ΐ)χι = ^ ^2 = E(0ji)Xi = 3. Тот же самый результат мы могли бы получить с помощью примера 26.4, используя п. 3 этого параграфа, где выяснено поведение информационной матрицы при замене параметра (в примере 26.4 θ = (α, σ2), а не (α, σ)). Предлагаем читателю убедиться теперь, что в соответствии с теоремой 1А статистика f x, \_\ xi) имеет информационную матрицу ЛЧ = £ 1 0 0 2 = ηΙ{θ). 3. Матрица Фишера и замена параметра. Рассмотрим вопрос о том, как ведет себя информационная матрица при замене параметра. Положим θ = = υ (β), β Ε R*, где υ — дифференцируемая вектор-функция, и рассмотрим параметрическое семейство Р*' = Ρυ(β)- Чтобы найти информационную матрицу J (β) для этого семейства, мы должны найти производные к Я-1ЫМР)) = Еж*(*ь«(0)п^. (8) щ Если обозначить V = i=l двг dPj dVitf) δβ< , г, j = 1,..., fc, то мы получим, что вектор производных в (8) Ιβ(χι,υ(β)) представим в виде Ι'θ(χι,υ(β))ν, так что JC9) = E/J(^(x1>t;(/9))V)T(Zi(xi>«G9))V) = FT/(«(/3))K В частности, если θ = /ЗС, С = ||с^||, г, j = 1,..., А:, то V = Ст и m = с/(^)ст. (9) Отметим, что если мы рассмотрим в параметрическом пространстве эллипсоид (Θ - ΘΧ)Ι{Θ){Θ - 0:)Τ < с, (10) то запись (10) этого множества инвариантна относительно линейного обратимого преобразования С над параметром Θ. Именно, если положим θ = /ЗС, то в новых переменных множество (10) будет иметь вид (/3-A)j(/3)(/3-A)T<c где βι = в\С~1. Это немедленно получится, если подставить θ = βΟ в (10) и воспользоваться (9).
§ 28. Оценки параметра сдвига и масштаба 207 § 28·* Оценки параметра сдвига и масштаба. Эффективные эквивариантные оценки Мы видели в § 22-26 и будем убеждаться в дальнейшем, насколько полезным является понятие достаточной статистики вообще и при построении эффективных оценок в частности. Круг идей, связанный с использованием достаточных статистик, можно было бы назвать принципом достаточности. Принцип достаточности мы сочетали при построении эффективных оценок с другим — принципом несмещенности. Он состоит в выделении классов оценок с фиксированным и, в частности, с нулевым смещением. Без фиксации смещения выделение эффективных оценок было бы невозможно. В этом и следующем параграфах (а также в главе 3) мы рассмотрим еще один важный принцип математической статистики — принцип инвариантности. Смысл введения всех названных принципов один и тот же — они позволяют естественным образом сужать класс рассматриваемых оценок так, что в полученных сужениях оказывается возможным отыскание эффективных оценок. 1. Оценки параметра сдвига и масштаба. Задачей об оценке параметра сдвига называется задача оценки параметра α в семействе распределений {Ра}, обладающих свойством Ρα(Α) = Ρ(Λ-α). Здесь Ρ — некоторое фиксированное распределение, А—а = {х : х+а Ε А}, и предполагается, что параметрическое множество Θ имеет ту же природу, что и X. В случае X = Rm можно, конечно, рассматривать сдвиги θ и «меньшей размерности», например скалярные, но тогда надо фиксировать направление (вектор е € X) сдвига и рассматривать Ра{А) = Р(А — ае). Будем рассматривать для определенности лишь первую возможность и считать, что Θ = X = Шт. Заметим, что Ра-распределение х; 4- с (с Ε Шт) совпадает с распределением Ра+с величины χ,, т.е. сдвиг всех наблюдений на с приводит к выборке из распределения PQ+C. Это делает естественным рассматривать лишь те оценки а* = а*(Х) параметра а, которые обладают свойством а*(Х + с)=а*(Х)+с. (1) Здесь и в дальнейшем X + с означает вектор с координатами (χχ + с,... .. .,хп + с). Нарушение этого равенства означало бы, что оценка а* зависит от начала отсчета, т. е. от выбора начала координат в пространстве X = Шт. Аналогичный подход возникает при оценке параметра масштаба, когда оценивается параметр σ в семействе {Ρσ} со свойством Ρσ{Α) = Ρ(Α/σ), σ (Ξ (0, οο). Мы считаем здесь σ скалярным, хотя можно рассматривать и матричный случай. В этом случае Ρσ-распределение значений Х{С совпадает с распределением Рас величин х$, т.е. умножение наблюдений на с приводит к выборке из Р<7С. Стало быть, в этом случае естественно ограничиться рассмотрением оценок, обладающих свойством а*{Хс) =са*{Х), (2) где Хс = (xic,.. .,хпс), поскольку при изменении в с раз масштаба наблюдений во столько же раз меняется и параметр.
208 Гл. 2. Теория оценивания неизвестных параметров Следующие утверждения читатель может легко получить самостоятельно. Если семейство Р# удовлетворяет условию (Αμ), то параметр θ будет параметром сдвига (масштаба) тогда и только тогда, когда Л(*) = /(*-*) (/·(*) = J/(f))· Если X — R = Θ, I § PQ и α есть параметр сдвига, то Υ = ех = = (еХ1,.. .,eXn) €= Q<7, где для распределений Qa параметр σ — еа есть параметр масштаба. Это сразу следует из того, что плотность у ι = eXl равна (см. [17, §3.2]) i/(b»-a)-if2/(l«S)l. у σ [у \ σ/\ Наоборот, если X = (Ο,οο) = Θ, Χ €= Ρσ и σ есть параметр масштаба, то Υ = ΙηΧ = (lnxi,.. .,lnxn) ^ Qa, где a = Ιησ есть параметр сдвига распределений Qa. Таким образом, задачи оценивания параметров сдвига и масштаба могут быть сведены одна к другой. Можно рассматривать задачу и об одновременной оценке неизвестных параметров α и σ в случае, когда Va^(A) = Ρ Ι j . В этих условиях в качестве оценки σ естественно рассматривать функции, обладающие свойством а*(Х + с) = а*рГ), а*(Хс) - са*(Х). (3) Оценки, удовлетворяющие в рассмотренных примерах условиям (1)-(3), называются эквивариантными (общее определение см. в §29). Смысл введения таких оценок состоит в сужении класса всех рассматриваемых оценок, что упрощает задачу поиска оптимальных оценок. Так, в § 18 нами было установлено, что найти равномерно (т. е. при всех Θ) наилучшие оценки в классе всех оценок невозможно. Оказывается, что в классе эквивариантных оценок такие равномерно наилучшие оценки уже существуют и могут быть в ряде случаев найдены в явном виде. На примере оценок параметров сдвига и масштаба мы этот факт и проиллюстрируем. 2. Эффективная оценка параметра сдвига в классе эквивариантных оценок. Будем предполагать здесь, что выполнено условие (Αμ) и, стало быть, /а(я) = /(# — <*) и что μ есть мера Лебега. Обозначим через So статистику So = So{X) = (X2 -Xi,...,Xn -Xl), очевидно, инвариантную относительно сдвига: Sq(X + c) = Sq(X). Через К ε обозначим класс всех эквивариантных оценок а*, т.е. оценок, удовлетворяющих (1), и через |а|2 — квадрат евклидовой нормы a £ Km.
§ 28. Оценки параметра сдвига и масштаба 209 Теорема 1. Пусть а* = а*(Х) — любая эквивариантная оценка с конечным значением Е0а*. Тогда оценка a*0 = a*-E0(a*/S0) (4) от выбора а* не зависит и является единственной эффективной в Ке оценкой, т. е. Εα|αί — а| = min EJa* - а\2 при всех а и Еа|а* — а|2 = 1 ' а*екЕ = Еа|«о — а| , если только Ео(а*/5о) = 0 п. е. Оценка οβ может быть представлена в форме , fufu{X)du = JufjX -u)du а° Jfu(X)du Jf(X-u)du' [0) Оценка aj называется оценкой Питмена. Из (4) нетрудно видеть, что она является эквивариантной и несмещенной. Эквивариантность следует из эквивариантности а* и инвариантности относительно сдвига функции V(Sq) = Eo(a*/5o), зависящей только от Sq. Несмещенность вытекает из равенств Eaa*Q =a + Eaa*{X -a)- EQF(50), (6) где EaV(So) = E0F(5o), Eaa*(X - a) = Е0а*(Х). Последнее соотношение вытекает из того, что X — а €= Ро, если X €= PQ. Поэтому сумма двух последних слагаемых в (6) равна Е0а* - Ео[Ео(а*/5о)] = 0, EaaJ = а. Доказательству теоремы предпошлем следующее вспомогательное утверждение. Лемма 1. Пусть X ^ Ро- Для любой статистики S = S(X) с конечным математическим ожиданием Ео|5| < оо у.м.о. S относительно So равно ■*/ад-»сх)-"ЭДЙ?*·· Доказательство. Все функции под знаками интегралов в (7) есть функции от X — и. Стало быть, после замены х\ — и = ν они будут функциями от (г>, Х2 — χι + г>,..., хп — χ ι + г;). Это означает, что правая часть (7) зависит лишь от SO· В силу свойств у. м. о. нам для доказательства леммы достаточно убедиться, что для любого А Е <t(5q) Ео(51;Л)=Е0(5;Л). (8)
210 Гл. 2. Теория оценивания неизвестных параметров Пусть Ζ = Z(So) — любая ограниченная а(5о)-измеримая статистика, тогда Z{S0)fS(x-u)fu(x)du EoZSi= / ° . . , f(x)dx = J I fu(x) du // f fu(x)du xn θ Z(SQ)S(x-u)f(x~u)f(x) άχ ^ f f(x — v)dv θ xn θ После замены χ — u —> χ во внутреннем интеграле получим (So(я) ПРИ этом перейдет в себя) Г [ Z^o)S(X)f(x)Hx + u) άχάη = Γ z{So)S{x)f{x) dx = EoZS_ J J J f{x + u-v)dv J Θ Χη 0 Xn Это доказывает (8). Изменение порядка интегрирования, которое мы дважды производили, законно в силу абсолютной интегрируемости S и ограниченности Z. < Доказательство теоремы 1. Заметим прежде всего, что для экви- вариантной оценки Εα|α* — α|2 не зависит от а. Действительно, Εα\α*(Χ) - а|2 = EQ\a*(X - a)\2 = Ε0|α*(Χ)|2. Таким образом, для отыскания равномерно оптимальной эквивариантной оценки надо найти оценку а*, минимизирующую Ео|а*|2. Пусть а* — любая эквивариантная оценка а. В силу свойств у.м.о. Е0|а*|2 = Е0|а*-Ео(а75о)|2+Е0|Ео(а75о)|2 >Ео|а*-Е0(а75о)|2. (9) Остается заметить, что в силу леммы 1 оценка aj = a* — Eo(a*/5o) равна (5) и от выбора а* не зависит. Равенство в (9), очевидно, возможно тогда и только тогда, когда Ео(а*/5о) -Оп.в. < Из доказательства теоремы видно, что особую роль в построении оптимальной эквивариантной оценки играет статистика SO = (хг — χι,... . ..,χη — χι), инвариантная относительно преобразования сдвига. Инвариантность статистики есть качество, в известном смысле противоположное достаточности, а конструкция оценки 0q = θ* — Eo(0*/So) на основе произвольной оценки 0* представляет собой подход к улучшению оценки 0*, также в некотором смысле противоположный подходу, при котором для улучшения оценки θ* с помощью достаточной статистики S рассматривалась оценка 0£ = Έο(θ*/S). Противоположность состоит в следующем. Достаточная статистика содержит в себе всю информацию о параметре Θ; инвариантная статистика — никакой. В поисках наилучших оценок мы искали минимальные достаточные статистики; Здесь, как мы увидим, нам нужны максимальные инвариантные статистики (таковой является статистика So). Оценка θ$ есть
§ 28. Оценки параметра сдвига и масштаба 211 П < -\2 2(а-х). «проекция» Θ* на S, в то время как оценка θ$ получается вычитанием из Θ* ее «проекции» на 5Ό· В конечном счете результаты, полученные этими двумя путями, часто совпадают, как это будет видно из следующих двух примеров. Пример 1. Пусть X = R, X е Фад. Тогда Здесь второй множитель как функция α есть функция плотности нормального закона с параметрами (х, 1/п). Так как первый множитель от α не зависит, то он сократится в (5), и оценка Питмена будет равна а* = х. Таким же будет результат в многомерном случае. Пример 2. Пусть X = Μ, Χ €= \3ο,\+θ- Тогда f (χ) = J1 при Х(п)~1 ^ θ ^ Х(1)' \θ в остальных случаях. Поэтому в силу (5) Χ(ΐ) Л* Г udu 1, , ч |_ У ■w-^ti-i'1"'^-"· X(n)-i Мы видим, таким образом, что в классе ЯГ# эквивариантных оценок можно в явном виде строить эффективные оценки, при этом не требуется никаких условий на гладкость /#(£)> и сама эффективность носит точный (не асимптотический) характер. 3. Минимаксность оценки Питмена. Обратим теперь внимание на форму оценки Питмена. Грубо говоря, это есть байесовская оценка для «равномерного на всей оси» априорного распределения. Так как указанного распределения не существует, то мы сформулируем высказанное утверждение более точно. Пусть X = К и Q(^) есть равномерное распределение на [-ЛГ, ЛГ], т. е. распределение с плотностью q [t) ~ \о, |<| > ν. Байесовская оценка, соответствующая Q^N\ будет равна N /*гч Г ufu{X)du aQ<N) JqW{u)fu{X)du " y.. ' J fu(X)du -Ν
212 Гл. 2. Теория оценивания неизвестных параметров Очевидно, что для всех X оценка Питмена aj есть предел aj = = lim a%(N)- Это обстоятельство наводит на мысль, что одновременно бу- дут сходиться и моменты второго порядка: Ea iaQ(N) ~ a)2 -> EQ (aS - a)2 · Оказывается, что в области ]a\ ^ N — y/N это так и есть, причем сходимость будет равномерной по α в указанном интервале значений а. (Доказательство связано с оценкой Ea(aQ —a* (7V))2, носит в основном технический характер, и мы его опускаем.) Но в таком случае мы можем воспользоваться критерием минимаксности оценок в теореме 21.3: если оценка а* такова, что при всех а Еа(а* - а)2 < limsup [Et(a*iN) - t)2Q^{dt) (10) ЛГ-юо J W для некоторой последовательности априорных распределений Q^ (не обязательно равномерных) и соответствующих им байесовских оценок a* (7V), то а* — минимаксная оценка. В нашем случае т = Ea(ag — α) от α не зависит. Поэтому в силу отмеченных выше свойств сходимости вторых моментов limsup [Et(a*Q(N)--t)2QW(dt) > > limsup—- / Et(a*(N) - t)2 dt ^ \t\<N-y/N ^ limsup—-2(N - y/N)(m - ε) = m - ε ДГ-К50 2iV при любом ε > 0. Это означает, что свойство (10) выполнено. Таким образом, оценка Питмена является минимаксной в классе всех оценок параметра сдвига (то, что она минимаксна в классе инвариантных оценок, очевидно, следует из эффективности). Сказанное можно интерпретировать также следующим образом: «наихудшим» априорным распределением (см. §21) для параметра сдвига является «равномерное на всей оси» распределение. Указанием на минимаксность оценки Питмена могла бы служить также отмеченная выше независимость Ea(ag — а) от α (ср. с теоремой 21.2). 4. Об оптимальных оценках параметра масштаба. Как мы уже отмечали, проблема оценки параметра масштаба σ может быть сведена в известном смысле к проблеме оценки параметра сдвига. Пусть для простоты Χ = (Ο,οο) = Θ. Тогда если X g= Ρσ, Ρσ{Α) = Ρ(Α/σ), το Υ = Ια Χ = = (Ιηχι,..., 1ηχη) ёРц , где α = 1ησ, а распределение Р^ имеет плотность
§ 28. Оценки параметра сдвига и масштаба 213 величины у! = 1ηχι в точке у (условие (Αβ) выполнено, —-—- = /(#)), (JLLL равную (см. [17, §3.2]) fW(y) = f(ey)ey. Таким образом, мы можем оценить наилучшим образом параметр α с помощью оценки Питмена а* = а*(У), а затем положить σ*(Χ) = ea*(Y\ Нетрудно видеть, что σ*(Χ) будет эквивариантной, так как a*{cX) = ea*(y+lnc> = eQ*(y)+lnc = ca*{X). Однако здесь важно отметить, что оценка Питмена минимизирует Εα(α* — α)2. Стало быть, полученная оценка σ* будет минимизировать К)2· E^ln-J , (11) а не величину Εσ(σ* — σ)2, с которой мы обычно имели дело. Но в задаче об эквивариантной оценке параметра σ и неразумно было рассматривать среднеквадратичную погрешность, поскольку она, в отличие от (11), зависит от преобразования сжатия, примененного одновременно к σ* и σ. Аналогом инвариантной статистики So здесь будет статистика (хг/хь- ..,χη/χι). Наряду с (11) возможно, конечно, рассмотрение и других погрешностей. Если, например, мы будем минимизировать величину наилучшей эквивариантной оценкой будет fa-^nX/a)d* fa-»-*f{X/a)da [ } (см. [112, с. 191]). Пример 3. Обнаружение источника излучения. Приведем пример реальной физической задачи, которая связана с оценками параметров сдвига и масштаба. Предположим, что в некоторой неизвестной точке ζ трехмерного пространства находится источник 7~излучения. Задача состоит в том, чтобы, используя плоский детектор (пусть он совпадает с одной из координатных плоскостей) и фиксируя на нем следы излучения, т. е. следы взаимодействия 7-квантов, испускаемых точкой ζ, с чувствительной поверхностью детектора, определить координаты точки ζ.
214 Гл. 2. Теория оценивания неизвестных параметров Эта задача намного упростилась бы, если бы мы имели источник излучения заряженных частиц высокой энергии. Тогда можно было бы поставить один за другим два параллельных плоских детектора и фиксировать на них точки прохождения, т.е. взаимодействия с поверхностью экрана, всего лишь двух частиц. Это дало бы нам направления полета этих частиц и вместе с ними координаты точки ζ как точки пересечения этих направлений. Однако для слабого 7-излучения, используемого в рентгеноскопии, это неосуществимо, и возможно введение лишь одного детектора. Направление, в котором распространяются излучаемые 7-ΚΒ<ίΗΤΜ, случайно и имеет равномерное распределение на поверхности сферы (если направление определять точкой на сфере с центром в точке ζ). Чтобы упростить задачу, рассмотрим ее двумерный вариант. Пусть источник находится на плоскости переменных (я, у) в неизвестной точке ζ — = (α, σ), σ > 0. Угол направления излучения, составленный с осью Оу имеет равномерное распределение на [0,2π]. Чувствительный детектор совпадает с осью абсцисс. Результатами наблюдений будут точки χι,Χ2,..., в которых было зафиксировано взаимодействие 7-квантов с детектором (осью абсцисс). Некоторое своеобразие этой задачи состоит в том, что объем η выборки, полученной за фиксированное время t будет случайным: число 7~квантов, испускаемых источником за время £, имеет распределение Пуассона, число 7-квантов, достигших детектора, также ζ = (α, σ) распределено по закону Пуассона, так как ч каждый квант достигает оси абсцисс с ве- β\ роятностью 1/2. Однако в нашем случае η \ и наблюдения χι,Χ2,... независимы. По- \ = этому мы можем рассматривать то число \ η наблюдений, которое получилось, и счи- \ тать его фиксированным (для каждого та- \ кого фиксированного η распределение хг \ ^ будет одним и тем же). α χ Итак, пусть даны наблюдения X = рис 2 — (хь ■ · ·? Хп)· Наша задача состоит в оценке координат (α, σ). Покажем, что X €? ^ Κα,σ, т.е. хг имеют распределение Коши с параметрами сдвига α и масштаба σ. Действительно, условное распределение угла β направления движения 7-кванта с осью (0, —у) при условии, что квант достиг детектора (ось абсцисс), будет равномерным на отрезке [—π/2,π/2]. Так как (х — α)/σ = tg/? (см. рис. 2), то _ , ч 1 1 χ — a Ρα,σ(Χΐ < Χ) = о + -~ arctS · δ π σ Стало быть, плотность распределения χι будет равна плотности распределения Коши (см. § 12) к ли = 1 I = σ α'σ1 ] πσ (1 + ((χ - α)/σ)2) π(σ2 + (χ - α)2)' Предположим теперь, что σ известно, пусть, например, σ = 1. Тогда наилучшей инвариантной оценкой параметра сдвига α будет оценка Питмена,
§ 29. Общая задача об эквивариантном оценивании 215 которая получается как среднее значение а* =? / u<p(u) du распределения с плотностью φ{η) = <p(u, Χ) = г " , ku(X) = Yl ku(xi), ίΚ{Χ)άυ' 1 π(1 + (ιχ~χζ)2)· Ο. μ. π. α* будет представлять из себя точку, в которой достигается max<^(w). Позже мы покажем (см. §34), что а* и а* асимптотически эквивалентны и имеют а. н. распределение с коэффициентом 1/1 = 2 (в рассматриваемом случае / = / (&q) /kodx = 4π~1 / χ2(1 + я2)-3 da; = 1/2). Из сказанного следует, что погрешность оценок а* и а* при больших η имеет порядок малости 1/у/п. Интересно отметить, что в рассматриваемой задаче можно добиться путем вмешательства в эксперимент более высокой степени точности. Это можно сделать, поставив между точкой ζ = (α, 1) и детектором экран, параллельный оси абсцисс, с отверствием #, через которое лишь и могут проходить 7-кванты. Положение экрана и отверствия выбираются экспериментатором и, стало быть, нам известны. В этом случае распределение наблюдений на экране будет разрывным и при небольших отверствиях Η будет близко к Uaa?aa+6 при некоторых известных нам постоянных α и 6. Вид эффективной эквивариантной оценки а*н для такого распределения был найден в примере 2. Оценка а*н определяется крайними значениями выборки и имеет точность порядка 1/п#, где пн ^ τι — число элементов выборки, которые соответствуют квантам, прошедшим через щель (п#, как и га, на самом деле случайно и распределено по закону Пуассона). Так как в среднем п# пропорционально га, то при достаточно больших η получим 1/га# <^ 1/у/п. § 29.* Общая задача об эквивариантном оценивании Рассмотрим группу G измеримых преобразований g пространства Хп в себя, обладающих следующими свойствами. 1. Каждое g отображает Хп на все пространство Хп, т.е. для любого Х2 £ Хп найдется х\ Ε Хп такое, что х^ = дх\. 2. Отображения д взаимно однозначны. Измеримость д нужна для того, чтобы дХ была случайной величиной. Групповое свойство означает, что д2д\ Ε G, если д\ Ε G, дъ Ε G; тождественное преобразование е и обратное преобразование д~1 принадлежат G (так что д~1д = е). Определение 1. Семейство распределений {Р#} называется инвариантным относительно группы преобразований G (или, для краткости, просто инвариантным), если для каждых д Ε G и θ Ε Θ существует единственное вд Ε Θ такое, что соотношение X €= Р# влечет за собой дХ €= Р^.
216 Гл. 2 Теория оценивания неизвестных параметров Значение θ9, однозначно определяемое θ и #, обозначим через θ9 = дв. Тогда определение означает, что ΡΘ(9Χ ЕА) = Ρ-9θ(Χ € А). Так как в силу определения 1 условие (Ао) выполнено, то множество G всех преобразований д пространства Θ в себя образует группу. Действительно, распределение gig\X дается одновременно распределениями Рд^е и Pgtgtf- Из условия (Ао) следует, что Щр[ = ~g^gY и что д±l e G (достаточно положить #2 = 9\1)· Преобразования 'д из G автоматически взаимно однозначны. Однако изоморфизма между G и G может и не быть. Пусть, например, Χ ^ Φο,σ2* σ € (0, оо). В этом случае плотность f^a2(X) (функция правдоподобия) зависит лишь от /Jx»· Стало быть, если в качестве G рассмотреть группу вращений (ортогональных преобразований Л'71), то условия определения 1 будут выполнены, но 'д — ё, и группа G состоит из единственного элемента ё — тождественного преобразования Θ = (0, оо) в себя. Мы предоставляем читателю возможность в качестве упражнения проверить, что если {Р#} инвариантно относительно группы G и G\ есть подгруппа G, то {Р#} инвариантно относительно G\. При рассмотрении общей задачи эквивариантного оценивания нам необходимо иметь несколько более общую постановку задачи относительно сравнения оценок. До сих пор мы делали это с помощью среднеквадратичных уклонений, меряя погрешность оценки величиной (Θ* — 0)2. Будем теперь предполагать, что измерение погрешности Θ* происходит с помощью функции ιυ(θ*,θ) и что эта функция обладает свойством «однородности»*): ю(дв,дв*) = ιυ{θ,θ*) при всех Θ. (1) Именно этим свойством обладают функции w(9, θ*) = (θ—θ*)2 для параметра сдвига (преобразование сдвига) и ιυ(θ,θ*) = f In— ] или f —- — 1 J для параметра масштаба (преобразование сжатия). Мы видели в п. 28.4, что задача отыскания наилучшей эквивариантной оценки может быть весьма чувствительной к выбору меры погрешности τν(θ,θ*) оценки Θ*. Обратимся теперь к проблеме оценивания для инвариантных семейств {Ря}. Пусть мы имеем выборку X и по ней построили оценку θ* = Θ*{Χ) параметра 0. Если мы рассмотрим выборку Υ = дХ ^ Р^, то Θ*[Υ) будет оценкой для ~дв. При этом естественно предполагать, что оценки Θ*(Χ) и Θ*(Υ) связаны между собой так же, как оцениваемые параметры θ и дв, т. е. преобразованием д Θ*(Υ)=$Θ*(Χ). (2) *) Это свойство не обязательно в теории эквивариантного оценивания. Можно лишь требовать существования дд* такого, что w(g6,g6*) = ιυ(θ,θ*) при всех θ (см. [112]).
§ 29. Общая задача об эквивариантном оценивании 217 В силу (1) оценка Θ*(Υ) параметра Ί}θ дает ту же самую ошибку, что и оценка Θ*(Χ) параметра Θ. Таким образом, имеем две «одинаковые» проблемы оценивания. Произведенные преобразования дХ и 1дв можно интерпретировать как замены систем координат. Тогда (2) означает, что оценка Θ* не зависит от выбора системы координат и удовлетворяет соотношению θ\χ) = д-'еъх)· (3) Иными словами, если выбрана 0*, удовлетворяющая (2), то безразлично, какую из двух проблем оценивания, указанных выше, решать, поскольку выводы о 7}θ во второй проблеме можно превратить в выводы ойв первой с помощью равенства (3). Определение 2. Оценка Θ* параметра θ инвариантного семейства Р#, удовлетворяющая (3), называется эквиваршнтной*). Рассмотрим какую-нибудь точку θο Ε Θ и множество «эквивалентных» точек θ = <7#о> д € G. Такое выделение классов «эквивалентных» точек делит все пространство Θ на подмножества, называемые орбитами. Теорема 1. Значение Eqw{9,9*) для эквиваршнтной оценки Θ* постоянно на орбите, га. е. E9w{e,e*)=Eg9w{g0,0*) при любых θ Ε Θ и g Ε G. Доказательство. Имеем Εβν(θ,θ*(Χ)) = Eew(g9,g9*(X)) = E9w(g9,9*(gX)) = Ε&χυβθ,θ*{Χ)). < Если орбита {θ : θ = дво, g Ε G} совпадает с Θ (как это имело место для параметров сдвига и масштаба), то ¥jqw(6,Θ*) = const на Θ. Выполнение этого равенства есть характерный признак минимаксности Θ* (ср. с теоремой 21.2), так что наилучшие эквивариантные оценки часто оказываются минимаксными в классе всех оценок (подробнее см. [112]). Из теорем §21 вытекает, например, Теорема 2. Если Θ является орбитой и эквивариантная оценка Θ* оказалась байесовской (или пределом байесовских оценок Θ*Ν со сходимостью Е^гу(0,0*) = lim E0w(0,0^)), то 0* — минимаксная оценка. Ν—>оо Отметим также следующее важное свойство эквивариантных оценок. Нам будет удобно через v(gdx)/u(dx) обозначить плотность меры vg, vg{B) = = v(gB) относительно меры ν в точке χ Ε Χη. Теорема 3. Пусть выполнено условие (Αμ) и μη(gdx)/μη(dx) конечно и положительно при каждом g Ε G и п. в. [μη] значений ж. Пусть, *) Такие оценки называют иногда инвариантными. Однако этот термин менее точен. Его лучше оставить для оценок, обладающих свойством 9*(дХ) = Θ*(Χ) (т.е. для случая, когда д = е для любого д).
218 Гл. 2, Теория оценивания неизвестных параметров кроме того, о. м. η. Θ* единственна при каждом X. Тогда если семейство Р# инвариантно, то Θ* является эквивариантной оценкой. Доказательство. Имеем , ,у. PHx){dx) Pejdx) ш fs. (Χ) = / , ч— = max —-—г (4) J° y μη{άχ) θ μη(άχ) κ ' в точке х = X. Полагая Υ = gX, мы можем записать также f.m (y)=Mii=maxi^i. J0*(Y)\ > μη{9άχ) θ μη{ράχ) В силу инвариантности Р# и конечности μη(g dx)/μη (dx) > О это эквивалентно тому, что pri?-(y)(da?) Vg-ie(dx) Ρθ(άχ) —- тт^: = max /, ч = max —гтт· μη(άχ) θ μη(άχ) θ μη{άχ) Сравнивая с (4) и пользуясь единственностью Θ*(Χ), получаем g~l9*(gX) = = Θ*{Χ). < § 30. Интегральное неравенство типа Рао-Крамера. Критерии асимптотической байесовости и минимаксности оценок Этот параграф можно было бы назвать также «Неравенство для среднеквадратичного уклонения в байесовском случае». В значительной своей части он относится к асимптотической теории оценивания. Вопросы, связанные с асимптотическим подходом к сравнению оценок, затрагивались нами и раньше. Теперь, и главным образом в §33-37, они станут основным объектом изучения. 1. Эффективные и сверхэффективные оценки. В §26, посвященном неравенству Рао-Крамера, остался невыясненным следующий важный вопрос. Пусть выполнено условие (R). Тогда для несмещенных оценок Е*(0*-0)2> * η Щ' Правую часть этого неравенства называют иногда границей Рао-Крамера. Она достигается для R-эффективных оценок. Вопрос состоит в том, можно ли за счет выбора смещения сколько-нибудь существенно улучшить Д-эф- фективные или а. Л-э. оценки? Это есть вопрос о существенности границы Рао-Крамера и о роли смещения. Тот факт, что в отдельной фиксированной точке во значение Έ$(θ* — θ)2 может быть сделано значительно меньше, чем граница Рао-Крамера, нами уже отчасти обсуждался. Достаточно взять в* — во. Однако при этом в других точках эта оценка будет очень плохой. Можно привести другой, менее тривиальный пример, где улучшение достигается не за счет других точек. Пусть Χ ^ Фа,ь а ё θ — [0, оо). Тогда оценка α* = χ является эффективной и даже Л-эффективной. Однако оценка
§ 30. Интегральное неравенство типа Рао-Крамера 219 а** = max(0,x) в нашем случае, когда Θ = [0, оо), будет, очевидно, лучше, поскольку она уменьшает среднеквадратичные уклонения, заменяя недопустимые отрицательные значения на нуль. Оценка а**, очевидно, будет уже смещенной: Еаа** > а, но в точке а = 0 имеем 1(a) = 1, Ео(а*)2 = —, Е°<а">2 - £ < Ш В этом примере улучшение связано с тем, что мы сузили область значений оценки а* до множества θ. Приведем еще один пример (принадлежащий Ходжесу), в котором улучшение а* происходит не за счет ограничения Θ. Пусть опять X €= Φα,ι, Οι G Θ = (—οο,οο). Наряду с эффективной оценкой α* = χ рассмотрим при β < 1 оценку ** /χ, если |х| ^ п"1/4, Οί —- \ I /йс, если |х| < п-1/4. Нетрудно видеть, что при α > 0 по центральной предельной теореме PQ(|x| < η"1/4) ^ Ρα((χ - α)V^ < η1/4 - ay/n) -> 0 при η —> оо. Аналогичное утверждение верно при α < 0. Поэтому а** при а^О совпадает с χ на множестве вероятности, сходящейся к единице, и, стало быть, по теореме непрерывности при α φ Ο (α** - a)y/n & Ф0,ь При α = 0 Ρο(|χ| < η"1/4) = Po(|xV^| < η1/4) -> 1, и α** на множестве вероятности, сходящейся к единице, совпадает с /?х, так что (а** — a)y/n & Фо,/32· Таким образом, при всех α оценка а** является а. н., (а** - a)y/n & Ф0,<т2(сф ™e 2/ ч Г1 ПРИ а^°> a(a) = V<l при а = 0. Таким образом, в точке α = 0 коэффициент рассеивания сг2(0) оказался меньше нижней границы Рао-Крамера, равной единице. Асимптотически нормальные оценки в приведенных примерах, когда коэффициент рассеивания для них σ2(θ) ^ 1~1{β) оказывается при некоторых 0 строго меньше /-1(0), называют иногда суперэффективными. Однако оказалось, что эти примеры все же мало меняют правильную в целом картину о предпочтительности эффективных оценок. Именно, Ле Ка- мом было установлено, что добиться проиллюстрированного выше улучшения оценок можно, грубо говоря, лишь в малом числе точек. Здесь мы покажем, что наряду с соотношением inf Е$(0* — t)2 = 0, и* справедливом при каждом £, для интеграла от Е*(0* — t)2 уже существует положительная нижняя граница, не зависящая от 0* и тесно связанная
220 Гл. 2. Теория оценивания неизвестных параметров с аналогичным интегралом от функции {nl(t)) x. Именно, мы получим в одномерном случае θ G R неравенство для inf [Et(9*-t)2q(t)dt (1) при любой весовой функции q(t) ^ 0, / q(t)dt = 1, правая часть которого не зависит от Θ* (в том числе и от смещения b(t), присутствующего в неравенстве Рао-Крамера) и близка к значению J/n, где '-/$* » 2. Основные неравенства. Прежде чем сформулировать соответствующие теоремы, заметим, что интеграл в (1) можно рассматривать как безусловное математическое ожидание Е(0* — Θ)2 в байесовском случае, когда θ имеет априорное распределение с плотностью q(t) относительно меры Лебега. В этом случае J = Ε/-1 (θ). Обозначим через f(x,t) = ft(x)Q(t) плотность совместного распределения X и 0; //(ж), как и прежде, будет означать производную ft{x) no t. Пусть, далее, Nh С Θ есть носитель функции /ι, определенной на Θ; iV/j = {ί: h(t) φ 0}, и ΛΓ есть носитель /(ж,<) в Afn χ θ. Теорема 1. Предположим, что ft{x) дифференцируема по ί, α функция \fl{t) интегрируема на любом конечном интервале. Тогда для любой финитной {т. е. равной нулю вне конечного интервала) дифференцируемой функции h(t) такой, что Nh С Nq, справедливо неравенство щг-v* ттшт ηΕ(Ι(θ)[ΗΘ)/ς(θψ) + Ε[ν(θ)/ς(θψ U h{t) A]2 (3) η f I(t)h2(t)/q(t) dt + J h'(t)2/q(t) dt Доказательство. В силу финитности h(t) имеем f(Mx)h(t))'dt = Jd(ft(x)h(t)) = 0, I t(ft(x)h(t))' dt = - f ft(x)h{t)dt. Стало быть, для любой θ* ί [{θ* -t){ft{x)h{t))'άίμη{άχ)= ί ί ft(x)h(t) άίμ11 (dx) = fh{t)dt. Χη θ Χη Θ θ (4)
§ 30. Интегральное неравенство типа Рао-Крамера 221 Эти интегралы можно рассматривать в силу условия Nh С Nq как интегралы по N. Стало быть, мы можем умножить и разделить подынтегральное выражение в (4) на /(a?,i). Тогда получим Б В силу неравенства Коши-Буняковского отсюда следует же* - β* > тм/яш2 (. *{" "> 'Е[(МХ)Н(9)У/(МХ)я№Г W Остается привести это неравенство к виду (3). Заметим предварительно, что Et\L'(X,t)\ζn^/Щ и что для почти всех *) t EtL/(X,i)=0. (6) Первое из этих утверждений следует из соотношений Et\L'(X,t)\ < nEt|/'(xbi)| < n{Et[l'(xut)]2}^2 = п^Щ, вытекающих из неравенства Коши-Буняковского. Чтобы доказать второе утверждение, возьмем произвольную финитную функцию ρ(ί)> имеющую всюду непрерывную производную </(ί). Тогда jg{t)f't{X)dt = -jg,{t)ft{X)dt. Кроме того, y"|0(t)|Et|L'(Xfi)l<tt <njШ\уДЩя<оо. Отсюда следует, что можно менять порядок интегрирования в следующем выражении: Jg(t)EtL'(X,t)dt = f J9{ί)ί[{χ)άίμη{άχ) = χη θ = - / faf(t)ft(x) άίμη(άχ) = -fgf(t) dt = -Jdg{t) = 0. Χη Θ Θ Θ Вьшолнение этого равенства для всех д и означает справедливость (6). *) В § 26 мы доказали, что это равенство при выполнении условий (R) имеет место при всех t. Здесь нам будет достаточно его выполнения для почти всех t.
222 Гл. 2. Теория оценивания неизвестных параметров Теперь можем преобразовать правую часть (5). Опуская для краткости аргументы функций, получим Ε (fe(X)h(e))' L ΜΧΜθ) J l2 Ε vh- + h- Ε + 2E h 4 /\ 2 я gj 'h/h Я Здесь мы воспользовались тем, что в силу (6) + E,(L')2 М"(т)'-[(;) + Е /\ 2 E^EeL'^f^EtL'dt = 0 Nq и что (см. §26) Efl(L')2 = ηΙ{θ). < В последующих утверждениях везде будем предполагать, что ft{x) удовлетворяет условиям теоремы 1. Теорема 2. Если функция h{t) — ho(t) = q{t)/I(t) является финитной и дифференцируемой, то (7) где щ dt Замечание 1. Неравенства в теоремах 1, 2 являются интегральными в том смысле, что они относятся к интегралам от Ε*{θ* — Θ)2. В этом смысле неравенства § 26 можно называть локальными. Доказательство. Это утверждение немедленно вытекает из теоремы 1, так как правая часть в (3) при h — q/I преобразуется к виду J2/(nJ + H). < Мы видим, таким образом, что нижняя граница возможных значений Ε (θ* — 0)2 при больших η лишь немногим отличается от границы — = η = / —ггт-, равной значению E(0q - Θ)2 для R-эффективной оценки 0q. J Til [t) Это указывает на целесообразность использования эффективных оценок, поскольку для них при любой функции q почти достигается экстремальное значение Е(0* -Θ)2. Оценка (7) неулучшаема, на что указывает Пример 1. Пусть X €= Фад. Как мы знаем, в этом случае 1(a) = 1. Пусть, далее, параметр а выбирается случайно с гладкой плотностью q(t), t Ε (—со, оо). Тогда правая часть (7) превращается в (п + Н)~1, где #= i^--dt = E[{\nq(a)y}2.
§ 30. Интегральное неравенство типа Рао-Крамера 223 В нашем случае байесовская оценка an, соответствующая априорному распределению Q с плотностью q и минимизирующая Ε (α* — а)2, равна (см. § 20) , _Jtq(t)ft(X)dt _ &Q Jq(t)ft(X)dt f tq{t) expjnxt - t2n/2) dt f tq(t) exp(-n(x - t)2/2) dt ~ fq{t)exp{nxt-t2n/2)dt ~ f q[t) exp(-n(x - i)2/2) dt ' ^ ' Нетрудно найти асимптотическое представление этого отношения и показать, что olq = х Л тзг + * nq(x) °Ш· ■w-"),-M+o(a)· Однако мы поступим проще, предположив, что q(t) = /—β * /2. Тогда, очевидно, Я = 1, и правая часть в (7) превращается в 1/(п -f 1). Но в примере 21.1 было установлено, что \2 * Q } п + 1 Ε(α^-α)2 = Тем самым неулучшаемость неравенств (7) и (3) доказана. Теорема 3. Если интервал (а - ε,α + ε) содержится в Θ, mo длл любой оценки Θ* max Et(0* - *)2 ^ — =—о ■ *€(α-ε,α+ε) η max i (£) + ΈΔΖ~Δ te(a—ε,α+ε) Доказательство. Воспользуемся неравенством α+ε max ί€(α-ε,α+ε) Ef(0*-<)2> f Et{6* - t)2q(t) dt, справедливым для любой плотности q(t), равной нулю вне (о — ε,α + ε). Требуемое утверждение следует из теоремы 1, если положить в ней h(t) = q(t) = -cos2 n{t~a\ \t-a\^e. S ΔΕ Тогда Е(6Г ~ θ)2 > nfl(t)q(t)dt + f(q>(t))2/q(t)dt> где /■(•(*))' ?l2^-2COS^Sm27j ^ 1 > 2 . 2π* π2 ι чч ν yy rf< = ι _\ / df = — / тГ SilT — dt = —. < У <z(*) J C0S2?1 e2J 2 _£ 2e _1
224 Гл. 2. Теория оценивания неизвестных параметров Можно отметить, что на функции q(t) = cos2(7r£/2) достигается минимум ι функционала I (qf(t))2/q(t) dt в классе всех дифференцируемых плотнос- -1 тей q(t). Из теоремы 3 вытекает, в частности, что интервал значений 0, при которых оценка Θ* является сверхэффективной, не может иметь длину, большую чем 0(1/у/п). 3. Неравенства в случае, когда функция ς(θ)/Ι(θ) не дифференцируема. Если функция До = я/1 не удовлетворяет условиям теоремы 1, справедливо следующее полезное утверждение, позволяющее оценивать асимптотику Е(0* — Θ)2 в общем случае. Теорема 4. Пусть последовательность функций /ιε(£), зависящих от параметра ε > О, такова, что каждая функция h£ удовлетворяет условиям теоремы 1 и 1) h£(t) < Λο(ί), Тогда для любого ε > О Е(* "б) > п7 + Я(е) · Доказательство немедленно вытекает из теоремы 1, если положить h = he. Из теоремы 4 получаем следующее важное следствие. Теорема 5. Если функция q интегрируема по Риману, J < оо, то Ε(θ*-θ)2>-(1 + δη), п где δη = о(1) при η —> оо. Доказательство. Положим <fe(£) = ming(t + w), /j\ _/&(*), еСЛИ 4e{t)^e, \θ, если <?ε(£) < ε, Je(i) = max (ε,/(£)), ί+ε Очевидно, что функция he финитна и дифференцируема при любом ε > 0.
§ 30. Интегральное неравенство типа Рао-Крамера 225 Из того, что q(t) интегрируема по Риману, следует, что qe(t) f q(t) почти всюду при ε -> 0. Чтобы доказать это, убедимся, что /1 6 [q(t)-qe(t)]dti0. (9) α Из интегрируемости q(t) по Риману вытекает сходимость J2 qs(2kS)2S t / q{t) dt, £ q5{(2k + 1)^)25 f ί q(t) dt k Ί k Ί при δ -> 0. Поэтому b fqe{t)dt>Y^q2e(2ke)2e = = \ (Σ ?2ε(4*ε)4ε + £ Ы(4A + 2)ε)4ε) ->■ /g(i) Соотношение (9) и вместе с ним сходимость q£(t) f <?(£) доказаны. Пользуясь теперь этой сходимостью, получаем утт t ^о(£), J "■' J 2eJ /,(« + «) 2£j / /,(i| //«(() -e —e Кроме того, Ιλ'οΜ 1 \Qe(t + e) ge(t-e)\ g(f) di. Мы можем воспользоваться теперь теоремой 3. Полагая ε = ε(η) = = η""1/5, η —> οο, получим ε(η) —> 0, 4. Некоторые следствия. Критерии асимптотической байесовости и минимаксности. Один из основных выводов, которые можно сделать из результатов этого параграфа, состоит, грубо говоря, в следующем. Если существует а. Я-э. оценка, то какую бы другую оценку мы не взяли, мы не получим «в целом» (или «в среднем») асимптотически лучшего результата. Этим фактом
226 Гл. 2. Теория оценивания неизвестных параметров мы воспользуемся позже в § 33. Здесь же мы приведем критерии асимптотической байесовости и асимптотической минимаксности оценок, вытекающие из теорем 2, 5. Определение L Оценка 0*, обладающая свойством Εη(θΙ-θ)2 = J + o(l) (10) при η —> оо, называется асимптотически R-байесовской. Это есть оценки, для которых асимптотически достигается нижняя граница для среднеквадратичных уклонений, определенная в теоремах 2, 5. Их можно было бы назвать также асимптотически R-эффективными «в целом» (или «в среднем»). Напомним (см. §21), что оценка 0* называется асимптотически байесовской (относительно распределения Q), если для всякой другой оценки Θ* limsup[En(0i - θ)2 - Εη(0* - θ)2] < 0. (11) η->οο Следствие 1. Пусть выполнены условия теоремы 1 и функция q(t) интегрируема по Риману. Тогда асимптотически R-байесовская оценка является асимптотически байесовской. Доказательство. Пусть 0* — асимптотически Д-байесовская оценка. В силу теоремы 5 для любой оценки 0* liminfEn(0*-0)2^ J. n->oo Отсюда и из (10) следует (11). < Ясно также, что если асимптотически Д-байесовская оценка существует, то любая асимптотически байесовская оценка будет асимптотически Д-байе- совской (ср. с замечаниями к теореме 26.3). Из теоремы 5 вытекает также Следствие 2. Пусть выполнены условия теоремы 1 и функция q{t) интегрируема по Риману. Еслив\ ив\ — две асимптотически R-байесов- ские оценкщ они асимптотически эквивалентны в следующем смысле: Εη(0ί - ΘΙ)2 -> 0, (0ί - 0£)>/n —> 0, где сходимость по вероятности понимается относительно совместного распределения Хиве Хп χ Θ. Доказательство совершенно аналогично доказательствам теорем 18.2, 26.4. Исходным является равенство (18.23), которое в силу теоремы 5 дает HmsupEn(0?-0£)2 ^ 0. < П->00 В § 18, 21 мы отмечали, что для сравнения оценок наряду со средними значениями / ςτ(£)Εί(0* — t) dt можно рассматривать максимальные значения supEt(0*-*)2, Г С Θ. ter
§ 30. Интегральное неравенство типа Рао-Крамера 227 В качестве Г берется либо все множество Θ, либо та его часть, которая по предварительным данным содержит неизвестное значение 0. Напомним, что оценка 0 называется минимаксной, если для любой оценки 0* supE*(0* - tf <; supE*(0* - t)2. ter ter Оценка 0* называется асимптотически минимаксной, если для любой оценки 0* limsupsupEjv/n(0i - t)]2 < liminfsupEjx/n(0* - t)]2. п-юо ter n->°° ter . Следствие 3. Пусть информация Фишера I(θ) существует и непрерывна. Тогда если для любого отрезка Г С Θ \ims\ips\ipEt[Vn{0l-t)}2 ^sup/_1(£), (12) n-*oo ter ter то оценка θ* асимптотически минимаксна. Доказательство. Нам достаточно убедиться, что для любой оценки 0* liminfsupE*[>/n(0* -t)f ^ sup/_1(*). (13) n"-»°° ter ter Для любого распределения Q на Г с гладкой плоскостью q(t) относительно меры Лебега supEt[>/n (0* - t)}2 > /Et[Vn (0* - t)fq{t) dt. ter J По теореме 2 интеграл в правой части для любой оценки 0* не меньше, чем J — Н/п. Поэтому левая часть (13) больше или равна J= [ rl[t)q(t)dt. = jr\t)q{t) Но q — произвольная гладкая плотность, и для заданного ε > 0 ее всегда можно выбрать в силу непрерывности I~l(t) так, чтобы J^supΓl(t)-ε. ter Так как ε произвольно, (13) доказано. < В заключение этого пункта сделаем одно важное замечание. Оно состоит в том, что при отыскании асимптотически оптимальных оценок можно ограничиться классом Kq асимптотически несмещенных оценок, введенным нами в §26. Это вытекает из следующих соображений. Мы уже отмечали, что правая часть неравенства теоремы 5, равная J/n + о(1/п), от смещения 6(0) никак не зависит. В то же время, если для построения нижней границы для Е(0* — 0)2 мы будем исходить из неравенства Рао-Крамера в § 26, то мы получим ^2 чг-^ф/тР^+М dt.
228 Гл. 2. Теория оценивания неизвестных параметров Можно показать (ср. с [131]), что этот минимум по всем смещениям Ь{9) имеет (при некоторых предположениях на гладкость q(t) и I(i)) тот же вид J/n + о(1/п) и, что для нас существенно, достигается на смещении 6(6), обладающем при η —> оо свойствами b'(t) = o(l), b(t)=o(^=y Класс оценок Θ* с такими смещениями и есть Ко (см. §26). Выход Θ* из класса Ко делает границу J/n + о(1/п) недостижимой. Таким образом, при асимптотическом подходе, когда а. н. оценки сравниваются с помощью значений Е(0* — Θ)2 при гладких q(t) и /(ί), можно ограничиться рассмотрением оценок из класса К = Кф$ Π Ко (класс Кф$ обсуждался нами в § 18), поскольку оценки вне класса Ко являются «недопустимыми» в указанном выше смысле. 5· Многомерный случай. В случае θ Ε Шк можно получить аналоги для всех теорем этого параграфа и сделать те же выводы, которые нами были получены для одномерного случая. В частности, утверждение теоремы 5, одной из основных в этом параграфе, будет иметь вид d*>J- + o(l-\, η \nj где S = \\dijl dkj = E(0? - 9i) {θ] - θ,), J = ΈΙ-^Θ). Рассуждения, связанные с байесовскими и минимаксными оценками, также сохранятся, если в качестве погрешности оценки рассматривать значение ν{θ*)=Εθ(θ*~ θ)ν{θ* -0)τ, где V — неотрицательно определенная матрица. Байесовскими и минимаксными оценками (или асимптотически байесовскими и минимаксными) следует называть оценки, погрешности которых удовлетворяют соответствующим неравенствам для любой неотрицательно определенной матрицы V. §31. Расстояния Кульбака-Лейблера, Хеляингера и χ2. Их свойства Результаты этого параграфа будут существенны для получения основных результатов асимптотической теории оценивания, а также для результатов главы 3. 1. Определения и основные свойства расстояний. Пусть Ρ и G — два распределения на (Af, 95д'), абсолютно непрерывных относительно меры μ. Обозначим dP dG _ άμ άμ Νρ — носитель распределения Ρ: Νρ = {χ : ρ(χ) > 0}.
§31. Расстояния Кульбака-Лейблера, Хеллингера и χ2 229 Определение 1. Расстоянием Кульбака-Лейблера между распределениями Ρ и G называется величина Pl(P,G) = |ln^P(dz) = |ΐη^|ρ(χ)μ(ώ). ΝΡ Νρ На самом деле /?i(P, G) не есть, конечно, расстояние или метрика в общепринятом смысле, поскольку /9i(P,G) не есть симметричная функция от Ρ и G. Тем не менее мы увидим, что /?i(P,G) очень по существу (со статистической точки зрения) характеризует отклонение G от Р. Из неравенства 1п(1 4- г;) — ν ^ 0 и представления ^•g>=-/K-(H ρμ(άχ) следует, что всегда /?i(P, G) ^ 0. В лемме 16.1 было установлено, что равенство pi(P, G) = 0 возможно, лишь если Ρ = G. Определение 2. Расстоянием χ2 между распределениями Ρ и G будем называть величину Р2{ ' )= У —Ф)—μ{ у Np\jNG К этому расстоянию относятся почти все замечания, сделанные к определению 1. Название χ2 объясняется причинами, которые станут ясны позже. Определение 3. Расстоянием Хеллингера между распределениями Ρ и G называется величина рз(Р.О) = J (y/^-^/^))^(dx). NpUNG Расстояние Хеллингера является уже симметричной функцией Ρ и G, а значение д//?з(Р, G) обладает всеми свойствами метрики (между функциями у/р(х) и у/д{х) в метрическом пространстве Ь^{Х^ μ)). Нетрудно видеть, что р3(Р, G) = 2 (l - f ^ξμ{άχ)\ < 2. (1) Все три введенных нами расстояния играют существенную роль в различных задачах математической статистики. В какой-то мере мы в этом убедимся. Если с помощью этих расстояний характеризовать степень близости распределений, когда отношение р/д близко к единице, то окажется, что все они асимптотически ведут себя одинаково с точностью до постоянных множителей. Действительно, пользуясь разложением %£ЧЧЧИИ-КН2+о 9--1 Ρ
230 Гл.2. Теория оценивания неизвестных параметров получаем pi(P,G) = -|ln^ ·ρμ(άχ) -Ц^-1) РИ№) = |P2(P,G), р2(Р,С) = |^^-М^) = |(х/р-%/5)2(1 + д/|) /i(<fe)«4p3(P,G). Из последнего равенства следует также, что p2(P,G) ^ /93(P,G). Кроме того, /?i(P,G) ^ /9з(Р, G). Действительно, так как 1η(1 + χ) ^ х, то 1п^ = 21п[ 1+ ( л/^-1 ) ) ^2( fi-l ) , Ρ V VVP // VVP / /οι(Ρ,G) = -ίΐη^-ρμ(άχ) > -2 (j>/ρξμ{άχ) - Λ = p3(P,G). В дальнейшем будем рассматривать параметрический случай и предполагать, что выполнено условие (Ад). Нас будут интересовать расстояния Pi, г = 1,2,3, между распределениями Ρ — Р^ и G = Р^2 в (Х,Ъх), а также между соответствующими выборочными распределениями (обозначим их здесь через Р£ , Р^2) в (А^ЯЗ^-). (Отметим, что расстояния имеют смысл для произвольных распределении и с природой пространств никак не связаны.) Если Νρβ С Νρβ , то мы можем записать /ea(xi)' ριίΡ^,Ρ^) = jlJ-^-fe^idx) = Bfll In «(Ρβχ,Ρ*) = / {/θι~θίθ2)2μ(άχ) = Εβι Ρ3(Ρ9ι,Ρθ2)= Ι(^-νϋ2)2μ(άχ) = Εθι (J: /<?2(χι) τ /*2(χι) 1 /*ι(χΐ) Если условие iVp^ C iVF^ не выполнено, то P2(P^,P^2)i Рз(Р01,Р02) будут больше соответствующих математических ожиданий в (2). Отметим, что наряду с (2) имеет место следующее полезное равенство, вытекающее из (1): EolyJfo2(xl)/fo1(xl) = J }//θ2{χ)/θι{χ)μ{άχ) = 1 - ^(Pft.Pft)· (3) Связь между расстояниями ^(Ρ^,Ρ^) и ^(Ρ^,Ρ^) устанавливается следующим утверждением.
§31. Расстояния Кульбака-Лейблера, Хеллингера и χζ 231 Теорема 1. Справедливы равенства Ρι(ΡΙ,Ρΐ)=ηΡι(Ρθι,Έ>θ2), ι + Ρ2(Ρ?1,Ρ?2) = (ΐ + Ρ2(Ρ*1,Ρί2))η, (4) 1 - ~Ρ3{-ΡΙ,ΡΙ) = (l- \ps(Pei,Pe2)J■ Доказательство почти очевидно, если предположить для простоты, что Νρθ С Νρθ (в общем случае выкладки по существу сохранятся, но станут чуть более громоздкими). Действительно, в этом случае мы можем воспользоваться равенствами (2). Тогда первое из соотношений (4) немедленно следует из того, что 1n/giP0 ^f]n/gi(xi) Далее, в силу (2), (3) Ι+^,Ρ^Ε,,^Μ)2, и такие же соотношения справедливы для расстояний между Р^ и Р£2 (с заменой в правых частях χ ι на X). Так как Е" Кмщ) -Е" Π {-ш) - h {им)) то отсюда при а = 2 и а = 1/2 получаем (4). Доказательство теоремы в общем случае (т. е. если условие Νρθ С Νρθ не выполнено) мы предоставляем читателю. < Из теоремы 1 вытекает Следствие 1. Справедливо неравенство ρ3{ΡΙ,ΡΙ)^ηρ3(Ρθι,Ρθ2). Действительно, 1 — β71 ^ (1 — β)η при любом /3^0. Полагая β = = 1 - 2^3(P*'Pfc)' полУчим из (4) p3(P?1,Pgl) = 2(l-/yi)<2(l-./?)n = np3(Pex,Pfa). <
232 Гл. 2. Теория оценивания неизвестных параметров 2. Связь расстояний Хеллингера и других с информацией Фишера. Среди трех введенных в предыдущем пункте расстояний наибольший интерес для нас в дальнейшем будет представлять расстояние Хеллингера. В то же время характер главных утверждений, приводимых ниже (теоремы 2, 3), и характер доказательств будет один и тот же для всех трех расстояний. Поэтому для краткости изложения ограничимся в этом пункте изучением расстояния Хеллингера, которое будем обозначать теперь (опуская индекс у символа рз) ρ(Ρ9ι)Ρβ2) = J{y/fc- ^/7ϊ2γμ{άχ). Положим r(0i,02) = />(P0j,P02). Лемма 1. Если f$(x) при п. β. \μ] значениях χ непрерывна по θ, θ\ φ Φ 02, mo Если функция \/fe{x) при п. β. [μ] значениях χ дифференцируема по 0, то ^nfi^r^—· (6) Кроме тогО) О Здесь предполагается, конечно, что значения &\ 0", 0χ, 02, θ принадлежат Θ. Доказательство. Чтобы проверить (5), достаточно воспользоваться леммой Фату и непрерывностью fe{x) в соотношении θ"-+θ2 θ"->$2 Так как при θ\ = 02 = 0 подынтегральное выражение в последнем интеграле равно (/^) /(4/0), то мы получаем (6). Чтобы доказать (7), положим о = 02 — θ\ и представим приращение \/1н ~ \fhl в виДе θ2 ι 1 [ ft м _ а [ foi+*v АщЁ θι О
§31. Расстояния Кульбака-Лейблера, Хеллингера и χ2 233 В силу неравенства Коши-Буняковского ι {у/Ы- n/Ю2 = j /Ж* «т/ yfOi+ay 1,„ ^2 ^±^dy. ίθι+ay О Пользуясь неотрицательностью подынтегральной функции, мы можем менять порядок интегрирования в следующих соотношениях: 1 dy Ι μ(ώ) = J / Α#ΐ + ay) dy· x \o / о Неравенство (7) доказано. < Положим γ(Δ) = г(0,0 + Δ). Из леммы 1 непосредственно вытекает Теорема 2. lfo/ш функция \ffo(x) при п. в. [μ] значениях χ дифференцируема по θ и Ι(θ) непрерывна, то существует Δ->ο Δ2 4 ν ' Замечание 1. Это утверждение остается справедливым и для расстояний pi, p2, если положить γ(Δ) = ^2(Ρ*,Ρ*+δ), γ(Δ) = ^ι(Ρ*,Ρ*+δ). Соотношение (6) доказывается при этом точно так же, как в лемме 1. Доказательство же (8) может потребовать привлечения дополнительных условий регулярности (близких к условиям (R)), обеспечивающих законность предельного перехода под знаком интеграла. Итак, рг(Р0,Р0+д)5 г = 1,2,3, ведут себя асимптотически одинаково, и 7(0) характеризует скорость их стремления к нулю при Δ —> 0 (ведь ~τΙ(θ) пропорционально второй производной г (υ) в точке ν = 0). Если положить Γ^η)(Δ) = p(P$+a>^)> то из теорем 1, 2 будет следовать ,. Γ<η)(Δ) ηΙ{θ) km ——τ— = —-—. Δ->ο Δ2 4 Такие же соотношения сохранятся для расстояний ρι, ρ2· 3. Существование равномерных границ для τ·(Δ)/Δ2. Наличие таких границ позволит нам в дальнейшем получить весьма полезные оценки для моментов отношения правдоподобия. Для того чтобы упростить изложение и избежать введения других более громоздких условий, часто будем предполагать в последующих рассмотрениях выполненным условие (Ас) Множество Θ компактно.
234 Гл. 2. Теория оценивания неизвестных параметров С точки зрения приложений это условие, означающее ограниченность и замкнутость параметрического множества, как правило, не представляется ограничительным. Ниже мы будем использовать также условие (Aq), которое было введено нами в §14, 16 и которое означает, что fex φ }θ2 при θ\ φ 02- При этом УСЛОВИИ r(0i,#2) > 0 При #ι φ 02. Теорема 3. Если выполнены условия (Ао), (Ас) и 0 < 1(0) ^ ih < оо при всех 0 Ε Θ, то существует постоянная д > 0 такая, что для всех 01, 02 е Θ „ . Г(0!,02) Доказательство. Оценка сверху следует непосредственно из (7). Покажем теперь, что Допустим, что (10) неверно, тогда найдется последовательность (0χ , 0^ ) такая, что г(0[пЫп)) / ч при η -> оо. В силу условия (Ас) можем считать, не ограничивая общности, что θ[η) -> 01 Ε Θ, 0j° -> 02 G Θ. Если 0ι ^ 02, то (11) противоречит (5), так как в силу условия (Ао) r(0i,02) > 0. Если же 0г = 02 = 0, то (11) противоречит (6), так как 1(0) > 0. < 4. Многомерный случай. В этом пункте получим аналоги утверждений п. 2, 3 для многомерного параметра (содержание п. 1 с размерностью 0 не связано). Обозначим через φ(χ,θ) вектор-функцию с координатами ψΛχ'β) vm и. · Тогда производная функция yfe(x) п0 направлению единичного вектора о; = (uju...,uk) равна ((y/fe(x) );,ω) = (grad y/fe{x),u) = -(φ(χ,θ),ω). Матрица Фишера 7(0) равна в этих обозначениях Ι(θ)= Ι φΎ(χ,θ)φ(χ,θ)μ((Ιχ). Пусть |w| означает евклидову норму и = (щ,..., и^). В многомерном случае имеет место следующее обобщение леммы 1. Лемма 1А. Первое утверждение леммы 1 (см. (5)) при к > 1 полностью сохраняется.
§31. Расстояния Кульбака-Лейблера, Хеллингера и χ2 235 Если функция yfe{x) при τι. в. [μ] значениях χ дифференцируема по Θ, Θ' -> 0, θ" = θ' + ω"δ, ω" -»■ ω, \ω"\ = |ω| = 1, δ -> Ο, mo l™Mw^>rW)*T. (12) Кроме того, если ω, \ω\ = 1, есть вектор, коллинеарный 62 — 61, так что 02 = #1 4- αα>, α = |^2 — #i|, mo r(0b02) ^ 1 \θι-θ2\ < ~ / ω/(#ι + аи>у)и)Т dy. (13) Доказательство. Первое утверждение леммы 1 с размерностью не связано. Второе вытекает из леммы Фату и соотношений Kminf.y^.l Ξ* / liminf \θ' -θ"\2 I :„:„,Ь/Ж-л/7Й2 μ(άχ) = \θ' - θ"\2 = ±Ι(φ(χ,θ),ω)2μ(άχ) = ±ωΙ(θ)<. Чтобы доказать (13), заметим, что а 1 \ff(h- л/fa = 2 (ψ(χ,θι+νω),ω)άν = \ \{φ{*,β\ + ayu),u>)dy, τ ~{θι,θ2) = ^ Γ \[{φ(χ,θχ+ανω),ω) dy χ L0 μ(άχ) =ξ ^ Τ / (φ(χ>θι +ανω)ιω)2άνμ{(1χ) = χ ο 1 Λ 1 α2 Γ Γ α2 Γ = — / / (φ{χ,θ\ + ayω),ω)2μ(dx)dy = — / cj/(0i +ayu))u>T dy. < о # о Положим, как и прежде, γ(Δ) = г(#,0 4- Δ). Из леммы 1А вытекает Теорема 2А. J5o/m функция y/fe(x) дифференцируема при η. β. [μ] значениях χ и матрица Ι(θ) непрерывна, то для любого вектора ω единичной длины существует τ{δω) 1 т lim г9 = -ωΙ(θ)ω . Я_>о δ2 4 w
236 Гл. 2. Теория оценивания неизвестных параметров Как и в одномерном случае, из леммы 1А мы можем получить также следующее следствие. Обозначим через Sp/(0) след матрицы 1{θ). Теорема ЗА. Если выполнены условия (Ао), (Ас), матрица 1(9) является положительно определенной в Θ, 4Λ = supSp/(0) < оо, то суще- θ ствует постоянная g > О такая, что при всех 0ι, 02 Ε θ ^ϊ*γ=~^°· (14) Доказательство. Обозначим через Λι(0) и Л*(0) соответственно минимальное и максимальное собственные числа матрицы 7(0), так что при |ω| = 1 Λι(0)<α;/(0)α;τ<Λ*(0). (15) А: По условию теоремы Λι(0) > О всюду на Θ. Так как (</?,ω)2 < \φ\2 == yZ ¥^> т0 /< {φ,ω)2μ(άχ) = ωΙ{θ)ωτ < Sp/(0) A' и, стало быть, Л&(0) ^ Sp/(0) ^ 4Л. Из неравенства (13) получаем ι r(0i - 02) 1 -0J2 |0ι-02| ^ - / Ak{6i+ ayu)dy < Л. Докажем теперь второе неравенство в (14). Предположим, что оно не верно. Тогда, как и в теореме 3, найдется последовательность (0| , 02 )> 01 -> 01 £ Θ, 02 -> 02 ^ θ, для которой будет справедливо (11). Если 01 Φ 02 5 то это будет противоречить (5). Если 0ι = 02 = 0, то в силу компактности сферы |cj| = 1 можно считать, не ограничивая общности, что фп) = 0(п) + δω{η)^ ω(η) _^ ^ μ(η)| = |^| = L Но в етом случае (И) будет противоречить (12), (15). < 5*. Связь рассматриваемых расстояний с оценками. Рассмотрим расстояние Кульбака-Лейблера между распределениями Р# и не зависящим от 0 распределением G Pi(G,-pe) = fln^G(dx) - j \nfe{x)G{dx). Здесь от 0 зависит лишь второе слагаемое d(Pe,G) = - J\nMx)G(dx).
§31. Расстояния Кульбака-Лейблера, Хеллингера и χ2 237 С другой стороны, напомним, что о. м. п. определялась нами в § 16 как значение 0, при котором минимизируется d(P0,P*). Если распределение χι дискретно, а μ — считающая мера, то выражение /JP* ln-^P^x) Ρ' имеет смысл, /?i(P*,Pfl) = d(P^,P*) -d(P*,P*) и, следовательно, мы можем считать, что о. м. п. минимизирует расстояние Кульбака-Лейблера ρΐ(Ρ*,Ρ#) между Р# и Р*. В общем случае такое толкование можно принимать лишь условно. Основанием для такого толкования может служить приближенное описание распределения Ρ я с помощью дискретного распределения Р^. Для этого надо предположить, например, что существуют множества Δχ,..., An такие, что при больших N (малых Δ;) fe{x) при χ Ε Δ, хорошо приближается (в подходящем смысле) значениями fe(xi), У% £ Δ^, % = l,...,iV. Тогда можно считать, что fe{x) постоянна на Δ; и равна fe{yi)> а наблюдения, попавшие в Δζ·, отождествляются (объединяются в группы). Полученное новое сгруппированное эмпирическое распределение обозначим через Р^. Соответствующие вероятности попадания в г-ю группу равны »?(Δ<) = Jfe(xMdx) ~ fe(ViMbi). Δ, В этом случае будем иметь дело с выборкой из распределения Р^ дискретного типа. При этом о. м.п. Θ* будет близка значению 0^, максимизирующему ^ln/fl(yj)P;(A,·)» flnMx)P*n(dx). i J Другими словами, Θ*Ν будут сближаться с ростом N с 0*, где Θ*Ν суть значения, минимизирующие расстояния Кульбака-Лейблера р1(Р*^,Р^). Более содержательный «предельный переход» здесь построить трудно, так как значения Pi(Pn^jP^)» как и ^{^nN5?Л' неограниченно возрастают при iV->oo (μ(Δ0->0). Для дискретных распределений χι можно рассматривать также расстояния /?i(P^,P^) при г = 2,3 и оценки, минимизирующие эти расстояния. Например, при г = 2 получим „/р р«\ _ S^ Ып ~ fe(ai))2 где щ — число элементов выборки, попавших в точку а*, для которой fei^i) = = Рв({аг·}) > 0. Это есть статистика χ2 (см. §7, 8), в связи с чем это наименование присвоено нами и расстоянию р2· Так как расстояния pi обладают близкими асимптотическими свойствами, то оценки, минимизирующие эти расстояния, как это выяснится позже, будут асимптотически совпадать.
238 Гл. 2. Теория оценивания неизвестных параметров §32.* Свойства информации Фишера. Разностное неравенство типа Рао-Крамера Этот параграф стоит несколько в стороне от основного изложения. В нем мы попытаемся хотя бы частично ответить на вопрос о том, что происходит с нижней допустимой границей для Е#(0* — Θ)2 в нерегулярном случае, т.е. в случае, когда функция fe{x) не дифференцируема по θ или когда 1(9) = оо. Начнем с примера, который показывает, что при этих условиях поведение среднеквадратичных уклонений оценок (или их дисперсий) может быть совсем иным, чем поведение правой части неравенства Рао-Крамера. Пример 1. Пусть X€=Uo,0. Условие (R) здесь не выполнено, так как функция fo(χ) разрывна. Как мы знаем, для этого семейства статистика S = maxxi является полной и достаточной (см. пример 24.3). Возьмем несмещенную оценку Θ* = 2χχ. Тогда в силу результатов §24 оценка θ§ = 2Efl(xi/5) будет эффективной. Вычислим значение E^xi/S). Так как Р#(5 < ζ) = (ζ/θ)η, ζ Ε [0,0], το S имеет плотность, равную ηζη~1/θη на [0,0] и нулю вне этого интервала. Для отыскания условного распределения P(B/s) = Ρ#(χι Ε B/S = s) величины χι при условии S = s воспользуемся правилом (20.2): ίμα ι \ о / г- j /с \ Pfl(xi edy, S e ds) P(dy/s) = Р,(Х1 Ε dy/S = s) = re{Seds) ■ Здесь числитель равен [dy (η — l)sn~2ds Pfl(xi edy, S e ds) = { θ θη.χ при y<s, ds sn~l ПрИ у = 5 0 при у > 5. Отсюда следует, что P(dy/s) = при 0 < у < s, Ρ({5}/θ) = —. Таким образом, 5 0 Имеем 0 2 D^ = E^)2-02 = |s2(l + i) ™^ά8-θ> = (n + 1)2 iV- <?2 ш n(n + 2) у n(n + 2)"
§ 32. Разностное неравенство типа Рао-Крамера 239 Так как 0£ эффективна, для любой несмещенной оценки Θ* получаем ϋθθ* > -j^-ry (2) η(η + 2) Таким образом, при больших η среднеквадратичное уклонение Е# (θ*3 — θ) будет иметь порядок малости 1/п2. С точки зрения нижней границы неравенства Рао-Крамера, имеющей порядок 1/п, это ненормально высокая точность*). Можно показать, что это есть точность, с которой по выборке определяются любые точки скачков fe(x) (запрещаемые условием (R)). Мы видели в примере 17.4 об оценке медианы, что точки, где плотность fe(x) бесконечна, можно определить с еще большей точностью, так что, грубо говоря, чем больше нарушение регулярности в точке, тем точнее эта точка оценивается по выборке. Скажем, если X €= Р#, где Р# = Τϊ^οβ + ~Ϊ05 Ifl есть распределение, сосредоточенное в точке 0, то Ря(5 Φ Θ) — 2~n (S — maxxi), так что дисперсия Θ* — θ при Θ* = S будет убывать с ростом η экспоненциальным образом. Можно ли в этих условиях указать нижнюю границу для дисперсии оценок? Ниже мы получим неравенство, аналогичное неравенству Рао-Крамера, с помощью которого такие границы можно строить при более слабых условиях регулярности, чем условие (R). Будем предполагать лишь, что выполнено условие (Αμ), хотя оно и не очень существенно (см. замечание в конце параграфа). Обозначим через Δφ{θ) приращение функции φ(β) на интервале (θ,θ 4- Δ), через Νρ — носитель в Хп распределения выборки: Νρ = = {χ : fe{χ) Φ 0} и положим Νη = N£g U ΛΓρ,+Δ· Теорема 1 (Неравенство Чепмена-Роббинса). Пусть θ Ε Θ, θ + Δ Ε G Θ, α(θ) = Έθθ*. Тогда при любом Δ ф 0 Όαθ* > (Μ<?))2 = (Δα«?))2 , Ue ' ![ΑΜχψ/Μχ)μ»(άχ) ρ2(Ρ£,Ρ?+Δ)' [) где р2 есть расстояние χ2, рассматривавшееся в §31. Для несмещенных оценок числитель здесь следует заменить на Δ . В силу теоремы 31.1 знаменатель в (3) имеет вид ^(Р^Р^+д) = = (ΐ + Γ2(Δ))η-1, где г2(А)=Р2(Ре,Ро+А)= [ [Αίθ^]2μ(άχ). (4) Таким образом, чем больше расстояние P2(Pq,Pq+a) между Ρ#+Δ и Р# (при фиксированном Δ), тем меньше нижняя граница для ΌΘ*. *) Для параметра θ существуют также оценки, дисперсия которых имеет порядок 1/п. Например, для оценки Θ** = 2х имеем Е0** = θ, ΌΘ** = 4Dxi/rc = θ2/3η.
240 Гл. 2. Теория оценивания неизвестных параметров Если Р#+д абсолютно непрерывно относительно Р#, то Νρ Α С Ν%Λ = Νη и Ρ2(Ρ^Ρ^+δ) можно записать в виде (см. (31.2)) Р2(Р£,Р£+д)=Е, т2 L /»W J ' аналогично гг(Д) = Е# ΔΛ(χι) l2 Λ(χι) J Если же распределение Ρ#+Δ не абсолютно непрерывно относительно Р#, то существует подмножество из Νρθ+Α положительной Ря+д-меры, на котором fe{x) = 0, так что интеграл в (4) обращается в бесконечность, а само неравенство (3) становится тривиальным. Следует вновь отметить, что выражение Е$[А/$(Х)//е(Х)]2, понимаемое как интеграл по Νρθ, может при этом оставаться конечным. Доказательство теоремы 1. Из сказанного выше следует, что, не ограничивая общности, можем считать, что Ρ#+Δ абсолютно непрерывно относительно Р#, так что Νρ С Νρθ = Νη. Так как f${x) и /$+δ(®) есть плотности в Хп, то Кроме того, Отсюда следует, что / [ ΑΜχ)μη{άχ)=0. θ*ΑΜχ)μη(άχ) = Αα(θ). I (0* - α{θ))Α/θ(χ)μη{άχ) = Αα{θ). (5) На множестве Νη можем подынтегральную функцию в (5) представить в виде произведения yfeyx) Применяя затем неравенство Коши-Буняковского, получим (Δα(0))2 < у (61· - α(θ))2Μχ)μη(άχ) J {-^^-μη{άχ). < Νη tfn В дальнейшем, в соответствии со сделанным выше замечанием, как и в доказательстве теоремы 1, ограничимся случаем, когда Р#+д абсолютно непрерывно относительно Р# (ведь иначе неравенство (3) становится тривиальным).
§32. Разностное неравенство типа Рао-Крамера 241 Следствие 1. Если выполнены условия регулярности, обеспечивающие существование (см. замечание 31.1 к теореме 31.2) lim Γ2(Δ)/Δ2 = = 7(0), то ηΙ(θ) (6) где αΛΘ) = am sup—-—. Δ-»ο Δ Чтобы получить (6) из теоремы 1, надо лишь заметить, что мы можем выбрать последовательность Δ —> О так, чтобы —- > а+(#)· ^ Неравенство (6) является по форме некоторым обобщением неравенства Рао-Крамера (обобщением, скорее всего, фиктивным, так как упомянутые условия регулярности, по-видимому, влекут за собой существование α!{β)). Неравенство (3) естественно называть разностным в отличие от неравенства (6), которое можно было бы назвать дифференциальным. Таким образом, если Γ2(Δ) ~ Ι(Θ)Α2 (это соответствует тому, что fg дифференцируема), то из разностного неравенства Чепмена-Роббинса следует дифференциальное неравенство Рао-Крамера. Однако если функция fg не дифференцируема, поведение Γ2(Δ) при уменьшении Δ будет иным. Если, скажем, fg дифференцируема всюду за исключением конечного числа точек разрыва θ = θ(χ), зависящих от я, то мы будем иметь г2(А)~с\А\. (7) Проще всего это прояснить на довольно типичном примере, рассмотренном в начале параграфа. Пусть X €= Uo,0. Чтобы было выполнено условие абсолютной непрерывности Pfl+Δ относительно Р#, будем считать в случае Рд = Uo,0, что Δ < О, |Δ| < 0. Тогда 1 1 ГЛ Л ., Δ/*(*) = < Θ + Α~ 1 θ Ιο - - при it[u,t;t £Л|, σ при χ е[в + Α,θ], при χ $. [0,0], γ2(Δ) Ι (Д/«(*))а /θ(χ) άχ = Θ+Α -/[ Δ τ2 θ(θ + Α)\ θάχ + υ ίϊ Θ+Α Δ2 |Δ|
242 Гл. 2. Теория оценивания неизвестных параметров Существенным здесь является наличие интервала длины, сравнимой с |Δ|, на котором |Δ/^(α:)| > с > О, где с от Δ не зависит. Это и обеспечивает порядок малости (7) для Γ2(Δ). Возвращаясь к нашему примеру, видим, что для несмещенных оценок параметра θ "^-gv ιδι/Ά' γ ;· [i+ β +β(β + Α)) ' Каков порядок малости правой части этого неравенства при η —> со? Полагая |Δ| = ув/п, получим Θ2 у2 ΌΘ* > — max · у \ η n{n-y)J Ясно, что выражение со знаком max асимптотически эквивалентно h = = m&xy2/(ey — 1) « 0,65, так что D0*^(/i + o(l)). Это неравенство имеет ту же по порядку малости правую часть, что и не- улучшаемое неравенство (2), однако постоянный множитель при θ2 /η2 в (2) «лучше» и равен единице. Наряду с (7) могут возникать и другие скорости сходимости Γ2(Δ) к нулю при Δ —> 0. Мы можем получить, например, и Γ2(Δ) ~ βΔα, α < 1, если /я(ζ) имеет линии θ — θ(χ) φ const, при приближении к которым /θ(χ) —> оо; и Γ2(Δ) ~ οΔα, 2 > α > 1, если /# непрерывна по 0, но не дифференцируема, а удовлетворяет лишь условию Гёльдера в окрестности некоторой линии θ = θ(χ) φ const. Нетрудно видеть, что порядок малости Δ2 max ■ Δ (l + cAa)n-l при a < 2 будет определяться значением Δ = (у/сп)1/", так что Όθ* > τ—ϊ5μ max i—г*1 + °M)· {cn)z/a у еУ — 1 В «регулярном» случае α = 2 максимум по у достигается в предельной точке у = 0 (Δ = 0). В заключение этого параграфа отметим, что оценки для ΌΘ* аналогичным образом могут быть получены и для взаимно не абсолютно непрерывных Р# и Pfl+Δ- Для этого в (5) подынтегральную функцию следует умножать и делить на y/fe(x) + /я+д(#)> а не на y/fe{x)- Условие (А^) также не столь существенно, так как меры Р# и Ρ^+Δ всегда абсолютно непрерывны относительно -(Р# +Ρ#+δ)·
§ 33. Вспомогательные неравенства. Свойства о. м. п. 243 § 33. Вспомогательные неравенства для отношения правдоподобия. Асимптотические свойства оценок максимального правдоподобия В § 22-26 мы изучали вопросы, связанные с существованием и отысканием в явном виде эффективных и Д-эффективных оценок. Мы видели, что существуют они далеко не всегда, а найти их удается лишь когда функция правдоподобия имеет специальный вид или когда мы знаем в явном виде полную достаточную статистику (первое из этих условий часто влечет за собой второе (см. §25)). Перейдем теперь к построению асимптотически оптимальных оценок. Здесь условия их существования будут значительно более широкими. Соответствующие результаты будут опираться прежде всего на асимптотические свойства функции ОД = %^ =exp{L(X,0 + u) -L(X,0)}, (I) η где, как и раньше, Σ(Χ,Θ) = Υ^/(χ;,0). Число Θ в (1), как правило, будет считаться фиксированным и представлять собой истинное значение параметра, т.е. такое, что X ^ Р#. В этом случае Z(u) есть функция двух переменных и и X и, стало быть, вместе с функцией правдоподобия fo+u(X) будет случайной функцией переменного и. Функцию Z(u) будем называть отношением правдоподобия, она играет важную роль в математической статистике. Основная задача этого и следующего параграфов — изучить свойства Ζ (и). Будет установлено, что Z(u) близко к нулю вне окрестности точки и = 0. В окрестности этой точки Z(u) сближается в известном смысле с дельта- функцией, точнее, Z(v/y/n) сближается асимптотически при η —> оо с функцией плотности нормального закона. В § 33, 34 будем рассматривать лишь одномерный случай. Случай многомерного параметра будет рассмотрен отдельно в § 36. Важную роль в последующих оценках будет играть расстояние Хеллин- гера r{u) = p(P,+u,P,) = J{y/f9+u{x) - у/Ш)^(ах) между распределениями Ρθ+u и FV Оно рассматривалось нами в §31. Напомним, что 0 < г(и) = 2 (1 - j ^/θ^(χ)/θ(χ)μ{άχ)\ < 2, так что Е //e+u(xi) [ ic ,_w ,_, ..,„_, , г {и) Λ(χι) = / ^ίθ+η{χ)ίθ{χ)μ{άχ) = 1 - Τ-ψ, (2) *Z*(«)=(l-^)". (3)
244 Гл. 2. Теория оценивания неизвестных параметров Относительно параметрического семейства {Р#} будем предполагать в этом и последующих параграфах, что наряду с (Αμ) выполнены условия (Ао) {/θι(χ) Φ ίθ2{χ) nPu 01 Φ 02) w (Ac) (Θ есть компакт). Несущественность с точки зрения приложений последнего условия мы уже отмечали. Это связано с тем, что в реальных задачах из априорных соображений обычно бывает возможно указать границы возможных значений Θ. Для простоты там, где это потребуется, будем предполагать также, что Θ выпукло (в одномерном случае это означает, что Θ = [α, 6], —оо < a <b < оо). Кроме того, в этом параграфе будем предполагать, что функция у/Jq дифференцируема для п. β. [μ] значений х, а информация Фишера rim [<J№L ич π (ЯМУ строго положительна и ограничена в Θ (это есть условие (R) без свойства непрерывности). При этих условиях в теореме 31.3 было доказано, что при всех допустимых θ и θ + u (т.е. таких, что θ £ Θ, θ + u Ε θ) для величины r(u) = p(P0+u,Pfl) справедливо неравенство inf^^ff>0. (4) 0,u U2· 1. Основные неравенства. Обозначим для краткости р(и) = Z*/*(u) и будем считать, что все перечисленные выше условия выполнены. Теорема 1. Справедливы неравенства ΈθΖιΙ2{η) < е"п^2/2, Еер{и) < е"п^2/4, о t (5) Е9\р'(и)\ < -^/п1{в + и)е-^и21\ Из рассмотрений § 31 следует, что для значений и = о(1) вместо g в этих неравенствах можно брать значения, сколь угодно близкие к 7(0)/4. Доказательство. Имеем в силу (3), (4) ΈΘΖι'2{η) = (1 - т{и)/2)п ^ е-пг^12 ^ е"п^2/2. Далее, в силу неравенства Коши-Буняковского Евр(и) < [ΈθΖ^2(η) · EeZ(u)}V2 = [ΕβΖ1/2(«)]1/2 ^ «.-«'η*/^ Используя снова неравенство Коши-Буняковского и соотношение j/(ti) = |Ll(X>e + ti)Z3/4(ti)l находим Ев\р'(и)\ = ^Ев\Ь'(Х,9 + и)\г^2(и)г^(и) < < \ШЬ'{Х,θ + u)]2Z(u) ■ Έ,θΖχ/2{η)γΙ2 < ^ l[Ee+u[L'(X, θ + η)}ψ2β-η4^. <
§ 33, Вспомогательные неравенства. Свойства о. м. я. 245 Теорема 2. При всех ζ, п^ 1 Р9( sup Z (^=) > ez) ζ ce-3*/Vu2*/4, \\v\2u \Vn/ J где с = 1 + Зу/lo/g, h = sup Ι(θ) om θ не зависят. Для доказательства теоремы нам понадобится Лемма 1. При всех χ ^ О 00 /V^d^v^e-*2/2. Доказательство*). Характеристическая функция случайной величины ξ €= Фод равна Ее1^ = е*"' /2 и определена во всей плоскости. Полагая t = —га;, получим Ее3* = ех /2. Отсюда с помощью неравенства Чебышева получаем Ρ{ξ >х) = Р{е*х > е*2) ^ е-^Ее** = е"*2/2. < Доказательство теоремы 2. Оценим функцию #(ί) = Efl supp(i;). Если ΐϋ € [б + ί,6], то w-θ ъ-θ ρ(<ιν-θ)=ρ{δ)+ J p'{u)du^p(S)+ I \p'{u)\du. δ δ Так как правая часть здесь от w не зависит, то supp(u) ζρ(δ)+ / \p\u)\du, η^δ J 4>δ Η+{δ) = Εθsupp{u) ^ Εθρ{δ) + / Ee\p'{u)\du. η>.δ J η>δ *) При больших χ более точными являются следующие неравенства: х + 1 J χ χ которые читатель без труда может получить, сравнив производные рассматриваемых функций (значения самих функций при χ = оо совпадают).
246 Гл. 2. Теория оценивания неизвестных параметров В силу теоремы 1 отсюда получаем Η+{δ) < e-n9i2/4 + jV" f yJl{e + u)e-n9u2'Adu. На основании леммы 1 Η+(δ) < e-"^2/4 + |^fQ J e-ngu>/4 du «. v^6y/ng/2 Ясно, что точно такая же оценка будет справедлива для функции #_ (δ) — sup p(u). Поэтому Я(5) <тах(Я+(*),Я_(*)) < (l + 3*№) &~η^Ι\ Остается воспользоваться неравенством Чебышева P*(sup Z(t) > ez) = P,(supp(t) > е3г/4) < Я (£)е"3г/4. < 2. Оценки для распределения и моментов о. м. п. Состоятельность о. м. п. Теорема 3. Существуют значения с < со, д > 0 такие, что Р*(\/^|0*-0|^Ксе-^2/4 (6) <λ/υι всея г; « η ^ 1. Доказательство. Из теоремы 2 вытекает, что Р,( sup Ζ(ί) > 1) < ce~^l\ Остается воспользоваться соотношением {\θ* - θ\ > δ} = {sup Z(t) > sup Z(t)} С {sup Z(t) > Z(0) - 1} (7) Ш* IW l*l£* при £ = v/y/n. < Следствие 1. Пусть un —> оо — любая неограниченно возрастающая последовательность. Тогда (^-^ίν°· (8)
§ 33. Вспомогательные неравенства. Свойства о. м. л. 247 Если же ип таковы, что при любом а > О 2>~QU"<°°' (9) то {θ*-θ)^—>0. (10) Un п.н. Эти соотношения являются, очевидно, усилениями соответственно состо- ятельности (Θ* — θ —> 0) и сильной состоятельности (Θ* — б —> 0) о. м. п. Ρ п.н. Доказательство. Соотношение (8) следует непосредственно из (6), если в последнем положить ν = 6ип. Соотношение (10) также вытекает из (6), так как сумма правых частей в (6) при выполнении (9) будет образовывать сходящийся ряд. <] Например, даже такая медленно растущая последовательность, как ип = = Inn, удовлетворяет условию (9), так что*) \ПП п.н. Следствие 2. Существует значение с\ < оо, не зависящее от п, 0, такое, что при любом а ^ д/Ъ Ебехр{а(и*)2}<С1, (11) где и* = у/п{9*-в). Доказательство. Интегрируя по частям, получаем оо оо Εβαξ2 = - / еау2 άΡ{\ξ\ >ν) = 1 + 2α ί νβαν2Ρ{\ξ\ > ν) dv. о о Поэтому в силу теоремы 3 00 еИ°2 < 1 + ψίνβ"^20 dv = Cl<oo. < о 3. Асимптотическая нормальность. Доказательство асимптотической нормальности о. м. п., как мы видели в § 14, 16, требует более сильных, чем (R), условий регулярности. Обозначим эти условия символом (RR), чтобы отметить таким способом, что это есть условия регулярности и что они усиливают условия (R). Условия (RR). 1. Выполнены условия (Aq), (Ac), (R). *) Из замечания 34.2 будет следовать, что (10) справедливо и для еще более медленно растущих ип>
248 Гл. 2. Теория оценивания неизвестных параметров 2. Функция 1(χ,θ) для η. β. [μ] значений χ дважды непрерывно дифференцируема по Θ. Функция \lff(x,t)\ мажорируется функцией ί(#), не зависящей от t: \lf/(x,t)\ < /(#), для которой Et> i(xi) = ί 1{χ)Μχ)μ{άχ) < ос. (12) 3. Законно дифференцирование по θ под знаком интеграла в равенствах J /θ(χ)μ(άχ) = 1, Ιϊ(χ,θ)Μχ)μ(άχ)=0. Свойство 3 вместе с равенствами (аргументы для краткости опускаем) '-f 4-(ff означает, что Е/(хь0) = 0, Е/'(хь0) = -E6(/'(xi,^))2 = -Ι(Θ). Условие о единственности решения t = θ уравнения (относительно t) ι ΐ{χ:ί)/θ{χ)μ{άχ) = 0 здесь не требуется, так как состоятельность в силу следствия 1 уже установлена (см. условие d) в теореме 16.3). Как увидим ниже, условие 3 является излишним, если потребовать, чтобы интеграл (12) сходился равномерно (см. §34 и приложение V). Условия (RR), по-видимому, завышены для последующих утверждений; см. об этом ниже замечание 34.3. Напомним основной результат п. 16.3. Теорема 4. При выполнении условий (RR) (Θ* - 0)Vn = ξηΓ^ΘΚΐ + εη(Χ,θ)), где ξη = ^^ ©► Фо,/(*), εη(Χ, θ) -f 0. Это утверждение можно дополнить следующим образом. Теорема 5. Сходимость г? = (&-в)у/И&Ф0г1-чв) (13) имеет место вместе с моментами любого порядка, т. е. вместе с (13) при любом к > 0 выполняется Efl(u*)*-► Вт;*, ^Φ0ι/-ΐ(ί). (14) Более того, для любой непрерывной функции w(t) такой, что \w(t)\ < < е*<2/б (см. 4)), Eew(u*) -> Его (η), η Φ Φ0,/-ΐ(β)· (15)
§ 33. Вспомогательные неравенства. Свойства о. м. я. 249 Доказательство. Соотношения (14), (15) получаются из (13) и теоремы непрерывности для моментов (см. §5), так как в силу следствия 2 W/e(«*)<E*«p{^} < с < оо. <! Замечание 1. Из (13), (14) вытекает, что Θ* принадлежит классу оце- нок ЛГф,2? в котором сходимость (Θ* — 9)у/п €= Φο,σ2(0) имеет место вместе со сходимостью Ε#(0* — б)2 -* σ2(θ) двух первых моментов. Как уже отмечалось в § 18, в этом классе асимптотический подход к сравнению оценок совпадает по существу со среднеквадратическим. Установим теперь один из центральных результатов этой главы, состоящий в том, что о. м. п. при выполнении условий (RR) обладает всеми возможными свойствами асимптотической оптимальности, которые мы рассматривали выше, т.е. является а. э., асимптотически байесовской (для любого априорного распределения, имеющего плотность) и асимптотически минимаксной оценкой одновременно. Асимптотическая эффективность М-оценок в классе Км оценок была доказана в § 16. 4. Асимптотическая эффективность. В §26 мы ввели в рассмотрение класс Ко асимптотически несмещенных оценок, т.е. оценок 0*, смещение которых Ъ{9) = Έβθ* — θ обладает свойствами b(0) = o(-j=y 1/(0) = о(1). (16) В § 30 были приведены соображения, по которым в поисках асимптотически эффективных «в целом» оценок можно ограничиться классом Kq. Установим теперь следующий факт. Следствие 3. Справедливо θ* Ε Ко· Доказательство. Первое из соотношений (16) вытекает из (14) при к = 1. Чтобы доказать второе, заметим, что (см. § 26) 1 +Ь\в) = Е0в*Ь'(Х,в) = Εθ(θ* - Θ)Σ,'{Χ,Θ) = = Е,((0* - θ)^ξη) = Е*щ(! + *η(-Μ)), εη(Χ,θ)—*0. п.н. Если здесь верна теорема непрерывности для моментов, получим отсюда требуемое соотношение 1 4- Ъ'{9) —у 1 или, что то же, У (Θ) —>> 0. Чтобы установить справедливость этой теоремы в нашем случае, достаточно убедиться (см. §5), что Έθ\{θ*-θ)^ξηγΙ2<ο<οο, (17)
250 Гл. 2. Теория оценивания неизвестных параметров где с от η не зависит. Воспользуемся неравенством Гёльдера Ρ Q при г = 3/2, ρ = 4, q = 4/3. Получим тогда для левой части (17) оценку (Eq[(9* — 0)у/п]6)1^[Щ^) ' , которая в силу (13) дает нам требуемое неравенство. < Следующее следствие ввиду его важности сформулируем в виде теоремы. Теорема 6. О.м.п. Θ* является a.R-э. оценкой. Кроме того, Θ* является а.э. в Kq. ^+* Доказательство. Тот факт, что Θ* есть а.R-в. оценка, следует непосредственно из определения 26.1 и того, что т? (в* т2 1+°(1) Εθ{θ ~θ) =~^W Асимптотическая эффективность в Kq следует из теоремы 26.3. < Теорема 2 вместе с замечаниями к теореме 26.3 означает, что при выполнении условий (RR) любая а. э. оценка в Kq будет а. Д-э. оценкой. Отметим, что сужение множества рассматриваемых оценок до Kq — да- ^+* леко не единственное сужение, при котором Θ* становится а. э. Укажем другое сужение, связанное на этот раз со свойством θ быть асимптотической медианой распределения а. н. оценок, т. е. со свойством Р*(0* > В) -> \ (18) при η —>· сю. Обозначим через К° класс оценок 0*, для которых (18) выполняется равномерно по Θ. Класс К0 можно было бы назвать классом асимптотически центральных оценок. Теорема 7. О.м.п. θ* Ε К0 и является а.э. оценкой в классе К0. Доказательство этой теоремы мы отложим до п. 37.3 и 43.5. 5. Асимптотическая байесовость о.м.п. В этом пункте всюду, где будет предполагаться существование плотности q(t) априорного распределения Q относительно меры Лебега на Θ, будем предполагать также, не оговаривая это особо, что плотность интегрируема по Риману, так что будут удовлетворяться условия теоремы 30.5. Теорема 8. О.м.п. Θ* является асимптотически R-байесовской оценкой. Если Q есть произвольное априорное распределение, имеющее плотность q(t) относительно меры Лебега, то Θ* является также и асимптотически байесовской оценкой, соответствующей распределению Q.
§ 34. Дальнейшие свойства оптимальности о. м. п. 251 Доказательство. Асимптотическая Д-байесовость о.м.п. следует из соотношений lim Е[у/п(в* - θ)]2 = lim EE0U/nt<r - θ)]2 = n->oo n->oo = Ε lim Ee[Vn (^ - Θ)}2 = E/"1^) = J n—>oo Предельный переход под знаком математического ожидания здесь законен по теореме о мажорируемой сходимости, так как в силу следствия 2 значение Ед[у/п(9* — Θ)]2 равномерно ограничено постоянной, не зависящей от η и Θ. Асимптотическая байесовость вытекает из следствия 30.1. < Из замечаний к следствию 30.1 и теоремы 8 следует, что любая асимптотически байесовская оценка является асимптотически Д-байесовской. Утверждение теоремы 8 можно усилить. Оказывается, что о. м. п. и байесовская оценка для любой априорной плотности q «почти» совпадают. Теорема 9. Справедливы соотношения Εη(θ* - e*Qf -> 0, (fl£ - 0*)v^ -у 0, где 6q есть байесовская оценка, соответствующая распределению Q; сходимость по вероятности понимается относительно совместного распределения X и θ на Χ χ Θ. Теорема 9 немедленно вытекает из следствия 30.2. Ее утверждение эквивалентно тому, что для почти всех t Etn{e*-e*Q)2->0. § 34. Асимптотические свойства отношения правдоподобия. Дальнейшие свойства оптимальности о.м.п. В предыдущем параграфе нами были изучены свойства отношения правдоподобия Z(u) вне окрестности точки и = 0. Теперь рассмотрим поведение Z(u) в окрестности этой точки. Как и в п. 3 предыдущего параграфа, будем предполагать, что выполнены условия (RR). Из полученных ниже результатов будет следовать, в частности, уже доказанная нами асимптотическая нормальность о. м. п. Θ*. Мы приведем доказательство этого факта в таком виде, который позволяет без труда переносить его на многомерный случай. Некоторые из последующих утверждений повторяют отчасти рассуждения § 14. Нам понадобятся соотношения Е/(хь0)=О, (1) Е/'(хь0) = -Εβ(Ζ'(χι,0))2 = -Ι(θ), (2) вытекающие из условий (RR), и следующая
252 Гл. 2. Теория оценивания неизвестных параметров Лемма 1. Если выполнены условия (RR), то имеет место непрерывность 1"(χ,θ) «β среднем» в следующем смысле: Ε^(χι) = J ω%{χ)}θ{χ)μ{άχ) -> О при Δ —> О, где и>^{х) — модуль непрерывности функции 1"(χ,θ): ω^{χ) = sup \1"(χ,θ + η)-1"{ζ,θ)\. вее,в+иее (3) (4) Доказательство. В силу теоремы о мажорируемой сходимости соотношение (3) будет следствием обычной непрерывности Ζ", так как в этом случае ш'^(х) —>· 0 для п.в. [μ] значений χ при Δ —>· 0 и, кроме того, \ω^(χ)\^21(χ). < Положим \L'{X,0 + v)-L'{X,e) 7η(Δ, θ) = sup |ν|ζΔ ην + Щ Лемма 2. Пусть выполнены условия (RR), δη > О, η = 1,2,..., есть любая последовательность, сходящаяся к нулю. Тогда для любого θ Ε Θ и для Χ €= Ρ# Ίη(δη,θ)—>0, 7η(<*η,0*)—+ 0. Π.Η. Π.Η. Β smwa; соотношениях Ι(θ) можно заменить на I{θ*) и наоборот. Доказательство. Докажем сначала первое утверждение. Так как Eel' (χι,θ) = —Ι{θ), L"(X,0)/n —> —I{Θ), то нам достаточно убедиться, что 7п(<5п) -* 0, где \1'(Χ,θ + ν)-Ι,'{Χ}θ) L"{X,0)\ 7η(Δ) = sup \vKA ην η Но 7n(*nK sup VW + u)-L"(X,0)|^£^^^ η г=1 где с^д(х) означает модуль непрерывности ί"(χ,0), определенный в (4). Очевидно, что для любого фиксированного Δ > 0 при достаточно больших η й?1(х)<й>ых). Кроме того, по усиленному закону больших чисел ωΙ(Χ)τ^Έθω4(χ1)=ωΙ. В силу леммы 1 о>д —> 0 при Δ -» 0. Отсюда следует, что =№т?0. (5)
§ 34. Дальнейшие свойства оптимальности о. м. л. 253 Первое утверждение доказано. Из (5) и определения п. н. сходимости следует, что наряду с (5) для любой последовательности случайных величин ηη —> 0. Нам остается п.н. sup Μ<δη L'{X,e* + v)-L'{X,(l·) L"{X,0) ην η < *L+p-*\W- ^ и воспользоваться следствием 33.1. Возможность замены 7(0) на Ι(θ*) также вытекает из следствия 33.1 (и непрерывности Ι(θ)). < Мы можем теперь сформулировать основные утверждения об асимптотическом поведении отношения правдоподобия Z(t). Положим и условимся обозначать через εη(Χ, θ) (иногда с дополнительными индексами) различные последовательности случайных величин, п. н. сходящиеся к нулю относительно распределения Р# выборки Х^. Теорема 1. Пусть выполнены условия (RR), δη > 0 есть произвольная последовательность, сходящаяся к нулю. Тогда при \и/у/п\ < δη У (и) = ηξη - ^Ι(θ)(1 + εη(Χ,θ,η)), (7) где |ε„(Χ,Μ)| < εη{Χ,θ) ^ 0, ξη = ^{Χ,θ) @> Φ0,/(*)· Точка u* = (θ* — 9)у/п, в которой Y(u) достигает максимального значения, обладает свойствами "* = щ(1 + *п (*,*)), (8) 2Y(u*) = 21ηΖ(θ* -θ) = ^(1 + εη(Χ,θ)) @> Ηχ. (9) Наряду с (7) справедливо представление Y(u)=Y(u*) - {и~и*)21(в)(1 + еп(ХАи)), \εη(Χ,θ,η)\<εη(Χ,θ). Во всех приведенных утверждениях Ι(θ) можно заменить на ΐ(θ*).
254 Гл. 2. Теория оценивания неизвестных параметров В этой теореме, как и в лемме 2, предполагается, что θ + uy/n Ε θ. Это соотношение будет автоматически выполнено при достаточно больших п5 если θ — внутренняя точка Θ. Замечание 1. Важно отметить, что в (7) случайные величины ξη и εη(-Χ", θ) от и не зависят. Поэтому первое утверждение теоремы можно записать в виде „2 sup \η\ζδη\/η Υ(η)-ηξη + γΙ(θ) 0. Если δη таково, что Σ е-пд&ЦА < 00) (И) из теоремы 33.2 следует, что в дополнительной области |и| > δη\/η sup Y{u) —00. |u|>i„Vn Доказательство теоремы 1. Из леммы 2 при |υ| ^ δη получаем L'(X,0 + υ) = L'(X,0) - ηυΙ(θ)(1 + εη(Χ,θ,υ)), \εη(Χ,θ,ν)\ζεη(Χ,θ). Интегрируя это равенство по υ в пределах от нуля до u/y/n, находим L[X, :,θ + -^=) - L(X,θ) = -^=uL'{X,θ) - ^-Ι(θ)(1 + εη(Χ,θ,u)), \εη(Χ,θ,η)\ζεη(Χ,θ). (12) Это есть, очевидно, разложение в ряд Тейлора, в котором Ь"(Х,9)/п заменено на —/(б), а остаточный член допускает равномерную оценку. Так как у/71 y/ΐΐ ^—' есть сумма независимых одинаково распределенных случайных величин с нулевым средним и дисперсией Ι(θ) (см. (2)), то по центральной предельной теореме ξη ©► Фо,/(0)· Представление (7) доказано. Чтобы доказать (8), вернемся к лемме 2. Она означает, что существует множество Л, Έ*#(Α) — 1, такое, что для Xqq Ei, η —> оо sup \ν\<δη L'{X,e + v)-L'{X,e) ην +m 0. (13) Кроме того, в силу следствия 33.1 существуют последовательность un —> оо, ν>η/\/η Ξ 7η —> 0 (un должна удовлетворять (33.9)) и множество 5, Р#(.В) = = 1, такие, что для Xqq G5, η —> оо ν* = (θ*-θ) = ο(Ίη). (14)
§ 34. Дальнейшие свойства оптимальности о. м. п. 255 Так как последовательность δη —> 0 в (13) произвольна, то при -Xqq Ε АПВ, P#(j4 Π S) = 1, в силу (14) величина под знаком sup в (13) в точке ν = ν* будет сходиться к нулю. Вспоминая, что L'(X,θ + ν*) = Lf(X,0*) = 0, получим для -Хоо £ Α Π β ад-^> п(0* - Θ) 0. Это означает, что ξη — 1{θ)η* — ιι*εη(Χ,θ), и доказывает (8). Пользуясь теми же аргументами, можно подставить „ = и* = У*уД = (Θ* - в)у/^ = Щ(1 + Ζη(Χ, Θ)) в (12). Это дает L(X,9*)-L(X,0) = JL(i + En(X,e)) и доказывает первую часть соотношения (9). Сходимость распределений ξ^/Ι(θ) к распределению χ2 с одной степенью свободы следует из теорем непрерывности, так как ξη/\//(0) ©► Φο,ι- Соотношение (10) доказывается совершенно аналогично (7), если воспользоваться вторым утверждением леммы 2 и найти на его основе предста- вление для L(X,0 + Uy/n) — L(X,0*). < Замечание 2. Соотношение (8) позволяет также точно описать «максимальные уклонения» (Θ* — 6)у/п при η —> оо. Именно, известно, (см. [17, 72, 137]), что нормированные суммы ξη независимых одинаково распределенных величин с нулевым средним и дисперсией Ι(θ) удовлетворяют закону повторного логарифма в силу которого Ρ (limsup-7=JM = 1 j = 1. \ n^oo y/2I{0)ln\nn J Так как в (4) limsupen^,θ) = 0 п.н., то получаем, что П-*00 Ро hmsup , — = 1=1. γ n-юо V 2 In In П / Замечание 3. На языке распределений первое утверждение теоремы 1 можно сформулировать следующим образом: Υ (и) ©> Ф-.и*Цв)/2,иЧ(в)' (15) Мы отмечали выше, что второе условие (RR) (о существовании /"(ж,0)) не всегда существенно для доказываемых утверждений. В несущественности этого условия для сходимости (15) можно убедиться путем следующих рассуждений. Величина У» = L (х,в+-^Л-ЦХ,в) = £ \l (хг,0+ -jA -/(*,*) г=1
256 Гл. 2. Теория оценивания неизвестных параметров есть сумма независимых одинаково распределенных величин. Поэтому по центральной предельной теореме для схемы серий (слагаемые зависят от п, проверку условий Линдеберга опускаем) Υ (и) ^ Фв(щ)^(«), где a(u) = lim ηΈ$ 1\хи9 + -т=) -/(хь0) = цт „в,in W(*> = _u2 lim Pi(P>,P>fA) = _Н!М "->°° Λ(χι) Δ^° Δ2 2 (см. теорему 31.2 и замечание 31.1). Далее σ (ή) = lim nEg 71—ΪΟΟ /(χι,0 + ^)-/(χι,0)1 = ti2 lim Δ->0 / Ι(ζ,θ + Δ)-Ι(χ,θ) /θ(χ)μ(άχ) = = u2 [(Ι'(χ,θ))2/Θ(χ)μ(άχ)=η21(θ). Если бы при вычислении α (ti) и σ2(^) мы воспользовались разложением 1{χ,θ + u/y/η) в ряд с двумя производными, то получили бы тот же результат. Однако мы убедились, что это делать не обязательно. В заключение этого параграфа получим из теоремы 1 еще одно полезное следствие, которое потребуется в дальнейшем и которое касается поведения интегралов от отношения правдоподобия. Теорема 2. Пусть выполнены условия (RR), функция w(t) удовлетворяет условию \w{t)\^ceaM\ с<оо, а = ^ (д > 0 определено в §31), а функция q(t) непрерывна в точке t = θ и ограничена. Пусть, кроме того, Π — любая мера на (R, 03) такая, что J е-аН2/4П(А*) <оо. Тогда если θ — внутрення точка Θ и X ^ Р#, то JS/«<«--«)g(*+^)z(^)n(*0- = eY^q{9) Г /"ш(и* -^-(V^Mf/Wnj^) + εη(Χ,0)1 . (16) 5 частности, если Π есть л«ера Лебега, U(du) = c?u, то J = / 2π 7(0) ey(u*)a(0)(E™(r?) + £n(*,0)), где εη(Χ,0) —► 0, r/ e *ο,/-ΐ(*)·
§ 34. Дальнейшие свойства оптимальности о. м. л. 257 Утверждение (16) весьма естественно, так как множитель q{9 + u/y/n) «почти постоянен», а функция Ζ(u/y/n) = eY^ сближается с точностью до постоянного множителя по теореме 1 с плотностью нормального распределения. Доказательство. Чтобы упростить запись, ограничимся рассмотрением случая, когда Π есть мера Лебега. Переход к общему случаю никаких затруднений не вызывает. Оценим сначала часть интеграла (16) по области \и\ > г. Обозначим ее через J(r). Так как fe(X)/f^(X) ^ 1, то, полагая для краткости Ζ — = Z{u*/y/n) = ey(u*), t = θ + u/y/n, получим z~lzШ=Щ^(Ш)) *zmШ' Поэтому в силу неравенства Коши-Буняковского, теоремы 33.1 и следствия 33.2 EBw{u*-u)Z-lZ (уЛ ζ [Е9т2{у/й{в* - t))E9Z^2 (4=)] ζ «Γ*2*/4. Так как maxg(£) < оо, то отсюда и из леммы 33.1 находим EoZ-lJ{r)^ce-9r2l\ Пользуясь неравенством Чебышева, получим оценки того же порядка и для P$(Z~l J (г) > δ). Поэтому если г = гп —> оо так, что £е-г^4<оо, (17) то при у ^ гп Z~lJ{y) -^ о. (18) Выберем тп — о(у/п) и рассмотрим оставшуюся часть V(y) =· J — J(y) интеграла J при у = 2rn. По теореме 1 Z^V{2r) = Z^1 ί q(e+^)w{u*-u)z(-^j du = \u\<2rn = Γ (g(0)+en(u)Mtz*-u)^^ \u\<2rn где |εη(^)| < εη —* 0, \εη(Χ,θ,u)\ ^ εη(Χ,θ) —> 0 при η —* оо. Поэтому в силу (18) для доказательства теоремы нам достаточно убедиться в близости
258 Гл. 2. Теория оценивания неизвестных параметров интегралов J w(u* - и) ехр { -J(u ~ п*)2/(0)(1 + ε^Χι θ>и))} du> \u\<2rn Jj^Ewfr) = jw(u* - и) ехр |-±(u - η*)2Ι(θ)\ du. В силу (17) и следствия 33.1 существует множество А, Р#(А) = 1, такое, что \и*\ ^ т*п Для ^оо € А при всех достаточно больших η = η(Χοο). Так как Ι(θ) > g, |u — гх*|2 > гх2/2 при |it| > 2rn, |u*| < rn, то на множестве А (см. лемму 33.1) ί w{u* - и) ехр \-\(и ~ и*)2Щ\ du < се"9** ~> 0. Поэтому нам остается оценить ί ^*-Ti)|exp|-i(Ti-Ti*)2/(0)(l + 6n(X,0,Ti))|- \u\<2rn - ехр j --(и - η*)2Ι{θ) \\du^ fw{v)\βχρί~ν2Ι{θ){1 + εη{Χ,θ,ν + η*))\ - expi-^v2I{9)\\dv. Но этот интеграл сходится на множестве АВ к нулю, где В = {Хоо : εη(Χ,θ) -» 0}, P#(i?) = 1. Это следует из сходимости к нулю при каждом ν подынтегральной функции и того, что она мажорируется интегрируемой функцией. < Мы можем усилить теперь утверждение теоремы 33.9. Теорема 3. Пусть θ — произвольная внутренняя точка Θ, Χ ^ Р#. Пусть, далее, q(t) — произвольная непрерывная и положительная внутри Θ плотность априорного распределения. Тогда у/п (θ* — 9q) —> 0. Доказательство следует из теоремы 2. Действительно, fl. fr_f(t-e*)q(t)ft(X)dt « fq(t)ft(X)dt ■ Делая замену переменных t = θ + и/у/п и деля числитель и знаменатель в этом выражении на f${X), получим θ* _$* = /(" ~ и*Мв + u/\fo)Z{u/y/H) du Q y/n$q{e + u/y/n)Z{u/>fn)du
§ 34. Дальнейшие свойства оптимальности о. м. п. 259 Надо воспользоваться теперь теоремой 2 при w(t) = t и w(t) = 1. Так как в первом случае Έχυ(η) = Ет/ = 0, то мы получаем г & = Щ&, £п(х,в)->о. < 4 у/п п.н. Имеет место также асимптотическая минимаксность о. м. п. Чтобы установить этот факт, нам будет удобнее пользоваться несколько иной формой условий (RR) (см. §33). В новой версии (RR^) этих условий будет отсутствовать свойство 3, а интеграл (33.12) будет предполагаться сходящимся равномерно по Θ. Приведем полностью эту новую версию условий (RR). Условия (RRu). 1. Выполнены условия (Ао), (Ас), (R). 2. Функция Ι(χ,θ) для η. β. [μ] значений χ дважды непрерывно дифференцируема по Θ. Функция \lf/(x^t)\ мажорируется функцией /(ж), не зависящей от t: |//7(χ,ί)| < /(χ), для которой интеграл Ei jj(xi) = / 1{χ)/ι{χ)μ{άχ) сходится равномерно по t Ε Θ*). Под равномерной сходимостью интеграла мы понимаем сходимость**) sup / 1(χ)/β(χ)μ(άχ) -¥ О θ J x:\l(x)\>N при Ν —> οο. В дальнейшем нам понадобятся следующие два свойства, вытекающие из (RRu). *) Все последующее изложение полностью сохранится, если условие о существовании мажоранты ослабить следующим образом: область θ может быть покрыта конечным числом областей θι,...,θβ так, что при θ 6 θ; функция \1"(χ,θ)\ мажорируется функцией ί(;)(ζ), не зависящей от Θ: |/"(я,0)| < /(;)(я), для которой интеграл Ε*Ό)(χΟ = J Ιω(χ)ίβ(χ)μ(άχ) сходится равномерно по θ £ Bj, j = 1,..., s. **) Такое понимание равномерной сходимости находится в согласии с равномерной сходимостью, использовавшейся в теореме 5.4 — там оно относилось к функции 1(х) = х. В то же время это не есть равномерная сходимость / φ(χ,θ)μ(άχ) при φ(χ,θ) = l(x)fe(x), когда предполагается, что при N —► со sup / φ(χ, θ)μ(άχ) -+ 0. θ J Χ:\φ{*,9)\>Ν
260 Гл. 2. Теория оценивания неизвестных параметров 1. Законность двойного дифференцирования по параметру под знаком интеграла в равенстве Ι /θ(χ)μ{άχ) = 1, означающая справедливость соотношений j ί'θ{χ)μ{άχ) = 0, J /2(χ)μ(άχ) = 0. 2. Равномерная сходимость интеграла Ι(θ) = Ι(1'(χ,θ))2ίθ(χ)μ(άχ). (Это свойство вытекает из (R) и понадобится в §37.) Чтобы разгрузить основное изложение, доказательство этих следствий условий (RRu) отнесено в приложение V. Для большинства утверждений этого параграфа безразлично, какой версией условий (RR) пользоваться: они будут справедливы при выполнении хотя бы одного из этих условий, при этом доказательства останутся прежними. Поэтому под (RR) мы можем понимать любую версию этих условий. Однако в утверждениях, связанных со свойством минимаксности, нам нужно будет условие (RRu). Теорема 4. При выполнении (RR^) о.м.п. Θ* является асимптотически минимаксной оценкой. Эта теорема выводится непосредственно из следствия 30.3 и следующего утверждения. Лемма 3. Справедливо равенство lim supEen(e* - θ)2 = sup/_1(0), n-foo ееГ ееГ где Г — любой отрезок, лежащий внутри Θ. Лемма 3 вытекает из равномерной по θ сходимости (33.14). Равномерность будет доказана в §37 (см. п. 37.3). В дальнейшем под (RR) будем понимать любой из двух приведенных выше вариантов этих условий. (В теореме 4 приложения V будет доказано, что условия (RRu) влекут за собой (RR).) В утверждениях, связанных с минимаксностью о.м.п., под (RR) будем понимать (RRu). § 35/ Приближенное вычисление оценок максимального правдоподобия Мы видели, что в задачах оценивания параметров наибольший интерес представляют эффективные и а. э. оценки, каковыми часто являются о. м. п. Возникает вопрос о практическом отыскании таких оценок. Отыскание точ- ^+* ного значения о.м.п. Θ* в реальных задачах может представлять значительные трудности. Особенно это относится к распределениям, не имеющим сравнительно простых достаточных статистик.
§ 35. Приближенное вычисление о. м. л. 261 С другой стороны, отыскание какой-нибудь а. н. оценки Θ* обычно трудностей не вызывает. Приведем здесь способ приближенного отыскания М-оценок и, в частности, о. м. п., используя в качестве исходной какую-нибудь состоятельную или а. н. оценку Θ*. С помощью Θ* будет построена оценка 0*, асимптотически эквивалентная о. м. п. и, стало быть, а. з. В основе этого способа лежит известный метод Ньютона (метод касательных) приближенного решения уравнения s(t) = 0, где s — некоторая непрерывно дифференцируемая функция. Напомним предварительно его суть. Пусть θ — решение уравнения s(t) = 0, и пусть в каждой точке ί мы можем вычислить значения s(t) и sf(t). Будем предполагать также, что s'(0) ^Ои что «исходное» для приближений значение ίο близко к θ и, стало быть, s'(io) φ 0. Тогда, обозначив Δ = ίο — #5 будем иметь s(0) = 0 = а(«0 - Δ) = s(t0) - As'{to) + ο(Δ), s{to) Поэтому если положить Δ + ο(Δ). то получим (1=у"°>^»-!щ· (1) ί1-β = £ί(ί0)-β = Δ--^=ο(Δ). Таким образом, применение к ίο преобразования U дает значение ίι, которое «на порядок» ближе к 0, чем ίο· Перейдем теперь к статистическим оценкам. Положим U(t) = t - L'{X,t){L"(X,t))~l, t e Θ, (2) £7ι(ί) = ί + L'{X,t){nI{t))-\ ί e Θ, где L(X, ί), как и прежде, логарифмическая функция правдоподобия. Теорема 1. Пусть выполнены условия (RR), X Ε Р# и Θ* — любая а. н. оценка: (Θ* - в)у/И θ- Ф0,аЦв)· Тогда оценка Θ* = U(9*) (или Θ* = Ui(0*)) будет асимптотически эквивалентной 0*, т. е. Доказательство теоремы будет опираться на следующую лемму. Лемма 1. Пусть выполнены условия (RR), X €= Р#, δη > 0 есть произвольная последовательность, сходящаяся к нулю. Тогда, если θη
262 Гл. 2» Теория оценивания неизвестных параметров таково, что \θη — θ\ ^ <$п, то υ(θη)-<Τ = (θη-θ*)εη(θηΑΧ), гдееп= max \εη(θη,θ,Χ)\—> 0. Θη·.\θη-Θ\<ζδηι Ре То dice самое утверждение будет справедливо, если вместо U использовать функцию U\. Другими словами, если пользоваться методом последовательных приближений к 0* и положить 0q = θη, θ* = U(9q) (или θ* = ί/ι(0ο))> τ0 β* — θ* — ο[ΘΙ — б*), так что приближение θ{ существенно лучше, чем 0q. Доказательство. Из рассмотрений §34 и непрерывности L" вытекает (см, например, лемму 34.1), что L'(-Mn) = (Θη-<Γ)1"(Χ,Θ), 1"(Χ,Θ) = -η(/(0) + <(*», *,*)), где б Ε [0η,0*]> max εήί^τυ^-Χ") —> 0 при любой последовательности θη'\θη— θ\ζδη Ρθ δη -> 0. Далее, £"(ΧΑ) = -η(/(0) + <#), где ε'ή, εη обладают тем же свойством, что и ε'η. Следовательно, Щ9п) -θ* = θη-θ*- L\X,en){L"{X,0n))-1 = = θη-θ*- {θη - θ*)(1 + εη) = (θη - θ*)εη. Доказательство для функции U\ проводится точно так же. <] Доказательство теоремы 1. Выберем какое-нибудь δη —> 0 такое, что 5пу/п —> оо, и представим (0J — в*)у/п в виде (υ(θ*) -θ*)^= \/^(θ* -θ*)εη(θ*,θ,Χ)Ι(1θ._ΘΚδη)+Γη, где rn φ О лишь на множестве Вп = {X : \θ* — θ\ > <Jn}, и в силу леммы 1 εη = max εη(£, 0, Χ)—)► 0. |t-*|<*n ft Так как, кроме того, P#(i?n) -4 0, то отсюда следует, что \θ{ - 0*|^ < л/^|0* - θ\εη + ν^|0* - θ\εη + τη —+ 0. <
§ 35. Приближенное вычисление о. м. л. 263 Теорема 1 показывает, что метод последовательных приближений, отправляясь от любой а. н. оценки, за один шаг приводит нас в точку Θ* с точностью до значений о(1/у/п). Однако при выполнении некоторых условий последовательные приближения можно начинать с произвольного значения £, принадлежащего некоторому множеству. Тогда можно за «небольшое» число итераций преобразования U(t)} определенного в (2), получить оценку, асимптотически эквивалентную о. м.п. Обратимся сначала к неслучайной функции s(t). Справедливо следующее вспомогательное предложение, которое поясняет суть дела. Пусть U(t) — преобразование, определенное в (1). Лемма 2. Пусть отрезок К = [ui,^] такое, что решение θ уравнения s(t) = 0 принадлежит К и при всех t€K выполняется s'(t) φ0 и г'«(г1Ь)<г2 (з) при некоторых г\ Ε (0,1), гг Ε (1,2). Тогда \U{t) - ί| < p\t - 0|, ρ = max (r2 - 1, 1 - η) < 1. (4) Значение θ неизвестно, и поэтому проверять условие (3), по-видимому, удобнее с помощью следующего более сильного достаточного условия: при всех ί, и Ε К s{t) - s{u) Γ1 < (t-uMt) < Г2· (5) Ясно также, что при достаточно малом отрезке К условие (3) всегда выполнено. Из леммы 2 следует, что если Uk(t) есть fc-я итерация преобразования U и все ТО \uW(t)-e\<pk\t-0\. Принадлежность U^(t) £ К будет всегда иметь место по крайней мере для одного из концов ui, ^2 отрезка К (для значения щ, ближайшего к 0; это проверяется по ходу вычислений). Доказательство леммы 2. Пусть для определенности t > 0, Δ = = t - 0. Тогда J7(i) - θ = Δ _ ΐΆ > Δ _ Γ2Δ = _(Γ2 _ ι)Δ, U{t)-θ ^Α-ηΑ = (1-η)Δ. Отсюда следует (4). Случай £ < θ рассматривается аналогично. < Из леммы 2 вытекает следующая рекомендация. Пусть с помощью оценки Θ* или априорных сведений нам удалось выделить отрезок К С Θ такой, что выполнено (5) для s(t) = L'(X,t). Тогда для одного из значений t = Tii или t = U2 все £/(*)(£) будут принадлежать К и будет иметь место
264 Гл. 2. Теория оценивания неизвестных параметров экспоненциальная сходимость U^(t) к θ (на самом деле сходимость будет еще более быстрой, так как при уменьшении К числа г\ и Г2 сближаются с единицей). Признаком, по которому следует прекратить итерации, является, очевидно, первое совпадение (в рамках принятой точности) значений £Λ*'(ί) H[/(fe+1)(i). Описанную процедуру можно применять и без предварительной проверки условия (5). Критерием того, что она привела к значению Θ* = U^k°\t) является совпадение U^k°\t) при всех к, начиная с некоторого ко (Lf(X^ U^(t)) = = 0; t — нулевое приближение), и неравенство В многомерном случае θ G R*, к > 1, дело обстоит аналогичным образом. Как и прежде, рассмотрим сначала соответствующую детерминированную задачу: найти приближенное решение θ системы уравнений Si(t) = 0, г = l,...,fc, для непрерывно дифференцируемой функции s(t) = (si(£)> · · -isk{t))- Здесь, полагая Δ = (Δι,..., Δ^) — t — 0, будем иметь 8i(9) = 0 = Si{t - Δ) = *(ί) - (A,gracU(i)) + ο(|Δ|). Предположим, что dets'(0) φ 0, где *'(*) = \\Sij(t)\\, ey(i) = ^. Тогда при малых Δ будем иметь также dets'(£) φ 0 и можно записать в векторной форме s(t) = Δβ'(ί) + ο(|Δ|), βίίΧβ'Μ)"1 = Δ + ο(Δ). Полагая аналогично предыдущему U{t)=t-8(t){s4t))-\ получим ί/(ί)-0 = Δ-5(ί)(5'(ί))-1=ο(|Δ|). Это дает возможность перенести на многомерный случай все основные результаты, полученные выше. В частности, сохраняет свою силу теорема 1, в которой в определениях (2) под L"(X,t) и I(t) следует понимать соответствующие матрицы. Пример 1. Классификация частиц. Рассмотрим источник, который излучает частицы двух типов: с вероятностью ρ — частицы типа А и с вероятностью 1 — ρ — частицы типа В. Энергия частиц случайна и имеет плотность /ι(χ) для частиц типа А и /2(2) для частиц типа В. Функции fi{x) известны. Зарегистрировано η частиц с энергиями χι,...,χη. Чему равна вероятность р? Функция правдоподобия здесь равна /рРО = ПШъ) + (ι -р)/2(х<)), t=l
§ 35. Приближенное вычисление о. м. п. 265 так что η /l(*i) ~ /г(х<) γ'(υ n\-V m*i)-m*i) (6) Мы видим, что отыскание о. м. п. р* приводит к уравнению V = 0 степени π - 1 относительно р, решать которое при больших η весьма сложно. Воспользуемся теоремой 1. Для этого нам нужна какая-нибудь а. н. оценка р*. Предположим, что / (Fi - F2)2 dx < оо, где Fi(x) = / fi(t)dti и рассмотрим следующий естественный подход. —оо Определим р* как значение, минимизирующее J'{F*(x) - F(x))2 dx, F(x)=pF1(x) + (l-p)F2(x). (7) Приравнивая нулю производную от (7), получим / (F* — F) (F\ — F2) dx = О, ,_f(FZ-F2)(F1-F2)dx Р f(Fi - F2)2 dx Оценка ρ* является, очевидно, М-оценкой. Нетрудно видеть, что Ер* = ρ и что <* ~ P)V" ~ №-F2ydx · {8) Из результатов §6-8 следует, что ρ* есть а. н. оценка, а предельное распределение (8) совпадает с распределением fw°(F{x)№-F2)dx ${Fx-F2Ydx ■ Следовательно, в силу теоремы 1 оценка pl=p*-L(X,p*)(L"(X,p*)r\ где V определено в (6), (/l(xi)-/2(xi))2 L" = -E (ρ/ι(χί) + (ΐ-ρ)Λ(χί)) ,U2'
266 Гл. 2. Теория оценивания неизвестных параметров будет асимптотически эквивалентной о. м. п. р*. Коэффициент рассеивания р\ будет определяться информацией /«-/: (Л(*)-/2(*))2 dx p/i(x) + (1-p)/2(x) и будет меньше, чем коэффициент рассеивания р*. Пример 2. Предлагаем читателю аналогичным образом найти приближение для о. м. п. параметра α распределения Коши Кад с плотностью тг(1 + (а;-а)2)' В качестве «предварительной» а. н. оценки можно взять выборочную медиану ζ* (см. § 12 или §3, 8; оценку α* = χ здесь брать нельзя, так как Εαα* не существует). Оценка -1 αΙ = ζ*-1'(Χ,ζ·)(Σ,»(Χ,ζ*)) где будет асимптотически эквивалентной о. м. п. а*. Так как /(q)-/(l^W)'d.-l/· *' * = 1 1 ' У *»,lW π У (l+x2)5dI 2' то коэффициенты рассеивания ζ* и α* будут равны соответственно (см. § 12) (й-Ы'-©'· /"w=2' ©2>2· Предлагаем читателю с помощью следствия 18.2 построить в явном виде другую оценку, асимптотически эквивалентную о. м. п. а* и являющуюся L-оценкой. Здесь в обозначениях следствия 18.2 будем иметь ПХ) = ^ГЬ)' F(X)=i-+1-vctgX, F-4t) = ig[*(t-\) 'W 1+X2' W (1 + χ2)2 · Пример З. Каждый человек имеет кровь, принадлежащую одной из четырех групп, которые обозначим через 0 (ноль), А, В, АВ. Наследование групп крови управляется тремя генами: А, В, 0, при этом ген 0 «подавляется» генами А и В. Поэтому если р, g и г — 1 — ρ — q обозначают вероятности появления генов А, В и 0 у родителей, то вероятности появления групп крови у потомка будут равны следующим величинам:
§ 35. Приближенное вычисление о. м. п. 267 Таблица 1 г (номер группы) 1 2 3 4 Группа 0 А В АВ Комбинации генов, дающие эту группу 00 АА, АО ВВ, ВО АВ Вероятности г2 р2 + 2рт q2 + 2qr ; 2pq j Пусть ζ/χ, ζ/2, ^з> Щ — частоты появления соответствующих групп крови в обследуемой популяции обшей численностью η человек. Как найти о. м. п. для ρ и q? В нашем случае вероятности рг(0), θ = (ρ, g), появления г-й группы крови и их частные производные по ρ и ς представлены в табл. 2. Таблица 2 р.(0) 5р dq г 1 г2 -2г -2г 2 р(р + 2г) 2г -2р 3 g(g + 2r) -ч 2т 4 2Р5 2<7 2р i 4 Поэтому для логарифмической функции правдоподобия L(X, 0)=У^ Щ \ир%(в) получим 51/ __ γ-ν Z^i $Рг __ 2ζ/ι 2ΓΖ/2 2z/3 ΖΛ* dp " pi 5p r p(p + 2r) g + 2r ρ ' (9) dL _ γ-> z/^ 9p£ _ 2^i 2z/2 2rz/3 z/4 dq ^ pi dq r p + 2r q(q + 2r) g ' Приравнивая к нулю эти производные, мы придем к системе из двух уравнений для Θ* четвертого порядка. Решение такой системы связано с техническими трудностями. Поэтому проще воспользоваться теоремой 1. Для этого заметим, что справедливы равенства Pi=r2, pi +P2 = (p + r)2, Pi +рз = {q + r)2. (10) Эффективные оценки для pi равны ρ* = щ/п. Подставляя в (10) эти оценки и решая полученные уравнения, получим Р* = Vp*+P2 " у/ΡΪ > 9* = λ/Ρι+Рз - у/Л · Так как р? есть а.н. оценка р,- (т.е. (р* -pi)>/n ©► *o,pi(i-pi))j то Р*> 9* в силу теоремы § 5 также будут а. н. оценками для р, д.
268 Гл. 2. Теория оценивания неизвестных параметров Чтобы воспользоваться теоремой 1, остается вычислить матрицу (L"{X,9*))-1 или матрицу (ηΙ{θ*))-\ θ* = (ρ',ςΓ). Приведем пример реальной выборки X, полученной в результате обследования η = 353 человека. Распределение людей по группам крови приведено в табл. 3. 0 121 0,343 А 120 0,340 В 79 0,224 Таб АВ 33 0,093 л и ц а 3 Всего 353 1 Из этой таблицы находим р* = 0,241, q* = 0,167, г* = 1 — р* — q* = 0,592. С помощью табл. 2 для элементов матрицы 1(9) при θ = 0* получаем Σ 1 Ορί(θ) dp J р№ δΡί(θ)\2 1 = 4 + 4r2 + 4g 2σ р[р + 2r) q + 2r ρ ^ дрг(в) dPi(0) 1 4p + 4r2 2p η ■ / η ч + — = 13>761> p + 2r q(q + 2r) q 4- 4r 4r •^ dp c?g pi(^) * p + 2r q + 2r Отсюда находим |/(0*)| = 130,512, + 2 = 2,585. ГНР) 0,105 -0,020 -0,020 0,076 Из формул для — и — (см. (9)) получаем L'(e*,X) = (25,443; 34,161), так что для второго приближения #j имеем 0? = 0· + -L'(0*, А")7_1(0*) = (0,246; 0,173). η Это дает нам в дополнение к табл. 3 оценки, приведенные в табл. ЗА. Таблица ЗА (И) (12) МП р№) 0 0,351 0,337 А 0,343 0,347 В 0,226 0,231 АВ 0,080 0,085 Применение еще одной итерации вида (12) оценку Θ* уже не меняет (в рамках используемой нами точности), так как L'(e\,X) = (-0,076; -0,167) (ср. с (11)), так что третье приближение для Θ* и все последующие будут совпадать с Θ*.
§ 36. Результаты §33, 34 для многомерного параметра 269 § 36. Результаты § 33, 34 для случая многомерного параметра В этом параграфе мы перенесем на многомерный случай все основные результаты §33, 34. Излагаться эти результаты будут в той же последовательности, что и в указанных параграфах, при этом мы будем останавливаться лишь на тех моментах, где многомерность либо меняет формулировку результата, либо требует модификации рассуждений. Итак, пусть θ £ Θ С RA, к > 1. Формулировки условий (Αμ), (Ас), (Ао), как и определения отношения правдоподобия и расстояния Хеллингера г(и) = р(Рв+и,Ре) = J{y/fe+u(x) - ^/Μχ))2μ{άχ), с размерностью никак не связаны. 1. Неравенства для отношения правдоподобия и свойства о.м.п. (результаты §33). Для изучения поведения функции Z{u) в окрестности нуля нам понадобится следующее условие: функция \/fe{x) дифференцируема по 0, информационная матрица Фишера т = \ы°)\\ = E°w^e)w/{xi'e) (1) при всех θ Ε Θ ограничена и положительно определена. При этом условии из теоремы 31.ЗА следует, что при всех θ Ο<0<ίπτΟ = 7SupSp/(0) < °о. (2) Μ 4 Θ 4 Здесь и в дальнейшем \и\ означает евклидову норму \и\ = \JU\ + - · вектора и = (щ,..., и&). Первое утверждение теоремы 33.1 и его доказательство переносится на многомерный случай без каких-либо изменений, так как они с размерностью по существу не связаны. Теорема 1. Если выполнено (2), то ΈθΖιΙ2{η) < e"n^l2/2. Для обобщения теоремы 33.2 нам понадобится дополнительное условие, которое состоит в том, что 7 = supE*|i/(xi10)|e<oo (3) θ при некотором s > к.
270 Гл. 2. Теория оценивания неизвестных параметров Теорема 2 (аналог теоремы 33.2). Если выполнены условия (2), (3), то при любых 2, η ^ 1 Р, ( sup Ζ (-уЛ > ez) ζ Π(β-Ζ + е'ж12)е^\ (4) где с < оо, β > 0 зависят лишь от к, g и s. Для доказательства этого утверждения в одномерном случае мы использо- 1 оценивать sup р(и) через значения ρ(0) и / \pf(u)\du> «€(0,1) J Такой же подход в многомерном случае наталкивается на трудности, поскольку максимальное значение р(и) в некоторой области D С К*, к > 1, не удается оценить, вообще говоря, через значения р{щ), щ £ D и интеграл от |p'(u)| (p'(u) = gradp(ii)) по какой-нибудь одной фиксированной кривой из D. Существует по крайней мере три пути преодоления этой трудности. Первый является полной аналогией одномерному подходу и состоит в использовании оценки вида (в этой формуле мы для простоты ограничиваемся двумерным случаем к = 2) вали возможность иек0 ι ι du\du2, supp(U)<|p(0)|+/|^^|dn2 + €Xo,i J \ <™2 | О J дщ J J \duidu2 о оо где и = (111,112), -Код — единичный куб: К^\ = {и : 0 ^ щ ζ 1, j = = l,...,fc}. Однако для использования этого подхода мы должны предполагать существование производных k-το порядка функции Iq(x) {fe{x)) (см. определение функции ρ в § 33) и уметь оценивать нужные нам средние значения производных функции ρ /-го порядка, / ^ к. Второй путь использует неравенства, восходящие к С. Л. Соболеву, об оценке sup p{u) через значения р(0) и u£Kotx / \p'{u)\sdu (p'(u) = gradp(u), u = («i,...,ufc)) Κο,ι при некотором s > к (при s = к оценка невозможна). При этом, разумеется, мы должны располагать оценками для E^|p'(u)|s при s > к*). В этой книге мы остановимся на третьем варианте, использующем некоторые идеи А. Н. Колмогорова об оценке распределения максимума случайного процесса. Ввиду того, что доказательство теоремы 2 занимает довольно много места, мы поместили его в приложение VI. Этот вариант доказательства приведен в испанском издании [19] книги.
§ 36. Результаты § 33, 34 для многомерного параметра 271 Доказательства утверждений о состоятельности о. м.п. и об оценках для моментов п. 33.2 с размерностью не связаны. Сами утверждения сохранятся в следующем виде. Теорема 3 (аналог теоремы 33.3). Если выполнены условия (2), (3), то при любых ν, η ^ 1 справедливо (33.6) с заменой числа #/4 на β (см. теорему 2). Утверждения следствий 33.1, 33.2 сохраняются полностью с той же заменой д/4 на /?. 2. Асимптотические свойства отношения правдоподобия (результаты § 33, 34). Под условиями (RR) в многомерном случае будем понимать совокупность следующих условий. 1. Условия (Ао), (Ас), (R). 2. Непрерывная дифференцируемость второго порядка по θ внутри Θ функции l(x,t) для п. в. [μ] значений х. При зтом предполагается, что производные 9^(М) №г)- dUdtj допускают мажоранту /(я), не зависящую от t: \l"j(x,t)\ ^ /(χ), для которой интеграл Е; ;/(χι) = / 1(χ)^{χ)μ(άχ) сходится равномерно*) по t £ Θ. 3. Кроме того, будем предполагать, когда зто потребуется, что выполнено условие (3). Как и в одномерном случае, нам понадобятся следующие два свойства, вытекающие из (RR). 1. Возможность дважды дифференцировать по θ под знаком интеграла в равенстве J /θ{χ)μ{άχ) = 1, означающая справедливость соотношений /£л<«м*) = о, /грилем*»-а <5) 2. Равномерная сходимость интеграла 1{θ): supE^xi,*))2; \№ι,θ)\ > iV] -> О (6) θ при Ν -> οο, где 1[(χ,θ) = —^—. Доказательство этих свойств отнесено в приложение V. Для упрощения изложения они могут быть введены в условия (RR). ** См. сноску о равномерной сходимости в §34.
272 Гл. 2. Теория оценивания неизвестных параметров В силу равенств ,!,„ дч 1 dfejx) /β (a;) dfli ij[,) feMMiMj β(χ) d9i dOj ' из соотношений (5) следует, что Εθ1'ί(χ1,θ) = 0, Е,*£(хь0) = -ЕоЩхивЩхив) = -WO). Как и в одномерном случае, условия (RR) означают, что будут иметь место утверждения теорем 2, 3 об оценках для sup Z(v/y/n) и для у/п(в* — 0). \v\^u При выполнении условий (RR) справедливы также следующие аналоги лемм 34.1, 34.2. Лемма 1. Функции 1"Λχ,θ) непрерывны «в среднем»: Ε*α£(χι)->0 равномерно по θ при Δ -> 0, гдеш'Пх) = max sup \1'1Лх,в+и) — Ι'^(χ,θ)\. ij θ,\η\<Δ Доказательство в точности повторяет рассуждения леммы 34.1. < Положим χΐ'{Χ,θ + ωΔ),ω)-{Σ,'{Χ,θ),ω) 7π(Μ) = sup ηΔ + ωΙ{θ)ω' Лемма 2 (аналог леммы 34.2). Пусть выполнены условия (RR), δη > 0 — любая последовательность, сходящаяся к нулю. Тогда для Ίηίδη,θ)—>0, Ίη{δη,θ*)—»0. П.Η. П.Η. В этих соотношениях значения Ι(θ) и Ι(θ*) можно заменить одно другим. Доказательство. Как и в одномерном случае, нам достаточно убедиться, что 7п(#п) -► 0, где 7п(*) = sup (Ι,'{Χ,θ + ωΔ),ω) - {1'{Χ,θ),ω) ωΣ"{Χ,θ)ωτ ηΔ η
§ 36. Результаты §33, 34 для многомерного параметра 273 Но 7п(^п) ^ — 2_1 y^^ni^)!^^'!' где ωδ(χ) есть максимальный модуль ^ I · непрерывности функций Ι^(χ,θ). Так как Y^\ukUj\ ^ к\и>\2 = к, то г Дальнейшее доказательство основано на лемме 1 и в точности повторяет рассуждения леммы 34.2. < Обобщением теоремы 34Л на многомерный случай здесь является Теорема 4. Пусть выполнены условия (RR), δη > О, η = 1,2,..., — любая последовательность, сходящаяся κ нулю. Тогда если X €= Р$, то для и таких, что \и/у/п\ ^ δη, Y(u) = In Ζ (^=\ = (ξη,η)-^ηΙ(θ)ητ(1 + εη(Χ,θ,η)), (8) \εη{Χ,θ,υ)\^εη{Χ,θ)—>0, -j=gra,dL(X,e) = -j^i ξη = -^gradL(X,e) = -^Ь'{Х,в) θ- Φ0)/(β). Значение и* = л/п(в* — θ), при котором Υ (и) достигает максимума, представимо в виде η·=ξηΓ\θ){Ε + εη(Χ,θ)), ε„(Χ,0)^>Ο, (9) где Ε есть единичная матрица. Кроме того, 2Υ(η*)=ξηΓ1(θ)ξϊ(1 + εη(Χ,θ)) ^ξΓ1(θ)ξτ ^Hfc, ξ ^ Фот. (10) Наряду с (8) справедливо представление Y(u) - Υ(u*) = |(и - ti*)/(0)(ti - tx*)T(l + εη(Χ, θ, и)), \εη{Χ,θ,η)\^εη(Χ,θ). Во всех приведенных утверждениях Ι(θ) можно заменить на 7(0*). В этом параграфе мы, как и в §34, понимаем под εη(Χ,θ) различные последовательности, обладающие свойством εη(Χ, θ) —> 0 относительно Ра. п.н. Отметим также, что главную часть в (8) можно записать в виде ξηητ - \и!{в)иТ = -1-{и - ξηΓι(θ))Ι(θ)(η - ξηΓ1(θ))τ + \ξηΓ1№η·
274 Гл. 2. Теория оценивания неизвестных параметров Это соответствует плотности многомерного нормального распределения со средним ξηΙ~ι(θ) и матрицей вторых моментов Ι~ι(θ). Доказательство теоремы 4 вполне аналогично доказательству теоремы 34Л. Из леммы 2 при Δ < δη получаем {Ь'{Х,в + Аи>),ш) = (Ζ/(-Μ),ω) -ηΔωΙ{θ)ωτ{1+εη{Χ,θ,Αω)), \εη(ΧΑΔω)\<εη(Χ,θ). Интегрируя это равенство по Δ от нуля до \u\/y/n и полагая ω = гх/|гх[, получим ь(х,0+-у=)-ЦХ,в) = ί {L'{X,0 + Au),u)dA = о II I |2 = ЩЬ\Х,9),Ш) - ]-^-ωΙ(θ)ωτ(1 + εη(Χ,θ,η)) = = (ξη,η)-^ηΙ(θ)ητ(1+εη(Χ,θ,η)), \εη(Χ,θ,η)\^εη(Χ,θ). Здесь по многомерной центральной предельной теореме (см. приложение IV) 1 п Представление (8) доказано. Остальные утверждения теоремы доказываются точно так же, как в теореме 34.1, с учетом продемонстрированных изменений, связанных с многомерностью. Соотношение СГ'№Т§Щ в (10) следует из свойств нормального распределения (см. п. 12.4). < В связи с соотношением (10) полезно также следующее Замечание 1. Матрица Ι~^1(θ) вместе с Ι(θ) является положительно определенной, и существует матрица /_1/2(0), являющаяся корнем квадратным из /^(0), т.е. удовлетворяющая соотношению Γ1'2(Θ)Γ1'2(Θ)=Γ1(Θ). Действительно, если некоторая матрица Μ > 0 (положительно определена), то существует ортогональная матрица С, для которой СМСТ = diag (λι,..., λ*) есть диагональная матрица с положительными элементами λ* > 0 на диагонали. Если положить теперь М1/2 = CTdiag(A/ ,.,.,λ/ )С, то получим, очевидно, корень квадратный из М. Пользуясь этим и симметричностью матрицы Ι~ι(θ), мы можем (10) записать в виде (ξηΙ-1/2(θ))(ξηΓ1/2(θ))Ύ.
§ 36. Результаты § 33, 34 для многомерного параметра 275 Здесь вектор ηη = ξηΙ~1'2(θ) есть, очевидно, нормированная сумма η независимых одинаково распределенных случайных векторов с нулевым средним и матрицей вторых моментов Εβ(ξηΓ1/2(θ))τ{ξηΓ1/2{θ)) = ^I-l,2{9)CinI-l/2{9) = Ε, поскольку Ee£f„ = Е,(*'(х1,*))Т(/'(хь0)) = Ι(θ). Это означает, что по многомерной центральной предельной теореме ξηΙ"1^2(θ) ©► & Фо.я- Теорема 5 (аналог теоремы 34.2). Пусть выполнены условия теоремы 34.2 для многомерного θ £ Rk и при a = /3/2 (β определено в теореме 2). Тогда /Β/«(«·-«),(β + ^)ζ(^)π(Λ)- = eY^q{9) \iw(u*-u)expi-^(u-u*)I(e)(u-u*)T\ x χη(άη) + εη{Χ,θ)]. (11) Если П есть мера Лебега, TL(du) = du, то J=^^^eY^q(e)(Ew(V)+en(X,e)), (12) где εη(Χ,θ) —► 0, η €= Фо,/-1^) (последовательность εη(Χ,θ) является векторной, если w(t) есть вектор-функция). Доказательство теоремы 5 проходит так же, как доказательство теоремы 34.2, поскольку последнее с размерностью не связано. 3. Свойства о.м.п. (результаты §33, 34). Здесь мы будем предполагать везде выполненными условия (RR). Аналог теоремы 33.5 будет иметь следующий вид. Теорема 6. О.м.п. Θ* является асимптотически нормальной оценкой, при этом сходимость η*^{θ*-θ)^ θ>Φ0|/-ΐ(*) имеет место вместе со сходимостью моментов любого порядка. В частности, Εθη{θ* - θ)τ(θ* -θ)-> Г1 (θ). (13) Более того, для любой непрерывной функции w(t) такой, что \w(t)\ < < еРЩ /2 (число β определено в теореме 2), Eew(u*) -> Ειν{η), η €= Φ0|/-ι(β).
276 Гл. 2. Теория оценивания неизвестных параметров Соотношение (13) означает, что 0* Ε ΛΤφ,2· Утверждение теоремы 6 следует из теоремы 4 (см. (9)) и многомерного аналога следствия 33.2, вытекающего из теоремы 3 (ср. с доказательством теоремы 33.5). < Определим класс Kq как совокупность оценок 0*, для которых смещение 6(0) = (6ι(0),..., Ьк{в)) = ΈΘΘ* - 0 обладает свойствами при η -> со. Аналог теорем 33.6, 33.7 имеет здесь ту же самую форму. -^ .^ — Теорема 7. 0* является a.R-э. оценкой. Кроме того, 0* Ε Ко является асимптотически эффективной в К$. Асимптотическая R-эффективность 0*, эквивалентная (13), очевидно, имеет место. Доказательство принадлежности 0* Ε Kq и асимптотической эффективности в ifo происходит совершенно аналогично одномерному случаю. Перейдем теперь к свойству асимптотической байесовости. Асимптотическая Д-байесовость оценки 0* означает по определению, что (ср. с § 30) Е(0* - 0)т(0* - 0) = ^ + о QV J = frl{t)Q{dt). (14) Асимптотическая байесовость 0* означает limsup[nv(0*) - nv(0g)] ^ 0, (15) п—юо 0д — байесовская оценка, минимизирующая г;(0*) = Е(0* — θ)ν(θ* — 0)т для любой неотрицательно определенной матрицы V. Теорема 8 (аналог теоремы 33.8). 0* является асимптотически R-байесовской оценкой. Если априорное распределение Q имеет плотность относительно меры Лебега на Θ, то Θ* — асимптотически байесовская оценка. Доказательство вполне аналогично теореме 33.8. Соотношение (14) для 0* = 0* следует из того, что lim Еп(0* - 0)т(0* - 0) = Ε lim Εθη{θ* - 0)τ(0* - 0) = ΕΓι(θ) = J. η~>οο η~>οο Предельный переход под знаком математического ожидания (т.е. интеграла) здесь законен, так как величина Ε#η(0* — 0)т(0* — 0) ограничена постоянной, не зависящей от η и 0 (ср. со следствием 33.2). Чтобы доказать (15), заметим, что в соответствии с §30 интегральное неравенство Рао-Крамера в случае, когда Q имеет плотность, имеет вид Еп(0*-0)т(0*-0) > J + o(l).
§ 36. Результаты § 33, 34 для многомерного параметра 277 Это означает, что nv{e*Q) ^ Y^VijJij +o(l), ^^ где \\Jij\\ = J, H^ijll = K С другой стороны, в силу (14) при θ* = Θ* ην(θ*) = ^VijJij + о(1). Из этих соотношений, очевидно, вытекает (15) при θ* = 0*. < Аналоги теорем 33.9, 34.3 также будут иметь место. Например, из теоремы 5 вытекает Теорема 9 (аналог теоремы 34.3). Пусть X ^ Р# и θ есть произвольная внутренняя точка Θ. Если q(t) — произвольная непрерывная и положительная внутри Θ плотность априорного распределения Q, то где 9q есть байесовская оценка, соответствующая q(t). Асимптотическая минимаксность Θ* может быть установлена аналогично теореме 34.3 с помощью многомерного аналога критерия асимптотической минимаксности в следствии 30.3: lira supEen(0* - θ)ν(θ* - θ)τ = supV/^1^·, \\^г(в)\\ = ГЩ, и равномерного характера сходимости в (13), которая будет вытекать из результатов следующего параграфа. Свойства асимптотической оптимальности Θ* в случае многомерного параметра 0, когда его размерность к велика, следует использовать с осторожностью. Нужно следить за тем, чтобы отношение п/к было велико (число наблюдений на один скалярный параметр). В противном случае выводы могут оказаться ошибочными. Пример 1. В лаборатории проверяется концентрация η растворов. Каждая из неизвестных η концентраций μι,.. .,μη проверяется дважды. Предполагается, что дисперсия σ2 всех η наблюдений (xi,yi),..., (xn,yn) одна и та же, а сами наблюдения независимы и нормально распределены, так что /β(Χ) = ^4^βχρ{~έΣκχ«-^)2+(^-^)2]}' где θ= (μι,...,μ„,σ ). О. м. п. для μι здесь равны
278 Гл. 2. Теория оценивания неизвестных параметров Очевидно, эти оценки являются несмещенными, но не состоятельными. 0. м. п. для σ2 равна 1 2 (σ2)* = — ]Г(Хг-Уг)2"^ У ПРИ П->°°> Эта оценка с большой надежностью дает ложное значение для параметра σ2 (вдвое меньшее). 4. Приближенное вычисление о.м.п. Как мы видели в §35, содержание этого параграфа в многомерном случае полностью сохранится. 5. Свойства о.м.п. при отсутствии условий регулярности (результаты §14, 16). Условия состоятельности 0*, сформулированные в теоремах 14.1, 14.2 и в п. 16.2, с размерностью по существу не связаны. Доказательство этих теорем полностью сохраняется с точностью до очевидных изменений, связанных с тем, что множество θ надо покрывать теперь (в силу условия (Ас)) не конечным числом интервалов, а конечным числом шаров. То же самое можно сказать и по поводу теоремы 16.2 и следствий 16.1-16.6. § 37. Равномерность по θ асимптотических свойств отношения правдоподобия и оценок максимального правдоподобия В последующих рассмотрениях, главным образом в §53-55 следующей главы, будут полезны утверждения § 33, 34 и 36 в их равномерной по θ форме. Большинство этих утверждений (скажем, утверждения о предельном Ря-распределении (0* — 0)у/п) были получены в предположении, что θ — фиксированная точка из Θ. Нас будет интересовать теперь, что будет происходить, если θ не фиксировано, а меняется вместе с п. Ясно, что при этом вместе с η будут меняться и распределения Р#, так что каждая выборка Хп будет иметь «свое» распределение при η = 1,2,... Мы приходим, таким образом, к схеме серий (см. [17, гл. 8]), для которой формулировки основных предельных теорем будут уже несколько иными. В частности, усиленный закон больших чисел, вообще говоря, теряет свой смысл, так как рассматриваемые случайные величины перестают быть заданными (при разных п) на одном вероятностном пространстве. 1. Равномерные закон больших чисел и центральная предельная теорема. Пусть Χ ^ Ρ*, ηη# = ηη(Χ,θ). Определение 1. Мы будем говорить, что последовательность ηηβ равномерно сходится по вероятности к постоянной а(0), если для любого ε > О при η —> оо supP*(ton|0-a(0)| >e) -> 0. θβθ Это соотношение будем записывать в форме «τ/η,Α —► я(0) равномерно по Θ». Определение 2. Мы будем говорить, что ηηβ сходится по распределению к случайной величине щ равномерно по Θ, если для любой непрерывной и ограниченной функции φ при η —> оо *νρ\Εθφ{ηη,θ) - Εφ(ηθ)\ -> 0. (1) θ
§ 37. Равномерность по θ асимптотических свойств о. м. л. 279 Это соотношение будем записывать в виде «ηηβ => щ равномерно по 0». Такой же смысл будем придавать соотношению «77^0 ©► G$ равномерно по 0», где G# означает распределение щ. Мы предоставляем читателю самостоятельно убедиться, что если функции распределения ηβ непрерывны равномерно по 0, то соотношение (1) эквивалентно suplPfl^ < χ) - Ρ(ηΘ < х)\ -> 0. Отметим, что равномерная сходимость ηηβ —>· α(β) и равномерная схо- димость по распределению ηηβ => α(θ) к вырожденной случайной величине α(Θ) эквивалентны. Отметим также, что для равномерной сходимости сохранятся все основные теоремы непрерывности. Например, если Η есть непрерывная функция, то из равномерной сходимости ηηβ => щ следует равномерная сходимость Η(ηη,θ) => Η(ηθ). (2) Эти утверждения вытекают непосредственно из определений. В приложении IV доказаны следующие «равномерные» предельные теоремы. Пусть X g= Р# и α(χ,θ) — заданная измеримая вектор-функция: Χ χ χ θ —> Rl. Рассмотрим суммы *n(0) = J>(x.,0) независимых случайных векторов, зависящих от параметра θ Ε Θ как непосредственно через функцию α(ζ,0), так и через распределение хг €= Р#. Напомним, что интеграл / ψ(χ,θ)1?ο((Ιχ) мы называем сходящимся равномерно по θ в области Θ, если sup / \ψ(χ,θ)\Ρθ{άχ) ->0 ее® J ее® \ψ(χ,θ)\>Ν при N —> оо. Теорема 1 (равномерный закон больших чисел). Если интеграл α(θ) = = / α(χ^θ)Ρθ(άχ) сходится равномерно по θ Ε θ, то при п —> оо ^ -> α(θ) Π Ρθ равномерно по Θ. Следствие 1. Если последовательность {θη} Ε Θ, то в условиях теоремы 1 9п ( п - а(вп) > ε -> 0.
280 Гл. 2. Теория оценивания неизвестных параметров Этот факт будем обозначать sn(0n) - α(θη) —► 0. При рассмотрении центральной предельной теоремы для сумм sn(6) нам будет удобнее считать α(θ) равным нулю. (Это не есть ограничение общности, так как мы можем рассмотреть новые слагаемые α1(χι^θ) = = α(χχ,θ) — α(#)0 Положим σ2(θ) = Έβ(ατ(χι1θ)α(χι,θ)) и обозначим через aj(xi,0), j = 1,2,...,/, координаты векторов a(xi,0). Теорема 2 (равномерная центральная предельная теорема). Пусть ин- %,0 = —~ =*Ώθ <^ φΟ,σ2(0) у То равномерно по Θ. 2. Равномерные варианты теорем об асимптотических свойствах отношения правдоподобия и оценок максимального правдоподобия. Заметим предварительно, что при выполнении условий (RR) результаты §33 являются равномерными по θ по самой своей форме, так как правые части неравенств в теоремах 33.1-33.3 (и в теоремах 36.1-36.3) от θ не зависят. Перейдем к результатам §34, 36 об асимптотическом поведении Z(u/y/n). При этом под условиями (RR) в одномерном случае будем понимать условия (RRJ (см, §34). Утверждения лемм 34.1, 36.1, 34.2, 36.2 можно сделать равномерными по Θ. Лемма 1. При Δ —> 0 supE^(xi)^0, (3) θ где ω^(χι) есть максимальный модуль непрерывности функций 1"Λχ,θ). Доказательство. Справедливость (3) при фиксированном θ доказана в лемме 36.1. Если допустить при этом отсутствие равномерности по 0, то мы придем к существованию ε > 0 и последовательностей θη -+ θ Ε Θ, Δη —>· 0 таких, что Ε0ηω£η(χι)>ε· (4) Полагая для краткости и>д (χι) = и/7, получим Εθηω" = Efln(a;";/6n(xi) < 2/θ(Χι)) + Εβη(α/';/*„(χι) > > 2/e(Xl),J(Xl) ^ Ν) +E0>";/0„(xi) > 2/„(χι),/(χι) > Ν). Здесь первое слагаемое не превосходит 2Έιρω" и сходится к нулю в силу леммы 36.1, второе — не превосходит 2NJn, где Jn= Ι /θη(χ)μ{άχ) = 1 - / ίθη{χ)μ(άχ) -» 0 Λη(χ)>2Λ(») Λ„(*)^2/,(χ)
§ 37. Равномерность по θ асимптотических свойств о. м. п. 281 по теореме о мажорируемой сходимости. Наконец, последнее слагаемое не превосходит Ε^η(2/(χι); 1{χι) > Ν) и в силу (RR) может быть сделано выбором N сколь угодно малым. Мы получили противоречие с (4), доказывающее лемму. < Лемма 2. Утверждение леммы 36.2 сохранится, если в нем п. н. сходимость заменить сходимостью 7п(^п>0) —> О, 7п(^п>#*) —* 0, равно- Ρθ Ρθ мерной по Θ. Доказательство. Будем следовать доказательству леммы 26.2. Заметим предварительно, что в силу теоремы 1 и равномерной сходимости интеграла в (RR) та _ -т Π Ρθ равномерно по θ (сходимость матриц понимается поэлементно). Кроме того, из теорем 33.3, 36.3 вытекает, что Θ* —> θ равномерно по Θ. Отсюда следует, Р$ что в соотношении 7п(^п>#) —> О (см· лемму 36.2) можем Ι(Θ) заменить на Рв L"{9)/n и на Ι(θ*). В силу неравенства (36.7) задача оценки Ύη{δη,θ) сводится к оценке где и;д(#,0) — максимальный модуль непрерывности функций 1"Λχ,θ). Из неравенства Чебышева получаем supP^'JX) >ε) < -supE^(xbe). θ ε θ Но в силу леммы 1 supE^o;^(xi,0) -» 0 при Δ -* 0. Это доказывает, что θ ωΙ(Χ)—>0, Ίη(δη,θ)->0 (5) равномерно по 0. Далее, из неравенств (34.6) следует, что задача оценки 7п(^п? #*) сводится к оценке ω" ,- ЛХ)· Так как Θ* — θ —> 0 равномерно по 0, то из (5) получаем, что равномерно по Θ. < Теорема 3 (аналог теоремы 36.4). При выполнении условий (RR) утверждения теоремы 36.4 сохранятся при следующих изменениях: εη(Χ,θ) —> 0 равномерно по 0, ξη ©► Фо>/(0), 2Y(u*) ©► Н^ равномерно Ρθ по Θ.
282 Гл. 2. Теория оценивания неизвестных параметров Доказательство теоремы полностью основано на лемме 2 так же, как доказательство теоремы 36.4 — на лемме 36.2. Поэтому требуемое доказательство получается путем внесения очевидных изменений в доказательство теоремы 36.4, связанных с заменой (вытекающей из леммы 36.2) сходимости εη(Χ, θ) —ϊ 0 на равномерную сходимость εη(Χ, θ) —> 0. Кроме П.Н. Рд того, надо добавить, что 1 п равномерно по θ в силу теоремы 2 и равномерной сходимости (36.6) интеграла Ι(θ) (это есть матрица вторых моментов для ί'(χι,0)), которая вытекает из условий (RRW) (см. приложение V). Отсюда и из замечаний, касающихся (2), получаем равномерную сходимость 2У(и*)©>НЛ. < Те же изменения, что и в теореме 3 (по сравнению с теоремой 36.4), могут быть внесены в теоремы 36.5, 36.6. Приведем здесь следующие два следствия теоремы 3. Теорема 4. ν,* = ν^(θ*-θ)&Φ0;-4θ) (6) равномерно по Θ. При этом для любой функции w(x), непрерывной п. в. относительно меры Лебега и такой, что |ги(а;)| < Се^х\ /2 (значение β > 0 определено в теореме 36.2), выполняется sup \Egw{u*) - Ευ)(ηθ)\ -> 0, (7) θ где щ ^ *o,/-4*)- Доказательство. Первое утверждение вытекает из соотношений ν* = ξηΓι{θ)№ + εη{Χ,θ)), |εη(Χ,0)| —>0, ξη ©► Φ0|/(*)ι равномерных по θ и содержащихся в теореме 3. Чтобы доказать второе утверждение, допустим, что (7) не верно. Тогда найдутся δ > 0 и последовательность θη —> θ Ε Θ такие, что |Eenti;(tx*)-Eti;(WJ|>i (8) при всех п. Но ΦΟ)/-ΐ(0η) => ΦΟ)/-ΐ(0) и, стало быть, в силу (6) Р#П-распределение и* (w(u*)) слабо сходится к распределению ηο (ΐϋ(η$)). Кроме того, по следствию 33.2 (см. также §36) π 3/2/ .ч ^ х, |3(u*)2/3 supE^iud/J(u*) ^supEaexp1 —^^ θ 4 < Ci < 00.
§ 37. Равномерность по θ асимптотических свойств о. м. п. 283 Отсюда и из теорем непрерывности для моментов следует, что Eenw(u*) -4 Eiu(rfe). Так как Ewfyen) -> Егу(%), то полученное соотношение противоречит (8). < Пусть Ап С Л'71. Теорема 5. Если Ρ#(Αη) -4 0, то при любом фиксированном N sup Pe+u/VE{An) -+ 0. Это свойство последовательностей распределений P^^w/v^n ПРИ п ~~> °° называется контигуалъностъю (см. [100]). Мы будем использовать его в главе 3. Доказательство. Имеем < Ее f Z f-J0 ; Ап η {У(и) < с}) + Pe+u/VE(Y(u) > с) < <ecPe(An)+P,+u/v^(F(u)>c). Так как Р#(ЛП) —» 0, то для доказательства теоремы нам надо рассмотреть лишь sup Рв+и/^(У(и) > с)· Согласно теореме 3 равномерно по и Y(u) = (£„,*) - \ηΙ{θ)ητ (l + en ^χ,θ+^У) & Φ_ισ2,σ2, (9) где σ2 = uI(9)uT ^ N2Ak(6) при |u| ^ JV, Λ*(0) — максимальное собственное число матрицы Д0). Так как Φ_ισ2 σ2((ο,οο)) < Ф0)(Т2((с, 0)), то в силу равномерности в (9) lim sup Т?в+и/у/п{у(ц) > с) < SUP фо,^((с,оо)) = Фо,лг2Ль(0)((с,оо)). Это значение выбором с может быть сделано сколь угодно малым. < 3. Некоторые следствия. 1) В §33 была сформулирована теорема 33.7, в которой утверждалось, в частности, что θ* Ε if0, где К0 есть класс асимптотически центральных оценок, определяемый соотношением (рассматривается одномерный случай) ρθ(β* > θ) _> I
284 Гл. 2. Теория оценивания неизвестных параметров равномерно по 0. Из теоремы 4 вытекает, что упомянутая часть теоремы верна, так как Ρθ(θ* >θ)= Рв(уД(в* - θ)Γι'2{θ) > 0) -»> Φο,ι((0,οο)) = l- равномерно по 0. <Ι 2) В § 34 была сформулирована теорема 34.4 об асимптотической мини- максности 0*. Для доказательства этой теоремы нужно установить справедливость леммы 34.3 о том, что lim supEen{9* - θ)2 = sup Г1 {θ), (10) n-ЮО 9еГ деГ где Г — любой отрезок из Θ. Но это утверждение есть прямое следствие равномерной по θ Ε Θ сходимости Ε^η(θ* — θ)2 —>- /_1(0), которая делает законным предельный переход под знаком sup еег lim s\xpEen(e* - θ)2 = sup lim Εθη(θ* - θ)2 = sup/_1((9). < П-ЮО Θ£Γ деГ П-ЮО деГ Утверждение, аналогичное (10) и обеспечивающее асимптотическую минимаксность 0*, будет иметь место, очевидно, и в многомерном случае: lim supE*n(0* - θ)ν(θ* - 0)т = sup Υ VijIf.1 (θ), n-уоо веГ 9еГ t—' J \\ΐΓ3\θ)\\=ι-4θ), для любой матрицы V. § 38.* О статистических задачах, связанных с выборками случайного объема. Последовательное оценивание Тот факт, что выборки случайного объема возникают на практике и являются естественными, подтверждают примеры 25.2, 28.3. Еще один пример связан с так называемым последовательным оцениванием. Оно применяется в тех случаях, когда мы можем производить наблюдения последовательно — одно за другим, и когда мы заинтересованы в минимизации числа этих наблюдений, скажем, в силу их высокой стоимости. При этом наряду с правилом оценивания (т.е. конструкцией оценки 0*) мы должны задать правило остановки эксперимента. Эти правила могут быть различными: например, можем суммировать заданные стоимости с(х^) наблюдений хг- до тех пор, пока не исчерпаем некоторое допустимое количество t. В этом случае момент ν остановки (номер последнего наблюдения или объем выборки) будет определяться как min < к : Y^ c(xi) ^ W — это есть «время первого прохождения уровня t» в блуждании со скачками с(хг) (см. [17, гл. 9]). Можно суммировать «информации» /(х^,0) = = (Ζ'(χί,0))2 и прекращать наблюдения, когда будет достигнут заданный уровень, и т.д.
§ 39. Интервальное оценивание 285 В этих примерах ν есть марковский момент, т. е. \у > п} £ σ(χι,..., хп). Это есть одно из основных предположений, при которых рассматриваются задачи последовательного оценивания. При этом предположении и выполнении ряда дополнительных, менее существенных условий сохраняется неравенство Рао-Крамера в виде где Θ* = 0*(xi,.. .,х„) — несмещенная оценка 0, 7(0) — информация Фишера. Доказательство этого неравенства вполне аналогично доказательствам § 26; надо лишь для вычисления информации Фишера, содержащейся в выборке (χι,.. .,Χί/), воспользоваться тождеством Вальда (см. [17, §14.2]). Если ν зависит от некоторого параметра £, как это было в примере 28.3, так что ν —► оо п. н. при t —> оо, то возможно построение асимптотически оптимальных оценок со среднеквадратичной погрешностью, асимптотически эквивалентной (Ι(θ)Έι/)^1. § 39. Интервальное оценивание 1. Определения. До сих пор мы изучали свойства и способы отыскания наилучших точечных оценок неизвестного параметра 0, который определяет распределение Р# из семейства V = {Р#}, соответствующее выборке X. Точечные оценки используются в тех случаях, когда мы должны назвать некоторое число 0*, предназначенное для использования вместо неизвестного 0. Однако весьма распространен и другой подход к проблеме. Будем считать 0 скалярным параметром (многомерный случай будет рассмотрен в п. 6). Как мы знаем, точное определение θ по данной выборке невозможно. Но мы могли бы попытаться указать такой интервал (0~,0+), что он с заданной достаточно высокой вероятностью будет накрывать неизвестное значение 0. При этом несомненно, что чем уже этот интервал, тем лучше. Во многих задачах заранее требуется, скажем, путем увеличения объема выборки построить такой интервал (0~,0+), чтобы его ширина не превосходила заданных размеров. Определение 1. Пусть для заданного ε > 0 существуют случайные величины θ± = θ±(ε,Χ) такие, что Ρθ{θ-(ε,Χ)<θ, 0+(ε,Χ)>0)>1-ε. (Ι) Тогда интервал (0~,0+) называется доверительным интервалом для θ уровня 1 — ε. Очевидно, что (1) можно записать в виде Р*(0- <θ<θ+)>1-ε. Событие, стоящее здесь под знаком вероятности, состоит в том, что случайный интервал (0~,0+) накрыл неизвестное значение 0. Читать это событие как «попадание 0 в интервал (0~,0+)» было бы несколько менее аккуратно, так как 0, вообще говоря, не случайно.
286 Гл. 2. Теория оценивания неизвестных параметров Значения θ± называются границами доверительных интервалов, число 1 — ε — коэффициентом или уровнем доверия. Итак, отличие интервального оценивания от точечного состоит в следующем. 1. Доверительный интервал как оценка менее «точен», так как указывается целое множество возможных значений 0. 2. С другой стороны, утверждение «Θ £ (θ~,θ+) с вероятностью ^ 1 — ε» является истинным, в то время как событие 9 = 0*, как правило, имеет вероятность, равную нулю. В качестве ε выбирается обычно малое число. По нему строятся #*(£, X), и затем на основании выборки объявляется, что θ Ε (θ"(ε, AT), 0+(ε, X)). Поступая таким образом, мы будем ошибаться в длинном ряду экспериментов примерно в 100ε % всех случаев. Например, если ε = 0,001, то ошибка будет происходить примерно 1 раз на 1000 случаев. Объявляя верным соотношение θ Ε (0~,#+), мы используем тот факт, что если некоторое событие имеет вероятность ε и это ε мало, то практически невозможно, чтобы это событие произошло при единичном испытании. Авиапассажир, садясь в самолет, интуитивно твердо верит в это. Ему достаточно знать, что вероятность того, что полет закончится благополучно, довольно высока (ведь ему известно, что она не равна 1). Именно такой подход и лежит в основе построения многих статистических процедур. Мы выделим сначала один случай, когда построение доверительных интервалов особенно естественно и может быть произведено без существенных затруднений. Это так называемый байесовский случай, который уже рассматривался нами в §20, 21, 30. 2· Построение доверительных интервалов в байесовском случае. Мы предполагаем здесь, что параметр θ выбирается случайно с известной нам априорной плотностью распределения q(t) относительно некоторой меры λ на Θ. После этого производится выборка X ^ Р#, и нам надо построить доверительный интервал для выбранного значения Θ. Если выполнено условие (Αμ), то, как мы знаем из §20, в этом случае существует апостериорное распределение θ (условное относительно X) с плотностью относительно меры λ. Это означает, что в качестве 0*(ε, Χ) достаточно взять любые два числа θ±, для которых Iq{u/X)\{du) = 1-ε θ- t (или ^ 1 — ε, если / q(u/X)\(du) меняется при изменении t дискретно). -00 Другими словами, в качестве θ~ и Θ+ следует взять квантили апостериорного
§ 39. Интервальное оценивание 287 распределения соответственно порядков 1 — 62 и ε χ при любых ει и 62 таких, что е\ + 62 = ε. Здесь в соотношении θ~ ^ θ ^ 0+ в отличие от небайесовского случая случайными являются все три элемента: границы интервала θ± и сама величина Θ. Нетрудно видеть, что в описанной процедуре существует некоторый произвол, связанный с выбором чисел е\ и €2- Иногда этот произвол устраняется самой постановкой задачи — например, в случаях, когда нам важно установить лишь верхнюю или нижнюю доверительную границу. В этом случае одно из чисел ει, 62 следует положить равным нулю, а соответствующую границу сделать бесконечной. Если же границы играют симметричную роль, то естественно следует выбирать е% так, чтобы сделать интервал (0~,0+) по возможности более коротким. Для распределений g(i/X), близких к симметричным, это достигается при е\ = S2 = ε/2. 3. Построение доверительных интервалов в общем случае. Асимптотические доверительные интервалы. Основные методы построения доверительных интервалов базируются на использовании точечных оценок. Рассмотрим сначала асимптотический подход к построению доверительных интервалов. Определение 2. Пусть X = [Хсс]п ^ Р#> и для заданного ε > О существуют случайные величины θ^ε,Χ) такие, что liminf P,(0-(ε,Χ) < θ < θ+{ε,Χ)) > 1 - ε. (2) η—>οο Тогда интервал (0",0+) называется асимптотическим доверительным интервалом уровня 1 — ε. В этом определении необходимо подчеркнуть, что речь идет на самом деле о последовательности интервалов (θ~,θ+), определенных для каждого п. Формально понятие асимптотического доверительного интервала применительно к выборке фиксированного объема является малосодержательным. Тем не менее соотношением (2) пользуются при больших η — так же, как пользуются центральной предельной теоремой для приближенного вычисления распределений сумм конечного числа случайных величин. Мы видели в предыдущих пунктах, что большинство рассматривавшихся нами точечных оценок асимптотически нормальны. Ниже мы приводим конструкцию асимптотических доверительных интервалов, основанных на таких оценках. Пусть Θ* — а.н. оценка: (0*-0h/ne^O|iF2Wl (3) и σ(θ) есть непрерывная функция. Так как Θ* —> 0, то последнее условие означает, что σ(θ*) —> σ{θ). Отсюда и из (3) по второй теореме непрерывности следует, что (0*-0)v^ , ~^т *Фод- (4) Обозначим через \$ квантиль нормального распределения порядка 1 — £, т.е. такое число, что Φο,ι((—°ο, λ^)) = 1 — J, или Р(|£| < Xs) = 1 — 2J, если
288 Гл. 2. Теория оценивания неизвестных параметров ξ ^ Ф0д. Для λε/2 при заданном фиксированном ε > 0 введем временно более короткое обозначение, положив Тогда из (4) следует lim Τ?θ η—>оо λε/2 = β· (θ* -9)y/n <β)=1-ε. σ{θ*) Но это соотношение можно переписать в виде п->оо у у/п у/П ) Таким образом, числа β± = θ·±Εψ (5) Vη удовлетворяют определению 2 и, стало быть, являются границами асимптотического доверительного интервала уровня 1 — ε. Если теперь для заданной фиксированной выборки X объема η построим интервал (5), его истинный уровень будет, вообще говоря, отличаться от ε, но будет мало отличаться, если η достаточно велико. Поэтому обращаться с асимптотическими доверительными интервалами надо с известной осторожностью, выяснив предварительно, начиная с каких η вероятность события {Θ £ (0~,0+)} достаточно точно приближается к предельным значениям. Обычно чем меньше ε, тем выше требование к объему выборки п. Необходимый объем зависит также от распределения Р# и от статистики Θ*. Пример 1. Пусть X €= Γαχ, и мы пользуемся эффективной оценкой п- 1 а* = —— > В примерах 14Л, 26Л было установлено, что пх Εαα* = α, Όαα* = a2 n-2' так что здесь σ2(α) = α2. Соотношение (5) дает нам ηχ V νη/ Чему на самом деле равен уровень этого интервала? Нам надо найти Гад — вероятность неравенства пх или, что то же, неравенства п-1 / β \ п-1 Λ β \ пх \ y/nj пх \ у/п/ β ηαχ . β γ/η П — I у'П
§ 39. Интервальное оценивание 289 где пах €= 1\п. Так как α есть параметр масштаба, то 2ηαχ €= Τι/2,η — Η2η· Таким образом, точный уровень интервала (6) равен 2(n-l)(l+/Vv^) 7i/2,n(s)<fo, (7) 2(п-1)(1-Р/у/П) гДе 7ι/2,η определено в § 12*). При ε = 0,05, η = 30 имеем β = 1,96, (η - 1)(1 - β/^/η)/η « 0,6201, (η - 1)(1 + fi/y/n)/n « 1,3126. Таким образом, асимптотический доверительный интервал уровня 1 — ε = 0,95 применительно к случаю η = 30 представляет собой интервал (0,620/х, 1,313/х). Если воспользоваться таблицами распределения χ2 с 60 степенями свободы, то мы в силу (7) обнаружим, что точный уровень значимости этого доверительного интервала равен (с точностью до трех знаков) 0,937 = 1—0,063. При этом «вклады» левого и правого конца доверительного интервала далеко не равнозначны (ср. с нормальным приближением) и составляют соответственно 0,010 и 0,053. Для η — 50 асимптотический доверительный интервал уровня 0,95 будет иметь вид (0,708/х, 1,252/х). Истинный уровень его значимости будет равен 0,942 = 1 — 0,058 (вклады равны соответственно 0,014 и 0,044). Ясно, что если продолжать увеличивать п, то эти вклады будут сближаться с 0,025. Вернемся к доверительному интервалу (5), построенному нами с помощью а. н. оценки 0*. В отличие от байесовского случая здесь имеется произвол, связанный с выбором оценки 0*. Форма границ интервала показывает, что достичь заданных размеров интервала можно как за счет увеличения объема выборки η (что по разным причинам не всегда осуществимо), так и за счет возможного уменьшения σ(θ*)> Здесь мы приходим к важному выводу, что при равных объемах выборки лучший доверительный интервал будет давать оценка с меньшим рассеиванием σ(0). Таким образом, наилучшие асимптотические доверительные интервалы будут получены при использовании асимптотически эффективных оценок. При выполнении условий (RR) и принадлежности Θ* классу Ко Π Κφ$ (см. § 18, 26) наилучший асимптотический доверительный интервал имеет границы sftrfW) где 0* — любая а.э. оценка, например о.м.п. Некоторые другие методы построения асимптотических доверительных интервалов будут рассмотрены в п. 6. *' Замечание о том, что Г^г.п = Нгп, полезно, так как оно позволяет для вычисления Га,А (если 2λ целое) использовать таблицы распределения χ2, приведенные в приложении, а также во многих других руководствах по математической статистике. /
290 Гл. 2. Теория оценивания неизвестных параметров 4. Построение точного доверительного интервала с помощью заданной статистики. Допустим, что в качестве статистики мы выбрали оценку 0*. Тогда симметричный доверительный интервал уровня 1 — ε с помощью этой оценки было бы естественно искать в форме θ* ± Δ(ε,Χ) или в форме θ*(1 ± Δ(ε, X)), как это было в рассмотренном выше примере. Однако если мы попытаемся реализовать такой план, то окажется, что дело обстоит не так просто, так как в общем случае границы ±Δ(ε,Χ) будут зависеть от неизвестного параметра θ — ведь Δ(ε, -Χ") надо выбрать из условия Έ>θ{θ* - Δ(ε, Χ) < θ < θ* + Δ(ε, Χ)) > 1 - ε, в которое θ входит существенным и весьма сложным образом, прежде всего через само распределение Р#. Поэтому требуется некоторая специальная конструкция для построения доверительных интервалов с помощью данной оценки Θ*. В приводимом ниже построении наряду с оценкой Θ* может участвовать любая статистика 5. Обозначим символом G# распределение 5 и положим GG{x) = Ge{{-oo,x)). Определение 3. Будем говорить, что статистика 5 по распределению монотонно зависит от 0, если при любых χ, θ\ < 02 G6l((x,oo)) ^ G02((x,oo)) или, что то же, ββι(χ)>βφ). (8) Все разумные оценки Θ* обычно этим свойством обладают. Если дополнительно монотонная зависимость Gq(x) от θ является непрерывной, то уравнение <ЗД=7 всегда разрешимо относительно θ при каждом η £ (0,1). Решение этого уравнения обозначим через 6(х,7)· Теорема 1. Если ει+εζ = ε, статистика S по распределению монотонно зависит от θ и функция Gq(x) непрерывна по θ и я, то значения ^ = 6(5,1»ε2), θ+ = 6(5,ει) образуют доверительный интервал уровня 1 — ε. Доказательство теоремы почти очевидно. Воспользуемся тем фактом, что если функция распределения F(x) непрерывна и ξ €= F, то F(£) ^ ^ U0,i (P(F(0 < х) = Р(£ < F~l{x)) = F{F-l{x)) = χ). В силу этого замечания Gq(S) €= Uo,i и, стало быть, Ρ*(ει<σ*(5)<1-ε2) = 1-ε, Ρ^(6(5,1-ε2)<0<6(5,ει)) = 1-ε. <
§ 39. Интервальное оценивание 291 Часто «обращение» функции Ge(S), используемое в теореме, удобно проводить в два этапа. Сначала Gq(x) обращается относительно я, т.е. определяются квантили G^ij) как решения уравнений Gq(x) = 7? а затем решаются относительно θ уравнения Gel(ei) = S, Gjl(l-e2) = S. Такие решения всегда будут существовать, так как по условию теоремы Ggl(y) монотонно и непрерывно зависит от Θ. На рис. 3 представлены кривые у = G^l(ei) и у = G^l — £2), определяющие при каждом θ область значений у, вероятность попадания в которую для некоторой оценки 5 = Θ* равна 1 — ε. Как уже отмечалось, процедура построения доверительного интервала есть обращение функций y = Gg\el), y = GJl{l-ei), т. е. отыскание точек пересечения соответствующих им кривых с уровнем у =■ S. Полученные точки пересечения и дают требуемый интервал Если условие о непрерывности Gq(x) не выполнено, что будет иметь место для дискретных случайных величин 5, то в целом изло- Рис· 3 женная процедура и утверждение теоремы 1 сохранятся с той лишь разницей, что при соответствующем определении квантилей G^ (7) следует удовлетворить неравенству G^((G^1(ei),G^1(l — £2))) ^ 1 - ε> на месте которого мы прежде имели точное равенство. В соответствии с этим утверждение теоремы 1 в этом случае будет иметь вид Р*(0- <0<0+)>1-ε, где θ± есть решения уравнений Gjl(e\) = 5, G^1{1 — 62) = S. При этом мы будем, как и прежде, называть интервал (θ~~ ,θ+) доверительным интервалом уровня 1 — ε. Если мы строим доверительный интервал (0~, 0+) с помощью оценки 0*, то из рис. 3 видно, что этот интервал будет тем уже, чем уже интервал {Gj1(ei)i G^l(l — ε2)) или, что то же, чем более сконцентрировано распределение Θ* около Θ. Таким образом, мы приходим здесь к той же проблеме, что в теории точечных оценок — к отысканию оценок 0*, наиболее точно оценивающих 0. Проблема построения наилучших доверительных интервалов более подробно будет рассмотрена в § 48. Так как вид функций распределения Go{x) даже для простых семейств распределений, приведенных в § 12, оказывается обычно достаточно сложным, то указанная процедура обращения G$(x) становится на практике довольно трудным делом. Поэтому вычисление доверительных границ во многом табулировано. В следующем примере, где мы проиллюстрируем по-
292 Гл. 2. Теория оценивания неизвестных параметров строение доверительных интервалов по схеме, описанной в теореме 1, мы для упрощений будем пользоваться нормальным приближением. Пример 2. Пусть X €= Вр. В качестве оценки для ρ возьмем эффективную оценку ρ* = ν/η, где ν — число успехов в η испытаниях (числом ν может быть, например, число бракованных изделий, обнаруженных при контрольной проверке η образцов). Требуется построить доверительный интервал для доли брака р. Имеем (q = 1 — ρ) ^ / ч ^ / * ч ^ (ν — ηρ χη — ηρ\ GP{x) = РР(р* < χ = РР —=& < .—F . V y/ηρξ Jnpq J В соответствии с теоремой 1 нам надо решить уравнение GP(p*) = 7 (9) для значений 7> равных ε/2 и 1 — ε/2. При больших η в силу центральной предельной теоремы Gp(x) ~ Ф((х — р)гь/ y/npq), где Ф(у) = Фод((-ос,у)), и, стало быть, уравнение (9) можно заменить его приближением \ у/пРЯ / II или, что то же, \{р* -~p)n/y/npq\ = \ε/2 = /?, η Это уравнение для г