Дополнительные главы математической статистики Ч.1 - Бенинг В.Е.

Автор: Бенинг В.Е.
Теги: теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов математика учебное пособие теории оценок гипотезы и теоремы
ISBN: 5-89407-218-2
Год: 2005
Текст
                    
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
им. М.В. ЛОМОНОСОВА
Факультет вычислительной математики и кибернетики
В.Е. Бенинг
Дополнительные главы
математической статистики
Часть 1
В 3-х частях
Учебное пособие
МОСКВА
2005
УДК 519.2
ББК 22.172
Б46
Печатается по решению Редакционно-издательского совета
Факультета вычислительной математики и кибернетики
Московского государственного университета имени М.В. Ломоносова
Бенинг В.Е.
Б46 Дополнительные главы математической статистики:
В 3-х частях: Часть 1: Учебное пособие. - М.: Издательский
отдел факультета ВМиК МГУ им. М.В. Ломоносова (лицензия
ИД N 05899 от 24.09.2001 г.), 2005. - 120 с.
ISBN 5-89407-218-2
Данное учебное пособие содержит материал лекций по математической статистике, чита-
емый автором в течение последних лет студентам третьего и четвертого курсов факультета
вычислительной математики и кибернетики МГУ в рамках обязательного курса “Дополни-
тельные главы математической статистки” и специальных курсов “Теория риска” и “Элемен-
ты асимптотической статистики”. Подробно излагаются основные понятия и теоретические
результаты математической статистики и её приложений. Наряду с классическими результа-
тами, большое место уделено новейшим достижениям математической статистики, связанным
с эмпирическим байесовским подходом, бутстрапом, ранговыми критериям, асимптотически-
ми разложениям Эджворта и асимптотической теорией симметричных статистик.
Первая часть учебного пособия содержит необходимые сведения из теории вероятностей,
основные понятия теории статистических структур, теории достаточных статистик и теории
статистического оценивания.
Для студентов старших курсов и аспирантов университетов по специальностям “матема-
тика” и “прикладная математика”.
Рецензенты:
доктор физико-математических наук, профессор Л. И. Зейфман,
доктор физико-математических наук, профессор Ю. С. Хохлов.
Учебное издание
БЕНИНГ Владимир Евгеньевич
ДОПОЛНИТЕЛЬНЫЕ ГЛАВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
ЧАСТЫ
Напечатано с готового оригинал-макета
в издательстве (XX) “МАКС Пресс”
Лицензия ИДК 00510 от 01.12.99 г.
Подписано ж печати 07.04.2005 г.
Формат 60x90 1/16. Усл.печ.л. 7,5. Тираж 100 экз. Заказ 180.
Тел. 939-3890,939-3891,928-1042. Телефакс 939-3891.
119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова,
2-й учебный корпус, 627 к.
ISBN 5-89407-218-2	© Издательский отдел факультета
вычислительной математики и кибернетики
МГУ им. М.В. Ломоносова, 2005
Содержание
Предисловие	5
Обозначения.......................................... 7
Лекция 1	9
1.1 Случайные величины и функции распределения........... 9
1.2 Список литературы.................................... 16
Лекция 2	17
2.1 Интеграл Лебега. Основные характеристики случайных вели-
чин ................................................ 17
2.2 Список литературы.................................... 24
Лекция 3	25
3.1 Характеристические функции случайных	величин. 25
3.2 Список литературы.................................... 32
Лекция 4	33
4.1 Независимость. Основные законы теории	вероятностей .... 33
4.2 Список литературы................................... 38
Лекция 5	39
5.1	Условные математические ожидания и условные вероятности 39
5.2	Список литературы................................... 46
Лекция 6	47
6.1	Статистические структуры............................ 47
6.2	Список литературы................................... 58
3
4
Лекция 7	59
7.1	Достаточные статистики.............................. 59
7.2	Список литературы................................... 68
Лекция 8	69
8.1	Решения и стратегии................................. 69
8.2	Выбор стратегии .................................... 71
8.3	Список литературы................................... 76
Лекция 9	77
9.1	Теория оценивания................................... 77
9.2	Оптимальные оценки.................................. 82
9.3	Байесовское оценивание ............................. 88
9.4	Минимаксное оценивание.............................. 94
9.5	Список литературы...................................100
Лекция 10	101
10.1	Полные достаточные статистики. Методы нахождения опти-
мальных оценок...........................................101
10.2	Свободные статистики...............................107
10.3 Список литературы....................................ПО
Дополнение	111
0.1 Определение функции полезности......................111
0.2 Страхование со стороны клиента страховой	компании...115
0.3 Страхование со стороны страховой компании...........116
0.4 Эмпирическое определение функции полезности.........117
0.5 Список литературы...................................120
Предисловие
Данное учебное пособие предназначено для студентов и аспирантов матема-
тических специальностей университетов (математика, прикладная матема-
тика), знакомых с базовым университетским курсом теории вероятностей.
Однако мы старались избегать слишком "продвинутых” в математическом
отношении формулировок и доказательств, чтобы круг возможных читате-
лей включал и специалистов в области прикладной статистики, желающих
глубже ознакомиться с математическими аспектами математической ста-
тистики. Для удобства читателей в список литературы включены не только
непосредственные источники приводимых результатов, но также и другие
статьи и книги, которые, по мнению автора, могут оказаться полезными
читателям, которые пожелают продолжить изучение математической ста-
тистики самостоятельно. Данное учебное пособие, состоящее из трёх частей,
представляет собой курс лекций, который в течение многих лет автор читал
студентам 3-го и 4-го курсов кафедры математической статистики факуль-
тета вычислительной математики и кибернетики Московского государст-
венного университета им. М. В. Ломоносова в рамках обязательного кур-
са "Дополнительные Главы Математической Статистики” и специального
курса ” Асимптотическая Статистика”, а также студентам отделения при-
кладной математики Вологодского государственного педагогического уни-
верситета.
Со временем курс лекций неоднократно менялся в поисках варианта, ко-
торый был бы по возможности более стройным и цельным, доступным и
в то же время соответствовал современному состоянию предмета. Помимо
традиционных разделов данный курс лекций содержит и такие разделы, ма-
ло освещённые в отечественной литературе, как эмпирический байесовский
подход, асимптотическое разложение Эджворта и их применения в задачах
проверки статистических гипотез, асимптотическое разложение Корниша
5
Предисловие
- Фишера, ” поправленное” или седловое асимптотическое разложение, сим-
метричные статистики и разложение Хёффдинга, бутстрэп.
Преподаватели ВУЗов, уже знакомые хотя бы частично с математичес-
кой статистикой, могут выбирать из книги совокупность лекций, используя
которые (не обязательно полностью) можно составить семестровый курс
математической статистики.
Обозиачеяяя
7
Обозначения
Р(Л) ЕХ	вероятность события Л; - математическое ожидание случайной величины X;
DX	дисперсия случайной величины X;
Cov(X, У) - тХ	-	ковариация случайных величин X и У; медиана случайной величины X; -	слабая сходимость (сходимость по распределению);
	- сходимость по вероятности;
Р-п.н.	- почти наверное относительно вероятностной меры Р (с вероятностью единица);
	- совпадение распределений;
R1 В1 R* Вк	-	множество действительных чисел; -	борелевская а - алгебра на прямой; -	прямое произведение к множеств R1 ; -	борелевская а - алгебра множеств из R*;
1д() Т(Я) N	-	индикатор множества А; -	множество всех подмножеств множества Я; множество натуральных чисел;
И) В(п,р) Р(А) X(p,a) 7i(a,b) Ф(х), <р(х)	-	доминирующая мера; -	биномиальное распределение с параметрами (п,р); -	распределение Пуассона с параметром А; -	нормальное распределение с параметрами (дц а); -	равномерное распределение на отрезке [а, Ь]; -	функция распределения и плотность
X	3	71 -
с(р-,х) 1(0-, х) им R(0,S)	-	функция правдоподобия; -	логарифм функции правдоподобия £(0; х); -	функция потерь; -	риск оценки <5(Х);
8
Предисловие
г(5,С?)	байесовский риск оценки 5(Х), соответствующий априорному распределению Q;
W)	- байесовская оценка, соответствующая априорному распределению Q;
r(Q)	- байесовский риск оценки <5<j(X), соответствующий априорному распределению Q;
d(X) М*) 3*(Х) арО X	- оценка максимального правдоподобия функции д(0); - минимаксная оценка функции д(0)'-, оптимальная оценка функции <?((?); - эффективная оценка функции д(9)‘, - выборочное пространство;
т	- исходная а - алгебра;
е	- параметрическое пространство;
(е, V) 0() Qx(-) {Рв(-),«е6} sW	-	измеримое параметрическое пространство; -	априорное распределение на (0, V); -	апостериорное распределение на (0, V); -	исходное семейство вероятностных мер; -	оцениваемая функция;
а+	решение уравнения Ф(х) = а; - max{0, а}, а € R1;
а~	- тах{0, —а}, абЯ1;
□	- конец доказательства;
В книге используется стандартная система нумерации формул и утвержде-
ний (определений, теорем, лемм, следствий, примеров и замечаний). Каждое
из упомянутых утверждений снабжено тройным индексом: первое число -
номер лекции, второе номер раздела и третье число - непосредственный
номер утверждения в этом разделе. Аналогичная нумерация применена и к
формулам. Например, ссылка на формулу (4.1.1) означает ссылку на первую
формулу первого раздела четвертой лекции.
Лекция 1
В Лекции приводятся основные определения из теории вероятностей, ка-
сающиеся измеримости, случайных величин и функций распределения. Под-
робные доказательства имеются в стандартных учебниках по теории ве-
роятностей, приведенных во втором разделе.
1.1 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ФУНКЦИИ
РАСПРЕДЕЛЕНИЯ
1)	Пусть Я - некоторое непустое множество произвольной природы, со-
стоящее из элементов и>. Эти элементы называются элементарными
событиями, а множество Я называется пространством элементар-
ных событий.
Пусть А - некоторое множество подмножеств пространства элемен-
тарных событий Я, обладающее следующими свойствами:
(a)	Я € А,
(Ь)	если А € А, то Ас € А,
(с)	если А € Л, i = 1,2, • • , то и
оо	оо
U A, е A, Q А, е А.
i=i	i=i
Множество А называется а - алгеброй событий, или борелевским по-
лем событий, а его элементы называются измеримыми множествами
или событиями.
Множество Я вместе с а - алгеброй его подмножеств называется из-
меримым пространством и обозначается (Я, А).
9
10
Лекция 1
Очевидным образом системы множеств
Д={0, П}, Я={Д: ЛСЛ} = Т(П)
являются сг - алгебрами. При этом А - тривиальная, самая ’’бедная”
а - алгебра, а А - самая "богатая” а - алгебра, состоящая из всех
подмножеств Q.
Счётно-аддитивная мера Р, определённая на А и нормированная усло-
вием Р(Я) = 1, называется вероятностной мерой или вероятнос-
тью. Значение Р(Д) называется вероятностью события А. Тройка
(Я, А, Р) называется вероятностным пространством.
2)	(<Т, В) - измеримое пространство, где X - некоторое множество и В
-а - алгебра его подмножеств.
3)	Отображение (функция) X = X (ш) вида
X :П<—^Х
называется измеримым (Д - измеримым), если
Х~1(В) ё А для всех В G В,
где Х-1(В) - полный прообраз множества В,
Х-\В) = {w ; Х(ы) Е В}.
Класс множеств вида
Ах = {Х~*(В) В е В} С А
называется а - алгеброй, порождённой X. Ясно, что свойство измери-
мости зависит от а - алгебры Д.
4)	Измеримая функция X называется случайным элементом (случайным
элементом со значениями в X). Действительная (X = R1, В - бо-
релевская а - алгебра, то есть наименьшая сг - алгебра, содержащая
все интервалы) конечная измеримая функция называется случайной
величиной. Простейшим примером случайной величины является ин-
дикатор (ш) любого множества А £ Д
!a(w) = | о’ ы $ А ’ АеЛ-
1.1. Случайные величины
11
Другим примером случайной величины служит дискретная случайная
величина, принимающая не более чем счётное множество различных
значений {xi, агг,...}. Очевидно, что события А, = {о»: Х(ш) = Xi} не-
пересекаются и (J, А = П (всюду далее будем обозначать объединение
непересекающихся множеств символом J2, то есть
С- £а< Ф=^-С = иЛ, ЛПЛ,=в,1 0 j).
i	i
Пусть
Р(А{) = Р(Х = х.)=р..
Набор вероятностей {р,} и числа {т,} называются распределением дис-
кретной случайной величины X. Оно полностью определяет вероят-
ность попадания случайной величины X в любое борелевское множес-
тво В £ В
Р(Х е В) - £ Pi.
i:xi€B
Следует отметить, что для любого борелевского множества В £ В
требование измеримости позволяет говорить о вероятностях событий
вида {w : X(w) £ В} состоящих в том, что значения случайной вели-
чины принадлежат некоторому борелевскому множеству В. Поэтому
можно говорить о вероятностной мере Р%, определённой на множестве
всех борелевских множеств В с помощью равенства
РХ(В) = Р(ш : Х(ы) Е В), BE В.
Эта вероятностная мера называется распределением случайной вели-
чины X. В дальнейшем мы часто будем использовать более короткое
обозначение Р(Х Е В) вместо P(w : Х(о>) Е В). Таким образом всякая
случайная величина X порождает новое вероятностное пространство
(вЛе.Рх).
5)	Случайная элемент X индуцирует на пространстве (X, В) вероят-
ностную меру Р%, называемую распределением случайного элемента
X, вида
Рх(В) = Р(Х-1(В)), В ЕВ.
6)	Пусть X = R1, рассмотрим вероятности Р(Х £ В) в случае, когда
множества В есть интервалы (—оо,х), то есть пусть В = (—оо,х).
Положим в этом случае
Вх(х) = F(x) = Р(Х < х).
12
Лекция 1
Функция F(x) определена для любого действительного х и называется
функцией распределения случайной величины X. Если X - дискретная
случайная величина, для которой Р(Х = х,) — р<, то
Fx(x} = $2 Pi'
Функция распределения F(x) произвольной случайной величины обла-
дает следующими свойствами:
(a)	F(x) не убывает и непрерывна слева,
(b)	IimI_t_oo F(x) - О,
(с)	limx-ц-оо F(x) - 1.
Верно и обратное: любая функция F(x), удовлетворяющая этим трём
условиям, является функцией распределения некоторой случайной ве-
личины, определённой на некотором вероятностном пространстве.
Справедливо следующее
Утверждение 1.1.1. Функция распределения F(x) имеет самое боль-
шее конечное число точек, скачок в которых больше или равен S > О
и, следовательно, самое большее счтное число точек разрыва. Про-
изводная F'(x) функции F(x) существует для почти всех значений
х.
F{x) всегда может быть единственным образом представлена в ви-
де суммы трх компонент:
F(x) = aiF\(x) + a2F2(x) + а3^з(х),
где aj, аг, аз - некоторые неотрицательные числа, сумма которых
равна единице, a Fi(x), F2(x), Ез(х) - функции рапределения, такие,
что: Fi(x) абсолютно непрерывна, то есть
Fi(x) — [ Fy(t)dt, для всех х;
J-со
(под интегралом понимается интеграл Лебега),
F2(x) ступенчатая функция распределени, равная сумме скачков
функции распределения F(x) во всех точках разрыва меньших х;
^з(х) - сингулярная компонента, то есть непрерывная функция, про-
изводная которой почти всюду равна нулю.
1.1. Случайные величины
13
Расмотрим, в частности, случаи, когда aj или аг равны единице, так
что F(x) совпадает с Fi(x) или ЕгМ- Эти случаи чаще всего встре-
чаются в приложениях. В первом случае распределение случайной ве-
личины X будем называть абсолютно непрерывным (можно показать,
что распределение случайной величины X абсолютно непрерывно, ес-
ли Р(Х £ В) = 0 для любого борелевского множества В е В нулевой
лебеговой меры), производная рх(х) = р(х) — F'(x) называется в этом
случае плотностью распределения случайной величины X. Мы бу-
дем говорить о плотности распределения только в том случае, когда
это распределение абсолютно непрерывно. Во втором случае, когда
аг — 1 распределение X или сама случайная величина X называются
дискретными. В этом случае существует конечное или счётное мно-
жество X точек действительной прямой, такое, что Р(Х G X) = 1.
Если X - случайная величина с дискретным рапределением и Р(Х =
х) > 0, то число х называется возможным значением случайной ве-
личины X. Случайная величина X имеет решетчатое распределение,
если с вероятностью единица она принимает значения вида b+nh, п =
О, ±1, ±2,..., где Ь и h > 0 - фиксированные числа. Число h называтся
шагом рапределения. Если ни при каких и hi > h значения, при-
нимаемые случайной величиной X с вероятностью единица, не могут
быть представлены в виде &i + nhi, п = 0, ±1, ±2,..., то шаг h назы-
вается максимальным.
Особенно важную роль играют три дискретных рапределения - вы-
рожденное, биномиальное и пуассоновское, и два абсолютно непре-
рывных распределения - нормальное распределение и равномерное рас-
пределение.
(а)	Вырожденное РАПРЕДЕЛЕНИЕ. Случайная величина X имеет
вырожденное рапределение, сосредоточенное в точке a е R1, если
P(X = a) = 1.	(1.1.1)
Функция распределения F(x) равна нулю при х < а и равна
единице при х > а. Вырожденное распределение описывает не-
случайные величины.
(Ь)	Биномиальное рапределение. Случайная величина X имеет
биномиальное рапределение с параметрами (п,р), 0 < р < 1, п >
14
Лащкя 1
1, если
Р(Х = к) = |?)р*(1-р)"-*, Л = 0,1,...,п.	(1.1.2)
1 к 1
Этот факт мы будем обозначать в виде
X ~ В(п,р).
Функция распределения F(x) равна нулю при х < 0, равна еди-
нице при х > п и равна
k=l \К/
при I < х < I + 1. Биномиальное распределение описывает слу-
чайный эксперимент состоящий из п независимых испытаний с
вероятностью р наступления некоторого события в отдельном ис-
пытании. Тогда распределение общего числа наступлений этого
события в эксперименте является биномиальным с параметрами
пир.
(с)	Распределение Пуассона. Случайная величина X имеет ра-
пределение Пуассона с параметрам А > 0, если
Р(Х = к) = е~А^, к = 0,1,...	(1.1.3)
k\
Обозначение:
Х~Р(А).
Распределение Пуассона даёт хорошую аппроксимацию биноми-
ального распределения для больших п и малых значений р (слу-
чай редких событий).
(d)	Нормальное рапределенИЕ. Случайная величина X имеет нор-
мальное рапределение с параметрам (д,<т), р е R1, а > 0, если
она имеет плотность вида
р(®) = “- м)2/2п2}-	(1Л-4)
Обозначим это как
X ~АГ(М)0-2).
1.1. Случайные величины
15
Нормальную функцию распределения и плотность с параметрами
(0,1) всюду в дальнейшем будем обозначать через Ф(х) и tp(x) и
называть стандартными. Таким образом
<р{х) — —у= ехр{— х2/2}, Ф(х) = f	(1.1.5)
у2тг	J—оо
Фундаментальная роль, которое играет нормальное распределе-
ние, объясняется тем, что при широких предположениях суммы
случайных величин с ростом числа слагаемых ведут себя асимп-
тотически нормально.
(е)	Равномерное распределение. Случайная величина X имеет
равномерное рапределение на отрезке [а, 6], если она имеет плот-
ность вида
_ f (6-«Г1. же [а,6],	м
Р(х) = |	0,	(1L6)
Обозначим это как
X ~7г(а,6).
Равномерное распределение естественно возникает в случаях пол-
ного отсутствия информации или при наличии симметрии.
7) Рассмотрим некоторое измеримое пространство (Т7 8, С) и В - измери-
мую функцию Т = Т(х) со значениями в Т7,
Т : X и-> X.
Тогда суперпозицией функций Т и X называется функция
Ф(ы) = Т(Х(ы)).
При этом эта функция является случайной величиной со значениями
в F. Обозначим её распределение через
р^,(С) = р(ф-1(С)), Се С.
8)
ф-^с) = х-Чт-^с)),
Р^(С) = Р(Ф'г(С)) = ррг-Чт-Чс))) = PxfT-^C)), С е С,
то есть, если известно распределение случайной величины X и функ-
ция Т{х), то известно и распределение Т(Х).	1
16
Лекция 1
9) Справедливо следующее
Утверждение 1.1.2 ([1], стр. 60, Предложение 2.2.5). Пусть Ах С
А есть а - подалгебра а - алгебры А, порожденная случайной вели-
чиной X. Для того, чтобы случайная величина У определенная на
(fl, А) была Ах - измеримой, необходимо и достаточно, чтобы У
можно было представить в виде
Y = f(X),
где f (х) - измеримая функция отображающая R1 в себя.
1.2 СПИСОК ЛИТЕРАТУРЫ
1)	Ж. Невё, Математические Основы Теории Вероятностей,
Москва, Мир, 1969, Главы 1-2.
2)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989, Главы 1-2.
3)	М. Лоэв, Теория Вероятностей,
Москва, Иностранная Литература, 1962, Часть 1, Глава 1; Часть 2,
Глава 4.
4)	И.П. Натансон, Теория Функций Вещественной Переменной,
Москва, Наука, 1974, Главы 8-9.
Лекция 2
В Лекции приводится без доказательства основная схема построения ин-
теграла Лебега. Определяются такие характеристики случайных величин
как математическое ожидание, дисперсия, мода, медиана, асимметрия и
эксцесс.
2.1 ИНТЕГРАЛ ЛЕБЕГА. ОСНОВНЫЕ ХАРАК-
ТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН
1)	Пусть X(ю) случайная величина, заданная на вероятностном простран-
стве (Q, А, Р). Поскольку вероятностное пространство есть измеримое
пространство с мерой, то можно ввести понятие интеграла. Опишем
кратко схему построения интеграла Лебега.
Действительная случайная величина X (X = R1) называется ступен-
чатой, если существует разбиение множества П
N
U = П, П flj = в, i j
i=l
такое, что
Х(ш} = Х{, to G Qj, i =
причём все Xi различны.
Обозначим через S - класс всех ступенчатых случайных величин.
2)	Индтикатором (индикаторной функцией) назывется функция вида
. / \	( 1, и) G А А л
1л(ш) = | О, Ш$А ’ ЛеЛ
17
18
Лекция 2
Используя индикаторы, ступенчатую случайную величину можно за-
писать в виде
N
хе8=>х = ^з,1П|(4
•=1
3)	Если X неотрицательная случайная величина
X :Q>—»-R.+ = [0,+оо),
то существует неотрицательная неубывающая последовательность сту-
пенчатых случайных величин
xnes, х„>о, Х„<Хп+1,
монотонно сходящаяст к X
Хп f X, п -+ +оо.
4)	Для ступенчатой случайной величины X определим математическое
ожидание по формуле
N
xes^EX=f£Xlp^..).
<=1
5)	Математическое ожидание для неотрицательных случайных величин
теперь определим как
X > О, ЕХ Щ Lim ЕХП, где Хп е S, Хп t X.
П—>ОО
6)	Случайную величину X, принимающую произвольные знаки, можно
всегда представить в виде разности неотрицательных случайных ве-
личин
X = Х+ - Х~, где Х+ = тах(Х,0), Х~ = тах(-Х,0).
Теперь определим математическое ожидание произвольной случайной
величины по формуле
EX =' ЕХ+ - ЕХ~ == J X(w)dP(o>) = I X(w)dP(u>),
n
I X(w)dP(u>) ЕХ1Л.
A
2.1. Интеграл Лебега
19
7)	Случайная величина X называется интегрируемой, если
ЕХ+ < +оо, ЕХ~ < +оо.
8)	На множестве интегрируемых случайных величин математическое ожи-
дание обладает следующими свойствами
(а)	Линейность
ЕаХ = аЕХ, Е(аХ + /ЗУ) = аЕХ + /3EY, a,/3eRl.
(b)	Сохранение порядка
X < Y EX < EY.
(с)	Непрерывность относительно монотонной сходимости
Хп U х => ЕХп U ЕХ.
(d)	Лемма Фату.
Хп > Z, Z - интегририруема ==> Elim inf Хп < liminf EXn,
n—»+оо	n-++oo
Xn < Y, Y — интегририруема => Elim sup Xn > limsupEXn.
n—>4-oo	n—>+oo
Отсюда следует Теорема Лебега о мажорируемой сходимости: ес-
ли последовательность случайных величин Хп сходится и сущест-
вует интегрируемая случайная величина U > 0 такая, что
|Х„| < U, E|CZ| < +оо,
то
Е Lim Xn = Lim ЕХП.
П—>ОО	П—>00
(е)	а - аддитивность неопределённого интеграла
X > 0 => У X(w)dP(w) = £ I X(w)dP(w),
“	*=1А,
и*
1^1
где {Aj G A, i = 1,2, • - •} - семейство попарно непересекаюшихся
измеримых множеств.
А==> yX(w)dP(w)t;yX(w)dP(w), п -» +оо.
Ап	А
20
Лекция 2
(f)	Формула замены переменного: если
Ф(ы) = Т(Х(ы)), У = R1
ТО
ЕФ = у T(X(w))dP(w) = У tdP^(t) = у T(«)dPx(»).
П	В.1	X
(g)	Теорема Радона - Никодима. Пусть на измеримом простран-
стве (Х,В) имеется сг - конечная мера и и а - аддитивная
функция множеств G, абсолютно непрерывная относительно
v (G и). Тогда существует плотность G относительно п,
то есть существует В - измеримая функция д(х) такая, что
G(B) — У g(x)du(x), для всех В € В.
В
Функция д(х) называется производной Радона - Никодима и обо-
значается как
. dG(i) _ dG
С точностью до и - множеств меры нуль функция д(х) единст-
венна. Теорема Радона - Никодима даёт общие условия сущест-
вования плотности.
ПРИМЕР. Пусть на измеримом пространстве (X, В) заданы две
вероятностные меры Pi, Pj, имеющие соответственно плотности
Р1 (т), р?(х) относительно меры и. Предположим, что выполнено
условие
р2(а:) = 0 =► pi(x) = 0.
Тогда
Р1(В) = [р1(х)^(х) = ( ^p2(x)dp(x) = ( ^dP2(x), Be В.
J	J Р2(Х)	J Р2(Х)
о	о	В
То есть производна Радона - Никодима меры Pi относительно
меры Р2 имет вид
<*Р1 / ч _ Р1(д)
dP2' ’ P2(z)’
2.1. Интеграл Лебега
21
(h)	Если через F(x) обозначить функцию распределения случайной
величины X, то справедливо равенство
+00
ЕХ = J xdF(x),
— ОО
здесь в правой части стоит интеграл Лебега - Стилтьеса. Если у
случайной величины X существует, плотность рх(х), то
ЕХ = у xpx(x)dx.
Если Л(х) борелевская функция, то есть действительная функция,
область определения которой является действительная прямая и
при любом с £ R1 множество {+ : h(x) < с} является борелевским,
то
ЕЛ(Х) = I h(x)dF(x),
—оо
при условиии, что существует хотя бы один из этих интегралов.
9)	Моментами аа и абсолютными моментами /35 порядка s > 0 случай-
ной величины X называются математические ожидания случайных
величин Xs и
+оо
a, = EXa = j xadF(x),	(2.1.1)
— ОО
+оо
Д = Е|Х|' = I \x\adF(x).	(2.1.2)
-оо
Центральный момент р, и абсолютный центральный моментами о,
порядка з > 0 случайной величины X определяются соответственно
равенствами
+оо
м, = Е(Х - EX)’ = I (х - ai)‘dF(x),	(2.1.3)
— ОО
22
Лекция 2
+оо
vs = Е|Х - EAT = J I® - airdF(i). (2.1.4)
—oo
Особую роль играет второй центральный момент который называ-
ется дисперсией случайной величины X и обозначается символом DX,
то есть
DX = Е(Х - EX)2 = EX2 - (ЕХ)2.
Заметим, что DX всегда определена, если определено ЕХ, но может
принимать значения +ос.
Величина а = у/DX называется среднеквадратичным отклонением
случайной величины X.
Отметим важное свойство величины DX: если DX = 0, то
Р(Х = EX) = 1,
то есть в этом случае случайная величина X с вероятностью единица
постоянна. Далее, если дисперсия конечна, то
D(aX + 6) = a2DX, a, beR1.
В частности, нормированная случайная величина
всегда имеет среднее 0 и дисперсию 1.
Если у случайной величины X существует момент а* порядка к, то
/Зтт < и I'm"1 < для любого положительного т < к.
Отсюда следует, что fimPi < Pm+l и I'mi'l < ^т+i для любых I и т.
Рассмотрим теперь некоторые характеристики формы и расположения
распределения случайной величины.
Если случайная величина X абсолютно непрерывна, то значения х,
в которых плотность рх(х) достигает своего максимального значе-
ния, называются модами. Если мода единственна, то распределение
случайной величины называют унимодальным, в противном случае -
мультимодальным.
Если X дискретная случайная величина и
Рк - Р(Х = х*),
2.1. Интеграл Лебега
23
то её мацами называют те значения ц, для которых
Р(Х = Xi) = naaxp/c-
Медианой случайной величины X называется любое число тХ, для
которого справедливы соотношения
Р(Х > тХ) > ~ и Р(Х < тХ) >
Для случайной величины X с абсолютно непрерывным распределени-
ем медиана определяется как значение тХ, для которого
У Px(x)dx = У px(x)dx =
Квантиль порядка a, a G (0,1), есть значение ха, для которого
Р(Х > ха) > а и Р(Х < ха) > а.
Если X - случайная величина с абсолютно непрерывным распределе-
нием, то квантиль ха порядка а определяется равенством
Fx(xa) = а.
Медиана является квантилью порядка 1/2.
Если случайная величина X имеет конечные моменты до четвёртого
порядка включительно, то величина
д3 Е(Х - ЕХ)3
п3 D3/2*
называется коэффициентом асимметрии, а
коэффициентом эксцесса её распределения. Эти величины характери-
зуют степень отличия функции распределени F%(i) от функции рас-
пределения Ф(т) стандартного нормального распределения, для кото-
рого коэффициенты асимметрии и эксцесса равны нулю.
24	Лекция 2
2.2 СПИСОК ЛИТЕРАТУРЫ
1)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989, Глава 2.
2)	П. Халмош, Теория Меры,
Москва, Иностранная Литература, 1953, Главы 4-5.
3)	М.Дж. Кендалл, А. Стьюарт, Теория Распределений,
Москва, Наука, 1966, Главы 1-2.
Лекция 3
В Лекции определяются характеристические функции случайных величин,
семиинварианты, приводятся основные свойства характеристических функ-
ций.
3.1 ХАРАКТЕРИСТИЧЕСКИЕ ФУНКЦИИ СЛУ-
ЧАЙНЫХ ВЕЛИЧИН
1)	Пусть случайная величина X имеет функцию распределения F(x),
тогда характеристической функцией называется комплекснозначная
функция вида
+ 0О
/x(t)=/(t) = Ee«* = J eilxdF(x) =	(3.1.1)
—оо
+оо	4-оо
cos(tz)<iF(:r) + * У sin(tx)dF(x}.
—оо	—оо
В частности, если у случайной величины X существует плотность
р(х) = F'(x), то характеристическая функция является преобразова-
нием Фурье плотности р(х)
+оо
/(t) = У e'tTp(x)dx.	(3.1.2)
— ОО
Для дискретной случайной величины X, принимающей значения
с вероятностями р*, характеристическая функция f(t) представима
25
26
Лекции 3
рядом
/(t) = 5>ite‘pt.	(3.1.3)
k
Несложно видеть, что если
X~JV(M,a2),
то
/(t) = exp{itg — t?cr2/2).
Характеристические функции определены при всех действительных t
для любых случайных величин. Приведём основные свойства характе-
ристических функций:
(а)	справедливы соотношения
/(0) = 1, |/(t)| < 1, «ен1;
(Ъ)	характеристическая функция равномерно непрерывна на всей дей-
ствительной оси;
(с)	(положительная определённость характеристических функций) при
каждом n е N для любых комплексных чисел z\,..., zn и любых
вещественных чисел ti,..., tn
~~	— 0?
(d)	эрмитовость:
/(-<) = /(t);
(е)	при У = аХ -I- 6, где а и 6 - действительные числа
/y(t) = e‘“/x(at).
Для решётчатого распределения
рп = Р(Х = b + nh), п = 0,±1,±2,...
характеристическая функция / (t) представима в виде ряда Фурье
+оо
/(t)=eitb £ e“"hpn	(3.1.4)
п=—ОО
3.1. Характеристические фушашя
27
так что
1Л21Г/Л)! = 1.
Обратно, если при некотором to 0 справедливо равенство
l/(to)l = 1,
то соответствующее распределение решётчатое.
Максимальный шаг распределения равен h тогда и только тогда, ког-
да модуль характеристической функции меньше единицы при 0 < |t| <
2тг/1 и равен единице при t = 2ir/h.
2)	Согласно Утверждению 1.1.1, мы можем каждую функцию распределе-
ния F(x) представить в виде суммы суммы трёх компонент. Используя
этот факт, получаем соответствующее представление для характерис-
тических функций
f(x) = 01/1 (s) + 02/2(1) +03/3(1), е- (3.1.5)
где каждый член содержит характеристическую функцию соответ-
ствующей компоненты F(x). Рассмотрим теперь в отдельности по-
ведение каждого из этих трёх членов.
(а)	Так как Fi (х) абсолютно непрерывна, то
+ОО
/1(0= I e'txF[(x)dx
—ОО
и, следовательно по Теореме Римана-Лебега
/i(t) -> 0 при |t| -> 00.	(3.1.6)
Если для всех х существует абсолютно интегрируемая n-я произ-
водная F[n\x), то интегрирорванием по частям несложно пока-
зать, что поведение /i(t) на бесконечности описывается соотно-
шением
/1W = °(]7ргт) п₽и t->00-	(3.1.7)
(Ь)	Если через z* и р*,, 1 = 1,2,... обозначить соответственно точки
разрыва и величины скачков функции распределения F(z) в этих
точках, то
ОО
a2f2(t)^^pke^.
fc=i
28
Лекция 3
Это выражение представляет собой сумму абсолютно сходящего-
ся тригонометрического ряда и
limsup |/2(t)| = 1.	(3.1.8)
|t|-4OO
(с)	Характеристическая функция /зй является характеристической
функцией непрерывной функции распределения Р3(х), имеющей
производную, почти всюду равную нулю. При этом /з(<) может
не стремиться к нулю при |t| —> оо.
Таким образом справедливо следующее
Утверждение 3.1.1. Если в представлении функции распределения
F(x) в виде суммы трех компонент (см. Утверждение 1.1.1), aj > О,
то
limsup|/(t)| < 1.
|t|—>оо
Отсюда следует, что для |t| > е > О
I/WI < < 1,
при любом сколь угодно малом е > 0.
Если Д1 = 1, то
lim f(t) = 0.
|t|-»oo
Если аг = 1, то
limsup|/(t)| = 1.
|t|—юо
Для любой характеристической функции f(t) справедливо равенство
т
1 г	00
ЛШоо2Т 1=
—Т	к—1
где pk величины скачков функции распределения F(x) во всех ее точ-
ках разрыва in, k = 1,2,...
Справедливо также следующее утверждение.
Утверждение 3.1.2. Если f(t) - характеристическая функция та-
кая, что
|/(<)| < ?<1 пРи И| > с, О 0,
3.1. Характеристические функции
29
то при |t| < с справедливо неравенство
1/(01 < 1-(1-?2)^2	ехр{“(1-92)g^}-
При малых t поведение /(t) описывается следующим неравенством.
Утверждение 3.1.3. Пусть f(t) - характеристическая функция не-
которого невырожденного рапределения. Тогда существуют такие
<5 > 0 и 7 > 0, что
при |t| < 7.
3)	Случайная величина X и её распределение называются симмметрич-
ными, если функции распределения случайных величин X и —X сов-
падают, то есть, если
X = -X.
Если X - симметричная случайная величина и /(t) её характеристи-
ческая функция, то
/(<) = Eeitx = Ее = /(-t) = /(t).
Таким образом характеристическая функция симметричной случайной
величины всегда действительна.
Если у случайной величины X существует момент а* = ЕХ* неко-
торого целого порядка k > 1, то характеристическая функция этой
случайной величины дифференцируема к раз и, кроме того, справед-
ливо соотношение
/^(0) =	= г*ЕХ*.	(3.1.9)
Используя формулу Тейлора, можно показать, что если случайная ве-
личина X с характеристической функцией /x(t) имеет момент а* =
ЕХ* некоторого целого порядка к > 1, то справедливо разложение
* п,
/x(t) = l + ]T^(rt)J + o(|t|*), t-> 0.	(3.1.10)
Для достаточно малых значений t главная ветвь log/x(t), которая
стремится к нулю вместе с t, представима в виде
^fxW = ^^(ity + o{\t\k), t->0.	(3.1.11)
30
Лекция 3
при этом коэффициенты {«,(Х) = Kj, j = 1,2,...} называются куму-
лянтами или семиинвариантами случайной величины X. Семиинва-
рианты определяются также по формуле
где ~	(3.1.12)
Для нормального распределения с произвольными параметрами семи-
инварианты всех порядков, начиная с третьего, равны нулю. Для рас-
пределения Пуассона с параметром Л семиинварианты всех порядков
равны Л.
Из формального тождества
log 11+£
можно получить следующую формулу, связывающую семжжнваршшт
к3 произвольного порядка з с моментами ai,..., as
Ks = я! £(-l)mi+ -+m--1(m1 + ... + ms - 1)! Ц ^(^)"“. (3.1.13)
Здесь суммирование производится по всем целым неотрицательным
решениям уравнения
mi + 2тг + ... + sm3 = s.
Отсюда несложно получить следующие формулы
«1 = ЕХ = си, «2 ~ DX = Д2,	(3.1.14)
«3 = ИЗ, «4 = д»4 - 3^2, «5 = М5 - Ю/МгМз.
«6 = Мб - 15М2М4 - Юмз + 30/4,
К.7 = р.7 - 21Д2М5 - 35дзМ4 + 210/4/*3,
к8 = Да - 28ргМб — 56рзр5 - 35р1 + 420д|м4 + ббОдгМз _ 630/4
Можно показать, что для семиинвариантов справедливы неравенства
|«п| < ППД», П = 1,2,...	(3.1.15)
3.1. Характеристические функции
31
Пусть X = (Xi, • • •, Хп) - случайный вектор со значениями в евклидовом
пространстве Rn и функцией распределения
F(x) = P(Xj < Xi, • • • ,Хп < тп), х = (ii,    ,хп) е Rn.
Характеристическая функция случайного вектора X — (Xi, • • , Хп) опре-
деляется равенством
/(t) = Еехр|52«,Х;] = [ exp^^tiXi^dF^x), t = (ti,  , tn) e Rn.
.=i	t=i
Свойства характеристических функций многомерных распределений ана-
логичны свойствам характеристических функций случайных величин. Мо-
ментами ('смешанными моментами) случайного вектора X = (Хх, •   ,Хп)
называются числа вида
ah>.-,fcn = EXf1--X^,
при этом число
k = ki Н-------h кп
называется порядком момента. Моменты с натуральными индексами мож-
но определить дифференцированием характеристической функции
(-i)*a*/(o)
0*1	^l...^*n’
О 6 Rn.
32
Лекция 3
3.2	ЛИТЕРАТУРЫ
1) А.Н. Ширяев, Вероят!
Москва, Наука, 1989,
2) М. Лоэв, Теория Вере Москва, Иностранная Литер!	, Глава 4.
3) М.Дж. Кендалл, А. Стьюарт Москва, Наука, 1966, Глава 3-4.	!НИИ,
4)	Е. Лукач, Характеристические Функции,
Москва, Наука, 1979, Глава 1-4.
Лекция 4
В Лекции определяется понятия независимости и случайного процесса.
Формулируются Центральная Предельная Теорема и Закон Больших Чи-
сел.
4.1 НЕЗАВИСИМОСТЬ. ОСНОВНЫЕ ЗАКОНЫ
ТЕОРИИ ВЕРОЯТНОСТЕЙ
1)	Пусть Xi = Xi(w),... ,Хп = Хп(ш) - случайные величины, определён-
ные на одном и том же вероятностном пространстве (П, Д, Р), тогда
вектор Xn = (Xj,  • • , Хп) называется случайным вектором, или п -
мерной случайной величиной. Областью значений случайного векто-
ра Хп является п - мерное евклидово пространство Rn. Для каждого
борелевского множества В пространства Rn определена вероятность
Р(хп е в)
называемая распределением случайного вектора Х„. В частности, для
любых действительных чисел Xi,..., хп определена функция
В(х 1,.. •, xn) = Р(Х\ < х^,..., Хп < хп),
которая называется функцией распределения случайного вектора Хп.
2)	Пусть (П, Д, Р) - вероятностное пространство, и пусть A, g Д, i —
1,2,..., п. События Ai,..., Ап называются взаимно независимыми, ес-
ли
k
P(Aiin...nAit) = nP(Ali)
4=1
33
34
Лекция 4
для любого целого числа 2 < к < п и любых целых 1 < »!<...<
IJt < п.
Пусть (Xi, • • • ,ХП) - случайные величины, определенные на (Я,Л,Р).
Эти случайные величины называются независимыми, если взаимно
независимы события вида
{ш : X(w) G Вк}, к = 1,...,п
для любых борелевских множеств Bi, .., Вп на действительной пря-
мой. Случайные величины (Xi,---,Xn) независимы тогда и только
тогда, когда
F(xi,...,xn) = П Fdxk)
k=i
для любых действительных xi,..., хп. Здесь
F(xi,...,x„) - P(Xi <хь...,Хп < хп) и Fk(x) = Р(Хк <х).
Последовательность случайных величин Xlt Х%,..определённых на
одном и том же вероятностном пространстве, называется последова-
тельностью независимых случайных величин, если случайные вели-
чины Х\,.,., Хп независимы при любом п.
Для любой последовательности функций распределения Fi(x), Fj(x),...
существует вероятностное пространство (П, А, Р) и определённая на
нем последовательность независимых случайных величин Х1,Хг,...
такая, что для любого п функция распределения случайной величины
Хп есть Fn(x).
Если Xi,..., Хп+т - независимые случайные величины, h и g - боре-
левские функции со значениями в R1, определённые соответственно на
Rn и Rm, то случайные величины /i(Xi,... ,Хп) и ff(Xn+i,..., Xn+m)
независимы. Если случайные величины /i(Xt,..., Хп) и g(Xn+i, •.., Xn+m)
имеют математические ожидания, то
ЕЛ(ХЬ..., Xn)g(Xn+i, - - -, Xn+m) = Eh(Xi,..., Xn)E<>(Xn+1,..., Xn+m).
В частности, если случайные величины X и Y независимы и у них
существуют дисперсии, то
ЕХУ = ЕХЕУ, D(X + У) = DX + DY
4.1 Основные законы
35
УТВЕРЖДЕНИЕ 4.1.1. Если X uY - независимые случайные величины
и Fx(x), Fy{x) - их функции распределения, a fx{t) « /у(<) * харак-
теристические функции, то сумма X+Y имеет функцию распределе-
ния (называемую сверткой или композицией функций распределения
Fx(x), Fy(x)) вида
ОО
Fx ♦ Fy(x) = Fx+y(x) ~ I Fx{x - y)dFY(y) =
—oo
oo
= Fy *Fx[x)= j Fy(x-y)dFx{y),
—OO
и характеристическую функцию
fx+Y(t) = fx(t)fy(t)-
3)	Случайным процессом называется семейство случайных величин ) =
t), заданных на одном вероятностном пространстве (Q, А, Р) и за-
висящих от параметра t принимающего значения из некоторого мно-
жества Т. Обозначать случайный процесс мы будем символами {£(t), t 6
Т}	Последовательности независимых случайных величин Х\, Хг,...
рассмотренные выше, являются случайными процессами, для которых
Т = {1,2,...}. Такие процессы, у которых множество Т можно отож-
дествить со всей или с частью последовательности {..., —1,0,1,...},
обычно называют процессами с дискретным временем или случайны-
ми последовательностями.
Если множество Т совпадает с некоторым числовым интервалом Т -
[а, Ь], то семейство случайных величин f(t) = £(w,t) называется слу-
чайным процессом с непрерывным временем. Интерпретация парамет-
ра t как времени, конечно, не обязательна.
Рассмотрим некоторый случайный процесс £(t) — £(w,t). Если фикси-
ровать и>о G П, то мы получим функцию £(t) = £(woi t), t ЕТ, которую
часто называют выборочной функцией или траекторией случайного
процесса. Таким образом, здесь в роли случайных величин выступа-
ют функции. Как и раньше, мы могли бы рассматривать пространство
элементарных событий fl^, предположив, что есть функциональное
пространство элементов £ = £(t) и что <т-алгебра А^ содержит все
множества вида
U = Ш е С}
36
Лекция 4
для любых to и борелевских множеств С. В этом случае меру в трой-
ке	Р^) мы будем называть распределением случайного процес-
са {£(<), t € Т}. Если же фиксировать значения tj,,. - -, t*, то мы полу-
чим многомерную случайную величину (£(о>, tj), -. . ,((w,it)). Распре-
деление таких случайных величин называется конечномерными рас-
пределениями процесса {£(t), t £ Т}. Из Теоремы Колмогорова о со-
гласованных распределениях следует, что задание согласованных ко-
нечномерных распределений однозначно определяет распределение про-
цесса.
Наиболее простой природой обладают так называемые однородные
случайные процессы с независимыми приращениями.
Случайный процесс {£(<), t G [а, Ь]}, опредлённый на отрезке [а, Ь] на-
зывается случайным процессом с независимыми приращениями, если
для любых чисел а < to < ti < . •. < tn < b случайные величины
независимы.
Случайный процесс {f(t), t е [а, b]} назывется однородным, если рас-
пределения случайных величин £(tj) — £(<о) зависит лишь от длины
интервала tj — to и не зависит от to.
4)	Пусть на измеримом пространстве (Д', В) имеется вероятностная мера
Q (= Рх) я а - конечная мера р. Говорят, что мера Q имеет плотность
относительно р, если существует В - измеримая функция р(х) такая,
что
Q(B) = J p(x)d^(x), для всех В 6 В.
В
При этом если Рх имеет плотность р(т), то
ЕТ(Х) = I T(x)dPx(x) = I T(x)p(x)du(x).
X	X
5)	Центральная предельная теорема. Пусть Xi,X2,-- - последо-
вательность независимых одинаково распределнных невырожденных
случайных величин таких, что
ЕХ? < 4-ос,
4.1 Основные законы
37
тогда
/ Sn - пм
\ >/па
Lim sup
n-too х
где
< z) - Ф(х)
= 0,
Sn — Х± + •  • + Хп, р — EXi, <т2 — DXi,
Ф(х) = [	ф{х) =
6)	Закон больших чисел. Пусть Xi, X?, •   - последовательность не-
зависимых одинаково распределнных случайных величин таких, что
E|Xi| < +оо,
тогда
Р ( Lim п 1
\ п-»оо
= 1.
i=l
38	Лекция 4
4.2 СПИСОК ЛИТЕРАТУРЫ
1)	Ж. Невё, Математические Основы Теории Вероятностей,
Москва, Мир, 1969, Глава 4.
2)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989, Главы 3-4.
3)	М. Лоэв, Теория Вероятностей,
Москва, Иностранная Литература, 1962, Часть 3.
Лекция 5
В Лекции дается общее определение условных математических ожиданий
и условных вероятностей. Рассмотрены их основные свойства.
5.1 УСЛОВНЫЕ МАТЕМАТИЧЕСКИЕ ОЖИ-
ДАНИЯ И УСЛОВНЫЕ ВЕРОЯТНОСТИ
Пусть (О, А, Р) - вероятностное пространство и множества (события) А, В
принадлежат а - алгебре А, причём
Р(В) > 0.
Определим условную вероятность события А при условии события В по
формуле
Р(А I В)
Рассмотрим сначала условную вероятность относительно дискретных слу-
чайных величин.
Пусть £ = £(о>) - случайная величина, принимающая значения {ij, •  •}
с вероятностями
Рг - р(С = X.) > о, i 6 N, = 1.
Рассмотрим множества
В{ = {и : £(w) = a:,}, i 6 N.
Заметим, что а - алгебра А^ порождённая случайной величиной (, состоит
из множеств вида
А = 52В., /CN.	(5.1.1)
•е/
39
40
Лекция 5
При этом существуют условные вероятности вида
Р(А I В.) = Р(А | £ = ®i), » е N.
Определим теперь условную вероятность события А относительно слу-
чайной величины £ как функцию следующего вида:
Р(А | £(ы)) = Р(А | £ = а^), Щ>и w 6 Bi, i6N.
При этом нетрудно видеть, что справедливо следующее основное соотно-
шение, дающее основание для определения условной вероятности в общем
случае, вида
Р(А П Л) = £ Р(А П Bi) = £ Р(А | £ = a:i)P(Bi),
it!	iEl
ИЛИ
Р(АПЛ)= У Р(А | £(w))dP(w), при всех Л 6 А(.	(5.1.2)
л
Определим теперь условное математическое ожидание дискретной слу-
чайной величины г) = r?(w) относительно дискретной случайной величи-
ны £. Пусть г] - дискретная случайная величина, принимающая значения
{уi,j/2, •  } с вероятностями
Чк = Р(»? = У*), *6N, 52^ = 1.
к
Предположим, что случайная величина г; интегрируема, то есть
еы =	< оо-
fc
Определим теперь условное математическое ожидание случайной величи-
ны г/ относительно случайной величины £ как функцию вида:
е(*7 I СМ) = Е(г) I С = d=	= Ук | С = Xi), при wGBi, t€N.
к
Из этого определения непосредственно следует, что
^УкР(г) = УкЛ - Xi) = E(q I £ = ач)Р(С = Zt), t 6 N.
к
5.1 Условные ожидания
41
Суммируя последние равенства по всем i 6 I, получим
£	= Ук, Л) = £ Е(П К = х.)PU = xJ, I С N.
к	ief
То есть справедливо следующее основное интегральное соотношение, моти-
вирующее общее определение условного математического ожидания
У r/(w)dP(w) = У Е(») | $(w))dP(w), при всех Л G А$.	(5.1.3)
Л	Л
Рассмотрим теперь общий случай.
Пусть Т> - некоторая а - подалгебра исходной а - алгебры А и пусть
г) = д(щ) - интегрируемая случайная величина.
ОПРЕДЕЛЕНИЕ 5.1.1. Условным математическим ожиданием интегри-
руемой случайной величины g относительно о - подалгебры Т> называется
случайная величина Е(г? | 7Э)(о>) = Е(г? | Т>), удовлетворяющая следующим
условиям
1) E(r) I V) является V - измеримой случайной величиной.
S) Справедливо следующее интегральное соотношение (ср. (5.1.3))
У rj(iv)dP(w) = У Е(») | 7?)dP(w), при всех D е V. (5.1.4)
D	D
Докажем, что для любой интегрируемой случайной величины g сущест-
вует условное математическое ожидание Е(т? | 72). С этой целью рассмотрим
на V счётно-аддитивную функцию множеств вида
р(Р) = У i?(w)dP(w), D е V.
D
Она является абсолютно непрерывна относительно Р, и поэтому по Теореме
Радона - Никодима (см. Теорему из пункта 8(g), Лекции 2) существует D
- измеримая функция д(щ) такая, что
р(£>) = УDtV,
D
то есть в качестве Е(т? | 7?) можно взять д(щ). Таким образом в соответствии
с Теоремой Радона - Никодима условное математическое ожидание Е(г? | 7?)
42
Лекция 5
определяется однозначно с точностью до множеств Р - меры нуль. Иначе
говоря в качестве Е(т? | 7?) можно взять любую V - измеримую функцию
h(o>), называемую вариантом условного математического ожидания, для
которой
p(D) = I A(w)dP(w), DeV.
D
Отметим также, что из Теоремы Радона - Никодима следует равенство
Eft I V) = ^(о>),
то есть условное математическое ожидание есть не что иное, как производ-
ная Радона - Никодима меры р относительно меры Р (рассматриваемых на
(Я,Р)).
В связи с соотношением (5.1.4) заметим, что мы не можем, вообще гово-
ря, положить
E(jj | V) = г;,
поскольку случайная величина г] не обязана быть V - измеримой.
ОПРЕДЕЛЕНИЕ 5.1.2. Условной вероятностью события А е А относи-
тельно а - подалгебры V называется случайная величина вида
Р(А | 2>)(w) = Р(А | V) = Е(1а | V).
Таким образом это функция удовлетворяющая следующим условиям
1)	Р(А | V) является V - измеримой случайной величиной.
S) Справедливо следующее интегральное соотношение (ср. (5.1.2))
Р(АпП) = I Р(А | 2>)dP(w), при всех DeV. (5.1.5)
D
Пусть ( = £(ш) - случайная величина со значениями в Rn; Обозначим <т
- алгебру, порождённую £ через А^.
Определение 5.1.3. Условным математическим ожиданием интегри-
руемой случайной величины г) относительно случайной величины £ назы-
вается случайная величина вида
Е(п I <(ы)) = Е(ч I с) E(n I At).
5.1 Условные ожидания
43
Условной вероятностью события АеА относительно случайной величи-
ны £ называется случайная величина вида
Р(п|£(Ш))=Р(А|е)‘^Р(А|Л?).
Рассмотрим теперь подробнее условные математические ожидания Е(г? | £)
относительно случайной величины £. Поскольку по определению Е(г) | £) яв-
ляется А^ - измеримой функцией, то согласно Утверждению 1.1.2, найдётся
такая измеримая функция т(х), что
m(^(w)) - Е(т? | f(w)).
Эту функцию т{х) будем обозначать через
E(jj | $ = х), то есть т(х) Е(г? | £ = х)
и называть условным матемтатическим ожиданием т] при условии, что
С = х.
Из Определений 5.1.1 и 5.1.3 следует, что справедливы равенства
У T)dP = У Е(г] | £)dP = У m(£)dP, при всех В Е А^.
в В	в
Поэтому используя формулу замены переменного в интеграле Лебега (см.
Лекцию 2, пункт 8(f)), последнюю формулу можно переписать в виде
У rjdP = у m(x)dP((x), при всех С ЕВ1, (5.1.6)
{w.£eC} С
где Р^ - распределение вероятностей случайной величины £.
Условные математические ожидания почти наверное обладают свойст-
вами обычного математического ожидания. Ниже предполагается сущест-
вование и почти наверное конечность всех условных математических ожи-
даний. Приведём теперь без доказательств (которые, впрочем, непосредст-
венно следуют из определений) основные свойства условных математичес-
ких ожиданий. Приведённые ниже свойства выполняются почти наверное.
Доказательства могут быть найдены, например, в [1] (стр. 231 234).
1) Если г) = С, то
Е(П | V) = С.
44
Лекция 5
2)	Для любых чисел a, b £ R1
Е(ш? + 6С | Р) = аЕ(г? | V) + 6Е« | Р).
3)	Если f <(, той
Е(П | Р) < Е(С | Р).
4)
|Е(П | Р)| < Е(|П| | Р).
5)	Если
Р = {0, ft}, то Е(т? | Р) = Ету.
Если
т> = T(ftl = {£>: D С ft}, то Е(п I Р) = Г}.
6)
Е(Е(^ | Р)) = ЕП.
7)	Если Pi С Т>2, то
Е[Е(П | Р2) | Рг] = Е(т? | Pi).
8)	Если Pi Э Р2, то
Е[Е(П | Рг) | Pi] = Е(т? | Р2).
9)	Пусть случайная величина т) не зависит от а - алгебры Р, то есть не
зависит от 1д(ш), D £ Р. Тогда
Е(П | Р) = Ег?.
10)	Пусть ( - Р измеримая случайная величина, тогда
| Р) = СЕ(„ | Р).
11)	Пусть £ = £(ш)-случайная величина, принимающая значения
с вероятностями
Pi = Р(4 = Xi) > о, i£N, J2pi = i.
Тогда
{«:
i£N.
5.1 Условные ожидания
45
12)	Пусть (р, £) - пара случайных величин, распределение которых обла-
дает плотностью (х, у):
Р((П, С) С С) = У p,,((x,y)dxdy,
С
С&В2.
Пусть рп(т), р?(у) -
и £. Обозначим
соответственно плотности
случайных величин т/
Pnie(* I v) =
Рг*(х,у)
Р?(у)
полагая pn|f(z | у) — 0, если р^(у) = 0.
Тогда
Р(г) £ В \ ^ - у) = У р^(х I y)dx, В е В1
в
и
+оо
Е(п I С = у) = I хр^(х I y)dx.
— 00
46	Лекция 5
5.2 СПИСОК ЛИТЕРАТУРЫ
1)	Ж. Неве, Математические Основы Теории Вероятностей,
Москва, Мир, 1969, Глава 4 §3.
2)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989, Глава 1 §3 и §8, Глава 2 §7.
3)	М. Лоэв, Теория Вероятностей,
Москва, Иностранная Литература, 1962, Часть 4 Глава 7.
Лекция 6
Понятие статистической структуры, вводимое в Лекции, играет в ма-
тематической статистике такую же роль, что и вероятностное про-
странство в теории вероятностей. В частности, относительно выбора
исходной статистической структуры справедливы те же замечания, что
и относительно выбора того или иного вероятностного пространства в
теории вероятностей.
В Лекции даются основные определения математичекой статистики,
используемые в дальнейшем.
6.1 СТАТИСТИЧЕСКИЕ СТРУКТУРЫ
Определение 6.1.1. Пусть Р - семейство вероятностных мер (распре-
делений) на измеримом пространстве (X, Р). Статистической структу-
рой называется тройка (X, Р, Р).
Пространство X имеет смысл пространства наблюдений (в дальнейшем,
как правило, мы будем считать X С Rm, т > 1), то есть имеется слу-
чайный элемент X = X (ш) со значениями в X, заданный на вероятностном
пространстве (Q, Д) и являющийся А — Р измеримым. При этом пред-
полагается, что распределение неизвестно, но принадлежит семейству Р.
Основная задача математической статистики состоит в том, чтобы по на-
блюдению X = х сделать выводы или ’’оценить” распределение Р% случай-
ного элемента . Часто считают семейство Р параметризованным, то есть
имеющим вид
Р = {Рв, »£0}, OCR*,
и предполагают, что отображение
0—> Ро
47
48
Лекция 6
инъективно, то есть обладает свойством
^#^=>3 A&F : Рв, /Рв2.
Такие статистические структуры называются отделимыми или иденти-
фицируемыми. В этом случае задача статистики сводится к ’’оцениванию”
параметра в.
Примеры.
1)	При статистическом эксперименте, состоящем в проведении п незави-
симых наблюдений над случайной величиной, принимающей конечное
число т значений, вероятности которых полностью не известны, но
остаются постоянными в течение эксперимента, приходим к статис-
тической структуре вида
X = {1,2,-^ = Т(Х),
0={»:ЬЙ,-Л,„)бЕт, f 9, = 1, 0.>О, 1 < i < т},
i=l
Рв = (Пв)п,
где По - распределение вероятностей на множестве {1,2, •   ,т}, зада-
ваемое вероятностями (#i,   , вт).
2)	Пусть наблюдается один раз биномиальная случайная величина (см.
пункт 6(b) Лекции 1)
Х~В(п,0)
с неизвестной вероятностью успеха в. В этом случае имеем статисти-
ческую структуру вида
X = {0,1,2, ,«}, F=X(Xj, 9 = (0,1),
Pe(*) = Q»fc(l - 0)"Л Pe(A) = £ Pe(k) = fрв(х)<Ь(х), А е JF,
где р(-) - считающая мера, то есть мера приписывающая каждому
множеству из Т число элементов в нём.
3)	Пусть наблюдается нормальная случайная величина (см. пункт 6(d)
Лекции 1)
X ~Х(ц,а2)
6.1. Статистические структуры
49
с неизвестными параметрами (р,а2). В этом случай статистическая
структура имеет вид X = R1, Т = В1, в = (д, ст2), 0 = R1 х [0, оо),
Рв(А) = У <Pp,a(z)dx, А е В1,
А
где
^,<г(х) = -<Р[-—-), <р(т) = -Х=ехр{—т2/2}.
<т у <т у	V2tt
ОПРЕДЕЛЕНИЕ 6.1.2. Статистическая структура {X, Т, Р) (или семей-
ство Р) называется доминируемой (доминируемым), если существует по-
ложительная о - конечная мера и на {X, F) такая, что выполнено одно
из двух эквивалентных условий:
1) каждое распределение изР абсолютно непрерывно относительно ме-
ры v
Р и, для любого Р € Р.
2) каждое распределение из Р имеет плотность относительно меры v
рр(т) =р(х) =
av
Эквивалентность этих двух условий следует из Теоремы Радона - Никоди-
ма. В дальнейшем будем рассматривать только доминируемые структуры.
Если семейство параметризовано и доминируемо, то плотность относитель-
но меры v будем обозначать как
, dP«, ,
рв(т) = —(х),
то есть
Рв(А) = у pe(x)dv(x), А е У.
А
Такую статистическую структуру можно записать в виде
(X, г, {рв(т), 0 е ©}).
Доминирующая мера не единственна, поскольку если мера v доминирует
структуру и является абсолютно непрерывной относительно меры р, то р
также доминирует эту структуру и новые плотности имеют вид
р-(т) = ^(т)=р(т)^(т).
50
Лекция 6
Определение 6.1.3.Вещественная функция
L(fl\ х) = рв(х),
определнная на (0, X) и рассматриваемая как функция в при фиксирован-
ном х называется функцией правдоподобия.
Иногда будем рассматривать логарифм функции правдоподобия
Z(0; х) = log£(0; х).
Полезный критерий доминируемости статистической структуры даётся сле-
дующей Теоремой.
Теорема 6.1.1. Статистическая структура (X, У, Р) является доми-
нируемой тогда и только тогда, когда существует не более чем счетное
подсемейство Р' С р семейства Р эквивалентное Р, то есть такое, что
v аер : р(А) = 0, v рер1 <=>Р(А) = о, v рер.
При этом в качестве доминирующей меры ц можно взять вероятностную
меру
Р*(А) = срР(А), А еР,
реР'
где числа ср такие, что
ср > 0,	Ср = 1.
реР'
Доказательство. Достаточность условия очевидна, если в качестве до-
минирующей меры v выбрать указанную вероятность Р*.
Докажем необходимость. Предположим, что
Р « 1/, V Р £ Р.	(6.1.1)
Меру v можно считать вероятностью, так как если
X = £ Bi, и i/(BJ < оо, i Е N,
1=1
то эквивалентная мера
i
1
j	6.1. Статистические структуры	51
является вероятностной. Пусть
dP
'	= {z : p(z) > °}, РеР
j
j и И - класс счетных объединений множеств Ар. Докажем, что
j	sup i/(B) = С < 1
;	вен
> достижим. Пусть множества
i	Si = и 4»« е н
,	з>1	1
такие, что
v(Bi) > С- 1/i.
Заметим, что
А = Q В, е Я
i=l
и для любого i справедливы неравенства
С-1/i < 1/(В.) <1/(А) < С,
:	поэтому
р(А) = sup 1/(В).
;	вен
Докажем, что в качестве не более чем счётного подсемейства Т” можно взять
семейство видаР' = {Pj*\ i > 1, j > 1} s {Pt, k > 1} и каждому Pt соот-
ветствует множество Aic = Ар*. При каждом Р справедливы соотношения
Ар U А = (Ар - А) + А е W,
I Поэтому
|	1/(Ар - А) + </(А) = i/(Ap U А) < С = i/(А)
I и значит
i/(Ap-A)=0.
1 Теперь учитывая соотношение (6.L1) отсюда следует, что при всех Р € Р
1	Р(Ар - А) = О, Р е Р.
52
Лекция 6
Но тогда для любого множества F е Л справедливы равенства
Р(Г - А) = О, Р е Р,	(6.1.2)
поскольку
Р(Г Г) Ар - А) < Р(Ар - А) = О, P(F П Ар - А) < Р(А£) = О
и
P(F - А) = P(F О Ар - А) + Р(Г П Ар - А) = 0.
Пусть множество D 6 F таково, что для всех к
Pk(D) = 0.
Поскольку pic(x) > 0 на At, и
У pk{x)dv{x) < Ipk(x)dv{x) = P*(D) = 0,
DnAk	D
то при всех к
f(DHAk) = 0
и значит
p(DnA) =2/ll)n U < £\(DAA*) =0,
X *=i	' fc=i
поэтому из условия (6.1.1) следует, что для любого Р £Р
P(D П А) = 0, Р е Р.
Теперь соотношение (6.1.2) показывает, что вероятность события D
P(D) = P(D - А) + P(D П А) == P(D - А)
равна нулю для любого Р 6 Р. О
Из этой Теоремы непосредственно вытекает следующее
Следствие 6.1.1.Ясли семейство Р или пространство X не более чем
счетны, то статистическая структура (X, F, Р) доминируема.
В случае когда X счётно доминирующую а - конечную меру, приписываг
ющую каждому множеству из Т(А') число элементов в нём, часто называют
считающей мерой. В реальных задачах эта считающая мера в дискретном
случае и мера Лебега в непрерывном случае используются наиболее часто.
6.1. Статистические структуры
53
Из Теоремы 6.1.1 также вытекает следующий основной результат, покат
зывающий, что для доминируемой структуры всегда возможно в качестве
доминирующей меры выбрать вероятность.
ТЕОРЕМА 6.1.2. Статистическая структура {X, У, Р) доминируема
тогда и только тогда, когда найдется вероятностное распределение Р*
на (Л, У}, называемое привилегированным, доминирующее (X, У, Р) и об-
ладающее следующими свойствами:
1)	распределение Р* абсолютно непрерывно относительно любой меры,
доминирующей (X, У, Р);
2)	распределение Р* является строго выпуклой линейной комбинацией
вероятностей из некоторого не более чем счетного подсемейства
Р' С Р, то есть
Р*(А) = £ срР(А), At У,
рер'
где числа Ср такие, что
Ср > 0,	* Ср = 1;
реР'
3)	распределение Р‘ эквивалентно Р, то есть
V АСУ : Р(А) = О, V Р е Р <=> Р*(А) = 0.
Определение 6.1.4. Множество А из У называется Р - пренебрежи-
мым (Р - нулевым), если
Р(А) = 0, V Р 6 Р.
В соответствии с этим Определением часто говорят о выполнении Р -
почти всюду (Р - п.в.) некоторого свойства.
Заметим, что если статистическая структура (X, У, Р) является доми-
нируемой и если Р* - доминирующее привилегированное распределение, то
событие является Р - пренебрежимым тогда и только тогда, когда оно Р* -
пренебрежимо. В самом деле, если событие А является Р* - пренебрежимым
событием, то оно и Р пренебрежимо для всех Р из Р, поскольку Р* домини-
рует Р. Обратно, если событие А является Р - пренебрежимым, то в силу
того обстоятельства, что Р* есть выпуклая линейная комбинация элементов
из Р событие А является и Р*- пренебрежимым.
54
Лекция 6
Определение 6.1.5. Статистикой на статистической структуре
(Д', Р, Р) называется измеримое отображение Т измеримого простран-
ства (X, F) в измеримое пространство (У, Н), не зависящее от? ЕР.
Подчеркнём ещё раз то важное обстоятельство, что статистика не зави-
сит от семейства Р или от параметра в в случае его наличия. Если X = R1,
то статистика Т называется вещественной, в случае X = R* говорят о
векторной статистике. В математической статистике понятие статистики
отвечает понятию случайной величины из теории вероятностей. На прак-
тике использование статистик связано с извлечением нужной информации
из исходных или необработанных данных, подлежащих анализу.
Любая статистика Т порождает статистическую структуру вида (У, Н, Рр),
где
Рт = {Рг, р е р], рг(В) = Р(Т"1(В)), ВеН (6.1.3)
Эта статистическая структура называется статистической структурой, ин-
дуцируемой статистикой Т.
Определение 6.1.6.
1) Пусть 7\ и Ti - две статистики на (<¥, Р, Р) со значениями соот-
ветственно в (Ji, Hi) и (Уг, На). Говорят, что Ti иТа эквивалент-
ны (Ту ~ Та), если
ТГ1(Н1)=Т2-1(Н2).
(Отметим, что это понятие никак не связано с семейством Р, в
частности, если Ti и Та связаны взаимно однозначным и двусторон-
не измеримым преобразованием, то они эквивалентны.)
£) Пусть Ti и Та - две статистики, заданнаые на (X, Г, Р) со зна-
чениями в (У, Н). Говорят, что статистика TiP - эквивалент-
на статистике Та (Ti ~ Та), если событие {Ti / Та} является Р
- пренебрежимым. (Заметим, что Р - эквивалентные статистики
имеют одинаковые распределения для всех Р Е Р).
3)	Говорят, что статистики Т\ и Та, заданные на (X, Т, Р) независи-
мы, если независимы случайные величины Т\ и Та для всех Р € Р.
4)	Вещественная статистика Т, заданная на (X, Т, Р), называется
интегрируемой, если для каждого распределения Р из Р случайная
величина Т интегрируема, то есть существует математическое
ожидание ЕрТ.
6.1. Статистические структуры
55
5)	Вещественная интегрируемая статистика Т, заданная на (X, Р, Р),
называется подобной в среднем (центрированной), если ЕрТ не за-
висит от Р из Р ( ЕрТ = 0 для всех Р изР).
6)	Образом интегрируемой статистики Т, определенной на статис-
тической структуре (X, Р, {Р$,в е в}), называется функция у(в) =
уг(О), определенная на 0 по формуле
7(д) = Евт = у TdPe, ве&.
П
Определение 6.1.7.
1) Пусть (Ху, Ру, Ру) и (Хз, Рз, Рз) - две статистические структуры.
Их прямым произведением
(Ху, Ру, Ру) ® (Х2, Рз, Рз)
называется статистическая структура вида
(Ху х Х2, Ру х Рз, Ру х Рз),
где
Ру к Рз = {Pj х Р2, Pi 6 Ру, Р2 G Р2}.
i) Пусть (Ху, Ру, {Pfli, О 6 0}) и (Х2, Рз, (Рдз,0 € 0}) - две статисти-
ческие структуры с одинаковым параметрическим пространством
0. Их полупрямым произведением
(Ху, Ру, {Р«1,0 е 0}) X (Хз, Рз, {Рв2,0 е ©})
называется статистическая структура вида
(Ху х Хз, Ру х Рз, {Рв1 х Рв2,0 6 ©}).
В частности, полупрямое произведение конечного числа одной и той
же статистической структуры называется структурой повтор-
ной выборки
(X, Р, Р)п = (Хп, Рп, {Рп, Р е Р}).
56
Лекция 6
3) Пусть {X,!F, Р)п - статистическая структура повторной выборки.
Для всякой точки (xi,   , хп) из Хп выборочным (или эмпирическим)
распределением называется распределение на {X, J-), определяемое
по формуле
Pn(a;i,---,Zn; А) =АеР.
ni=l
Произведению статистических структур на практике соответствует сис-
тема независимых наблюдений. В Определении 6.1.7 (2) предполагается, что
значение параметра одинаково. В Определении 6.1.7 (1) этого предположе-
ния не делается. Понятие повторной выборки весьма важно, оно отвечает
конечному числу независимых наблюдений над одной случайной величиной,
проводимых в одинаковых условиях. Если структуры доминируемы, то не-
трудно указать вид функции правдоподобия. В очевидных обозначениях:
£(01,02\ Xi,Xi) — £(0i; zi)£(02; в Определении 6.1.7 (1)
£(0; 2:1,12) = £(0; хз) в Определении 6.1.7 (2).
В случае повторной выборки удобно положить
Ц0-, х) = log£(0; х),
так что	п
1(0; 2;i,--,2:n) = £l(0; 1,).
t=i
Итак, если X = (Xi,  • •, Хп), где Xi - независимые одинаково распределён-
ные случайные величины со значениями в X и распределением Р € Р, то в
этом случае имеем статистическую структуру
(X, X, р)п.
Закон Больших Чисел (см. Лекция 4, пункт 6) показывает, что при боль-
ших п (п -+ оо), если Р е Р есть общее распределение случайных величин
(Xi,  •  ,ХП), то
Р„(Х1,-..,ХП; A), AeJ
’’близко” к Р(А), точнее
P^Lim РП(Х!, •   ,ХП; А) = Р(А)'] = 1, Р 6 Р, А е F.
6.1. Статистические структуры
57
Этот факт весьма часто используется в статистике. Так, для изучения ха-
рактеристик статистической структуры (X, F, Р), таких как моменты,
функции распределения и т.д., рассматривают статистику на (Л1, F, Р)п,
совпадающую с такой же характеристикой для (X, У, РП(Х], • • , Хп; )).
Удобно называть статистику, получаемую таким образом, тем же терми-
ном, что и рассматриваемая характеристика, с добавлением прилагатель-
ного ’’эмпирический” или ’’выборочный”. Таким образом справедлив сле-
дующий ’’выборочный” принцип в статистике: при оценивании некоторо-
го достаточно гладкого функционала Ф(Р) от неизвестного вероятностного
распределения Р е V разумно в качестве оценки взять Ф(РП).
Примеры.
1) Эмпирические (выборочные) моменты.
Пусть
Ф(Р) = ak = EpXj* = I x*dP(x) <oo, k e N.
Тогда эмпирический момент имеет вид
э*» = Ф(Рп)= [	(6.1.4)
7	n i=i
2) Эмпирическая функция распределения.
Пусть F(x) - функция распределения случайной величины Xi, то есть
Ф(Р) = F(x) = P(Xi < х) = У dP(y)<oo, гей1.
-ОС
Тогда имеем эмпирическую функцию распределения
Г	1 п
Кп(х) = Ф(Рп)= / dPn(Xi,- -,Xn!!/) = -^l(_0O>I)(Xi). (6.1.5)
— ОО	1=1
3) Эмпирическая характеристическая функция.
. Пусть /(t) - характеристическая функция случайной величины Хь то
есть
ф(Р) = /(«) = Epe,tX1 = I eitxdP(x), t е В.1.
Тогда эмпирическая характеристическая функция имеет вид
Ш = Ф(РП) = [ e“*dPn(Xi, • •., Хп; х) = 1 £ e’tx’.	(6.1.6)
7	П j=l
58	Лекция 6
6.2 СПИСОК ЛИТЕРАТУРЫ
1)	Ж. - Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 1 §1, §2, §5.
2)	А.А. Боровков, Математическая Статисика,
Москва, Наука, 1984, Глава 1.
3)	Ж.- Л. Соле, Основные Структуры Математической Статистики,
Москва, Мир, 1972, Глава 1.
4)	П.Л. Хеннекен, А. Тортра, Теория Вероятностей и Некоторые её При-
ложения,
Москва, Наука, 1974, Глава 7.
Лекция 7
В противоположном) понятиям, введенным в предыдущей Лекции, кото-
рые обобщают основные определения теории вероятностей, в Лекции вво-
дится фундаментальное понятие достаточности, являющееся собствен-
но статистическим.
7.1 ДОСТАТОЧНЫЕ СТАТИСТИКИ
Обработка результатов наблюдений и представление их в виде, наиболее
подходящем для принятия решений, является одной из важнейших задача
на начальной стадии статистического исследования. При этой первичной
обработке результатов наблюдений объём исходного множества выборочных
значений уменьшается до относително небольшого числа статистик. При
этом было бы желательно, что бы при этом не было потери информации,
необходимой для принятия решения. Понятие достаточности и служит для
математической формализации этой процедуры.
Определение 7.1.1. Пусть {X, Т, Р) - статистическая структура.
V С Р - а - подалгебра называется достаточной, если для любого А из
Т существует вариант условной вероятности
Р(А I ТУ) = Р(Х е A IТ>),
не зависящий от Р из Р.
Это определение равносильно тому, что для каждой интегрируемой ста-
тистики Z существует вариант условного математического ожидания E(Z |
ТУ), не зависящий от Р из Р. Действительно, если указанное свойство верно
для индикаторов множеств из F, то, образуя их линейные комбинации и
переходя к пределам, убеждаемся в справедливости этого факта для всех
интегрируемых статистик.
59
60
Лекция 7
Отметим, что понятие достаточности <т - алгебры непосредственно свя-
зано с семейством р. Ясно, что при расширении Ра- алгебра “D не обязана
оставаться достаточной.
ОПРЕДЕЛЕНИЕ 7.1.2. Статистика Т, заданная на (X, Р, Р) со значе-
ниями в (У, Н) называется достаточной, если достаточна а - алгебра
Т~г(Н).
Хотя в большинстве классических задач важны именно достаточные
статистики, понятие достаточной а - алгебры является, по крайней мере
с теоретической точки зрения, более удобным, чем понятие достаточной
статистики. Отметим, что существуют примеры а - алгебр, которые не
порождаются никакой достаточной статистикой со значениями в заданном
измеримом пространстве.
Пример 7.1.1. Пусть X — (Х\,-• • ,Хп) - независимые одинаково рас-
пределённые случайные величины, имеющие рапределение Пуассона с неиз-
вестным параметром в > 0.
Xi~P(ff), i = l, •••,«.
Докажем, что статистика
i=l
является достаточной. С этой целью заметим, что
i=l
п
поэтому, если J2 k	т £ {Оз 1,2,  • •}, то
1=1
О IV _ t,	_ е~пв0тт\	m!
Рв(Х1 - А:,,- •  ,Хп - kn | Т - т) - —((nW„w - птк1!...ЛпГ
п
Если 52 т, то эта вероятность равна нулю. Итак
i=l
Р(ХеА|Т = щ)=	$2 Pe(X1=fc1,...,Xn = fcn|T = m), At?
не зависит от в.
7.1. Достаточные статистики
61
Покажем на эвристическом уровне, что достаточная статистика Т —
Т(Х) содержит о 9 6 9 (Р G Р) ту же информацию, что и X, то есть при
переходе от X к Т информация о в не теряется.
Поскольку распределение Рв(Х 6 А | Т = t) по определению не зависит
от 9, то мы можем в принципе при каждом t смоделировать статистику Zt,
имеющую это распределение
P(Zt е А) = Ре(Х е А I Т = t), А 6 7,
причём эта статистика Zt информацию о в не содержит. Смоделируем те-
перь статистику Т = Т(Х) так, что бы она не зависала от Zt, тогда состав-
ная статистика Z^x) имеет такое же распределение как и X, и, значит, вся
информация о 9 содержится в статистике Т(Х).
Докажем, что у X и Zr(x) совпадают распределения. Используя свойства
условных математических ожиданий, имеем
Р«(2т(х) 6 А) = Е«Р«(^7’(х) 6 А | Т — t) = EgPg(Zt 6 А | Т = t) =
= E«P(Zt € А) = E,Pe(X е А | Т = i) = Рв(Х 6 А), А € Д.
ПРИМЕР 7.1.2. Предположим, что наблюдение X распределено нормально
со средним ноль и неизвестной дисперсией 92 > О
Х~У(0, в2).
Тогда распределение X симметрично относительно нуля. При условии что
|Х| ~ t, единственные два возможных значения X есть ±t, и из симметрии
следует, что условная вероятность каждого из них равна 1 /2
p(x = t||X|=t)=p(X = -t||X|=t) = l
Таким образом, условное распределение X при заданном |Х| не зависит от
92, и значит статистика
Т(Х) = |Х|
достаточна. Теперь наблюдение X' с тем же распределением, что и X,
можно получить из Т, бросая правильную монету и полагая X' — Т или
X1 = —Т, когда монета выпадет гербом или решёткой.
Выделение достаточных статистик с помощью Опредление 7.1.2 неудоб-
но, поскольку оно требует, во-первых, угадывания достаточной статистики
Т(Х), которая могла бы быть достаточной, а затем проверки того, явля-
ется ли условное распределение X при заданном Т(Х) независящим от 9.
62
жция 7
Однако для доминируемых семейств существует простой критерий факто-
ризации (см. Теорему 7.1.3).
Теорема 7.1.1.Пусть Т> С У - достаточная а - подалгебра для ста-
тистической структуры (X, J7, Р), тогда
1)	<т - подалгебра Т> является достаточной для любой статистической
структуры вида
(X, У, V), где Р1 СР
или Р' выпуклая оболочка Р.
2)	Всякая статистика, эквивалентная достаточной, сама достаточ-
на.
3)	Если ТУ С Т) ~ а - подалгебра "D, тогда ТУ достаточна для ста-
тистической структуры (X, Т>, Р) в том и только в том случае,
когда ТУ - достаточна для исходной статистической структуры
{X, У, PY
Доказательство. Пункты 1 и 2 непосредственно следуют из опреде-
ления достаточности. Для доказательства пункта 3 заметим, что если ТУ -
достататочна для (X, У, Р), то она очевидно достаточна и для (X, "D, Р).
Обратно, если ТУ - достататочна для (Д', Т), Р), то
Р(А | ТУ) = Е(Р(А | V) | ТУ), АеУ.
Поскольку по условию D - достаточная <т - подалгебра для (X, У, Р), то
Р(А | V)
не зависит от Р и является Т> - измеримой функцией, поэтому, в силу до-
статочности ТУ, это условное математическое ожидание не зависит от Р, а
значит и Р(А | ТУ) не зависит от Р. □
В случае доминируемых структур справедлив следующий фундамен-
тальный теоретический результат.
Теорема 7.1.2.Пусть {X, У, {Р$, О g ©}) - доминируемая статисти-
ческая структура, а Р* - привилегированное доминирующее вероятност-
ное распределение. Тогда необходимым и достаточным условием доста-
точности о - подалгебры Т) С У является существование Т> - измеримых
(для всех 9 G Q) плотностей
, , dPg .
PeW =
7.1. Достаточные статистики
63
При этом условии для всякого А е У можно в качестве общего значения
условны! вероятностей Р«(А | 7?) положить
Рв(А | V) = Р*(А | 7>), А £ У.
Доказательство. Необходимость. Пусть V с у - достаточная а -
подалгебра. Для каждого события АеУ обозначим через Р(А | 7?) вариант
Р#(А | V), не зависящий от 6 £ О. Тогда
Р9(Л Л В) = I Ро(А | V)dPe = I Р(А | V)dPe, 9eQ, В eV, АеУ.
в	в
(7.1.1)
Поскольку Р* является выпуклой комбинацией не более чем счётного числа
Р9, 9 £ 0' (Теорема 6.1.2, пункт 2)
Р*(А) = £ свРНА), АеУ,
все'
то переходя к выпуклым комбинациям в равенстве (7.1.1), получим
Р*(А П В) = I Р(А I 7>)dP*, Bev, АеУ, (7.1.2)
в
то есть Р(А | V) задаёт вариант условной вероятности Р*(А | V). Полагая
в соотношении (7.1.1) В — X, теперь получим
Р,(А) = J Р(А | V)dP9 = J Р*(А | V)dP9 = J Р*(А | V)p9dP*, 9 е 0, А £ У,
(7.1.3)
причём, поскольку Ре абсолютно непрерывны относительно Р* на V, то
плотность р9(х) является V - измеримой. Последнее равенство можно за-
писать в виде (см. Лекция 5, свойства 10 и 6 условного математического
ожидания)
I Р*{А | V)p9dP* = Е*Р*(А | V)p9 = Е*Е*(1Л | V)p9 =
= Е*Е*(1дрв | V) = Е*1др9 = У PffdP*, 9 е 0, А е У,
А
то есть
Рв(А) = у pedP*, 9 е 0, А е У.	(7.1.5)
А
64
Лекажи 7
Это равенство и означает, что
Рв(х) = ^(х),
причём плотность ре(х) является Т> - измеримой.
Достаточность. Предположим, что можно выбрать Т> - измеримый
вариант плотности
рй(х) = 5р(х).
Покажем, что тогда Р*(Д | ТУ) может служить условной вероятностью Рв(Л |
Т>) для всех 0 G 0. Имеем
pfl(AпВ) = у 1д1варв - JiAiBpedP*, 0ее, Вет>, АеУ, (7.1.6)
но функция lB(x)pe(x) t> - измерима, поэтому по свойствам 6 и 10 из Лекции
5 условных математических ожиданий, равенство (7.1.6) можно переписать
в виде
РЙ(4ПВ) = J Е*(1л1врв | B)dP‘ =
= у Р‘(А | P)lBpedP* = У Р*(А | P)dPfl, 0 6 0, В G V, А е 7. (7.1.7)
в
Равенство (7.1.7) показывает, что Р'(А | ТУ) может служить условной веро-
ятностью Ре (Л | ТУ) рля. всех 0 6 0. □
Следствие 7.1.1.Пусть V С У - достаточная а - подалгебра для
доминируемой статистической структуры (Д’, У, Р). Тогда любая а -
подалгебра ТУ, содержащая Т>, PC ТУ, также достаточна.
Следствие 7.1.2.Пусть ТУ С У, ТУ С У - две достаточные о -
подалгебры для доминируемых статистических структур (Д’, У, Р) и
(Д’’, У', Р') соответственно. Тогда и - подалгебра Р х ТУ достаточна
для произведения статистических структур
(Д’, У, Р) ® (Д’', У, Р').
Доказательство Следствия 7.1.1 непосредственно следует из определения
измеримости и Теоремы 7.1.2.
Для доказательства Следствия 7.1.2 заметим, что плотность ре(х)р'д(х')
на произведении X х X' является Т> х ТУ - измеримой тогда и только тогда,
когда ре(х) и Pj(ar') являются соответсвенно Т> и ТУ измеримыми.
7.1. Достаточные статистики
65
В частности, если а - алгебры Т> и ТУ порождаются статистиками Т и
Т', то пара (Т, Т') достаточна для произведения статистических структур.
Ясно, что эти свойства также верны и для полупрямых произведений
статистических структур.
Теорема 7.1.2 позволяет установить следующий, часто применяемый на
практике, критерий достаточности, позволяющий находить достаточные
статистики.
Теорема 7.1.3.(Критерий факторизации)Пусть (X, У, {р®, 0 е 0}) -
доминируемая статистическая структура. Статистика Т со значени-
ями в измеримом пространстве (У, И) является достаточной тогда и
только тогда, когда существуют
1) неотрицательная У - измеримая функция А(т) на X;
£) И - измеримая для всех 0 G 0 функция gg(t) на У такие, что
Ре(х) = gg(T{x))h(x) п. в. 0 Е 0, х 6 X.
Доказательство. Пусть Р* - привилегированное вероятностное рас-
пределение, доминирующее статистическую структуру (Л1, У, {pg, 0 е ©}).
Тогда по Теореме 7.1.2 необходимым и достаточным условием достаточнос-
ти статистики Т является существование Т~г(Н) - измеримых (для всех
0 G 0) плотностей
Учитывая Утверждение 1.1.2 это условие эквивалентно существованию Н
- измеримой при всех 0 6 0 функции gg(t) на (у, Н) такой, что
Рв(«) = C;(z) =де(Т(хУ).
Cti
Если v - мера, доминирующая исходную статистическую структуру
{X, У, [рд, 0 € 0}), то по Теореме 6.1.2 Р* абсолютно непрерывна относи-
тельно v и при
dP*
Д1/
имеем
р6(х) = ge(T(x))h(x) и. в. 0G&, х G X.
□
Замечания.
66
Лекция 7
1) Заметим, что функция h(x) может равняться нулю только на Р - пре-
небрежимых множествах. Поскольку, пусть N G У таково, что
P(N) = 0, для всех Р G V.
Но тогда и
P*(N) = 0.
Следовательно
P*(N) = у h(x)dv(x) = 0.	(7.1.8)
N
Если v(N) = 0, то положим h(x) = 0 при х € N. С другой стороны,
если p(1V) > 0, то из (7.1.8) следует, что h(x) — 0 при х 6 IV.
2) Пусть Р}- и Рет ~ распределения Т(Х), индуцируемые на (У, Н), исходя
из Р* и Р$ соответственно, то есть
РНВ) = Р’(Т_1(В)), р»т(в) = Pe(T_1(B)), Be н.
Тогда
Поскольку, используя формулу замены переменного (см. Лекция 2,
пункт 8(f)), имеем
Рет(В) = Pe(T-\B)) = / dPe(x) =
т-i (В)
= I ge(T(x))dP*(x) = I ge(t))dP‘T(t), ВеН.
Т-'(В)	в
Пример 7.1.3. Пусть X = (X], •  , Хп) - независимые одинаково нормально
распределённые наблюдения
х£ ~JV(o,02), о2 е е = (0,+оо) ieN.
Найдём достаточную статистику в этом случае. Применим Теорему 7.1.3.
С этой целью заметим, что совместная плотность X имеет вид
ре(х) = а~п f[ <p(xi/a) =
7.1. Достаточные статистики
67
1 п
= ;п(2тг)"/2 ехР{-1/2ст21>’2}’ * = (*!’  •  , хп).
Таким образом, по Теореме 7.1.3 вместо п - мерного вектора наблюдений
X = (Xi, •  , Хп), имеем одномерную достаточную статистику вида
68	Лекция 7
7.2 СПИСОК ЛИТЕРАТУРЫ
1)	ж. - Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 2 §1, §2.
2)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975, Глава 2, §2.1 - 2.3.
3)	Ж - Л. Соле, Основные Структуры Математической Статистики,
Москва, Мир, 1972, Глава 2, §2.
4)	П.Л. Хеннекен, А. Тортра, Теория Вероятностей и Некоторые её При-
ложения,
Москва, Наука, 1974, Глава 7, §27.
Лекция 8
Статистическому эксперименту, в котором проводятся определенные
наблюдения, отвечает некоторая статистическая структура
(X, У, {Ре, 9 е 0})- В предыдущих Лекциях расматривались некоторые
свойства этих структур. Выясним теперь, как обрабатывать получен-
ные данные с помощью статистических методов.
8.1	РЕШЕНИЯ И СТРАТЕГИИ
Определение 8.1.1 .Задача статистического решения определяется за-
данием статистической структуры (X, У, {Pg, в е ©}) и измеримого
пространства (Д,U). Стратегией S называется переходная вероятность
S(x,D), заданная на X хЫ такая, что:
1)	для всех х G X S(x,D) - вероятность на И;
2)	для всех D G.U функция S{x, D) У - измерима по х.
Пространство (Д,U) интерпретируется как пространство решений. Тре-
буемая информация о 9, нужная для принятия решения, содержится в ука-
занном заранее множестве решений Д. Если X = х - наблюдения, то реше-
ние <5 6 Д принимается согласно вероятностному распределению S(x, ) на
измеримом пространстве (Д, М). В частности, если S(x, ) - вырожденное
распределение в точке <5(а:) € Д, то есть
S(x,D) = 1d(S(x)), D& U,
то стратегия называется нерандомизированной (детерминированной), и та-
кая стратегия состоит просто в принятии решения 6(х) € Д на основе на-
блюдения X — х.
69
70
Лекция 8
С математической точки зрения легко понять, почему не следует ограни-
чиваться рассмотрением нерандомизированных стратегий: множество всех
стратегий является выпуклым, в то время как подмножество нерандомизи-
рованных стратегий таковым не является.
Примеры.
1)	Пусть Д = © и стратегия S(x, •) вырождения в точке <5(т) е Д, то есть
S{x,D) = 1d(<5(z)), DsU.
В этом случае имеем задачу оценивания - по каждому наблюдению X
рассматриваем оценку 6(Х) параметра в 6 О.
2)	Пусть Д - класс подмножеств © и решение - - подмножество множества
0. Это так называемая задача доверительного оценивания.
3)	Пусть
То есть множество 6 разбито на к непересекающихся подмножества
0j, j — 1, •  •,к и пусть
Д = {<5г,--,М,
где решения 5,, j — 1,   •, к интерпретируется как
в € ©у, j = 1, • • • ,к.
Это - проверка статистических гипотез.
4)	Пусть из партии однородных деталей берутся п изделий для контроля.
Как на основе случайного числа X, X < п, дефектных изделий принять
решение о том, можно ли считать всю продукцию годной или нет?
Здесь X = {0,1,•••,«}, ? = Т(Х},
Р = {В(п,0), 0 G © = [0,1]}, Д = {й0,51}, U = Т(Д),
где <5о - решение, состоящее в том, что партия принимается, a di -
партия отвергается. Обычно рассматривают стратегию следующего
типа: назначается пороговое значение т и считается, что если X > т,
то партия отвергается, в противном случае она принимается. Таким
образом стратегию S(x, ) можно задать только на двух точках
5(а:,<5о) = l(m,n](a:)1	s(x,6i) = l[o,m](®)-
8.2. Выбор стратегии
71
8.2	ВЫБОР СТРАТЕГИИ
Основной задачей математической статистики является выбор стратегии в
задаче статистического решения, которая была бы оптимальна относитель-
но некоторой конкретной меры качества. Такой выбор с математической
точки зрения естественно проводить, вводя отношение частичного порядка
в классе всех стратегий. Даваемые ниже определения перефразируют поня-
тия максимального элемента, максимума и кофинального множества.
Определение 8.2.1.
1)	Если пространство стратегий S = S(x, •) частично упорядочено с
помощью данного упорядочения то стратегия S* называется оп-
тимальной, если S < S* для любой другой стратегии S. Страте-
гия называется допустимой, если не существует другой стратегии,
строго превосходящей ее в смысле частичного упорядочения
2)	Семейство стратегий S называется полным относительно заданно-
го упорядочения •<, если для любой стратегии S существует стра-
теги S' eS такая, что S S'.
3)	Функцией потерь называется измеримая функция вида
L(0,6) : © х Д —> [0,+оо).
При этом обычно Ц0,5) имеет смысл ущерба от принятия решения
5 € Д при истинном значении параметра в € 0.
4)	Если S(x,) - стратегия, a L(0,6) - функция потерь, то величина
вида
Ws(0,x) = I L(0,6)dS(x,S)
д
называется средним ущербом.
5)	Функция вида
Rs(0) = Е.ВДХ) = / Ws(0,x)dPe(x), 0 G 0,
X
называется функцией риска или риском.
72
Лекция 8
6)	Если в параметрическом множестве в выделена а - алгебра V, то
априорным распределением на статистической структуре (Х,?, {Ре,6 е
(0, V)) называется любая вероятностная мера Q(-) на измеримом
пространстве (0, V).
7)	Если Q(-) - априорное распределение на (0, V), то число
R% = { Rs(0)dQ{0)
е
называется байесовским риском.
8)	Функция риска Rsffi) задает частичное упорядочение в простран-
стве стратегий виде
S' S <=> Rs{9) < Rs’№} для всех 0 € 0
и
S' -< S <=> Rs(P) < Rs'(Q) для всех 9 6 0;
существует во € 0 такое, что Rs(eo) < Rs'{6o).
9)	Функция потерь L(0,6) и априорное распределение Q(-) задают ли-
нейное упорядочение на множестве всех стратегий с помощью бай-
есовского риска
S' S <=> R$ < R%.
Введение априорного распределения Q(-) в статистической задаче явля-
ется основным при так называемом байесовском подходе в статистике, в ко-
тором предполагается, что параметр в является случайной величиной (хотя
и ненаблюдаемой) с известным распределением Q(-). Это априорное распре-
деление (априорное относительно наличия данных), цель которого - задание
информации перед началом эксперимента или предварительных данных о
неизвестном параметре в, в некоторых задачах можно обосновать. Предпо-
ложим, например, что мы хотим оценить вероятность выпадения ”орла” при
бросании монеты. До сих пор мы расматривали п бросаний монеты как мно-
жество п биномиальных испытали с неизвестной вероятностью выпадения
’’орла” в. Предположим, однако, что мы имеем значительный опыт броса-
ния монет, опыт, который, возможно, дал нам приближённое значение в для
большого числа подобных монет. Если мы считаем, что этот опыт имеет от-
ношение и к даной монете, то было бы, быть может, разумно представить
8.2. Выбор стратегии
73
это прошлое знание в виде вероятностного распределение для 6, приближён-
ная форма которого подсказана более ранними данными. Выбор априорного
распределения Q() проводится обычно, как и выбор распределений P«( ),
путём комбинирования опыта и удобства. Когда мы делаем допущение о
том, что количество атмосферных осадков имеет гамма распределение,
мы делаем это не потому, что действительно верим, что это именно так,
а потому, что семейство гамма - распределений есть двухпараметрическое
семейство, которое, по-видимому, довольно хорошо соответствует данным
и которое с математической точки зрения весьма удобно. Аналогично, мы
можем получить априорное распределение, отправляясь от достаточно бога-
того семейства, с которым в математическом отношении легко обращаться,
и выбирая из этого семейства распределение, которое аппроксимирует наш
прошлый опыт. Такой подход, при котором модель включает в себя апри-
орное распределение для 6 с тем, чтобы отразить прошлый опыт, является
полезным в тех областях, где имется большей такой предшествующий опыт.
Примеры.
1) Пусть Д = 0 С R1. Рассмотрим нерандомизированные стратегии
S(x, •), вырожденные в точках <5(т) G Д. Пусть функция потерь имеет
вид (квадратичная ошибка)
Li(0,<5) =с(<5-0)2, О О,
тогда
Ws(0,a:) = У Li(0,6)dS(x,6) = Li(0, <5(х)).
д
Функция риска имеет вид
Rs(0) = Е,ВД*) = EeIi(0,<5(X)) =
= с Ев(<5(Х) — 0)2.	(8.2.1)
Теперь рассмотрим другую функцию потерь
=>».<><>
Тогда
Ws(0,x) = I L2(0,6)dS(x, <5) = L2(0,6(x))
д
и
Я5(0) = EflZ2(<?, <5(Х)) = с Рв(|<5(Х) - 0| > е).	(8.2.2)
74
Лекция 8
2) Рассмотрим теперь задачу проверки двух гипотез
е = {80,81}, Д = {<50,<5i},
где S, - решение, состоящее в том, что 8 = 8j, i — 0,1. В этом случае
любая стратегия S(x, •) задаётся измеримой функцией а(х) е [0,1]
S(x, 5о) = а(х),	5(ж, 51) = 1 - а(х).
Пусть, например, функция потерь имеет вид
L(8,<5) = <
ci > О,
О,
с2 > о,
8 = 80, S = 6q
в = во, б = (51
в — 81, 6 = <5о
в = 8i, S = Sq
В этом случае
Ws(6,x) = У L(0,6)dS(x,6) = L(e,S0)a(x) + b(8,<5i)(l -а(а;)) =
д
_ ( ci(l —а(х)), в = во
| C2d(x), в — вг.
Для функции риска имеем выражение
fls(8) = EoWs(0,X} = / *
I с2 tflla(X), 0 = 8i-
(8.2.3)
Теорема 8.2.1. Пусть функция потерь Ь(в, 6) при всех в € © непрерыв-
на и выпукла вниз по 6 е Д, и Д С R1 - выпуклое ограниченное множест-
во, тогда семейство нерандомизированных стратегий полно относитель-
но частичного упорядочения, порождаемого функцией потерь L(e,S).
Доказательство. Заметим, что если д(х) - выпуклая вниз измеримая
функция, то для любой интегрируемой случайной величины $ справедливо
неравенство Йенсена
Е<?Ю>Р(ЕС).	(8.2.4)
(Доказательство можно найти, например, в [4], стр. 207.) Поскольку по усло-
вию множество Д ограничено, то существует интеграл
<5(т) = jsdS(x,5),
д
8.2. Выбор стратеги
75
из неравенства Йенсена следует опенка
У L(e,6)dS(x,6)>L(ff,6(x)).
д
Интегрируя теперь по Pg, получим
Rs{0) > Rs-(6), для всех в G 0.
где S*(x, ) - вырожденная стратегия в точке 5(т), то есть для любой стра-
тегии S существует нерандомизированная стратегия S*, которая не хуже,
чем S. Поэтому класс всех нерандомизированных стратегий полон. □
Задачи.
1)	Какие условия накладываются на множество 9?
2)	Где в доказательстве Теоремы 8.2.1 использовалась выпуклость мно-
жества А?
3)	Обобщить Теорему 8.2.1 на случай Д С R*, к > 1.
76	Лекция 8
8.3 СПИСОК ЛИТЕРАТУРЫ
1)	Ж. - Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 4, §1 - §5.
2)	Н.Н. Ченцов, Статистические Решающие Правила и Оптимальные
Выводы,
Москва, Наука, 1972, Введение, §1, §2, Глава 1, §5.
3)	Г. Чернов, Л. Мозес, Элементарная Теория Статистических Решений,
Москва, Советское Радио, 1962, Главы 1-6.
4)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989.
Лекция 9
В Лекции приводятся основные понятия и факты теории оценивания, ко-
торая рассматривается как частный случай общей проблемы статисти-
ческих решений.
9.1 ТЕОРИЯ ОЦЕНИВАНИЯ
Пусть (X, У, Е 0}) - доминируемая статистическая структура и
(Д, U) - пространство решений. Пусть g(ff) некоторая измеримая функция,
заданная на © и действующая в некоторое измеримое пространство (Г, W).
Предположим, что по результатам наблюдений X = х мы хотим ’’оценить”
значение д(0). В этом случае естественно положить Г = Д. Предположим
для простоты, что ГСП1. Функция потерь
ЦО,б): ©хД —+ [0,оо)
характеризует "близость” д(в) и б. Обычно рассматривают функции потерь
вида
Ь(0,<5) = Ш ~ <5)2, ЦО,5) =	- 6)2, с(0) > О,
ДМ) = Ш-<5|,
L(0,<5) =
2fc|ff(0) — <У| — к2,
|<7(0) - <5| < к
Ш - <5| > к.
Все эти функции при фиксированном 9 выпуклы вниз по <5, поэтому естест-
венно в этом разделе рассматривать только выпуклые вниз функции потерь.
Теперь, предполагая, что условия регулярности Теоремы 8.2.1 выполнены,
77
78
Лекция 9
получаем, что для любой стратегии S(x, •) существует нерандомизирован-
ная стратегия S*(x, ) вида
S*(x,D) = lo(<5(a:)), D е W,
которая не хуже чем S(x, ), то есть
Rs(9) > R$'(0), для всех 0 6 0.
Таким образом будем рассматривать только нерандомизированные страте-
гии S*(x, •) и отождествлять их с измеримой функцией <5(т) 6 Д.
Определение 9.1.1.
1) Оценкой параметрической функции д(9) называется измеримая функ-
ция
6 = 6(х) ; X —+ Г,
которая не зависит от 9.
2) Риском оценки 6(Х) называется функция (см. (8.2.1))
R(9,6) = EeL(9,8(X)).
Покажем, как естественным образом возникают квадратичные функцнн
потерь. Предполагая функцию потерь L(9,5) достаточно гладкой и исполь-
зуя формулу Тейлора, имеем
L(9,8) = L(9,g{9)) + L5'(9,g(9Y)(g(9) ~ <5)+
+	(р(0) _ й)2 + R	(9дд)
Из естественных предположений на функцию потерь Ц9,6) следует, что
L(e,j(«))sO, в £0.
Далее условие неотрицательности L{9, <5) > 0 означает, что
L’6(9,g(9))=Q, 0е0.
Таким образом, отбрасывая остаточный член R в формуле (9.1.1), получим
аппроксимацию
W,6) « ^.'(M.W)(gW _ <5)2 = c(0)(g(0) _ <5)2.
Поэтому обычно рассматривают квадратичные функции потерь.
Определение 9.1.2.
9.1. Теория оценивания	79
1)	Если
то величина
R(9,6) = Ee(6(X)-g(9))2
называется среднеквадратичной ошибкой.
2)	Величина
Ъ(9) = Е9<5(Х) - д(9)
называется смещением оценки 5(Х).
3)	Оценка 6(Х) называется несмещенной, если ее смещение равно нулю,
то есть, если
Efl<5(X) = р(0), 0 е 0.
Если функция потерь квадратична, то
R(9,5) = Е»(5(Х) - р(0))2 = Dfl<5(X) + 62(0).
И если <5(Х) - несмещенная оценка, то её риск совпадает с дисперсией, то
есть
R(9,6) = Dfl<5(X).
Пример 9.1.1. Пусть X = (Ль - • , Хп) независимые одинаково распреде-
лённые наблюдения и
EgXi = 9.
Тогда оценки вида
|5(^) = где J2a< = 1
l—l	Z=1
являются несмещёнными оценками параметра 9. Этот Пример показывает,
что в общем случае несмещённых оценок много.
Итак, точность оценки <5(Х) функции д(9) измеряется функцией риска
R(9,5) = ЕвЦ9,6(Х)),
то есть средними потерями в результате использования оценки <5(Х) в те-
чение длительного промежутка времени. Хотелось бы найти такую оценку
д(Х) которая бы минимизировала риск R(9, <5) при всех значениях параметра
I
1
I -
1	80	Лекция 9
9 e О-В сформулированном виде эта задача решений не имеет. Поскольку,
?	если
|	L(9,g(9)) = 0, 9 ев.
то риск R(9, <5) для каждой заданной точки 9q £ 9 можно свести к нулю,
У	выбирая <5(т) равным д(9о) при всех х е X. Поэтому равномерно наилучшей
I	оценки <5(Л") не существует, то есть нет такой оценки, которая одновре-
|	менно минимизировала бы риск R(9,6) для всех значений 9 £ в, исключая
4	тривиальный случай, когда д(9) постоянна.
1	Один из способов избежания этой трудности состоит в сужении класса
I	рассматриваемых оценок путём исключения тех оценок, которые оказыва-
|	ют слишком сильное предпочтение одному или нескольким значениям 9 £ 0
ценой пренебрежения остальными возможными значениями. Этого можно
достигнуть, потребовав, чтобы оценки удовлетворяли некоторому условию,
обеспечивающему определённую степень беспристрастности. Одним из таг
ких условий является условие несмещенности оценки
Ee<5( X) = д(9), 9 ев.
Это условие гарантирует, что в конце концов те количества, на которые
оценка <5(Х) пере - или недооценивает д(9) сбалансируют друг друга, так
что получаемые значения оцениваемой функции будут в среднем правиль-
ными. Заметим, однако, что требование несмещённости может приводить к
I	проблемам. Например, несмещённые оценки могут просто не существовать.
(Пример 9.1.2. Пусть наблюдение X имеет биномиальное распределение
Х~В(п,9), 0£0 = (О,1).
5	Предположим, что мы хотим оценить функцию вида
\	9(0) »
Тогда требование несмещённости равносильно выполнению условия
‘	52 g(kH 2 Г С1 ~0)п~к = для всех 0£(0,1).	(9.1.2)
I	То, что такая оценка не существует, вытекает, например, из того, что при
.	9 -> 0 левая часть тождества (9.1.2) стремится к 5(0), а правая часть - к
t	бесконечности.
4
91. Теория оценивания
81
Теорема 9.1.1.(Рао - Блекуэлл - Колмогоров)Пусть функция потерь
L(9,S) непрерывна и выпукла вниз по 6 G Д для любого фиксированного
значения парметра 9 6 © и Т = Т(Х) - достаточная статистика для
статистической структуры (X, X, {Ре, 9 6 ©}). Предположим, что 6(Х)
- некоторая интегрируемая оценка функции д(9). Положим
ft(f) = Ee(<l(X)|T = t).	(9.1.3)
Тогда
1)	Статистика h(T) является оценкой параметрической функции д(0).
2)	Для всех 9 е © риск оценки h(T) не превосходит риска оценки <5(Х)
R(9,6) > R(9, h), для всех 9 € ©.
3)	Если S(X) - несмещенная оценка д(9), то и Л(Т) также несмещенная
оценка д(6).
Доказательство.
1) Измеримость и независимость h(T) от 9 следуют из Определения 5.1.3
условного математического ожидания и Определения 7.1.2 достаточ-
ной статистики.
2) Применим неравенство Йенсена (8.2.4) к условным математическим
ожиданиям (см. также [5], стр. 250, задача 5), получим (используя
свойство 6 условных математических ожиданий из Лекции 5)
R(9, <5) = ЕвЦ0,6(Х)) = EeEfl[L(0,<5(X)) I T] >
> EgL(9, Ев(5(Х) | T]) = R(0, h) для всех 9 e 0.
3) Поскольку
Efl5(X) = g{9),
то используя свойство 6 условных математических ожиданий из Лек-
ции 5
Eeh(T) = EeEe[5(X) | Т] = Ев5(Х) = д{9).
82
Лекция 9
□
Эта Теорема, в частности, показывает, что при наличии достаточной
статистики для любой оценки существует оценка, зависящая от наблю-
дений только через достаточную статистику, и которая не хуже её. (То
есть такие оценки образуют полный класс.) Поэтому можно ограничить-
ся рассмотрением оценок, зависящих от достаточных статистик. Операция
нахождения оценки h(T) по формуле (9.1.3) называется проектированием
оценки <5(Х) на достаточную статистику Т, а сама оценка МТ) называется
проекцией оценки <5(Х) на достаточную статистику Т.
Пример 9.1.3. Пусть X = (Х\, -   ,Хп) - независимые одинаково рас-
пределённые наблюдения и
ЕЙХ1 = д(0).	(9.1.4)
Предположим, что достаточная статистика Т имеет вид
1=1
Очевидно, что в силу (9.1.4) оценка <5(Х) — Xi является несмещенной оцен-
кой д(9).
Найдём проекцию h(T) этой оценки на достаточную статистику Т.
h(T) = Ей(<5(Х) | Т) = Е,(Х! | Т) = Ев(Х2 | Т) =  •  = Efl(Xn | Т) =
= АЕв(^Х,.|т) = 1Ев(Т|Т) = ^У.
1Ь \ ।	/71	1ь
9.2 ОПТИМАЛЬНЫЕ ОЦЕНКИ
Рассмотрим в этом разделе более подробно случай квадратичных функций
потерь
Ц9,6) = с(9)(д(в) - <5)2, с(0) > 0.
Как показано выше, в этом случае риск любой несмещенной оценки 5(Х)
параметрической функции д(9) пропорционален её дисперсии, то есть
R(ff,i)=c(ff) De6(X).
Таким образом проблема минимизации риска по <5(Х) в этом случае сводит-
ся к проблеме минимизации дисперсии. Поэтому вполне естественно следу-
ющее Определение.
9.2. Оптимальные оценки
83
ОПРЕДЕЛЕНИЕ 9.2.1,Несмещенная оценка 6*(Х) функции д(9) называ-
ется несмещенной оценкой с минимальной дисперсией (или оптимальной),
если для любой несмещенной оценки 6{Х) справедливо неравенство
ОвГ(Х) <Ов«(Х), для всех 9 е 0.
Всюду в дальнейшем мы молчаливо предполагаем, что рассматриваемые
оценки <5(Х) квадратично интегрируемы
Е#<52(Х) < оо, для всех 9 € 0.
Следующая Теорема показывает, что оптимальные оценки действительно
существуют.
ТЕОРЕМА 9.2.1. Относительная частота произвольного события А в п
независимых бернуллиевских испытаниях является оптимальной оценкой
вероятности этого события.
Доказательство. Пусть X = (Х^-^Х,,) - независимые одинаково
распределённые наблюдения вида
Х<~В(1,0), »e0 = (O,l),t = l, -,n.
Нам необходимо доказать, что оценка вида
Г(Х)=Х=1^Х,
является оптимальной оценкой д(9) = 9.
Найдём дисперсию этой оценки
D^X) =	= <1^.
п п
Теперь для доказательства Теоремы длстаточно показать, что если оценка
<5(Х) является несмещённой
ЕЙ<5(Х) = 9, для всех 9 е 0,	(9.2.1)
то справедливо неравенство
Dg5(X) > ——для всех g q	(9.2.2)
84
Лекция 9
Из условия несмещенности (9.2.1) имеем
0=Ев<5(Х) = ^J(x)£(0,x),
X
где
х = (ц,-• • ,хп), ц 6 {0, 1}, » = п;
и функция правдоподобия £(0. х) имеет вид
£(0,а:) =0г(1-0)пЛ * = £*
t=i
Справедливо также тождество
£r(0,z) = l.
X
Дифференцируя тождества (9.2.3) и (9.2.4) по 0, получим
(9.2.3)
(9.2.4)
1 = Е^^И^х) = $2<5(a:)^log£(0,a;) • £(0,х) =
X	х °0
= E8<l(X)JUog£(0,X),	(9.2.5)
utf
д	я
о = Ex) = E 901об £(*> *) •	*) = ^Q0 log £(0> *)•	(9-2.6)
Учитывая соотношения (9.2.5), (9.2.6) и неравенство Коши - Буняковского,
мы можем записать
а V
log£(0,X)
1 = Ев(б(Х) - 0) log£(0,X) < Л/0в<5(Х)^ Еву-
Из неравенства (9.2.7) получаем оценку снизу для дисперсии
а \2
^log£(0,X) ,
D8<5(X) > Ев-
но
fa V
Ев I	log £(0, X) =Ee(^
П- £Хп2
1-0
(9.2.7)
(9.2.8)
\ 2
— П0 |
(0(1-ад2
9.2. Оптимальные оценил
85
D« Е Xi _ Y
i=l	nUgXi _ П	rn n n
= (0(1 - 0))2 = (0(1 - 9))* = 9(1-9)'	(9 2-9)
Теперь доказываемое соотношение (9.2.2) следует из (9.2.9) и (9.2.8). □
Рассмотрим теперь некоторые свойства оптимальных оценок.
Теорема 9.2.2. (Единственность оптимальной оценки)Пусть <5*(Х) и
<52(Х) - оптимальные оценки функции д(0), тогда они совпадают почти
всюду, то есть
Pe(<5f(X) #<5$(Х)) =0, для всех 9 6 0.
Доказательство. Поскольку <5J(X) и 62(Х) - оптимальные оценки, то у
них тождественно совпадают дисперсии. Обозначим
v = DeJJ(X) = De^(X)
и рассмотрим оценку
${Х} = W + ЫУ
Тогда эта оценка также квляется несмещённой оценкой функции д(0) и по-
этому для ее дисперсии справедливо неравенство
v < Ded(I) = ^D^(X)+
+ 2Covg^<5i(X),< —(2v + 2v)==v.	(9.2.10)
Из этих неравенств следует, что
D9<5(X) = v.
Но тогда из неравенств (9.2.10) получаем также соотношение дли ковариа-
4v = 2v + 2Cove(<5i(X),J2(X)),
то есть
Cov^X),^)} =».	(9.2.11)
Теперь, учитывая соотношение (9.2.11), найдём дисперсию разности оценок
<51‘(Х)и^(Х)
De(MX)-<52(X)) = D₽<Ji(X) + D₽<J2(X)-2Cove(<51(X),<52(X)) =2и-2и = 0.
86
Лекция 9
Отсюда следует, что
р9(5;(х)/а;(х))=о, для всех 0 € 0.
(Здесь мы использовали следующее утверждение
ОУ = О => Е(У - ЕУ)2 = 0 => У = ЕУ п.в.)
□
Теорема 9.2.3.
1) Пусть <5*(Х) - оптимальная оценка для функции д(9), тогда для лю-
бой оценки <5q = <5о(Х) (несмещенная оценка нуля) такой, что
Ев<5о(^) = 0, Еа<52(Х) < оо, для всех 0 6 0,
справедливо условие "ортогональности"
Cov9(6‘(X),<f0(X)) =0, для всех 9 & Q.
2) Пусть оценка д(Х) является несмещенной оценкой своего матема-
тического ожидания д(9) и для любой оценки нуля йо(Х) такой, что
Efl<5o(X) s 0, Ев<5о(Х) < оо, для всех 0 6 0,
справедливо тождество
Cove[6(X),<50(X)) =0, для всех 9 6 0.
Тогда оценка 5(Х) является оптимальной оценкой своего матема-
тического ожидания д(9).
Доказательство .
1) Для доказательства рассмотрим вспомогательную оценку вида
<5(Х) = <5*(Х) + А<5О(Х), A6R1.
Тогда для всех Ac R1 эта оценка также является несмещённой оцен-
кой функции д(9), поэтому в силу оптимальности оценки <5*(Х)
De<5(X) = De<5*(X) +2АСоув(<5'(Х),5о(*)) + A2De<50(X) >
9.2. Оптимальные оценки
87
> D«J*(X) для всех 0 € в, А 6 R1
или
2ACove(j*(X),60(X)) +
+A2Dfl<5o(-X’) > 0, для всех 0 G в, A G R1.
Этот квадратный многочлен от А имеет два действительных корня
А = 0 и
2Covfl(<5‘(X),<50(X)]
А= Dj6o(Xj
и, следовательно, принимает отрицательные значения, если только не
выполнено условие
Cove(S*(X)MX)) = 0, для всех 0 € в.
2)	Пусть 5(Х) - произвольная несмещённая опенка д(0). Поскольку при
Dfl<5(X) = оо
доказывать нечего, то предположим, что
Dfld(X) < оо.
Тогда ясно, что <5(Х) - SIX) является несмещённой оценкой нуля и
поэтому
Ee[j(X)(6(X) - <5(Х))) = 0.
Отсюда следуют равенства
Ев?(Х) = Ejj(X)6(X), DeS(X) = Cove(j(X),<f(X)).
Поэтому применяя неравенство Коши - Буняковского, имеем
*	DjJ(X) < De<5(X) для всех 0 € 6.
□
Теорема 9.2.4.Пусть <5J(X) u (X) - оптимальные оценки для функ-
ций ^1(0) и S2W соответственно. Тогда для любых чисел а и Ь оценка
вида
<5‘(Х) = а<5*(Х) + Ъ6*2(Х)
88
Лекция 9
является оптимальной оценкой функции
ff(9) = agiW + bg2(9).
Доказательство. Доказательство Теоремы непосредственно следует из
второй части Теоремы 9.2.3. Однако, для полноты мы дадим и прямое до-
казательство этой Теоремы.
Пусть <5(Х) - произвольная несмещённая оценка функции д(9) = а<?1(0) +
Ьд2(9). Тогда оценка
<5о(Х) = Й*(Х) - 6(Х)
является несмещённой оценкой нуля и поэтому по Теореме 9.2.3 справедливо
тождество
0 = aCove(^(X),<50(X)} +bCove(j;(%),<50(X)) =
= Cove(<5*(X),<50(X)) = De<5’(X) - Cove(<5*(X),6(X)),
то есть
De<5*(X) = Cove(<5’(X),<5(X)} < A/De<5‘(X)De<5(X),
ИЛИ
< DflJ(X), для всех
□
9.3 БАЙЕСОВСКОЕ ОЦЕНИВАНИЕ
Рассмотрим доминируемую статистическую структуру (X, Т, {Ре, 9 € 6}),
и задачу оценки параметрической функции д(9) по наблюдению X = х, но
предположим, что 9 является значением случайной величины Е с извест-
ным распределением (априорное распределение) <Э(-) на (0, V). Случай не-
известного априорного распределения будет рассмотрен в Лекциях 18 - 21.
В подобной ситуации задачу оценивания называют задачей оценивания в
байесовской постановке.
Определение 9.3.1.Байесовской оценкой параметрической функции д(9),
соответствующей априорному распределению Q называется измеримая
функция
<5q == &q(x) : X —> Г,
R(0,5) = ЕвЦ»,6(Х)) =
9.3. Байесовское оценивание	89
которая минимизирует байесовский риск (см. Определние 8.S.1)
,Q) = inf г (<5, Q),	r(5,Q) = I R(0,6)dQ(9),
е
ЦО, 6(x})pe(x)di/(x).
х
При байесовском подходе плотность рд(х) интерпретируется как условная
плотность вида рд(х) — р(х | 5 = 9) а риск R(9,5) - хак условный риск
R(fi,S) — Я(<5 | Н = 9), тогда байесовский риск получается как усреднение
условного риска
г(<5, Q) = ЕД(<51 S) = У Я(₽,<5)Л?(₽).
е
Теорема 9.3.1.Пусть случайная величина Б имеет распределение Q и при
данном Е = 9 наблюдение X имеет распределение Pg. Предположим, кроме
того, что в задаче оценивания параметрической функции д(9) с неотри-
цательной функцией потерь Ц9, б) выполнены следующие условия
1) Существует оценка 5о(Х) с конечным байесовским риском r(<5o,Q) <
оо.
2) Для почти всех х существует значение 5q(x), минимизирующее по
<56 Д
E(L(S, <f) |X = i).	(9.3.1)
Здесь X имеет распределение
Р(Л) = I Pg(A)dQ(0), A GF,
е
а условное распределение Qx{-) случайной величины S при условии
X = х называется апостериорным распределением (в отличие
от априорного распределения QV)) и имеет вид
fpg(x) dQ(9)
oev
e
90
Лекция 9
Тогда 5q(X) есть байесовская оценка.
Доказательство. Пусть £(Х) - любая оценка с конечным риском. Тог-
да выражение (9.3.1) почти всюду конечно, поскольку функция потерь Ц9, <5)
неотрицательна. Поэтому почти всюду справедливо неравенство
ЕЩЕ,6(х)) | X = л) > E(Z(E, <5q(x)) | X = д)
и результат следует после взятия математических ожиданий от обеих час-
тей этого неравенства. □
Следствие 9.3.1.Пусть выполнены условия Теоремы 9.3.1. Тогда
1)	Если
L(0,<5) = (<5 — <?(0))2,
6c(x) = E(S(E) | X = д),
и, более общим образом, если
£(»,<5)=с(»)(<5-<?(»))2,
ЦО, 6) =
Е(с(Е)|Х = д) '
2)	Если
Ц0,6) = \5 — д(0)\,
то Sq(x) есть любая медиана условного распределения а при данном
X = х.
3)	Если
0, если |0 — <5| < с,
1, если — <5| > с,
то Sq(x) есть середина интервала J длины 1с, который максимизи-
рует вероятность вида
Р(Е С J | X = х).
Доказанная Теорема означает, что при нахождении байесовских оценок
можно поступить следующим образом: сначала до проведения наблюдений,
когда Е имеет распределение Q, найти байесовскую оценку 6q для функ-
ции д(0), которая минимизирует по <5 € Д выражение Е£(Е, 6). Далее, после
9.3.	Байесовское оценивание
91
наблюдения X — х, априорное распределение Q случайной величины Е заме-
нить на апостериорное распределение Qx, то есть на условное распределе-
ние Е при данном X = х. Теперь байесовская оценка имеет вид 6q(x) = 6qx.
Примеры.
1)	Пусть
* = {0,1}, Д = 0 = {1/2,1/3}, pe(x)=ff‘(l-9)1~x, хЕХ,0Е&,
то есть наблюдение X принимает только два значения 0 и 1 соот-
ветственно с вероятностями 1 — 9 и 0. Постороим байесовскую оценку
iq(x) параметра 0 Е 0, соответствующую априорному распределению
Q вида
Q = {а, 1 - а}, а Е (0,1),
и функции потерь
11, если 0 6.
Тогда
EZ(E,<5) = Л(1/2,<5)а + £(1/3,<5)(1 - а) =
{1 — а, если <5 = 1/2,
а, если S = 1/3.
Отсюда следует, что
6Q -
1/2, если а > 1/2,
< V, если а =1/2,
1/3, если а < 1/2.
Апостериорное распределение имеет вид

г^д-ср/з 1
а/2 + 21-1(1 — а)/3 J
Таким образом байесовская оценка есть
6q(t) = 6qx = •
1/2, если х > log2 	,
V, если т = log2
1/3, если х < log2 .
92
Лекция 9
2)	Пусть X = (Хх,   • ,ХП), где X, - независимые одинаково нормально
распределённые наблюдения
X, ~ЛГ(0, ст2), i = l,---,n,
с известной дисперсией ст2. Построим байесовскую оценку Sq(X) пара-
метра 0, соответствующую нормальному априорному распределению
Q
S ~ JV(m, 72)-
Совместная плотность X = (Л\, • • • ,ХП) и S пропорциональна выраг
жению
р(9,х) = ехр|-^2 Xfci - 0)2| етр{_2~2 ~ ^}'
Чтобы получить апостериорное распределение S | X = х, необходимо
совместную плотность а, X разделить на маргинальную плотность X,
поэтому апостериорное распределение имеет вид С(х)р(9, х), что мож-
но записать в виде
.	( в2 / п 1 \ ntnx u\ u? 1
C(x)exp|-y(^ + ^j +^г) “ j -
 cMeipLi(4 + ‘)(«_	+,'‘,/7М, s = iy>..
{ 2\ст2	72А nltP + lli2) J п i=i
Это выражение представляет собой нормальную плотность с пара-
метрами
с/= | Y -	- n^/g2 +	П(= I Y -	-	1
I X X) . 2 . - < о 1	X X) / 2 i 1 / 2'
п/ст2 + 1/72	п/ст2 + 1/72
Таким образом, если функция потерь есть квадратичная ошибка, то
байесовская оценка для 0 есть
М*) = / 2^1 / 2х + /	/ 2^ Х = -Zх<-	(9-3-2)
П/СГ*	п/сг2 + l/''f2	п “
Как и в случае биномиального рапределния, возникает вопрос, является ли
X байесовской оценкой для некоторого априорного распределения ? Ответ
даётся следующей Теоремой.
9.3. Байесовское оценивание
93
ТЕОРЕМА 9.3.2.Пусть Е имеет распределение Q и пусть Pg обозначает
условное распределение X при данном 3 — 9. Тогда ни одна несмещенная
оценка 5(Х) параметрической функции д(9), при квадратичной функции
потерь, НЕ МОЖЕТ быть байесовской, за исключением случая, когда
Е(<5(Х) — д(Е))2 = О,
здесь математическое ожидание берется относительно совместного рас-
пределения Хиг.
Доказательство. Пусть 6(Х) есть байесовская оценка и предположим,
что она несмещённа для д(9). Тогда в силу Теоремы 9.3.1 она почти всюду
имеет вид
<5(Х) = Е(д(Е) | X), Е(<5(Х) | Е = 0) = Е9<5(Х) = д(0).
Используя свойства условного математического ожидания отсюда следует,
что
E(S(E)5(X)) = Е[<5(Х)Е(д(Е) | X)] = ЕЙ2(Х)
E(S(E)6(X)) = Е[д(Е)Е(<5(Х) | Е)]= Ед2(Е).
Поэтому
Е(<5(Х) - д(Е))2 = Е<52(Х) + Ед2(Е) - 2Е(5(Х)Я(Е)) = 0.
□
Применим теперь этот результат к нормальному и биномиальному слу-
чаям.
1) Нормальный случай. Пусть X = (Xi,- -,Xn), где X, - независимые
одинаково нормально распределённые наблюдения
X, ~Х(0, ст2), i =
с известной дисперсией ст2. Тогда для рассматриваемой оценки <5(Х) —
X при Е = 0 G 0 справедливо тождество
♦ *
Eg(X-0)2 = —,
п
поэтому для любого априорного рапсределния Q
Е(Х - Е)2 = — / 0.
п
Таким образом <5(Х) = X не является байесовской опеккой.
94
Лекция 9
2) Биномиальный случай. Пусть наблюдения X имеют вид
Х~5(п, 0), 0е(О,1).
Рассмотрим оценку 5(Х) = X = Х/п для параметра 0. При фиксиро-
ванном S = 0 6 (0,1) её функция риска равна
п
поэтому
1
Е(Х/п - Е)2 = 1У 0(1 - 0)Л?(0).
О
Этот интеграл равен нулю тогда и только тогда, когда распределение
Q приписывает вероятность единица множеству {0,1}. Но байесовская
оценка имеет вид
6Q(X) = Е(Е I X),
поэтому для такого распределения Q
<5q(0) = <5q(ti) = 1
и любая оценка, удовлетворяющая этому условию является байесов-
ской для такого Q. Значит, в частности, Х/n есть байесовская оценка.
Конечно, если Q - истинное распределение, то значения 1,2, •  •, п — 1
никогда не наблюдаются. Таким образом, оценка Х/n будет байесов-
ской только в довольно тривиальном случае.
9.4 МИНИМАКСНОЕ ОЦЕНИВАНИЕ
Определение 9.4.1.Минимаксной оценкой параметрической функции д(9)
называется оценка <5»(т) такая, что
sup R(0,6») = mf sup Д(0,6),
вее	s see
Я(0,<5) = Е9£(0,<5(Х)) = у £(0,<5(а:))рв(*)<М*)-
х
Таким образом, минимаксный подход заключается в выборе такой опен-
ки, которая минимизирует максимальный риск. Можно также сказать, что
9.4. Минимаксное оценивание
95
минимаксная оценка является байесовской оценкой при априорном распре-
делении, являющемся наименее благоприятным. Чтобы сделать это понятие
точным, обозначим байесовский риск байесовской оценки <5q(X) через
r(Q) = r(6Q,Q) = J R(9,5Q)dQ(0).
е
Априорное распределение Q, называется наименее благоприятным, если
г(<3) < r(Q„)
для всех априорных распределений Q на 0. С байесовской точки зрения это
есть априорное распределение, которое причиняет статистику наибольшие
средние потери. Следующая Теорема даёт условия, при которых байесовская
оценка Sq(X) является минимаксной.
ТЕОРЕМА 9.4.1.Пусть существует априорное распределение Q на в
такое, что
[ R(9,5Q)dQ(9) = supR(9,6Q).
в	»ee
Тогда
1)	Оценка Sq(X') является минимаксной.
2)	Если оценка 5q(X) является единственной байесовской оценкой, то
оценка 6q(X) единственная минимаксная оценка.
3)	Априорное распределение Q является наименее благоприятным рас-
пределением.
Доказательство.
1)	Пусть S(X) - любая другая оценка. Тогда
supfi(0,<5) > [ R(9,S)dQ(0) > f R(9,5Q)dQ(9) = sup R(9,iQ).
see	J	J	see
0	0
Таким образом
inf sup7?($, <5) — sup R(9,6q).
s 960	see
96
Лекция 9
HQ) = J
е
2)	Пусть оценка <5,(Х) / 6q(X) является минимаксной оценкой, тогда
8ирЯ(0Л) > [ R(0,6,}dQ(0) > [ 7?(0,<5(?)dQ(0)=supfi(0,<5(3).
see	J	J	see
Что противоречит минимаксности оценки <5»(Х).
3)	Пусть Q - любое другое априорное распределение на 0. Тогда
R(9,6Q)dQ(0) < I R{9,&Q)dQ{9) < supfl(0,<5o) = r(Q).
e	See
□
Условие Теоремы утверждает, что усреднённый риск R(Q, 6q) равняется
его максимуму. Это выполняется в том случае, когда функция риска посто-
янна или, более общим образом, когда априорное распределение Q приписы-
вает вероятность 1 множеству, на котором функция риска достигает своего
максиммального значения. Более формальные утверждения содержит сле-
дующее Следствие.
Следствие 9.4.1.Пусть существует априорное распределение Q на Q
такое, что
1) байесовская оценка Sq(X) имеет постоянный риск. Тогда она явля-
ется минимаксной.
2) для байесовской оценки <5q(X) справедливо соотношение
Q(SCAO) = 1, Aq = {9 - fl(0,£o) =supK(0,(5Q)}.
see
Тогда оценка <5q(X) является минимаксной оценкой.
Предположение Теоремы 9.4.1 влечёт существование наименее благопри-
ятного распределения Q,. Когда такого распределения не существует, Те-
орема 9.4.1 неприменима. Рассмотрим, например, задачу оценивания сред-
него 0 нормального распределения с известной дисперсией. Поскольку все
возможные значения 0 играют полностью симметричную роль в том смыс-
ле, что ни одно из них не оценивается легче, чем любое другое, естест-
венно предположить, что наименее благоприятное распределение есть ’’рав-
номерное" распределение на действительной прямой, то есть мера Лебега.
В этом случае оно является несобственным. Можно попытаться аппрокси-
мировать несобственное распределение последовательностью собственных
9.4. Минимаксное оценивание
97
распределений, например, меру Лебега равномерными распределениями на
(—п, п), п = 1,2, • • , и обобщить понятие наименее благоприятного распре-
деления до понятия наименее благоприятной последовательности распре-
делений. Рассмотрим более подробно этот подход.
Пусть {Qn} - последовательность априорных распределений на 0 и SqAV
- байесовская оценка, соответствующая Qn. Пусть её байесовский риск ра-
вен
ГпШ = rn(6Qn,Qn) = I R(9,5Qn)dQn(ff)
е
и предположим, что существует предел
Lim rn(Qn) = г.	(9.4.1)
п—>00
Тогда последовательность априорных распределений {Qn} называется наи-
менее благоприятной, если для любого априорного распределения Q спра-
ведливо неравенство
r(Q) < г.
Теорема 9-4.2.Пусть существует последовательность априорных рас-
пределений {Qn} на в такая, что выполняется соотношение (9-4-1), и
предположим, что <5(Х) есть оценка такая, что
sup R(9, <5) = г.
вее
Тогда
1) Оценка 5(Х) является минимаксной.
2) Последовательность априорных распределений {Qn} является наи-
менее благоприятной.
Доказательство.
1) Пусть 5(Х) - любая другая оценка. Тогда
supH(M) > f R(9,6)dQn(») > rn(Qn),
все	J
е
и это выполняется при каждом п. Следовательно
supR(0,<5) > supR(fl,6)
see	see
и значит <5(Х) есть минимаксная оценка.
98
Лекция 9
2) Пусть Q - любое другое априорное распределение на 0. Тогда
r(Q) = [ R(9,6q)dQlfi) < [ R(9,6)dQ(9) < sup R(9, <5) = r.
J	J	0G©
©	©
□
Эта Теорема менее удовлетворительна, чем Теорема 9.4.1, в двух отноше-
ниях. Во-первых, если даже байесовские оценки <5q„(X) единственны, то
отсюда невозможно заключить, что <5(Х) есть единственная минимаксная
оценка. Причина этого в том, что при переходе к пределу строгое нера-
венство заменяется нестрогим. Другая сложность состоит в том, что для
того, чтобы проверить условие Теоремы 9.4.2, необходимо вычислить г и,
следовательно, байесовские риски rn(Qn). Для этого часто бывает полезна
следующая Теорема.
ТЕОРЕМА 9.4.3.Если 6q(X) - байесовская оценка для функции д(9), со-
ответствующая априорному распределению Q и если ее байесовский риск
есть
r(Q) = E(<5Q(X)-g(S))2,
здесь S и X имеют соответственно распределения ) и
Р(Л) = J Pe(A)dQ(9), А
0
то
r(Q) = /□(<,(«) |X = z)dP(x).
х
В частности, если апостериорная дисперсия D(g(E) | X = а) не зависит
от х, то
r(Q) = D(g(=) | X = х).
Доказательство. Доказательство следует из соотношения
r(Q) = Е(<50(Х) - g(S))2 = Е[Е((Я(«) - <5Q(z))2 | X = х)],
и Следствия 9.3.1, согласно которому
<50(z) = E(g(S) | X = х).
□
9.4. Минимаксное оценивание
99
Пример 9.4.1. Пусть X = (Xi, • • , Хп), где Х{ - независимые одинаково
нормально распределённые наблюдения
Xi ~ ЛГ(0, er2), i =
с известной дисперсией сг2. Докажем, что X - минимаксная оценка. Рас-
смотрим в качестве априорных распределений нормальные распределения
Q-, вида
=	72)-
Тогда соотношение (9.3.2) показывает, что байесовская оценка имеет вид
<5q, (*) = " / 2^1/ 2Х + /	/ X = - £ X,.
4 n/al + ll'y2	n “
Тамже найдена и апостериорная дисперсия
которая не зависит от х. Поэтому из Теоремы 9.4.3 следует, что
г(Ст) ~ / 2 11/2'
п/<72 4- 1/72
Пусть 7 -4 оо, тогда
t(Q7) t = г = DjX,
теперь используя Теорему 9.4.2, получаем минимаксность оценки X.
100
Лекция 9
9.5 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 1, §1, §6; Глава 2, §1; Глава 4, §1, §2.
2)	А. Вальд, Статистические решающие функции,
Позиционные Игры, Москва, Наука, 1967, стр. 300-522.
3)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992, Глава 2, §2.1, §2.3.
4)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975, Глава 3, §3.1, §3.2; Глава 6, §6.1 - 6.5.
5)	И. А. Ибрагимов, Р.З. Хасьминиский, Асимптотическая Теория оцени-
вания,
Москва, Наука, 1979, Глава 1, §3.
6)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989.
Лекция 10
В Лекции рассматриваются методы построения оптимальных оценок.
10.1 ПОЛНЫЕ ДОСТАТОЧНЫЕ СТАТИСТИКИ.
МЕТОДЫ НАХОЖДЕНИЯ ОПТИМАЛЬ-
НЫХ ОЦЕНОК
Теорема Рао - Блекуэлла - Колмогорова (Теорема 9.1.1) показывает, что
оптимальные оценки нужно искать среди функций от достаточной статис-
тики. При отыскании явного вида оптимальных оценок важную роль играет
свойство полноты достаточных статистик.
Определение 10.1.1. Достаточная статистика Т называется пол-
ной, если для любой измеримой функции <£(t) выполнение тождества
Едф(Т) = 0, для всех дев
влечет равенство функции ф(£) нулю почти всюду, то есть
Рв[ф(Т) #о) =0, для всех д е &.
' Пример 10.1.1. Пусть X — (Xi, • • •, Хп) - независимые одинаково распре-
делённые наблюдения, причём
Х£~В(1,9), i = l,--,n,	060 = (О,1).
Совместная плотность наблюдений X = (Xi, •  •, Хп) имеет вид
Рв(х) = 0*(1 - 0)п~*,
101
102
Лекция 10
где
п
х = (ц,- •  ,in), Г|€{0,1}, i = l,	£ = У'х1.
>=1
Теперь из критерия факторизации (Теорема 7.1.3) следует, что статистика
вида
T=£Xi~B(n, 0)
i=l
является достаточной статистикой. Докажем, что эта достаточная статис-
тика является полной. С этой целью предположим, что для функции </>(£)
выполнено тождество
Едф(Т) 0, для всех 0 G (0,1),
то есть
</>(fc)	|0*(1 — 0)n-k = 0, для всех 0е(О,1).
fc=0 \г/
В левой части этого тождества произведём замену переменной
u = G (0, +оо),
тогда, получим
ф(Л) I ) и* = 0,	для всех и 6 (0,4-оо).
fc=o \*7
В левой части здесь стоит полином по и степени п, который имеет бесконеч-
но много корней, поэтому применяя основную Теорему алгебры, получаем,
что он тождественно равен нулю. Таким образом
ф(к) =0, к = 0, • • • , п
или
Рв(0(Т)^о) = о, для всех 0 6 в.
Приведём пример не полной достаточной статистики.
Пример 10.1.2. Покажем, что типичным образом вся выборка X =
(Xi, •  •, Хп) не является полной достаточной статистикой. Пусть X =
10.1. Полные достаточные статистики
103
(Xi, • • , Хп) - независимые одинаково распределённые наблюдения, имею-
щие плотность, зависящую от параметра 0 6 0, причём
EflXi < оо, для всех 0 6 0.
Из критерия факторизации (Теорема 7.1.3) непосредственно следует, что
статистика вида
Т(Х) = Х = (Х1,--,ХП)
является достаточной статистикой. Но она не полна, поскольку, например,
для функции не равной почти всюду нулю
1 п
ф(х) = -	- ®1>	® =
п »=1
справедливо тождество
Ев</>(Т) н 0, для всех 0 6 0.
Замечание 10.1.1. Если То и Р1 ~ два семейства распределений, таких
что каждое Ро - нулевое множество (см. Определение 6.1-4) является и
Pl - нулевым, тогда достаточная статистика Т(Х), полная для семей-
ства Pq будет также полной и для семейства Pi  Заметим, также что
если Ро есть семейство биномиальных распределений
Ро = {В(п, 0), 0 £ (0,1)},
п фиксировано и, если
Pi =POUP(1),
где 'P(l) есть распределение Пуассона с параметром 1, то по доказанному
выше семейство Ро является полным (Пример 10.1.1), в то время как
семейство Pi не полно.
Наличие полной достаточной статистики обеспечивает единственность
и оптимальность несмещённой оценки, зависящей от такой статистики.
Теорема 10.1.1.Пусть — Т(Х) - полная достаточная статистика,
тогда
1) Если Si(T) и <52(Т) - две несмещенные оценки для функции д(0), то
они совпадают почти всюду, то есть
Pe(6i(T) 62(Т)) =0, для всех 0 6 0.
104
Лекция 10
Если <5i(X) и 62(Х) - две несмещенные оценки для функции д(0), то
почти всюду справедливо равенство
Е(<МХ) | Т) = Е(63(Х) | Т).
£) Если 6*(Т) - несмещенная оценка функции g(0), mo S*(T) оптимальна,
то есть для любой несмещенной оценки 6(Х) функции д(0) справед-
ливо неравенство
Од6*(Т) < D#<5(.X), для всех 0 € 0.
Доказательство .
1) Если 61 (Т) и <52(Т) - две несмещённые оценки функции д(0), то их
разность
ф(Т) = <51(Т)-62(Г)
удовлетворяет тождеству
Ееф(Т) = 0, для всех 0 б 0,
которое в силу полноты статистики Т влечёт
Р«(МТ) / fc(T)) = 0, для всех 0 G 0.
Второе утверждение непосредственно следует из условия несмещён-
ности
ЕД(Х) = д(0),	0 G0, г = 1,2,
определения полноты и тождества
О = ЕНад - Ш)) = Е9е((61 (X) - <52(Х)) | т).
2) Пусть 6(Х) - любая несмещённая оценка функции д(0}- Тогда по Тео-
реме Рао - Блекуэлла - Колмогорова (Теорема 9.1.1) проекция опенки
<5(Х) на достаточную статистику Т
h(T) = Е9(6(Х) | Г)
является несмещённой оценкой функции д(0) и выполнено неравенство
Deh(T) < D#(5(X), для всех 3 б 0.
10.1. Полные достаточные статистики
105
Однако, эта оценка h(T), будучи несмещённой, является единствен-
ной в силу пункта 1, то есть не зависит от оценки <5(Х) и, поэтому
последнее неравенство справедливо для любой несмещённой оценки
5(A). Следовательно оценка h(T) оптимальна и
Pfl(d*(T) = h(T)j = 1, для всех 0 е в.
□
Следствия.
1)	Если существует полная достаточная статистика, то любая измеримая
функция от неё является оптимальной оценкой своего математического
ожидания.
2)	Существует единственная несмещённая оценка функции д($), зави-
сящая от полной достаточной статистики, и она оптимальна. Если
Т = Т(Х) - полная достаточная статистика, то оптимальная оценка
S*(T) любой параметрической функции допускающей несмещён-
ную оценку, однозначно определяется совокупностью уравнений
Е#<5*(Т) = д(0), для всех 0 е 0.
3)	Алгоритм получения оптимальных оценок.
Для нахождения оптимальной оценки 6*(Т) функции д(0) достаточно
поступить следующим образом
(а)	найти какую-нибудь несмещенную оценку 6(Х) функции д(0);
(Ъ)	спроектировать её на полную достаточную статистику Т, то есть
найти
h(D = Efl(5(X) I Г),
тогда это и будет оптимальной оценкой, то есть
Рв(<Г(Т) = h(T)} = 1, для всех 0 е 0.
Пример 10.1.3. Пусть X = (Xi,---,Xn) - независимые одинаково рас-
пределённые наблюдения и
Х1~В(1,0),	» = !,•••, п, 0£0 = (О,1).
106
Лекция 10
Тогда
Т = £х<~В(п, 0)
i=l
является полной достаточной статистикой (см. Пример 10.1.1). Найдём
двумя способами оптимальную оценку, например, для функции д(0) = О2.
1) Попытаемся найти оптимальную оценку <5*(Т) из условия несмещён-
ности
— 02, для всех 0 G 0.
С этой целью заметим, что
EeT = п0, DeT = п0(1 - 0), ЕвТ2 = DeT+ (ЕвТ)2 = п0(1 - 0) + п202.
Будем искать оптимальную оценку <5*(Т) в виде полинома второй сте-
пени
<5*(t) = а + bt + ct2,
тогда из условия несмещённости имеем
а + Ьп0 + с(п<?(1 - 0) + п2#2) = 02.
Приравнивая коэффициенты при одинаковых степенях 0, получим
1 r 1
с=-7----Ь =---------7---« = 0,
п(п - 1)	п(п — 1)
то есть
5‘(Т) =_____+	=
п(п — 1) п(п - 1) п(п — 1)
2) Найдём <5* (Т) методом проекций. С этой целью возьмём произвольную
несмещённую оценку 02, например, <5(Х) = Х^Х2. Тогда
НО = Efl(<5(X) \T = t) = E9(X!X2 I Т = t) =
zix2Pe(^i — ®i, X-i = x2 | T = t) =
xi,i2e{o,i}x{o,i)
= Pe(X! = 1, X2 = 1 I T = t) =
t < 2
t > 2
10-2. Свободные статистики
107
t < 2 _ j °, t < 2
‘>2 l ^2-
Таким образом опять получаям
<5* СП =
Т(Т - 1)
п(п — 1)
10.2 СВОБОДНЫЕ СТАТИСТИКИ
Выше отмечалось, что достаточные статистики, используются для сокра-
щения данных без потери информации, в этой связи уместно рассмотреть
случай, когда статистики вообще не несут в себе никакой информации о
параметре 0.
Определение 10.2.1.Статистика U = U(X)
U : (X, F) —♦ (У, Н)
называется свободной (подчиненной), если ее распределение не зависит
от 0 6 в, то есть, если
Рв(ЩХ) е в)
для любого В £Н не зависит от 0 6 в.
Ясно, что свободная статистика U(X) не содержит информации о 0.
Примеры.
1) Пусть X = (Xi,- -,Xn) - независимые нормально распределённые
наблюдения
Xf ~АГ(О, 02),	» = 1, -,п.
Тогда статистики вида
и	X1	X 1 V Y
/ , п	п
' <=1
у i=l
являются свободными.
108
Лекция 10
2) Пусть X = (Xi,--,Xn) - независимые нормально распределённые
наблюдения
Xi ~	1), i = l, -,n.
Тогда статистики вида
U3 = Х} - X
и
являются также свободными.
Поскольку свободная статистика U(X) не содержит информации о в, а
достаточная статистика (X) содержит всю информацию о 0, то, по-видимому
U(X) и Т(Х) должны быть независимыми. При наличии свойства полноты
это действительно так.
Теорема 10.2.1. (Басу) Пусть (X) - полная достаточная статисти-
ка, a U(X) - свободная статистика. Тогда статистики Т(Х) и U(X) -
независимы.
Доказательство. По условию выражение
Р0(Д G В | Т) - P9(U е В)
не зависит от 6 для любого филированного множества В G Н. Обозначим
его через
Ф(Т) = р9(и ев\т)~ Р9(и е в).
Тогда
Еа0(Т) = 0 для всех 6 G 0,
то есть
P9(U еВ\Т) = P9(U G В) п. в.
и, поэтому они независимы, поскольку
рв(п е в, т G л) = ЕДв(Д)1д(т) =
= ЕвЕ0[1в(В)1д(Т) I Г] = Е91А(Т)Ев[1в(П) | Т] =
= Е01 А(Г)Р9(и ев\т) = Ре(т е a)p9(u g в).
10.2. Свободные статистики
109
Пример 10.2.1. Пусть X = (Xj,   •, Хп) - независимые равномерно рас-
пределённые наблюдения
Xi~7£(0, 0), i = l, 0 > 0.
Докажем, что статистика
T(X)=XW^
является полная достаточной статистикой. Соместная плотность наблюде-
ний (Xi, • • •, Хп) равна
1 п 1
РвМ = 0^ Ц1^)^) = ^1(0,9)(^(1))1(а,в)(^(п)) =
~ ^Г1(0.-юо)(я^(1))1(0,в)(я;(п))» где ® = (®1,--,®п),	т{1) = ^п^ц.
Теперь из критерия факторизации (Теорема 7.1.3) следует, что статистика
вида
Т{Х) = х(п)
является достаточной статистикой. Докажем теперь её полноту. Поскольку
Рв(Т(Х) < t) = ₽«(%! < t, •  •, Xn < t) =	0 < t < 0,
то статистика T(X) имеет плотность
, , ntn~x
pe(t) =	O<t<0.
Пусть теперь
Едф(Т) = 0, для всех 0 > 0.
Обозначим через ф+(ф) и ф~(1) соответственно положительную н отрица-
тельную части функции ф(ф). Тогда
«.	9	в
J t”-1 ф+ (t) dt — ! 1,п~1ф~ (t) dt,	для всех 0 > 0.
о	о
Отсюда по Теореме о продолжении меры следует, что для всех борелевских
множеств В С R1 справедливо равенство
I t"~10+(t)dt = I	dt.
в	в
f/(X) =
110	Лекция 10
Поэтому
$(t) = 0, п. в.
Ясно, что статистика
Xi
*(п)
является свободной. Из Теоремы Басу следует, что статистики Т(Х) и U(X)
независимы.
Пример 10.2.2. Пусть X = (Xj, •  , Хп) - независимые нормально рас-
пределённые наблюдения
Х{ ~ ЛГ(д, а2), я = 1,---,п;	0 = (р, а2).
Можно доказать, что статистика
T(X) = (X,S2), где Т=-£Х<, S2 = -i-i-£(Xi-X)2
п	п — 1
является полной достаточной статистикой, а статистика
Xi-X	Х„-Х
5 ’ S
является свободной статистикой. Из Теоремы Басу следует, что статистики
Т(Х) и t/(X) независимы.
10.3 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 1, §5; Глава 2, §1.
2)	А. Вальд, Статистические решающие функции,
Позиционные Игры, Москва, Наука, 1967, стр. 300-522.
3)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992, Глава 2, §2.3.
4)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975, Глава 2, §2.6.
5)	Ю.В. Линник, Лекции о Задачах Аналитической Статистики,
Москва, Наука, 1994, Лекция 2.
Дополнение
Эта Лекция стоит несколько в стороне от основного материала. В ней
рассматривается одно из основных понятий современной теории риска -
функция полезности. Приведен один из возможных методов ее статис-
тической оценки.
0.1 ОПРЕДЕЛЕНИЕ ФУНКЦИИ ПОЛЕЗНОСТИ
Рассмотрим отдельного клиента некой страховой компании и будем сим-
волами типа х, у, ..., в зависимости от ситуации, обозначать его доходы
или потери (неслучайные). Естественное упорядочение множества вещест-
венных чисел < задаёт отношение предпочтения на множестве доходов
клиента
х У <=> х < у,	(0.1.1)
доход у ”не хуже” или "предпочтительнее” дохода х, если у не меньше х.
Однако, на практике доходы или потери клиента страховой компании
обычно описываются случайными величинами X, У, .... Возникает вопрос:
что означает, или как понимать
X У,
то есть, что случайный доход У ’’предпочтительнее" случайного дохода X?
Нередко используется следующий подход
Х^У4=>ЕХ<ЕГ,	(0.1.2)
то есть случайный доход У ’’предпочтительнее” X, если математическое
ожидание У не меньше математического ожидания X.
111
112
Дополнение
Весьма правдоподобная мотивировка подхода (0.1.2) основана на законе
больших чисел и состоит в следующем. Пусть страховая компания на про-
тяжении длительного время занимается страхованием однотипных рисков
и пусть случайная величина X описывает случайный доход от страхования
этого риска. Как в этой ситуации, хотя бы грубо, получить число, харак-
теризущее случайную величину этого дохода? Если страховая компания за
длительное время обслужила большое число п однотипных и независимых
клиентов, то у неё имеется п независимых случайных величин Xi,Xz,...,
описывающих случайные доходы страховой компании и распределённых так
же, как и случайная величина X. Тогда средний доход страховой компании
за это время имеет вид
Xi + • •  + Хп
п ’
который в силу закона больших чисел ’’близок” к математическому ожида-
нию Е X случайной величины X. Поэтому естественно сравнивать случай-
ные доходы по их математическим ожиданиям, что и оправдывает подход
(0.1.2).
Приведём теперь пример, так называемый Петербургский парадокс, по-
казывающий, что подход (0.1.2) может приводить к абсурдным результа-
там.
Предположим, что клиент оказался в следующей ситуации. Ему пред-
лагают либо принять участие в игре, описываемой случайной величиной X
вида
Р(Х = 2*) = ^, к = 1,2,...,	(0.1.3)
то есть клиент с вероятностью 2"* получает 2*, например, долларов, либо
ему выплачивают некоторую фиксированную сумму денег у. Спрашивается
на какую фиксированную сумму согласится клиент? Ясно, что для любого
разумного человека такая величина существует и конечна. Посмотрим к че-
му же приводит здесь подход (0.1.2). Таким образом мы ищем вырожденную
случайную величину Y
Р (У = У) = 1
такую, что
X У или X у.
Если принять подход (0.1.2), то это эквивалентнл тому, что
ЕХ < ЕУ = у,
(0.1.4)
0.1. Определение фушапш полезности
113
00	1 оо
= Е2*^ = Е1 = °°>
к=1	к=1
то есть неравенство (0.1.4) не выполняется ни при каком конечном у. Что
противоречит реальности, так как любой здравомыслящий человек всегда
готов получить некую конечную сумму (возможно большую) вместо участия
в игре (0.1.3).
Разрешение этого парадокса состоит, например, в изменении соотноше-
ния (0.1.2), точнее его правой части. Рассмотрим общепринятый (по край-
ней мере в зарубежной литературе, см., например, (Де Гроот 1974), (Фиш-
берн 1978)) подход, основанный на предположении, что у клиента сущест-
вует функция полезности (utility function) и(х) такая, что выполнено соот-
ношение (см. (0.1.2))
X Ч Y <==> Еи(Х) < Еи(У),	(0.1.5)
то есть случайный доход Y ’’предпочтительнее” случайного дохода X, если
его средняя полезность Еи(У) не меньше средней полезности Еи(Х) дохода
X. При этом, естественно, X и Y эквивалентны если эти средние полезности
равны
X ~ Y <==> Еи(Х) = Еи(У).	(0.1.6)
Трактуя числа х, у, ... как вырожденные случайные величины X, У, ..., из
(0.1.1) немедленно следует, что
X<Y^x<y^ Eu(X) < Еи(У) 4=>
<=> и(х) < и(у),
то есть естественное требование к функции полезности - её неубывание.
Отметим, кстати, здесь, что функция полезности и(х) не обязана быть не-
отрицательной.
Обычно используются функции полезности типа
ui(x) = ах + Ь, а > 0;	= ха, х > 0, а > 0;
из(т) = log х, х > 0; U4(x) = — ее ’.
Заметим, что из соотношения (0.1.5) следует, что если и(х) - функция по-
лезности, то для любых а > 0 и Ь функция
ац(х) 4- b
114
Дополнение
также является функцией полезности, то есть функция полезности опреде-
лена с точностью до линейного преобразования. Этим фактом мы восполь-
зуемся при описании эмпирического алгоритма построения функции полез-
ности.
Отметим также здесь, что при описании Петербургского парадокса не-
явно предполагалось (см. (0.1.2)), что функция клиента имеет вид и(х) —
а х + Ь, а > 0. Естественное разрешение этого парадокса состоит в
изменении функции полезности. Так, например, если считать, что функ-
ция полезности логарифмическая и(х) — log х, то никакого парадокса не
наблюдается, так как в этом случае имеем
00 1
Е и(Х) = log 2 к jit = 2 log 2
и в рамках этой модели вместо участия в игре (0.1.3), клиент готов получить
величину logy > 2 log 2 или у > 4.
Выше было отмечено, что возрастание функции полезности является ес-
тественным требованием. При этом характер роста функции полезности
характеризует отношение клиента к риску. Для пояснели этого факта на-
помним хорошо известное неравенство Йенсена. Если функция полезности
и(х) выпукла вниз, то есть для любых х± Х2, а 6 (0,1) справедливо нера-
венство
и(ах\ ц- (1 - а) х2) < au(xi) + (1 — а)и(х2),
то справедливо неравенство Йенсена (для доказательства см. (Де Гроот
1974), стр. 103)
Еи(Х) > и(ЕХ),	(0.1.7)
если же она выпукла вверх, то
Eu(X) < и(ЕХ).	(0.1.8)
Пусть клиент страховой компании обладает функцией полезности и(х), ко-
торая выпукла вверх и ему предлагают принять участие в игре со случай-
ным доходом X. Тогда неравенство (0.1.8) показывает, что
X ЕХ,
то есть клиенту всегда лучше получить неслучайную величину Е X вместо
участия в этой игре со случайным выигрышем X и значит здесь наблюда-
ется нежелание клиента участвовать в рисковых ситуациях (risk averse).
0.2. Страхование со стороны клиента страховой компании
115
Если же клиент имеет функцию полезности выпуклую вниз, то анало-
гично предыдущему с использованием неравенства (0.1.7), имеем
X > ЕХ,	(0.1.9)
то есть клиенту всегда лучше вместо получения неслучайной суммы Е X
участвовать в игре со случайным выигрышем X и значит здесь имеется
тенденция клиента к рисковым ситуациям (risk lover).
Рассмотрим теперь простейшие модели страхования, использующие функ-
ции полезности (см. (Ротарь, Бенинг 1994)).
0.2 СТРАХОВАНИЕ СО СТОРОНЫ КЛИЕНТА
СТРАХОВОЙ КОМПАНИИ
Предположим, что клиент страховой компании имеет функцию полезности
u(z), которая описывает его отношение к доходам и начальный капитал
S. Пусть клиент страдает от случайных потерь X, за предотваращение
которых он готов застраховаться у страховой компании. Пусть клиент готов
заплатить страховой компании страховой взнос G. Это означает, что для
клиента выполнено соотношение
S - X S - G.
В рамках подхода (0.1.5) это означает, что
Eu(S - X) < u(S - G).	(0.2.1)
Считая функцию полезности и(х') непрерывной из правой части соотноше-
ния (0.2.1) следует, что существует максимальное Gmax такое, что
Eu(S - X) = u(S - Gmal)	(0.2.2)
и при любом
G < Gmax	(0.2.3)
клиент готов участвовать в страховании.
Отметим здесь, что возможна следующая модификация этой модели.
Клиент платит величину G за частичное предотвращение потерь, описывае-
мое функцией I(X) < X, которую клиенту предлагает страховая компания.
В этом случае имеем соотношения
E«(S - X) < Е (S - G - ДХ))

116	Дополнение
и Gmax такое, что
Eu(S - X) = E(S - G - J(X)).
Отметим также здесь, что если функция полезности клиента и (ж) выпукла
вверх, то соотношения (0.1.8) и (0.2.2) приводят к неравенствам
u(S - Gmax) = Eu(S - X) < u(S - EX), (0.2.4)
поскольку функцию полезности и(х) монотонно возрастает, то из неравен-
ства (0.2.4) следует, что (здесь нужна строгая монотонность)
EX	< Gma*.	(0.2.5)
Аналогично, если функция полезности клиента и (ж) выпукла вниз, то
EX	> G^.	(0.2.6)
0.3	СТРАХОВАНИЕ	СО СТОРОНЫ	СТРАХО-
ВОЙ КОМПАНИИ
Рассмотрим теперь страхование с точки зрения страховой компании. Пусть
страховая компания имеет начальный капитал Si, функцию полезности и/(ж)
и готова страховать случайные потери клиента X. Обозначим через Hi це-
ну страхового полиса, который страховая компания предлагает клиенту за
предотвращение случайных потерь X.
Со стороны страховой компании страхование имеет смысл, если
Si Si - X + Hi
или (см. (0.1.5)), если
uASi) < EUj(Si - X + Hi).	(0.3.1)
Считая функцию полезности и/(т) также непрерывной, из неравенства (0.3.1)
следует, что существует минимальное значение цены страхового полиса
Н™'п такое, что
uf[Si) = EU/(S/ - X + ЯГ")	(0.3.2)
и страхование для страховой компании возможно, если
Hi > Я™*".	(0.3.3)
0.4. Эмпирическое определение функции полезности
117
Аналогично предыдущему, предполагая, что функция полезности страхо-
вой компании и/(х) выпукла вверх, из соотношений (0.1.8) и (0.3.2) имеем
неравенства
ujiSi) = Eu^Sj - X + H?in) < u(Sy - EX + Я;т,п),	(0.3.4)
поскольку функцию полезности u/(x) монотонно возрастает, то из неравен-
ства (0.3.4) следует, что
ЕХ < Я;т,п.	(0.3.5)
Аналогично, если функция полезности страховой фирмы U[(x) выпукла вниз,
то
EX > H?in.	(0.3.6)
Теперь рассматривая страхование со стороны клиента страховой компании
и со стороны самой страховой компании, получаем (см. соотношения (0.2.3)
и (0.3.3)), что страхование возможно, если
Gmax > НГ”-	(0.3.7)
Такая ситуация вполне возможна. Так, например, из неравенств (0.2.5) и
(0.3.6) следует неравенство (0.3.7), то есть страхование возможно, если функ-
ция полезности клиента страховой компании и(Х) выпукла вверх, а функ-
ция полезности самой страховой компании U[(X) выпукла вниз. Аналогично
из неравенств (0.2.6) и (0.3.5) следует, что страхование возможно только в
случае
Gmax = Я,™".	(0.3.8)
0.4 ЭМПИРИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ФУНК-
ЦИИ ПОЛЕЗНОСТИ
Рассмотрим теперь задачу определения функции полезности клиента стра-
ховой компании. Мы приведём здесь простейший метод, допускающий мо-
дификации, и позволяющий в принципе (например, с помощью компьютера)
сколь угодно точно определить эту функцию полезности на произвольном
интервале возможных доходов клиента.
Итак, пусть клиент страховой фирмы обладает неизвестной функцией
полезности и(Х) (отметим, что здесь мы предполагаем, что у клиента та-
кая функция существует хотя её существование, вообще говоря, ниоткуда
не следует). Для её приближённого определения необходимо иметь возмож-
ность наблюдать за поведением клиента в различных рисковых ситуациях
118
Дополнение
или искусственно создавать их и следить за его поведением. Пусть мы хотим
приближённо построить функцию полезности и(Х) на отрезке [О, S], S > 0.
Поскольку функция полезности и(Х) определена с точностью до линейного
преобразования, то её можно нормировать в точках 0 и S, то есть можно
подобрать числа а > 0, b так, чтобы
а и(0) + Ь = 0
au(S) + 6=1,
то есть
„ _	1	. п . = «(о)
u(S) — u(0)	’	u(0) — u(S)
Таким образом мы можем с самого начала предполагать, что
и(0) = 0 и u(S) = 1.	(0.4.1)
Предположим, что клиенту предлагают на первом шаге ” купить лотерей-
ный билет” (так мы называет рисковую ситуацию или случайную величину)
вида Xi
P(Xt = 0) = Р1, Р(Х1 = S) = 1 - Р1, Р1 € (0,1),
то есть с известной для нас вероятностью pi, которая является парамет-
ром, выбираемым нами, по лотерейному билету выгрыш равен нулю, а с
вероятностью 1 — pi выгрыш равен S. Пусть клиент за обладание этим би-
летом готов заплатить величину Xi- Это означает, что для него выполнена
эквивалентность
Хг ~ хг
или в рамках нашей модели (см. (0.1.6))
Eu(Xi) - u(0)pi + u(S)(l - Pi) = u(®i),
поэтому с учётом формул (0.4.1), имеем
u(xi) = 1 — pi-	(0.4.2)
Таким образом на первом шаге определено значение u(ii )-
На втором шаге предположим, что что клиенту предлагают ’’купить
лотерейный билет” вида Xz
Р(Х2 = О)=Р2, Р(Х2 = Ж1) = 1 - Р2, Р2 е (0,1),
0.4. Эмпирическое определение функции полезности
119
то есть с известной для нас вероятностью р2, которая является параметром,
выбираемым нами, по лотерейному билету выгрыш равен нулю, а с вероят-
ностью 1 — Р2 выгрыш равен ij. Пусть клиент за обладание этим билетом
готов заплатить величину Х2. Это означает, что для него выполнена экви-
валентность
Х2 ~ х2
или
Еи(Х2) - «(0)р2 + ы(Х1)(1 - р2) = u(z2),
поэтому с учётом формул (0.4.1) и (0.4.2), имеем
u(®2) = (1 - pi)(l - р2).	(0.4.3)
Таким образом на втором шаге определено значение и(т2).
Далее на следющих шагах клиенту следует предложить лотерейные би-
леты вида %з, Х4
Р(Х3 = и) = Рз,	Р(-*з = z2) = 1 - рз, Рз е (0,1);
Р (Х4 = Z1) = р4,	Р(Х4 = S) = 1 - Р4, р4 е (0,1)
и так далее. Таким образом могут быть определены значения функции по-
лезности в произвольном конечном числе точек, что обычно достаточно для
приближённого построения графика неизвестной функции полезности и(х).
120	Дополнение
0.5 СПИСОК ЛИТЕРАТУРЫ
1)	М. Де Гроот. Оптимальные Статистические Решения. - Москва, Мир,
1974, 491 стр.
2)	П. С. Фишберн. Полезность для Принятия Решений. - Москва, Наука,
1978, 352 стр.
3)	В. И. Ротарь, В. Е. Бенинг. Введение в математическую теорию стра-
хования. - Обозрение Промышленной и Прикладной Математики, 1994,
т. 1, в. 5, стр. 698 - 779.


МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
им. М.В. ЛОМОНОСОВА
Факультет вычислительной математики и кибернетики
В.Е. Бенинг
Дополнительные главы
математической статистики
Часть 2
В 3-х частях
Учебное пособие
МОСКВА
2005
УДК 519.2
ББК 22.172
Б46
Печатается по решению Редакционно-издательского совета
Факультета вычислительной математики и кибернетики
Московского государственного университета имени М.В. Ломоносова
Бенинг В.Е.
Б46 Дополнительные главы математической статистики:
В 3-х частях: Часть 2: Учебное пособие. - М.: Издательский
отдел факультета ВМиК МГУ им. М.В. Ломоносова (лицен-
зия ИД N 05899 от 24.09.2001 г.), 2005. -128 с.
ISBN 5-89407-219-0
Данное учебное пособие содержит вторую часть лекций по математической статистике,
читаемых автором в течение последних лет студентам третьего и четвертого курсов факуль-
тета вычислительной математики и кибернетики МГУ н рамках обязательного курса “До-
полнительные главы математической статистики” и специальных курсов “Теория риска” и
“Элементы асимптотической статистики”.
Во вторую часть учебного пособия входят лекции по асимптотической теории оценивания,
теории экспоненциальиых семейств, доверительному оцениванию и эмпирическому байесов-
скому подходу.
Для студентов старших курсов и аспирантов университетов по специальностям “матема-
тика” и “прикладная математика”.
Рецензенты:
доктор физико-математических наук, профессор А. И. Зейфман,
доктор физико-математических наук, профессор Ю. С. Хохлов.
Учебное издание
БЕНИНГ Владимир Евгеньевич
ДОПОЛНИТЕЛЬНЫЕ ГЛАВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
ЧАСТЬ 2
Напечатано с готового оригинал-макета
в издательстве ООО “МАКС Пресс"
Лицензия ИДИ 00510 от 01.12.99г.
Подписано к печати 07.04.2005 г.
Формат 60x90 1/16. Усл.печ.л. 8,0. Тираж 100 экз. Заказ 181.
Тел. 939-3890,939-3891, 928-1042. Тел./Факс 939-3891.
119992, ГСП-2, Москва, Ленинские горы, МГУ им. М.В. Ломоносова,
2-й учебный корпус, 627 к.
ISBN 5-89407-219-0	© Издательский отдел факультета
вычислительной математики и кибернетики
МГУ им. М.В. Ломоносова, 2005
Содержание
Лекция 11	5
11.1	Информационное неравенство......................... 5
11.2	Эффективные оценки................................. 14
11.3	Список литературы.................................. 16
Лекция 12	17
12.1	Состоятельные оценки............................... 17
12.2	Метод моментов..................................... 20
12.3	Метод максимального правдоподобия.................. 22
12.4	Список литературы.................................. 26
Лекция 13	27
13.1	Асимптотические свойства опенок максимального правдопо-
добия ................................................  27
13.2	Список литературы.................................. 38
Лекция 14	39
14.1	Оценка плотности................................... 39
14.2	Проекционные оценки................................ 43
14.3	Список литературы.................................. 46
Лекция 15	47
15.1	Минимальные достаточные статистики................ 47
15.2	Список литературы................................. 54
Лекция 16	55
16.1	Экспоненциальные структуры........................ 55
16.2	Список литературы................................. 66
3
4
Лекция 17	67
17.1	Доверительное оценивание........................... 67
17.2	Метод построения доверительных интервалов, основанный на
центральных статистиках................................. 69
17.3	Построение доверительных множеств с использованием фун-
кий распределения статистик............................. 71
17.4	Асимптотические доверительные интервалы............ 74
17.5	Список литературы.................................. 76
Лекция 18	77
18.1	Структура байесовских решений....................... 77
18.2	Эмпирический байесовский подход..................... 80
18.3	Список литературы................................... 84
Лекция 19	85
19.1	Асимптотическая оптимальность...................... 85
19-2 Случай распределения Пуассона...................... 89
19.3	Список литературы.................................. 92
Лекция 20	93
20.1	Оценка априорного распределения: общий случай...... 93
20.2	Примеры............................................ 98
20-3 Список литературы..................................104
Лекция 21	105
21.1	Опенка априорного распределения: конечный случай...105
21.2	Случай отсутствия асимптотически опримальной решающей
функции..................................................109
21.3	Список литературы....................................116
Лекция 22	117
22.1	Задачи ..............................................117
22.2	Список литературы....................................126
Лекция 11
В Лекции рассматриваются нижние оценки для дисперсии оценок, вводят-
ся так называемые эффективные оценки.
11.1 ИНФОРМАЦИОННОЕ НЕРАВЕНСТВО
В общем случае оптимальная оценка 6* (X) параметрической функции д(0)
может не существовать (Теорема 10.1.1 даёт лишь достаточные условия
существования <5*(Х)). Однако при выполнении естественных условий регу-
лярности можно получить опенку снизу для дисперсии любой оценки функ-
ции д(0) и указать условия, при которых эта граница достигается.
Любые две случайные величины У и Z с конечными вторыми моментами
удовлетворяют ковариационному неравенству
Cov(V, Z) < a/DKDZ.	(11.1.1)
Доказательство непосредственно следует из определения ковариации и не-
равенства Коши - Буняковского.
Применим неравенство (11.1.1) к любой оценке <5(Х) функции д{9) л лю-
бой функции S(X,9) с конечным вторым моментом и положительной дис-
персией
Covg(<5(X), S(X,0))
~ ЪфМ) '
В общем случае неравенство (11.1.2) бесполезно, поскольку его левая часть
также содержит оценку 6(Х). Но если
Cove(5(X), S(X,0))
5
6
Лекция 11
зависит от оценки 4(Х) только через её математическое ожидание
Е9<5 (X) = g(fi),
то неравенство (11.1.2) действительно даёт нижнюю границу для дисперсии
всех несмещенных оценок функции д(0).
Теорема 11.1.1. Для того чтобы
Cov9(<J(X), S(X,0))
зависела от оценки <5(Х) только через ее математическое ожидание
Е9<5(Х) = д(0),
необходимо и достаточно, чтобы для любой несмещенной оценки нуля
<5о(Х) выполнялось тождество
Covg(<5o(X), S(X,0)) = 0, для всех в 6 0.	(11.1.3)
Доказательство. Необходимость. Предположим, что
Cov9(<5(X), S(X,0))
зависит от оценки 6(Х) только через g(fi). Тогда для любой несмещённой
оценки нуля 6о(Х) справедливо тождество
Cove(<5(X) +<50(Х), S(X,0)) = Cove(«5(X), S(X,0)), для всех 0 е О
и, следовательно,
Covs(<J0(X), S(X,0)) = 0, для всех 0 6 0.
Достаточность. Пусть выполнено тождество (11.1.3) для всех несмещён-
ных оценок нуля. Пусть 5] (X) и ^(Х) - две несмещённые оценки функции
gW
Ee<5i(X) = EflJa(X) = g(0), для всех 0 6 0.
Тогда оценка
<5i(X)-<52(X)
является несмещённой оценкой нуля, и поэтому
Cove(<5i(X) - <52(Х), S(X,0)) = 0, для всех 0 6 0,
11.1. Иифаршщяашое «равенство
7
так что
Сочв[бг(Х), S(X,9)) = Cove(<S2(X), S(X,0)), для всех 0 £ 0.
□
Применим Теорему 11.1.1 и неравенство (11.1.2) для получения оценки
снизу для дисперсии произвольной несмещённой оценки функции д(9).
ТЕОРЕМА 11.1.2. (Неравенство Хаммерсли - Чепмена - Роббинса) Пред-
положим, что плотность рд(х) удовлетворяет условию
Рв(х) > 0, для всех 9 £ 0 u х £ X.
Тогда для любой несмещнной оценки 3(Х) функции д(9) справедливо нера-
венство
(д(9 + А) - д(9)}2
De<5(X) > --------—------для всех 9, 9 + А £ 0.	(11.1.4)
Замечание 11.1.1. Заметим, что
Е9(- 1^ >0, для всех 0, 9 + А £ 0,
\ PeW J
поскольку в противном случае если существуют 9ббиб + Де0 также,
Рв(мх) = тд(Х)} = 1,
Рв^Рв(Х) =рв+д(х)) = у pe(x)dv(x) =
{х:рв(х)=рв+ь(х)}
= У Pe+A(z)dp(z) = Р9+4(рв(Х) = Рв+д(Х)^ = 1,
{х:рв(х)=р»+д(т)}
Р«(Х £ А) — Р9 (х £ А,рв(Х) = р9+д(Х)^ = у pg(x)dv(x) =
An{l:ps(l)=p>+a.(x)}
= I Pe^(x)du(x) =
An[z:pj(z)=pe+a(z)}
8
Лекция 11
— Р9+д ^Х € А, рв(Х) — ре+д(Х)^ — Рв+д(Х € А), А € У
и нарушается условие идентифицируемости (см. Лекцию 6) семейства Р.
Доказательство. Рассмотрим функцию
S(x,0) =	- 1	(Ц.1.5)
Рв\х)
тогда она удовлетворяет условиям Теоремы 11.1.1, поскольку
E«S(X, &} = 0, для всех 9 6 0
и, следовательно
Covs(<50(X),	= Ee<5o(X)S(X,0) =
= Ев+д|$о(Х) - Ee<5o(X) = 0, для всех 0,0 + Д 6 8.
При этом
Cove(<J(X), S(X,0)) = Etf<5(X)S(X,0) = g(0 + Д) - g{9).
Поэтому неравенство (11.1.2) принимает вид
D9<5(X) >
+ д)
Е>ММ’'
□
Замечания.
1) Заметим, что неравенство (11.1.4) имеет смысл, если 0 6 0 и 0+-A G 0
таковы, что
g(0) д(0+ А).
2) Поскольку неравенство (11.1.4) выполнено при всех А таких, что 0 +
Д G &, то его можно записать в виде
Dfld(X) >
sup
Д:в+Д€в
(g(0 + A) - g(0))2
для всех 0 G 0.
11.1. Информационное неравенство
9
3) Условие
Ре(х) > 0, для всех 9 е 0; х 6 X
можно несколько ослабить. Обозначим
А(0) = {т £ X : ре{х) > 0}.
Тогда неравенство (11.1.4) выполнено, если это условие заменить на
А(9 + А) С А(0).
При этом справедливо неравенство
Овй(Х) >
(g(0 + A)-g(g))2
sup ---------------4-,
Дев(9)
где B(fi) = {A : 6 + А € 0, А(б + А) С А(0)}; для всех 6 & Q.
При выполнении некоторых условий реглярности (см. ниже Условие R),
классическое информационное неравенство получается, если в неравенстве
(11.1.4) устремить А к нулю. Неравенство (11.1.4) не изменится если функ-
цию 5(т, &) заменить на выражение
Р9+д(д) -PflW 1
А	рв(т) ’
которое стремится к
Э0 рв(х)
при А —> 0, если плотность ре(х) дифференцируема по 9 € 0, а выражение
gW - д№ + Д)
заменить на отношение
3(g) - g(fi + А)
А
которое стремится к g'(g) при А -» 0, если д{9) дифференцируемая по 9 б О
функция.
Таким образом, кажется правдоподобным, что в качестве функции S(x, 0)
в (11.1.5) можно рассмотреть выражение
=	(и.1.6)
Р9{Х)
10
Лекция 11
Поскольку для любой несмещённой оценки нуля <5o(X) выполняется тож-
дество (при условии дифференцируемости Ее<5о(^) по в)
d	о, для всех р е q
U V
то функция 3(х,в) будет удовлетворять соотношению (11.1.3) при условии,
что выражение
ЕЙ«5О(Х) = 16Q(x)p6(x)dv(x)
можно дифференцировать по в е © под знаком интеграла при всех 6q(JY).
Чтобы получить окончательную нижнюю границу дисперсии, положим
= ~w-'
тогда
Covj(<5(X), S(X,0)) = 16(x)p'B(x)dv(x).
Если в тождестве
6(x)pe(x)dv(x) = д(0)
допускается дифференцирование по 0 G €> под знаком интеграла, то отсюда
следует, что
Covs(<5(X), S(X,0)) =</(0),
и следовательно справедливо информационное неравенство (см. (11.1.2))
. И)2
Предположения, при которых выполняется это неравенство, будут приведе-
ны в более формальном виде в Теореме 11.1.4.
Функция 5(т,0), определённая равенством (11.1.6), представляет собой
относительную скорость изменения плотности рв(х) в точке х е X. Среднее
значение квадрата этой скорости обозначим через 1(0).
Определение 11.1.1. Величина
/х(0) = 1(0) =	pe(x)dv(x)
\	99	) J \рв(х))
ее в.	п.1.7)
11.1. Информационное неравенство
11
называется информацией по Фишеру (фишеровской информацией), кото-
рая содержится в наблюдении X о параметре в 6 0.
Сформулируем теперь условия регулярности.
Условие R.
1)	Параметрическое множество 0 является открытым множеством из R1.
2)	Множество (носитель распределения Pg)
А — {т 6 X : pg(x) > 0}
не зависит от 0 € 0.
3)	Для всех х из А и всех 0 из 0 функция pg(x) дифференцируема по 9 и
Ipt(x)dv(x) = Ip'e(x)di/(x) < оо.
л
4)	Для всех х из А и всех 6 из 0 функция рв(х) дважды дифференцируема
по В и
У Pe(x)dv(x) = f p'g(x)du(x) < оо,	pg(x) =	
А	А
5)	Для всех оценок <5(Х), всех х из А и всех 6 из 0 функция рв(х) диффе-
ренцируема по 9 и
У 6(x)pg(x)dv(x) = У <J(x)pg(z)di/(z) < оо.
А
6)	Функция р(0) дифференцируема по 9 & 0.
Некоторые свойства фишеровской информации 1(9), например её аддитив-
ность относительно независимых наблюдений, описываются следующей Те-
оремой.
Теорема 11.1.3.
1)	Если выполнены Условия R(l) - R(3), то справедливы равенства
Eg (= 0, для всех 9 EQ;
\ /
/(9) = D,fegJM
\ UV I
12
Лекция 11
2)	Если выполнены Условия R(l), R(S) и R(4), то справедливо равенст-
р /d2logpg(X)\
'д де2 )'
3)	Пусть X и Z независимые наблюдения, имеющие плотности рд(х)
и qe(x) относительно мер и(х) и р(х). Пусть Ixtfi),
соответственно информации о 0, содержащиеся соответственно в
X, Z и (X,Z). Тогда если плотности ре(х) и Qa(x) удовлетворяют
Условиям R(l) - R(3), то справедливо соотношение
Ы0) = IxW + Iz(9).
Если X — (Xi,-  ,ХП) ~ независимые одинаково распределенные на-
блюдения, для плотностей которых выполнены Условия R(l) - R(3),
1х(в) = nlxjW.
Доказательство.
1)	Доказываемое утверждение следует из Условий R(l) - R(3), тождества
pg(x)do(z) = 1
и Определения 11.1.1 фишеровской информации ЦХ).
2)	Требуемый результат следует из тождества
d2logpg(:r) = 1 d2pg(x) _ /dlogpfl(x)\2
д02	~ рв(т) Э02	\ дв )
после взятия математического ожидания Eg от обеих частей.
3)	По определению
f<?logp8(X) dlogqs(Z)
Ix,zW =	----+ —дв -
поэтому требуемый результат следует из соотношения
plogpe(X) 31ogg8(Z)\ dlogp8(X) д log qe (Z)
Ee —эе-----------dT~) = Es—дё~ ’Ee—d9~ = °’
11.1. Информацмониое неравенство
13
□
Вернёмся теперь к неравенству (11.1.7). В силу первого утверждения
Теоремы 11.1.3 знаменатель в правой части этого неравенств можно заме-
нить на фишеровскую игформацию 1(0). В результате получается следую-
щая версия информационного неравенства.
Теорема 11.1.4. (Неравенство Крамера - Рао) Пусть выполнены Усло-
вия R(l) - R(3), R(5) и 1(0) > 0. Пусть 5(Х) любая оценка, для которой
выполнено Условие R(4). Тогда
п -> (W(X)\ 2 1
De5(X)>|——
Следствия.
1) Если <5(Х) есть оценка функции д(0) и
Ев<5(0) = </«?)+6(0),
где Ь(в) есть смещение оценки <5(Х), то при выполнении условий
Теоремы 11.1-4, Условия R(6) и дифференцируемости смещения Ь(0)
справедливо неравенство
D,j|x) г	t,w^smr г
2) Если 6 = <5(X), где X = (Xi,---,Xn) и наблюдения (Xi,- • • , Хп) не-
зависимы и одинаково распределены, тогда, если для отдельного на-
блюдения Xi выполнены условия регулярности из предыдущего След-
ствия, то
(g'W + W))2
Доказательство. Этот результат непосредственно следует из неравен-
ства (11.1.7) и первого утверждения Теоремы 11.1.3. Однако мы дадим его
полное доказательство (оно фактически повторяет доказательство Теоремы
9.2.1), поскольку из него можно получить условия, при которых информаци-
онное неравенство обращается в равенство. Дифференцируя тождества по
9
Pe(x)dv(x) = 1,	[ S(x)pe(x)dv(x) = g(0) + b(0),
14
Лекция 11
с использованием Условий R(l) - R(3), R(5), получим
0 = [p'e(x)dv(x) =	для всех в € 0,
J	Ои
А
д'(0) + Ь'(0) = f S(x)p'g(x)du(x) = Egd(-X)	, для всех 0 е 0.
J	0V
А
Поэтому
д' W + b'W = Е,(«(Х) - д(0} - ьда)
Таким образом, используя неравенство Коши - Буняковского, можно запи-
сать
)2
= ода/хда.
□
Задача 11.1.1. Пусть наблюдения X = (Л,,  • • ,Хп) независимы и оди-
наково распределены с общей плотностью рв(х), которая положительна при
всех х £ X и всех в 6 0. Тогда дисперсия любой несмещённой оценки S(X)
параметра в удовлетворяет неравенству
DMW >	°)2Гп--- при всех 0G0, 0/00-
-1
11.2 ЭФФЕКТИВНЫЕ ОЦЕНКИ
Рассмотрим теперь вопрос о том, когда в неравенстве Крамера - Рао до-
стигается равенство.
Определение 11.2.1. Несмещенная оценка 6(Х) дифференцируемой функ-
циид(в) называется эффективной, если для ее дисперсии справедливо тож-
дество
2
DgS(X) = - J- > пРи веет в 6 0.
/(в)
Пусть выполнены условия регулярности из Теоремы 11.1.4, тогда из этой
Теоремы следует, что если существует эффективная оценка, то она являет-
ся оптимальной и значит Теорема 9.2.2 показывает, что она единственна.
Простой критерий эффективности даётся следующей Теоремой.
11.2. Эффективные опенки
15
Теорема 11.2.1. Пусть выполнены условии регулярности из Теоремы
11.1-4, тогда длятого, чтобы несмещенная оценка 6(Х) функции д(0) была
эффективной необходимо и достаточно, чтобы выполнялось следующее
представление
-	= А (0) (б(х)~ д(0)\,	для всех 0 6 0,
ifu	\	/
где А(0) - некоторая функция 0. При этом
De6{x) - lw
Доказательство. Из доказательства Теоремы 11.1.4 следует, что в ин-
формационном неравенстве достигается равенство тогда и только тогда,
когда достигается равенство в неравенстве Коши - Буняковского
/	\ 2
Хорошо известно, что это равенство достигается в случае линейной зависи-
мости функций
aiogpefi) -
--------- и <5(х)-д(0).
Далее для эффективной оценки 5(Х) имеем
Р -sm	И))2	И))2
yl2(0)E9(d(X)-д(0))2 W)DeJ(X)’
□
Пример 11.2.1. Пусть X = (Ху,-  , Хп) - независимые одинаково рас-
пределённые пуассоновские наблюдения
Xt~?{0), 0>О, i = l,
Тогда условия регулярности Теоремы 11.2.1 выполнены и
ДХ1 + - +»п
Pflt1) = Р«(Ху = Ху,--• ,Хп = Хп) = е ™—j--:, т=
Ху.•  • Хп*
16
Лекция 11
поэтому
3k>gps(X)	n(-v а\	an
---—---= -п + —J— = -IX - 0), для всех 0 > О,
0V-----и V '	'
В значит А(0) = п/0 и эффективная оценка для параметра 0 имеет вид
5(X)=T=i^Xi.
11.3 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 1, §6.
2)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992, Глава 2, §2.2.
3)	Л.Н. Большее, Уточнение неравенства Крамера - Рао,
Теория вероятностей и её применения, 1961, т. 6, н. 3, стр. 319 - 326.
4)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975, Глава 4, §4.1.
5)	Э. Питмен, Основы Теории Статистических Выводов,
Москва, Мир, 1986, Глава 5.
Лекция 12
В Лекции рассматриваются некоторые методы построения оценок, при-
водящие к разумным результатам. Рассмотрены асимптотические свой-
ства получаемых оценок.
12.1 СОСТОЯТЕЛЬНЫЕ ОЦЕНКИ
Рассмотрим доминируемую статистическую структуру (A"n, JFn, {Png, 0 €
0}), зависящую от параметра п 6 N, который может интерпретировать-
ся как размер выборки (например, если наблюдение Хп, имеет вид Хп =
(Х1,  •, Х„), где X, - независимые наблюдения и исходная статистическая
структура является прямым произведением п структур). До сих пор мы
считали размер выборки п фиксированным. Предположим теперь, что па-
раметр п ”большой”, то есть пусть п —> оо. Будем обозначать наблюдения
и оценки параметрической функции д{в) соответственно через Хп € Хп и
Ьп — <5П(ХП) и рассмотрим последовательности статистических структур
(Xn, Рп, {Рп9, о 6 0}) и оценок <5П = <5П(Х„).
Предположим, что Xn = (Xj,  • •, Хп) - независимые одинаково распре-
делённые наблюдения, имеющие одинаковое распределение Pg, в е 6, и что
мы хотим оценить функцию д(в'). С ростам п информации одев ста-
новится всё больше и блыпе, и хотелось бы ожидать, что при достаточно
больших значениях п можно было бы оценить g(ff) достаточно точно. Ес-
ли 5П(ХП) - некоторая разумная оценка функции д(0), то, конечно, нельзя
ожидать, что её значения близки к д(6) для всех конкретных значений на-
блюдений Xi = zi,- -,Xn = хп. Но можно надеяться, что <5П(Х„) будет
близка к д(9) с большой вероятностью.
Эта идея формализуется в следующем Определении, при этом наблюде-
ния Хп не обязаны иметь вид Х„ = (Xi,  • •,Хп).
17
18
Лекция 12
Определение 12.1.1. Последовательность оценок Sn = 6n(Xn) функ-
ции g(0) называется состоятельной, если для любого е > 0 справедливо
соотношение
Рпв(|5п(Хп) - д(0)| > е) -> 0, п -> оо, для всех 0 е 0.
Символически это обозначается как
5П(ХП) -^4 р(0), п -4 оо, для всех 0 G 0.
Пример 12.1.1. Пусть Xn = (Xi, •   ,ХП), где Х{, i = 1,••• ,п незави-
симые одинаково распределённые наблюдения
X, ~JV(0, 1), i=l,
Тогда в силу Закона Больших Чисел
X — - Х< -^4 0, п -4 оо, для всех 0 € R1.
Если же
Х*~Х(0, 02), » = 1,--,п,
то аналогично
52 = _1_£(^_Х)2 =
п - 1 П "
L «=1
Следующая Теорема часто является полезной при доказательстве состоя-
тельности.
Теорема 12.1.1.
1) Пусть 6П(ХП) - последовательность оценок параметрической функ-
ции д(0) с функцией риска
Bn(0, <5n) = с(0)Епа(5п(Хп) - g(0))2,	с(0) > 0.
Тогда, если
Лп(6,5П) —> О,
для всех 0 6 0,
то <5П(ХП) - состоятельная оценка функции д(0).
12.1. Состотяыап оаеяпя
19
2) Пусть
ЕпвМХ.) = 9(9) + Ыв), □„«MX,) = ъ(9).
Тогда, если
bnW^O, и т/п(9) -> 0, для всех 9 €0,
mo <$П(ХП) - состоятельная оценка д(9).
3) В частности, <5П(ХП) состоятельна, если она несмещенная при каж-
дом п и
Dne<5n(Xn) -» 0, п —> оо,	для всех 0 € 0.
Доказательство .
1) Доказательство следует из неравенства Чебышева
£2Р»в (|<5п(Х„)-д(9)| > е) < Епв((5п(Хп)-д(0))2 -» 0, п ч оо, для всех 9 € в.
2) Доказательство также следует из неравенства Чебышева
Рпв(|МХп)-д(0)| > е) = Рпв(|МХп)-EneMXn)+EneMXn)-ff(0)| > е) <
< Pn«(|5n(Xn)-E„e5n(X„)|+|b„WI > с) = Рпфп(Хп)-Епв<5п(Х„)| > е-|Ь„(0)|) <
< Опв5п(Хп)	г1п(9)	аа,
- (г-мад! («-!».»'*°' П^”’ ““““ #ее-
□
Пример 12.1.2. Пусть Хп — (Xi,   •, Хп) ~ независимые одинаково рав-
номерно распределённые наблюдения
X, ~ 7^(0, в),	г =
Тогда
_	п9	п	пв2
Епв%<п) ~ п +1 ’	D"(’%(n) = (п + 1)2(п + 2)’	= 1 <?< п Xi'
И значит оценка
Мхп) =
20
Лекция 12
является состоятельной для параметра 6 > 0.
Теорема 12.1.2. Пусть <5п(Хп) состоятельная оценка функции д(0) и
функция h(t) непрерывна в точке д(9) для каждого 0 6 0, тогда оценка
А(<5„(ХП)) является состоятельной для функции h(g(0)).
Доказательство. Фиксируем 0 и обозначим а = д(6). Из непрерыв-
ности функции A(t) в точке а следует, что для любого е > 0 существует
у = -у(е) > 0 такое, что если |t — а| < 7, то
\h(t) — А(а)| < е.
Отсюда следует, что
PnS(|A(<5n(Xn)) - A(<z(*))l < е) > PnS(|<5„(Xn) -Р(б)| < 7) =
= l-Pne(lMXn)-<7(0)| > т),
шитому
Рпв(|А(МХ„))-А(р(0))| > е) <
< Pn«(l«n(X„)-ff(0)l > 7) ->о, п -> оо, для всех 9 € 0.
□
Пример 12.1.3. Пусть Xn = (Xi, • - -, Хп) - независимые одинаково рав-
номерно распределённые наблюдения
Х,~7?.(О,0), * = 1,--,п.
Тогда из этой Теоремы и Примера 12.1.2 следует, что опенка
6П(ХП) = arctan (Х(п)(п + 1)/п)
является состоятельной оценкой функции д(0) = arctan 0.
12.2 МЕТОД МОМЕНТОВ
Пусть Xn = (Xi, •  • ,Хп) - независимые одинаково распределённые наблю-
дения, причём существуют моменты вида
EjX{ = a3(fl), j = !,, г, для всех 0 G 0,
12.2. Метод моментов
21
зависящие от параметра 0 = (0lt-  ,0r) е Q CW. Определим эмпирические
моменты (см. Лекцию 6) по формуле
=	3 = !>••, г.
Предположим, что оцениваемая функция д(в) представима  виде непрерыв-
ной функции от
«1W,' • • ,<*г(0),
то есть
д(0) =	- -,аг(в)).
Тогда оценкой д(0} по методу моментов называется оценка вида
5n(Xn) — h(otin,  • •, o?rn).
Непрерывность функции h а многомерный вариант Теоремы 12.1.2 обеспе-
чивают состоятельность оценки <5П(ХП), поскольку в силу Закона Больших
Чисел (см. Лекцию 4, п.6)
Qjn -^4 aj(9), j = г, для всех 9 6 0
и поэтому
<fn(Xn) —4 h(ai(9), •  • ,ar(0)) = д(0) для всех О 6 0.
Если 0 С Rr и д(0) = 0, то оценка по методу моментов находится как
решение системы уравнений
aj{ff) = ajn, j = !,,г,
принадлежащее 0. Если эта система допускав однозначное и непрерывное
решение
0 =	, <5гп),
то в качестве оценки берём оценку вида
(Хп) = Н (ain,  •, Огп) •
Поскольку
в = НШ-,а,т,
22
Лекция 12
то опять в силу непрерывности функции Н, имеем
<5n(Xn) = Н(а1п,--- , огп) ^4 #(ai(0),- ,аг(0)) = 6, для всех 0 6 0.
Таким образом <Jn(Xn) - состоятельная оценка.
Пример 12.2.1. Пусть Xn = (Xi,   • ,ХП) - независимые одинаково рас-
пределённые наблюдения, имеющие плотность
р,(х) = 0е-йх, х > 0;	9 > 0.
Найдём оценку по методу моментов для 0, используя только второй момент.
а2(0) = 19e' 6xi7dx = - У x2de~Bx = 2 j xe~Bxdx =
О	0	0
Поэтому имеем уравнение
2 _ _ _ 1 v „г
02 ~а2п~ n^Xi
л значит оценка по методу моментов имеет вид
<5П(ХП) = : * = -^4 0, для всех в > 0.
{hi*
12.3 МЕТОД МАКСИМАЛЬНОГО
ПРАВДОПОДОБИЯ
Рассмотрим ещё один метод построения оценок, приводящий к разумным
результатам. Поскольку мы рассматриваем только доминируемые статис-
тические структуры (A’n, J’n, {Pne, в е 0}), то обозначим через pns(x), х €
Хп, 9 6 0 - плотность относительно доминирующей меры ип.
ОПРЕДЕЛЕНИЕ 12.3.1 Оценка 6п = <5п(Хп) наэываается оценкой макси-
мального правдоподобия, если
®п) ~ SUp£n(0; Tn),
#ее
где через
£-п(9', Тп) — РпИ^п)
12.3. Метод максимального правдоподобия
23
обозначена функция правдоподобия.
Рассмотрим теперь некоторые свойства оценок максимального правдо-
подобия, причём будем считать п, сначала, фиксированным и поэтому будем
опускать индекс п в обозначениях.
Заметим, что оценка максимального правдоподобия может не существо-
вать, может определяться неоднозначно или может не быть оптимальной.
Однако покажем на эвристическом уровне, что типичным образом метод
максимального правдоподобия приводит к разумным результатам.
Пусть наблюдение имеет дискретное распределение и
£(#; х) = рв(х = х), х е х, еее.
Предположим, что мы наблюдаем конкретное значение X = х, тогда по-
скольку обычно происходят события, имеющие наибольшую вероятность,
то этому значению х соответствует в максимизирующее функцию правдо-
подобия £(0; х) при фиксированном х € X.
Справедливы следующие свойства оценок максимального правдоподо-
бия.
1)	В регулярном случае оценка максимального правдоподобия удовлетво-
ряет уравнению
х)|
дб l9=d(i)
2)	Бели в регулярном случае существует эффективная Оцени* 6(Х) па-
раметра 0, то
J(X) = j(X),
поскольку (см. Теорему 11.2.1) в этом случае
—= A«?)(J(x) - 0) = О
и значит
= j(X).
3)	Если сущестует достаточная статистикаТ = Т(Х) и существует оцен-
ка максимального правдоподобия 5(Х), то она зависит от X только
через достаточную статистику Т(Х)
в(Х) = 5(Т(Х)),
24
Лекция 12
поскольку по критерию факторизации (Теорема 7.1.3)
£(<?; х) = Л(х)ОТ(Т(х))
и максимизация £(в; т) по в сводится к максимизации gj(T(x)).
Теорема 12.3.1. (Принцип инвариантности оценок максимального прав-
доподобия) Пусть оцениваемая функция g(ff) измерима и
Я : © ~> Г.
Тогда, если 5(Х) - оценка максимального правдоподобия для параметра в,
то д(5[Х)) - оценка максимального правдоподобия для g(ff).
Доказательство. Обычно считают, что д(9) - взаимнооднозначная
функция. Здесь мы этого не предполагаем. Для каждого д £ Г определим
множества
И(д) = {«£©: 9(в) = 9}=9-1(9).
Тогда оценкой максимального правдоподобия для функции д(6) называется
оценка д(х) такая, что
sup£(0; х) = sup sup £(в; х) = sup £(0; х).
«	ser eez{9)	«ez(j(i))
Пусть
М(д,х) = sup £(в; х), д&Т
и б(х) - оценка максимального правдоподобия для 0.
Тогда существует элемент д(х) е Г такой, что
6(х) е Z(g(x)),
поэтому
£(j(x); х)) < sup £{6\ х) — М(д(х),х) <
в£2(д(х))
< supM(g, х) — sup sup £(0; х) = sup£(0; х) = £(5(х); х).
9£Г	ser 9ez(s)	е
Отсюда следует, что
М(д(х),х) =supM(g, х)
ser
и значит д(х) - оценка максимального правдоподобия для g(ff), то есть
д(х) = д(х) и
5(х) G Z(g(x)) = Z(g(z)),
12.3. Меток максамалыюго цршдояиобшг
25
поэтому
§(*) = д(6(х)).
о
ПРИМЕР 12.3.1. Пусть Xn — (Xi,  • • ,Хп) - независимые нормально рас-
пределённые наблюдения
Xi~M\e, 1),	» = !,• ,n; SeR1.
Тогда, поскольку, оценка вида
1 п
является оценкой максимального правдоподобия для параметра 9, то оцен-
кой максимального правдоподобия для функции
д(в) — Ф(х — 0) = Pe(Xj < х) (х фиксировано)
будет Ф(х — X).
26
Лекция 12
12.4 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 5, §1.
2)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992, Глава 2, §2.4, §2.5.
3)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975, Глава 4, §4.5, Глава 5, §5.1.
4)	А.А. Боровков, Математическая Статистика,
Москва, Наука, 1984, Глава 2, §4, §6.
Лекция 13
В Лекции доказывается состоятельность и асимптотическая нормаль-
ность оценок максимального правдоподобия.
13.1 АСИМПТОТИЧЕСКИЕ СВОЙСТВА
ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДО-
ПОДОБИЯ
Пусть теперь наблюдения имеют вид Xn = (Xi,  • • ,Хп), п 6 N. где X, -
независимы и одинаково распределены с общей плотностью ре(х), в е 0.
Докажем, состоятельность оценок максимального правдоподобия <5П(ХП).
Теорема 13.1.1. (Состоятельность оценок максимального правдоподо-
бия) Пусть 0 С Rk - открытое ограниченное множество а во 6 0. Пусть
выполнены следующие условия регулярности
1) Множество
{хЕХ . рв(х) > 0}
не зависит от 9 Е Q.
2) Для любого 9 Е 0, 9 во справедливо неравенство
|рв(^) - PffoC'OI'M1) > °-
3) Для любого х Е X плотность рв(х) непрерывна по 9 Е 0, где в -
замыкание множества 0.
27
28
Лекция 13
4) Для любого в ев
Eeol^(^i)l = j Mx)\peB(x)dv(x) < оо,
где
1в(х) = logpe(x).
5) Для любого 6 Е 0 существует окрестность U$ С 0, О G Ug такам,
что
E9o| sup /91(Х1)| < оо.
е и,
Определим оценку максимального правдоподобия 5П(ХП) как
Z2loSPi„(X„)(X-) ~ sup £ logpff(Xi).
i=i	«ее »=i
Тогда оценка максимального правдоподобия 5П(ХП) состоятельна, то есть
для любого с > О
Рп9о(Рп(Хп)-в0|| > е)-*0, п-юо.
Доказательство. Докажем сначала вспомогательную Лемму.
Лемма 13.1.1. Из Условий 1 и S следует что
E90ie0(Xi) > Ee0Zff(A'i), для любого дев,
и
Рп90(Г[Рл>(-^*) > Цр»(Х1)) п °0’ для любого в ев, в / во-
i=l	t=l
Доказательство Леммы. Первое утверждение Леммы эквивалентно
неравенству
Eff°logF^><0-
Рв0 Ц1)
Поскольку логарифмическая функция выпукла вверх, то из неравенства
Йенсена (см. (8.2.4)) следует, что
с ir.fr PflCXi) , . р Ра(^1) _ г .__л
Ев010g рвДХг) - 10g EVo(Xi)
13.1. Асимптотические свойства о.м.п.
2»
Причём из Условия 2 вытекает, что равенство здесь возможно только при
О = Од. Заметим, что Лемму можно доказать без использования неравенства
Йенсена. Для этого используем неравенство
log(l + х) < х, х > —1
причём равенство здесь возможно только при х = 0. Имеем
Е»о 1оё = / loS	< [(Pe0(x)A*(sc) = 0.
P0OV^1) J P0O\£J	J \P*oW J
Причём, если здесь равенство, то
1 = р*0
Л pg№)	р,(хг)
\ SPe0(-X’l)	Peo(-X'l)
( Р»№)
(*1)
-1
= 1
И это соотношение противоречит Условию 2. Второе утверждение Леммы
следует из соотношения
Рп9о(Пр*.(*.) <	=Pn»o(-£logP®^ < о
\'=1	“л )	\П	P9\Xi)
__р (1	р ]_ PfoC^l) \ р i	i п
для любого 6 е 0, 6 / 0Q,
которое следует из Закона Больших Чисел и доказанного неравенства
Е»о 1ой
р»„№)
Pe(Xi)
> 0.
□
Заметим, что оценка максимального правдоподобия Jn(Xn) действитель-
но существует, поскольку по условию в - компакт и плотность ре(х) непре-
рывна по 0 на 0 при любом фиксированном х 6 X. Обозначим
Ue.k = {01 С ||01 - 0|| < 1Д}, fc = l,2, •••; де,к{х) - sup
Из Условия 5 следует, что для любого в е 0 существует ко(6) такое, для
любого к > ко(О) справедливо включение
У»,* £ Ug, Effope,*(Xi) < оо.
30
Лекция 13
В силу непрерывности плотности рв(х) по в € в (Условие 3) для любого
х е X
9e,k(x) Ue(x}, к—у оо.
Теперь из Теоремы о монотонной сходимости (см. Лекция 2, п. 8) следует
сходимость
Ев0<?в,*(Х1)|Е,ог»(Х1)) к^оо.	(13.1.1)
В сипу доказанной Леммы 13.1.1
е9оМ*1) >	е*е0,
поэтому из (13.1.1) следует, что для любого в 0 во существует натуральное
к(0) такое, что
Ев0Ч(^1) >	(13.1.2)
Обозначим
C = {0ee: ||f-fo|| > е},
тогда множество С ограниченно и замкнуто и поэтому является компак-
том. Окрестности вида Ue,k(9) образуют открытое покрытие множества С,
поэтому существует конечное подпокрытие вида
т
Ug.'kfg.'), j = 1,   •, m; С С и UgjMgj}.
Обозначим
kj=	gj(x) = ggjlk(gj)(x).
Тогда из неравенства (13.1.2) непосредственно следует, что справедливы
неравенства
ЕеьМ-Ъ) > E^W, j = 1,   • ,m.	(13.1.3)
Далее имеем
{Хп : ||<5„(Х„) - f0|| > е} = {Х„ : Jn(Xn) е С} С |J {Хп : j„(Xn) € U,}
7=1
и из этого соотношения следует неравенство
Рп90(1Йп(Хп) -f0|| > е) < £P„e0(5n(Xn)Gt/j).
з=1
13.1. Асимптотические свойства о.м.п.
31
Теперь для доказательства Теоремы достаточно доказать, что каждое сла-
гаемое в этой сумме стремится к нулю при п —> оо.
Рассмотрим j - ое слагаемое. Пусть <5n(Xn) € Uj, тогда в силу Закона
Больших Чисел (см. Лекция 4, п.6)
EMXi),
п
но
< ^£Х(х„)(*) <
что противоречит неравенствам (13.1.3). Формализуем теперь эту ядеяо.
Для любого а 6 R1 справедливо соотношение
{Хп : МХп) е Ц} С (Хп : - j>o(*<) < 4 □
I п »=1	)
U ( Х" : - Е fcW > 4 = An U Вп.	(13.1.4)
I п «=1 J
Выберем теперь а так, чтобы получить доказательство. Возьмём
a = ~(Eeo4(*i) + Ee09j(*i)),
тогда
Ап = {хп : ^(l9o(Xi) - Е,о1,о(*1)) < |(Ee„sJ(Xi) - E^Xj))} .
Теперь заметим, что в силу (13.1.3) правая часть этого неравенства строго
меньше нуля, и поэтому в силу Закона Больших Чисел
Рпво(Ап) ->0, п -> оо.
Аналогично получаем
Рп90(Вп) -> 0, п -4 оо.
Теперь утверждение Теоремы следует из соотношения (13.1.4) и неравенст-
ва
Pn9o(AnUBn) < РП9О(ЛП) + Рпйо(Дп)-
32
Лекция 13
о
Замечание 13.1.1. Заметим, что из Леммы 13.1.1 непосредственно сле-
дует, что если 0 С R? и конечно, то оценка максимального правдоподобия
6П(ХП) существует, единственна с вероятностью стремящейся к единице, и
состоятельна.
Доказательство следует из того факта, что в случае конечности 0 оценка
<^п(Хп) состоятельна тогда и только тогда, когда
Рпв(5п(Хп) = 6) -+ 1, п —> оо, для всех в 6 0.
И значит
Рпе0(^п(Хп) = е0) =
= Р„во(ПР«о(^) > Пр»(х>)) -» !,	для всех 0О е 0.
i=i	i=i
□
Заметим, что Теорема 13.1.1 доказана при весьма слабых условиях регу-
лярности. В частности не требуется дифференцируемость по в плотности
Рв(х). При наличии указанной дифференцируемости доказательство было
бы короче и проще. Предполагая дифференцируемость плотности ре(х), для
полноты, докажем состоятельность оценок максимального правдоподобия.
Заметим, что в случае Xn — (Xj,- -,Xn), совместная плотность Хп
имеет вид
п
РпеМ - Црв(т,), Хп = (zi,••,!„)
1=1
и значит функция правдоподобия и её логарифм есть
п	п
£п(0; Хп) = Рп9<Хп) = Прй(Х{), <п(^; Хп) = log£n(0; Хп) = ^logPfffZi).
»=1	>=1
Пусть для простоты 0 - открытое множество из R1. Напомним, что в регу-
лярном случае оценка максимального правдоподобия <5П(ХП) удовлетворяет
уравнению правдоподобия
=	-А).	(13.1-5)
Теорема 13.1.2. Пусть OCR1- открытое множество u G 0.
Пусть выполнены следующие условия регулярности
13.1. Асюшптпеаж свойства ом.п.
33
1)	Множество
{х е X : р9(х) > 0}
не зависит от 0 Q.
2)	Для любого 0 е в, 0 0о справедливо неравенство
|р»(х) - Pe0(x)|di/(x) > 0.
3)	Для и - почти всех х G X плотность ре(х) дифференцируема по 0 е 0
и ее производная есть р'9(х).
Тогда с вероятностью, стремящейся к единице при п —► оо, уравнение
правдоподобия (13.1.5) имеет корень in(Xn), такой что для любого е > 0
Рп9о(^п(Хп) - 0О| > е) -> 0, п -> ОО.
Доказательство. Пусть е > 0 столь мало, что (0ц — е,0о + в) с 0 и
пусть
Дп = {xn  ^n($oi хп) > 1п(0о ~ £; ^п)» М(0о» хп) > М(0о +	Хп)}*
Тогда из Леммы 13.1.1 следует, что
Рп90(Дп) -> 1, п -> оо.
Поэтому для любого Хп е £>п существует точка 5п(Хп,е), такая что
Jn(Xn,e) е (0о — е,0о + е) ив которой функция правдоподобия 1п(0; Х„)
имеет локальный максимум, так что
£(5п(Х„,е); Х„) = 0.
Следовательно для любого достаточно малого е > 0 существует последова-
тельность корней <5п(Хп,е) этого уравнения, такая что
Рп90(1^п(Хп,е) - 0О| > е) -+ 0, п-> оо.
Остаётся показать, что мы можем определить такую последовательность,
которая от е не зависит. Пусть йп(Хп) - корень, ближайший к 0q. Он су-
ществует, потому что предел последовательности корней вновь есть корень
в силу непрерывности функция правдоподобия 1п(0; Хп). Тогда ясно, что
Рпй0(1^п(Хп) - 0О| > е)-> 0, п -4 оо.
□
Замечания.
34
Лекция 13
1)	Доказанная Теорема не устанавливает существование состоятель-
ной последовательности оценок, поскольку когда истинное значение
0О неизвестно, данные не указывают нам, какой корень выбирать, что-
бы получить состоятельную последовательность. Исключением, ко-
нечно, является случай, когда корень единственный.
2)	Следует подчеркнуть также, что существование корня <5п(хп) при всех
хп (или для любого п при заданном хп) не утверждается. Это не вли-
яет на состоятельность, для которой требуется лишь, чтобы опенка
J„(xn) была определена на множестве, вероятность которого стремит-
ся к единице при п —► оо.
3)	Если в предположения Теоремы 13.1.2 уравнение правдоподобия (13.1.5)
имеет единственный корень <5п(Хп) для каждого п и всех хп, то Jn(Xn)
есть состоятельная последовательность оценок для в. Если, кроме то-
го, параметрическое пространство 0 есть открытый интервал (с, d)
(не обязательно конечный), то с вероятностью, стремящейся к едини-
це, <5П(ХП) максимизирует функцию правдоподобия, то есть является
оценкой максимального правдоподобия, которая является состоятель-
ной.
Первое утверждение очевидно. Чтобы доказать второе, предположим,
то вероятность того, что 5П(ХП) есть оценка максимального правдо-
подобия, не стремится к единице. Тогда при достаточно больших п
функция правдоподобия должна стремиться с положительной вероят-
ностью к своему супремуму, когда 0 стремится к с или к d. Но с ве-
роятностью, стремящейся к единице, <5П(ХП) есть точка локального
максимума функции правдоподобия, которая должна тогда обладать
также и локальным минимумом. Это противоречит предположению о
единственности корня.
Теорема 13.1.2 устанавливает существование состоятельного корня урав-
нения правдоподобия (13.1.5). Следующая Теорема утверждает, что любая
такая последовательность асимптотически нормальна.
Теорема 13.1.3. Пусть Оо & Q и выполнены следующие условия регу-
лярности.
1) Параметрическое пространство Q есть открытый интервал (не
обязательно конечный/
8) Множество
А = {т е X : ре(х) > 0}
13.1. Асимптотам свойства о.м.п.
35
не зависит от 0 G 0.
3)	Плотность ре(х) трижды дифференцируема по в Е 0 в некоторой
окрестности точки 0q при каждом х € А и третья ее производная
непрерывна пой £ 0 в этой окрестности.
4)	Интеграл вида
р(х)
можно дважды дифференцировать по 0 е 0 под знаком интеграла в
точке 0О.
5)	Фишеровская информация (см. Определение 11.1.1) Z(0o), где
/glogpoCXJX2
\ д0 J
такова, что 0 < /(до) < оо.
6)	Существуют окрестность точки 0о и функция М(х) > 0 такие,
что в этой окрестности
I (д) = Ев
Plogpetx)
503
< М(х),
для всех х 6 А
и
E90Af(Xi) < оо.
Тогда любая состоятельная последовательность <$п(Хп) корней уравнения
правдоподобия (13.1.5) асимптотически нормальна
Pnflo ^(J„(Xn) - 0о) < г) -> $(^1(0^,
Доказательство. Выберем е > 0 так, чтобы интервал (до — е, до + с)
принадлежал окрестности из формулировки Теоремы. Тогда при фиксиро-
ванном х и достаточно большом п
Pn9o ^V^(^n(Xn) — 0q) < x'j — Pn90 ^Vn(Jn(Xn) — 0q)
< х, ^„(XnJ-dol < е) +
+Рп9о(\/Н(МХп)-0о)
< X, |jn(Xn) — до| > е
36
Лекция 13
-- Pn(?o
(13.1.6)
Причём, для второго слагаемого справедлива оценка
Рпво ^(in(X„) - 0о) < X, |<5п(Хп) - 0О| > е) < Рщ
е
и правая часть этого неравенства стремится к нулю в силу Теоремы 13.1.2.
Таким образом из равенства (13.1.6) следует, что достаточно показать, что
(13.1.7)
Пусть <5n(Xn) G (0о ~ £j0o + e), тогда по формуле Тейлора можно записать
i;(^(Xn);Xn)=z;(0o;Xn)+(^(Xn)-0o)Z^(0o;Xn)+i(jn(X„)-0o)2C(^;Xn),
где 0* лежит между 60 и ЛП(ХП). По предположению левая часть этого par
венства равна нулю, поэтому
у/п{ J„(X„) - 0О = ч-----------:----------------------.	(13.1.8)
V } iZ"(0o;Xn) + i(J„(Xn)-0o)lZ"'(^;Xn)
Рассмотрим числитель дроби (13.1.8). Он имеет вид суммы независимых
одинаково распределённых случайных величин
vn	vn PM-Ai)
поэтому из Центральной Предельной Теоремы (см. Лекция 4, п. 5) следует
слабая сходимость
—Хп) => jV(O, /(0О)), п —> оо.
у/П
(13.1.9)
Рассмотрим теперь знаменатель выражения (13.1.8). Имеем
Y 1	1 Y'^2Z°gPeo(-^»)
-Zn(0o, Xn) = -^--------------
13.1. Асимптотические свойства о.м.п.
37
поэтому из Закона Больших Чисел (см. Лекция 4, п. 6) и второго утверж-
дения Теоремы 11.1.3 следует сходимость
iz"(0o; Х„)	E9/-10g^(%1) = -Т(0О), п -> оо. (13.1.10)
п	оо*
Рассмотрим теперь последнее слагаемое в знаменателе выражения (13.1.8).
Справедлива оценка
^|(MXn)-e0)i» х„)| < -|5„(х„)-б»0| Ё
2п	П	—
1=1
cFlogp^Xi)
ЭО3
< |лп(хп)-0о|1£1ад)-
1=1
Поскольку по условию Теоремы <5П(ХП) состоятельна, то с учётом Закона
Больших Чисел имеем
IMXn) - 0о| ~ Ё М(*-)	0' Е»о W1) = О,
поэтому
1	р
^1(МХП) -	Хп)| о.	(13.1.11)
Теперь из соотношений (13.1.8) - (13.1.11) следует утверждение Теоремы.
□
Следствие 13.1.1. Если в предположениях Теоремы 13.1.3 уравнение
правдоподобия (13.1.5) имеет единственный корень при всех п и хп, или, бо-
лее общо, если вероятность наличия нескольких корней стремится к нулю
при п —> оо, то оценка максимального правдоподобия Jn(Xn) асимптотичес-
ки нормальна
Рпв0 (\/п(<5п(Хп) - в0) < x'j -+ Ф^1(в0)х^,
п —> 00.
Ml
Лекция 13
13.2 СПИСОК ЛИТЕРАТУРЫ
1) Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 6, §2.
2) И.А. Ибрагимов, Р.З. Хасьминский, Асимптотическая Теория Оцени
вания,
Москва, Наука, 1979, Глава 1, §4.
Лекция 14
В Лекции рассматривается случай, когда в качестве оцениваемого пара-
метра выступает неизвестная плотность наблюдений.
14.1 ОЦЕНКА ПЛОТНОСТИ
Пусть наблюдения имеют вид Xn = (Xj, • • • ,Хп), п £ N, где X, - неза-
висимы и одинаково распределены с общей неизвестной плотностью р(т).
Если плотность р(х) зависит от конечного числа параметров и является
известной функцией х и этих параметров, то мы снова приходим к задаче
параметрического оценивания. Если, однако, известно лишь, что плотность
р(х) принадлежит некоторому достаточно обширному множеству функций,
то задача оценивания р(х) становится бесконечномерной или непараметри-
ческой.
Будем исходить из естественной оценки функции распределения F(x) -
эмпирической функции распределения Fn(x) (см. Лекция 6, пример 2)
1 п	Г
П(х) = -Е^-оо,«)(*)> F(x) = / p(p)dj/.	(14.1.1)
П ‘=1	Л
При большом п эмпирическая функция распределения Fn(x), в силу Закона
Больших Чисел (см. Лекция 4, п. 6), близка к истинной функции распре-
деления F{x), поэтому можно было бы ожидать, что её производная F^(x)
близка к р(х) = F'(x). Однако
п i=i
39
40
Лекция 14
где 8(х) - 6 - функция Дирака - не является даже функцией в смысле класси-
ческого анализа. Естественно ’’сгладить” эмпирическую функцию распреде-
ления Fn(x) и использовать в качестве оценки для плотности р[х) производ-
ную от такой сглаженной функции. Таким образом, обычно рассматривают
оценки вида
pn(x,x„) = -^£v(^’Y	(14.1.2)
где функция V(а:) интегрируема и удовлетворяет условию
I V(x)di = l,	(14.1.3)
— ОО
а последовательность hn такова, что
Лп -+ 0, nhn —> оо,	п —> оо.	(14.1.4)
Поясним на эвристическом уровне эти условия. Заметим, что естественным
условием на оценку рп(х, Хп) было бы требование
Ерр„(а:, Хп) —>р(т),	п-> оо.	(14.1.5)
Поэтому, если выполнены условия (14.1.3) и (14.1.4), то при больших п
EpPn(x, Xn) = ~-EpV	/ V p(y)dy =
- f V(z)p(x-hnz)dz«p(x) j V(z)dz = p(x).
Заметим, что при этом мы не использовали второе условие из (14.1.4).
Конечно, сходимость
рп(х, Хп) -> р(т),	п —> оо
в том или ином смысле имеет место лишь при некоторых ограничениях на
плотность р(х). Если, например, р(х) имеет точки разрыва, то сходимость
не может быть равномерой ни при каком выборе hn и V(x). Если заранее
известно, что р(х) принадлежит тому или иному классу непрерывных функ-
ций, то в классе оценок (14.1.2) можно найти оценки, сходящиеся к р(х) с
той или иной скоростью.
14.1. Опенка, плотности
41
Пусть, например, заранее известно, что плотность р(х) принадлежит
множеству функций, удовлетворяющих условию Липшица с постоянной D >
О
р(х) G L(l, Л),	(14.1.6)
где
L(l, В) = {р(х): |p(xi) -р(х2)| < P|xi - ®2|,
ДЛЯ любых Х1, Х2 и р(х) - плотность J.
Тогда можно доказать следующую Теорему.
Теорема 14.1.1. Есликп — п-1/3, функции xV(x), V2(x) интегрируемы
и выполнено условие (Ц.1.3), то для оценки (Ц.1.2) справедливо неравен-
ство
sup sup Ep(pn(x, Хп) - р(хЙ < Сп_2/'3, С > 0.
p(x)eL(i, D) xeR1 v	7
Доказательство. Пусть hn таково, что выполнены условия (14.1.4).
Тогда заметим, что
Ер(рп(х, Хп) -р(х))2 = (Еррп(х, Х„) -р(х)]2 + Dppn(x, Х„). (14.1.7)
Рассмотрим первое слагаемое в этом равенстве, имеем
|Eppn(x, Хп) -р(х)| = У(д)(р(х - hnz) — p(x))dz| <
< Dhn I |V(z)z|dz = O(An).	(14.1.8)
Рассмотрим второе слагаемое в (14.1.7)
.	X.).	(4Л) < -Хел’ (4^1) »
=	[ V2(z)p(x-hnz)dz < *4~ sup p(x) [ V2(z)dz = О f-7-^ (14.1.9)
nhn J	nhn sgRi J	\nhnJ
(здесь используется условие nhn 00). Из соотношений (14.1.7) - (14.1.9)
следует, что равномерно по х е R1
Ep(pn(x, Хп) - р(х))2 = O(h2n) + О .
42
Лекция 14
Минимизируя правую часть этого выражения по hn, получим, что hn =
(?(п-1/3) и выполнено неравенство из формулировки Теоремы, о
Рассмотрим теперь обобщение Теоремы 14.1.1 на другие семейства плот-
ностей р(х). Мы увидим, в частности, что для семейств р(х), удовлетворя-
ющих более жёстким условиям гладкости, среди оценок (14.1.2) найдутся
такие, которые сходятся к р(х) быстрее, причём скорость сходимости су-
щественно зависит от степени гладкости.
Обозначим через Ъ(/3, D), /3 = к + а, к е {0,1, • • •}, 0 < а < 1 множес-
тво к раз дифференцируемых плотностей таких, что их к - я производная
удовлеторяет условию Гёльдера с показателем а и константой D > О
ЧД D) = {р(х): |pW(xj) -р«(х2)| < D|xi -х2|“,
ДЛЯ любых Xl, Х2 и р(х) - плотность
Чтобы не оговаривать каждый раз условия сходимости соответсвующих ин-
тегралов, ограничимся изучением оценок вида (14.1.2) с финитными функ-
циями V(x).
Теорема 14.1.2. Если hn =	(3 = к + а и ограниченная фи-
нитная функция V(x) удовлетворяет условиям (14-1-3) и
У x^V(x}dx = 0, j = 1, •  •, к,
то для оценки (14-1.8) при любом D > 0 справедливо неравенство
sup sup Ер(рп(х, Хп) -р(т)') < Cn-2/3^20+1\
Доказательство. Как и при доказательстве Теоремы 14.1.1, оценим
отдельно смещение и дисперсию оценки рп(х, Хп). Используя условия Тео-
ремы и формулу Тейлора, имеем
ЕрРпСс, Хп) -р(х) = У V(z)(p(x - hnz) — p(x))dz =
=	-p™(x))dz,
где ( - точка интервала (т, х — hnz). Поэтому из определения множества
L(/3, D) следует, что для некоторой постоянной Cq > 0 справедливо нера-
венство
|Е₽р„(х, Х„)-р(х)| < С^.
14.2. Проекционные опенки
43
При этом справедливо соотношение (14.1.9), поэтому
Ер(рп(х, Хп) -Р(*))2 = О(Л^) + О (^-) .
Минимизируя правую часть этого выражения по hn, получим, что hn —
О (n-V(23+i)) и выполнено утверждение Теоремы. О
14.2 ПРОЕКЦИОННЫЕ ОЦЕНКИ
Пусть наблюдения имеют вид Xn = (Xj, •  • , Xn), п е N, где X, - неза-
висимы и одинаково распределены с общей неизвестной плотностью р(х).
Рассмотрим другой метод оценки неизвестной плотности р(х). Для просто-
ты будем считать плотность заданной на отрезке [—тг, тг]. Тогда плотности
р(д) можно сопоставить ряд Фурье по тригонометрической системе
1 00
Р(г) ~	+ 52 (“m cos rnx + 6m sin тх),	(14.2.1)
т=1
где коэффициенты Фурье ат и Ьт имеют вид
1 г	1
ат ~ — / cos(mx)p(x)dx = —Epcos(mX1),
7Г J	7Г
7Г
1 /	1
Ьт — ~ sin(mx)p(x)dx =-Epsin(mXi), m = l,2,	(14.2.2)
7Г J	7Г
—ТГ
Из этих формул видно, что несмещенными оценками коэффициентов Фурье
являются, например, оценки
1 " 1 п
amn(Xn) = — V cos(mXt),	bmn(Xn) = — V sin(mXj),
П7Г	ТГ7Г
1=1	»=1
EpOmn(Xn) — Q-rrn ^тп(^п) “ Ьт-i ГП “ 1,2, 	(14.2.3)
Если ряд Фурье (14.2.1) сходится к плотности р(х), то при больших п спра-
ведлива аппроксимация
Sn(r)sp(i), п>1,
44
Лекция 14
где
1 "
Sn(x} = -— + V (amcosmx + brnSinma:)	(14.2.4)
Z7T
m=l
частичная сумма ряда Фурье. Таким образом выбирая некоторую последо-
вательность натуральных чисел кп -> оо и заменяя коэффициенты Фурье
в формуле (14.2.4) их оценками из (14.2.3), получаем проекционную оценку
рп(х, Хп) плотности р(х)
1 . \
Р.(1,х„) = -+£	COS mx	(Хп) sin тпх ).	(14.2.5)
т=1
Заметим, что
Xn) ~	~ p(x), kn 1.
Теорема 14.2.1. Пусть плотность р(х) задана на отрезке [—ж,ж],
Я
р(тг) =р(-7г), У p2(x)dx < ОО
—%
и кп —> оо, тогда справедливо неравенство
7 .	ч 2 к2 “
Ер J (рп(®, Хп) - р(х)) dx <	+ 52 (°т + С)-
—тг	тл— fcfi’i*!
Доказательство. Заметим сначала, что
ЕР / (рп(г, Хп)-p(x)]2dx = ЕР j (рп(х, Хп) - ЕрРп(а:, Xn))2<ir+
—я	—я
я
+ У (SfcJ*)-p(x))2dx.	(14.2.6)
Второе слагаемое в правой части (14.2.6) в силу равенства Бесселя равно
Л	2
S^x) - р(х)) dx = 52 (o2m + Ь2т).	(14.2.7)
-ТГ	m=kn+l
14.2. Проекционные опенки
45
Рассмотрим первое слагаемое в правой части (14.2.6)
ер /(Рп(ж, XnJ-EpPn^, Х„)) dx = Г Оррп(х, Xn)dx. (14.2.8)
Но
1 та
Dppn(x, Хп) = ~2~2Ор^2 $2 (cos(m^i) сов(тз:) + виа(тпХ4)вт(тж)) =
t=l т=1
cos(mXi) сов(тг) + sm(mXi) зт(тя:)) <
к2
кп
пп2
(14.2.9)
Из соотношений (14.2.6) - (14.2.9) следует утверждение Теоремы. □
Замечание 14.2.1. Заметим, что из доказанной Теоремы следует, что
для получения разумных оценок рп(х, Хп) плотности р(т), последователь-
ность кп следует выбирать растущей не быстрее чем у/п. Слагаемое вида
IS (°m + 6m)
m=kn+l
характеризует степень глаткости плотности р(х), например, если у плот-
нотси р(х) существует т > 1 непрерывных производных и г —1 производных
принимают на концах отрезка [—тг, тг] равные значения, то этот член имеет
вид oLjbA
46	Лекция 14
14.3 СПИСОК ЛИТЕРАТУРЫ
1)	И.А. Ибрагимов, Р.З. Хасьминский, Асимптотическая Теория Оцени-
вания,
Москва, Наука, 1979, Глава 4, §4; Глава 7, §4.
2)	Л. Деврой, Л. Дьёрфи, Непараметрическое Оценивание Плотности,
Москва, Мир, 1988, Глава 12, §1 - §4.
3)	Д. Джексон, Ряды Фурье и Ортогональные Полиномы,
Москва, Иностранная Литература, 1948, Главы 1 и 2.
Лекция 15
В Лекции рассматриваются достаточные статистики, которые редуци-
руют данные в максимальной степени.
15.1 МИНИМАЛЬНЫЕ ДОСТАТОЧНЫЕ СТА-
ТИСТИКИ
Напомним, что достаточные статистики (см. Определение 7.1.2) сокраща-
ют наблюдения без потери информации. Ясно, что эквивалентные формы
достаточной статистики редуцируют данные в одной и той же степени. Мо-
гут, однако, существовать также достаточные статистики которые дают
различные степени редукции. Пусть, например, X = (Xi, •  •, Хп) - незави-
симые нормально распределённые наблюдения с неизвестной дисперсией
Xi ~V(0, 02), i = l,-,n.
Тогда из критерия факторизации (см. Теорему 7.1.3) следует, что следую-
щие статистики являются достаточными
Т1(Х) = (Хь • • •,Х„), т2(Х) = (X2,  •,X2),
Т3(Х) = (х2 +. •. + Х^,Х2т+1 +  •. + X2), Tt(X) = X2 + . • • + X2.
Причём степень редукции данных статистиками 7}(Х) возрастает с ростом
г.
Из критерия факторизации следует также, что если Т(Х) достаточная
статистика и Т(Х) = #(S(X)), где 5(Х) некоторая статистика, а Я(-)
измеримая функция, то статистика S(X) также достаточна. Знание S(X)
влечёт знание Т(Х) и, следовательно, позволяет "восстанавливать” исход-
ные данные. Кроме того, статистика Т(Х) обеспечивает большую редукцию
47
48
Лекция 15
данных, чем статистика S(X), если только функция Н() не является вза-
имно однозначной, в противном случае статистики Т(Х) и S(X) являются
эквивалентными. Достаточная статистикаТ*(Х) называется минимальной,
если она даёт наибольшую возможную редукцию данных среди всех доста-
точных статистик, то есть если для любой достаточной статистики 8(Х)
существует измеримая функция Я() такая, что Т*(Х) = H(S(X)) (Р - п.в.).
Дадим теперь формальное определение. Пусть дана доминируемая статис-
тическая структура («¥, X, Р).
Определение 15.1.1.
1) Достаточная а - подалгебра Т>* С X называется минимальной, если
она содержится в любой другой достаточной о - подалгебре.
2) Достаточная статистика Т*(Х) называется минимальной доста-
точной статистикой, если она индуцирует минимальную достаточ-
ную о - подалгебру.
Минимальная достаточная а - подалгебра, в случае её существования,
единственна-, она является пересечением всех достаточных а - подалгебр.
Из второго определения следует, что если Т*{Х) вещественная минимальная
достаточная статистика, a S{X} другая вещественная достаточная статис-
тика, то из Утверждения 1.1.2 следует, что существует измеримая функция
Я() такая, что Т‘(Х) = Я(5(Х)).
Теорема 15.1.1. Пусть Р = {Ро, • • , P/t} - конечное семейство рас-
пределений с плотностями {ро(х),    ,pk(x)}, имеющими общий носитель.
Тогда статистика
Р1(Х) Рк(Х)\
Ро(ХУ 'ро(Х))
является минимальной достаточной статистикой.
Доказательство. Напомним, что из критерия факторизации (Теорема
7.1.3) следует, что статистика S(X) достаточна тогда и только тогда, когда
ре(х) — ge(S(x))h(x) Р - п.в., О е 0, х е X.
Поскольку по условию все плотности {ро(х),   ,рк(i)} имеют общий носи-
тель, то последнее равенство эквивалентно
^=9,(S(x)) i = l,---,k, хе А,
Т*(Х) =
15.1. Минимальные достаточные статистики
49
где А - общий носитель плотностей {ро(х), • •  ,р*(ж)} (А = {х е Д' : pi(x) >
О, i = 0,1, • • , к.}). Отсюда следует, что статистика Т"(Х) является до-
статочной и статистика Т*(Х) есть функция от S(X). □
Заметим, что из доказательства Теоремы 15.1.1 следует, что справедли-
во более общее
Утверждение 15.1.1. Пусть Р = {Ро, •••,₽*} - конечное семейство
распределений с плотностями {ро(х), • • ,Pk(x)}, и пусть для каждого х €
X множество А(х) имеет вид
л(я) = {(i, j) : рДх) + рДх) > 0, (ij) £ {0,1, • •
Тогда статистика
Т\Х)=(^-, i<j, (i,i)eA(X)l
\PiW	/
является минимальной достаточной статистикой. Здесь Pj(x)/pi(x) =
оо, если Pi(x) = 0 и pj(x) > 0.
Следующая Теорема часто является полезной при практическом нахож-
дении минимальных достаточных статистик.
Теорема 15.1.2. Пусть Р - семейство распределений с общим носи-
телем, Ро С Р и Т*(Х') - минимальная достаточная статистика для
подсемейства Ро и является достаточной статистикой для семейства
Р. Тогда Т’(Х) - минимальная достаточная статистика для семейства
Р.
Доказательство. Пусть S(X) есть достаточная статистика для се-
мейства Р, тогда она достаточна и для Ро и, следовательно а - подалгебра,
порождённая статистикой Т*(Х) содержится в а - подалгебре, порождённой
статистикой S(X) (достаточная статистика Т*(Х) есть функция от S{X)).
□
Замечание 15.1.1. Заметим, что в Теореме 15.1.2 предположение об
общем носителе можно заменить на более слабое предположение о том,
что каждое Ро - нулевое множество (см. Определение 6.1.4) является
также иР нулевым, так что Ро - п.в. эквивалентно Р - п.в.
Примеры.
1) Пусть имеется п независимых нормально распределённых наблюдения
X = (Xi,  • •, Хп) и семейство Р” - п - кратное произведение семейств
Ро, состоит из двух нормальных распределений
Pon = {Wo, 1), ЛГЧ01, 1), ₽о
50
Лекция 15
Тогда по Теореме 15.1.1 минимальная достаточная статистика Т*(Х)
для семейства Pq имеет вид
Т*(Х) = 5^48’
что эквивалентно
1 п
х = ~Тх,.
Однако, по критерию факторизации статистика X является достаточ-
ной статистикой для семейства
Pn = {j^(o, 1),9ен’},
поэтому по Теореме 15.1.2 минимальная достаточная статистика для
семейства Рп есть
Т*(Х) = Х.
2) Пусть теперь X — (X;, •  •, Хп) независимые одинаково распределён-
ные наблюдения, каждое из которых имеет распределение Пуассона с
параметром 6 > 0. Рассмотрим семейство Рд, состоящее из двух пу-
ассоновских распределений
П" = {7”W, P’W,
Тогда по Теореме 15.1.1 минимальная достаточная статистика Т*(Х)
для семейства Рд имеет вид (здесь выбрана считающая доминирую-
щая мера v)
T.(jn _ _ _ »(в0.в1)
w' рМ - с-пй,&+	~	'
е Xi'.XK\
что эквивалентно
1 п
Аналогично предыдущему минимальная достаточная статистика для
семейства
Рп = {рп(0), е > о}
есть
Т*(Х) = X.
151. Минимальные достаточные статистики
51
Теорема 15.1.3 (Существование минимальной достаточной a - подал-
гебры) Пусть (X, У, Р = {Pfl, 0 6 0}) - доминируемая статистическая
структура, Р* - привилегированное вероятностное распределение и v -
доминирующая мера. Тогда а - подалгебра Т>* С У, порожденная (то есть
минимальная) функциями вида
г(х, 0) =	npU всех 0 е 0,
P’(z)
где
Рв(х) - ^(z),	p‘(z) = ^-(z),	0 6 0,
av	av
является минимальной достаточной о - подалгеброй.
Доказательство. Докажем сначала, что ст - подалгебра Т>* достаточна.
Это следует из Теоремы 7.1.2, поскольку
^(z)-
= Рв(х)
^(х)	Р‘(*)
(X, 0)
и по определению о - подалгебры Т>* эта плотность 7?* - измерима при всех
0 6 0.
Докажем, что а - подалгебра ТУ - минимальна, с этой целью рассмотрим
любую другую достаточную а - подалгебру В С У, тогда опять по Теореме
7.1.2 плотность
rfPe , , __ Pa(s)
dP* P*(z)
= r(z, 0)
В - измерима, и поэтому по определению а -подалгебры 2?*, справедливо
включение ТУ С В. □
Рассмотрим теперь связь между минимальными и полными (см. Опре-
деление 10.1.1) достаточными статистиками.
Теорема 15.1.4 (Связь минимальности и полноты) Любая полная ве-
щественная достаточная статистика Т(Х), заданная на доминируемой
статистической структуре (X, У,Р = {Pg, 0 € 0}) является также и
минимальной достаточной статистикой.
Доказательство. Пусть V* - минимальная достаточная о - подалгеб-
ра. По предыдущей Теореме она существует. Предположим, что у статис-
тики Т(Х) существует математическое ожидание
Е9Т(Х) < оо, 0 е 0
52
Лекция 15
я рассмотрим функцию
h(X) = Т(Х) - Е9(Т(Х) | D’).
Тогда в силу достаточности а - подалгебры ТУ эта функция не зависит
от 0, и с учётом минимальности ТУ эта функция является измеримой от-
носительно <т - алгебры, порождённой статистикой Т(Х), поэтому в силу
Утверждения 1.1.2 она имеет вид h(x) = h(T(x)). Но из определения h(x)
следует, что
Egh(T) =0, в е е,
поэтому с учётом полноты статистики Т(Х), имеем
h(T(X)) = 0, V - п.в.
Итак
Т(Х) = Е9(Т(Х) I Т>*), Р - п.в.,
поэтому статистика Т(Х) является ТУ - измеримой и значит о - алгебра,
порождённая статистикой Т(Х) совпадает с ТУ (здесь под ТУ следует по-
нимать а - алгебру, пополненную множествами IV, для которых Pe(lV) = О
при всех 0 е 0).
Если EjT(X) не существует, то надо вместо статистики Т(Х) рассмот-
реть, например, статистику arctan Т(Х), которая, очевидно, эквивалентна
Т(Х) относительно свойств достаточности, полноты и минимальности. □
Пример 15.1.1. Пусть X = (Xj, • • , Хп) - независимые равномерно рас-
пределённые наблюдения
Х<~7£(0, 0), г = 1,---,п; 0 > 0.
Тогда в Примере 10.2.2 показано, что статистика
Г(Х)=Х(п)втХ,-
является полнай достаточной статистикой. По Теореме 15.1.4 эта статис-
тика является минимальной достаточной статистикой.
Заметим, однако, что в общем случае утверждение, обратное Теореме
15.1.4 не верно, то есть из минимальности достаточной статистики не сле-
дует её полнота.
ЗАДАЧА 15.1.1. Пусть X = (_Х\, • • , Хп) - независимые равномерно рас-
пределённые наблюдения
Xi ~ 71(0 - 1/2, 0 + 1/2), j = l, -,n;	0e0 = R1.
15.1. Минимальные достаточные статистики
53
Доказать, что статистика
Т(Х) = (Хт, Xfn)) = ( min Xiy max X.)
к (ip mi 'l<i<n l<i<n '
является минимальной достаточной статистикой, но она не полна. (Послед-
нее утверждение следует, например, из тождества
Ев^Х(п) — Х(]) — (п — 1)/(п + 1))= 0, в ее.)
54
Лекция 15
15.2 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 1, §5.
2)	А. А. Боровков, Математическая Статистика,
Москва, Наука, 1984, Глава 2, §13.
3)	Ж.- Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 2, §5.
Лекция 16
В Лекции рассматриваются экспоненциальные структуры, для которых
многие общие конструкции математической статистики можно реали-
зовать в явном виде.
16.1 ЭКСПОНЕНЦИАЛЬНЫЕ СТРУКТУРЫ
Определение 16.1.1.
1) Статистическая доминируемая структура
(х = Ят, F = Bm, {рв(х}, 0e©CR*})
называется экспоненциальной, если носитель плотностей Ре(х)
А = {х G X : рв(х) > 0}
не зависит от В 6 © и плотности рв(х) имеют вид
( к	>
р9(х) = С{В) ехр< 52 Qj(B)Uj(x) U(x), В е © С Rfc, х е Rm, (16.1.1)
U=i	J
где все функции, входящие в правую часть, конечны и измеримы, а
функции Qo{B) — l,Qi(0),  • • ,Q*(0) линейно независимы на ©.
8)	Семейство распределений {Pg, в 6 © С R*} с плотностями рв(х]
вида (16.1.1) называется экспоненциальным семейством.
55
56
Лекция 16
Пример 16.1.1. Пусть X имеет гамма - распределение с параметре»*
0 = (а, А), а > О, А > О, то есть
*>«
Г(А) = I xxle~Idx.1
о
то есть здесь имеем
х *, х > О,
О, х < О
Ui(x) — logs,
t/2(x)=x, С(0) = £-
1 (А/
<?1(0) = А,
<22(0) = -а.
Заметим, что биномиальное распределение, распределение Пуассона, от-
рицательное биномиальное распределение, нормальное распределение, бе-
та распределение, хи - квадрат распределение (с параметром масштаба),
гамма распределение (с параметром масштаба) являются экспоненциаль-
ными семействами. В то время как, например, равномерное распределение
72(0, 0), 0 > 0 и распределение Коши не являются экспоненциальными се-
мействами. Заметим также, что полупрямое произведение экспоненциаль-
ных структур также является экспоненциальной структурой. То есть, если
X = (Xi,-••,%„) -- независимые одинаково распределённые наблюдения,
каждое из которых имеет плотность вида (16.1.1), то совместная плотность
X также является экспоненциальной.
Иногда используют более естественную параметризацию включая мно-
житель h[x) в доминирующую меру р, то есть относительно меры dv(x) =
h(x)dv(x) рассматривают семейства вида (каноническая форма экспоненци-
ального семейства)
С *
рв(х) = C(0)exp< ^OjUjix)
0 6 0 С R*.
(16.1.2)
Правая часть (16.1.2), если её интеграл конечен, может быть надлежащим
выбором С(0} превращена в плотность вероятности. Множество П пара-
метрических точек 0 6 0, для которых это имеет место, называется естес-
твенным параметрическим пространством экспоненциального семейства
16.1. Экакяапавмлкые структуры
57
(16.1.2), то есть
. *
fl = [б : / exp(y^6jUj(x)}h(x)dv(x) < оо}. (16.1.3)
J 3=1
Теорема 16.1.1.
1)	Естественное параметрическое пространство fl экспоненциального
семейства (16.1.2) выпукло.
2)	Для любой ограниченной измеримой функции f(x') интеграл
с	*
/ }{х)ехр^е,и^х^К{х)<1и(х),
J
рассматриваемый как функция комплексных переменных ~ (j +
> 3 =	является аналитической функцией по каждой иэ
этих переменных в области fl параметрических точек, для которых
(&,••• >£*) является внутренней точкой естественного параметри-
ческого пространства fl. Производные любого порядка от этого ин-
теграла по в могут вычисляться дифференцированием под знаком
интеграла.
3)	Если плотность р#(х) имеет вид (16.1.2) и функция С{8) дважды
дифференцируема, то справедливы равенства
W = ~~Cov9(l/,(X), ^(Х)) =
4)	Если плотность ре(х) имеет вид (16.1.2), то для любого 6 из внут-
ренности естественного параметрического пространства fl в не-
которой окрестности нуля существуют производящие функции мо-
ментов и семиинвариантов Мв(з) и Kg(s), s е R* статистики
Т(х) = (сл(х),--,с4(х))
и они имеют вид
Ме(з) = E9exp{31LMX) + • +
с 1» + S}
Кв(з) - 10gAfe(s) = logC(0) - logC(0+ s), S = (»!,-• • ,э*).
58
Лекция 16
5)	Пусть X имеет распределение с плотностью рв(х) вида (16.1.8),
тогда существует мера й (зависящая от Т) такая, что распреде-
ление статистики
Т(Х) = ([/1(Х),.-,С/*(Х))
также принадлежит экспоненциальному семейству вида
{* 1
0E&CRk, t= (ti,,tk) GR*.
j=i J
6)	Пусть X имеет распределение с плотностью р«(х) вида (16.1.8),
тогда условное распределение статистики
ТТ(Х}= (U^X),---,UT(X)}, r =
при данном ТГ(Х) — t G R*-r, где
Tr(X) = {Ur^(X),---,Uk(X)}, r = l,
также принадлежит экспоненциальному семейству вида (относи-
тельно меры щ)
P»t(u) = СЦ0)ехр{^20,иД,	06 0CRfc, и — («!,•• •,«!•) бНт-
11=1 J
Доказательство.
1) Пусть (01,  • • ,0*) и (01, • • •, 0*) ~ Две параметрические точки, принад-
лежащие множеству П, тогда из неравенства Гёльдера для любого
О < 7 < 1 следует, что
Г *	-
/ exp($2(70j + (1 -^)0j)Uj(x)^h(x)du(x) <
J	j=i
(r *	\ 7 / k -	\ 1~7
- yj exp(y^0,t7,(a;))fe(i)<fcz(z)J ^у ехр(У70^П1(т))ь(д)4к(а)у <оо,
то есть точка (761 + (1 — 7)01, •  •, 70* + (1 — 7)0*) также принадлежит
П.
16.1. Экспоненциальные структуры
59
2) Рассматриваемый интеграл действительно существует при всех
(С1, • • • IСк) 6 Q, поскольку, если |/(х)| < D, х G Д', то
[ f(x) exp(^6jUj(x)jh(x)di/(x') <D (exp[^£jUj(x)}h{x}dv{x) < oo.
j=l	J J=1
Докажем теперь аналитичность рассматриваемого интеграла, напри-
мер, по 6\. Выделяя в подинтегральном выражении действительную и
мнимую части и разлагая каждую из последних на положительную и
отрицательную части, включая затем надлежащие множители в меру
v получим, что требуемый результат достаточно доказать для интег-
ралов вида
s(0i) = У ex.p{exUi(x)^dv(x).
Пусть (£‘, • •  ,££) £ П - некоторая внутренняя точка множества П,
тогда существует <5 > 0 такое, что g(0j) конечна при всех 0j таких,
что |0i — 0*| < 6, 0* = £* + гт)*. Рассмотрим разностное отношение
9(01)~S(01)	/•exp{0i[Z1(x)}-ехр{0?СЛ(х)}	,
-0~<- = J---------------=
= f exp^t/^x)}^-?^	.	lV-(;e)
J	\	P) —	/
Применим к подиитегральному выражению неравенство
a
exp{az} - 1
z
= У exp{tz}dt
о
W
о
1еФ1
5 ’
при И < 5,
получим, что оно не превосходит
\exp{e*1U1(x)+6\Ui(x)\}\ lexpffi* +<Wz)}| + |ехр{(0; - 0)1Л(х)}|
<5
6
при |0i —	< 6. Поскольку последнее выражение интегрируемо от-
носительно v, то из Теоремы Лебега о мажорируемой сходимости (см.
60
Лекция 16
Лекция 10. п.8) следует, что для любой последовательности точек 0in G
Й, сходящейся к 0J, разностное отношение g(0in) стремится к
У Ui(x) exp^0yUi(x)^di/(x).
Этим завершается доказательство первого утверждения и доказыва-
ется второе утверждение для случая первой производной. Доказатель-
ство для высших производных проводится аналогичным образом по
индукции.
3)	Доказательство непосредственно следует из возможности дифферен-
цирования под знаком интеграла тождества
(7(6) I exp(j^0jUj(x)}h(x)dv(x) = 1,
J 1=1
поскольку, например, имеем
 Jехр(£0,Щх))Мд)сЦа;)+
+С(0) J и^х)ехрфтх))к(х^(х) ~ 9I°j^W+^W=0.
4)	Доказательство следует из соотношения
Мв(а) = Eeexp{S1(Zi(X) + • • • + sfcHfc(X)} =
= I exp^(sj + 6j)uj(x)')h(x)d,'(x) =
справедливого в любой внутренней точке в множества Q и при изме-
нении в в некоторой окрестности нуля.
5)	Поскольку плотность зависит от Т(х), то доказательство непо-
средственно следует из формулы замены переменного в интеграле Ле-
бега (см. Лекция 2, п. 8)
Рв(Т(Х) ев) = Рв(х е Т~\В)) =
= С(0) У exp|^0jE7,(x)|ft(x)di/(x) = J pe(t)dv(t).
т-ЦВ) ^=1 J	в
16.1. Экспоненциальные структуры
61
6)	Доказательство следует из Свойства 12 условных вероятностей Лек-
ции 5 и доказанного пункта 5.
□
Утверждения 3 и 4 Теоремы 16.1.1 позволяют достаточно легко находить
моменты и семиинварианты статистики
Т(Х) =
Пример 16.1.2. Пусть X имеет распределение Пуассона с параметром А >
О, то есть
X ~ Р(А).
Тогда плотность р\(х) относительно считающей меры равна
А1	1
Рх(х) = — е~х = e~Aexp{TlogA}—, х = 0,1,--, А > 0.
т!	г!
Вводя новый параметр в = log А, получаем каноническое экспоненциалыюе
семейство типа (16.1.2) с
k = 1, Ui(x) — х, С(6) = ехр{-е9}
и, следовательно, производящие функции моментов и семиинварианте соот-
ветственно равны
Me(s) = ЕвезХ =	= ехр{е®(е' - 1)} = ехр{А(ел - 1)},
+ з)
Ke(s) = logics) = е9(е* - 1) = A(es - 1),
так что, в частности, все семиинварианты (см. (3.1.11)) Kj(X) равны А для
всех j е N и, например, для первых двух моментов справедливы равенства
А, ЕХ>=^-А(1 + А).
OS	OS2
Теорема 16.1.2.
1)	Если X — (Xi,---,Хп) - независимые одинаково распределенные на-
блюдения, каждое из которых имеет плотность вида (16.1.1), то
статистика
Т*(Х) = (^CZi(JC4), - - ,уЗслк(лг*)) (16.1.4)
1=1	1=1
является достаточной. Таким образом, сколь бы велик ни был объ-
ем выборки n > 1, для (Xi, - •  , Хп) всегда существует fc - мерная
достаточная статистика.
62
Лекция 16
2)	Статистами (16.1-4) является минимальной достаточной статис-
тикой.
3)	Пусть X = (Хх,- -,Хп) - независимые одинаково распределенные
наблюдения, каждое из которых имеет плотность вида (16.1.1) и
пусть существует подмножество Qq € в такое, что образ ото-
бражения
0 е е0 —> Q(0} = {Qi(0),  • , Qk(0)} е Rk
содержит хотя бы одну точку вместе с некоторой окрестностью
и С(0) 0 в прообразе этой окрестности. Тогда достаточная ста-
тистика
i=i	«=1
является полной.
Доказательство.
1)	Доказательство непосредственно следует из Критерия Факторизации
(Теорема 7.1.3).
2)	Для доказательства применим Теорему 15.1-3. Поскольку функции
Qi(0), Ui(x), С(в) конечны, а экспонента в (16.1.1) строго положитель-
на, то в качестве привилигерованного распределения Р* можно взять
распределение с плотностью из экспоненциального семейства
{k	n	\ п
EQj(«)E^W ПМ4
3=1 i=l	J 1=1
0E0CRk, JiER"1, i = l,-.,n
в фиксированной точке 0O. Поэтому минимальная достаточная а - ал-
гебра порождена функциями вида
г(х’= ^У) = сцад exp{§(Qjw ~ Qj{0a)}
т = (®i,  • • ,хп) G Rmn, при всех 0 € 0. Из линейной независимости
функций 1,Qi(0), • • •,Q*(0) следует линейная независимость функций
16.1. Экспоненциальные структуры	63
— Qi(^o)r  • ,Qk(6) — Q*(6o), а это означает, что существуют
точки 61,   •, 6* G 0 такие, что определитель матрицы с элементами
Qij = Qi&) - QiW)
не равен 0, и поэтому уравнения
k	п
~ QjW)^,vi(xi) = bgr(a;, 6i) - n(IogC(6;) - logC(60)),
1=1	i=i
I ~ 1, •  • ,к однозначно разрешимы относительно T*(x). Таким обра-
зом а - подалгебра, порождённая статистикой Т*(х) содержится в ст
подалгебре, порождённой функциями
г(х, 6;), I — 1, • • •, к,
а эта а - подалгебра, очевидно, содержится в минимальной достаточ-
ной а - подалгебре. Итак Т*(Х) - минимальная достаточная статис-
тика.
3)	Очевидно достаточно рассмотреть случай п — 1. Будем считать (про-
изводя, если необходимо, сдвиг в пространстве параметров), что образ
0(©о) множества ©о содержит прямоугольник вида
П = {(?!, • • •, qt) - -с < q3 < с-, j - 1, - - к], О 0.
Пусть для некоторой измеримой функции 0(t) справедливо тождество
Е₽ф(Т’(Х)) = 0, бе ©о-	(16.1.5)
Необходимо доказать, что
Рв(ф(Т‘(Х))=0) = 1,	бе©.	(16.1.6)
Обозначим через и d~(t) положительную и отрипателную части
функции то есть
0+(t) = max{0(t), 0}, 0~(t) = max{-0(t), 0}, 0(t) = 0+(t) - 0~(f).
Тогда из соотношения (16.1.5) следует, что
/ 0+СП*))ехр{ £(?1(6)ед \h(x)du(x) =
J	b=i	J

= У Ф (Г*М) exp
64	Лещи 16
*	1
^Qj(e)iZj(x)p(®)d/(®), беей. (16.1.7)
1=1	J
Поизводя в тождестве (16.1.7) замену переменных t — Т*(х), получим
что для некоторой меры А(-) справедливо тождество
-	к	-	к
J 0+(t) ехр{ qjtjjdW) = J Ф~ (О exp{]b 9Л})^(*), (16.1.8)
9 = (91,'	9k) £ П и в частности
I	= I ^(t)dA(t),
при этом последние интегралы без ограничения общности можно счи-
тать равными единице. Полагая
Р^В) = У ^(tJdAft), В е Вк,	(16.1.9)
в
имеем, что Р+ и Р~ есть вероятноятные меры на (R*, Вк) и при этом
из (16.1.8) следует, что
/e*p{IZ«»tj}<fp+W = /e*p{539i*j}dP"(t)> 9 = (91,-',9к)еП.
Рассмотрим теперь эти интегралы, как функции комплексных пере-
менных qj =	+ ir}j, j = 1,  • •, к. При любых фиксированных
91, ’ • • ,9j-i,9j+1, ‘ ‘' ,9k,
действительные части которых лежат строго внутри промежутка от
—с до +с, эти интегралы по Теореме 16.1.1, п.2 являются аналитичес-
кими функциями qj в полосе
А) = {9j : -с<£,<+с, -оо < rjj < +оо), j = l,--,fc
комплексной плоскости. При фиксированных действительных
лежащих между —си +с, равенство интегралов имеет место в полосе
А1, в которой они аналитичны. По индукции равенство может быть
распространено на многомерную комплексную область
{(91,' • •, 9k) : «у,rij) £ Ay, j = 1,   , fc}.
16.1. Экспоненциальные структуры
65
Отсюда, в частности, следует, что при всех действительных fji, • • •
Г k	г Ь
/ exp{*zLrMi}dp+W = / exp{‘zL’b‘j}M’_(*)-
J j=i	J i=i
последние интегралы представляют собой характеристические функ-
ции (см. Лекцию 3) распределений Р+ и Р_ соответственно, и по Теоре-
ме единственности для характеристических функций, распределения
Р+ и Р_ должны совпадать. Но из их определения (16.1.9) следует, что
ф+(4) =	и — почти всюду,
и поэтому справедливо (16.1.6).
□
Пример 16.1.3. Пусть X имеет Гамма - распределение с параметром
О = (а, А), а > О, А > 0, тогда в Примере 16.1.1 было показано, что это
экспоненциальное семейство с
U\(x) — logx,
и2(х)=х,	=	Q1(0) = A,
1 (А)
Q2w = -а,
поэтому по Теореме 16.1.2 статистика
t—1	i=l
является полной минимальной достаточной статистикой, ^г"**** также,
что и эквивалентна* статистика
i=l «=1
также является полной минимальной достаточной статистикой.
66	Лекция 16
16.2 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Проверка Статистических Гипотез,
Москва, Наука, 1979, Глава 2, §7.
2)	Э. Леман, Теория Точечного Оценивания,
Москва, Наука, 1991, Глава 1, §4.
3)	А.А. Боровков, Математическая Статистика,
Москва, Наука, 1984, Глава 2, §15.
4)	Ж,- Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 10.
5)	Ю.В. Линник, Лекции о Задачах Аналитической Статистики,
Москва, Наука, 1991, Лекция 1.
Лекция 17
До сих пор изучались свойства и методы построения ТОЧЕЧНЫХ оценок
неизвестного параметра 6. В Лекции рассматривается другой подход к
проблеме, когда неизвестное значение параметра в оценивается с помо-
щью МНОЖЕСТВА.
17.1 ДОВЕРИТЕЛЬНОЕ ОЦЕНИВАНИЕ
Пусть (X, Т, {Р«,0 е 0}) - доминируемая статистическая структура и
(Д, U) - пространство решений. Пусть д(0) некоторая оцениваемая изме-
римая функция, заданная на 0 и действующая в некоторое измеримое про-
странство (Г, W). Предположим, что по результатам наблюдений X = х мы
хотим ’’оценить” значение д(0) с помощью некоторого множества С(х) 6
W. В этом случае естественно положить Д = W. Будем рассмотрим только
вырожденные стратегии
S(x,D) = 1d(C(x)), DeU
и отождестим их с множеством <7(х) € W. Рассмотрим функцию потерь
(см. Определение 8.2.1) L(0,d) вида
эдН iew-
Тогда средние потери (см. Определение 8.2.1) равны
Ws(0, х) = [ L(0,5)dS(x, 6) = 1(0, С(х))
67
68
Лекция 17
и риск представляет собой вероятность ’’непокрытия” значения д(&) случай-
ным множеством С(А')
R(0,C) = EeWs(0,X) = EeL(e,C(X)) = Рв(д(9) i С(Х)).
Определение 17.1.1.
1) Семейство множеств С(х) 6 W, х & X называется семейством
доверительных множеств, если
{х •. д(0) е С(х)} С J7, для всех О Е0.
2) Величина
7cW = Р«(9W е С(ХУ)
называется доверительной вероятностью, а число
7с =
nt У
называется коэффициентом доверия семейства доверительных мно-
жеств С(х) е W, х 6 X.
Заметим, что первая часть Определения 17.1.1 означает просто, что
определены вероятности вида
€ С(Х)), для всех в € 6.
Часто встречается ситуация, когда Г = R1, W = В1, а семейство дове-
рительных множеств С(х),х 6 X являются интервалами вида (а(х), Ъ(х)},
тогда в этом случае С(х) называются доверительными интервалами, а а(х)
и Ь{х) - доверительными границами. Обычно задаются числом (близким к
единице) 1—а, а g (0,1) и рассматривают только те доверительные множес-
тва <7(х), для которых доверительная вероятность ограничена снизу этим
числом 7с(#) > 1 — <*, для всех 0 € О, то есть ограничивают риск сверху
R(9, С) = 1- Pe(ff(0) е О*)) = 1 - 7с(0) < 1 - (1 - а) = а, 0 е 0.
Рассмотрим общий способ построения доверительных множеств. Пусть сна-
чала д(0) = 0 €. 0 и для каждого 0 построим множество S$ 6 Т такое, что
Рв(Х е Se) > 1 - а.
17.2. Центральные статистики
69
Положим
С(х) = {0 : X е So},
тогда С{Х) - доверительное множество с коэффициентом доверия не мень-
шим чем 1 — а, поскольку
Рв(0 е ОД) = Рв(Х е $,) > 1 - а.
В общем случае для функции р(0) рассмотрим множества Зя, д 6 Г также,
что
inf Р#(Х 6 So) > 1 - а, для всех д 6 Г.
sW-g
Положим
С(Х) = {д е г: X е $9},
тогда
Р,(0(0) е ОД) = Рв(Х 6 SgW) >
> _ inf Рв(Х е Sg(9)) >1-а.
e-9W=SW	9U
Этот метод основан на самих наблюдениях X. Отметим, что этот метод
применим для случая произвольного множества Г и , в частности, в случае
векторного параметра 0. Отметим также, что получаемое доверительное
множество С(Х) неоднозначно, поскольку при заданном 1 — а множества
Sg можно выбрать различными способами и задача состоит в построении
доверительного множества минимальных ’’размеров”, обеспечивающего наи-
более точную (при заданном 1 — а) локализацию оцениваемой функции.
Рассмотрим теперь другие методы построения доверительных множеств.
17.2 МЕТОД ПОСТРОЕНИЯ ДОВЕРИТЕЛЬНЫХ
ИНТЕРВАЛОВ, ОСНОВАННЫЙ НА ЦЕН-
ТРАЛЬНЫХ СТАТИСТИКАХ
Рассмотрим для простоты случай скалярного параметра 0 6 0 С R1
Определение 17.2.1. Вещественная функция G(0, X), определенная на
Q х X, называется центральной статистикой, если
1) При каждом 0 6 0 функция рапределения случайных величин G(0,X)
непрерывна и не зависит от 9.
70
Лекция 17
8) Для всех х & X функция G(6,x) непрерывна и строго монотонна по
0е&.
Построим доверительное множество с помощью центральной статисти-
ки. Поскольку её функция распределения непрерывна и не зависит от в, то
для любого а € (0, 1) существуют числа ft < ft (не зависящие от 0) такие,
что
P«(ft <G(0,X) < ft) = 1 — a, ae(0, 1), 0 е 6.
Поскольку функция G(0,x) строго монотонна и непрерывна по 0, то при
каждом х € X существуют решения относительно 0 уравнений
G{0,x) = ^, G(0,x} = 02.	(17.2.1)
Обозначим эти решения через и(т) и v(x). Предположим, например, что
функция G(0,x) строго возрастает по 0, тогда и(т) < v{x) и справедливы
соотношения
Pe(u(X) < 0 < «(X)) = Pe(G(u(X),X) < G(0,X) < G(«(X),X)) =
= Pe(ft <G(0,X)<ft) = l-a,
то есть множество C(X) = (u(X), п(Х)) является доверительным интер-
валом с коэффициентом доверия 1 — а. Таким образом доказана следующая
Теорема.
Теорема 17.2.1.Пусть G(0, X) - центральная статистика и и{х), v(x)
- решения при каждом х 6 X относительно 0 уравнений (17.8.1), где
ft < ft и такие, что
P»(ft < G(0, X) < ft) = 1 - а, a £ (0, 1).
Тогда, если функция G(0,x) строго возрастает по 0, то (и(Х), г>(Х)) -
доверительный интервал с коэффициентом доверия 1 —а. Если же G(0,x)
строго убывает 0, то (v(X), и(Х)) - доверительный интервал с коэффи-
циентом доверия 1 — а.
В каждом конкретном случае при построении центральной статистики
приходится учитывать специфику рассматриваемой модели, однако можно
выделить класс моделей, для которых центральная статистика всегда су-
ществует и имеет достаточно простой вид.
ТЕОРЕМА 17.2.2.Пусть наблюдения X имеют вид X — (Xi,---,Xn),
где X,, i = 1, • - - ,п независимы и одинаково распределены. Предположим,
17.3. Использование функций распределения	71
что функция распределения F(x, 9) наблюдения Хх непрерывна и строго
монотонна по в е 0. Тогда статистика
G(0,X) = -Y>logF{Xi,9)
•=i
является центральной и доверительный интервал с коэффициентом дове-
рия 1 — а, а С (0,1) имеет вид (u(X),v(X)), где и(Х) < и(Х) - решения
относительно 9 уравнений
-^logF(Xi,0)=ft, -^logF(X<,0) = «2	(17.2.2)
1=1	1=1
где Pi и (д-i удовлетворяют равенству
h
01
Доказательство. Поскольку слагаемые F(Xi,ff) независимы и имеют
равномерное 7?.(0,1) распределение (см. Теорему 17.3.1), то распределение
статистики G(9, X) совпадает с гамма^распределением с параметрами (1, п).
□
Заметим, что наибольшая трудность в применении Теоремы 17.2.2, воз-
никает при нахождении решений уравнений (17.2.2).
17.3 ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНЫХ МНО-
ЖЕСТВ С ИСПОЛЬЗОВАНИЕМ ФУНК-
ЦИЙ РАСПРЕДЕЛЕНИЯ СТАТИСТИК
»
Рассмотрим другой метод построения доверительных множеств, основан-
ный на следующей Теореме.
Теорема 17.3.1. Пусть случайная величина X имеет функцию распре-
деления F(x), тогда для любого у Е [0,1], справедливы неравенства
P(F(X + 0) < у) < у < P(F(X) < у).
72
Лекция 17
Доказательство. Докажем сначала правое неравенство жз формулж-
ровки Теоремы. Напомним, что функция распределения F(x) = Р(Х < ж)
непрерывна слева, то есть
F(x) = limF(x — е), Р(Х < х) = IimF(x + е) — F(x + 0).
б 4-0	еД.о
Для любого у е [0,1] определим число z = sup{x : F(x) < j/}, тогда, если
для у = 1, z = оо, то P(F(X) < 1) = 1 и для у = 1 утверждение доказано.
Поэтому будем предполагать, что z < оо. По определению супремума это
число обладает следующими свойствами
1)	Для любого е > 0 справедливо неравенство F(z — е) < у.
2)	F(z + е) > у.
Поэтому устремляя е > 0 к нулю в этих неравенствах, получим F(z) < у <
F(z + 0). Рассмотрим два случая
1) Пусть F(z) = у. Тогда
P(F(X) < у) = Р(Х < z) = F(z) = у.
2) Пусть F(z) < у, тогда
P(F(X) < у) = Р(Х < z) = F(z +0) > у.
То есть в любом случае P(F(x) < у} > у и правое неравенство доказано.
Докажем теперь левое неравенство. С этой целью рассмотрим случайную
величину Y = -X. Тогда
G(x) = Р(У < х) = Р(Х > -х) = 1 - F(—x + 0)
и по доказанному
х < Р(б?(У) < х) = P(F(X + 0) > 1 - х) = 1 - P(F(X + 0) < 1-х),
полагая у = 1 — х, получим P(F(X +0) < у) < у. □
Следствие 17.3.1. Если функция распределения F(x) непрерывна, то
P(F(X) < у) = у = P(F(X) < у),
то есть случайная величина F(X) имеет равномерное распределение F(X)
Я.(0, 1).
17.3. Использование функций распределения
73
Для доказательства достаточно заметить, что
P(f(X + 0) < у) = P(F(X) < у) > P(F(X) < у).
Применим эту Теорему к построению доверительных множеств. С этой
целью предположим, что имеется статистика Т{Х) с функцией распреде-
ления F(t, 0), 0 6 0.
Теорема 17.3.2. Пусть статистика Т{Х) имеет функцию распреде-
ления F(t,0), 0 6 0 и числа ai 6 (0,1), аг С (0,1) таковы, что ai + a2 < 1.
Тогда множества
C1(X)={0: F(T(.X),0) < 1-aj}, С2(Х) = {0 : F(T(X) + 0,0) > а2},
С(Х) = С1(Х)ПС2(Х)
являются доверительными множествами с коэффициентами доверия не
меньшими соответственно 1 — а;, 1 — а2, 1 — ai — а2.
Доказательство. Применим Теорему 17.3.1 сХ = Т(Х), F(t) = F(t,0).
Pe(0 6 Ci(X)) = Pe(F(T(X),0) < 1 - aj > 1 - аь
Рв(0 6 С2(Х)) = Pe(F(T(X)+0,0) > а2) = l-Pe(F(T(X)+O,0) < а2) > 1-а2,
Рв(0 6 Cj(X) ПС2(Х)) = P,(F(T(X),0) < 1 - аь F(T(X) +0,0) > а2) =
= Pe(F(T(X),0) < l-ei)-Pj(F(T(X),0) < l-ai,F(T(X) + O,0) < a2) >
> P,(F(T(X),0)<l-a1)-P,(F(T(X)+O,0) < a2) > l-ai~a2.
□
Пример 17.3.1. Пусть наблюдения X имеют вид X = (Xi, • •  ,ХП), где
Х<, * = 1, - - •, n — независимы и одинаково нормально распределены
Х,~Х(0, 1), 1 = 1,060 = НА
Наилучшей оценкой для параметра 0 является
Т(Х) = Х = iy;Xi~JV(0, 1/n), F(t,0) = $(v^(i-0)).
Применим последнюю Теорему для постороения доверительного множества
С(Х), используя статистику Т(Х). Имеем при a; + а2 < 1
Cj(X) = {0 : Ф(у^(Х - 0)) < 1 - aj = {0 : yfa(X - 0) < щ_а1} =
74
Лекция 17
= Ь : 9 > X -	= (х -	+оо),
[	у/п J '	у п	/
С2(Х) = {9 : ФШХ - 0)) > 02} = (-00, х -
'	уп^
С(Х) = (х - X - ^), где Ф(иа) = а.
'	-у/П	у/П'
Пусть теперь необходимо построить доверительное множество для значений
функции д(0), которая не обязана быть однозначной. Тогда вместо функции
F(t, 0) достаточно рассмотреть функцию
дег
и определить множества
СДХ) = {д е Г : Я(Т(Х),р) < 1-в1}, С2(Х) = {д G Г : Я(Т(Х)+О,р) > о2},
С(Х) = С1(Х)ПС2(Х).
Справедлива следующая Теорема.
Теорема 17.3.3 Множество С,(Х),» = 1,2,3, определенные выше, яв-
ляются доверительными множествами для д(9) с коэффициентами дове-
рия не меньше, соответственно, чем 1 — aj, 1 — а2, 1 — oj — а2.
Доказательство. Доказательство Теоремы полностью аналогично до-
казательству Теоремы 17.3.2. Докажем Теорему, например, для множества
Ci(X)
РвШ £ Cj(X)) = Рв(Я(Т(Х), 9(0)) < 1 - ах) =
= Pe(. inf F(T(X),0) <l-ai) > Pe(F(T(X),0) < 1-а1) > l-oi.
Чд(в)=9(в)	/
□
17.4 АСИМПТОТИЧЕСКИЕ ДОВЕРИТЕЛЬНЫЕ
ИНТЕРВАЛЫ
Предположим, что существует оценка Тп = ТП(ХП) параметра 0, которая
при п -> оо состоятельна (см. Лекцию 12) и асимптотически нормальна с
параметрами (0, <т2(0)), то есть для любого е > О
Рв((Т„(Хп) - 0| > е) 0, п -юс,	(17.4.1)
17.4. Асамотояпкжае интервалы
75
РвШТп(Хп) - 0)/а(0) < х) -> Ф(х).	(17.4.2)
Тогда справедлива следующая
Теорема 17.4.1. Пусть выполнены соотношения (17-4.1) и (17-4.2) и
функция а(0) непрерывна по 0 €. в, тогда для любого а 6 (0,1) интервал
вида
(Т„(Х„) - п-1/2и1_а/2а(Тп(Хп)), Tn(Xn) +
где Ф(и7) = 7 Е (0,1), является асимптотическим доверительным интер-
валом с коэффициентом доверия 1 — а, то есть
Рв(тп(Хп)-п-г/2и1_а/2а(Тп(Хп)) <0< Tn(Xn)+n-V2U1_a/2a(Ttt(Xn))) -4
—> 1 — а,	п —> оо, 0 € 0.
Доказательство. Из соотношения (17.4.2) следует, что
Р«(л/п)Тп(Хп) - 0|/а(8) < ui_a/2) -4 Ф(«1_в/2) - Ф(-Ч-а/г) =
= 2Ф(и1_а/2) — 1 = 2 — а - 1 = 1 — а.
По условию функция а(0) непрерывна, поэтому из Теоремы 12.1.2 следует,
а(Тп(Х„))	а(0), п-4 00.
Таким образом, учитывая свойство слабой сходимости, имеем
Рв(ч/п|Тп(Хп) - 0|/сг(Тп(Хп)) < «1-0/2) -4 1 — а, п -4 оо, 0 6 0.
Разрешая неравенства под знаком вероятности относительно 6, получим
искомый доверительный интервал. О
Заметим, что асимптотический доверительный интервал будет тем ко-
роче, чем "меньше” функция <т2(в), поэтому при построении асимптотичес-
ких доверительных интервалов, по-видимому, разумно использовать оценки
ТП(ХП), имеющие минимальную дисперсию (см. Лекции 9 - 11).
Пример17.4.1 Пусть Xn = (X], • • •, Хп) - независимые одинаково рас-
пределённые бернуллиевские наблюдения
Xi~B(l, 0), бе 0 = (0,1), » = 1,--,п.
76
Лекция 17
Тогда оптимальная оценка для параметра 0 имеет вид
тп(х„) = х = ^£^.
Учитывая Закон Больших Чисел (Лекция 4, п.6), имеем
тп(х„) о, п оо
и в силу Центральной Предельной Теоремы (Лекция 4, п.5) справедливо
соотношение
Lim Рв(^(0(1 - 0))-1/2(Тп(Хп) - 0) < х) = Ф(х),
то есть в этом случае <т2(0) = 0(1 — 0) и эта функция непрерывна. Итак,
асимптотический доверительный интервал с коэффициентом доверия 1 — а
есть
(у - «i_o/2n"1/2V^(l-X). X + Hi-Q/2n-1/2\/x(l-X)) -
17.5 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман, Проверка Статистических Гипотез,
Москва, Наука, 1979, Глава 3, §5.
2)	Л.Н. Большее, О построении доверительных пределов,
Теория вероятностей и её применения, 1965, т. 10, н. 1, стр. 187 -192.
3)	Л.Н. Большее, Э.А. Логинов, Интервальные оценки при наличии ме-
шающих параметров,
Теория вероятностей и её применения, 1966, т. 11, н. 1, стр. 94 -107.
4)	А.А. Боровков, Математическая Статистика,
Москва, Наука, 1984, Глава 2, §31.
5)	Ж - Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1974, Глава 6, §3, §4.
6)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992, Глава 2, §2.6.
Лекция 18
В Лекции рассматривается введение в эмпирическую байесовскую пробле-
му решений.
18.1 СТРУКТУРА БАЙЕСОВСКИХ РЕШЕНИЙ
Рассмотрим ситуацию, когда многократно возникает однотипная статисти-
ческая задача, например, задача проверки гипотез или оценивания парамет-
ров. При этом в прошлом многократно наблюдаются случайные величины
с плотностью вида (смесь)
Р<№ = j Pe{x}Q(&}-
е
Как и при байесовском подходе, будем считать, что на в задано априорное
распределение Q() и предпологается, что каждый раз (ненаблюдаемый) па-
раметр 0 порождается случайно в соответствии с этим распределением на
0, то есть 9 является значением случайной величены Е, имеющей распреде-
ление Q(-). После этого случайная величина X порождается в соответствии
с распределением, заданным условной плотностью ре(х) = р(т | Е = 0). При
каждом 6 € 0 функция рв(х) предполагается известной. Здесь рассматри-
ваеся задача ’’оценивания” текущего значения 9.
В противоположность чисто байесовской схеме здесь нет необходимости
точно задавать априорное распределение, в соответствии с которым порож-
дается Е. При эмпирическом байесовском подходе необходимо только опре-
делить семейство априорных распределений, которому принадлежит Q(-).
Задача состоит в том, чтобы построить такую последовательность реша-
ющих функций (см. Лекцию 8), которая при определённой функции потерь
77
78
Лекция 18
будет "близка” к оптимальной байесовской решающей функции, а соответ-
свующая последовательность априорных рисков будет "близка” к байесов-
скому риску. Впервые этот подход был предложен Г.Роббинсом (Herbert
Robbins) в 1955 году и который назвал его эмпирической байесовской про-
цедурой (см. [1], [2]).
Итак предположим, что нам заданы
1)	Параметрическое пространство в с элементами 0, которые интерпре-
тируется как "состояния природы” и которые неизвестны для нас.
2)	Пространство решений Д с элементами <5, которое характеризует ре-
шаемую задачу.
3)	Функция потерь L(0,<5) > 0, которая характеризует "потери”, кото-
рые мы несём выбирая решение <5 в случае, когда истинное значение
параметра есть 0.
4)	Априорное распределение Q(-) на 0 случайной величины Е, которое
может быть как известным так и неизвестным для нас.
5)	Наблюдаемая случайная величина X, значения которой принадлежат
пространству X, на котором определена а - конечная мера и(-). Ес-
ли случайная величина S приняла значение 0, то случайная величина
X имеет условную плотность Ре(х) относительно этой меры и( ). Без-
условная плотность X имеет вид (смесь)
Pq(x) = I Pe(x)dQ(0).
е
Проблема состоит в том, чтобы выбрать измеримую решающую функцию
<5(х), определённую на (X, F) и принимающую значения в (Д, U)
д(х) : X —> Д,
минимизирующую байесовский риск (см. Лекцию 8). А именно, если наблю-
дается значение X = х и принимается решение 5(х), то имеем "случайные”
потери вида
Ц0,5(х)).
Далее для данной решающей функции <5(-) определим условные средние по-
тери по формуле
R(0, <5) = R(S | Е = 0) = EL(0,5(Х)) =
18.1. Структура байесовских решений
79
= у L(0,6(x))pe(x)dv(x).	(18.1.1)
х
Усредняя по априорному распределению Q(-) определим байесовский риск
(априорный байесовский риск) решающей функции <5(-) соответствующий
априорному распределению Q()
r(<5, Q) = ЕЯ(<51 S) = J R(0,5)dQ(O).	(18.1.2)
0
По теореме Фубини байесовский риск можно переписать в виде
r(5,Q) = У J L(0,6(x))pe(x)du(x)dQ(e) =
0 х
= У(7 L(0,5(x))pe(x)dQ(0)\du(x),
х е
поэтому, если определить функцию
hQ(6,x) = У L(0,6)pg(x)dQ(0),	6 € Д,	(18.1.3)
0
то байесовский риск r(<5, Q) можно переписать в виде
r(ti,Q) = У hQ(6(x),x)dv(x).	(18.1.4)
х
Будем предпологать, что существует решающая функция 6q(x) такая, что
hq(<5q(x),x) = minhq(5,x).	(18.1.5)
р€Д
Тогда для любой решающей функции 6(г) справедливо неравенство
r(5q,Q) = УmiahQ(6,x)dv(x) <
х
< У h.Q(6(x), x)dv(x) = r(S, Q).
(18.1.6)
80
Лекиия 18
Поэтому, если определить функционал r(Q) от Q( ) по формуле
r(Q) = r(6Q,Q) = у hQ(8Q(x),x)dv{x}y	(18.1.7)
х
то
r(Q) — minr(J, Q).	(18.1.8)
Таким образом решающая функция &q{x), определенная в формуле (18-1.5),
является байесовской решающей функцией.
18.2 ЭМПИРИЧЕСКИЙ БАЙЕСОВСКИЙ ПОД-
ХОД
Формулы (18.1.3) - (18-1.8) можно интерпретировать следующим образом:
предположим, что априорное распределение Q(-) имеет плотность q(ff) от-
носительно некоторой а - конечной меры р(-), тогда определим апостериор-
ную плотность случайной величины S по формуле
g(ff|X = x) = <?(8|x) = ^^l,
Pq(x)
тогда выражения (18.1.3) и (18.1.4) можно переписать в следующем виде
Лр(<5, х) =Pq(x) У L(9,5)q(0 | x)dp(0) = pq(x)Hq{5 | X — т),
r(5,Q) = УPq(x)/iq№) I X = x)du(x) =
X
= УP<j(*) (У	&(x))q{9 I x)dp(ff)jdv(x}. (18.2.1)
x 0
При этом из определения (18.1.5) решающей функции 6q(x) и этих формул
следует, что в формуле (18.1.5) можно Лд(<5,х) заменить на hq{6 | X = х).
Таким образом оптимальная решающая функция 6q (х) определяется на ос-
нове апостериорного распределения с плотностью q(6 | X = х) и байесовс-
кий риск г(<5, Q) может быть записан в виде
r(8,Q) = Er(<5,(?|X),
18.2. Эмпирический байесовский подход
81
где r(J, Q | X) - апостериорный риск
г(<5, Q | X = х) = У L(0,S(x))q(O | х)Лц(9)
е
 случ&ивм величина X имеет плотность вида
Р<эО) = У Pt(x)dQ{e).
е
Итак, после наблюдения значения X = х априорное распределение Q(-) с
плотностью q(0) ’’заменяется” апостериорным распределением с плотнос-
тью q(8 | X = х) и оптимальная решающая функция <5q(x) получается
путём минимизации байесовского апостериорного риска r(d,Q | X — х),
а априорный риск r(S,Q) получается усреднением апостериорного риска
r(8,Q | X = х) по распределению с плотностью рд(х). Эти факты важны
для интерпретации описанной ниже схемы.
ОПРЕДЕЛЕНИЕ 18.2.1. Любая решающая функция 8q(x), удовлетворяю-
щая соотношению (18.1.5) и минимизирующая байесовский риск г(<5, Q) при
априорном распределении Q(-), называется байесовской решающей функ-
цией соответствующей априорному распределению Q(). Функционал r(Q')
от Q(-), определенный равенством (18.1.7) называется байесовским оги-
бающим функционалом.
Если априорное распределение Q(} известно, то используя 6q(x) мы
получим минимальный байесовский риск r(Q).
Предположим теперь, что априорное распределение Q() не известно, но
рассматриваемая ситуация наблюдается многократно и независимо. Итак,
пусть
(ц,»]), (Х2,Э2), (хз,6»з), •••	(18.2.2)
последовательность значений независимых пар наблюдений над случайны-
ми величинами X и Е, причём значения 0, ненаблюдаемы, то есть неизвест-
ны нам, и являются значениями случайной величины Е с распределением
Q(-). Значения х, наблюдаемы и являются реализациями случайной величи-
ны X, условное распределение которой при условии 3 = 0 имеет плотность
вида рз(х) и безусловную плотность относительно меры £/(•) вида (смесь)
Pq(x) = I pe(x)dQ(0}.
82
Лекция 18
Итак мы наблюдаем независимые случайные величины , Xn+i, при-
чём i - ая случайная величина Xi имеет плотность вида pq(x), i = 1, •  , п,
а случайная величина Хп+i имеет плотность рвп+1(х). Наблюдая ц, • •  ,xn+i
мы хотим ’’оценить” текущее значение бп и- Поскольку значения fli,    ,вп
порождены тем же вероятностным распределением Q(-), что и 0п+1> то зна-
чения xi,  • , хп содержат также информацию о 0n+i и поэтому будем рас-
сматривать решающие функции, зависящие и от zj, •  •,хп, то есть пусть
<5п(т) = <5n(xi,   • ,хп; х) 6 Д
(18.2.3)
и значит текущие потери имеют вид
, ^п(Тп-м))’
Основная проблема состоит в нахождении такой решающей функции 6п{-),
чтобы асимптотически, то есть при больших п, она была ’’близка” к опти-
мальной, но неизвестной решающей функции Sq(-), то есть чтобы в некото-
ром смысле выполнялось соотношение
<5n(z) ss <5q(z), п -> +оо.
Определим теперь ’’эмпирическую” или ’’адаптивную” решающую процеду-
ру, как некоторую последовательность <5 = {<5П} решающих функций <5п(х)
вида (18.2.3). Для данной последовательности 6 условный байесовский риск
(см. (18.1.3) и (18.1.4)) при ’’оценивании” 0n+i при данных х\, -- ,хп есть
г„(<5, Q | Xi = х},  • , Хп = х„) = У h.Q(6n(x), x)dv(x) =
х
= У Pq(z)(J L(e,6n(xi,-  ,Хп, x),9)q(0 \ Xn+i = x)dp(0)'\dv(x'). (18.2.4)
x e
Определим теперь глобальный априорный байесовский риск (последнее вы-
ражение случайно и зависит от значений Xi,   , хп независимых одинаково
распределённых случайных величин Xi,   , Хп, имеющих такое же распре-
деление, как и случайная величина X) по формуле
rMQ) = У EhQ(dn(x),x)dv(x),	(18.2.5)
18.2. Эмпиричвашй байесовский подход	83
где Е обозначает математическое ожидание относительно независимых оди-
наково распределённых случайных величин Xi, -   ,ХП, имеющих общую
плотность относительно меры i/(-) вида
Pq(z) = У Pe(x)dQ(0).	(18.2.6)
е
Выражение (18.2.5) можно переписать в виде

глМ) = УPq(x)[Jд(в | x}£L(0,dn(x))dp(0)^dv(x) =	(18.2.7)
x e
= УPq(x)[J (JL(Mn(sir  ,Zn; z))g(0 | x)d/i(0)) JIpQ(a:i)di/(.Ti)^di/(x),
x X” e	1=1
которое является непосредственным аналогом выражения (18.2.1) и поэтому
интерпретируется в терминах апостериорных распределений.
При таком определении (18.2.7) байесовского риска rn(6, Q) всюду далее
все вероятности и математические ожидания рассматривются относительно
независимых одинаково распределённых случайных величин (Xj,    , %п),
имеющих общую плотность pq(x) вида (18.2.6) с неизвестным априорным
распределением (?() Таким образом имея значения таких случайных вели-
чин
X1 — х\,  • •, Хп — хп
мы наблюдаем случайную величину Xn+i, имеющую условную плотность
ре(х) и хотим "оценить” текущее значение 0. С помощью случайных ве-
личин (Х1,--.,ХП) мы "оцениваем” неизвестное априорное распределение
Q(-)-
Из соотношений (18.1.5) и (18.2.5) непосредственно следует, что всегда
rn(5,Q) >r(Q).	(18.2.8)
Определение 18.2.2. Если
Limrn(<5,Q) -r(Q),	(18.2.9)
то последовательность решающих функций 6 называется асимптотичес-
ки оптимальной отностительно априорного распределения Q(-). Основная
проблема состоит в нахождении последовательности решающих функции
И, которая была бы асимптотически оптимальна относительно некоторого
класса П = {<?()} априорных распределений, который содержит неизвест-
ное истинное распределение Q(). В частности может ли быть П классом
всех априорных распределений на 0?
84	Лекция 18
18.3 СПИСОК ЛИТЕРАТУРЫ
1)	Н. Robbins, The empirical Bayes approach to statistics,
Proc. Third Berkley Symp. Math. Statist. Probab., 1955, v.l, p. 157 - 164.
2)	H. Robbins, The empirical Bayes approach to statistical decision problems,
Ann. Math. Statist., 1964, v.35, p. 1- 20.
3)	Л.Н. Большее, Приложения эмпирического байесовского подхода,
Труды Международного Конгресса Математиков, Ницца 1970, Мос-
ква, Наука, 1972, стр. 48 - 55.
4)	J.S. Marita, Empirical Bayes Methods,
Methuen and Co LTD, London, 1970, Chapter 1.
5)	Ш. Закс, Теория Статистических Выводов,
Москва, Наука, 1975, Глава 6, §6.9.
Лекция 19
В Лекции строятся асимптотически эффективные байесовские решаю-
щие функции.
19.1 АСИМПТОТИЧЕСКАЯ ОПТИМАЛЬНОСТЬ
Напомним, что (см. (18.1.7) и (18.2.5))
r(Q) = t(6q,Q) = У hQ(fa(x),x)dv(x),
rn(6,Q) = J EhQ(6n(x),x)di>(x),
x
поэтому, учитывая Теорему Лебега о мажорируемой сходимости (см. Лек-
ция 2, п.8), непосредственно из определения асимптотической оптимальнос-
ти (Определение 18.2.2) следует, что для асимптотической оптимальности
последовательности решающих функций 6 относительно априорного рас-
пределения Q(-) достаточно, чтобы
(А)	Ьппп_юо E/iQ(<5n(x),x) = /iq((5q(x),2;), v - почти всюду
и
(В)	Е/,<э(<5п(т),®) < Н(х), причём f H(x)dv(x) < +оо.
х
Основная проблема состоит в доказательстве соотношения (А). Для провер-
ки неравенства (В) предположим, что
(С)	J L(ff)dQ(O) <+со,
е
85
Лекпкя 19
где
О < L(0) = supZ(e, J) < 4-00.
<5бД
Тогда полагая
Н(х) = I L(0)pe(x)dQ(0) > О,
е
и учитывая соотношение (18.1.3), получаем неравенство
hQ(6,x)~ У L(0,S)pg(x)dQ(0) < Н(х).
е
(19.1.1)
(19.1.2)
(19.1.3)
Тогда в силу предположения (С), имеем
I H(x)d^x') = I L(0) Ipe(x)dv(x)dQ(0) =
е х
= у L(0)dQ(0) < +оо.	(19.1.4)
е
Из соотношений (18.2.3) и (18.2.4) теперь следует справедливость неравен-
ства (В). Более того из (18.2.4) также следует, что
' Н(х) < +оо, v — почти всюду	(19.1.5)
и значит для доказательства (А) достаточно показать, что (функция Hq(6, х)
равномерно ограничена по 6 (см. (19.1.3))
(D)	Р — Limn_>oohQ(5n(T),®) =/iq(<5q(t),t),	1/— почти всюду,
где Р - lim означает предел по вероятности относительно распределения
независимых случайных величин (Xi, •  •, Хп) с плотностью (18.2.6). Таким
образом для доказательства асимптотической оптимальности <5 относитель-
но Q(-) достаточно проверить соотношения (С) и (D).
Рассмотрим соотношение (D). Пусть Sq - произвольный фиксированный
элемент множества Д и определим
Aq(<5,x) = I[L(0,5) - L(0,6o)]pe(x)dQ(0)
е
(19.1.6)
L0(x) = I L(0,6o)Pe(x)dQ(0).	(19.1.7)
e
19.1. Асимптотическая оптимальность
87
При выполнении условия (С) для v - почти всех х мы можем записать
hQ(6,x) = L0(x) + &Q(6,x).	(19.1.8)
Предположим, что мы можем найти последовательность функций
Д„(<5,х) = Дп(я1,  ,хп~, 6,х)	(19.1.9)
такую, что для и - почти всех х справедливо соотношение
Р — Lim 8ир|Дп(6,а:) — Дп(<5, х)| = 0.	(19.1.10)
n-*°°JeA
Пусть £п произвольная последовательность чисел, стремящаяся к нулю и
определим последовательность решающих функций
<5п(х) — <5п(^1, •  , хп\ х) = произвольному элементу 6* 6 Д такому, что
Дп(<5*,х) < inf Д„(б, х) + е„.	(19.1.11)
бед
Очевидно, справедливо соотношение (см. (18.1.5) и (19.1.8))
0 < bQ(Sn(x),x) - bQ(3Q(x),x) =	(19.1.12)
= [Д<г(<5п(ж),а:) ~ Дп(<5„(а:),х)] + [Дп(<5п(х),х) - An(<5Q(:r),T)]+
+[Дп№?(х)>х) ~
Теперь для любого £ > 0, используя (19.1.10) и (19.1.11), получим, что для
достаточно больших п с вероятностью сколь угодно близкой к единице, пра-
вая часть (19.1.12) не превосходит £ + еп. Таким образом
Р - Lim Дц(<5п(а:),а:) = Aq(Sq(x),x), и — почти всюду, (19.1.13)
поэтому из (19.1.8) следует соотношение (D). Таким образом доказана
Теорема 19.1.1 Пусть априорное распределение Q(-) удовлетворяет
условию (С)
L(ff)dQ(&) < 4-оо, 0 < L(&) = sup£(0, <5) < +оо
«ед
и пусть Дп (<5, х) = Дп(®1, • • •!	<5, ®) - последовательность функций вида
(19.1.9), которая удовлетворяет соотношению (19.1.10)
Р — Lim вир|Дп(<5, х) — Дл(<5, х)| = О,
п->0° <5бД
88
Лепаж 19
где
bQ(6,x) = I[L(9,6) - L(e,6o)]pe(x)dQ(O).
e
Определим последовательность <5 = {<5n} с помощью соотношения (19.1.11)
6n(x) = <5n(xi,- •  ,xn', x) = произвольному элементу 6* e А такому, что
Д„(<5*,®) < inf Дп(<5, ж) + en, 0 < еп -> О.
<5еД
Тогда последовательность решающих функций 8 = {<5п} асимптотически
оптимальна относительно априорного распределения Q(-)-
В случае, если множество А конечно справедливо следующее
Следствие 19.1.1. Пусть А — {<5о> • •  ,5m} _ конечное множество и
априорное распределение Q(-) таково, что
L(6,dj)dQ(ff) < +оо, j = 0, ,т	(19.1.14)
е
и пусть Aj,n(x) = Ajt„(xi,-  ,хп‘, х), j = l,.--,m; п = 1,2, • • • - такая
последовательность функций, что
Р - Lta Aj,n(x) = I[L(0, dj) - L(0,do)]pe(x)dQ(e), p — почти всюду.
e
(19.1.15)
Положим До,п(я) = 0 и определим
6п(х) = <5fc, где 0 < к < т - произвольное число такое, что
Д*,п(я) = min[0, Дi,n(а:),   •, Дт,п(я)].	(19.1.16)
Тогда последовательность 8 = {<5П} асимптотически оптимальна отно-
сительно априорного распределения Q(-).
В важном частном случае т = 1 (проверка гипотез) это Следствие
приобретает следующий вид.
Следствие 19.1.2. Пусть Д = {<5q,<5i} и априорное распределение (?()
таково, что
Ц9, 6j)dQ(e) < +оо, j = 0,1	(19.1.17)
е
и пусть функция Дп(ж) = Дп(я1,  • • ,хп; ®) такая, что
Р — Lim Дп(я) = До(аО =
П—ЮЛ	' '	-t V Z
19.2. Случай распределашя Пуассова
89
= finest) - L(Mo)]pe(*WW.
e
Определим решающую функцию
v — почти всюду.
(19.1.18)
<5о,
«1,
если
если
Дп(*) > О,
Дп(х) < О.
(19.1.19)
Тогда последовательность д — {<5п} асимптотически оптимальна отно-
сительно априорного распределения Q(-).
Ниже будет приведён пример последовательности Дп(ж), удовлетворяю-
щей соотношению (19.1.18).
19.2 СЛУЧАЙ РАСПРЕДЕЛЕНИЯ ПУАССОНА
Рассмотрим задачу проверки односторонней гипотезы вида
Но : 0 < О*
о параметре распределения Пуассона 0 (значение в* известно). Пусть
0 — {0 : 0 < 0 < +оо}, Д = {до, ^1}>
где решения <5о и <51 интерпретируются как
«о — "принять гипотезу Hq”, 61 — ’’отвергнуть гипотезу Но”.
Далее
е~®0®
• X = {0,1,2, •  }, w(x) = —	(19.2.1)
и р(-) - считающая мера на действительной прямой R1. Определим теперь
функцию потерь
Цд,60) - I в_в., если в > д.,	(19.2.2)
г/л х \	- 9, если 0 <
Ь(М1) = |о, если 0 >9*.
Из определения функции потерь непосредственно следует, что
L(fi, <5i) - L{0, д0) = 0* -0,	(0 < 0 < +оо) (19.2.3)
Лекция 19
и
+00
Дв(х) = llL(9,6x)-L^60)]pe(x)dQ(e)^- I (0‘-e)e~e8xdQ(e). (19.2.4)
е	’ о
Далее используя (18.2.6), получим
+°о
PQ(x) = Р{Х3 = х) = - J e~efftdQ{9)	(193.Б)
О
и значит мы мажем записать
Aq(x) -= 0*Pq(x) - (х + l)pq(x + 1).	(19.2.6)
Определим функцию
,	, II, если х — и,
а(х,у) = S п	-l	(19.2.7)
10, если х / у	'	’
и рассмотрим выражение
1 "
«n(z) = u„(xi,-•  ,xn;x) = - ^а(х,х{).	(19.2.8)
п i=i
Заметим, что
, . число xi,- -,xn равных х
ип(х) =---------------------------
п
и
Еа(х, Xj) = Р{Х3 = х} = pq(x).	(19.2.9)
Из Закона Больших Чисел следует (см. Лекция 4, п.6), что
Р - Lnn ип(х) - Ea(x,Xi) =Pq(x), х = 0,1,2, 	(19.2.10)
Поэтому если положить (см. (19.2.6))
Д„(®) = 6»’un(x) - (х + l)un(x + 1),	(19.2.11)
то непосредственно из соотношения (19.2.10) следует, что
Р — Lim Дп(х) =
Л
1
19.2. Случай распределения Пуассона
91
= 9*р<з(х) - (х + 1)pq(o; + 1) = Д<5(х), х = 0,1,2,  • •.	(19.2.12)
Теперь из Следствия 19.1.2 следует, что асимптотически оптимальная ре-
шающая функция имеет вид
6п(т) = (	в'ипМ ~{Х + 1)Un{X + П - °’	(19.2.13)
I di,	в противном случае
для всех априорных распределений Q(-), обладающих свойством
+оо
У 9dQ(0) < +оо.	(19.2.14)
о
Заметим, что можно было бы определить пп(х) как (см. (19.2.8))
j п+1
Wn(s) =	r52a(x,Tj),	(19.2.15)
тогда соотношение (19.2.10) выполняется для функции ип(т), определённой
по формуле (19.2.15). Используя (19.2.15), соответствующая асимптотичес-
ки оптимальная решающая функция S имеет вид: мы должны принять ги-
потезу Но (решение Йо), касающуюся параметра 0n+i, если
,	.	число наблюдений х;,   •, хп+1 равных xn+i + 1
9 > (Тп+1 + 1)---------------—7---------------------------•
число наблюдений ац, • • •, xn+i равных xn+i
Соотношение (19.2.6) является основным для построения Дп(х), удовлетво-
ряющего (19.1.18). Однако, соотношение (19.2.6) является специфическим
свойством рапределения Пуассона (19.2.1) и функции потерь (19.2.2) и поэ-
тому может показаться, что применение Следствия 19.1.2 к проверке гипо-
тез весьма ограничительно, однако это не так. В следующей Лекции будет
развита общая теория.
Задача. Рассмотрим также задачу проверки односторонней гипотезы
вида
Но : в < 9*
о параметре геометрического распределения в (значение 9* е (0,1) извест-
но). Пусть
в = {(?:0<61<1}, Д = {й0,<51},
где решения <5о и <51 интерпретируются как
60 - "принять гипотезу Но", <51 — "отвергнуть гипотезу Но".
92
Лекция Iff
Далее
<T= {0,1,2, •••}, pfl(i) = (1 ~ 0)0*
и v(-) - считающая мера на действительной прямой R1. Определим теперь
функцию потерь
Н(а А > _ J °’ если 9 - б*’
ММо)	если 0 > 0*,
г/а £ \ f 0* — 0, если 0 < 0*,
L(M1) = |o,	если 0 > 0*.
Найти асимптотически оптимальную решающую функцию 6 относительно
класса всех априорных распределений Q(-) таких, что
1
j" 0dQ(0) < +оо.
О
19.3 СПИСОК ЛИТЕРАТУРЫ
1)	Н. Robbins, The empirical Bayes approach to statistical decision problems,
Arm. Math. Statist., 1964, v.35, p. 1- 20.
2)	J.S. Maritz, Empirical Bayes Methods,
Methuen and Co LTD, London, 1970, Chapter 1.
3)	Ш. Закс, Теория Статистических Выводов,
Москва, Наука, 1975, Глава 6, §6.9.
Лекция 20
В Лекции рассмотрен один из возможных методов озденкн априорного рас-
пределения.
20.1 ОЦЕНКА АПРИОРНОГО РАСПРЕДЕЛЕ-
НИЯ: ОБЩИЙ СЛУЧАЙ
Рассмотрим более подробно общую схему эмпирического байесовского под-
хода, описанную в Следствиях 19.1.1 и 19.1.2. Для простоты предположим,
что
Д = {<5о, <5i}, A’ = e = R1.
Напомним, что последовательность 6 = {<!„} решающих функций является
асимптотически оптимальной относительно класса П априорных распреде-
лений Q( ), определённого соотношением (19.1.17)
П = j Q( ) : I L(9,6j)dQ(0) < +oo, j = 0,1
** e
если можно найти последовательность функций
такую, что
Р-Lun Дп(х) = Д<з(х) =	<?!)-£(»,do)]pe(x)dQ(d), u-п.в. (20.1.1)
е
для всех Q е П.
93
94
Лекция 20
Один из возможных путей построения такой последовательности (отлич-
ный от описанного в Лекции 19) состоит в нахождении последовательности
случайных функций распределения
Qn(0) = Qn(xi,--,xn;0),
такой, что
Р(Ьпп Qn(0) = Q(0), в каждой точке непрерывности = 1, (20.1.2)
то есть последовательность Qn(9) сходится почти всюду к Q(ff) слабо. Здесь
мы обозначили функцию распределения, соответствующую априорному рас-
пределению Q( ), через Имея такую последовательность QnW, поло-
жим
Дп(т) = f{L(0, <5i) - L(9, <5o)]pe(*Wn(0).	(20.1.3)
е
Теперь, если предположить, что для v - почти всех х е X функция
[L(M1) - £(Мо)]рв(я)	(20.1.4)
ограничена и непрерывна по то из определения слабой сходимости следует
соотношение (20.1.1). Заметим, что здесь возникает основная трудность в
построении такой последовательности QnW, поскольку мы наблюдаем слу-
чайные величины (-Х1,- • ,Хп), имеющие функции распределения Fq(x), а
не независимые копии случайной величины Е, имеющие функцию распреде-
ления Q(0).
Рассмотрим так называемый метод ’’минимума расстояния”, предло-
женный Волфовицем (J. Wolfowitz), построения последовательности оценок
Qntfi) функции распределения Q(9), удовлетворяющей равенству (20.1.2)
для любого Q е П.
С этой целью ослабим условия регулярности на семейство плотностей
ре (а:) и будем предпологать лишь, что соответствующие функции распре-
деления F(x,9), 0 6 0 являются при каждом фиксированном х G X = R1
борелевскими функциями. (Функция F(x), определённая при х G X, назы-
вается функцией распределения, если она неубывает, непрерывна слева и
liniz^-oo F(x) = 0, limz-i+oo F(x) = 1.)
Для любой функции распределения Q(9) определим смесь функций рас-
пределения F(x,9) по формуле
+оо
Fq(x)= I F(x,9)dQ(9),	(20.1.5)
—оо
;	20.1. Оценка, априорного распределения	95
i
< тогда Fq(t) также является функцией распределения на X.
< Пусть (Ху,  • •, Хп) являются последовательностью независимых одина-
j ково распределённых случайных величин с обшей функцией распределения
i Fq(x). Определим эмпирическую функцию распределения Fn(x) (см. Лекция
i 6, Пример)
j	FnW =	- меньших ;	(20л 6)
) п
] и для любых двух функций распределения Fi(rr), ^(х) определим расстоя-
< ние
|	p(F1,F2)=8up[Fl(a:)-F2(x)|.	(20.1.7)
f	X
Пусть 0 < еп - произвольная последовательность, стремящаяся к нулю.
j Для произвольного класса П априорных распределений Q(-), содержащего
5 ’’истинное” априорное распределение <2(-), определим величину
?	7”= mf P(F„,FO).	(20.1.8)
|	Пусть
।	QnW = Qn(®i,    >	0),
|	любой элемент из множества П, удовлетворяющий неравенству
j
]	p(Fn,FQJ < 7n + cn.	(20.1.9)
) Будем называть так определённую последовательность Qn(9) эффективной
1 для класса П, если соотношение (20.1.2) выполнено для всех Q Е П.
i Теорема 20.1.1. Предположим, что
j 1) Для любого фиксированного х Е R1 функции распределения F(x,0)
непрерывны по 0 Е в.
•	2) Пределы вида
Р_то(х) = lim F(x,0), F+oo(x) = lim Fix,9)
e-i-OO	S-F+OO
существуют для всех x.
3)	Функции F_00(a;) и F+oo(x) не являются функциями распределения.
4)	Если Qi(9) и Qz(6) любые функции распределения такие, что
F?,(t) =Fq2(x),
96
Лекция 20
то и
QiW =
(Это так называемое свойство разделимости или ИДЕНТИФИЦИРУ-
ЕМОСТИ смесей.)
Тогда последовательность Qn(fi), определенная соотношением (20.1.9),
является эффективной для класса П ВСЕХ априорных распределений.
Доказательство. По Теореме Гливенко - Кантелли (см. [4], стр. 28),
имеем
₽( Lim p(Fn, Fq) = о) = 1.	(20.1.10)
Далее, поскольку
p(.Fq„,Fq) < p(FQn,Fn) + p(Fn,FQ) <	(20.1.11)
< In + Еп + p(Fn, Fq) < p(Fn,FQ) + en + p(Fn,FQ),
поэтому из соотношения (20.1.10) следует, что с вероятностью единица, рав-
номерно по х, справедливо равенство
+оо
Lim Fq„(x) = Lum J F(x,0)dQn(9) =	(20.1.12)
— 00
= FQ(x) = I F{x,0)dQ{9).
—oo
Теперь докажем, что выполняется соотношение (20.1.2). Для этого рассмот-
рим фиксированную последовательность Xj = xi, •  • ,Хп = хп такую, что
выполняется равенство (20.1.12). Из Теоремы Хелли (см. [3], стр. 340) сле-
дует, что из любой подпоследовательности функций распределения Qn(0)
можно выделить подпоследовательность Q^n (в) такую, что
Q*(9)
в каждой точке непрерывности Q*(9), где Q‘(0) - неубывающая, непрерыв-
ная слева функция такая, что
0 < Q’(-oo) < Q’(+oo) < 1.
20.1. Оценка априорного распределения
97
Поэтому определяя функцию распределения
из определения слабой сходимости и Предположений (1) и (2) следует, что
+оо	4-оо
Lim [ F(x,0)dQk„(9) = [ F(x,9}dQ*(0) =
п—>оо J	J
-00	-00
+oo
= I F(x,0)dQ*(9) + Q,(-oo)F_oo(x) + (l-Q*(+oo))F+ao(x) (20.1.13)
— 00
и поэтому из (20.1.12) следует, что
4-оо	4-оо
J F(x,6)dQ(ff) = J F(x,e)dQ*(0)+Q*(-oo)F-oo(x)+(l-Q’(+oo))F+oo(x).
-00	—оо
(20.1.14)
Если мы покажем, что
Q’(-oo) =0 и Q*(+oo) = 1,
то из Предположения (4) будет следовать , что
QW = Q*W
и значит Q(9) является слабым пределом любой сходящейся подпоследо-
вательности <2п(0) и поэтому справедливо (20.1.2). Итак для завершения
доказательства Теоремы достаточно показать, что из Предположения (3)
следует, что
Q*(—оо) = 0 и Q‘(+oo) = 1.
Поскольку F_0O(x) является пределом при в —> —оо функций F(x,0), то
F-oo(x) является неубывающей функцией х такой, что
О < F_oo(—оо) < F_00(+oo) < 1.	(20.1.15)
Аналогичное неравенство справедливо и для F+oo(x). Пусть теперь в ра-
венстве (20.1.14) х -> —оо. Тогда по Теореме о мажорируемой сходимости
(Лекция 2, п. 8), имеем
О = Q‘(-oo)F_00(-oo) + (1 - Q*(+oo))F+oo(-oo).	(20.1.16)
98
Лекцяя 20
Поэтому, если
<?*(—оо) # О,
то F_oo(—оо) — 0 и если Q*(+oo) 1, то F+oa(—oo) = 0. Аналогично полагая
х —> +оо в (20.1.14) мы видим, что если Q*(—оо) 0, то 7;’_00(+оо) = 1 и
если Q*(+oo)	1, то F+oo(-t-oo) = 1.
Пусть теперь ап любая последовательность чисел, сходящаяся к а слева.
Тогда из (20.1.14), полагая х = ап, п -1 +оо и вычитая (20.1.14) с х — а,
получим
Q*(-oo)(F_00(a) - F_oo(a - 0)) + (1 - Q*(+oo))(F+oo(a) - F+oo(a - 0)) = 0.
(20.1.17)
Следовательно, если Q*(—оо) / 0, то F_oo(a—0) = F-oo(a), и если Q*(+oo) /
1, то F+oo(a — 0) = F+oo(a). Таким образом, если Q*(-oo)	0, то F-oo(x)
является функцией распределения и если Q'(+oo) / 1, то F+oa(x) также
функция распределения. Что противоречит Предположению (3). Итак полу-
чаем
<2*(-оо) = 0 и Q*(+oo) = 1.
□
20.2 ПРИМЕРЫ
Пример 20.2.1. (параметр сдвига) Пусть F(x) - непрерывная функция рас-
пределения с характеристической функцией нигде не обращающейся в ноль
+оо
fy(t) = У e'ixdF(x) 0, для всех t.	(20.2.1)
—ОО
Положим
F(x,0) = F(x — 0).
Тогда Предположения (1), (2), (3) Теоремы 20.1.1 выполняются. Проверим
справедливость Предположения (4). Если Qi(6), две функции распре-
деления такие, что Fq1(x) = Fq2(x), то есть
F{x —	= f F(x — tydQzffl), для всех x, (20.2.2)
20.2. Примеры
99
тогда (поскольку эти интегралы являются свёртками)
/fW/QiW =/f(*)/q2(<), для всех t, (20.2.3)
и значит
/<2iW =Для всех t,	(20.2.4)
то есть Qi(ff) = Qz(f>). Таким образом Предположение (4) также выполня-
ется и значит согласно Теоремы 20.1.1 последовательность Qn(0), опреде-
лённая соотношением (20.1.9) является эффективной относительно класса
П всех априорных распределенией Q(-).
Заметим также, что характеристическая функция нормального закона
также удовлетворяет соотношению (20.2.1).
В случае, если параметрическое пространство 0 не является всей дейст-
вительной прямой R1 утверждение и доказательство Теоремы 20.1.1 нуж-
даются в модификации. Например, если 0 = [0, +оо), то Теорема 20.1.1
приобретает следующий вид.
Теорема 20.2.1 Предположим, что
1)	Дли любого фиксированного х функции распределения F(x,ff) непре-
рывны по 0 Е в.
2)	Предел вида
F+oo(x) = lim F(x,0)
S-»+oo
существуют для всех х.
3)	Функция F+oo(x) не является функцией распределения.
4)	Если Qi(0) и Qzfd) любые функции распределения сосредоточенные
на О = [0, +оо) и такие, что
FQl(x) = FQi(x),
то и
Qd0) = Q2(0).
Тогда последовательность Qn(0), определенная соотношением (20.1.9),
является эффективной для класса П ВСЕХ априорных распределений, со-
средоточенных на 0 = [0, +оо).
Приведём примеры использования этой Теоремы.
100
Лекция 20
Пример 20.2.2. (распределение Пуассона) Пусть 0 = [0, +оо) и
F(x, 0) — |	0, если 1, если	х < 0, х > 0	(20.2.5)
и для 0 < 6 < +оо пусть			
F(®,0)	= Е - 0<t<®	в0‘ i! ’	(20.2.6)
Тогда Предположения (1), (2) и (3) выполняются.
Пусть Q е П, тогда
	F<?(x) = ( F(x,9)dQ(9) = L / Pe(i)dQ{ff), е	<*<*<* е	(20.2.7)
где	...	) 1,	если i — 0, 'г> ~ ] л если t — 1 2    1 U, CVJ1J4 1	(20.2.8)
И	е~вв' PsW = ~jj—,	при г = 0,1,   ; 0 < & < +оо.	
Теперь	FqW = /Pe(O)dQ(0), FQ(n) - FQ(n - 1) = в	
	= j Pe(n)dQ(0), n = l,2,---, e	(20.2.9)
поэтому,	если FQ1(a:) = Fq2(x),	
J'Pe(n)dQi(0) ~ jpe(n)dQ2(9), п = 0,1,2,-. е	е Определим теперь функцию множеств		(20.2.10)
	h-OdQjiO) S£B'’ e	(20.2.11)
20.2. Примеры
101
(20.2.12)
тогда Hj(-) являются вероятностными мерами, определёнными на борелев-
схях множествах. Поскольку из равенств (20.2.10) следует, что
С = I e~edQi(ff) = Jpe^dQrW =
0	0
= IPe(O)dQ2(0) = j e~edQ2(fi),
e	e
то мы можем записать
ЦВ) = 1 у e~edQj(O), j = 1,2,
В
(20.2.13)
где 0 < С < +оо. Далее, поскольку
(20.2.14)
то для n = 1,2,  • • и j = 1,2 имеем
jrdHjW) = ± J e~eendQj(e) = ^1 Pe(n)dQj(O), (20.2.15)
0	0	©
поэтому из (20.2.10) следует, что
ап = jendH!(0) = IendH2(e), n = i,2,---.	(20.2.16)
0	0
Более того, поскольку
(д2	дп	\
1 + 0+— + •• + -7 4- -- •)«! > 0",
21	п!	)	~
то
О < е~90п < п!, при 0 < 0 < +оо,
имеем
О < а„ =	п=1,2, -,	(20.2.17)
С J	с
0
102
Лекция 20
поэтому имеем сходящийся ряд вида
Отсюда по известной Теореме, касающейся проблемы моментов, получаем,
что распределения ) и Лг( ) определяются однозначно своими момента-
ми и значит тождественны (моменты ап однозначно определяют распреде-
ление, если ряд
+°° п -п
Eans
п!
П—1
сходится для некоторого значения s 0 (см. [3], стр. 315)). Далее, поскольку
Qj(B) = /	= [ CeedHj{0), j = 1,2,	(20.2.18)
J О Л i	J
В	В
то тождественны и Qi(-), Таким образом Предположение (4) также
выполнено.
Приведём теперь пример, в котором 0 = (0, +оо) и ноль играет роль
—оо в Теореме 20.1.1.
Пример 20.2.3. (равномерное распределение) Для 6 6 0 = (0, +оо) опре-
делим функцию распределения равномерного распределения
Тогда
и предел
F(x, в) = <
О,
х/9,
1,
lim Fix, в) = < 0’
в-ю+ ' ’ '	11,
если х < 0,
если 0 < х < в,
если
х > в.
если х < О,
если х > 0
lim F(x,ff) = 0
9—+4-00
(20.2.19)
(20.2.20)
(20.2.21)
не являются функциями распределения. Итак Предположения (1), (2) и (3)
выполняются.
Для любого априорного распределения Q(), сосредоточенного на 0, име-
ем при х > О
Fq(x) = I F(x,ff)dQ(e) = I l-dQ(O) + x I	(20.2.22)
в	{0<в<х}	{в>х}
20.2. Примеры
103
Следовательно, если Fq^x) = Fq2(x), то
Qi(®) + ® / —— = <Э2(ж)+ж у —0—.	(20.2.23)
{0>l}	{e>l}
Если х является одновременно точкой непрерывности Qi(x) ж Q2(x), то
/ = (Я).2.24)
J в 6 \х J 6*
{0>l}	{0>х}
=-^+ f
X J 6£
{*>*}
поэтому
Qj(x)+x J Ю№1 = х J	(20.2.25)
{в>х)	{®>х)
и значит из соотношения (20.2.23) следует, что
I ^^0 = I (~^-d0	(20.2.26)
{8>х}	{8>х}
в каждой точке непрерывности х > 0 функций распределения Qi (х) и Q2(x).
Дифференцирование по х даёт Qi(x) = <Эг(®) Для всех таких точек и значит
Qi(x) = Q2(x).
Одним из недостатков метода, описанного в Теореме 20.1.1, построения
оценки неизвестного априорного рапределения Q( ), является неконструк-
тивность выбора оценки Qn(0), удовлетворяющей (20.1.9). Метод, описан-
ный в Лекции 21 свободен от этого недостатка, но существенно зависит от
конкретного параметрического семейства. В следующей Лекции будет опи-
сан иной метод оценки Q( ) в случае, если параметрическое пространство
0 является конечных множеством.
104	Лекция 20
20.3 СПИСОК ЛИТЕРАТУРЫ
1)	Н. Robbins, The empirical Bayes approach to statistical decision problems,
Ann. Math. Statist., 1964, v.35, p. 1- 20.
2)	J.S. Maritz, Empirical Bayes Methods,
Methuen and Co LTD, London, 1970, Chapter 2.
3)	A.H. Ширяев,
Вероятность, Москва, Наука, 1989, Глава 3, §2.
4)	М. Лоэв,
Теория Вероятности, Москва, Иностранная Литература, 1962, Ввод-
нал Часть, 2, §6.
Лекция 21
В Лекции рассмотрен метод оценки априорного распределения, сосредо-
точенного в конечном числе точек.
21.1 ОЦЕНКА АПРИОРНОГО РАСПРЕДЕЛЕ-
НИЯ: КОНЕЧНЫЙ СЛУЧАЙ
Пусть теперь параметрическое пространство 0 конечно. Без ограничения
общности можно считать, что оно имеет вид
0 = {1,-..,г}
и априорное распределение Q(-) на 0 задаётся вектором
Г
(91, ,9г), 9» > о, i =	= 1,
1=1
что мы будем обозначать в виде
Q = {91, •,9г}-
Таким образом
Q(E = i)^qi, » = 1,--,г.
Предположим также, что задано известное конечное семейство распределе-
ний на X
и наблюдаемые независимые одинаково распределённые случайные величи-
ны (Xi,• • •,Хп) имеют распределение
PQ(Xi е В) = [ Pe(B)dQW = ^9<РДВ).	(21.1.1)
е	*=i
105
106
Лекция 21
Нашей задачей является построение функций
9i,n = ?1,п(®1!  ' >хп)	(21.1.2)
таких, что
ft,n > 0, t = !,•,г, J2gi,n = i
i—1
и для любого априорного распределения Q(-) на Q справедливо равенство
p(Limgi n=9i, i = 1, • -  ,r) — 1.	(21.1.3)
\п—>оо	/
Ясно, что необходимое условие для существования такой последовательнос-
ти q,n имеет вид
(А) Если
Q = {di,--,9r} и Q = {gi,-->9r}
два априорных распределения таких, что для любого борелевского множес-
тва В 6 В1
E9iPi(B)=E«iPi(B),	(21.1.4)
t=l	£=1
то Q = Q.
Докажем, что условие (А) является также и достаточным для сущес-
тования такой последовательности.
Обозначим через А( ) любую а - тихвечвую меру на Я", относительно ко-
торой все распределения РД-) являются абсолютно непрерывными и такими,
что их плотности
, ч дР, .
Pi(x) = W, * = !,••, г
квадратично интегрируемы
j p?(x)dX(x) < +оо, » = !,•••, г.	(21.1.5)
х
Можно всегда, например, положить
А(В) = Р1(В) + .-. + Рг(В), Be В1,
тогда
О < Pi(x) < 1
21.1. Оценка априорного распределения
107
Ж ЭЖЖЧИТ
У pl(x)dX(x) < У pi(x)dX(x) = 1, i = 1, • -,г.	(21.1.6)
х	х
Теперь функции Pi(x), г = 1,---,г можно рассматривать как элементы
гильбертова пространства Н, порождённого измеримым пространством
(Д’, В1, А). Из условия (А) следует, что функции р<(х), t = 1, •  , г линейно
независимы. Поскольку, если
cipi(®)d----hCrPrGz) =0
для некоторых констант ci, • • • ,Сг, которые не все равны нулю, то изменяя
обозначения, всегда можно записать
С1Р1(т) Н--+ ckpk(x) = ck+1pk+i(x) н--+ cqpq(x), (21.1.7)
где ci, • • • ,с9 все положительны и 1 < q < г. Интегрируя Это тождество
по всему пространству X, получим
C1 И----F ck = Cfc+1 И--н cq — с > 0	(21.1.8)
и значит для различных априорных распределений
Q = J£!,... Д’О,-.-,о) /Q = /о, •••, 0, Л) (21.1.9)
( с с )	(	с с J
справедливо соотношение (21.1.4), что противоречит предположению (А).
Пусть теперь Lj обозначает линейное пространство, порождённое г — 1
функцией pi(x),   •,Pj—i(ж),Pj+i(ж), • • • ,рг(т). Тогда справедливо однознач-
ное представление
Pj(x) =Pj(x) +pj(x), j = !,-,г	(21.1.10)
С
,•	pjfxjeLj, pj(x)lLj, р/а;)/0.	(21.1.11)
Полагая теперь
^(®) = ТРТпйл/ P	(21.1.12)
J(Pj(®))2dA(x)
получим
(21.1.13)
X	k
108
Лекция21
Теперь определим
ft,n = -p=-,	(21.1.14)
7=1
где а+ обозначает шах(а,0). Если (Xi,---,Xn) - независимые одинаково
распределённые случайные величины с общим распределением (21.1.1), то
их общая плотность относительно меры Л(-) имеет вид
(21.1.15)
7=1
поэтому принимая во внимание соотношение (21.1.13), получим
Е1М-Х1) = [	=
х J=1
~ 52^7 /= Qj.	(21.1.16)
7=1 Jx
Теперь из Закона Больших Чисел непосредственно следует (21.1.3).
Применим теперь Теорему 19.1.1 с произвольным пространством реше-
ний Д и функцией потерь £(0, <5), которая полностью определяется наборам
функций
L(i, 5), i = 1,  • •, г. Предположим для простоты, что
0 < L(i, <5) < L < +оо, для всех <5 € Д и i = 1, •  •, г. (21.1.17)
Теперь соотношение (19.1.6) приобретает вид
5) - L(i,5o)]PiWqi	(21.1.18)
i=i
и если положить
дп(<1,ж) = J2[L(i, 6) - X(i,<5o)]pt(z)«.,n,	(21.1.19)
i=i
то нетрудно видеть, что справедливо неравенство
8ир|Дп(5,х) — Д<}(3,т)| < L52Р1(т)|<й,п-®|.	(21.1.20)

21.2. Пример
109
Поскольку Pt(x) < +сю для А - почти всех х, то из соотношения (21.1.5)
теперь следует, что с вероятностью единица выполнено равенство (19.1.10).
Поэтому последовательность решающих функций 6 = {<5П}, определённая
соотношнием (19.1.11), является асимптотически оптимальной для любого
априорного распределения Q = {gi, • • •, дг}.
Было бы интересно попытаться распространить описанный метод оцен-
ки априорного распределения на случай параметрического пространтсва ви-
да 0 = R1. Один из возможных путей состоит в следующем.
Предположим ради определённости, что 6 является параметром сдвига
нормального распределения с единичной дисперсией, то есть наблюдения
(Л1,   •, Хп) имеют общую плотность вида
+0°
ро(х) = [ <р(х — e)dQ(0), <р(х) = —з=е"12/2	(21.1.21)
J	у2тг
“ОО
относительно меры Лебега на прямой X = R1.
Для каждого n > 1 пусть
е1П) < •' • < 8*"’	(21.1.22)
являются константами и пусть qitn, i = 1, • • , кп определяются соотноше-
ниями (21.1.14) с функциями Pj(x) из (21.1.5), заменёнными на <р(т - 0^).
Рассмотрим случайную функцию распределения
Qn(0) = J>,n,	(21.1.23)
где суммирование распространяется на все г такие, что
< в.
Можем ли мы выбрать величины кп и (21.1.22) для каждого п так, чтобы
при всех Q( ) выполнялось равенство
pQjm Qn(fi) -> в каждой точке непрерывности = 1?
21.2 СЛУЧАЙ ОТСУТСТВИЯ АСИМПТОТИЧЕС-
КИ ОПТИМАЛЬНОЙ РЕШАЮЩЕЙ ФУНК-
ЦИИ
Приведём пример, когда не существует асимптотически оптимальной по-
следовательности решающих функций, но эмпирический байесовский под-
ход приводит к разумным результатам.
110
Лекция 21
Пусть X - случайная величина, принимающая только два значения: ноль
с вероятностью 1—0 и единицу с вероятностью 0, где неизвестный параметр
0 принадлежит множеству 0 = [0,1].
На основе одного наблюдения X = х мы хотим оценить 0. Для оценки
<5 € Д = 0 = [0,1], пусть функция потерь имеет вид
1(0, <5) = (<5-0)2.
Решающая функция 6(х) определяется двумя постоянными <5(О),<5(1), кото-
рые принадлежат единичному интервалу Д = [0,1]- Условные средние по-
тери, при использовании решающей функции 6(х) при данном 0, имеют вид
(см. (18-1.1))
Л(0,5) = (i - 0)(0 - <5(О))2 + 0(0 - й(1))2 =	(21.2.1)
= <52(0) + [<52(1) - 2J(0) - 62(О)]0 + [1 - 2<5(1) + 2£(О)]02.
Рассмотрим класс решающих функций (гг), зависящих от параметра а €
(0,1) и определённых как
М») = р Ml) =	(21.2.2)
Из равенства (21.2.1) непосредственно следует, что
Я(0, М = °2 -(14~2a)g.	(21.2.3)
Обозначим 5а(х) при а = 1/2 через <5*(х), то есть
5*(0) = i	R(0,6*) = для всех 0.	(21.2.4)
4	4	1о
Для любого априорнорго распределения Q( ) случайной величины S, поло-
жим
1
а, = / 0*dQ(0),	» = 1,2.	(21.2.5)
о
Тогда из (21.2.1) следует, что для любой решающей функции 6(х) справед-
ливо равенство
1
r(6,Q) = I R(6,6)dQ(e) =	(21.2.6)
о
21.2. Пример
111
= <Г(0) + ai[<52(l) - 26(0) - <52(0)] + «2[1 - 2<5(1) + 2J(0)].
Исключая тривиальные случаи, когда сп = 0 или Qi — 1, после некоторых
вычислении, отсюда следует, что
r(<5, Q) = (а1-“2)(<>2-а1)+	(21 j .7)
Я1(1 -<*1)
г	л 2 г	12
+(l-Q1)p(0)-^-^] +Q1[<5(1) - g] ,
поэтому приданном априорном распределении Q(-) байесовский риск г(<5, Q)
достигает единственного минимума на байесовской решающей функции 6q(x)
вида
М°) =	MD =	(21.2.8)
1-01	«1
причём
r(Q) = r(6q, Q) =	(21.2.9)
«1(1 - oi)
Каждая решающая функция 6[х) (в частности и 6* (ж)) является байесовской
решающей функцией, относительно априорного распределения Q( ) такого,
что
~-а-2 =2,	= 1+Л	(21.2.10)
1 — «1	2 ai а .
Таким априорным распределением Qa, например, является бета - распре-
деление с плотностью
[В(а, 1 - а)]-10о-1(1 - 0)(1 “’Л	(21.2.11)
для которого
а(1 + а) ,Л .	а(1 — а)
«1 - а, а2 =---------, r(Qa) ------------.	(21.2.12)
Тот факт, что 6*(х) является байесовской решающей функцией при апри-
орном распределении Q\/2 и то, что для любого априорного распределения
Q() справедливо тождество
1
г(<5*, Q) = [ R(0,6*)dQ{6} = 1	(21.2.13)
J	lb
о
112
Послы 21
имеет важное следствие вида
supr(£, Q) > ~ для каждой решающей функции 6(х) / <5*(х). (21.2.14)
q	16
Таким образом, если для некоторой решающей функции 6'(х) справедливо
неравенство
supr(«5',Q) < i
<2	16
то, в частности,
= г(<5’,<?1/2) < r(J',Q1/2) < 1	(21.2.15)
и значит
г(5*, Qi/2) = r(6', Q1/2) =	(21.2.16)
поэтому <5'(т) = <1*(г). Отсюда следует, что решающая функция 5*(х) явля-
ется единственной минимаксной решающей функцией в том смысле, что она
минимизирует максимум, по всем априорным распределениям Q(), байесов-
ского риска. Когда ничего не известно об априорном распределении Q(-), то
разумно использовать минимаксную решающую функцию <5*(ж), при этом
байесовский риск всегда будет равняться 1/16, независимо от априорного
распределения Q(-). Если некоторая решающая функция 6(х)	<5‘(х), то
байесовский риск будет > 1/16 для некоторого априорного распределения
Q( ) (в частности, для любого априорного распределения Q(-) с aj = 1/2 и
02 = 3/8, например, для <Э1/г(-))-
Для любого 0 < а < 1 обозначим через Ga класс всех априорных распре-
делений Q( ) таких, что Oi(Q) = а. Для любого априорного распределения
<?() из Ga (в частности для Qa()) из соотношений (21.2.2) и (21.2.7), после
некоторых преобразований, следует, что
r(<?a, Q) = ~^2 для любого Q € Ga,	(21.2.17)
независимо от значения a2(Q). Поэтому так же, как и выше
О((1 — a)
sup г (J, Q) >-------- для каждой решающей функции 6(х)
QGGa	4
(21.2.18)
поэтому относительно класса Ga решающая функция 6а(т) является един-
ственной минимаксной решающей функцией в том смысле, что она миними-
зирует максимум байесовского риска, взятый по классу Ga- Если ничего
21.2. Пример
113
не известно об априорном распределении Q() кроме того, что «1(0 = а, то
разумно использовать решающую функцию <5о(з;), поскольку для неё байе-
совский риск будет равняться
а(1 — а)
4	’
в то время, как для любой другой решающей функции байесовский риск
будет > для некоторого априорного распределения Q( ) (в частности,
для любого априорного распределения Q(-) с
<*1(0 = <*, <*г(О =
то есть, например, для ОД))-
Из предыдущего следует, что (впрочем, это может быть проверено и
непосредственно)
(а1^)(<*2-«П < 21(1^1) < 1 .	(21.2.19)
ai(l —ai)	4	16
Причём равенства достигается только, если соответственно
<*i(l + <*i)	1
<*2 = ---j---- И «! = -.
Предположим теперь, что априорное распределение Q(-) нам не известно,
мы хотим ’’оценить" неизвестное значение в и имеем независимые наблю-
дения (Ль • - -, Хп) причём
1
Р(Хг = 1) = У 6dQW = «ДО,
о
1
р(%1 = 0) = /(1 - O)dQ(0) = 1 - «1(0.	(21.2.20)
о
Таким образом распределение X, зависит только от а ДО. Поскольку байе-
совская решающая функция 6q(x), определённая соотношением (21.2.8), за-
висит так же и от «2(0, то отсюда следует, что не существует асимптоти-
чески отимальной, относительно любого априорного распределения Q(-) из
класса G, решающей функции <5п(т), если только «2 не является функцией
114
Лекция 21
ci] в классе G. В практических приложениях а<1 ревко является функци-
ей а;, поэтому типичным образом асимптотически оптимальной решающей
функции не существует.
С другой стороны, пусть
1 п
un=-£Xi,	(21.2.21)
П 1=1
и рассмотрим последовательность решающих функций 8(х) = {<5п(т)} вида
МО) = V’ М1) =	(21.2.22)
В силу Закона Больших Чисел, для любого априорного распределения Q(-)
из класса Ga с вероятностью единица при п —> оо
ип -> а
и значит
6п(х) -> 6а(х).
В действительности, поскольку
EXj = о = EX2, DX, = а(1 - а),	(21.2.23)
ТО
Eun = а, Еы2 = Dun + о2 = —п-а) + а2	• (21.2.24)
и значит из соотношения (21.2.6) следует, что
~	Г И?	( 1 4- 9*1 «4- 11?	11? 1	?
Гп(Д,<Э) =	~ " п~Un-^}+a2(l~ 1-Un+пч)] = (21.2.25)
1сг 2 о , т а(1 - а)(п 4-1)	„.п + 1
= -E[un - 2un + а] =---------------> = r(6a, Q)— -
Таким образом при больших п используя решающую функцию 6 мы бы по-
лучили почти такой же риск, как если бы знали oi (Q) = а и использовали
решающую функцию ба(х). Более того, для любого априорного распределе-
ния Q е Ga
rn(6,Q) ~ r(6a,Q) =	< -±~,	(21.2.26)
4n Ion
21.2. Пример	115
в то время, как
пД Q) - r(f,Q) = Q(1-7^(n+1) -	=	(21-2.27)
_ (1 — 2«)2	а(1 — а)
"	16	+ 4п ’
Этот пример иллюстрирует ситуацию, когда асимптотически оптималь-
ная решающая функция 5 не существует, либо существует, но риск r(<5, Q)
слишком медленно сходится к r(Q) и стоит использовать по крайней мере
асимптолтически ” субминимаксную” решающую функцию.
116
Лекция 21
21.3 СПИСОК ЛИТЕРАТУРЫ
1) Н. Robbins, The empirical Bayes approach to statistical decision problems,
Ann. Math. Statist., 1964, v.35, p. 1- 20.
2) J.S. Maritz, Empirical Bayes Methods,
Methuen and Co LTD, London, 1970, Chapter 2.
Лекция 22
Лекция содержит задачи, дополняющие теорию, изложенную в предыду-
щих Лекциях.
22.1 ЗАДАЧИ
1)	Пусть X = {Х1,Т2> • • -}j v(-) - считающая мера на X а /(х) интегри-
руемая функция. Доказать, что
I f(x)dt/(x) = У /(ц).
х	1
2)	Пусть (X, F, v) есть пространство с мерой, и пусть А - класс всех
множеств вида F U С, где F е F и С есть подмножество множества
А 6 F с р(Л) — 0. Доказать, что А есть а - алгебра.
3)	Пусть А и д - <7 - конечные меры на измеримом пространстве (X, F)
и мера д абсолютно непрерывна относительно А, тогда
j f(x)dp(x) = ^/(xJ^xJdAfx)
х	х
для любой д - интегрируемой функции /(х).
4)	Пусть А, д и v - и - конечные меры на измеримом пространстве (Д’, Т]
такие, что мера А абсолютно непрерывна относительно д, а мера д
абсолютно непрерывна относительно тогда
dA ' dXt \d^i i
—lx) = —(x) —(x), v - почти всюду.
dt/ dp dt/
117
Лекция 22
5)	Пусть А и д - а - конечные меры на измеримом пространстве {X, F),
которые эквивалентны в том смысле, что каждая абсолютно непре-
рывна относительно другой, тогда
А, ц — почта всюду.
6)	Пусть p,k,k = 1,2,- •• и д - сг - конечные меры на измеримом простран-
стве (Д', У") такие, что
f>(F) = M(F), F€F.
fc=l
Тогда, если д* абсолютно непрерывны относительно а - коветао* ме-
ры р, то и д абсолютно непрерывна относительно v и
п ,	.
——(я) = 52 “гЧ®)' Lim ——(х) = — (х),	v - почти всюду.
др “ di/	п->0° dv	dv
7)	Напомним, что медианой случайной величины X называется любое
значение тХ такое, что
Р(Х < тХ) >| и Р(Х > тХ) > |.
Доказать, что это определение равносильно следующему
Р(Х < тХ) < и Р(Х > тХ) <
Доказать также, что множество медиан всегда есть замкнутый интер-
вал то < mAT < mj.
8)	Пусть
h[a) = Е|Х — а| < оо
при некотором а G R1. Доказать, что h(a) минимизируется на любой
медиане случайной величины X.
9)	Для любого набора различных вещественных чисел ij, •  •, хп медиана
определяется как среднее из упорядоченных значений х - ов, когда п
22.1. Задачи
119
нечётное, и как любое значение между двумя центральными среди
упорядоченных значений х - ов, когда п чётное. Показать, что это
есть также медиана случайной величины X, принимающей каждое из
значений , хп с вероятностью 1/п.
Для любого набора различных вещественных чисел Xi,  •  ,хп сумма
абсолютных уклонений
121ж* ~ “I
*=1
минимизируется любой медианой х - ов.
10)	Рассмотрим статистическую структуру (Д’, Т, {Р#, 6 G 6}), в кото-
рой X = {-1,0,1,2, • • •}, Т = ?(Д) - множество всех подмножеств
множества Д, 0 = (0,1) и семейство распределений {Р«, в 6 0} имеет
вид
PH-1) = е, Pe(fc) = (1 - 6)2ek, k = о, i, 2, •  •, 0 е ©.
Доказать, что достаточная статистика Т(Х) = X не полна.
11)	Пусть X — (Xi,  • •, Хп), где наблюдения Xi имеют симметричное рас-
пределение, то есть для любого борелевского множества В G Вп спра-
ведливо равенство
р((хь • - , хп) е в) = р((хи,  • , xin) е в)
для любой перестановки («!,•••, tn) чисел (1, • • • ,п). В частности, (А\, • •  ,ХП)
могут быть независимыми и одинаково распределёнными. Пусть , • • •, тп)
- любая измеримая и интегрируемая функция. Доказать, что
EfhfXi,...,хп) |Т(Х)) = 1 £ М*..,
П' («1, -.«п)
где Т(Х) = (Х(1), • ,Х(П)) и < • < Х(п) - вариационный ряд.
Здесь суммирование производится по всем перестановкам (й, • • • ,in)
чисел (1, • • • ,п). Этот результат означает, что статистика Т(Х) явля-
ется достаточной для случая, если неизвестным параметром 0 являет-
ся неизвестное симметричное распределение.
12)	Пусть X — (Л1, •  , Хп) - независимые одинаково равномерно распре-
делённые наблюдения
Х,~7г(О,0),	» = 1,2,--; 0>О.
120
Лекция 22
Доказать, что
Г(т 11) - P,(Xt < х | -K(n) = t) - <
0,	X < 0,
7 o < X < t,
1,	X > t.
Вывести отсюда, что оптимальная оценка для параметра в есть
d’(X(n)) = 2Ee(Xi | X(n)) = X(n)
И
д2	_ д2
- ^ГТ2) < De(2X) =	n>1-
13)	Пусть статистика Т(Х) на статистической структуре (Д’, Т, Р) доста-
точна для семейства Р. Если она является минимальной достаточной
статистикой для подсемества Р' С Р и всякое Р1 - нулевое множество
является и Р - нулевым, то статистика Т(Х) является минимальной
достаточной статистикой и для семейства Р.
14)	Если наблюдение X имеет биномиальное распределение
х ~ в(п, 0), о е (о, 1),
то для риска справедливо равенство (£(<?, <5) = |в — <S|)
Eff\X/n - 0| = 2(2 ~ IV(1 - 0)n~fc+1 при — < 6 < -.
\ k — 1 /	n	n
15)	Пусть X = (Л),-••,%„) - некоррелированные наблюдения с общим
математическим ожиданием в и дисперсией о2. Доказать, что среди
п
всех линейных оценок для 0 вида 52 а* Л), удовлетворяющих соотно-
i= 1
п	__ п
шению 52	= оценка X = - 52 Х^ имеет наименьшую дисперсию.
i=i	i=i
16)	Доказать, что единственная байесовская оценка является допустимой.
17)	Доказать, что единственная минимаксная оценка является допусти-
мой.
22.1. Задачи
121
18)	Пусть
min г (<5, Q) < оо.
Тогда, если
0 = {01,02,• } и Q(5 = 0{) > 0, » = 1,2,--
или 0 С R* и функция риска Я(0, <5) непрерывна по 0 € 0 для любой
оценки <5(Х) и априорное распределение Q имеет строго положитель-
ную плотность, то байесовская оценка Sq(X} допустима.
19)	Пусть
Х~В(0,1),	0 = [1/3,2/3].
Доказать, что оценка
6,(Х) = 4/91{0}(Х) +5/9 1{1)(Х)
является минимаксной.
20)	Пусть X — (Xi,X2), где Х„ t = 1,2 - независимые одинаково распре-
делённые наблюдения, имеющие плотность
Зх2
М*) =	1(о,0) (*)
И
© = Д = (0,оо),	Д(0, <5) == (0 — $)2.
Доказать, что оценки
«1(Х) = 2/3 (Xj +Х2), 52(Х) = 7/6 тах(ХьХ2)
являются несмещёнными оценками параметра 0. Найти и сравнить
риски этих оценок.
21)	Пусть <5q(X) есть байесовская (соответственно оптимальная, мини-
максная, допустимая) оценка для параметрической функции д(0) при
квадратичной функции потерь. Тогда оценка a<5q(X) + b, a, b G R1
является байесовской (соответственно оптимальной, минимаксной, до-
пустимой) для функции ag(0) + Ь.
22)	Пусть £(Х) - оценка для параметра 0 е 0 при квадратичной функции
потерь. Тогда оценка a<5q(X) + 5, a, b € R1 является недопустимой
оценкой для 0, если только a > 1 или a < 0 или a = 1, 5/0.
122
Лекция 22
23)	Если оценка имеет постоянный риск и допустима, то она минимаксна.
24)	Пусть 6*(Х) есть минимаксная оценка для д(9), когда в Е в С 0.
Тогда, если
sup.R(0,5.) — sup/?(0, d«),
«её	^6®
то <5»(Х) минимаксна также для д(0) и тогда, когда 9 6 0.
25)	Пусть существует последовательность априорных распределений {Qn}
на 0 и оценка 5(Х) такие, что
sup/?(0,<5) < limsup f R(9,SQn)dQn(9).
вев	ч-t» J
e
Тогда 6(X) - минимаксная оценка.
26)	Пусть наблюдение X имеет биномиальное распределение
Х~В(п,0), 0Е0 = (О,1)
с неизвестным параметром 9 и пусть функция потерь имеет вид
т(в (<5-*)2
Рассмотрим равномерное априорное распределение Q на 0, то есть
пусть
S ~ 72.(0,1).
Доказать, что единственная байесовская оценка Jq(X) для параметра
9 есть
W) = f
n
и её байесовский риск постоянен и равен 1/п.
27)	Пусть X = (Хъ •  , Хп), где Х{, i = 1, •  , п независимые одинаково
нормально распределённые наблюдения
X, ~ jV(0,20), t = l,.--,n; 0>О.
Доказать, что оценка максимального правдоподобия j(X) для пара-
метра 9 есть
j(X) = . 1 + -£Х?-1.
М ni=i
Доказать состоятельность этой оценки.
22.1. Задачи
123
28)	Пусть С(Х) - доверительный интервал для параметра 9 ж |С(Х)| -
его длина. Доказать, что
Е9О|С(Х)|= у Pfe(e е <?(%)) ю.
е
29)	Распределение наблюдения X вида
Рв(х) = Р9(Х = х) =	х = 0,1,2,---; а(х) > 0, 9 > 0,
называется распределением степенного ряда. Доказать, что биноми-
альное, отрицательно биномиальное и распределние Пуассона есть рас-
пределения степенного ряда.
30)	Доказать, что распределение степенного ряда принадлежит экспонен-
циальному семейству и для производящей функции моментов справед-
ливо равенство
31)	Пусть X = (Xi, • • • , Xn) - независимые одинаково распределённые на-
блюдения, причём распределние Xi, i — 1,- -,п является распре-
делением степенного ряда. Доказать, что распределение статистики
п
Т(Х) — 52 Xi также является распределением степенного ряда и
pe(t) = Р,(Т(Х) = t) =	< = 0,1,2,---,
где A(t,n) - коэффициенты при в1 в разложении Сп(0) в степенной
ряд. Доказать также, что Т(Х) - полная достаточная статистика.
32)	В условиях предыдущей задачи доказать, что оптимальные оценки для
параметрических функций
g(e) = er, reN;
g{9) = Р9(Хх = х)
соответственно имеют вид
Т = 0,1, • •• ,г - 1,
i -ад2’
= а(х)А(Т-х,п-1)
А(Т,п)
124
Лекция 22
33)	Пусть наблюдение X имеет плотность (относительно меры v) ре(х),
которая положительна при всех х и пусть Qi и Qj - два распреде-
ления на действительной прямой с конечными первыми моментами.
Доказать, что для дисперсии любой несмещённой оценки d(X) пара-
метра в справедливо неравенство
2
JxdQ^x) - JxdQ2(x)\
----тг-27—тт—, . , , А,	0€0,
J ^2{x,0)pe{x) dv(x)
где
~ рё(х) /Рв+^^	Ав = {у: 9 + уЕ&}-
Ав
34)	Пусть Tn(Xn), t7n(Xn), Vn(Xn), п = 1,2,-последовательности стат
тистик такие, что
ип(хп)^1, Vn(xn)^4o, eeQ, n->oo
И
P«(Tn(Xn) < х) -> Ge(x) n ~+ оо, 0 6 0
в каждой точке непрерывности х функции распределения Gg(x). Дока-
зать, что и
pe(Tn(Xn)Hn(Xn) + Vn(Xn) < х) -+ Ge(x) п -4 оо, & 6 0
в каждой точке непрерывности х функции распределения Gg(x').
35)	Пусть Т) класс всех оценок параметра 0 е 0 при квадратичной функ-
ции потерь при условии, что выполнены условия регулярности Крамера
- Рао (см. Теорему 11.1.4 и её Следствия). Предположим, что оценка
<5о(Х) € Т> является эффективной оценкой, то есть
Е9(<5о(Х)-0)2 = Сао(0), 0 6 0,
где
Сб(0) = Ь?(0) +	bs{e) = Eed(X) - в.
22.1. Задачи
125
Доказать, что если для любой оценки <5(Х) 6 77 из соотношения
CiW < Cio(0), в ев
следует, что
bd(fl) = bio(0), ее в,
то do(X) - допустимая оценка.
36)	Пусть X - (Xi,   ,Хп) - независимые одинаково распределённые на-
блюдения с
ЕвХ< = 0, DeXi = 1, i =
© = д = н.1, L(e,6) = (e-6)2.
Доказать, что при этих условиях оценка
6(Х)=Х = ±£х,
п Х=1
является допустимой и минимаксной.
37)	Доказать, что для случая, когда наблюдение X имеет распределение
Пуассона, геометрическое распределение или отрицательно биноми-
альное распределение с неизвестным параметром 0 € в, байесовская
оценка dq(X), соответствующая априорному распределению Q, есть
(удобный вид для эмпирического байесовского подхода, см. Лекция 18)
6Q(X) = cWp^,
pqW
где С(х) - известная константа и
PQ&) - У рв(х) dQ(0).
е
Обобщить этот результат на случаи, если наблюдвшге X имеет дис-
кретное распределение вида
рв(ат) = Р9(Х = х) ~ ехр{А(0) + B(ft)h(x) + q(x)}.
J*?
126
Лекция 22
22.2 СПИСОК ЛИТЕРАТУРЫ
1)	Э. Леман. Теория Точечного Оценивания,
Москва, Наука, 1991.
2)	Э. Леман, Проверка Статистических Гипотез,
Москва, Наука, 1979.
3)	Д. Дюге, Теоретическая и Прикладная Статистика,
Москва, Наука, 1972.
4)	А.А. Боровков, Математическая Статистика,
Москва, Наука, 1984.
5)	Ж.- Р. Барра, Основные Понятия Математической Статистики,
Москва, Мир, 1972.
6)	Г.П. Климов, Теория Вероятностей и Математическая Статистика,
Москва, Издательство МГУ, 1983.
7)	Г.И. Ивченко, Ю.И. Медведев, Математическая Статистика,
Москва, Высшая Школа, 1992.
8)	Ш. Закс, Теория Статистических Выводов,
Москва, Мир, 1975.
9)	И. А. Ибрагимов, Р.З. Хасьминиский, Асимптотическая Теория оцени-
вания,
Москва, Наука, 1979.
10)	А.Н. Ширяев, Вероятность,
Москва, Наука, 1989.