/
Текст
С. КУЛЬБАК
ТЕОРИЯ ИНФОРМАЦИИ
И СТАТИСТИКА
Перевод с английского
Д. И. ГОРДЕЕВА и А. В. ПРОХОРОВА
Под редакцией и с предисловием
академика А. Н. КОЛМОГОРОВА
&
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 1967
517.8
K90
УДК 519.240
INFORMATION THEORY
AND STATISTICS
SOLOMON KULLBACK
Professorial Lecturer in Statistics
The George Washington University
New York — John Wiley & Sons, Inc.
London — Chapman & Hall, Limited
Соломон Кулъбак
Теория информации и статистика
М-, 1967 г., 408 стр. с илл.
Редактор Я. Д. Светлова
Техн. редактор Л. А. Пыжова Корректоры И. #. Кришталь, О. А. Сигал
Сдано в набор 1/Х 1966 г. Подписано к печати 5/V 1987 г. Бумага 60 X 901/ie-
Физ. печ. л. 25,5. Условн. печ. л. 25,5. Уч.-изд. л. 25,83. Тираж 16000 экз.
Цена книги 1 р. 98 к. Заказ *й 613.
Издательство «Наука»
Главная редакция физико-математической литературы.
Москва, В-71, Ленинский проспект, 15.
Ордена Трудового Красного Знамени Ленинградская типография № I «Печатный Двор» имени
А. М. Горького Главполиграфпрома Комитета по печати при Совете Министров СССР,
г. Ленинград, Гатчинская ул., 26.
2-2-3
89-66
ОГЛАВЛЕНИЕ
Предисловие редактора перевода 5
Предисловие 7
Глава 1. Определение информации 11
1. Введение (11). 2. Определения (13). 3. Расхождение (16). 4.
Примеры (17). 5. Задачи (20).
Глава 2. Свойства информации 23
1. Введение (23). 2. Аддитивность (23). 3. Выпуклость (25). 4/
Инвариантность (29). 5. Расхождение (33). 6. Информация по
Фишеру (37). 7. Информация и достаточность (39). 8. Задачи (42).
Глава 3. Неравенства теории информации 47
1. Введение (47). 2. Минимум различающей информации (47). 3.
Достаточные статистики (55). 4. Экспоненциальное семейство (57).
5. Близкие значения параметров (67). 6. Эффективность (75). 7.
Задачи (79).
Глава 4. Предельные свойства 82
1. Введение (82). 2. Предельные свойства (82). 3. Ошибки
первого и второго рода (86). 4. Задачи (90).
Глава 5. Информационные статистики 93
1. Оценка / (*:2) (93). 2. Классификация (95). 3. Проверка
гипотез (97). 4. Обсуждение (105). 5. Асимптотические свойства (109).
6. Оценка J (*, 2) (118). 7. Задачи (119).
Глава 6. Полиномиальные популяции 120
1. Введение (120). 2. Предпосылки (121). 3. Сопряженные
распределения (122). 4. Одна выборка (124). 5. Две выборки (140). 6. г
выборок (146). 7. Задачи (152).
Глава 7. Популяции Пуассона 155
1. Предпосылки (155). 2. Сопряженные распределения (156). 3. г
выборок (157). 4. «Односторонняя» гипотеза, одна выборка (161).
5. «Односторонняя» гипотеза, две выборки (164). 6. Задачи (166).
Глава 8. Таблицы сопряженности признаков 167
1. Введение (167). 2. Таблицы с двумя входами (167). 3. Таблицы
£ тремя входами (171), 4. Однородность таблиц с двумя входами
(181). 5. Условная однородность (182). 6. Однородность (183). 7. Взаи-
4 ОГЛАВЛЕНИЕ
модействие (184). 8. Отрицательное взаимодействие (186). 9.
Разбиения (186). 10. Параметрический случай (190). 11. Симметрия (192).
12. Примеры (194). 13. Задачи (200).
Глава 9. Многомерные нормальные популяции 203
1. Введение (203). 2. Компоненты информации (205). 3. Каноническая
форма (208). 4. Линейные дискриминантиые функции (209). 5.
Случай равенства ковариационных матриц (210). 6. Главные
компоненты (211). 7. Каноническая корреляция (214). 8. Ковариационные
величины (217). 9. Общий случай (219). 10. Задачи (220).
Глава 10. Линейная гипотеза 224
1. Введение (224). 2. Предпосылки (224). 3. Линейная гипотеза (225).
4. Статистика минимума различающей информации (225). 5. Под-
гипотезы (227). 6. Регрессионный анализ: однофакторная
классификация, k категорий (232). 7. Подгипотеза с разбиением на две
части (237). 8. Пример (242). 9. Репараметризация (248). 10.
Регрессионный анализ, двуфакторная классификация (251). 11.
Задачи (263).
Глава 11. Многомерный анализ; многомерная линейная гипотеза 264
1. Введение (264). 2. Предпосылки (264). 3. Многомерная линейная
гипотеза (264). 4. Статистика минимума различающей информации
(266). 5. Подгипотезы (268). 6. Специальные случаи (272). 7.
Каноническая корреляция (285). 8. Линейные дискриминантиые
функции (286). 9. Примеры (289). 10. Репараметризация (299).
11.'Замечание (305). 12. Задачи (305).
Глава 12. Многомерный анализ; другие гипотезы 308
1. Введение (308). 2. Предпосылки (308). 3. Одна выборка (310).
4. Однородность средних значений (320). 5. Однородность
ковариационных матриц (326). 6. Асимптотические распределения (336).
7. Критерий Стюарта однородности частных распределений при дву-
факторной классификации (345). 8. Задачи (346).
Глава 13. Линейные дискриминантиые функции 353
1. Введение (353). 2. Итерация (353). 3. Пример (355). 4.
Замечание (358). 5. Другие линейные дискриминантиые функции (359).
6. Сравнение различных линейных дискриминантных функций (361).
7. Задачи (363).
Литература 364
Приложение 382
Таблица I. Loge η и η loge η для значений η от 1 до 1000 382
Таблица И. F(pu pa) =pt log Ь- +4l log 9± fp1 + q1 = l =ps + ς, 395
Ра Ч&
Таблица III. Нецентральное ^-распределение 396
Словарь специальных терминов 397
Алфавитный указатель 404
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА
Центральной задачей математической статистики является
разработка методов, позволяющих извлекать возможно более полную
информацию об интересующих нас явлениях из ограниченного запаса
наблюдательных данных. Поэтому нет ничего удивительного в том, что первые
существенные шаги в направлении уточнения самого понятия
«информация» были сделаны основателем большой части современной
математической статистики — Р. А. Фишером. Что касается способа
измерения количества информации, то Фишер ограничился тем, что ввел
выражение
k k
7(Θ,Θ + ΔΘ) = -1-21 2 ?«βΔθ«Δ%» 0)
«=1 рет1
о котором говорится в разделе 6 главы 2 книги Кульбака. Но роль
Фишера в формировании наших представлений о том, что такое сама
информация, значительно больше. Он, по-видимому, первый усмотрел,
что это понятие нуждается в уточнении, и дал это уточнение в
форме определения достаточных статистик: то есть такого экстракта
из наблюдательных данных, который содержит «всю имеющуюся в
Э1их данных» информацию о параметрах.
Впрочем, книга Кульбака посвящена более узкой теме: роли в
математической статистике заимствованных из теории информации
аналитических выражений, измеряющих количество информации. В
первом же разделе главы 1 Кульбак говорит, что сам термин
«информация» ои будет понимать в узком «техническом смысле». В этом
направлении роль Фишера действительно сводится к указанию на формулу
(1), которая дает с современной, излагаемой в книге Кульбака точки
зрения лишь предельное выражение информации
I(l:2)=^Mx)logj^d\(x)
в специальном случае двух близких гипотез о значении параметров
Аналитический аппарат теории информации был создан тогда,
когда здание математической статистики было в своих основных, нахо-
6
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА
дящих наиболее широкое применение частях уже построено и
кодифицировано. Но навыки мысли и аналитический аппарат теории
информации должны, по-видимому, привести к заметной перестройке
этого здания. Уже в простой задаче проверки гипотезы о
принадлежности двух выборок
с
(Х) = (Xh Хъ . . ., Хс), у i Xi rr= J\/i
и
с
00=θΊ> Уь ···> Ус), 2-^1 = ^
к одному общему распределению (p)=(pi, ръ .., рс) (см. раздел 5
гл. 6) информационный критерий
— Ni+Ns £\Nl NJl°8 Nly.
i=l
является сильным конкурентом критерия
χ NtNtL Xi+yi
Λ. Λ.
Если / значимо отличается от нуля, то / может служить оценкой
информационной меры расхождения
с
между распределениями
(Р) = (Рь Ръ --> Рс) и (я) = (Чь Чъ ···, Яс)>
отвечающими нашим двум выборкам.
Книга Кульбака содержит довольно много расчетных примеров,
которые должны демонстрировать практическую применимость
предлагаемых методов. Но изложение теоретического материала в книге
тяжеловесно, а иногда запутано, примеры же схематичны.
По-видимому, внедрение предлагаемых методов в практическую статистику
будет облегчено, если тот же материал будет изложен более
доступно и проиллюстрирован на подробно разобранных содержательных
примерах.
Во всяком случае книгу Кульбака можно рекомендовать всем
обладающим достаточной математической подготовкой читателям,
интересующимся расширением арсенала средств математической статистики.
А. Колмогоров
ПРЕДИСЛОВИЕ
Информация в точно определенном смысле впервые была введена
в статистике Фишером в 1925 г. в его работе по теории оценок.
Определение информации по Фишеру хорошо известно статистикам.
Ее свойства существенно используются в статистической теории
оценок.
Шеннон и Винер, независимо друг от друга, опубликовали в 1948 г.
работы, в которых были описаны логарифмические меры информации
для использования их в теории связи. Это стимулировало огромное
количество исследований в технических кругах на темы теории
информации. При этом некоторые ошибочно рассматривали теорию
информации в качестве синонима теории связи.
Теория информации есть ветвь математической теории
вероятностей и математической статистики. В этом качестве она может быть
применима и применяется в целом ряде областей. Теория информации
связана с теорией статистических выводов и потому должна весьма
интересовать статистиков. Теория информации позволяет
унифицировать известные результаты и ведет к естественным обобщениям и
новым результатам.
Предмет этой книги состоит в изучении логарифмических мер
информации и применении их к проверке статистических гипотез. В
существующей литературе можно встретить разнородные
статистические приемы. В этой книге достигается унификация на основе
последовательного применения понятий и достижений теории информации.
Включены также некоторые новые результаты.
У читателя предполагается некоторое знакомство с
математической теорией вероятностей и математической статистикой. Так
как необходимый материал имеется во множестве опубликованных
книг, то здесь представляется возможным иметь дело исключительно
с главным предметом книги. То, что это покрывает классические
результаты и методы, не удивительно. Основы теории информации
были известны и ими пользовались уже некоторое время, но
выкристаллизовались они в последнее десятилетие. То, что эти основы дали
новый подход к известным результатам, как полезно, так и необходимо.
8
ПРЕДИСЛОВИЕ
Применения в этой книге ограничиваются анализом выборок
фиксированного объема. Применения к более общим случайным
процессам, включая последовательный анализ, составили бы естественное
продолжение, но это выходит за рамки книги.
В некоторой мере эта книга возникла в результате вопросов,
задаваемых студентами, и из необходимости изложения, избегающего
специальных методов для каждой из задач, которые существенно
связаны. Я надеюсь, что опытный статистик, если и иайдег в этой книге
знакомые вещи, то в унифицированном (и, может быть, незнакомом ему)
виде, и что студент найдет этот подход поучительным.
В главе 1 вводятся и определяются меры информации. В главе 2
излагаются свойства информационных мер и изучается их связь с
мерой информации по Фишеру и понятием достаточности. В главе 3
выводятся некоторые фундаментальные неравенства теории информации
и изучается их связь с классическим теперь неравенством, связанным с
именами Фреше, Дармуа, Крамера и Рао. В главе 4 получены
некоторые предельные свойства, вытекающие из закона больших чисел. В
главе 5 рассматривается асимптотическая теория распределений
оценок информационных мер.
Выводы в этих пяти главах опираются на теорию меры. Читатель,
не знакомый с теорией меры, тем не менее может понимать
теоремы и доводить до конца доказательства в терминах знакомой ему
теории интегрирования, понимая интегралы в обычном классическом
смысле.
Остальная часть книги посвящена применениям. В главах 6, 7 и 8
рассматриваются выборки из полиномиального распределения и из
распределения Пуассона. Результаты, полученные в главе 6, служат
основой анализа таблиц сопряженности признаков в главе 8. Глава 9
в основном представляет собой введение к различным идеям,
связанным с многомерными нормальными популяциями. В главе 10
проводится анализ выборок из одномерных нормальных популяций при
линейной гипотезе и указываются пути к обобщению на многомерную
линейную гипотезу (глава 11). В главе 12 излагается анализ выборок
из многомерных нормальных популяций при гипотезах, отличных от
линейной. В главе 13 изучаются некоторые общие вопросы теории
линейных дискриминантных функций, а также указываются вопросы,
заслуживающие дальнейшего изучения.
В книге имеется множество разработанных примеров. Я надеюсь,
что они помогут сделать прозрачными рассуждения и дадут простые
иллюстрации. В конце каждой главы и в тексте читателю предлагаются
задачи главным образом для расширения и применения теории, а
также для ускорения и совершенствования некоторой необходимой
подготовки.
Использование теории информации в статистических выводах
оказывает унифицирующее воздействие на материал, собранный в книге.
ПРЕДИСЛОВИЕ
9
Это становится ясным из обобщений, к которым естественным
образом приводит теория информации. Главы 8, И и 12 иллюстрируют
это. В разделе 4 главы 11 делается заключение, что статистика
критерия, применяемого в многомерном обобщении дисперсионного
анализа, имеет форму обобщенного стьюдентова отношения (72-статистика
Хотеллиига). Основные факты, на которых базируется это
заключение, были известны раньше. Теория информации дает их в надлежащем
освещении.
Разделы нумеруются по порядку в пределах каждой главы; так,
раздел 4.5.1 означает раздел 4, подраздел 5, подподраздел 1.
Равенства, таблицы, рисунки, примеры, теоремы и леммы в пределах
каждого раздела нумеруются так: цифры перед точкой указывают раздел,
а цифры после точки — порядковый номер в пределах раздела;
например, (9.7) — седьмое равенство в разделе 9. Если делается ссылка
на раздел, равенство, таблицу, рисунок, пример, теорему или лемму в
пределах той же самой главы, то дается только номер раздела,
равенства и т. д. Если ссылка делается на раздел, равенство и т. д. из
другой главы, то в добавление к номеру раздела, равенства и т. д.
дается номер главы.
В ссылках библиографического характера за фамилией автора
следует год публикации в круглых скобках.
Матрицы обозначаются жирным шрифтом. Заглавные буквы
используются для обозначения квадратных и прямоугольных матриц, а
строчные—для одиостолбцовых матриц (векторов). Транспонированные
матрицы обозначаются посредством штриха; так, однострочная
матрица отличается от одностолбцовой добавлением штриха. Если
матрица обладает индексом, то подразумевается, что этот индекс
предшествует индексам, использованным для идентификации элементов внутри
матрицы, например
А = (flijjy А2 = (&2iyX х == (хъ %ъ · · ·> хк)-
Имеются некоторые исключения из этих общих правил, но они будут
ясны из контекста.
Широко используются сокращенные обозначения в том смысле,
что кратные интегралы выражаются с помощью только одного
интегрального знака, а многомерные величины или параметры
обозначаются одной буквой. Когда представляется особенно важным подчеркнуть
этот факт, в тексте делаются соответствующие указания.
Словарь специальных терминов, включенный в книгу,
предназначается для ориентировки читателя и с помощью указателя облегчает
отыскание необходимых определений, символов и т. д.
Критические замечания и вопросы друзей, коллег и рецензентов
содействовали улучшению изложения в этой книге. Ее недостатки —
исключительно мои. Приношу благодарность моим студентам и
10
ПРЕДИСЛОВИЕ
коллегам по университету Георга Вашингтона за их интерес, понимание
и поддержку. С благодарностью признаю полную и сердечную
поддержку профессора Франка Вейда. Гарри М. Розеиблат практически
подготовил большинство разделов главы 10, со 2 по 8 включительно.
Самюэль В. Гриихауз практически подготовил главу 13. Мартон Ку-
пермаи и Остии Боиис просмотрели варианты рукописи наиболее
тщательно и критически, и их замечания, хотя не всегда принимаемые,
были постоянно полезны. Другие указания на оказанную помощь
помещены в тексте.
Соломон Кульбак
Университет Георга Вашингтона
Февраль 1958
ГЛАВА 1
ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ
1. ВВЕДЕНИЕ
Теория информации в том виде, в каком мы ее будем
рассматривать, является ветвью математической теории вероятностей и ста*
тистики. Поэтому ее абстрактные формулировки применимы к любой
вероятностной или статистической системе наблюдений.
Следовательно, теорию информации можно использовать во многих областях,
так же как теорию вероятностей и статистику. Она играет важную
роль в современной теории связи, которая рассматривает систему
связи как стохастический, или случайный, процесс. Таллер (1950)
отмечает, что статистическую теорию связи часто называют теорией
информации. Ротстейи (1951) определял теорию информации как
«чистую математику, оперирующую измеримыми множествами, с
выбором из альтернатив неопределенного характера». Пирс (1956, стр. 243)
считает, что теория связи и теория информации — одно и то же.
Гильберт (1958, стр. 14) говорит: «Информация—это такая мера времени
или стоимости, которая, в частности, нужна инженеру при
планировании эксперимента». Математический и статистический по существу
характер теории информации подчеркивался тремя математиками
[Винер (1956), Фишер (1956), Шеннон (1956)], которые внесли
значительный вклад в дело развития этой науки.
Что касается духа и идей теории информации, то они вырастают
из понятия беспорядка или энтропии в термодинамике и
статистической механике. [См. Фишер (1935, стр. 47), Шеннон и Уивер (1949),
сноска 1 на стр. 95.] Существует обширная литература, посвященная
изучению соотношения между понятиями и математической формой
энтропии и информации. Стюмперс (1953) посвящает стр. 8—11 своей
библиографии ссылкам на такую литературу, а здесь приводится
еще несколько работ: Бартлетт (1955, стр. 208—220), Бриллюэн (1956),
Грелль (1957, стр. 117—134), Джоши (1957), Квастлер (1953,
стр. 14—40), Колмогоров (1956), Мак-Миллаи (1953), Мандельбройт
(1953, 1956), Пауэре (1956), Фишер (1935, стр. 47), Хинчии (1953,
1956, 1957), Черри (1957, стр. 49—51; 212—216).
12
ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ
[ГЛ. 1
Мера количества информации, доставляемого данными о
неизвестном параметре, по Фишеру хорошо известна статистикам. Эта мера
является самым первым использованием «информации» в
математической статистике, и она была введена в основном для нужд теории
статистических оценок. Хартли (1928) определил меру информации
как логарифм числа возможных последовательностей символов для
использования в технике связи.
Интерес к теории информации и широкое применение ее
инженерами связи, психологами, биологами, физиками и др. сильно возросли
после появления работ Шеннона (1948) и Винера (1948) в
особенности из-за утверждения Винера (1948, стр. 76), что в практике
статистики его определение информации можно использовать вместо
определения по Фишеру. Заметим, однако, что Сэвидж (1954, стр. 50)
отмечает: «Идеи Шеннона и Винера кажутся довольно далекими о г
статистики, хотя и связаны с вероятностью. Поэтому представляется
просто случайностью, что термин «информация», введенный ими, не
оказывается неуместным в статистике». Пауэре (1956, стр 36—42)
рассматривает фундаментальные работы Винера, Шеннона и Вудворда как введение
к развиваемой им унифицированной теории информации, связанной
со стохастическим процессом. Стюмперс (1953) перечисляет 979 работ
в своей библиографии и только 104 из них опубликованы до 1948 г.
Хотя Вальд (1945а, 19456, 1947) явно не упоминал понятия
информации в своей трактовке последовательного анализа, следует
отметить, что его работу должно рассматривать как большой вклад в
применение теории информации в статистике. [См. Гуд (1950, стр. 64—
66), Шутценбергер (J954, стр. 57—61).]
Обширный исторический обзор можно найти у Черри (1950, 1951,
1952, 1957). Наиболее глубокий обзор теории информации в СССР
дает Грин (1956, 1957), который рассматривает теорию информации
как «применение статистических понятий к проблеме передачи
информации». Текущая литература по теории информации многочисленна.
Здесь приведены некоторые ссылки на литературу, которая даст
читателю представление о широких возможностях применения теории
информации. Белл (1953), Брадт и Карлин (1956), Бриллюэн (1956),
де Бройль (1951), Винер (1948, 1950), Вудворд (1953), Гильберт (1958),
Голдман (1953), Гуд (1952, 1956), Дэвис (1954), Квастлер (1953,
1955), Мак-Карти (1956), Мак-Миллаи и др. (1953), Мандельбройт
(1953), Файнстейн (1958), Фаио (1954), Черри (1955, 1957), Шеннон
и Уивер (1949), Шутценбергер (1954).
Мы будем рассматривать информацию в техническом смысле, и ее не
нужно путать с нашим семантическим понятием, несмотря на то, что
свойства меры информации, вытекающие из технического определения,
соответствуют свойствам, которые основываются на нашем интуитивном
представлении об информации. Обсуждение «семантической информации»
можно найти в работах Бар-Хиллел (1955), Бар-Хиллел и Карнап (1953).
21
ОПРЕДЕЛЕНИЯ
13
Вообще говоря, всякий раз, когда мы производим статистические
наблюдения или планируем и проводим статистический эксперимент,
мы ищем информацию. Спрашивается, насколько полные выводы
о выборочной совокупности мы можем сделать на основании серии
статистических наблюдений или экспериментов? [Ср. Черри (1957,
стр. 61).] Наша цель состоит в рассмотрении возможных ответов
на этот вопрос в терминах строгого определения меры информации
и ее свойств. Мы определим меру информации и выведем ее
свойства на таком математическом уровне общности, коюрый охватывает
как непрерывные, так и дискретные статистические популяции, и
благодаря этому избежим необходимости параллельного
рассмотрения этих двух ситуаций [Пауэре (1956), Фрезер (1957, стр. 1 — 16)].
2. ОПРЕДЕЛЕНИЯ
Рассмотрим вероятностные пространства (SV, $, μ;), г =1,2,
т. е. основное множество элементов χζ^££ и совокупность Ш
всевозможных событий (множеств), состоящих из элементов выборочного
пространства ££у на которых определены вероятностные меры μ^
иц2. I — σ-алгебра подмножеств ££, борелевское поле или
аддитивный класс измеримых подмножеств Ж. Пара (Ж, $), т. е.
совокупность выборочного пространства ££ и σ-алгебры Ш подмножеств Ж,
называется измеримым пространством [Фрезер (1957, стр. 2)].
Элементы SV могут быть одномерными или многомерными,
дискретными или непрерывными, количественными или качественными
[Фрезер (1957, стр. 1—2)]. Для инженера элементами 3V могут служить
наличие или отсутствие сигнального импульса, совокупностью Ш —
возможные последовательности определенной длины, образованные
символами, обозначающими наличие или отсутствие импульса, а μι
и μ2 могут определять вероятности появления таких
последовательностей в соответствии с двумя различными гипотезами. Для
статистика элементами Ж могут служить различные выборки из нормальной
популяции, Ш может быть классом борелевских множеств в Rn, n-
мериом евклидовом пространстве (если рассматриваются выборки
в η независимых наблюдений), a \it и μ2 могут определять
вероятности выборок при различных значениях параметров популяции.
Мы предполагаем, что вероятностные меры μχ и μ2 абсолютно
непрерывны одна относительно другой, или, символически, ^ = μ2,
т. е. не существует множества (события) Εζ$, для которого рг(Е) =
= 0, μ2(έ)^0 или [11(Е)^Ь09 μ2(£) = 0 [μχ абсолютно непрерывна
относительно μ2, μι<^μ2> если μι(£) = 0 для всех Е(^$, для
которых μ2(Ζ:) = 0; μ2 абсолютно непрерывна относительно μι, μ2«^μι,
если μ2(£) = 0 для всех Εξ^$, для которых μ1(£)=0].
При отвержении статистических гипотез, которые имеют смысл
до наблюдений, но теряют его после наблюдений, не возникает
14
ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ
[ГЛ.
никаких существенных проблем, и наше математическое предположение
как раз исключает этот случай. Согласно Сэвиджу (1954, стр. 127),
«.. .определяющие наблюдения не играют важной роли в
статистической теории именно потому, что статистика имеет дело главным
образом с неопределенностью, а в результате наблюдений, полностью
определяющих рассматриваемые явления, исчезает всякая
неопределенность». Для дальнейшего изучения абсолютной непрерывности см.
Лоэв (1955, стр. 129—132), Фрезер (1957, сгр. 12), Халмош (1950,
стр. 125—128), Халмош и Сэвидж (1949). Пусть λ — вероятностная
мера такая, что Х = р,ь λ = μ2, например, мерой λ может быть мера
μ!, или μ2, или (μ! -}- μ8)/2. По теореме Радона — Никодима [Лоэв (1955,
стр. 132—134), Фрезер (1957, стр. 13), Халмош (1950, стр. 128—
132)] существуют функции fi(x), /=1,2, называемые
плотностями вероятности*), единственные с точностью до множества меры
(вероятности) нуль относительно λ, измеримые, 0 <^ft (х)<С °° [Ц>
I = 1,2, такие, что
μ* (£) = $/* (*) Λ (*), /=1,2, (2Л)
Ε
для всех Εξ$. Символ [λ] («по модулю λ»), следующий за
утверждением, касающимся элементов из SVy означает, что это утверждение
верно всюду, за исключением множества Ε такого, что Ε(Ζβ и λ (Ε) =
= 0 [Халмош и Сэвидж (1949)]. Функции fi(x) называют также
производными Радона—Никодима и пишут d^t (χ) =fi (х) dk (x)t а так-
же fi (χ) = d\Xijdk. В примере 7.1 главы 2 приводится вероятностная
мера μ,, абсолютно непрерывная относительно вероятностной меры
μ2, но при этом μ2 не абсолютно непрерывна относительно μχ. Если
вероятностная мера μ абсолютно непрерывна относительно
вероятностной меры λ, а вероятностная мера ν абсолютно непрерывна
относительно вероятностной меры μ, то мера ν также абсолютно
непрерывна относительно меры λ и производные Радона—Никодима
удовлетворяют равенству ^=тр;?тМ [Халмош (i960, стр. 133), Халмош и
Сэвидж (1949)].
Если Ни г =1,2,— гипотеза о том, что X (мы используем X
для обозначения случайной величины, а х для конкретного значения
X) принадлежит статистической популяции с вероятностной мерой
μ;, то из теоремы Байеса или из теорем об условной вероятности
[Гуд (1950), Колмогоров (1950), Лоэв (1955), Феллер (1950), Фрезер
(1957, стр. 13—16)] следует, что
*) В оригинале эти функции называются обобщенными плотностями
вероятности. (Прим. перев.)
щ
ОПРЕДЕЛЕНИЯ
15
откуда получаем
log/L^=logP(^l*) ^!оДт ί23)
g/2 (*) g Ρ № Ι χ) ё Ρ №)ιΗ ( '
где Ρ (ЯД /=1,2, — априорная вероятность //f, аР(//;|.*;)—
апостериорная, или условная, вероятность //,- при условии, что Х=х.
[См. Гуд(1956, стр. 62), Сэвидж(1954, стр. 46 — 50).] Основание
логарифмов в (2.3) несущественно, если только нас не интересует
единица измерения. Если не указано особо, мы будем использовать
натуральные, или иеперовы, логарифмы (основание е\ (См. конец примера 4.2.)
Правая часть (2.3) является разностью между логарифмами шансов
в пользу Ηχ до и после наблюдения Х=х. Эту разность, которая может
быть положительной или отрицательной, можно рассматривать как
информацию, получаемую в результате наблюдения Х = х, и мы
определяем логарифм отношения правдоподобия log [ft (x)/fax)] как
информацию в точке Х=х для различения в пользуй против //2. [Ср. Гуд
(1950, стр. 63), который называет эту величину весом довода,
вносимого χ в пользу Hi.] Средняя информация для различения в пользу Нх
против //2 при условии χ(~Εζ^β> относительно меры μ^ равна
^-[fiWogj^dHx), μι(£)>0,
где
0, m(£)=0,
(2.4)
Когда Е совпадает со всем выборочным пространством S*, мы
обозначаем среднюю информацию от наблюдения в пользу Нг против /ί2
относительно μ! символом /(1 :2), а не /(1:2; Ж), т. е. опускаем область
интегрирования, когда она совпадает со всем пространством
/(1:2)= J log £Ц d^(x)= $/,(*) log &|g- dl(x) =
^ЯШ^^-^йШ-· (2·5)
Отметим, что последний член в (2.5) есть разность между средним
относительно \it значением логарифма апостериорных шансов гипотез
и логарифма априорных шансов гипотез. Вслед за Сэвиджем
(1950, стр. 50) мы можем также называть /(1:2) информацией
в μ<! относительно μ2. Заметим, что интегралы в (2.4) или (2.5) всегда
существуют, даже если они равны -f- со, так как меры конечны
[Фрезер (1957, стр. 10 — 11), Халмош (1950)]. Необходимым (но не доста-
s
16
ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ
[ГЛ. 1
точным) условием конечности/(1:2) является условие ι^ = щ. В
качестве примера, когда средняя информация бесконечна, возьмем <2Г—(0,1),
μχ — мера Лебега, fz(x)lf\(x) — ke~-l/xy k~l = ^e-l/tdt. Можно прове-
о
рить, что /(1:2) бесконечна [Харди, Литлвуд, Пойа (1934, стр. 137)].
См. задачу 5.7.
3. РАСХОЖДЕНИЕ
Следуя разделу 2, определим
/(2:l)=$/,(J01og£$^dX(*) (3.1)
как среднюю информацию от наблюдения относительно (л3 для
различения в пользу /72 против Н± или
-/(2:1)== ^Мх)1оШ^Щ-аХ(х)
как среднюю информацию от наблюдения относительно μ3 Для Раз"
личения в пользу Нх против 772. Наше предыдущее предположение о
взаимной абсолютной непрерывности \хх и μ2 обеспечивает существова-
ние интеграла в определении 7(2:1), даже если он равен-f-со.
Определим теперь расхождение У(1, 2):
J(l,2) = /(1:2)+/(2:1)==
= №Щ$) ^W~ J biig|W4 (3.2)
Средний вариант приводимого выше выражения для /(1,2) был
введен Джеффрисом (1946, 1948, стр. 158) и, так как выражение это
инвариантно при преобразовании параметров, он использовал его
в основном тогда, когда были даны априорные плотности как
функции параметров. У(1, 2) — мера расхождения между гипотезами Нх и
Нъ или между j*t и (% и является мерой трудности их различения
[Джеффрис (1948, стр. 158), Кульбак (1953), Сакагути (1955), Судзуки
(1957), Хузурбазар (1955), Чернов (1952)]. Отметим, что 7(1,2)
симметрична относительно \)Л и ja2, и априорные вероятности Ρ (//г), / = 1, 2,
не входят в ее выражение. Расхождение, как мы увидим, обладает
всеми свойствами расстояния (метрики), определяемого в топологии,
кроме неравенства треугольника, и, следовательно, не задает
расстояния. Информационные меры /(1:2) и /(2:1) можно рассматривать
в связи с этим как направленные расхождения. (См. задачу 5.9.)
4]
ПРИМЕРЫ
17
О других мерах рассгояний между распределениями вероятностей
см. Адхикарии Джоши (1956), Балмер(1957), Бхаттачарья (1943,1946а),
Рао (1945, 1952, стр. 351—352), Фрезер (1957, стр. 127).
4. ПРИМЕРЫ
Прежде чем изучать свойства, вытекающие из определений
информации и расхождения и обосновывающие использование термина
«информация», полезно будет для приобретения опыта рассмотреть
несколько иллюстраций формул (2.3), (2.5) и (3.2).
Пример 4.1. В качестве крайнего случая предположим, что Н2
представляет собой семейство гипотез, одна из которых должна быть верной,
и Hi принадлежит семейству Н2; тогда Р(//2) = 1, Р(Н2\х) = \ и правая
часть формулы (2.3) дает в качестве информации, содержащейся ва'в
пользу Ни величину log Ρ (Ht | χ) — log P (Ht) = log [Ρ (Η1 \χ)\Ρ (HJ\- Когда эта
величина равна нулю? Если в результате наблюдения χ оказывается, что
Нх верна, т.е. Р(Н1 \х) = 1, то информация, содержащаяся в χ
относительно Ни равна —\ogP(Ht) [Гуд (1956)]. Заметим, что если безусловная
вероятность Нх мала, то информация, получаемая от ее подтверждения, велика,
если же безусловная вероятность велика, то информация мала. Согласуется
ли это с интуицией?
Пример 4.2. Чтобы продвинуться несколько дальше, предположим,
что существует исчерпывающая система взаимно исключающих друг друга
гипотез Н1У #2i. · · > Нп и что из любого наблюдения можно выяснить,
какая из гипотез верна. Например, мы можем рассмотреть систему связи, в
которой гипотезами являются возможные сообщения, передаваемые без
искажений, и отсутствует неопределенность в установлении полученного
сообщения. Или мы имеем дело с экспериментом, результатом которого может
быть один из η исходов, причем нет ошибок при наблюдении и нет
неопределенности в установлении исхода опыта после наблюдения. Здесь средняя
информация о гипотезах, содержащаяся в наблюдении, есть среднее
значение величины — log Я/, t = 1, 2,..., η, т. е.
-Р(//1)1о8Р(//1)-Р(//а)1о8Р(Я1)-...-Р(Яя)1о8Р(//я). (4.1)
Выражение (4.1) называют энтропией H-t-x. [См. Белл (1953), Бриллюэн
(1956), Вудворд (1953), Голдман (1953), Грелль (1957), Гуд (1950, 1956),
Джоши (1957), Квастлер (1956), Мак-Миллан (1953), Хинчин (1953, 1956, 1957),
Шеннон (1948).]
Когда пользуются логарифмом по основанию 2, единица информации
называется «бит* (двоичная единица), и оказывается, что один бит
информации есть способность разрешения неопределенности в ситуации с двумя
равновероятными гипотезами или альтернативами. Таким образом, в выборе
«да» или «нет» с вероятностью-^- для каждой альтернативы содержится
—9"l°g2-9 о" l°gs "«Г ^ 1°ё» 2 = 1 «бит». Когда имеется η
равновероятных гипотез, так что Ρ (Я,·) = — 9 находим, что — ^ Ρ (Hi) log Р{Нг) ~
= logn—мера информации по Хартли.
18
ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ
[ГЛ. I
Принято, что если используются десятичные логарифмы, единица
информации называется «Хартли» [Таллер (1950)], а если используются
натуральные логарифмы, единица информации называется «нит» [Мак-Дональд (1952)].
Пример 4.3. Для получения другой серии иллюстраций предположим,
что выборочное пространство SV является евклидовым пространством R2 двух
измерений с элементами Χ=(λγ,^) и что по Ηι χ и у— зависимые
переменные с совместной плотностью распределения f(x9 у), но по Ms χ и ^ —
независимые переменные с соответствующими плотностями распределений
g(x) и h (у). Тогда (2.5) можно записать так:
/ (1:2) определяют также как среднюю информацию в χ относительно у
или в у относительно х, [См. Вудворд (1953, стр. 53, 54), Гельфанд,
Колмогоров и Яглом (1956), Гуд (1956), Колмогоров (1956), Линдли (1956),
Шеннон (1948).] Так как (это будет показано в теореме 3.1 гл. 2) /(1:2) в
выражении (4.2) неотрицательна и равна нулю в том и только в том случае,
когда / (л:, у) = g (x) h (у), то средняя информация в (4.2) может служить
также мерой связи между χ и у. [Ср. Кастаньс Камарго, Медина-и-Исабель
(1956), Линфут (1957), Ферон (1952а, стр. 1343).] В частности, если Нх
задает двумерное нормальное распределение с плотностью
f{x'y)= ^(ι-Λ^ ехр[-^=?у(-^-2р^+т)]'
а #2 — произведение частных нормальных плотностей распределения
g{x)=-^exp(~4)· Λω=^εχρ("4)'
то находим
I(\:2)=^f(x,y)log^^Ldxdy = -^\oga~p*), (4.3)
так что /(1:2) является функцией только коэффициента корреляции р и
изменяется от 0 до оо, когда | ρ | изменяется от 0 до 1. Соответствующие
многомерные величины даны в (6.12) и (7.4) главы 9.
Пример 4.4. Для конкретной иллюстрации /(1, 2) предположим, что
Λ и /а —нормальные плотности, использованные в (4.3). Находим, что
/(1, 2)= J V(x,y)-g(x)h(y)) log/{^1у)dxdy = P«/(l-P2), (4.4)
так что /(1,2) является функцией только коэффициента корреляции ρ и
изменяется от 0 до оо, когда | р | изменяется от 0 до 1.
Пирсон (1904) показал, что если двумерное нормальное распределение
расклассифицировано в двуфакторной таблице, то средняя квадратическая
сопряженность и коэффициент корреляции связаны соотношением <р2 = χ2/7ν =
= р2(1 — р2) в предположении, что число наблюдений N велико, а
интервалы группировки очень узки [Ланкастер (1957)]. Соответствующая й-мерная
величина дана в (6.13) главы 9, но она отличается от величины <ра, данной
Пирсоном (1904). См. также выражение (7.5) главы 9.
Пример 4.5. Чтобы проиллюстрировать некоторый результат теории
связи, предположим, что в (4.2) χ является переданным сигнальным
напряжением, а у—полученным сигнальным напряжением, состоящим из передан-
41 ПРИМЕРЫ 19
ного сигнального напряжения и аддитивного шума, т. е. у = лг-f-n, где η —
шумовое напряжение. Шум и переданный сигнал можно считать
независимыми, так что
f (х, y) = g(*) h {y\x) =g(x)h 0>—*). (4.5)
/(1:2) в (4.2), мера связи между полученным и переданным сигналами,
является в таком случае характеристическим свойством канала связи. Если
мы предположим нормальность распределений, то, так как плотность
двумерного нормального распределения / (х, у) в примере (4.3) может быть
переписана в виде
—гехр(-— —) . ехр (у—^1х)\
*х V*" \ 2а£/ Ь V** (1 - Р2) L 2с^ (1 - f) Y ax ) \
то, сравнивая (4.6) и (4.5), видим, что h(y\x)~h(y — χ), если
, (4.6)
'ν , , «Ь
р£ = 1' ρ2==^Γ = 5--Ρν' (4·7)
где S = Ε (χ2) — средняя мощность переданного сигнала и Ν—Ε (η2) —
мощность шума [Вудворд и Дзвис (1952), Лоусон и Уленбек(1950, стр. 55)].
Подставляя величину р2 из (4.7) в (4.3) и (4.4), найдем, что средняя информация
в полученном сигнале относительно переданного и расхождение между
полученным и переданным сигналами соответственно равны
/(l:2) = ^llog(l^4^)4^(l+l)^ <«>
jn 2)~ W + W -* (49)
В главе 2 будет показано, что /(1:2) и J(l, 2) аддитивны для
независимых наблюдений. Методом отсчета [Уиттекер (1915), Шеннон (1949)]
установлено, что требуется 2WT независимых выборочных значений, чтобы
определить функцию с длительностью Τ и полосой частот W. Таким
образом, имеем
/(1:2; W, Т) = 2WTI (1:2) = \*7Tlog (l +-^-\ , (4.10)
J(1,2; W, Л=2УШ(1, 2) = 2WT^ = ^=?|f (4.11)
где Ν = WN0, N0 — средняя мощность шума на единицу полосы частот,
а Е — полная энергия переданного сигнала. Интерпретация (4.10) как
пропускной способности канала хорошо известна в теории связи [Белл (1953),
Вудворд (1953), Голдман (1953), Шеннон (1948)].
Отношение сигнал/шум продолжительное время использовалось
инженерами для определения характеристики каналов связи.
Пример 4.6. Для иллюстрации менее общей формы (Линдли (1956))
определения информации, получаемой в результате эксперимента, будем
рассматривав у в (4.2) как параметр θ со значениями в пространстве в,
так что / (χ, Θ) — совместная плотность распределения χ и Θ, h (θ) —
безусловная плотность распределения Θ, gt(x | Θ) — условная плотность распределения χ
20 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. 1
при условии Θ, g(x) = t h(b)gt (x\b)dQ— частная плотность
распределения χ. Эксперимент $ определяется как упорядоченная четверка $ = (3\ 8,
®» & C*W)> и информация, получаемая в результате эксперимента $ при
априорно известной h (θ), есть
/(1:2Η$/(*,θ)1ο8|^^^β.
Этих иллюстраций пока достаточно. В главе 2 мы рассмо!рим свойства
/(1:2) и 7(1, 2).
5. ЗАДАЧИ
5.1. Как много «битов» информации (в среднем) содержится в
дихотомическом выборе: (а) с вероятностями /? = 0,99, #=1—/7 = 0,01; (б) с
вероятностями /?=1, д= 1-/7 = 0?
5.2. Вычислите величины /(1 :2) и J(l, 2) для:
(а) Р(* = 0|//*) = ?,·, Р(*=1|//£)=/>,, Λ + *ί=1, ί=1, 2,
(б) биномиальных распределений В (/?£, gf·, η), /^4-^=1, t= 1, 2,
(в) распределений Пуассона с параметрами от,·, £=1, 2,
(г) нормальных распределений ΛΓ(μ$, σ2), ί = 1, 2, т. с. нормальных
распределений со средними μι и дисперсиями σ2,
(д) нормальных распределений Ν{μ, σ^2), г = 1, 2,
(е) нормальных распределений Ν (μ/, σ^2), ί=ί, 2.
5.3. Вывести равенство (4.3).
5А Вывести равенство (4.4).
5.5. Пусть 1 4~ х — число независимых испытаний, необходимых для
получения успеха, когда вероятность успеха не зависит от номера
испытания. Если
Ρι (χ) = Ρ (Χ = χ | Hi) =Piqi*% x = 0, 1, 2,... ; 4ϊ = 1 -/>/, ί = 1, 2,
ΊΟ
/ (1:2) = Ε (1+ χ | Щ (Alog£- + ?1 log Jf\,
т. е. средняя различающая информация равна произведению математического
ожидания числа испытаний и средней информации от одного испытания.
5.6. Пусть fi (χ) = ехр (и (θ,·) υ (χ) + α (χ) + Ь (0f)), г = 1,2, где w и
^—функции θ/, ί = 1,2, a ti и а—функции .*;, с J/t· (л:) dx = 1. Покажите, что J(l, 2) =
= (w (6ι) — w (*У) (^i (ν (x)) — £s (*> (*))), r^e £* fa (л:))—математическое
ожидание υ (χ) при распределении с плотностью fi(x), i = 1, 2. [Для случая
многомерных, многопараметрических распределений, допускающих
достаточные статистики см. Хузурбазар (1955).]
5.7. Пусть
оо со
*1==2j ~7T(logn)2 <0°' к2^2л n*(\ognf <00>
р (X = П) = т. гг, р2 (X = П) = г όΤι \й~ » Й = 2, 3, . . .
У1К ; /^nflog n)*' r2V ' Μ (log n)2 '
δ] ЗАДАЧИ 21
со
Pl(X=zrt)
Покажите, что /(1:2)= /Pi (л*=л) log ) __ I =00, и что 1(2: 1) =
со
= Л /?g(Ar = n)log^2 ^ " ~<со. [См. Джоши (1957), где этот результат
п^2
приписывается Шутценбергеру]
5.8. Вычислите значения /(1:2) и J (1, 2) для дискретных двумерных
распределений:
P(x = Q9y = 0[Hl) = P(x=\9y=\\Hl)^9 Р(лт=0, у=1|/Л) =
= Р(х=19 у = ЦН1)=£,р + д=\, Р{х = 09 у =0\НШ) =
= р{х = 19у=цНл) = Р(х = 09у=\\Н9) =
= Р(*=1, у=ЦНя)=1.
5.9. Покажите, что \ \ Л (х) /2 (у) log "94\£/\ ^ Φ можно пере-
ть в виде \ (ft (х) —/2 (χ)) log (4гут) dx> гДе /ι и /г-плотности
вероятности, ахи у—случайные величины, области значения которых
совпадают. [Ср. Барнард (1949), Гиршик (1946, стр. 123—127).]
5.10. Пусть N-—-—~ г , п1~\-п2-\ . .. + /1ь = л.
J щ\п2\.. .nk\ ' 1 ' г l l R
Используя формулу Стирлинга, покажите, чго при больших «/, ί =
= 1, 2, ..., ky выполняется приближенное равенство
писа
log N^-n^i log pi9
ί=1
где/^ = п/|я. [Ср. Бриллюзн (1956, стр. 7 — 8).]
5.11. Рассмотрим последовательности из k различных символов.
Покажите, что последовательность длины я, в которой имеется соответственно
пи «2»· · ·» nk символов разного рода, содержит информацию, приблизительно
к
равную «Y pi log pi~j~n log k, где pi определены в задаче 5.10.
5.12. Пусть Ρ(«ιΛ>..., nk) = nj^l.jibltfP*·■ ·/#·
Я = Tlt + Па + . . . + ЯА, Я1 +Р2 + ·. . +Я* = 11
Я;>0, / = 1,2, ...,ft.
22 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. I
(а) Покажите, что, как в задаче 5Л0, приближенно
k
1о*Р(пип1..,щ)=»2р№уг
(б) Покажите, что log-^ : для pi =/?2==... = р^ —\jk равен ве-
личине информации в задаче 5.11. [Ср. Санов (1957, стр. 13), Чернов (1952,
стр. 497).]
5ЛЗ. Вычислите величину /(1:2) для дискретных двумерных
распределений, заданных системой вероятностей
Ρ (χ = хь у =yi\Hx) =рй > 0, i = 1, 2, ..., η,
Ρ (λ: - ^, з>=уДН^ = 0, ί ^ /, Ρ (χ = *,, з> =Уу1^) =
= P(* = *£|//f) P<y = yAHt)=Pipfi i,y=l,2,..,«
(0 log 0 по определению равен 0).
ГЛАВА 2
СВОЙСТВА ИНФОРМАЦИИ
1. ВВЕДЕНИЕ
Займемся теперь свойствами меры информации, определенной в
главе 1, и рассмотрим выводы, основанные на этих свойствах [ср. Куль-
бак и Лейблер (1951)]. Будем использовать обозначения /(1:2; Е),
/(2:1; Х\ J(l, 2; X, У) и т. д., когда считаем необходимым указать
множество, пространство, случайные величины и т. д., которые мы
рассматриваем. Там, где это нужно для ясности, будем использовать
X, К,... и т. д. для обозначения случайных величин, а х, у,... и т. д.
для наблюденных значений этих величин. Обычно мы будем
использовать только один интегральный знак, даже если интегрирование
ведется более чем по одной переменной.
2. АДДИТИВНОСТЬ
Теорема 2.1. /(1:2) есть аддитивная функция независимых
случайных величин, т. е. для X и Y, независимых при гипотезах
Нь ί=1, 2:
/(1:2; Χ, Υ) = Ι(1:2;Χ) + Ι(1:2; Υ).
Доказательство.
7(1:2; Χ, Υ)= §/,(*, У) tog ]$$&(*>y) =
= /(1:2; X) + /(l:2; Y),
где вследствие независимости ft (χ, у) = gt (χ) ht (у), I = 1, 2, dk (x, y)=
= <ίμ(χ)<ίν(», \gi(x)d\>-(.x)=h $/г,-00^00=1, ί=1> 2·
24
СВОЙСТВА ИНФОРМАЦИИ
[ГЛ. 2
Интуитивно аддитивность информации для независимых событий
является основным требованием и действительно постулируется как
необходимое свойство в большинстве аксиоматических построений
теории информации [Барнард (1951), Винер (1950, стр. 18—22), Гуд
(1950, стр. 75), Линд ли (1956), Мак-Кей (1950), Рейх (1951), Фишер
(1935, стр. 47), Шеннои (1948), Шутценбергер (1954)]. Аддитивность
является основной причиной логарифмического вида информации.
Выборка в η независимых наблюдений из некоторой популяции содержит
в себе информацию, превышающую среднюю информацию одного
наблюдения в η раз. Мера количества информации Фишера для оценки
параметров также обладает свойством аддитивности [Сэвидж (1954,
стр. 235—237), Фишер (19256, 1956, стр. 148—150)]. В разделе б
мы рассмотрим соотношение между мерой Фишера и мерой
различающей информации, представленной выражением (2.5) главы 1.
Если случайные величины X и Υ зависимы, аддитивное свойство
все же имеет место, но в терминах условной информации,
определяемой ниже. Чтобы упростить доказательства и избежать задач из
теории меры, касающихся условных вероятностей [см., например,
Фрезер (1957, стр. 16)], мы будем иметь дело с плотностями вероятности
и мерой Лебега, предоставляя читателю выполнять соответствующие
выкладки для дискретных переменных. Учитывая сказанное, имеем
/(1:2; X, Ю = $ Λ(*, У) [°^^J)d* аУ =
=\ ^)los|§H*+\ *И5 h^x^W0)dy] dx>
где
ft(*)=S/i(*> У)Лу, К(у\х)=^(ху У)/&(х)> i=1> 2·
Теперь полагаем
/(1:2; Y\X=x)= § /^(^log^^dy
И
/(1:2; Y\lX)=E1(I(1:2; Y\X=x))=lgi{x)I(l:2; Y\lX=x)dxy
где 7(1:2; У]Х=х) есть условная информация, содержащаяся в Υ
для различения в пользу Н\ против 772, если Х=х, когда верна Нъ
а 7(1:2; Υ\Χ) — среднее значение условной различающей информации
7(1:2; Υ\Χ=χ\ когда верна Н±. [Ср. Барнард (1951), Гуд (1950),
Ливдли (1956), Пауэре (1956, стр. 54—62), Файнстейн (1958, стр. 12),
Ферон и Фуржо (1951), Шеннон (1948).]
Аналогичный результат можно получить путем замены X на К, так
что можно считать установленной следующую теорему.
Теорема 2.2.
7(1:2; X, J0 = /(1:2;*H-/(1:2; П*) = /(1:2; Г)+1(1:2; X\Y).
8] ВЫПУКЛОСТЬ 25
Пример 2.1. Рассмотрим плотности двумерного нормального
распределения
2πσ^ΊΛ-Ρ? L 2(1—Pf) V A
так «по
Λ·(3,μ)- a,VS(l-rf)W eXP[ 2^ (1-Pf) J'
где β/ = Ρίσ^/σ^. Отметим, что дисперсии не зависят от i = 1, 2.
Для этих плотностей находим [можно путем подстановки б (1.2) гл. 9],
что
/(1:2; Χ) = (μ«*~μι*)'>
2σ#
/(1:2; nx^^liog|=Й_|+^4=Й +
ι ι [μ^+Μ*—nJ—Ри>—Μ*—μΐΑ-)12
2 «4(1 — pS)
/(l:2^X) = i-log|^-2-^| +
Ρι)2
2aji(l —Ρ» 2(1" Pi>'
/Π · 9· У V\ — 1 Ιπσ ["Ρ^ J- р2 (Ρ« —Ρι) ι
/(1.2,*, r)--logr—^- + (1_ρ|) +
1 \(Ρ2χ — μίΛ·)2 οη (μ2,ν — μΑΛ·) ^ — μι^) ■ fray—Егу)8
2Ρ
Γ 2(1-P»L aj "2 Vy <*
Отметим, что/(1:2;ΛΤ, Υ) = Ι(\:2;Χ)+Ι(1:Ζ Υ\Χ). Если р1=г:р2=0, так что
X и У независимы при гипотезах //, и H2t /(1:2; Κ|λΊ = (μ2ν— μιν)2/2σν =
= /(1:2; У) и
/(1:2; X, }^=^*~fa*>> + igHC^y^ = /(i :2; А) + /(1:2; Υ).
2σ.ν 2су
3. ВЫПУКЛОСТЬ
Теорема 3.1. /(1:2) почти всюду неотрицательна, т. е.
/(1:2)^0, и равенство имеет место тогда и только тогда,
когда f% (χ) =/2 (χ) [λ].
26 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
Доказательство. Пусть g(x)=fi(x)/f%(x). Тогда
I(l:2) = \Mx)g(x)logg(x)d\(x)^g(x)\ogg(x)dMx)9 (3.1)
где d\x% (χ) =/2 (х) dX (χ).
Так как 0<^g-(x)<^co[X], можно написать, полагая ψ (t) — t log t
[ср. Харди, Литлвуд и Пойа (1934, стр. 151)],
где h(x) лежит между g(x) и 1, так что 0<^1г(х)<^оэ[Ц. Так как
φ(ΐ)=ο, φ'(ΐ)=ι и
J g (л;) rfjAa (·*) = $ /ι (*) <*λ (*) = 1 > (3*3)
имеем
\ ψ (g{x)) <fa (*) =4 $ [*(*) -1 ] Υ Φ (χ)) <fo (χ), (3.4)
где φ"(0 = j^>0 для t^>0. Из (3.4) видно, что
J*(*) toggfr) d\H(x) = J Λ(·*>1ο^ ^W" Λ(X)^°' (3·5)
и равенство достигается тогда и только тогда, когда g(x) —
=Λ (*)/Λ(*)== ι Μ-
Теорема 3.1 говорит нам, что в среднем различающая
информация, получаемая из статистических наблюдений, положительна [ср.
Фишер (1925 6)]. Если распределения, соответствующие обеим
гипотезам, совпадают, то различающая информация не существует. Теорему
3.1 можно проверить для величины /(1 :2), вычисленной в примере 2.1.
Следствие 3.1.
J /ι WIog^AW>(j/t WAW) log |^
dX(x)
для λ(£)^> 0, и равенство достигается тогда и только тогда, когда
Μ*) — μι №) l J ^
Доказательство. Если левый член неравенства равен со,
результат тривиален. В противном случае берем усеченное
распределение на множестве Ε и пишем gx (x) =/t (х)/\н (£), &(·#) =
=/2 (^)/μ2 (£). Из теоремы 3.1
$ft(*)i°gf$|<a(*);^o,
31
выпуклость
27
где равенство достигается тогда и только тогда, когда gl(x) =
==gaC*0[M> откуда и следует наше утверждение.
Следствие 3.2. Если Е^З, /=1, 2,..., Eif]Ej = 0, ιφ],
и ^ — {JiEi, т.е. если S£ разбито на попарно непересекающиеся
множества Еь Е& ..., то
/(1:2)^2^1оё^|
и равенство достигается тогда и только тогда, когда
Доказательство. Используйте следствие 3.1 и равенство (см.
задачу 8.37)
7(1:2)= J Л И log ^A(*)=2 J/^iog^ άλ(χ).
i E.
Свойства, выраженные теоремой 3.1 и следствиями 3.1 и 3.2 [ср.
Линдли (1956), Сэвидж (1954, стр. 235)], есть свойства выпуклости,
связанные с тем, что функция tlogt вогнута и выполняется
неравенство Енсена [Енсен (1906)]. [См. задачу 8.31. Подробности о
выпуклых функциях читатель может найти в работах: Блекуэлл и Гиршик
(1954, стр. 30—42), Фрезер (1957, стр. 52—55), Харди, Литлвуд
и Пойа (1934).] Из следствия ЗЛ видно также, что группировка
наблюдений вызывает обычно уменьшение информации [ср. Винер (1948,
стр. 79), Фишер (19256)], левая часть неравенства следствия ЗЛ есть
различающая информация, содержащаяся в элементах множества Е,
тогда как правая часть неравенства есть различающая информация,
содержащаяся в множестве Е. Необходимое и достаточное условие
того, что информация не уменьшается после группировки (следст-
f (χ) f (χ)
виеЗЛ), можно также записать в виде )' =JS\J [λ] для х£Е, от-
μι {£) ^2 (£)
ражающем тот факт, что условные плотности распределения χ при
условии Ε совпадают для обеих гипотез. Все χζΕ, для которых
выполнено условие равенства в следствии 3.1, можно рассматривать
как эквивалентные в задаче различения.
В качестве иллюстраций теоремы 3.1 и следствий ЗЛ и 3.2
приведем следующие примеры.
Пример 3.1. (См. пример 4.2 гл. 1 и теорему 3.1.)
Alog^+Alog&+ ... +ρη1ο%ψ^0, (3.6)
η η η
28 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
где Pi>0, t = 1, 2,..., η, pt +ps +... +рп = 1. Отсюда следует, что
logn^ —2яг1°ёЯ£| гДе равенство достигается тогда и только тогда,
когда /?£== 1/«, ί= 1, 2,..., η; это соответствует тому, что самой неопределенной
ситуацией с η альтернативами оказывается ситуация, когда все
альтернативы равновероятны [Шеннон (1948)].
Пример 3.2. (См. следствие 3.1.)
> (fti +Λ. + ■■■ +Рид log p21+p2S+...+jp2„ <3·7>
для Pij> 0, i= 1, 2, 7= 1, 2,..., «, с равенством тогда и только тогда, когда
Рп ==£и = Ал _ Яп+Я12 + --+Рш
Я21 /?22 />2Л Я21+Я22 + ---+Я2/1
Пример 3.3. (См. следствие 3.2.) Для пуассоновских популяций с
параметрами \ и λ2 имеем
1
-к
* л:!
оо
+ Σ-
х = 2
)+е~^ λ
-log-^
Λ2
с равенством тогда и
е
е~~
,xUf
λ2 ι λ:
Λ2
"λ'λ?/*! λ( β-
-λ·λ*/*! ~й ΐ£* е-
108 ^ffc"^1
- + (1 —β~λι —λ^~λι
только тогда, когда
1—*-λι—λ^~λι
~~ 1 —β—λ» — λβ^—λ*
-λ!
— J
-λ2 i
(Κ-
)log
-e-^Xjlog
-Μ + *~"λι
1—е~Хя —
, Λ ' />f Oj ■ · ·
«-λ«λ,
*~λ*λ2 +
ιλ,(λ,-
λιβ-λι
Численная иллюстрация группировки величин χ ^4 есть в табл. 2.1
призера 2.2 главы 4.
Пример 3.4. (См. следствие 3.1.)
$ /ι (·*> .У) dy _
=11Лх)^Ш"'(&8)
с равенством тогда и только тогда, когда тЦ-^=^Ц~т, где^(лг), £=1,2,
/2 (*» .У) ^2 (■#)
есть частная плотность распределения х. Необходимое и достаточное
условие равенства может быть записано также в виде ft (xty)jgi (x)—/2 (xty)lgn (x)
или h1(y\x) = hs(y\x)t где hi (у\х), г =1,2, — условная плотность
распределения у при условии х.
41
ИНВАРИАНТНОСТЬ
29
Фактически (3.8) иллюстрирует
Следствие 3.3. (а) 1(1 :2;XtY)^I(l: 2; X) с равенством
тогда и только тогда, когда 1(1:2; У\Х) — 0; (б) /(1: 2; X, У) ^ /(1:2; Υ)
с равенством тогда и только тогда, когда 7(1 :2; Лг| F) = 0;
(в) /(1:2;X,Y)^I(l :2; У\Х) с равенством тогда и только тогда,
когда 7(1:2; Л^ = 0; (г)/(1: 2\Χ,Υ)^Ι(\: 2; Х\ Υ) с равенством
тогда и только тогда, когда /(1:2;У) = 0. [Ср. Линдли (1956).]
Доказательство. Используете теорему 3.1 в сочетании с
теоремой 2.2.
4. ИНВАРИАНТНОСТЬ
Если разбиение пространства ЗР в следствии 3.2 таково, что
необходимое и достаточное условия равенства выполнены, т. е. если
плотности распределения χ при условии Е( одни и те же для обеих
гипотез по всем членам разбиения Ei7 то мы можем определить
разбиение St7z=z\JiEi как достаточное разбиение для различения.
Отметим, что достаточное разбиение с самыми крупными элементами
группировки содержит в себе такую же информацию, как разбиение,
элементами которого являются точки пространства ЗС% Понимая под
статистикой разбиение пространства X на множества эквивалентных χ
[Леман (19506, стр. 6—7)], можно сказать, что статистика, определенная
разбиением 3?=\JiEb является достаточной для различения, если
необходимое и достаточное условие равенства в следствии 3.2 выполнено.
Это совместимо с первоначальным критерием достаточности,
введенным Фишером (19226, стр. 316): «статистика отбирает для
суммирования всю относящуюся к делу информацию, доставляемую выборкой»,
и с дальнейшими достижениями (см. Бахадур (1954), Блекуэлл и Гир-
шик (1954, стр. 208—223), Дармуа (1945), Дюгэ (1936а,б), Купмен
(1936), Леман и Шеффе (1950), Питмэн (1936), Нейман (1935), Сэ-
видж (1954), Фишер (1925а,б), Халмош и Сэвидж (1949). [Ср. Фрезер
(1957, стр. 16-22).]).
Чтобы продолжить изучение соотношения понятий «информация» и
«достаточность», введем некоторые обозначения. Пусть К— Т(х) —
статистика, т. е. Т(х) является функцией с областью определения X и
областью значений ^, и пусть <ЗГ — аддитивный класс подмножеств ^.
Предположим, что Т(х) — измеримая функция, т. е. для любого
множества G£<^ полный прообраз Г"*1 (б) = {*: Τ(x)£G} [TX(Q) есть
совокупность элементов χ таких, что Τ(χ)ζ-0] принадлежит классу
8 измеримых подмножеств пространства &* (см. раздел 2 гл. 1). Класс
всех множеств вида Г"1 (G), где G £<^, обозначается Г"1 (е^). Таким
образом, мы имеем измеримое отображение Τ вероятностного пространства
(££у $, μ£) в вероятностное пространство (^, <£Г, ν,·), где, по определению,
Μ0) = μι (7^(0)) [Колмогоров (1950, стр. 21, 22), Лоэв (1955,
стр. 166), Фрезер (1957, стр. 1 — 16), Халмош и Сэвидж (1949)].
30 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
Если определить γ (G) =А (7^(0)), то ν! = ν2 = γ (меры
абсолютно непрерывны одна относительно другой) и, так же как в разделе 2
главы 1, теорема Радона—Никодима позволяет утверждать
существование таких плотностей вероятности gi(y), г=1,2, что
V|(Q)=$ftO0dTO/), *=1,2, Ge^, (4.1)
о
для всех G(^<^~. Функция gi(j/) является условным математическим
ожиданием /£ (х) при условии Г (х) =j/ и обозначается Ελ (/f·[у)
[Колмогоров (1950, стр. 47—50), Лоэв (1955, стр. 337—344), Фрезер
(1957, стр. 15), Халмош и Сэвидж (1949)].
В терминах вероятностных пространств (^,е^~, vf), /=1,2,
различающая информация [ср. (2.4) гл. 1] есть
/(1:2; G) =
ν,
т l^l<Md^>^0)>*> (4.2)
[О, v,(Q = 0
и [ср. (2.5) гл. 11
/(1:2; *) = J ftOOlQggg^TCy). (4.3)
Для доказательства теоремы 4.1 нам потребуется нижеследующая
лемма.
Если g— функция точки на ^, то, придерживаясь обозначений
Халмоша и Сэвиджа (1949), gT, заданная равенством gT(x) = g(T(x)),
является функцией точки на 3\
Лемма 4.1. Если g— действительная функция на Ф, то
$SU0<biO0= J gT(x)d[xi(x)f / = 1,2,
О Г-1 (G)
для любого G£^<^~ в том смысле, что если один из интегралов
существует, то существует и другой, и они равны.
Доказательство. См. Халмош (1950, стр. 163), лемму 3 из
работы Халмоша и Сэвиджа (1949), Лоэв (1955, стр. 342).
Теорема 4.1. /(1:2; #*)^/(1:2; Щ с равенством тогда и
только тогда, когда fi(x)/A(x) = gi(T(x))fg<i(T(x)) [λ].
Доказательство. Если /(1:2; 37) = оо, результат тривиален.
Используя лемму 4.1, получим
/(1:2;*)=$ db(y) log|^= J dlH(x) log
gjTjx)
g*T(x)
41
ИНВАРИАНТНОСТЬ 31
и, следовательно,
/(1:2; Л)-/(1:2; *)= J <Ы*)[ ^Щ—^ЙШЬ
Полагая ^)=4^М^, получим
/(l:2;^)-/(l:2;9')=J^^^g(jf)logi(Jf)a(jf)=
=$ £(*) bg g(*) <ίμ12 (χ), (4.4)
где μ,,(£)= (^Д'У&С*) Для всех Εζ$. Так как
то рассуждения, доказывающие теорему 3.1, приводят к заключению,
что 1(1:2\ X) — 7(1:2; ^)^= 0 с равенством тогда и только тогда,
когда
fi(x)_giT(x) _gi(T(x)) m ,4~
f2 (*) ~^2Γ (χ) —g2 (Γ (χ)) L J' V'0)
Необходимое и достаточное условие равенства в теореме 4.1 может
быть переписано в виде [см. (4.1)]
ЛЩ=Щ[Х] или aw = ■/;<*> [λ],
т. е. условная плотность распределения χ при условии Г(лО=.у одна
и та же для обеих гипотез. Статистика, удовлетворяющая условию
равенства в теореме 4.1, называется достаточной статистикой для
различения. [Ср. Мурье (1951).]
Предположим теперь, что вероятностные меры \хг и μ2 принадлежат
некоторому семейству мер т, например семейству всех мер одного
и того же функционального вида, но с различными значениями
одного или нескольких параметров. Допустим, что семейство мер т
однородно, т. е. что любые две меры этого семейства абсолютно
непрерывны одна относительно другой. Тогда в силу теоремы Радона —
Никодима каждый член однородного семейства мер может быть
представлен плотностью вероятности относительно общей меры [Фрезер
(1957, стр. 21), Халмош и Сэвидж (1949)].
Теорема 4.2. Если μι и μ2— любые два члена однородного
семейства мер т, то /(1:2; ,2Г)^/(1:2; <¥) с равенством тогда
и только тогда, когда статистика Υ= Τ (χ) является
достаточной для однородного семейства т.
32
СВОЙСТВА ИНФОРМАЦИИ
[ГЛ. 2
Доказательство. Необходимое и достаточное условие,
задаваемое соотношением (4.5), эквивалентно в этом случае тому, что
условная плотность распределения χ при условии Т(х)=у одна и та
же [λ] для всех мер однородного семейства т, или требованию, чтобы
Τ (χ) была достаточной статистикой [Бахадур (1954), Блекуэлл и Гиршик
(1954), Дармуа (1936), Дуб(1936), Леман и Шеффе (1950), Нейман(1935),
Рао (1952), Сэвидж (1954), Фишер (19226), Фрезер (1957, стр. 17), Халмош
и Сэвидж (1949)].
Л е м м а 4.2. Если f — действительная функция на 3?у то
необходимым и достаточным условием существования измеримой
функции g на *¥ такой, что f=gT, является измеримость
/относительно Т~1(^Г)\ если такая функция g существует, то она
единственна.
Доказательство. См. лемму 2, Халмош и Сэвидж(1949).
Следствие 4.1. /(1:2; ^) = /(1:2; Ф\ если У=1(х) — не-
вырожденное преобразование.
Доказательство. Если 7— невырожденное преобразование, то
Т~х (<^) совпадает с $, а следовательно, fi(x), / = 1, 2, измеримы
относительно Г-1^"), и утверждение вытекает из леммы 4.2 и
теоремы 4.2. Отметим, что можно получить другое доказательство путем
последовательного применения теоремы 4.1 к преобразованию из X
в *¥ и обратному преобразованию из ^ в 3t\
Следствие 4,2. /(1:2; T~X(G)) = /(1 :2; G) для всех G£<^
тогда и только тогда, когда К™ Т(х) — достаточная
статистика.
Доказательство. Пусть χΕ(χ) — характеристическая функция
множества Е, г. е. χ£(χ)~ 1, если χζ^Ε и χΕ(χ)~0, если х^~Е.
Имеем
/(1.2, С)- J _^-log^_ J XG(y) -^gj-log -gjfr-
ί
Хг-i (G) W μι (г-1 (G)) WS g2r (x)
-i
Φι (*) lQg gi^W
/.Μ
/>W
Г-1 (G)
Применение метода доказательства теоремы 4.1 к / (1:2; Т1^)) —
— /(1:2; G) и использование теоремы 4.2 завершает доказательство.
Можно «рандомизировать» следствие 4.2 путем введения функции
ф(_у) такой, что 0^ф(_у)^1, например взяв в качестве ψ (у)
вероятность определенного действия при условии, что у наблюдено. По
5]
РАСХОЖДЕНИЕ
33
определению условного математического ожидания [Колмогоров
(1950, стр. 53), Лоэв(1950, стр. 340), Фрезер (1957, стр. 15), Халмош
(1950, стр. 209), Халмош и Сэвидж(1949)] имеем
$φ(^)Λ(^)=5φ(ν)<ίγ^
S?W/iW<ft(Jp)=StO')e(y)rfTW. t=i, %
где
φ(*) = ψΓ(*) = ψ(74*)λ $ψ) = Ελ(Ψ(χ)\Τ(χ)=γ), т.е. ψ О)
является условным математическим ожиданием φ (χ) (относительно
меры λ) при условии Т(х)=у. (См. леммы 3.1 и 3.2 гл. 3.)
Следствие 4.3.
с равенством тогда и только тогда, когда Y=T(x) —
достаточная статистика.
Доказательство. Утверждение следует в результате
применения метода доказательства теорем 4.1 и 4.2.
Предшествующие теоремы и следствия показывают, что
группировка, сгущение или другие преобразования наблюдений с
помощью статистики ведут, вообще говоря, к потере информации.
В случае достаточной статистики информация не теряется [ср. Фишер
(19256, 1935, 1956, стр. 150 —152)]. Увеличить же информацию
посредством статистической обработки данных нельзя. Численный
пример уменьшения информации можно найти в разделе 2 главы 4.
[Ср. Файнстейн (1958, стр. 70 — 71).]
Следствия 4.2 и 4.3 показывают, что достаточность статистики
для семейства распределений не нарушается при усечении или при
отборе в соответствии с функцией φ (χ) = ψ (Τ (χ)) [ср. Бартлетт
(1936), Питмэн (1936), Тыоки (1949)]. С другой стороны,
усреднение является статистической процедурой или преобразованием,
приводящим, вообще говоря, к потере информации. Преобразование,
которое затрагивает только частное распределение в многомерной
ситуации (игнорирует некоторые переменные), также ведет, вообще
говоря, к потере информации. (См. следствие 3.3, а также раздел 8
гл. 9.)
5. РАСХОЖДЕНИЕ
Для 7(2:1), определенной в (3.1) главы 1, справедливы теоремы
и следствия, аналогичные тем, когорые были доказаны для /(1:2)
ввиду предположения раздела 2 главы 1 о том, что вероятностные
меры μ! и μ3 абсолютно непрерывны друг относительно друга. Так
как J(l,2) = /(1:2)-|-/(2:1), то имеется множество аналогичных
34
СВОЙСТВА ИНФОРМАЦИИ
1ГЛ. 2
результатов для J(1,2), которые мы сформулируем, используя понятия
и обозначения разделов 2, 3, 4. Доказательства оставляем читателю.
Теорема 5.1. 7(1, 2) аддитивна для независимых случайных
величин, т. е. если X и У независимы, то 7(1, 2; X, fY)=i
= 7(1, 2; X) + J(l, 2; У).
Теорема 5.2.
7(1, 2; X, У) = 7(1, 2; X) + 7(l, 2; Y\X) =
= 7(1, 2; 10 +-/(1,2; X| У).
Теорема 5.3. 7(1, 2) неотрицательна, т. е. 7(1, 2)5=0 с
равенством тогда и только тогда, когда fx (х) —/3 (χ) [λ].
Следствие 5.1.
J σι с*) -/. с*» iog^-л w s*
$/, (χ) Λ (χ)
Ξ>(ί/ι(*)Λ(.*)- [Mx)dk(x))iog E =
V J J У ^/2(х)<Д(х)
для λ (jB) ^> 0 с равенством тогда и только тогда, когда
h (*)//« (Jf)=μι (£)/щ (£) [λ] для jc ζ Ε.
Следствие 5.2. £слн £г£$, *=1, 2,..„ £,ПЕ/ = 0.
Ι φ],..., и S'=\JiEi, то
J{\, 2) ^ J О*» №) -^ №» 1оё £ЙУ
с равенством тогда и только тогда, когда f±(x) Ι'/«(#) = ^Цп^ [Ц
для χ ζ-Ец t=l, 2.
Следствие 5.3. (a) 7(1, 2; X, У) ^7(1, 2; X) с равенством
тогда и только тогда, когда 7(1, 2; У|Х)=0; (б) 7(1, 2; Д У)^
5=7(1, 2; У) с равенством тогда и только тогда, когда 7(1, 2;
Х| У) = 0; (в) 7(1, 2; X, У)5=7(1, 2;У|Х) с равенством тогда и
только тогда, когда 7(1,2 ; Х)=0; (г) 7(1, 2; X, У)5=7(1, 2; А^У) с
равенством тогда и только тогда, когда 7(1, 2; У) = 0.
Теорема 5.4. 7(1, 2;$*) 5=7(1, 2; ^) с равенством тогда и
только тогда, когда fi(x)lfz(x) = gi(T(x))lg%(T(x))m.
Теорема 5.5. Если μχ и μ3— два любых члена однородного
семейства мер т, то 7(1, 2; .2^)5=7(1, 2; ^) с равенством
тогда и только тогда, когда статистика У= Т(х) достаточная
для однородного семейства мер т.
Следствие 5.4. 7(1, 2; ,20 = 7(1, 2; ^), если 7= Г (х) — «£-
вырожденное преобразование.
51
РАСХОЖДЕНИЕ
35
Следствие 5.5. J(l, 2; T^(G)) = J(17 2; G) для всех G£<^
тогда и только тогда, когда J(l, 2; Jf) = J(l, 2; ^), #z. е.
тогда и только тогда, когда Г= Т(х) — достаточная статистика.
Следствие 5.6.
$ φ (χ) (/ι И -Л (*)) log j^d\ (χ) s*
с равенством тогда и только тогда, когда Υ=Τ(χ)
—достаточная статистика.
На данном этапе будет уместно описать задачу различения двух
гипотез Hi и Ном в терминах теории связи и вывести результат,
способствующий уяснению содержания понятия 7(1,2). Мы рассмотрим
модель, состоящую из источника, создающего символы, канала,
передающего символы с искажением (канал с шумом), и приемника,
который должен в конечном счете действовать на основе полученного
сообщения (или того сообщения, которое считается полученным). Об
общих моделях задач связи и обосновании используемых терминов см.
Джоши (1957), Мак-Миллан (1953), файнстейн (1958), Хинчин (1957),
Шеннон (1948), Шеннон и Уивер (1949).
Предположим, что источник, или пространство входа, полностью
описывается двумя гипотезами Д и //2 с Р(Щ=р и Р(#2) = # =
= 1—р. Входное пространство содержит тогда только два символа
i7e, θ=1, 2. Эти символы передаются посредством некоторого
дискретного рандомизированного процесса, отбирающего последовательные
символы независимо с вероятностями ρ и q. Приемник, или выходное
пространство, есть выборочное пространство & элементов х,
рассмотренное в разделе 2 главы 1. Действие канала с шумом описывается
посредством плотностей вероятности fB(x), θ = 1,2, введенных в
разделе 2 главы 1, так что \ц(Е)— условная вероятность того, что
переданный символ Нь принимается как χξΕξ§. Эту систему связи
можно обозначить (р; fv /2), а канал—(Д, /з). Скорость передачи
информации этой системы jR(p; /i,/а) была определена Шенноном (1948)
как разность между энтропией (см. раздел 4 гл. 1) источника или
энтропией входа (априорной неопределенностью), и средней условной
энтропией входа на выходе (апостериорной неопределенностью), т. е.
R fa U Λ) = ^Г(в) - ЯГ (θ|χ),
где <2%"(θ) — априорная неопределенность, а <£% (Щх) — апостериорная
неопределенность, определяемые выражениями
^(6)=^p(^01ogP(^0-P(^)logP(^) = ^logp-^log^,(5.1)
& (ЩХ) = Е(-Р (Щх) log Ρ (Щх) — Ρ (Щх) log Ρ (Щх)) =
= - [(Ρ (Щх) log Ρ (Щх) + Ρ (Щх) ΐοε Ρ (Щх))/(х) άλ (xl (5.2ϊ
36 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
rne f(x)=pf1(x)-^qU(x). [Ср. Линдли (1956, стр. 986—990).]
Скорость передачи информации по системе связи является также мерой
связи между входными и выходными символами. Используя
выражения для <=5Γ(Θ) и <2%" (Θ|Χ), данные в (5.1) и (5.2), получаем
2
Я (к U /0=2 \ П*№*ъ p^'ft) d4x)==
8=1
' =| (/>/i(*)log^-N/2(*)log £$)dk(x)^0, (5.3)
где Р{Щ, χ) dl(x) = P(HB\x)f(x)dl(x)—совместная вероятность
2
#е и ■*- Отметим, что У ι Р(НВ, х) log p * *' ** ■ rfX(at) может быть
8=1
определена [ср. (4.2) гл. 1] как средняя информация в X
относительно Щ.
Пропускная способность С (Л,/2) канала (Д,/2) по Шеннону (1948)
равна max R(p; fh /3), т. е. равна максимальной скорости передачи
по всем возможным источникам. Обозначим максимум C{fb f%)/J(l> 2)
по всем /х и /2, которые являются плотностями относительно одной
С (f f)
и той же меры, как max У*\ J! . Можно утверждать [ср. Сакагути
(1955, 1957а)] следующее:
Теорема 5.6.
Доказательств о. Заметим, что функция R(p; fb /2)в (5.3),
как функция/?, 0^/?^ 1,выпукла (вторая производная отрицательна);
Я(0; А Л) = Я(1; Λ, /2) = 0, а #(0; Λ, Λ) = /(1:2), определенной
в (2.5) главы 1, K(l; fb /2) = —/(2:1), определенной в (3.1) главы 1,
где Rr обозначает производную R по /?; максимум R(p; fl3 /2)
достигается для такого /?, что
J/i (*) log^dX (*) = J Λ (χ) logff$d\ (χ).
Далее, представляя fi(x)=pfi(x)-\-qfi(x) и используя выпуклость
как в примере 3.2, имеем
^ J />/i (*) log^ga(x)+ J qf, (x) log g^jdX (*) = <?/(!: 2).
61 информация по фишеру 37
Аналогично J/2(х) 1оёуЩ Л(дг)</>/(2:1), так что R(p; fb /2) <
^рд(/(1:2) + /(2:1)) или С(Л, /s) = max Я(ρ, /„ /j)< 1У(1,2),
откуда, наконец, получаем неравенство теоремы.
6. ИНФОРМАЦИЯ ПО ФИШЕРУ
Меры информации, которые мы изучаем, связаны с мерой
информации Фишера. Рассмотрим параметрический случай, когда члены
семейства т из теоремы 4.2 имеют один и тот же функциональный вид,
но отличаются значениями Α-мерного параметра В = (въ θ2, ..., θ^).
Предположим, что в и θ —}— Δ0 — соседние точки в Α-мерном
параметрическом пространстве, которое, по предположению, является
открытым выпуклым множеством в Α-мерном евклидовом пространстве, и
/1(α:)=/(α:,Θ)> /2(λ:)=/(χ, θ-(-ΔΘ). Мы покажем в этом разделе,
что 7(θ:θ-(-ΔΘ) и J(6, Θ + ΔΘ) могут быть представлены в виде
квадратичных форм с коэффициентами, определенными информационной
матрицей Фишера. [Ср. Сэвидж (1954, стр. 235—237)]. Можно
написать
7(Θ,6 + ΔΘ)= J (f{χ,6)-~f(x,θ + Δ6))log/£$·_£!щdK(*> =
= $/(A:'e)T^rAl0g/(x'e)a(^
И
/(θ: θ + Δβ)= - If (χ, θ) Δ log/(*, 6)dX (л),
где
Δ/(*,θ)=/(*,θ + Δθ)—/(*,θ) и Δ log/(λ, θ) =
= log/(*, θ + Δθ) — log/C*, θ).
Предположим, что плотность f(x, θ) удовлетворяет следующим
условиям регулярности [ср.Герлянд (1954), Крамер (1946а, стр. 500—
501)1:
1. Для всех χ [λ] частные производные -^, *$ξ9 ^ЩЖ,
существуют по всем α, β, γ=1, 2,..., А, в каждой точке θ' =
~ 0ч> θ2,..т) θ^), принадлежащей невырожденному интервалу А =
=(е <е;<еа+деа).
*· Для любого θ'ζ Л
ΐΙ<'<* bS»|<e» |a£affi;|<:»«
38 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
для всех α, β, γ=1, 2, ..., k, где F(x) и Q(x) интегрируемы [λ]
по всему пространству и \f(x,в) H(x)dl(x)<^M <^co, где Μ не
зависит от б = (9ьθ2,...,θ^).
3. §η^άλ(χ) = 0, ^^^-а(лг) = 0длявсехв,р=1>2>.., ft.
Разлагая в ряд Тейлора по Θ, получим
Iog/С*, θ + Δθ) — log/(*, θ) =
_ у δθ aiog/ ι * У Уде δθ аЧоё/-ц
— Ζι « аеа +2! ΖΖι · °β aeaae +
a=l a α=1β=1 Ρ
+ 1 У У У Δθα Δθβ ΔΘΎ (#Μ ) , (6.1)
α=1 β=1 τ=1 ρ
где в последнем члене θ заменено на θ -j- £ΔΘ = (θχ -j- txtSb θ2 -j- ί2Δβ3,...,
Θ^-|-^ΔΘ^), 0<^ίβ<^ΐ, α==1, 2, ..., k. Кроме того, имеем
aiog/_ ι а/ »iog/_ ι а2/ ι а/ а/ , 2.
$К — / <эеа' aeeaep — / аеа аер /* аеа аер · ^· '
Можно, следовательно, написать
α=1 α=1 β=1
ft Λ ft
-i ί [Σ 2 Σ ^MiSftlU*»-
α=] β=;1 γ=1
ft
-4i^i(^-7*i)*w-
α—] β~1 ^ ^
- ^τί ί ί Δθ« П 4 ί/(ϋζ&Γ^Λ^ (6.3)
7]
ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ
39
В силу условий регулярности, пренебрегая членами выше второго
порядка, имеем
/(Θ:Θ + ΔΘ) = |2 2νθ«Δθβ> <6·4>
α=1β=χ1
где
и G = fefi) — положительно определенная информационная матрица
Фишера [Бартлетт (1955, стр. 222), Джеффрис (1948, стр. 158), Дуб
(1934), Мандельбройт (1953, стр. 34—35), Рао (1952, стр. 144), Сэ-
видж (1954, стр. 235—238), Фишер (1956, стр. 153), Хузурбазар (1949),
Шутценбергер (1954, стр. 54)].
Наметим доказательство соответствующего результата для J(6, θ -\-
~ί/(*»β)(7·ίΔβ»+···+7^Δβ*)'Α(*)=
7. ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ
В определении /(1:2) раздела 2 главы 1 мы предполагали, что
вероятностные меры μχ и μ2 абсолютно непрерывны одна относительно
другой. Существенной причиной такого предположения было
требование определенности интегралов /(1:2) и /(2:1), для того чтобы J(l, 2)
могло существовать. Если ограничиться рассмотрением только /(1:2)
и не иметь дела с J(l, 2), то можно изменить некоторые
первоначальные предположения такие, как предположение об однородности семейства
мер в теореме 4.2. Если внимательнее изучить интегралы в (2.1) и (2.5)
главы 1, то можно увидеть, что они остаются определенными, даже
j*ra/i(.*)==0 при х£Е, а Мх)фЪ, χζΕ, λ(£)^0, так как
U log О по определению нуль. Таким образом, если иметь дело только
с /(1:2), нам нужно просто предположить абсолютную непрерывность
вероятностной меры μχ относительно вероятностной меры μ^, τ. е.
J4(£)=:0 для любого измеримого множества £, для которого μ2(£)=0.
соответствии с теоремой Радона—Никодима (см. раздел 2 гл. 1 и
там же ссылки) имеем:
40 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
Для того чтобы вероятностная мера \it была абсолютно
непрерывна относительно вероятностной меры μ2, необходимо и
достаточно, чтобы на SC существовала неотрицательная функция
f(x) такая, что
μΐ(£)=$/(*)<ίμ>(*) (7·1)
для любого Εζ^ΙΒ. Функция f(x), производная Радона—Никодима,
единственна в том смысле, что если
μι(£)=$*(*)Φβ(*) (7·2)
для любого Е^Ш, то /0*0=£"(-*;) [λ]. Мы пишем
а\хг (х) ==/ (χ) άμ% (χ) или f (x) = d^/d^
Результаты разделов 2 и 3 остаются в силе, если вероятностная
мера μι абсолютно непрерывна относительно вероятностной меры μ2.
Так, для f(x), определенной в (7Л) [сопоставляя с (3.1) и замечая,
что Д (χ) =f (χ), /2 (χ) = 1 с μ2 (Ε) = ξ ίίμ2 (χ)]> имеем
Ε
/(1:2) = \ log/C*) d^ (x) = ]f (χ) log/(*) ί/μ2 (χ). (7.3)
Заметим, что множество Е, согласно следствию 3.1, не содержит
информации для различения в пользу Ни если μ1(£) = 0, а μ2(£)^0.
Теорема 4.2 также сохраняет силу, если требование о принадлежности
вероятностных мер μχ и μ2 однородному семейству вероятностных мер
заменить требованием принадлежности их семейству вероятностных
мер с доминирующей мерой. Семейство Μ мер, определенных на $,
называется семейством с доминирующей мерой, если на $ существует
мера λ, не обязательно являющаяся членом семейства Μ такая, что
любой член семейства Μ абсолютно непрерывен относительно λ. [См.
Фрезер (1957, стр. 19), Халмош и Сэвидж (1949).] Применяя теорему
Радона—Никодима к каждой мере μ^, принадлежащей семейству мер
с доминирующей мерой, имеем
[ii(E) = \fi(x)dl(x) для всех ££#.
Ε
Пример 7.1. Предположим, что популяции, соответствующие
гипотезам Ht и #2, — равномерные популяции с 0 ^ χ ^ 6lt 0 ^ χ ^ θ2, bt < θ2 и
I 0 в противном случае, I 0 в противном случае,
их ,„. С dx
μι(£)= J^f, μ*(£)= J
Заметим, что μχ (Я) = f /t (x) dx = 0, но что μ2 (Ε) = ^ /2 (λ:) ίί,χ;
ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ 41
7]
/θ θ1)/θ2 ^ 0, когда Ε = {λγ:Θ1<^λ;:^Θ8}. Мы видим, что μ2 не является
~бсолютно непрерывной относительно μ1? но μ1 абсолютно непрерывна
относительно μ2, так как μ!=0, когда μ2 = 0. Обе меры μι и μ2 абсолютно
непрерывны относительно меры Лебега.
Затем
/(1:50- Ц]°*Ща*+ 1°1о^7^ (7'4)
О Θϊ
или, в обозначениях (7.3),
ef
/(1:2)- J/Wlog/(x)^,
о
где / (х) = 02/θι ПРИ O^x^Oj и/(л:) = 0 при 6х^л:^62) так что
'(l = 2)-fttoef)J = «08j (7-5)
и, следовательно, для случайной выборки Оп в я независимых наблюдений
/(1 :2; Оя) = л log θβ/θι· Известно, что если S£ — пространство выборок в η
независимых наблюдений и К— Τ (χ) = max (xlt x2,..., xn), то gt (y) = nyn-ifti,
Ο^^^θ;, и нулю в противном случае, г = 1,2. [Уилкс (1943, стр. 91).]
Таким образом, имеем
/(1:%У) = ί ^r'bgl ^-«logi2. (7.6)
О
Так как «log (θ2/θ1) = /(1:2;^) = /(1:2;^), то в силу теоремы 4.2
заключаем, что максимальная величина в выборке из равномерной популяции с
нижней границей области определения, равной нулю, является достаточной
статистикой. [Ср. Леман (1950а, стр. 3).]
Пример 7.2. Рассмотрим экспоненциальные популяции /i (χ) = е^х ϊ\
6j < л: < оо, ft (χ) = 0, — oo < χ <6г, г = 1, 2, θ4 > θ2. Находим, что
оо
/(1:2)== ί e-i^-Bi) (θι_у dx = θχ_θβ (77)
и для выборки Опъ η независимых наблюдений /(1:2; Оп) = п/ (1:2; ОО =
^η^ — θ2). Известно, что если ^—пространство выборок в η
независимых наблюдений и К= Τ (χ) = min (*lt *2 ,...,.*;„), то g£ (з>) = яв~л(-у"в«),
°»^3'<οθι и н^лю в противном случае, г = 1, 2. [Уилкс (1943, стр. 91).]
Таким образом, получаем
оо
/(1:2;^)= $ ^-"Ο'-Βι) (ηθ1 — ηθ2) dy = η(θχ — θ2). (7.8)
Так как η(θ1 —θ2) = /(1:2;^Γ)--=/(1:2;^), то в силу теоремы 4.2
заключаем, что наименьший член выборки из популяции экспоненциального типа
е {x—B)t Θ^λ;<οο, нуль в противном случае, является достаточной
статистикой.
42 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
Пример 7.3. Рассмотрим пуассоновские популяции с параметрами
λ1? λ2. Находим, что
со
/(1:2)= У £Z^liogi^ig- = X1log^- + (X2-X1)> (7.9)
ЛГ=0
и для случайной выборки Оп в η независимых наблюдений /(1:2;Ол)==
= til (1:2; 0t) = п\ log (Xj/X2) -j-я (λ2 — \). Известно, что если SC — прост-
п
ранство выборок в η независимых наблюдений и Υ= Г(л:)= ^] хи т0
gi(y) = e-**i(rikdyy\ з> = 0, 1, 2 ,...; l=\, 2
[Крамер (1946а, стр. 205)]. Таким образом, имеем
со
/(1:2;У)-2 ^l0g ^ι*. U)v =яХ* *°g ξ+ " <*.-**>- (7Л0>
Так как I (\ :2;3?) = 1(\:2;У), то в силу теоремы 4.2 заключаем, что
η
J)xi является достаточной статистикой для пуассоновских популяций. [Ср.
Леман (1950а, стр. 3).]
Пример 7.4. Рассмотрим пуассоновские популяции примера 7.3, где
/ (1 :2) задается равенством (7.9). Предположим, что £& является
пространством, элементы которого — неотрицательные целые числа, и Y=T(x) есть
0, 1, 2, когда χ равен 0, 1 или ^2 соответственно. В примере 3.3 было
показано, что /(1:2;^Г)>/(1:2;У), и следовательно, К не является
достаточной статистикой для пуассоновских популяций. [Ср. Леман (1950а, стр. 3—4).]
8. ЗАДАЧИ
8.1. Вычислите /(1:2; X), /(1:2; Υ\Χ=χ), Ι(\:2;Υ\Χ), /(1:2;Χ,Υ) для
распределений, данных в примере 2.2: (а) когда pf = p§ = p2; (б) когда μ1χ —
= μ2χ; (В) КОГДа μ1ΛΓ = μ2χ, р1у = \Ъу
8.2. Проверьте следствие 3.3, используя соответствующие случаи из
примера 2.1.
8.3. Покажите, что в примере 3.4 равенство имеет место, когда χ —
достаточная статистика.
8.4. Если ft (χ), /2 (χ), f(x) —плотности распределений из однородного
семейства мер, то
■J" Λ <*) ^К^Ц Λ (χ) ^ J Λ (χ) log /Ц- dk (χ).
Когда имеет место равенство?
8.5. Докажите теоремы и следствия раздела 5.
8.6. Каков максимум по ρ величины R(p',fi,f2) в (5.3)?
8.7. Какова величина /(Θ + Δθ*. β), в обозначениях раздела 6, как
квадратичной формы?
81 ЗАДАЧИ 43
8.8· Покажите, что для популяций и статистик примеров 7.1 и 7.2
условия равенства в теореме 4.1 выполнены.
8.9. Положите в выражении (7.5) θ2 = θ-[-Δθ, θ4 =θ. Сравните с
результатами, получающимися согласно разделу 6.
8.10. Положите в выражении (7.7) 61 = θ + ΔΘ, θ2 = θ. Сравните с
результатами, получающимися согласно разделу 6.
8.11. Выведите выражения для gt(y), данные в примерах 7.1, 7.2 и 7.3.
8.12. Покажите, что число «успехов» в выборке из η независимых
испытаний является достаточной статистикой для биномиальных популяций.
8.13. Покажите, что выборочное среднее является достаточной
статистикой для нормальных популяций с одинаковой дисперсией.
8.14. Пусть f(x)— плотность распределения со средним μ и конечной
дисперсией σ2 такая, что f(x) log/(χ) суммируема (Hog£ по определению
равно 0 при г = 0). Покажите, что
$/Wlog/(.)^log(-^)
с равенством тогда и только тогда, когда f (х) совпадает почти всюду
1 / (χ — μ)2\ τη _
с плотностью нормального распределения —— ехр ( — ■ 0 а · ι^Ρ- ВУД"
σκ2π \ ζσ /
ворд (1953, стр. 25), Am. Math. Monthly, vol. 64 (1957, стр. 511 —512),
Шеннон (1948, стр. 629 — 630).]
8.15. Обобщите результат задачи 8.14 на многомерные плотности
вероятности.
8.16. Вычислите /(1, 2; Х)у /(1, 2; Y\X=x)9 /(1, 2; Y\X), J (1, 2; Χ, Υ)
для популяций примера 2.1.
8.17. Вычислите величину /(1, 2; Χ, Υ) в примере 2.1 для p1 = Ps = P,
μ1ΛΓ = v-iy, μ2χ = v-ъу, ν% = «J. Сравните полученную вами величину с 2/(1:2;
X), когда ρ изменяется от — 1 до 1.
8.18. Вычислите /(1, 2), /(1, 2; Оп), /(1, 2; V) для популяций примера
7.3. Каковы соответствующие величины для популяций примеров 7.1 и 7.2?
8.19. Положим в (5.3) /е (χ) = μθ (Ег), х 6 Еи i = 1, 2, θ = 1, 2, где
2 \
SC = U Еь Ει Π £s = °ι f*i (£i) — ^2 (E2)f P = Q =~2" · Покажите, что в этих
условиях R (p; fti /2) = μ! (£t) log fyt (Et) + μχ (E2) log 2μ4 (E2), что совпадает
с величиной /(1:2) для биномиальных распределений при N=1, рг=-
= R (^i)» ft = 1 — Pi = 14 (^2)» Ps == 02 = -9" · [См. ваш ответ в задачах 5.2
(а) и 5.8 гл. 1.] Какова величина R (p; fly /2), если μ1 (Et) = μ2 (Е2) = 1?
8.20. Вычислите величины /(1:2; X), /(1:2; К|АГ=0), /(1:2; Г|А0
Для распределений задачи 5.8 главы 1. Согласуются ли ваши величины
со следствием 3.3 (в)?
8.21. Пусть в выражении /(1:2)= [ ft (x) log f}^\ d\(x), /2 (x) =
J /2 (-*j
-^)/Х(Л),/Л*) = *дП^>^^
al4(^)—характеристическая функция множества Л. Покажите, что для
любого множества Εζ§:
(а) μι (Ε) = λ (Ε{)Α[}Β)Ιλ (Α[\Β), μ, (Б) = 1,
(б) μ2 (Ε) - λ (ΕΓΗ)/λ (Λ), μ2 (θ) = λ (Я ΓΗ)/λ (Λ),
что
44 свойства информации [гл. 2
(в) если λ (Ε) = 0, то μ± (Ε) = μ2 (Ε) = О,
(г) если μ2 (Ε) = 0, то μ, {Ε) = О,
(д) если /2 (л;) = 0, то /х (л:) = О,
(е) /(l:2) = log5^^=-logPa(B).
Отметим, что (е) дает винеровское определение информации, которую
можно получить от знания того, что χ ζ В, когда уже известно, что χ ξ-А
[Пауэре (1956, стр. 44 — 45)].
8.22. Покажите для данных задач 5.8 главы 1, что разбиение ^ = £1UE2,
где Et = (x = Q, у = 0)[)(х=\, у=\) и Е2 = (х = 0, у=\){}(х=\,
у = 0), является достаточным разбиением или что статистика Τ (χ, у) = О
для х=у, Т(х, у) = \ для хфу — достаточная статистика.
8.23. Покажите для данных задачи 5.8 главы 1, что статистика Т(х, у) =
= х не является достаточной статистикой.
8.24. Пусть /г (χ), ί = 1,2,..., η, — плотности распределений,
принадлежащих однородному семейству вероятностных мер, и пусть/?г- $= О, г = 1,2,..., я,
таковы, что Л+/>я + ...+/Ь=1. Если /(*)=αΛ (■*)+АЛ (*) + ■■ ■
η
■. ■ -\-Pm fn (л:),покажите, что максимум величины R (р,-;/0 = \ ( У Pifi (х) X
X log i ) () d\(x) по всевозможным наборам pi достигается для таких р^
f \x) I
J А (х) log fj$Ok (χ)=J/, (x) log^ Λ (χ) =... = J /„ (λ) log^| d\(x)
и что max 7? (pif /Л равен этой общей величине. Покажите также, что
R (Pit fi) =^ y\PiPj J (*> Л* Опишите соответствующую модель связи, как
в конце раздела 5.
8.25. Пусть fi(x)ypiy /=1, 2,..., я, и /(χ) определены так же, как
в задаче 8.24, и предположим, что g(x) есть плотность распределения,
принадлежащего тому же однородному семейству вероятностных мер.
Покажите, что
η
2 л J Л (*) log f|f Л <*> > $ fWlog Щ rf* <*>
с равенством тогда и только тогда, когда ft (x) =f2 (χ) = ...=/„ (χ) [λ].
[Отсюда следует, что для различения ^(л;) «смесь» ft (χ),..., fn (x), данная
посредством /(χ), содержит меньше информации, чем среднее информации,
доставляемых компонентами смеси. См. пример 2.1 гл. 3.]
8.26. Пусть / (х) — плотность распределения случайной величины,
область значений которой ограничена константой V% и пусть /(х) log/(x)
суммируема (t log t равно нулю при t = 0). Покажите, что ^ f (x) log/(x) dx ^
^log(l/V) с равенством тогда и только тогда, когда /(х) совпадает почти
всюду с константой 1/К [Ср. Шеннон (1948, стр. 629).]
8.27. Пусть/(х)— плотность распределения неотрицательной случайной
величины со средним μ такая, что/(х) log/(х) суммируема (Mogl равно
со
нулю при £ = 0). Покажите, что ^ f(x) log/(x) dx^— log μι с равенст-
ЗАДАЧИ 45
т>лм тогда и только тогда, когда f(x) совпадает почти всюду с (Ι/μ^-^/μ,
V^O. [См. Шеннон (1948, стр. 630 — 631).]
^8.28. Рассмотрим дискретную случайную величину а:, которая
принимает значения х19 х2»···, *п и имеет среднее, равное μ, т.е. pj=P(x=J)9
η п
V XjPj— V- Покажите, что 2 Pj^gPj^ Ри — *°ё Μ (β) с равенством тогда
и только тогда, когда pj= щк, ™е ^ (Ρ) = Σ &*Р ^= Σ *#/ =
_ у Xj^j^jL log Μ (β). (См. задачу 8.36.) [Ср. Бриллюэн (1956,
4~\ Λί(Ρ) ^β
стр. 41 —43), Джейнес (1957, сгр. 621—623).]
8.29. Покажите, что /(1:2; К|Х) = 0 тогда и только тогда, когда
/^ {у | χ) = Л2 (у | х) для почти всех χ (см. теорему 2.2 и следствие 3.3).
8.30. Рассмотрим дискретные случайные величины х, у;
η
Ри=Р{х = х»у=уЬ,1=\Л т, У=1,2 я, pim — % ру,
т τη η τη η
p.j= Ϊ3^/'^7>ο, 2 Σ /^ Σ λ·= Σ/ν^1»
ί=ι ί=ι 7^1 ί = ι 7=1
и энтропии определяются равенствами Ш (χ, у) — — ^] Σ Pi f^0^ Pip
7 ^7· ζ7!·
* (У \х) = ЦР|. Я? (У I *l) = - Σ Σλ/!ο8^.
ί ί 7 /**
Покажите, что
(a)30(*,;y) = J0(*)+30(y|*)f
(б) Ж (χ, j)< 30 (χ) +Ж (у),
(в) 50 (у) 5* 30 (у |х).
[Ср. Шеннон (1948, стр. 392 — 396).]
8.3L Действительная функция/(х), определенная в каждой точке
интервала а^х^-Ъу называется выпуклой, если для любой пары а^(хи хЛ^Ъ
ивсехХ1 + Хв=1|Х£^0|/=1Г2,
hf(Xi) + λ,/(*,) </(*Л + λΛ).
Функция называется вогнутой, если λ^^-Ι-λ^/^) ^f(ktx± + *2*s)·
Функция называется строго выпуклой или строго вогнутой, если
равенство достигается, только когда х1=х2. Покажите, что:
(а) Если - \j a ■ ■ существует в каждой точке а^х^Ь, то необходимым
и Достаточным условием выпуклости функции f(x) будет условие
46 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2
(б) Если f(x)—выпуклая функция и а^(хи..., хп)^Ь то
*l/ (*l) + - + V (*ll) ^/ (λΛ + ■ ■ . + *«*п),
^i + X, + ..-+Xn=lf λ,^Ο, i= 1,2,..., It.
b
(в) Если f(x)— выпуклая функция, ρ (χ) :>= 0, \ ρ (x)dx = 1, то
а
Ъ Ь
\ f(x)p (χ) άχ ^f ( 5 */> (a:) tfx).
α α
8.32, Предположим, что ри+рь + ...+ри = 1>Р&Ъ /= 1,2; у ^ 1,2,...,с "
и qij^a^pi^app^ + .^ + ajcPic, i= 1,2; / = 1, 2,..., с, где β^ + β/2 +
+ —+в/с = Ь У=1, 2,...,с и α^ + β2* + ·.· + β^=14 ^ = 1, 2,..., с,
а* 5=0.
с с
Покажите, что / (1 : 2; р) = J A/log |^ ^ Д] ^ log -^ = / (1:2; q)
с равенством тогда и только тогда, когда Pi///?2/=PiAj/P2ft> /ι ^= 1»2,..., с.
8.33. Пусть хь л:2, ...,xft — выборка из значений дискретной случайной
величины, К= Υ (xlt xs,..., хп) — статистика и Ρ (xlt х2,..., хп\ Щ φ О,
г = 1, 2. Покажите, что
Б Г8 Ρ <*„ *2 *„ | Яа) | Я» K-^J ^ l0g Ρ (К=у I tf2) ·
Когда достигается равенство? [Ср. Сэвидж (1954, стр. 235).]
8.34. Рассмотрим пуассоновские популяции с параметрами /^ = 1, /я2 = 2,
ms = 3. Покажите, что [см. задачу 5.2 (в) гл. 1 и последний абзац раздела 3
гл. 1]:
(а) J(1,3)>J(1,2)+ J(2,3),
(б) /7(1,3) >]Λ77ΰ2Γ + |λ7(2,3).
8.35. Покажите, что F(pl9 р2) = Pi bg — +pt log —, 0 ^/?,· ^ 1, явля-
ется вогнутой функцией /^ (/?2) при фиксированном /?2 (pt).
8.36. Пусть в задаче 8.28 χ7·—положительные целые, a pt >0 такое, что
2 ^""^=1. Покажите, что μ5s3tf(p)/P« где 30 (ρ) =— Jj PjlogP/.
В частности, если х/ = у, я= оо, найдите $t и значения ру и μ, для которых
достигается равенство. [Отметим, что это связано с теоремой кодирования
для канала без шума. См., например, Файнстейн (1958, стр. 17 — 20), Шеннон
(1948, стр. 401—403).]
8.37. Пусть 0 <с φ (α£ | χ) ^ 1, ^φ (α* fx) = 1 для всех χ £ ^[λ], рДа,·) =
= J 9 (β/1 x)fj(x) d\ (χ), т. е. φ (α^ | χ) есть вероятность «события» α* при
данном χ, а />у(в;)— вероятность «события» щ при гипотезе Яу, У=1,2.
Покажите, что
и дайте необходимые и достаточные условия равенства. Выведите следствие
3.2 как частный случай этой задачи.
ГЛАВА 3
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
1. ВВЕДЕНИЕ
Неравенство Крамера — Рао, которое дает при определенных
условиях регулярности нижнюю грань для дисперсии оценки, хорошо
известно статистикам из теории оценок. Сзвидж (1954, стр. 238)
предлагает называть его «информационным неравенством», так как
вывод неравенства был дан Фреше (1943) и Дармуа (1945), Рао (1945) и
Крамером (1946а, 19466). Различные расширения сделали Баранкин
(1949, 1951), Бхаттачарья (19466, 1947, 1948), Вольфовиц (1947),
Кифер (1952), Сетх (1949), Фрезер и Гутман (1952), Чэпмен и Роб-
бинс (1951), Чернов (1956, с помощью Чарльза Стейна и Германа
Рубина).
В теореме 2.1 мы выведем неравенство относительно различающей
информации, которое можно рассматривать как обобщение
неравенства Крамера — Рао, или информационного неравенства (если прш-шь
предложение Сэвиджа). [Ср. Кульбак (1954).] Теорема 2.1 играет
важную роль в последующих приложениях к проверке
статистических гипотез. В разделах 5 и 6 мы установим связь теоремы 2.1
(и ее следствий) с классическим информационным неравенством.
2. МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ
Предположим, что ft(x) и /2(лг) — плотносги распределений из
множества вероятностных мер с доминирующей мерой на измеримом
пространстве [SC, $), так что (см. разделы 2, 4 и 7 гл. 2)
μι№)=$/iW<&(■*)> Εξ*, /=1, 2.
Ε
Для данной /а (χ) ищем член множества вероятностных мер с
доминирующей мерой, который является «ближайшим» (или самым
похожим) к вероятностной мере μ2 Β смысле наименьшего направленного
48
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
[ГЛ. 3
расхождения (см. последний абзац раздела 3 гл. 1)
7(1 : 2)= J Λ (jp) log AM.dX(jc>
Так как 7(1:2)^0 с равенством тогда и только тогда, когда
fi(x)=f$(x)[i] (см. теорему 3.1 гл. 2), то ясно, что необходимы
дополнительные ограничения на Λ (л:), если мы хотим, чтобы
«ближайшая» вероятностная мера была мерой, отличной от меры μ2. Мы
потребуем от fi(x), чтобы /(1:2) было минимально при условии, что
t Τ [x)fi (x) dX (χ) = θ, где G — константа, а Υ= Τ (χ) — измеримая
статистика (см. раздел 4 гл. 2). В большинстве случаев θ является
многомерным параметром популяций, но может также представлять
собой некоторую другую нужную характеристику популяций. В главе 5
мы в деталях изучим связь θ с наблюденными выборочными
значениями и значение θ при проверке статистических гипотез. Лежащий
в основе проверки принцип заключается в том, что /2 (х) будет свя-
за но с семейством популяций нулевой гипотезы, а /г (х) будет в
пределах семейства популяций альтернативной гипотезы. Выборочные
величины будут использоваться для определения «сходства» между
выборкой, являющейся возможным членом семейства популяций
альтернативной гипотезы, и ближайшей популяцией из семейства
популяций нулевой гипотезы посредством оценки наименьшего
направленного расхождения или минимума различающей информации. Нулевая
гипотеза будет отвергаться, если оценка минимума различающей
информации окажется значимо большой. [Колмогоров (1956, стр. 104),
Шеннон (1948, стр. 649—650).] [Ср. с концепцией «наименее
благоприятствующего» распределения (Фрезер (1957, стр. 79)) и
«максимума энтропии» оценок (Джейнес (1957)).J Наше требование
эквивалентно минимизации
J [M^)^sj^ + kT(x)Mx)i-lMxfj άλ(χ), (2.1)
где k и /—произвольные постоянные коэффициента.
Используя метод, аналогичный методу раздела 3 главы 2, введем
g{x)=fi(x)lf%(x\ так что (2.1) может быть переписано следующим
образом:
ligi^ogg^ + kT^g^-^lgix^d^ix). (2.2)
Пусть <t(t)=tlogt + kTt + U, t0 = e-kT~1-1; тогда φ(*) = φ(ί0) +
+ (* —*о)?Ч*о) + у@ —'о)аЧ^(*1)> где tx лежит между t и ί0. Но,
как легко проверить, φ(£0) = — ί0, φ'(£0) = 0, φ"(£1)= 1/^^>0, так
2| МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 4
ЧГО
$<Р&С*0)<*ЦяС*) =
где ft(**0 лежит между g(x) и е-*П*)-*--1. Из (2.3) видим, что
Ι φ (g(*))^2 (*)Ξ* - $ ^*Γ<*-*~ι <£μ,(*) (2.4
с равенством тогда и только тогда, когда
g{x) = e-kTW~t-\ [λ]. (2.5
Таким образом, минимум в (2.1) достигается для
/1(jt)=/*(jt)=/a(jt)e-*rw-/-i [λ]. (2.6
В этом случае (2.1) и (2.4) дают
/(* : 2) + кв -f /= - \f%{x)e-bn*)-i-1</Х(х). (2.7
Если мы заменим — k на τ и положим Μ^(τ) = ^/^(χ)β+τΤ^χ)άλ(χ)
Λί3(τ)<^οο, то из (2.6) получим, что 1 =е~1-{ Μ$(τ), а из (2.7) —
что минимум различающей информации равен
/(*:2) = θτ — logAfaOc), (2.ff
где
е=$ тюг№(х)=$ ™'.№™*М =^^-(2.9
для всех τ из интервала, в котором Λί2(τ) конечна. В дальнейшее
мы будем обозначать τ символом τ (θ), когда важно подчеркнуть, что ι
является функцией Θ.
Теперь можно сформулировать [ср. Кульбак (1954), Санов (1957
сгр. 23—24)] следующую теорему.
Теорема 2.1. Если fx (χ)—произвольная, а /2 (х) —
фиксированная плотность распределения из семейства вероятностных
мер с доминирующей мерой и если Υ—Τ(χ) — измеримая
статистика такая, что существуют θ=ζ^Τ(χ)/1(χ)άλ(χ) и
Μ%(τ)—^/%(χ)ехТМάλ(χ) для τ из некоторого интервала, то
7(1:2)^θτ-1οκΛΤβ(τ) = 7(·:2), e = -£logM3(t) (2.10)
50 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
с равенством тогда и только тогда, когда
Λ (■*) =/* С*) = ^Пх)А И/ЛГа (τ) [λ]. (2.11)
Говорят, что /* (х) =/2 (х) exT^x)jM% (τ) порождает
экспоненциальное семейство распределений, т. е. семейство экспоненциального типа,
определяемое посредством/2(лг), когда τ пробегает область допустимых
значений. Экспоненциальное семейство является незначительным
расширением семейства, введенного Купменом (1936) и Питмэном (1936)
при исследовании достаточных статистик. Многие из обычных
статистически интересных распределений таких, как нормальное
распределение, распределение X2, Пуассона, биномиальное, полиномиальное,
отрицательно-биномиальное, и т. д., являются распределениями
экспоненциального типа. [Ср. Блекуэлл и Гиршик (1954), Бранк (1958),
Гиршик и Сэвидж (1951), Эйткен и Сильверстон (1941).]
Для/*(х), определенной равенством (2.11), легко вычислить
J(* 2)= J(/*(x)^/2(x))log^^^(x) = (e^E2(7(x)))T, (2.12)
где E*(T(x)) = \ Τ(χ)Μχ)άλ(χ).
В последующих применениях теоремы 2.1 нам представится случай
ограничить множество популяций семейства с доминирующей мерой,
в пределах которого может находиться f*(x). Будем называть такие
f*(x) и соответствующие значения τ допустимыми. Если не
существует допустимых значений τ, удовлетворяющих уравнению θ =
= (d/dz) log M2 (τ), то минимум различающей информации есть ноль.
Прежде чем перейти к примерам, иллюстрирующим теорему 2.1,
нам хотелось рассмотреть следующие результаты, также связанные
с теоремой 2.1 [Ср. Кульбак (1954), Чернов (1952, 1956, стр. 17—18)].
Предположим, что fx(x), A(x), f(x) — плотности распределений из
однородного семейства вероятностных мер. Используя теорему 3.1
главы 2, имеем (см. задачу 8.4 гл. 2)
= J /(x) log j^-dl(x)^0 (2.13)
или
J /(*) logj^dk(x)^:f(x) log Agj- dk(x) (2.14)
МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ
51
с равенством тогда и только тогда, когда f(x) =/, {χ) [λ]. Если в
теореме 2.1 взять Τ (х)=log (/t (λγ)/Λ (х)), то минимум величины /(/:/3) =
= \ /С*01°ё (ттг) ίίλ(Λτ) при условии, что θ= ι T(x)f(x)dk(x)—
=z[f(x)log(/t(x)/Mx))dk(x) равен
min /(/:/2)= θτ — log Μ* (τ),
Μ, (τ)= J /, (Χ) exp (τlog-^-Ц) <ВД=
= $(ЛИГСЛ(-»))1^Л(х),
α f (Λ (*))« (Λ ί*))1- bg 4й Λ (*)
θ= 4- log Μ2 (τ) = -^ f £^ ,
η
_ exp (τ log ^§-) /, (χ) _ ц ^ у> (χ))
Μ,Μ
Αί,(τ)
(2.15)
(2.16)
(2.17)
(2.18)
Заметим, что если fi(x) и /2(х) являются членами семейства
экспоненциального типа, порожденного некоторой плотностью
распределения, то f(x) — член того же самого семейства.
Отметим следующие значения из (2Л5) — (2.18):
τ
0
1
Μ* (τ)
1
1
/(*>
θ
-/(2:1)
/(1:2)
<Ш2 (τ)
-/(2:1)
/(1:2)
βτ — log Ms (τ)
0
/(1:2)
Предвосхищая обсуждение в разделе 4 [ср. Санов (1957, стр. 18),
Чернов (1952)], уже теперь сформулируем:
(а) с изменением θ от —/(2:1) до /(1:2) τ меняется непрерывно
и строго монотонно от 0 до 1;
(б) Λί3(τ), \ogM%(z) — строго вогнутые функции от τ;
(в) для бит, удовлетворяющих (2.17), θτ — logM^(z) с
изменением τ от 0 до 1 изменяется непрерывно и строго монотонно от О
До /(1:2);
(г) 0^Ж3(т)^1 для O^Tsgl.
52 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
Если θ = 0, то, следовательно, существует τ0, 0<Ч0<[1, такое,
что
НЛ-Л) = ~ log М*Ы— — logw2, w,= inf Λί2(τ), (2.20)
ο<-<ι
0= $ΛΗ1<*£$§·Λ(*)= J/o(Jf)iog-^-a(jf) +
ИЛИ
= ^/ο(^)1ο&^-^(χ) = /(Λ:Λ). (2.21)
Бхаттачарья (1943, 1946a) рассматривал Λί3(Ό Β (2.16) для τ = γ
как меру расхождения между популяциями. Чернов (1952, 1956)
предлагал в качестве меры информации, содержащейся в эксперименте,
величину — log( inf E(e™)). Чернов указывает, что эта информа-
0<τ<1
ционная мера такова, что информация, получаемая от η независимых
наблюдений одной выборочной величины, равна увеличенной в η раз
информации, полученной от одного наблюдения, тогда как
информация, получаемая от наблюдений нескольких различных независимых
выборочных величин, меньше либо равна сумме информации,
получаемых от наблюдения каждой из них. Интересно отметить, что
Шутценбергер (1954, стр. 65) определяет логарифм от производящей
функции моментов (производящая функция семиинвариантов) как
псевдоинформацию, так как она не обладает всеми свойствами
информационной меры.
Пример 2.1. Проиллюстрируем теорему 2.1 простым численным
примером. Пусть /2 (х) = I \pxqN~x—биномиальное распределение с N = 2,
2
Ρ = 0,4, и пусть Τ (χ) = χ. Так как М2 (τ) = ]£j eTXh Μ = (Ре* + qY> то
Q
ρ (X) = *«/, (Х)/М2 (τ) = Q (p*y (**)«-* где ρ* = -J?£—yq*=-pe, + q.
Отметим, что р (х) также является биноминальным распределением. Если
мы желаем, чтобы Ei(A:) = e = l, то 1 = 2ре«1{ре« + <?) = 2Р* и ^^Т*
В качестве возможных распределений с Et (χ) = 1 возьмем
гипергеометрическое
распределение Λ W = ί^)ί^χ]/(^) » « = 4> /» = 4" = « ди"
2] МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 63
скретное равномерное распределение /3С*:)=-^, х=0, 1, 2; дискретное рав-
номерное распределение /4(х)=-г, х = 0, 2, /4(х) = 0, х=1;
распределение /5 (х) = 1, χ = 1, /5 (.ν) = 0, χ = 0, 2; соответствующие численные
величины даны в табл. 2.1.
Таблица 2.1
X
0
1
2
/ι
1
6
2
3
1
6
h
1
3
1
3
1
3
η
1
2
0
1
2
/5
0
1
0
/·
1
4
1
2
1
4
/2
0,36
0,48
0,16
'■-**Я
—0,12835
0,21900
0,00680
0,09745
/aiog^j
—0,02565
—0,12155
0,24466
0,09746
'•**Й
0,16425
0
0,56972
0,73397
/.!<*£
0
0,73397
0
0,73397
f*
—0,09116
0,02041
0,11157
0,04082
Отметим, что /(*:2) является минимальной величиной в таблице 2.1 и
что τ = log (qlp) = log 1,5, log M2 (τ) = 2 log (ρ*τ + g) = 2 log 2q == 2 log 1,2,
θ=1, θτ — log Αί2 (τ) = log 1,5 —2 log 1,2 = 0,405465 — 0,364643 = 0,04082 =
= /(·:2).
Этот пример иллюстрирует также задачу 8.25 главы 2 с/* (х) =
Пример 2.2. Используя статистику К== min (xlt xs, ... , хп),
популяции и результаты примера 7.2 главы 2, найдем
fiJ 1——
g*(y) = (n — T)e-"(»-*)Cv-Wf е2^;у<со.
Так как
оо
„^-»(3--e)rfy = e + ^-, то /(*:2; ^ = ^8,+1)τ-τ82 + 1ο8(ΐ-^,
где «1 + ί = θ2 + ;Γϋ-ί_Ι или , = 1J^_^_<n> и/(*:2; у) =
= η(θ1 — θ2) — log (1 +n (Oi — 6S)). Таккакб1>е2 и x^logO+x) для
*>—1 с равенством тогда и только тогда, когда л: = 0 [Харди, Литлвуд
и Пойа (1934, теорема 142, стр. 103)], очевидно, что
/(1:2; <8Γ) = λ(Θ1 — θ2)^/(*:2; ^=«(6, — θ2)-log (1 -f η^ —θ2)) ^0
с равенством для конечного η тогда и только тогда, когда θ1 = θ2.
54
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
[ГЛ. 3
Пример 2.3. Возьмем в качестве статистики Т(х)—1р(х) [ср.
Фрезер (1951, стр. 145)], где 1Е(х) = 1 для χ £ Ε и Х£(лг) = 0 для χ £ JT —
— Е=Е, т. е. 1С£(лг) — характеристическая функция или индикатор
множества Ε ζ 8 и
J X (jc) Λ (χ) Λ (дг) = J Λ (χ) rfX (jf) = Η (Ε) = θ.
Ε
Теперь имеем
Μ, (τ) = J /*£ W />, (χ) άλ (χ) =
**(*) =
τχβ (χ)
Λί,(τ)
ΛΜ_]
«*/· Μ
βΐ,(£)+μί(β)
μχ (Ε) μ2 (Ε)
θ=μι(£)= £>s (E) - , t=logi _ ,
ε^(Ε) + μ,(Ε)' *ΙΗ(Ε)ΙΗ(Ε) '
Ι (·: 2) =Η (Ε) τ -log (βν, (Ε) + μ. (β)) =
=μι (Ε) kgмзмд _logM|L =
μ, (Ε) μ, (Ε) μ. (Ε)
Таким образом, имеем
/(l:2)^M^log^ + ME)log^
с равенством тогда и только тогда, когда
AW-/*W =
μ2(£)
Отметим, что вышеприведенное является специальным случаем следствия 3.2
главы 2 при Et^=E, E2 = E. (См. задачу 7.19.) Методом последовательного
анализа [Вальд (1947)] в действительности находят разбиение пространства SC
с μ1(Ε)=1 — β, μ2(Ε)==α и без потери информации, так как определяемое
разбиение достаточное.
3] ДОСТАТОЧНЫЕ СТАТИСТИКИ 55
3. ДОСТАТОЧНЫЕ СТАТИСТИКИ
Мы покажем, что Т(х)— достаточная статистика для семейства
экспоненциального типа, порожденного функцией /2 (х). Будем
использовать обозначения и понятия раздела 4 главы 2. В дальнейшем
потребуются следующие леммы.
Лемма 3.1. Если λ — мера на <§*, g—неотрицательная
функция на *&> интегрируемая относительно λΓ~1 = γ, и μ— мера
на $, определенная равенством d[i. = gTdX, то d\bT~1 = (fa =
= gdXT~1 = gd^9 или, что эквивалентно Ex(gT\y) = g(y)[^].
Доказательство. Из равенства μ (Ε) = J gT (x) d\ (χ) и леммы
Ε
4.1 главы 2 следует, что ν(0) = μΤ1 (0) = μ(Τ~1 (G)) = \g(y)d^ {y).
о
[См. Халмош (1950, стр. 209), Халмош и Сэвидж (1949),
Колмогоров (1950, стр. 53), Лоэв (1955, стр. 340).]
Лемма 3.2. Если λ — мера на $, f и h — неотрицательные
функции на SC и *& соответственно, несли/, hT uf-КТ
интегрируемы относительно λ, то
Ei(f-hT\y) = Ex<f\y)h(y)[i\.
Доказательство. Если положить άμ=/άλ, то v(G)=
= \Ex{f\y)d^{y\ По лемме 3.1, приведенной выше, и лемме 4.1
о
главы 2 имеем
SEx{f\y)h{y)d^(y)=\h{y)d^{y)= \ hT(x)dp(x) =
Q О Г-1 (О)
= 5 f(x)hT{x)d\(x) = \Ex(f.hT\y)di(y},
Т-1 (О) С
и утверждение следует из факта единственности в теореме Радона —
Никодима. [См. Колмогоров (1950, стр. 56), Лоэв (1955, стр. 350),
Халмош и Сэвидж (1949).]
Лемма 3.3. Распределение статистики Y—T(x) для х,
принадлежащих популяциям, соответственно с μ* (£)= ^ f*(x)dl(x)
Ε
Ря(£) = $/а(*)ас*) для Е£8, f*(x) = exT{x)Mx)/Mz(z)
Ε
задается соответствующей из формул
v*(Q)=S«*O)*r0'). MO)=\g,{y)d^{y\oe^ (ЗЛ)
о о
*е g*(y) = ev&(y)llb&[il
56 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
ρτΤ{χ) * / \
Доказательство. Так как dp* =f*dl = м VV dk,
v*(q)==j^(^^b)rfrO')=
по лемме 3.2, утверждение следует из факта единственности в
теореме Радона — Никодима.
Заметим, что плотность распределения g*(y) статистики У= Т(х)
порождает экспоненциальное семейство — семейство
экспоненциального типа, определяемое посредством g% (у). В дальнейшем под Т(х)
мы будем подразумевать измеримую функцию, не оговаривая этого
специально.
Теорема 3.1. Статистика Υ= Τ (χ) является
достаточной статистикой для семейства экспоненциального типа,
порожденного /%(х).
Доказательство. Пусть Tj и т2 — два произвольных
значения τ из области, в которой Λί2(τ) конечна, и пусть jf(x) и gf (лг)—
плотности распределений, соответствующие τ£, ί = 1, 2. Из леммы 3.3
вытекает, что
/Г (*) _ ?ιΤ{χ) Μ, fa) _gf (Γ (χ)) г> о
/.· (χ) ~ ?*Тм Μ* Ы ~~Π (τ (χ))L J' l J
или
/i (·*) /a (·*) qi /o q\
gf(rW)"rt(rw)lAi l°·"'
а это и есть необходимое и достаточное условие (4.5) главы 2 для
достаточности статистики Υ= Τ (χ).
Если μ2 — фиксированная мера из однородного семейства мер
в теореме 4.2 главы 2, а ^ — любая мера из того же семейства,
то необходимое и достаточное условие (4.5) главы 2 того, что
У== Τ (χ) — достаточная статистика, может быть записано
следующим образом [ср. Рао (1952, стр. 135), Фрезер (1957, стр. 20)]:
Λ (*)=^Щ}"Л (*) = *м ( ВД)Л 0*0 W, (3.4)
где hn(T(x)) = gl(T(x))ig,(T(x)) — функция 7(*). Видим, что /*(я)
имеет тот же вид, что и fx (x) в (3.4). Следовательно, мы имеем
другое доказательство теоремы 3.1.
Из равенства (3.4) еще не следует, что Т(х) — достаточная
статистика. Условие принадлежности мер ^ и р,2 к однородному
семейству, или, более строго, абсолютная непрерывность \ъг относительно
4] ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 57
μ8, существенно для этого критерия достаточности статистики,
известного как критерий Неймана. Если только fx = 0 не всякий раз, когда
у2 = 0, то й12 не определена, так как ui2=/i/A a если всегда для
некоторого множества Ε, Λ —0 всякий раз, когда /2 = 0, τομι(£;) =
= ^/1rfX = 0 всякий раз, когда ^2(£,)=^/2rfX = 0, или ^ абсолютно
непрерывна относительно μ2. В качестве иллюстрации полезен
пример с равномерными распределениями. (См. пример 7.1 гл. 2.)
Пример ЗЛ. Пусть
I 0, л: < 0, χ > 0lf
Предположим, что θ1 < 02 и положим Τ (χ) = 1, 0^ х^Ь1у Τ (χ) = 0, л: < 0,
л:>61. Тогда/1(^) = 0 всякий раз, когда /2 (л:) — 0, так что μ1 абсолютно
непрерывна относительно μ3. Очевидно, что f± (x) = h1& (T(x))fa (x), где
Λ12(Γ(^)) = (02/Θ1)·1, 0^^<Оь /?12(^W) = (°2/ei)*0, *<0, jofi,.
Следовательно, Τ (χ)—достаточная статистика (ср. пример 2.3). Однако если
Οι > 021 то/ι (л:) не равна нулю всякий раз, когда /2 (х) = 0, т. е. μ1 не
абсолютно непрерывна относительно μ2> и для 02<л:^01 ft (χ) не представима
в виде Л (х) = Л12 (Г (л)) /, (л).
Следствие 3.1. Ясли /(«ч:^; ^)= i/*(^)log^^rfX(jtr) и
Доказательство следует из теоремы 3.1 и теоремы 4.2
главы 2.
Следствие 3.2. £с/ш 6(т,.) = $ T(x)ft (х) άλ(χ) = Ε (Τ(χ)\τί)ί
i=l, 2, то Ι(τχ: τ2) = θ(τι) (τι — τ2) — log^±Щ и J(xu τ2) =
= (β(τ1)-θ(τβ))(τ1-τ5|).
Доказательство. Результат проверяется непосредственным
вычислением. (Ср. задачу 5.6 гл. 1.)
4. ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО
Теперь мы хотим исследовать поведение /(*:2) = θτ — logM^^)
с изменением τ и Θ. [См. Блан-Лапьер и Тортра (1956), Блекуэлл и
Гиршик (1954), Браик (1958), Гиршик и Сэвидж (1951), Кульбак
(1954), Ле Кам (1956), Хинчин (1949, стр. 76—81), Чернов (1952).]
Доказательства следующих лемм предоставляем читателю.
Лемма 4.1. Для всех τ из интервала, на котором функция
Щ{х) существует и конечна, Ж2(т)— неотрицательная, анали-
58 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
тическая и
dMa (τ)
άτ
d*M2 (τ)
J T(x)exT^Mx)dk(x)= ^^ftO)dT(y), (4Л)
J (T(x))*e"™Mx)dk(x) = Jy^ft(y)rfr(y»0. (4·2)
причем равенство достигается тогда и только тогда, когда
1Ь(х:Т{х) = 0)=1.
Лемма 4.2. θ (τ) = f Г (*)/* (χ) dl (χ) = Ug* (y) dyCv) =
<ί Μ' (τ)
= -r- log Λί2 (τ) = тгут-, где f* (χ) и g* (.у) — плотности,
определенные β лемме 3.3.
Будем обозначать через τ (θ) значение τ, для которого θ =
— ^ tog Ms (Я) — Μ, (τ (β))'
Лемма 4.3. £((Γ(λγ) — 6)2 | τ) = £·((3/ — 6)2 |τ) = £>0| τ) =
- J /· w (^W*£? * м = f «· ω (Й5Г *Л « w=
Лемма 4.4.
J (.T(x)-6ff*(x)dk(x). ^{x)^(-)dJ^)Jdk(x)=l.
Лемма 4.5. Если ^(x: T(x) = 6) Φ 1, mo θ (τ) — строго
возрастающая функция τ, α logAis (τ) — строго вогнутая. При
фиксированном θ функция θτ — log7W2(T) — выпуклая функция τ с
максимумом, равным θτ(θ) — log Λί2 (τ (θ)), который является
вогнутой функцией θ.
Лемма 4.6. Если θ (0) = J Τ (χ)/* (χ) d\ (χ) = ^yg^ (у) ώγ (у), то
Θ(0) = ΜΗ0), ЛГа(0)=1, V(0) = E((y-6(0)?\x = 0) = D(y\x = 0y
Лемма 4.7. Если 6 = ' |τ | ^ и μ^ί·^· Γ(λ;) = Θ) ^ 1, wo
Λί,(τ(β» ~ (Αί,ίτίθ))] 3? l0g Ms (ΐ (θ))
и τ (θ) — строго возрастающая функция θ.
Лемма 4.8. /(*: 2) = θτ (θ) — log M% (τ (θ)) ^ 0. Равенство
достигается тогда и только тогда, когда τ(θ) = 0, т. е. Θ = θ (0) =
4]
ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО
59
Лемма 4.9. / (* : 2) = θτ (θ) — log Ж2 (τ (θ)) — монотонно
возрастающая функция при Θ^Θ(Ο) и монотонно убывающая при
Θ^Θ(Ο).
Теорема 4.1. /(* :2) = (θ(τ) —6(0))2/2D(j; |τ(ξ)), где ξ
заключено между θ (τ) и 0(0).
Доказательство. Пусть /(*: 2)== т(6) = θτ (θ) — log Ж2 (τ (θ));
тогда да'(в) = ^да(В)=:т(В), ι^(β) = ^^(θ) = τ'(θ),*ζ(θ(0)) = 0,
даг(В(0)) = 0 и да(6) = да(б(0)) + (в(т) —θ(0))ι»'(β(0)) + 5-(βω —
— О (О))2 w" (ξ), откуда и следует требуемый результат.
В силу теоремы 2.1 и теоремы 4.1 главы 2 можно считать
установленным
Следствие 4.1. /(1:2;Я)^*1{1:2; ^)^{Ег{у) — E*(y)f j
2D (у | τ (ξ)), где £>ΟΙτ00)— дисперсия у с плотностью
распределения, равной еУх<*)д(у)/М%(τ(Ε)), α ξ лежит между Ех{у) и Е%(у).
Равенство между первой парой величин достигается тогда и
только тогда, когда Υ— Τ (χ) — достаточная статистика, а
между второй парой—тогда и только тогда, когда gi(y) =
В частности, если у = а1у1-\- а^ -]-...-{- а^ул, где уь I = 1,
2, ..., k, линейно независимы, измеримые функции от χ (^ «2Г, δ£ =
= Е\{Уд — Еъ(уд> l=h % ..., k, и cov (yiy yj \ τ (ξ)) — ковариация
Vi и J'/» *> y=l, 2, ..., £, при распределении, соответствующем
τ = τ(ξ), то в терминах матриц (и в обычных матричных
обозначениях) Σ (τ (ξ)) = (cov (yh уj I τ (ξ))), α' = (04, α* ..., ч\ δ' = (81э δ2,...
— > δ*)> (АО) — £20))2 = «'δδ'«> βΟ/|τ(ξ)) = α'Σ(τ(ξ))α. Можно
показать (см. раздел 5 гл. 9), что max (α'δδ'α/α'Σ (τ (ξ)) α) для
положительных значений α£, /==1, 2, ..., k, равен δ'Σ"1 (τ(ξ))δ. Итак, мы
можем установить
Следствие 4.2. /(1:2; ДГ) 3*7(1: 2; У) з* у δ' Σ"1 (τ (Ι)) δ.
Заметим, что последний член неравенства следствия 4.2 есть
информация для различения двух многомерных нормальных популяций
с соответствующими средними £ΊΟι)> ^βΟΛ *—1> ···> *> и общей
ковариационной матрицей Σ (τ (ξ)) (см. раздел 1 гл. 9).
Следствие 4.3. J(*, 2) = (θ(τ) — 6(0)f/D(y |τ(ξ)).
Доказательство. Примените метод доказательства теоремы 4.1
к /(*, 2) = (θ(τ) —θ(0))τ(Β).
Следствие 4.4. /(т1:та) = (£0 Ιτι) — Е(У \ъ?рй(у\ *Ш
где ξ лежит между В(гг) и θ(τ2).
Доказательство. Примените метод доказательства теоремы 4.1
к следствию 3.2.
Следствие 4.5. /(ть ^)==(E(y\^)-E{y\^fjD(y\^^)l
где ξ лежит мерсду 6(tj) и θ(τ2).
60 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ ЦЛ. а
Доказательство. Примените метод доказательства теоремы 4.1
к следствию 3.2.
Надо отметить, что предшествующие результаты многомерны не
только по переменным, но также и по параметрам, т. е.
θ = (θ1, β* ..., 0,), τ = (τι, τ2, ..., τΛ) Υ={Υν Υ* ..., Yk) =
= (Ά(χ)ί Γ2(*)> ..., Tk{x))=T{x\
а под θτ, τΤ(χ) и τ К понимаются θ^ -f- θ2τ2 +... -f- θ^τΛ, ^^(л;)-}-
+ τ2^(^) + ··· + τΛ(·*;) и ^yi + ^Ka-j-...-|-τΛKft соответственно.
Полезно переписать некоторые из предшествующих результатов в
соответствующих матричных обозначениях. Запишем
и определим невырожденные матрицы
О* (*) = («&(*)), Η* (*) = (/$(*)),
где π обозначает любую уместную систему параметров, а /, у пробегают
число компонент π, например г, /=1, 2, ..., £, где π есть τ или 0.
Так как
/*(*)_<У*(*)<% ■ д/*(л:) d6s , #*(*) <% ._, 9 .
dty — ae1 dt/ "г ае2 Лу "г" · · ■ "г аей <η7·'y ~~ ' ' * * *' '
то, вводя aij = d6i!dxp невырожденную матрицу A=(a£y), i, j= 1,
2, ..., £,
\f* dt j ~~ \f* <V /* δτ2 ' ···»/* dtj
и аналогично (-ρπ**-) , имеем
If* ~d*]~ \f· дб
\f* dt)\P d% j — Λ\ί* de A ** dej
а переходя к математическим ожиданиям, G*(t) = AO*(6)A.
Аналогичным образом имеем Η*(τ) = ΑΉ*(θ) А. Лемма 4.3 теперь может
быть записана как
Лемма 4.10. Σ(τ(θ))==0*(τ) = Η*(τ) = Α, а лемма 4.4 —как
Лемма 4.11. Σ (τ (Θ)) О» (Θ) = I == О· (τ) Ο* (Θ).
Так как
*J
то, вводя матрицу ((1θ)' —(ift^, c?62, ..., d6k) и аналогично матрицу
(dt)f, имеем (d6) = A(dt) или (dt) = Α"1 ((1Θ). Так как
^1 = Щ^1 + Щ^ + -' + Ща^ /=1,2, ...,Λ,
то можно ввести а,у = дт£/дбу, £, у=1, 2, ..., & и (а17)=А"Л Таким
образом, лемма 4.7 может быть теперь записана как
Лемма 4.12. (αιν') = Α-1 = Σ-1(τ(6)).
Как было отмечено в разделе 6 главы 2, матрицы G*(tc), Η* (π)
являются информационными матрицами Фишера. [Ср. Фишер (1956,
стр. 155).]
Проиллюстрируем предыдущие рассуждения числовыми примерами.
Пример 4.1. Пусть J2?— пространство выборок Оп объема η из
случайной величины, принимающей два значения: успех или неуспех; К=
= Г(д:) — число успехов в η наблюдениях, ар/, ^-=1—рь £=1, 2, —
вероятности успеха, соответствующие гипотезам Й-1У £=1, 2. Находим, что
[ср. задачи 5.2 (б) гл. 1 и 8.12 гл. 2]
/(1:2; Оя) = /г/(1:2; О,) - л (Pl log & + ^ log g), (4.3)
— (Pilog^ + ftlog-g·). (4.4)
£* M^^fw^yHn-yV{ряу> {q*r~y' Ma (τ) = <р*+ч№ <4·5>
/ (*: 2) = Vlt fe) - η log (/^ 0»ι) + ςύ = „ ^ log Ж + ?1 log &) =
_ ("Pi — "Ps)a __ "(Pi—p3)a м-
где ρ =—ί-ί- л = —if? для некоторого значения τ. заключенного
между τ(ρ2) = 0 и τ (Pi) = log^8-, т. е. р лежит между pt и р2. Отметим,
QiPs
что в этом примере
/(1:2; ^Г) = /(1:2; У)=/(*:2).
Пример 4.2. Пусть .^—пространство выборок Оп объема и
из нормальных популяций N(6., а?), 1 = 1, 2, У— Τ (χ) = Λ — среднее
62 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
арифметическое «наблюдений. Находим, что [ср. задачи 5.2 (е) гл. 1 и 8.13 гл. 2]
/(1:2; Oj0 = n/(l:2;OJ=!-(tog J-1+^+ί?!^^), (4.7)
/(1.2,jc)_Tlog^~T + ^ + 2Ϊ| . <48)
в«й й ехР Г- sSr (* - θ*—ΊΓ")Ί
«•"--kw— V-kv.- ■ (49>
Μ
М = ежр(^+§), θ* = θ2+τ-|-,
где θ* = (djdx) log M2 (τ) есть среднее для распределения с плотностью g* (X),
и значения τ для θ* = θ2 и θ* = θ1 соответственно равны
°2
/(•iJO-e^O-^O-^l-'i!^. (4.10)
Отметим, что в этом примере /(1:2; X) >/(1:2; У)>/(»:2). (См.
задачу 7.21.)
Пример 4.3. ^ — то же пространство, что и в примере 4.2, К= Г (л;) =
= (·*» s2)» гДе ■*—среднее арифметическое, a s2= г 2, (xi — %)2 —
несмещенная оценка дисперсии по η наблюдениям. Находим, что
/(1:2; SC) такая же, как в выражении (4.7), (4.11)
/(1:2; X) такая же, как в выражении (4.8), (4-12)
/(l:2;^) = ^(log|-~-l+l), (4.13)
/(1:2; У) = /(1:2; *)+/(!:2; s2) (ср. теорему 2.1 гл. 2), (4.14)
М2 (tlf <cs) σ2 |/2я/|/л
η—3
24
(я-i) /(tt-l)s*\ 2 / (я-1)*\
,|Γ/»-ι\\ 2c| ; exp\ 20| ;·
*.«*4> = [βρ(·Λ+^(ι-^)"
β*=-^1θδΜ5Κ,τ!!)=θ2+^1,
d -2
η—Ι
2
^ -6-».v-i, ^-[l-2vJ/(n-l)]·
41 ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 63
значения zt и τ2 для θ* = θ2, θ* = θ1, σ| = σ|, σ| = σ| соответственно равны
τ1(θ2) = 0>τ1(θ1) = ^^,
/ (*: 2) = βΛ (β,) -βΛ (θ,)- ^Μ. + oft2 (β|) +
+^*(,-ЭД-!в54Е+!тгМ-,+1Ь
=Mt-V + (i-f|ii^i=|ra_1(i(£))6i (416)
где σ2 лежит между σ| и σ§ и
It ° \
2 (*©) = ( П 2σ4 Κδ' = ((θι-02), (σϊ-oD)-
V η— 1 /
Отметим, что в этом примере /(1:2; .#*)—/(1:2; ^)>/(*:2) и что
Yz=T{x) = (X, s2)—достаточная статистика.
Пример 4.4. Пусть SC—пространство выборок Оп объема η из
нормальных популяций N(0t af)t г = 1, 2, Y=T(x) = s2, где (и— l)s2 =
η
= Υ] (л^—χ)2. Находим, что
i = l
/(l:2;0«)-n/(l:2;01)=~(log|--l + -|), (4.17)
/(1:2; s2) такая же, как в выражении (4.13), (4Л8)
g*/^_cTS2&(S2) __
я —3
_ С'4 :Л9)
2* "
("-Ц (("-ШЧ 2 c3Epf (»-Ц«Ч ί4]
σ,Γ^-1\ Ι 2α| j еХЧ 2σ| J' <4J
2
«-«-Ьи-) 2
^ = -^log^W=(l-24(n-I)) '
4*:2) = ,Mo!)+£^log(l_^) =
л — 1
64 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
где σ2 лежит между of и σ|. Отметим, что в этом примере / (1: 2; SC) >
>/(1:2; ^)=/(*:2) и s2 не является достаточной статистикой.
Пример 4.5. SC— то же пространство, что и в примере 4.4, F= Τ (х) =
= — 2, ХЬ Находим, что
/(1:2; J2?) такая же, как в выражении (4.17), (4.21)
/ (1 :2; У) - -J (log £ - 1 + -|), (4.22)
ГС
«=(■-¥) .
«* = -4г log M2 (т)
;(-2)=σ^(σ!)+|ΐο8(ι-^Μ.) =
где σ2 лежит между of и of. Отметим, что в этом примере /(1:2; SC) =
я
= /(1:2; ^) ==/ (* : 2) и — /, xl —достаточная статистика.
Пример 4.6. J2T — пространство выборок Оп объема η из двумерных
нормальных популяций. Будем рассматривать двумерные нормальные
популяции с нулевыми средними, единичными дисперсиями и коэффициентами
корреляции pt и р2 соответственно. Находим, что (см. пример 2.1 гл. 2)
/(1:2; Оп) = п1 (1:2; О,) = η(±log L^| + ^E^f)· (425)
Невырожденное преобразование
# = ^ — x2> ό = ^ -j_ д;2 (4.26)
переводит двумерную нормальную плотность
! ~- ехр [ — (х\ — 29х±ха + *Э \ (4·27)
2π(1-Ρ2)1/2 \ 2(1 —р2) К l V ^ 7 V
4] ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 65
в произведение одномерных нормальных плотностей с нулевыми средними
и дисперсиями 2(1 — р) и 2(l-fp)
/2* (2(1-ρ))1'»
ν 4 (ι—ρ);
Χ -у= π- exP I — ) ■ (4·28)
"" '" " \ 4(1+ρ)/
Τ2π(2(1+Ρ))1/2
Теперь находим [вспоминая вывод (4.17) и соотношение /(1:2; и, «)==
= /(1:2; и) -\-1 (1:2; υ)], что имеет место равенство
„l:li,,„)-i-(l.g 1^-1+|^) +
иллюстрирующее аддитивность для независимых случайных величин (см.
раздел 2 гл. 2) и инвариантность по отношению к невырожденным
преобразованиям (см. следствие 4.1 гл. 2). Берем теперь F== Т(х) — (уи у2), где
1 = 1 ί=1
я /г
(4.30)
и находим, что (ср. пример 4.5)
/(1:2; у) = л/(1:2; и, «)=/(! :2; ДГ), (4.31)
Λί2 (Tlf τ2)
re—2
2
4(1—Ρ
^)Г/^\(4(Г-р*)) €ХР( 4(Г-Р*))Х
η / пу2 \ 2 / пу2 \
п_ η
2 / /. /ι ι _ ч« ч~~2~
м.(*,ч> = (1-!<Ц^) J(i-iii±i^)
О* = 2(1 -ρ·), Of = 2(1+?·), ef = AiogMs(t,,4),
er = g^logM2(T1( <са),
66 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
on D*) — 2(1 —р2) 2(1+р»)
*V Р>- 1_4(1 —ρ2)τι/η » 2(Χ + Ρ>- 1-4(1 + ρ2)τ2/η'
/e:2)^2(l-p0x^P0+llog(l-4(1"^^^
^Wl"2"l0gr=^F+ 1 —pi J--2<Pi-P*> (1-pV (433)
где р лежит между рх и р2. Отметим, что в этом примере /(1:2; ^Г) =
= /(1:2; ^)=/(*:2) У= Т(х) = {уи у&)—достаточная статистика. ,
Пример 4.7. Используем в этом примере результаты, полученные
в примере 4.2 главы 2 и в примере 2.2. В качестве несмещенной оценки
рассмотрим статистику К= Τ (χ) = min (л^, ха, ..., хп) — 1/л. Находим, что
& (У) = п ехр (— я (д> + 1/гг— es))f θ2---ί ^з> <<*>,
/(1:2; У) = п(Ъ1 — θ2), 01^θ. (как в примере 7.2 гл. 2),
(/г - - τ) ехр (— (η — τ) (у -f- 1/л — У), если η > τ,
ехр
(* -ΐ)
Μ* ^ = ——;— » η > τ»
ι
η
-^1θ8Μ2(τ) = θ* = θ2-1 + _ί_ τ(θ2)=0
и τ (θ,) = "(6l~6s) < η, как требовалось, 7(* : 2) = θ,τ (θ,) — θ2τ (θ,) +
+ li^ + i0g(l-l2i)j = „(61-e2)-log(l+n(ei-e!!))= (как в
примере 2.2),
= -~2ea)8(i-fn(t-e8))^^-e^2D (ν Ι * (β)).
где θ лежит между Gt и θ2, θ, 2=θ2=θ2. Отметим, что в этом примере
/(1:2; ЙГ)=/(1:2; у) >/(*:2).
51
БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ
(
5. БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ
В разделе 6 главы 2 исследовалась связь между мерой инфо]
мации по Фишеру и той, которую мы изучаем. Тут мы продолжи
это исследование, чтобы изучить связь между неравенством те<
ремы 2.1 и его следствиями с классическим информационным нер;
венством теории оценок. Предположим, что yt, ί = 1, 2, ..., ι
в следствии 4.2 — несмещенные оценки параметров. В разделе
главы 2 было показано, что при соответствующих условиях регуляг.
ности, с точностью до членов высшего порядка,
2/ (Θ + ΔΘ: Θ; SP) = (ΔΘ)' G (θ) (ΔΘ) = /(θ + Αθ, Θ; JT), (5.1
где (ΔΘ)' = (ΔΘ1} Δθ2, ..., ΔΘΛ) и G(0) — положительно определенна
матрица (g;y(6)),
Sij (6) = J /(*) (щ log/Ц (^ log/(*)) dl (χ), (5.2
Uj=h 2, ..., Κ
Аналогично
2/(θ + ΔΘ:0; ^) = (ΑΘ)Ή(θ)(ΔΘ)=/(θ + ΔΟ, 0; Ψ\ (5.3
где (ΔΘ)' определено выше, а Η (θ) — положительно определенна?
матрица (%(θ)),
Κι (6)=J *ω(-38τ l°s g(yi) (~щ iogi ω) лт ω,
ί, ;=1, 2,..., Λ. (5.4;
Теперь может быть сформулирована [ср. Баранкин (1951), Дармуа
(1945), Крамер (19466)]
Теорема 5.1. При соответствующих условиях
регулярности
(Щ G (θ) (ΔΘ) ^ (ΔΘ)' Η (θ) (ΔΘ) ^ (ΔΘ)' ΣΤ1 (ΔΘ), (5.5)
где (Δθ), G(6), Η (θ) определены соотношениями (5.1)—(5.4), а
Σ — ковариационная матрица несмещенных оценок. Равенство
между первыми двумя членами достигается тогда и только
тогда, когда несмещенные оценки являются достаточными, а
между двумя последними членами тогда и только тогда, когда
g(y) в выражении (5.4) имеет вид eT^yh(y)lM(t(6))t где h(y) не
содержит θ и М^(Ь)) = ^е'"^УН(у)а'{(у).
Доказательство. Воспользуйтесь следствиями 4.1, 4.2, 4.4.
В следующих леммах даны некоторые полезные результаты,
относящиеся к квадратичным формам. [Ср. Баранкин и Герлянд (1951,
стр. 109—110), Кульбак (1954, стр. 749), Рой и Бозе (1953, стр. 531),
Фрезер (1957, стр. 55—56\1
68
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
[ГЛ. 3
Лемма 5.1. Если обе формы х'Ах и х'Сх являются поло-,
жителъно определенными квадратичными формами (в матричных
обозначениях) такими, что х'Ах ^ х'Сх, то
(а) корни уравнения | А — ХС | = 0 действительны и ^ 1;
(б)|А|=3=|С|;
(в) любой главный минор А не меньше соответствующего
главного минора С (в смысле значения детерминанта или
квадратичной формы);
(г) y'c-V^y'A-V;
(д) любой главный минор С * не меньше соответствующего
главного минора А-1 (в смысле значения детерминанта или
квадратичной формы).
Доказательство. Утверждения (а), (б) и (в) немедленно
следуют из известных теорем о квадратичных формах, например из
теорем 44 и 48 у Феррара (1941). Так как А^^С^СА-1 и С~1 =
^^С^АА-1, то существует невырожденная матрица В такая, что
[Бохер (1924), стр. 301] С^В'АВ и А~*=В'СВ. Применение
преобразования х = Ву дает х'Ах = у'В'АВу = у'С-1у> х'Сх = у'В'СВу=
= у'А-1у, откуда непосредственно следуют утверждения (г) и (д).
Заметим, что можно по определению считать, что А^С,
если х'Ах ^ х'Сх для любого действительного вектора (матрицы)
Х^О.
Лемма 5.2. Если А = (ац), l> j = 1, 2,..., k — положительно
определенная матрица, то an^an'2^ail*23^.. .^ап*23"·(Λ_1)^
^ l/яц, где а11-23...; — элемент в первой строке и первом столбце
матрицы, обратной к матрице, полученной из А вычеркиванием
строк и столбцов с номерами 2, 3,..., у.
Доказательство. Рассмотрим две многомерные нормальные
популяции с общей ковариационной матрицей А и разностью средних
а'= (04, а^···» ал)· Как Уже отмечалось в связи со следствием 4.2
(и будет показано в гл. 9), информация для различения двух
многомерных распределений равна /(1:2; X) = у a'A^a. Совместное
распределение величин уг — хъ j/2 = х& уг = хь ..., yk_x = xk также
является многомерным нормальным распределением с ковариационной
матрицей В, получающейся из А вычеркиванием второй строки и
второго столбца [Уилкс (1943, стр. 68)]. Для этого распределения
/(1:2; V)~$'B-% где & = (h fc,..., $k-i)> βι = *ι> Е*з = *з>···
... , §k__x=zak. Но, согласно разделу 4 главы 2, /(1 :2; ^)^/(1, 2; *&)
или α'Α^α^βΒ^β для всех аь а2,..., ak и, следовательно, в
частности, для α2 = 0, β^β Ss β'Β_1β, где С есть матрица А'1 с
вычеркнутыми второй строкой и вторым столбцом. На основании леммы 5.1
можно заключить, что ап^а11*2. Последовательное применение этого
процесса доказывает наше утверждение.
БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ 69
Лемма б.З.Если А — положительно определенная матрица
пчмепноспги k\k, a U — матрица размерности г \k ранга г,
Pr^k!mo a^a^a'U'iUAUT1 Ua, где a'^fa, a* ..., α,).
^Доказательство. Рассмотрим две нормальные многомерные
популяции, описанные в лемме 5.2, для которых 7(1:2; J) = yX
ya'A~!«. Величины уъ j/2,..., уп определенные равенством y = Ux,
где Yz=(yv ..., уг)у х' = С#ъ X* ..., х*), U — матрица размерности
γ ν £ из условия леммы, также распределены нормально с общей
ковариационной матрицей UAU' и разностью средних Ua [Уилкс
(1943, стр. 71)]. Для этого распределения 7(1:2; Ψ) = —-a'U'X
XtUAU'X^Ua. Но, согласно разделу 4 главы 2, 7(1:2; 3?)^
^7(1:2; ^), откуда и следует требуемое утверждение.
Лемма 5.4. Если В — положительно определенная матрица
размерности ky^k, U — матрица размерности г\к ранга г, r^k,
С — матрица размерности k X г /?аяга г, wo §'С'ВС§ ^ β'ΟΊΙ' χ
XiUB-WUCfr где β' = (β!, β*..., РД
Доказательство. Для доказательства положим в лемме 5.3
Вг^А1 и а = С^
Следствие 5.1. Для произвольного а' = (at,... ak),aif i =
= 1, 2,..., &, действительны αΌ(Θ)α^αΉ(θ)α^α'Σ_1α, α'Σα^
^οΉ"1(θ)ο^οΌ~1(β)°» г<^ матрицы G(6), Η (θ), Σ и условия,
при которых достигается равенство, определены в теореме 5.1.
Доказательство. G(0), Η (θ), Σ положительно определены,
так как они являются ковариационными матрицами линейно
независимых величин. Первый ряд неравенств является простым
повторением теоремы 5.1, а второй ряд неравенств следует из леммы 5.1.
Следствие 5.2. Если уέ — несмещенная оценка 6if то о* ^
^"(θ)^£»(θ), /==ι; 2,..., k, где hH(6) и gH(6) являются
Соответственно элементами i-й строки и i-го столбца матриц
Н^ДОц G-i(B).
Доказательство. Используйте для доказательства следствие
5.1 и лемму 5.1.
Следствие 5.3. Если ух — несмещенная оценка въ то\
>p.11.23...(fe--I);- 1
г е g ·23...7·—>элеМент первой строки и первого столбца мат-
РЩы, обратной к матрице, полученной из G(6) вычеркиванием
™<Рок и столбцов с номерами 2, 3,..., j. Аналогичный резуль-
ат имеет место для несмещенных оценок других пара-
70 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
Доказательство. Используйте для доказательства следствие
5.1 и лемму 5.2. Отметим, что gll(Q)=lfgii(Q), если G(6) —
диагональная матрица.
Пример 5.1. В примере 4.1 полагаем ρί=ζρ-\-Δρ, р2~р. Нижняя
грань для дисперсии несмещенной оценки р, равная pqjnt достигается для
оценки p=zyjn.
Пример 5.2. В примере 4.2 полагаем Ьх = θ + Δθ, θ2 = θ, σϊ = °s +
β Λ β °\
-f-Δσ2, σ| = σ2. Находим, что G= , Η = ' и нижняя грань
для дисперсии несмещенной оценки Θ, равная c2jnt достигается для оценки
§==*.
Пример 5.3. В примере 4.3 полагаем Qt = θ -f- Δθ, θ2 — θ, σ| = σ2 -{-
+ Δσ2, σ| = σ2. НаходИМ, что
ffl η\ /Π \ /"2
Нижняя грань для дисперсии несмещенной оценки σ2, равная 2с4/я, т. е. g22,
не достигается с помощью оценки s2, дисперсия которой равна 2σ4/(η—1).
Из примеров 4.4 и 4.5 видно, что, когда среднее популяции известно (мы
использовали нулевые средние), нижняя грань дисперсии несмещенной
η
1 VI s
оценки σ достигается для оценки — У Xi-
Пример 5.4. В примере 4.6 полагаем рг = р + Δρ, р2 = р. Находим, что
G (р) = ( /ι д\а 1 == ^ (Р) и нижняя грань для дисперсии несмещенной
оценки ρ равна (1 — р2)2/и 0 +Р2)- [Ср. Кендалл (1946, стр. 33).]
Теперь мы изменим предположение о том, что yit /=1,2,...
..., ky — несмещенные оценки параметров. Вместо этого предположим,
что £(j/i) = 6i(9i> φ*..., φΓ), 1=1, 2,..., k, k^r, т. е.
параметрами являются <pv..., ψη a j/8- не являются больше несмещенными
оценками этих параметров, которых может быть несколько меньше,
чем у. Определим теперь
μ,/ = ^., ϋ = (μι>), /=1, 2,..., k;j=l9 2,..., г, (5.6)
где матрица U имеет ранг г. Разность математических ожиданий
величин yt для близких значений параметров задается теперь формулой
Δθ£ = θ£ (φ -J- Δφ) — β| (φ) = μ,^Δφ! + . .. + μίΓΔφΓ + Q (Δφ), ИЛИ, В Μ8-
тричных обозначениях, пренебрегая членами высшего порядка,
(Δθ)=ϋ(Δφ). (5.7)
БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ 71
61
Имеем также
J- log/C*)=W/ ^ 1о^*> + · · · + W щ log/W,
φ/ 7=1, 2,..., г, (5.8)
или, в матричных обозначениях,
(^logf(x)) = U'(Alogf(x)). (5.9)
Аналогично
(^logg(y)) = U'(-J-logg(y)). (5.10)
Таким образом, получаем
Ikiog f (x)) &iog f (х))'=и' (£iog f (x)) (■*iog f (х))'и (5л i}
и, переходя к математическим ожиданиям [ср. Фишер (1956, стр. 155)
и раздел 4], имеем
G(cp)==U4j(e)U, (5.12)
где 0(B) — матрица, определенная в (5.2), a G (φ) = (gij (φ)) —
матрица с элементами
»>(?)= ^/(*)(41о8^))(^ю8/и)л(^
/, j =1,2,..., г. (6.13)
Аналогично
Η(φ)=ϋΉ(θ)ϋ, (5.14)
где Η(θ) — матрица, определенная в (5.4), а Н(<р)= (%(<р))— матрица
с элементами
М?)= J ^ω("4 log ^ Су)) (^togicv)) *t(y)>
U y=l, 2,..., г. (5.15)
Теперь может быть сформулирована
Теорема 5.2. При соответствующих условиях регулярности
(Δφ)' G (φ) (Δφ) ^ (Δφ)' Η (φ) (Δφ) ^ (Δφ)' U' Σ^ϋ (Δφ), (5.16)
*te U, (Δφ), G(cp), Η (φ) определены равенствами (5.6), (5.7), (5.12),
(5·14), α Σ = (σί7·), /, у=1, 2,..., &,—ковариационная матрица
*¥ ^E^i- ο, (φ* φ* · - ·, φ,)) · (λ - ey (Ϋ1, φ2,..., φΓ)> Ρα**«-
weo между первыми двумя членами достигается тогда и
только тогда, когда уъ уъ..., yk — достаточные статистики.
авенство между последними двумя членами достигается, если
выполнено условие (5.25), приведенное ниже.
(Ъв\ °гГазательств °- Рассматривая неравенства (5.5) и используя
rJ '' ^ ^ (5-12) и (5.14), получим (5.16) и условия для достижения
пеРвого равенства.
72 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
Рассмотрим теперь условия для достижения равенства последних
двух членов выражения (5.16).
Предположим, что существуют функции zt (х\ /=1,..., г, такие,
что
z = Cy, (5.17)
где
«=[ ; U= ι ;. с=(,<д j-J;j;;;;i (ы8)
и С имеет ранг г. Математическое ожидание zzf=Cyy'C/ дает
S^CSC, (5.19)
где ^! — ковариационная матрица компонент ζ, которые являются
несмещенными оценками <pf. Полагаем R = (LTΣ^ϋ)"1. Леммы 5.4 и
5.1 дают
cfCSC'a ^ a'CURU'C'a', (5.20)
| СЕС | ^ | CURU'C | = | CU |21R |, (5.21)
| CU |2 < | СЕС11 ΙΤΣ^ϋ |. (5.22)
Если Си = 1, то из (5.20) и следствия 5.4 вытекает
аВДСа Ss a'Ra ^ αΉ1 (φ) a s* o'O"1 (φ) a. (5.23)
Отметим, что если элементами матрицы С в соотношении (5.17)
являются константы, не зависящие от параметров, то, используя
равенство (5.7) или условие CU = I, получим
(Δφ) = С (ΔΘ) = CU (Δφ). (5.24)
Если плотность распределения у равна g(y) = ex^yh(y)/M^ (τ (φ)), где
k
τ (?)У= Σ УРь (θι (<Ρι> Ъ> · · · > <ΡΛ · · · » θ* (<Ρι> <Ρ* · · · > φΓ))> λ Q0
i— I
не зависит от параметров (ср. теорему 5.1) и матрица В = (£,Д
bij = d*jfd<pi9 ί=1,..., г; у = 1, ...А имеет ранг г, т. е. если
(-^logg(y))=By, (5.25)
где у определен в (5.18), то
Η(φ) = ΒΣΒ'. (5.26)
Равенство (5.26) получается из (-^-logg(y)] (у-log g (у)) = ВууТ5'
при переходе к математическим ожиданиям. Так как aiy· = дв^дур
U ]=1, 2,..., А, и А = (а,Д то ABr=U,
bJinaiVHC ЗНАЧЕНИЯ llAFAJWtlFUb 73
что по лемме 4.10 равносильно равенству
ΣΒ' = ϋ. (5.27)
Из (5.26) и (5.27) получаем
Η 1(φ)Βϋ = Ι. (5.28)
Используя Η1 (φ) В в качестве матрицы С в неравенствах (5.23),
получим
αΉ1 (φ) ΒΣΒΉ1 (φ) α Ss «'R« ^ «Ή"1 (φ) α. (5.29)
Подстановка (5.26) в (5.29) дает
αΉ"1 (φ) α ^ arRa ^ α'Η1 (φ) α, (5.30)
или Η(φ) = υ'Σ'ϋ, и, таким образом, равенство последних двух
членов выражения (5.16) достигнуто.
Следствие 5.4. Для произвольного аг = (о^, о^,..., ar), af,
/ = 1, ..., г, действительны, a'G(φ)α^а'Н(φ)α^αΊΓΣ^ϋα,
a' (U'S^U)-1 а ^ αΉ-1 (φ)α ^ a'G-1 (φ) а, где матрицы U, G (φ),
Η (φ), Σ ιι условия равенства определены в теореме 5.2.
Доказательство проводится так же, как доказательство
следствия 5.1.
Пример 5.5. Этот пример является продолжением примера 5.4. Возьмем
в качестве g (у) плотность распределения g* (у), определенную в (4.32),
полагая при этом р* = р2 = р. Так как Е(у1) = 2(\—р), £(у2) = 2 (1 -f- ρ),
имеем θ± = 2(1 — ρ), Θ2 = 2(1+Ρ)> φι = ρ, k = 2, r = 1, U = (— 2, 2). При
Ρι = ρ+Δρ, ρ2 = ρ, 1 — р2 = θ4/2, 1 + ρ2 = θ2/2, 1-Ρι = (θ1 + ΔΘ1)/2, 1 + Pl =
= (θ24-ΔΘ2)/2 из первого равенства соотношения (4.29) получаем
а без членов высшего порядка
'»+-=* »-i(^+-iSf).
Таким образом, так как у — достаточная статистика, имеем
η
"(1 + Р*)
4(1_р)*-г4(1+р)а (1-PS)*'
74 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [Гл. з
что равняется величине, полученной в примере 5.4. Так как D (ух) = 2θ?/η
D (ys) — 2θ|/π и cov (ylf y2) = 0, находим, что G (φ) = Η (φ) = ϋ^ΣΓ'ϋ. В со'
ответствии с (5.17) имеем гх — р= τ-0>ι—ei) + -T(Vs — es), т. е.
** — [ 4> 4JI 2Θ| Ι ί Γ 8η ~ η "
Отметим, что CU=1. Мы видим, что дисперсия несмещенной оценки р,
1 П
ζι = (Уг^-уо!* ——У1 ^ι^2ί равна (1 -f- Ps)/rc» что больше нижней грани
П м
для дисперсии несмещенных оценок р, равной (1 — р2)2/я(1 + Р2) [СР- Стюарт
(19596, стр. 528)]. Оценка гх в зависимости от математических ожиданий и
дисперсий Может принимать значения, которые превышают по абсолютной
величине единицу. Из (4.32) видно, что матрица В в условии (5.25) равна
ρ/ η п \
\ 4(1 —р)2> 4(l + p)"J'
так как ^ = — и/4 (1 — ρ), τ2 = — и/4 (1 -f- Ρ) и> следовательно,
/«О-Ρ)3 π \ / »
ΣΒ' = | " ·'
о 1
и / \ 4(1 + р)2'
т. е. выполняется неравенство (5.27). Находим теперь, что
Η-ι^Β-0-рУ ( η « \_( (t + p)s 0-р)М
WD~«(l + P,)\ 4(1 —ρ)·» 4(l + p)2J-V 4(1 + PV 4(1 + P")/·
и, используя Η * (φ) В в качестве матрицы С в (5.17), имеем
^-ρ=-^7Π^^-θι)+ιΤΠ$)(3'2~θ8)==
=(-т-Т(ТТ^)^-2(1-р)) + (т-1ТГТ?))^--2(1+р)) =
= *^-ρ-_π^+*-4)·
Поскольку JB" 0?ι) = 2 (1 — ρ) и Ε (у2) = 2 (1 -f- ρ), так что ^О^+зУ — 4»
рассмотрим оценку г (yly y2) = (y2—y1)l(y2+yi). Так как \r(yltys)\^l и
г (ylt ;у2) непрерывна и имеет непрерывные производные первого и второго
порядка по 3>ι и у2 в окрестности точки (Е (уД £ (У2))» то можно применить
результат, приведенный на 354 странице книги Крамера (1946а), т. е.
ЭФФЕКТИВНОСТЬ 75
Ε (г (yi, Л» = r (£ (*>■ £ (УJ) + ° МО. D (r (и, Л)) = аЮ (yt) +
4-2ab cov (УиУ*) + ^ Ob) + О 0/я8/2), где а и & равны соответственно
а
-Lr(y»yJ> Wr&19 у**' взятым в точке (£(3Ίλ £ Ы)- 'Гак как
^_(14-р)/4, ^ = (1—р)/4, находим, что Ε (г (уь Л)) = Ρ + О (1/п) hD
, /ν ^2))= ί1 ~~ Ρ2)2//β + ^ (V^8)- Оценка г (yIf у2) состоятельна [Уилкс (1943,
теорема (А), стр. 134)], а ее дисперсия, которая меньше, чем D (0>2 —3>ι)/4),
не достигает нижней грани. Взяв двумерную нормальную популяцию
с пятью параметрами (θ4, θ2, of, σ|, ρ) [ср. Кендал л (1946, сгр. 38), который
рассматривал в качестве параметров (6lf 6Sl clf σ2, ρ)], находим
/ 1 Ρ
G — η
σ?(1-ρ2) βΛ(1~Ρ")
Ρ 1
'«Λίΐ-Ρ1) °Ι(1-Ρ8)
2-ρ
0 0 0
ϋ 0 0
ο ο
ο ο
4cJ (1 - ρ2) 4σ|σ1 (1 — ρ2) 2σ|(1_ ρ2)
Ρ2 2-ρ2 ρ
4σ?σ1(1-ρ*) 4σ1(1 —ρ·) 2α« (1 - Ρ1)
Ρ Ρ 1+Pa
\ U υ 2α»(1—ρ«) 2σ|(1 —ρ») (1-ρ:
)2/
Находим далее, что g&5 = (1 — p2)2//z=g-&5-1 = g·5512, g55-123= (2 —ρ2) (1 —
— р2)2/2я, g·55-1237* = l/g-53 = (1 — ps)2/n (1 +p2), что подтверждает следствие 5.3.
Отметим, что £) (г (у19 у2)) приближается к нижней грани gbb (наибольшей
нижней границе дисперсии несмещенной оценки р), когда п—*со.
Видим также, что g-11 = c2//z и gii.s=g-ii-M_=g.ii.284==g.ii.M46==: i/g —
= σ* (1 PS)M Hf = J —g-eS-l ^g-33.12^ g-33.124 = 20} (1 — p4)//l, g-33-1245 _.
= 1/£з8==2с| (1 —pa)/n(l—P2/2), что подтверждает следствие 5.3.
6. ЭФФЕКТИВНОСТЬ
Определим различающуюю эффективность статистики Yz=T(x)
отношением /(1:2; ^)//(1 :2; 37\ Из свойств, рассмотренных в главе 2,
вытекает, что это отношение неотрицательной ^ 1. Равенство
достигается в том и только в том случае, если Υ=Τ(χ) — достаточная
статистика. Когда плотности распределений популяций имеют один и
тот же функциональный вид, но различаются соответствующими
значениями ^-мерного параметра б = (6ь θ8, ... , ΘΛ), мы определяем
различающую эффективность статистики Υ=Τ(χ) в точке θ ^-мерного
параметрического пространства как предел lim (/(θ + ΔΘ:θ;^)//(θ-4-
+ Δθ:θ; 37)1 Δ6^°
Различающая эффективность несмещенных оценок уь i =
*> % ... , в точке θ = (Blt ... , Bk) Α-мерного параметрического
Р°странства может быть определена, следовательно, как
λ = (άβχ Η (θ) (άθ)/(άθ)' G (θ) (άθ). (6.1)
76
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
1гл. з
Возьмем (άθ)Ό(θ)((1θ) в качестве метрики параметрического
пространства [ср. Рао (1945)]. В (5.2) ^(θ) являются компонентами кова-
риангного тензора второго порядка, фундаментального тензора
метрики [Эйзенхарт (1926, стр. 35)]. Так как (άθ)' Η (θ) (Щ ^
^ (άθ)'G (θ) (άθ) и обе квадратичные формы положительно
определены, то корни |Η(Θ) — XG (θ) Ι = 0 действительны, положительны и
все ^ 1. (См. лемму 5.1.) Таким образом, существует действительное
преобразование параметрического пространства такое, что в точке θ
квадратичные формы (6.1) могут быть переписаны в виде
где Xt, λ2, ... , Xk — корни уравнения |Н(0) — XG (θ) | = 0 |Эйзенхарг
(1926, стр. 108)]. Обозначая
cos^'= щ+...+dW 1 = г> 2> · · · ' k> (6-3)
можно записать (6.2) как
X = Xj cos2 <Xi -j- X2 cos2 a2 ~\-... -j- \k cos3 ak. (6.4)
Направления в точке θ, заданные равенствами cosa!=l, cosa2 =
= 1, ..., известны как главные направления, определяемые
тензором hij(b) [Эйзенхарт (1926, стр. ПО)]. Кроме того, в точке 0
конечные максимум и минимум величины X, определенной соотношением
(6.1), достигаются вдоль главных направлений в точке и
действительно являются корнями уравнения | Η (θ) — XG (θ) | = 0. Так как
квадратичная форма (άθ)'G (θ) (άθ) положительно определена, то
величина X конечна вдоль всех направлений [Эйзенхарт (1926, § 33)].
Оценочная эффективность [ср. Фишер (1956, стр. 145—152)]
несмещенных оценок уь у2, ... , yk определяется как произведение
различающих эффективностей вдоль главных направлений в точке Θ,
т. е. (см. лемму 5.1)
9φφ. = λι, Х2, ... , λΛ = |Η(β)|/|0(β)|^1. (6.5)
Так определенная эффективность инвариантна относительно всех
невырожденных преобразований параметров. Равенство имеет место тогда
и только тогда, когда оценки являются достаточными.
Предположим, что мы имеем η независимых наблюдений из
/-мерной популяции с k параметрами. Определим асимптотическую
различающую эффективность несмещенных оценок уь /==1, 2, ... , k,
в точке θ параметрического пространства равенством
ЭФФЕКТИВНОСТЬ 77
61
элементы G (θ) вычисляются для единичного наблюдения из
/-мерной популяции. Так как ((Ш)' 2Г1 ((Ш) ^ η (d9)' G (θ) {OS) и обе
квадратные формы положительно определены, то корни уравнения
Ι2Γ1 — λ/iG (θ)| = 0 (6.7)
ействительны, положительны и ^ 1. (См. лемму 5Л.) Конечный
максимум и минимум (6.6) являются корнями уравнения (6.7) и дости-
аются на главных направлениях, определенных тензором ои в точке Θ,
где ΎΓ* = №
Асимптотическая оценочная эффективность несмещенных оце-
н0К у.9 i=zl, 2, ... , k [ср. Крамер (1946а, стр. 469, 494)],
определяется как произведение асимптотических различающих
эффективности вдоль главных направлений в точке Θ, т. е.
Асимят. эфф. = ХдХ2 ... \k = | Σ 11 /1 nG (Θ) | ^ 1 (n большое). (6.8)
Равенство имеет место для всех п, если выполнены условия
равенства теоремы 5.1. Если | Σ|| G(θ)| ~+п~к, то асимптотическая
оценочная эффективность приближается к единице и корни
уравнения (6.7) также приближаются к единице.
Различающая эффективность смещенных оценок yi9t=l9 2, ...
... , ky теоремы 5.2 в точке у = (уъ ... , <рА) r-мерного
параметрического пространства может быть определена как
1_(*кРУН(у)(|1д>) (69)
(<ϊψ)Ό(φ)(<ϊψ)
где матрицы ϋ(θ), Η (θ) определены равенствами (5.12) и (5.14)
соответственно. Рассмотрения, аналогичные тем, которые включают в себя
соотношения (6.1) — (6.4), позволяют нам установить, что λ,
определенное равенством (6.9), конечно по всем направлениям, конечные
максимум и минимум λ являются корнями уравнения | Η (φ) — XG (θ) | =
= ]U'H(6)U — XU'G(6)U| = 0 и достигаются в точке φ вдоль
главных направлений, определенных тензором /г17(<р), с (ύψ/0(φ)((1φ)
в качестве метрики параметрического пространства. Отметим, что
если статистика Y=T(x) = (yu уь ...>вул) достаточная, то на
основании теоремы 5.2 различающая эффективность равна единице.
Оценочная эффективность смещенных оценок уь /=1, 2, ...
··· у К теоремы 5.2 в точке φ = (φι, <ра, .·· > <рг) r-мерного
параметрического пространства определяется как произведение различающих
эФфективностей вдоль главных направлений в этой точке, т. е.
Эфф-λ λ χ { Η (<р> f 1U'H(B)U|
Qfr)|— | U' G (θ) U |
венство достигается тогда и только тогда, когда статистики доста-
1 очные.
78
НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ
[ГЛ. 3
Асимптотическая различающая эффективность в точке φ =
= (<Ρι> ... , φΓ) r-мерного параметрического пространства
определяется равенством (см. теорему 5.2)
где элементы G (φ) вычислены для единичного наблюдения из
популяции. Величина λ в (6.11) конечна по всем направлениям, и ее
конечные максимум и минимум являются корнями уравнения
| U Σ^ν — InG (φ) Ι = IU' IrlV — λ/iU' G (Θ) U | = 0, (6.12)
т. е. достигаются на главных направлениях, определенных тензором,
компоненты которого суть элементы матрицы ϋ'Σ-1υ.
Асимптотическая оценочная эффективность смещенных
оценок уь уь ... , yk теоремы 5.2 определяегся как произведение
асимптотических различающих эффективностей по «главным направлениям
в точке φ = (φι, ... , <рД г. е.
Асимпт. эфф. = λ,λ, ... V—1Т7Ю"Ш = 1 ιίίΓΟ (θ) UT ^ *
(п большое). (6.13)
Для несмещенных оценок (<pt, φ2, ... , φΓ) с ковариационной
матрицей CSC такой, что CU = I, из неравенства (5.22) видно, что
| (CSC)-11 ^ | ϋ'Σ-1υ |, и, следовательно, гакие несмещенные оценки
имеют не большую асимптотическую эффективность, чем смещенные
оценки, которые мы рассматривали. Кроме того, если условие (5.25)
выполнено и Y=T(x) — (yi, j/2, ··· > Ук) — достаточная статистика,
то асимптотическая эффективность, определенная в (6.13), равна 1 для
всех п.
Пример 6.1. Из примера 5.3 видно, что различающая эффективность
(х, s2) равна единице, как и оценочная эффективность. Тем не менее, так
как корни уравнения
-XnG| =
= 0 есть λ1=1, λ2 =
асимптотическая различающая эффективность при фиксированном σ2, τ. е.
в направлении среднего, равна единице, тогда как асимптотическая
различающая эффективность при фиксированном Θ, т. е. в направлении
дисперсии, равна (и— 1)/и и асимптотическая оценочная эффективность также
равна (п— 1)/и.
Пример 6.2. Из примера 5.5 видно, что различающая эффективность
(Ун .Уа) равна единице, как и оценочная эффективность, с аналогичным
значением для асимптотической различающей эффективности и
асимптотической оценочной эффективности. Асимптотическая различающая
эффективность и асимптотическая оценочная эффективность несмещенной оценки
7] ЗАДАЧИ 79
* = (У1~Л)/4 обе равны (я/(1 +р2))/(и (1 + р2)/(1 - р2)2) = (1 - р«)«/(1 +Р2)2,
что меньше единицы, за исключением случая р2 = 0. У состоятельной оценки
г (Уи 3>з) асимптотическая различающая эффективность и асимптотическая
оценочная эффективность равны (и/(1 — р2)2)/(п (1 +р2)/(1 — р2)2) = 1/(1 + р2),
что меньше 1, за исключением случая р2 = 0. Оценка г (уи у2) более
эффективна, чем (у2— 3Ί)/4. Результат в последней части примера 5.5 и
следствие 5.3 показывают, что не может существовать несмещенной оценки ρ
с асимптотической оценочной эффективностью большей, чем
асимптотическая оценочная эффективность оценки г {уи у2). Отметим, однако, что для
z=-te-^i)/4-p(^+^-4)/2(l+p2),£(2) = p, Я(2) = (1-р2)>(1+р2).
7. ЗАДАЧИ
7.1. Докажите утверждение (приписываемое Чернову),
сформулированное в замечаниях, следующих за (2.21), о поведении — log (inf Ε (ехх)) (как
0<τ<1
информационной меры).
7.2. Докажите следствие 3.2.
7.3. Докажите леммы в разделе 4.
7.4. Покажите, что для распределений Пуассона / (1:2; SF) = / (1: 2; 30 =
= /(*:2), когда Υ=Τ(χ)=χι+χ2+.,. + χη.
7.5. Докажите следствие 4.3.
7.6. Докажите теорему 5.1.
7.7. Докажите следствие 5.4.
7.8. В примерах 4.6, 5.4, 5.5 мы обсуждали достаточную статистику.
Существует ли достаточная оценка параметра р?
7.9. Докажите инвариантность эффективности в определении (6.5).
7.10. Выразите (6.6) как предел отношения, содержащего /(*:2) и
/(1:2; О).
7.11. Можно ли определить различающую эффективность и оценочную
эффективность для статистик и популяций примера 4.7?
7.12. Сравните результаты, полученные в примере 4.7, с результатами,
получающимися при использовании в качестве статистики выборочного
среднего.
7.13. Вычислите J(*, 2) для данных примера 2.3.
7.14. Вычислите J(l, 2; On), J(*, 2) для данных: (а) примера 4.1; (б)
примера 4.2; (в) примера 4.3; (г) примера 4.4; (д) примера 4.7.
if f(x)
7.15. Рассмотрите минимум величины I(f:fi)~ \ f (x) \og~~-^d\ (х)
Τ (χ) f (x) dl (x)=z \f (χ) log чгг\ <*λ {х).
Покажите, что для θ = 0 minl(f:fj) удовлетворяет равенству (2.21). [Ср.
пример 3.1 гл. 5; Чернов (1952, стр. 504).]
7.16. Покажите, что J (Д (χψ (f2 (x))1^ dl (x) < (μ± (£))* (μ2 (Ε))1"*, для
£ζ$Ηθ<τ<1. [Ср. Адхикари и Джоши (1956), Джоши (1957).]
7.17. Покажите, ^о 2{p1—p2)s+^{p1~p2)i^p1\og^+q1\og^-^
о р2 q2
<; ~J~J^L· Cpgf равНьш наименьшему из/Од;, #,·= 1 —Pi,l = 1, 2. [Ср. Шут-
иенбергер (1954, стр. 58—59).]
7.18. Покажите, что J(/0,/2) = τ0/(2:1), где τ0 и /0 (х) определены
в (2.19).
7.19. Примените метод примера 2.3 для доказательства следствия 3.2
главы 2.
80 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3
7.20. Рассмотрите дискретную случайную величину х, которая принимает
значения xltxSi ... , хп с вероятностями Ρ (л: = л:у| HJ^pj, р(х = х*\ И2) =
= 1/я. Используя Т(х)~х в качестве статистики, покажите, что задача 8.28
главы 2 следует из теоремы 2.1.
7.21. Пересмотрите пример 4.2 для случая, когда σ| = σ§.
7.22. Εοηκμ*(Ε) = 1/*(χ)άλ(χ), μ*(Ε) = $Μχ)άΚ(χ), E£*f /*(*)
определена в (2.11), покажите, что
τ max Τ (χ) — log Λί2 (τ) ^ log -^—^ τ min Τ (χ) — log Μ2 (τ), τ > 0,
τ min T(x) — log Μ2 (τ) ^ log ^—^-^ τ max Г (χ) — logAf8(«c), τ<0.
χξΕ ν-ζΚΡ) χζΕ
[Ср. Колмогоров (1950, стр. 42), Чернов (1952, 1956).]
7.23. Пусть в задаче 7.22 /2 (х)= Г J Μ , * = <), 1, ... , и и Г(х) = х;
а
(a)Mf(T) = (I+i-^)nf
»-Jf ν —- П I и я* — .
1 +β*'
2 (") (/>*)* («·)"""*
тогда
(б) /* (*)-Q (/>*)* (<7*)Λ~*, Χ = 0, Ϊ, ... , И, p*=rJ-—,g·
(в) nlog2tf*^log*~°
ДШ"
х=0
:rlog2p* + (n — r)log29*, />*<^,
(г) г log 2р* + (и — г) log 2ς*;
2(")(р*И(9*)П~
Ш7
:l0g£zii__ ^nlog2?*,/?*>!,
лг^О
Σ Ш"
дг = 0
'<г<г
7]
ЗАДАЧИ
7.24. Пусть в задаче 7.22 /2 (х) = ~—- е~х2/2,
]/2π
= х; тогда
(3)Λί2(τ)=*τ2/2,
(б) /*(A-)=~L·^^"^
(в)
оо
tog^ 5=ατ — ^-, τ>0.
α
81
—oo < χ < oo и Γ (.ν) =
7.25. Покажите, что | G (θ) 11 2 | ^ 1, где Σ и G (Θ) определены в
теореме 5.1. Когда достигается равенство?
7.26. Покажите, что | G (φ) 11 ϋ'Σ-1 U |-1^ 1, где Σ, G (φ) и U определены
в теореме 5.2. Когда достигается равенство?
7.27. Найдите /* (х) = етТМ/2 (х)\М2 (τ) и /(*:2), если Γ(χ) = 1+χ,
/ι(*)=Λ?ϊ» ^ = 0, 1, 2, ... , q2=\—p2, Е1(Т(х)) = Ъ=11р1. (Ср. задачу
5.5 гл. 1.)
758. Покажите, что для Μ2(τ), определенной в (2.16), т2, определенной
в (2.20),
*'={*-·т№<р*}· p+q==l·/,>0:
(а) Ma (t) ^ fp/9)>s (£t) + (qlpy-y, (£s),
(б) /^s (Ε,) -f ?μι (Es) s=£ ms.
ГЛАВА 4
ПРЕДЕЛЬНЫЕ СВОЙСТВА
1. ВВЕДЕНИЕ
Основные свойства информационных мер (за исключением
аддитивности), рассмотренные в предыдущих главах, описывались
неравенствами. Закон больших чисел и центральная предельная теорема
дают хорошую аппроксимацию результатов для больших выборок.
Часто можно выяснить асимптотическое поведение и для выборок
меньших размеров. В этой главе мы рассмотрим некоторые
предельные свойства, а в следующей главе будем изучать свойства
асимптотических распределений оценок информационных мер. Изложенные
здесь идеи читатель сможет использовать при решении ряда задач,
которые будут поставлены в последующих главах.
2. ПРЕДЕЛЬНЫЕ СВОЙСТВА
Следующая теорема 2.1 является по существу продолжением
теоремы 4.1 главы 2. Рассмотрим измеримые преобразования TN(x)
вероятностных пространств (&, $, μ^) в вероятностные пространства
(¥, <Г9 ψ\ где
Т-$ (0)= {*: ΤΝ{χ) £ G}, ψ (0) = μ<(7^1 (G)), для G£«Г, /= 1, %
т. е. TN(x) — статистика, а N—объем выборки.
Теорема 2.1. Если TN(x) таковы, что
UmvW(0)=v,(q), /=l, 2, Οξ^, (2.1)
где vf (G) — вероятностная мера, то
/(1:2; ^O^liminf/(1W:2W; У)5г/(1:2; У).
i\T->oo
Выражение /(1^:2^; ^) £c#zo жера различающей информации,
соответствующая vi^(G), G^^, /=1, 2.
2j ПРЕДЕЛЬНЫЕ СВОЙСТВА 83
Доказательство. Получим сначала результат, аналогичный
лемме, использованной Дубом (1936). Из следствия 3.2 главы 2
получим
/(1W:2W; ^)^2vf)(Gy)log^g, (2.2)
у
где сумма берется по любому множеству попарно непересекающихся
Q. таких, что ^==UjOj. Соответственно,
и поэтому
11ш inf/(lW:2W *)5s Уу,(Оу)1о8 Jig|, (2.3)
liminf /(1W: 2<™; ^)^7(1 :2; ^), (2.4)
//--♦oo
поскольку правая часть (2.4) является точной верхней гранью
правой части (2.3) по всевозможным разбиениям пространства Ψ.
Комбинируя теорему 4.1 главы 2 и неравенство (2.4), завершим
доказательство теоремы [ср. Гельфанд, Колмогоров, Яг лом (1956), Кульбак
(1954)].
Как частный случай вышеизложенного возьмем вероятностные
пространства (.Ж*, 8, μ^, μ1? μ2) и допустим, что lim\i^V)(E) = ^i(E)
для всех Ε (^ $. Получим
Следствие 2.1. liminf/(1^):2)^/(1:2).
Л^оэ
Доказательство аналогично доказательству теоремы 2.1.
Для любого разбиения ££ на попарно непересекающиеся Efi
J
liminf/(lW:2)^yH(f/)log^ff·,
Hminf/(lM:2)Ss/(l:2).
Рассмотрим снова вероятностные пространства следствия 2.1
с плотностями
№{E)^\fW){x)dl{x), μί(£)=5/ί(^)ί/λ(^),/=1,2; Εζ%.
Ε Ε
Получим следующий результат.
Лемма 2.1. lira /(1M:1) = 0 тогда а только тогда, когда
lim (f[N\x)jfi{x))— 1 [λI равномерно по χ.
84 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4
Доказательство. Достаточность. Если положить
g{N)(x)=fW(x)/fi(x), то, как показано в теореме 3.1 главы 2,
/(К*>: 1)= J/^(*)i0g*i^dX(*) =
= l2J(gW(x)-lY/P^-dM*)> (2.5)
где Λ^> (λγ) лежит между gW(x) и 1. Для-достаточно больших N и
для всех χ [λ], | gW М-1|<е, * < yL-p ε> 0, так что
O^/ClW.-lxi--^—, и поэтому Hm/(lW:l) = 0.
Необходимость. Если 0^/(1(А): 1)<[ε для достаточно
больших TV мы видим из (2.5), что (dN)(x)~ 1)2//*(Λ°(-*0<2εΐ4 и
мы получаем требуемый результат, гак как h{N)(x) лежит между
g(N)(x) и 1.
Теперь можно сделать следующее утверждение.
fN (х)
Теорема 2.2. Если lim J\ ) !■= 1 [λ] равномерно по χ, то
N~*coJl \xf
lim /(1W:2) = /(1:2), когда /(1:2) конечна.
N~+oo
Доказательство:
/(1™:2) = J/ГЧ*) log /£^-Λ(*)=
= J/Г'W log 4^^W+ί/Γ Wlog^l^),
/(1(Л,):2)~/(1:2) = //^(Л)ЮёЛ^-Л(^) +
+ J(C(*)-/i(*))log|$|dX(*).
Для достаточно больших N имеет место неравенство
|/(lW:2)-/(l:2)|</(lOT:l) + eJ/1(*)|log^|dX(j;X
и поэтому Iim/(1W:2) = /(1:2) (см. задачу 4.17).
;v—со
Пример 2.1. В качестве иллюстрации теоремы 2.1 рассмотрим N
независимых наблюдений из биномиальных распределений с параметрами ри
qi=\—pif i=\, 2. Когда при N—*cot ρι—»0 и Npi —>пц <со, биномиаль-
ПРЕДЕЛЬНЫЕ СВОЙСТВА . 85
ные распределения стремятся к распределениям Пуассона с параметрами
m.^Nph /=lf 2. Находим, что
= tf(Alog-g-+*ilog-|L), (2.6)
OO
/(1:2)== 2~V~{0*^^=(т*~щ)+щ{0*~щ· (2J)
Из неравенства x1\og(xJx2)^x1—x2 (правая часть равенства (2.7)
неотрицательна) и того, что rrii^=Npi7 / = 1, 2, следует, что
или lim inf/(1(ΛΓι:2(ΛΓ,)^/(1:2). В действительности же, как можно ви-
N~*co
деть из первых двух частей формулы (2.8),
lim /(1<">:2<*>) = /(1:2).
Пример 2.2. Для иллюстрации следствия 2.1 возьмем в качестве
μι и μ2 распределения Пуассона с параметрами т1~1 и /я2 = 1,5
соответственно, а в качестве μ^ — отрицательно-биномиальное распределение
(T(N+x)lx\ T(N)) pxq-N-xt q=l+p, p>0, 7V>0, x = 0, 1, 2 ... Если
N-»со, р—*0, Tvp—*m<co, то отрицательно-биномиальное распределение
стремится к распределению Пуассона с параметром т [ср. Уилкс (1943,
стр. 54—55)]. В табл. 2.1 приведены значения отрицательно-биномиального
распределения для N=2, /г = 0,5, # = 1,5, значения для распределений
Пуассона и значения для вычисления /(1^:2) и /(1:2). Численные
значения для отрицательно-биномиального распределения взяты из работы Кохрэна
(1954, табл. 1, стр. 419).
Таблица 2.1
X
0
1
2
3
4+
ρψ\*)
0,4444
0,2963
0,1482
0,0658
0,0453
1,0000
Pi (х)
0,3679
0,3679
0,1839
0,0613
0,0190
1,0000
Р2 (Χ)
0,2231
0,3347
0,2510
0,1255
0,0657
1,0000
p(N) log lpW/p2)
0,30624
—0,03611
—0,07813
—0,04249
—0,01678
0,13273
Pi log (pi/pa)
0,18402
0,03479"
—0,05720
—0,04392
—0,02357
0,09412
86
ПРЕДЕЛЬНЫЕ СВОЙСТВА
[ГЛ. 4
Все значения χ ^4 при вычислении табл. 2.1 были
сгруппированы. Заметим, что /(1^>:2) = 0,13273>0,09412 = /(1:2) и что
0,09412 меньше, чем значение, полученное по формуле
(/^2 —^i) + /^iiog(/^1//^2)=l,5— 1 + 1 log (1/1,5) = 0,09453,
что иллюстрирует утверждение разделов 3 и 4 главы 2 о том, что
при группировке информация уменьшается (см. задачу 4.3).
3. ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА
Предположим, что просгранство W разбито на непересекающиеся
множества Ег и £"2, т. е. Е1(~)Еъ = 0, £V — Ex \J ЕЪ £ —
пространство выборок в η независимых наблюдений. Допустим, что
проверочная процедура заключается в том, что если выборка χ £ Εν мы
принимаем гипотезу Нх (отвергаем 7/2), и если выборка χ £ £2,
принимаем гипотезу Н% (отвергаем Hi). #2 мы рассматриваем как
нулевую гипотезу. Ει называется критической областью. Вероятность
неправильного принятия гипотезы Н19 ошибка первого рода, равна
α = Ρ(χζ^Εί\ //2) = μβ(£i)> a вероятность неправильного принятия
гипотезы Нь ошибка второго рода, равна ф = Р(х ^£,2|Я1)=[л1(£2).
[См. Хоул (1954, стр. 30—35).]
Установим следующий результат.
Теорема 3.1.
(а) 7(1:2; On) = nI(l:2; Ο^β log^ + O _p)IogL=lf
(б) 1(2:1; Ой) = я/(2:1; Q^alog^ + O -oc)!og^,
где Оп обозначает выборку в η независимых наблюдений, а Ох —
выборку, состоящую из одного наблюдения.
Доказательство. Доказательство следует из свойства
аддитивности (теорема 2.1 гл. 2), следствия 3.2 главы 2 и того, что
1_а=ф2(£2)> 1—β = μι(£Ί). (См. пример 2.3 гл. 3.)
Отметим, что правые части неравенств теоремы 3.1 являются
значениями /(1:2) и /(2:1) для биномиальных распределений с /?ι = β>
^ = 1 —р17 #}=! —α, #2 = α [см., например, (2.6), если N=1]. Эти
значения встречаются также в теореме Вальда об эффективности
последовательных испытаний [Вальд (1947, стр. 196—199)]. Заметим,
что (см. задачу 8.35 гл. 2) F(pv Pi)=Pilog(pilpz)-\~qilog(qilq<z)
является вогнутой функцией р% при фиксированном pl9 F(pb /?2) = 0
при ρι=ρ%, монотонно убывает при O^p^^pi и монотонно
возрастает при р1*^Ръ^ 1.
В табл. 3.1 приведены значения F(pb po) для ^^Ο,Οο. (См.
табл. II на стр. 394.)
ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА 87
Таблица 3.1
F(PuPi),Pi = Ofi&
Р2
0,01
0,02
0,03
0,04
0,05
0,10
0,15
0,04129
0,01628
0,00575
0,00121
0,00000
0,01671
0,05074
Р&
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,09394
0,14410
0,20052
0,26322
0,33259
; 0,40936
0,49464
j P2
0,55
' 0,60
0,65
0,70
0,75
0,80
0,85
0,58996
0,69751
0,82036
0,96309
1,13285
1,34161
1,61188
Ра
0,90
0,95
0,96
0,97
0,98
0,99
1,99422
2,65000
2,86147
3,13424
3,51892
4,17690
Для фиксированного значения а, скажем а0, 0<^а0<^1, нижняя
граница минимума всех возможных β (обозначим ее символом β£)
получается из формулы
/(2:1; O0^|(a0log^, + (1-G^logi^) (3.1)
при использовании утверждения (б) теоремы 3.1. Аналогично для
фиксированного значения β, скажем βο,0<^β0<4, нижняя граница
минимума a, ajj, получается из формулы
/(1:2; O0^(i3ologn^ + (l-po)log^). (3.2)
Таким образом, если, например, ηΙ{\ :2; θ!) = 4,17690 и β0 = 0,05,
из табл. 3.1 видим, что а* ^0,01.
Чтобы проследить поведение формул (3.1) и (3.2) при я->оо,
воспользуемся законом больших чисел, или теоремой Хинчина [см.,
например, Крамер (1946а, стр. 253), Феллер (1950, стр. 191)]. Если
/(1:2; Ог) конечна и у нас имеется выборка в η независимых
наблюдений из популяции, соответствующей Нь то
»V g/.(*iM + ёМхп)1
сходится по вероятности к /(1:2; ОД т. е. для любого ε]>0, β]>0
и δ]^>0, для достаточно больших я,
р{^тМ^Ш>^:2· ад+-|Ц<8·
или
ρ W(i: 2; Ού—) ^йЩ^АЩ Ι πλ ^ 1 — Β. (3.4)
Ι /2 \Χΐ) •■•/■2 \Χη) I J
88 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4
Поэтому можно разбить выборки, соответствующие Нь на две
непересекающиеся группы Ег и £2 такие, что выборки из Ег удовлетворяют
неравенству
А (*0 -А (*п) 5* e*W ■■ * о») -)/. (*ι) · ■-А (*„), (3.5)
а выборки из Е% (при условии Н%) появляются с вероятностью,
меньшей чем β, для достаточно больших п. Интегрируя неравенство (3.5)
по Е1У получим
г^Р^Н^еп^'ЪЫ-^Р^Нъ), (3.6)
или для любого значения β, скажем β0, 0<^β0<]1,
lim|k>g^r^/(l:2; OJ. (3.7)
Комбинируя (3.7) с неравенством, которое может быть получено
предельным переходом из (3.2), получим
limllog-L^/(l:2; Р03>
п~*со п ап
^ Urn lf(l - р.) log^ + βοlogy^*). (3.8)
Теперь сформулируем следующую теорему.
Теорема 3.2. Для любого значения β, например β0, 0<^β0<^1,
lim (о©1/я = ^-/(1:2;01) j^a Um (—log-U = /(l:2; Ot).
Доказательство. Пусть £3 обозначает совокупность выборок,
удовлетворяющих условию
^(/(1:2;01)--е)^М^ф^Л_(^я)^^я(/(1:2;01) + е) /3 9)
Λ(*ΐ).-/« (*я) * V ' '
Из (3.3) видим, что Ρ (fa |//ι) 5* 1—β — &· Интегрируя правую часть
неравенства (3.9) по Е& получаем, что
Р(£3 | tfj)< ^(/(Ι:2; °ι)+·)Ρ(Ε8 | Я2). (ЗЛО)
Поскольку EzCLEb где £Ί определено неравенством (3.5), Р(£3| М)^
^Ρ(£Ί|^2), и из (3.10) получаем
1 —p — j^^aasfto^+rto·, (3.U)
Комбинация формул (3.6) и (3.11) дает нам [ср. Джоши (1957)1
(l_P_i)^-«(/(I:2;Oi)+e)^aJ^e-iI(/(l:2;01)-e)e (3.12)
Требуемый результат следует из соотношений (3.8) и (3.12).
3] ошибки первого и второго рода 89
Аналогичным образом может быть доказана
Теорема 3.3. Для любого значения а, например с^, 0<^а0<4,
Нш (Р»1/я = *~/(2:,; 0l) > или lim Д- log -1-) = /(2:1; ОД
Чернов (1956) получил теоремы 3.2 и 3.3, пользуясь усиленной
центральной предельной теоремой. [Крамер (1938).] Чернов указывает,
что эти результаты содержатся в неопубликованной работе Стейна.
[Ср. Санов (1957, стр. 40).]
Отметим, что дроби
/(1:2; X)//(l:2; Y) и /(2:1; Д)//(2: 1; Υ)
из теорем 3.2 и 3.3 могут быть использованы (по крайней мере для
больших выборок) как меры относительной эффективности
конкурирующих переменных X и У в том смысле, что
/(1:2; А) пу 7(2:1; Л) _NV
/(1:2; Υ) ~ηχ > /(2:1; Υ) ~ΝΧ'
где пх, пу и Νχ, Ny соответственно являются объемами выборок,
необходимых для того, чтобы получить для данного β0 то же самое а% и
для данного оо то же β* [см. Чернов (1956)]. Асимптотические
выражения для ошибок первого и второго рода в терминах J(l, 2)
обсуждаются у Мурье (1946, 1951) и Сакагути (1955). Мурье и Сакагути
показывают, что если область Е* определяется неравенством
1 ЛПГА (*ι) ι ι w/i(^)\ ^ ^(1:2; OQ-qj/(2:1; О,)
η li0g/2 (xj ϊ- ·' · "Г 10ё/2 {Xn)) > ^ψ72 '
где
°ϊ=J (log W))*^1 (*)_(/(i :2; 0i))2>
οι = J (log £g}-)2 dm (*) -(/(2:1; O,))2,
так что α* = Ρ(0„££*|//2), 1 - β£ = Ρ(0„ ££* | ЯД то
j. min max (am ря) = j
«-co max (α*, β·)
m^ («*, β*)
lim —: = 1
я^оо φ (/n/(l, 2; ОД/fa + o,))
lim ^nin max (ant
n~>co φ(ΐΛι/(1, 2; ОД^ + а^)
Другой области £le
J^—* f*dt
7=—> а ал> Ρ» — вероятности ошибок для любой
ΐ/2π
90
ПРЕДЕЛЬНЫЕ СВОЙСТВА
[ГЛ. 4
4. ЗАДАЧИ
4.1. Рассмотрим вероятностные пространства («#Г, §, μ^, μχ, μ2) и
предположим, что Iim μψ^ (Ε)=μ2(Ε) для всех Ε £ $. Докажите, что
N-*co
iiniinf/(i:2(iV))^/(l:2).
ΛΓ~»-οο
4.2. Покажите, что для отрицательно-биномиальных распределений
(Τ(Ν+χ)Ιχ\Τ№ΡΪΐΓΝ-χ> qt = l+Pv />,>(>. tf>0, * = 0, 1, % ...,
/ = 1, 2/(1 :2) = Afa log fe/A) -tfft log M?,).
4.3. Если при N~->oo, pi~*0 Npi —► W/ <:со, то
отрицательно-биномиальные распределения в задаче 4.2 стремятся к распределениям Пуассона
с параметрами т,·, /=1, 2. Покажите,
(а) что теорема 2.1 верна;
(б) что lira 7(1^:2^) =/(1:2);
N-♦00
(в) что выполняется следствие 2.1.
4.4. Покажите, что распределения примера 2.1 удовлетворяют условию
леммы 2.1.
4.5. Покажите, что распределения задачи 4.3 удовлетворяют условию
леммы 2.1.
4.6. Покажите, что распределения примера 2.1 удовлетворяют условию
теоремы 2.2.
4.7. Покажите, что распределения задачи 4.3 удовлетворяют условию
теоремы 2.2.
4.8. Вычислите таблицу, аналогичную табл. 2.1, группируя:
(а) все значения х^З;
(б) все значения χ ^2;
(в) все значения х^1.
4.9. (а) Покажите, что для выборки в η независимых наблюдений из
нормальных популяций Nfe, σ2), /=1, 2, 7(1, 2; 0Λ)=«(μ1—μ2)δ/σ2·
(б) Рассмотрим преобразование квантования (или группировку)
нормальных величин из (a), у=\ для x<zg и j> = 0 для x^zg, так что у есть
-(*-μ..)2/2*2
биномиальная величина с ри q-t — 1 —/>,·, pi = ι — dx, i = 1, 2.
Покажите, что 7(1, 2; ^)^n((p1~p2)log(p1lpa) ^(q, —q2) log (qjq2)).
(в) Покажите, что 7(1:2; У) максимальна, когда g = (μι+μ·2)/2, и что
μ-2—μ-ι
2<Т /2/
max J (1, 2; y) = 2n(p1- qt) log |i-, где pt = J ' i-^-«.
— OO
(г) Покажите, что max 7(1, 2; У)/7(1, 2; 0Л) —*2/π при (μ2 — μι)/σ — 0.
(д) Покажите, что max 7(1, 2; У)/7(1, 2; Ол)-*-^- при (μ3 —μ^/σ-^αα
[См. Questions and Answers, Am. Statistician, vol. 7 (1953, стр. 14—15).]
4.10. Если в теореме 2.1 Τ (χ) является достаточной статистикой,
4(G)=:K(T-l(G))t для G£dT, <=1, 2 и Г"1 (G) = {л:: Τ (χ) £ G}, то
Hminf/(lW:2(JV); У)=/(1 :2; у).
Λ7"-» οο
4, ЗАДАЧИ 91
4.11. В обозначениях теоремы 3.1 покажите, что
/(1, 2; 0„)=п/(1, 2; 0l)^(l-«-p)log °~~"^1~~P) ^
^[-Τ-^λ-ία + ΰρ + ν 2—J102" (« + β)/2 J'
4.12. Если 7(2:1; Oi) конечна, покажите, что для любого значения а,
например а0, 0 < а0 < 1,
A^¥IO^^/(2:1;Ol)^Jimco^((1~ae)1Ogl? + a0,Og^%)·
4.13. Докажите теорему 3.3.
4.14. Покажите, что n(7(l:2; Ot) — в)^1 (\ :2; 0ПУ Es)^n (J(\ :2; Ot) +
-f- ε), где область Е3 определяется из (3.9) и 7(1:2; От Es) определяется
в соответствии с (2.4) главы 1. [Ср. Джоши (1957).]
4.15. В обозначениях теоремы 3.2 покажите, что Ρ (Е3\Н2) =^e~w(/(1:2; °^~^
и, таким образом, lim Ρ (Ег \ Н2) = 0, если 7 (1:2; Ot) > ε. [Ср. Джоши (1957),
η —»■ оо
Сэвидж (1954, стр. 46—50).]
4.16. Покажите, что
1, 2п ρ , л о г \
lim—log — =plog-£- + q\og-f-9 Ρ<~<γ, 4 = 1
2 (") T T
(Ср. задачу 7.23 гл. З.)
4.17. Если lim f\ /** = 1 [λ] равномерно, то lira 7 (1: 2(N) = 7 (1:2),
когда 7(1:2) конечна.
4.18. Пусть SC — Ει (J E2 — Ef (J Ε*, где JT — пространство выборок,
определенное в разделе 3, Τ?! f] E2 = 0=Ef f] £*> α = μ2 (Ει) = 1*2 (Ε?) ι
β = μ1(£2) и β* = μι(£?). Покажите, что для β*<β<1—а:
(a) (l-a)log-!=^>(l-a)log l~a
β
(Φ «1ogT-^<alog1-
β*^ 6 Ι — β1
(Β) «logj-^+0 —«)I°g--|^
4.19. В обозначениях задачи 4.18 покажите, что для 1—α<β*<β:
(а) (l_«)logl^>(l-«)logi-=^,
(б) a log γ~ < a log JZTp",
(в) a log γ^ψ + (1 — a) log ~^ϊ- < a log J^J+ (1 — «) log —=A
4.20. В обозначениях задачи 4.18 покажите, что если «log ■ ^-}-
+ (l^a)log~^^>alogT^Ip-+(l — a) log -у^-, το β* <β< 1 —α или
1 — «<β<β*.
92 ПРЕДЕЛЬНЫЕ СВОЙСТВА 1ГЛ. 4
4.21. Предполагая, что
Рю +Р20 + · · · +Рсо = 11 Я/о > 0, ptj= ацри j.„ i + ai2p2j j_ t +...
••• + e£c/W-i> ^i + ei8 + -- + eic=b ^ife + flsfe + ··· +«cfe=l,
β/fe^O, i, ft = lf 2, ..., c;/ = l, 2, ...,
с
покажите, что lim 7 /?-Arlog -^- = 0. [Ср. с задачей 8.32 гл. 2.1
*— I
4.22. Если пространство выборок в задаче 7.28 главы 3—пространство
выборок в η независимых наблюдений и α=μ2(Ζ:1) и β — μιί^)» где
области Et и Е2 определены в той же задаче, то lim (pa-J-tfPJ — O. [Ср.
п-*со
Джоши (1957).]
ГЛАВА 5
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
1. ОЦЕНКА /(*:2)
До сих пор мы изучали меры информации как параметры
популяций или как функционалы на распределениях. Теперь мы будем
изучать оценки этих мер, информационные статистики и исследуем
общую теорию асимптотических распределений этих оценок
(статистик). В частных применениях в следующих главах мы получим
точные распределения, или аппроксимации лучшие, чем те, которые
получаются из общей теории.
В главе 3 мы ввели минимум различающей информации /(*:2),
определяемый как минимальное значение
для данной f^(x) и всех f\(x) таких, что
b = \T{x)fx{x)dk(x).
Минимальное значение /(*:2) = θτ(Θ) — logAi2(t(6)) [см. замечание,
следующее за формулой (2.9) гл. 3] достигается для сопряженного
распределения [мы употребляем термин, введенный Хинчиным (1949,
стр. 79)] с плотностью распределения, определяемой формулой [ср.
Крамер (1938)]
/*(^)=^^A(~ ■ ^W=$*τΤ{χ)Μχ)<ΐλ(χ),
θ = Αΐ08Λί2(τ).
Если /2(х) — плотность распределения п независимых наблюдений,
мы оценим /(*: 2), пользуясь наблюденным в выборке Оп значением
JX-xr) в качестве оценки для Θ, 6(х), и связанной с θ оценкой τ,
ί (χ) = τ(6(χ)) так, что
Пх^Нх)^^^^ ш (1.1)
94
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
1ГЛ. 5
(1.1) означает, что Τ(χ) = [Ε(Τ(χ))]τ==*. [Ср. Бартон (1956), Купер-
ман (1958, стр. 573).] Если существует несколько различных
функций х, которые являются несмещенными оценками Θ, в качестве д(х)
будем использовать ту, при которой 7(*:2) принимает максимальное
значение. Оценкой для 7(*:2) будет тогда
/(*:2; On) = 6(x)x(x)~\ogM^(x)) = ^(d)-\ogM^x(Q)). (1.2)
/(*:2; Оп) в (1.2) есть минимум различающей информации между
популяцией с плотностью /*(х), описанной выше, со значением
параметра Θ, равным выборочному значению Θ, и популяцией с
плотностью /2(-*0. Поскольку /(*:2; Оп)^0, причем равенство
выполняется тогда и только тогда, когда τ —0, т. е. когда θ равен
значению параметра популяции с плотностью /2 (х), /(*: 2; Оп) является
мерой направленного расхождения (ср. раздел 3 гл. 1) между
выборкой и /2(х). Чем больше значение /(*:2; Оп), тем меньше
«сходства» между выборкой и популяцией с плотностью А(х).
Поэтому выборки, дающие одинаковое значение /(*: 2; Ол), называются
эквивалентными, если речь идет о направленном расхождении.
Заметим, что у эквивалентных выборок не обязательно должны быть
одинаковые значения Θ. [Ср. Балмер (1957).] Прежде чем продолжать
рассуждения, проиллюстрируем сказанное выше на некоторых
примерах главы 3.
Пример 1.1. В примере 4.1 главы 3 b = npit так что
T(x)=y=V = npit S(*) = T(A) = logr--^—
Ч« — У) Ρ*
Ϊ(* : 2; Оп) =у log -£- + (η-у) bg^-== n U log £-+q, log £A.
np2 nq2 \ p8 42/
Из значений F (р„ p2), приведенных в табл. II на стр. 394, видно, что
только при р2 = 0,5 эквивалентные выборки действительно имеют
значения Д такие, что \р2—А| = const.
Пример 1.2. В примере 4.2 главы 3 θ — θ^ Г (*)==.* = 6, τ (χ) =
= τ (β) = η (χ — θ2)/σ§ и / (* : 2; Οη) = η{Χ— e2)_2/2cf.
Заметим, что эквивалентные значения χ расположены симметрично
относительно θ2.
Пример 1.3. В примере 4.3 главы 3 θ = (θ1, σ|), так что
Т{х) = (х, s2) = (б,, е»,
Заметим, что здесь эквивалентными будут такие выборки, для которых
значения X и s2 лежат в плоскости (х. s2) на кривой, для которой
/(*:2; 0„) = const.
2} КЛАССИФИКАЦИЯ 95
Пример 1.4. В примерах 4.4 и 4.5 главы 3 мы видели, что
η
•у=:(1/«) J] х\ дает несмещенную оценку θ = σ| с большим значением
/=|
η
7(*:2), чем несмещенная оценка s2, где (п—l)s2= 2 (xi — ·*)2» еСли ги~
потезы предполагают нормальные распределения N(0, σ?). Из примера 4.5
видно, что
'«-■;&-» » /r=*<u-i(*if->+i).
Заметим, что эквивалентные значения ^ не располагаются симметрично
относительно σ|.
Пример 1.5. В примере 4.6 главы 3 для преобразованных переменных
и и г/, определенных формулами (4.26) этого же примера, θ ==(2(1—рх),
2(1+Pi))» так что
Τ (х) = (ylf л) = (2 (1 - Pi), 2(1 + pj),
^(i-W)-i(r^-|-). ^20+^)^(^-1),
/ (*: 2* О ) —
_J»iW?iL=i£_.l+_*_ +iog2<1+PS)_1 , У, )
— 2\Ю* Λ +2(1-P2)^10g Λ '+2(1+Ps)j·
Заметим, что здесь эквивалентные выборки — это выборки, для которых yi
и у.2 лежат в плоскости (ylf у2) на кривой, для которой / (*: 2; Оп) = const.
Пример 1.6. В примере 4.7 главы 3 θ = θ1^θ2 и 6t = L— 1/л, где
£ = min(jfll *й, ..., лгл), t (8i) =л Г/: — — — eaJ/(£ —θβ) и
/(*:2;0„) = «^l^e2)^log(i+«(l-l-~e2^
= л (£ —θ2) — 1 — log « (L — B2).
Заметим, что /(*:2; On) не определена для £<θ2. Для любого значения I
такого, что η (L — θ2) > 1, существует эквивалентное значение V такое, что
η (Lr — θ2) < 1; /(*: 2; Оп) =0 тогда и только тогда, когда η (L — θ2) = 1.
2. КЛАССИФИКАЦИЯ
Мы изложим задачу классификации или отнесения выборки к одной
из нескольких возможных популяций, используя результат,
фактически принадлежащий Куперману (1957, 1958), связывающий
априорные и апостериорные вероятности гипотез с информационными
сгатистиками. Предположим, что выборка Оп появляется, когда
происходит одно из событий группы Ην Нъ ...,//г. Априорные
вероятности этих событий (которые мы можем называть гипотезами)
обозначаются через Ρ (ЯД Р(Щ ... Р(НГ) соогвегственно, где Р(Ят)>0
96 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5
г
и 2] Р(//т)=1. Условные вероятности появления Оп обозначаются
через Р(Оп\Нт), т=\, 2, ..., г. Апостериорная вероятность Нт
при условии, что Оп произошло, обозначается через Р(Ит\Оп). Из
теоремы Байеса (ср. раздел 2 гл. 1) следует, что
р(нт | оп)=р(нт)Р(Оп | нт)12 p(Hj) p(On ι ягд
т=1, 2, ..., г. (2.1)
Предположим теперь, что условные вероятности появления Оп есть
вероятностные меры из экспоненциального семейства (см. раздел 4
гл. 3) с соответствующими плотностями для данного Н^.
Мх) = ех№/(х)/М(%д, М(%д = 1&™/(х)*к(х1 (2.2)
/=1, 2, ..., г.
Для любой пары плотностей (2.2), скажем fi{x) и /2(х), имеем
в силу следствия 3.2 главы 3
7(1:2; Оя) = /(т1:т2; OJ = ΘΛ - ΘΛ - log Λί (τ4) + log Λί Ы (2.3)
где 91 = £'1(7,(jc)) = J Γ^/ιίΛ;)^^). Следовательно, оценка,
определенная в (1.2), равна
/(»:2; 0Λ)=ΐΓ(χ)-1οΕΛ1(τ)-τ2Γ(χ) + 1θδΛ1(τ2), (2.4)
где r(-^) = (rf/^)log7W(t)ji.sr=!^. Аналогично направленное
расхождение между выборкой и популяцией с плотностью fm(x)> m=\,
2, ..., г, равно
/(*: т; Оп) = ΪΤ (х) - log Μ (τ) - zmT (χ) + log Μ (xm),
m=h 2, ..., г, (2.5)
где Τ(x) = (d/dx)\ogΜ(τ)|τ==-. Разность между любой парой
оценок (2.5) соответственно равна (если воспользоваться формулой (2.2))
/(*:/· 0„)-/(*:/; 0„)=τ/7(.ν)-τ/Γ(Λ:)-1ο8Λί(ν) +
+ log Λί (τ,) = log (fj (Χ)/Α (X)), l^j,i,j=l,2,...,r. (2.6)
По формуле (2.1) [ср. формулу (2.3) гл. 1] имеем
' //(*) , Р(Щоп) p(Hj)
i0eM^=l0en^m~logpW)' (2J)
или, используя (2.6),
/(*:/; On)-!(*:j; 0„) = log^[^-log^. (2.8)
31
ПРОВЕРКА ГИПОТЕЗ
97
Если мы отнесем выборку к той популяции, на которую она
больше походит, т. е. для которой /(*:/; Оп) минимальна, то из (2.8)
видим, что
/(*:/; On)-/(*:y; Ow) = log^[^-logJ^^0, (2.9)
или
1 P(Hj\On) P(Hi\On)
Таким образом, эта процедура выбирает популяцию, для которой
отношение апостериорной вероятности Hj к априорной вероятности
Hj максимально. (См. задачу 7.11.) Заметим, что это заключение
справедливо для многомерных экспоненциальных популяций с
параметрами из й-мерного евклидова параметрического пространства. Э^о
то же самое, что метод максимального правдоподобия. [Ср. Гуд
(1950, стр. 62—64, 68—73, 82—83), Сэвидж (1954, стр. 46—50,
134—135, 234—235).] (См. раздел 4.)
Отметим, что левая часть неравенства (2.10) есть информация,
содержащаяся в Оп в пользу Hj (см. пример 4.1 гл. 1).
Во многих задачах, представляющих интерес для статистиков,
плотность /2(лг), входящая в определение /(*: 2; Оп) (см. (1.2)),
пробегает семейство популяций, которое мы будем обозначать символом
Η Пусть /(*: Н) представляет собой минимум /(*: 2; Оп) по
всевозможным /2(лг), принадлежащим //, т. е. /(*: #) —min/(*: 2; 0„). Зна-
чение /(*: Н) является, таким образом, мерой направленного
расхождения между выборкой и тем членом из семейства популяций //,
на который эта выборка больше всего походит. Если значение
параметра β выборки совпадает с значением параметра Θ для одного
из членов семейства популяций //, то, разумеется, /(*:/i) = 0, т. е.
выборка не дает нам никакой информации для различения против Η
Если существуют две или более групп популяций, обозначаемые
для удобства через Нх, //2, //2, ..., то мы относим выборку к группе
популяций с наименьшим из значений /(*: //Д /(*: //2), /(*: //3), ...
Это означает, что мы относим выборку к той группе популяций,
среди которых существует популяция, на которую наша выборка
похожа больше всего, или против которой она дает нам меньшую
различающую информацию. (См. замечание в конце раздела 3 гл. I.)
3. ПРОВЕРКА ГИПОТЕЗ
Будем называть /(*://) статистикой минимума различающей
информации и проверять нулевую гипотезу //2 против
альтернативной гипотезы Нь отвергая //2 в том случае, если Р{/(*:#2) —
/(*://i)3sc|//2}^a. Путем соответствующего выбора константы
98 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5
су на которую величина /(*://а) должна превосходить /(*://t), для
того чтобы гипотеза Я2 была отвергнута, мы можем регулировать
величину ошибки I рода (вероятность того, что мы отвергаем
нулевую гипотезу Нъ когда выборка принадлежит популяции //2). Мы
увидим, что эта процедура обеспечивает критерий с желаемыми
свойствами, когда речь идет о величине ошибки II рода (вероятности
принятия нулевой гипотезы, когда выборка принадлежит популяции
из Hi). [О теории проверки гипотез см., например, Фрезер (1957,
стр. 69—108), Хоул (1954; стр. 30—38, 182—196).]
Прежде чем исследовать свойства статистики минимума
различающей информации, полезно проиллюстрировать эту процедуру. В
нижеприведенных примерах мы будем рассматривать выражение /(*://2) —
— /(* :Hi)^c9 т. е. критическую область, или выборочные значения, на
основе которых мы отвергаем нулевую гипотезу.
Пример 3.1. Предположим, что у нас есть наблюдение х> которое
может быть выборкой в η независимых наблюдений, и мы хотим проверить
нулевую гипотезу И2 о том, что наблюдение принадлежит популяции с
плотностью /2 (л*) при альтернативной гипотезе Ht о принадлежности
наблюдения к популяции с плотностью fx (χ). Взяв в качестве статистики Τ (χ) =
= l°g(A W /Λ W)i имеем в соответствии с процедурой оценки, изложенной
в разделе 1, 6 = log (ft (x) lf2(x))-J43 равенств (2.16), (2.17) главы 3 и (1.1),
1.2) настоящей главы имеем (Na (τ2) и Nt (τ^) определены ниже в контексте)
/(* Г Щ = τ8 log^| - \0gM2 (ΐ2) , Μ2 (τ) = ξ (Λ {x)Y </2 {χ)Υ~τ άλ (χ),
?2 (*) J^ {x)y2 (Λ (χ)) 1 - τ2 άλ (χ) Μ2{χ2) '
Аналогичным образом имеем
/(*: Я,) =;х Iog^|- log Λί, (ΐ,), Λ1, (τ) = J (/, (*))«+* (f2 (χ)Γ* ctk (x),
• (χ) \(Λ W)1+iV, WP юв^л W Νι $ό
Ιοε^ίΜ
$(Λ (χ))1+τΨ* (*)Γτι λ (*) Μι ^
Поскольку N2(i2)[M2(i2) = N1(li1)lM1(i1) = log(f1(x)lf2(x)), то, как показал
Чернов (1952, стр. 504), ia = ii + l, Λί2 (%) = Λί, (ΐ,). Соответственно
/(* : Н2) -/(*: //,)=«,log^-logAf, (%)- (t2- l) log^^ +
+ logMI(i1) = log^g,
f ίχ\
и, следовательно, критическая область определяется неравенством log; -^с.
Это наиболее мощная критическая область, как показывает основная лемма
Неймана и Пирсона (1933). [Ср. Фрезер (1957, стр. 73).]
31 проверка гипотез 99
Пример 3.2. Нам понадобятся некоторые результаты примера 1.1
этой главы и примера 4.1 главы 3. Предположим, что гипотеза Ht
предполагает биномиальное распределение с ρ =pl9 q == 1 —pl9 а гипотеза Н2 —
биномиальное распределение с p=p2i <?2 = 1—\Р* Мы оцениваем θ = ηρ*
посредством пр, где пр=у, q = l—p, а у = Τ (χ) — число наблюденных
успехов в выборке Оп в η независимых наблюдений. Из результатов
примера 1.1 видно, что
/(*:^i)=«(plogA + ^og|-), /(•■•^-)=^logA + iiogAJ.
Поэтому мы отвергаем //2, если (вновь появляющиеся константы мы
обозначаем одним символом, поэтому с не обязательно одна и та же константа
по всему изложению)
или
Р2 42
ИЛИ
* Р2Я1
Когда рх >р2, log (ρ&Ιρύύ > 0 и мы отвергаем Н29 если ppzc С другой
стороны, когда рх <р2, log (ρ^\ρ24ι) < 0, и мы отвергаем//* если ρ < с.
(Этот пример является частным случаем примера 3.1.) (См. рис. 3.1.)
Рис. 3.1. Рис. 3.2.
Пример 3.3. Продолжим рассмотрение примера 3.2, но пусть теперь
гипотеза Нх предполагает биномиальное распределение ср>р2, д=1—р,
а гипотеза Н2 — биномиальное распределение с р~р2, <?2 = 1 —/>2- Ка* и
раньше, мы оцениваем 6 = пр* посредством пр=у, и 1(*:Н2) =
1=5 п (р log (plp2) + £ log (qlq2))- В разделе 3 главы 4 мы заметили, что F (р,р) =
^Р log ф/р) -f- ^ log (q \q)) — вогнутая функция р для данного ρ, F (ρ, ρ) = 0
Дляр—^ монотонно убывает для О^р^р и монотонно возрастает для
P^p«s£l; поэтому/(»://i) = 0f если ρ >р2, и /(»: //i)=n (plog (p/pg) +
4*
100
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
[ГЛ. 5
-|- § log (^/^2)), если ρ </>2. Следовательно, мы отвергаем H2t если р:
P^og (pjp2)-f-q log (qjq2)^ с, т. е. если р^с>/>2. (Си. рис 3.2.) Зд<
>>Р2 и
Р1°К{р1Ра)-^-Яю^{31Яя)^сг т. е. если/>^гс>/>2. (1Ж рис. о:г.) Здесь мы
имеем равномерно наиболее мощную критическую область. [Ср. Нейман
(1950, стр. 325—327).]
Пример 3.4. Продолжим рассмотрение примеров 3.2 и 3.3, но пусть
теперь Н2 предполагает семейство биномиальных распределений с p^pSi
q=^l—pf Hi — семейство биномиальных распределений с p*^pi<Lp2- Как
и раньше, мы оценим 6 = яр* посредством пр=у. В связи^с поведением
функции F(pf ρ), описанным в примере 3.3, /(*:#i)
деляются следующим образом:
/(*:Я2) опре-
Р>р2
Pt^p^p2
Ρ<Ρι
Д*: ЯО
«(/HogJL + Slogl)
«(^logA-Hiogl)
0
/(»: Яа)
0
"(pbg|- + 9logl)
\ Pz Я21
"(pbgA+§i0gl)
\ P2 Я21
Поэтому мы относим выборку к семейству популяций Я2, если р>р,
где р(# = 1—р) удовлетворяет равенству p\og±—\-q\og-^-=plog— -f
Pi Я1 P2
+ ?logf, т. e. p^(\og^)l\ogMl. [Ср. Чернов (1952, стр. 502).]
Я2 л \ qi/ л Р2Я1
Если р =р, то / (*: Щ =1 (*: ЯА) (см. рис. 3.3).
/r*wj—
/гч;—
Пример 3.5. Предположим, что у нас имеется случайная выборка
Оп в η независимых наблюдений и в качестве множества Ε из примера J2.3
главы 3 мы берем интервал 0 ^ χ < со, а в качестве его дополнения Ε —
интервал —со<л;<0. Рассмотрим нулевую гипотезу Н2 о том, что /2 (х)
является плотностью непрерывного распределения такого, что μ2 (Ε) =
ПРОВЕРКА ГИПОТЕЗ
101
^μ^ (Ε) = γ. Используем ρ ~yjn в качестве оценки \Lt (Е) (здесь μ! (Ε)
есть Θ), we y = Jj^T(xi)=y\lp(xi)t т. е. з> — число неотрицательных
наблюдений в выборке, и q = 1 —р. Если альтернативная гипотеза /УА
заключается в том, что /2 (л;) — плотность любого непрерывного
распределения, такого, что μ2 (£) =р ^ —, μ2 (£) = q = 1 —/?, то ? (* : Я2) =
= «(i?log2/>+<? l°g2£) и /(*:Я1) = 0. Поэтому мы отвергаем Я2, если
plog2/5 + #log2$^:c, или plogjS + §log#^c» τ· е· если \β— -9- ^=c·
(См. рис. ЗА) [Ср. Фрезер (1957, стр. 167—169).]
Пример 3.6. Нам понадобятся некоторые результаты примера 1.4
этой главы и примеров 4.4 и 4.5 главы 3. Пусть гипотеза Я,- предполагает
нормальное распределение N(0, σ|), / = 1,2. Будем оценивать θ = с*2
посредством статистики у=Т (x)==(ljn) 2 х\ примера 4.5 (а не посредством
статистики s2 примера 4.4). Из примера 1.4 видим, что
Следовательно, мы отвергаем гипотезу Я2, если
i(*f-+$KK-'+$)»*
ИЛИ
или
-2 „2 ^ С»
или
2^!^ci еСЛИ σ2>σ|, 2Xi^C» еслИ σι<σ1·
(См. рис. 3.5.)
Этот результат — частный случай примера 3.1.
Пример 3.7. Продолжим рассмотрение примера 3.6, но теперь Я2
предполагает семейство нормальных распределений N (0, σ2), с2 ^ σ|, а Я! —
семейство нормальных распределений N(0, σ2), σ2^σ|<σ|. Заметим, что
F (у, cs\ = log (c2/j>) — 1 +3>/σ2 —вогнутая функция 1/с2 для данного у,
F(yt с2) = 0 для σ2=3>, F(y9 с2) монотонно убывает для 0<σ2^^ и
монотонно возрастает для у*^с2 <со. I (*:Ht) и / (* : Я2), следовательно,
равны
у>4
о!<з»<°1
3»«4
/(·:Ηι)
iM-'+ί)
тИ->+*)
0
ί{*:Η2)
0
ihf-'+ί)
ίΚ-'+ί)
102
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
1ГЛ. 5
Поэтому мы относим выборку к семейству популяций Я2, если у > σ2, где
с2 удовлетворяет равенству log —~—1 -|—- = log
_log(°K)
""i/ef-i/oj-
[Ср. Чернов (1952, стр. 502).]
1 +
т. е. с^=:
Если У=с\ то /(•://1) = /(»:Я8). (См. рис. 3.6.)
Пример 3.8. Продолжим рассмотрение примеров 3.6 и 3.7, но теперь
нулевая гипотеза Я2 предполагает нормальные распределения N (0, с2),
σ2^σ!> а альтернативная гипотеза Н1—нормальные распределения N(0, σ2)
с2 < с|. / (*: ЯА) и / (* : Я2) задаются следующим образом:
Следовательно, мы отвергаем Я2, если j><of, и log (сЦу)— 1+3>/с|^с>
т. е. если ^^^<σΙ· Мы получаем равномерно наиболее мощную
критическую область. [Ср. Фрезер (1957, стр. 84).] Если мы рассмотрим Н1 как
нулевую гипотезу, а Я2 как альтернативную, то из соображений симметрии
мы отвергаем Ни если у ^ σ| и log (cf/y) — 1 -(-^Н ^ с» т- е. если у ^ с > σ|.
Если значение σ| не задано, то находят доверительный интервал,
определяемый из формулы log(c2/jv)— 1 + -™^с для параметра cs, с
коэффициентом доверия Ρ [log (os/y) — 1 +}>/cs ^ Φ2] ==1 — α· Можно также сказать,
что выборка дает меньшее, чем хотелось бы, количество информации для
различения против гипотетического значения с2, попадающего в
доверительный интервал. (См. рис. 3.7.)
Пример 3.9. Продолжим рассмотрение примеров 3.6—3.8, но теперь
мы должны будем относить выборку либо к Ни семейству нормальных
щ
ПРОВЕРКА ГИПОТЕЗ
ЮЗ
распределений /V (0, о8), о2 < of, либо к Н3, семейству нормальных
распределений N (О, о2), of^o2sgo§, либо к Ht, семейству нормальных распределений
N(0,°*), с2>с§.
\1(*>Ъ)
/ 7
б
У
Рис. 3.7.
/(*:#ι), Г(*:Н2) и /(*:Я3) задаются таблицей
y>'i
of ^3»<o|
У<°1
Ι(*:Η{\
ίΜ-'+ί)
*Μ->+ί)
0
Д*:Ш
iW-'+ί)
0
τΜ-'+i)
/(* ·- #з)
0
*(**-■+*)
ihf-'+i)
Следовательно, мы приписываем выборку семейству Hit i~
которого /(*:Я£)==0. (См. рис. 3.8.)
Пример 3.10. Рассмотрим
снова пример 3.9, но с нулевой
гипотезой На, предполагающей
семейство #2 и альтернативной гипотезой
^4i предполагающей объединение
семейств #<
1, 2, 3, для
лиЯ3,т е. ΗΑ = ΗΧ\]Η»
Мы видим, что / (*:#4) = 0 для
JV>ci или у<;а* и /(*:Я4) =
= min (/ (* : Ht)t /(*: //,)) для cf <j^
<α| (см. пример 3.9).
Поэтому мы отвергаем Я2, если
У > σ| и log (oi/y) — 1 +^| ^ с, т. е.
если ^^Οσί; или если }><σ?, и
Ιο£(σι/>0 — l+}>/ci^c> те· если}^с<с?. Константы должны быть
определены в соответствии с заданным уровнем значимости. (См. рис. 3.9.)
Пример 3.11. Нам понадобятся результаты примера 1.2. Пусть
альтернативная гипотеза Н1 предполагает нормальное распределение Λ^μ, 1),
104
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
1ГЛ. 5
μ=μ1>μ2, а нулевая гипотеза Н&—нормальное распределение Ν(μ, 1),
μ«^μ2. Оцениваем θ посредством ΰζ=χ, ΐ(*:μ) = η(χ—μ)δ/2. /(* : Hi) и
7(*:Я2) определяются следующим образом:
Χ^μ%
μ2 < Χ < μι
Ι{·ιΗι)
η(χ—μι)*
n(x — V<i)2
2
0
/ (*: Ля)
0
П(^—μ2)2
2
tt(£—μ2)2
Поэтому мы отвергаем #2, если μ2<^<μι, и η (χ—μ2)2/2—η (Χ—μ^β^ε,
или если μ!<^ и η (Χ — μ2)2/2$2β, т.е. если Х^О\ьа* (См. рис. ЗЛО.)
Леман (1949, стр. 2—17) показывает, что эта критическая область
равномерно наиболее мощная.
!'<·*,)
р&г
Рис. 3.11.
^г
Пример 3.12. Продолжим рассмотрение примера 3.11, но теперь
альтернативная гипотеза Н1 предполагает нормальное распределение Ν(μ, 1),
μ = 0, а нулевая гипотеза Н2—семейство нормальных распределений
Ν (μ, 1), μ ^ — μ2, μ ^ μ2. / (* : Ht) и / (*: H2) задаются следующим образом:
Х^— μ2
—μ2 < Χ < μ2
X^V-2
?(*:tfi>
пХ2
2
пХ2
2
пх2
/(* : Ш
0
η(χ—μ2)2
2
0
Поэтому мы отвергаем #2, если —μ2<^<μ3 и п(Х—μ2)2/2 — rix2l2^c,
т. е. если | χ | s^c. (См. рис. 3.11.) Леман (1949, стр. 2—18) показывает, что это
наиболее мощная критическая область, или наиболее мощный метод проверь.
4]
ОБСУЖДЕНИЕ
105
4. ОБСУЖДЕНИЕ
Читатель имел возможность заметить, что τ (χ) есть оценка
максимума правдоподобия τ как параметра плотности распределения
f*(x) [ср. Бартон (1956)]. Действительно, так как
^ log/* (χ) = Т(х)-^ log Μ, (τ),
где (d/άτ) log Ж2 (τ) — строго возрастающая функция τ (см. леммы 4.2
и 4.5 гл. 3), значение τ, для которого (ά/άτ) log/* (χ) = 0,
единственное и задается формулой (1.1). [Ср. Хинчин (1949, стр. 79—81).]
Далее, как можно ожидать из общих соображений, статистика
минимума различающей информации связана с отношением
правдоподобия, лежащим в основе критерия Неймана—Пирсона (1928).
Действительно, мы можем записать [ср. Барнард (1949), Фишер (1956,
стр. 71—73)]
max/* (χ)
/(*:2; 0„) = θΈ(θ)-1οδΛί2(τ(θ))=1ο8-^—, (4.1)
где, как мы помним, /2 (х) =/* (х) для τ = 0, и
max/* (χ)
/(*: Η) = min log \ . (4.2)
/2 ζ Я /aW
Если популяции Н являются членами экспоненциального семейства,
пробегаемого /* (х)} и если мы обозначим область значений τ через
Ω, область значений τ, соответствующих //, через со, то тах/2(лг) =
= тах/*(х) и
τζω
max/*(x)
^■•^=1Ш7^=-1^ (4·3>
где λ — отношение правдоподобия Неймана — Пирсона (см., например,
Уилкс (1943, стр. 150), Хоул (1954, стр. 189—192),
па/ ч тах/*(л;)
?Р*(тахсо)_ τ€ω
Ρ* (max Ω) — max /* (χ)· ^'
106 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1ГЛ. 5
Если //2 означает, что τ^ω2, и Нх — что τ^ω1? то
max/* (χ)
/(* : Щ = log τ€Β „, ., (4.5)
ν " ъ max/* (λ:)' v '
τζ>2
max/* (χ)
max/
7>://»)=log-Spw w
max/* (χ) max/* (л;) max/* (χ)
τζ>2
(4.7)
Заметим, что здесь Ϊ(*:Η<^ — /(*://t) = — log λ*, где отношения
правдоподобия вида
max/* (х)
max /* (χ)
изучались Черновым (1954) для ряда гипотез.
Если Я2 означает, что τ£ω, и //t —что τ^Ω — ω, то /(*:Я1)==0,
если /(*://2)]>0, поскольку /(*:2; Оп) вогнута и неотрицательна.
Проверка нулевой гипотезы //2 теперь зависит только от значения
/(*:#2), потому что, когда /(*://2) = 0, мы принимаем нулевую
гипотезу без дальнейшей проверки.
Несколько простых примеров. В последующих главах мы будем
применять понятия этой главы к целому ряду важных статистических
задач.
Пример 4.1. Допустим, мы хотим проверить нулевую гипотезу об
однородности выборки, т. е. о том, что η независимых наблюдений в выборке
Оп принадлежат одной и той же нормальной популяции, с заданной
дисперсией σ2, при альтернативной гипотезе о том, что наблюдения принадлежат
нормальным популяциям с различными средними, но с одинаковым заданным
значением дисперсии с2. Обозначим нулевую гипотезу через Н2 (μ/σ2) или
Ή2(*|σ2) в зависимости от того, задается или нет среднее, а альтернативную
гипотезу обозначим через Ηι (μ^2) или Hi (·|σ2), также в зависимости от
того, заданы ли различные средние.
я
Пусть Г (*) = (*„ х2 хп) и /, (х) = ТТ еХр l~(Xi-^'W, юг-
·-■-■- σ 1/ 2π
ί=1
да
/(*:2; ед=2 (*Α~Λ-Τ*ή, (48>
i=l
4] ОБСУЖДЕНИЕ 107
где ч удовлетворяет равенству Λ^=μ-|-σ2ν Таким образом получаем
/ (·: Иш №)) =» 2 (*i - μ)2/2*2. (4.9)
Если μ не задано, / (*: //2 (.|cs)) = min/ (*: И2 (μίσ2)) равно
μ-
? (· : Я 2 (.|o*j) = J] (*ί ~ *)2/2с*> * = (^ +... + xn)ln. (4.10)
С другой стороны, если ^(л;) — ^, x2f ..., л:ге), но
то
/ (*: 2; Οη) = 2 (χ^ ~ W*4 - γ *«?). (4·1 1)
£=1
где τ^ удовлетворяет равенству χχ = μέ -[- σ2τ£.
Таким образом, имеем
/ (· : Я, (R/c*)) = J] (*, -μέ)2/2σ2· (4.12)
Если μι не заданы, то для / (*: ЯЛ (·|σ*)) = πιίπ/ (*:#! (μ,*|σ2)) выполняется
ί(·:#ι(·|σ·)) = α (4.13)
Если мы потребуем, чтобы сопряженное распределение из (4.8), т. е.
η
f* ,χ) =h (х) ехР fri*i + ... +τηχη) _ TTexph (Xj — μ— σ2τ/)*/2σ2]
M2 (xlf τ2, ... , τη) LL aV2n
i=I
пробегало нормальные популяции с одинаковым средним, то μ¥ = μ|:=...
... =μ* означает, что μ-\-α2τ1=ι... = μ-{-α2τη,Μΐιιι что допустимы только
значения τ1 = τ2 = ...==τΛ = τ. При таком ограничении из (4.8) следует
ΐ (Я2 (-|σ2): 2; Оп) = «Χτ — щ£ — η ~ τ2, (4.14)
где £ удовлетворяет равенству Χ = μ-}-σ2τ, и (4.14) приобретает вид
/ (//, (·|σ2) : 2; 0„) = л(* —μ)2/2σ*. (4.15)
Отметим, что если ш1==й является «-мерным пространством zit τδ, ... , τΛ,
χο (4.9) равно log (max/* (χ)|/2 (χ)) и что если ω2—подпространство Ω,
τζω2
108 информационные Статистики im. δ
в котором τ1=:τ2==... = τΛ> то (4.15) равно log (max/* (χ)jfs (x)). Из (4.10),
(4.13) и всего предыдущего видим, что (4.7) приобретает вид
2 (Xi -*)*/2с* = 2 (χ._μ)δ/2α2-« (*_μ)*2α2. (4.16)
Гипотеза Н2 (μ|σ2) является пересечением двух гипотез: (i) что выборка
однородна и (ii) что математическое ожидание однородной выборки равно μ.
Переписывая (4.16) в виде
2 (^-μ)·/2σ« = 21(^- Χ)Ψ°* + η(Χ~μ)η2*2 (4.17)
или в виде
/ (* : Я2 (μ[α«)) =/(*: Н2 (·|σ«)) +/ (Я2 (. | σ*): 2; 0„),
мы подчеркиваем, что первый член суммы в правой части есть статистика
минимума различающей информации, лежащая в основе критерия проверки
однородности, а второй член суммы—статистика минимума различающей
информации, лежащая в основе критерия проверки величины
математического ожидания однородной выборки.
Пример 4.2. Предположим, что имеется однородная случайная выборка
От а именно выборка из одной и той же нормальной популяции, и мы
хотим проверить гипотезу о среднем, когда дисперсия не задана. Пусть
гипотеза Н2 (μ, с2) заключается в том, что выборка принадлежит нормальной
популяции Ν(μ, σ2), а гипотеза Н2 (μ) заключается в том, что выборка
принадлежит нормальной популяции со средним μ и неизвестной дисперсией.
Пусть альтернативная гипотеза Hi заключается в том, что выборка
принадлежит к какой-то нормальной популяции.
Если T(x)=z(X} s2), где s2—несмещенная оценка дисперсии, и
η
U (х) =П 0/°Κ2ί) ехр [-(** -μ)δ/2ο2],
то из примера 1.3 этой главы и из примера 4.3 главы 3 видно, что
/(*://2(μ, ^^^-t^-^ + ^Iog^-^J + s^,
где * = μ+*ι(σ8/"), s2 = o*/(l— 2Usl(n — 1)), или
/С://.(ib '*)) =Ξ^Ρή + Ι1^1[^$- 1 +^). (4-18)
Из примеров 4.2 и 4.3 главы 3 видно, что если нормальные популяции
имеют одни и те же дисперсии при Ял и На, т. е. σ| = σ| = σ|, то τ2 = 0
является единственным допустимым значением. Мы придем к тому же
заключению, если потребуем, чтобы дисперсионные параметры в распределении
χ и s2 в выражении плотности g* (у) (см. (4.15) гл. 3) были одинаковы.
Соответственно для / (*: Hs (μ)) мы получим то же самое выражение, что
получили для / (*: Н2 (μ, с2)), за исключением того, что £=μ + ч (°s/w) и
£2 = 0 или ss—σ2, так что
/ (*: Я2 (μ)) = η (x-tffis*. (4.19)
61
АСИМПТОТИЧЕСКИЕ СВОЙСТВА
109
Мы видим, что ?(*://!)= О, и проверка гипотезы #2(μ) зависит только от
значения /(*: Н2 (μ))· Это хорошо известный ί-критерий Стыодента. (См.
задачу 7.8.)
Пример 4.3. Предположим, что мы хотим проверить нулевую
гипотезу о дисперсии нормальной популяции, из которой извлечена случайная
выборка Оп. Пусть гипотеза Н2 (σ2) состоит в том, что выборка извлечена
ΡΙ3 нормальной популяции с дисперсией о2. Видим из (4.18), что
/(·: На (с*)) = min /(* : Я2 (μ, <?)),
μ-
или
/(*: Нг (о·)) = Л=1 (log-£- 1 +-g) . (4.20)
Гипотеза Н2 (μ, cs) в примере 4.2 является пересечением двух гипотез: (i)
среднее однородной выборки равно μ при данном σ2 и (ii) H2 (σ2).
Подчеркнем этот факт, переписав (4.18) в виде
/(·://,(К οί)) = /(//,(.|«1):2; Оп)+1(*:Н2(с*)). (4.21)
5. АСИМПТОТИЧЕСКИЕ СВОЙСТВА
Асимптотическое распределение отношения правдоподобия λ в
некоторых случаях известно. Уилкс (1938а) показал, что при
соответствующих условиях регулярности — 2 log λ асимптотически имеет
распределение χ2 с (k — г) степенями свободы при нулевой гипотезе
о том, что (вектор) параметр лежит на г-мерной гиперплоскости
Α-мерного пространства. Вальд (1943) обобщил теорему Уилкса
на более общие подмножества параметрического пространства и
показал, что критерий отношения правдоподобия имеет
асимптотически наилучшую среднюю мощность и асимптотически
наилучшую постоянную мощность для некоторого семейства поверхностей
в параметрическом пространстве и что он является асимптотически
наиболее точным критерием. [О понятии точности см., например, Фрезер
(1957, стр. 103 —107).] Вальд (1943) также показал, что при
справедливости альтернативной гипотезы распределение — 2 log λ
асимптотически приближается к нецентральному х2-распределению. Чернов (1954)
получил, при соответствующих условиях регулярности,
асимптотическое распределение — 2 log λ* [см. замечание, следующее за (4.7)]. Во
многих случаях — 2 log λ* ведет себя как случайная величина, которая
иногда равна нулю, а иногда χ2. [См., например, Бартлетт (1955,
стр. 225 — 226), Уилкс (1943, стр. 150—152), Фрезер (1957, сгр. 196 —
200), Хоул (1954, стр. 189 —196), о критерии отношения
правдоподобия и его асимптотических χ2 свойствах.]
Куперман (1957) показал, что для случайной выборки в η
независимых наблюдений, при условиях регулярности, которые будут
даны ниже,
2я/=2«[$ f{x, 6)log/^f Λ(*)],_| (5.1)
no
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
[ГЛ. 5
асимптотически распределено как χ2 с k степенями свободы при
справедливости нулевой гипотезы [k — число компонент (вектора)
параметра], где f(x, θ) — плотность вероятности многомерной,
многопараметрической популяции, случайный вектор θ — любая состоятельная,
многомерная асимптотически нормальная, эффективная оценка Θ, и
вектор θ2 определен нулевой гипотезой. Условия регулярности
таковы (ср. раздел 6 гл. 2):
1. Θ = (ΘΑ, θ2, ..., Qk) — точка в параметрическом пространстве Θ,
которое является открытым выпуклым множеством в ^-мерном
евклидовом просгранстве.
2. Семейство популяций, определенное плотностью f(x, θ), θ ζ Θ,
однородно.
3. f(x, θ) имеет по всем компонентам θ из θ непрерывные
частные производные первого и второго порядка для χ ζ Χ [λ].
4. Для всех θ ζ θ
$-^3^Λ<*>=°· I4$brd4x)z=0' i>j=i>2>->k·
5. Интегралы
^ao=Saiogy,a)aiog^,a)/(^ β>*(*λ и 7=i, a,... k,
конечны для всех θ ζ θ.
6. Для всех θζθ матрица С(Θ) = (с^(Θ)) положительно
определена.
Если вместо одной выборки, как ранее, у нас имеется г
независимых выборок объема пь 1=1, 2, ..., г, и каждая с
состоятельной многомерной асимптотически нормальной эффективной
оценкой θ£ = (θη> 6ia, ..., 6fft) (1=1 у 2, ..., г), то, как показал Куперман
(1957), при вышеуказанных условиях регулярности
г г
распределена асимптотически как χ2 с £г степенями свободы, если
справедлива нулевая гипотеза о том, что г выборок принадлежат
одной и той же популяции с плотностью распределения f(x, q).
Куперман (1957) показал также, что при справедливости нулевой
гипотезы о принадлежности г выборок к одной и той же популяции
с плотностью, функциональный вид которой известен, но неизвестны
параметры,
г г
2jinili = 2jini[f{x,bi)\og^^-d4x)\ _л (5.2)
5j АСИМПТОТИЧЕСКИЕ СВОЙСТВА 111
асимпгогически распределена как χ2 с (г—\)k степенями свободы,
где щ — число независимых наблюдений в i-й выборке, Θ,- —
состоятельная, многомерная асимптотически нормальная, эффективная оценка
£ параметров по /-й выборке, и пЬ = п1Ь1-\~щ%-\~...-\~пгЬп п==
= пх~\~щ-\~...-\~пп Если нулевая гипотеза неверна, то, как пока-
η η
зал Куперман (1957), 2я/, 2^ п^ф) и 2^]я^ сходятся по вероятно-
i=i ί=ι
сти к неограниченно большому числу и при большой выборке
распределение может быть аппроксимировано распределением, связанным
с нецентральным х2-распределением с большим параметром
нецентральности и таким же числом степеней свободы, как и у х2-распре-
деления при справедливости нулевой гипотезы. Куперман (1957)
показал, что при тех же условиях регулярности аналогичные результаты
имеют место и для оценок расхождения. Таким образом, в тех же
обозначениях, что и выше,
nJ=n[(f{x, β)-/(*, ^)iog^^dl(x)\^s
имеет асимптотически х2-распределение с k степенями свободы, если
выборка принадлежит популяции с плотностью f(x, бд);
η г
i=l i = l i i
асимптотически распределена как χ2 с rk степенями свободы, если г
выборок принадлежат популяции с плотностью распределения f(x, θ);
г г
2У*= 21й* [\ ν(χ> θ»)-/(^ β» log ^|λ(*)]
9 = ί
асимптотически распределена как χ2 с (г—l)k степенями свободы,
если г выборок принадлежат одной и той же популяции.
Для двух выборок Куперман (1957) показал, что
62 = θ2
имеет асимптотически χ2-pacπpeдeлeниe с k степенями свободы, когда
две независимые выборки принадлежат одной популяции с
неопределенным (вектором) параметром Θ.
Поведение оценок расхождения, когда нулевая гипотеза неверна,
аналогично поведению оценок различающей информации.
Эти критерии состоятельны, с мощностью, стремящейся к единице
для больших выборок. [См., например, Фрезер (1957), стр. 108).]
112 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5
Пример 5.1. Мы можем сделать вывод, что 2/(*: Н2 (μ|σ2))=ζ
η
= 2 (Xi — ^)2/°2 (см* (4-9)) имеет асимптотически ^-распределение с η
степенями свободы. (Можно, конечно, показать, что это справедливо для
всех п). Этот вывод можно получить из теоремы Уилкса, так как имеется η
параметров τ0 τ2ι ..., τη, и нулевая гипотеза задает точку τ1=τ2 = ... = τη = 0.
Пример 5.2. Можно сделать вывод о том, что 2/ (*: Н2 (-1 σ2)) =
η
= 2 (χΐ — ^)/°2 (см· (4.Щ) асимптотически ^-распределена с (ft — 1) сте-
пенями свободы. (Можно показать, что это справедливо для всех ft.) Можно
прийти к этому выводу на основании результата Купермана,
представляемого соотношением (5.2), поскольку 2/ (1:2) = (μ4— μ2)2/°2 для нормальных
распределений с разными средними и одинаковыми дисперсиями, и каждое
наблюдение есть выборка объема 1, так что μι· = ΛΓίι μ2 = ^, fc=l, r = ft.
Пример 5.3. Можно заключить также, что
2/ (* : И2 (μ, σ·)) = ft {Χ-μΥ(** + (ft - 1) (log (σ^/s2) - 1 +S2/cs)
(см. (4.18)) имеет асимптотически х2-распределение с 2 степенями свободы.
К этому заключению можно прийти, используя теорему Уилкса, так как
имеется два параметра τχ и τ2 и нулевая гипотеза дает τ1 = τ2 = 0.
Пример 5.4. Предположим, что у нас есть выборка в η независимых
наблюдений из нормальной популяции с нулевым средним и неизвестной
дисперсией. Используя пример 3.8 и асимптотические свойства, можно
определить доверительный ивтервал для параметра σ2 с асимптотическим
коэффициентом доверия (1 — а) из неравенства
ft (log (o»jfy) - 1 +J>/*2) < xb (5.3)
η
где y= (1/ft) 2 ХЬ а 'Ч.— табличное значение χ2 с одной степенью свободы,
соответствующее 100а°/о уровню значимости. Так как в левой части (5.3)
стоит вогнутая функция от l/σ2 при фиксированном у, то равенство в (5.3)
достигается для двух значений σ2. (См. примеры 3.8 и 5.6.)
Дополним предшествующие утверждения более детальным
рассмотрением асимптотического поведения 2/(*: Н). Сначала изучим
подробнее связь между Τ(χ) = θ и оценкой τ, т(л;) = т(б) (см. (1.1)).
Так как
ΓΑ1οβΛ|β(τ)] Α=Γ-^-1ο8Λί,(τ)] -f
+ (- (β) - τ (θ)) Γ^ log Ж2 (τ)] _ , (5.4)
где τ (θ) лежит между τ (б) и τ (θ) и θ= [(d/dx)\ogM^(z)]x=s τ(θ), то
из леммы 4.3 главы 3 и формул (1.1), (5.4) получаем соотношение
θ — θ = (τ (6) — τ (θ)) Ζ) (б I τ (θ)). (5.5)
Обращаем внимание читателя на многомерность переменных и
параметров, как это указывалось для лемм 4.10 — 4.12 главы 3. В
терминах матриц (векторов) θ^^, θ2, ..., ΘΛ), θΓ=(δΧ, ..., 0Α), τ, = (τ1,
5]
АСИМПТОТИЧЕСКИЕ СВОЙСТВА
ИЗ
Чу ·■·> τ/0> ^' = 0ч> τ2, ···> ^записываем вместо соотношения (5.5)
б — θ = Σ(τ (б)) (i — Τ), (5.6)
или
i ~~ Τ = Σ -1 (τ (θ)) (6 — θ), (5.7)
где Σ (τ (θ)) — ковариационная матрица компонент θ для
сопряженного распределения с параметром τ (θ). Можно вывести (5.7)
непосредственно из τ (θ) = τ (θ) -f- (б — θ) [dt (6)/cffi)] - и лемм 4.7 и 4.12 главы 3.
Если мы запишем /(*:2; 0Л) = /тг (б) = 6τ (β) — logAf2(T(6)) и
проследим метод доказательства теоремы 4.1 главы 3, то увидим, что
/(*:2; 0„)=/(*:2; On) -f (β - G) τ (θ) + Φ ~ θ)21 2D (β | τ (6)), (5.8)
где θ лежит между б и 6. В терминах матриц, введенных выше для
(5.6), получим
/(*:2; 0„)=/(*:2; 0„) + (6-θ)'τ+4-(6-6)'Σ,(τ(6))(θ-θ).(5.9)
Если θ есть деленная на η сумма независимых, одинаково
распределенных векторов с конечной ковариационной матрицей Σι(τ(θ)), то
по центральной предельной теореме [Крамер (1937, стр. 112 —113;
1955, стр. 114—116)] распределение У^пф — Θ) стремится к
многомерному нормальному распределению с нулевыми средними и
ковариационной матрицей Σι(τ(θ))=/ι2(τ(θ)); и, в частности, θ сходится
по вероятности к Θ. [См., например, Фрезер (1957, стр. 208 — 215).]
Из леммы 4.7 главы 3 видим, что τ(θ) — непрерывная функция θ
для всех τ из интервала, где Λί2(τ) существует и конечна. Мы можем,
следовательно, применить теорему Манна и Вальда (1943) о
стохастических пределах, чтобы прийти к заключению, что из сходимости по
вероятности θ κ θ следует сходимость по вероятности τ (б) к т(6).
[Ср. Крамер (1946а, стр. 252 — 255).] Так как τ (6) лежит между τ (б)
и τ(θ) [τ. е. каждая компонента τ(θ) лежит между соответствующими
компонентами т(6) и τ(θ)], то т(§) сходится по вероятности к τ(θ),
и на основании лемм 4.3 и 4.10 главы 3 и теоремы Манна и Вальда
(1943), Σ(τ)(ί)) сходится по вероятности к Σ(τ(θ)). Из соотношения
(5.7) видим, что распределение ΐ — т стремится к многомерному
нормальному распределению с нулевыми средними и ковариационной
матрицей G* (6) = G*-1 (τ ) = Σ"1 (τ (θ)), где матрицы определены в
леммах 4.10 и 4.11 главы 3. Это хорошо известное свойство оценок
максимума правдоподобия.
Здесь уместно напомнить читателю, что результаты,
сформулированные в (5.6), (5.7), (5.9) и предшествующих абзацах, выражены
в терминах параметров распределения Θ, и неявно в терминах
параметров одномерной величины.
Мы должны, следовательно, вспомнить, что
2(τ(θ)) = 0(1/η), 0*(в)=0(л> (5.10)
114
ИНФОРМАЦИОННЫЕ СГАГИСГИКИ
[ГЛ. 5
Если выборка Оп принадлежит популяции с плотностью
распределения Мх), то θ = 6(0), τ = 0, /(*:2; Оп)=0 и 2/(»:2; Оп),
как видно из (5.9), является асимптотически квадратичной формой
компонент многомерного нормального распределения и, следовательно,
имеет х2-распределение с k степенями свободы [Ср. Рао (1952, стр. 55),
задача 10.21 гл.9]. Отметим аналогию между соотношениями (5.9)
при т = 0 и (6.4) главы 2 с б — θ в качестве (ΔΘ).
Теперь мы можем определить для параметров f%{x)
доверительную область с асимптотическим коэффициентом доверия 1 — α из
неравенства 2/(*:2; 0я)^(а, *), (5.11)
где χ2 (α, k) — значение, для которого х2-распределение с k
степенями свободы дает Ρ {χ2 ^ χ2 (α, k)} = α. Так как 2/(* : 2;
Оп) — вогнутая функция, то неравенство (5.11) дает две
критические точки для одного параметра, значения на замкнутой кривой для
двух параметров, на замкнутой поверхности для трех параметров
и т. д. Дадим несколько примеров, прежде чем рассматривать
асимптотические распределения при справедливости альтернативной гипотезы.
Пример 5.5. Как мы видели в примере 1.1, для биномиального
распределения 2/(*:2; 0„) = 2я (р log (p//>2)-f-£ log (qlq2)), где у =
прямою наблюденных успехов. Таким образом, 95°/0 доверительный интервал
для р2 определяется неравенством
(5.12)
2«(plog^ + ^log^)<3,84.
В табл. 5.1 приведены некоторые 95% интервалы для биномиального
распределения, вычисленные Говардом Р. Робертсом [См. Роберте (1957)
о таблицах доверительных границ].
Таблица 5.1
η \
10
20
30
50
100
250
1000
0
0
0,174
0
0,091
0
0,062
0
0,038
0
0,019
0
0,008
0
0,002
0,1
0,006
0,372
0,017
0,278
0,025
0,240
0,037
0,203
0,051
0,169
0,067
0,141
0,082
0,120
0,2
0,036
0,499
0,067
0,405
0,085
0,364
0,106
0,324
0,130
0,285
0,154
0,253
0,176
0,226
0,3
0,085
0,607
0,132
0,516
0,157
0,476
0,185
0,435
0,216
0,394
0,246
0,359
0,272
0,329
0,4
0,146
0,700
0,207
0,617
0,238
0,578
0,272
0,538
0,307
0,498
0,341
0,462
0,370
0,430
0,5
0,217
0,783
0,291
0,709
0,327
0,673
0,364
0,636
0,403
0,597
0,438
0,562
0,469
0,531
0,6
0,300
0,854
0,383
0,793
0,422
0,762
0,462
0,728
0,502
0,693
0,538
0,659
0,570
0,630
0,7
0,393
0,915
0,484
0,868
0,524
0,843
0,565
0,815
0,606
0,784
0,641
0,756
0,671
0,728
0,8
0,501
0,964
0,595
0,933
0,636
0,915
0,676
0,894
0,715
0,870
0,747
0,846
0,774
0,824
0,9
0,628
0,994
0,722
0,983
0,760
0,975
0,797
0,963
0,831
0,949
0,859
0,933
0,880
0,918
1,0
0,826
1,000
0,909
1,000
0,938
1,000
0,962
1,000
0,981
1,000
0,992
1,000
0,998
1,000
5]
АСИМПТОТИЧЕСКИЕ СВОЙСТВА 115
Пример 5.6. Мы видели в примере 1.4, что для выборки из
нормальной популяции с нулевым средним, 2Ϊ (*: 2; Оп) = η (log (o|/y) — 1 +^/σΙ)» где
η
yz=.(\ln) 2 ХЬ Следовательно, 95% доверительный интервал для σ| опре-
деляется неравенством (ср. пример (3.8))
"(log ^-1+^)^3,84. (5.13)
Для п = 10 получаем ^/2,15^о|^^Д359, а для л = 100 ,y/lt303<oj <^/°»748·
Пример 5.7. В примере 1.5 мы получили, что для выборки из
популяции с двумерным нормальным распределением с нулевыми средними и
единичными дисперсиями
*?■■* o.>Hi°*i^--2+*+V-t(»'~*))·
П П
где 3>ι = J- 2(*ii—*ai)f> Ун = JL 2 (^ii+^si)2· Таким образом, 95% дове-
я £=1 /г jr=i
рительный интервал для р2 определяется неравенством
Заметим здесь, что в соответствии с разделом 3.4 главы 12 для выборки
Оп из популяции с двумерным нормальным распределением с неизвестными
средними и дисперсиями 95% доверительный интервал для р определяется
неравенством
(п- 1) (log γΞ^~2+ 2 УГр?*) ^3>84> (5·15)
где г — обычный выборочный коэффициент корреляции.
Пример 5.8. Как мы видели в примере 5.3, 2/(*://2(μ, σ2)) =
= п(х— μ)2/σ2 + («—1) (log(o2/s2) — 1 + $2/σ2) с s2 в качестве несмещенной
оценки дисперсии имеет асимптотически х2-ра определение с 2 степенями
свободы, если μ и σ2 — параметры нормального распределения.
Соответственно для выборки Оп из популяции с нормальным распределением, 95%
доверительная область для (μ, σ2) задается неравенством
п(х — μ)2
+ (n-l) (log ^-1+^)^5,99. (5.16)
Пример 5.9. В примере 1.6 мы показали^что для выборки из популяции
с плотностью /8 (х) = ехр [— (х — θ2)], θ2 ^ χ < оо,
,2/(*:2; On) = 2(n(L — b9)—l-\ogn(L — b))9
где L = min(xt9 x2, ..., хп)· Соответственно для выборки Оп из популяции
с плотностью /2 (х) 95% доверительный интервал для θ2 задается
неравенством
η (L ~ θ2) — 1 — log n (L — θ2) ^ 1,92. (5.17)
Находим, что 0,057^π (Ζ. — θ8)<4,40,τ. е. Ζ, — 4,40/и^θ2<Ζ. — 0,057/и.
116
ИНФОРМАЦИОННЫЕ СТАТИСТИКИ
[ГЛ. б
С другой стороны, если выборка Оп взята не из популяции
с плотностью /ъ(х), то, как можно видеть из (5.5), асимптотически
£(2/(*:2; On)) = 2/(* :2; OJ-f Α = 0(/ι) + Α, (5.18)
а
2/(*:2; Оп) — 2/(*:2; Οη)—2(θ —θ)'τ (5.19)
имеет х2-распределение с £ степенями свободы.
Покажем теперь, что (5.19) есть удвоенный логарифм отношения
правдоподобия. Так как
7(*:2; Οη) + φ~6)τ(Β) = Βτ(ΰ)~ίοζΜ,(τ(Β))~\-φ~6)τ(β) =
= 6τ (θ) - log М2 (τ (θ)) = log (f* (*)//„ (Χ)),
то мы можем написать [см. (5.9)]
2/(*: 2; Ои) — 2/(*: 2; 0„) — 2 (β — θ/τ=
= 2/(*: 2; 0„) - 2 (б'т - log Ж2 (t'))=
max/* (χ) max/* (л:)
= (в — ΘΧΣ"1 (τ (θ)) (б — θ) = (* — τ/ Σ (τ (θ)) (< — τ). (5.20)
Критерий, который отвергает нулевую гипотезу [о том, что
выборка сделана из популяции с плотностью /8(д0], является
состоятельным, если значение 2/(*: 2; Ол) достаточно велико, (т. е.
мощность его стремится к 1, когда объем выборки неограниченно
возрастает). Это видно из того факта, что если выборка взята из
популяции с плотностью f<t(x), то для достаточно больших выборок
Ρ [2/(* : 2; Оп) Ξ5= χ2 (α, k)] = α, где χ2 (α, k) зависит только от α и
от числа степеней свободы k. С другой стороны, если выборка
взята не из популяции с плотностью ЛС*0> то из теоремы Хинчина
[ср. раздел 3 гл. 4; Крамер (1946а, стр. 253), Феллер (1950, стр. 191)]
для любых ε]>0, β^>0 и достагочно большого η [см. (5.18)]
Р[2/(*:2; 0„)^2/(*: 2; OJ-fA — е]^ 1 — β. Отметим, что при
достаточно больших п, 2/(*:2; Оп)~\~к — ε^χ2(α, k), даже для
альтернатив, очень близких к нулевой гипотезе, близких в смысле
малости /(*:2; ОД так как /(*:2; 0„) = я/(*:2; ОД
Для того чтобы получить более полезное утверждение
относительно асимптотического распределения при альтернативной гипотезе,
чем утверждение относительно выражения (5.19), проделаем
следующее: так как
(Θ— θ-f Σ (τ(θ)τ)' Σ"1 (τ(В)) (θ — θ + Σ(τ(θ))τ) =
= (β — θ)' Σ"1 (τ (θ)) (θ — θ) -f 2 (θ — θ)'τ + τ'Σ (τ (θ)) τ, (5.21)
5]
АСИМПТОТИЧЕСКИЕ СВОЙСТВА
117
то из (5.6), (5.9) и (5.20) получим
2/(*:2; 0„)-2/(*:2; Οη) + *'Σ(τ(θ))τ=
= (θ — θ + Σ (τ (6)) τ)' Σ"1 (τ (θ)) (θ — θ + Σ (τ (0)) Τ) = *Σ (τ (θ)) *. (5.22)
Как мы видели, по центральной предельной теореме
распределение ~\fn (θ — θ) стремится к многомерному нормальному
распределению с нулевыми средними и ковариационной матрицей Σι(τ(θ)) =
= /ζΣ(τ(6)). Следовательно, асимптотически (ср. раздел 3 гл. 12)
/(*:2; OJ=fr« —в(0у« —ί*2(0)«, (5.23)
где θ = θ(0)+Σ(0)ΐ [ср. (5.6) при т=0], так что
2/(*:2; Оя) = (в-в(0)У1г1(0)(в-в(0)) =
= п (б _ θ (О)/ ΣΓ1 (0) (б — θ (0)) = *г Σ (0) т, (5.24)
и аналогично
2/(* : 2; Οη) = (θ(τ) - 6(0))' Σ"1 (0)(θ(τ) - θ(0)) =
= η (θ (τ) — θ (0)У ΣΓ1 (0) (θ (τ) — θ (τ)) = τ'Σ (0) τ. (5.25)
На основании (5.22), (5.24) и (5.25) мы заключаем, что Σ (τ (6)) =
= Σ(0) и что, следовательно, 2/(*:2; Оп) асимптотически
распределено как нецентральный χ2 с k степенями свободы и параметром
нецентральности 2/(*:2; Оп). Отметим, что это согласуется с (5.18),
ибо математическое ожидание величины нецентрального χ2 равно
сумме параметра нецентральности и числа степеней свободы. (См.
задачу 10.22 гл. 9 и раздел 6.1 гл. 12.)
Соответственно, когда f%(x) сама является членом
экспоненциального семейства, как будет в большинстве приложений в
последующих главах,
max /* (χ)
2/(* : Щ = 2 log ^/>w = rnhi (« - τ)'Σ (0) (< - χ), (5.26)
где Ω — ^-мерное пространство, а ω2 — подпространство Ω, для
которого /* (χ) принадлежит популяции из //2. Если о>2 — r-мерное
подпространство пространства Ω, то из работ Уилкса (1938а) и Вальда
(1943) можно вывести, что 2/(*:#2) асимптотически распределено
как χ2 с k — г степенями свободы, если только выборка сделана из
популяции, принадлежащей семейству //2, и что 2/(* : #2) —
асимптотически распределено как нецентральный χ2 с k — г степенями
свободы и параметром нецентральности 2/(*://2) в противном случае.
[Ср. Бартлетт (1955, стр. 225—226), Бэйтман (1949), Вейбулл (1953),
118 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5
Крамер (1946а, стр. 424—434, 506), Нейман (1949), Рао (1952,
стр. 55—62), Фишер (1922а, 1924).] В иллюсграциях раздела 4
главы 6 и раздела 4 главы 7 мы сравним точные вероятности,
которые можно вычислить, с их асимптотическими приближениями.
Заметим, что для целого ряда последующих применений можно
вычислить точные распределения или приближения лучшие, чем те,
которые получаются из общей теории. В каждом случае
асимптотическое поведение согласуется с выводами общей теории.
6. ОЦЕНКА J(*,2)
Для сопряженного распределения f*(χ) = βτΤ^/^(χ)/Μ^(τ)9
определенного в разделе 1, находим
J{*. 2)= l(f*(x)-A{x))log^^dk(x) = (B-B(O))z(tf). (6.1)
Отметим, что это есть следствие 3.2 главы 3 с Tj —τ, τ2 = 0.
Оценим J(*; 2) посредством
/(»,2) = (β-β(0))τ(β> (6.2)
где 7(x)==6 = j^logM2(T) Λ. (См. раздел 1.)
В многомерном случае
J(*, 2) = (θ-θ(0)χΐ, (6.3)
где матрицы определены в соотношении (5.6).
Поступая, как в разделе 5, видим, что если выборка взята из
популяции с плотностью f%(x), соответствующей нулевой гипотезе,
J(*9 2) = (θ — θ (0)УΣ~χ (0) (θ — θ (0)) (6.4)
асимптотически имеет х2-распределение с k степенями свободы.
С другой стороны, из (5.23) следует, что
J(*9 2) = *ЧВ(0)«, (6.5)
т. е. асимптотически */(*, 2) равна 2/(*; 2) и, следовательно,
заключения относительно асимптотического поведения J(*, 2) такие же,
как и для 2/(*:2). Отметим аналогичность связи между J(fi9 β —|—ΔΘ)
и 2/(θ:θ-[~ΔΘ) в разделе 6 главы 2.
Обозначим минимум величины */(*, 2) по всевозможным /2,
соответствующим популяциям семейства Я2, через */(*, Я2).
Асимптотическое поведение J(*, //2) то же, что асимптотическое поведение
2/(*:Я2).
7] ЗАДАЧИ 119
7. ЗАДАЧИ
7.1. Рассмотрите нормальные распределения N fait σ2), / = 1, 2, μι<μδ.
Покажите, что по всем областям Д для которых \ft(x)dx=i\ — α, макси-
i
мум \ Л (х) log-~4*4 ^х Достигается для области А = {х: — со < χ <gj.
A
7.2. Покажите, что критическая область в примере 3.3 является
равномерно наиболее мощной.
7.3. Если в примере 3.4 pt = 0,20, р2 = 0,80, то каково критическое
значение? /?? Если η = 25, то каковы ошибки классификации?
7.4. Покажите, что критическая область в примере 3.8 равномерно
наиболее мощная.
7.5. Покажите, что критическая область в примере 3.11 равномерно
наиболее мощная.
7.6. Покажите, что критическая область в примере ЗЛ2 наиболее
мощная.
7.7. Нарисуйте критическую область (5.16) для п= 100, μ = 0, os= l.
7.8. Покажите, что минимум (4.18), без каких-либо ограничений на о2,
равен ■—к~ log (1 + η- ~~ ], что для больших п приближенно равно
η С*—μ)2
2s2 ·
7.9. Докажите утверждение, сделанное в конце примера 1.1.
7.10. Пусть гипотезы Hi предполагают нормальные распределения
Nfait of), t=l, 2. Разработайте критерий для проверки нулевой гипотезы #2,
параллельный процедурам в примерах раздела 3. [Ср. Куперман (1957,
стр. 94—96).]
7.11. Покажите, что процедура классификации, описанная в первой
половине раздела 2, при г = 2 такова, что вероятность ошибочной
классификации стремится к нулю, когда объем выборки неограниченно возрастает.
(Ср. задача 7.28 гл. 3 и задача 4.22 гл. 4.)
ГЛАВА 6
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
1. ВВЕДЕНИЕ
Мы будем применять принципы и результаты, полученные и
разработанные в предшествующих главах, при анализе выборок для
проверки статистических гипотез.
В этой главе мы будем анализировать выборки из
полиномиальных популяций, в следующей главе — выборки из популяций
Пуассона. Методы этой главы даю г основную структуру анализа таблиц
сопряженности признаков главы 8. Мы увидим, что .методы глав 6,
7 и 8 во многих отношениях подобны дисперсионному анализу.
Действительно, в главах 10 и 11 будет показано, как развитая в
предшествующих главах техника, примененная к анализу выборок из
нормальной популяции для общей линейной гипотезы, ведет к
дисперсионному анализу и его многомерным обобщениям.
Мы будем использовать статистику минимума различающей
информации, получаемую заменой параметров популяции в выражении
минимума различающей информации их наилучшими несмещенными
оценками, соответствующими различным гипотезам.
Для специального типа полиномиального распределения, которое
возникает, когда выбирают слова или разновидности животных,
приближенно несмещенную оценку энтропии дал Гуд (1953, стр. 247).
Миллер и Мэйдоу (1954) дают оценку максимума правдоподобия и
ее асимптотическое распределение для меры информации Шеннона —
Винера в полиномиальном случае.
Все формулы глав 6, 7 и 8 можно записать, используя члены
вида η log η или т log n (здесь всегда натуральные логарифмы).
8 табл.1 на стр.382 приведены значения log л и л log л для η от 1
до 1000. Я обязан Шелдону Г. Левину за вычисление таблицы
л log я. Таблицы л log я по основанию 2 и по основанию 10 для η
от 1 до 1000 можно найти в специальном отчете Миллера и Росса
(1954). Фишер (1956, стр. 137—138) приводит значения л log л по
основанию 10 для η от 1 до 150. Бартлетт (1952) приводит значе-
Ά
ПРЕДПОСЫЛКИ
121
ния —log/?, —p log/? для ρ— 0,00, 0,01,..., 0,99, 1,00 и — (plogp-\-
-\-q\ogq) для /? = 0,00, 0,01, ... , 0,50 (логарифмы по основанию е).
Клеммер (см. Квастлер (1955), стр. 71—77) дает таблицу log л для
η от 1 до 999 и таблицу —ρ log ρ для ρ от 0,001 до 0,999
(логарифмы по основанию 2). Он также ссылается на AFCRC-TR 54—50,
где содержатся таблицы log л с 5 десятичными знаками для η от 1
до 1000, η log η с 5 десятичными знаками для л от 1 до 500 и
—-plogp для р^0,2500 с 4 десятичными знаками, а для р^0,251
с 3 десятичными знаками (логарифмы по основанию 2). Л. Долански
и М. П. Долански (1952) протабулировали —log/?, —plogp и
— (ptogp-\-qlogq)> р-~\~Я=1 (логарифмы по основанию 2).
2. ПРЕДПОСЫЛКИ
Предположим, что две статистические гипотезы Нг и //3 задают
распределения вероятностей двух гипотетических с-значных
популяций (с категорий или классов)
Ηι'Ριυ Ры ··· > Pio fti+fte + ...+ftc=lt i=1> 2· (2Л)
Средняя информация для различения в пользу Нг против //3,
получаемая от наблюдения, принадлежащего популяции с
распределением, соответствующим гипотезе Нь равна
/(1:2)=Allog£u+A2log^ + ...+Aclog£!-c (2.2)
Р%\ Р22 Рас
-(это частный случай определения для общих популяций, см. раздел 2
гл. 1).
А средняя информация для различения в пользу //3 против Нь
получаемая от наблюдения, принадлежащего популяции с
распределением, соответствующим гипотезе 1% равна (см. раздел 2 гл. 1)
/(2:l)=Allog^+^logf?-3 + ...+p2clog^. (2.3)
Pll Ρί2 PlC
Расхождение между Нг и //2, или мера трудности их различения
(см. раздел 3 гл. 1), равно
J(l, 2) = 7(1:2) + 7(2:1) =
= <fti-J^)log^ + <fte-]^^ (2.4)
Pai Р22 Pzc
В соответствии с общими выводами главы 2
7(1:2)2*0, 7(2:1)3*0, 7(1,2)2*0, (2.5)
причем равенство достигается тогда и только тогда, когда /?ι/=/?2/,
i= 1, 2, ... , с, т. е. когда гипотезы задают одно и го же
распределение.
122 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6
Средняя различающая информация и расхождение для случайной
выборки 0N в N независимых наблюдений соответственно равны
/(1:2; 0JV)=M(l:2) = N2Allog(pll/Afi (2.6)
/(2:1; 0^ = ^/(2: l) = ^Sftilog(Af/ft^ (2.7)
с
J(l, 2; On) = NJ{\ :2) = /V £ (Ри-Рп№(ри/РыУ. (2.8)
3. СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ
Рассмотрим полиномиальное распределение выборок объема N из
с-значной популяции (с категорий или классов):
Р[х)=Р[хъ ... . ^)=^~^/^ ... #. (зл)
где л>0, г=1, 2, ... , с, ρι4-Λ + ··-+Ρε= Ь *ι + *а + · ■ ■
. ..-|~jec = M Предположим, что /?*(#) — любое распределение на
с-значной популяции такое, что каждое возможное в соответствии
с распределением р*(х) наблюдение является возможным и для
распределения р{х). Это предположение необходимо, чтобы избежать
случая, когда р* (х) ^ О, а р (χ) = 0. (См. раздел 7 гл. 2.)
Теорема 2.1 главы 3 дает нам возможность утверждать:
Лемма 3.1. Распределение на с-значной популяции с
заданным математическим ожиданием, минимизирующее информацию
для различения против полиномиального распределения р(х),
а именно распределение р*(х) такое, что Ε*(χ£) = ΰι и
\λ ρ* (χ)
А Р* (х) *°g / ч минимальна, есть распределение
*!+...+*,-* Р *
Ρ4χ) = ^^ (3.2)
где pf =pieti/{pleti -|~ · ·. ~h Рсе*с\ / = 1, 2, .. t , <:, τ^ —
действительные параметры и 6t = (д/дъ) log (ρχβχι -|~ · · · ~f~ Pce^c)N·
Отметим, что минимизирующее различающую информацию
распределение /?* (х) является здесь полиномиальным распределением.
Простая численная иллюстрация леммы 3.1 есть в примере 2.1 главы 3.
3] СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ 123
Полиномиальное распределение/?*^) в (3.2) — сопряженное
распределение (см. раздел 1 гл. 5) для полиномиального распределения
р(х). Используя методы, описанные в главе 3, получаем:
6| = Л»Г= *Р** ,/=1,2,...,*, (3.3)
Щ =pte*4PjeV, I, j =1,2, ... , с, (3.4)
ti==Iog(e«M/ft)-|~log£, 1=1, 2, ... , с, k =
=A^+...+^A>0, (3.5)
/(*:2; 0„)= 2 Р*^1о^Р-Ш-=
=τΑ 4- *A 4- ■ ■ · 4-τΑ - w°g (л^1 + · · · 4-/^)=
=e1iog|74-.4-e£iog^, (3.6)
/(*, 2; 0„)= J 0>П*)-/>(*)) log^|g-=
= τχ (6t - NPi) 4-... 4- тс (бс - NPc) =
= (e1-^1)log3|r4—^(вс-Л^е)^^. (3.7)
Так как значение & в (3.5) произвольно, то для удобства можно
положить й=1, так что выражения для τ( будут однородными:
^ = log(e4/^^ /=1, 2, ... , с. (3.8)
С другой стороны, так как xc = N— χγ — х% —... — хс_и мы
можем положить тс = 0, или log k — — log (%/Npc). В этом случае
тс = 0.
В применении к задачам проверки статистических гипотез о
полиномиальных популяциях основное распределение (3.1) будет
соответствовать нулевой гипотезе 7/2, а сопряженное распределение будет
распространяться на семейство популяций, соответствующих
альтернативной гипотезе Ηχ.
124
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
4. ОДНА ВЫБОРКА
4Л. Основная задача
Предположим, что у нас есть случайная выборка объема N7 хь
Хъ, ..., хс, xl-\-x^-\-, ..-\-xcz=N с полиномиальным распределением
на с-значной популяции (с категорий или классов), и мы хотим
проверить нулевую гипотезу Н% состоящую в том, что выборка
принадлежит популяции, для которой
Н*'.{р) = {ръ Ръ ■•■»Mft+ft-h-+A=1 (4Л>
при альтернативной гипотезе Нь что выборка принадлежит любой
возможной с-значиой полиномиальной популяции.
Возьмем в качестве сопряженного распределения (3.2)
распределение, параметры которого — наилучшие несмещенные выборочные
оценки, т. е. Qi = Np* — xi, ί=1, 2, ..., с. Из (3.8) имеем
*i = logjtfi' 1=1, 2, ..., с. (4.2)
Статистика минимума различающей информации есть
/(*:2; 0/i)=xllog$- + ... + xeiogj!!*-, (4.3)
а соответствующая оценка расхождения
А*, 2; On)=N[(^-Pl)loel^ + ... + (%-ft)log^]. (4.4)
Отметим, что (4.3) получается из (2.6) подстановкой xtjN вместо
Ри и Pi вместо /λ3/, и (4.4) получается из (2.8) с помощью тех же
подстановок (см. задачу 7.15).
Если нулевая гипотеза //3 (см. (4.1)) верна, то, как следует из
разделов 5 и 6 главы 5, 2/(*: 2; 0Ν) и J(*, 2; 0N) имеют
асимптотически /^-распределение с (с — 1) степенями свободы. Если же верна
альтернативная гипотеза, 2/(*: 2; 0N) и J(*, 2; 0N) имеют
асимптотически нецентральное Х2-распределение с (с — 1) степенями свободы и
параметрами^нецентральности 2/(* : 2; 0N) и J(*, 2; 0N) соответственно,
где /(*:2, 0N) и J(*, 2; Одг) представляются формулами (4.3) и (4.4),
в которых Xi/N, i=l, ..., с, заменены на вероятности,
соответствующие альтернативной гипотезе. (См. последний член равенства (3.6).)
Заметим, что (4.3) можно переписать в виде
с с
/(*:2; Оп)= £ *,1о8*,- 2 ^logft-AHogW
для удобства вычислений с использованием таблицы η log п.
Так как log^^^:—1, х^>0, и равенство имеет место тогда и
только тогда, когда х—1 [см. Харди, Лиглвуд и Пойа (1934,
4]
ОДНА ВЫБОРКА
125
стр. 106) или утверждение, следующее после (2.7) гл. 4J, то отсюда
вытекает, что (а — b)/a ^ log (a/b) ^ (а— b)/b> а/£^>0, и равенство
достигается тогда и только тогда, когда а = #. Поэтому в качестве
первого приближения для log (alb) можно использовать среднее ариф-
метическое его верхней и нижней границ, т. е. log (a/b) ^ у ((a — b)ja -|~
(а2 £2\
-j~(a— b)/b)— 2 h л Приближение тем лучше, чем α/b ближе
к 1. Применение этого приближения в формулах (4.3) и (4.4) дает
2!(*:2;0N)^2^^-=f, (4.5)
ϊ-1
Л* :2; o^^l;S^^ + ^;^^ύL^^ + y^m
где первая сумма в (4.6) есть величина у3 Пирсона, а вторая сумма
в (4.6) —χ'2 Неймана. [Джеффрис (1948, стр. 170—173), Нейман
(1929), Холдейн (1955).]
Заметим, что 2/(*: 2; Оп) равна — 2 log λ с λ, лежащим в основе
критерия отношения правдоподобия [см., например, Гуд (1957,
стр. 863), Уилкс (1935а, стр. 191), Фишер (19226, стр. 357—358)].
Интересно, что Уилкс (1935а) отмечал отсутствие теоретических
оснований, по которым χ2 должно отдаваться предпочтение перед
— 2 log λ, и что — 2 log λ может быть вычислено с меньшим числом
операций, чем у2. Гуд (1957, стр. 863) отмечает, что (используем
обозначения этого раздела): (i) 2/(*: 2; 0N) при справедливости нулевой
гипотезы оценивает возможные выборки по степени их правдоподобия
более точно, чем X2, при данных N, с, pVj ръ ..., р€; (и) вычисление
2/(*: 2; 0N) может быть выполнено с помощью сложения, вычитания
и использования таблиц, если таблицы 2nlogn (по основанию е)
имеются в наличии, но при этих вычислениях нужно удерживать
больше значащих цифр, чем при вычислении обычного у2; (iii) χ2
является более простой математической функцией наблюдений и
должно быть легче точно аппроксимировать ее распределение при
данной нулевой гипотезе.
4.2. Анализ /(*:2; Ον)
В случае значимых значений 7(*:2; 0Ν) целесообразна
группировка категорий, которая подсказывается характером данных. 7(*:2; 0Ν)
в (4.3) может быть аддитивно проанализирована для проверки таких
гипотетических группировок.
126
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ.6
Рассмотрим сначала анализ, состоящий из (с—■ 1) дихотомических
сравнений каждой категории с объединением всех следующих за ней
категорий. [Ср. Кохрэн (1954), Ланкастер (1949).] Определим
Ni=N — Χχ — *а —... — хь /==1, 2, ..., с —1,
qi=\—Pl—pi — ...—pif /= 1, 2, ..., с—1.
Таблица 4.1
Компонента информации
С. С.
В пределах категорий
от (с — 1) до с\хи ...
..., л:с_2
Между категорией (с—2)
и категориями (с—1) +
-j- С | Χι , ..., Xc-z
!(w°gfe
-1 Qc-2
zPc-i
-*clog
XcQc-2 \
Nc-sPc)
2Uc_2log
Nc__SPc-2
+
+ (Nc-s — ^c-i)log
(ivc_3 ^c-2) ?с-з\
Μ
C-3 <7c-2
В пределах категорий от
3 до с I xlt x2
Между категорией 2 и
категориями 3+ ... -|-
+ с\х1
2 хв log
*3<72
^2Яз
-^4log
•^4?2
с —3
^2^4
... + *с legist)
В пределах категорий от
2 до с | xt
Между категорией 1 и
категориями 2+ ...
\ ^Ν±ρ2^
^3log
•*3<7i
с—2
2(^108^ + ^-^ log ^-^
Итог, 2?(*:2;OJ
ΛΓ'
21^1ο83§Γ+-+χ«,08^)
Анализ, приведенный в табл. 4.1, выводится непосредственно из этих
определений и свойств логарифма. Свойство выпуклости логарифма
a1log^ + ... + aJog^^(a1 + ... + an)log|±^+|,
где α/^>0, #£^>0, 1=1, 2, .,,, п, и равенство достигается тогда и
4]
ОДНА ВЫБОРКА
127
только тогда, когда а^Ь^ — const, г=1, 2, ..., η [см. Харди и др.
(1934, стр. 97, т. 117), а также пример 3.2 гл. 2], обеспечивает
проведение дихотомических сравнений с использованием статистики
минимума различающей информации, т. е. в табл. 4.1 для данной
группировки каждое значение компоненты «между» является минимумом
значений компоненты «в пределах», расположенной в следующей
строке.
Анализ, приведенный в табл. 4.1, отражает два факта:
1. Полиномиальное распределение может быть представлено как
произведение частного биномиального распределения и условного
полиномиального распределения остальных категорий (ср. раздел 2
гл. 2), например
N\ „л
Xt\ Х2\ ... Хс\ ^1 ' ' 'Ус
& ~хс-_
NX
t)\Pi ^ Pi* x2\ ...xc\ \qj '"WJ '
xt\ (/V— xt)
W—xt)\ tpA** [PcYc _ {N—xt)\ IpA** v
v2! ... xc\ [qj '"{qj x2\ (N—xi—x2)\ [qj Λ
V (1 _?l\N~Xl"Xa (Ν—Χι—χ*)1 (PAX* (PcVc
A\ qJ xb\.~xc\ \q*I "wJ '
где Νι = Ν—Χι, N4 —Ν — χγ — χ* ..., 9Ί=1—/Ί, q*=l—Pi —
— ft = fc—A> •·Μ^ίι + ···4-Α/ίι = 1» ft/ft + ---+ft/ft=b ···
2. Гипотеза Я2 эквивалентна пересечению {с—1) гипотез
Ям, ..., Я2 (c_1)f Я3 = Я3ГП #м Π · · ■ Π яз (c-i)> гДе Ям есть
гипотеза о том, что вероятность появления первой категории равна рх;
Яда — о том, что вероятность появления второй категории равна /?а
при условии, что вероятность первой категории равна рх; Я33 —
вероятность появления третьей категории равна рг при условии, что
вероятности первых двух категорий равны pt и /?а соответственно,
и т. д.
Степени свободы в табл. 4.1 являются степенями свободы
асимптотического /^-распределения при справедливости гипотезы Я2 из (4.1).
Оставляем читателю исследование соответствующих расхождений.
Отметим только, что расхождение, представленное формулой (4.4), не
допускает соответствующего аддитивного анализа.
Рассмотрим теперь группировку или разбиение категорий на два
множества, скажем от 1-й до г-й категории и от (г-|~1)-й до с-й
категории. Определим
У1 = *1 + *а + ... +■** Л = *w + *M+ ··· + ■**
Ри —Pi +ft + · ·· + Рь Ры =Рм + Pt# + · · ·+Аг
128
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИЙ
[ГЛ. 6
Анализ, приведенный в табл. 4.2, выводится непосредственно из
этих определений и свойств логарифма. Степени свободы в табл. 4.2
являются степенями свободы асимптотического Х3-распределения при
справедливости нулевой гипотезы 7/3 из (4.1). Оставляем читателю
исследование соответствующих расхождений. Отмегим, что значение
компоненты «между» есть минимум величины 2/(*:2; 0N) для
данного разбиения в силу выпуклости логарифма.
Без повторения всех деталей, которые рассматривались в
отношении табл. 4Л, отмегим только, что, например, в строке «в
пределах категорий от 1-й до г-й», у есть полное число наблюдений
(соответствующее N), а условные вероятности равны р^ри, --->PijPn-
Таблица 4.2
Между категориями 1 +
+ ... + i и
категориями (ί + 1) + ... + с
В пределах категорий от
(ί+ 1) до с
В пределах категорий от
1 до i
Итог, 2/(*:2; 0N)
Компонента информации
2 (у, log -£—bb log £-)
2 (Xi+l log 2о£в + ... + xc log ίε^ή
2(Xli0g^iEii+ ... +XiiogB£ii)
2{х*1о*ж+--+Хс1о*щ)
С. С.
1
с—ί — 1
ί — 1
с —1
4.3. Параметрический случай
Займемся теперь анализом /(*: 2; 0N)y предполагая, что ρί9 ..., рс
являются известными функциями независимых параметров φ^ φ^..., φΛ,
k<^c и «подгоним» полиномиальное распределение посредством
оценки параметров <ру. Предположим, что у нас имеются оценки
4j(xi9 х& ..., xN), j=h ···> k (определенные каким-либо образом).
Пусть ρί=ρ.($υ φ2, ..., φΛ), /= 1, ..., с, А+ ··.+&= ϊ; пере-
пишем (4.3) в виде
с с
/(*:2; 0N)= J ^logjjfr +^V 2^1о^|г +
i = 1 * / = 1
(4.7)
«■=1
Для того чтобы / (* : 2; 0Ν) в (4.7) имела вид суммы информации,
т. е. чтобы все члены суммы были вида (2.2), последний член в (4.7)
4]
ОДНА ВЫБОРКА
129
должен равняться нулю. Следовательно, мы требуем, чтобы оценки фу
были таковы, чтобы тождественно по φ,- выполнялось равенство
с с
2*ii°g-fj-=tf2Alogll·
(4.8)
ϊ=1
Отметим, что в левой части равенства (4.8) стоит наблюденное
значение log (ρ (х)/р (χ)), а в правой части — ожидаемое значение
информации для различения в пользу (р) против (/?) в выборке из
популяции (р) объема N [Ср. (1.1) гл. 5.] Из равенства (4.8), которое
является тождеством по параметрам φ,·, получим
Pi dpi
L· Pi dy L pi Ъъ-' J
, Z9 ..., ky
(4.9)
и, в частности, когда (φ) = (φ),
Ι,ι шгЬ=Nimur°' "-· 2· ···' * (4·,ο)
с
гак как \, [ifi _~ = ^, т. е. параметры φ7- являются решением
системы
с
£=1
Уравнения (4.11) есть уравнения максимума правдоподобия для
отыскания оценок φ7·, а также уравнения, которые решают задачу
нахождения параметров φ7·, минимизирующих 7(*:2; Оп) в
выражении (4.3). (См. раздел 4 гл. 5.) Свойства таких оценок можно найти,
например, у Крамера (1946а, стр. 426—434). (См. задачу 7.14.)
Используя оценки φ7-, удовлетворяющие (4.11), получим
разложение 2/(* : 2; 0Ν) на аддитивные компоненты, приведенное в табл. 4.3,
где степени свободы есть степени свободы асимптотического Х2-рас-
пределения при справедливости нулевой гипотезы //3 из (4.1)
с Λ=Λ(φΐι ?з> ··> ?*)> *=Ь 2, ..., с. [Ср. (4.17) гл. 5.]
Расхождения не допускают аналогичного аддитивного анализа
(с такими оценками), но оценкой расхождения, соответствующей
компоненте «ошибки», будет
(4.12)
130 полиномиальные популяции [гл. 6
Таблица 4.3
Отклонение (ф) или (р) от (р)у
2ί(ρ:ρ)
Ошибка в (χ[Ν) относительно (р),
2/(*:/>)
Итог, 2/(*:/?)
Компонента информации
с
ί = 1
с
22^1оеж
с
21Х^Ж
£-1
С. С.
k
с —1
При справедливости нулевой гипотезы Н^ из (4.1) 2ϊ(*:β) и
/(*, /?) имеют асимптотически х2-распределение с с — к — 1
степенями свободы. [Для удобства обозначений мы пишем 2/(* :р) вместо
2/(*:2; Оп).]
Пример расчета по этому методу дан Фишером, который
рассматривает серии наблюдений, где число Ί появляется xt раз с
вероятностью, соответствующей распределению Пуассона р1 = т*е~т/И,
взятому в качестве нулевой гипотезы. (Здесь т играет роль
параметра φ.) Уравнение, соответствующее уравнению (4.11), здесь
2xt(— 1 -j-ijm) = 0 или ih = ^1x1^X1=1. Приведем частные
i i i
значения [Фишер (1950, стр. 18)]:
£
0
1
2
3
4 +
*!
124
12
2
2
0
140
Np.
119,6415
18,8008
1,4772
0,0774
0,0031
140,0000
m=Ii/70
2/ (*:£) = 12,318
c — k —1=2
Фишер сравнивает этот критерий, обычный метод χ2 и критерий
сравнения дисперсий с точными вероятностями, вычисленными по
условному распределению, для выборок с таким же объемом и
средним, как рассмотренная выборка. Он приходит к выводу [Фишер
4]
ОДНА ВЫБОРКА
131
(1950, стр. 24)], что (в обозначениях этого раздела) 2/(*:р), «которая
является по существу логарифмической разностью в правдоподобии
между самой правдоподобной пуассоновской серией и самой
правдоподобной теоретической серией», есть мера, которая «кажется,
хорошо согласуется с условным X2, когда математические ожидания
в классе малы». [Ср. Крамер (1946а, стр. 434—437).]
4А «Односторонняя» биномиальная гипотеза
Исследуем теперь задачу, которая в некотором отношении является
частным случаем задачи раздела 4.1, но отличается от нее
существенным образом. Конкретно, мы желаем проверить «одностороннюю»
гипотезу о выборке из биномиальной популяции. Предположим, что у
нас есть выборка из биномиальной популяции с числом «успехов» χ
и числом «неудач» N—х. Нас интересует проверка двух гипотез:
Ηχ: вероятность успеха в биномиальной популяции
равна А >Л
//2: вероятность успеха в биномиальной популяции
равна р.
См. пример 3.3 главы 5.
Применим результаты раздела 3 в биномиальном случае, полагая
С=2, Ρι=ρ, /72 = #=1 /7, Xi—Xi X2=:N X, Tt = Τ, Τ2 = 0.
Сопряженное распределение [ср. (3.2)] принадлежит семейству
биномиальных распределений Нх из (4.13), если /;* = (ре1/(ре1 -|~ q)) ^>p.
Следовательно, допустимы только значения τ^>0 [см. абзац,
следующий за (12.12) гл. 3]. Беря в качестве параметра сопряженного
распределения наилучшую несмещенную выборочную оценку, т. е.
@ = Np* = Xy получим
!(р* :ρ) = τχ — N\og(pel _j_ ^ (4.14)
τ = log (xqfp (TV— *)). (4.15)
Если x^>Np9 то τ = log (xqfp (N—-*0)^>0 допустимо. Если
x<^Np> τ<[0 и не допустимо. Таким образом, имеем статистику
минимума различающей информации (см. пример 3.3 гл. 5, а также
рассуждения, следующие за теоремой 2.1 гл. 3)
1{НХ\Н£ 0N) = \ &NP rv Nq ^ (4Л6)
Если справедлива нулевая гипотеза Нъ то 2/(//1:Я3; 0N) имеет
асимптотически /^-распределение с одной степенью свободы.
Значение χ3, соответствующее уровню значимости а, нужно брать из
обычных таблиц γ* на уроене 2а? тт как цы не рассматриваем значений
132 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6
x<^Npy для которых 1{НХ:Щ 0N) имеет такое же значение, как
для некоторых значений x^>Np.
Рассмотрим теперь вместо простой нулевой гипотезы //3 (см. (4.13))
сложную нулевую гипотезу Н^
//^•вероятность успеха в биномиальной популяции
равна A>ft, (4.17)
//^.'вероятность успеха в биномиальной популяции
равна ρ ^/?0·
Учитывая поведение функции F{p> ρ) раздела 3 главы 4 и
пример 3.3 главы 5, можно убедиться, что (см. задачу 7.17)
,?>,0*2£+<"-*>**Туг) =
= х1о2Ж + №~х№^ЩГ> Χ>ΝΡ«· (4Л8>
Статистика минимума информации для различения против наименее
информативного распределения из семейства распределений сложной
нулевой гипотезы, следовательно, равна
[ х 1о£ тг~ + (N—Jc)log .7"* x^>Npo,
ϊ(Ηί:ΗύΟΝ) = \ *МРо^У ' * Nq0 ^ ™> (4Л9)
I 0, χ^Νρ0.
Когда справедлива нулевая гипотеза Н% из (4.17), асимптотически
P{2/(tfi:/£; О^ТОЦ^а,
где Х|а — значение обычного X2 с одной степенью свободы на
уровне 2а.
Аналогично для гипотез
//3: вероятность успеха в биномиальной популяции
равна ftO„
Ηζ: вероятность успеха в биномиальной популяции
равна р^ре,
имеем
HH3:HZ;0N)JXl°eW^N-X)1°^> X<™> (4.21)
I 0, x^Npo-
При справедливости нулевой гипотезы Ηζ из (4.20), асимптотически
Р{2/(Д:/£; 0^χΙα}<α,
где XJe — значение χ2 с одной степенью свободы на уровне 2а.
4]
ОДНА ВЫБОРКА
133
(4.22)
Двусторонняя гипотеза
//4: вероятность успеха в биномиальной популяции
равна рг φ р0,
//2: вероятность успеха в биномиальной популяции
равна /?=:/?о
есть частный случай гипотезы раздела 4.1 и
2/(Я4:Я2; 0„) = 2 (*log -^-j_(^-jf)log^i) (4.23)
асимптотически имеет х2-распределение с 1 степенью свободы при
справедливости нулевой гипотезы //3 из (4.22).
Отметим, что Нь Но и Щ из (4.22), (4.17) и (4.20)
соответственно удовлетворяют соотношению Η%ζ^Ηζ(~)Ηζ, т. е. (р==р0)
в том и только в том случае, если (р^ро) и (jp^Po) одновременно,
Hiy Hi и //3 из (4.22), (4.17) и (4.20) соответственно удовлетворяют
соотношению //4 zzl Hx \J H& т. е. (р^р0) в том и только в том
случае, когда либо (ρι^>Ρο), либо (ρι<^Ρο). Пересечение областей
принятия гипотез Н% и Н\
χ log (x/Npo) + (N—x) log ((TV— x)jNq0) ^ const (4.24)
является также областью принятия гипотезы //3.
4.5. «Односторонние» полиномиальные типотезы
Исследуем теперь «односторонние» гипотезы в некоторых задачах,
касающихся с-значных популяций (с категорий).
Первая задача заключается в проверке гипотезы Hv что
вероятность первой категории больше 1/с, против нулевой гипотезы //2 о
равновероятности категорий, т. е.
! (4.25)
Я3:/71=/72=... = /7с = —.
Предположим, что мы имеем выборку в N независимых
наблюдений, как в разделе 4.1. Из раздела 3 видно, что сопряженное
распределение принадлежит семейству распределений, соответствующих
гипотезе Нь если pf = eTlj(eT1 -|~ е12 +... + е1^) ^> —.
Следовательно, допустимыми являются только такие значения %ь г = 1,
2, ..., с, для которых (τ— 1)6?τι^>6?τ2-}-. .. + еТс. Взяв в качестве
параметров сопряженного распределения значения их наилучших
134 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6
несмещенных выборочных оценок, т. е. бг- = Л^* = лгг·, получим
f(p*:p)=xixl+x,x, + ... + lcxc-Nlog({e^±... + e^/c), (4.26)
-£Ll *-, /=1,2,...,*. (4.27)
е 1 +е 2+...+е
Так как βτί=χ{/Ν, i=l, 2, ..., с [берем в (3.5) ck=t]t то тг
принадлежит области допустимых значений, если
(с- 1)-%-> *.+*»+- + *« =£=*i, (4.28)
т. е. если Xi^>Nlc. Если же xt^N/c, мы должны найти значение
ϊ(ρ*:ρ) вдоль границы области допустимых значений τ£, (с—1)^ =
= ет2-{-"- + еТс> второй области, для которой ΐ(ρ*:ρ) может
отличаться от нуля. В этом случае [ср. Бранк (1958, стр. 438)]
Л. Л
Нр* ■ ρ)=χι log "f—Ί+< C +*Λ+· · ·+*Α — Mog *?I =
л. л.
= x*4 + --. + ^c-(N-xl)\oge*\^teC · (4·29)
Последнее выражение есть выражение для (N — лг^-кратного
полиномиального распределения на (с—1)-значной популяции,
аналогичное (4.26). Мы имеем, следовательно,
с
ПНг'.Щ 0N)= J Jfilog^, xi>!j, (4.30)
i=l
с
t(H1:H£0„)=2ixtlog^=^i, xt^, (4.31)
i=2
т. е. когда xl ^ N/c, отвержение нулевой гипотезы зависит от
условных значений хъ ..., хс.
Если в табл. 4.1 положить pi^=zljc, 1=1, 2, ..., с, то последние
три строки дадут табл. 4.4, где степени свободы есть степени
свободы асимптотического ^-распределения при справедливости нулевой
гипотезы Щ из (4.25).
ОДНА ВЫБОРКА
135
Таблица 4.4
В пределах категорий от
2 до с | xt
Между категорией 1 и
категориями (2+ ...
... +с)
Итог, 2/(*:2;Су
Компонента информации
2(*ilog^+ ... +хс log^)
С. С.
с—2
1
г — 1
Отметим, что удвоенное выражение (4.30) является «итогом»
в табл. 4.4, а удвоенное (4.31) есть компонента в пределах
категорий от 2 до с при данном хх. Уровень значимости α соответствует
уровню значимости 2а в обычных таблицах χ2.
Во второй задаче семейство распределений гипотезы Нх
суживается до семейства, в котором все категории, кроме первой,
равновероятны, т. е.
c—V
Н\
im-Pi=P>-j, Р* = Ръ = ... =Рс-
Ή·'Λ=Λ= ··· =Ре —
1
(4.32)
Сопряженное распределение принадлежит семейству распределений,
соответствующих гипотезе Н[ из (4.32), если
/ί = ·
exi
е *+ ... + е
>т.
Л
*'!+... +<?'
έ?*+ ...+*'
т. е. единственно допустимыми значениями τ{ являются τ2 = τ3:
:тс = т, τ!^>τ, и (4.26) перепишется теперь в виде
л.
ИР* :р) = *ι*ι + (Ν- хх) τ - N\og ^ + (с "*> *
Ne11
—, N—Xt
_ N(c—\)e*
(4.33)
(4.34)
еТ1 + (с—1)έ?τ ^ + (c— i)*
Так как Л = ^(^ + (С-1)^), ^ = ^1* (** + {с- 1)*),
то τ4 принадлежит области допустимых значений, если xx^>NJcy
136
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
и мы находим, что
!{И[:Щ 0^==Х11оёс^ + (М-Х1)1оё^{с^ , х,у
N
(4.35)
Если хх^~, мы должны найти значение /(/?*:/?) вдоль границы
области допустимых значений τ1 = τ, которое будет равно /(/?*:/?) =
ζ=ζτχ1~^-(Ν—xt)x— NlogeT = 0. Отметим, что удвоенное значение
выражения (4.35) входит в качестве компоненты «между» в табл. 4.4.
Проверка гипотез (4.32) с помощью статистики минимума
различающей информации (4.35) является частным случаем проверки
гипотез (4.13) с помощью статистики (4.16). Это не удивительно, так
как гипотезы (4.32) указывают только разные значения рь но обе
Н\ и 7/2 предполагают равенство остальных вероятностей.
В третьей задаче проверяется нулевая гипотеза Н!2, что все
категории, кроме первой, имеют равные вероятносш появления при
альтернативной гипотезе Н[, предполагающей любую означную
популяцию, т. е.
Н[\рь Ръ .··> Ро /Ί+Λ + ·.· +/>с=1,
Яа-'Л=Л й= ... =Рс =
1-Я
с—Г
(4.36)
Э,то
частный случай гипотез (4.1), и анализ, предлагаемый в табл. 4.5,
получается из анализа, приведенного в табл. 4.1.
Таблица 4.5
В пределах категорий от
2 до с | xt
Между категорией 1 и
категориями (2+ ··■
... +с)
Итог, 2/ (·:/# 0N)
Компонента информации
2(XilogS+(^Xi)logw^))
2(*1Iog*+*ilog*^+...
С. С.
с~2
1
с —1
Обычно нулевая гипотеза Λζ из (4.36) не уточняет значения р,
и тогда в основе критерия лежит компонента «в пределах категорий
от 2 до с при данном хг», которая имеет асимптотически х2-распре-
деление с (с — 2) степенями свободы, при справедливости нулевой
гипо!езы Hq из (4.36). Заметим, что эта компонента в табл. 4.5 яв~
4]
ОДНА ВЫБОРКА
137
ляется минимальным значением «итога» по различным р, т. е. по
семейству распределений, соответствующих Н!2.
4·5.1· Резюме. Гипотезы (4.25), (4.32) и (4.36) удовлетворяют
соотношениям H[C1HiC1Hi и //3CZ^ (ЯзС^з означает, что //2
содержится в tQ. Поэтому разумно суммировать предшествующие
результаты в табл. 4.6 для того, чтобы облегчить сравнение.
Информационные статистики в табл. 4.6 имеют асимптотически
^-распределение с указанным числом степеней свободы, если
соответствующая нулевая гипотеза верна, но вследствие ограничений
на величину хх уровень значимости α соответствует уровню
значимости 2а в обычных таблицах χ2 для всех, кроме последних двух
статистик.
Таблица 4.6
Гипотезы
H'i, Hs
(4.32)
Hi, #2
(4.25)
Щ.Щ
(4.36)
Информация
0, Xi^Nlc
2 (*, log ψ + (*-*.) Юё (ff (7_f У), *.>£
с
ί=1
ί = 2
с
2-yil°g^-0+2I!A:ilog^((i-p)o)' ^^
i = 2
С. С.
i
с—:
с —
с —
с —
4.5·2. Некоторые иллюстрации· Точные вероятности для инфо{
мационных статистик в случае гипотез Н[9 Н% из (4.32) были вь
числены для с = 5, 10 и некоторых удобных значений N и ρ с пс
мощью Таблиц биномиального распределения (1949). Можно сравнит
ошибки первого и второго рода, а также точные вероятности с аси»
птотическими, получаемыми по χ2 и нецентральному х2-распредел<
ниям. (См. раздел 5 гл. 5.) Вероятности приведены в табл. 4.7, 4,
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
Таблица 4.7
Ня'Р1=Р*= ··· =Рс = —
Ρ (xt < N/c) = Ρ (2/(tfj : tf8) = 0)
с
5
5
5
5
5
5
5
5
5
10
10
10
10
Ν
5
10
15
20
25
30
35
40
45
10
20
30
40
N/c
1
2
3
4
5
6
7
8
9
1
2
3
4
Я 2
0,74
0,68
0,65
0,63
0,62
0,61
0,60
0,59
0,59
0,74
0,68
0,65
0,63
ρ =0,15
—
—
—
—
—
—
—
—
0,54
0,40
0,32
0,26
ρ = 0,20
—
—
—-
—
—
—
—
—
Ι 0,38
0,21
0,12
! 0,08
ρ = 0,25
0,63
0,53
0,46
0,41
0,38
0,35
0,32
0,30
0,28
I 0,24
0,09
0,04
0,02
ρ = 0,30
0,53
0,38
0,30
0,24
0,19
0,16
0,13
0,11
0,09
0,15
0,04
0,01
0,003
ρ = 0,35
0,43
0,26
0,17
0,12
0,08
0,06
0,04
0,03
0,02
0,09
0,01
0,002
0,0003
ρ = 0,40
0,34
0,17
0,09
0,05
0,03
0,02
0,01
0,01
0,004
0,05
0,004
0,0003
0,00003
и 4.11. В табл. 4.8 х[ выбрано так, чтобы получить вероятность,
близкую к 0,01, при справедливости 7/2. Информационный параметр
в табл. 4.9 является параметром нецентральности λ для
нецентрального х2-распределения. В табл. 4.10 χΐ (уточненное) является средним
арифметическим двух соседних значений 2Ϊ(Η[: Щ 0Ν) и
используется в качестве уточненного значения для нижнего. [См. Кохрэн (1952).]
«Центральные» вероятности в табл. 4.11 получатся, если взять χ0
в качестве соответствующего предела в нормальном распределении
N(0, 1). «Нецентральные» вероятности в табл. 4.11 получены из
нецентрального χ2 распределения с одной степенью свободы [см. (6.9)
гл. 12]:
Хо Хо
Отметим, что Р(Х1^х[) предполагается равной Ρ(χ2^χΙ). В самом
деле, χΐ было выбрано, с поправкой на непрерывность, в
соответствии с х[. В табл. 4.7 даны вероятности некорректного принятия Нь
когда Χι <; Ν/с9 при различных значениях ρ в гипотезе И[. Даже для
небольших N аппроксимация хорошая.
ОДНА ВЫБОРКА 139
Таблица 4.8
с
5
5
5
5
5
10
10
10
10
N
5
15
25
35
45
10
20
30
40
*;
4
7
10
13
16
4
6
8
9
я2
0,0067
0,0181
0,0173
0,0142
0,0110
0,0128
0,0113
0,0078
0,0155
р=0,15
—
—
—
—
0,0500
0,0673
0,0698
0,1354
ρ = 0,20
—
—
—
—
0,1209
0,1958
0,2392
0,4069
ρ = 0,25
0,0156
0,0566
0,0713
0,0756
0,0753
0,2241
0,3828
0,4857
0,7002
ρ = 0,30
0,0308
0,1311
0,1894
0,2271
0,2538
0,3504
0,5836
0,7186
0,8890
ρ « 0,35
0,0540
0,2452
0,3697
0,4577
0,5248
0,4862
0,7546
0,8762
0,9697
ρ = 0,40
0,0870
0,3902
0,5754
0,6943
0,7751
0,6177
0,8744
0,9565
0,9939
Таблица 4.9
2N{plogcp+qlog7^ = 2I(H'i:Hs; 0N)
С
5
5
5
5
5
10
10
10
10
Ν
5
15
25
35
45
10
20
30
40
ρ = 0,15
0,2447
0,4894
0,7341
0,9788
ρ = 0,20
0,8881
1,7761
2,6642
3,5522
ρ = 0,25
0,0738
0,2215
0,3691
0,5167
0,6644
1,8466
3,6933
Ι 5,5399
7,3865
ρ = 0,30
0,2817
0,8450
1,4084
1,9717
2,5351
3,0733
6,1465
9,2198
12,2931
ρ = 0,35
0,6090
1,8270
3,0450
4,2630
5,4810
4,5388
9,0777
13,6165
18,1554
ρ = 0,40
1,0465
3,1395
5,2325
7,3255
9,4185
6,2248
12,4495
18,6743
24,8991
Таблица 4.10
2Ϊψ[:Η» 0Ν) = 2 [χ, log ψ+ (N~Xl) log ^Tf1}/). *»>7·
С
5
5
5
5
5
5
5
5
5
5
Ν
5
5
15
15
25
25
Э6
35
45
45
χι
3
4
6
7
9
10
12
13
15
16
2/
3,819
8,318
3,139
5,375
3,440
5,232
3,887
5,484
4,385
5,871
2/
(уточненное) « χ|
6,068
4£57
4,336
4,686
5,128
с
ί ίο
10
10
I 10
10
10
10
ί 10
Ν
10
10
20
20
30
30
40
40
Χι
3
4
5
6
7
8
8
9
2/
3,073
6,225
3,693
6,147
4,486
6,682
3,552
5,326
2/
(уточненное) = χ8
4,649
4,920
5,584
4,439
140
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
Таблица 4.11
с
5
5
5
5
5
10
10
10
10
10
10
N
5
15
25
35
45
10
10
20
30
40
40
*;
4
7
10
13
16
4
4
6
8
9
9
А
6,068
4,257
4,336
4,686
5,128
4,649
4,649
4,920
5,584
4,439
4,439
я2
Центральный χ2
j ^(λ2^λ§)
0,0069
0,0196
0,0187
0,0152
0,0118
0,0155
0,0133
0,0091
0,0176
Биномиальное
Ρ (Xt >: X[)
0,0067
0,0181
0,0173
0,0142
0,0110
0,0128
0,0113
0,0078
0,0155
; Ρ
0,25
0,30
0,35
0,40
0,25
0,15
0,35
0,20
0,25
0,15
0,40
λ
0,0738
0,8450
3,0450
7,3255
0,6644
0,2447
4,5388
1,7761
5,5399
0,9788
24,8991
1 я;
Нецентральный χ2
Ρ(χ2^χξ)
0,0175
0,1285
0,3670
0,7088
0,0759
0,0526
0,4920
0,1869
0,4960
0,1324
0,9980
Биномиальное
Ρΐ*ιΞ=*Ρ
0,0156
0,1311
0,3697
0,6943
0,0753
0,0500
0,4862
0,1958
0,4857
0,1354
0,9939
5. ДВЕ ВЫБОРКИ
5.1. Основная задача
Пусть мы имеем две независимые случайные выборки независимых
наблюдений объемов Λ/Ί и А^ с полиномиальными распределениями
на с-значной популяции. Обозначим выборки символами
с
(X) = {Х%> ДГд, . . . , Хс)9 2^ Xf = Νχ
ι = 1
Мы хотим проверить нулевую гипотезу однородности //2, т. е.
гипотезу о том, что выборки принадлежат одной и той же
популяции, при альтернативной гипотезе Нь что выборки принадлежат
различным популяциям:
Ηγ. выборки принадлежат различным популяциям (р%) =
= (Рхъ А* · ■ · > Pic)> (ft) = (Pet. Раа> · · - > />аД
Н*: выборки принадлежат одной популяции (p) = (pltр^ ...
···> Рс\ Pu=Pn=Pi> l=U 2> ·.·> с.
(5.1)
Так как выборки независимы, то в обозначениях (3.1) имеем (мы
опускаем обозначения объема выборки и г. д., за исключением тех
5] ДВЕ ВЫБОРКИ 141
случаев, когда это может внести путаницу в результаты)
(·*>. (у)
= Ы1Ури1оё^ + ыЛрмЩр^, (5.2)
*Ξι Λ ί=ι Ρί
У(1, 2)= 2! (Р1(^)ЛСУ)-/>(^Cy))tog-^^ff =
(*)(У)
ϊ = 1 i—1
Сопряженными распределениями будут (см. раздел 3 и раздел 1
гл. 5)
Р?(*)=-^ ϊ 7^Г> (5·4)
η(ν\ 0**1*1 ^ 'С22ЛГ2 + · ■ ■ + Х2СХС
(Ρι« "+/'·* Μ+·.·+/Άβ) s
И мы находим
= Σ (*«*? i*i) + τ*Ε% CVi) - Μ log </%*■« + ... +/^V) -
1=1
— Ns log (дет« + ... +/?ce^), (5.6)
где Ef ( ) обозначает математическое ожидание величин из
популяции с распределением р* ( ).
Положим е1(х() = Ntfli,El(yt) = ΝνρΙι,Γΐΐβ Рд—р^ет#1(рпе*п~\-...
··■ +/7/с^Н /=1> 2> /=1, 2, --.ι с; тогда (5.6) дает
}(p*:p)==Nl2 ^logJ' + MjAlog^. (5.7)
i=l r = l
Возьмем в качестве параметров сопряженных распределений их
наилучшие несмещенные выборочные оценки, т. е. /и = х,-/М и
P2i=yi/N%, /=1, 2, ..., с; гогда
с
/Of :/0 = 2 (*' ^iSi+Λ Ювз^) · (5.8)
ί = 1
142
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
Таблица 5.1
(между) 2ίφ:ρ)
Ошибка, 21(р*:р)
(в пределах)
Итог, 2f(p*:p)
Компонента информации
с
'"| v log(^i + ^M
С. С.
с —1
с —1
2(с-1)
Нулевая гипотеза //2 из (5.1) обычно не уточняет значений рь
ί=1, 2, ..., с. Мы можем разложить ϊ(ρ*:ρ) на две аддитивные
компоненты, одна из которых обусловлена отклонениями pt от их
наилучших несмещенных оценок по объединению выборок, а другая
тем, что может быть названо «ошибкой» в пределах выборок. Анализ
приведен в табл. 5.1. Степени свободы соответствуют степеням
свободы асимптотического х2-распределения при справедливости нулевой
гипотезы //2 из (5.1). Отметим, что компонента «в пределах» табл. 5.1
является минимальным значением «итога» по различным наборам
с
р£, V/7f = l, т. е. по всем распределениям семейства, соответствую-
щего гипотезе //2.
Анализ, приведенный в табл. 5.1, отражает тот факт, что
гипотеза //2 из (5.1) является пересечением гипотезы Я2(·) об
однородности выборки и гипотезы Я2 (· | (/?)) о том, что однородные выборки
взяты из популяции (/?) = (/?!, ръ ..., /7С), т.е. Яа = Яа(-)Пл«("107))·
Компонента 2/(/?:р) табл. 5.1—статистика, лежащая в основе
проверки гипотезы #2(-| (/?))> а компонента 2Ϊ(ρ*:β) или 2/(#1:Я2) —
статистика, лежащая в основе условной проверки гипотезы //2(0
при условии, что наблюдены значения pt = (xt -\- ^)/(М + Аз),
/=1, 2, ..., с.
Компонента 21(р*:р) в табл. 5.1 может быть записана в виде,
удобном для вычислений с помощью таблиц η log n
ϊ(ρ* :ρ) = ϊ(Ηί: Щ = Σ *ι log *, + ЪУг logj;, -
- Σ C*i +Уд log {Xi Л-Уд + (Μ + Μ) log (Μ + Μ) -
— Νχ log Μ — Ν2 log Аз. (5.9)
5]
ДВЕ ВЫБОРКИ
143
Расхождения не допускают подобного аддитивного анализа (с
такими оценками), но оценкой расхождения, соответствующей
компоненте 2/(/?*:/?), является
Sip*, p)^S(Hu Hd = *l(%-f^fJlog^A+A^^
+ *%
Ά _ *t+yi \ 1fur iNi + N*)yi _
wfw^m-N-j^-Nji· (5Л0)
Отметим, что ϊ(Ηι:Η%) = ϊ(ρ* \ρ) в табл. 5.1 получается из (5.2)
подстановкой χ^Νχ вместо ри, yi/N^ вместо /?9ί и (^+^)/(М + М)
вместо pif и (5.10) получается из (5.3) той же подстановкой.
При справедливости гипотезы //2 из (5.1) (выборки взяты из
одной популяции) Ίί{Ηχ: Н9) и S(Ht, Щ имеют асимптотически
^-распределение с (с—1) степенями свободы.
Используя аппроксимации, заданные приближенными равенствами
(4.5) и (4.6), находим [ср. Пирсон (1911)]
J(Hb Η$)ί
1 VI (Ν2χι
2NiNs L· xx
* NtNt2i'
ί+У·
_!
(№xi-Niyiy _ .
xt+yt —χ'
1 XiN^Xi-
(5.11
■N&ifto+yd
2(Ni + N2y L· ХЫ
5.2. «Односторонняя» гипотеза в биномиальном случае
Рассмотрим теперь одностороннюю гипотезу о двух биномиальных
распределениях. Предположим, что у нас есть две независимые
случайные биномиальные выборки в Νχ и 7V2 независимых наблюдений,
в которых имеется соответственно хну «успехов». Мы хотим
проверить две гипотезы:
Н[\ выборки принадлежат различным биномиальным
популяциям с соответствующими вероятностями
успеха рь /?2, А>Аа> (5.12)
//2: выборки принадлежат одной биномиальной
популяции ^=/72=/?.
Из аналогов (5.4), (5.5) и (5.6) для биномиальных распределений
(ср. раздел 4.4) мы видим, что сопряженное распределение
принадлежит семейству, соответствующему гипотезе Н[ из (5.12), если
pfi + Q-p)^" pe* + (i-p)
144 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6
Следовательно, допустимы только значения ^^τ^. Возьмем в
качестве параметров сопряженных распределений соответствующие
значения наилучших несмещенных выборочных оценок, т. е. β% = χ/Νι,
p%=yJN<z и получим [ср. (5.6)]
lip*ip) = *tx — Nt\Qg{pe4 + i\ —p)) +
+ %у-N.log (ре^ + (1 -/;)), (5.13)
— N**1 у = ^ (5.14)
или
реХ1 + {\~Р) Рет*+(\~Р)
τι==1ο8 {)-р)\, %, = 1о8 {)~Р)\ . (5.15)
1 &Ρ(Νι — хУ Р(М2 — у) к }
Если x\N\^>y\N<i> то τ1^>τ% и тъ τ3 допустимы. Однако если
x/Ni^y/Nb то τ1^τ2 и τυ τ2 недопустимы, и мы должны найти
значение ϊ(ρ*:ρ) вдоль границы ^ = ^2 области допустимых
значений. Подставляя τ = τ1=τ3 в (5.13), имеем
+^~/>/+(i~/>) ' T-log/>("i+".-*-tf· (5Л6)
Таким образом,
/fr *: f)=* log ^ + (Μ — *) log ^1-p) +
+^log^ + (M-^)log^~^( £>£, (5.17)
l(p*:p)=ix+y)loep{^Ni) +
+ iNl + N9-x-y)log %ΧΝ^Ξ% > ^=^i· (5Л8)
В табл. 5.2 приведен анализ табл. 5.1 в случае биномиальных
распределений для двусторонних гипотез:
Н{. выборки принадлежат биномиальным популяциям
с соответственными вероятностями успеха рь /?2,
Λ т* ft» (5.19)
//2: выборки принадлежат одной и той же
биномиальной популяции pi=p<i—p.
Мы видим, что 2ΐ(ρ*:ρ) (см. 5.17) — «итог» в табл. 5.2, когда
xlN^>yjNb а 2/(/?*:/?) (см. (5.18)) — компонента 2ΐ(ρ:ρ) табл. 5.2,
когда x/Ni^y/N^.
Гипотеза //2 из (5.12) обычно не уточняет значения р, и минимум
значений «итога» и компоненты «между» (минимум по всевозможным /?,
т. е. по семейству распределений соответствующих гипотезе //2) равен
(компонента «ошибки» табл. 5.2, x/Ni^y/No,
/(Я1:Яа)=\о,*/м^/м· ' (5·20)
ДВЕ ВЫБОРКИ
145
Таблица 5.2
Компонента информации
С. С.
Р Ni + N*
21 (β:Ρ), (между)
Ошибка, 2ί(ρ*:ρ)
(в пределах)
2 (х+у) log
х+;у
(Ν, + Ν^ρ
■μ
+ JV2)x
-Λ bg
7VA-f- N2 — x— у
(Mi+N2)(l-p)
(х+У)
+
+("i
+ ^log
М + АЦУ
JV2 (*+>>)
+ (N9—y) log
-y) \
x~y)j
Итог, 2/(/?*:/?)
+ ^log^ + (7V2—^)log
N2-y
Nt(l-p)
Когда нулевая гипотеза Я2 из (5.12) верна, 2/(Я1':Я2) в (5.20)
имеет асимптотически χ2-pacπpeдeлeниe с одной степенью свободы,
но значение χ2, соответствующее уровню значимости а, нужно брать
из обычных таблиц χ2 на уровне 2а.
Аналогично для проверки двух гипотез:
Я[: выборки принадлежат различным биномиальным
популяциям с вероятностями успеха рг и р2
соответственно, ΡιΟ* (5.21)
Я2: выборки принадлежат одной биномиальной
популяции /71=/72=/7,
имеем /(/?*:/?), заданную формулой (5.17), когда xjN±<Cy/Nb и 1(р*:/?),
заданную формулой-(5.18), когда xfNi^yfN* Гипотеза Я2 из (5.21)
обычно не уточняет значения /?, и тогда
компонента «ошибки» табл. 5.2, xJNi<^yJN^
ζν/Λ/a-
Если справедлива нулевая гипотеза Я2 из (5.21), 2/(Я[:Я2)
в (5.22) имеет асимптотически х2-распределение с одной степенью
свободы, но значение χ2 на уровне значимости α нужно брать из
обычных таблиц χ2 на уровне 2а.
(компоне!
(5.22)
146
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
Заметим, что Нь Н[ и Н[ из (5.19), (5.12) и (5.21) соответственно
удовлетворяют соотношению Hi^H[\J H'{9 т. е. (ρχ^ρ^) тогда
и только тогда, когда (Ρι<^ρ%) или (ρι^>ρ%).
Заметим еще, что в табл. 5.2, когда xjN±=y/N^ «итог»
становится равным компоненте «между», а компонента «в пределах»
исчезает. В любом случае альтернативные гипотезы Н[, И{, Ηχ будут
приняты, если статистика минимума различающей информации
превзойдет некоторую константу.
Суммируем предшествующее в табл. 5.3, из которой для
различных гипотез видно, когда лежащая в основе критерия проверки
статистика есть «итог», а когда — компонента «между» или «в
пределах» из табл. 5.2. Например, при проверке Η\'·{ρ\^>ρ*), против
Н^:(рх=р^=р)у когда задано /? = /?0, используется «итог» 2Ϊ(ρ*:ρ),
если xfNi^>yjNto и компонента «между» 2/(/?:/?), если x/Ni^y/N^
Однако если ρ не задано, используется компонента «в пределах»
2Ϊ(ρ*:ρ), если x/Ni^>y/N^ и принимается нулевая гипотеза Нъ
если xfNx^yfN*
Таблица 5.3
Между,
21(р:р)
В пределах,
2/(Р*:£)
Итог,
2/>*:р)
15.12)
χ ^ у
ж^ж>р==р0
χ у
х+У
р=р=ж+ж
χ у
нг.на
(5.21)
χ ~~. у
χ у
х-\-у
»· Μ
х ^ У
15.19)
Р=Ро
х+У
ρ=ρ=νΓ+ν3
Р=Ро
6. г ВЫБОРОК
6.1. Основная задача
Предположим, что имеется г независимых случайных выборок
с полиномиальными распределениями на с-значной популяции, и нас
интересует проверка нулевой гипотезы об однородности выборок.
Обозначим выборки символом
(χ-) —= (Хц, Х&, ... у Xich xil Τ" · · · Г" Х™ ^ί' * » 2, .. . , Γ,
61 г выборок 147
и рассмотрим две гипотезы:
Н{. выборки принадлежат различным популяциям
(Рш Л* .. · f Pic)> i= 1, 2> · · ■» г» (6.1)
Я2: выборки принадлежат одной популяции (ρί9... 9 рс),
а именно Pij=Pj^>09 i=l, 2,..., г, /=1, 2,..., г.
Не повторяя детально рассуждений, аналогичных предыдущим,
находим здесь, что
г с
7(l:2)=2"i2ft'l0g^· (6·2)
г с
7(1, 2) = ^ ^ 2 ^ - ^ l0g ^ ' (6'3)
Взяв в качестве параметров сопряженных распределений
соответствующие наилучшие несмещенные выборочные оценки, получим
г с
¥:p)=22^log%:- (6·4)
*=1/=1 J
Гипотеза Н% из (6.1) обычно не уточняет значений ρ ρ j = 1,..., с.
Мы можем разложить ϊ(ρ*:ρ) в (6.4) на две аддитивные
компоненты, одну, обусловленную отклонениями pj от их наилучших
несмещенных оценок по объединению выборок, и другую,
обусловленную «ошибкой» в пределах выборок. Анализ суммирован в табл. 6.1,
г
где Xj= 2 xip N=N1-\-N<*-\-...-\~Nr. Степени свободы соответ-
i=l
ствуют степеням свободы асимптотического х2-распределения при
справедливости нулевой гипотезы Н<* из (6.1). Отметим, что /(/?* :р)
в табл. 6.1 является минимумом величины (6.4) по различным наборам
с
ρ ρ 2'?У===1, т* е* п0 семействУ популяций, соответствующих гипо-
тезе Нъ а по свойству выпуклости (см. раздел 4.2 и раздел 3 гл. 2)
г с с
2 2^logiS^ 2^logi^·Будем писать теперь №://>)
вместо /(/?*:/?)·
Анализ в табл. 6.1 отражает тот факт, что гипотеза Я2 из (6.1)
является пересечением гипотез: #2(*) об однородности выборок, и
^ai'lO7)) ° том> чт0 однородные выборки принадлежат популяции
(р)=(рьрь...у рс), т. е. Я2 = #2 (■) Π #а (· | (ρ)). Компонента «между»
2/(/?:/?) в табл. 6.1 лежит в основе проверки гипотезы Я2(-|(р)), а
148 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. о
Таблица 6.1
Компонента информации
pj=XjlN, 21ф:р)
(между)
Ошибка, 2/ (р* :р) (в
пределах)
Итог, 2/ (р*:р)
2 2^4
2 ς ς «■■*&,
i=i ;«1
с. с.
с —1
(г —1)(с —1)
г(с-1)
компонента «в пределах» в табл. 6.1, 2/(/?*:/?) или 2/(/ii://a),—
в основе условной проверки гипотезы Н$(-) при условии, что
наблюдены значения pj = Xj/N, 7 = 1» 2,...» £"·
Компонента «ошибки» в табл. 6.1 может быть записана также
в виде, удобном для вычислений с помощью таблиц л log л,
/<ρ*:# = /(Μ:/4)= 2 2 *vlog*iy- £ XjlogXj +
ί = 1/=1 7=1
r
+ TV log TV— 2 Μ log Nt. (6.5)
Расхождения не допускают подобного аддитивного анализа (с
такими оценками), но оценкой расхождения, соответствующей
компоненте «ошибки», является
* = 1 /=1 J
Отметим, что ϊ(ρ*:β) в табл. 6.1 получается из (6.2)
подстановкой XijjNi вместо ρ^ и XjjN—вместо pj и что (6.6) получается из
(6.3) теми же подстановками.
При справедливости нулевой гипотезы К2 из (6.1) выборки взяты
из одной популяции, 2/(//i:/ia) и J(Hb Щ имеют асимптотически
Х2-распределение с (г—\)(с — 1) степенями свободы.
Используя аппроксимации, заданные приближенными равенствами
(4.5) и (4.6), находим [ср. Сюй (1949, стр. 397—398)] (см. задачу
7.18)
г с
2/(^: Яз) ^ 2 Σ N(XV ~ *Ί$ΙΝ*Ι·
6]
г ВЫБОРОК
149
6.2. Разбиение
Компонента «ошибки» в табл. 6.1 может быть разложена на
(г—1) сравнений, каждое с (с—1) степенями свободы, между
каждой выборкой и объединением всех предшествующих выборок. Это
позволяет оценить вклад каждой выборки в проверку резких
изменений. [Ср. Кохрэн (1954, стр. 422—423), Ланкастер (1949).] О
разбиении в пределах категорий см. раздел 4.2.
Таблица 6.2
Компонента информации
В пределах 1 и 2
выборок
Между выборкой 3 и
выборками 1 и 2
В пределах выборок
от 1 до (г — 2)
Между выборкой
(г—1) и
выборками от 1 до (г — 2)
В пределах от 1 до
(г — 1) выборки
Между выборкой г и
выборками от 1 до
С-1) ι
2/(Я1:/У2) (в
пределах)
2 \ yXijlog§*U
; = 1
: :
2У У xtjlog1^-
«=1 7 = 1
1 = 1 /esl
+*-.'">!= fez)
2 Σ Σ *^Ш
i-1 /=1
С. С.
с —1
с—1
(г_3)(с-1)
с —1
(г-2) (с-1)
с —1
(г_1)(с_1)
150
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ
[ГЛ. 6
Для обозначения последовательных объединений выборок
определим
yijz=xlj + ху +... + Xyf i == 2,..., г — 1,/*=1,2,..., с,
yn+yi* + ..-+yic=N1 + N% + ... + Ni=Mi.
Анализ в табл. 6.2 получается непосредственным образом из
определений (6.7) и свойств логарифма. Отметим, что в силу свойства
выпуклости (см. раздел 4.2 и раздел 3 гл. 2) каждая компонента
«между» в табл. 6.2 является для данного объединения минимумом
значения компоненты «в пределах», расположенной в следующей строке.
Заметим, что (см. замечание относительно анализа, данного
в табл. 4.1) анализ в табл. 6.2 отражает два факта:
1. Гипотеза однородности //> в (6.1) эквивалентна пересечению
(г—1) гипотез Я2(1, 2), //,(1 + 2, 3),..., //,(1 +2 + ... + Γ —
—1, г), //а = //9(1, 2)Π...η^(1+··. + '"-1> П где Я2(1,2) —
гипотеза, предполагающая, что выборки 1 и 2 однородны, //2(1+2, 3)—
что выборка 3 однородна с объединением однородных выборок 1 и 2,
#2 (1+2 + 3, 4) — что выборка 4 однородна с объединением
однородных выборок 1, 2 и 3, и т. д.
2. Совместное распределение двух независимых выборок может
быть представлено в виде произведения частного распределения
объединения выборок и условного распределения конкретной
выборки при данной объединенной выборке, т. е., в обозначениях (6.7),
NJ χ п.. xlc N2\
„Х9А Ха
,-р" "· · ·» ιέ . —5:—_ «лм .. .„л2с —
xn\...xlc\yi. нс х21!...х2с! Ηι гс
Хм- χ$ι· ··- -^ас-
Результаты для 3, 4,... выборок аналогичны. [Ср. Бартлетт (1937).]
Степени свободы в табл. 6.2 есть степени свободы
асимптотического χ2-распределения при справедливости нулевой гипотезы //2
из (6.1).
Предоставляем читателю оценивать расхождения и выражать
компоненты в виде, удобном для вычислений с использованием таблицы
η log я.
Могут возникнуть основания для разбиения г выборок на два или
более классов. Мы приведем анализ в случае разбиения на два класса,
который легко распространяется на общий случай.
Для удобства будем считать, что в первый класс входят выборки
с 1 по гь а во второй — выборки с г± +1 по г, и определим
*1/ = *У+ *«/ + · ·· + */■!/■ ,_, о
Zy -*Vi + l./~Г ■ ■ ■ Ί~ xrp
η=Σζψ n=j]zy, N=Tt+Tt (6.8)
/=1 /=1
6]
г ВЫБОРОК
151
Анализ, приведенный в табл. 6.3, получается непосредственным
образом из определений (6.8) и свойств логарифма. Отметим, что
в силу свойства выпуклости (см. раздел 4.2), компонента «между»
в табл. 6.3 есть минимум величины 2ΐ(Ηχ\Η^ для данного разбиения.
(Ср. табл. 4.2.) Оставляем читателю сделать детальные замечания
относительно анализа нулевой гипотезы и распределений, которые
аналогичны замечаниям по поводу табл. 6.2.
Степени свободы в табл. 6.3 — это степени свободы, которые имеет
асимптотическое х2-распределение при справедливости нулевой
гипотезы Н% из (6.1).
Оставляем также читателю оценку расхождений и представление
компонент в виде, удобном для вычислений с использованием
таблиц η log п.
Таблица 6.3
Компонента информации
Между 1 и 2
множествами
В пределах 2
множества
В пределах 1
множества
2ί(Η1:^ύ в
пределах г выборок ч
2 2 2'ч**ц%
2ΣΣ^£|
с. с.
с —1
(Γ_Γι ΐ)χ
X (с-1)
(г*—1)(с —1)
(г_1)(в_1)
6.3. Параметрический случай
Предположим теперь, что рь /?2>...> Рс из табл· 6.1 являются
известными функциями независимых параметров φυ φ2,..., φΛ, k <^ с.
Допустим, что мы «подогнали» полиномиальное распределение,
используя оценки (полученные посредством некоторой процедуры)
φ„ /=1, 2,..., k, параметров φ,. Имеем pj=pj(yb φ2,..., φ*),
;=1, 2,..., с, ]5ι + ...+Λ=1·
Если pj или φ^ таковы, что тождественно по φ выполняется:
У-1 У-1
152
полиномиальные популяции
[ГЛ. 6
мы получим дальнейший анализ табл. 6.1, представленный в табл. 6.4.
Условие (6.9), которое является аналогом (4.8), обеспечивает
информационную аддитивность анализа в табл. 6.4. Табл. 6.4 содержит
также дальнейший анализ табл. 5.1, когда г = 2. Мы видим [ср. (4.8) —
(4.11)] из (6.9), что ф£ являются решениями системы
с
2-%^г°>1=1'2'-'к· (6Л0)
Уравнения (6.10) — уравнения максимума правдоподобия для
нахождения оценок <pj, а также уравнения, которые решают задачу
нахождения φ^, минимизирующих компоненту «между» или «итог» в табл. 6.1.
Оставляем читателю оценку расхождений, а также представление
компонент в виде, удобном для вычислений с использованием таблицы
η log я. Степени свободы в табл. 6.4 есть степени свободы
асимптотического х2-распределения, когда справедлива нулевая гипотеза 772
из (6.1) и ρj взяты как функции параметров φΛ (См. задачу 7.16.)
Таблица 6.4
Компонента информации
Между pj—x/N и
Pj=Pj (ϋι> ··■» <?k)>
2/ (ρ: ρ)
Ошибка, 2/(p*:j5)
(в пределах)
Между XijjNi и ρ
2/(р*:р)
(р) ПрОТИВ (р) φ*,
21(р:р)
Итог, 2/(/?*:/?)
ί=1 7«1 J
2 2 Ϊ Х^*Щ
с
2 2 Ϊ х^Ш>
i = l /=1
с. с.
с —£ — 1
(г —1)(с —1)
r(c— \) — k
k
r(c-l)
7. ЗАДАЧИ
7.1. Оцените расхождения, соответствующие информационным
компонентам в табл. 4.1.
7.2. Оцените расхождения, соответствующие информационным
компонентам в табл. 4.2.
7] ЗАДАЧИ 153
7.3. Оцените расхождения, соответствующие компонентам «в пределах»
в табл. 6.2.
7.4. Выразите информационные компоненты в табл. 6.2 в терминах вида
η log п.
7.5. Завершите в деталях обсуждение анализа нулевой гипотезы и
распределений для табл. 6.3.
7.6. Оцените расхождения, соответствующие информационным
компонентам в табл. 6.3.
7.7. Выразите информационные компоненты в табл. 6.3 в терминах вида
η log п.
7.8. Оцените расхождения, соответствующие информационным
компонентам в табл. 6.4.
7.9. Выразите компоненту «в пределах» в табл. 6.4 в терминах вида
η log я.
7.10. Фишер (1956, стр. 144) определяет состоятельную оценку как
«функцию наблюденных частот, которая принимает точное значение
параметра, когда вместо частот подставляют их математические ожидания». Какие
из информационных статистик в главе 6 состоятельны по Фишеру, т. е.
состоятельны в смысле предшествующего определения? [Ср. Фишер (19226,
стр. 316).]
7.11. Являются ли следующие шесть независимых полиномиальных
выборок однородными?
2
8
6
5
5
4
7
10
6
6
7
8
8
8
5
4
4
12
4
13
10
6
2
7
9
4
12
4
14
5
7.12. Являются ли следующие четыре независимые выборки
однородными?
2 8 5 12
8 2 5 2 1
3 5 7 2 1
3 2 7 3 3
7.13. Являются ли следующие контрольные результаты для пяти
мануфактур однородными?
Мануфактуры
Бракованные .
Итог. . .
А
26
172
198
Б
72
169
241
в
61
142
203
Г
29
36
65
Д
135
542
677
154 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6
7.14. На основании анализа, данного в табл. 4.3, и свойств различающей
информации покажите, что если XilN—>pi с вероятностью 1 при N-+co, то
с вероятностью 1 Xi/N—^pi, pi-^pu I = 1, ·-·, с· [Ср. Рао (1957).] (См.
лемму 2.1 гл. 4.)
7.15. Какова связь, если она вообще имеется, между (4.3) и задачей 5.12
главы 1?
7.16. На основании анализа, данного в табл. 6.4, и свойств различающей
информации покажите, что если XijINi~^pj с вероятностью 1 при А^—*со,
то с вероятностью 1 XijjNi-+pjy pj-+pj и χ/,'Ν-^ρρ ί=1, 2, ...г, / =
= 1, 2, ... , с. (См. задачу 7.14.)
7.17. Покажите inf (л: log-т£- + (N— х) log ~ ] = χ log -r^-4-
Μ χ
+ (Ν-χ)log-щ-, *>*Sv [См. 4.18.]
7.18. Найдите приближенное /(#lf Я2) в (6.6), используя аппроксимации
(4.5) и (4.6).
ГЛАВА 7
ПОПУЛЯЦИИ ПУАССОНА
1. ПРЕДПОСЫЛКИ
Предположим, что две простые статистические гипотезы Н± и //2
задают соответственно две популяции Пуассона
р(х, mt)=—^-Ч х = 0, 1, 2,..., *=1, 2, m£>0. (1.1)
Средняя информация для различения в пользу Нх против //2,
содержащаяся в наблюдении из популяции, соответствующей
гипотезе Нь равна (см. раздел 2 гл. 1)
сю
/(1:2)= J** *0ЮВ|^-=«,1ов5- + 1Я|-Яч. (1.2)
Расхождение между гипотезами //j и Нь мера трудности их
различения, равно (см. раздел 3 гл. 1)
сю
J(l, 2)=^(р(х, щ)-р(х, m3))logji|-^=
х^О
mt
--(ntt — mi)log-±. (1.3)
т.
Средняя различающая информация и расхождение для случайной
выборки Оп в η независимых наблюдений есть
/(1:2; On) = n{m1\og^ + m^-~m^nl{\:2)y
J(l, 2; On) = n(m1-m,)log^ = nJ(l, 2),
Они могут быть вычислены непосредственно или полученьд из свой-*
£тва аддитивности ^см, раздел 2 гл. 2),
156
ПОПУЛЯЦИИ ПУАССОНА
[ГЛ. 7
2. СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ
Предположим, что каждое возможное наблюдение из любого
распределения на неотрицательных целых числах /?* (х) является также
возможным наблюдением из распределения Пуассона р(х, т)=
=^e~mmxjx\> χ —0, 1, 2,.... Это предполагается для того, чтобы
избежать случая, когда /?*(х)^£0, а р(х, т)=0. (См. раздел 7
гл. 2.)
Теорема 2Л главы 3 позволяет нам утверждать:
Лемма 2.1. Распределение вероятностей на неотрицательных
целых числах с данным математическим ожиданием,
доставляющее минимум информации для различения против распределения
Пуассона р(х, т)=е~ттх/х\, а именно распределение р* (х) такое,
чтоЕ*(х) = Ви 2 Z7* (х) 1о£ О7* (Х)/Р (х> т)) минимальна, есть
распределение
р*(х) = е τχρ(χ, т)/е-т+те*^е~т"(meY/xl^e-n^Y/xl, (2.1)
со
где 2 еххР(*> т) = е~т^т\ т* = те* = В = ~logе-т+тх, α τ —
действительный параметр.
Отметим, что распределение р* (х), доставляющее минимум
информации, является распределением Пуассона. [Ср. Санов (1957, стр. 25).]
Проиллюстрируем лемму 2.1 численным примером (ср. пример
2.1 гл. 3). В табл. 2.1 даны отрицательно-биномиальное
распределение p\(x) = (T(n-{-x)/x\T(n))pxq~n-x9 я = 2, /7 = 0,5, 0=1,6,
среднее = 1; распределение Пуассона р% (х) = е~ттх\х\ т = \; и
распределение Пуассона p{x) = e~mmxjx\7 m = l, 5, которое взято
в качестве распределения р(х) леммы 2.1. Для первых двух
распределений Е*(х)=1. [Численные значения отрицательно-биномиального
распределения взяты у Кохрэна (1954, стр. 419). См. пример 2.2
гл. 4.]
Таблица 2.1
X
0
1
2
3
4+
Р*(*)
0,4444
0,2963
0,1482
0,0658
0,0453
1,0000
P*ix)
0,3679
0,3679
0,1839
0,0613
0,0190
1,0000
Р(х)
0,2231
0,3347
0,2510
0,1255
0,0657
1,0000
0,30624
—0,03611
—0,07813
—0,04249
—0,01678
0,13273
РЦх)
Р$ (*) log -=-—
0,18402
0,03479
—0,05720
—0,04392
—0,02357
0,09412
3] г ВЫБОРОК 157
Отметим, что распределение Пуассона дает меньшее значение
%p*(x)\og(p*(x)jp(x)\ равное [см. (1.2)] 1 log(1/1,5)+ 1,5—1 =
= 0,09453. Различие между 0,09421 в табл. 2.1 и 0,09453,
вычисленным по формуле для /(1:2), обусловлено группировкой
значений х^4и отражает тот факт, что группировка уменьшает
информацию (см. разделы 3 и 4 гл. 2, пример 2.2 гл. 4 и задачу 6.6).
Распределение Пуассона /?* (х) в (2.1) — сопряженное распределение
для распределения Пуассона р(х, т) (см. раздел 1 гл. 5). Поэтому
/(Р* :/>)= 2 Р*(Х)l0g Х,(м) =Ь + т-те*
= eiog-|- + m-6, (2.2)
J (Ρ*, р)= 2 WW-Pi** и)) log ffi^ =
= t(e-i*)=(e-i*)iog-^-.
В применении к проверке гипотез о пуассоновских распределениях
основное распределение Пуассона р(х, т) должно быть тем
распределением, которое предполагается нулевой гипотезой Н& а
сопряженное распределение должно принадлежать семейству,
соответствующему альтернативной гипотезе Нх.
3. г ВЫБОРОК
3.1. Основная задача
Пусть мы имеем г независимых выборок в ni3 щ, ... > пг
независимых наблюдений из популяций Пуассона. Мы хотим проверить
гипотезы:
Н{. параметры популяций Пуассона равны ть тъ ..., т^
Щ. параметры популяций Пуассона mi = m^ = ...= mr = m,
т. е. нулевая гипотеза //2 есть гипотеза об однородности, или о том,
что выборки произведены из одной и той же популяции Пуассона.
Из свойства аддитивности (см. раздел 2 гл. 2) или
непосредственным вычислением для г выборок получим
г
1 (Я,: Я9)=2 Щ {т, log В + т - «,), (3.2)
i=\
г
J{H„ Я2)=2 "'· № ~ т) 1°ё it ■ (3·3)
158
ПОПУЛЯЦИИ ПУАССОНА
[ГЛ. 7
Взяв в качестве параметров θ£ сопряженных распределений их
наилучшие несмещенные выборочные оценки, соответствующие
выборочные средние, получим
г
t(m* : !»)== 2|(ν*Λ + Щ (т — т^% (3·4)
где [см. (2.1)] Jbi = \og(xijm\ /=1, ..., г, и [см. (2.2)]
г
1{т*:т) = ^ щ (xt log^+m-*,). (3.5)
Гипотеза //2 из (3.1) обычно не уточняет значения т. Мы можем
разложить 1(т* : т) на две аддитивные компоненты, одну,
обусловленную отклонением т от ее наилучшей несмещенной оценки по
объединению выборок, и другую, обусловленную «ошибкой» в
пределах выборок. Анализ приведен в табл. ЗЛ, где пх = пххх~f-...-}-пгхп
п = п1~\~щ~\~т..-\~пГ Степени свободы являются степенями
свободы асимптотического х2-распределения при справедливости нулевой
гипотезы Я2 из (3.1). Отметим, что 1(т*: т) {1{Ηχ: Я2)) в
табл. 3.1 есть минимум величины 1(т*\т) из (3.5) по различным
w]>0, т. е. по семейству распределений, соответствующему
гипотезе Нъ и что из свойства выпуклости (см. раздел 3 гл. 2) вытекает
г
2 [П& 10£ IT + Ui (Ш — **)) ^ Я* lOg -J + Я (IW — X).
Анализ, приведенный в табл. 3.1, отражает тот факт, что
гипотеза //2 из (3.1) является пересечением гипотез //2Q о том, что
выборки однородны, и //2 (-\т), что параметр однородных выборок
есть т> т. е. Н^ = Н^(:)[\Н^{-\т). Компонента «между» в табл. 3.1
2l(m:m) лежит в основе проверки гипотезы Н^{-\т\ а компонента
«в пределах» 2/(т*: т)у или 2Ϊ(ΗΧ: //2), лежит в основе условной
проверки гипотезы //2(·) при условии, что мы имеем пх = пххх -|~...
... + ягхг.
Компонента «ошибки» в табл. 3.1 может быть представлена
в виде
г
Ϊ(ΗΧ: Я2)=2 Щ*1 tog *i ~ я* tog χ =
г г
= Σ η**ί 1θ§ ПЛ* — Σ *ini 1θ§ Λ* — П* l0S П* + *П l0g Я, (3,6)
удобном для вычислений с использованием таблицы η log я, так К^К
ЩХр l~h 2? ,,,, г? и #,£ —цщ>ш¥
3] г ВЫБОРОК 159
Расхождения не допускают подобного аддитивного анализа
(с такими оценками), но оценка расхождения, соответствующая
компоненте «ошибки», есть
г
J{m\ т) = J(Нь Я,) = J Щ (*4 - х) log Щ. (3.7)
1=1
Отметим, что 1(Н±:Н^ = 1(т*:т) в табл. 3.1 получается из (3.2)
подстановкой xt вместо /я,- и χ вместо т и что (3.7) есть (3.3)
с теми же подстановками.
Таблица 3.1
Компонента информации
Между т = Х и т1
2/ (in: m)
Ошибка (в пределах),
2/(т*:ш)
Итог, 2/ (т* : т)
2(nx\og \-п (т—х)\
г
2 ^ Щ*'1 1ο^ γ
ί = 1
г
2 У [Щ*1 log^ + щ (» — **)]
с. с.
1
г—\
г
Если нулевая гипотеза Нг из (3.1) верна (выборки принадлежат
одной популяции), то 2Ϊ(Ηι: Я2) и /(/ii, /4) имеют асимптотически
Ха-распределение с (г—1) степенями свободы. Если же справедлива
альтернативная гипотеза Hi из (3.1), то 2l(Hx ://2) и 3(НЬ //2)
асимптотически распределены как нецентральный χ2 с (г — 1) степенями
г
свободы и параметрами нецентральности 2 ]Г} п^ log {тг\т) и
г г г
2 ni (wi — т) 1оё (mtlm)> пт = ^ щт1 соответствует пх = ^ #Л*.
С помощью аппроксимации, использованной в (4.5) и (4.6) главы 6,
находим [ср. Кохрэн (1954), Рао и Чакраварти (1956), Фишер (1950)]
2HHl:m^2ini(Xi7xr=^
160 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7
3.2. Разбиение
Компонента «ошибки» в табл. 3.1 может быть разложена на
(г—1) сравнений, каждое с одной степенью свободы, между каждой
выборкой и объединением предшествующих выборок. (Ср. анализ
Таблица 3.2
Компонента информации
В пределах выборок
1 и 2
Между выборкой 3 и
объединением выборок
1 и 2
:
В пределах выборок от
1 до (г —2)
Между (г—1) выборкой
и объединением
выборок от 1 до (г — 2)
В пределах выборок от
1 до (г —1)
Между г и
объединением выборок от 1 до
(г-1)
Ошибка в пределах г
выборок, 2/ (#!: Н2)
2
2 ^ щЩ log -^
* = 1
:
г-2
ί=! Ι
2 (n^ *r_, log St*- + Nr_&M log Μ
\ Уг-i Уг-i I
г-1
2 У ЩХ1 log-^-
1 = 1
2 (MVlog § +Wr_1^_1 log^i-)
Γ
2 ^ лЛ-log^
ί=1
С. С.
1
1
.*
г —3
1
г —2
1
г —1
компоненты «ошибки» в разделе 6.2 гл. 6. Мы оставляем читателю
проведение сравнений в деталях). Это позволяет оценить каждую
выборку по ее вкладу в изменения, которые будут происходить.
[См. Кохрэн (1954), Ланкастер (1949).]
Для обозначения последовательных объединений выборок определим
Λ^ = "Λ + "Λ + .·. + >№ * = 2, .·«> г—1
и
Λ^ = Λι + Λβ + --- + Λί-
41
^ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ОДНА ВЫБОРКА
161
Анализ, предлагаемый в табл. 3.2, получается непосредственным
образом из этих определений и свойств логарифма. Отметим, что,
так как имеет место свойство выпуклости (см. раздел 3 гл. 2), для
данного объединения каждая компонента «между» в табл. 3.2 является
минимальным значением компоненты «в пределах», расположенной
в следующей строке. Степени свободы есть степени свободы
асимптотического χa-pacπpeдeлeния при справедливости нулевой гипотезы Н% из (3.1).
Оставляем читателю оценку расхождений и представление компонент
в виде, удобном для вычислений с использованием таблицы л log л.
4. «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ОДНА ВЫБОРКА
(Ср. раздел 4.4 гл. 6.)
Интересно изучить одностороннюю гипотезу. Предположим, что
у нас есть случайная выборка в η независимых наблюдений из
популяции Пуассона, и мы хотим проверить гипотезы
/^•.параметр популяции Пуассона равен Шх^т,
Нъ\параметр популяции Пуассона равен т.
Сопряженное распределение (2.1) принадлежит семейству пуассонов-
ских популяций, соответствующему гипотезе/^, если т* — тех^>т.
Поэтому только значения τ^>0 являются допустимыми. Взяв в
качестве параметра θ сопряженного распределения наилучшую несмещенную
выборочную оценку 6 (выборочное среднее х), получим [ср. (3.4)]
1(т* : т) = τηχ-\-п{т — теТ), ί = log(xjm). (4.2)
Если х^>т, то τ^>0 и допустимо. Если х^т, то ΐ^Ο и не
допустимо. На границе τ = О области допустимых значений 7(т*: т)= 0.
Таким образом, имеем
(пх\оех/т 4- η(т —-х\ х^>т>\
'<«:">>= {о, Цт ) <«)
Когда нулевая гипотеза И% из (4.1) верна, 2Ϊ(Ηχΐ Η%) имеет
асимптотически х3-распределение с одной степенью свободы, но значение χ2,
соответствующее уровню значимости а, нужно брать из обычных
таблиц χ2 на уровне 2а, так как мы не рассматриваем значений
х<^/гс, Для которых Ϊ(Η1:Η^) имеет такое же значение, как и при
некотором х^>т. Вместо простой нулевой гипотезы Яа из (4.1)
рассмотрим теперь сложную нулевую гипотезу И'^\
//j*. параметр популяции Пуассона равен т1^>тб1
ί т;.т;)
/^•.параметр популяции Пуассона равен m^m$.
Можно показать, что [ср. (4.18) гл. 6] (см. задачу 6.7)
1 X \ X
inf [nxlog \~п{т — x))=nxlog —4~л(то— *)> х^>Щ> (4.5)
m^m0 V т I Щ
162 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7
и, следовательно,
!(Н1:Н;) = )пП°ё£-0 + П(Щ-*)' Х>Щ' (4.6)
:ЯНо*
(4.9)
Если нулевая гипотеза Н\ из (4.4) справедлива, Ρ [2/(Ях · Н£) ^
^χ2α]^α, где χ|α — значение в обычных таблицах χ2,
соответствующее уровню 2а для одной степени свободы.
Аналогично для гипотез
Я3:параметр популяции Пуассона равен т1<^т09
Я'^: параметр популяции Пуассона равен т^т0
получим
ПНш:НЭ=1я*-и*-к + п<т·-**· *<т°' (4.8)
[ 0, х^гщ.
При справедливости нулевой гипотезы Щ из (4.7) асимпготически
Ρ [2/(Я3: HI) ^ χ|α] ^ α2, где χ|α определено выше.
Двусторонняя гипотеза
Я4 * параметр популяции Пуассона равен т{ φ m0,
Я3: параметр популяции Пуассона равен т — т6
является частным случаем гипотез раздела 3.1, и
2/(Я4:Я2) = 2 (nxlog^ + nXmo — xj) (4.10)
имеет асимптотически /^-распределение с одной степенью свободы
при справедливости нулевой гипотезы Яа из (4.9). 100 (1—а)°/0
асимптотический доверительный интервал для т6 дается неравенством
2пх log £ + 2п («0 - χ) < χ2 (α, 1), (4.11)
где χ2 (α, 1) — значение, для которого /^-распределение с одной
степенью свободы дает Ρ [χ3 ^ χ* 0х» 1)] = α. (Ср. раздел 5 гл. 5.) (См.
задачу 6.4.)
Отметим, что для Яа, Н\ и Я£ из (4.9), (4.4) и (4.7) соответственно
выполняется соотношение Я2 — Н^{] Н'^ т. е. (т = т0) тогда и только
тогда, когда (m^m0) и (m^m0); также для Я4, Hi и Я3 из (4.9),
(4.4) и (4.7) соответственно выполняется Я4 — Нх \] Я3, т. е. (mt ^ Щ)
тогда и только тогда, когда (щ^>гпо) или (/^0^>Wj). Пересечение
областей принятия гипотез Я^ и Я^, ях log (x/fnQ) -|~ и(/я0 — х) ^ const
есть также область принятия гипотезы Я2.
Для иллюстрации берем /Ш70 = 50 и вычисляем для (4.6)
некоторые вероятности, когда верпы Я^ и Н{ из таблиц Молина (1942)
для точных пуассоновских величин (см. табл. 4.1 и 4.2), и из
таблиц ·£* и нецентрального /^-распределений для аппроксимирующих
величин (см. габл. 4.3). (Ср. раздел 4.5 гл. 6.)
«ОДНОСТОРОННЯЯ» ГИПОТРЗД, ОДНА ВЫБОРКА
163
Таблица 4.1
Значения Р(пХ^50) для распределений Пуассона
пт
40
45
50
Н2
0,9474
0,7963
0,5375
пт1 = 55
0,2768
60
0,1077
Hi
65
0,0321
70
0,0075
80
0,0002
Таблица 4.2
Значения Р(пх^63) для распределений Пуассона
пт
40
45
50
Ч
0,0005
0,0065
0,0424
tfi
nnii = 55
0,1559
60
0,3662
65
0,6146
70
0,8140
80
0,9781
2 (62 log !®. + 50 — 62) = 2,67381,
ου
2 (63 log J^- + 50 — 63) = 3,12007,
50
2/ (H1: tfg) (уточненное) = 2,90 (ср. раздел 4.5.2 гл. 6).'
«Центральное» значение в табл. 4.3 получено вычислением
оо
—— \ е~х2/Ых, а «нецентральные» — вычислением
оо оо
где μ2 —2 ι пгпх log нй^ + 50 — птЛ. [Ср. раздел 4.5.2 гл. 6 и
выражение (6.9) гл. 12.]
Таблица 4.3
Значения Ρ (χδ ^ 2,90) для х2-распределений
Центральное Нецентральное
0,0443
пт1
55
60
80
2 [пт, log ^ + 50-
птЛ
0,48412
1,87859
15,20058
0,1652
0,3710
0,9860
164
ПОПУЛЯЦИИ ПУАССОНА
[ГЛ. 7
Полученные значения сведены в табл. 4.4 для сравнения точных
и приближенных вероятностей отвержения гипотезы И'2 в случае,
когда она верна, и в случае, когда верна одна из указанных
альтернатив.
Таблица 4.4
Пуассоновские
г2
Н'ш
0,0424
0,0443
^
птх = 55
0,1559
0,1652
60
0,3662
0,3710
80
0,9781
0,9860
5. «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ДВЕ ВЫБОРКИ
(Ср. раздел 5.2 гл. 6.)
Рассмотрим теперь проверку односторонней гипотезы для двух
выборок. Пусть мы имеем две независимые выборки в щ и л2
независимых наблюдений каждая. Мы хотим проверить гипотезы:
/^'•.параметры популяций Пуассона есть тх^>т^
(о.1)
Щ:параметры популяций Пуассона есть тх=^т^ = т.
Сопряженные распределения [ср. (2.1)] принадлежат семейству
популяций Пуассона, соответствующему гипотезе Н[ из (5.1), если
т\ = mezi ^> т% = те^ш
Следовательно, допустимы только значения τι^>τ2. Для г = 2, на
основании (3.4), получим
ϊ(?η*: т) = τγηγχγ 4-^ι (т — те^) -f- ЧЩ*ъ~\-1Ц{т — те^\ (5.2)
ΠγΧγ = Пупге"^ пгхг == щте**, (5.3)
или
*i = log£\ i« = lpg^. (5.4)
Если Χι^>Χζ, то xt^xg допустимы. Однако если Д^^Ха, то
Ч^Ч не допустимы, и мы должны найти значение 1(т*:т) вдоль
границы τ8=τ1 = ΐ области допустимых значений. Для τ% = % = τ
имеем
л. τ?
nx = nmezy или i = log—-, пХ = ηχΧι-{-ntf* п = п1-\-щ, (5.5)
5] «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ДВЕ ВЫБОРКИ 165
и, следовательно,
2
/(я** : да) = J [щ*1 log § + я1 (т — *«)) > *ι > ** (5·6)
/(/и* :т) = пх log [- л(/и — х\ хх ==ζ х2. (5.7)
Если мы изучим анализ, данный в табл. 3.1 для г = 2,
соответствующий двусторонней гипотезе
//^параметры популяций Пуассона есть тхфт^
(5.8)
Н^: параметры популяций Пуассона есть Wj —/я2 =/я,
то увидим, что 21(т*:т), где 1(т*:т) задана формулой (5.6), есть
«итог» табл. 3.1, когда χγ^>χ^ и 2/(/я*:да), где 1(т*:т) задана
формулой (5.7), — компонента «между» табл. 3.1, когда Χι^χ&
Гипотеза //2 из (5.1) обычно не уточняет значения т. В этом
случае имеем ,
( компонента «ошибки» табл. 3.1, г = 2, Xi^>x2,
ЩН[:Щ= _^_2 (5.9)
Асимптотически, если справедлива нулевая гипотеза Н% из (5.1),
21{Н[:Н^ имеет х2-распределение с одной степенью свободы, но
значение χ2 на уровне значимости α нужно брать из обычных
таблиц χ2 на уровне 2а.
Аналогично для проверки гипотез
//('.-параметры популяций Пуассона равны ml<^mi,
//2: параметры популяций Пуассона равны mY — mi = in
имеем 1(т*:т) из (5.6), когда хг<^х^ и 1(т*:т) из (5.7), когда
*i^x2. Гипотеза //2 из (5.10) обычно не уточняет значения т, и мы
имеем тогда
of/tj" ( компонента «ошибки» табл. 3.1, г = 2, Χι<^χ&
2ίΚΗι -Щ = { п (5Л1)
(0, χχ ^ х2.
Если нулевая гипотеза Щ из (5.10) верна, 2/(/^':Я2) в (5.11)
имеет асимптотически х2-распределение с одной степенью свободы, но
значение χ2 на уровне значимости α нужно брать из обычных таблиц
χ2 на уровне 2а.
Отметим, что Нь Н[ и HI из (5.8), (5.1) и (5.10) соответственно
удовлетворяют соотношению Нх ~ Н[ (J Н\у т. е. (щ φ т2) тогда и
только тогда, когда [mY^>m^ или (ту<^т^).
Предшествующее суммировано в табл. 5.1 (см. табл. 5.3 гл. 6).
166 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7
Таблица 5.1
Между
2 [пх log iir + п (m° ~~ХЧ
В пределах
2
2 ^ *i*/log^
i—1
Итог
2
**>)
(δ.1)
Λ ι ^^^ Λ g
m — m0
Χι Ξ> Xg
m=m~x
0, xx ^ x2
Χι Ξ> «^2
/Я = ftt0
(5.10)
Jtj ^^ Ag
tn=m0
Χι <Ζ. Χ2
m= m = x
0, x^x2
Xj <Ξ X%
//1 : Η2
(6.8)
m = tf?0
m=m—x
m=m0
6. ЗАДАЧИ
6.1. Выполните детально анализ, приведенный в табл. 3.2.
6.2. Оцените расхождения, соответствующие информационным
компонентам в табл. 3.2.
6.3. Выразите компоненты «в пределах» табл. 3.2 с помощью членов
вида η log п.
6.4. Вычислите доверительный интервал для т0 из (4.11) при Jc=10,
я =10, 100.
6.5. Следующие данные представляют собой суммарные значения
последовательных выборок одинакового объема из пуассоновских популяций:
427, 440, 494, 422, 409, 310, 302 [данные взяты у Ланкастера (1949, стр. 127)].
Являются ли последовательные выборки однородными? Если нет, то где
возникает отклонение от однородности? (Ланкастер приводит данные,
полученные из наблюдений над чашечками со смесью бактериальных культур
с дезинфицирующим средством.)
6.6. Вычислите ΣιΡ* (х) logpf (x)jp (χ), тле ρ (χ) приведено в табл. 2.1,
а р* (х) = χ _ Х\\РХЯП~*> «=Ю, р = 0, 1, gz=z\~pf и сравните с
таблицей 2.1.
пх log \~n(m—X)) = nXlog \~n (m0 — X),
in J m0
X > m0. [Cm. (4.5).]
6.8. С помощью аппроксимации, использованной в (4.5) и (4.6) главы 6,
покажите, что для компонент «между» и «итог»[. в табл. 3.1 выполняется:
(а) 2/ (ш: ш) ъ п(Х — m)2jm.
г
(б) 2/ (т*: щ) «а^З щ (хг — л?)2/т.
г=1
ГЛАВА 8
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
1. ВВЕДЕНИЕ
Таблица сопряженности признаков является в сущности некогорой
выборкой из многозначной популяции с различными вероятностями и
разбиениями категорий, которые зависят от ограничений,
дополнительных к требованию полиномиальности распределения. Поэтому
анализ таблиц сопряженности признаков в этой главе тесно связан
с анализом полиномиальных выборок в главе 6. Изучение и
применение таблиц сопряженности признаков в статистической теории
имеет длинную историю. См., например, Кендалл (1943), Крамер
(1946а), Митра (1955), Пирсон (1904), Рао (1952), Рой (1957), Рой
и Кастенбаум (1955, 1956), Рой и Митра (1956), Уилкс (1943),
Фишер (1925а, все издания), Юл и Кендалл (1937).
Мак-Гилл (1954) применял меру передаваемой информации из
теории связи для анализа таблиц сопряженности признаков. Хотя
метод Мак-Гилла несколько отличается от нашего, он употребляет
родственные понятия, и мы получим аналогичные результаты для
таблиц сопряженности признаков. Гарнер и Мак-Гилл (1954, 1956)
отмечали некоторые параллели, существующие между дисперсионным
анализом, корреляционным анализом и информационной мерой,
которую они называют неопределенностью, как методами анализа
составляющих отклонения [ср. статью Мак-Гилла на стр. 56—62, Кваст-
лер (1955)].
Детально мы будем изучать только таблицы с двумя и тремя
входами. При распространении методов на таблицы более высокого
порядка не возникает новых концептуальных проблем, и мы оставляем
это читателю.
2. ТАБЛИЦЫ С ДВУМЯ ВХОДАМИ
Сначала изучим двуфакторные таблицы, или таблицы с двумя
одами. Предположим, что у нас есть N независимых наблюдений,
°Рые расклассифицированы в таблице с г строками и с столбцами
168 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
по значению двух признаков, признаков строки и сголбца.
Признак строки состоит из г категорий, признак столбца — из с
категорий. Пусть xtj — число наблюдений в /-й строке и /-м столбце и
с г
Xi· ==z 2.J ^ijy X'j == 2.Л ^*f7
,=1 i=l
N=Σ Σ *ч=Σ χο =Σ χ·ί·
Вероятности будем обозначать символами ρ с соответствующими
индексами.
Начнем с проверки нулевой гипотезы //3 о независимости
признаков строки и столбца, т. е.
ffi'Pijl^PhP.p l=h % ...> г, 7 = 1, 2, ..., с, по
г с
крайней мере для одной пары (г, у), ^ ΣΛ7= 1j
Ή: /?ι7 = л ./?./, А:+/?2. + ... + Ρ г. = 1 = Ρη + ...
-··+/>·* Λ·>0, Λ/>0. )
Без детального повторения рассуждений (аналогичных
рассуждениям в случае выборки в N независимых наблюдений из
полиномиальной популяции с гс категориями) имеем [ср. (2.6) и (2.8)
гл. 6]
г с
/(Я,: Щ=мУ У Λ/log·^, (2-2)
Г С
j(//„ //2)=iv22^-^v>l0g^;.· С2·3)
Отметим, что /(/^ ://2)/Ν в (2.2) есть мера связи между
категориями строки и категориями столбца, которая определялась также
как средняя информация, содержащаяся в категориях строк
относительно категорий столбца или наоборот (см. примеры 4.3 и 4.4
гл. 1).
Для сопряженного распределения (см. раздел 3 гл. 6) с
наилучшими несмещенными выборочными оценками в качестве параметров
имеем
г с
tW-V» =2 Σχυ 1(>ёщ^:. (2-4)
/=1 /=1
2! таблицы с двумя входами 169
Нулевая гипотеза о независимости //2 из (2.1) обычно не
уточняет значений /?,., /=1, 2, ..., г, и р.р j=l, 2, ... с. ϊ((ρ)*:(ρ))
из (2.4) можно разложить на три аддитивные компоненты: частную
компоненту, обусловленную отклонениями между рг. и их
наилучшими несмещенными оценками по суммарной строке, частную
компоненту, обусловленную отклонениями между p.j и их наилучшими
несмещенными оценками по суммарному столбцу, и условную
компоненту, обусловленную гипотезой о независимости. Эти компоненты
соответствуют: гипотезе Н%(Я), уточняющей значения pia9 гипотезе
//3(С), уточняющей значения р.р и гипотезе Я2(/?ХС) о
независимости, т. е. Н.х из (2.1) является пересечением //2 (/?) f] ^а (О Π
n/Z^RXC2). Анализ, приведенный в табл. 2.1, является аналогом
анализа, приведенного в табл. 4.3 главы 6. Здесь имеется г —· 1
независимых параметров ρι.ρ^? ..., /V-t)· и О7—*) независимых
параметров р.ь р.ь ..., pm{C-\y Уравнения (4.11) главы 6 выглядят
здесь так:
ι—1
Так как Pij = Pi.p.p то эти уравнения сводятся к уравнениям
ψ = ^, /=1,2,..., г-1, ^=Ь,у = 1, 2, ...,*-1,
дающим
/ = 1, 2, ..., r, y = l, 2, ..., с.
[Ср. Крамер (1946а, стр. 442—443).] Отметим, что компонента
«независимости» в табл. 2.1 является минимумом «итога» по
всевозможным /7£. И /?.у,
г с
т. е. по семейству популяций, соответствующих гипотезе //2 с
данными частными значениями, и что по свойству выпуклости (см. раз-
Дел 3 гл. 2)
г с г
2 2 х<71оётк^ 2 Xi-log ί& >
г с с
2 2 x'JXoZNi^j^2x->l0ei$:r
170
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
[ГЛ. 8
Степени свободы в табл. 2.1 соответствуют степеням свободы
асимптотического х*2-распределения при справедливости нулевой гипотезы
Я2 из (2.1) [Ср. Уилкс (1935а).]
Таблица 2.1
Компонента информации
Строки, Н2 (R)
Д. = *,./#
Столбца, И2 (С)
Независимости, Н2 (R X С)
2/(Я1:Я2) = 2/((р)*:(р))
Итог, 2/((р)*:(/?))
г
i=l
с
2 У x.Aog-^
jLl j s Np.j
2 ί i^sgfc
с. с.
г—1
c—\
re—1
Для удобства вычислений с помощью таблиц η log n компонента
«независимости» в табл. 2Л может быть представлена в виде
г с г
1{НХ: Я2) = 2 Σ χυ 1οβ X*J ~ Σ ■**· loS *ί· ~
с
— Σ х; 1о£ * ·/ + ^ l0S M (2·5)
Расхождения не допускают подобного аддитивного анализа
(с такими оценками), но оценкой расхождения, соответствующей
компоненте «независимости» в (2.5) [ср. (4.12) гл. 6], будет
ϊ=1 /=1 J
-Ϊί('*-Φ>*Β!;- <2·6>
Отметим, что компонента «независимости» в табл. 2.1 есть (2.2)
с подставленными x^jN вместо pijy χέ./Ν вместо pimy x.j/N вместо
p.j и что (2.6) — это (2.3) с теми же подстановками.
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 171
Если признаки строки и столбца независимы, то 2l(Ht: //2) и
j(Hlf Я2) имеют асимптотически х2-распределение с (г—1)(с— 1)
степенями свободы. Если же верна альтернативная гипотеза Ну из
(2 1), то 2/(//i://a) и 3(Нъ Нъ) имеют асимптотически нецентральное
^распределение с (г—1)(<:—1) степенями свободы и параметрами
нецентральности 21(Н1:Н^) и J(Hb Щ соответственно, которые
заданы равенствами (2.2) и (2.3) с
с г
!-\ i-i
(См. задачу 13.11.)
С помощью аппроксимации, использованной в (4.5) и (4.6) главы
G находим, что [ср. Крамер (1946а, стр. 441—445), Рой (1957, стр. 128),
Сюй (1949, стр. 367—369)]
\2
ί-iy-i N
mm mm λ{.λ., L· mm
ΛιιΛιι
с [х Xj-X'j
У(Я1, //з)^ - у у * - ' +4- Ζ Ζ J ~-^· С2·8)
*ι/
Теперь читателю предоставляется возможность выразить (2.2) в
терминах энтропии, определенной в задаче 8.30 главы 2.
Проверка однородности г выборок в разделе 6.1 главы 6 может
рассматриваться также как проверка гипотез (6.1) главы 6 для дву-
факторной таблицы сопряженных признаков при условии, что
фиксирована строка итогов, т. е. при данных Nb 1=1, 2..., г. Мы
оставляем читателю соотнести компоненты в табл. 2.1 и табл. 6.1 главы 6. [Ср.
Гуд(1950, стр. 97—101).]
3. ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ
Число возможных, представляющих интерес комбинаций гипотез
становится гораздо больше для трехфакторных таблиц
сопряженности признаков и для таблиц более высокого порядка. Мы изучим
несколько случаев проверки гипотез для трехфакторных таблиц,
чтобы проиллюстрировать общий метод. [Ср. Мак-Гилл (1954), Митра
(1955), Рой (1957, стр. 116—120), Рой и Митра (1956).]
Предположим, что имеется N независимых наблюдений, каждое
из которых характеризуется значением трех признаков: признаков
строки, столбца и глубины; наблюдения распределены среди г кате-
°рий строки, с категорий столбца и d категорий глубины. Пусть
172 таблицы сопряженности признаков [Гл# 8
xijk — число наблюдений в 1-й строке, у'-м столбце, k-й глубине, и
пусть
red с d
Xl Xl Xl Xijk = N, Xi..= 2j X ХЦЪ>
r d re d
X.j, = £j £j xijk у Χ· *k:=== ^j ^j Xijki xij· == ^j «#£/*>
с red
*i.k= Σ ■**/*» х*]ь— Σ ■**/*» Σ Σ x-Jk = N>
red
Σχ*·· = Σ χ./.= Σ *-·*=№
Вероятности будем обозначать символом /? с соответствующими
индексами.
3.1. Независимость трех признаков
Рассмотрим таблицу с тремя входами и гипотезы:
Hi'-Pi/k^Pi'-P-j'P-b п0 крайней мере для одной тройки (/, у, k),
ΣΣΣΡι»=1> PiJk>0,
Н*ш-Рук—Р1-Р+Р~ь '=Ь 2> ·■·, *> j=l> 2> ··> с> *=1, (3.1)
=^..1+/7-2+/?.-з + ...+P«rf= 1,Л->0,р.у.>0,р..л>0.
Без повторения в деталях рассуждений (подобных рассуждениям
в случае выборки в N независимых наблюдений из полиномиальной
популяции с red категориями) [ср. (2.6) и (2.8) гл. 6] имеем
I(^^)=NlllPifklog^-B^t (3.2)
J(HV H^N222ipiJk~p,.p,:P.,)log m^k . (3.3)
Отметим, [что Ι(Ηχ:Η2)/Ν в (3.2) является мерой взаимосвязи
между категориями строки, столбца и глубины [см. замечания,
следующие за (2.3)].
Для сопряженного распределения (см. раздел 3 гл. 6) с наилучшими
несмещенными выборочными оценками в качестве параметров имеем
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 173
31
Нулевая гипотеза о независимости Я2 из (3.1) обычно не
уточняет значений ft.., ft/., ft-ь /=1, 2,..., г, у = 1, 2, ..., с, А=1,
9 d. ϊ((ρΤ:(Ρ)) из (3·4) можно разложить на несколько
аддитивных компонент. Эти компоненты соответствуют: гипотезе Я2(/?),
уточняющей значения ft.., гипотезе Я2(С), уточняющей значения puJu,
гипотезе НъФ), уточняющей значения р..*, и гипотезе о
независимости H^RXCXDl т. е. Я2 из (3.1) есть пересечение Яа(К)П
nH^(C)f)^h(D)f)M^(Ry(Cy(D). Приведенный в табл. 3.1 анализ
является аналогом анализа, приведенного в табл. 4.3 главы 6. Здесь
имеется (г—1) независимых параметров ft.., г=1, 2, ..., г—1,
(с—1) независимых параметров ft/., у=1, 2, ..·, (с—1), и (d— 1)
независимых параметров ft.д., £=1, 2, ..., d— 1. Уравнениями,
соответствующими уравнениям (4.11) главы 6, здесь будут
Σ Σ (^■'•'••'-^'•'■?··"Η',=1·2 '-'·
Σ Σ &*·*--5ϊ*·*-)-<^->. *·■■·'-"■
d—1.
£=1 ;=Ί
Так как pijk=pi-*P-pP~k, tq эти уравнения сводятся к
уравнениям
х1·· хг·· ] 10 г Л X*J* Хтся
Pi- Pr- ' P-r P-c-
j=\, 2, ..., c-U TT=^, k=l, 2, .... d~\,
дающим
β. xi·· & X*J· л x"k i * xi·· x-j· x*-k
ί=1, 2, ..., г, 7=1, 2, ..., с, k=l, 2, ..., d.
(Мы пишем здесь /?, а не р, так как символ ρ будет нужен для
различных оценок в анализе раздела 10.) Отметим, что компонента
«независимости» в табл. 3.1 есть минимум «итога» по всевозможным на-
б°Р™ ft·.., ft,,, Ратк,
г d
Σ л- = Σ p-j-= Σ ρ··*=ь
£=1 /—1 k=l
тез6 а/° различным популяциям семейства, соответствующего гипо-
"ъ с данными частными значениями, и что по свойству выпук-
174
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
[ГЛ. 8
лости (см. раздел 3 гл. 2) «итог» не меньше компонент «строки»,
«столбца» и «глубины». Степени свободы в табл. 3.1 являются
степенями свободы асимптотического х2-распределения при
справедливости нулевой гипотезы //2 из (3.1).
Для удобства вычислений с помощью таблиц η log n компонента
«независимости» в табл. 3.1 может быть представлена в виде
/(#!:Η*) = ΣΣΣxijk log Хцк — Σ л*., log χι.. —
— Σ x*j- l°g ·*./- — Σχ·*ΐι log x..k + 2jVlog N (3.5)
Расхождения не допускают подобного анализа (с такими
оценками), но оценкой расхождения, соответствующей компоненте
«независимости» в табл. 3.1, будет [ср. (4.12) гл. 6]
Аяьяо=^222(^-^^^)1°в^?^7· (3·6)
Отметим, что компонента «независимости», ϊ(Ηι:Η^) в табл. 3.1
есть (3.2) с подставленными Xijk/N вместо pi]ky x^jN вместо pimmy
x.j./N вместо рф и x.^jN вместо р..и и чт° (3.6) есть (3.3) с теми
же подстановками.
Таблица 3.1
Компонента информации
Строки, Я2 (R)
Pi.. = xl..lN
Столбца, #2 (С)
p.Ju = x.j.lN
Глубины, Н2 (D)
p..k = x-.klM
Независимости,
Я2 (R X С χ D)
2Ι(Ηί: Н2)
Итог, 2/((р)*:(р))
г
2lXi-logwr.
с
/=1 '
2tx-^wh
Λ= 1
red
2 Σ Σ Σ*"*10*
ί=1 у—l Λ=1
red
2 Σ Σ Σ x4kXog
ί=1 /=1 **=1
WtUh
Λ j · ■ Λ · /■ «Λ· ■ ■ h
χ'φ
Npi..p.j.p..k
С. С.
г —1
с~\
d—l
red — г —
_г_</4-2
rcd~~l
Если признаки строки, столбца и глубины независимы, то 21(Нг: Н$)
и */(//], //2) имеют асимптотически χ2-pacπpeдeлeниe с {red — г —
— с — ^_]_2) степенями свободы. Если же верпа альтернативная гипо-
ТАБЛИЦЫ С TPFMfl ВХОДАМИ 175
теза из (3.1), 2/(#1://2) и J (Нь Я3) имеют асимптотически
нецентральное х2-распределение с (red— г — с~~d-\-2) степенями
свободы и параметрами нецентральное™ 21(Н1:Щ) и J(Hb //2)
соответственно, которые даны соотношениями (3.2) и (3.3) с
Ρί«=ΣΣρ*7*' ^'·=ΣΣ^ ρ-Λ=ΣΣ^/>
j к i k i j
(См. задачу 13.8.)
3.2. Независимость признака строки от других признаков
Рассмотрим трехфакторную таблицу и гипотезы
#i ipijk Φ Pi~P-jk по крайней мере для одной (*,;&), Σ Σ ΣΡι/π^
= 1> Pijk>®>
rt2'-Pijk=Pi~P-jk> ί=ι> 2> ···> rfy=l,2, ...,<:, & = 1, 2,...,d, (3.7)
Г if
Ρι..+Α··+···+/ν··==1= 2 Σ^ν*' Α··>°> P-jk>°-
Отметим, что /Y2 из (3.7) влечет
^ if
Ρ*/· = Σ Pijk=Pi» Σ P-Ik=Pi-P<j'
Pi.A = Σ Pljk=Pi» Σ />·/Α=Λ··Ρ··*»
j=\ /=1
т. е. что признаки строки и столбца независимы и признаки строки
и глубины независимы. [Верно ли обратное? См. Колмогоров (1950,
стр. 11), Феллер (1950, стр. 87—88).]
Без повторения в деталях рассуждений (аналогичных уже
использованным), получим
у(я11яо=^2212^*-л-*'/*)108^^ (3·9)
[ср. (2.6) и (2.8) гл. 6].
Отметим, что l^H^H^jN в (3.8) есть мера связи между
категориями (строка) и (столбец, глубина) и может быть определена как
информация, содержащаяся в категориях (строка) относительно
категорий (столбец, глубина) или наоборот [см. замечание, следующее за
(2-3)].
176 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
Для сопряженного распределения (см. раздел 3 гл. 6) с
наилучшими несмещенными выборочными оценками в качестве параметров
имеем
/«w:(p»= til x^^m}L·,· (ЗЛ0)
Нулевая гипотеза /У2 из (3.7) обычно не уточняет значений /?/..
p,Jky l=ly 2, ..., г, 7=1, 2, ..., Су k=l, ..., d. Мы можем
разложить /((/?*):(р)) в (ЗЛО) на несколько аддитивных компонент. Эти
компоненты соответствуют: гипотезе //2(/?), уточняющей значения/?^.,
гипотезе //2(CD), уточняющей значения p.jk> и гипотезе о
независимости //2 (R X CD), т. е. Я2 в (3.7) есть пересечение Я2 (/?) (^
Р( //2 (CD) Р( Я2 (R X CD). Анализ, приведенный в табл. 3.2, является
аналогом анализа, приведенного в табл. 4.3 главы 6. Здесь имеется
(г—1) независимых параметров ph.f z=l, 2, ..., г—1, и (cd—1)
независимых параметров p.jky j = ly 2, ..., с, k = 1, 2, ..., <f,
(комбинация у' = с и & = d опускается). Уравнения (4.11) здесь
имеют вид
i = l
(опускаются j = c и k = d). Так как Pijk—Pi'-P.jky то эти уравнения
сводятся к уравнениям
·**" — хг·· /—ι о г 1 Х'}1г —X'cd /—1 2 г k —
= 1, 2, ..., d (опускаются j=c и k = d),
дающим
Pi.·
Xi~
Ν '
η 'У*·* ·*'■# / ΙΟ г
Fijk дг ДГ > * А > ^ · · · > Г»
7 = 1, 2, ..., г, /г=1, 2, ..., d.
Отметим, что компонента «независимости» в табл. 3.2 есть минимум
«итога» по всевозможным наборам /?*.. и p.jk'.
г с d
т. е. по различным популяциям семейства, соответствующего гипотезе
Нъ с данными частными значениями компонент (строка) и (столбец,
31
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ
177
глубина), а по свойству выпуклости (см. раздел 3 гл. 2) «итог» не меньше
компонент «строка» и «(столбец, глубина)». Степени свободы в табл. 3.2
являются степенями свободы асимптотического χ2-pacπpeдeлeния при
справедливости нулевой гипотезы //2 из (3.7).
Таблица 3.2
Компонента информации
Строка, Н2 (R)
Pi.. = Xi..lN
(Столбец, глубина),
H2(CD) p.jk = x.jklN
Независимость, строка χ
X (столбец, глубина),
И2 (/? X CD)
2ί(Ηί:Η2)
Итог, 2/ ((/?)*: (ρ))
г
21*·-10* шт.
£ = 1 7«1 k^\ J
i = \ j=\ k=\
С. С.
r~\
cd—\
(r-l)X
X (erf —1)
red— 1
Компонента «независимости» в табл. 3.2 может быть представлена
также в виде
t(Hx:Ηζ) = ΣΣΣxmlogxijk — Σ■*!·. logxu. —ΣΣ■*·/*logx.jk +
-fTVlogiV (3.11)
для удобства вычислений с помощью таблиц η log я. Расхождения не
допускают подобного аддитивного анализа (с такими оценками), но
оценкой расхождения, соответствующей компоненте «независимости»
в табл. 3.2, будет [ср. (4.12) гл. 6]
>_A/Y\\fe
w*w="ZZZ^-W-iff
*i» X-Jk\ log Nxjjk
X'fX.jk
(3.12)
Отметим, что ϊ(Ηί: //2) в табл. 3.2 есть (3.8) с подстановками
xijklN, Xi../Ν и x./kfN вместо/?£уА, /?£.. и р.уЛ соответственно и что (3.12)
есть (3.9) с теми же подстановками.
Если признак строки не зависит от других двух признаков, то
21(НХ:Щ из (3.11) и J{Hb Щ) из (3.12) асимптотически
распределены как χ2 с (г—\){cd—1) степенями свободы. При справедливости
178
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
[ГЛ. 8
альтернативной гипотезы Нх из (3.7) 2/(//1:/ή2) и J(Hb //2)
асимптотически имеют нецентральное χ2-pacπpeдeлeниe с (г— \){cd~ 1)
степенями свободы и параметрами нецентральное™ 2/(Я1://2) и
J{Hb Я2) соответственно, которые даны посредством (3.8) и (3.9) с
Ρ'·· = ΣΣΡ'/*' Ρ·/* = ΣΡ'/*(™. заДачУ 13·9)·
j k i
Подобный анализ возможен, конечно, и тогда, когда гипотеза о
независимости касается независимости признака столбца или признака
глубины от других двух признаков. Детали оставляем читателю.
3.3. Гипотезы независимости
В табл. 3.3 компонента «независимости» из табл. 3.1 разложена
на аддитивные составляющие. Это отражает тот факт, что //2 (R χ
X С X D) ^ Я2 (/? X CD) Π //2 (С X D), т. е. что три признака
независимы тогда и только тогда, когда признак строки не зависит от
признака (столбец, глубина) и признаки столбца и глубины
независимы, потому что Pijk=Pi--P-jk и p.jk=p.j.p..k влечет piJk =
--Pi..p.j.p..k; a PiJk=Pi~p.j.p..k
влечег £] piJk=p.jk=p.j.p..k или
pijk =pimmp.jk> Также верно, конечно, что H^(RX CXD)^//2(CX
XRD)f)Hz(RXD) и Hz(RXCXD)^Hz(RCXD)f)Hz(RXC),
но детали мы оставляем читателю. Заметим, что в силу свойства
выпуклости (см. раздел 3 гл. 2) компонента //2 (С X D) есть минимум
значения компоненты //2(RXCXD) для данной группировки. (См.
пример 12.3 и задачу 8.30 гл. 12.)
Таблица 3.3
Компонента информации
С. С
Столбец X глубина
И2 (С X D)
Строка X (столбец,
глубина)
Н2 (R X CD)
с d
«Σ Σ"**:££;
red
ΣΣΣ-^a*
ί=1 /=»1 Λ = 1
jk
(c-\)(d~\)
{r~-\){cd~\)
Независимость,
H2(RXCXD)
red
Σ Σ Σ **щ£*!Ь.
ϊ = 1 /=1 Λ = 1
red—г—с-
— d-\-2
31
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ
179
3.4. Условная независимость
Предположим, что для некоторой категории (скажем k-й) признака
глубины мы хотим проверить нулевую гипотезу о независимости
признаков строки и столбца.
Рассуждения здесь аналогичны рассуждениям в случае двуфак-
торных таблиц сопряженности признаков. Будем придерживаться
обозначений, введенных для исследования трехфакторных таблиц сопря-
женносги признаков в нашей основной задаче. Мы хотим проверить
гипотезы:
Нх: риь Φ Q^& по крайней мере для одной пары (I, /),
red
Σ Σ Σρν*=1'Λ/*>ο,
и . „mij ^Pi'kp-jk з 19 r ·—1 9 (3.13)
Ρ·· н
re г с
Σ Έι Pifh=P»b Σ Pi-b=P~k= Σ Ρ·/*' Ρ*·*>°»
Ρ·/Α>0, p..i£>0.
Отметим, что мы имеем дело с условными вероятносгями Pifk/р^ь
Pi.k/p..k и P'jkjp..k· Анализ, приводимый в табл. 3.4, получаегся из
анализа, данного в табл. 2.1. Будем обозначать условную гипотезу
относительно строк, при условии k-й категории признака глубины,
посредством H%{R\k)9 а соответствующую гипотезу, при условии
любой категории признака глубины, посредством //2 (R \ D);
аналогично для столбцов.
Если //2 из (3.13) верна для всех k, т. е. признаки строки и
и столбца условно независимы при данном признаке глубины, то
соответствующий анализ получается из анализа, приведенного в
габл. 3.4, суммированием каждой компоненты информации по k —
= 1, 2, ..., d, и умножением каждой степени свободы на d. В
частности, компонента информации в пользу нулевой гипотезы об
условной независимости //2(/?|D)X(C| D) равна
2/(//1:Я2) = 2 Щ Хцш^1-ВЖ— (3.14)
1 = 1 /=.1 β—1
с d(r—\){c — 1) степенями свободы асимптотического х2-распреде-
ления при справедливости нулевой гипотезы об условной независи-
мости.
180
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
Таблица 3.4
Компонента информации
С. С.
Строки, Н2 (R | k)
Столбца, Н2 (С | k)
p-jklp^k—x-jklx-k
Условной
независимости
H,{{R\k)x (C\k))
2 У ^.*l°g т^А г
L· in *x..k(Pi-klP-k)
с
2 У x.jklog /±& г-
JL J* *x..k(p-/hlP"k)
г с
2 У У Xitklog ^
L· L· ljn *Xi.kX*jklx~k
i = l /==1
г —1
с — 1
(г-1)Х
X (с— 1)
Итог, 2/ ((/?)*: (р))
Xjjk
2d L· Xijk og x..k(Pi-klp»a (p-jhlp-k)
re —1
3.5. Дальнейший анализ
- Компонента //2 (R χ CD) в табл. 3.3 [лежащая в основе проверки
гипотезы о независимости признаков (строка) и (столбец, глубина)]
разложена в табл. 3.5 на аддитивные компоненты. Это отражает тот
факт, чго
H*(RXCD)^H*((R\D)X(C\D))f)H2(RXD),
т. е. признаки (строка) и (столбец, глубина) независимы тогда и только
тогда, когда признаки строки и столбца условно независимы при
данном признаке глубины, а признаки строки и глубины независимы
потому, что piJk=Pi.kp.fk/p~k и Pi-k=Pi~P.-k влечет Λ/Λ=ρ,-..ρ./Λ;
с
a Pi/k =Pi"P-jk влечет J] Pijk=Pi-k=Pi"P»k или Pijk=Pi-kP4k/p~k-
Отметим, что свойство выпуклости (см. раздел 3 гл. 2) гарантирует,
что компонента /f2 (R X D) является минимумом величины
компоненты Hz(RXCD) для данной группировки. (См. пример 12.3 и
задачу 8.31 гл. 12.)
Если же гипотеза об условной независимости относится к другим
комбинациям признаков, то следует аналогичный анализ. Детали
оставляем читателю.
ОДНОРОДНОСТЬ ТАБЛИЦ С ДВУМЯ ВХОДАМИ 181
Таблица 3.5
Компонента информации
Строка X глубина
Н2 (/? X D)
(Строка, глубина) χ
χ (столбец, глубина)
/М(/?|Я)Х(С|Я))
Строка X (столбец,
глубина)
H2(RXCD)
i = \ /=1 k=\ χ /
л · · k
i=l /=1 ft=l '
с. с.
(r —l)(rf —1)
rf(r-l)(c-l)
(r-l)(flrf-l)
4. ОДНОРОДНОСТЬ ТАБЛИЦ С ДВУМЯ ВХОДАМИ
Мы можем рассматривать г независимых с χ d таблиц выборок
как трехфакторную таблицу г X с χ d с соответствующими
гипотезами и ограничениями. Предположим, мы хотим проверить нулевую
гипотезу об однородности г выборочных таблиц с χ d при условии,
что фиксирован объем каждой с χ d таблицы. В обозначениях для
трехфакторных таблиц наши гипотезы есть [ср. (6.1) гл. 6]
с d
H*-Pijh=P'/h 1=Ъ 2> •--tj* j=h 2> ···» ^ (4Л)
k = l9 2, ...,d, 2 2p./ft = l.
Анализ, приведенный в табл. 4.1, получен из анализа, данного
в табл. 6.1 главы 6 для основной задачи об однородности г выборок
из полиномиальных популяций с cd категориями.
Если нулевая гипотеза //2 из (4.1) верна, то степени свободы
в табл. 4.1 совпадают со степенями свободы асимптотического х2-рас-
пределения. Заметим, что компонента «ошибки» (или «в пределах»,
или «однородности») в табл. 4.1 есть минимум значений «итога» по
с d
различным наборам p.jk, 2 2^·/*=1 приданной с χ d суммарной
таблице, т. е. по популяциям семейства, соответствующего гипотезе //*
а по свойству выпуклости (см. раздел 3 гл. 2) «итог» не меньше,
182
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
1ГЛ. 8
чем компонента «между». Как можно было ожидать, анализ в табл. 4.1
связан с анализом в табл. 3.2 для гипотезы о независимости признака
строки от других двух признаков. Действительно, «итог» табл. 4.1
равен разности «итога» и компоненты «строки» табл. 3.2, компонента
«между» табл. 4.1 есть компонента («столбец, глубина») табл. 3.2,
а компонента «в пределах» (или «однородности») в табл. 4.1 есть
компонента «независимости» табл. 3.2. (См. задачу 13.10.)
Таблица 4.1
Компонента информации
p./ft = *./*///
(между)
Ошибки, 21(Н1:Н2)
(в пределах,
однородности)
Итог, 2/((/?)*:(/?))
/—1 Λ«1 J
ί = 1 /—1 Λ = 1 J
с. с.
cd—l
(r-l)(cd-l)
r(cd — l)
5. УСЛОВНАЯ ОДНОРОДНОСТЬ
Предположим, что у нас есть г выборок раздела 4, и для
некоторой фиксированной категории (скажем, /-й) признака столбца мы
хотим проверить гипотезу об однородности выборок по признаку
глубины. Рассуждения здесь аналогичны рассуждениям в разделе 6.1
главы 6 по поводу основной задачи об однородности г выборок.
Продолжим ее рассмотрение в обозначениях для трехфакторных таблиц
сопряженности признаков. Мы хотим проверить гипотезы:
d
Hi:pijk^p.jk> ^Pijk=Pij·' i=h % ...» г,
H*'Pijk=P'jk> ί=1, 2, ..., r, k=l, 2, ..., d, (5.1)
d
Σρ-»=ρ-/-
Анализ, предлагаемый в табл. 5.1, получен из анализа, данного
в табл. 6.1 главы 6.
ОДНОРОДНОСТЬ
183
Таблица 5.1
Компонента информации
С. С.
(между)
Ошибки, 21 (Ht: Н2)
(в пределах)
а
2 У л:./*log ^т .
г d
d — l
(r-l)(rf_l)
/· d
Итог, 2/((/>)* :(Ρ»
'12"^^кт>
i=\ k=\
r(d-\)
Если //2 из (5.1) справедлива для всех у, т. е. если выборки
условно однородны по признаку глубины при данном признаке столбца,
то соответствующий анализ получится из анализа, данного в табл. 5.1
суммированием компонент информации по/=1, 2, ..., с и
умножением числа степеней свободы на с. В частности, компонента
информации В ПОЛЬЗУ УСЛОВНОЙ ОДНОРОДНОСТИ Pijk/Pij.—p.jh/p.j., i—U 2,. . ., Г,
У=1, 2, ..., с, k=], 2, ..., d есть
2/№:Wa) = 22 2 2%logl^
i = l/«=lfe=l
jk)l*
V"
(5.2)
с с (г— \){d— 1) степенями свободы для асимптотического
/^распределения при справедливости нулевой гипотезы об условной
однородности.
Отметим, что 2/ (Нг: Я2) в (5.2) аналогична компоненте Я2 ((R \ С) X
X(D|C)), лежащей в основе критерия проверки нулевой гипотезы
об условной независимости (ср. табл. 3.5).
6. ОДНОРОДНОСТЬ
Компонента «однородности» табл. 4.1 разложена в табл. 6.1 на
аддитивные составляющие. (Ср. табл. 3.5.)
Анализ, приведенный в табл. 6.1, отображает тот факт, что (С, D)-
однородность ;=± условная однородность^/) | С) (~\ (С)-однородность,
т· е. что двуфакторные таблицы (столбец, глубина) являются
однородными тогда и только тогда, когда они условно однородны по
признаку глубины при данном признаке столбца и одновременно одно-
184
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
[ГЛ. 8
родны по признаку столбца, так как Pijk/Pij- =p.jk/p-j·* * = 1> % ·.., г,
/=1, 2, ..., г, А=1, 2, ..., d, и Pij.==p.j. влечет Pijk=p.j^
ί=1, 2, ..., г, /=1, 2, ..., г, /г=1, 2, ..., d; pijb=p.jto Z=if
2, ..., г, у=1, 2, ..., г, A=l, 2, ..., й влечет ft/.=p.y., ί=1,
2, ..., г, /=1, 2, ..., с, и Pijk/pij'=P-jk/P-j· Свойство выпуклости
гарантирует, что компонента «(Q-однородности» является минимумом
значения компоненты «(С, ^-однородности» для данной группировки
(см. примеры 12.2 и 12.4).
Таблица 6.1
Компонента информации
С. С.
(С)-однородность
Условная
однородность-^ | С)
«2 2*»*^
i =s 1 /= 1 к ε= 1
(г —1)(с—1)
|c(r —l)(d —1)
(С, £)-однород-
ность
red
22 2Σ*^£^
(r-l)H-l)
t^iy^l fe=l
7. ВЗАИМОДЕЙСТВИЕ
Так как компонента «информации» в табл. 6.1, обусловленная
отклонением от условной однородности, — вогнутая функция (см.
раздел 3 гл. 2), то
red
г d
i = ly—1/г = 1 у. . t = 1 /г= 1 7 -
1 ]=\ '
(7.1)
причем равенство в (7.1) достигается тогда и только тогда, когда
(ср. пример 3.2 гл. 2)
4}к_
ximk
Xjj-X^jk XjmmX*mk
1=1, 2, ..., r, k=h 2, ..., й,
у, m=l, 2, ..., с.
ВЗАИМОДЕЙСТВИЕ
185
Следовательно, мы можем разложить компоненту «условной од-
ооодности» табл. 6.1 на две аддитивные компоненты, как показано
с
в табл. 7.1, с yi.k=1 Zi Xij.x.jklx*j··
d r
Отметим, что yt..= У yhk — xi» и чт0 ^»*= Σ J'i·^··*·
(См. пример 12.4.) Анализ, приведенный в табл. 7.1, отражает тот
фаКТ, ЧТО /?;.*:
. у Pij-P-jk
Pijkz
Pi-kPij-P-jk
влечет нуле-
ВуЮ ГИПОТезу Об УСЛОВНОЙ ОДНОРОДНОСТИ Pijkfptj. =:p.jk/p.j.; a Pijk/Pij. =
с
=P-jklp.j· влечет Pi.k= J ^ff^ и P'V*
Pi-kPij-P-jk
(l^h-
Сте-
/=ι
пени свободы в табл. 7.1 являются при справедливости нулевой
гипотезы об условной однородности степенями свободы асимптотического
Х*-распределения. [Ср. Рой и Кастенбаум (1956).|
Таблица 7.1
Компонента информации
(RD)
-взаимодействия
(RD, С)-взаи мо-
действия
Условной
однородности-^ | С)
ί =1 *=1
о Τ у V ,. ,0„ хт
* Ζ Ζ ZXl>k]°gXi.kX,j.X.jk
2 2 22**'°^
с. с.
(r_l)(rf_l)
(r-l)(c-l)x
X (d- 1)
с(г-1)(й-1)
186
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
[ГЛ. 8
8. ОТРИЦАТЕЛЬНОЕ ВЗАИМОДЕЙСТВИЕ
Компонента «условной однородности» табл. 7.1 можег быть также
разложена алгебраически, как показано в табл. 8.1. Однако
компонента «(Ц)-однородности» не обязательно меньше компоненты
«условной однородности». Следовательно, взаимодействие компонент
в табл. 8.1 может быть отрицательно. Это замечание
проиллюстрировано в примере 12.4. Обратное проиллюстрировано в примере 12.2.
Отметим, что если х^.==х^.х^·., т. е. если компонента «(С,
^-однородности» совпадает с компонентой «условной однородности-(£)|С)>>,
с
то yhk=/ Xij-X'jk =x.mmx„kJi\l и компонента «(/?£))-взаимодейст-
/=ι 3
вия» табл. 7.1 переходит в компоненту <<(£))-однородности» табл. 8.1,
а компонента «(/?Д С)-взаимодействия» табл. 7.1 переходит в
компоненту «/^CD-взаимодейсгвия» табл. 8.1.[Ср.Мак-Гилл (1954, стр. 108),
Сакагути (19576, стр. 26).]
Таблица 8.1
Компонента информации
(/^-однородности
^CD-взаимодействия
г d
red
L· L· Zi Xifk °gNxjj.Xj.bx7j
f = l /=1 A=l
*\t m m *\ · /· */* · · Ъ
Условной однородности-
(о I с)
ЛГ.д
Jt
9. РАЗБИЕНИЯ
Компонента «независимости» в табл. 2.1 может быть разложена
на составляющие, зависящие от разбиений г X с таблиц
сопряженности признаков [см. Ирвин (1949), Кимбалл (1954), Кохрэн (1954),
Ланкастер (1949)]. Разбиения соответствуют возможной зависимости между
подмножествами значений признаков строки и столбца. Смотрите
раздел 3.6 главы 12 по поводу аналогичной проблемы в случае
многомерной нормальной популяции. Предположим, например, что мы
разбиваем двуфакторпую таблицу сопряженности признаков на четыре
щ
РАЗБИЕНИЯ
18',
части посредством группировки с ι рок в два множества по гх и г
строк, соответственно /Ί -}- г2 = г, а столбцов в два множества по с
и с% столбцов, соответственно c1~\-c<i=:c.
Введем дополнительные обозначения:
Ναρ — ΣΣχίρ α=1=β Для ί=1, 2, ..., г^ у= 1, 2, ..., ^,
α = 2 = β для i==rl'^-ly ..., ίΊ + r*
7 = ^+1, ..., Г! + С2,
Χ£. ^j Xip ·#·/—'■ 2^j Xij> Xi· Xi· ~\ xi· > X>j—X.j ~j~ X*p
4.= ^«i + AU N.p = Mp + Mpf a=l, 2, β=1, 2,
N=N„ + ^„+N„ + ^ = ^. + ^. = ^1 + ^^
Составляющими анализа будут: анализ четырех подтаблиц
сопряженности признаков, анализ пар суммарных строк подтаблиц, анализ
пар суммарных столбцов подтаблиц и анализ суммарной 2 χ 2
таблицы, полученной в результате разбиения.
Анализ, приведенный в табл. 9.1, получается непосредственным
образом из свойств логарифма при использовании введенных
обозначений. Степени свободы являются степенями свободы
асимптотического ха-распределения при справедливости нулевой гипотезы
#2 из (2.1).
Та же самая процедура применима к любому разбиению
первоначальной таблицы сопряженности признаков на нодтаблицы, которое
получается или ab initio, или путем дальнейшего разбиения подтаблиц.
Эта процедура применяется, когда есть основания для проверки
возможной зависимости между подмножеством значений признака строки
и подмножеством значений признака столбца, после получения значимо
большой величины компоненты «независимости» в табл. 2.1.
Аналогично разбиение трехфакторных таблиц сопряженности
признаков и таблиц более высоких порядков ведет к анализу компонент
«независимости». Так, компонента «независимости» в табл. 3.1 может
быть разложена дальше в добавление к анализу табл. 3.3. Давайте,
например, разобьем трехфакторную таблицу сопряженности признаков
на восемь частей посредством группировки строк в два множества
По гъ т<ь строк, соответственно г4 —|- г2 = г, столбцов в два
множества по сь с<ь столбцов, соответственно ct -|- с2 = с, глубин в
Два множества по db d2 глубин, соответственно dx ~f- d2 = d. Введем
188
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [Гл^ 8
Таблица 9.1
Компонента информации
С. С.
Разбиение итога
Разбиение
суммарного
столбца
Разбиение
суммарного
столбца
Разбиение
суммарной строки
Разбиение
суммарной строки
Подтаблица
Подтаблица
Подтаблица
Подтаблица
2 2
2 Σ H^Arrf + ^^iV1^)
VI / N..x\\ N..xV\
Γΐ + Γ2 C1 + C2
Г1 + Г2 Ci
/•1 C1+C2
> Σ Σ **·%%
2 \ У χ \ocNllXiJ
2 L Lx,jlogxY.x\)
Cg — 1
ci-l
Γι-1
(r,—l)(*-l)
(r,-1)^-1)
(r,-l)(c.-l)
(ft-Ofa-l)
Независимости,
Я2 (Я X С)
2/(Я,: Я2)
(г — 1)(с — О
РАЗБИЕНИЯ
Компонента информации
Разбиение итога
Два разбиения
суммарной глубины для γ =
= 1,2 и £=1,2, ..., dt
для γ=1, k = d1~\~
+ 1» ·■·» di~hd2 Для
7 = 2
Два разбиения
суммарного столбца для β =
= 1,2 и /=1,2, ..., сг
для р=1, /=(?! +It
... , сг + с2 для β = 2
Два разбиения
суммарной строки для а= 1,2
и *=1,2, ..., Г! для
а==1, 1 = ^ + 1,·..,
Г1 + Г2 ДЛЯ а = 2
Восемь трехфакторных
подтаблиц для α, β,
γ=1,2 с £= 1,2,..., гг
для 0=1,1=^4-1,...,
ri + ra для а = 2и т.д.
Независимость
^(RxCxD)
2 2 2
'■212
α=1β = 1ϊ==1
N2Nt
αβγ
"•"'чтад.
>Ш
α б /г
^log
Λ^..γ^|
■2ΣΣ
κ Τ /
·*#7 log
ί У k
11 g4^fx!l
189
Таблица 9.2
С. С.
8№-
1)
1)
8(c, —1)
8(c, —1)
8(r,-l)
8(r,—1)
r^d,—r,—c, —«ί,-
Γ^Α—r,—c,—d2-
Γι^ι — Γι — c2 — ^i -
r2Cjd, — ra — c, — rf, -
Γ2^Μ2 ^ 2 ^1 ^2 ~~r~
Y$C?U\ Γ2 —- С2 «J
Г2^2^2 ^2 ^2 "2
22Σ2
^i/ftlog
ΑΡ*ϋ»
ΛΓj··Λ . ί. X,m fc
rcd-
-d + 2
190 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
дополнительные обозначения
Κβ1 = ΣΣΣ^> α = β = γ=1 для ί= 1, 2, ..., rh
j=\, 2, ..., clt k=l, % ..., db
α = β = γ = 2 для i = ^ + 1, ..., rt + r* j = ct+l, ..., ^-f c%t
*$?=ΣΣ*ν*> *$=ΣΣ*ν*> *Ά=ΣΣ*ν*
j к г k i j
^::=ΣΣ^ κ%=ΣΣ^> *::ΐ=ΣΣ^Χ
β γ α γ α β
Ν-=ΣΣΝν> Ν;·=ΣΣΝ^ ^=ΣΣν
β γ α γ α β
Α/=ΣΣΣ^=Σ^--Σ^.β.=Σ^
α ρ γ α Ρ γ
Анализ состоит из анализа восьми трехфакгорных таблиц
сопряженности признаков, анализа пар множеств, состоящих из суммарных
строк, столбцов и глубин подтаблиц с четырьмя элементами в
множестве и анализа суммарной 2 X 2 X 2 таблицы.
Анализ, приведенный в табл. 9.2, получается непосредственным
образом из свойств логарифма при использовании введенных
обозначений.
Процедура разбиения может быть применена, конечно, к яюбой под-
таблице, но подробный анализ мы оставляем читателю. Степени свободы
совпадают со степенями свободы асимптотического х2-распределения в
случае, когда нулевая гипотеза о независимости Н2 из (3.1) верна. В случае
табл. 9.1 и 9.2 мы оставляем читателю оценку соответствующих
расхождений, а также выражение компонент в терминах вида η log n для удобства
вычислений. (См. задачу 8.26 гл. 12 по поводу аналогичной проблемы в
случае многомерной нормальной выборки.)
10. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ
Предположим, что в табл. 3.1 /?,-.., £—1, 2, ..., г, — известные
функции независимых параметров аъ а2, ..., ат, т<^г9 /?ν·„ / =
= 1, 2,..., с7 — известные функции независимых параметров рь β2,..., βΛ,
п<^с, p„k, k—1, 2, ..., d, — известные функции независимых
параметров fh γ2, ..., γ5, s<^d. Мы «подгоняем» таблицу сопряженности
признаков с помощью оценок (определенных посредством некоторой
процедуры) аь ..., ат9 βυ ..., βΛ, γ1? ..., γ5 для аа, β^, γ^, полагая
ιοί
параметрический случаи
191
Таблица ЮЛ
Компонента информации
С. С.
Между
pi.. = xl..IN и pi.
Между
p.j.= x.j.lN и p.j.
Между
Независимости
H2(RXCXD)
2/ (Я!: Я2)
£=1
с
22^log^
JU L· L·* J ъ Xi„x.j.x..k
r—m — 1
с — η — 1
d— s— 1
red— r—c— rf + 2
2/(a, ft 7)
P..
p.y.
p..Λ
г с if
Σ Σ Σ *^τΛ
£=1/«1Λ=1
г
Ш У ft., log^-
j-P-k
г=-Л
с
2Ν χ p.j. iog^
/«ι
d
2Nl?~»^9frk
k^\
red—m—η—s—1
m
Итог,
2/((p)*:(p))
red
*iii*^^m^
i^I/=l k=\
rcd—\
P,\.=Pi..(&ъ ..., am), /==1, 2, ..., r;
p.j. = p.j. Φι, ..·> Р^)»У=Ь 2, ..., с; /?../г =^..Α(γ„ ..., γ5),
Λ=1, 2, ..., d;
192 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
Если /?,·.., p.j.y р..ку или α, β, γ таковы, что тождественно ποαα, β6, fg
ϊ = 1 /=1 J k = \
мы получим дальнейший анализ табл. 3.1, приводимый в табл. 10.1.
Очевидным образом (ср. (4.8)—-(4.11) гл. 6) из (ЮЛ) следует, что art,
β г» Τ§· являются решениями системы
ci Xi..dpi.
с
2
if
2
ЛГ.у.
р. у.
/?.·Λ
&ig
α=1, 2, ..., /и,
b=l, 2, ..., л, (10.2)
0, g=l, 2, ..., 5.
Это уравнения максимума правдоподобия для нахождения оценок аа>
βδ> 7# или значений, минимизирующих «итог» в табл. 3.1. Мы
оставляем читателю оценивать расхождения, а также выражать компоненты
в терминах вида η log n для удобства вычислений. Степени свободы
есть степени свободы асимптотического ^-распределения, если верна
нулевая гипотеза //2 из (3.1) о независимости; pimmf p.j.f p..k
понимаются как функции αβ, β^, γ^ соответственно. (См. задачу 13.12.)
И. СИММЕТРИЯ
Для двуфакторных таблиц сопряженности признаков с одинаковым
числом строк и столбцов может представлять интерес проверка
гипотезы о симметрии Нъ т. е. гипотезы о том, что события,
расположенные симметрично относительно главной диагонали, имеют одинаковые
вероятности появления [см. Боукер (1948)]:
Hi-Pij^Pjb *=Ь 2, ..., су 7=1, 2, ..., су 1ф}у
по крайней мере для одной пары (/, 7), (11.1)
H*-Pij=Pjr
Для сопряженного распределения (см. раздел 3 гл. 6), с наилучшими
несмещенными выборочными оценками в качестве параметров получим
с с
Π]
Диагональные члены
Xij-jrXji
РЧ— 2 N
Симметрии,
2i(Ht:H,)
Итог, 2? (/?*:/?)
симметрия 193
Таблица 11.1
Компонента информации 1
L· L· Xi} °g Xn+Xji
*Φί J J
с с
с. с.
с—1
с(с-1)
2
с(с-1)
2
с2 —1
Нулевая гипотеза //2 из (ПЛ) обычно не уточняет значений pijy
1=1, 2, ..., с, у=1, 2, ..., с. В табл. ПЛ /(/?*:/?) из (11.2)
разложена на несколько аддитивных компонент. Степени свободы
совпадают со степенями свободы асимптотического х2-распределения,
если нулевая гипотеза //2 о симметрии верна. Свойство выпуклости
(см. раздел 3 гл. 2) гарантирует, что компонента, обусловленная
Pip — минимум величины «итога» для симметричной группировки,
компонента «симметрии» есть сумма всех, кроме диагональных, членов
«итога» с pij вместо pij.
Для удобства вычислений с помощью таблиц η log n компонента
«симметрии» в табл. ПЛ может быть представлена в виде
ΐφ!
~ ΣΣ C*V + Χμ) log (xif + Χμ) + (log 2) ^Σ XV (! l-3>
*</ ΙΦΙ
Расхождения не допускают подобного аддитивного анализа (с
такими оценками), но оценкой расхождения, соответствующей
компоненте «симметрии» в (11.3), будет
ίφί
ίφ]
Xij~\~xji
(11.4)
194 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
Если нулевая гипотеза //2 из (11.1) (события в клешах,
расположенных симметрично относительно главной диагонали, имеют
одинаковые вероятности появления) верна, то 2/(7^: //2) и J(Hiy 7/2)
асимптотически распределены как χ2 с с (с—1)/2 степенями свободы.
С помощью аппроксимации, использованной в (4.5) и (4.6) главы б,
получим
2/<".:Н»~21'!йЗ?=** ("·5)
Если Pij=Pji, /==1, 2, ... , с, j=h 2, ... , <?, i^y, то
частные распределения признаков строки и столбца совпадают, т. е.
Pu=Pi\+Pi* + -"+Pb=P.i=Pii+P# + --+P& *=1> 2, ... ,<\
Более слабая гипотеза о равенстве частных распределений также
интересна, особенно при отсутствии симметрии. По поводу проверки
более слабой гипотезы см. Стюарт (1955а) и раздел 7 главы 12.
12. ПРИМЕРЫ
Π ρ и м е ρ 12.1. В качестве примера проверки симметрии рассмотрим
данные табл. 12.1 о дальности зрения невооруженного глаза для 3242
человек в возрасте 30—39 лет [взятые у Стюарта (1953, стр. 109)]. Из (11.3) и
таблиц η log n находим
2 2**7 log *£/== 4622,580, £ ]g С*у+*д) log C*y+*Ji) =5322,353,
Ίφ} ί</
ΣΣ·*4/=1013' Ю13 log 2 = 702,158 и 2/ (tfx: tf2) = 4,770,
Ιφ!
Таблица 12.1
Классификация 3242 человек 30—39-летнего
возраста по дальности зрения
невооруженного глаза
^ч. Левый
^ч. глаз
Правый ^ч.
глаз \^
1
2
3
4
Итог
I
821
116
72
43
1052
2
112
494
151
34
791
3
85
145
583
106
919
4
35
27
87
331
480
Итог
1053
782
893
514
3242
12]
ПРИМЕРЫ
195
что, как значение у3 с б степенями свободы, не значимо. Следовательно,
мы'принимаем нулевую гипотезу о симметрии зрения левого и правого глаз
для популяции, из которой был произведен выбор.
Пример 12.2. Данные в табл. 12.2 представляют собой число
принятых деталей Ρ и число забракованных деталей F, в соответствии с двумя
критериями Tti T2 проверки некоторой продукции, произведенной
фабриками А, В, С, D. Для критериев в качестве признака строки, фабрик в
качестве признака столбца и результата проверки в качестве признака
глубины находим
2 4 2 2 4
Σ Σ ΣχΦΐ0ζχ№^2*93>*19> Σ Σ**/·1^*'/—3215*410·
ί=1 У=1 Λ=1 ί = 1/=1
2 2 4 2
Σ Σ*'·*1°8·*ί·*=3829'547' Σ Σχ-*ι°ζχ-ρ=&ιβ,*?ο,
2 4
^ *ί» log Xf.. = 4158,008, 2 ■*■/■ loSXml· = 3701,858,
2
Σ ^.ft log .v..ft = 4317,737, TV log TV = 4646,210.
Эти значения и анализ, данный в табл. 6.1, приводят к табл. 12.3 для
проверки однородности результатов и фабрик относительно критериев
проверки деталей.
Так как 5% значения у2 для 3, 4, 7 степеней свободы равны
соответственно 7,81; 9,49; 14,07, то мы принимаем нулевую гипотезу о том, что
результаты для различных фабрик относительно критериев проверки
однородны. Табл. 12.4 дает иллюстрацию табл. 8.1. Ввиду значений табл. 12.4 мы
можем принять нулевую гипотезу о том, что процент брака одинаков для
обоих критериев проверки деталей.
А
В
С
D
П
Р
112
76
87
41
316
F
32
20
9
7
68
Итог
144
96
96
48
384
Та
блица 12.2
п
Ρ
84
86
58
40
268
F
24
10
14
8
56
Итог
108
96
72
48
324
Пример 12.3. В табл. 12.5 124 бракованные детали, использованные
в табл. 12.2, расклассифицированы еще и по дефектам Dlf D2. Для 4 X 2 χ 2
табл. 12.5(a) мы проверяем гипотезы из (3.1) с 1 = А, В, С, D, ]=Ти 7\>,
Λ = /λ. Л„ т. е. нулевую гипотезу о независимости фабрик, критериев
k = Du D
196
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ
1ГЛ. S
проверки деталей и дефектов. На основании данных находим
4 2 2 4 2
Σ Σ Σ Xijkl°gXifk = 280,642, 2 Σ XiJ-bgXif- = 357,097,
4 2 2 2
Ц 2 ^..ftlog^.fe = 359,061, 2 Σ ^//Hog.*./* ==429,705,
4
2 *,·.. log *f.. = 440,193,
2
2 -«..ftlog*..* = 512,023,
/«I fc=l
2 *./. = 512,347,
JVlogW= 597,715.
Эти значения и анализ, данный в табл. 3.3, приводят к табл. 12.6.
Таблица 12.3
Компонента информации
Однородность фабрик
Условная однородность
результатов для данной
фабрики
Однородность (результат,
фабрика)
3,508
7,594
11,102
с. с.
3
4
7
Так как 5% значения χ2 для 1, 9, 10 степеней свободы равны 3,84,
16,92, 18,31 соответственно, а 1% значения равны 6,63, 21,67, 23,21, то мы
отвергаем гипотезу о независимости между критерием проверки и дефектом
и, разумеется, о независимости трех факторов, и в дальнейшем изучаем
гипотезу о независимости между фабрикой и парой (критерий проверки,
дефект).
Таблица 12.4
Компонента информации
Однородность результатов
Взаимодействие: критерий,
результат, фабрика
Условная однородность
результатов для данной
фабрики
0,024
7,570
7,594
С. С.
1
3
4
Анализ условной независимости табл. 3.5, примененный к компоненте И2
(фабрика х (критерий проверки, дефект)) в табл. 12.6, в результате дает
табл. 12.7 и 12.8.
12|
ПРИМЕРЫ
197
Таблица 12.5
А
В
С
D
/Л
о2
Οι
D2
Dt
D2
Dx
D2
Л
24
8
7
13
7
2
5
2
68
г.
11
13
2
8
7
7
3
5
56
*Двв=56
*В..=Э0
X г·. »===: ^"
^^=5=15
ЛГ= 124 1
\Dl
\ds
τ,
43
25
λτ-7· ==68
г8
23
33
*.г,.=5в
·*..£>, =66
x.-£)s=58
(б)
(а)
Таблица 12.6
Компонента информации
Я2 (критерий χ дефект)
#2 (фабрика X (критерий, дефект))
#2 (фабрика X критерий X дефект)
6,100
16,918
23,018
Таблиц
Компонента информации
#2 (фабрика χ критерий)
Условная независимость фабрики и
дефекта для данного критерия
#2 (фабрика X (критерий, дефект))
4,544
12,374
16,918
с. с.
1
9
10
а 12.7
с. с.
3
6
9
Так как 5% значения χ2 для 3 и 6 степеней свободы равны 7,81, 12,59
соответственно, а 1% значения равны 11,34, 16,81, то мы на основании
табл. 12.6, 12.7, 12.8 заключаем, что фабрика и критерий независимы, но
дефект и критерий, дефект и фабрика не независимы и что фабрика и
дефект условно независимы при данном критерии проверки.
Пример 12.4. В табл. 12.9, взятой у Кемпбелла, Снедекора и Симан-
тона (1939, стр. 64) дано распределение 1397 комнатных мух по полу и
198
ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ.
Таблица 12.8
Компонента информации
Н2 (фабрика χ дефект)
Условная независимость фабрики и
критерия при данном дефекте
/Уа (фабрика X (критерий, дефект))
9,120
7,798
16,918
С. С.
3
6
9
смертности в 12 последовательных испытаниях стандартного средства от
насекомых [см. также Нортон (1945)]. Здесь рассматривается задача проверки
однородности пола и результатов смертности по 12 последовательным
испытаниям. Используя номер испытания в качестве признака строки, пол в
качестве признака столбца, смертность в качестве признака глубины, находим
12 2 2 12 2
Σ Σ Σ */y7k log *iy7fc = 5118,828 Σ Σ *ί/. log *;/. = 5713,331,
12 2 2 2
Σ I>;.nog*;.* = 5766,322, £ £ x.jk\ogx.Jk = 8554,522,
12 2
Σ Xi- !og ^.. = 6652,973, ^ *.y. log *.y. = 9159,110,
t = l /=1
2
2 a-..ft log *..* = 9215,809, TV log N = 10117,189.
Эти значения и анализ, данный в табл. 6.1, приводят к табл. 12.10.
Таблица 12.9
Смертность самок и самцов домашних мух в 12 последовательных
испытаниях стандартного средства от насекомых
Номер
испытания
1
2
3
4
5
6
7
8
9
10
п
12
Число самцов
выживших
17
14
19
21
9
21
19
15
20
15
12
12
194 1
погибших
40
44 1
42
33
39
38
40
32
35
29
19
29
240 1
сумма
57
58
61
54
48
59
59
47
55
44
31
41
614 1
| Число самок
выживших
46
44
48
41
68
70
56
51
73
78
69
75
719 1
погибших
6
5
5
4
8
5
4
8
9
5
2
3
64
сумма
52
49
53
45
76
75
60
59
82
83
71
78
783 1
Полная
сумма
109
107
114
99
124
134
119
106 1
137 1
127
102
119
1397 1
Сумма
выживших
63
58
67
62
77
91
75
66
93
93
81
87
913
Сумма
погибших
46
49
47
37
47
43
44
40
44
34
21
32
484
щ ПРИЗЕРЫ 199
Таблица 12.10
Компонента информации
Однородность пола
Условная однородность смертности для
данного пола
Самцы
Самки
Однородность (пол, смертность)
Однородность смертности
Условная однородность пола при данной
смертности
Выжившие
Погибшие
36,874
20,170
8,906
11,264
57,044
29,458
27,586
21,340
6,246
С. С.
11
22
И
11
33
11
22
11
11
Кемпбелл, Снедекор и Симантон (1939), используя классический у2,
нашли значения 8,6 и 10,5 соответственно при проверке условной
однородности результатов смертности для самцов и для самок; 36,5—для
однородности пола; 28,7—для однородности результатов смертности. Мы принимаем
нулевую гипотезу об условной однородности результатов смертности при
данном поле. Так как 1% значения χ2 для 11, 22, 33 степеней свободы
соответственно равны 24,72, 40,29, приблизительно 55, то заключаем, что
результаты смертности не однородны, результаты для данного пола не однородны
и (пол, результаты смертности)—не однородны, хотя существует условная
однородность смертности, когда дан пол, и однородность пола, когда дана
смертность.
Отметим, что компонента «однородности» результатов смертности
больше компоненты «условной однородности» результатов смертности, когда
дан пол, а также компонента «однородности пола» больше компоненты
«условной однородности пола» при данной смертности, так что здесь анализ
табл. 8.1 указывает на отрицательное взаимодействие компонент. Применяя
анализ табл. 7.1, вычислим
2
у У Xi.kX.Jh^ ί=1( 2 12) ;.= 1) 2>
и
2
Λ·* = 2 —^Ч ϊ=1.2 12,4 = 1,2,
образуя табл. 12.11. Найдем также
12 2 12 2
Σ Σ xi-klogyi.к = 5762,541, J) J] *tf.log3>i/. = 5707,284.
i<=\h=\ ;=1/ = 1
Анализ компоненты условной однородности табл. 7.1 в нашем случае
приводит к табл. 12.12 и 12.13.
200 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ. 8
Таблица 12.11
i
1
2
3
4
5
6
7
8
9
10
11
12
УЦ-
J
1
53,30
54,84
55,02
45,28
57,15
56,65
54,12
48,73
57,94
49,27
35,43
46,25
2
55,70
52,16
58,98
53,72
66,85
77,35
64,88
57,27
79,06
77,73
66,57
72,75
Λ. k
k
1
65,76
63,32
67,94
58,38
84,95
87,51
73,74
69,03
ί 92,68
90,12
74,99
84,58
2
43,24
43,68
46,06
40,62
39,05
46,49
45,26
36,97
44,32
36,88
27,01
34,42
Таблица 12.12
Компонента информации
(Номер, смертность)-взаимодействие
((Номер, смертность), пол)-взаимодей-
ствие
Условная однородность смертности для
данного пола
7,562
12,608
20,170
С. С.
11
И
22
Таблица 12.13
Компонента информации
(Номер, пол)-взаимодействие
((Номер, пол)
смертность-взаимодействие
Условная однородность пола при
данной смертности
12,094
15,492
27,586
С. С.
И
И
22
13. ЗАДАЧИ
13.1. Выясните, как связаны компоненты табл. 2.1 и табл. 6Л главы 6.
13.2. Получите эквивалент табл. 3.5 для нулевой гипотезы о
независимости признаков «столбец» и «(строка, глубина)».
13.3. Оцените расхождения, соответствующие информационным
компонентам табл. 9.1 и 9.2.
131
ЗАДАЧИ
201
13.4. Выразите информационные компоненты табл. 9.1 и 9.2 в терминах
впда η log п.
13.5. Являются ли две совокупности данных в табл. 13.1 однородными?
Таблица 13.1
Неуспех
Успех
Процесс
А
68
450
в
38
413
Неуспех
| Успех
Процесс
А
76
365
в
17
82
13.6. В табл. 13.2, заимствованной у Кохрэна (1954, табл. 8, стр. 442),
дана классификация матерей учащихся Балтиморской школы, которые, по
мнению учителей, являются «трудными» детьми, и матерей сравнительной
контрольной группы учащихся, которые не являются «трудными». Для
каждой матери было зарегистрировано, теряла ли она детей (например,
мертворожденные) до рождения исследуемого ребенка. Данные
расклассифицированы далее по порядку рождения в три класса. Сравнение есть часть
исследования возможной связи между поведением учащихся и осложнениями
в период беременности у их матерей. Анализируйте данные.
Таблица 13.2
Число
рождений
2
3—4
5+
Трудные
потери
были
20
26
27
73
потерь
не было
82
41
22
145
сумма
102
67
49
218
Контрольные
потери
были
10
16
14
40
потерь
не было
54
30
23
107
сумма
64
46
37
147
13.7. Табл. 13.3 [заимствованная у Бартлетта (1935, стр. 249), который
ссылается на данные Хоблина и Палмера] получена в результате
эксперимента, проведенного для исследования размножения сливовых деревьев
корневыми отрезками. В каждом из четырех видов обработки было
использовано 240 отрезков. Анализируйте данные.
Таблица 13.3
Длина отрезка
Длинные
Короткие
Сумма
Прижившиеся
время посадки
сейчас
156
107
263
весной
84
31
115
сумма
240
138
378
Погибшие
время посадки
сейчас
84
133
217
весной
156
209
365
сумма
240
342
582
202 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8
13.8. Используя анализ, приведенный в табл. 3.1, и свойства
различающей информации, покажите, что если при N—+cot XijkjN —+pin.p.j.pm.k
с вероятностью 1, то ^ψ-,^ . ^Ji - ^t Д·..-*/>!-., А/·-*Р·/·» А·*-*
—►/?..& с вероятностью 1, г=1, 2, ... , г, /=1F 2, ... , с, й=1, 2, ... , if.
(См. задачи 7.14 и 7.16 гл. 6.)
13.9. Используя анализ, приведенный в табл. 3.2, и свойства
различающей информации, покажите, что если при TV-^oo, ΧφΙΝr-^-Pi-»p>jk c
вероятностью 1, то ^р—^p.^/fef pi..-+pim.,p.jk-+p.jb с вероятностью 1,
/=1, 2, ..., г, У = 1, 2, ... , с, k=\, 2, ... , ef. (См. задачу 13.8 и задачи
7.14 и 7.16 гл. 6.)
13.10. Броунли [см. Квастлер (1955, стр. 63)] дает данные, приведенные
в табл. 13.4, о числе удобрительных барабанов двух различных типов на
двух различных участках. Покажите, что (количество X тип) неоднородны
Таблица 13.4
Количество
«Плохой»
Приемлемый
Сумма
Участок А
тип барабана
1
72
420
492
11
48
180
228
сумма
120
600
720
Участок В
тип барабана
1
18
480
498
11
42
720
762
сумма
60
1200
1260
по участкам (см. раздел 4) и, следовательно, участки не нужно объединять.
(Броунли поднимает вопрос об объединении участков, так как «обычно
предполагается, что объединение возможно, если взаимодействие второго
порядка отсутствует» [он ссылается на Снедекора (1946].) Отсутствие
взаимодействия второго порядка определялось как равенство отношений
произведений диагональных членов. В приводимом случае взаимодействия
второго порядка в этом смысле нет, так как
72 χ180_ 18X720
48 χ 420""42x480*
13.11. Используя анализ, приведенный в табл. 2.1, и свойства
различающей информации, покажите, что если при N~+co, xulN—pij, Xi.jN—*/?£.,
x.j'N—>p.jC вероятностью 1, то 2/(HL: H2)IN~* 2/ (H1: H^jN с
вероятностью 1, ί=1, 2, ... , r, y=I, 2, ... , с, где I(HL'.H^ дана в (2.2). (См.
задачи 13.8 и 13.9.)
13.12. Используя анализ, приведенный в табл. 10.1, и свойства
различающей информации, покажите, что если при TV—-oo, XifilN-+pimmp.j.p..k
с вероятностью 1, то μι.. — рг.., р. у. — /?. у·., р.. k —- р.. к, Ν2Χφ/χι.. χ, j. χ.. и —+
-► 1, χι..jNpi.. —* 1, x.jJNp.j. —* 1, χ.,kjNp.:и —- 1 с вероятностью 1. С
другой стороны, к какому заключению вы придете, если хш^~-*рпъ Xi»jN—>
-Pi-, x.j'W-^p.j., x**k!N-+P~kt (См. задачи 13.8, 13.9 и 13.11.)
ГЛАВА 9
МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ
1. ВВЕДЕНИЕ
Мы продолжаем рассуждения предыдущих глав, особенно б, 7 и 8,
но займемся теперь исследованием одной или большего числа
выборок из многомерных нормальных популяций для проверки
статистических гипотез. Прежде чем мы рассмотрим вопросы построения оценок,
распределения статистик и проверки гипотез, будет полезно вывести
в этой главе некоторые величины как параметры популяций. Будем
использовать матричную запись и теорию. Матрицы обозначаются
заглавным жирным шрифтом, например, А = (а^\ X1 = (xUj) и т. д.,
/=1,2, ..., т; j = 1, 2, ..., п. Однострочные или одностолбцовые
матрицы (векторы) обозначаются строчным жирным шрифтом, например
х' = (хьХъ..-9х*), μ!=(μιι, μι& ···> μΐρ) и τ- Д· (χ'—
транспонированная одностолбцовая матрица хит. д.).
Предположим, что мы имеем две ^-мерные нормальные
популяции Ν(μ;, Σ,·) с однострочными матрицами (векторами) средних
значений μ'£= (μ. b μί2, ..., μ;Λ), /= 1, 2, и ковариационными матрицами
Σ,- = (airs)y i = 1, 2; r, s = 1, 2,..., k. Обозначая соответственные
плотности популяций [ср. Андерсон (1958, стр. 17), Рой (1957, стр. 15)]
А С**, *, .., *η)=|2πΣ\|ΐ/2 ехР ( - Υ (χ ~~~ μ^ Σ^ (χ — Р*>)'
мы находим (см. задачу ЮЛ)
log Jj(xi> χ2* ···> *k) 1 ]ησ I Да I __ 1 tr y-J /γ \ /γ γ f_
g 7и^7х2,..., *Λ) —¥log |гГГ ¥tr2j κχ-μι)(χ-μι) +
+ ^ίΓΣΐ(χ-μ2)(χ~μ2); (1.1)
откуда получаем
/(l:2)=J/l(Xl, ..., ^)log \{^i;['\% dxx...dxk =
+ 4-ίΓΣ-1(μ1-μ9)(μ1-μ30Γ> (1.2)
204 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [Гл. 9
Χ d*.... Λ** = \tt (Σ, - Σ2) (Σ~ί - 2Γ}) +
+γ ίΓ(Σ-} + Σ-')(μ, -μ2)(μ, -μ,)'. (1.3)
В предположении равенства ковариационных матриц обеих
популяций Σι=Σ2 = Σ выражения (1.2) и (1.3) становятся
соответственно равными
7(1:2; μ) = 1ΪΓ Σ~· (μ, - μ.2)(μ, - μ2)' = ~ ιγΣ"1 66' =
= ^-ό'Σ-,δ, (1.4)
./(1,2; μ) = tr Σ1 (μί - μ2)(μ/ - μ2)' - 6' Σ"1 δ, (1.5)
где δ = μ! — μ2. Расстояние Махаланобиса равно kt! Σ~! δ [Махала-
нобис(193б)]. [См. раздел 3 гл. 1 и Андерсон (1958, стр. 135).]
В предположении равенства средних значений обеих популяций
μ{ = μ2, δ = μ! — μ2 = 0 (или центрирования величин их
соответственными средними значениями), выражения (1.2) и (1.3) превращаются
соответственно в
/(1:2; Z) = |logjJj- + 4-tr211(Z-i-2ri) =
7(1,2; Σ) = i-tr(Σ, - Σ2)(Σ"> - Σ"}) =
=|tr Σ,Σ-ι + ΙίίΣ^-Ι-Α. (1.7)
Соответствующие значения для
/(2: о = J л(*,,., xk) log ^ ;;;;**} dxt... dxh
легко выводятся из соотношения /(1:2)-f-/(2:1) = J(l,2). Заметим,
что значения средней различающей информации (1.2) и расхождения
(1.3) выражаются суммой двух компонент, одна из которых
обусловлена различием средних значений, другая — различием дисперсий и
ковариаций. Для одномерных нормальных популяций k = 1 имеем
КОМПОНЕНТЫ ИНФОРМАЦИИ 205
формулы, соответствующие формулам (1.4) — (1.7):
/п .о. „\_ 1 δ2 _ ! (μι—-fa)8 π *rt
Д1.Л μ)- y-^r— γ ? > U-8J
J(l,2; μ) =5-· <L9>
/(l:2;c3) = |log^-4 + T|-> (U°>
2. КОМПОНЕНТЫ ИНФОРМАЦИИ
Ввиду того, что /(1:2) и 7(1, 2) аддитивны для независимых
случайных величин, мы имеем для случайной выборки Оп в η
наблюдений /(1:2; Оп) = п1(1:2) и J(l, 2; On) = nJ(l, 2), где /(1:2) и J(l, 2)
определяются формулами (1.2) и (1.3) соответственно. (См. разделы
2 и 5 гл. 2.)
Средние значения, а также дисперсии и ковариации выборки Оп
из многомерной нормальной популяции Ν(μ, Σ) распределены
независимо. Средние значения распределены нормально Ν(μ,(1/η)Σ),
а дисперсии и ковариации имеют распределение Уишарта. [См.
Андерсон (1958, стр. 53, 154), Кендалл (1946, стр. 330 — 335), Рао (1952,
стр. 66 — 74), Уилкс (1943, стр. 120, 226 — 233).] Так как средние
распределены нормально, (1.2) и (1.3) дают
/(1:2; «) = ^iog[|!| + ItrZ1(S-l-S-i) + |trS-iW, (2.1)
J(i, 2; χ) = 1 Ιϊ(Σι~Σί)(Σ-1-Σ'1)+ \tr(S-l + S-»)66'.(2.2)
Заметим, что обгем выборки появляется в (2.1) и (2.2) как
множитель только в компонентах, обусловленных различием средних
значений.
Обозначая плотность распределения Уишарта
( 1 )km |S|C"- k - ')/» exp (_ 1 tr NSX-+
W(s»,.... ***) = Ш S — ·
K*(*-i)/4|S(iv/a п Г(ДГ+1_а)/2
а — 1
мы находим (см. задачу 10.5)
/(1 :2; S)=^(lQg||j + trZI(S-i-S^), (2.4)
J(l, 2; S) = f tr (Σ, - 2« (Si - 2Г»). (2.5)
206 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9
где S есть несмещенная оценка ковариационной матрицы и iV= η — 1 —~
число степеней свободы.
Таким образом, мы видим из предыдущего и теорем 2.1 и 5.1
главы 2, что
/(1:2; 0„) = л/(1:2) = /(1:2; х) + /(1:2; S) = /(l:2;x, S), (2.6)
J(l, 2; On)-=/7J(l,2) = J(l,2;x) + J(l,2;S) = J(l,2;x,S). (2.7)
В предположении, что ковариационные матрицы популяций
различаются лишь величинами коэффициентов корреляции, т. е. S1 = D0P1D0,
23 = D0P2Da, где Ρχ и Р2 суть матрицы коэффициенгов корреляции и
есть диагональная матрица стандартных отклонений, выражения (2.4)
и (2.5) превращаются соответственно в
/(1:2; S) = f (logj^+ trP^-P-»), (2.8)
J(l, 2; S) = ftr(P1-P^(P^-P-|). (2.9)
Теперь мы обратимся к проблеме нескольких выборок.
Предположим, что мы имеем г независимых выборок, соответственно по nit
«2,..., пг независимых наблюдений в каждой, причем n — tii-{-щ~\-
-\-.>>-\-пг. Мы можем представить г выборок как одну большую
выборку из популяций со средними значениями и ковариационными
матрицами, заданными формулами (n-t обозначает число появлений
соответствующих членов)
μί = (μ*ι>...» μίβ··>.·> Щг-Л '=1> 2» (2Л0)
щ
,/=1,2, (2.11)
&' = μί-μί = (*ί,..., «..., ..., δ;...), (2.12)
ni rtg tir
β} = μί7 —μ2,.
2j КОМПОНЕНТЫ ИНФОРМАЦИИ 207
Исходя из предыдущего (или из свойства аддитивности), находим
для г выборок:
г
/(1:2; Оп)=2Л(щ^+1гЪч(Ъ;}--Ът})+№}Ь;6?1,(2.Щ
Г
J(l, 2; Оп)= J Ц (ΐΓ(Σ1/-Σ2/)(Σ2/~2ΐ/) +
+ tr(Si/ + S2/)fiy6}), (2Л4)
/(1 :2; Ort)= £ /(1:2; ху)+ Σ Ό :2'> S/)> ί2-*5)
/-ι /=ι
г 7
j(i. 2; α>= Σ ·ό> 2; χ/)+ Σ J(l> 2> SA (2Л6)
7= ι /=ι
где /(1 :2; ху), /(1:2; Sy), J(l, 2; хД 7(1, 2; S;) представлены фор-
мулами (2.1), (2.4), (2.2), (2.5) соответственно для у-й выборки.
Если г выборок взяты из популяций с одинаковыми
ковариационными матрицами Σ^ = Σ, ί=1, 2, /=1, 2,..., г, мы находим
г
/(1:2; Оп)= J /(1:2; ху) = \tr Σ~»(«Λ*ί + · · · + "AW =
7=1
где Σ* = n%bfi\ -f-... -j- nr6r6'r. [Ср. Хотеллинг (1951).]
Если г выборок взяты из популяций с одинаковыми средними
значениями (или величины центрированы своими соответственными
средними), бу = 0, /=1, 2,..., г, мы находим
7=1 7=1
/(1:2;0„)=^
+^Σν(Σ2/-ΣΓ/)),(2.18)
J(h 2; 0„)= J JV> 2; Sy)= ^^^(Σ^-Σ^ίΣ^-ΣΓΛί^ΙΘ)
7=1 7-1
гДе Afy есть число степеней свободы, соответствующее Sy.
Г N,
208
МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ
1ГЛ. 9
3. КАНОНИЧЕСКАЯ ФОРМА
/(1:2) и J(\, 2) являются функциями параметров популяций при
гипотезах Н\ и #2. Согласно следствию 4.1 главы 2 /(1:2) и J(l, 2)
инвариантны относительно невырожденных преобразований случайных
величин и, в частности, относительно невырожденных линейных
преобразований. Существует важная связь между инвариантными свойствами
и линейными дискриминантными функциями, и мы рассмотрим ее сейчас
детально. (Это найдет свое отражение и в инвариантных свойствах
последующих критериев.)
Если случайная матрица χ подвергается невырожденному линейному
преобразованию у = Ах, средние значения и ковариационная матрица
J/-OB соответственно равны μy = Aμx, Яу = Α Σ А'. Если х-ы нормально
распределены, то и у-й распределены нормально и (см. Андерсон (1958,
стр. 19—27), задачи 10.5 и ЮЛО)
/(1:2; y)=^iogJ^|^+|trAS1A4A^S-A-1--
— Α'"1 Σ"ί A"1) -f у tr A'"1 S-J Α"1 Aofi'A' =
^γ^^ + ^ίτΣ^-Ι-Σ'^+^ίτΣ-^δ^ηΐ^; χ), (3.1)
j(l, 2; y) = i-tr(AS1A'-AS2AO(A'"!S^A-1-A'~1S-;A-1) +
+ -1 tr (Α'-1 Σ"ί Α"1 + Af-f Σ~1 A"1) Αόδ'Α' =
= |ίΓ(Σ1-Σ3)(Σ--Σ-ί) + ^-ίΓ(Σ11 + Σ-;)δδ^ = 7(1, 2; χ). (3.2)
Так как Σι и Σ2 положительно определены, существует
действительная невырожденная матрица А такая, что [см. Андерсон (1958,
стр. 337—341), Рао (1952, стр. 25—27), Феррар (1941, стр. 151 — 153)]
ΑΣ!Α' = Λ, ΑΣ2Α' = 1, (3.3)
где Λ—диагональная матрица с действительными и положительными
элементами Хь λ2, ..., \ky a I — единичная матрица; в действительности,
λ£ являются корнями характеристического уравнения
ΙΪ! — λΣ2| = 0. (3.4)
Матрица А в (3.3) задает линейное преобразование лг-ов такое, что
у-ки независимы и имеют дисперсии Хь λ2, ..., \k при гипотезе Н% и
единичные дисперсии при гипотезе //2. Полагая А' = (аъ аъ ..., щ)
(т. е. однострочная матрица (вектор) а\ есть ί-я строка матрицы А),
4] линейные дискриминангиые функции 209
получаем из (3.3) и (3.4):
oflZiai = Xi, αΓι·Σ2αί = 1, i=\, 2, ..., ky
ό!ι Σι aj = 0, ari Σ2 α, = 0, i φ j,
Σ1αί- = λ;Σ2αι·, г=1, 2, ..., £,
|Σ12Γ11| = |Σ1|/|Σ,| = λ1λί,.>Λ.
ίΓΣ1Σ-1 = λ1 + λ2 + ··· + λ^
6'А' = (6'аь δ'α* ..., fi'aft). (3.5)
В терминах характеристических корней \ и
характеристических векторов щ имеем
/(1:2)=-1юёХЛ..Л+4(Х1+^ + -"+Х*)-4 +
+ |[(«^ + ... + (а'й6Л =
k
=Σ τ [~,og λί+λί -χ+(<w]' (3·6)
=i^+i-2+(i+1)(a^)2]· (3J)
(См. разделы 5 и б гл. 3.)
4. ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
Правая часть выражения (1.1) есть оптимальная или достаточная
дискриминантная функция для отнесения наблюдения к одной из двух
многомерных нормальных популяций. Эта функция, вообще говоря,
квадратичная. [Ср. Нейман и Пирсон (1933), Уэлч (1939).] Однако мы
можем предпочесть иметь дело с одной или несколькими линейными
Функциями из-за доставляемого ими удобства. Как найти наилучшую
линейную функцию? Какие свойства линейных функций мы
оптимизируем? Сначала мы займемся максимизацией различающей информации
или расхождения для линейной функции. Более подробное обсуждение
и применение будет приведено позже.
Рассмотрим линейную дискриминантную функцию
y = aixl-\-...~\-akxk = a'x, (4.1)
210 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9
где х-и принадлежат /е-мериым нормальным популяциям Λ/(μ;, Σ,-),
i=\, 2. Линейная функция _у, следовательно, распределена нормально
с параметрами
АО0 = а>ь ^0) = α'μ» А (У) = «'Σι«, /39(у) = агЕаа. (4.2)
Мы выясним, как определить α при некоторых предположениях
относительно популяций.
5. СЛУЧАЙ РАВЕНСТВА КОВАРИАЦИОННЫХ МАТРИЦ
Если Σ!=Σ9=Σ, то (1.4) и (1.5) дают
2/(l:2) = J(l, 2) = trS106', δ = μ1~μ2. (5.1)
Для линейной дискриминантной функции у = агх
2/(1:2; y) = J(l, 2; у) = α' δδ' а/а' Σ а. (5.2)
Значение а, при котором λ = а' 66' а/а' Σ а является максимальным,
находится обычными способами дифференциального исчисления (см.
задачи 10.2, 10.4) и удовлетворяет соотношению 66' α = λ Σ α, где λ
есть наибольший корень уравнения [66' — λ Σ| = 0. В данном случае,
так как 66' имеет ранг 1, существует только один ненулевой корень
λ = δ'Σ~1δ = ίΓ Σ^δδ'. Линейная дискриминантная функция с Σα=δ
или α=Σ_16 является достаточной, так как
ог/1 о ч γ/ι о ч α'δδ'α δ' Σ1 δδ' ΣΤ1 δ
2/(l:2;j,) = J(1, 2;у) = -— = —т^ттг=;
= δ'Σ 1δ = ίΓΣ-1δδ' = 2/(1:2) = /(1, 2). (5.3)
Для г выборок из популяций с одинаковыми ковариационными
матрицами, но различными средними значениями (2.17) есть
2/(1:2; 0„) = J(1, 2; 0„) =
= tr Σ"1 Σ* = tr Σ'1 (Α*ΑδΊ + - - - + nrbrbrr). (5.4)
Если мы намерены использовать ту же самую линейную дискриминаит-
ную функцию у = а'х для всех выборок, то (5.4) дает для этой
линейной дискриминантной функции выражение:
2/(1:2; Omy) = J(U 2; 0„, у) =
nt (af bjb't α) Η~ - · + nr (α> &r&V «) _ <*' Σ* α (ЪК\
α'Σα α' Σ α ' \ ' >
Значение α, при которОхМ величина λ = α'Σ* α/α'Σ α максимальна,
удовлетворяет равенству Σ*α = λΣα, где λ есть наибольший корень
уравнения |Σ* — λΣ| = 0. По определению Σ* ее ранг не больше
чем г. Характеристическое уравнение имеет p^min(/e, г) ненулевых
корней, обозначенных в порядке убывания как Хъ..., λρ. Каждому
6]
ГЛАВНЫЕ КОМПОНЕНТЫ
211
корню λ; соогветствует одностолбцовая матрица (вектор) щ такая,
что Σ* «,· = *£ Σα^ и линейная дискриминантная функция yi = a'ix.
Так как tr Σ* Σ"1 — Xj-f X2 + ...-f λρ9 из (5.4) и (5.5) получаем
= J(1, 2; Ода J>i) + */(l, 2; Om j/2) + ... + J(l, 2; Оде _у> (5.6)
Различающая эффективность линейной дискриминантной
функции у\ может быть измерена отношением Xt / (kv -\~... -[- λρ) или
j(l, 2; От Ух)1 J(h 2; Оп); различающая эффективность пары
линейных дискриминантных функций может быть измерена
отношением (λ1 + λ2)/(λ1 + λ2 + ... + λρ) или [J(l, 2; 0„ yx) + J(l, 2;
Оп, yu]fJ(l> 2; Оп) и т. д. (См. раздел 6 гл. 3.)
Векторы α£·, соответствующие различным корням λί9 обладают тем
свойством, что αϊ:Σ*α7· —0==αί:Σα/·, Ι Φ], и соответствующие
линейные дискриминантные функции у-г независимы и имеют диагональные
ковариационные матрицы из элементов αίΣα£. Будут существовать
одно, два и т. д. различных значений λ,- и столько же различных
линейных дискриминантных функций в соответствии с тем, будут ли
средние значения популяций коллинеарны, компланарны и т. д. [Ср.
Уильяме (1952, 1955).]
6. ГЛАВНЫЕ КОМПОНЕНТЫ
В предположении, что /е-мерные нормальные популяции
центрированы своими средними значениями или что 6 = 0, линейная
дискриминантная функция у = αχ распределена нормально и
Ei(y) — E.2(y) = Q, Dl(y)=a'Zla, А00 = «%а, (6Л)
τ/ι η ч Ι ι α'Σ2α Ι . α'Σ,α ^m
/(1:2;3,) = τ1ο6^-τ + ΊδΓ^, (6.2)
τ/ι о. \ 1 α'Σι« ι 1 α'Σ2α ία ΟΛ
/(1, 2; j;) = __^_-J-T-^__ 1. (6.3)
Значение α, при котором /(1:2; у) максимально, удовлетворяет
(это доказывается обычными методами дифференциального
исчисления) равенству
Σ!α = λΣ2α, (6.4)
где λ есть корень характеристического уравнения
\ΣΧ~ λΣ21 = 0, (6.5)
все корни которого действительны и положительны. Обозначим эти
корни в порядке возрастания λ^ λ2,...Xfe. Разыскивая α, для которого
*/(!> 2; у) максимально, мы приходим к тем же самым условиям
212
МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ
ГГЛ. 9
(6.4) и (6.5), как при максимизации /(1:2; у). Каждому корню \.
соответствует вектор аг и линейная дискриминантная функция yt =
= α,:χ. Таким образом, для линейной дискриминантной функции у£
мы имеем
J(l:2; Λ)=_1ΐο8λι-1+-^1 (6.6)
J(l, 2; y.)=^ + J--l> (6.7)
и из (3.6) и (3.7) при 6 = 0
1(\:2) = 1(\:2; У1) + 1(1:2; у*) + ...+ 1(1:2; yk), (6-8)
J(l, 2)=J(1, 2; Λ) + 7(1, 2; jtf + ... + J(l, 2; Λ)· (б·9)
Мы определим значение λ,·, для которого величина (6.6)
максимальна (линейная дискриминантная функция с наибольшей
информацией), следующим образом. Так как функция g(K) = —^ log λ —
9*~Ь"9" Является вогнутой [см. задачу 8.31 (а) гл. 2],
неотрицательной и равной нулю при λ=1, максимум выражения (6.6) имеет место
при Xt или λΛ, если соответственно g(K)^>g(K) или g(^i)<^g(K)y
т. е. если
log^.>X,_X1 или log-£ <λ*-λι· (6-Ю)
Мы определим значение λ£, при котором величина (6.7)
максимальна (линейная дискриминантная функция с наибольшим расхождением),
следующим образом. Так как функция /(λ) = (λ / 2) -\- (1 / 2λ) — 1,
λ]]>0, является вогнутой [см. задачу 8.31 (а) гл. 2], неотрицательной,
равной нулю при λ=1 и такой, что /(λ) =/(1 /λ), максимум
выражения (6.7) имеет место при λγ или λΛ, если соответственно
λιλΛ<* или >А>1. (6.11)
Заметим, что линейные дискриминантные функции этого раздела
определяют преобразование с матрицей А (см. раздел 3).
«Наилучшая» линейная дискриминантная функция не обязательно
соответствует наибольшему λ.
В предположении, что Σ! = Ζ>σΡΖ>σ, Σ2 = DCDC (где Ρ есть
матрица коэффициентов корреляции и Dc — диагональная матрица
стандартных отклонений, ASiA'= Λ — ΑΖ>σΡΖ)σ Α' = ΒΡΒ' и ΑΣ2Α' =
= I = AJ)C DCA' = ΒΒ', В = Ad)c — ортогональная матрица),
уравнение (6.5) превращается в |Р — λΙ| = 0 и (6.4) превращается в ΡΖ>σα =
= Waa или Ρβ = λβ, где β = Ζ)σα, т. е. В' = фь β»..β*) = Ζ>σΑ =
= (Dcal9 Ζ>σα2,..., Dcak). Линейные дискриминантные функции уь
Уъ--->Ук такие, что j/ = Bx, называются главными компонентами по
Хотеллингу (1933) [ср. Андерсон (1958, стр. 272 — 279), Гиршик
ГЛАВНЫЕ КОМПОНЕНТЫ 213
61
(1936)]. Так как trΡ = λχ-[-...+ ^ = /г, то в данном случае (см.
задачу 10.7)
/(1:2)=—4*1с«1р1= — "2 log(l— pl»...ft)(l— Pa*..-*)·..
...(ΐ-ρν^=-γ1οελι-τ1ο8λ»-···-τ10βλ*· (6Л2)
rn 0ч — trP"* — * у ^»"MMnf+i)"»ft
J (It *)— 2 2 2Zj1—p? . . ~
=τ+·"+-ΪΓ> (6ЛЗ)
ГДе р/.12 · · · (i-l) (i+1) · · · fei ^ = Ь 2,. . ., &, p/.y+l. . . fg, j 1, 2,.. ., k — 1,
являются множественными коэффициентами корреляции популяции при
гипотезе Hl9 a Xf. — корнями уравнения |Р — λΙ| = 0.
Заметим, что 7(1:2) в (6.12) есть мера взаимосвязи между k
случайными величинами (см. замечание, относящееся к (3.3) гл. 8).
Для двумерных популяций, в частности, имеем:
-СО-
7(1: 2) = -1 log(1 - f), J(l, 2) = ^
ΙΡ — λΐ I == Xa — 2λ 4- 1 — ρ3 = О,
Х1=1— ρ, λ,= 1-(-ρ, p>0,
Vi==(~yY'~V¥~)'P*=[yT' γΤ)' Β== _ι
7 (1: 2; j,,) = -± log (1 - ρ) - (ρ/2),
/(1:2; j,,)= -4->og(l+P) + (p/2),
^0» 25 JO = 20^5"' J(1'2'^) = -20iF?)· (6·21)
Заметим, что при р^>0 линейной дискриминантной функцией с
наибольшей информацией и наибольшим расхождением является
функция Ух — (х1 — х^/У^у так как log [(1 + р)/(1 — р)]>2р и ХХХ2 =
= 1— р9<1 [или см. (6.20) и (6.21)].
214 многомерные нормальные популяции [гл. g
7. КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ
[Ср. Андерсон (1958, стр. 288 — 298).] В этом разделе мы хотим
рассмотреть разбиение k величин на два множества: х' = (Хр х^), х^ =
= (д:1, Хъ..чХк& K = (xki+V xki+*---yxkt+k2)· Проблема разбиения
на большее число множеств рассматривается в задаче 10.13 и
разделе 3.6 главы 12. Предположим, что популяции центрированы своими
средними значениями или что 6 = 0 и что
Σ,=
Σ„
^21
Σ«
;)· ^-(ο'ς!)·
(7.1)
где
2ц = (о//), i, j=l, 2..., kb
ΣΜ = (σ„), r, s — kt-\-l,..., kx + kb^k,
4 212 = (ois), Σϋΐ=Σΐ3,
т. е., иными словами, два множества независимы при гипотезе /ί2.
Можно показать (Iftl — единичная матрица порядка kx и т. д.), что
kl
0\/Σ„ ΣΜ\/Ι#1 -Σ7ί Σ:
μτ^ϊκο- «
/Σ„
-Σ21Σ7/ lJUu SJVO
-Σ21Σ-ιΣ12. Поэтов
Ι», -Σ-'Σ,ή/ΣΓί 0WI*. QN|
iJlo Σ1-2.1Λ-ΣΜΣ7ί IJ
где Σ22.1 = Σ22 — Σ21 Σ,,1 Σ12. Поэтому
/^ιί -f- Σ,/ Σ]2 Σ221.! Σ2) Σ;/ — Σ~{ Σ12 Σ^.Λ
\ — 2ggM Σ21 Σ"1 Σϊϊ1.,/
Заметим, что матрица
I —Σ^Σπ1 Ik* J
в (7.2) является матрицей
невырожденного линейного преобразования и (7.2) означает, что при
гипотезе Их величины хг и х2 — Σ21 2fi Χι независимы и имеют
ковариационную матрицу, равную правой части (7.2) (см. раздел 3).
Таким образом, мы имеем (см. задачи 10.6 и 10.11)
/(l:2) = -±-log
О Σ2
Σ1Α S12
+
-!4fc(I;:I;:)[(¥^)-(I;;I;i-']=,
11 ^12
2a* 2SS
|ϊ«.ι|·
(7.4)
КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ 215
меру связи между множествами χ'ι и х\2, т. е. среднюю информацию
в χ'ι относительно х'2 или же в х'2 относительно х\ (см. пример
4.3 гл. 1), и
J(l, 2) = -2"tr [(s« s«y — (o"sJJ[( Α1 Σϊί) ~ Ua Συ) J =
= tr Σ21 Χ"1 ΣΜ Σ^ = tr Σ22 Σ",1., - /e2, (7.5)
где (·) обозначает матрицы, величины которых нам не понадобились.
Чтобы подчеркнуть факт разбиения величин, запишем линейную
дискриминантную функцию _у = а'х в форме
у = $γΧχ -f- $klxki -f- ixxkt+i + ·.. + Tfti^Ai+fc* = β'χι + Υ'χ* (7·6)
где β и γ являются соответственно одностолбцовыми матрицами из
величин рь ..., pftl и ^ь ..., γ*2> причем α' = (β',γ'), x' = (x'i,x'a)·
Теперь (6,4) и (6.5) принимают вид
(I;±)(?Hfe°„)ffi («)
И
(I~s?2"n_2«sJ=0· (7·8)
(7.9)
2si (1—λ) 228
Так как (7.7) эквивалентно
Σιιβ+Σ«Υ = λΣ11β>
Σ91β4-Σηγ = λΣ«γ9
или
0^-у^у Σ21 Σ"1 ΣΜγ + (1 -λ)Σ28γ, (7.10)
(7.8) эквивалентно уравнению
|Σ^Σι2-Ρ2Σ22Ι=0, (7.11)
где р2 = (1—λ)2. Корни уравнения (7.8) [см. (6.5)] действительны и
положительны. Если k^^kx и детерминант в уравнении (7.11) имеет
п°рядок /е2, то
Xf. = 1 — р£, λΛι+ί = 1 -f- р/гн-1-й / = 1, 2, . · ·, kb
λΛ8+ι =.. . = ^ft2 +(ft1-fts)= 1, (7·12)
Где pi .^ рз ^.. e ^ p^2. Заметим, что — 1 <; pf ^ 1, так как λ£ неотри-
ательны. Хотеллинг (1936) назвал величины рг каноническими кор-
216 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [Гл. 9
реляциями. Для соответствующих линейных дискриминантных
функций [см. (6.6) и (6.7)] мы теперь имеем:
/О
/О
/О
2;л)=—2-108θ-Ρί)-τ-.
2;ykl+i)= _llog(l + Pfts+w) + -£№i,
1— ρ,- , 1 1 ef
1 Ιο2
J(l>2;^1+0 = T(1 + P*a+W)+ 2(1+Рйа+1_г) =2(1+;^·)'
J(l>2;j/)=4" + 4"~1==0, *=1.2,..,Λ» ; = Λ,+ 1,..,Λβ +
+ (*ι —*Λ (7.14)
откуда видно, что
/ (1:2-,Λ) + / 0 :2;^+ι-«) = — \ log (1 — р& г = 1,2,..„ А»
J(l,2;^) + J(l,2;j;i+I_i) = T-^-r (7.15)
и
7(1:2) = llog l^i^jL = -log(l-p?)(l-р^)...(1-pU
JSgj Σ22]
^l,2) = trS22S-J-/e2 = T^+T^ +
Так как log[(l+Pl)/(l — Pl)]>2Pl и λ^ = (1 — Ρι)(1 + Ρι) =
= 1—pf <^ 1, то линейная дискриминантная функция с наибольшей
информацией и наибольшим расхождением (7.6) соответствует корню \χ
или наибольшей канонической корреляции.
Заметим, что для двумерных популяций (/г = 2, /г1 = /г2=1) (7.11)
превращается в (σ21 σ12/ση— Р2 σ22) = 0 (каноническая корреляция
здесь — простая корреляция между случайными величинами) и [см. (6.15)]
7(l:2)=-^log(l-P2),
Для /г-мерных популяций с kx = k—1, /г2=1, формула (7.11) дает
каноническую корреляцию Р2 = Σ21 Σ~* Ъ^окк. Но в данном случае
^i = (<bi><***.-*°ft*-i) или P2=l — gJ^u| iCM* (7Л)1 и поэтому
g] КОВАРИАЦИОННЫЕ ВЕЛИЧИНЫ 217
каноническая корреляция является множественной корреляцией
между хк и другими величинами [ср. Крамер (1946 а, стр. 109, 308)] и
/(1: 2) = -^log(l-р1и2...(*_!)),
7(1,2) = -. р^;-»-Ц . (7.18)
Вместо одиночной линейной дискриминантной функции мы можем
рассмотреть пару линейных дискриминантных функций
и = $ххх +... + fatXki = β'Χι,
ό = Ъхкг +ι +... + 1k2XkL+k2 = Υx* (7.19)
Мы имеем
D;(в) = р'Σ„ρ, D,(ν)=γΣΜγ, /= 1,2,
COV! (И, V) = β' Σ13 γ, COV2 (И, V) = 0,
7(1 :SU»)=4log |/2ypSgY(=- |log(l -pU
|γ'Σ3ιβ ν'Σ88γ|
7 (1'2; °· ^ = (β' 2η β) (γ* 2„'γ) - (β' Σ„ γ)* = Τ=3£"' (7·20)
Значения β и γ, которые максимизируют /(1:2; и, τ;) [или J(l,2;
ιι,ν)] в (7.20), удовлетворяют равенствам (7.9), где (1 —λ)9 = ρϊ„.
Канонические корреляции, таким образом, являются корреляциями пары
линейных дискриминантных функций (7.19). Из (7.15) мы имеем
I(\:2;ui9vi) = I(l:2;yi) + I(l:2;y4A-i), 1= 1, 2,. ..,/е2,
J(l, 2;«,-,«!) = J(lf 2;^·) +J(l, 2;^+1_£). (7.21)
Таким образом, различающая информация и расхождение для пар
линейных дискриминантных функций определяют упорядочение
соответственно значениям канонических корреляций.
а ковариационные величины
Две /е-мерные нормальные популяции с одинаковыми
ковариационными матрицами могут различаться только средними значениями
последних &2 величин. Первые /е — k^ = kx величин называются тогда
ковариационными величинами, и мы сейчас найдем различающую
информацию, получаемую при использовании ковариационных величин
и сравним ее с различающей информацией, получаемой при
использовании только последних k% величин [ср. Кохрэн и Блисс (1948)].
218 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9
Пусть имеется разбиение х' = (х'ь х'2), μ\ — μΓβ = 6Γ = (6,1,β'5) с
Из (5.1) и (7.3) мы тогда имеем
2/(1:2;χ·)=Α1,2;χ·) = ^2Γ·ββΤ = ΐΓ@»|»)-,(^)(0βΤ1) =
=tr 2£, 6,6'3 = 6'2 Σ-i, ft* (8.1)
С другой стороны, трлько для последних k% величин
2/(1:2;хУ = 7(1э2;хУ = 1гЕм1Л4вГа = вГа282вй. (8.2)
Так как 7(1:2; x'i)>/(l :2;х'2) (см. разделы 3 и 4 гл. 2), вклад
ковариационных величин равен
Λ^ί-Λ-Λ'^δ, (8.3)
и коэффициент увеличения есть
Og Д22 Og
где λ лежит между наименьшим и наибольшим корнем
характеристического уравнения
|S#i ~ λ Σ22Ί = 0 = |Σ» — λ Ϊ22.ι|, (8.5)
|ΣΜΣΓίΣΜ-ρ*ϊ5Β| = 0> (8.6)
где ρ2 = (λ—1)/λ. Корни уравнения (8.6) являются каноническими
корреляциями [см. (7.11)]; следовательно, наибольшее значение λ в
(8.4) не может превышать 1/(1 — р^), где pj есть наибольшая
каноническая корреляция.
Теперь мы исследуем линейные дискриминантаые функции с
учетом и без учета ковариационных величин. Так как ковариационные
матрицы популяций равны, существует единственная достаточная
линейная дискриминантная функция (см. раздел 5). Для всех k величин
при разбиении коэффициентов линейной дискриминантной функции
[см. (7.6)] α = Σ~1δ превращается [см. (7.3)] в
Если ковариационные величины не учитываются, то коэффициенты
линейной дискриминантной функции равны
β=0, γ = ΣΜ'Αί. (8.8)
Для двумерных популяций /г = 2, А1=:Л2=1 каноническая
корреляция становится простой корреляцией между величинами, Σ22.ι =
= σ| (1 — ρ2), и (8.4) превращается в равенство λ =1/(1—ρ2). Для
9]
ОБЩИЙ СЛУЧАИ
219
^-мерных популяций при А8=1, ^ι = Λ — 1 существует только одна
каноническая корреляция (множественная корреляция xk с Χχ,χ*...,
Xk-\)> 222.i —4(1 — P2fe^i2...(fe-i)), и (8.4) превращается в равенство
Х= 1/(1 — pVi2...(fe-i))· (См. задачу 10.9.)
9. ОБЩИЙ СЛУЧАЙ
[Ср. Гринхауз (1954).] Без ограничительных предположений о
средних значениях и ковариационных матрицах /е-мерных нормальных
популяций при гипотезах Нх и 7/2 параметры нормальных
распределений линейной дискриминантной функции у = агх равны
Ех (у) = а>ь £2 (у) = α'μ2ι
Д(у) = аг11сц ΑΟ) = α'Σ3α. (9.1)
г/1.о «л ! л~~ «'22а 1 ι 1 а'Si а , 1 αδδ'α /Q оч
/(1.2^) = -2-log-572^-T + T^2^r + -2--itr2^. (9-2)
7(2^ = ^11*^^^-^ (9.3)
/П ο.ιΛ_ * <*'Σ2α . Ι «'Σ,α ,
•/U,^-V;— 2а^а ~Т"~2~а'2аа 1 "»
+τ(^+^γ)«'66'«· (9·4>
Для данной функции_у справедливо равенство ^/(1,2;_у) = 7(1:2;_у)-|-
-f- / (2:1;_у). Однако утверждение, что та же самая функция у будет
доставлять максимум 7(1:2;у), 7(2:1;_у), J(l,2;_у), неверно,
Значение а, при котором величина 7(1:2;_у) в (9.2) максимальна,
удовлетворяет (это доказывается обычными методами
дифференциального исчисления) равенству
2i α — λ Σ2 α = γδ, (9.5)
где
} α'Σ^ / (α'δ)2 \ = (α'δ) (α' Σί α)
α'Σ2α \ α' Σ3« — α'Σ!α/5 * α'Σ2α — α' Σ! α *
Так как γ является коэффициентом пропорциональности, мы можем
положить γ= 1, и тогда α удовлетворяет равенству
Si α — λ Σ2 α = δ, (9.6)
где λ, заданное (Ьормулой (9.5), не должно быть корнем уравнения
\ΣΧ — λΣ*| = 0. '
Значение α, при котором величина 7(2:1;_у) в (9.3) максимальна,
удовлетворяет уравнению такого же вида, как (9.5), но с
X — α' Σ1 а (α' Σ1 а — α' Σ2 а) __ (af Σ1 α) (α'δ)
α'Σοα^'Σ,α — α'Σ2α — (α'δ)2) ' 1 ~~ α'Σ3α — -α' Σ^ + ία'δ)2 *
(9.7)
220 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГПш 9
Снова полагаем множитель пропорциональности γ=1; тогда α
должно удовлетворять уравнению вида (9.6), где λ, заданное в (9.7),
не должно быть корнем |ΣΧ — λ S2| = 0.
Значение α, при котором величина J(l,2;j/) в (9.4) максимальна,
удовлетворяет (это находится методами обычного дифференциального
исчисления) уравнению того же вида; что (9.5), но с
? α' Σ1 α ((α' Σ2 а)2 — (α' %L а)2 — (а'6)2 (аг Σ J а))
~" α' Σ2 α ((α' Σ2 а)2 — (а' 2t а)2 + (α'δ)2 (α' Σ2 а)) '
(а'6) (α' Σί α) (α' Σχ α,-{-α' Σ8 а)
γ "" (α' Σ2u)s — (α' Σχ α)2 + (α'δ)2 (α' Σ2 а) *
(9.8)
Вновь полагаем множитель пропорциональности γ = 1; тогда α
должно удовлетворять уравнению вида (9.6), где λ, заданное в (9.8), не
должно быть корнем уравнения |2ι — λ Σ2| = 0.
Заметим, что здесь мы нашли три типа линейных дискриминант-
ных функций. Так как λ зависит от а, то для нахождения α должна
быть применена итерационная процедура. Мы займемся этим в главе 13.
10· ЗАДАЧИ
10.1. Покажите, что χ'Σ~*χ = tr Σ~*χχ\
ή Ι ^α* 1 Η
10.2. Если -=- = ; , покажите, что -=-«' Σ α = 2 Σ α, где Σ — симмет-
\дщ/
ричная kxk матрица и α' — (alfag ,...,αΛ). [Ср. Андерсон (1958, стр. 347).]
10.3. Если dA обозначает матрицу, каждый элемент которой есть
дифференциал соответствующего элемента матрицы А, покажите, что:
(а) d ιγΣ^ιγ^Σ,
(б) d Σ"^ —Σ^ΣΣ"1,
(β)^^|Σ|=ιγΣ~4Σ.
[Ср. Двайер и Макфейл (1948).]
Ό.4. По
10.4. Покажите, что (см. раздел 5)
|ΧΣ-δόΊ.
|l—f *'2-1б]|Х2| =
II 6Ί
k k
10.5. Покажите, что tr АВ = tr В А = ^] 2 аФг А = (*υ>» В = (М»
<V=l,2,...,fc.
10.6. Покажите, что (см. раздел 7)
^11 **Щ
Σοι Σ
— |2ц| |Σ22 — Σ31 Σ Α{ Σ12|.
ΙΟ]
ЗАДАЧИ
221
Ю.7. (а) Покажите, что Ρι.23.. м = 1 — 1/р11, где Ρ — матрица
коэффициентов корреляции, Р™"1 = (р^) и рА.м.. .k есть множественный коэффициент
корреляции Χι С ЛГ2, Xw-vXk·
(б) Покажите, что |Р| = (1 — Pi-ss- - -Л) (1 — Ps-s- · .*)■·.(1 — р!-гл),где
η;;ι~ι .м есть множественный коэффициент корреляции л:,· с лу-и, лу-fa,...,
W'^JJ! \ 9 k 1
10.8. Покажите, что необходимым и достаточным условием
независимости k случайных величин из многомерной нормальной популяции
является то, что k множественных коэффициентов корреляции каждого значения
χ с другими χ все равны нулю или что р11 =:p22 = ... = pfeA! = l.
10.9. Предположим, что в разделе 8 [ср. Кохрэн и Блисс (1948, стр. 157)]
/2351:1259 1340\
Σ = [^ Σ* J = I 1259 3223 1200 ] >
U340 1200 3137/
6' = (0,Ь'2) = (0, —39507, 6, —27861, 9).
Проверьте, что
(а) pj.gs = 0,33;
(б) ΐΓΣ^δδ'^ 729,556;
(в) trSl|626'2 = 503,845;
(г) каноническая корреляция равна р| = 0,33;
(д) коэффициент увеличения не превышает 1/(1—pf).
10.10. Пусть величины xifxiv. .,хп распределены с многомерной
нормальной плотностью , , 12ехр(— -^-χ'Σ^χ], где х, = (лг1,л:2,...,л:п). Если
у = Ах,у' = (у„>у2,...^т)» A=(flfj}, г=1,2,...т, у = 1,2,...,п, т<п, А имеет
ранг т, покажите, что у распределены нормально ΛΓ(0,ΑΣ А'), т. е. с
нулевыми средними и ковариационной матрицей ΑΣΑ' ранга m<n.
10.11. Пусть у = Ах, ζ —Вх, где х,у,А определены в задаче 10.10, и
z'z=(zt1zSi...,zn—m), Bz=(bij)f г = 1,2,...,η—mt y=l,2,...,n, В имеет ранг η—т.
Покажите, что множества величин у и ζ независимы, если ΑΣΒ' = 0 =
= ΒΣΑ\
10.12. Покажите, что необходимым и достаточным условием
независимости k случайных величин из многомерной нормальной популяции
является то, что р?.28.. м = ρ 2.3.. м =... = pl-ι,Λ = 0, где p/./-fi-. -* есть
множественный коэффициент корреляции Xj с лу-fι,.. .,.*/,.
10.13» Разобьем k величин на m^k множеств, x' = (xr1,xfs,.--»x'm)» х'г =
= (xki+ks-l··. · ·4Λ - ι +11· · ·ι xki+ks-\-.. ,-[-лг ). Предположим, что многомерные
нормальные популяции, соответствующие гипотезам Их и Н3 (см. раздел 7),
центрированы своими средними значениями или что 6 = 0 и
где Σ/ι^ίσ^, αιρ = Λ1 + *, + -*ί-ι + 1,-.*ι + Λ· + - + *ί, и Гμ =
= Σι7= (ars)9 r = fet + *я + — + *i-i + 1ι — · *t + *ι + — + *π S = *! + *a +
+ ... + *i-i + l. —. *i + *a + — + *fr *i + *i+ — + *m = fe
222
Покажите, что
МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ
1ГЛ. 9
/(1:2) =-5-log
ι t ΙΣιιΙΙς,,Ι-Ις^ι
2ц 212
^21 222
2/wl 2/П2 ·
10.14. Покажите, что (см. задачу 10.6)
2ц 212 ... 2jm
2гт
mm
|2ц 11 222>! 11 233.1211 244.m I ··· I 2
mm-i2***m
ll.
—1
где S/y-.j = Sjy —Σ/j Su Sjy, 2jy-.JS — 2/у.х — 2/s.t 222.ι Σ2/.ι, 2/y.123 —2/y.12 —
" 2/3-12 233.12 23y.lg, ΣΛ
-ι— 2Й
-2—Σ
ттччз«· · m-2 ^m ~im-i-i2 ·
* · · m-s ^m~im-i2 · · ■ m-2-
10.15. Допустим, что k величин из многомерной нормальной популяции
разбиты на m<ft множеств, как в задаче 10.13. Покажите, что необходимое и
достаточное условие для взаимной независимости множеств состоит в том,
что |Σ22|=:|222·ι|, | 2331 = |233-121> |244| = !24.i.i23lf···, |2mm | = |Smm.ia... m—ι |,
где все матрицы определены в предыдущих задачах 10.13 и 10.14.
10.16. Покажите, что [ср. (7.4) и задачу 10.]7]
2ц Σ12 ... ^ir-i
22ι 222 ··· 22/-_ι
2r_u 2r_12 Σ,—! r-t
2a 212 ... Slr|
2S1 222 ··· 22r I
12rl 2,.2 ... 2rr |
|2„i
\*rr
|2rr.12...
1
,-,Ι*
где матрицы определены в предыдущих задачах 10.13 и 10.14.
10.17. Разобьем k величин на ffi^ft множеств, как в задаче 10.13.
Предположим, что многомерные нормальные популяции, соответствующие Нх и Н2,
центрированы своими средними или что 6 — 0 и
№и 212 ... 2177д /2ц Σ13
Σ2ί Σ22 ... 22от \ ν _ / Σ2ΐ 222
2А =
2Й =
\ν ν ν / \Sm„u S,rt_12.
^0 0
где матрицы определены в задаче 10.13. Покажите, что
■Σι«-ι 0\
22m-i 0\
м
0 Σ
/(1:2) =
1 .
γ log.
.1
' I 2mm.12 •••m-i I
и что при km~ 1 величина /(1:2) задается формулой (7.18).
10.18. Предположим, что k величин из многомерной нормальной
популяции разбиты на m^k множеств, как в задаче 10.13. Покажите, что
необходимое и достаточное условие того, что т-е множество не зависит от
предшествующих т — 1 множеств, состоит в том, чтобы ( Лтт \ = | 2mm.ls... m_L I,
где матрицы определены в задачах 10.13 и 10.14.
ιοί
ЗАДАЧИ 223
10.19. Покажите, что величины /(1 :2) в (7.4), в задаче 10.13 и в задаче
10.17 не изменятся, если ковариационные матрицы заменить на
соответствующие корреляционные матрицы. Покажите, что равенства в задачах 10.14,
10.15, 10.16 и 10.18 также не нарушатся, если ковариационные матрицы
заменить на соответствующие корреляционные матрицы.
10.20. Разобьем k величин на m^k множеств, как в задаче 10.13.
Предположим, что многомерные нормальные популяции, соответствующие Ни /72,
центрированы своими средними значениями или что δ — 0 и
• m-s ^т χ га-js ··· т
т-2 ^mm-iz ··* т 2
Σ2 = [ ^m-i m-i-is-"«i я 0
где матрицы определены в задаче 10.14. Покажите, что
/(1.2) = — log .-= р= -ψ log hp г
* \ *тт-12 ··' т-1 ι ζ I гтт-\ъ ··· m-i I
и что при fcm = fcm,t = lf /(1:2)=:— γ log (1 — psmm-j.j2 — m-2), ™e
Pfflffl-Hg-m-2 есть частный коэффициент корреляции.
10.21. Покажите, что характеристическая функция распределения
3> = Χ'Σ~1χ, где χ — fc-мерная нормальная 7V(0, 2) случайная величина, есть
Ε (ехр ίϊχ'χΣ-1χ) = (1 —2it)~~ ft/2,T. е. характеристическая функциях2-распре-
деления с k степенями свободы.
10.22. Покажите, что если χ в задаче 10.21 принадлежит ^-мерному
нормальному распределению Ν(μ, Σ), то Ε (ехр itx' Σ~* χ) = ехр [it μ' Σ-1 μ/(1 —
— 2it)] (1—2ity~k{2—характеристическая функция нецентрального х2-распре-
деления с k степенями свободы и параметром нецентральности μ'Σ-1 μ. (См.
раздел 6.1 гл. 12.)
ГЛАВА 10
ЛИНЕЙНАЯ ГИПОТЕЗА
1. ВВЕДЕНИЕ
В этой главе мы вернемся к общей линии рассуждений в главах
6, 7 и 8 с тем, чтобы исследовать выборки из нормальных популяций
в целях проверки общей линейной гипотезы [Колоджейчик (1935)].
Результаты исследований этой главы могут быть получены как
частные случаи результатов для многомерной линейной гипотезы в главе 11.
Тем не менее рассмотрение и изучение линейной гипотезы вначале
кажется нам имеющим смысл как ради самой проблемы, так и для
удобства изложения материала. Рассмотрение не претендует на иол-
ноту и может иметь большую применимость, чем в предлагаемых
специфических случаях.
2. ПРЕДПОСЫЛКИ *)
Допустим, что две простые статистические гипотезы, скажем Η
и //2, задают соответственно л-мерные нормальные популяции Ν(μί7 Σ)
i = ι, 2, где μί = (μΙ-ι> μ^ ..·> \*>in)> i=l* 2, являются однострочными
матрицами (векторами) средних значений и Σ = (ог8)у г, 5 = 1,2,. „*, п, —
общая матрица дисперсий и ковариаций, так что [см. (1.4) и (1.5)
гл. 9]
2/(l:2) = J(l, 2) = (μ1-μ2)'Σ1(μ1-μ2). (2.1)
Если величины независимы, ars = 0, г φ s, Σ-1 = (ars), где <fs = 0, г φ s,
<fr=lfarn r=l, 2,..., η, и (2.1) превращается, если записать
агг=а% в
2J(1%2\ = J(1 2) ^ 1 ^ 1 1 ^*1Я— ^2/χ)2
(2.2)
*) Разделы 2 — 8 большей частью взяты из статьи Кульбака и Розен-
блатта, которая была помещена в издании Bioraetrika, т. 44 (1957), стр. 67 — 83.
4j СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 225
Если величины, кроме того, что независимы, еще и одинаково
распределены, т. е. ц.|/==р*, ί=1, % /=1,2,..., η, и σ* = σ2, r=l, 2, ..., л;
тогда (ср. пример 4.2 гл. 3)
j(l, 2)=η(μι~^μ")2 =2/(1:2). (2.3)
3. ЛИНЕЙНАЯ ГИПОТЕЗА
Рассмотрим теперь выражение
Ζ==:γ_Χβ, (3.1)
где z' = (zh гъ ..., zn), У = (у1, j/2, ..., j/„), βΓ = (βι> β* .., βρ),
Х = (*.Д /=1, 2, ..., л, г=1, 2, ..., ρ; р<л, причем:
(а) все Ζι независимые, нормально распределенные случайные
величины с нулевыми средними и общей дисперсией σ2;
(б) величины xir предполагаются известными;
(в) матрица X имеет ранг р;
(г) β = β* и β —β2 являются одностолбцовыми параметрическими
матрицами (векторами), определяемыми соответственно гипотезами
Ηχ и Нъ и
(д) Е1(у) = Хр и ^(γ) = Χβ2.
Находим, что (2.1) в этом случае запишется
J( 1, 2) = (Χβ1 — Χβ2)' (σ2!)"1 (Χβ1 — Χβ2) =
= (β1 - β*)' УХ (β1 - β2) / °* = (β1 - β2Χ S (β1 — β2) | σ2, (3.2)
где S = Χ'Χ есть ρ χ ρ матрица ранга ρ и I — л X л единичная матрица.
Заметим, что выражение J(l, 2) [2/(1:2)] в (3.2) эквивалентно
расхождению между двумя многомерными нормальными популяциями
со средними значениями соответственно β1, β2 и общей ковариационной
матрицей o2S-1.
При подходящем определении матриц X и β мы получаем
разумные модели для многих интересных статистических проблем. [Ср.
Колоджейчик (1935), Зелен (1957, стр. 312), Рао (1952, стр. 119),
Токер (1952), Уилкс (1938 6; 1943, стр. 176 — 199).]
4. СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ
Вначале мы установим некоторые факты относительно оценок
параметров β2 и σ2 раздела 3. Минимизация z'z = (y — Χβ/(γ —Χβ)
по классическому методу наименьших квадратов приводит к
нормальным уравнениям
S|i = X'y. ^ (4.1)
В разделе 9 будет показано, что решения уравнения (4.1) β,- являются
несмещенными, достаточными, обладающими минимальной дисперсией
226
линейная гипотеза
[ГЛ. Ю
оценками для β^. [Ср. Дурбин и Кендалл (1951), Кемпторн (1952),
Колоджейчик (1935), Плэкетт (1949), Рао (1952).]
В теории регрессии известен результат, что компоненты β
(линейные функции величин ζ{) распределены нормально с ковариационной
матрицей o2S_1. Несмещенная оценка для σ2 с (п—р) степенями
^свободы выводится из равенства: (п—p)38 = z'z = (y— Хр/(у — Х$) =
^У'у —β'δβ. [Ср. Кемпторн (1952, стр. 54 — 59), Рао (1952,
стр. 58 — 62).] (См. задачи 4.1 — 4.6 в конце этого раздела.)
В соответствии с изложенным в главе 5 и как было
продемонстрировано исследованиями в главах 6, 7 и 8 статистика минимума
различающей информации может быть получена заменой параметров
популяции в /(1:2) наилучшими несмещенными оценками при
рассматриваемых гипотезах. (См. в примерах 4.1 и 4.2 гл. 5 анализ
сопряженного распределения для одномерных нормальных популяций.
Обобщение этих примеров для случая многомерных нормальных
популяций дано в разделах 2 и 3.1 гл. 12).
Замечание в конце раздела 3 и поведение оценок, полученных но
методу наименьших квадратов, показывают, что анализ существенно
зависит от степени влияния гипотез на распределения оценок β.
Допустим, что гипотеза Нх не налагает ограничения на β и
нулевая гипотеза //2 задает β = β2. Обозначая через β1 решение
уравнения (4.1) при гипотезе Нь мы имеем (ср. пример 4.2 гл. 5, раздел
3.1 гл. 12)
2/(Ή: Ηύ = J(Hb Ηύ = (β1 - β2)' S (β* - β2)/σ2. (4.2)
В частности, для простой нулевой гипотезы //2:β2 = 0, (4.2)
превращается в (в дальнейших рассуждениях мы будем иметь дело
только с J)
J(Hh Ηύ = &'Φ/&. (4.3)
Заметим, что при нулевой гипотезе //3:β2 = 0, J(Hh //2) в (4.3)
является квадратичной формой в экспоненте многомерного
нормального распределения величин [3£ с ковариационной матрицей, которая
заменена несмещенной оценкой с (п — р) степенями свободы.
Поэтому 3(НЪ //2) есть обобщенное стьюдентово отношение (Г2-статистика
Хотеллинга) и
ННъ H*)=pF, (4.4)
где величина F имеет F-распределение с л1=р т п% = п—ρ степенями
свободы. [Ср. Андерсон (1958, стр. 101 — 107), Вийсман (1957),
Кендалл (1946, стр. 335 — 337), Рао (1952, стр. 73), Симаик (1941),
Сюй (1938), Уилкс (1943, стр. 238), Хотеллинг (1951, стр. 25).]
Этот подход, в противоположность такому классическому методу
решения как отношение независимых х2-величин, деленных на число
своих степеней свободы, особенно важен для обобщений в главе 11.
[См. раздел 4 гл. 11, в особенности (4.5).] У нас нет необходимости
5]
ПОДГИПОТЕЗЫ
227
обращаться к общей асимптотической теории распределений, которая
согласуется с вышеизложенными выводами.^ Мых подведем итоги
в табл. 4.1 дисперсионного анализа, где β^ββ1 = jJlfX'y = y'XS_1X'y
[ср. Кемиторн (1952, стр. 42), Рао (1952, стр. 105)].
Таблица 4.1
Источник изменчивости
Линейная регрессия
Разность
Итог
Сумма квадратов
yV-r'sr-ya-xs-^y^
= {n-p)J
У'У
с. с.
Ρ
η—ρ
η
При нулевой гипотезе Η%: β = β2 Φ 0 соотношение (4.4) с J(Hh Щу
заданным формулой (4.2) по-прежнему справедливо.
Задача 4.1. Покажите что β = 8~1Χ'ζ + βι и поэтому Ei($)=$1t
£2(0) = β2.
Задача 4.2. Покажите, что Ех (β1—β1) (β1—βι)' = σ2δ-1.
Задача 4.3. Покажите, что (1 — XS~*Xf) (XS^X') = 0. Что это означает
для квадратичных форм yXS-iX'y и у' (I —- XS-1X') у?
Задача 4.4, Покажите, что 7(1, 2; β) = 7(1, 2), где последнее задано
формулой (3.2). Почему отсюда следует, что оценка β является достаточной?
Задача 4.5. Используя лемму 5.3 главы 3, покажите, что y'y ^ yXS-1X' у.
Задача 4.6. Покажите, что(п —ρ) σ2=:
y'y у'*
Х'у XX
!ХХ|
5. ПОДГИПОТЕЗЫ
5.1. Подгипотеза с разбиением на две части
[См. Гранди (1951), Кемиторн (1952).] Допустим, что мы разбили
параметры на два множества и теперь вместо (3.1) рассмотрим
где
Х = (ХЬ Х,) =
у-(Хь Х2)
ХЦУ . . ., Х\д
ХП\> . . ., ХПд
Ни
ΦΛ
(5.1)
Хп q+Ь
пР
228 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10
с Xi и Х2> имеющими соответственно ранги q и ρ — q, и β{=:
= φι> β* ..·> βρλ Ρί = (β^. ·-·> βρ). Случайные величины ^
по-прежнему предполагаются независимыми, нормально распределенными с
нулевыми средними и общей дисперсией а\ и при гипотезах Нг и Н%
Мы также запишем
Д(У) = Х1И+ЭД.
^(y)=XiP;+x«P5.
»2ΐ Saa/ W VV
или
supi+s1S!p|=x;y,
:.-*■-*-*-. tog; JjJ).
(5.2)
где
Su = X1X1, Si2 = X1X2 = S21, S^ = X2, X2.
Тогда (3.2) превращается в
Нормальные уравнения (4.1) при гипотезе Нх выглядят как
iSl
(5.5)
(5.6)
О
Если положить
^•2а-1== ^22 — SaiS^S^, X2-i = Х2 э^ЬцХр
Sjli-2 = Sn — Si42S22S421, Xj.s = Χι Si2S22X2,
уравнения (5.6) дают
k = SiliXiiY> (5·7)
Полезно отметить [см., например, Фрезер, Дункан и Коллар (1938,
§ 4.9), а также раздел 7 гл. 9], что
где д"Х.(р — у) матрица
ПОДГИПОТЕЗЫ
229
с^(нъ щ=(- руад/, йг)
Так что в применениях элементы матрицы Sf/^ или S^.x можно
вычислить, как только становится известной матрица S"1.
Предположим теперь, что мы хотим, в частности, проверить нулевую гипо-
тезу //а"Р = Ра = [ ,!)» τ· е· PI = 0, без ограничений на β2 против
альтернативной гипотезы //Γ-β = β1 = (01], без ограничений на пара-
метры. Снова вычислим J(l, 2), заменив параметры наилучшими
несмещенными оценками, соответствующими рассматриваемым гипотезам.
При гипотезе Нх мы имеем для β}, β£, σ2 выражения (5.8), (5.7), (5,6).
При Н% нормальные уравнения (4.1) дают
fe = S2fXiy. (5.9)
Из (5,4), (5.8) и (5.9) имеем
ls21sj\ ft J
Можно проверить, что
т. е.
p^'si»=ij;s..ips+fe'sttte
или
З2/(Я1( Щ = β' 'SJJ1 - fe'Sufe. (5.13)
Суммируем предыдущее в табл. 5.1 дисперсионного анализа.
J(HU //a) = (pJ'SM.1^i)/Sa = (p — q)F, где F подчиняется F-распреде-
лению с Πί=ρ— # и Щ = п — Ρ степенями свободы при нулевой
гипотезе Я2: pj = 0.
Таблица 5.1
=№8и.1&- (5.10)
(5.11)
(5.12)
Источник
изменчивости
^:β2' = (β|',0')
Разность
Разность
Итог
Сумма квадратов
irsitif=yxisrix;y
prs22.Si=yXwSs-iXi-iy=°2J№. #■)
P"S^ = yXS-'X'y
У'У - fr'Sfc = у (I - XS^X') у = (я -ρ) ί2
У'У
с. с.
p — q
Ρ
η—ρ
η
230
ЛИНЕЙНАЯ ГИПОТЕЗА
1ГЛ. 10
Мы можем центрировать величины у относительно констант (их
средних значений), полагая
'1 : хп ... Х\Л
Х=(ХЬ Хд-- " '
(5.14)
Можно проверить, что
\э21 э22/
ХПЪ . . . ХПр'
(П ' П%ъ ... ПХру
ПХъ
(5.15)
ι/ζχ„
(п%ъ\
S да·! S22 I \ )"— (П%Ъ - . · П%р) S22
IHX%X% . .. tlX^Xp \
\flXpX%
tlXpXpf
(5.16)
= (Σ(λγ«/ — */)(■*» — ■**))» j, k = % ..vp,
'"' _ Λ \ !
X2#1 — X2 — XiSji S12 — X2 — I ; I — (nx$ ... nXp) —
/J?2 ... xp\ /=1, 2, ..., /2,
= X2 — l· | = (xiy· — xy),
U2 ... V / = 2' ··* A
xiy=ny,
Табл. 5.1 теперь превращается в табл. 5.2.
Таблица 5.2
(5.17)
(5.18)
(5.19)
Источник изменчивости
tfS:p2'=(P?\ 0')
Разность (линейная регрессия)
Разность
Итог
Сумма квадратов
y'X^s^x^y ==£*/(//,, я2)
y'XS^X'y
у'у—y'XS^X'y = (η —ρ) S2
УУ
с. с.
1
Ρ
η—ρ
η
Задача 5.1. Покажите, что Χ^-Λ-ι ==**2s"i·
Задача 5.2. Покажите, что β2 = 8221·ιΧ2.ιζ + β2·
Задача 5.3. Покажите, что Е^ ($ — βί) (β?— pl)r = QsSn.x.
Задача 5А Покажите, что Χ^Χι^Ο.
5] ПОДГИПОТЕЗЫ 231
Задача 5.5. Покажите, что X2.iX2 = S22·!·
Задача 5.6. Покажите, что Et (βί —- рД) (^i —βί)' == o^Sii-e-
Задача 5.7. Покажите, что βί = Si?Xiz -j- βϊ·
Задача 5.8. Покажите, что Es ф\— β?) (fr—βϊ)'= σ*8ϊι·
Задача 5.9. Покажите, что S^.g = Si? ~f" ^й S12S22.1S21S11 ·
Задача 5.10. Покажите, что Xa-iS^-iXVi (*—XS_1X')=0.
5.2. Подгипотеза с разбиением на три части
Если подгипотеза требует разбиения матриц β и X в три подматрицы
β'Α=(Κ, β* Ю и Χ=(Χι, X» ХЛ
мы получаем из S|i = X'y решения
β2 = S^a-i (Х2-1У — 523.1β3),
Pt = Si? (XJy - S^ - SakX (5.20)
где
/Su S12 S13^
S=l S21 S.22 S23 J, S/tt = X/Xa, f, h= 1, 2, 3,
\S31 S32 S33/
и
^33·12 ==: ^33-1 S^.jS^.jS^»!,
^зз«1= S33 — S3jSjj S13, S32.J = S32 — SsjSj! Sj2 = S23.j,
S22.J = S2a — S21S1j1Sj2, Х2.1У = (Xa — S2iSjj Xj) y,
ХзчаУ = (Хз-i — Sga^S^iiXa^) у, X3.jy = (X3 — S^S^X^ y,
а также [ср. (5.12)]
β'ββ = y'XiSr/Xiy + /X.., S^X^Y + Ь$ы*Ж (5.21)
Используя (5.20) и приводя подобные члены, мы получаем другие
полезные варианты (5.21). Например, выражение
$'S$ = у'ВД^у + fcX^y + fcx^y (5-22)
удобно, когда данные являются нецентрированными наблюдениями и
■^1=1 Для всех /, так что первое разбиение включает хп и β£ι
(т.е. учитывает отклонения от средних значений в задаче,
включающей по существу разбиение на две части). Выражение
faMfcXiy + tey + tey (5.23)
можно использовать в задаче с разбиением на три части, когда
случайные величины предполагаются центрированными своими средними.
Вышеизложенное может быть с помощью индукции
распространено на любое необходимое число частей разбиения.
232 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10
6. РЕГРЕССИОННЫЙ АНАЛИЗ:
ОДНОФАКТОРНАЯ КЛАССИФИКАЦИЯ, к КАТЕГОРИЙ
Случай ρ — 1 (ковариационный анализ) см. в работах: Кемпторн
(1952, стр. 48), Кендалл (1946, стр. 237), Смит (1957), Уэлч (1935),
Федерер (1955, стр. 485). В случае произвольного ρ см. также Куль-
бак и Розенблат (1957), Розенблат (1953).
Допустим, что мы имеем k категорий, каждой из которых
соответствует tij наблюдений над (у, xlf..., хр) с линейной регрессией
для каждой категории
*)ί =Уп — (Pyi-^ii + · · · + hr*jir + · · · + hpxJip)> (6Л >
где у = 1, 2,..., k категорий, г=1, 2, ..., tij наблюдений для
категории у, г=1, 2,..., ρ независимых величин (p<^tij\ где Zji
независимые, нормально распределенные величины с нулевыми средними
и общей дисперсией σ2, a Xjir известны.
Линейные регрессии для каждой категории могут быть записаны как
Zj = yj-Xjtj, (6.2)
где при каждом у = 1, 2,..., k
Zj = (zJb ζ μ,..., Zjnjh У/ = (У]ь .У/а» · · · > yjnjh
Χ}. = (xjb Xy2j..., Xyp), xjr = (Xjlr9 Χμη ..., Xjn.r)
и
K = <?J1> Ру»·- β/ρ)·
Мы можем записать k систем уравнений регрессии (6.2) для k
категорий в объединенной форме
ζ = γ-Χβ, (6.3)
если определим
Гх'\ '
х=\ : ч : > F = <& К·—β*λ
\ό ...'xj
ζ' = (ζί, Zg, ..., z'k\ yf = (yl, yi ..., Уй).
Предыдущими определениями мы задаем β в (6.3) как
параметрическую матрицу всех kp коэффициентов регрессии β/ν независимо от
того, равны ли некоторые из них или имеют частное значение,
включая нуль, при любой гипотезе.
Допустим, мы задаем нулевую гипотезу относительно некоторых
групп или множеств kp параметров β7> среди k категорий и желаем
оценить параметры и проверить нулевую гипотезу при некоторой
альтернативе. Для различения матриц и векторов, соответствующих
6]
РЕГРЕССИОННЫЙ АНАЛИЗ
233
различным гипотезам На, а=1, 2, ..., мы будем использовать там,
где это желательно для большей ясности и выразительности,
обозначения Χα, βα и Sa = X*'Xa. В тех случаях, где эти обозначения не
использованы, рассматриваемая гипотеза и определение матриц будут
понятными из контекста. Для любой гипотезы На мы представим
линейные регрессии для k категорий в объединенной форме
г = у — ХТ> (6.4)
где ζ и у определены в (6.3). Однако мы теперь определяем βα как
матрицу коэффициентов регрессии, отличных друг от друга при
гипотезе На и Ха как матрицу элементов xjir с различными
регрессиями, заданную в соответствии с регрессионной моделью,
определенной гипотезой На для объединенных вместе k категорий.
Для представления регрессии (6.4) для k категорий при
гипотезе На нормальные уравнения (4.1) превращаются в
Siia = X«'y,
f|» = S^X.'y, (6*5)
где элементы S* = Xa'Xa будут зависеть, конечно, от специального
выбора матрицы Ха.
Эквивалентно (4.2) и (5.13) мы также имеем для нулевой
гипотезы //2 и альтернативной гипотезы Hi [ср. (4.7) гл. 5]
где
(η — pW^y'y-fr'S^1,
п = пх-\-п<>-\- ... -\-nk, (6.7)
и S^X'XrrrS1 для X, определенного в (6.3).
Таким образом, для любой частной гипотезы о множествах
регрессионных коэффициентов в регрессии для k категорий оценки
коэффициентов и критерий гипотезы легко могут быть получены
исключительно лишь надлежащим определением матриц Ха и βα в (6.4).
Рассмотрим две гипотезы
Μ : Руг = Руг. 7=1, 2,..., А, г=1, 2, ..., р, (6.8)
т. е. что Руг различны для всех категорий и для каждого г=1, 2,...
• ·., р, и нулевую гипотезу однородности
/*2:р/г = р.г, 7=1. 2, ..., k, r=l, 2, ...,р, (6.9)
или, эквивалентно, $} = $'. —φ.ν β.2, ..., р.р), у = 1, 2, ..., k, т. е.
что коэффициенты регрессии одни и те же для различных категорий
пРи каждом г = 1, 2, ..., р.
234 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10
При справедливости Нг из (6.8) наилучшая несмещенная оценка β
выводится из (6.5), где βα и Ха из (6.4), определяющего
регрессионную модель для k категорий, те же самые, что β и X в (6.3), или
а ... 0\ А\ /Кул
i \ i Μ = : Ь s,=xjx,. (6.Ю)
\0 ShJ \pft/ XXkyJ
Отсюда получаем k систем нормальных уравнений
Sfij^X'ffj, 7=1,2,·..,*, (6.11)
из которых
При справедливости гипотезы #2 из (6.9), однако, матрицы Ха и
βα в (6.4), определяющем регрессионную модель для k категорий,
равны
х2'=(х;,..., χί\ βΓ == (p.lf β.2,..., ρ.ρ>
Таким образом,
xyy=Sx}yy,
и наилучшая несмещенная оценка β при справедливости #2
выводится из (6.5)
jfcrsS^JP'y. (6.12)
Мы также имеем при Ηλ соответственно (6.7)
(п-рк)&=?у-Ъ*ъф= Σ Ыу/-Ь'£А>· (6·13)
7 = 1
Поэтому в соответствии с (6.6) имеем
Ж{нь Ηύ=β^β1 - β^β* = 2 p;s7py - prs2pf (6.14)
— непосредственное обобщение S2 в § 24.30 у Кендалла (1946).
Подведем итоги в табл. 6.1 J(Hb H%)=p(k—1)F, где F имеет
F-распределение с p{k—1) и (η — pk) степенями свободы, когда
справедлива нулевая гипотеза Н% из (6.9).
6]
Источник
изменчивости
#2:β2 = βϊ
Разность
Разность
Итог
РЕГРЕССИОННЫЙ АНАЛИЗ
Тг
Сумма квадратов
fc'S2Pf
β^β1 — &'S*$*=Z*f(Hlf Н%)
k
Ь19&Ъ1= 2 β/Μ/
y'y —fr'Stf1 = (»—/*) S*
УУ
235
[блица 6.1
С. С.
Ρ
pk
η—pk
n = %nJ
В частности, если проверяется нулевая гипотеза однородности //а
(средние значения k выборок одинаковы), р=\, х]П=\, то при
альтернативной гипотезе Ht (генеральные средние различны)
1 0 0 ... О
1 0 0 ... О
О 1 0 ... О
щ, х;=(1, ..., ι),
(6.15)
XvXi = S
щ 0 ... О
!_, О щ ... О
, Sj=nJt
V0
·· nk/
xJyj =Ул +Уа Η +У*,=njyj,
(6.16)
(6.17)
и (6-П) дает в качестве оценок генеральных средних значений при
справедливости Нь
%=Уу (6.18)
[ГЛ. 10
(6.19)
236 ЛИНЕЙНАЯ ГИПОТЕЗА
При нулевой гипотезе однородности //2
Х* = (1, ..., 1,1, ..., 1, ..., 1, ..., 1),
X*JP = Sa = /i1 + /ia + ... + л* = л, (6.20)
X*ry = nly1~{- ... -\-Пъ$к = пу (6.21)
и (6.12) дает в качестве оценки генерального среднего значения при
справедливости Н%
P.=J- (6.22)
Из (6ЛЗ) и (6.14) мы находим, что
k п.
k п.
(я_k) 3*= Σ (ΣJ*;-ntf)= Σ Σ (Уи~yj?> (6·23)
A ft
&3{нъ Ш = Σ **Й - ^2 = Σ я/ (Уj -у?- (6·24)
7=1 /=1
Табл. 6.1 дисперсионного анализа превращается теперь в табл. 6.2.
Анализу, приведенному в табл. 6.2, чаще придают форму,
указанную в табл. 6.3 J(Hl9 H<^ — (k—1)F, где F имеет F-распределение
с (k — 1) и (η — К) степенями свободы при справедливости нулевой
гипотезы однородности.
Таблица 6.2
Источник изменчиности
//s: Однородность
Разность
Ht: Неоднородность
Разность
Итог
Сумма квадратов
ηψ
k
7=1
Σ V9
7 = 1
/=w=i
k nj
Σ Σ*
у-t i=rl
С. С.
1
k — 1
k
η—k
ПОДГИПОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 237
Таблица 6.3
Источник изменчивости
ДОежду выборками
В пределах выборок
Итог
Сумма кнадратов
к
7-1
k n/
Σ Σ <nj-9j)*= <*-*)*
y=w=l
Σ Σ (Λ/-301
_ _ _ . __ .___ _
с. с
Л —1
η— k
я-i
7. ПОДГИПОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ
7.1. Однофакторная классификация, k категорий
Разобьем параметры матрицы β7* для каждой категории j = 1, 2,...
..., k на два множества [см. (6.2)]:
p;i=(Py*..-,Pyff) и Эл=(Р/^--,м
насчитывающих q η ρ — # параметров соответственно, # <^р, так что
β}=α>Λ. βλ)·
Рассмотрим нулевую подгипотезу 772: при/=1, 2, ..., k
величины [*у> различны для г== 1, 2, ..., #, но для r = q-{-1, ^-j~2, ...,ρ
существует общее значение параметров β7>, равное β.Γ> τ. е.
H*hr = h» /=1, 2, ...,£, r=l, 2,...,?,
Pyr = P-n 7=1,2,...,^, r = y+l, ? + 2,...,p ( Л)
или эквивалентно
^βλ=βλ=(Ρ^ ..., ρΛλ
β72 = β·2 = (Ρ·^+1> -·ί Ρ·ρ)·
Пусть гипотеза /^ остается такой же, как в (6.8), т. е. утверждает,
4X0 Ру> различны для всех у и г. При Я2 мы имеем те же
касающиеся матриц определения и результаты, что в разделе 6. Однако
Для 772 из (7.1) матрицы X2 и β3 для регрессионной модели с k
категориями имеют вид
β9'=(βί> Ρ& Χ2=(Χι. ΧΑ
238 ЛИНЕЙНАЯ ГИПОТЕЗА
где
1гл. ю
βί = (βίΐ> ββΐ» ···> β*ΐ)> β·2 = (β.<Η-1> β·?+2> ·>> β·ρ) = β12
/χη... ο \ /χ12
\ο ...χΜ/ \х»
Xjt = (xyt> Xyg, ... , Xyg),
Ау2 = (xy ρ+1ί Xy g+2> · * · у Xyp/»
*Jr:==z(xj\.n xj1n · · · » Xjnjr)> j?= Ь 2, . . . , £, Г = 1, 2, . . ., /7.
Таким образом, при //2
ГДе
Sn = X^Xi, Si2 = XjXg, S>2i == Sj2 = X2^*i> ^aa == XaX&
/Sin .·· 0 \ /SnΛ
Sn= '··. , Sia= ; I, Si2 = (Sli2-|~ ··· ""Ь^/да),
\o ...sj \sj
Sy и = X/i Xy i, S;-l2 = XyiXya = Syai, Sj 22 = XygXyg.
Из нормальных уравнений (6.5) мы теперь получаем
SnPi + Me = Xiy. SMjl1 + Sepe = X;y, (7.2)
так что [см. (5.7)]
Ра = 8Й.1х;.1у, (7.3)
где
/г А;
S22.i=(S22 —S2iS1JS12)= 2li (S/22 SyaiSy11Syia)= ^j Sy^.j,
/=1 y=l
A;
^2·1 = №2·1> '··> ^Wl)> Ха.1У= 2Lj Х/2-1У/»
X2el = X2 S21S!! X1? X/2-i = Xya SygiS^Xyj.
Из определения матриц при гипотезе Я2 имеем [см. (5.8)]
/Ри\ /Srii - - - 0 \Г/Хи ··· О \/У1\ /Si
\pkl/ \ υ ... оа.и
J[(o"...xJ(IHdf4
[^ιιΑιΥι \ /SiiiS112p.2 \
: , — I i Ι. (7.4)
ИОДГИИОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 239
Таким образом, при справедливости Н% из (7.1) мы имеем следующие
оценки коэффициентов регрессии:
f/1 = Sj?1(X}iyy-Syiap.a)=|j1> j=l9 2, ... К
β.2=(Σ *m*Y Σ «л.1Уу=^ (7,5)
где
Если при Нх из (6.8) мы также определим β/=(β}ι> β}2)> Η0
переставим и разобьем подматрицы β и X так, что
где
β' = (βί> № Χ=(Χι, ХД
βί = (βίΐ> βίΐ> · · > β^ΐ)> β/ΐ = (β/1> β/2» · · · > β/g),
β2 = (βΐ2> β22» -υ β*Α β/* = №/?+*' fW2> ···» β/ρ)>
(Xu..
Χι= ·
\ο ..
• °\
• '
.χJ
Α2 —
/χ« ·■
-
\ο ..
. 0 '
.. хк%
Χ/1 (X/l> Xy"2> · · · ι X/tf)> Χ/2 (X/g+l> Xyg+2» · · · у XJph
TO
XA—Sn == ι *·.. ,
\o ...skJ
/Sm...O \
X2X2 — S22 = 1 ··-. J,
\o ...sm/
Syn = XjiXjf,
!>y22 = XfiXjfy
/Sua
X1X2=S12 = I
\0
/Sii
X'X = S=
Syia = XjiXjf = Sy21,
У=1, 2, ..., £.
... эЛ12/
S12\
s /'
э22'
—s.21,
Тогда мы получим ту же самую оценку β7·, у—1, 2, ..., k, как
в разделе б, пользуясь методом раздела 5; т. е. из (6.5) мы имеем
(см. задачу 11.10):
Sufji+s12p2=x;y,
^2ΐβι ~г ^ааРа — ^аУ>
|i = Si/ (Xiy — ^,βΛ (7-7)
β2=S^al X^.ty, (7.8)
240 ЛИНЕЙНАЯ ГИПОТЕЗА [Гл. ю
где
(5Ш.1... 0
О ... Sfc22#1
S/aa-i =(Sy22 — SyaiS/ijS^a), у = 1, 2, ..., ft,
(χη-ι · · · ° \
\Ό ... Λ^-ι /
^/&·ι ==Xfz — SyaiSynX/i, у = 1, 2, ..., ft.
Из (7.7) мы получаем при //4 для каждой категории у = Ь
2, ..., ft
Pyi = S7ii (ХлУу - Syi*M = Рл> (7.9)
ta = Sjk-iXk-iY/ = β}2 (7.10)
и
С помощью этих оценок параметров при гипотезах Нх из (6.8)
и Нъ из (7.1) и отмечая после некоторых сокращений, что [ср. (5.11),
(5.12)]
И^^УЭД&У + Й'ЗЬЛ* o=l, 2, (7.11)
мы получаем [ср. (5.13)]
k
= Σ bj*SWih - к'ЬкЖ (7.12)
7 = 1
где для удобства вычислений мы можем записать
k
^.1& = 0Жу=1!^Х>1У> (7-13)
/—ι
fe'SS..ii5 = ftl'X5:iy. (7.14)
Мы подводим итоги в табл. 7.1 дисперсионного анализа. J(Ht, //2)=
= (р — ^) (А—1)F, где F имеет F-распределение с (р— g)(k—1)
и η—pk степенями свободы, когда справедлива нулевая гипотеза //2
из (7.1).
7]
ПОДГИПОГЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 241
Таблица 7.1
Источник 1
изменчивости
Разность
Разность
Итог
Сумма квадратов
p2'Ssps
к
р'^р1
y'y-PIfS1pI = (n— /?^)ί2
У'У
с. с.
qk+p—q
(p-q)(k-l)
pk
η—pk
n = n1-f-ns + ··· + nk
7.2. Схема регрессии Картера
Картер (1949) рассматривает случай корреляции между /-ми
наблюдениями / = 1, 2, ..., л в каждой из k выборок. Его
регрессионная модель может быть записана как
я
Ч=Уц — Σ hr*jir — α/> (7Л5)
где корреляция между выборками обусловлена α·, элементом, общим
для /-го наблюдения в каждой выборке, у = 1, 2, ..., k.
Стохастическая зависимость между категориями включается в многомерную
линейную гипотезу в главе 11.
Легко видеть, что эта модель является частным случаем схемы
с «разбиением на две части», для которой матрицы β и X имеют вид
β'=(βί. № х=(х» х2),
а подматрицы —
βί = (P!l> Р21> · · ♦ > β/fcl), β}ΐ = (β/1, β/2> · . . > $jq)>
Κ = («ΐι α2» ·.·, ал),
/Хц...О \ /^7'ii ·.· χΐ
Χι =
\o ...хи)
41
Xyi =
■?./<?
\-*7nl · · · xjnq
где Х2 есть k X 1 матрица подматриц I, единичных я X я матриц.
242
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
При таким образом определенных β и X нормальные уравнения
для получения оценок величин β, данные Картером [1949,
равенство (3.3)], следуют непосредственно из нормальных уравнений (7.2)
с использованием формулы
SnJi = X;.2y, (7.16)
где
S11#2 = SU S^SggSg!.
Здесь мы получаем
X ХцХ-21
5ц. а —
/(l-i-JxiA,
" "^-XaiXii (l -^-JXaAi
— χ Χι Αι \
1
\ ~ Τ Χ*Άΐ £~ Χ^Αΐ
(i-l)x^/
ΤΧΜ
Xj.g
— ΤΧ21
1
(7.17)
\ — у Χμ -ΤΧ*ι ··· {1-ΐ)Χ^Ι
Как и раньше,
Sji = XjXi, Sj2 = XjXg = S>21, S22 = X^Xg.
Оценки корреляций at не даны Картером в явной форме.
Решение
di = zi9 /=1, 2, ..., η,
где
/г А; 9
получается непосредственно из
S.22p.2 = Х2у — S2iPi.
8. ПРИМЕР
(7.18)
[См. Кульбак и Розенблат (1957).] Как пример к разделам 5,
6 и 7 мы рассмотрим данные, характеризующие некоторый
произведенный продукт, испытываемый при трех условиях (категориях), из
g] пример 243
которых каждое включает три независимые величины. В уравнении
zji =У]г Pyi-tf/π — Pyemia — Руз-Яу is — Py4^yi4 (8.1)
данные ул и Jfyir, г = 2, 3, 4, являются нецентрированными
наблюдениями, такими, что xjn = l при всех у=1, 2, 3 и /=1, 2, ..., лу.
В этом примере £ = 3, ρ = 4, /^ = 16, я4—15 и л3=16. Матрицы
S7· и ХуУу» У—1» 2, 3, составленные из сумм квадратов и попарных
произведений, имеют вид:
16,0 286,8 139,0 4 835,0\ / 97 500^
286,8 5 340,4 2 452,2 86 849,0 \ , I 1788 052
51 = l 139,0 2452,2 1307,0 41 990,0 Г ΧιΥι=1 838010
V4835,0 86 849,0 41 990,0 1465 575,0/ \29 484 809/
15,0 244,6 236,0 4 625,0\ / 83 470^
_ 244,6 4 181,6 3 869,0 75 318,0 \ _/ 1404 814
52 —I 236,0 3 869,0 3 824,0 72 500,0 I' X*y*~ Ι ι 320 100
V4625,0 75 318,0 72 500,0 1427 425,0/ \25 727 050/
3 07 П IftlfiO 7Q* Π 170/1ПЛ I» ЛзУз
где
' 16,0
256,0
97,0
,2995,0
256,0
4 221,7
1 619,2
47 897,0
97,0
1 619,2
785,0
17 840,0
2 995,0'
47 897,0
17 840,0
580 475Д
89 280^
1 456 596
554 650
Л 6 743 450;
Sy {Sjrth sjrt 2Ll XjtrXjW r> * 1» 2, 3, 4,
t=l
Х/Уу (sjyxr)> Sjyxr /лУПхПг
Заметим, что sin = ni7 sm = n% и 5311 = яд. Уравнение множественной
регрессии, объединенное для всех трех категорий, дается
формулой (6.4), где, как помним, выбор матриц Ха и βα зависит от модели,
задаваемой гипотезой. Данные в вышеуказанных матрицах могут быть
подходящим образом расположены для анализа в соответствии с
гипотезой.
Чтобы проиллюстрировать статистический метод, рассматриваются
и проверяются семь гипотез. Гипотеза Hi не налагает ограничений на
величины β, так что
^:Pyi = Pyi> Руг=Р/« г = 2, 3, 4.
244
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
Все другие гипотезы, подсказываемые природой данных,
сравниваются как нулевые гипотезы против Н\.
аду1 = ру1, ру> = 0, г = % 3, 4,
ВДУ1 = р.1, Руг = Р.п r = 2, 3, 4,
tf4:pyi = Pyi, Руг=р.п г = 2, 3, 4,
'ВДу1 = Руь Руг = Руг· г = 2, р/г = р.г, г = 3, 4,
Яв:Рл = Рл> Руг = Рул г = 2, руг = 0, г = 3, 4,
^:pyi = Pyi, РУ> = Р.г, г = 2, Руг = Ру^ ' = 3, 4.
Все вышеприведенные формулировки гипотез касаются значений
у = 1, 2, 3. При описании этих гипотез мы для удобства отдельно
задали величину ру1> так как в этом примере она представляет
постоянный член, который определяется средними значениями. Табл. 8.1
представляет собой полный итог дисперсионного анализа данных и
критериев значимосги различных гипотез. Табл. 8.2 содержит оценки
коэффициентов регрессии при различных гипотезах. (Расчеты были
выполнены Г. М. Розенблатом, Фредом Окано и вычислительной
группой в Naval Proving Ground, Дальгрен, Виргиния.) Выбор матриц
Ха и βα для Hi и #s указан вслед за табл. 8.2; для других гипотез
это делается аналогичным образом (и предоставляется читателю).
Используя 0,01 как уровень значимости и 0,05 как
«предупредительный» уровень (для предосторожности), выводим из табл. 8.1, что:
1. Регрессия действительна; Я2 отвергается.
2. Одно и то же множество коэффициентов регрессии (в
предположении равенства средних) не может адекватно представлять все три
категории; Иг отвергается.
3. Одно и то же множество коэффициентов регрессии не
пригодно (даже при допущении различий в средних значениях для всех
категорий); //4 отвергается.
4. Одно и то же множество коэффициентов регрессии для величин
х% и х& для всех трех категорий не может быть использовано;
7/s отвергается.
5. Коэффициенты регрессии величин х3 и х± нельзя не
учитывать; Нь отвергается.
Однако
6. использование одного и того же коэффициента регрессии для
величины х2 и различных для х^ и х4 и для постоянного члена
пригодно; Н7 принимается.
Для рассматриваемых в примере гипотез Ηγ и 77s матрица
параметров β и матрица наблюдений X даны ниже. Заметим, что так как
мы имеем дело в примере с нецентрированными наблюдениями, то
коэффициенты регрессии φμ (элементы β) и матрица (вектор) Χμ
(элементы X) /=1, % 3, разбиваются для каждой гипотезы. Это
ПРИМЕР
245
(Ρ
rt
(Ρ
Η
ο
Ε3
5
Ο
χ
Λ
Χ
Η
α
s
ο.
α>
Η
Λ
с?
etf
Я
Ο.
CO
Iff
со
CM
л
(Ρ
Η
ο
Ε3
Я
U
и
са
(Ρ
с?
>>
S
a
я
ο.
<υ
Η
5
Ο.
ь.
?
«
^
<^
ϋ
ϋ
η
©
*-*
«
α,
*=ι
«
Μ
мма
>>
о
1 ь
5
со
[енчи:
*
со
к
чни
о
Ист
го
II
♦*£
см
ю
г-
S
00
со
ю
ю
—'
ч*
со
см*
II
λ.
α5θ
II II
.ч Л от
ааТоа?сй,
•χι—
со"
О)
*—1
О*
00
σ>
II
♦*£
I
о
ΙΟ
CM
О)
О)
-*#
см
а?
о
о
S
со
ТО
—ι СО
*—1 *—1
1
1
О СО
о см
г- г-
го см
σ> о
со ι—
ю см
ю
—'
ч*
со
см4
II
λ.
αχ αχ
11 II
*н Ч
αχ αχ
ее
55
зР*
СО
со
со
о
05
СМ
^< 00
1
1
•«6
Ci.
со со
см <л
σ> ι-
-*& со
со со
О) 00
г
ю
т—«
а?
се С»
СО- g
в:
со
ТО
со со
44 7
1
см см
ю о
t— ^
ю ю
о см
00 СО
со ^
ю см
ю
—.
ч*
».
со
см
II
1Н С
ох? ах
II II
.·* л·
«г^
55
|«
[
1
+
**<
^
ю
»—ι
со
,_-,
00
ю
—'
со,
ЗР*
00
00
со
ю
см
со
см
со
^
1
7
«5.
оо
со
ю
г-
со
со
а?
а?
о
с
аз
со
ТО
со
♦*£
см
ю
г-
ю
о
оо
со
ю
ю
—.
>>
ел
*
со
♦*£
со
со
О)
со
см
оз
со
см
>>
см
см
I
1
о
ιΟ
со
ел
ч*
«. се
X
·* се
>,<са<са
с£
II
о£
а:
см
II
i
II
к
«г?
ч*
со
11
1.
с
αχ
1
зР
,—<
о
ιΟ
3
<s
см
00 т*
ν—Ч У~Ч
ι ι
см ^
00 ^
со ю
см ^
S s
см ю
»—1
00
ю
*—1
—-
55"
55
<s
л
11
ιΟ
119
ел
1
ел ел
»л Сн
<CQ-<CQ-
55"
а55
^ о
40 1ί
СО- g
03
со
то
246
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
с
с
О*
о
ь.
Ϊ8
**
ϋ
ϋ
CQ
О
рат
«
rt
CQ
CJ
s
£
>>
1 н
CQ
НЧИ
ι αϊ
1 s
со
чиик
о
Ист
со
♦*£
см
LO
г-
LO
о
00
со
Ю
LO
—'
**^
СО?
1 а;
со
<«
ч*
ΙΟ
оз
тЗ<
со
ч*
см
ч*
см со
II II
V. V.
4 j-
II
£
\
со
*&
см
со
см
00
2
*—1
00
ю
^
еа
ΙΓ4
г-
со
3
см"
см
со
♦*£
с?
1
1
5.
со
оз
оо
9
СО
ξ
о
с
S
со
со
♦*£
см
LO
г-
LO
о
00
со
ю
Ю
—.
II
со.
аз
-
-
со
г^
со
о
!?
см
см
II
λ.
к.
col
со
-
1
см
оз
г-
^
*-н
со
^
см
см
ч*
со
II
V.
„£
II
DO.
о
*—1
1
1
+
й-
ΙΟ
оз
г-
г-
*—1
00
ю
*—1
со,
*—1
00
см
см
~
1
τ
см4
1
ft,
Ю
оо
о
00
£
£?
Η
о
с
S
со
со
·«*
см
LO
г-
LO
о
00
со
LO
ю
^
>»
X
Τ*4
1 *н
ел
**
>>
J>
GO.
II'
аз"
о>
1
1
«4,
о
г^
оз
см
О)
оз
^
см
>}
«. <п
<са
^
of
см"
II
U,
^
аз?
II
«ч
с£?
£2
ft
CM
CM
г-
00
оз
г-
*—1
00
ю
—'
^
<оа
53
<са
; еа
4J·
V—«
-Г—
8
II
<м
<о
LO
со
с
ΊΓ
оз
^
8
*—1
< о
·*£
ft.
I
•S
Ϊ
•Η
<са
53
<са
1
1
>>
>>
е
CJ
с
S
со
се
с
+
с
+
С*
II
с
со
о
г-
8
00
см
00
ю
—'
>>
>>
о
Η
пример 247
Таблица 8.2
Оценки коэффициентов регрессии при различных гипотезах
и,
и,
я8
я4
л.
я«
н7
Гипотезы
У=1
/=з
У=1
/ = 2
/=з
/ = 1, 2, 3
У=1
У = 2
/=з
/=1
У = 2
/=з
У=1
У = 2
/=з
/=1
/ = 2
У=з
3,586
—7,186
1,654
6,094
5,564
5,580
2,009
1,803
1,589
1,862
1,349
1,617
1,625
2,467
1,873
2,001
3,431
-6,767
1,758
?у.
203,4
231,1
227,7
219,8
216,0
216,0
216,0
206,9
224,0
205,6
202,3
226,4
223,7
219,8
219,8
219,8
h
—10,69
70,02
— 6,93
-11,19
3,71
3,71
3,71
34,64
34,64
34>64
—4,28
79,26
—4,15
л.
—3,46
25,10
1,73
0,647
1,28
1,28
1,28
2,43
2,43
2,43
—4,10
24,33
1,77
приводит к обычным приемам получения сумм квадратов и попарных
произведений отклонений от выборочных средних и к упрощению
дальнейших вычислений за счет сокращения на единицу ранга
матрицы S (матрицы сумм квадратов и попарных произведений), для
которой должна быть получена обратная матрица.
Him-y = hu hr=h» r = 2> 3> 4> 7 = 1,2,3,
β'=(β;> κχ х=(*1> χ2)>
βί = (βΐ1> β21> ββΐλ β« = (βί» βή* β32), β/2 = (β/2> β/3> β/Λ
/?11 ... 0 \ /Χ12...0 \
^ι= : ^21 : |> ^2—Ι: ^Ча : ь
\0 ... χ31/ \0 ... Xj
Χ/ι=(1» U .··> 1)> Хуа = (Хуа» Х/з> x_/i)>
порядок 1 χ nj x)r = (ху1„ xyir> ..., xfnjr).
248
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
#8:βι = βι· hr=hr> r = 2, $jr = $.n г = Ъ,А, /=1,2, 3,
β'=(βί> Pi §з). X = (Xj, Χϊ, Хз).
βί = (β«> hl> Ы β* = (βΐ* $*» Ы β3 = (β.3. Р.Д
/Xll . . . О \ /Xi2 . . . О \ Х3 = (Χΐ3ι Xg3> Хзз)>
Х{ = I · χ21 . I, л2 = I ; х22 · I,
\0 ... χ J \0 ... χ J Χρ = (χμ, ху4),
Xyi и ху>, г = 2, 3, 4, определены, как при гипотезе Иг.
В предыдущем примере каждая гипотеза о параметрах относится
ко всем категориям j = 1, 2, 3. Должно быть ясным, однако, что
это не обязательно, так как теория и метод в равной степени
применимы к любым гипотезам относительно параметров. Например, мы
могли бы рассмотреть ситуацию, когда гипотеза касается равенства
параметров для определенных категорий, но не для всех, например,
β.Γ, /=1, 3, г=1,
Ру/· у = 2, г=1,
β.Γ, у=1, 2, 3, г = 2,
β/Γ, у=1, 2, 3, г = 3, 4.
Процедура раздела 5 для подгипотезы с разбиением на три части
могла бы быть применена и здесь.
а РЕПАРАМЕТРИЗАЦИЯ
9.1. Гипотезы с неполным рангом
[Ср. Кемпторн (1952, раздел 6.2).] Допустим, что компоненты β
в (3.1) не являются линейно независимыми, а удовлетворяют (р — г)
линейным соотношениям. Это означает, что матрица X в (3.1) имеет
ранг г<^р (и обратно) и что
β = Ογ, (9.1)
где γ' = (Τι, γ* .··> тД G = (ft/)» ^= 1, ..,,/?,/= 1, 2, ..., г и G
имеет ранг г<^р. Матрица S = X'X теперь положительная (но не
положительно определенная) матрица ранга г, поэтому она вырождена
и не имеет обратной, так что мы должны пересмотреть решение
уравнений (4.1) для β. Мы можем, однако, записать (3.1) как
г = у — ΧΟγ = у — Ау, (9.2)
91
РЕПАРАЛШТРИЗАЦИЯ
249
где A = XG есть п\г матрица ранга г. Оценка у по методу
наименьших квадратов выводится из нормальных уравнений
А'Ау = А'у или G'SGy = G'X'y (9.3)
Оценка β получается из p = Gy или
(i^GCG'SG^G'X'y. (9.4)
Как в разделе 4, у есть несмещенная, достаточная оценка у
с наименьшей дисперсией, и компоненты у нормально распределены
с ковариационной матрицей σ2 (Α' Α)"1 = σ2 (G'SG)^1. Аналогично
^ = Gy есть несмещенная оценка β, и компоненты β нормально
распределены с ковариационной матрицей o2G (GfSG)"1 G'. В соответствии
с (4.2) мы имеем
3{Нь щ -^ (Y1 - V2)' А'А (ft - γ2) = (γ> - γ2)' G'SG (γ* - γ2) =
= <РД—Р^Ф1—Р*) у (9.5)
где
(я — г) о* = у'у — V'Af Ау1 = у'у — y^G^SGy1 = у'у — β^β1.
Заметим, что GfS^ = GfXry [см. (9.3)] изображает г линейных
функций от у, которые также являются линейными функциями β.
Это несмещенные оценки одних и тех же линейных функций
величин β. Так как G'SJ£ = G'X'y = G'SGy, мы можем сделать подобные
утверждения о величинах γ и их оценках. Рассмотрим теперь любое
другое множество г линейных функций от у, скажем Ly, где L есть
г\п матрица ранга г. Так как
Ε (Ly) = Ε (L (Χβ + ζ)) = ίΧβ = LXGy, (9.6)
το Ly есть несмещенная оценка у, если LXG = I,., где \г —
единичная матрица порядка г\г. Ковариационная матрица компонент Ly
оказывается равной o2LL'. По лемме 5.4 главы 3 при k = n, В = о51да
где \п есть ηχη единичная матрица, L = C, U' = XG, CU' = LXG =
==1,, выполняется неравенство
c^L^c^G'SG)-1, (9.7)
которое означает, что квадратичная форма с матрицей o2LL' больше
или равна квадратичной форме с матрицей o2(GrSG)~1. Так как
ковариационная матрица компонент у равна o2(GfSG)~1, мы утверждаем,
согласно (9.7) и лемме 5.1 (в) главы 3, что компоненты у обладают
наименьшими дисперсиями среди всех линейных функций от у,
которые являются несмещенными оценками у. Аналогично GLy есть
250
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
несмещенная оценка β, если LXG = Ir. По лемме 5.4 главы 3 мы
можем заключить, что
ЛИЛДГ ^ oaG (CSG^C, (9.8)
откуда делаем вывод, что компоненты β обладают наименьшими
дисперсиями среди всех линейных функций от уу которые являются
несмещенными оценками β.
Величина J(l, 2) и ее оценка одни и те же для любой репара-
метризации, как видно из (9.5). Так как существует только г линейно
независимых линейных функций от величин β, любое множество г
линейно независимых функций β может быть получено из любого
другого такого множества с помощью невырожденного линейного
преобразования. Информационные функции инвариантны относительно
невырожденных преобразований (см. раздел 4 гл. 2, также раздел 3
гл. 9), и отсюда следует наш вывод. [Ср. Кемпторн (1952).]
Примеры применения этой процедуры к двуфакторной
классификации без повторения и без взаимодействия, к двуфакторной
классификации с недостающими наблюдениями, к двуфакторной
классификации с повторением и взаимодействием, к двуфакторной
классификации с повторением (неравные частоты клеток), взаимодействием и
недостающими наблюдениями, к латинским квадратам, к латинским
квадратам с недостающими наблюдениями можно найти у Мак-Колла
(1957). См. также Андерсон и Бэнкрофт (1952), Кемпторн (1952).
9.2. Разбиение
Если гипотезы предусматривают разбиение параметров на два
множества, как, например, в (5.1), то возможно, что линейные
соотношения между параметрами существуют только в одном из множеств
разбиения. Здесь необходимо применить процедуры раздела 9.1 только
к одному из множеств разбиения. Таким образом, допустим, что
в (5.1) яХ# матрица X! имеет ранг m<^q. Это означает [ср. (9.1)],
что
βι = ΟιΥι, (9.9)
где Υί = (γι, Ъ ..., Tm)> Gi = {gif), t=h 2, ..., q, j=l, 2, ..., m
и Οι имеет ранг m<^q. Результаты раздела 5.1 применимы, если
Pi и ^ заменены в различных формулах соответственно на γ4 и
уь Xt на ΧχΟχ и число (п — q) степеней свободы на (п — т)
степеней свободы. Оценка р! получается из f}1 = G1;y1. Таким образом,
например, Stl в (5.3) заменяется на О^БцОь где Sn = Χ^Χι, и Sia — на
GiS12, где S12 —ΧίΧ2.
Подобные замечания применимы также к разбиению на три
множества, как в разделе 5.2, когда одно из множеств не имеет
полного ранга.
Ю]
РЕГРЕССИОННЫЙ АНАЛИЗ
251
10. РЕГРЕССИОННЫЙ АНАЛИЗ, ДВУФАКТОРНАЯ
КЛАССИФИКАЦИЯ
Мы дадим сейчас иллюстрацию к методам раздела 9, которая
интересна и сама по себе. Допустим, что мы имеем двуфакторную
классификацию с г категориями строк и с категориями столбцов,
с одним наблюдением в клетке и без взаимодействия. Допустим,
кроме того, что существуют ρ независимых переменных хь х& ..., хр.
Мы желаем проверить нулевую гипотезу о том, что не существует
эффектов по столбцам (классификация по столбцам не значима) при
альтернативной гипотезе, что классификация по столбцам значима.
Случай/7=1, т. е. случай, когда применим ковариационный анализ,
см. в работах Кемпторна (1952, стр. 98), Федерера (1955, стр. 487).
Случай /7 = 2 (множественная ковариация) см. у Снедекора (1946,
раздел 13.7). При ρ произвольном см. Андерсон и Бэнкрофт (1952,
раздел 21.4).
Общая линейная регрессионная модель для каждой клетки имеет вид
Zij = yij — μ — Pi — */ — hxiji — β***/β — ■ · - — $р*ур> Ο0·1)
где /=1, 2, ..., г категорий по строкам, j =1,2, ..., с категорий
по столбцам, р£ есть эффект г-й строки, τ;· есть эффект /-ого столбца,
[х есть полное среднее, £1у- — независимые, нормально распределенные
случайные величины с нулевыми средними и общей дисперсией с\
а Xijk> *=1, 2, ..., г, у=1, 2, ..., с, k=\, 2, ..., /7, известны.
Занумеровав клетки слева направо и сверху вниз, мы можем
записать линейные регрессии как
ζ = γ-Χβ = γ-Χ1β1-Χ2β2-Χ3β3, (10.2)
где
ζ' = (*ш *\ъ · · · > ΖΛ У' = (Ун» У\ь ..., У Л
Χ = (Χι, Х2, Х3)> β' = (βί> β^ βδ)»
1 0 ... 0 1 0 ... 0\
1 О ... О О 1 ... 0 \
1 О ... О О О ... 1
ι * ι >
О О ... 1 1 0 ... 0
О О ... 1 О 1 ... 0 I
\о о ... ι о о ... ι |
х,= ·
252 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10
Xlj (Xijb Xij%> ··· > Xijph
\Xrc.
Pi=(μ). Pi=W> Ό. ?'=(pi> рз> · · > pr)>
%' = {zb τ2, ..., тс), Рз == (βι> β* ··> βρλ
т. е. Xi —матрица re X 1, Χ2 — re X(r + c), X3 — rcXpt xlj—
-ΐΧΑ Ρί-ιχι, K-iX(r + ^ ρ'-ιχ*% f~ixr,
Рз-ιχ^.
Мы хотим проверить гипотезу
Я,: β'=β4'=(К', РГ, РГ). К' =(р", Ό, (Ю.З)
т. е. отсутствие ограничений на параметры, и нулевую гипотезу
Яа:Р' = Э»' = (РГ, β', β32'), РГ = (р2', 0) или *2' = 0, (10.4)
т. е. отсутствие эффектов по столбцам.
Заметим, что гс X (г -|- с) матрица Х2 имеет ранг г -(- с — 2, так
как эффекты строк и столбцов существенно ограничены тем, что
удовлетворяют [ср. Андерсон и Бэнкрофт (1952), Кемпторн (1952)]
условиям
Pi + Ps + .-. + Pr = 0> ^ + ^ + ... + ^ = 0. (Ю.5)
Новые параметры для второго множества разбиения, если принять
в расчет (10.5), даются формулой
где γ; = (γη, ..., γ1(/._υ), γ2 = (ϊ2ΐ> ..., γ^^.ΐ)), a d и G2 являются
соответственно ry((r — 1) и с\(с — 1) матрицами
Ι ι о...
0 1 ...
1
0
0
— 1
0 ...
1 ...
0 ...
— 1 ...
0
0
1
— 1
0,= . G
о о...
V-1 -1...
10] РЕГРЕССИОННЫЙ АНАЛИЗ
Для второго множества разбиения мы находим
253
X9G =
1 }
I 1
1
0
0
0
— 1
— 1
— 1
0 ..
0 ..
0 ..
1 ..
1 ..
1 ...
— 1 ...
— 1 ...
— 1 ...
0
0
0
0
0
0
— 1
— 1
— 1
1
0
— 1
1
0
— 1
1
0
— 1
0 ...
1 ...
— 1 ...
0 ...
1 ...
— 1 ...
0 ...
1 ...
— 1 ...
01
0
— 1
0
0
— 1
0
0
— 1
, (Ю.7)
\ г—1 с—1
где X2G имеет г с строк и г — 1 -(- с — 1 столбцов,
12с с ... с 0 0 ... О1
с 2с ... с
G'X'X2G = GS2,G=
0 0 ... 0\ ]
о о ... о\ I
( г— 1,
с с ... 2с 0 0...0
О 0 ... О 2r r ... г
О 0 ... О г 2г ... г
О 0... О г г ... 2г
\ г-
—Г
(10.8)
с—1,
XiX2G = S,sO=:(0, 0, ..., 0), 1 Х(г— 1 +с—1), (10.9)
AgXjO = SsgG =
• i,Xj» Χ/*·> Хз· Χ/··> ·. · > Χ/·—1· Χ/··* Χ·ι'
• · > Х»с—1 Х»сЛ
(10.10)
где xh = χη -μ xi2 _μ... -μ Xfc, x.y = χ1; _μ χ2/ _μ... _μ χΓ/ и S32G есть
Ζ7 Χ (г — l-j-c — 1) матрица.
254
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
Мы также находим, что
x[xl=sll=rc9 x;x3=s13=x:., (ΐο.ιΐ)
где χ'.. = х'п -\- х{2 -\-... + х*7 + · · · + х'гс и х[. есть 1 χ ρ матрица,
ХзХ3=s33 = Σ Σ χα*» (10·12)
где S33 есть /?Х/? матрица,
X[y=y.., (10.13)
где >. = j/u -f j/i2 +... +j/l7 +... +jVc>
/ Уи —уА
&Ку=
У*. —Уг
Уг-\- —Уг-
У-1 — у.с
У-* ~У >с
\Усо1 /
(10.14)
Vv.c_i — у.J
где yh =yn +j/£2 +... + j/£c, уч=уч-\-уу + ... +JV/>
yiow = Q>i.—JVo ..., Уг-i- — JV-)> У«1 = СУ-1— J>.» .... У-ъ-i— У-с)>
ХзУ=хиУи + Х1аУ12+ ... +x^iy + ... + XrcVrc, (10.15)
где ХдУ есть я X 1 матрица.
Так как при справедливости Нх оценки параметров даются в (5.20),
мы переходим к отысканию других необходимых матриц:
^22 ·1 ^ SjgO О Эзд^П S^G
где С есть (г — 1) X (г — 1) матрица
(с — 1) X (с — 1) матрица
/2r r
г 2г
(10.16)
и R есть
Ю]
РЕГРЕССИОННЫЙ АНАЛИЗ 255
г с
1 ,
8зз-1 = ^зз — S^Sj^Stf— £ 2miXijXiJ — χ··~χ.· =
*—t У—ι
i
где χ =7ϊχ·
= Σ Σ оч/-*)(*,- χ)'> (10л7)
$&·ι==: S32G — S3iS11 S12G = (χ1# — χΓ., χ2. — χΓ., ...
. .. , ΧΓ_ι· ΧΓ., Χ.j X.c, X.2 — Χ.ci ... > X-c-l — X«c)> (1^.1 о)
S33-12 = ^33·1 S32.1S22.iS23.! =
Ι'}- \
= Σ Σ άνά'υ ~ (di·» · · ·' dr-i· d-i> · ·' d-c-i) L R-iJ
dr-i.
all
kd!c-i/
dj.
Σ Ed/A-(di wc-'i ι
'-^-· \d;_,.
-(d.1(..., d.c._,)R-1 : =
Vdlc-i /
г с
= ,Ζ-ι Σ d/ydj/ — XrowC~ Xrow — Xcoi R~ Xcoi у (10Л 9)
где df7 = x.y — χ, df. = χ,-. — xr., d.y = χv- — x.c,
Xrow=(di„ ..., dr_1#), Xcoi=(d.i, ..., d.^),
hi- —Уг-
^-«тхй-оялуч,- £'·!£ -(£-). (.о.
20)
Xa.iV=:
-1 —J-C
iy=X3y-S3IS711Xiy =
ί = 1/-1
*=1/=1
256
где г су =у..,
ЛИНЕЙНАЯ ГИПОТЕЗА
х;.му=х;.1у—s32.iS22i.1x;.1y= ς Σ *и(Уи—у)—
/С1 0\
— (йи> ..., d^i.d-i, ..., d.c_!) к R_t I
/
Λ·
JV-i·—JV-
J>-1 — J>-c
\ У.с-1 —У-с
Σ Σ х*7 (Уи -У) - (*- · · ■ > d-i·)c_1 :
\Уг-и—Уп
i=\j=\
-(d.i, ..., d.^R"1
J4
^.c-i —У-.
Можно показать (см. задачу 11.4), что
/ cr cr " ·
1 r—-1
С "* =
cr cr
_1_\
СГ
cr
J_
СГ
R~J =
cr
c —1 _J_
cr cr
„J_ c —1
cr cr
r—\
cr
-±\
1_
cr
cr cr
r
c—\
cr
I
с
Xcol R Xcol ==~JT A Χ·/Χ·/ 7:cX**X*",
1ГЛ. Ю
= Σ Σ x>7 CViy - JO - XiowC^yrow - XioiR^ycoi. (Ю.22)
(10.23)
7=*
Ю]
РЕГРЕССИОННЫЙ АНАЛИЗ 257
г
г—ι
с
XioiR^Ycoi = 7" 2 Х-/У-У — те х--У->
где С-1 и R"1 являются соответственно (г — 1)Х(г — 1) и {с — 1)Х
χ (с — 1) матрицами.
Таким образом, при справедливости Н1 мы получаем из (5.20)
оценки
&8=эд.1Ях;.му. (10·24)
где S33.i2 дано в (10.19) и Х3.12У дано в (10.22),
fy\- —Уг-\
Уг-х- —Уг-
Ул —У-с
If \
dr_i·
т. е.
Λν-β-ι — J'J \d-Vi / -I
*нс.д::)-(Ш
(10.25)
Υ! = С"1 (yrow — Xrowfo, Y2 = R * (Усо! — Xcol β3)>
fc40L-i:.to (10·26)
re
Мы имеем теперь [см. (5.21)]
jJi'S1^ = y'XiSb'Xiy + у'Хг^Ая + fc'Sn.nfc (1 °·27)
где y,x1s1-1ix;y=cy..)V'·^»
УХгм^Хв^У — (Уи—Уг
(Уи —УгЛ
/J.i —У-Л
+(y.i —У-с ■■·> У-сл —У-с)К1 : 1=
= Уго«гС_1Уго\«г + Усо1К_1Усо1.
и ft Дается в (10.24) и S33.13 в(ЮЛ9). [См. (10.46).]
258
линейная гипотеза
[ГЛ. Ю
Первоначальные параметры эффекта по строкам и столбцам
оцениваются как
P1 = QiYi· tf^GiY»
(10.28)
где Gi и 02 определены в (10.6), a yt и γ2 в (10.25).
При гипотезе //2 вместо матрицы G в (10.6) мы имеем только
матрицу Οι, а матрица Х2 теперь задается гсУ^г матрицей
Х!=
1
1
1
0
0
0 .
0 .
0 .
1 .
1 .
. 0
. 0
.. о
.. 0
.. о
О 1 ... 0
О О ... 1
о о ... ι
(10.29)
\0 0 ... 1
Вместо (Ю.7) при гипотезе Щ имеем
XJG,=
0... 0\
1
0
0
0 ...
1 ...
1 ...
0
0
0
1 — 1 ...— 1
-. -..:.-J
(10.30)
РЕГРЕССИОННЫЙ АНАЛИЗ 259
е χ^Οι имеег тс строк и (г— 1) столбцов; вместо (Ю.8) при #2
мы имеем
(2с с ... с\
° .2с ;*'. Чг-i; (10-31>
с г· ... 2с/
г—\
вместо (Ю.9) при #2 имеем
X;XIG, = SJ9G, = (0, 0, .... 0), 1 X (г - 1); (10.32)
вместо (10.10) имеем
X'3XlGi = S1SG! =(Xl. — xr., ..., хг_ь — xr.) = Xrow, (10.33)
где S§sGi есть pX(r— 1) матрица; вместо (10.14) при Hs имеем
/>ι· —УгЛ
о;хГу= · =yrow; (Ю.34)
Wi· —Уг-1 ъ
вместо (10.16) имеем
SIa.i = C; (10.35)
вместо (10.18) при //2 имеем
Sfa-i ==(χι· — χγ·> ···> xr-i· — X/-.) = Xraw> (10.36)
вместо (10.19) при Нг имеем
г с (άί. \
S&-13 = Σ Σ «Μν- №.. · · · > drJ.) С-1 ; =
= Σ Σ ίίΛ-χ»°"1χ™; (Ю.37)
*—»У—ι
вместо (10. 20) при #а имеем
/Λ. —jvA
ХГ.,У= i Myrow; (Ю.38)
\JV-i·—Λ-'
вместо (10.22) при H2 имеем
*.иУ = J] Σ χί/ 0Ί> -У) - № Φ-ΐ·) С"1 i =
'-U-i \JV-i. —JV·/
= Σ Σ x«7 (УV -Λ - XrowC-Vrow (10.39)
1 = 1 У-1
260
ЛИНЕЙНАЯ ГИПОТЕЗА
[ГЛ. 10
Таким образом, при гипотезе Н% мы получаем в качестве оценок
параметров вместо (10.24)
R2 = S2_1 X2' у, (10.40)
^3 33-12 3·12·^ ν >
где S^12 задано в (10.37) и Х^у в (10.39); вместо (10.25)
где γϊ = ϋ-1
сто (10.26)
rdi·
(10.41)
= С-1 (уrow — XrowPD; вме-
=тЛу~ — х-Рз);
ГС
(10.42)
вместо (10.27)
Ρ'*Ψ = У'Х^ХГ У + У'КгЧыКгУ + ЙЧм A О0·48)
где
У1- —Уг.
\Vr-l- —Уг
= Yrow^ У row»
β| дается в (10.40) и S|3.12 в (10.37).
Первоначальные параметры эффекта по строкам и столбцам при
гипотезе //2 оцениваются как
p^GiY?, т2г=0. (10.44)
Используя найденные выше величины, мы теперь имеем
c*J(Hly Я,) = β'^β1 — β2'β2β2, (10.45)
где (re — 1— г + 1 — г + 1 — p)o« = yfy— &1'S^1 = ((r — 1)X
x(c_i)_rta«.
Мы суммируем предыдущий анализ в табл. 10.1. J(Нь //2) =:
= (с—1)F, где Z7 имеет /^распределение с rii = c—1 и п^
= (г— 1)(с—1) — ρ степенями свободы при справедливости
нулевой гипотезы //2, заданной в (10.4),
Ю]
РЕГРЕССИОННЫЙ АНАЛИЗ
261
Таблица 10.1
источник
изменчивости
Я,: (Ю-4) !
Разность
Я,: (Ю.З)
Разность
Итог
Сумма квадратов ι
y'y - β^β1 = ((r — 1) (c — 1) —p)e»
У'У
с. с.
r+P
с—1
r + c—1-f-p
|(r —1) (c— 1)— ρ
re
В частности, для обычной двуфакторной классификации без
регрессии, т. е. β£ = β§ = 0, табл. 10.1 сводится к табл. 10.2.
Таблица 10.2
Источник
изменчивости
Среднее
Строки
Столбцы
*1
Разность
Сумма квадратов
yiowC-'yrow^^CV Щ
(jjf + У ;owC_1y row + У^'Усо! =
У'У - (jjf - Уго№С-1Уrow - Уад^УсЫ =
= (r—l)(e —l)e»
J
С. С.
1
г —1
с—1
r-f с — 1
(г —1)(С_1)
262 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10
Можно показать, что [см. (10.23) и задачу 11.5]
У rowC У row = \ — '
с
у\. yt
ГС
уЬ
(10.46)
YcolK Усо1 — ^ —ρ γζ ·
Заметим, что здесь альтернативная гипотеза Ηχ может быть
представлена как пересечение трех независимых гипотез, т. е. Ηχ —
= Hpf)HR0 Н0 где Ημ есть гипотеза, утверждающая, что μ Φ Ο,
HR — гипотеза о том, что ρ φ 0, и Нс — гипотеза, что Χ φ 0. При
нулевой гипотезе //2: μ = 0, ρ = 0, ΐ = 0 мы видим, что
J(HbH^) = J(HlLfHi) + J(HR> HJ + J(Ha Я2),
где
J(H^ HU = F{nx=h щ = (г-1)(с-1)),
J(H^H^) = (r-l)F(nx==r-h щ = (г-1)(с-1))7
J(HC, HJ = {c—l)F(n1 = c—l, m = (r—l)(c— 1)),
J(Hly HJ = (r + c—l)F(n% = r + c—l9 щ = (г—1)(с—1)),
где в свою очередь F{nb щ) имеет F-распределение с пх и л.2
степенями свободы, если справедлива нулевая гипотеза.
При^=1 мы получаем из (10.23), (10.19), (10.24), (10.37) и
(10.40) следующие величины, использующиеся в табл. ЮЛ в
добавление к указанным в (10.46) (см. задачу 11.6):
i = \
ΧόοΐΚ~%ο1 = 2^ ~y- — y~y
У-1
γ- г и _Y Xi'yi- x~y·
X^iR-1yc6i = 2 Τ
7«l
г
rc
rc
ЗАДАЧИ
263
ΙΣ w-Σ ^-2 ^+~
β;
_ re
Ζλ xV~Δ с L ΊΓ^~ re
i—1 У=1 1 = 1 / = 1
fe=i=ii=L i=i . (10.47)
ΣΣ*-Σ£
t = ly = l fel
И. ЗАДАЧИ
11.1. Каково распределение величины J(Hit H2), определенной
формулой (4.3), если нулевая гипотеза не выполняется? [Ср. Андерсон (1958,
стр. 107).]
11.2. Покажите, что SY}SiaS^el = Sr£8S18S7g, где матрицы определены
в (5.6), (5.7), (5.8).
11.3. Подберите матрицы Χα, βα для гипотез Яа, а = 2, 3, 4, 6, 7 в
разделе 8.
11.4. Подтвердите результаты, данные в (10.23).
11.5- Подтвердите результаты, данные в (10.46).
11.6. Подтвердите результаты, данные в (10.47).
11.7. Проверьте, что асимптотическое поведение статистики минимума
различающей информации в главе 10 находится в соответствии с
результатами главы 5.
11.8. Покажите, что
а) /(#„ Я2) в табл. 5.2 равно (п— р) г».,. т >р/(1 — г».,.. ,р), где
Γν·2...ρ является множественной корреляцией^ с х2, ... , хр.
6)J(Hit H2) является оценкой величины 7(1, 2) в (7.18) главы 9 для
выборки в η наблюдений.
11.9. Допустим, что табл. 5.1 относится к выборке, состоящей из п—}— 1
наблюдения, т. е. _у-ки и х-ы центрированы относительно своих
соответственных выборочных средних, и что q=p—1. Покажите, что в этом случае
J(Hlt Я2) = (η —ρ) rjj^g m ш шpl(\ — r*yl,n p)t где ryl.n _ p есть частная
корреляция у с xt.
11.10. Покажите, что величина βχ в (7.7) может быть также выражена
как bi = STl-JLl*y, где SM = Sll^Slfi^Su и X;* = Xi —S^SSX,.
ГЛАВА 11
МНОГОМЕРНЫЙ АНАЛИЗ;
МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
1. ВВЕДЕНИЕ
В этой главе мы изучим критерии линейных гипотез для выборок
из многомерных нормальных популяций, продолжая таким образом
анализ предыдущей главы. В следующей главе мы применим общие
идеи к анализу выборок из многомерных нормальных популяций для
проверки гипотез о ковариационных матрицах и средних значениях,
отличных от тех, которые включались в линейную гипотезу.
Изложение в этой главе не претендует быть исчерпывающим и имеет
большую применимость, чем в рассмотренных специальных случаях.
2. ПРЕДПОСЫЛКИ
Допустим, что две простые статистические гипотезы, скажем Их
и #2, задают соответственно средние значения η ^-мерных
нормальных популяций с общей ковариационной матрицей Σ = (с/у·), г, у =
= 1, 2,..., k. Для η независимых наблюдений (1 χ k матрицы или
векторы), по одному из каждой популяции, выражение (2.17) главы 9
превращается в {ηχ = щ =... = пг = 1, г = п)
2/(1:2, 0я) = /(1, 2; 0п) = tr Σ"1 (ftt δ,' +... + Ьп Ь'п)> (2.1)
где δΙ· = μ*— μ2* с μα., α=1, 2, одностолбцовыми матрицами
(векторами) средних значений г-й популяции при гипотезе Н0, и μί = (μ;ι>
№&···> V4k)> *=1> 2,..., п. (Это было рассмотрено детальнее в
разделе 2 гл. Ю.)
3. МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА
3.1. Предположения относительно модели
Для /-го наблюдения мы имеем регрессионную модель
ж, = у, —Вх„ 1=1, 2,..., η, (3-1)
rmz'i=(zi{7 zi2,..., zik2), y'i = (yiv j/i2>..., yik2\ xl = (xiv xi2 .·■'
*iki)> Β = (βΓ5), r=l, 2,..., k* s=h2,...kb А1<я,Аа<л,Виме-
3. МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА 265
ет ранг min^, £2). Мы можем также изобразить η уравнений
регрессий (3.1) как одно регрессионное уравнение
Ζ = Υ — ΧΒ\ (3.2)
где Zf = (zi, z2,..., ζη), Υ = (yl9 y3,..., yn), Χ = (xt, x2,..., χΛ)>
Χ и Υ' — k%x η матрицы и Xr — kxx n матрица.
Мы предполагаем, что:
(а) Zi — независимые, нормально распределенные, случайные А* X 1
матрицы (векторы) с нулевыми средними и общей ковариационной
матрицей Σ;
(б) величины xfp /=1,2,..., η, j=l,2t..9, klf известны;
(в) X имеет ранг k^
(г) В = В* и В = В2— параметрические матрицы, заданные
соответственно гипотезами Ηχ и //2;
(д) у£ — стохастические k%x 1 матрицы, и £,1(Y) = XB1', £"a(Y) =
= ХВ2'.
При этих предположениях (2.1) превращается в
2/(1:2; 0п) = J(l,2; 0„) = tr Σ'1 ((tfx, -В2х1)(В1х1 — B*xJ +
+... + (В*х„ - В2х„) (В*хя - B2xJ)=
= tr Σ"1 (Β1 - В2) (Xlx't +... -+ x„x'„) (В1 - В2/ -
= tr Σ"1 (Β1 — В2) Х'Х (В1 — В2)'. (3.3)
Как и в главе 10, мы увидим, что при подходящем выборе матриц
X и В получаются разумные модели для многих интересных
статистических задач. [Ср. Андерсон (1958, стр. 211—212; 215—216), Рой
(1957, стр. 82), Уилкс (1943, стр. 245—252).]
3.2. Линейная дискриминантная функция
Здесь мы обобщим представление раздела 5 главы 9. Рассмотрим
^i = o'yi=<4Va + (Wi« + --' + aft2J;ift8» *=1,2,.., л, одну и ту же
линейную комбинацию у-ов для каждого наблюдения. Так как величины
Щ распределены нормально с Сщ = α! Σ α, (3.3) дает для них [ср.
(5.2) гл. 9]
./(1,2; w) =
^ tf(B'Xl - B2xt) (B*Xl - B2xt)r a +... + a' (В'хя - B2xn) (B*x„ - B2xn)'a=
J%'(B*-B2)X'X(B'-B2)'a
Для линейной комбинации, максимизирующей 7(1, 2; w), мы
находим (с помощью процедур обычного анализа), что α удовлетворяет
соотношению (В1 —В2) Х'Х (В1 — В2)'α=λΣα, где λ —наибольший
266 МНОГОМЕРНЫЙ АНАЛИЗ [Гл. и
корень характеристического уравнения
KB1 — В^Х'Хф1 — В2)' — λ Σ | = 0.
Ранг матрицы (В1 — В^Х'Хф1— В2/ не больше чем mm(kb k2);
поэтому характеристическое уравнение имеет p^min(kit k%) ненулевых
корней, обозначенных в порядке убывания Хь λ2,..., λρ. Таким
образом, мы имеем
7(1, 2; 0Λ) = ίΓΣ-1(Β1-Β2)Χ^Χ(Β1-Β7 = λ1 + λ2 + ... + λρ =
= 7(1, 2; λ1) + ... + 7(1, 2; λρ), (3.5)
где λχ· = 7(1, 2; λ|) есть значение (3.4) для α, соответствующего X = Xt·.
4. СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ
Вначале мы установим некоторые факты об оценках параметров
В и Σ из раздела 3.1. [Ср. Андерсон (1951, стр. 103—104; 1958,
стр. 179—183), Лоули (1938, стр. 185—186), Уилкс (1943, стр.
245 — 250).] Минимизация tr Г Ζ = tr (Υ' — ВХ') (V — ХВ') по βΓί
методом наименьших квадратов приводит к нормальным уравнениям
Χ'ΧΒ' = ΧΎ, или ΒΧ'Χ = Υ'Χ, Β = φΓ8) = ΨΧ(Χ'ΧΓι. (4.1)
Величины §rs, г = 1, 2,..., £2, s = 1, 2,..., kb (kxk^ линейных функций
оту-ов)— нормальные, обладающие наименьшей дисперсией,
несмещенные, достаточные оценки рг5. Эти свойства будут введены в разделе
10, равно как и тот факт, что ковариационная матрица ktk2 величин
(U упорядоченных как рш β12,..., |Ц, £*,.., $Uv..., &у,.., $k^b
есть k%kx χ k^kx матрица
/ ou (X'X)"1 ott (X'X)"1 ... сщ (XXp\
(Σ)χ.(X'X)-1=Ι °21 (χ'χ)-1 °м(Χ'ΧΓ1 ··· σ«β(Χ'Χ)"1 \ (42)
\ %ι (Χ'ΧΓ1 °V (Χ'ΧΓ1... σΛΛ (Χ'Χ)"1/
где (Σ) Χ «(Χ'Χ)-1 обозначает кронекерово или прямое произведение
матриц [Мак-Даффи (1946, стр. 81—88), см. также Андерсон (1958,
стр. 347-— 348, Корниш (1957)]. Несмещенная оценка для Σ с (п — kj)
степенями свободы получается из
(η — Α1)Σ = Ζ'Ζ = (Υ — Xfi7(Y — ΧΒ0 = ΥΎ — ВХ'ХВ'^
= ΥΎ — (Υ'Χ) (Χ'Χ)'1 (Χ'Υ).
(См. задачи 12.15 и 12.16.)
Статистика минимума различающей информации может быть
получена замещением параметров популяции в /(1:2) наилучшими
оценками при рассматриваемых гипотезах. (Подробности о сопряженном
распределении для многомерного нормального распределения имеются
в разделах 2 и 3.1 гл. 12.)
СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ
267
Допустим, что гипотеза Н^ не налагает ограничения на В, а
нулевая гипотеза Я2 задает В = В2. Обозначив через В1 решение
уравнения (4Л) при Нъ имеем
2i(Ht:Hi On) = J(Hv Щ Oft) = trS-4Bt-B2)X^X(B1-B7,
(4.3)
где
(л — h) Σ = tz = (Υ — XBlf/ (Υ — ΧΒ1') = ΥΎ — ΒΉ'ΧΒ1' =
= ΥΎ — (Υ'Χ) (Χ'Χ)"1 (ΧΎ).
Статистики вида (4.3) были введены Лоули (1938), Хотеллингом (1947).
В разделе 10 мы также покажем, что
tr ΣΓ1 (В - В) Х'Х (В - В)' = фп - ри,..., hkt - plftl,.. .,
Ριι — Ри \
/,
Li - р*,ь · ·, Ъшг - Ρ*.*ι) ((2-1) х чх'х)).
Pifei — Pifti
(4,4)
Ykaki — $k2kij
Так как матрица, обратная ковариационной матрице (4.2), является
прямым произведением обратных матриц, т. е. ((Σ) Χ · (Х'Х)"1)-1 =
= (Σ~1)Χ·(Χ'Χ) [Мак-Даффи (1946, стр. 82)] мы видим из (4.4), что:
(а) Расхождение [2/(1:2; Оп)] в (3.3) эквивалентно расхождению
между двумя ^з-мерными нормальными популяциями с
соответственными средними (βπ,..., β?*!,·.., β*2ι,·.., β^), α =1,2, и общей
ковариационной матрицей (Σ) χ · (Х'Х)-1 (см. замечание в конце
раздела 3 гл. 10).
(б) Первая часть равенства (4.4) есть квадратичная форма в
экспоненте ^з-мерного нормального распределения §r$9 r =1,2,..., kb
5=1,2,..., kl9 с ковариационной матрицей, замененной на
несмещенную оценку с (п — kt) степенями свободы. Поэтому J(Hb #2; Оп) в
(4.3) есть обобщенное стьюдентово отношение (7*— статистика Хо-
теллинга).
Лоули (1938) по существу показал, что при k%^lt к^ф\ и
большом п7 приближенно
ННь Я* Оп) = tr Σ"1 (В1 - В2) Х'Х (В1 - В2)' = ^ifS^x F*
(4.5)
где F имеет F-распределение при нулевой гипотезе Н% со степенями
свободы пх = [(1 + с) kxk^ и я, = [(1 + с) {п — kx — ki -J- 1)], где
268
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. И
c = (kx—1)(£2—1)/(л — ^ι) и [ ] обозначает ближайшее к данному
целое число. Когда ^=1 или k% = 1,(4.5) выполняется точно. [В
равенстве (4.4) гл. 10 £2=1, ki=p.] Пиллаи (1955) показал, что
приближенно
J(Ни Щ Оп) = tr ΣΓ1 (В1 - В2) Х*Х (В1 - В2)' =
Ms (П — &д с (л ~,
~n — kt — ki — \+2\kbr* I·™'
где F имеет F-распределение при нулевой гипотезе Н% с л, =£,£й
и л2 — &ъ(п — ^i — ^2 — О~Ь 2 степенями свободы. Согласно
асимптотической теории величина J(Hlf //2; Оп) асимптотически распределена
как χ2 с kik% степенями свободы. [Ср. Андерсон (1958, стр. 224).]
С другой стороны, при одной из альтернатив, (4.5) по-прежнему
выполняется, однако F имеет тогда нецентральное F-распределение
с тем же самым числом степеней свободы, что и при нулевой
гипотезе, и параметром нецентральности J(Нъ Н%) = tr Σ-1 (Β1 — В2) χ
X Х'Х (В1 — В2)'. Согласно асимптотической теории, величина J(fih
//2; Оп) асимптотически распределена как нецентральный χ2 с kxk^
степенями свободы и параметром нецентральности J(Hb 7/2) в
случае, если нулевая гипотеза неверна. [О нецентральных
распределениях см., например, Андерсон (1958, стр. 112—115), Вейбулл (1953),
Вийсман (1957), Кемпторн (1952, стр. 219—222), Пэтнайк (1949),
Пирсон и Хартли (1951), Рао (1952, стр. 50), Симаик (1941), Сюй
(1938), Тэнг (1938), Фикс (1949), Фишер (1928) и раздел 6.1 гл. 12.]
5. ПОДГИПОТЕЗЫ
5Л. Подгипотеза с разбиением на две части
Допустим, что параметры разбиты на два множества, и вместо
(3.1) мы теперь рассматриваем
zI = yI — В±хи — В2х2/, ί=1, 2,..., л, (5.1)
ГДе х/ = (Хн, X2i), X\t = (Xib *f*···, *iql)> Хя=(Хцд1+\у,..., *i(qi+qi))>
qi-\-q% = kly B=(B!, B2), В, и В2 соответственно £2X#i и ^Xft
матрицы. Мы также можем изобразить л регрессий (5.1) в виде
полной регрессионной модели
Ζ = Υ —Χ,β; —Χ,Β;, (5.2)
где Υ, Ζ определены как в (3.2), и
\Х21> * · · ι X2rt/ \Х2/
с Х1=(хи, x12l..., xlft), X2 = (x2i, х22,..., Щп), а X! и Х2 имеют
соответственно ранги qx и #2 = £1 — qx.
б. подгипотезы 269
При тех же предположениях относительно ъь как в разделе 3.1,
мы рассмотрим теперь гипотезы:
я1:е1(Ю=х1в;'+ЭД'> ,_
Я2:Е2(У) = Х1ВГ + Х2ВГ. {ό'ό)
Тогда (3.3) дает
2/(1:2; 0„) = J(1,2; 0„) =
-«-«-вяв-ч)(£^1^),(")
где
_/χ;\ _/χίχι χίχΛ _ /Su sM\
x'x-\x;j(x» χ^-^Χι χ;χ2;-^ s22J-5·
Нормальные уравнения (4.1) при Ηχ превращаются в
^A'KSl1 £)=°РХь νΧΛ (5·5)
или
(5.6)
Из (5.6) мы находим [ср. (5.7) и (5.8) гл. 10]
Ъ\ = Y'X^S-,, В} =УВД - ejSttS-', (5.7)
где AS.1 = XJ — XtSjjSja, SiS.1 = Sffl— SjjSjjSu.
Оценку Σ мы получаем из (4.3)
С
n-*l)2 = Y'Y-(B;( Ц^ ^)(|L). (5.8)
Пусть мы теперь желаем, в частности, проверить нулевую
гипотезу
Я3:В = В3 = (В*, 0), (5.9)
т. е. Bg=0, без ограничения на WV против альтернативной гипотезы
Л1:В=В1=(В;, В'), (5.10)
не ограничивающей параметры.
При Hi мы имеем (5.7) и (5.8). При //3 нормальные уравнения
(4-1) дают
BJSu = Y%, B\ = YXJSTJ. (5.11)
270 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11
Мы оцениваем J(l,2; Оп) в (5.4), заменяя параметры наилучшими
несмещенными оценками при рассматриваемых гипотезах, так что
нни я3)=trΣ-чβ5-β^βD(s;;s;;)((δllвTβ?))· (5л2)
Из (5.7) и (5.11) находим [ср. (5.10) — (5.13) гл. 10]
-fvx.AlxX'^Y, (5ЛЗ)
Хнь ^)=trS-1fi1SBIr —trS-^Su6f. (5.15)
Можно проверить, что
X^XiX^S^X^^O (5.16)
и, так как Х^Х^ = S22#1,
(}п ^1^и Xi Х2.1^22.1^2·ΐ) ^2-1^22-1^2-1 = ^ fi.l ^)
Λ
(где 1п есть я χ я единичная матрица), т. е. что множители Σ-1 и
Β^.ιΒΓ в ДМ> ^з) независимы.
Полученное выше сведено в табл. 5Л и 5.2.
Таблица 5.1
Источник
изменчивости
Я,:В' = (В!,0)
Разность
//,ιΒ^ίΒΐ, в2)
Разность
Итог
Сумма квадратов
"2^22·1**2 === * ·Λ·2.1022·1·Λ·2.1 Υ
frX'XB1' = Υ'Χ,βΓ/Χί Υ + Y'XwSrA Αι Υ
ΥΎ ~Β*Χ'ΧΒ* = (л — /?0 £
ΥΎ
с. с.
Яг
η—ki
η
ПОДГИПОТЕЗЫ
271
Таблица 5.2
Статистика
Распределение статистики
Нулевая гипотеза
J {Иг, Ηύ =
= trS~161X'Xft1'
Ни» #.) =
= trS-»fe»SiM6j'
η1 = ΙΜ»(1+<!ι)]
n,= [(n-ft1-ft, + l)(l+ct)l
βι = (*ι—!)(*. —1)/(η-*.)
Γ / И f-f \ ^2 2 (И *ΐ) τ?
«, = [(«-*!-*,+ !) (1+c,)]
c2 = (fr ~ 1) (К — 1)/(я — *t)
B = B2 = 0, т. е.
BJ = ft Bf = 0
B = B« = (BJt0)f
т. е. В| = 0
6.2. Подгипотеза с разбиением на три части
(Ср. раздел 5.2 гл. 10.) Если подгипотеза требует разбиения
матриц X и В в три подматрицы Х = (ХЬ Х2, Х3), В = (ВЬ В*, В3), мы
получаем из (4.1) решения
где
"3 * ^3·12^33·12>
В2 — (Υ Х2#1 — Вз^зз^) 822>1,
Bj = (Υ'Χι — B2S21 — B3S31) S~l,
(5.18)
/$n S12 S13\
S =( S21 S22 S23 J, S^ = X/Xa, t, i/=l, 2, 3,
. «*,ai ~ш ~23 j,
\S31 S32 S33/
- β β c-i с
:S33 — S31S11S13,
'32-1 —- ^n S31Sn S12 — Sgg.j,
^22-1 ^22 -
SaiSuSia,
Мы также имеем [ср. (5.21) гл. 10]
fcfr=увддо+y'X^s-.xuy+b3s83.12b;=
=y'x1s-1x'1y+y'x8.16;+y'x3.13b;, (5.i9)
272 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. Π
где последний вариант записи удобен, когда данные являются нецентри-
рованными наблюдениями и Хц=1 для всех /. (См. задачи 12.11
12.12, 12.13.)
6. СПЕЦИАЛЬНЫЕ СЛУЧАИ
Для иллюстрации разделов 3, 4 и 5 мы рассмотрим некоторые
интересные специальные случаи.
6.1. Обобщенное стьюдентово отношение
(Т2-статистика Хотеллинга)
Допустим, что мы имеем случайную выборку в η независимых
наблюдений из многомерной нормальной популяции и хотим проверить
нулевую гипотезу Нъ точно определяющую средние значения
популяции против альтернативной гипотезы Нъ при которой средние
значения отличаются от заданных. (См. раздел 3.1 гл. 12.)
Матрицы в регрессионных моделях (3.1) и (3.2) задаются
гипотезами Н± и //2 как
tf^B^B^p*.1 ), tf2:B = B*=J^ I (6.1)
W/
χί==(1), Х' = (1, 1, .., 1),
где X' — 1 Χ η матрица. Мы находим, что Х'Х = п, Y'X = y1~|-ySi~|-
\nyj
Нормальные уравнения (4.1) тогда дают
(6.2)
и [см. (4.3)]
{n-l)± = YY~nnr = (Xiyij-yj)iyii~-yi))-
= NSyy, N=n — ly j9 /=1, 2, .., k% (6.3)
где Syv есть A2 X k% несмещенная оценка ковариационной матрицы у-оъ.
6] специальные случаи 273
Так как В2 задано, из (4.3) получаем
) (Ну Ш=tr Σ"1 (у — В*) η (у - В2)' = л(у — В*)' Σ"1 (у - В2). (6.4)
Заметим, что J(Hb H%) является обобщенным стьюдентовым
отношением (Г2-статистика Хотеллинга) (см. раздел 4 этой главы и
раздел 4 гл. 10) или, если в (4.5) положить k1=li
J(Hb H^={n~^F, (6.5)
где F имеет F-распределение с щ = к% и щ = п — k% степенями
свободы при нулевой гипотезе /72 из (6.1). [Ср. Андерсон, (1958, стр. 107),
Рао (1952, стр. 243).]
6.2. Центрирование
[Ср. (5.14—5.19) гл. 10.] Мы можем явно ввести среднее
значение у£ в (3.1), полагая хп=19 ί=1, 2, ..., я, так что матрица X'
в (5.2) разбивается следующим образом:
Х'=1 Т5 ""V" Τ I = (χ/), ΧΊ=(ΐι ι,..., ΐ), ι χη. (6.6)
^Xtkt X2kt Xnkj
Как и в формулах (5.14) — (5.17), мы тогда имеем
(П ; ПХъ . .. ПХкА
?: sS2 1 <6·7>
SM = #, S12 = {JIX% .. ., tlXklh
η
/, /=2, ..., ^ N=n—l.
$Xx есть несмещенная оценка (&t — 1)Χ(^ι — 1) ковариационной
матрицы χ-ов)
^.i=Xs —XtS-,SM=((Jiriy — Xj)), 1=1,2, .... я, у = 2, 3, ..., *t.
274
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. и
Из (5.11) мы выводим, так же как в (6.1), что [ср. (5.18) и (5 19)
гл. 10] ' }
1
YfXi = (yi, У*·-, Ул)
1
= яу = я
в?=у,
(6.8)
ух>
Υ Χ2β1 — Υ Х2 — η \ · J (x%, х&..., Xkj) —
кУъ /
= (.§ Oty —У/) (реи — хд) = NS.
у=1, 2, ..., kb 1=2, 3, ..., kb
(S^ есть несмещенная оценка k^\{kx— 1) матрицы ковариаций у-ов
с лг-ми, причем S^ = S^).
Для разбиения, заданного формулой (6.6), табл. 5.1 заменяется
табл. 6.1.
Таблица 6.1
Источник изменчивости
Средние
Я2:В2 = (В|, 0)
Разность
Разность
Итог
Сумма квадратов
BfSuBf' = «yy'
ШХ'ХВ*' = nyy' + Y'X^S^X^ Υ
Y'Y— ΒΉΧΒ1^ (n— kj) 2
ΥΎ
с. с.
1
η—kx
η
Если мы центрируем у-ш и х-ы относительно их соответственных
выборочных средних, анализ в таблице 6.1 принимает вид табл. 6.2
НИь Я2)=МгГ Syxs2sxy=^^J^i^mF имеет F-pac-
пределение с [(kt — 1) А2(1 + с)] и [(п — kt — £2 -f ΐχΐ + с)]
степенями свободы, с = (^ — 2)(£2 — 1)/(л — ^ι), при нулевой гипотезе
В = В2 = 0. [Величина J(Hb Я2) асимптотически распределена как %
с (£t—l)k2 степенями свободы.]
СПЕЦИАЛЬНЫЕ СЛУЧАИ 275
Таблица 6.2
Источник изменчивости
Многомерная регрессия
Разность
Итог
Сумма квадратов
{n — kt)%
NSyy
С. С.
η—kx
л —1
Более общим образом, если мы центрируем _у-ки и х-ы относительно
их соответственных выборочных средних, то анализ в табл. 5.1 в
существенных чертах сохранился бы с тем исключением, что η
заменилось бы на η — 1, kx на kt — 1 и, конечно, qx + q% = kx — 1.
6.3 Однородность г выборок
Допустим, что мы имеем г независимых выборок, насчитывающих
соответственно пь /=1, 2..., г, независимых наблюдений из
многомерных нормальных популяций с одной и той же ковариационной
матрицей. Мы желаем проверить нулевую гипотезу #2 о том, что г
матриц (векторов) генеральных средних значений равны, против
альтернативной гипотезы #ь что матрицы средних значений не все равны.
[Ср. (6.15) —(6.24) гл. 10.]
Регрессионная модель для г-й выборки записывается как [(ср. 3.2)]
ζ^υ,-χ,β;, (6.9)
где
Zj = (Ζл, Ζ £2, . . ., Zin,·)» zij = (Zijbzijb * · · у zijk^y
Y* = (Уа, У»..., УiH\ ylj = (Уць Уцъ · · ·» У'ф^
χ;=(ΐ,ι,..., ι), ixnh в;=(р|Ь р,*..., $ikj,
ί=1, 2,..., г выборок, 7 = 1, 2,...,щ наблюдений.
альтернативная гипотеза формулируется как
Я,: ВГ = ®и, β» · · · ,β«*2), ί = 1, 2,..., г, (6.10)
и нулевая гипотеза однородности — как
Я2:В2' = В.' = $.„ β.*..., Μ. ί = 1, 2,..., г. (6.11)
Мы можем записать регрессионную модель при Я! объединенно
Для г выборок как
Ζ=Υ — ΧιΒν, (6.12)
276 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. и
где
z'=(Zi, zl..., ζ;), γ'=(Υί, vi..., y;),
/Χι 0 ...Ο1
χΐ'=| °: Χ*'° Ι » = (В1>В»...,ВД
ο ο χ;^
При tf2 регрессионная модель, объединенная для г выборок,
записывается как
Ζ = Υ —X2 В2', (6.13)
где Ζ и Υ определены так же, как в (6.12), и Χ2' = (Χί, Χ%...,Х'Г\
В2 = В. Таким образом, имеем при Η ι
ίχ[Χιχ'χ °\ h °- ^
χι-χι= · XsX* · =(: : :\ (6.14)
\ ό ."::kxJ ^° °···^
Υ' Χ1 = (Υί Хь Υ2 Χ*... ,Υ; ΧΓ)=Oh η щ у„..., nrVr), (6.15)
где Уг = (Уп, У η, ···, ytkj, Щуи =уш -\-ут +... +Л«гг·
Нормальные уравнения (4.1) выглядят как
/«!0 ... 0
δ1
0/19 -0 ■ = (/!,?„ /ЦУ*...,Я^Д (6.16)
\0 0 ...nj
или
(й^ь йД, ..., ИГВГ) = (И1У1. "аУа. •••.«гУ/·).
т. е. Вг = уг. Из (4.3) получаем оценку для Σ:
(и—γ)ς=υύ — filxl'xlfil'=YiY1+ ... +υ;υγ—
/4--.oWyi\
-(Vi,?b..,Vr)\ ■ ■ · i MYlVi-^y^+.-.+YrYr-
— »ryry;=MSt+ ...+NrSr = NS, (6·17)
где Л^ = иг —1, «==nI + «5!+ ... +/г„ N=M+№+ ··· ~·
-\-Nr=n—г и Sf есть несмещенная оценка ковариационной матриИь
_у-ов внутри z-й выборки.
6] специальные случаи 277
При Н2 мы имеем
χ^Χ^ΧίΧιΗ- ... + х;Хг = я1+«2+...+и;.=и, (6,18)
у'Х* ==yi% + y^s+ ...+ У;хг=п1у1 + и2У2 +...+nrfr=ny,
у' = 0М,J-2, · · ·, У.кЛ пуа = щуи -j- «ajy -f ... -f /Vj7rt, /=
= 1,2,..,^. (6.19)
Нормальные уравнения (4.1) теперь дают
яВ. = лу. (6.20)
Поэтому мы имеем [ср. (2.17) гл. 9]
/4 0 ... 0\
ЛМ, ^^tri-H^-B., в2-в.,..,вг-6.)Ρ'"0 χ
\00 ...ηΓ/
Χ ^Γ^0' =trf-i(«,didi + .·. +"Ad;)=trS-1S*, (6.21)
\(Β,.-Β.)7
где di = yi —у, S определена в (6.17) и S*=nIdidi+... +ΜΛ
есть умноженная на (г—1) несмещенная оценка ковариационной
матрицы J7-OB.
Заметим, что
/и10...0\/(ё1-В.)'\ /«ι 0...0\
Фг~Ь„..Лг-Щ .···)[ \ )=Фь..Л)[ · · · · X
\оо...пг!\фг-ку; \оо ...nj
/Βίλ
χ : ] — «в\в:=itowfi*—frx^B4'. (6.22)
Мы можем записать [ср. (6.6) гл. 10]
кнъ Ηύ = tr Σ-ΨΧ^Χ1^—tr Σ^Χ^ίΚ (6.23 )
[предыдущее суммируется в табл. 6.3 (ср. табл. 6.2 гл. 10).
Записывая табл. 6.3 в обычной для дисперсионного анализа форме,
иы получаем табл. 6.4. J (Нь Ηύ= trS^S*= ^"У^Г? ^>™e
^ имеет F-распределение с [(г — 1)^(1 + с)] и [(я—г —£2+*)Х
М1 + с)] степенями свободы, с =(г — 2)(£2 — 1)/(я — г), при справед-
Ивости нулевой гипотезы Я2 из (6.11). Асимптотически величина
278
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. Π
J(Hb #2) распределена как χ9 с k%(r — 1)степенями свободы.[Ср.
непосредственный вывод у Кульбака(195б, раздел 5).] При г = 2 см
задачу 12.14 и Андерсон (1958, стр. 108—109), Рао (1952, стр'
73 — 74).
Таблица 6.3
Источник
изменчивости
Я2:В.
Разность, между
Разность, в
пределах
Итог
Сумма квадратов
пуу'
П&61+ ... +nruru'r=S*
ΥΎ —"ιΥιΥί— ··■ —η№ί = Νι$ι+ —
... +NrSr = NS
Υ'Υ
с. с.
1
г
n—r
η
Таблица 6.4
Источник изменчивости
Между
В пределах
Итог
Сумма квадратов
ΥΎ—пуу
С. С.
г —1
п — г
л — 1
Статистика вида trS-1S* была впервые введена Лоули (1938)
и Хотеллингом (1947, 1951). Асимптотическое поведение
распределения этой статистики было исследовано Ито (1956), который дал
асимптотическое выражение для процентных точек этого распределения
через соответствующие процентные точки χ2 распределения с (г — 1)#з
степенями свободы.
6.4. г выборок с одной и той же ковариацией
Допустим, что мы имеем г независимых выборок, насчитывающих
соответственно по пь i = 1, 2,..., г, независимых наблюдений из
многомерных популяций с одной и той же ковариационной матрицей·
Мы рассмотрим некоторые гипотезы, более общие, чем в разделе 6.3·
6] специальные случаи 279
6.4.1. Критерий значимости регрессии. Допустим, мы хотим
проверить нулевую гипотезу //2, что не существует линейной
регрессии, против альтернативной гипотезы Нь что существует общая
линейная регрессия в г выборках.
Для i-й выборки регрессионная модель записывается как [ср. (3.2),
(6.9)]
Ъг = Y, - ХпВ'п ~ Х£2В:2, (6.24)
где Ζ£, Υ, определены в (6.9),
χ/ι=0, ι,...»ι), 1Хщ, в;1==(рш> pni>...,piftii),
Xf2 = (Xil» Xtb · · · у х£лД *iJ = (XiJb ·..» xijk^)>
1=1, 2, ..., г выборок, /=1, 2, ..., я,- наблюдений
Β·* = (βΜ)> P=U 2, ..., Λ* q = 2, 3, ..., Λ1β
Альтернативная гипотеза общей линейной регрессии
формулируется как
#ι:Βί; = (βΙιι. βί,ι,...,ΡΜ. Bi« = W.
p=l, 2, ..., kbq = 2, 3, ..., fcu (6.25)
и нулевая гипотеза отсутствия регрессии — как
И,: В·; = (р?и> βϊΜ, ... .pfajO, B?2 = 0. (6.26)
Мы можем записать объединенную регрессионную модель для г
выборок при Ηχ как
Z = Y-XiBif —ХЭД', (6.27)
где Ζ и Υ определены в (6.12),
fXlfi ... 0
, . U -«Цц ... U |
Χί = I ·. ;л : |> XJ == (Χΐ2> Хде> · · ■ > Хгз) *
,0 0 Х'п
В{ = (ВЬ, В5ь .... ΒίΛ B£=B.S.
При //2 объединенная регрессионная модель для г выборок
записывается как
Z=Y — XfBf, (6.28)
где
Ζ и Υ определены в (6.27), Х{ = Х\' и Bf = (B12I> ВЬ В*,).
280 МНОГОМЕРНЫЙ АНАЛИЗ
Таким образом, мы имеем [ср. (6.14)]
ι 0 л*...0 ,
Xir γι Υ2 V2 Qi Q2
t Λχ — Λχ Λχ ] Ъц — 3ц,
1гл. и
xj xj=l
/XuXi2>
Χ$ιΧ22
fn1x1
э12>
(6.29)
(6.30)
ГДе Щ%1 = Xit -f- Х**2 -j- · · · ~~Γ Χ/»ί ===: (-^ί·2ί ^i-3> · · ·» ^i-ftj)» ^t-p=== -^ίΐρ H~
+ -^гзр ~г · · ·"г -^ϊλ,- ρ*
гх;=(у;хш γ;χΜ,..., урс#1)=(л1у1, /^у»...t /vyr)=irx;, (6.31)
где у * определены в (6 Л 5),
п.
у х;=(γ;χΜ+γ;χ„+...+υ;χγ2)=ii уν х'г/ =.
ϊ=ι y=i
я.
= (ΣΣ УшХцЛ ί=1, 2,..., ft„ о = 2, 3 ftlf (6.32)
,-=ι /=ι
X'.1 = X»-XiSi71Sl2=
Xl5 ХцХЛ
■ Xs A i —
\Χ/·2 XrlX/*/
#1/112 -^12 Х\п\Ъ -#13 · · · Χ\ηφγ X\k\
#212 #22 #213 #23 · · · #21 k\ #2fci
#2/i22 #22 #2п23 ~ #23 · · · #2nsfti ~ #2£i
Xr\% Xr% #ri3 — #гз · · * #rifti ~ %rk\
#/-nr2 #/-3 #/7i/3 ^r3 · · · Xrnrk\ #rftij
nX{h-\), (6.33)
V
т. e. XJ#1 есть я X (fti — 1) матрица лг-ов, центрированных относитель-
6] СПЕЦИАЛЬНЫЕ СЛУЧАИ 281
но своих соотвегственных выборочных средних. Из (6.33) и (6.31) имеем
гхи=γ;χι2 - γ;χιιχ;+- -+γ^ - γ^χ,ιχ; =
=Υί*ι*—rtfi*i+...+γ;χ,2—nryx=
= N^ + ... + N^ = N8^ (6.34)
где Νί = Πι — 19 Ν= Μ + Μ + ■ · · + Κ> $iyx есть несмещенная
оценка £2 X (#ι — 1) матрицы ковариаций у-ов и л;-ов внутри i-Vi
выборки и 8^ = 8^,
Sk ==: Х2ГХз = Xl2 Xl2 "Т" Х22 Х22 -[-...-{- Х/-2Х/-2 =
= 8Ш -|- S222 -f-... -f- Sr22, (6.35)
где Sl22 = Xi2 X/2, / = 1, 2..., r,
S22-1 === ^22 $21 S ц Sj2 = S22 (#lxl> #2X2> · · · > ^rXr)
($122 ~~ #1X1 Xi) ~Ь ' ' ' 4~ @V22 —' ^гХгХг)
= MS^ + --- + ^S^ = ^S^, (6.36)
где Sixx есть несмещенная оценка ковариационной матрицы лг-ов внутри
/-й выборки.
Из (5.7) и (5.11) мы имеем
ъ\^Y'x^sy.,, ъ\=&19 уа>..., yr) —Bi(xlf χ*..., χΓ),
fi? = (ylf Уа>...,уг). (6.37)
Из (5.8) и (5.13) мы имеем
(П - h + 1 - г) 2 = ΥΎ — пДД[ —... — пг?гуг — BJsJm В*' =
= NSyy — B2S!swBj', (6.38)
где NSyy = NjSiyy -f... + NJSryy и Эу/у есть несмещенная оценка
ковариационной матрицы у-ов внутри Z-й выборки [ср. (6.17)].
Таблица 6.5
Источник
изменчивости
#2: (6.26)
Разность
#Г-(6.25)
Разность
Итог
Сумма квадратов
ηιΥι9'ι + - +пъУгУ'г
NSyy^-BlSl2.1Bl, = (n-kl + \~r) t
ΥΎ
с. с.
г
/?!—1
fti —1 + г
/г—ftj-f-l — Г
η
282
МНОГОМЕРНЫЙ АНАЛИЗ
UX ιί
Мы подводим итоги проведенного анализа в табл. 6.5 (ср. табл. 5 η
J(Hlt Щ _ trS Β^ηΛΒ2 = „_Λι + 1_Γ_^+1 г, где р
имеет ^-распределение с [{kx — 1) k% (1 -f- с)] и [(η — &ι — k% — r-\- 2) у
Χ (1 -j- с)] степенями свободы, с = (kx — 2) (£2 — 1)/(я — ^ι + 1 —- г)
при нулевой гипотезе //2 из (6.26). Асимптотически величина J{Hb И)
распределена как χ2 с £2 (kx — 1) степенями свободы.
6.4.2. Критерий однородности средних значений и
значимости регрессии. Если вместо нулевой гипотезы #2 о том, что
регрессия отсутствует [см. (6.26)], мы хотим проверить нулевую гипотезу,
что регрессия отсутствует и средние значения однородны, против
альтернативы Нь заданной в (6.25), мы должны рассмотреть нулевую
гипотезу //3:
^4·Β|1 = Β.'1 = (β.11, β.21> ..., β.Λ ι), Β?2=0.
(6.39)
Результаты для Η± уже введены в разделе 6.4.1. Результаты для
//3 подобны тем, которые получены в разделе 6.3 для //2, т. е.
Х| = (Х11, Х21, ..., Χ/ΐ),
§ц = Xf Xt = XjiXii -f- . . . -f- XrlXrl==: nl ~\· "~\ ftr=1t,
у^=у;хи+...+у;хг1=п1у1+^У2+...+ягуг=пу,
яВ.! = пу. (6.40)
Таблица 6.6
Источник
изменчивости
Я3:(6.39)
Разность
Я2:(6.26)
Разность
Ях: (6.25)
Разность
Итог
Сумма квадратов
пуу'
"!?!?;+- +nryry'r
NSyy —§184ΜβΓ = (AT— ft» -f 1) Σ
ΥΎ
с. с.
1
г
/г
СПЕЦИАЛЬНЫЕ СЛУЧАИ 283
61
Мы суммируем анализ, относящийся к Нь Нъ Н3, в табл. 6.6,
яе SyV есть матРИ1*а S* в табл. 6.3 (мы обозначили ее так, чтобы
показать отношение к j-ам).
J (Hi, Ш — IT 2л [Ъуу -f- ВДв-ДО ) — (yv ^^ __j__ χ ^s—J— I) '
гДе F имеет F-распределение с [(^i-f-r— 2)£2(1 -\-c)\ и [(Ν—kt —
__£2_|_2)(l-f-c)] степенями свободы, c:=(£1-}-r-—3)(£2—l)/(N—h~{-l)
при нулевой гипотезе Нъ из (6.39). Асимптотически величина
распределена как χ2 с (^i-f-r— 2)£2 степенями свободы, выражение
trS-1S|y ПРИ (Г—1)^в степенях свободы служит критерием
однородности и tr Е^ЩЗ^Щ' при fa — 1)^2 степенях свободы—критерием
значимости регрессии.
6.4.3. Критерий однородности в предположении значимости
регрессии. Предположим, что имеется одна и та же линейная
регрессия во всех г выборках. Мы хотим проверить нулевую гипотезу
однородности средних значений. Альтернативная гипотеза определяется
как Их из (6.25) и нулевая гипотеза — как
Я4:В|1' = В:1 = (р.11, Ub ..., β.*2ΐ)> Βί,=(β^),
/7=1, ..., kb q = 2, ..., k±. (6.41)
Результаты для Нх выведены в разделе 6.4.1.
При гипотезе //4 мы видим, что [ср. (6.27) и (6.40)]
Х1=(Х119 Х^, ..., ХГД Х2 =(Χΐ2> Хаз» ···> Xz-a)» (6.42)
так что [ср. (6.40)]
84и = я, YXl = ny (6.43)
и [ср. (6.32), (6.35)]
Sfti=S1M + S« + ... + Sf«l ΤΧί = (Σ ЕЛ/Л/Л (6.44)
/= ι y= ι
ί=1, 2, ..., kb u = 2, 3, ..., kv
Мы находим также, что [ср. (6.30)]
i Λ2 = SJ2 = Х'пХп -(- XgiXsS -}-... + XriXr2 =
= я^ -(- я^ + · · · + пЖг — η*'- (6.45)
Таким образом, имеем [ср. (6.33)]
/^*Д /Xll\ /Xl2 Хц^'\
Χϊ·ι =* X* - Xjsf^Si, = Ι ?* Ι — [ ?м J Xf = Ι X** Τ X**' ], (6.46)
iX
rV
284 многомерный анализ ira ц
т. е. XJ.! есть η χ (kt — 1) матрица лг-ов, центрированных относительно
своих соответственных средних значений, посчитанных по
объединению выборок, и [ср. (6.34)]
Y'X|.i = YjXhj — Y[Xn%r -{-... -j- YrXr2 — YrXriXf =
=y;x12 — n^r+...+γ;χ^ — nryrr=
=y;x12—/ity л+...+υ;χ^—nryrxr+
+ ntf&l + - - - + nryrxr — пух! = N$yx + S**, (6.47)
r
где Syx определена в (6.34), S$x= ^ Щ (y£ — y) (xt — x)'> причем
S*^ = S*j» S** есть ^2X(^i—1) матрица, пропорциональная
несмещенной оценке матрицы ковариаций между у-ми и дг-ми, и [ср. (6.36)]
^22*1 == ^*22 ^21^11 ^12 == ^22 ΛΧΧ = Ь^^З ~Т~ · · · ~|~ ^/*22 ЯХХ =
= S122 — ял^ -)-... -j- S^a — nrxrxr -j- njX^ -f-...
.,. + λ,Χ/Χ; — «XX' = ^VS*P + Si*=SJa.1 + SiJe, (6.48)
r
где S^ определена в (6.36) и S**= ^ #i(x*— ^)(Xi— x)'·
i = l
Из (5.7) мы тогда имеем
В* = YXUsCu В? = у - В*х, (6.49)
где YfX2-i и Sn.t даны соответственно формулами (6.47) и (6.48).
Мы суммируем анализ, относящийся к Ηχ и //4, в табл. 6 7.
J {Hi, //4) = tr Σ"1 {Syy -\- BaS82alBa — B^S^g^B^ ) =
_(r —1)M#—*i + Oc
где F имеет F-распределение с [{г — 1)^(1 + с)] и [{Ν— kx — fta + 2)X
Χ(1 -f-с)] степенями свободы, с = (г — 2)(&2 — 1 )f{N —kx+l), при
нулевой гипотезе //4 из (6.41). Асимптотически величина J{Hb tfi)
распределена как χ2 с k%{r — 1) степенями свободы.
Заметим, что в обычном для дисперсионного анализа соотношении
между суммами квадратов, «полная» сумма = «внутривыборочная»4~
«междувыборочная сумма», мы можем положить
Y'Y — nyy' = S$ = NSyy + S$y,
^хх === Nbxx —ρ Ъхх,
S% = NSyx+S*x. (6-5°)
каноническая корреляция 285
реличина (N— k± -f- 1) Σ == NSyy — NSy£xxSxy вычисляется через
«внутривыборочные» величины, а
Syy -\- В^а-А — Ba^aa-iBsi = &уу — (Sj/JS!* S*^ — NSyxSxxSxy)
вычисляется через «междувыборочные» величины и разницу между
«полным» выражением и «внутривыборочным».
Таблица 6.7
Источник
изменчивости
Я*: (6.41)
Разность
ft: (6.25)
Разность
Итог
Сумма квадратов
nyy+ftlSjUej'
iVSj.j, - 6lSlwe>' = (Ν— ft, +1) Σ
Υ'Υ
с. с.
*1
г —1
ft,—1 + r
Ν—ft,+ l
π
7. КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ
Мы теперь рассмотрим критерии гипотез, связанных с
канонической корреляцией, определенной в разделе 7 главы 9. Нам
потребуются результаты анализа, приведенного в табл. 6.2.
Для у-ов и лг-ов, центрированных относительно своих
соответственных выборочных средних, мы имеем, согласно анализу, приведенному
в табл. 6.2
J{Hl9 ^ = (n — kOtx^yy — Syfix^xy)^SyxSixSxy (7.1)
Допустим, что мы, как в разделе 7 главы 9, примем у-ш за второе
множество k% величин и дг-ы за первое множество (кг— 1) величин; вся
популяция (kx—l)-f-^9 величин разбивается на эти множества. Если
мы запишем в соответствии с системой обозначений раздела 7 главы 9
у у ~ Э22, Ъух = 5>21, Ъхх = Оц, Ъуу ОухЪххЪху = Sa$ ^21^11 ^12 == §22·1>
Т0 (7.1) превращается в
J{Hb Ηύ = (я — Αι) tr Si^SatSTi^a, (7.2)
оценку параметрической величины (7.5) главы 9.
Мы можем также выразить J(Hl9 //2) как (я — kx) раз повторен-
Ую сумму k% корней (почти всюду положительных)
характеристического уравнения
I SaiS^Sjg — /Saa.i I = 0, (7.3)
286 МНОГОМЕРНЫЙ АНАЛИЗ j
причем мы предполагаем, что &2^^ι — 1» так что ранг £2Х£2 мат
рицы S2iSjiS12 равен £2.
Заменяя S2a.i в (7.3) на
$22 —· S^iS^ Sig, мы находим
I $218и S12 —■ /S^.j | = 0 = | S^S^ S12 — r S221, ^7 ^
где /=r2/(l—r2), r2 = //(l+/). Величины г, таким образом опреде.
ленные, являются наблюденными значениями коэффициентов канониче,
ской корреляции Хотеллинга [Хотеллинг (1936); ср. (7.11) гл. 9].
Таким образом, мы можем записать (7.2) как [ср. (7.16) гл. 9]
J(Hb Ηύ — {η — kx) tr S^S^S^ = (л — kx) (4 + 4 +... -f /Й2) ^
=(«-^(τ^+ϊ^+··-+τ^- <w>
Для нулевой гипотезы //2:В2 = 0 результаты эквивалентны
результатам для нулевой гипотезы, утверждающей, что в ((£х—1)-|-
^-мерной нормальной популяции множество первых^ — 1) величин не
зависит от множества последующих k% величин (эта гипотеза
рассматривалась в разделе 7 гл. 9). [Ср. Андерсон (1958, стр. 242), Сюй (1949,
стр. 391—392).] (См. раздел 3.6 гл. 12.)
Заметим, что члены в (7.5) зависят только от выборочных
коэффициентов корреляции, так как, если элементы матриц Su, S12, S22
выражены через стандартные отклонения и коэффгц^енты корреляции,
можно показать (это предоставляется читателю), что стандартные
отклонения сокращаются и
J(HU Щ = (я — kx) tr R^RuRriRi» (7.6)
т. е. выражается через соответствующие корреляционные матрицы
8. ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
8.1. Однородность г выборок
Выборки и гипотезы заданы также в разделе 6.3. Мы xonw
провести анализ линейной дискриминантной функции, описанной в
разделе 5 главы 9. Мы разыскиваем линейную дискриминантную функции
Щ] = «'У ,7 = ojjtyi + <ЧУ т + · · · + «**>Ί/** (8Л)
i=l, 2, ..., г, 7=1, 2, ..., я-, где уг/ определены в (6.9), т. е
являются линейными комбинациями у, одними и теми же для кажд°
выборки. [Ср. Бинэ и Уотсон (1956), Рой (1957, стр. 95—104).] ^
Таким образом, мы получаем для величин wtj в качестве oueHKi
параметра в (5.5) главы 9 (ср. (6.21))
Ни, и, *=*£■ ^
ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 287
8]
Значение а, для которого величина J(Hit Я2; w) максимальна,
удовлетворяет равенству
у S*a = /Sa, (8.3)
ПР /—наибольший корень характеристического уравнения
Где «-
|S* —S| = 0, (8.4)
которое имеет (почти всюду) ρ положительных и (k%—ρ) нулевых
корней, причем p^mm(k%y г—1). Обозначая положительные корни
в порядке убывания 1Ь 4 ..., 1р имеем
1(Ни Wi) = trS-*S* = /1 + 4 + ... + 'p =
= J(Hl9 Щ /,) + ... + /(#„ Я2; lp\ (8.5)
где J (Ни Η& Id — h есть (8-2) Для α, удовлетворяющего (8.3) с /=/j.
Различающая эффективность линейной комбинации, соответствующей
1Ь может быть определена как (см. раздел 6 гл. 3 и раздел 5 гл. 9)
Эфф.(/,)= '%*» - ,,+ί,j...+ff ■ Р.6)
Асимптотически при нулевой гипотезе однородности Н% из (6.11)
мы имеем х2-разложение [ср. Рао (1952, стр. 373)]
J(Hh Я2; Ip) = lp \k% — (г — 1)|+1 степеней свободы
S(Hb Щ /р-1) = 1р_х \К — (г — 1)1 + 3 степеней свободы
^-^ ■ ■ - ^ - · · · · (8.7)
j (ни я*)=4 + 4+...
... + 1р=tr S-1S* £2 (** — 1) степеней свободы.
Это следует понимать в том смысле, что сумма /т+1 +... + 1р
асимптотически распределена как χ2 с (k^ — т) (г — 1 — т) степенями
свободы, но что /т+1, ..., 1р имеют асимптотические независимые
Ζ-распределения. (См. раздел 6.4 гл. 12.)
°·2· Каноническая корреляция
4Ср. Марриотт (1952).] Выборки и гипотезы заданы так же, как
в разделе 7. Мы хотим провести анализ линейной дискриминантной
Функции, описанной в разделе 3.2. Мы разыскиваем линейную дискри-
*инангную Функцию
^^ = ^ + ^4-.,+^^ /=1, 2, ..., я, (8.8)
• одну и ту же линейную комбинацию j/-ob для каждого наблюдения.
288 многомерный анализ [гл. ц
Таким образом, мы получаем для величин wt, как оценку
параметра в (3.4) (в соответствии с гипотезами и обозначениями (7.2))
J(Hlf Я2; w) = ^ = (я — АО " 12 . (8.9)
Значение α, для которого величина J(Hb Н2; w) в (8.9)
максимальна, удовлетворяет [ср. (7.10) гл. 9]
SaiSri Swa = /SM.ta, (8 Л 0)
где I — наибольший корень характеристического уравнения
|S21SriS12 —/8^1 = 0. (8.11)
Заметим, что (8.11) то же самое, что (7.4), и (8.10) то же самое,
что S^S^/S^a = г*§ша. Обозначая А2 положительных (почти всюду)
корней в порядке убывания /ь /2, ..., 42, мы можем также записать
разложение (7.5) как
ННь H*i) = J(H1, Я2; /i) + ... + J№ Я2; 42), (8.12)
где J(Hly Я2; /£) = (n — k1)li = (n — k1)rf/(l — г β есть (8.9) для а,
удовлетворяющего (8.10) с /=/ίβ
Различающая эффективность линейной комбинации,
соответствующей /f, может быть определена, как в выражении (8.6).
Асимптотически при нулевой гипотезе Я2:В = В2 = 0 мы имеем
χ2-разложение
3{Н* Я2; 42) = (я - АО 42 = (я - АО г|2/(1 - г*я)
kx — А2 степеней свободы
ДЯь Я2; V0 = (я — Ах) 42_х = (я - Α,) r]U/(l - г%^)
kx — А2--|-2 степеней свободы
(8.13)
НН* Я2; /О = (я — АО А = (я — АО г}/(1 - г?)
Ai -f- A2 — 2 степеней свободы
ΛΜ, Щ=(п~ АО Σ /г = (я-А0 Σ /1/(1 -г|)
(Aj — 1)А2 степеней свободы.
Как и в (8.7), это следует понимать в том смысле, что величина
(я — АО (4ч-1 ~Ь · · · ~Ь 42) асимптотически распределена как χ2 с {kx —
— 1 — m) (А2 — m) степенями свободы, но что (я—АО /m+i,..., (я — АО 4з
имеют асимптотические независимые х2-распределения (См. раздел вЛ
гл. 12.)
9] примеры 289
8.3. Обобщенное стъюдентово отношение
(^-статистика Хотеллинга)
Выборки и гипотезы заданы так же, как в разделе 6.1. Мы хотим
провести анализ линейной дискриминантной функции, описанной
в (5.2) главы 9. Мы можем трактовать это как специальный случай
рассмотренной в разделе 8.2 ситуации, задавая Н% в (6.1) условием
В2 = 0 и обозначая величины в (6.1), (6.2) и (6.3) как
Х'Х = nSn = я, Υ'Χ = nS*A = лу, ΥΎ = nS»,
так что коэффициенты линейной дискриминантной функции (8.8)
должны удовлетворять (см. (8.10) и (8.11)) равенству
yyf« = /~Sy>of (8.14)
где /—наибольший корень уравнения
уг-4&
η "УУ
уу' —r*-^Y'Y
(8.15)
Здесь существует ровно один корень [ср. Андерсон (1958, стр. 108)]
/= £y'S^y, J\Hb Ηύ = (η—1)1= nfSylyy = ηtrS^yy',
квадрат канонической корреляции равен
г2 = nf (ΥΎ)"1 у = η tr (ΥΎ)"1 yy'
l+^y's^y
N J УУУ
и коэффициенты линейной дискриминантной функции имеют вид
а —$ууУ. [Ср. рассуждения вслед за формулой (5.2) гл. 9.] Линейная
Дискриминантная функция равна, таким образом, зд = а'у = y'S^y,
и вектор коэффициентов линейной функции дг-ов, корреляция которой
с w=a'y дает вышеуказанную каноническую корреляцию г,
пропорционален a'B = yrS^y. [Ср. Фишер (1938).]
9. ПРИМЕРЫ
Мы проиллюстрируем некоторые рекомендации предыдущих
разделов численными примерами. Наша цель — демонстрация методики
вычислений, а не законченный анализ проблемы.
290
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. П
9.1. Однородность выборочных средних
Пирсон и Уилкс (1933) приводят данные, заимствованные у Шу-
харта (1931) для пяти выборок по 12 наблюдений над прочностью на
разрыву и твердостью_у2 алюминиевых заготовок. Желательно
проверить, являются ли выборочные средние однородными. (Критерий
однородности ковариационных матриц, обсуждаемый в главе 12, склоняег
нас к принятию нулевой гипотезы, предполагающей, что
ковариационные матрицы одинаковы.) Это соответствует анализу в табл. 6.3 при
&2 = 2, г = 5, п1 = щ = ...щ= 12, # = 60.
Пять выборочных средних равны [Пирсон и Уилкс (1933, стр, 356)]:
Прочность
уп =33,399
3*21 = 28,216
j31 = 30,313
3>41 =33,150
уЪ1= 34,269
Твердость
3>12 = 68,49
ί22 = 68,02
3?32 = 66,57
J42 = 76,12
3?δ2 = 69,92
Элементы матриц, соответствующие суммам квадратов, таковы:
Между
В пределах
Итог
Степени
свободы
г —1 = 4
η — г = 55
п— 1=59
У\
306,089
636,165
942,254
У1
662,77
7653,42
8316,19
У1У2
214,86
1697,52
1912,38
т. е.
1 / 636,165 1697,52\_/11,5666 30,9004\
~ 55\Ϊ697,52 7653,42/ \30,9004 139,153 )'
306,089 214,8б\
214,86 662,77/
J(Hlt Яа) = trS-'S* = 56,3 = \^2+1 F или F==:6>91> что пРевы-
шает 0,001 уровень значимости F-распределения при щ = 8 и #2 = 57
степенях свободы. Для 4 χ 2 = 8 степеней свободы мы находим из
таблиц ^-распределения, что Ρ (Χ2^56,3)<[0,00001. Поэтому мы
отвергаем нулевую гипотезу однородности. (Пирсон и Уилкс
используют другую статистику, обозначаемую L2, с наблюденным
значением 0,6896, для которой Ρ (L2< 0,6896) = 0,0000019.) Характеристи-
9]
ПРИМЕРЫ
291
ческое уравнение (8.4) для нахождения линейных дискриминантных
функций в этом примере есть
I 306,089 — 11,5666/ 214,86 — 30,9004/1
214,86 —30,9004/ 662,77—139,153/
= 0.
Квадратное уравнение дает корни 1г = 51,702, /3 = 4,614. Поэтому
разложение, соответствующее (8.7), таково:
J(Hlt tfs; /2)= 4,6
J(HU Я2; /1)=51,7
J(HV Я2) = 56,3
3 степени свободы
5 степеней свободы
8 степеней свободы
Корень /2 для дальнейшего не существен. Поэтому мы приступим
к отысканию коэффициентов линейной дискриминантной функции,
соответствующей /,. При/=51,7 = /! уравнения (8.3) превращаются в
— 291,906
— 1380,809
— 1380,809\/оЛ
— 6531,445/ \oJ~~ '
т. е.
291,906^+1380,809^ = 0,
1380,809^ + 6531,445^ = 0,
доставляя решение 02/04 =— 0,211. Таким образом, единственной
существенной линейной дискриминантной функцией является функция
w=yt — 0,211_у2, которая связана с корнем /1 = 51,7,
9.2. Каноническая корреляция
Хотеллинг (1936) рассматривал приведенные Келли (1928, стр. 100)
данные, касающиеся выборки из 140 учеников седьмых классов, где
Х\ и х2 характеризуют соответственно скорость чтения и способность
к чтению, гуг и_у2— соответственно скорость арифметического счета и
способность к счету. Данные нормированы и корреляционная матрица
Для 140 наблюдений равна
R=
1,0000
0,6328
0,2412 ■
0,0586
0,6328 j
1,0000 .
- 0,0553
0,0655
0,2412 0,0586
— 0,0553 0,0655
1,0000 0,4248
0,4248 1,0000
f VR21 R22/
10*
= 0
292 многомерный анализ [гл. ц
Мы находим, что
_/0,1303 0,0043\
RslR„Rls-^00043 a0048J,
и характеристическое уравнение, соответствующее (7.4),
I 0,1303 — г2 0,0043 — 0,4248г2 I
| 0,0043 — 0,4248г2 0,0048 — г2 |
дает корни г\ = 0,1556, г\ = 0,0047.
Разложение, соответствующее (8.13), поэтому таково:
J (Ни Н*; г|) = 137 г^—& = 0,6439 1 степень свободы
J(Ни Щ rf) = 137 r-^-g = 25,2491 3 степени свободы
_ 1 **1
J(Hh Щ =25,8930 4 степени свободы
значимы при уровне 0,005. Существует,
таким образом, только одна значимая каноническая корреляция, и
коэффициенты соответствующей линейной дискриминантной функции
должны удовлетворять (8.10) или эквивалентному уравнению
0,1303—0,1556 0,0043—0,1556 (0,4248)\ /V
^0,0043—0,1556(0,4248) 0,0048—0,1556 / \а2/
т. е.
— 0,0253а! — 0,0618а2 = 0,
— 0,0618^ — 0,1508а2 = 0,
или а1/а2 = —2,44. Линейная дискриминантная функция есть
функция w = —2,44_yj -j-_y2. [Эта функция соответствует второй из пары
линейных дискриминантных функций в (7.19) гл. 9.] Мы отвергаем
нулевую гипотезу, что _у-ки (скорость счета и способность к счету) не
зависят от х-ов (скорость чтения и способность к чтению). Проверим
теперь подгипотезу о том, что способность к чтению как
характеристика несущественна, т. е. что коэффициент при х2 в регрессиях
уг и _у2 по хх и х2 равен нулю. Мы вычислим значения, необходимые
для анализа, содержащегося в табл. 5.1, не забывая о замечаний
в конце раздела 6.2.
В обозначениях раздела 5.1 мы имеем
/1,0000 0,4248\ /Sn S12\_/1,0000 0,6328'
= 1,0,4248 1,0000/' \S21 S22/= \θ,6328 1,0000
/0,2412\ _/—0,0553\
Y'Xl = Uo586J' YX*~\ °,0655JJ
9] примеры 293
SK#1 = 1,0000—(0,6328)2 = 0,599564,
0,2412 —0,0553\ /1,0000 0,6328 Г1
-G
B1 _ (Y X) ( ) ^o,0586 0,0655/ \0,6328 1,0000 /
/0,2412 —0,0553\ / 1,667878 —1,056433\
До,0586 0,0655/ \—1,055433 1,667878/'
/0,460658 —0,346804\
(o,028607 0,047398/
Bl(XX)Blr = (YX)(XrXyl (XV) =
/0,2412 —0,0553\ /1,0000 0,6328V-1 / 0,2412 0,0586\_
= Ιθ,0586 0,0655/\0,6328 1,0000/ \—0,0553 0,0655/ ~"
/0,1303 0,0043\
~" \0,0043 0,0048/
1,2412
1,0586
/0,5
Bf=vx1sr1I=^,c
л л /0,2412 \ /0,0582 0,0141\
BiSuBi' = ( (0,2412, 0,0586)= .
1 u * \0,058б)К J \0,0141 0,0034/
Табл. 9.1 соответствует табл. 5.1 и указывает подходящую форму
анализа. Мы находим
/0,8697 0,4205V"1 /0,1303 0,0043\_
\0,4205 0,9952/ \0,0043 0,0048/
/ 1,4450 —0,6106\ /0,1303 0,0043\
= tr 137 =25,8930,
V—0,6106 1,2628/ \0,0043 0,0048/
что, конечно, совпадает со значением, уже полученным с помощью
канонических корреляций, и
tr(0,8697 0,4205^ 0,0721 -0,00984 = ι6 ιβ= ι χ 2 χ 137 f
0,4205 0,9952/ \—0,0098 0,0014/ ' 137-2 + 1
или F = 8,02,
что превышает 0,001 уровень F-распределения при пг — 2 и#2=136
степенях свободы. Поэтому мы отвергаем нулевую подгипотезу, что
характеристика х2 несущественна. Подобный критерий может быть
построен для подгипотезы относительно хъ но это мы
предоставляем читателю.
294
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. И
Таблица 9.1
Источник изменчивости
Я2:В2 = (В?, 0)
Разность
ЯХ:В^(ВЬВ|)
Разность
Итог
Сумма квадратов
лр л , /0,0582 0,0141\
B2S В2 — I 1
1 " * V0,0141 0,0034/
b*s *·-{ °'0721 ~oms)
1,0,0043 0,0048/
1,0,4205 0,9952/
γΎ__ /1,0000 0,4248\
\0,4248 1,0000/
c. c.
1
1
2
137
139
Вектор коэффициентов линейной функции лг-ов, чья корреляция
с линейной функцией у-ов w = —^Д4 J'l+J'a дает каноническую
корреляцию rl9 пропорционален α'Β, τ. е. [ср. (7.10) гл. 9]
0,460658
-0,346804\
0,047398
1 = (—1,095, 0,894),
7
(—2,44, 1),
v ;\0,028607
или ν = — 1,095*! -\- 0,894лг2.
9.3. Подгипотеза
Рассмотрим нижеследующую корреляционную матрицу,
используемую Томсоном (1947, стр. 30) для иллюстрации вычисления
канонической корреляции, и Бартлеттом (1948) для иллюстрации
соответствующих критериев значимости, полагая # = 20:
0,2 \
0,8 *
0,3
R =
/ ι,ο
/ 0,1
0,6
1 0,7
\0,2
0,1
1,0
0,4
0,3
0,8
0,6
0,4
1,0
0,5
0,3
0,7
0,3
0,5
1,0
0,4
0,4
1,0/
Rn R12
R21 R<z%
Мы соотнесем первые три строки матрицы с хи х%, хъ а
последующие две строки с уь у%. Ввиду относительно больших значений
корреляции х$ с Xj(0,6) и с х2(0,4), мы желаем проверить нулевую
9]
ПРИМЕРЫ
295
подгипотезу о том, что х$ не вносит существенного вклада в
дополнение к Χχ и лг2 в регрессию у-ов по лг-ам.
Характеристическое уравнение, соответствующее (7.4), таково:
0,5434
0,3210 — 0,4г2
0,3210 — 0,4г2 0,6693 —г2
= 0.
Его корни rf = 0,6850, г| = 0,4530. Разложение, соответствующее
(8.13), выглядит как
J(Hb Щ г|)= 16т^—2= 13,28 2 степени свободы
1 Г 2
J(Hb Щ г|)= 16-г^—а = 34,72 4 степени свободы
1 Гх
J(Hb Щ
= 48,00 6 степеней свободы
Здесь все величины значимы при уровне 0,005, обе канонические
корреляции значимы и имеются две существенные линейные дискри-
минантные функции.
В обозначениях раздела 5.1 мы имеем
ууЦ1'0 °·4) (S'- М= 0,1 1,0
^0,4 Ifij' \Sn Sj I
\0,б 0,4
/0,7 0,3\ /0,5\
\0,2 0,8,/' ^ ^0,3/'
/1,0 0,1Г» /0,6\
8^ = 1,0-(0,6, 0.4)(αι χ;ο) (0;4) = 0,523232,
Β1 (Χ'Χ) Β1' = (Υ'Χ) (Χ'Χ)-» (ΧΎ) =
/0,7 0,3 0,5ΧΛ° ^n °fXli°'l °/\ /0,5434 0,32104
no «ο Λη ИМ 1.0 0,4 0,3 0,8)==
10,2 0,8 0,3,1 \φβ 0>4 J [^ 0>з/ Ιθ,3210 0,6693,1'
^г=у%8Гда=Г °'3)(ι>° 0ДГГ °'2)=
\Ό,2 0,8Д0,1 1,0/ \0,3 0,8/
1\&
0,5434 0,3212\
0,3212 0,654δ]
296
МНОГОМЕРНЫЙ АНАЛИЗ
1ГЛ. II
Табл. 9.2 соответствует табл. 5.1 и указывает подходящую форму
анализа.
Таблица 9.2
Источник изменчивости
Я2:В*=(В?,0)
Разность
Я1:В1 = (В}1В»
Разность
Итог
Сумма квадратов
й*с 6^_/0'5434 °&12)
ΒΛιΒι _(θ,3212 0,6545/
йх« &' ( 0т° -0'0002\
Β»!,"·»Β·- \_0,0002 0.0148J
/0,5434 0,3210\
В1 Х'ХВ1' 1 1
№,3210 0,6693/
* /0,4566 0,0790\
~~\0,0790 0,3307/
\0,4 1,0/
с. с.
2
1
3
16
19
/0,4566 0,0790V1 /0,;
trl6
\0,0790 0,3307/ \0;
= tr 16 [
l-o,
0,4566 0,0790V1 /0,5434 0,3210'
3210 0,6693
2,2845 —0,5457\ /0,5434 0,3210\_
5457 3,1543/ ^0,3210 0,6693/
3 χ 2 χ 16
: 48,00 =
16—2+1
F, или F=7,50,
что превышает уровень 0,001 /^-распределения при «ι = 7 и и2:=17
степенях свободы. J (Ни Н^) = 48,00 является значением, полученным
также при использовании канонических корреляций.
tr 16
0,4566 0,0790V1
0,0790
0,0790V1 / Ο,ι
0,3307/ [—0;
0,0000
0002
-0,0002\
0,0148
— 075 — JX2X16 ρ
= 0,75— 16_2+1F
ИЛИ
F=0,35,
что не превышает 3,683 — 0,05 точки ^-распределения при щ = 2 и
щ=15 степенях свободы. Поэтому мы принимаем нулевую подги-
потезу о том, что величина х% дает незначимую информацию.
9]
ПРИМЕРЫ
297
Чтобы проверить аналогичную подгипотезу о паре величин xif л:3,
мы имеем
/ι,ο ; ο,ι о,б\
о,,; ι,ο и . v%=p, ™,_(£ JJJ).
\0,6 ; 0,4 1,0/
/1,0 0,4\ /0,1\ /0,99 0,34\
*" = (<М ,.o)-(o,6)(OA °·6) = (θ,34 «да)'
- - , , /0,7\ /0,49 0,1
В^ВГ = ГХ^Х;У=У (0,7, 0,2)=(014 оо
Таблица 9.3 соответствует таблице 5.1 и указывает подходящую
форму анализа.
Таблица 9.3
Источник изменчивости
Разность
//i:B* = (BJ, В»
Разность
Итог
Сумма квадратов
*.о п%, /0>49 0>14\
B?S»B— (θ,14 0,04)
ήις m'_/0'0534 °'181(Л
/0,5434 0,3210\
В'ХГХВ1Г =
\0,3210 0,6693/
Л /0,4566 0,0790\
16Σ =
1,0,0790 0,3307/
\0,4 1,θ/
с. с.
1
2
3
16
19
trl6 (°ЛШ 0,0790V"1 /0,0534 0,1810\_
\0,0790 0,3307/ \0,1810 0,6293/
= 30,54 = ^2^fi или F = 7,15,
что находится между 4,772 и 7,944 — 0,01 и 0,001 точками F
распределения при /^ = 4 и щ=16 степенях свободы. Поэтому мы
отвергаем нулевую подгипотезу о том, что обе величины лг2 и хз
не существенны.
298
многомерный анализ
[ГЛ. 11
Таблица 9.4
Источник
изменчивости
•^3-12
В1
Разность
Итог
Сумма квадратов
Y'XS-X'Y-f0,49 °М)
VXlbltXlY-[o,U 0,04J
γ·χ s-» χ' γ-/0·0534 °'m2\
ΥΛ2·Λ2·ιΛ2·ιΥ_Ιθ,1812 0.6145J
γ-χ s-« χ- γ-( 0,000° ~om2\
/0,5434 03210\
Y'X(X'X)-.X'Y=(03210 o6693)
^_/0,4566 0,0790\
[ 0,0790 0,3307)
Ιθ,4 1,0/
С. С.
1
1
1
3
16
19
Наконец, если мы рассматриваем подгипотезу относительно лг-ов
с разбиением на три части, то в обозначениях раздела 5.2 мы имеем:
/S,i S» S,3\ /1,0 0,1 0,6^
Sal S», SS3 = 0,1 1,0 0,4], S33., = 1,0-(0,6)a = 0,64,
\S3i S3S S33/ \0,6 0,4 1,0/
S^.^ 0,4 —(0,6) (0,1) = 0,34, 8^=1,0 —(0,1)2 = 0,99,
S33.12 = 0,64 - (0Ю<№> =0,523232,
/0,08\ /0,23\ 1 / 0,0010\
Y'X3.1S = ^18j-^78j— (°.34)-^_0,0879j' '
/0,7\ /0,49 0,14\
Y'X1S71,XJY= (0,7, 0,2)= 1,
1 " M ^0,2/ K ' ^0,14 0,04/
10) РЕПАРАМЕТРИЗАЦИЯ 299
/0,23\ ι /0,0534 0,1812\
/ 0,00l0\ ι
Y'X3.iaS33'.12X3.lsY = (_0>0879j o^2(0'0010· -0.0879) =
_/0,0000 —0,0002\
_ (θ,0002 0,0148) '
Принимая во внимание (5.19), мы суммируем эти результаты и
табл. 9.2 и 9.3 в табл. 9.4.
/0,4566 Ο,ΟΥΘΟΧ-1 /0,49 0,14\
tr 16 I „ L =17,46 2 степени свободы,
^0,0790 0,3307,/ V0·14 0,04/
/0,4566 0,0790\-» /0,0534 0,18124
trl6U790 0.3307J Ul812 0,6145J = 29'79 2 "епени свободы,
/0,4566 0,0790\-ν 0,0000 —0,0002\
tr 16 (θ,0790 0.3307J (-0,0002 0,0148J = 0'75 2 «епенисвободы.
10. РЕПАРАМЕТРИЗАЦИЯ
10.1. Гипотезы с неполным рангом
(Ср. раздел 9 гл. 10.) Допустим, что компоненты строк матрицы В
в (3.1) не являются линейно независимыми, но для каждой строки
они являются линейными функциями одних и тех же p<^kt
параметров, т. е.;
В = ГС, (10.1)
где Γ = (γί7), G' = (gJk)y i = ly 2,..., къ j=l9 2,..., ρ,
k = l, 2, ..., kif G' имеет ранг p<^kx и Г — ранг min(p, £2). Из
этого следует, что матрица X в (3.2) имеет ранг p<^kx и обратно,
так что Х'Х теперь положительная (но не положительно
определенная) матрица ранга p<^kl9 поэтому она является вырожденной и не
имеет обратной, так что мы должны пересмотреть решение для В
в (4.1). Мы можем записать (3.2) как
Z = Y~XGr = Y —AF, (10.2)
где А = ХО есть η>ζρ матрица ранга р. Оценка Г по методу
наименьших квадратов выводится из нормальных уравнений [ср. (4.1)]
ΓΑΆ = ΥΆ или fCX'XG = Y'XG. (10.3)
Оценка В получается из В = ГС, или
В = Y'XG (G'X'XG)"1 G'. (10.4)
300 МНОГОМЕРНЫЙ АНАЛИЗ 1ГЛ. 11
Из (10.2) и (10.3) мы видим, что
Г = Y' А (А'А)"1 = (Г + Г АО А (А' А)"1,
так что £(Г) = Г и E(B) = E(t)G' = TG' = B, т. е. Г и В являются
несмещенными оценками соответственно Г и В.
В соответствии с (4.3) имеем
J(Ни Щ 0„) = tr-i-1^ — Γ^ΑΆίΓ1— Γ2)' =
= tr ί"1 (f1 — Г2) G'X'XG (f1 — Г3)' =
= tr ΊΓ1 (В1 — В2) Х'Х (В1 — B9)', (10.5)
где (η—ρ) Σ = ΥΎ — Γ * Α'ΑΓ1; = ΥΎ — ΒΉ'ΧΒ1'.
Заметим (см. (10.3)), что BX'XG = Y'XG изображает k^p
линейных функций от _дюв, которые распределены нормально и являются
также линейными функциями величин р. Это несмещенные оценки
одних и тех же линейных функций величин β. Так как BX'XG =
= Y'XG = fG'X'XG, мы можем высказать аналогичные утверждения
относительно величин γ и их оценок. Рассмотрим теперь любое
другое множество k$p линейных функций от j-ob, скажем Y'L, где
L есть η Χ ρ матрица ранга р. Так как
^YX) = £(Z/ + BX')L = BX/L = rG'XL, (10.6)
то Y'L является несмещенной оценкой Г, если G'X'L=:Ip, где 1р —
единичная матрица. Чтобы получить ковариационную матрицу
линейных функций от у, мы поступим следующим образом. Вместо
разбиения матрицы Y', данного для (3.2), мы рассмотрим разбиение
Y'= · · S/ = (Vy> У*р...>Упа (Ю.7)
так что
(10.8)
где £jL есть 1 χ ρ матрица, изображающая ρ линейных функций от η
наблюденных значений у-й величины у. Введем в рассмотрение pk^ X 1
ιοί
РЕПАРАМЕТРИЗАЦИЯ
301
матрицу
(10.9)
и запишем ковариационную матрицу pk% линейных функций из (10.8) как
/V cov (ЬК) L V cov (Ш L... U cov №2) L
L' cov (ζ£) L L' cov (Ш L... I/ cov (6ft.) L
W cov (U£) L I/ cov (£*,£) L... V cov(b,Ei.) LJ
1/оц1яЬ L'o13InL... Uotk2lrX< \
1/σ2ιΙΛί I/o^I^L... 1/с2£21Д, | _
\LOft2lIftL 1Л^221Д,... Uok2k2lnL/
onUL o13L/L... OiftsLfL \
o21L'L o22L'L...o^L'L =(Σ) χ . (l/L)> (10Л0)
\Ok2iVL σ*2βΙΛ/... C£2fc2L/L /
где ΙΛ есть я χ я единичная матрица и Σ — ковариационная матрица j.
Запись (Σ) Χ · (L/L) обозначает кронекерово или прямое
произведение матриц [определенных последними двумя членами равенства, Мак-
Даффи (1946, сгр. 81—88), см. также Андерсон (1958, стр. 347),
Корниш (1957)], причем (S)X-(L'L) есть /?£2Х/?£2 матрица.
Аналогично, записывая
£А(А'А)-*ч
ЬА(А'А)-1 \ γ,Α(Α,Α)Λ (10п)
.^2A(A'A)-V
Υ/— (Τ/ι> Ъ'г> ···' Ъ'р)
и рассматривая pk% элементов Г по порядку их расположения в
1 Хр£2 матрице (γ,', у% ..., γ^), мы имеем для оценок элементов Г
302 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11
ковариационную матрицу
/ (А'АГ А'ои1«А (А'АГ1 ... (А'АГ» А'е,Й11»А (ΑΆ)"1
/ (А'АГ1 A'a^UAiA'Ay1 ... (ΑΆ)"1 Α'σ3*2Ι„Α(ΑΆ)"1
\(ΑΆ)-ι Α'σ,2ΐΙ„Α(ΑΆ)"» ... (ΑΆ)"1 Α'β*ΛΙ„Α(A'ArV
σ„ (А'А)"» о« (А'АГ ... cik, (А'А)"1
о,, (А'А) 1 βΜ (А'А)"1... a2fts (А'АГ1
W^iA'A)-1 σ^ΑΆ)"1... сы, (ΑΆ)"1/
= (Σ) Χ · (ΑΆ)-1 = (Σ) Χ · (G'X'XG)-1, (10.12)
матрицу размера pk$ X pk$. Аналогично, записывая
δ=(^|. &=(fo. Ρ/»···.Ρ/·α (Ю.13)
мы получаем для ^^2 элементов В ковариационную матрицу
(Σ) Χ · (G (G'X'XG)-1 ОГ). (10.14)
По лемме 5.4 главы 3 при k = n, r=p, Β = σι£ΙΛ, £=1, 2, ...,&2
(Ift — л X η единичная матрица), С = L, U = G'X', UC = G'X'L = Ip,
auUL S* о и (G'X'XG)-1, (10.15)
где неравенство обозначает, что квадратичная форма с матрицей o^L'L
больше или равна квадратичной форме с матрицей си (G'X'XG)"1. Из
(10.15), (10.12), (10.10) и леммы 5.1 главы 3 мы заключаем, что
компоненты Г обладают наименьшими дисперсиями среди всех линейных
функций от у> которые являются несмещенными оценками Г.
Аналогично Y'LG' есть несмещенная оценка В, если G'X'L = Ip, и, так же
как выше, мы можем заключить, что
auGL'LG ^o/fG(G'X'XG)1 G', (10.16)
откуда мы делаем вывод, что компоненты В обладают наименьшими
дисперсиями среди всех линейных функций от j/, которые являются
несмещенными оценками В.
Значение У(1, 2; Оп) и его оценка одни и те же для любой репа-
раметризации, как показано в (10.5). Так как существуют только ρ
линейно независимых линейных функций от элементов строки
матрицы В, то любое такое множество ρ линейно независимых функций
10| РЕПАРАМЕТРИЗАЦИЯ 303
может быгь получено из любого другого такого множества с помощью
невырожденного линейного преобразования. Наш вывод основан на
том, что информационные функции инвариантны относительно
невырожденных преобразований (см. раздел 4 гл. 2 и раздел 3 гл. 9).
Мы покажем, что элементы Г являются достаточными оценками.
В модели (10.2) возьмем для удобства Г2 = 0; тогда
7(1, 2; Ο,^ττΣ^ΓΑΆΓ. (10.17)
Мы видели, что матрица (γ/, у%у ..., γ^2) нормально распределена со
средним (\[, Yg, ..., \k2) и ковариационной матрицей (Σ) Χ - (А'А)"1.
Так как матрица, обратная прямому произведению матриц, равна
прямому произведению обратных матриц [Мак-Даффи (1946, стр. 82)],
мы имеем
/Yi
J(l, 2; Υ) = ίτ((Σ-*)χ.(ΑΆ))\ Ъ |(Yl'f ^ ..., γ*2);
VA))h
= ΣΣ ^tr ΑΆγ,γ;= 2 2 Α/ΑΆγ* (10.18)
ΑΆ(Υι> γ* ..., γ*2) =
γ;ΑΓAYl γίΑΆγ2 ... γίΑΆγ*2
\yi8ΑΆγ! γ*2ΑΆγ2 ... γ*2ΑΆγ*2 у
так что
tr Σ-ΤΑ'ΑΓ = 2 2 ^WMfi (10.19)
i — 1У — I
и так как ои = ^\ мы имеем из (10.19) и (10.18)
J(l, 2; Oft) = J(l, 2; f). (10.20)
По теореме 4.2 главы 2 мы заключаем, что Г является достаточной
оценкой.
Пример ЮЛ. Используя данные раздела 9.2, т. е.
\— 0,6106 1,2628/' \0,6328 1,0000/'
304
МНОГОМЕРНЫЙ АНАЛИЗ
[ГЛ. 11
мы имеем
1,4450
(Σ"1)Χ-(Χ,Χ) = 137
= 137 '
1,0000 0,6328\
пяшяП»0000 0,6328V
°'6106V0,6328 1,ΟΟΟθ)\
Ь26281о,6328 UOOOOJ/
\0,6328 1,0000/
fi /1,0000 0,6328\
V"0i6106io,6328 1,ΟΟΟθ]
1,44500000 0,91439600
0,91439600 1,44500000
^ — 0,61060000 —0,38638768
\_ 0,38638768 — 0,61060000
Мы находим, что
137 (0,460658, —0,346804, 0,028607, 0,047398) χ
( 1,44500000 0,91439600 —0,61060000 — 0,38638768^
-0,61060000
-0,38638768
1,26280000
0,79909984
0,38638768
0,61060000
0,79909984 ,'
1,26280000^
X
\:
0,91439600
-0,61060000
-0,38638768
1,44500000 —0,38638768 -^0,61060000 1
— 0,38638768
— 0,61060000
1,26280000
0,79909984
0,79909984 /
1,26280000/
X
0,460658>
-0,346804 , _mtr
0,028607/
0,047398/
что подтверждает (10.19).
l-ο,ι
1,4450
,6106
-0,6106\
1,2628/
/0,1303 0,0043\
iQQfi/fO Π ΠΑ/ΙΟ Ι ^tOtfuU,
),0043 0,0048/
10.2. Разбиение
Если гипотезами предусматривается разбиение параметров на два
множества, например как в (5.2), возможно, что линейные
соотношения между строками параметрической матрицы существуют только
в одном из множеств разбиения. Здесь необходимо применить
процедуры раздела 10.1 только к одному из множеств разбиения. Итак,
допустим, что в (5.2) л X qx матрица Xt имеет ранг т <Г qv Это
означает [ср. (ЮЛ)], что
В^ВД, (10.21)
где Γι = (γ^), G;=(^), ί=1, 2, ..., &2, y = l, 2, ..., m, k=l,
2, ..., qb G[ имеет ранг m<^q1 и Ti — ранг min(#z, &2). Результаты
раздела 5.1 применимы, если Bt и Bt заменены в различных формулах
соответственно на Ft и Γι, Χι на XiGi и число (п — qt) степеней
свободы на (п — т) степеней свободы. Оценка Ъг получается из
Bj = TiGj. Таким образом, например, Sn в (5.6) заменится на GiSnGi,
где S11 = X^X1, и S12 на 0[БП) где S12 = XiX2.
Подобные замечания приложимы также к разбиению на три
множества, как в разделе 5.2, если одно из множеств не имеет полного
ранга.
12]
ЗАДАЧИ
305
11. ЗАМЕЧАНИЕ
Читатель несомненно заметил сходство аргументации и результатов
в главах 10 и 11. Мы теперь фактически покажем, как многомерный
аналог таблицы дисперсионного анализа может быть получен из
таблицы, соответствующей подходящему выбору модели линейной
регрессии в (3.1) главы 10.
Рассмотрим многомерную регрессионную модель (3.2) Ζ = Υ — XBf.
Возьмем в качестве ar — (av с^,..,, ak2) любую действительную 1 X А2
матрицу, в которой по крайней мере одно из α не равно нулю, и
вычислим, исходя из (3.2), выражение
Ζα = Υα — ΧΒ'α. (11.1)
Мы получим эквивалент регрессионной модели (3.1) главы 10, если
положим
ζ = Ζα, y = Ya, β = Β'α. (11.2)
В колонках таблиц главы 10 (или полученных методами главы 10),
содержащих суммы квадратов, заменим у на Υα и β на В'а. В
результате приходим к квадратичным формам относительно величин а. Так
как соотношения между этими квадратичными формами тождественны
относительно величин а, мы получаем столбцы соответствующих сумм
квадратов для многомерного аналога с матрицами квадратичных форм
от величин а. Это становится очевидным, если мы сравним табл. 5.1
в главе 10 и табл. 5.1 в главе 11, не забывая, что kt в главе 11
есть ρ в главе 10 и qt в главе 11 есть q в главе 10.
Аналогичные замечания применимы и к репараметризации, так как
из (10.2) мы имеем
Za=Ya —XGFa, (11.3)
что эквивалентно (9.2) главы 10, если положить
z = Za, y = Ya, γ = Γα, A = XG. (11.4)
12. ЗАДАЧИ
12.1. Выведите нормальные уравнения (4.1).
12.2. Проверьте (5.16) и (5.17).
12.3. Проверьте (5.18) и (5.19).
12.4. Проверьте (7.6).
12.5. В разделе 9.2 проверьте нулевую подгипотезу о том, что
коэффициент при хх в регрессиях у1 и у2 по х1 и х2 равен нулю.
12.6. Рассмотрим следующие данные из задачи, обсуждаемой Бартлет-
том (1947, стр. 177); здесь г = 8, £2 = 2, /1 = ^ + --- -fn8 = 57,
/136972,6 58549,0\
V 58549,0 71496,1/'
_/ 12496,8 —6786,6 \
*~V_ 6786,6 32985,0/"
306 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11
(а) Являются ли восемь выборок однородными?
(б) Вычислите существенные линейные дискриминантные функции, если
таковые имеются.
12.7. Рассмотрим следующую корреляционную матрицу, полагая я = 20:
R =
Ί,Ο
0,5
0,3
0,8
0,1
0,5
1,0
0,4
0,7
0,3
0,3
0,4
1,0
0,2
0,8
0,8
0,7
0,2
ι,ο
0,4
0,1>
0,3
0,8
0,4
1,0'
| /Ri. RM\
\R2i R22/
Проведите анализ, аналогичный анализу раздела 9.3.
12.8. Фостер и Рис (1957, стр. 241) приводят следующую несмещенную
оценку ковариационной матрицы (число степеней свободы равно 82):
5,77 4,90 ! 3,83 — 1,95\
12,36 8,33 ! 39,14 — 44,75
S = 10-*( 4,90 8,33 11,88: 28,38 —30,95
"39,14■" 28,38 1 ЩЖ" — 261,52 j
— 44,75 —30,95 ; —261,52 388,31У
(Sii S12\
^21 ^22/
Если первые три строки связать с х19 xZj хь, а последующие две строки —
с Уи Уъ будут ли регрессии уг и у2 по х19 лга, xs значимыми?
12.9. Проверьте (4.4) с данными из раздела 9.3, предполагая В = 0.
12.10. Корниш (1957, стр. 25) приводит следующие матрицы [я
переписал их в соответствии с обозначениями, использованными в (4.4)]:
/ 0,072948 — 0,000524\
В=0, В = ( 0,022898 0,000619),
\—0,089651 —0,001473/
__/ 175,2654 — 722,3850\
~~ V— 722,3850 19855,5000/ '
/ 1138,265050 —161,151320 215,304630\
£-*=(— 161,151320 534,296632 — 125,495288 ].
V 215,304630 —125,495288 199,183242/
Корниш (1957) получил для правой части (4.4) значение 950,06. Проверьте
это, вычислив значение левой части (4.4).
12.11. В обозначениях раздела 5 покажите, что:
(а) XJX^O. _
(б) Х2Х2#1 — S22#1 — Xa*iAfial.
(в) 62 = Y'X^S^ = Ζ'Χ,.^ + BJ.
(г) Ковариационная матрица k2q2 элементов β J есть (Σ) Χ · (S^).
(Д) Хз«12Хз«12 ζ==' ^33·12·
(е) В3 = Y'X3.12S"3Sl12 = Z'X3.12S^31.12-|-B3.
(ж) Ковариационная матрица k2qs элементов В3 есть (2) X · (S^s{12).
(в) | S | = | SiA | -1 SeM I -1 Se,.A, |.
(и) Х2.1Х3.12=0.
12.12. Подведите итоги разделу 5.2 в таблице, аналогичной 5.1, при
//i:B' = (Bb В2, В», tf2:B* = (B?, Bf, 0), Я3:В3 = (В*, 0, 0).
12]
ЗАДАЧИ
307
12.13. Обобщите результаты, приведенные в разделе 5.2, для подгипотезы
с разбиением на четыре части.
12.14. В разделе 6.3 покажите для двух выборок (г = 2), что:
(б) J(Ни Н2) = tr S^S*=;г^г (у,- у2)' S-* (у,- у2).
(в)
(пх -f- п2 — k2 — 1) пгщ
k2(n1 + n2 — 2)(n1 + n2)yifl
где F имеет F-распределение с k2 и щ-^^
1 степенями свободы.
[Ср. Андерсон (1958, стр. 108—109), Рао"(1'952, стр". 73—74, 246—248),]
12.15. Используя лемму 5.4 главы 3, покажите, что ΥΎ ^ (Υ'Χ) (Х'Х)"1 Χ
χ (ΧΎ), где Χ, Υ определены в разделе 3. (Вспомните замечание, следующее
за леммой 5Л гл. 3.)
12.16. Покажите, что (см. раздел 4)
Ι ΥΎ Υ'Χ Ι
|(η —Λ,)ϊ| =
Χ'Υ XX
(Ср. задачу 4.6 гл. 10.)
IX'Xj
ГЛАВА 12
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
1. ВВЕДЕНИЕ
В предыдущей главе мы изучали критерии линейных гипотез для
выборок из многомерных нормальных популяций при основном
предположении, что все популяции имеют одну и ту же ковариационную
матрицу. Теперь мы отбросим это предположение относительно
ковариационной матрицы и рассмотрим некоторые гипотезы о самих
ковариационных матрицах.
2. ПРЕДПОСЫЛКИ
В разделах 1 и 2 главы 9 мы видели, что для двух А-мерных
нормальных популяций Ν(μί7 Σ;), Ζ=1, 2,
/(1:2; Оя) = я/(1:2) = /(1:2; х) + 7(1:2; S), (2.1)
где 7(1:2), 7(1:2; х) и 7(1:2; S) даны соответственно формулами
(1.2), (2.1) и (2.4) главы 9.
Рассмотрим выборку От насчитывающую η независимых
наблюдений из ^-мерной нормальной популяции Ν(μ,Σ) со средним μ' =
=(μι> \Η> · · · > V-k) и ковариационной матрицей Σ=(σ£/), /, у" = 1, 2,.., А.
Производящая функция моментов выборочных средних х=(хь хь..., Jck)
и элементов несмещенной оценки ковариационной матрицы S = (s£j),
l9 j=l, 2, ..., k9 при N степенях свободы известна и равна
[Андерсон (1958, стр. 36, 53, 160), Уилкс (1943, стр. 121)]
Λί (τ, Т) =
ι*-4ΣΤ
-Ν/2
!6χρ(^μ + 4τ^Στ), (2.2)
где Гг = (т1, τ2, ..., τΛ), Τ = (τί7), /, /=1, 2, ..., &.
Для сопряженного к Ν(μ2, Σ2) распределения со средним
значением μ* (см. раздел 4 гл. 3)
7(*:2; χ) = τ'μ* -τ'μ2-1 г'-^Σ,τ, (2.3)
2j ПРЕДПОСЫЛКИ 309
где (ср. пример 4.2 гл. 3)
μ* = μ + ^Σ2τ. (2.4)
ГО дифференцировании матриц, необходимом для (2.4) и (2.7), см.
задачи 10.2 и 10.3 гл. 9, Димер и Олкин (1951, стр. 364).] Из (2.4)
находим τ = /ιΣ^(μ* — μ3) и (2.3) дает
/(*:2; χ) = |-(μ*-μ2)Έϊ1(μ*~μ·2). (2.5)
Заметим, что 7(1:2; х)^>/(*:2; х) для μ* = μ1 и Σ! Φ 22 и чго
сопряженное распределение есть ^-мерное нормальное распределение
Ν(μ*, Σ3).
Для сопряженного к Ν(μ%, Σ2) распределения с ковариационной
матрицей Σ*
N.
'Ν
Ι*~2^Σ2Τ
(2.6)
/(*:2; S) = trTE* + ylog
где (ср. пример 4.4 гл. 3, см. задачу 10.3 гл. 9)
Σ*=(ΐ* -21ς3τ)_1Σ2· (2.7)
Из (2.7) находим Ί~γ(Σ? — Σ*"1), и (2.6) дает
7(*:2; 8)=^(ΐο8]||ί-Α + ίΓΣ*Σί1). (2.8)
Заметим, что
7(1:2; S)=/(*:2; S) для Σ* = Σ1.
Вследствие независимости χ и S в выборке из многомерной
нормальной популяции мы имеем (ср. пример 4.3 гл. 3)
/(*:2; х, 8)=^· —fm-lf ■i-L8T + trTL* +
Ι,-2-1ς2τ|, (2.9)
2
гДе т и Τ даны соответственно в (2.4) и (2.7), или
'(*:2; X, S) = /(*:2; X) + /(*:2, S) =
^1(μ* -μ2)'ν(μ* - μ2) + ^ (log|||i - k + ίτΣ^ή. (2.10)
310 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
3. ОДНА ВЫБОРКА
Допустим, что мы имеем случайную выборку в η независимых
наблюдений из ^-мерных нормальных популяций. Пусть х' =
= (Хи %ъ ..., %k) и S = (sfy), i, y=l, 2, ..., k, соответственно
обозначают выборочные средние и выборочные несмещенные
дисперсии и ковариации с N степенями свободы. Мы рассмотрим критерии
для проверки некоторых гипотез о нормальных популяциях, из
которых была произведена выборка.
3.1. Однородность выборки
Допустим, мы хотим проверить нулевую гипотезу однородности,
т. е. что наблюдения в выборке принадлежат одной и той же k-
- мерной нормальной популяции с заданной ковариационной матрицей Σ,
против альтернативной гипотезы, что наблюдения принадлежат k-
мерным нормальным популяциям с различными средними, но одной
и той же заданной ковариационной матрицей Σ (ср. пример 4.1 гл. 5).
Мы обозначим нулевую гипотезу
#2(μ|Σ) или #2(·|Σ) (3.1)
в соответствии с тем, задано общее среднее или нет, и
альтернативную гипотезу
Μ(μ,|Σ) или Μ(·|Σ) (3.2)
в соответствии с тем, заданы различные средние или нет. Используя
выборочные величины в качестве статистики Т{х) и полагая
η
и(*)=Д |2Jsii'2ехр (—т(х*—μΣ-1(χ*—»*))>
мы имеем [ср. (4.8) гл. 5 и (2.3), (2.4) в данной главе]
η
/(*: 2; Оп) = 2 («Λ - *&» - у *3»ι), (3.3)
где ii удовлетворяет χί = μ~|-Σίί. Тогда мы имеем
/(*: Я2 (μ| Σ))=2 γ(х* ~ НУ Σ_1 (х«" ~ М)· (3·4)
Если μ не задано, то величина /(*: Н% (·| Σ)) = min /(*: 7/2(μ| Σ)) равна
μ
η
/(* :Я2(.|2))=2 γ(χ« - χ)' *\*t - П (3.5)
где хг — (хь х* ..·, Ч\
3] ОДНА ВЫБОРКА 311
С другой стороны, при той же самой статистике Т(х)у но с
η
мы имеем [ср. (4.11) гл. 5 и (2.3), (2.4) в данной главе]
η
'(*:2; 0„) = 2(ΐίχ,-*ίμι—J-*^,), (3.6)
где ii удовлетворяет Χ£ = μι-|-Σί|. Мы тогда имеем
η
/(* ιΗχ (μ, Ι Σ)) = J у (χ* ~ Μι/ Σ'1 (χ* - ^ (3·7>
£=1
Если μ£ не заданы, то величина /(* :Нх(·12)) = min /(* :Ηχ(μχ\Σ))
равна **f
/(»:Μ(.|ϊ)) = 0. (3.8)
Если сопряженное распределение в (3.3) принадлежит
совокупности ^-мерных нормальных популяций с общим средним, тогда
μ* = ... = μ* означает, что μ -j- 2xt = ... = μ -\~ Στη или что
допустимы только значения Τι = ... = τη = τ. С эгим ограничением
(3.3) дает
/(Я2 (.| Σ): 2; 0п) = п?х — ηΐμ — ~ *ΊΛ, (3.9)
где f удовлетворяет χ = μ-}-Σΐ, и (3.9) превращается в
/(^(·|Σ):2; 0п) = ± (х - μ/ Σ"1 (χ - μ). (3.10)
Заметим, что [ср. (4.17) гл. 5]
Σ (х« - Μ)' Σ"1 (χ, - μ) = 2 (Χι - χ/ Σ"1 (Χι - Ю +
«■=1 £=Ι
+ η (Χ -μ/ Σ'1 (Χ -μ), (3.11)
т. е.
/(*:^(μ!Σ)) = /(*:^(-|Σ)) + /№(·|Σ):2; 0„). (3.12)
Гипотеза 7/2(μ|Σ) есть пересечение двух гипотез: (ϊ) выборка
однородна и (ii) средним значением однородной выборки является μ.
η
Величина 2/(*: Я2 (·12)) = 2 (х* — ХУ 2"1 (х* — х), которая распре-
Делена как χ2 с {п—l)k степенями свободы при справедливости
нулевой гипотезы, служит критерием однородности. Величина
312 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
2/(//2(·|Σ):2; Οη) = η(χ — μΧΣ~*(χ— μ), которая распределена как
χ2 с k степенями свободы при нулевой гипотезе, служит критерием
того, что среднее равно заданному значению при условии
однородности выборки.
Пусть предполагается теперь, что выборка однородна, именно что
все наблюдения принадлежат одной и той же ^-мерной нормальной
популяции, и мы хотим проверить гипотезу о среднем при
неизвестной ковариационной матрице (ср. пример 4.2 гл. 5). Пусть гипотеза
Η%{μ, Σ) утверждает, что выборка произведена из определенной
Α-мерной нормальной популяции Λ/(μ, Σ), а гипотеза Η%(μ) — что
выборка произведена из Α-мерной нормальной популяции с
определенным средним μ, но неизвестной ковариационной матрицей.
Допустим, альтернативная гипотеза Ηγ утверждает, что выборка
произведена из неизвестной Α-мерной нормальной популяции. При Т(х) —
= (х, S), где х и S определены в разделе 2, и
U {х) = JIj^W ехР (— Τ (х* ~~ ^ Σ~*(Xf — **>)
мы имеем [ср. (2.9)]
-2l St
/(*:^(μ, Σ)) = Λ-^μ—g-^^^ + t^ + T1^
ΓΛθΧ = μ+ΐΣ*, S=(lft-2lEf)"1i, или /(»://, (μ, Σ)) =
= ™ (Χ — μ/ Σ"1 (χ — μ) +~ flog ||| — k + tr βΣ"1). В соответсг-
вии с общей асимптотической^ теорией, если справедлива нулевая
гипотеза //2(μ, Σ), величина 2/(*://2(μ, Σ)) асимптотически
распределена как χ2 с k-\-k(k-\-1)/2 степенями свободы [ср. Андерсон
(1958, стр. 268), Хойт (1953)]. Если Α-мерные нормальные
популяции имеют одну и ту же ковариационную матрицу при гипотезе Н\
и 7/2, мы видим из (2.7), что Σ* = Σ2 приводит к единственному
допустимому значению Т = 0. Это эквивалентно требованию, чтобы
в выборках из сопряженного распределения элементы ковариационных
матриц в распределениях х и S были одинаковыми. Соответственно
ι 1
для 7(*://2(μ)) χ = μ~| Στ и Т = 0 или β=Σ, и вместо
/(*://* (μ, Σ)) мы имеем
/(* : /4(μ)) = |-(χ - μ/S"4x - μ).
Заметим, что последнее есть (2.10) при μ.2 = μ и Σ2 = Σ* = 8. Мы
видим, что ϊ(*:Ηι) = 0, и критерий гипотезы Η%(μ) зависит только
от значения 2/(*: /72 (μ)), что является обобщением ^-критерия Стью-
дента, принадлежащим Хотеллингу. (См. раздел 6.1 гл. 11.)
3]
ОДНА ВЫБОРКА
313
3.2. Гипотеза о том, что ft-мерная нормальная популяция
имеет заданную ковариационную матрицу
Теперь мы рассмотрим критерий проверки нулевой гипотезы //2,
которая задает ковариационную матрицу популяции при
неопределенном среднем, против альтернативной гипотезы Ни которая не
определяет ни ковариационную матрицу, ни среднее, т. е.
Нг:Ъ, μ; //2:Σ=Σ2, μ. (3.13)
Мы возьмем сопряженное распределение, параметрами которого
являются наилучшие несмещенные оценки, т. е. μ* = χ, S* = S, и
(2.10) превращается в
/(*:2) = |(χ-μ)'Σί1(Χ-μ) + γ(ΐοΕ^-Α+ίΓ8Σϊ1). (3.14)
Так^ как нулевая гипотеза не задает среднее значение, то,
записывая /(//1://2)=min/(*:2), мы находим, что статистика минимума
μ
различающей информации имеет вид
21(НХ:Щ = A/(logibi — A + trSEj1). (3.15)
(См. задачи 8.32 и 8.33.)
В соответствии с общей асимптотической теорией, если
справедлива гипотеза 7/2, сформулированная в (3.13), величина 2/(Я1://2) из
(3.15) асимптотически распределена как χ2 с k(k-\-1)/2 степенями
свободы. Используя характеристическую функцию распределения
21 {Ηχ ://2), можно показать (см. раздел 6.2), что лучшей
аппроксимацией распределения является ^-распределение Р. А. Фишера
[Фишер (1928, стр. 665)] (т. е. нецентральное х2-распределение
с параметрами β2 = (2£3 + ЗА? — k)/l2N, В* = 2/{Нх: Я2) и
с k{k-\-l)j2 степенями свободы) [ср. Хойт (1953)]. Таблица,
рассчитанная Фишером для величин β и В, пересчитана ради удобства
для β2 и Б3 и помещена на стр. 396 (таблица III). При числе степеней
свободы, большем чем 7 (максимальное число в таблице), вместо
нецентрального х3-распределения можно рассмотреть величину
2!(Н1:Щ(\— (2£3 + 3/г2 — £)/6Λ*(£+1)), как χ2 с £(A-f 1)/2
степенями свободы. (См. раздел 6.2.)
Для критериев значимости в факторном анализе Бартлетт (1950,
1954), используя «однородность» функции правдоподобия, и Рипп
(1951), используя метод отношения правдоподобия для проверки
значимости компонент матрицы факторизации, пришли к статистике
2/(//1:Я2) и тому же выводу о ее асимптотическом χ2-распределении.
[Ср. Андерсон (1958, стр. 264—267).]
314 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
3.3. Гипотеза независимости
Если нулевая гипотеза 7/2 утверждает, что случайные величины
независимы, т. е.
Ή :2а = Ыр σ*7 = °> '^7> U J=h % ..·> *, (3.16)
так что Ρ = (ρ£.)==ΙΛ, где Ρ есть матрица корреляционных
коэффициентов популяции, то мы можем записать (3.15) как
k
2HH1:H,) = ~Niog\R\ + Nji(^+logfi--l), (3.17)
f ϊ'=1
где R—матрица выборочных коэффициентов корреляции. Гипотеза
7/2 в (3.16) представляет собой пересечение двух гипотез, 7/2 =
= №%(*) //£, где Н^ — гипотеза независимости, т. е. гипотеза Ρ = lki
и Н\ — гипотеза, задающая дисперсии. Мы можем тогда записать
(3.17) как
21 {Нх: Но)=2Ϊ(ΗΧ: /ф + 2/(//ι: НЦ (3.18)
где 2Ϊ{Ηχ: Н%) = — N log | R | — статистика минимума различающей
информации для критерия независимости [см. (6.12) гл. 9] и
k
21 {Ηχ: Hi) = Ν/ Ι— + log — — 1] — статистика минимума раз-
i=\
личающей информации для критерия равенства дисперсий заданным
значениям. [Заметим, что 2t{H1\H"o) равна сумме k одномерных
статистик.] Известно, что при гипотезе (3.16) sit и г^ независимы
[Уилкс (1932)], так что 2/(//1:/^) и 21(Н\\Н'£) являются
независимыми. В соответствии с общей асимптотической теорией при
справедливости нулевой гипотезы 7/2 из (3.16) величина 2ί(Ηχ:Η'ο)
асимптотически распределена как χ2 с k (k —1)/2 степенями свободы и
21{Н1\Н^) асимптотически распределена как χ2 с k степенями
свободы. Можно показать, что (см. раздел 6.3) лучшей аппроксимацией
распределения 2Ϊ(ΗΧ\Η'^ является ^-распределение Фишера [Фишер
(1928, стр. 665)] с f = k{Jt— l)(2£~f5)/12yv, β* = 2Ϊ(Η1:Η'9) и
с k (k—1)/2 степенями свободы [ср. Бартлетт (1950, 19516, 1954),
Лоули (1940)] и лучшей аппроксимацией распределения 21(Н\\Н1)
является ^-распределение Фишера с $* = k/3N, β2=:2Ϊ(Ηί:Η'^) и
с k степенями свободы. Заметим, что степени свободы и значения β2
для распределений трех членов в (3.18) аддитивны, т. е. k(k~\-l)/2 =
= k{k—\)j2^k и (2£3 + 3£2 — k)/l2N=k(k— l)(2A-f б)/12ЛГ+
-\-k/3N, это свойство нецентрального χ2 [ср. Бэйтман (1949), Лаха
(1954)]. (См. задачи 8.21 и 8.22.)
3]
ОДНА ВЫБОРКА 315
Пример 3.1. В разделе 9.2 главы 11 мы имели корреляционную
матрицу
(1,0000 0,6328 0,2412 0,0586
0,6328 1,0000 —0,0553 0,0655
0,2412 —0,0553 1,0000 0,4248
0,0586 0,0655 0,4248 1,0000
для выборки, состоящей из 140 наблюдений. Чтобы проверить нулевую
гипотезу о том, что четыре случайные величины независимы, мы
подсчитаем 2Ϊ(Ηί:Η'2) = — Ν log I R 1 = — 139log 0,4129= 139.(0,88431) = 122,92,
k (k— 1)(2fc + 5)/ \2N=4(3) (13)/12(139) = 0,0935. При 6 степенях свободы 5°/0
точки ^-распределения для β2 = 0,04 и 0,16 равны соответственно 12,6750 и
12,9247, и наблюденное значение 2/(Я4: #0 очевидным образом значимо.
Мы отвергаем нулевую гипотезу независимости, как и должно быть ввиду
заключений раздела 9.2 главы 11.
3.4. Гипотеза о корреляционной матрице
Если нулевая гипотеза Щ'\ Σ2 = (0,·/) = D0P2D0 задает матрицу
корреляционных коэффициентов Р2, но не задает диагональную
матрицу стандартных отклонений
^ 0 ... 0
Da= 0 σ2 ... 0 1 то^ используя d-8=DS2 =
\0 0 о
мы имеем из (3.15)
2/(M:/rO = ^(loglj§|-*+trRPi1). (3.19)
2\Ht:H'^) в (3.19) асимптотически распределена как χ3 с k(k—1)/2
степенями свободы при справедливости нулевой гипотезы Щ\
Заметим, что (3.19) есть выражение (2.8) главы 9, когда P1 = R, и дает
2/(#1:#2'), когда Р2 = 1/г.
Для двумерных популяций (k = 2) (3.19) дает
L ν ι—?! ι—pi/J
=Nfce\^+H^fY' (3·20)
эта величина распределена асимптотически как χ2 с одной степенью
свободы. Заметим, что (3.20) есть (4.33) в примере 4.6 главы 3 с N
вместо η и г вместо р1в См. замечание в примере 5.7 главы 5 о
доверительном интервале для р.
316
МНОГОхМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
[ГЛ. 12
3.5. Линейная дискриминантная функция
Оценки для линейных дискриминантных функций в разделе б главы 9
могут быть получены с помощью той же самой процедуры, как для
информационных статистик. Тем не менее поучительно провести эту
процедуру в явном виде.
Мы сначала рассмотрим нулевую гипотезу, которая задает Σ2.
[См. (3.15).] Нам нужна линейная дискриминантная функция
у = а1х1 -f- а2д;2 +... + akxk = а'х, (3.21)
одна и та же линейная комбинация для каждого наблюдения. Мы
разыскиваем величины α с тем, чтобы максимизировать
величину, эквивалентную (3.15) для у. Тем самым мы приходим
к результатам, подобным (6.4) и (6.5) в главе 9, а именно, что α
должно удовлетворять
Sa = FE2a, (3.23)
где F является корнем характеристического уравнения
|S —FS2| = 0 = |A/S —/S2|, F=l/N, (3.24)
корни которого почти всюду действительны и положительны. (См.
раздел 6.4 о распределении этих корней.) Если обозначить эти
корни в убывающем порядке Flf F2> ..., Fkt то применимы
рассуждения раздела 6 главы 9 (если принять во внимание способ
упорядочения). В частности, мы имеем разложение для выражения (3.15)
21(^1 H,)=N (log ^i-k + trS^l) =
= 2/(Я,: Щ j/,) +... + 2/(//!: Я2; yh\ (3.25)
где yi есть линейная дискриминантная функция, соответствующая F-v
Из (3.22) мы видим, что
2/(//,:Щ уд = Щ- logFi-l+Fi) =
= A/log A/— Ν — N log ii + ii. (3.26)
Если значения 2Ϊ(Ηί:Ηύ yt) расположены в порядке убывания
величин, то при справедливости нулевой гипотезы, что выборка
принадлежит нормальной популяции с ковариационной матрицей 2*
сумма последних (k — т) величин 21(Н1:Щ у{) асимптотически
распределена как yj с (k — rri) {k— т-\-1)/2 степенями свободы.
(См. раздел 6.4.) Лучшим приближением к распределению служит
3] ОДНА ВЫБОРКА 317
^-распределение Р. А. Фишера [Фишер (1928, стр. 665)] (т. е.
нецентральное χ2-ρ определение с параметрами β2 = ((2£3 -|- ЗА2 — Щ —
— (2гп?~\-Ът*— m))j\2N7 В* равна сумме последних [k — т) величин
2/(Ηχ: Щ yi)y с (k — m)(k — т -f-1)/2 степенями свободы).
3.6. Независимость множеств случайных величин
[Ср. Андерсон (1958, стр. 230—245), Вальд и Брукнер (1941),
Сюй (1949, стр. 373—376), Уилкс (19356, 1943, стр. 242—245).]
Допустим, что мы разбиваем случайные величины А-мерной
нормальной популяции на т множеств, насчитывающих klf къ ..., km
величин, kl~\-k^~\-...~\-. ..km = k. Мы желаем проверить нулевую
гипотезу Нъ что множества величин взаимно независимы, против
альтернативной гипотезы Нь что множества не являются независимыми, без
точного задания средних значений, т. е.
Яt: Σ = (в{Д i, J = 1, 2, ..., k, (3.27)
/Σ,ι .0 ... 0 \
tf2:S= ° Σ» ■;0 J, Ъи=Ы\ (3.28)
\0 0 ...nj
a, p = A1 + Ai + ...-|-At_1+l, .... *, + **+. .. + Α,.
В разделе 7 главы 9 рассматривается случай двух множеств т = 2.
(См. задачи 10.13 — 10.19 гл. 9.)
Обозначая гипотезу (3.28) через /^(Σ,·,·), если Ση, ..., ~Lmm
заданы, мы получаем из (3.15)
2/(#,:Яв(ад =
= Jv(log ^\Ы...\^тт\ A+tr(S„Srif+... + SmmSil„)),(3.29)
где S^· — наилучшая несмещенная оценка ковариационной матрицы
величин в i-м множестве. Обозначая гипотезу (3.28), которая не
определяет матрицы 2,·,·» /=1, 2, ..., /#, через //2(0» мы находим,
что (3.29) минимально при 23^. = S^ и
Щнг:Н^)) = A/log |Snl '-S||Smml =A/log lR"^"jR^L, (3.30)
гДе R/£ и R — выборочные корреляционные матрицы величин
соответственно в 1-м и во всем множестве. Последний член
в (3.30) получается посредством вынесения за скобки в числителе
и знаменателе стандартных отклонений. В соответствии с общей
318
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
[ГЛ. 12
асимптотической теорией при справедливости нулевой гипотезы величина
2/(#1:#2(·)) асимптотически распределена как χ2 с &(&-]-1)/2 —
т
— 2 ^№ΐ + 1)/2= 2 kikj степенями свободы. Можно показать (см.
£=1 *</
раздел 6.3), что лучшим приближением к распределению 2/(//1://2(.))
служит ^-распределение Р. А. Фишера [Фишер (1928, стр. 665)]
(т. е. нецентральное х2-распределение с
β* = ((2£3 + Ъ& — k) - J) (2*f + ЗА! — k$\l 12А/,
* £=1 '
Ζ?2 = 2/(//1://2(·)) и с 2***/ степенями свободы). Мы суммируем
*<;
анализ статистики минимума различающей информации (3.29)
в табл. 3.1. Заметим, что степени свободы и значения параметра
нецентральности β2 в табл. 3.1 аддитивны, это свойства центрального
и нецентрального х2-распределения.
Таблица 3.1
Компонента информации
С. С.
Между, Su
против Σα
В пределах,
т
iyiog|Sll|,"|Smml =
Σ*
£=1
-■Ν log
1 Rii [ ·- [ *vnm \
2
t«I
2ftJ + 3*f—ft.
127V
2й3 + 3/г3 — A —
i=A
YIN
Итог,
2/(^:^(2,·;))
n[\oz-
Σιι|···|^/π/πΙ д ι
2
2#» + Зй2 — й
12УУ
+ 2trS«^)
i = \
Отметим, что если Ах = = йт == 1, то 21 (Ht :Я2(·)) равна
величине 2/(7^ :Яа) раздела 3.3, компонента «между» в табл. 3.1 есть
21 (Hi: #2) раздела 3.3, а число степеней свободы и значения β2 те же,
что даны в разделе 3.3. (См. задачи 8.19, 8.25—8.29, 8.34.)
3]
ОДНА ВЫБОРКА
319
Пример 3.2. Рассмотрим корреляционную матрицу из примера 3.1,
причем разобьем четыре случайные величины на два множества, как в
разделе 9.2 главы 11. Для того чтобы проверить нулевую гипотезу о том,
что множества независимы, мы вычислим: | Rn | = 0,5996, |R221 = 0,8195,
2/ (И,: Я2 (О) = 139.log ((0,5996) (0,8195)/0,4129) = 24,16, JJ h */= 4, β2 =
*</
= (172—26—26)/12 (139) = 0,0719. При 4 степенях свободы 5% точки В*9
соответствующие β2 = 0,04 и β2 = 0,16, равны 9,5821 и 9,8627. Наблюденное
значение 2/(гУ4: Н2 (-)) = 24,16 очевидным образом значимо, и мы
отвергаем нулевую гипотезу, как и должно быть ввиду выводов раздела 9.2
главы 11. [Ср. Кульбак (1952, стр. 98-99).]
3.7. Независимость случайных величин
и равенство дисперсий
[Ср. Андерсон (1958, стр. 259—261), Сюй (1949, стр. 376—378).]
Мы хотим проверить нулевую гипотезу в (3.16), которая задает сп —
=аш= ...=ckk = c*. Обозначим гипотезу Ηζ из (3.18) с заданной
общей дисперсией σ2 через Щ(сР) и гипотезу равенства дисперсий
через Η'ί (·)· Из (3.17) и (3.18) (при более привычной записи sH = s\
для дисперсий) мы видим, что
2/(М :/^V)) = iV J (-5-H-log^-— l). (3.31)
i= I
Так^ как минимум (3.31) достигается при σ9 = (s? +... + s|)/A = 5а,
то ϊ(Ηί:Η%(;))==ϊηϊΏΪ(Ηί:Ηζ(α'*)) определяется из формулы
k
21 (Η,: Ηζ (·)) = N У log 4. (3.32)
Итог анализа величины 2Ϊ(ΗιΛ.Η%(α*)) с соответствующими
степенями свободы и параметрами нецентральности, подведен в табл. 3.2.
Таблица 3.2
Компонента информации
Между,
s2 против а2
В пределах,
Итог,
2?(Я1://£>2))
Л»(£ + к*£-1)
-ί(#+'»4->)
t —I
с. с.
1
k
Ρ2
1/3Λ/&
(k*—l)l3№
kjSN
320
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
[ГЛ. 12
Когда справедлива нулевая гипотеза, величина 21 (Hi: Н£ (·))
асимптотически распределена как χ2 с k —1 степенью свободы. Лучшим
приближением к распределению служит Б-распределение Р. А.
Фишера [Фишер (1928, стр. 665)] (т. е. нецентральное х2-распределение
с рт = (# — О/ЗА/А, & = 21 (Нх:/£(-)) и k— 1 степенью свободы).
Заметим, что величина 21 (Hi: Н% (·)) является частным случаем более
общего результата, полученного в разделе 5.3 и равна (5.16) при
r = k, N1 = muu = Nr = N. [Отметим, что N=Ni~\-Ni-\-..m-\-N
в (5.16) здесь есть Nk.]
(См. задачу 8.35.)
4. ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ
Теперь мы желаем рассмотреть проблему проверки гипотезы о
равенстве г средних значений каждой из k величин по г А-мерным
нормальным выборкам, но без предположения о равенстве
ковариационных матриц популяций. Сначала мы исследуем случай двух
выборок, г = 2, что представляет интерес само по себе и полезно
в качестве вводных объяснений.
4.1. Две выборки
Допустим, что мы имеем две независимые выборки в п^ и щ
независимых наблюдений из А-мерных нормальных популяций с
ковариационными матрицами Σι и Σ2. Мы хотим проверить нулевую
гипотезу 7/2, что векторы (матрицы) средних равны, без
предположений относительно Ej и Σ2> против альтернативной гипотезы Ни что
средние не равны, т. е.
//2:μ1 = μ2 = μ, Σΐ9 Σ* Ηχ:μχ, μ2, Σι, Σ2. (4.1)
Для сопряженного распределения с 6* = (хъ х3, Sb S2) и в
обозначениях раздела 2 имеем
/(*: 2) == τ,'χ, - f [μ -± f [ -i- 1Д + tr f ,S, -f
Λ-Ί
2
2
+ Щ- iog | h — -щ 2xf! J -f t;x2 — ΐ;μ — -j fa — Σ2τ2 -f
+ trfA + f.log|lk --£ Щ. (4-2)
Следуя процедуре раздела 2, мы находим, что [ср. (2.4) и (2.7)]
f ι = Πι ΣΓ1 (Χι — μ), τ2 = щ Σ? (χ2 — μ),
Τ, = ^ (ΣΓ1 - SrO, % = 4^ (V - SЛ
ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 321
и (4.2) превращается в
/(· : 2)=-§- (*ι - μ)' ΣΓ1 (х, - μ) + Ц- (Χ, - μ)' Σ^1 (Χ2 - μ) +
+ ^(l0g"ftT ^+trS1Sr)+^(logi|j| —A-|-trSa2:^).(4.4)
Нулевая гипотеза //2 подразумевает равенство средних при
неизвестных ковариационных матрицах. При меняющихся Σι и Σ2
величина /(*:2) минимальна для Si^Sj, 22 = S2 и для μ,
удовлетворяющего
О = П&1 (%, — μ) = /laSi"1 (x3 — μ), (4.5)
или
£ = (nfo1 + щБ^у1 ("iSl'Xi + я^ %). (4·6)
Пусть для удобства d = Xi— х2, A = niSi1, В — щБ^1; подставляя
это в (4.4), мы получаем
2/(Я1:Я2) = й[(В(А + В)-1А(А + В)-1В +
+ А (А -f В)"1 В (А + В)"1 A) dd']. (4.7)
Но
В (А + В)"1 А = (А"1 (А + В) В"1)'1 = (В"1 + А"1)"1
и
А (А + В)"1 В = (В"1 (А + В) А"1)"1 = (В'1 + А'1)-1,
так что в конце концов
21 (Нх: Щ = tr [(В"1 + A"1)'1 dtf] = <*' (В"1 + A"1)'1 d =
= (X! - х2У (J- St + 1 S,y (χ, - х2). (4.8)
Мы приходим к тому, что. здесь J(Hb Н<2)=^2!(Н1:Щ.
[Случай одномерных популяций ср. Гроноу (1951), Уэлч (1938),
Фишер (1939а). Многомерную проблему Берэнса —Фишера ср.
Андерсон (1958, стр. 118—122), Джеймс (1954, стр. 37—38).]
Распределение 2/(//1://2) для г выборок дано в разделе 4.3.
4.2. Линейная дискриминантная функция
Рассмотрим y = arx = ixi~{~0Lix<2-\-...~\-akxk, одну и ту же
линейную комбинацию для каждой выборки. Так как величина у
Распределена нормально, мы разыскиваем а, максимизируя
2/(Я,: Щ у)= l a'dd'"1 . (4.9)
a'U~Si+^S2r
322 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. U
Как можно определить (ср. раздел 5 гл. 9), максимум имеет место
при
α = (_L Sx + ~ S3)_1 d, и 2/(Ях: Щ у) = 2/(//,: Я2).
4.3. г выборок
Допустим, что мы имеем г независимых выборок по ni9 i— 1, 2,...
..., г, независимых наблюдений из ^-мерных нормальных популяций
с ковариационными матрицами Σ/, /=1, 2,..., г. Мы хотим
проверить нулевую гипотезу //2, что векторы (матрицы) средних равны,
без предположений о Σρ против альтернативной гипотезы Нъ что
средние не равны, т. е.
#2:μ1 = μ3 = ... = μ/. = μ, Σι, Σ»..., Σλ, f4I(tt
//ι: μι,..., μΓ, Σι, ..., Σλ.
Без повторения подробностей мы находим, что
2/(* : Щ = £ щ (X, - μ/ S-1 (χ, - μ). (4.11)
Как и в случае других критериев однородности нескольких
выборок, здесь нулевая гипотеза также может быть представлена
пересечением двух гипотез, одна из которых утверждает однородность,
а другая определяет общие параметры популяций. Пусть //з(·) будет
нулевой гипотезой, утверждающей однородность, а Η%(μ) нулевой
гипотезой, задающей средние значения однородных выборок, без
предположений о ковариационных матрицах в том и другом случае,
так что #3 = #2(.)Π#2(μ)·
Так как минимум 2/(*://2) в (4.11) достигается при
Α=(Σ«ι8Γ1)"4Σ'Ι'8ϊΓΐχ0=^
мы имеем, что величина /(//1://3(-)) = min/(* ://3) равна
μ
2/(/А: Я2 (·)) = i>, (X, - *)'S^ ίχ' - S> =
= 2 "iXiSrx,· -?(Σ ηβΤ1) χ. (4.12)
4] ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 323
Из (4.11) и (4.12) имеем
г
2/(*: Ηύ = Σ ni & ~ &У S^ (*' - ^) =
= £ Л| ρ, - *)'S^ (*ι -*)+(*- ι*Χ (Σ «Α-"1) (χ - μ)=
= 2/(7/,: tfa (.)) + 2/(Я3 (.): Η (μ)), (4.13)
где 21 (Hi: Яа (·)) служит критерием однородности и 2/(#3(·): Я2 (μ)) —
критерием равенства средних значений однородных выборок заданной
величине. Предыдущий анализ суммируется в табл. 4.1.
Таблица 4.1
Компонента информации
Между, х против μ
В пределах, 21 (Нх: Я, (·))
Итог, 2/(*:Я2)
i = \
j}n.(x.-xYSTi(x.-x)
i = 1
2η.(χ.-μ)^^(χ.^μ)
i = \
С. С.
/г
(г-1)*
rk
Степени свободы в табл. 4.1 являются степенями свободы
асимптотического /^распределения при справедливости нулевой гипотезы.
[Ср. Джеймс (1954, стр. 39—40), Слой (1949, стр. 394—396).]
Джеймс (1954) показал, что лучшее приближение к.
распределению получается, если сравнивать величину 2/(#1:#2(·)) при 100 а%
уровне значимости не с χΐ а с χ2(Λ + βχ£)> где
Ва=
л=1 + 2Т(Г=гт) Σ ι^Κ1* - (Σ т**У*"&)]%-
ί = 1 х ' j — 1
Λ (г-1) (ft (г-I)+ 2) ί.Σ (иг_ 1) Χ
ХЧ1* - (Σ я^-Ч^-КА- l)A(r- 1)]. (4.14)
i-=l
гот Мер 4^· ^оссек (1945) рассмотрел следующую проблему. На под-
мнительных курсах A. S. Т. Р. *) учащиеся должны быть классифициро-
гпя»/2 A£my Specialized Training Program —специальная армейская
прощания обучения. (Прим. перев.)
324
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
1ГЛ. 12
ваны в соответствии с тем, ожидается от них успешное или неуспешное
прохождение курса математики в первом семестре.
Тремя выбранными переменными являются: хх — балл испытания по
математике, лг2 — школьная оценка, хь — балл при испытаниях по Армейской
Классификационной системе. Наблюдалось 96 испытуемых, не успевавших
по математике, и 209 успевавших. Мы найдем линейную дискриминантную
функцию, как в разделе 4.2. Здесь k = St n1==96, п2 = 209. Коссек (1945,
стр. 96) приводит следующие данные:
й' = (—17,5972, —1,7997, —5,3308),
/133,8592 7,0572 2,0717\ /217,1505 14,0692 35,7085\
S4 = 7,0572 4,1288 —2,0109 I , S2 = 14,0692 3,9820 0,4031
\ 2,0717 —2,0109 27,7016/ \ 35,7085 0,4031 72,7206,)
Затем мы вычисляем (подсчеты проведены Дж. X. Кульбак)
/1,39436676 0,073512939 0,021580263 \
0,073512939 0,043008772 —0,020946382 ] ,
\0,021580263 —0,020946382 0,288558772/
f 1,038997768 0,067316709 0,170853859\
0,067316709 0,019052470 0,001928528 J ,
^ 0,170853859 0,001928528 0,347945253 /
0,493634948 —1,176664865 —0,184397647 \
-1,176664865 19,066796354 0,925430152 ] ,
-0,184397647 0,925430152 1,654481546/
4-ь=
1
+
•Г-1
0,493634948
—1,176664865
—0,184397647
-1,176664865
19,066796354
0,925430152
~0,184397647\
0,925430152 ]
1,654481546,/
—17,5972\
—1,7997 =
—5,3308/
2/(7/,://,; д» = 2/(//,:#*) =
= (—17,5972, —1,7997,
/ —5,58596\
= —18,54179
\ —7,24032/
/ —5,58596\
-5,3308) —18,54179]:
\ —7,24032/
; 170,2637.
Линейная дискриминантная функция может быть записана как y^=zxx-\-
-f- 3,32лг2 -f- 1,29лг3 с отношениями величин а к а4 в качестве коэффициентов.
Коссек (1945) получил коэффициенты линейной дискриминантной
функции из равенства a^S^d, где NS = N1S1+Nfi2i N=Nt+N2. [Ср.
Фишер (1936).] Эта процедура (здесь г = 2) обсуждается в разделе 8.1 главы 11
в предположении, что ковариационные матрицы популяций являются
равными. Линейная дискриминантная функция, полученная КоссекоМ (1945),
может быть записана как з> =-^ι + 3,69лг2 + 0,93л:3. Используя процедуру
объединения и вывод Коссека, что d'S-1d = 1,9890, мы вычисляем
2/(//г.Я2):
-d'S^d^
96X209
полученное значение меньше, чем то,
305
1,9890=130,8637;
что было подсчитано выше, когда
4]
ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 325
ковариационные матрицы не были объединены. (Мы увидим в примере 5.2,
что нулевая гипотеза, утверждающая, что ковариационные матрицы
популяций равны, должна быть отвергнута.)
Пример 4.2. Чтобы проиллюстрировать проверку нулевой гипотезы
однородности средних, мы используем следующие данные и подсчеты
Джеймса (1954, стр. 42—43). (Я выразил результаты в обозначениях
раздела 4.3.) Существуют три двумерные выборки с nj = 16, п2 == 11, п3=11:
Xl - \15,06J ' X2 ~ \22,57J' *8 - U.17/'
/ 120,0 -16,3\ /81,8 32,1 \ =/100,3 23,2\
1 1—16,3 17,8/' s 1,32,1 53,8/' 8 \ 23,2 97,1/'
wS^_/0,1523 0,1396\ nS_,_/ 0,1756 —0,1048\
Щ ' \0,1396 1,0272/' "* 2 — i—0,1048 0,2670/'
s_1==/ 0,1161 -0,0277\
"* " \—0,0277 0,1199/'
^„чП-/0'4440 °'°°7l\ /v c-iV» ( 2'2524 -°'0U3\
i^i "\0,0071 1,4141) ' [& n& ) -(,_0,0113 0.7072J'
e ,_ / 3,5980\ 0 /—0,0738\ „ /1,0060'
"lSrlXl = (l6,8405)' "*S*1X* = ( 4,658б)' ^""UlS,
)
βηδ '
у n.Sns. = / 4·5302\ - = / 2,2524 -0,0113\ / 4,5302\ = / 9,9314\
& ' ' ' 1,24,1106/' i—0,0113 0,7072^24,1106/ [ 16,9998/'
+ (14,67, 25,17) f1?") - (9,9314, 16,9998) (^ °^1) ( **1*\ = 18,75.
42,6115^ Kl ' 4θ,0071 1,4141/\ 16,9998/
Асимптотически величина 21(И1 :Я2 (·)) = 18,75 есть У.2 с (г—1)£ = 4
степенями свободы. Мы найдем лучшие приближения при соответственных
Уровнях значимости
/1 0\ / 2,2524 —0,0113\/0,1523 0Д396\ / 0,6585 —0,3028\
\0 1/ \—0,0113 0,7072Д0,1396 1,0272/" \—0,0970 0,2751 /'
Л 0\_/ 2,2524 —0,0113\/ 0,1756 —0,1048\ /0,6033 0,2391 \
\0 1/ V—0,0113 0,7072/ {—0,1048 0,2670/ ~~\0,0761 0,8100/'
[Х °) — ( 2,2δ24 ~0,0113\ / 0,1161 —0,0277\ /0,7382 0,0637\
\0 1/ V—0,0113 0,7072/V—0,0277 0,1199/ \0,0209 0,9149/'
./ 0,6585 --0,3028\2 /0,6033 0,2391\2
4-0,0970 0.275IJ ==0'5680' *(θ,0761 0,810θ) = ^
326
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
0,6585 —0,3028\Ί2
/0,7382 0,0637\2 ^^ Г / 0,<
tr ' =1,3846, tr
\0,0209 0,9149/ ' ' L \~<У
Г /0,6033 0,2391\P f _ Г /О,
Ηώ™ 0,810o)J ==1·"74· [trU
,0970 0,2751
0,7382 0,0637\12
,0209 0,9149/J
[ГЛ. 12
II =0,8716,
: 2,7327,
0,5680
15
0,8716
1,0565 fb3846=0i2820i
10 ' 10
1,9974 2,7327
15
10
10
: 0,5311,
A = 1 +y (0,5311) = 1,0664, В = Jj ί0,2820+-ί (0,5311)] = 0,02281.
Точность аппроксимации при 5%, 1%, 0,1% уровнях значимости
иллюстрируется табличкой:
Уровень
значимости
5%
1%
0,1°/о
χ2, 4 степени
свободы
9,488
13,277
18,467
А + ВХ2
1,283
1,369
1,488
Х2{А + ВХ2)
12,17
18,18
27,48
т. е. уточненное значение при 5% уровне равно 12,17, при 1%—18,18, при
0,1%—27,48. Нулевая гипотеза однородности должна быть отвергнута при
1% уровне.
5. ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ
Теперь мы рассмотрим критерий для нулевой гипотезы о равенстве
ковариационных матриц г Α-мерных нормальных популяций. Мы
рассмотрим сначала две выборки, так как случай интересен и сам по себе,
и как введение, а затем г выборок.
5.1. Две выборки
Допустим, мы имеем две независимые выборки с пх и щ
независимыми наблюдениями из ^-мерных нормальных популяций с
неизвестными средними. О ковариационных матрицах совокупностей мы
имеем две гипотезы Их: Σι Φ Σ2 и #2: ΣΑ = Σ2 = Σ.
Для сопряженного распределения с θ* = (χ1} Х3, Slf S2) и в
обозначениях раздела 2 мы имеем [ср. (4.2)]
/(*:2)=*;χ1-*;μι-Ι.*;;!-2*ι+*τΑ+
I #11
+frtA+^iog|iJk-£2fii. (w>
5] ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАГРИЦ 327
Используя ту же процедуру, что для (4.2), мы находим, что
[ср. (4.3)]
f! = л. Σ-1 (Χι — μι). *ϊ = "ζΣ * (Xs — μ2),
f1=^1(2:-1-Sr1), f. = ^(S-1-Si1X (5.2)
и (5.1) превращается в [ср. (4.4)]
/(*:2)=:§(χ1_μ1)ΓΪ-ί(χ1- μι) + ^(χ2- ptfSr^- μ2) +
+f(io^!i\~A+trSi:si+T(iog!-fi--A+trSa2i· (5·3)
При меняющихся μ^ μ2 и Σ величина /(*: 2) должна быть
минимальной для μ1( μ2 и Σ, удовлетворяющих [см. задачи 10.2, 10.3
гл. 9, Димер и Олкин (1951) о дифференцировании матриц]
/^•(Xj — μι) = 0, /ι,ϊ-1^—(W) = Q,
0 = - I (St - £ι)' Σ"1 (dS) Σ-1 (xt - μ0 -
- ^ (Χ, - μ2/ Σ'1 (dS) 2Γ1 (χ, - μ*) + γ1 tr Σ"1 (tfS) -
- у tr St Σ"1 (dS) Σ"1 + ^ tr Σ"1 (<fS) — γ2 tr S^i-1 (<ίϊ) Σ"1. (5.4)
Мы находим, что
μι = Χι, μ2 = χ2, (M+M)i = N1S1+MSa = ^VS, (5.5)
где Ν—Νι-}-Νϊ, и следовательно [ср. Уилкс (1932, стр. 489)],
2/(Я,: Я2)=Μ log |l!j + Ν, log ||i . (5.6)
Найдено, что оценка J (Hi, Щ имеет вид [ср. Кульбак (1952,
стр. 91) и равенство (1.7) гл. 9]
ПНЬ Щ = 2(^Ns) (trS^1 + tr S^Sr1 - 2k). (5.7)
В соответствии с общей асимптотической теорией при
справедливости нулевой гипотезы 7/2 величина 2/(#г: Я2) в (5.6)
асимптотически распределена как χ2 с k(k-\-l)/2 степенями свободы.
Используя характеристическую функцию распределения 2Ϊ{Ηχ: Я2), можно
показать (см. раздел 6.1), что лучшим приближением к распределению
служит ^-распределение Фишера [Фишер (1928, стр. 665)] (т. е.
328 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [гл ,
нецентральное χa-pacπpeдeлeниe с параметрами
ρ — ί2 (π;+ж - π) > Β —2/(//ι ·Яа)-
и с k(k~\~l)/2 степенями свободы).
5.2. Линейная дискриминантная функция
(Ср. раздел 3.5.) Мы разыскиваем линейную комбинацию, одну
и ту же для обоих выборок, у — а'х = аххх-j~а2х2 + ... + α^,
которая максимизирует [см. (5.7)]
J (Ни Нь y)-2(Ni + NA«S^+«S^~~ У* (5*8)
Мы находим, что α удовлетворяет Sia = /7S2a, где Ζ7 является
корнем характеристического уравнения | St — FS21 = | N& — ΙΝβ% \ = О
и P — Nzl/Ni (ср. раздел б гл. 9). Та же самая линейная функция
получается в результате максимизации [см. (5.6)]
ПН,: Н3; y) = -f log^^ + у log ^^. (5.9)
Если корни характеристического уравнения, которые почти всюду
положительны, суть Flf F& ..., Fk> расположенные в порядке
возрастания, тогда, как было показано в разделе 6 главы 9, максимум
J(Hl9 Щ у) имеет место для линейной комбинации, связанной с F\
или Fk> в зависимости от того, выполняется FtFk<^l или FiFk^>\.
Можно также показать, что
1(Ηλ: Я2) = 1(НХ: Щ к) + 1(НХ: Я2; /,)+...+ I(Ht: Я2; 4), (5.10)
J(Hb H*) = J(Hb Щ FJ + JiHi, tf2; F2)+ ... +J(Hl9 Щ Fk\
где
№:Ъ 4) = ^1о.^Ц^+^1оёж^(1+/г) =
= ^1оёШТ7ГлГ + -Т^
2 '"eW + W2 ^ 2 ws Κ + Ν,Τ
+ ^4^1og(l+/;)-^log/,·, (5.П)
Асимптотически, когда параметры популяций имеют значения,
определенные нулевой гипотезой, сумма 2Ϊ(Ηι:Η3] im+t)-\--.--\-^H^i:
Нъ 4) (слагаемые расположены в порядке убывания величин)
распределена как χ2 с (k — m)(k — m-\-l)/2 степенями свободы. Лу4'
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 329
шим приближением служит ^-распределение Р. А. Фишера [Фишер
Π 928, стр. 665)], т. е. нецентральное χ2-pacπpeдeлeниe с
P2„_(2fe3 + 3fe3 — Щ — (2m3-(-3m2 — от)/ 1 , 1 1\
" — 12 [n^NiNJ9
k
fj^Ni + Nb В*= Σ 2№··№; Α) и с (ft —ro)(ft —iw+O/2
степенями свободы. (См. раздел 6.4.) [Ср. Андерсон (1958, стр. 259).]
5.3. г выборок
Допустим, мы имеем г независимых выборок по пь % ..., пг
независимых наблюдений из ft-мерных нормальных популяций с
неизвестными средними. Относительно ковариационных матриц популяций
мы имеем две гипотезы Нх:Ъь Σ* ..., ΣΓ и #a- Σι = Σ3== ···
= Σ =Σ
He повторяя подробностей, мы, как в разделе 5.1, находим, что
для сопряженного распределения с В*=:(хи ..., xr, Su ..., Sr)
г
/(*:2)=2 |(Χί-μίΧΣ-1(Χί-μ,·) +
Г
+2T(iog{H~*+trSi2:i· (5Л2)
*=1
i=l
Если нулевая гипотеза //2(Σ) задает Σ, то минимальное значение
/(*: 2) в (5.12) при меняющихся μ;, / = 1, 2, ..., г, равно
г
/(*:^(Σ)) = 21τΚ]|ΐΓ1-* + ΪΓδίΣ"1)· <5ЛЗ>
£=1
Последнее выражение есть (2.18) в разделе 9 с Σ вместо Σ.2/· и S*
вместо Σ1;·, у=1, 2, ..., г. Если нулевая гипотеза Я2(·) не задает Σ,
а лишь подразумевает однородность, то минимум /(*://2(Σ)) в (5.13)
применяющейся Σ достигается для n£ = N1S1~}~ ... -j-NA- — Λ/S,
A/=7Vi + iV3+ ... +Ak и величина /(^:^2(.))=:min/(*: Ή3(Σ))
равна
""■:f''») = 2f(.og^f-* + lrS,S-.)=^.og||i. (5Л4,
i — l i=I
ICP· Андерсон (1958, стр. 249), Бокс (1949), Уилкс (1932, стр. 489).]
330 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [гл. 12
Заметим, что оценка J(Hb #2(·)) может быть получена из (2.19)
главы 9 замещением Σι7· на S;- и S.2y на S,/= 1, 2,..., г, и имеет вид
г
J (Я„ Я2 (.)) = 2 τ <tr ^ +tr SSr> - *^=
= 2f trSSF'-f = 2 ^(trS.V + trS.Sr-Sft). (5Л5)
В соответствии с общей асимптотической теорией, если
справедлива нулевая гипотеза //2, величина 2/(//i://2 (·)) в (5.14)
асимптотически распределена как χ2^ с (г—l)k(k~\~l)/2 степенями свободы.
Используя характеристическую функцию распределения 2Ϊ(Η1: //2 (·))>
можно показать (см. раздел 6.1), что лучшим приближением к
распределению служит β-распределение Фишера [Фишер (1928, стр. 665)], т.е.
нецентральное ^-распределение с β2=— ίο (Σ */Nt-—*/NJi
β2 = 21 {Hi: Я2 (.)) и с (г — 1) k (к + 1)/2 степенями свободы. При
числе степеней свободы, превышающем 7 (наибольшее число,
табулированное Фишером), величина 2/(Я1:Я2(·)) (1 — 2ψ\(ν—1)β(β-}--1))
может рассматриваться как X2 с (г—1) k(k-\~l)j2 степенями
свободы.
В одномерном случае k = 1 мы имеем
г
2/(Я1:Яа(.)) = 2 W,log£, (5.16)
i=\ l
где iVs2=.A/1Si+ .·· +Λ^λ W=M+M+ ... + Λ£,
Ρ 3\^^ Ν) (r—\)k(k+\) — S(r~-\)\^Ni Nj'
ί=\ i=\
Полученный результат совпадает с критерием Бартлетта
однородности дисперсий [Бартлетт (1937, 1954), Бокс (1949), Кемпторн
(1952, стр. 21), Лоули (1956)]. См. замечание в конце раздела 3.7.
Мы подводим итоги анализу статистики различающей информации
в табл. 5.1.
Заметим, что компонента «между» в табл. 5.1 есть статистика
различающей информации для критерия нулевой гипотезы //2(·|Σ)
о том, что ковариационная матрица однородных выборок равна Σ.
Анализ в табл. 5.1 является отражением того факта, что //2 (2)=
= Η%(.)Γ\Ηι('\Σ\ и можно записать 2/(* :Η%(Σ))=2Ϊ(Η1 :#2(0) +
+ 2/(tf2Q:tf2(.|S)).
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ
331
*- 1
ιΩ
rt
п
\о
{Я 1
CD. I
U
ϋ
s
i
as
Оч
о
нта инф
ш
Я
о
и
«
I
1
ли !
со ι
+
со
CM I
5:
СМ
»-н
^
+
СМ
^ ^
1
W
ел
1-4
+
ЛИ
W
t
ел
5J0
3,
"
W
m
s
н
°
Рч
с
ел
^»
*=t
о
J ч
Н^ 1
1
-N"
кр<$1
*** \
I
1
«я
ЛИ
со
+
со
ЛИ
(N
У—*
(N1 1
+
ЛИ
τ
^
СМ
ел
~-
сл4
ЪЛ
£
£
^]
•—ч
о
а?
а?
тк^
(N
t5
о
Рч
С
с
0
L-~
~'\
•-^<|Ί
*** Ι
ι
·**
CO
4-1
(Ν
см
У—-Ч
+
Λέ
^
см
"^
W
ей*
г-·
+
Λί
W
с/Г
ъл ι
*- -^
•—ч
W
о
*
1 ,Kw
CM
1 Сч
С
1 *
5
(N
fc3
(Μ Ι
со. ι
о
ϋ
мации
нфор
в
1 «
н
я
1 &
я
°
с
£
°
*
Ч*
1
«•{^Ίί
^, ^."*
Λέ Ico
Λί
»-н
ι
I
^
1 W4e
*<e
со
:
ст
CO
w
CO
ft
со*
2
(M
со*
_
·«
1 CO
Я
•>k<ij
У—s
·*
a;
έ
С
g
-
^ 1
1
-l£_
"■^1
ίο"
+
Λί
CM
τ
it
.g
<M
s~^\
7
^
Λί
•^
τ
CM
Ctf
!0?
,—-
ьл !
Я !
£
KWi
a?
έ
TK
ч
-ξ Ι
1
** 1
AS
1
1
CO
+
CO
Й
CM
<-—ч| j
+
&
Λί
s~-.
CM
СЛ
СЛ*
— 1
ьл 1
с
*""'
5? _
** I
(M
a:
ё
CM
33^ МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
Степени свободы в таблице — это степени свободы
асимптотического /^-распределения или лучшего приближения, доставляемого
β-распределением Фишера, т. е. нецентральным /^распределением
с параметром нецентральности β2.
5.4. Корреляционные матрицы
С помощью статистики минимума различающей информации в (5.14)
мы можем вывести критерий для нулевой гипотезы //3 о том, что
корреляционные матрицы г популяций равны. Записывая
ковариационные матрицы популяций из раздела 5.3 в виде
Σ, = 0ΙσΡ,0Ιβ. Σ = ΌσΡΌσ
с матрицами коэффициентов корреляции Pf, P и диагональными
матрицами стандартных отклонений Dio, Dc, мы представляем //2 =
= #3 Π Нь где
tf3:Pi = P2= ..· =Pr = P> (5.17)
//4 *· ^ΐσ2 = D2ct2| = . . . = Dra2 = Ό02. (5.1 8)
Записывая несмещенные оценки ковариационных матриц в виде
S1 = DijRiDii, S = DSRDS, мы получаем из (5.14)
=2/(Ях: Щ + 2/(Ях: /У4). (5.19)
Мы помещаем этот результат, степени свободы и параметр
нецентральности β2 асимптотического Б-распределения Фишера или
нецентрального /^распределения при нулевой гипотезе в табл. 5.2
[Ср. Сюй (1949, стр. 399 — 400).]
Для двумерных популяций k==2 мы имеем
г
2/(//ι: Щ = У Nt log -Ь^., (5.20)
б]
где
г2 -
'12-
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 333
г Щ
(Σ 23 (**/-**) (л/-л))*
i=l/=l "
*=i/=i i=iy=i
(Ё(*у-*о(л/-л))*
/12 лг. jv.
(Σ(*«-**)0(Σ<%-*)*)
/=1 1 = 1
для двух случайных величин χ и у (индекс i — номер выборки, а
индекс j — номер наблюдения внутри каждой выборки). Число степеней
г
свободы для 2/(//!: Щ в (5.20) равно г — 1 и β2 = 1,5 (^ Ι/ty —Ι/Ν).
ί=ι
Пример 5.1. Мы проиллюстрируем проверку нулевой гипотезы
однородности ковариационных матриц на данных, приведенных Смитом (1947,
табл. 2, стр. 277) для вычисления линейной дискриминантной функции для
группы из 25 нормальных лиц и 25 психически больных. Здесь k = 2, г = 2,
Л^ = ЛГ2 = 24, N=48,
/ 6,92 -5,27\ § /36»75 13,924 /21,83 4,33\
1 \—5,27 40,89/' 2 \ 13,92 287,92/' \ 4,33 164,40/'
| St | = 255,1859, | S. | = 10387,2936, | S | = 3570,1031,
2/ (Ht: Н2 (·)) = 24 log (3570,1031/255,1859) +
+ 24 log (3570,1031/10387,2936) = 37,7268 = В\
_(2—1)2χ3_
12
3 степени свободы.
2
В таблице ^-распределения Фишера, таблице III на стр. 396, 5%
значения для η = 3 и β2 = 0,04 и 0,16 равны соответственно 7,9186 и 8,2254.
Поэтому мы отвергаем нулевую гипотезу равенства ковариационных матриц
популяций. Смит (1947) отметил, что корреляции незначимы, но что
Дисперсии психически больных значимо больше, чем дисперсии НОрМалЬ-
НЫХ ЛИЦ.
334
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
[ГЛ. 12
Пример 5.2. Теперь мы обоснуем замечание, сделанное в конце при*
мера 4.1. В дополнение к Si и S8 в примере 4.1 мы также имеем
,191,04 11,871 25,162 \
11,871 4,0280 —0,35378),
\25,162 —0,35378 58,606 /
| S, | = 13313, | S81 = 43779, | S | = 34053,
7l{Hx: //, (.)) -95 log |g§- + 208 log^gg = 227,09- В\
а_ 54 + 27 — 3
12
[к+т^тГ^1^
(2—1)3χ4
= 6 степеней свободы.
В таблице ^-распределения Фишера, таблице III на стр. 396, 5%
значения для п = 6 и β2 —0,04 и 0,16 равны соответственно 12,6750 и 12,9247.
Поэтому мы отвергаем нулевую гипотезу равенства ковариационных матриц
популяций.
Пример 5.3. Мы используем данные, приведенные Пирсоном и
Уилксом (1933) для пяти выборок, каждая по 12 наблюдений над длиной
и твердостью алюминиевых заготовок. (См. раздел 9.1 гл. 11.) Основываясь
на данных Пирсона и Уилкса (заметим, что они не пользовались
несмещенными оценками) и опуская здесь де! али, имеем k = 2, г — 5, Nt =... = N5 — 11,
/V = 55, log I Si I =5,82588, log | S21 = 6,63942, log | S3 | =5,31904, log | S41 =
= 6,66973, log | S51 = 5,35937, log | S | = 6,13953, 2/ (Ht: H2 (-)) = 55 (6,13953) —
— 11 (29,81344) = 9,726 = B\
2_ 16+12 — 2
~~" 12
__ (5— 1)2X3
(π-άΗδ
>,945454,
12 степеней свободы.
Таблица 5.3
В таблице ^-распределения Фишера, таблице III на стр. 396, 5%
значения для η = 7 (наибольшее в таблице число) и β2 = 0,64 и 1,0 равны
соответственно 15,3225 и 16,0040. Так как
табулированные значения возрастают с возрастанием η
при фиксированном β2, мы не отвергаем здесь
нулевую гипотезу равенства ковариационных
матриц популяций. Мы могли бы также
проверить величину 9,726^1— 0,945454 \ = 8Q6 как
X2 с 12 степенями свободы и получить тот же
самый вывод — принять нулевую гипотезу
равенства ковариационных матриц популяций. Это
совпадает с результатом Пирсона и Уилкса (1933).
[Ср. Андерсон (1958, стр. 256).]
Пример 5.4. Чтобы проиллюстрировать
раздел 5.4, мы подсчитаем 2/ (Н1: Я3) в (5.20)
для пяти выборок примера 5.3, так что £==2, г = 5, Nt = ... =Ν5= 11»
N=55. По данным Пирсона и Уилкса (1933, стр. 370) мы произвели
подсчеты, приведенные в табл. 5.3.
i
1
2
3
4
5
*-^ι2
0,534106
0,232617
0,490595
0,488835
0,351891
51
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ
335
i—г218 = 0,408161, я ==4 степени свободы,
™ of/w ич hi 0,408161 . .... 0,408161 по,..
5^ = 2/(Я1:Я3) = 11 log ^34^ + ---+1,l0gt35T891=0'8504'
5% значения, содержащиеся в таблице ^-распределения Фишера,
таблице Ш на стр. 396, для 4 степеней свободы и β2 = 0,64 и 1,00 равны
соответственно 10,9402 и 11,7073, так что, в согласии с примером 5.3, мы
принимаем нулевую гипотезу равенства коэффициентов корреляции.
Пример 5.5. В качестве другой иллюстрации раздела 5.4 рассмотрим
данные Пирсона и Уилкса (1933, стр. 372 — 375), представляющие собой
стандартные измерения длины и ширины черепа в миллиметрах, полученные
для 20 взрослых мужчин в каждой из 30 различных рас или групп, так
что k = 2, г = 30, ΝΙ = ... = ΛΓ30= 19, /V=570. По данным Пирсона и
Уилкса (1933, стр. 373) мы произвели подсчеты, приведенные в табл. 5.4.
Таблица 5.4
i
1
2
3
4
5
6
7
8
9
10
*-** !
0,991591
0,960796
0,668224
0,999775
0,970071
0,416304 :
0,998631
0,555111
0,999804 I
0,987456 ι
ι
u
12
13
! 14
15
16
17
18
19
20
1-г2
1 гт
0,952039 !
0,976896
0,898239
0,903900
0,999639
0,801975
0,831900
0,105084
0,999676
0,974400
i
21
22
23
24
25
26
27
28
29
1 зо
l-'fn
0,968316
0,417831
0,989799
0,798399
0,939975
0,870400
0,649536
0,734775
0,999471
0,935484
1—r\s = 0,959955, η = 29 степеней свободы,
pi=i*(S-^)=2w
0,991591
' 0,935484
Так как 29 степеней свободы нет в имеющейся в нашем распоряжении
таблице β-распределения Фишера, мы подсчитаем величину 111,1216
(1—2,3658/29) = 102,0564, которая как X2 с 29 степенями свободы
значима, и мы отвергаем нулевую гипотезу равенства коэффициентов
корреляции. Для этих данных Пирсон и Уи.ткс (1933, стр. 374), используя 2-кри-
30
герий Фишера [Фишер (1921)], подсчитали У.2 — У (щ—Ъ) fa — ζ)2 , где
i=l
*'= y[loge(l + Oi8)— loge(l — r/1§)] и 2=2*«/Э0, получив X2 = 96,01
с 29 степенями свободы.
зо
ι
ΐ-=1
336 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [Гл. 12
6. АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ
В этом разделе мы дадим обоснование утверждениям, сделанным
относительно асимптотического поведения статистик в предыдущих
разделах данной главы.
6-1. Однородность ковариационных матриц
Если справедлива гипотеза Я2 раздела 5.3, мы положим
Λ/ΡΑ = Σ!'2ν,21'2, Λ/8 = Σ1'2ν21/2, 1=1, 2, ..., г, (6.1)
что определяет в конечном счете линейное преобразование
элементов матриц Sf, S в элементы VhV соответственно. Якобианы этих
преобразований имеют вид [ср. Андерсон (1958, стр. 162), Димер и
Олкин (1951)]
fe + l А;-И
2 I I *-j 1 2
v-21 й \nL\
Распределения Уишарта элементов матриц S,·, S тем самым
преобразуются в соответственные вероятностные плотности элементов Vit V
Π2 -itrV,.„.-4i— /Π2 -itrV
2L __Ltrv ^~fe~1 /nl ».-« ^-*-l
iv,,-1-*- (J-) V*"vm
\2/ _^
fe(^-l) /fe И *(*-!), Λ ' (6·2)
π 4 Π Г((А^ + 1 — α)/2) π 4 Π Γ ((W+1 — α)/2)
α=1 α=1
Применяя преобразование (6.1) к / (//х: //а (·)) в (5.14), мы
получаем
Так как г выборок независимы, характеристическая функция
распределения величины
г г
ρ=ι р ρ=ι
АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 337
равна [ср. Бокс (1949, стр. 321)]
kN
Л х _ NR[\-2it)-k-l
i«=\(iliri-TE3n )χ
,Р = !
*J \У~ π 4 Π Γ((ΛΓρ+1—α)/2) /
α = Ι
xivrnn ^чпп^ажу»)*
Π Γ((ΛΓ(1—2ιϊ)+1—α)/2)
Π/ г ((ΛΓ+ 1 - α)/2) ΤΤ Γ ((Ν, (1 - Щ +1 - α)/2)\ ,β »
[Τ((Ν(\-2Η)+\-α)β)11 ТЩ+\-а)р) J' 1°''
где промежуточный результат следует из свойств распределения
Уишарта [Андерсон (1958, стр. 162), Уилкс (1943, стр. 232)]. Мы
используем аппроксимацию Стирлинга
чтобы получить приближенное значение (6.4) при больших Λ/. Мы
имеем
1орГ((^0-2й) + 1-«)/2) _
ё Γ((7νβ+1-α)/2) —
_NB(\—2if) — a. N*(\—2it)+l—a Λ^β(1 —2tY)+I—α ι
~~~ 2 g 2 2 '
« Ι !
Ί б (ΛΤρ (1 — 2ίΥ)+ 1 — <*) 45 (Λ/ρ (1 —2«)+1 —«)3
2 ' 2 6(Νβ + α—1) ι
1 +0(1/Νβ5), (6.5)
45(7νβ+1—α)
и после некоторых алгебраических преобразований правую часть
(6.5) можно записать как
338 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
Поэтому мы имеем
logy(Q= £ UtNlog?-- N{\~2it)~a lQg(1 _щ_т_
« = 1β=1
=-« |iWptog^-^-1)y*+1>iog(i-af) +
β-l P β=1
Пренебрегая последними членами в 6.6, мы имеем
г
(6.7)
Г
где c = (2k*-\~3k*~ ft)(2 l/Λ/ρ— 1/7V)/12.
β = 1
Вследствие (6.3) и (6.4), если обозначить ζ = 2/(#!: #2 (·))> то
плотность вероятностей величины ζ равна
со
J_ С exy(-~l& + cit\(\-2U))dt „„
^^'""йс J (i_ 2ίΛ(»·-«*(* + »)/* * *· '
Пренебрегая членом с су получаем, что D (ζ) есть плотность
вероятностей /^распределения с (г-^- l)k(k-\-1)/2 степенями свободы;
иначе, интегрируя (6.8) [см. Лаха (1954), Мак-Лаклан (1939, стр. 86)],
мы получаем вследствие того, что величина ζ действительна и
положительна и (г — i) k (k ~\~ i )/4 ^> О,
D® = \e-«*-V» (j-У~т1п-х (1^), (6.9)
где n = (r—l)ft(ft-f-*)/4 и /Λ_ι(|Λ:ζ) есть функция Бесселя от
чисто мнимого аргумента [Уотсон (1944)]
п— \ , , п—\ .
со (λ) ' (Л\
/«О
6] АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 339
Вероятностная плогность (6.9) есть плотность нецентрального х2-рас-
пределения с 2п степенями свободы и параметром нецентральности с,
т. е. плотность ^-распределения Фишера [Фишер (1928, стр. 665)] с
Аппроксимация логарифма характеристической функции ζ, τ. е.
— nlog(l—2if)~\- _2Ϊ> соответствует аппроксимации Бокса (1949,
формула 29, стр. 323), если сохранить только первый член в его
сумме; т.е. его— ( . 1] (в формуле содержится опечатка) здесь
с it ,
есть γ·__2·*9 эт0 можно проверить, используя соответствующие
формулы, данные Боксом (1949, стр. 324—325), с β = 0.
При большом η мы можем аппроксимировать 1п-\(УсЪ в (6.9),
записывая
г ,л/^_(^)(я-|)/2 V (ДС/4УГ(Я) _
/„_! (V Л) — —щ^ 2, flT(n+j)
/=о
~ (^/4)("~"/2 V 1 Г* V _ W4)"~1/2 £СС/4П
~ Г (η) Δβ\4η)— Г (я) * '
тем самым получая
Если положить С (1— ;ί-)=χ2> (6.10) дает
.-с/2 ρ-χ2/2 /vs\rt-l м
У*.)"Х — г ип I» \2/ 2
2/zJ
T{n)
(6.11)
или, другими словами, величина ζ fl— ^~j асимптотически
распределена какх2с2я = (г— \)k(k~\~\)j2 степенями свободы. Можно
проверить, что 1—9~ = Р есть масштабный множитель в χ2-πpиближe-
нии по Боксу (1949, стр. 329). [Ср. Андерсон (1958, стр. 255).]
О других приближениях к нецентральному χ2-pacπpeдeлeнию см.
Абдель-Ати (1954), Тьюки (1957).
340 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ μνΐ. 12
6.2. Одна выборка
Для одной выборки мы получили значение 2/(//ι://2) Β (3.15).
Тем же самым преобразованием (6.1), т. е. A/S==H^2v2l/2 с
якобианом
-У
1* + 1)/3
, вероятностная плотность распределения Уишарта
элементов матрицы S преобразуется в плотность, выраженную
правым членом пары (6.2), и
2/(^:^) = ^(logl^|-^ + trSS7l) =
= Nk log N— Nlog I V J — //ft -f.tr V. (6.12)
Характеристическая функция распределения 2/(//i://2) поэтому
равна
N{\—2it)~k-\ ( 1
у, ^—exp(—2tr(1~2")V+
\ *
-\-UNk\ogN-ltNk\ Ц dvlt
„*(ft-и/4Π Γ((/ν+1-α)/2)
ο = 1
Ι \ilNk
^ exp(ttNklogN—it№) *
ПГР(1-йН1-а))2)
(l—af)***1-8")" JL1 . Γ((Λτ+ι-~α)/2)
α= 1
Используя (6.5), мы получаем результат
1<* φ (9 = 4LJ<1-2*>+ 12(1-^^+0(1/^, (6.14)
откуда установленные в предыдущих разделах выводы следуют так
же, как в разделе 6.1.
6.3. Гипотеза независимости
Известно, что логарифм характеристической функции
распределения величины 2/(//1:#g) = — Nlogj R| [см. (3.18)] рав^н [см. Бартлетт
(1950), Уилкс (1932, стр. 492)]
logT(Q = (*-l)log Γ(/^ϊ)/2) +
+ку wiMiiz^b^a (61Б)
Т ^юёΓ((ΛΓ—α)/2) · УЬЛ0)
α=1
б] АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 341
Используя приближение Стирлинга, как в (6.5), и сохраняя
сравнимые по порядку члены, как в (6.7), мы имеем
log φ (t) = - *fcL> log (1 - 2it) + j^, (6.16)
где с = k (k — 1) (2k -\- 5)/I2M
Тогда утверждение, сделанное в конце раздела 3.3, следует из
(6.16), (6.8) и (6.9). Из (6.11) мы можем также вывести, что величина
2/(я1:я;)(1 - *(*64g+5) ) = -(Ai-T(2*+5>HRl
асимптотически распределена как χ2 с ft (ft—1)/2 степенями свободы.
Последний результат принадлежит Бартлетту (1950).
Логарифм характеристической функции распределения величины
2i(H1:H*(-)) = Nlog 1R"I'^IR««I [см. (3.30)] равен [Вальд и
Брукнер (1941), Уилкс(1932, стр. 493, 1943, стр. 244)]
т Η
р = 1 ct= l
+ L 10g Г ((N+1 - γ)/2) · (0Л i}
Используя приближение Стирлинга, как в (6.5), и сохраняя лишь
сравнимые по порядку члены, как в (6.7), мы имеем
т
iqg φ (9 = ψ iog(l_2if)+rSu, (6·18)
где с = ((2ft3 + 3ft2 — ft) — J] (2Щ + 3ft} — k))jl2N, откуда следуют
β=1
результаты табл. 3.1.
Заметим, что при k —19 β = 1, ..., т, так что m = k, (6.17)
превращается в (6.15) и (6.18) в (6.16).
6.4· Корни характеристических уравнений
Из результатов, которые получили Гиршик (1939), Рой (1939,
1957), Сюй (1939, 1941а, 1941b, 1941—1942), Фишер (1939b)
[см. Андерсон (1951, 1958, стр. 307—329), Муд (1951), Уилкс (1943,
стр. 260—270)], известно, что плотность вероятности распределения
342 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
корней уравнения | S* — /S [ = 0 [см. (8.4) гл. 11] при больших (п — г)
равна
■ιγ-\)Ρβ πΡ/2
р >11 (/,... /р)(г-Р-2)/2Х
Π Г((г—ο)/2)Γ((ρ+1-α)/2)
«=1
χ е-4 ('«+···+ν π (/._,,.), (бЛ9)
и что плотность распределения корней | S^S^S^ — /Si2.j | = 0 [см.
(7.4) гл. 11] при больших (я — kt) равна
—5J ^ fa. · .t»*Jt»i-*«-»)/» X
Π Γ^-οΟ/^ΓβΑ,+ Ι-οΟΡ)
*>/
где г>£ = (л — kx) lt.
Характеристические функции асимптотических распределений
3(НьНъ) в (8.5) и (7.5) главы 11 могут быть получены из (6.19) и
(6. 20) и равны соответственно (1 — 2^)~(г_Ьр/2 и (1 — 2tf)~(ftl~l)*2/2,
откуда следует вывод о том, что это χ2-pacπpeдeлeния. χ2-paзлoжe-
ния в разделах 8.1 и 8.2 главы 11 основаны на том факте, что
асимптотически распределения корней /т+1, ..., 1р из (6.19) и i>m+i» ···
..., Vk2 из (6.20), в предположении, что соответственные параметры
популяций имеют значения, заданные нулевой гипотезой, не зависят
от распределения остальных корней и имеют вероятностные плотности,
заданные соответственно
^yr_l_m)(p_m)/2^(p_m)/2
p„m [2} (4+i.../pF^-2)/2 Χ
Π Г((г —от—α)/2)Γ((ρ—m+1 —α)/2)
ХеЧ^+-+Ур(/._/;)) (б21)
Μ γ*ι-i-mi (*. -яй/а ^_я)/а
#2 — W
Π Г((^— т— а)/2)Г((Ла — т + 1 —а)/2)
X* П^у — *«)· (6·2 }
АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 343
Если Si и S2 — независимые, несмещенные оценки одной и той
же ковариационной матрицы т при N\ и 7V2 степенях свободы
соответственно, то вероятностная плотность распределения корней
уравнения | MSi — /iVaSa I = ° Равна
т /ТТ Г((Ц + Ц+1-«)/2) \
π \\\ Г ((Nt + 1 — α)/2) Г ((ΛΓ2+ 1 - α)/2) Г ((*+ 1 - α)/2) ) А
χ ((i+/1)...(i + /ft))^+JVa)/2 * (6'23)
Если S является несмещенной оценкой Σ с N степенями
свободы, то вероятностная [плотность распределения корней уравнения
I TVS — / Σ | = 0 равна
π*/2 ρ^/2
(Ί - ■. /*)^-*- ^ X
Π Г((ЛГ+1-«)/2)Г((й + 1—а)/2)
о-1
' -T^i + - + V
χ* Π ('/-«· <6·24)
ί>7
Распределение корней /т+1, ..., /ft в (6.24), в предположении,
что соответственные параметры имеют значения, заданные нулевой
гипотезой, не зависит от распределения остальных корней и имеет
плотность вероятности
(ft— го)/2 / 1 \{N—m) (ft—ro)/2
τ^ - И (W · - /Λ)ΐ"-*-'>* Χ
Π Τ ((Ν— m+1 — α)/2) Γ ((fc — m+1 — α)/2)
α = Ι
xriwh~+l*n ('/-«· (6·25>
*>/
В разделе 3.5 мы касались распределения суммы
k
Ν Σ ( — logFi — l+Fi) = (k — m)NlogN—(k — m)N+
+ Σ (-MogJi + to
^e величины /г являются корнями уравнения (Λ/S—/Σ2| = 0.
^ы находим, что характеристическая функция интересующего нас
344 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
распределения равна [используя (6.25)]
ί ^J exp (it (k — m)N log N— (k — m) Nit)
?Р)= (1 __2iY)(A!~w)(^1 -ЭД-«)/2 ^
ft —m
X JUL Γ((ΛΓ—m+I —a)/2) ' ^-Zb>
a— 1
Заметим, что при т = 0 рассматриваемая сумма есть не что иное,
как 21(Н1:Н<2) в (6.12), и характеристическая функция, выведенная
в (6.13), есть (6.26).
Используя приближение Стирлинга, как в (6.5), и сохраняя лишь
сравнимые по порядку члены, как в (6.7), мы находим, что логарифм
характеристической функции (6.26) равен
l°gT(')=- <*-"><*-"+'> 108(1-2/0 + 1^5, (6-27)
где с = ((2£3 -[- 3&2 — k) — (2m3 -\~ 3яг2 — яг))/12А7, откуда следует
утверждение о распределении, сделанное в разделе 3.5.
Распределение корней /т+1, ... , 1к в (6.23), в предположении, что
соответственные параметры имеют значения, заданные нулевой
гипотезой, не зависит от распределения остальных корней и имеет
плотность вероятности
π(*-»ι)/2χ
k—tn
V TT Г((ЛГ-т+1-а)/2) v
A Ц Г ((ΛΓ,-μ+1 — α)/2)Γ ((AT, — m+1 — о)/2)Г((й — m+1 — a)/2) A
t = l
x «i-i-A№)...a-i-/*))^-i-jMW/a"' (6,28)
где Ν=Νι-\-Ν* В разделе 5.2 мы касались распределения
(*-«)iVllogi^r + (*-«)^logi^ +
k
+ Σ ((Μ + М) log (i+/0-М log a
i=m+l
где величины /г· являются корнями уравнения | N^ — /A/2S21 = 0.
Мы находим, что характеристическая функция интересующего нас
7} КРИТЕРИЙ СТЮАРТА 345
распределения равна [используя (6.28)]
φ (ί)=exp (it(k - tri) 2 Nj log $} X
ft — m
XT Г((ЛГ-т+1-«)/2) ч/ Г ((^ (1 - Ж) - m+1 -α)/2) ν
A1J Γ((Ν(1 — 2tf) — m + 1 — α)/2)Λ T((Nt — m-\-l— α)/2) Λ
V Γ((^(1-2«)-?η+1-α)/2) fi 9Q.
Χ Г((ЛГ,-т+1-а)/2) * (°гУ)
Аналогично тому, как в (6.5), (6.6) и (6.7), мы находим
logT(0=- (*-»)»-»+0 d-210 + yj^, (6.30)
(2ft3 + 3fts — ft) — (2m8 + 3m2 — m) / 1 ,1 1\
гдес = X V (ϊνϊ + ΛΓ,-ϊν)' 0Ткуда Сле'
дует утверждение о распределении, сделанное в разделе 5.2.
7. КРИТЕРИЙ СТЮАРТА ОДНОРОДНОСТИ ЧАСТНЫХ
РАСПРЕДЕЛЕНИЙ ПРИ ДВУФАКТОРНОЙ КЛАССИФИКАЦИИ
Мы вернемся к проверке нулевой гипотезы о равенстве частных
распределений, упоминавшейся в конце раздела 11 главы 8, и
продемонстрируем метод Стюарта (1955а).
7.1. Многомерная нормальная гипотеза
Рассмотрим следующую альтернативную гипотезу Hi и нулевую
гипотезу //2 для средних значений и ковариационных матриц
многомерных нормальных популяций:
Hi'^t^nA, Σι = ηΣ — ηΑΔ',
Ή2:μ2 = 0, Σ2 = λΣ.
Из (1.2) главы 9 имеем
/(l:2) = lM^A + LlogT^ML-|- +
-f \ tr (л Σ — ηΔΔ') i- Σ1 = g- ηΔ'ΣΗΔ -
(7.1)
— \ log (1 — Δ'Σ^Δ) — \ Δ'Σ^Δ, (7.2)
346 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
используя то, что [ср. Уилкс (1943, стр. 237—238), задачи 10.4 и
10.6 гл. 9]
Λ Δ'
η
-\ηΣ-~ηΑΑ'\ =
^ΙηΣΚί-Δ'Σ-'Δ). (7.3)
|Δ ηΣ
Таким образом, при больших п мы можем использовать величину
2/(1:2) = ηΔ'Σ^Α = {пЫ) (ηΣ)'1 (яА), (7.4)
эквивалентную той, которая получилась бы при гипотезе равенства
ковариационных матриц ηΣ и различия средних яА.
7.2. Проблема таблицы сопряженности признаков
Указанная проблема, если принять обозначения раздела 2 главы 8
для двуфакторных таблиц сопряженности признаков и учесть
равенство хг.-\-. ..-|-хс. = хш1 -[~...-|-х,с — п, сводится к задаче с с—1
переменной. Стюарт (1955а) предложил статистики
di = Xi.—х.ь 1=1, 2, ... , с—1. (7.5)
Известно, что полиномиальное распределение стремится к
многомерному нормальному распределению [Кендалл (1943, стр. 290—291),
Крамер (1946а, стр. 318, 418)]. Стюарт (1955а, стр. 413—414)
показал, что
E(di) = n{pi. ~p.il D(di) = n[(pi.-{-p.i — 2pii) — (pi.—p.if]>
cov(di9 df)= — n [(ρ4-\-Ρμ)-\-{ρί. —/м)(Р> —P-j)l (7·6)
так что при pi.—ρψί = ^ι матрица Σ в (7.1) есть Σ — ^ί/), сн =
=Pi.+P-l—2Pii> <*ij = — {Pij+Pii)> I, j=l, 2, ..- t c—1.
Статистика критерия (оценка 2/(1:2)) имеет вид
2/(tf1://2)=d'S-1d, (7.7)
где a' = (db аъ ... , dc_x\ величины dt определены в (7.5), и S =
=== (β if л Sii == Xi· \~ χ·ί — ^xiv Sif ==:: — (xif "T* Xfi'> *» J :== ^' 2, . . -
... , с — 1. Если справедлива нулевая гипотеза //2, величина 2Ϊ(Ηι: Я2)
асимптотически распределена, как χ2 с с — 1 степенью свободы. Как
и при репараметризации, выводы не зависят от того, какие с — 1
из с величин аг были использованы.
8. ЗАДАЧИ
8.1. Что хможно сказать, исходя из (ЗЛ8), об области значений | R|?
8.2. Каково формальное соотношение между (3.26) и величиной (3.5)
главы 7 при г= 1?
8.3. Проведите рассуждения раздела 4.1, если нулевая гипотеза (речь
идет о средних значениях) превращена в #2: μ1 = μ + δ, μ2 = μ, при
заданном δ, т. е. нулевая гипотеза утверждает, что различие средних равно δ.
8] ЗАДАЧИ 347
8.4. Каково асимптотическое распределение величины 2/ (Ях: Н2 (·))
в табл. 4.1, если нулевая гипотеза неверна?
8.5. Покажите, что 2/(//1://2 (·)) в (4.12) при г = 2 дает 2/(//1://2)
в (4.8).
8.6. Проверьте однородность средних значений для первой и третьей
выборок в примере 4.2.
8.7. Если бы вы подсчитали линейную дискриминантную функцию для
второй и третьей выборок в примере 4.2 с помощью процедуры раздела 4.2
и процедуры раздела 8.1 главы И, были бы различными полученные
результаты?
8.8. Каково асимптотическое распределение величины 2/(#1:#2(·))
в (5.14), если нулевая гипотеза неверна?
8.9. Проверьте однородность трех ковариационных матриц в
примере 4.2.
8.10. Продолжите анализ данных в примере 5.1 согласно табл. 5.2 и
подтвердите вывод Смита (1947), что корреляции незначимы.
8.11. Завершите анализ данных в примерах 4.1 и 5.2 в соответствии
с табл. 5.2.
8.12. Найдите сходство и различие между критерием независимости двух
множеств случайных величин в разделе 3.6 и критерием в разделе 7 главы 11.
8.13. Запишите плотности вероятности (6.2) для й=1.
8.14. Проведите алгебраические преобразования в (6.5).
8.15. Запишите плотность вероятности (6.19) дляр=1, плотность (6.20)
для ft2 = l и плотность (6.23) для й=1.
8.16. Уилкс (1935b, стр. 325) рассмотрел нижеслецующую
корреляционную матрицу, приведенную Келли (1928, стр. 114) для выборки, состоящей
из 109 семиклассников, где пять величин характеризуют соответственно
скорость арифметического счета, способность к счету, интеллектуальные
интересы, общественные интересы, деловые интересы:
1 0,4249 —0,0552 —0,0031 0,1927
0,4249 1 —0,0416 0,0495 0,0687 \
R=[ —0,0552 —0,0416 1 0,7474 0,1691
-0,0031 0,0495 0,7474 1 0,2653у
0,1927 0,0687 0,1691 0,2653 1 '
Примете ли вы нулевую гипотезу о том, что множество первых двух
величин не зависит от множества последующих трех величин?
8.17. Бартлетт и Раджалакшман (1953, стр. 119) сделали вывод, что
наблюденная корреляционная матрица R с N= 29 значимо отличается от ги-
потеаической корреляционной матрицы Р2, где
П 0,7071 0,7071 0,ί
0,7071 1 0,5000 0,7071
0,7071 0,5000 1 0,7071
VO,5000 0,7071 0,7071 1
П 0,2676 0,5931 0,1269\
0,2676 1 0,3753 0,5941
R=l
Проверьте это заключение,
0,5931 0,3753 1 0,6796
,0,1269 0,5941 0,6796 1
348 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
8.18. Бокс (1950, стр. 387) приводит следующие три ковариационные
матрицы, полученные при исследовании изменения роста крыс в трех
группах, содержавшихся в различных условиях:
210,5 13,5 —7,5 —13,$
13,5 202,5 224,5 110,5
—7,5 224,5 310,9 117,5
Ч—13,5 110,5 117,5 258,5,
mi,4 83,0 78,4 39,7
83,0 246,0 292,0 157,0
78,4 292,0 473,4 264,7
39,7 157,0 264,7 174,9
260,4 —54,0 —126,4
—54,0 160,5 110,0
-126,4 110,0 262,4
V—100,8 77,0 76,8
9Si = |
6S2 =
9S. = '
Бокс пришел к выводу, что нет причины сомневаться в однородности
ковариационных матриц. Проверьте это заключение.
8.19. Предположим, что в табл. 3.1 анализ производится только для двух
множеств (^ = 1, k2 = k—I). Покажите, что 2/(Ht: Н2 (·)) = — Nlog(l —
~ri-23...fe) c k — * степенью свободы и β2 = (&2—1)/2А/, где r1#23 k есть
наблюденная множественная корреляция хг с лг2, лг3, ... , лг^. [См. (7.18)
гл. 9.]
8.20. Покажите, что задача 10.12 главы 9 равносильна следующей.
Обозначим через //J гипотезу независимости, заданную в (3.18) и Щ (Р/./-и,... fk =
= 0)—гипотезу о том, что множественная корреляция xj с лг/+1, ... , Xk
равна нулю, j =1,2,..., fc—1. Тогда Я^/^ (pf.23... д. = 0) П Щ (Р|.3 ... * =
= 0)П ... П/Ш-ы^О).
8.21. Покажите, что — Nlog | R |= — AHog (1 — г*.ад k) — Nlog (1—
-γΪ.8...α)---^1ο8(1-γΪ-ι.*)» т- е· что 2/(Я1:/У;) = 2/(Я1:
^(Р12.23...^-=0)) + ...+2/(Я1:^(р|_1.,г = 0)), где 2/(^1^) задана
в (3.18) и 2/(Я1:/^ (Р)./+1 ft = 0))=-AHog (1-г)./+ь_ Д.
8.22. Покажите, что в табл. 8.1 проводится анализ величины 2ί(Ηί:Η'&)
из формулы (3.18).
8.23. Покажите, что - AHog (1 - r}.a ... k) = - A/log (1 - rfft.a ... Л^) -
^A^log(i-rfft_1.23...^.2)-...^^log(l~r123.2)-^log(l--r312)> где
ri/.23 .../_ΐ, 7=2, ... , ky есть частный коэффициент корреляции.
8.24. Покажите, что в табл. 8.2 проводится анализ величины 2/ (Ht:
^(pi.M..:*=°)).
8.25. Покажите, что задача 10.15 главы 9 равносильна следующей.
Обозначим через Н2(Хц) гипотезу, определенную в (3.18), и через Я2(|2«| =
^ I s//-i2.-. /-11 > — гипотезу о том, что |2/у| = |2//.Мвв./_1|, у = 2, ...
... , т. ТогдаЛ№и)^//Л|2»| = |2.,.1|)П^(|2м1 = |2№»1)П···
··· Π Я2(|2тт| —|2mm,12_.m„l|).
ЗАДАЧИ
349
Таблица 8.1
Компонента информации
р1-ьа=о
Ρ)·/+ι *=0
pf.a...A = 0
//;
—A^iogd—rl_„bft)
_tflog(l-rJ.y+lf_fft)
_^l0g(l_rfe2 _ft)
—/^Iog|R|
С. С
1
*-У
/г—1
Л (Л— 1)
2
β2
3
2Ν
{k-j)* + 2(k-j)
2N
k* — \
2N
k(k — \)(2k + 5)
\2N
Компонента информации
pfs=o
Pl3.2 = 0
Ρι/·23.../-ι = 0
P?fc.23 ... ft-l=0
pJ.a...*=o
-АПо2(1-г?2)
-ΑΠοδ(1-Γ?3.2)
-^logO-rJ^^^)
— Wlog(l—rfc.M ...A_t)
-~Mog(l--rf.2_ft)
Та
С. С.
1
1
i
1
k~ 1
блица 8.2
β2
3
2N
5
27V
2/-1
2N
2k — \
2N
k*—l
2N
8.26. Покажите, что в табл. 8.3 проводится анализ величины 2Ϊ (Нх: Н2 (·))
из табл. ЗЛ.
8.27. Покажите, что анализ табл. 8.3 (задача 8.26) при ki = k2 = ...=
= fcm = l подобен анализу в табл. 8.1 (задача 8.22).
8.28. Покажите, что в табл. 8.4 проводится анализ компоненты
информации, обусловленной |^//.13.../_11 из та^л· 8.3 (задача 8.26) при l = kt-\-
+ *■ + ... + */
8.29. Покажите, что при kj= kj_t = 1 компонента частичной
независимости в табл. 8.4 (задача 8.28) сводится к компоненте для гипотезы
рЛ7~-1)-1а.../—а5^» эт0 получается с помощью результата, подобного
результату в'табл. 8.2 (задача 8.24). (Ср. задачу 10.20 гл. 9.)
350
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ
[ГЛ. 12
оо 1
00
ЕГ
S
VD
(Μ
GEL
ϋ
С
ES
s
9
S
о
s
rt
»
о
с
s
С)
^1
+
β?
<м
* \
*f
•«г
<м
ее
14
ъд
о
*
—
ел
1
i~
5*
ел
%
\ f
•—ч|
+
*&
+
:
+
+
■
+
*у
СМ .
j>
•«Й
•—Ч
+
+
лГ
"^
е?
Ч-Н
1
•
•
еч
|
ЪД
о
1
I
■ ~^ζ
• с/?
■ —
1
1
♦
*
©ι
! Г~">
of
ьд
о
' £
! Τ
•^
сч
; ρ
•Η
*—"ч|
+
**£
+
+
^ε
+
+!
лГ
г*
ε Ι
**
•—>ч
1
ε
·**
+ ι
+
*г
—
ε
■ ε
Οί
—■
Τ
ε
•
Ο*
«Η
ε
ε
с*
ЬД
о
'. *
•
.
• —
* ε
• ε
• ел
■ —
j
ε
•
с
έ
ε
ел
wT
о
: ξ
■—
w*
I
ε
с
«Η
; ρ
ε
ε
'*~*4 !
Ι
<Ν·«»
+
See*
εΡ^Ι
ι "I
1
<м
•*Й
оо
+
*«£
(Ν
СМ
Wv
"ε
ε
ι
•
С?
с*
"—
ЬД
О
*
~i
ε
ел
-*—_
•
•
~
С/Г
1 !
.-"—
ел
W
о
^
•—V
^
ί
1 ?
1 с
"Ч
Μ
00
S
VD
GO.
ϋ
ϋ
в
маци
Οι
•Θ·
а
1 *"'
ев
а
G
С)
ixi
•—ч1
*""*'
+
•ί
1
*"-*
*1
|
1
*>-4
' '
*«sT
•—Ч
ι
I
Ι
ι
Ν—'
^
CC
еч
I
1
C3
«H
A
••^
hi
—·
Ьй
J2
ξ
II
54
ел
СЧ
1
•^
■
Ά
•^
ел
—
ЬЛ
о
^
еч
Ι I
ея
«Η
s
*^»
w
"~
1
C^\
+
14
^
I
|
1
CM
«г
CM
-ξ"
i·
—Ζ
Ι
1
!
e*
••-ι
•<-4
tf
—
1
I
СЯ
«H
:·^.
·>
Ctf
—
Ьй
£
ξ
e*
I
**-.
*
СЧ
^*«l
•^
ел
-^_
|
1
1
"-»
•
1^»
"^
ел
1—
bX)
о
fe:
I
S
CQ
ed
CO
<V
S3
C3 £_
χ α
tr о
S s
is
С
Г
«—ч
+
•^4
1
CM
,fc>
I
****
Э
oi
I
1
СЧ
«H
1^»
>
C£
—
ьл
о
^ 1
:=ί
ел
1
1
■•^
:^»
•^
ел
—'
ьл
о
ξ
«Η
[
'^
e*
«H
*^
••^
w
—
8] ЗАДАЧИ 351
8.30. Соотнесите анализ в табл. 8.1 (задача 8.22) при k = 3 с табл. 3.3
главы 8.
8.31. Соотнесите анализ в табл. 8.2 (задача 8.24) при k = 3 с табл. 3.5
главы 8.
8.32. Пусть случайный вектор х подвергнут невырожденному линейному
преобразованию у = Ах. Покажите, что (см. раздел 3 гл. 9):
(а) μ^ = Αμ^
(б) Ху = АХхХ';
(в) у = Ах;
(г) SJF = ASjeA';
(д) величина /(*:2) в формуле (3.14) равна
J (у-μ^Σ-| (у-μ,) + ^(logi^!_ft+tr S^).
8.33. Пусть в задаче 8.32
\Σ21 Σ22/ \S21 S22/ \ Е^Ец1 \fij
Покажите, что (см. разцел 7 гл. 9):
(б) *>~Qz ь$' Σ'"=Σ,ν Σ«'="ο=ϊ«"
2jj,2s = 222 Σ21Σ1/Σ12 = 22Sal;
(в) S^M1 ^J, SJ,11 = S11, SJl,12==S12™S112Y1i212 = S^1,
S^22=: S22— Σ21Σ11ο12 S2i211Si2-}-22i211 ^liSj!^!^
ίΓ) SJV22-1 = SJV22 ~ S^21SiAS^12 β S22-l ^ S22 ~ S2lSTlS12;
(д) величина 2l(Ht\H2) в (3.15) равна
^(log^5n-^+trS-«+logfei"^+
4-trS Σ"1 } ioglS^ulls^l\
\ " °>22^22 Ι ιυ& ι g ι у .
8.34. Покажите, что в табл. 8.5 проводится анализ величины 2Ϊ(Ηί:Η2),
данной в (3.15) (см. задачи 8.32 и 8.33 и табл. 3.1, k = kt-{-k2).
8.35. Пусть в (3.13) Σ2 = σ2'Σ3. Обозначим нулевую гипотезу, задающую
σ2 и Σ3, через #3 (σ2), и нулевую гипотезу, задающую Σ3, но не задающую σ2,
через #3 (·). Покажите, что [ср. Андерсон (1958, стр. 262), Мочли (1940)]:
(а) 2/(//1:^(a2))^yv(logl^i+feloga2-fe + itrSSr);
(б) тт2/(Я1 ://3 (°2)) достигается при σ2 = ν- tr SS^1;
(в) 2/ (Я,: Я, (·)) = min 2/ (Я,: Я3 И) = N log 1|*1 где S = e*S8.
о2 I »8 I
352
МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12
Таблица 8.5
V
^11
2 si Σ 7/
2t(Hl:fi2)
(3.15)
Компонента информации
^(logjI^-^+trS^/)
^(logib^l _*,+tr Sjes SsjLi)
NiogilmL
1 S2s·! 1
wiog(JAL-fe + trss^)
с. с.
2
2
ktk2
k{k+\)
2
Ρ2
2fcf + 3fcf — ^
127V
2fel + 3fel—^
127V
*A(*+i)
27V
2Λβ + 3Λ8 —Λ
127V
ГЛАВА 13
ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
1. ВВЕДЕНИЕ
В этой главе мы продолжим обсуждение, начатое в разделе 9
главы 9. Мы уже рассмотрели линейные дискриминантные функции
в предположениях равенства средних значений или ковариационных
матриц в разделе 8 главы 11, разделах 3.5, 4.2 и 5.2 главы 12. Для
этих линейных дискриминантных функций мы получили один и тот
же матричный (векторный) коэффициент α в выражении _у = а'х,
независимо от того, определяли мы а, максимизирующее 1(1:2; у),
или 7(1, 2; у). Однако в разделе 9 главы 9 мы видели, что
линейные дискриминантные функции оказываются различными в
зависимости от того, максимизируем ли мы /(1:2; у)у 1(2:1; у) или
J(l, 2; у).
2. ИТЕРАЦИЯ
В разделе 9 главы 9 мы вывели уравнения для' нахождения
коэффициентов линейной дискриминантной функции вида (9.5), т. е.
Sja — λΣ2α = γό, (2.1)
где λ и γ определены в разделе 9 главы 9 в соответствии с тем,
какие из величин /(1:2; у\ /(2:1; j/) или J(l, 2; у) должны быть
максимизированы. Заметим, что при выводе (9.5) в главе 9, деля на
подходящий множитель, мы могли бы также записать уравнения как
Σ2α — λ%α = γ'ό, (2.2)
где при максимизации /(1:2, у)
— a%a (a'S2a — a%a — (α'δ)2) '
,_ («'Σ2«)(«'δ)
1 ~ α'Σ^α— α'Σ2α+(«'δ)2 '
354 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ТП. 13
при максимизации 7(2:1; у)
ν ftrS2ft («%« — «'Σ2« — («'δ)2)
αΊ^αία'Σ^α—α'Σ2α) '
' α'Σ^α —α'Σ2α '
и при максимизации J(l, 2; j;)
λ, <*'Σ2α ((<*'Σ2α)2 — (α'Σ!α)8 + (ftr6)s (<*'Σ2α))
«^«((α'Σ,α)2 — (α'Σ1α)2~(α'δ)2(«'21α)) '
, (af6) (ftfS2ft) (<*%«-}-α'Σ2«)
T — (a%a)2 — (a'Ssa)2+(α'δ)2 (a%a)'
Если мы для удобства положим множители пропорциональности
γ и γ' равными 1, то (2.1) и (2.2) запишутся
Σ& — λΣ2α = 6, Σ2α —Х%а = 6, (2.6)
где λ=1/λ' в каждом случае. Если λ, λ' не являются решениями
уравнений | Σι — λΣ21 = 0, | Σ3 — λ'Σι | = 0 соответственно, то
формулы (2.6) дают следующие неявные решения для а:
а = {Σ1 — λΣ2)~ι δ, « = (Ха — λ%)"* δ. (2.7)
Если λ — известное число, то (2.7) непосредственно дает значение а.
Однако λ, λ' во всех ситуациях являются функциями а. Поэтому
требуются начальные или входные значения а, чтобы начать
итерационную процедуру.
За вводное значение α принимается соответственно
«ο = ΣΓδ, а0=2^Д. (2.8)
Должно быть ясно, что одно и то же начальное значение α пригодно
для итерационного процесса независимо от того, максимизируегся
1(1:2; у), /(2:1; j;) или J(l, 2; у).
После определения а0 находятся значения щЬу α^Σ^ο, αόΣ2α0 и
затем λ0 или λ^. 1-й цикл начинается с использования λ0 или λ'ϋ для
нахождения нового набора значений a
щ = (Σχ — λ0Σ2)-ι δ, «ι = (Σ2 — ΚΣιΤ1 δ, (2.9)
далее определяются α[6, а^сц, α|Σ2α2 и затем Xt или λί; так
завершается первый цикл. Эта процедура продолжается до тех пор,
пока различие в последующих значениях α или, точнее, в
последующих ο^/ocj не станет так мало, как требуется.
Мы будем заменять параметры популяций наилучшими
несмещенными выборочными оценками.
(2.4)
(2.5)
з) пример 355
3. ПРИМЕР
Мы проиллюстрируем описанные процедуры данными Смита (1947)
(см. пример 5.1 гл. 12). Вычисления были выполнены Гринхаузом.
Исходные значения таковы:
_ _/20,80\ _ _/12,80\ / 8,00\
Xl ~ \12,32)' Щ~ U,4<V' ~ 1-24,08/'
/ 6,92 - 5.27Х /36,75 13,924 ^
^ ^—5,27 40,89/ 2 у3,92 287,92/ ' *'
/0,16023613 0,02065161 \
I So 1 = 10387,2936, 87' =
1 2| 1 1,0,02065161 0,02711749/
_/ 0,02771848 —0,001340Ю\
а = \—0,00134010 0,00353798/'
/(l:2)=i-(log-f^[-2 + trS1Si1) + 4-tfSild =
= 1,028432 4-2,170861=3,199293,
/(2:1) = 4,282444+ 9,010994= 13,293438,
.7(1, 2) = 6,310876 + 11,181855= 16,492731.
Мы будем искать линейную дискриминантную функцию у =
=αιΧι + (ЦХь 0|=1, 03=02/^, максимизирующую 7(1:2;_у);
аналогичные действия предпринимаются в процедуре, ведущей к
нахождению линейной дискриминантной функции, максимизирующей /(2 :1; у)
и J(l, 2; у). Мы получим начальное значение по формуле (2.8), т. е.
_ _/ 0,02771848 —0,001340Ю\/ 8,00\_
«о— * —^_0jooi34010 0,00353798/1,—24,08/ ~
ί
(3.1)
0,25401745\
-0,09591536/'
так что ат= 1,000000, аю = —0,377594. Огсюда получаем
/ 8,00\
aid = (l, -0,377594) ( ^'1 = 17,092464,
/ 6,92 — б,27\/ 1 \
aQS,a« = (J, —0,377594) =16,729814,
0 K V-5,27 40,89/ V-0,377594/
/36,75 13,92\/ 1 \
a0S2a0 = (l, -0,377594) =
* '\J3,92 287,92/\-0,377594/
= 67,288553,
и из (2.3)
)· — (67,288553) (67,288553 —16,729814) __0 8417
0 16,729814(67,288553 —16,729814— (17,092464)2) ~" υ·841'*
356 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13
Цикл 1
/42,574564 9,484241 \
(S2 + 0,8417Sl)=( 9484241 322,337113)'
ISa+0,84178! 1=13633,4112,
/ 0,02364317— 0,00069566\/ 8,00\
„1 = (S2 + 0,8417Sird = (_000069566 0)00312281)(_24(08) =
_/ 0,20589685 \
= [—0,08076254/'
ап — 1, ап = —0,3 92248,
/ 8,00\
aid=(l, —0,392248) =17,445332,
( 6,92 — 5,27\/ 1 \
•A*-(l. -0>M2248)(_5i27 4Oi89)(_0,392248) = >W«548.
/36,75 13,92\/ 1 \
a;Sia1=(l, —0,392248) л л „ =70,128611,
181 У ' \\ 3,92 287,92 Д—0,392248/
и из (2.3)
>,_ 70,128611 (70,128611 —17,345548) __пя4я<т
1—" 17,345548(70,128611—17,345548—(17,445332)2) ~ ЧЪЪЪобА.
Цикл 2
/42,620236 9,449459\
(S2 + 0.8483 Sj)= ,
ν г~ " \ 9,449459 322,606987/
IS2 + 0,8483 Si | = 13660,2936,
„ . / 0,02361640 —0,00069175\/ 8,00\
a8=(S9 + 0,8483 S,)r»d = | w U=
8 v %~ v ^—0,00069175 0,00312001/V—24,08/
_/ 0,20558854\
~~ ^—0,08066384/'
a,! = 1, a23 = — 0,392356,
/ 8,00\
a9d = (l, -0,392356)1 1=17,447932,
/ 6,92 — 5,27\/ 1 \
a£iai = (l, —0,392356) =17,350162,
a ^ Д-5,27 40,89Д-0,392356/
/36,75 13,92\/ 1 \
a9S2a2=(l, —0,392356) =70,150078
^13,92 287,92 Д-0,39235б/
и из (2.3)
r__ 70,150078 (70,150078 — 17,350162) _ __n Я4ЯЧЯЯ
*«— 17,350162(70,150078—17,350162—(17.447932)2) ~~' v'^boti6'
3]
ПРИМЕР
357
Был вычислен третий цикл, хотя, по-видимому, было достагочно
двух циклов ввиду незначиаельности изменений λΓ. Величина
была также подсчитана для начального значения и в цикле 3.
Различные значения сведены в табл. 3.1.
^\. г
h
&i2
a;sA
*;sA
a:d
/(1:% у)
0
—0,8417
—0,377594
16,729814
67,288553
17,092464
2,4911
1
—0,848333
—0,392248
17,345548
70,128611
17,445332
Та
2
—0,848388
—0,392356
17,350162
70,150078
17,447932
блица 3.1
3
—0,8483901
—0,392357
17,350213
70,150338
17,447957
2,492009
В случае, когда основой для итерации служит a=(Ei — λΣ2) *δ,
соответствующие значения суммируются в табл. 3.2.
ν. i I
h
a:S3a.
0
—0,9409
—0,621689
29,276464
130,722394
1
—1,1763
—0,395810
17,497910
70,837924
Та
2
—1,1787
—0392385
17,351408
70,155892
блица 3.2
3
—1,178703
—0,392357
17,350213
70,150338
Отметим, что в этом примере обе процедуры дают одно и то же
значение ап и в точности обратные друг другу значения λ только
после трех циклов. В общем случае число t циклов не обязано быть
равным трем. Заметим, чго значения вдоль строки в каждой таблице
меняются монотонно.
л Значения линейной дискриминантной функции, максимизирующей
^(1, 2; у), находятся из табл. 3.3.
л Значения линейной дискриминантной функции, максимизирующей
^0-> 2; у), находятся из табл. 3.4.
358 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13
Таблица 3.3
^■"v. i
h
Щъ
арА
«ιδΑ
/(2:1; у)
0
0,0361
—0,621689
29,276464
130,722394
1
0,036582
—0,843193
44,878981
217,979141
2
0,036596
—0,848904
45,334336
220,602606
3
0,036547
—0,849072
45,347760
220,679986
10,0637
Таблица 3.4
"Ν. ί
h
Щъ
aiSia£
^Vi
Hi %y)
0
0,00206
—0,621689
29,276464
130,722394
1
0,00231
—0,628501
29,696523
132,984963
2
0,0023397
—0,629353
29,749296
133,269606
3
0,0023435
—0,629456
29,755698
133,304168
12,3741
Таким образом, мы имеем три линейные дискриминантные
функции:
max /(1:2; у) :у = х1 — 0,3924*;2,
max/(2:1; у):у = хг — 0,8491х2, (3.2)
maxJ(l, 2; у):у = х1 — 0,6295х2.
4. ЗАМЕЧАНИЕ
Хотя и несомненно, что указанная выше процедура при
надлежащем выборе начальных значений сходится, мы не имеем общего
доказательства сходимости или того, что решение, доставляемое этой
процедурой, есть единственное, удовлетворяющее (2.6). Однако в
двумерных задачах /(1:2; у)9 /(2:1; у) и J(l, 2;у) по существу являются
функциями одного неизвестного, отношения α2/αν Условие
максимизации записывается полиномом от этого отношения, и свойства его
корней могут быть изучены. Для^ /(1:2; у) и /(2:1; у) этот полином
имеет четвертую степень, а для J (1, 2; у) — шестую. В каждом
примере раздела 3 существовали только два действительных корня:
отрицательный корень, доставляющий максимум величинам /(1: 2; у).
Ь]
ДРУГИЕ ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
359
7(2:1; у) и J(l, 2; у)у и положительный корень, доставляющий
минимум в каждом случае. Уравнения были решены методом Ньютона, и
отрицательные корни, максимизирующие /(1:2; у\ /(2:1; у) и
J(h 2; у\ были равны соответсгвенно — 0,392357, —0,849083 и
0,629468. Обращение к табл. 3.2, 3.3 и 3.4 несомненно убеждает нас
в ι ом, что итерация сходится к эгим значениям и что значения,
полученные после двух циклов, верны до 4-го десятичного знака.
5. ДРУГИЕ ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
Смит (1947) вычислил линейную дискриминантную функцию для
приведенных данных в предположении, чго ковариационная матрица
в обеих популяциях одна и та же. Тогда решение для α имеет вид
a = S-4 (5.1)
где /VS = MSi + MSa» Ν = Μ + Ak (См. последнюю часть
примера 4.1 гл. 12 и раздел 8.1 гл. 11.) Полученные Смитом значения,
сведенные к форме, сравнимой с (3.2), т. е. так, что 04 = 1, дают
дискриминантную функцию
j/ = jd — 0,3947х2. (5.2)
Так как обе выборки имеют одинаковый объем, линейная дискрими-
нантная функция вычисляется так же, как в разделе 4.2 главы 12,
т. е. значение а, удовлетворяющее соотношению
Ή^+^Γ* (5·3)
дает линейную дискриминантную функцию (5.2).
Заметим, что линейная дискриминантная функция (5.2) почти такая
же, как функция (3.2), получающаяся при максимизации 7(1:2; у).
Дискриминантная функция часто используется для отнесения
индивидуума к одной из двух популяций на основе вектора
наблюдений (хь хъ ..., xk) и данной линейной комбинации у = ч1х1-{-...
... + ΪΛ· [Мы используем матрицу γ'=(γι, γ2> ..., γΑ), чтобы
в дальнейшем избежать путаницы с вероятностью ошибки а.] Обычно
классификация производится в соответствии с некоторым правилом,
таким, как, например: если у принадлежит области Л*, то относим
индивидуум к популяции, скажем, ъь если же у не принадлежит
области Л*, то относим к популяции щ. Ясно, что с эй ой или любой
Другой классификационной схемой связываются два рода ошибок,
а именно: отнесение у к популяции %, тогда как у в действшель-
ности из популяции π2, и отнесение у к популяции π2, тогда как у
в Действительности из популяции щ. Обозначим вероятность ошибки
первого рода через α и вероятность ошибки второго рода через β.
Мы можем теперь построить критерий минимальной ошибки для
360 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13
нахождения линейной дискриминантной функции. Какая линейная
функция χ при данном β будет минимизировать а? Так как α и
β— монотонные функции нормальных отклонений ία и ίβ
соответственно, проще иметь дело с последними.
Можно показать, что при данном β величина α будет
минимизироваться при максимизации
t = ν'δ-'β(ν,,Σιν)1/2
(γ'Σ2γ)1/2 '
Посредством обычных вычислений можно показать, что
значение γ, максимизирующее предыдущее выражение, определяется из
уравнения
['ρ (Υ%Υ)1/2 Ά + К (Y'W2 Σ*] Υ = (Y%Y)1/s (Y%Y)1/s δ, (5.4)
которое нелинейно по γ. (То же самое уравнение получается, если
задавать α и минимизировать β.) Решение здесь лучше искать так
же, как в разделах 2 и 3, применяя итерационную процедуру к
уравнению вида
(Σ1 + λΣ2)γ = δ, (5.5)
где λ = /α(γ'Σ1γ)1/2/ίβ(γ'Σ2γ)1/2. Процесс итерации проходит
тождественно описанному в разделе 2. Начальные значения для у
получаются из γ = 27*6, они в свою очередь определяют γ'Σχγ, γ'Σ2γ и
при фиксированных t, ta этим определяется λ, так что (5.5)
становится явным уравнением относительно γ. Циклы итерации могут
быть продолжены до тех пор, пока изменения ta не станут столь
малыми, как то необходимо.
Таким способом были найдены две функции; одна для β = 0,05
(f = 1,645) и другая для β = 0,16 (ίβ= 1,000),
max ta (ί = 1,645) :y =xx — 0,4173*» (5.6)
max έα(έβ= lf000):j/ = jei — 0,3990x2. (5.7)
Хотя линейная дискриминантная функция, выведенная из критерия
минимальной ошибки, интересна и сама по себе, наше внимание к ней
здесь связано с тем, что с ее ошибками классификации мы будем
сравнивать соответствующие ошибки других линейных дискриминант-
ных функций. Заметим, что критерий минимальной ошибки не
доставляет единственную функцию, но снабжает нас различными
дискриминантами при каждом t. Кроме того, используемый здесь критерий
дает лишь приближение (хотя и очень хорошее) к фактической
линейной функции, минимизируя α при фиксированном β. Это
происходит потому, что процедура предполагает область отнесения к
популяции щ, скажем, у ^>уо (или у <Cj>oX оптимальной как при Σι Φ 2s>
так и при Σχ = Σ2. Известно, что это не так [см., например, Пен-
роуз (1947) и раздел 2 гл. 5].
б] СРАВНЕНИЕ РАЗЛИЧНЫХ ЛИНЕЙНЫХ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ 361
6. СРАВНЕНИЕ РАЗЛИЧНЫХ ЛИНЕЙНЫХ
ДИСКРИМИНАНТНЫХ ФУНКЦИЙ
Прежде чем сравнивать различные линейные дискриминантные
функции, полученные в разделах 3 и 5, мы представим в табл. 6.1
значения различающей информации для х-ок для хх и х% раздельно и
вместе. Отметим, что значения всех трех информационных мер для
х2 больше, чем соответствующие значения для хь т. е. наблюдение
над характеристикой х% в выборке из любой популяции несет
большую информацию при различении двух популяций, чем наблюдение
над характеристикой хх. Обращение к нижней части табл. 6.1, где
представлена ошибка, сделанная при классификации наблюдения из
π2(α) для данной ошибки при классификации наблюдения из щф),
убеждает нас, что в соответствии с критерием ошибок х% также
лучше, чем хх.
Таблица 6.1
Информационные
меры
/(1:2)
/(2:1)
7(1, 2)
*1
1,2997
5,9448
7,2445
Х2
1,5539
9,1351
10,6890
Xl И Х2
вместе
3,1993
13,2934
16,4927
Ошибки
а при β = 0,01
а при β = 0,05
а при β = 0,16
Πΐίη(α + β)
β
а
0,3782
0,2723
0,1879
0,3154
0,0738
0,2416
0,2937
0,2123
0,1486
0,2580
0,0553
0,2027
Последний столбец табл. 6.1 дает /(1:2; у\ /(2:1; у) и J(l, 2;у)
для хх и х% в предположении, что они имеют двумерное нормальное
распределение в каждой из двух популяций. Чтобы определить
эффективности линейных дискриминантных функций от χλ и х%>
заметим, что максимум, которого могут достигать величины /(1:2;_у),
/(2:l;j/) и 3{\, 2; у), равен соответственно 3,1993, 13,2934 и
16,4927.
Одна из самых интересных особенностей табл. 6.1 состоит в том,
что в этом примере хх и х% совместно дают значение /(1:2), которое
превосходит сумму значений /(1:2) в отдельности для хх и х2. Это
не верно для /(2:1; у) и J(l, 2; у).
В табл. 6.2 содержатся данные по шести линейным функциям от
χι и х2; три из них были получены посредством максимизации
информационных вдер, две с помощью критерия ошибок и одна была
362
ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ
[ГЛ. 13
найдена посредством объединения дисперсий и ковариаций дВух вы_
борок и следования предположению, что ковариационные матрицы
одинаковы. Верхняя часть табл. 6.2 имеет отношение к
информационным мерам для линейных комбинаций, а нижняя часть
изображает различные комбинации ошибок при классификации наблюдений
включая минимальную суммарную ошибку, которая могла быть
сделана при использовании каждой функции.
Таблица 6.2
Линейные дискриминаитные функции
Способы получения
У
/(1:2; зО
/(1:2; у)//(1:2)
/(2:1; у)
/(2:1;у)//(2:1)
/(1, 2; у)
Пи %y)iHh 2)
8
*I-0,3924.*2
2,4920
0,779
9,5962
0,722
12,0882
0,733
СЗ
В
*i-0,849U2
2,2272
[ 0,696
10,0637
| 0,757
12,2909
1 0,745
к:
8
λ:ι-0,6295λ:2
2,3728
0,742
10,0012
0,752
12,3741
0,750
Объединение
вариационных
матриц
*!-0,3947*2
2,4920
0,779
9,6040
0,722
12,0960
0,733
min α при
β = 0,05
Χΐ-0,4173χ2
2,4897
0,778
9,6711
0,728
12,1608
! 0,737
min о при
(3 = 0,16
*!-0,3990л;8
2,4918
0,779
9,6172
0,723
12,1090
0,734
Ошибки
а при β = 0,01
а при β ^ 0,05
а при β = 0,16
min (α -|- β)
β
α
0,1771
0,1029
0,0564
0,1525
0,0438
0,1087
0,1948
0,1212
0,0719
0,1708
0,0446
0,1262
0,1823
0,1096
0,0626
0,1591
0,0434
0,1157
0,1770
0,1029
0,0564
0,1525
0,0438
0,1087
0,1764
0,1027
0,0564
0,1522
0,0435
0,1087
0,1769
0,1028
0,0564
0,1523
0,0437
0,1086
Очевидно, чю четыре линейные дискриминаитные функции,
полученные: (а) путем максимизации /(1:2; у), (б) объединением дисперсий
и ковариаций, (в) минимизацией α при β = 0,05 и (г) минимизацией α
при β = 0,16, весьма схожи в отношении различающей информации,
расхождения и ошибок классификации. Максимизация /(2:1;_у) и
J(l, 2; у) дает линейные дискриминаитные функции, которые имеют
большую эффективность, чем другие четыре, по отношению к /(2:1;у)
и J(l, 2; у), но характеризуются меньшей эффективностью по
отношению к /(1:2; у), а также имеют большие ошибки классификации,
чем другие четыре линейные дискриминаитные функции.
С точки зрения теории информации наиболее интересным в
случае, когда ковариационные матрицы не равны, является тот факт
7]
ЗАДАЧИ
363
что /(1:2; у)^1(2%Л\ у)9 и поэтому максимизация этих двух мер и
меры расхождения. J(l, 2; у) дает три различные линейные функции.
Пример подсказывает, что по крайней мере одна из дискриминант-
иых функций, полученных таким образом, в добавление к имеющимся
оптимальным свойствам, связанным с информационной мерой,
приводящей к ней, будет также обладать оптимальными свойствами,
связанными с критерием минимума ошибок для нахождения линейной
дискримйнантной функции.
Возникающей интересной проблемой является исследование свойств
тах/(1:2; у), тах/(2:1; у) и maxJ(l, 2; у) для определения
условий, при которых одно из этих выражений становится наилучшим
с точки зрения ошибок в численных приложениях. Предполагается,
что если % всегда рассматривать как популяцию с наименьшей
ковариационной матрицей (см. замечание, следующее за леммой 5.1 гл. 3),
то линейная дискриминантная функция, получающаяся в результате
максимизации /(1:2;_у), будет всегда давать ошибки, гораздо
меньшие, чем две другие линейные дискриминантные функции.
Заметим также, что, хотя max7(2:1; у) и max J(l, 2; у) приводят
к дискриминантным функциям, худшим, чем построенные на основе
критерия ошибок, они в большей степени отличаются от линейных
дискриминантных функций, полученных на другой основе, чем
информационные меры. Дальнейшее изучение этих двух линейных
дискриминантов может выявить важные стороны теоретико-информационного
подхода.
Общий интерес представляет тот факт, что линейная
дискриминантная функция, полученная объединением ковариационных матриц,
столь же хороша. Предстоит выяснить, остается ли это справедливым
в других примерах или это свойственно данному случаю.
7. ЗАДАЧИ
7.1. Выведите (2.2), (2.3), (2.4), (2.5).
7.2. Выведите величины в табл. 3.2.
7.3. Выведите величины в табл. 3.3.
7.4. Выведите величины в табл. 3.4.
7.5. Выведите два полинома четвертой степени и один шестой степени,
упоминавшиеся в разделе 4.
7.6. Выведите (5.4) и (5.5).
7.7. Получите значения в формуле (5.7).
7.8. Выведите (5.4), минимизируя β при данном а.
ЛИТЕРАТУРА
А б д ел ь - А т и (S. H. Abdel-Aty)
(1954)« Approximate formulae for the percentage points and the probability
integral of the non-central χ2 distribution»; Biometrika, Vol. 41, pp. 538—540.
Адхикари и Джоши (В. P. Adhikari and D. D. Joshi)
(1956) «Distance-Discrimination et resume exhaustib, Pubis, inst. statist,
univ. Paris, Vol. 5, Fasc. 2, pp. 57—74.
Андерсон и Бэнкрофт (R. L. Anderson and T. A. Bancroft)
(1952) Statistical Theory in Research, McGraw-Hill Book Co., New York.
Андерсон (Т. W. Anderson)
(1951) «The asymptotic distribution of certain characteristic roots and
vectors», Proceedings of the Second Berkeley Symposium on Mathematical
Statistics and Probability, Univ. Calif. Press, pp. 103—130.
(1958) An Introduction to Multivariate Statistical Analysis, John Wiley
& Sons. (Русский перевод: Т. Андерсон, Введение в многомерный
статистический анализ, Фнзматгиз, 1963.)
Б а л м е ρ (Μ. G. Buhner)
(1957) .«Confirming statistical hypotheses», J. Roy. Statist. Soc, Ser. B,
Vol. 19, pp*. 125—132.
Б a p a h к и η (Ε. W. Barankin)
(1949) «Locally best unbiased estimates», Ann. Math. Statist., Vol. 20,
pp. 477—501.
(1951) «Concerning some inequalities in the theory of statistical
estimation», Skand. Aktuar. Tidskr., Vol. 34, pp. 35—40.
Баранки η и Герляид (Ε. W. Barankin and J. Gurland)
(1951) «On asymptotically normal, efficient estimators: 1», Univy Calif. Ptibl.
Statist, Vol. 1, No. 6, pp. 89—130.
Барна-рд (G. A. Barnard)
(1949) «Statistical inference», J. Roy. Statist Soc, Ser. B, Vol. 11,
pp. 115—149.
(1951) «The theory of information», J. Roy. Statist. Soc, Ser. B, Vol. 13,
pp. 46—64.
Бартлетт (Μ. S. Bartlett)
(1935) «Contingency table interactions», /. Roy. Statist Soc, Stippl., Vol. 2,
pp. 248—252.
(1936) «Statistical information and properties of sufficiency», Proc. Roy.
Soc, Ser. A, Vol. 154, pp. 124—137.
(1937) «Properties of sufficiency and statistical tests», Proc. Roy. Soc,
Ser. A, Vol. 160, pp. 268—282.
ЛИТЕРАТУРА 365
(1947) «Multivariate analysis», J. Roy. Statist. Soc, Sappl., Vol. 9,
pp. 176—197.
(1948) «Internal and external factor analysis», Brit. J. Psychol., Vol. 1,
pp. 73—81.
(1950) «Tests of significance in factor analysis», Brit. J. Psychol., Stat. Sec,
Vol. 3, pp. 77—85.
(19ola) «An inverse matrix adjustment arising in discriminant analysis»,
Ann. Math. Statist., Vol. 22, pp. 107—111.
(1951b) «The effect of standardization on a χ2 approximation in factor
analysis», Biometrika, Vol. 38, pp. 337—344.
(1952) «The statistical significance of odd bits of information», Biometrika,
Vol. 39, pp. 228—237.
(1954) «A note on the multiplying factors for various χ2 approximations»,
J. Roy. Statist. Soc, Ser. B, Vol. 16, pp. 296—298.
(1955) An introduction to Stochastic Processes, Cambridge Univ. Press.
(Русский перевод: М, С. Б а р τ л е τ τ, Введение в теорию случайных
процессов, ИЛ, 1958.)
Бартлетт и Раджалакшман (М. S. Bartlett and D. V. Rajalakshman)
(1953) «Goodness of fit tests for simultaneous auto regressive series», J.
Roy. Statist. Soct Ser. B, Vol. 15, pp. 107—124.
Бартон (D. Ε. Barton)
(1956) «A class of distributions for which the maximum-likelihood
estimator is unbiased and of minimum variance for all sample sizes», Biometrika,
Vol. 43, pp. 200—202.
Бахадур (R. R. Bahadur)
(1954) «Sufficiency and statistical decision functions», Ann. Math. Statist.,
Vol. 25, pp. 423—462.
Бар-Хиллел (Υ. Bar-Hillel)
(1955) «An examination of information theory», Philos. Sci., Vol. 22,
pp. 86—105.
Бар-Хиллел и К а р н a π (Υ. Bar-Hillel and R. Carnap)
(1953) «Semantic information», Brit. J. Phil. Sci.t Vol. 4, pp. 147—157; also
appears with a discussion in Communication Theory, W. Jackson (ed.),
Academic Press, New York, 1953, pp. 503—512.
Б е л л (D. A. Bell)
(1953) Information Theory and its Engineering Applications (1st ed.), Sir
Isaac Pitman & Sons, London; 2 nd ed., 1956.
Бинэ и Уотсон (F. Ε. Binet and G. S. Watson)
(1956) «Algebraic theory of the computing routine for tests of significance
on the dimensionality of normal multivariate systems», /. Roy. Statist. Soc,
Ser. B, Vol. 18, pp. 70—78.
Блан-Лапьер и Тортра (A. Blanc-Lapierre and A. Tortrat)
(1956) «Statistical mechanics and probability theory», Proceedings of the
Third Berkeley Symposium on Mathematical Statistics and Probability, Univ.
Calif. Press, Vol. HI, pp. 145—170.
Бяекуэлл и Гиршик (D. Blackwell and M. A. Girshick)
(1954) Theory of Games and Statistical Decisions, John Wiley & Sons,
New York. (Русский перевод: Д. Блекуэлл и Μ. А, Гиршик, Теория
ИгР и статистических решений, ИЛ, 1958.)
366 ЛИТЕРАТУРА
Бокс (G. Ε. P. Box)
(1949) «A general distribution theory for a class of likelihood criteria»,
Biometrika, Vol. 36, pp. 317—346.
(1950) «Problems in the analysis of growth and wear curves», Biometrics,
Vol. 6, pp. 362—389.
Б о у к е ρ (Α. Η. Bowker)
(1948) «A test for symmetry in contingency tables», /. Am. Statist. Assoc,
Vol. 43, pp. 572—574.
Бохер (Μ. Bocher)
(1924) Introduction to Higher Algebra, The Macmillan Co., New York.
Брадт и Карлин (R. N. Bradt and S. Karlin)
(1956) «On the design and comparison of certain dichotomous experiments»,
Ann. Math. Statist, Vol. 27, pp. 390—409.
Б ρ a η κ (Η. D. Brunk)
(1958) «On the estimation of parameters restricted by inequalities», Ann.
Math. Statist, Vol. 29, pp. 437—453.
Б ρ и л л ю э н (L. Brillouin)
(1956) Science and Information Theory, Academic Press, New York.
(Русский перевод: Бриллюэн, Наука и теория информации, Физматгиз, 1959.)
д е Б ρ о й л ь (L. de Broglie), (chairman)
(1951), La Cyber netiqtie, Editions de la Revue dOptique Theorique et
Instrumentale, Paris.
Бхаттачарья (A. Bhattacharyya)
(1943) «On a measure of divergence between two statistical populations
defined by their probability distributions», Bull. Caicutta Math. Soc, Vol. 35,
pp. 99—109.
(1946a) «On a measure of divergence between two multinomial populations»,
Sankhya, Vol. 7, pp. 401—406.
(1946b, 1947, 1948) «On some analogues of the amount of information and
their use in statistical estimation», Sankhya, Vol, 8, pp. 1—14; pp. 201—218;
pp. 315-328.
Б э й τ м а н (G. 1. Bateman)
(1949) «The characteristic function of a weighted sum of non-central
squares of normal variates subject to s linear restraints», Biomeirika, Vol. 36,
pp. 460—462.
Вальд (A, Wald)
(1943) «Tests of statistical hypotheses concerning several parameters when
the number of observations is large», Trans. Am. Math. Soc, Vol. 54, pp.
426—482.
(1945a) «Sequential tests of statistical hypotheses», Ann. Math. Statist.,
Vol. 16, pp. 117—186.
(1945b) «Sequential method of sampling for deciding between two courses
of action», J. Am. Statist. Assoc, Vol. 40, pp. 277—306.
(1947) Sequential Analysis, John Wiley & Sons, New York. (Русский
перевод: А. Вальд, Последовательный анализ, Физматгиз, 1960.)
Вальд и Брукнер (A. Wald and R. J. Brookner)
(1941) «On the distribution of Wilks' statistic for testing the independence
of several groups of variates», Ann. Math. Statist, VoJ. 12. pp. 137—152.
ЛИТЕРАТУРА 367
В ей б у л (М. Weibull)
(1953) «The distributions of t- and F-statistics and of correlation and
regression coefficients in stratified samples from normal populations with different
means», Skand. Aktuar. Tidskr., Vol. 36, 1—2 Suppl., pp. 1—106.
В и й с м а н (R. A. Wijsman)
(1957) «Random orthogonal transformations' and their use in some classical
distribution problems in multivariate analysis», Ann. Math. Statist., Vol. 28,
pp. 415—423.
Винер (Ν. Wiener)
(1948) Cybernetics, John Wiley & Sons, New York. (Русский перевод:
Η. Винер, Кибернетика, ИЛ, 1960).
(1950) The Human Use of Human Beings, Houghton Mifflin Co., Boston.
(1956) «What is information theory?», IRE Trans, on Inform. Theory, Vol.
IT-2, p. 48.
Вольфовиц (J. Wolfowitz)
(1947) «The efficiency of sequential estimates and W aid's equation for
sequential processes», Ann. Math. Statist, Vol. 18, pp. 215—230.
В у д в о ρ д (Р. Μ. Woodward)
(1953) Probability and Information Theory, with Applications to Radar,
McGraw-Hill Book Co., New York. (Русский перевод: Φ. Μ. Β у д в о р д,
Теория вероятностей и теория информации с применениями к радиолокации,
Советское радио, 1955.)
Вудворд и Дэвис (Р. М. Woodward and L L. Davies)
(1952) «Information theory and inverse probability in telecommunications»,
Proc. I. E. E.t Part III, Vol. 99, pp. 37—44.
Гарнер и Мак-Гил л (W. R. Gamer and W. J. McGill)
(1954) «Relation between uncertainty, variance, and correlation analyses»,
Rep. No. 166-1-192, ONR Contract N5oriA66, Johns Hopkins Univ.
(1956) «The relation between information and variance analyses», Psycho-
metrika, Vol. 21, pp. 219—228.
Г ель фан д, Колмогоров, Яглом
(1956) «К общему определению количества информации», ДАН СССР,
т. 111, № 4, стр. 745—748.
Г ер л ян д (J. Gurland)
(1954) «On regularity conditions for maximum likelihood estimators»,
Skand. Aktuar. Tidskr., Vol. 37, pp. 71—76.
Гильберт (Е. N. Gilbert)
(1958) «An outline of information theory», Am. Statistician, Vol. 12,
pp. 13—19.
Гиршик (Μ. A. Gjrshick)
(1936) «Principal components», J. Am. Statist Assoc, Vol. 31, pp. 519—528.
(1939) «On the sampling theory of the roots of determinantal equations»,
Ann. Math. Statist., Vol. 10, pp. 203—224.
(1946) «Contributions to the theory of sequential analysis», I, II, HI, Ann.
Math. Statist, Vol. 17, pp. 123-143; 282—298.
Гиршик и Сэвидж (Μ. Α. Girshick and L. J. Savage)
(1951) «Bayes and minimax estimates for quadratic loss functions»,
Proceedings of the Second Berkeley Symposium on Mathematical Statistics and
Probability, Univ. of Calif. Press, pp. 53—73.
368 ■ ЛИТЕРАТУРА
Г о л д м а н (S. Goldman)
(1953) Information Theory, Prentice-Hall, New York. (Русский перевод:
С. Голдман, Теория информации, ИЛ, 1957.)
Гранди (Р. М. Grundy)
(1951) «A general technique for the analysis of experiments with incorrectly
treated plots», J. Roy. Statist. Soc, Ser. B, Vol. 13, pp. 272—283.
Грелль (Н. Grell)
(ed.) (1957) Arbeiten zur Informationstheorie I, Deutscher Verlag der
Wissenschaften, Berlin. (Переводы с русского и венгерского.)
Грин (Р. Е. Green, Jr.)
(1956) «A bibliography of Soviet literature on noise, correlation, and
information theory», IRE Trans, on. Inform. Theory, Vol. IT-2, pp. 91—94.
(1957) «Information theory in the U. S. S. R.», IRE WESCON Convention
Record, Part 2, pp. 67—83.
Γ ρ и η χ а у 3 (S. W. Greenhouse)
(1954) «On the problem of discrimination between statistical populations»,
M. A. Thesis, George Washington Univ.
Γ ρ ο η о у (D. G. С. Gronow)
(1951) «Test for the ^significance of the difference between means in
two normal populations having unequal variances», Biometrika, Vol. 38, pp.
252—256.
Гуд (I. J. Good)
(1950) Probability and the Weighing of Evidence, Charles Griffin, London.
(1952) «Rational decisions», J. Roy. Statist. Soc, Ser. B, Vol. 14, pp.
107—114.
(1953) «The population frequencies of species and the estimation of
population parameters», Biometrika, Vol. 40, pp. 237—264.
(1956) «Some terminology and notation in information theory», Proc.
I. E. E., Part C, Vol. 103, pp. 200—204.
(1957) «Saddle-point methods for the multinomial distribution», Ann. Math.
Statist., Vol. 28, pp. 861—881.
Д a ρ μ у a (G. Darmois)
(1936) Methodes d'Estimation, Actualites sci. et ind. No. 356.
(1945) «Sur les limites de la dispersion de certaines estimations», Rev. Inst,
intern. Statist., Vol. 13, pp. 9—15.
Двайер и Макфейл (P. S. Dwyer and M. S. MacPhail)
(1948) «Symbolic matrix derivatives», Ann. Math. Statist., Vol. 19,
pp. 517-534. *
Джеймс (G. S. James)
(1954) «Tests of linear hypotheses in univariate and multivariate analysis
when the ratios of the population variances are unknown», Biometrika, Vol. 41,
pp. 19—43.
Д ж е й η e с (Ε. Τ. Jaynes)
(1957) «Information theory and statistical mechanics», Phys. Rev., Vol. 106,
pp. 620—630.
Джексон (W. Jackson) (ed.)
(1950) Proceedings of a Symposium on Information Theory, Royal
Society, London, 1950, published by Ministry of Supply, and by the IRE, Feb,
1Q53?
ЛИТЕРАТУРА 369
(ed.) ^(1952) Communication Theory, Papers Read at a Symposium on
«Applications of Communication Theory», IEE, London, Sept. 1952; Academic
Press, New York, 1953.
Джеффрис (Н. Jeffreys)
(1946) «An invariant form for the prior probability in estimation problems»,
Proc. Roy, Soc. (London), Ser. A, Vol. 186, pp. 453—461.
(1948), Theory of Probability (2nd ed.), Oxford Univ. Press.
Джоши (D. D. Joshi)
(1957) «L'information en statistique mathematique et dans la theorie des
communications», These, Faculte des Sciences de TUniversite de Paris, June
Диме ρ и Олкин (W. L. Deemer and I. OIkin)
(1951) «The Jacobians of certain matrix transformations useful in
multivariate analysis», Biometrika, Vol. 38, pp. 345—367.
Долански и Долански (L. Dolansky and M. P. Dolansky)
(1952) «Table of log2·—, plog2 — and ρ log2 — + (1 — p) log2 y—--»,
Tech. Rept. No. 227, R. L. E., M. I. T., Jan. 2.
Дуб (J. L. Doob)
(1934) «Probability and statistics», Trans. Am. Math. Soc, Vol. 36, pp.
759 775^
(1936) «Statistical estimation», Trans. Am. Math. Soc, Vol. 39, pp. 410—421.
Дурбин и Кендалл (J. Durbin and M. G. Kendall)
(1951) «The geometry of estimation», Biometrika, Vol. 38, pp. 150—158.
Д э в и с (Н. Davis) (chairman)
(1954), Symposium on statistical methods in communication engineering,
Berkeley, California, August 1953, Trans. IRE, PGIT-3, Mar.
Дюгэ (D. Dugue)
(1936a) «Sur le maximum de precision des lois limites d'estimation», Compt.
Rend., Vol. 202, p. 452.
(1936b) «Sur le maximum de precision des estimations gaussiennes a la
limite», Compt. Rend., Vol. 202, p. 193.
Ен сен (J. L. W. V. Jensen)
(1906) «Sur les fonctions convexes et les inegalites entre les valeurs moy-
ennes», Acta Math., Vol. 30, pp. 175—193.
Зелен (Μ. Zelen)
(1957) «The analysis of covariance for incomplete block designs»,
Biometrics, Vol. 13, pp. 309—332.
Ирвин (J. О. Irwin)
(1949) «A note on the subdivision of χ2 into components», Biometrika
Vol. 36, pp. 130—134.
Ито (К. Ito)
(1956) «Asymptotic formulae for the distribution of Hotelling's generalized 7|
statistic», Ann. Math. Statist.^Vol. 27, pp. 1091—1105.
Картер (Α. Η. Carter)
(1949) «The estimation and comparison of residual regressions where there
are two or more related sets of observations», Biometrika, Vol. 36, pp. 26—46.
Кастаньс Камарго (Μ. Castans Camargo)
(1955) «Una teoria de la certidumbre», Anales real soc. espaft. fts. у qutm.,
Ser. A, Vol. 51, pp. 215—232.
370 ЛИТЕРАТУРА
Настань с Камарго и Медина-и-Исабель (М. Castans Camargo
and Μ. Medina e Isabel).
(1956) «The logarithmic correlation», Anales real soc. espan. fis. у quim.,
Ser. A, Vol. 52, pp. 117—136.
Квастлер (Η. Quastler)
(ed.) (1953) Information Theory in Biology, Univ. of Illinois Press, Urbana.
(ed.) (1955) information Theory in Psychology, The Free Press, Glencoe, 111.
(1956) «A Primer on Information Theory», Tech. Memo. 56—1, Office of
Ordnance Research, Box CM, Duke Station, Durham, N. C, Jan.
К е л л и (J. L. Kelley, Jr.)
(1956) «A new interpretation of information rate», Bell System Tech. J.,
Vol. 35, pp. 917—926.
К е л л и (Т. L. Kelley)
(1928) Crossroads in the Mind of Man. Stanford Univ. Press.
Кемпбелл, Снедекор и Симантон (F. L. Campbell, G. W. Snede-
cor and W. A. Simanton)
(1939) «Biostatistical problems involved in the standardization of liquid
household insecticides», J. Am. Statist. Assoc, Vol. 34, pp. 62—70.
Кемпторн (О. Kempthorne)
(1952) The Design and Analysis of Experiments, John Wiley & Sons, New York.
К e η д а л л (Μ. G. Kendall)
(1943, 1946) The Advanced Theory of Statistics, Charles Griffin, London,
Vol. Ϊ, 1943; Vol. II, 1946.
К и Μ б а л л (A. W. Kimball)
(1954) «Short-cut formulas for the exact partition of χ2 in contingency
tables», Biometrics, Vol. 10, pp. 452—458.
К и φ e ρ (J. Kiefer)
(1952) «On minimum variance estimators», Ann. Math. Statist., Vol. 23,
pp. 627—629.
Колмогоров
(1950) Foundations of the Theory of Probability, Chelsea Publishing Co.,
New York. (Перевод с русского: А. Н. Колмогоров, Основные понятия
теории вероятностей, ОНТИ, 1936.)
(1956) «On the Shannon theory of information transmission in the case of
continuous signals», IRE Trans, on Inform. Theory, Vol. IT-2, pp. 102—108.
Колоджейчик (S. Kolodziejczyk)
(1935) «On an important class of statistical hypotheses», Biometrika, Vol.
27, pp. 161—190.
К о р н и ш (Е. A. Cornish)
(1957) «An application of the Kronecker product of matrices in multiple
regression», Biometrics, Vol. 13, pp. 19—27.
К о с с е к (С. F. Kossack)
(1945) «On the mechanics of classification», Ann. Math. Statist., Vol. 16,
pp. 95—98.
К о х р э н (W. G. Cochran)
(1952) «The χ2 test of goodness of fit», Ann. Math. Statist, Vol. 23,
pp. 315—545.
(1954) «Some methods for strengthening the common χ2 tests», Biometrics,
Vol. 10, pp. 417—451.
ЛИТЕРАТУРА 371
Кохрэн и Блисс (W. G. Cochran and С. I. Bliss)
(1948) «Discriminant functions with covariance», Ann. Math. Statist.,
Vol. 19, pp. 151—176.
Крамер (Н. Cramer)
(1937) Random Varaibles and Probability Distributions, Cambridge Tracts
in Mathematics, No. 36, Cambridge. (Русский перевод: Г. Крамер,
Случайные величины и распределения вероятностей, ИЛ, 1947.)
(1938) «Sur un nouveau theoreme-limite de la theorie des probabilites»,
Actualites sci. et ind.t No. 736.
(1946a) Mathematical Methods of Statistics, Princeton Univ. Press.
(Русский перевод: Г. Крамер, Математические методы статистики, ИЛ, 1948.)
(1946b) «Contributions to the theory of statistical estimation», Skand. Aktuar.
Tidskr., Vol. 29, pp. 85—94.
(1955) The Elements of Probability Theory and Some of its Applications,
John Wiley & Sons, New York.
Кульбак (S. Kullback)
(1952) «An application of information theory to multivariate analysis», Ann.
Math. Statist, Vol. 23, pp. 88—102.
(1953) «A note on information theory», J. Appl. Phys., Vol. 24, pp. 106—107.
(1954) «Certain inequalities in information theory and the Cramer-Rao
inequality», Ann. Math. Statist, Vol. 25, pp. 745—751.
(1956) «An application of information theory to multivariate analysis», II,
Ann. Math. Statist, Vol. 27, pp. 122—145; correction p. 860.
Кульбак и Лейблер (S. Kullback and R. A. Leibler)
(1951) «On information and sufficiency», Ann. Math. Statist., Vol. 22,
pp. 79—86.
Кульбак и Розенблат (S. Kullback and Η. Μ. Rosenblatt)
(1957) «On the analysis of multiple regression in k categories», Biometrika,
Vol. 44, pp. 67—83.
Куперман (Μ. Kupperman)
(1957) «Further applications of information theory to multivariate analysis
and statistical inference», Dissertation, Graduate Council of George Washington
Univ.
(1958) «Prababilities of hypotheses and information-statistics in sampling
from exponential-class populations», Ann. Math. Statist, Vol. 29, pp. 571—574#
К у η м е н (Β. Ο. Koopman)
(1936) «On distributions admitting a sufficient statistic», Trans. Am. Math.
Soc, Vol. 39, pp/399-409.
Ланкастер (Η. Ο. Lancaster)
(1949) «The derivation and partition of χ2 in certain discrete distributions»,
Biometrika, Vol. 36, pp. 117—129.
(1957) «Some properties of the bivariate normal distribution considered in
the form of a contingency table», Biometrika, Vol. 44, pp. 289—292.
Л ax a (R. G. Laha)
(1954) «On some properties of the Bessel function distributions», Bull.
Calcutta Math. Soc, Vol. 46, pp. 59—72.
Л е К a μ (L. Le Cam)
(1956) «On the asymptotic theory of estimation and testing hypotheses»,
Proceedings of the Third Berkeley Symposium on Mathematical Statistics and
Probability, Univ. of Calif. Press, Vol. I, pp. 129—156.
3?2 ЛИТЕРАТУРА
Л е м а н (Ε. L. Lehmann)
(1949) Theory of Testing Hypotheses, Notes recorded by Colin Blyth,
Associated Students Store, Univ. of Calif., Berkeley, Calif. (Русский перевод
окончательного варианта книги, изданного в 1959 г.: Э. Л е м а н, Проверка ста-
аистических гипотез, «Наука», 1964.)
(1950а) Notes on the Theory of Estimation, Notes recorded by Colin
Blyth, Associated Students Store, Univ. of Calif., Berkeley, Calif., Sept.
(1950b) «Some principles of the theory of testing hypotheses», Ann. Math.
Statist, Vol. 21, pp. 1—26.
Л e μ a η и Ш e φ φ e (Ε. L. Lehmann and Η. Scheffe)
(1950) «Completeness, similar regions and unbiased estimation», Part I,
Sankhya, Vol. 10, pp. 305-340.
Л и н д л и (D. V. Lindley)
(1956) «On a measure of the information provided by an experiment», Ann.
Math. Statist, Vol. 27, pp. 986—1005.
(1957) «Binomial sampling schemes and the concept of information», Bio-
metrikat Vol. 44, pp. 179-186.
Л и η φ у τ (Ε. Η. Linf oot)
(1957) «An informational measure of correlation», Information and Control,
Vol. 1, pp. 85—89.
Л о у л и (D. N. Lawley)
(1938) «A generalization of Fisher's ζ test», Biometrika, Vol. 30, pp. 180—
187; correction, pp. 467—469.
(1940) «The estimation of factor loadings by the method of maximum
likelihood», Proc. Roy. Soc. Edinburgh, Vol. 9, p. 64.
(1956) «A general method for approximating to the distribution of
likelihood ratio criteria», Biometrika, Vol. 43, pp. 295—303.
Лоусон и Уленбек (J. L. Lawson and G. E. Uhlenbeck)
(1950) Threshold Signals, McGraw-Hill Book Co., New York.
Л о 9 в (Μ. Loeve)
(1955) Probability Theory, D. Van Nostrand Co., New York. (Русский
перевод второго (1960 г.) издания: Μ. Л о э в, Теория вероятностей, ИЛ, 1962.)
Мак-Гил л (W. J. McGill)
(1954) «Multivariate information transmission», Psychometrika, Vol. 19,
pp. 97—116.
Μ а к-Д a φ φ и (С. С. MacDuffee)
(1946) The Theory of Matrices, Chelsea Publishing Co., New York.
Μ а к-Д ο η а л ь д (D. К. С. MacDonald)
(1952) «Information theory and its application to taxonomy», J. AppL
Physics, Vol. 23, pp. 529-531.
Мак-Карти (J. McCarthy)
(1956) «Measures of the value of information», Proc. Nat Acad. Sci.t U. S.f
Vol. 42, pp. 654—655.
Мак-Кол л (С. Η. McCall, Jr.)
(1957) «The linear hypothesis, information, and the analysis of variance»,
Dissertation, Graduate Council of George Washington Univ.
Мак-Кей (D. Μ. MacKay)
(1950) «Quantal aspects of scientific information», Phil. Mag., Vol. 41,
Seventh Series, No. 314, pp. 289—311.
ЛИТЕРАТУРА
373
Мак-Лаклан (Ν. W. McLachlan)
(1939) Complex Variable and Operational Calculus with Technical Appll·
cations, Cambridge Univ. Press.
Мак-Миллан (В. McMillan)
(1953) «The basic theorems of information theory», Ann, Math. Statist.
Vol. 24, pp. 196—219.
Мак-Миллан, Грант, Фите, Фрик, Мак-Каллох, Миллер
и Б ρ о з и н (В. McMillan, D. A. Grant, P. M. Fitts, F. С. Frick, W. S. McCulloch,
G. A. Miller, and H. W. Brosin)
(1953) Current Trends in Information Theory, Univ. of Pittsburgh Press.
Мандельбройт (В. Mandelbrot)
(1953) «Contribution a la theorie mathematique des jeux de communications,
Pubis. Inst statist, un'w. Paris, Vol. 2, Fasc. 1 et 2, pp. 3—124.
(1956) «An outline of a purely phenomenological theory of statistical
thermodynamics»: I. Canonical ensembles, IRE Trans, on Inform. Theory, Vol.
tT-2, pp. 190—203.
Манн и Вальд (Η. Β. Mann and A. Wald)
(1943) «On stochastic limit arid order relationships», Ann. Math. Statist.,
Vol. 14, pp. 217—226.
Μ a ρ ρ и ο τ (F. Η. С. Marriott)
(1952) «Tests of significance in canonical analysis», Biometrika, Vol. 39,
pp. 58—64.
Махаланобис (Р. С. Mahalanobis)
(1936) «On the generalized distance in statistics», Proc. Nat. Inst. Set.
India, Vol. 12, pp. 49—55.
Миллер и Мэйдоу (G. A. Miller and W. G. Madow)
(1954) «On the maximum likelihood estimate of the Shannon-Wiener
measure of information», AFCRC-TR-54-75, Air Force Cambridge Research Center,
Air Research and Development Command, Boiling Air Force Base,
Washington D. C, Aug.
Миллер и Росс (G. A. Miller and P. M. Ross)
(1954) «Tables of η log2 η and η log10 η for η from 1 to 1000», Tech. Rep.
No. 60, Lincoln Laboratory, M. I. T., Feb. 10.
Митра (S. К. Mitra)
(1955) «Contributions to the statistical analysis of categorical data»,
N. С Inst, of Statist. Mimeo Series No. 142, Dec.
Μ о л и и а (Е. С. Molina)
(1942) Tables of Poisson's Exponential Limit, D. Van Nostrand Co., New
York.
Мочли (J. W. Mauchly)
(1940) «Significance test for sphericity of a normal rc-variate distribution» ,
Ann. Math. Statist., Vol. 11, pp. 204—209.
Μ у д (Α. Μ. Mood)
(1951) «On the distribution of the characteristic roots of normal second
moment matrices», Ann. Math. Statist, Vol. 22, pp. 266—273.
Мурье (Ε. Mourier)
(1946) «Etude du choix entre deux lois de probabilite», Compt. Rend.,Vo\.
223, pp. 712—714.
(1951) «Tests de choix entre diverses lois de probabilite», Trabajos Esta
Uistica, Vol. 2, pp. 233—26Q.
374 ЛИТЕРА ГУРЛ
Η е й м а и (J. Neyman)
(1929) «Contribution to theory of certain test criteria», XVIIi Session de
rinstitut International de Statistique, Varsovie, pp. 1—48.
(1935) «Su un teorema concernente le cosiddette statistiche sufficient!»,
Giorn. 1st. ital. Attuari, Vol. 6, p. 320—334.
(1949) «Contribution to the theory of the y2 test», Proceedings of the
Berkeley Symposium on Mathematical Statistics and Probability, Univ of Calif.
Press, pp. 239—273.
(1950) First Course in Probability and Statistics, Henry Holt and Co.,
New York.
Нейман и Пирсон (J. Neyman and E. S. Pearson)
(1928) «On the use and interpretation of certain test criteria for purposes
of statistical inference», Biometrika, Vol. 20A, pp. 175—240; 263—294.
(i933) «On the problem of the most efficient tests of statistical hypotheses»,
Phil Trans Roy. Soc. London, Ser. A, Voi 231, pp. 289—337.
Нортон (Η. W. Norton)
(1945) «Calculation of chi-square lor complex contingency tables», J. Am
Statist, Assoc, Voi. 40, pp. 251—258
Пауэре (К Н. Powers)
(i956) «A unified theory of information», Tech. Rept. No. 311, R. i. Ε,
Μ. 1. Т., Feb. 1
Π e и р о у з (i. S Penrose)
(1947) «Some notes on discrimination», Ann. Eugenics, Voi. 13, pp. 228—237.
Пияааи (К. С S. Piiiai)
(i955) «Some new test criteria in multivariate analysis», Ann. Math. Statist.,
Vol. 26, pp. 117—121,
Пирс (J. R Pierce)
(1956) Electrons, Waves and Messages Hanover House, New York
Пирсон (К. Pearson)
(1904) «Mathematical contributions to the theory of evolution, Xili, on the
theory of contingency and its relation to association and normai correlation»,
Drap. Co. Mem. Biotn. Ser., No 1.
(1911) «On the probability that two independent distributions of frequenc}
are reaily samples from the same population», Biometrika, Voi 8, pp. 250—253.
Пирсон и У и л к с (Е. S. Pearson and S. S. Wilks)
(1933) «Methods of statistical analysis appropriate for k samples ol two
variables», Biometrika, Vol. 25, pp 353—378.
Пирсон и Хартли (Ε. S. Pearson and Η ϋ. Hartley)
(195i) «Charts of the power function for analysis of variance tests, derned
from the non central /^distribution», Biometrika, Vol 38, pp- i 12—130.
П и т м э и (Е. J. G. Pitman)
(1936) «Sufficient statistics and intrinsic accur.icv», Proc. Camb. Phil. Soc,
Vol. 32, pp. 567-^579
П л э к с τ τ (R. 1. Plackett)
(1949) «A historical note on the method of 1еаь! squares?, Biometrika, Voi -#>»
pp. 458—460.
Π э τ я а й к (Р. В. Patnaik)
(1949) «The non-central χ2 and F distributions and their applications»,
Biometrika, Vol. 36, pp. 202—232,
ЛИТЕРАТУРА 375
Ρ а о (С. R. Rao)
(1945) «Information and the accuracy attainable in the estimation of
statistical parameters», Bull. Calcutta Math. Soc, Vol. 37, pp. 81—91.
(1952) Advanced Statistical Methods In Biometric Research, John Wiley &
Sons, New York.
(1957) «Maximum likelihood estimation for the multinomial distribution»,
Sankhya, Vol. 18, pp. 139—148.
Pao и Чакраварти (С. R. Rao and 1. M. Chakravarti)
(1956) «Somme small sample tests of significance for a Poisson distribution»,
Biometrics, Vol. 12, pp. 264- 282.
Рейх (Ε. Reich)
(1951) «On tile definition of information», J. Math, and Phys., Vol. 30,
pp. 156—16i.
Рипп (D. D Rippe)
(1951) «Statistical rank and sampling variation of the results of factorization
of со variance matrices», Doctoral Thesis, on fiie at the Univ. of Michigan.
Роберте (Η. R. Roberts)
(1957) «On estimation and information», M. S. Thesis, George Washington
Univ.
Ρ о з е и б л а τ (Η. Μ. Rosenblatt)
(i953) «On а к sample multivariate regression problem», Master's Thesis,
George Washington Univ.
Рой (S N. Roy)
(1939) «/7-statistics, or some generalizations in analysis of variance
appropriate to multivariate problems», Sankhya, Voi. 4, pp. 38 i—396.
(1957), Some Aspects of Multivariate Analysis, John Wiley & Sons, New
York.
Рой и Бозе (S. N. Roy and R С Bose)
(1953) «Simultaneous confidence interval estimation», Ann, Math. Statist.,
Voi. 24, pp. 513—536.
Рой и Кастенбаум (S. N. Roy and Μ. A. Kastenbaum)
(1955) «A generalization of analysis of variance and multivariate analysis
to data based on frequencies in qualitative categories or class intervals»,
N. C. Inst, of Statist. Mimeo Series No. 13i, June 1.
(1956) «On the hypothesis of no 'interaction' in a muiti-way contingency
able», Ann. Math. Statist, Vol. 27, pp. 749—757.
Рой и Митра (S. N. Roy and S. K. Mitra)
(1956) «An Introduction to some non-parametric generalizations of analysis
of variance and multivariate analysis», Biometrika, Vol. 43, pp. 361—376.
Ρ ο τ с т е й и (J. Rothstein)
(195i) «Information, measurement, and quantum mechanics», Science, Vol.
114, pp. 171—175.
Сака г ути (Μ. Sakaguchi)
(1952, 1955, 1957a) «Notes on statistical applications of information theory»,
Repts. Statist. Appli. Research Union Japan. Scientists and Engineers, Vol. 1,
No. 4, pp. 27—31; 11, Vol. 4, No. 2, pp. 21—68; HI, Voi. 5, No. i, pp. 9-16
(1957b) «Notes on information transmission in multivariate probability
distributions», Rep. Univ of Electro-Communications, No. 9, Dec, pp. 25—Λ1.
376 ЛИТЕРАТУРА
Санов
(1957) «О вероятности больших отклонений случайных величин»,
Математический сборник, нов. серия, т. 42, вып. 1 (84), стр. 11—44.
С е τ χ (G. R. Seth)
(1949) «On the variance of estimates», Ann. Math. Statist, Vol. 20
pp. 1—27.
С и μ а и к (J. В. Simaika)
(1941) «On an optimum property of two important statistical tests», Bio-
metrika, Vol. 32, pp. 70—80.
Смит (Η. F. Smith)
(1947) «Some examples of discrimination», Ann. Eugenics, Vol. 13, pp. 272—282.
(1957) «Interpretation of adjusted treatment means and regressions in
analysis of covariance», Biometrics, Vol. 13, pp. 282—308.
С η e д e κ ο ρ (G. W. Snedecor)
(1946) Statistical Methods (4th ed.), Collegiate Press of Iowa State College,
Ames.
Стюарт (A. Stuart)
(1953) «The estimation and comparison of strengths of association in
contingency tables», Biometrika, Vol. 40, pp. 105—110.
(1955a) «A test for homogeneity of the marginal distributions in a two way
classification», Biometrika, Vol. 42, pp. 412—416.
(1955b) «A paradox in statistical estimation», Biometrika, Vol. 42, pp. 527—
529.
С τ ю м η е ρ с (F. L. Η. Μ. Stumpers)
(1953) «A bibliography of information theory; communication
theory-cybernetics» (R.L.E., M.I. Т., Feb. 2, 1953); IRE Trans., PGIT-2, Nov. 1953; First
suppl., IT-1, Sept. 1955, pp. 31—47; Second suppl., IT-3, June 1957, pp. 150—166.
С у д з у к и (К. Suzuki)
(1956) «On *amount of information'», Proc. Japan Acad., Vol. 32, pp. 726—730.
(1957) «On the ecart between two 'amounts of information'», Proc. Japan
Acad., Vol. 33, pp. 25—28.
С 9 в и д ж (L. J. Savage)
(1954) The Foundations of Statistics, John Wiley & Sons, New York.
С ю й (Р. L. Hsu)
(1938) «Notes on Hotelling's generalized T», Ann. Math. Statist, Vol. 9,
pp. 231—243.
(1939) «On the distribution of roots of certain determinantal equations»,
Ann. Eugenics, Vol. 9, pp. 250—258.
(1941a) «On the problem of rank and the limiting distribution of Fisher's
lest function», Ann. Eugenics, Vol. 11, pp. 39—41.
(1941b) «On the limiting distribution of roots of a determinantal equation»,
/. London Math. Soc, Vol. 16, pp. 183—194.
(1941—1942) «On the limiting distribution of the canonical correlations»,
Biometrika, Vol. 32, pp. 38—45.
(1949) «The limiting distribution of functions of sample means and
application to testing hypotheses», Proceedings of the Berkeley Symposium on
Mathematical Statistics and Probability, Univ. of Calif. Press, pp. 359—402.
Таблицы биномиального распределения вероятностей (Tables of the
Binomial Probability; Distribution)
(1949) Nat." Bur. Standards (U.S.), Applied Math. Series 6, Washington.
ЛИТЕРАТУРА 377
Г а л л е ρ (W. G. Tuller)
(1950) «Information theory applied to system design», Trans. AIEE, Vol.
69, Part II, pp. 1612—1614.
Τ ο κ e ρ (Κ. D. Tocher)
(1952) «The design and analysis of block experiments», J. Roy. Statist. Soc,
Ser. B, Vol. 14, pp. 45—100.
Τ ο μ с о η (G. Thomson)
(1947) «The maximum correlation of two weighted batteries», Brit. J.
Psychol., Stat. Sec, Vol. 1, pp. 27—34.
Тьюки (J. W. Tukey)
(1949) «Sufficiency, truncation and selection», Ann. Math. Statist., Vol. 20,
pp. 309—311.
(1957) «Approximations to the upper 5°/0 points of Fisher's В distribution
and non-central X2», Biometrika, Vol. 44, pp. 528—530.
Тэнг (Р. С. Tang)
(1938) «The power function of the analysis of variance tests with tables and
illustrations of their use», Statistical Research Memoirs, Vol. 2, pp. 126—149.
У и л к с (S. S. Wilks)
(1932) «Certain generalizations in the analysis of variance», Biometrika,
Vol. 24, pp. 471—494.
(1935a) «The likelihood test of independence in contingency tables», Ann.
Math. Statist, Vol. 6, pp. 190—196.
(1935b) «On the independence of k sets of normally distributed statistical
variables», Econometrica, Vol. 3, pp. 309—326.
(1938a) «The large-sample distribution of the likelihood ratio for testing
composite hypotheses», Ann. Math. Statist., Vol. 9, pp. 60—62.
(1938b) «The analysis of variance and covariance in non-orthogonal data»,
Metron, Vol. 13, pp. 141—158.
(1943) Mathematical Statistics, Princeton Univ. Press. (Русский
перевод: С. С. У и л к с, Математическая статистика, «Наука» (готовится к печати).)
Уильяме (Е. J. Williams)
(1952) «Some exact tests in multivariate analysis», Biometrika, Vol. 39,
pp. 17-31.
(1955) «Significance tests for discriminant functions and Дпеаг functional
elationships», Biometrika, Vol. 42, pp. 360—381.
У и τ τ е к е ρ (Ε. Т. Whittaker)
(1915) «On the functions which are represented by the expansions of the
Interpolatory theory», Proc. Roy. Soc. Edinburgh, Vol. 35, pp. 181—194.
У ο τ с о и (G. N. Watson)
(1944), Bessel Functions (2nd ed.), The Macmillan Co., New York.
У э л ч (В. L. Welch)
(1935) «Problems in the analysis of regression among k samples»,
Biometrika, Vol. 27, pp. 145—160.
(1938) «The significance of the difference between two means when the
population variances are unequal», Biometrika, Vol. 29, pp. 350—362.
(1939) «Note on discriminant functions», Biometrika, Vol. 31, pp. 218—219.
Файнстенн (A. Feinstein)
(1958) Foundations of Information Theory, McGraw-Hill Book Co., New
York. (Русский перевод: А. Файнстейн, Основы теории информации,
ИЛ, I960.)
378
ЛИТЕРАТУРА
Φ а н о (R. M. Fano) (chairman)
(1954), 1954 Symposium on information Theorv, M. L Т., September 1954.
Trans. IRE, PGIT-4.
Федерер (W. T. Federer)
(1955) Experimental Design, The Macmillan Co., New York.
Φ e л л е ρ (W. Feller)
(1950) An Introduction to Probability Theory and its Applications (1st ed.),
John Wiley & Sons, New York. (Русский перевод: В. Ф е л тг е р, Введение
в теорию вероятностей и ее приложения, ИЛ, 1952, а также перевод второго
издания: «Мир», 1964.)
Φ е ρ о н (R. Feron)
(1952а) «Information et correlation», Compt. Rend., Vol. 234, pp. 1343—1345.
(1952b) «Convexite et information», Compt. Rend., Vol. 234, pp. 1840—1841.
Ферон и Фуржо (R. Feron and C. Fourgeaud)
(1951) «Information et regression», Compt. Rend., Vol. 232, pp. 1636—1638.
Φ e ρ ρ a p (W. L. Ferrar)
(1941) Algebra, Oxford Univ. Press.
Фикс (Е. Fix)
(1949) «Tables of noncentral y2», Univ. Calif. Pttbl. Statist., Vol. I, No. 2,
pp. 15—19.
Фишер (R. A. Fisher)
(1921) «On the «probable error» of a coefficient of correlation deduced
from a small sample», Metron, Vol. I, pp. 3—32.
(1922a) «On the interpretation of χ2 from contingency tables, and the
calculation of Я», /. Roy. Statist. Soc., Vol. 85, pp. 87—94; Contributions to
Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 5.
(1922b) «On the mathematical foundations of theoretical statistics», Phil.
Trans. Roy. Soc. London, Ser. A. Vol. 222, pp. 309—368; Contributions to
Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 10.
(1924) «The conditions under which χ2 measures the discrepancy between
observation and hypothesis», J. Roy. Statist. Soc, Vol. 87, pp. 442—450;
Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950,
paper 8.
(1925a) Statistical Methods for Research Workers (1st ed.), Oliver & Boyd,
London; 10th ed., 1948. (Русский перевод: Р. А. Фишер, Статистические
методы для исследователей, Госстатиздат, 1958.)
(1925b) «Theory of statistical estimation», Proc. Camb. Phil. Soc, Vol. 22,
pp. 700—725; Contributions to Mathematical Statistics, John Wiley & Sons,
New York, 1950, paper 11.
(1928) «The general sampling distribution of the multiple correlation
coefficient», Proc. Royal Soc, Ser. A, Vol. 121, pp. 654—673; Contributions to
Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 14.
(1935) «The logic of inductive inference», /. Roy. Statist. Soc, Vol. 98,
pp. 39—54; Contributions to Mathematical Statistics, John Wiley & Sons, New
York, 1950, paper 26.
(1936) «The use of multiple measurements in taxonomic problems», Ann.
Eugenics, Vol. 7, pp. 179—188; Contributions to Mathematical Statistics, John
Wiley & Sons, New York, 1950, paper 32.
(1938) «The statistical utilization of multiple measurements», Ann. Eugenics,
Vol 8, pp. 376—386; Contributions to Mathematical Statistics, John Wiley &
Sons, New York, 1950, paper 33.
ЛИТЕРАТУРА 379
(1939а) «The comparison of samples with possibly unequal variances», Ann.
Eugenics, Vol. 9, pp. 174—180; Contributions to Mathematical Statistics, John
Wiley & Sons, New York, 1950, paper 35.
(1939b) «The sampling distribution of some statistics obtained from
nonlinear equations», Ann. Eugenics, Vol. 9, pp. 238—249; Contributions to
Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 35.
(1950) «The significance of deviations from expectation in a Poisson series»,
Biometrics, Vol. 6, pp. 17—24.
(1956) Statistical Methods and Scientific Inference, Oliver & Boyd, London.
Фостер и Рис (F. G. Foster and D. H. Rees)
(1957) «Upper percentage points of the generalized Beta distribution», Ϊ,
Biometrika, Vol. 44, pp. 237—247.
Фрезер (D. A. S. Fraser)
(1957) Nonparametric Methods in Statistics, John Wiley & Sons, New York.
Фрезер и Гутман (D. A. S. Fraser and I. Guttman)
(1952) «Bhattacharyya bounds without regularity assumptions», Ann. Math.
Statist, Vol. 23, pp. 629—632.
Фрезер, Дункан и Кол л ар (R. A. Frazer, W. J. Duncan and A. R.
Collar)
(1938) Elementary Matrices, Cambridge Univ. Press.
Фреше (Μ. Frechet)
(1943) «Sur l'extension de certaines evaluations statistiques au cas de petits
echantillons», Rev. Inst, intern. Statist., Vol. 11, pp. 183—205.
X а л μ о ш (P. R. Halmos)
(1950) Measure Theory, D. Van Nostrand Co., New York. (Русский
перевод: П. Халмош, Теория меры, ИЛ, 1953.)
Халмош и Сэвидж (P. R. Halmos and L. J. Savage)
(1949) «Applications of the Radon-Nikodym theorem to the theory of
sufficient statistics», Ann. Math. Statist., Vol. 20, pp. 225—241.
X a p д и, Л и т л в у д и Π о й a (G. Н. Hardy, J. E. Littlewood and G. Polya)
(1934) Inequalities (1st ed), Cambridge Univ. Press; 2nd ed., 1952. (Русский
перевод первого издания: г.г. Хард и, Д ж. Литтльвуд, Г. Поли а,
Неравенства, ИЛ, 1948.)
Хартли (R. V. L. Hartley)
(1928) «Transmission οι information», Bell System Tech. J., Vol. 7,
pp. 535—563.
Хинчин
(1949) Mathematical Foundations of Statistical Mechanics, Dover
Publications, New York. (Перевод с русского: А. Я. Хинчин, Математические
основания статистической механики, ГИТТЛ, 1943.)
(1953) «Понятие энтропии в теории вероятностей», УМН, т. 8, вып. 3,
стр. 3—20.
(1956) «Об основных теоремах теории информации», УМН, т. 11, вып.
1 (67), стр. 17—75.
(1957) Mathematical Foundations of Information Theory, Dover
Publications, New York. (Перевод на английский двух предыдущих работ.)
X о й τ (J. P. Hoyt)
(1953) «Estimates and asymptotic distributions of certain statistics in
information theory», Dissertation, Graduate Council of George Washington Univ.
13*
380 ЛИТЕРАТУРА
X о л д е й н (J. В. S. Haldane)
(1955) «Substitutes for χ2», Biometrika, Vol. 42, pp. 265—266.
Хотеллинг (Η. Hotelling)
(1933) «Analysis of a complex of statistical variables into principal
components», /, Educ. Psych., Vol. 24, pp. 417—441; 498—520.
(1936) «Relations between two sets of variates», Biometrika, Vol. 28,
pp. 321—377.
(1947) «Multivariate quality control, illustrated by the air testing of sample
bombsights», Techniques of Statistical Analysis, McGraw-Hill Book Co., New
York, pp. 111—184.
(1951) «A generalized Τ test and measure of multivariate dispersion»,
Proceedings of the Second Berkeley Symposium on Mathematical Statistics and
Probability, Univ. of Calif. Press, pp. 23—41.
X о у л (Р. G. Hoel)
(1947) Introduction to Mathematical Statistics (1st ed.), John Wiley & Sons, New
York; 2nd ed., 1954.
Хузурбазар (V. S. Huzurbazar)
(1949) «On a property of distributions admitting sufficient statistics»,
Biometrika, Vol. 36, pp. 71—74.
(1955) «Exact forms of some invariants for distiibutions admitting sufficient
statistics», Biometrika, Vol. 42, pp. 533—537.
Чернов (Η. Chernoii)
(1952) «A measure of asymptotic efficiency for tests of a hypothesis based
on the sum of observations», Ann. Math. Statist., Vol. 23, pp. 493—507.
(1954) «On the distribution of the likelihood ratio», Ann. Math. Statist.
Vol. 25, pp. 573—578.
(1956) «Large-sample theory: parametric case», Ann. Math. Statist., Vol. 27,
pp. 1—22.
4 e ρ ρ и (С. Cherry) (ed.)
(1955) Information Theory, Papers Read at a Symposium on'Infor-
rnation Theory', Royal Institution, London, Sept. 1955; Academic Press, New
York, 1956.
(1957) On Human Communication, John Wiley & Sons, New York.
4 e ρ ρ и (Е. С. Cherry)
(1950) «An history of the theory of information», Proceedings of a
Symposium on Information Theory, W. Jackson (ed.), Royal Society, London, 1950,
published by Ministry of Supply, and by the IRE, Feb. 1953, pp. 161—168.
(1951) «An history of the theory of information», Proc. I.E.E. {London),
Vol. 98, Part III, pp. 383—393.
(1952) «The communication of information», Am. Scientist, Vol. 40,
pp. 640—664.
Чэпмен и Ρ о б б и н с (D. G. Chapman and H. Robbins)
(1951) «Minimum variance estimation without regularity assumptions», Ann.
Math. Statist., Vol. 22, pp. 581—586.
Шеннон (С. Е. Shannon)
(1948) «A mathematical theory of communication», Belt System Tech. J.t
Vol. 27, pp. 379—423; 623—656. (Русский перс вод в сборнике К. Шеннон,
Работы по теории информации, ИЛ, 1963: Математическая теория связи.)
(1949) «Communication in the presence of noise», Proc. IRE, Vol. 37,
pp. 10—21. (Русский перевод в сборнике К. Шеннон, Работы по теории
информации, ИЛ, 1963: Связь при наличии шума.)
ЛИТЕРАТУРА 381
(1956) «The bandwagon», IRE Trans, on Inform. Theory, Vol. IT-2, p. 3.
(Русский перевод в сборнике К. Шеннон, Работы по теории информации,
ИЛ, 1963: Бандвагон.)
Шеннон и Уивер (СЕ. Shannon and W. Weaver)
(1949) The Mathematical Theory of Communication, Univ. of Illinois Press,
Urbana.
Шутценбергер (LP. Schiitzenberger)
(1954) «Contribution aux applications statistiques de la theorie de l'lnforma-
tion», Pubis, inst. statist, univ. Paris, Vol. 3, Fasc. 1—2, pp. 3—117.
Ш у χ a p τ (W. A. Shewhart)
(1931) Economic Control of Manufactured Product, The Macmillan
Co., New York.
Эйзенхарт (L. P. Eisenhart)
(1926) Riemannian Geometry, Princeton Univ. Press.
Эйткен и Сильверстон (А. С. Aitken and Η. Silverslone)
(1941—1943) «On the estimation of statistical parameters», Proc. Roy. Soc.
Edinburgh, Vol. 61, pp. 186—194. (issued separately Apr. 2, 1942.)
Э л а й а с (Р. Elias) (chairman)
1956, IRE Trans, on Inform. Theory, Vol. IT-2, No. 3.
(1956), 1956 Symposium on Infromation Theory, M. I. Т., September.
Э ш б и (W. R. Ashby)
(1956) An Introduction to Cybernetics, John Wiley & Sons, New York.
(Русский перевод: У. Р. Эшби, Введение в кибернетику, ИЛ, 1958.)
Юл и Кендалл (G. U. Yule and M. G. Kendall)
(1937) An Introduction to the Theory of Statistics (11th ed.)t Charles
Griffin, London. (Русский перевод: Д. Э. Ю л и М. Д. Кендалл, Теория
статистики, Госстатиздат, 1960.)
ПРИЛОЖЕНИЕ
Таблица I
Logen и η logen для значений η от 1 до 1000
η
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
\ogen
0,0000000000
0,6931471805
1,0986122886
1,3862943611
1,6094379124
1,7917594692
1,9459101490
2,0794415416
2,1972245773
2,3025850929
2,3978952727
2,4849066497
2,5649493574
2,6390573296
2,7080502011
2,7725887222
2,8332133440
2,8903717578
2,9444389791
2,9957322735
3,0445224377
3,0910424533
3,1354942159
3,1780538303
3,2188758248
3,2580965380
3,2958368660
3,3322045101
3,3672958299
3,4011973816
3,4339872044
3,4657359027
η \oge η
0000,0000000000
0001,3862943611
0003,2958368660
0005,5451774445
0008,0471895622 ■
0010,7505568154 i
0013,6213710434 j
0016,6355323334
0019,7750211960
0023,0258509299
0026,3768480008
0029,8188797975
0033,3443416470
0036,9468026146
0040,6207530165
0044,3614195558
0048,1646268490
0052,0266916421
0055,9443406042
0059,9146454711
0063,9349711922
0068,0029339739
0072,1163669664
0076,2732919284
0080,4718956217
0084,7105099886
0088,9875953821
0093,3017262849
0097,6515790696
0102,0359214499
0106,4536033390
0110,9035488896
η
33
34
35
36
37
38
39
! 40
1 41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
1 64
J
\ogen
3,4965075614
3,5263605246
3,5553480614
3,5835189384
3,6109179126
3,6375861597
3,6635616461
3,6888794541
3,7135720667
3,7376696182
3,7612001156
3,7841896339
3,8066624897
3,8286413964
3,8501476017
3,8712010109
3,8918202981
3,9120230054
3,9318256327
3,9512437185
3,9702919135
3,9889840465
4,0073331852
4,0253516907
4,0430512678
4,0604430105
4,0775374439
4,0943445622
4,1108738641
4,1271343850
4,1431347263
4,1588830833
η \oge η
0115,3847495284
0119,8962578369
0124,4371821521
0129,0066817844
0133,6039627678
0138,2282740696
0142,8789041991
0147,5551781646
0152,2564547349
0156,9821239679
0161,7316049748
0166,5043438924
0171,2998120397
0176,1175042385
0180,9569372804
0185,817^485236
0190,6991946074
0195,6011502714
0200,5231072689
0205,4646733662
1 0210,4254714183
0215,4051385145
0220,4033251878
0225,4196946812
0230,4539222666
0235,5056946117
0240,5747091904
0245,6606737333
I 0250,7633057146
ι 0255,8823318728
0261,0174877627
0266,1685173350
ПРИЛОЖЕНИЕ 383
Таблица I (продолжение)
η
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
1С0
101
102
103
104
105
106
107
108
109
ПО
\ogen
4,1743872698
4,1896547420
4,9046926193
4*2195077051
4,2341065045
4*2484952420
4,2626798770
4,2766661190
4,2904594411
4,3040650932
4,3174881135
4,3307333402
4,3438054218
4,3567088266
4,3694478524
4,3820266346
4,3944491546
4,4067192472
4,4188406077
4,4308167988
4,4426512564
4,4543472962
4,4659081186
4,4773368144
4,4886363697
4,4998096703
4,5108595065
4,5217885770
4,5325994931
4,5432947822
4,5538768916
4,5643481914
4,5747109785
4,5849674786
4,5951198501
4,6051701859
4,6151205168
4,6249728132
4,6347289882
4,6443908991
4,6539603501
4,6634390941
4,6728288344
4,6821312271
4,6913478822
4,7004803657
η \oge η
0271,3351725432
0276,5172129737
0281,7144054992
0286,9265239520
0292,1533488172
0297,3946669435
0302,6502712699
0307,9199605692
0313,2035392038
0318,5008168971
0323,8116085152
0329,1357338618
0334,4730174827
0339,8232884818
0345,1863803449
0350,5621307739
0355,9503815285
0361,3509782757
0366,7637704471
0372,1886111028
0377,6253568017
0383,0738674778
0388,5340063229
0394,0056396741
0399,4886369062
0404,9828703297
0410,4882150930
0416,0045490885
0421,5317528633 ,
0427,0697095334 ι
0432,6183047021
0438,1774263809
0443,7469649148
0449,3268129097
0454,9168651633
ι 0460,5170185988
! 0466,1271722010
0471,7472269550
0477,3770857877
0483,0166535107
0488,6658367665
0494,3245439759
0499,9926852874
0505,6701725294
0511,3569191630
0517,0528402372
η
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134 |
135 Ι
136 '
137
138
139
140,
Ι 141
| 142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
ι°εβ η
4,7095302013
4,7184988712
4,7273878187
4,7361984483
4,7449321283
4,7535901911 |
4,7621739347 Ι
4,7706846244
4,7791234931
4,7874917427 |
4,7957905455 !
4,8040210447
4,8121843553 '
4,8202815656 '
4,8283137373
4,8362819069
4,8441870864 '
4,8520302639 !
4,8598124043
4,8675344504
4,8751973232
4,8828019225
4,8903491282
4,8978397999
4,9052747784
4,9126548857
4,9199809258
4,9272536851
4,9344739331
4,9416424226
4,9487598903
4,9558270576
4,9628446302
4,9698132995
4,9767337424
4,9836066217
4,9904325867
4,9972122737
5,0039463059
5,0106352940
5,0172798368
5,0238805208
5,0304379213
ι 5,0369526024
5,0434251169
5,0498560072
η loge η
0522,7578523457
0528,4718735851
0534,1948235145
0539,9266231170
0545,6676947618
0551,4164621683
0557,1743503713
0562,9407856869
0568,7156956803
0574,4990091338
0580,2906560172
0586,0905674575
0591,8986757108
0597,7149141350
0603,5392171628
0609,3715202759
0615,2117599802
0621,0598737817
0626,9158001627
0632,7794785592
0638,6508493394
0644,5298537814
0650,4164340535
0656,3105331934
0662,2120950892
0668,1210644601
0674,0373868385
0679,9610085517
0685,8918767052
0691,8299391653
0697,7751445433
0703,7274421794
0709,6867821272
0715,6531151389
0721,6263926510
0727,6065667694
0733,5935902565
0739,5874165171
0745,5879995859
0751,5952941144
0757,6092553591
0763,6298391686
0769,6570019730
0775,6907007717
0781,7308931225
0787,7775371309
384 приложение
Таблица I (продолжение)
η
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
logen
5,0562458053
5,0625950330
5,0689042022
5,0751738152
5,0814043649
5,0875963352
5,0937502008
5,0998664278
5,1059454739
5,1119877883
5,1179938124
5,1239639794
5,1298987149
5,1357984370
5,1416635565
5,1474944768
5,1532915944
5,1590552992
5,1647859739
5,1704839950
5,1761497325
5,1817835502
5,1873858058
5,1929568508
5,1984970312
5,2040066870
5,2094861528
5,2149357576
5,2203558250
5,2257466737
5,2311086168
5,2364419628
5,2417470150
5,2470240721
5,2522734280
5,2574953720
5,2626901889
5,2678581590
5,2729995585
5,2781146592
5,2832037287
5,2882670306
5,2933048247
5,2983173665
5,3033049080
η Iogfg n
0793,8305914397
0799,8900152183
0805,9557681530
0812,0278104374
0818,1061027625
0824,1906063076 i
0830,2812827315 Ι
0836,3780941632
0842,4810031936
0848,5899728672
0854,7049666736
0860,8259485397
0866,9528828220
0873,0857342985
0879,2244681620
0885,3690500119
0891,5194458481
! 0897,6756220633
Ι 0903,8375454366
0910,0051831267
i 0916,1785026656
0922,3574719520
0928,5420592455
0994,7322331602
! 0940,9279626591
0947,1292170480
0953,3359659700
ι 0959,5481794001
| 0965,7658276395
0971,9888813107
0978,2173113518
1 0984,4510890120
! 0990,6901858463
0996,9345737105
1003,1842247569
1009,4391114293
1015,6992064586
1021,9644828583
1028,2349139199
1034,5104732092
1040,7911345614
1047,0768720775
1053,3676601202
1059,6634733096
1065,9642865199
η
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
ι 239
240
241
242
243
244
245
246
247
l°gen
5,3082676974
5,3132059790
5,3181199938
5,3230099791
5,3278761687
5,3327187932
5,3375380797
5,3423342519
5,3471075307
5,3518581334
5,3565862746
5,3612921657
5,3659760150
5,3706380281
5,3752784076
5,3798973535
5,3844950627
5,3890717298
5,3936275463
5,3981627015
5,4026773818
5,4071717714
5,4116460518
5,4161004022
5,4205349992
5,4249500174
5,4293456289
5,4337220035
5,4380793089
5,4424177105
5,4467373716
5,4510384535
5,4553211153
5,4595855141
5,4638318050
5,4680601411
5,4722706736
5,4764635519
5,4806389233
5,4847969334
5,4889377261
5,4930614433
5,4971682252
5,5012582105
5,5053315359
5,5093883366
η loge η
1072,2700748750
1078,5808137455
1084*8964787442
1091,2170457234
1097,5424907707
1103,8727902059
1110,2079205779
1116,5478586606
1122,8925814507
1129,2420661635
1135,5962902305
1141,9552312961
1148,3128672147
1154,6871760474
1161,0601360598
1167,4377257183
1173,8199236880
1180,2067088298
1186,5980601975
1192,9939570354
1199,3943787756
1205,7993050356
1212,2087156155
1218,6225904960
1225,0409098355
1231,4636539683
1237,8908034016
1244,3223388139
1250,7582410523
1257,1984911305
1263,6430702266
1270,0919596808
1276,5451409937
1283,0025958239
1289,4643059860
1295,9302534490
1302,4004203338
1308,8747889116
1315,3533416021
1321,8360609712
1328,3229297299
1334,8139307318
1341,3090469715
1347,8082615835
1354,3115578394
1360,8189191471
ПРИЛОЖЕНИЕ 385
Таблица I (продолжение)
η
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278 ,
279
280
281
282
283
284
285
286
287
288
289
290
291
292
ioge η
5,5134287461
5,5174528964
5,5214609178
5,5254529391
5,5294290875
5,5333894887
5,5373342670
5,5412635451
5,5451774444
5,5490760848
5,5529595849
5,5568280616
5,5606816310
5,5645204073
5,5683445037
5,5721540321
5,5759491031
5,5797298259
5,5834963087
5,5872486584
5,5909869805
5,5947113796
5,5984219589
5,6021188208
5,6058020662
5,6094717951
5,6131281063
5,6167710976 ι
5,6204008657
5,6240175061 я
5,6276211136 ι
5,6312117818
5,6347896031
5,6383546693
5,6419070709
5,6454468976
5,6489742381
5,6524891802
5,6559918108
5,6594822157
5,6629604801
5,6664266881
5,6698809229
5,6733232671
5,6767538022
η loge η
1367,3303290489
1373,8457712197
1380,3652294^56
1386,8886877221
1393,4161300529
1399,9475406481
1406,4829038227
1413,0222040154
1419,5654257868
1426,1125538181
1432,6635729098
1439,2184679802
1445,7772240640
1452,3398263112
1458,9062599854
1465,4765104628
1472,0505632306
1478,6284038863
1485,2100181359
1491,7953917929
1498,3845107769
1504,9773611129 \
1511,5739289296 ι
1518,1742004584
1524,7781620325
1531,3858000855 Ι
1537,9971011503
1544,6120518583
1551,2306389379
8*1557,8528492139
1564*4786696060
1571,1080871282
1577,7410888874
1584,3776620828
1591,0177940045
1597,6614720330
1604,3086836378
1610,9594163766
1617,6136578945
1624,2713959230
1630,9326182792
1637,5973128645
1644*2654676644
1650,9370707469
1657,6121102623
η
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323 j
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
I l0£e η
5,6801726090
5,6835797673
5,6869753563
5,6903594543
5,6937321388
5,6970934865
5,7004435733
5,7037824746
5,7071102647
5,7104270173
5,7137328055
5,7170277014
5,7203117766
5,7235851019
5,7268477475
5,7300997829
5,7333412768
5,7365722974
5,7397929121
5,7430031878
5,7462031905 \
5,7493929859
5,7525726388
5,7557422135
5,7589017738
5,7620513827
5,7651911027
5,7683209957
5,7714411231
5,7745515455
5,7776523232
5,7807435157
5,7838251823
5,7868973813
5,7899601708
5,7930136083
5,7960577507
5,7990926544
5,8021183753
5,8051349689
5,8081424899
5,8111409929
5,8141305318
5,8171111599
5,8200829303
5,8230458954
Ι
η \oge η
1664,2905744420
1670,9724515976
! 1677,6577301202
| 1684,3463984799
1691,0384452244
1697,7338589786
1704*4326284438
1711,1347423969
1717,8401896894
1724*5489592472
1731,2610400693
1737,9764212275
1744,6950918653
1751,4170411974
1758,1422585093
1764,8707331559
1771,6024545614
1778,3374122185
1785,0755956877
1791,8169945966
1798,5615986391
1805,3093975752
1812,0603812301
1818,8155394935
1825,5718623191
1832,3323397241
1839,0959617884
1845,8627186540
1852,6326005247
1859,4055976653
1866,1817004009
1872,9608991167
1879,7431842572
1886,5285463255
1893,3169758834
1900,1084635500
1906,9030000018
1913,7005759720
1920,5011822498
1927,3048096803
1934,1114491635
1940,9210916542
1947,7337281614
1954*5493497476
1961,3679475287
1968,1895126733
386
ПРИЛОЖЕНИЕ
Таблица 1 (продолжение)
η
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
iose η
5,8260001073
5,8289456176
5,8318824772
5,8348107370
5,8377304471
5,8406416573
5,8435444170
5,8464387750 |
5,8493247799
5,8522024797
5,8550719222
5,8579331544
5,8607862234
5,8636311755
5,8664680569
5,8692969131
5,8721177894
5,8749307308
5,8777357817
5,8805329864
5,8833223884
5,8861040314
5,8888779583
5,8916442118
5,8944028342
5,8971538676
5,8998973535
5,9026333334
5,9053618480
5,9080829381
5,9107966440
5,9135030056
5,9162020626
5,9188938542
5,9215784196
5,9242557974
5,9269260259
5,9295891433
5,9322451874
5,9348941956
5,9375362050
5,9401712527
5,9427993751
5,9454206086
5,9480349891
ηloge n J
1975,0140364020
1981,8415099875
1988,6719247537
1995,5052720754
2002,3415433779
2009,1807301364
2016,0228238758
2022,8678161700
2029,7156986416
2036,5664629615
2043,4201008486
2050,2766040692
2057,1359644365
2063,9981738105
2070,8632240975
2077,7311072494
2084,6018152638
2091,4753401833
2098,3516740053 i
2105,2308091315 1
2112,1127374673
2118,9974513221
2125,8849429582
2132,7752046809
2139,6682288381
2146,5640078198
! 2153,4625340576
1 2160,3638000249
! 2167,2677982360
2174,1745212462
2181,0839616510
2187,9961120862
2194,9109652274
2201,8285137896
2208,7487505271
2215,6716682330
2222,5972597389
2229,5255179146
2236,4564356679
2243,3900059442
2250,3262217262
2257,2650760338
2264,2065619233
2271,1506724877
2278,0974008562
η
3S4
385
386
387
388
389
390
391
392
393
394 |
395 |
396 1
397
398
399
400
401
402
! 403
1 404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
1 422
423
424
425
426
427
428
429
loge η
5,9506425525
5,9532433342
5,9558373694
5,9584246930
5,9610053396
5,9635793436
5,9661467391
5,9687075599
5,9712618397
5,9738096118
5,9763509092
5,9788857649
5,9814142112
5,9839362806
5,9864520052
5,9889614168
5,9914645471
5,9939614273
5,9964520886
5,9989365619
6,0014148779
6,0038870671
6,0063531596
6,0088131854
6,0112671744
6,0137151560
6,0161571596
6,0185932144
6,0210233493
6,0234475^9
6,0258659738
| 6,0282785202
6,0306852602
6,0330862217
6,0354814325
6,0378709199
6,0402547112
6,0426328336
6,0450053140
6,0473721790
6,0497334552
6,0520891689
6,0544393462
6,0567840132
6,0591231955
6,0614569189
η \ще η
2285,0467401937
2291,9986837008
2298,9532246134
2305,9103562025
2312,8700717738
2319,8323646676
2326,7972282582
2333,7646559543
2340,7346411979
2347,7071774646
2354,6822582634
2361,6598771359
2358,6400276568
2375,6227034328
2382,6078981032
2389,5956053391
2396,5858188432
2403,5785323499
2410,5737396248
2417,5714344645
2424,5716106963
2431,5742621781
2438,5793827983
2445,5869664751
2452,5970071569
2459,6094988215
2466,6244354763
2473,6418111580
2480,6616199320
2487,6838558929
2494,7085131637
2501,7355858957
2508,7650682687
2515,7969544901
Ι 2522,8312387953
2529,8679154474
2536,9069787365
2543,9484229803
2550,9922425232
2558,0384317366
2565,0869850184
2572,1378967929
2579,1911615108
2586,2467736486
2593,3047277090
2600,3650182201
ПРИЛОЖЕНИЕ 387
Таблица I (продолжение)
η
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
\°gen
6,0637852086
6,0661080901
6,0684255882
6,0707377280
6,0730445341
6,0753460310
6,0776422433
6,0799331950
6,0822189103
6,0844994130
6,0867747269
6,0890448754
6,0913098820
6,0935697700
6,0958245624
6,0980742821
6,1003189520
6,1025585946
6,1047932324
6,1070228877
6,1092475827
6,1114673395
6,1136821798
6,1158921254
6,1180971980
6,1202974189
6,1224928095
6,1246833908
6,1268691841
6,1290502100
6,1312264894
6,1333980429
6,1355648910
6,1377270540
6,1398845522
! 6,1420374055
Ι 6,1441856341
ί 6,1463292576
6,1484682959
6,1506027684
6,1527326947
6,1548580940
6,1569789855
6,1590953884
η \oge η
2607,4276397357
2614,4925868347
2621,5598541215
2628,6294362251
2635,7013277996
2642,7755235236
2649,8520181002
2656,9308062568
2664,0118827449
2671,0952423400
2678,1808798414 '
2685,2687900721 I
1 2692,3589678783 I
2699,4514081300
2706,5461057199
2713,6430555640
2720,7422526009
2727,8436917923
2734,9473681219
2742,0532765963
2749,1614122440
2756,2717701157
2763,3843452842
2770,4991328438
2777,6161279108
2784,7353256227
1 2791,8567211386
2798,9803096387
2806,1060863243
2813,2340464178
2820,3641851622
2827,4964978215
2834,6309796798
I 2841,7676260419
2848,9064322330
2856,0473935981
2863,1905055026
2870,3357633314
2877,4831624895
2884,6326984013
2891,7843665109
2898,9381622817
2906,0940811964
2913,2521187567
6,1612073216 Ι 2920,4122704835
η
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
\ogen
6,1633148040
6,1654178542
6,1675164908
6,1696107324
6,1717005974
6,1737861039
6,1758672701
6,1779441140
6,1800166536
6,1820849067
6,1841488909
6,1862086239
6,1882641230
6,1903154058
6,1923624894
6,1944053911
6,1964441277
6,1984787164
6,2005091740
6,2025355171
6,2045577625
6,2065759267
6,2085900260
6,2106000770
6,2126060957
6,2146080984
6,2166061010
6,2186001196
6,2205901700
6,2225762680
6,2245584292
1 6,2265366692
ί 6,2285110035
6,2304814475
| 6,2324480165
6,2344107257
6,2363695902
6,2383246250
6,2402758451
6,2422232654
6,2441669006
6,2461067654
6,2480428745
6,2499752422
6,2519038831
6,2538288115
η \oge η
2927,5745319165
2934,7388986142
2941,9053661537
2949,0739301309
2956,2445861598
2963,4173298729
2970,5921569209
2977,7690629724
2984,9480437142
2992,1290948508
2999,3122121047
3006,4973912156
3013,6846279412
3020,8739180563
3028,0652573532
3035,2586416413
3042,4540667471
3049,6515285142
3056,8510228030
3064,0525454908
3071,2560924715
3078,4616596556
3085,6692429700
3092,8788383583
3100,0904417800
3107,3040492111
3114,5196566435
3121,7372600852
3128,9568555602
ι 3136,1784391080
; 3143,4020067841
3150,6275546595
3157,8550788207
| 3165,0845753699
3172,3160404242
3179,5494701164
3186,7848605941
3194,0222080202
3201,2615085726
3208,5027584440
3215,7459538418
3222,9910909885
3230,2381661209
3237,4871754904
3244,7381153631
3251,9909820192
388 ПРИЛОЖЕНИЕ
Таблица I (продолжение)
л
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
ioge η
6,2557500417
6,2576675878
6,2595814640
6,2614916843
6,2633982625
6,2653012127
6,2672005485
6,2690962837
6,2709884318
6,2728770065
6,2747620212
6,2766434893
6,2785214241
6,2803958389
6,2822667468
6,2841341610
6,2859980945
6,2878585601
6,2897155709
6,2915691395
6,2934192788
6,2952660014
6,2971093199
6,2989492468
6,3007857946
6,3026189757
6,3044488024
6,3062752869
Ι 6,3080984415
6,3099182782
6,3117348091
6,3135480462
6,3153580015
6,3171646867
6,3189681137
6,3207682942
6,3225652399
6,3243589623
6,3261494731
6,3279367837
6,3297209055
6,3315018498
6,3332796281
! 6,3350542514
6,3368257311
6,3385940782
η Iogfe η
3259,2457717535
3266,5024808747
3273,7611057060
3281,0216425842
3288,2840878606
3295,5484379000
3302,8146890813 :
3310,0828377969 ι
3317,3528804530
3324,6248134695
3331,8986332795
3339,1743363298
3346,4519190804
3353,7313780047
3361,0127095894
3368,2959103339
3375,5809767513
3382,8679053670
3390,1566927199
3397,4473353615
; 3404,7398298559
3412,0341727803
! 3419,3303607241
3426,6283902896
3433,9282580915
3441,2299607567
3448,5334949248
3455,8388572475
3463,1460443887
3470,4550530246
3477,7658798433
3485,0785215450
3492,3929748419
3499,7092364580
3507,0273031293
3514,3471716033
3521,6688386395
3528,9923010088
3536,3175554937
3543,6445988883
3550,9734279982
3558,3040396403
3565,6364306426
3572,9705978449
3580,3065380977
3587,6442482630
η
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
\ogen
6,3403593037
6,3421214187
6,3438804341
6,3456363608
6,3473892096
6,3491389913
6,3508857167
6,3526293963
6,3543700407
6,3561076606
6,3578422665
6,3595738686
6,3613024775
6,3630281035
6,3647507568
6,3664704477
! 6,3681871863
6,3699009828
6,3716118472
i 6,3733197895
6,3750248198
6,3767269478
1 6,3784261836
6,3801225368
6,3818160174
6,3835066348
6,3851943989
6,3868793193
6,3885614055
6,3902406670
6,3919171133
6,3935907539
6,3952615981
6,3969296552
6,3985949345
6,4002574453
6,4019171967
6,4035741979
6,4052284580
6,4068799860
6,4085287910
6,4101748819
6,4118182677
6,4134589571
6,4150969591
η Iogf^ η
3594^9837252136
3602,3249658336
3609,6679670179
3617,0127256723
3624,3592387136
3631,7075030692
3639,0575156775
3646,4092734874
3653,7627734585
3661,1180125608
3668,4749877752
3675,8336960926
I 3683,1941345148
3690,5563000535
3697,9201897310
I 3705,2858005797
3712,6531296423
3720,0221739717
3727,3929306306
3734,7653966921
3742,1395692391
3749,5154453644
1 3756,8930221708
3764,2722967709
3771,6532662870
3779,0359278513
3786,4202786057
3793,8063157014
3801,1940362996
3808,5834375709
3815,9745166954
3823,3672708625
3830,7616972712
3838,1577931297
3845,5555556557
3852,9549820759
3860,3560696265
3867,7588155526
3875,1632171087
3882,5692715580
3889,9769761731
3897,3863282354
3904,7973250353
3912,2099638721
3919,6242420538
ПРИЛОЖЕНИЕ 389
Таблица I (продолжение)
η
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640.
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
logen
6,4167322825
6,4183649359
6,4199949281
6,4216222678
6,4232469635
6,4248690239
6,4264884574
6,4281052726
6,4297194780
6,4313310819
6,4329400927
6,4345465187
6,4361503683
6,4377516497
6,4393503711
6,4409465406
6,4425401664
6,4441312567
6,4457198193
6,4473058625
6,4488893941
6,4554704221
6,4520489544
6,4536249988
6,4551985633
6,4567696555
6,4583382833
6,4599044543
6,4614681763
6,4630294569
6,4645883036
6,4661447242
6,4676987261
6,4692503167
6,4707995037
6,4723462945
6,4738906963
6,4754327167
6,4769723628
6,4785096422
6,4800445619
6,4815771292
6,4831073514
6,4846352356
6,4861607889
6,4876840184
ηloge n
3927,0401568975
3934,4577057289
3941,8768858823
3949,2976947010
3956,7201295366
3964,1441877496
ί 3971,5698667089
Ι 3978,9971637918
3986,4260763843
3993,8566018807
4001,2887376838
4008,7224812046
4016,1578298625
4023,5947810853
4031,0333323087
4038,4734809768
4045,9152245420
4053,3585604646
4060,8034862129
4068,2499992635
4075,6980971008
4083,1477772173
4090,5990371132
4098,0518742969
4105,5062862843
4112,9622705995
4120,4198247740
4127,8789463472
4135,3396328664
4142,8018818861
4150,2656909690
4157,7310576848
4165,1979796112
4172,6664543333
4180,1364794436
4187,6080525421
4195,0811712363
4202,5558331410
4210,0320358783
4217,5097770778
4224,9890543762
4232,4698654175
4239,9522078530
4247,4360793411
4254*9214775473
4262,4084001444
η
658
659
660
661
662
663
664
! 665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
iogen
6,4892049313
6,4907235345
6,4922398350
6,4937538398
6,4952655559
6,4967749901
6,4982821494
6,4997870406
6,5012896705
6,5027900459
6,504288173ο
6,5057840601
6,5072777123
6,5087691369
6,5102583405
6,5117453296
6,5132301109
6,5147126908
6,5161930760
6,5176712729
6,5191472879
6,5206211275
6,5220927981
6,5235623061
6,5250296578
6,5264948595
6,5279579176
6,5294188382
6,5308776277
6,5323342922
6,5337888379
6,5352412710
Ι 6,5366915975
6,5381398237
6,5395859556
6,5410299991
6,5424719605
6,5439118455
6,5453496603
6,5467854107
6,5482191027
Ι 6,5496507422
6,5510803350
1 6,5525078870
6,5539334040
η loge η
4269,8968448121
4277,3868092372
4284^8782911135
4292,3712881420
4299,8657980303
4307,3618184932
4314,8593472524
4322,3583820361
4329,8589205799
4337,3609606257
4344,8644999225
4352,3695362258
4359,8760672980
4367,3840909080
4374,8936048316
4382,4046068509
4389,9170947549
4397,4310663390
4404*9465194050
4412,4634517616
4419,9818612236
4427,5017456124
4435,0231027557
4442,5459304878
4450,0702266492
4457,5959890868
Ι 4465,1232156538
4472,6519042096
| 4480,1820526200
4487,7136587568
4495,2467204981
; 4502,7812357284
4510,3172023380
4517,8546182235
4525,3934812874
! 4532,9337894386
4540,4755405917
4548,0187326675
! 4555,5633635928
4563,1094313001
4570,6569337281
! 4578,2058688214
4585,7562345304
4593,3080288112
4600,8612496261
390 приложение
Таблица I (продолжение)
η 1
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
ioge η J
6,5553568918
6,5567783561
6,5581978028
6,5596152374
6,5610306658
6,5624440936
6,5638555265
6,5652649700
6,5666724298
6,5680779114
6,5694814204 i
6,5708829623 j
6,5722825426
6,5736801669
6,5750758405
6,5764695690
6,5778613577
6,5792512120
6,5806391372
6,5820251388
6,5834092221
6,5847913923
6,5861716548
6,5875500148
6,5889264775
6,5903010481
6,5916737320
6,5930445341
1 6,5944134597
6,5957805139
6,5971457018
6,5985090286
6,5998704992
6,6012301187
6,6025878921
6,6039438246
6,6052979209
6,6066501861
6,6080006252
6,6093492431
6,6106960447
6,6120410348
6,6133842183
6,6147256002
6,6160651851
6,6174029779
η loge η
4608,4158949429
4615,9719627353
4623,5294509826
4631,0883576702
4638,6486807889
4646,2104183352
4653,7735683113
4661,3381287251
4668,9040975901
4676,4714729253
4684,0402527554
4691,6104351105
4699,1820180262
4706,7549995438
4714,3293777099
4721,9051505766
4729,4823162014
4737,0608726473
4744,6408179824
4752,2221502806
4759,8048676208
4767,3889680873
4774,9744497696 j
4782,5613107628
4790,1495491669
4797,7391630872
4805,3301506343
4812,9225099240
4820,5162390771
| 4828,1113362197
| 4835,707/994829
4843,3056270031
4850,9048169214
4858,5053673845
4866,1072765435
4873,7105425551
4881,3151635807
4888,9211377867
\ 4896,5284633444
4904,1371384302
4911,7471612253
4919,3585299158
4926,9712426928
4934,5852977520
4942,2006932942
4949,8174275249
η j
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
ll 789
790
791
792
793
logfe η
6,6187389835
6,6200732065
6,6214056517 1
6,6227363239
6,6240652277
6,6253923680
6,6267177492
6,6280413761
6,6293632534
6,6306833856
6,6320017773
6,6333184332
6,6346333578
6,6359465556
6,6372580312
6,6385677891
6,6398758338
6,6411821697
6,6424868013
6,6437897331
6,6450909695
6,6463905148
6,6476883735
6,6489845500
6,6502790485
6,6515718735
6,6528630293
! 6,6541525202
ι 6,6554403503
6,6567265241
6,6580110458
6,6592939196
6,6605751498
6,6618547405
6,6631326959
6,6644090203
6,6656837177
6,6669567924
6,6682282484
6,6694980898
6,6707663208
6,6720329454
6,6732979677
6,6745613918
6,6758232216
η loge η
4957,4354986544
4965,0540048978
4972,6756444749
4980,2977156103
4987,9211165333
4995,5458454780
5003,1719006830
5010,7992803917
5018,4279828521
5026,0580063169
5033,6893490433
5041,3220092931
5048,9559853327
5056,5912754332
5064,2278778700
5071,8657909232
5079,5050128773
5087,1455420213
5094,7873766487
5102,4305150574
5110,0749555498
5117,7206964328
5125,3677360173
5133,0160726191
5140,6657045581
5148,3166301584
5155,9688477488
5163,6223556622
, 5171,2771522357
5178,9332358108
5186,5906047333
5194,2492573532
5201,9091920248
5209,5704071064
5217,2329009608
5224,8966719547
5232,5617184592
5240,2280388494
5247,8956315045
5255,5644948080
5263,2346271474
5270,9060269142
Ι 5278,5786925042
5286,2526223170
5293,9278147564
ПРИЛОЖЕНИЕ 391
Таблица I (продолжение)
η
794
795
796
797
798
799
800
801
802 1
803
804
805
806
807
808
809
810
811
812
813
814
815
816
S17
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
333
834
835
836
837
838
839
logen
6,6770834612
6,6783421146
6,6795991858
6,6808546787
6,6821085974
6,6833609457
6,6846117276
6,6858609470
6,6871086078
6,6883547139
6,6895992691
6,6908422774
6,6920837425
6,6933236682
6,6945620585
6,6957989170
6,6970342476
6,6982680541
6,6995003401
6,7007311095
6,7019603660
6,7031881132
6,7044143549
6,7056390948
6,7068623366
6,7080840838
6,7093043402
6,7105231094
6,7117403950
6,7129562006
6,7141705299
6,7153833863
I 6,7165947735
6,7178046950
! 6,7190131543
6,7202201551
6,7214257007
6,7226297948
6,7238324408
6,7250336421
6,7262334023
6,7274317248
6,7286286130
6,7298240704
6,7310181004
6,7322107064
η loge η
5301,6042682302
5309,2819811502
5316,9609519321
5324,6411789958
5332,3226607649
5340,0053956673
5347,6893821343
5355,3746186018
5363,0611035089
5370,7488352992
' 5378,4378124199
5386,1280333219
5393,8194964603
5401,5122002938
5409,2061432850
5416,9013239003
5424,5977406099
5432,2953918876
5439,9942762113
5447,6943920624
5455,3957379261
5463,0983122913
5470,8021136507
5478,5071405006
5486,2133913410
5493,9208646757
5501,6295590118
5509,3394728604
5517,0506047362
5524,7629531572
5532,4765166454
5540,1912937261
5547,9072829283
5555,6244827846
5563,3428918310
5571,0625081072
5578,7833316562
5586,5053595249
5594,2285907632
5601,9530239250
5609,6786575672
5617,4054902505
5625,1335205388
5632,8627469997
5640,5931682040
5648,3247827260
η
840
841
842
843
844
845
846
847
848
849 j
850
851
852
853
854
855
856
857
858
Ι 859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
ϊο^η J
6,7334018918
6,7345916599
6,7357800142
6,7369669580
6,7381524945
6,7393366273
6,7405193596
6,7417006946
6,7428806357
6,7440591863
6,7452363494
6,7464121285
6,7475865268
6,7487595474
6,7499311937
6,7511014689
6,7522703761
6,7534379185
6,7546040994
6,7577689219
6,7569323892
6,7580945044
6,7592552706
6,7604146910
6,7615727688
6,7627295069
6,7638849085
6,7650389767
6,7661917146
Ι 6,7673431252
Ι 6,7684932116
6,7696419768
6,7707894239
6,7719355558
6,7730803756
6,7742238863
6,7753660909
6,7765069923
6,7776465936
6,7787848976
6,7799219074
6,7810576259
6,7821920560
6,7833252006
6,7844570626
η \oge η
5656,0575891434
5663,7915860372
5671,5267719920
5679,2631455956
5687,0007054390
5694,7394501168
5702,4793782269
5710,2204883703
5717,9627791515
5725,7062491783
5733,4508970617
5741,1967214159
5748,9437208586
5756,6918940104
5764,4412394954
5772,1917559409
5779,9434419773
5787,6962962383
5795,4503173607
5803,2055039845
5810,9618547529
5818,7193683123
5826,4780433121
5834,2378784050
5841,9988722467
5849,7610234961
5857,5243308151
5865,2887928687
5873,0544083252
| 5880,8211758556
5888,5890941343
5896,3581618385
5904,1283776486
5911,8997402480
5919,6722483229
59274459005629
5935,2206956603
5942,9966323104
5950,7737092116
5958,5519250653
5966,3312785756
5974,1117684498
5981,8933933980
5989,6761521333
59974600433717
392 ПРИЛОЖЕНИЕ
Таблица I (продолжение)
η
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908 ι
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
\°gen
1 6,7855876450
6,7867169506
6,7878449823
6,7889717429
6,7900972355
6,7912214627
6,7923444274
6,7934661325
6,7945865808
6,7957057751
6,7968237182
6,7979404129
6,7990558620
6,8001700683
6,8012830344
6,8023947633
6,8035052576
6,8046145200
6,8057225534
6,8068293603
6,8079349436
6,8090393060
6,8101424501
6,8112443786
6,8123450941
6,8134445995
6,8145428972
6,8156399900
6,8167358805 ι
6,8178305714
6,8189240652
6,8200163646
6,8211074722
6,8221973906
6,8232861223
6,8243736700
6,8254600362
6,8265452235
6,8276292345
6,8287120716
6,8297937375
6,8308742346
6,8319535655
6,8330317327
6,8341087388
6,8351845861
η \oge η
6005,2450658320
6013,0312182361
6020,8184993086
6028,6069077770
6036,3964423719
6044,1871018263
6051,9788848765
6059,7717902614
6067,5658167227
6075,3609630051
6083,1572278560
6090,9546100255
I 6098,7531082667
6106,5527213354
6114,3534479900
6122,1552869919
6129,9582371051
6137,7622970965
6145,5674657355
6153,3737417945
6161,1811240484
6168,9896112749
6176,7992022544
6184,6098957700
6192,4216906073
6200,2345855549
6208,0485794038 Ι
6215,8636709478
6223,6798589832
6231,4971423091
6239,3155197271
6247,1349900415
6254,9555520592
6262,7772045896
6270,5999464449
6278,4237764396
6286,2486933911
6294,0746961192
6301,9017834461
6309,7299541969
6317,5592071990
6325,3895412824
6333,2209552795
6341,0534480256
6348,8870183581
6356,7216651170
\ Ι
η
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
| 954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
J ι°εβ η
6,8362592772
6,8373328146
6,8384052008
6,8394764382
6,8405465292
6,8416154764
6,8426832822
6,8437499490
6,8448154792
6,8458798752
6,8469431395
6,8480052745
6,8490662826
6,8501261661
6,8511849274
6,8522425690
6,8532990931
6,8543545022
6,8554087986
6,8564619845
6,8575140625
6,8585650347
6,8596149036
6,8606636714
6,8617113404
6,8627579130
6,8638033914
6,8648477779
6,8658910748
6,8669332844
6,8679744089
6,8690144506
6,8700534117 ■
6,8710912946
6,8721281013
6,8731638342
6,8741984954
6,8752320872
6,8762646118
6,8772960714
6,8783264682
6,8793558044
6,8803840821
6,8814113036
6,8824374709
6,8834625864
η \oge η
6364,5573871449
6372,3941832870
6380,2320523906
6388,0709933057
6395,9110048849
6403,7520859830
6411,5942354574
6419,4374521678
6427,2817349766
6435,1270827482
6442,9734943498
6450,8209686509
6458,6695045234
6466,5191008414
6474,3697564816
6482,2214703231
6490,0742412472
6497,9280681378
| 6505,7829498808
6513,6388853649
6521,4958734807
6529,3539131214
6537,2130031825
6545,0731425617
6552,9343301591
6560,7965648771
6568,6598456205
6576,5241712961
6584,3895408132
6592,2559530834
6600,1234070205
6607,9919015404
6615,8614355616
6623,7320080046
6631,6036177921
6639,4762638493
6647,3499451033
6655,2246604837
6663,1004089222
6670,9771893525
6678,8550007109
6686,7338419355
6694,6137119670
6702,4946097478
6710,3765342229
6718,2594843392
ПРИЛОЖЕНИЕ 393
Таблица I (продолжение)
η
977
978
979
980
981
982
983
984
985
986
987
988
log^/г
6,8844866520
6,8855096700
6,8865316425
6,8875525716
6,8885724595
6,8895913083
6,8906091201
6,8916258970
6,8926416411
6,8936563546
6,8946700394
6,8956826977
η \ogp η
6726,1434590458
6734,0284572941
6741,9144780374
6749,8015202313
6757,6895828336
6765,5786648041
6773,4687651047
6781,3598826994
6789,2520165545
6797,1451656382
6805,0393289208
6812,9345053749
η
989
990
991
992
993
994
995
996
997
998
999
1000
\ogen
6,8966943316
6,8977049431
6,8987145343
6,8997231072
6,9007306640
6,9017372066
6,9027427371
6,9037472575
6 9047507699
6,9057532763
6,9067547786
6,9077552789
η \oge η
6820,8306939749
6828,7278936973
6836,6261035210
6844,5253224266
6852,4255493969
6860,3267834166
6868,2290234728
6876,1322685543
6884,0365176520
6891,9417697588
6899,8480238699
6907,7552789821
394
ПРИЛОЖЕНИЕ
f(Pi, Ρι)=Λ log£+ qx logfi,
A
0.01
0.02
0,03
0,04
0,05
0,10
0,0000000
0,0039160
0,0131606
0,0259124
0,0412940
0,1444790
0,2766080
0,4286740
0,5964975
0,7777260
0,9708980
1,1750840
1,3897125
1,6144600
1,8492245
2,0941080
2,3494340
2,6157740
2,8940575
3,1857460
3,4931920
3,8205750
4,1769020
4,2534228
4^3325734
4,4152312
4,5032176
0,0031170
0,0000000
0,0022116
0,0079304
0,0162790
0,0842990
0,1812630
0,2981640
0,4308225
0,5768860
0,7348930
0,9039140
1,0833775
1,2729600
1,4725595
1,6822780
1,9024390
2,1336140
2,3767325
2,6332560
2,9055370
3,1977550
3,5189170
3,5884048
3,6605224
3,7361472
3,8171006
0,01
0,02
0,0092198
0,0019456
0,0000000
0,0015616
0,0057530
0.0529870
0,1291650
0,2252800
0,3371525
0,4624300
0,5996510
0,7478860
0,9065635
1,0753600
1,2541735
1,4431060
1,6424810
1,8528700
2,0752025
2,3109400
2,5624350
2,8338670
3,1342430
3,1995736
3,2675340
3,3390016
3,4157978
0,0165994
0,0063448
0,0014188
o,cccccco
0,0012110
0,0335430
0,0948190
0,1760320
0,2730025
0,3833780
0,5056970
0,6390300
0,7828055
0,9367000
1,1006115
1,2746420
1,4591150
1,6546020
1,8620325
2,0828680
2,3194610
2,5759910
2,8614650
2,9238152
2,9887952
3,0572824
3,1310982
0,0247332
0,0121424
0,0048802
0,0011252
0,0000000
0,0206510
0,0702460
0,1397780
0,2250675
0,3237620
0,4344000
0,5560520
0,6881465
0,8303600
0,9825905
1,1449400
1,3177320
1,5015380
1,6972875
1,9064420
2,1313640
2,3762030
2,6499960
2,7100100
2,7726538
2,8388048
2,9102844
0,0713311
0,05126821
0,C365339J
0,C253068|
0,0167095
0,0000000
0,0122345
0,0444060
0,0923350|
0,1536690
0,2269465J
0,3112380]
0,4059720
0,5ΐ0825θ!
0,6256950J
0,7506840
0,8861155
1,0325610|
1,190950θ'
1,362744θ!
1,55029551
1,7577840
1,9942165|
2,0467584|
2,1019301
2,1606090!
2,2246165
0,03
0,04
0,05
0,10
*) Для значений F (pi, p») при p2>0,50 входными данными могут служить qlt q*, псполь-
ПРИЛОЖЕНИЕ
pi+4i=l=p2+4*
Ρ*
0,20
0Д81С018
0,1528296
0,1299860
0,1106496
0,0939430
0,0366870
0,0083750
0,0000000
0,0073825
0,0281700
0,0609010
0,1046460
0,1588335
0,2231400
0,2974635
0,3819060
0,4767910
0,5826900
0,7005325
0,8317800
0,9787850
1,1457270
1,3416130
1,3860456
1,4331080
1,4836776
1,5395758
0,20
0,25
0,2426649
0,2116158
0,1858953
0,1636820
0,1440985
0,0724580
0,0297615
0,0070020
0,0000000
0,0064030
0,0247495
0,0541100
0,0939130
0,1438350
0,2037740
0,2738320
0,3543325
0,4458470
0,5493050
0,6661680
0,7987885
0,9513460
1,1328475
1,1744032
1,2185887
1,2662814
1,3193027
0,25
0,30
0,3091418
0,2755796
0,2473460
0,2226196
0,2005230
0,1163170
0,0610550
0,0257300
0,0061625
0,0000000
0,0057810
0,0225760
0,0498135
0,0871700
0,1345435
0,1920360
0,2599710
0,3389200
0,4298125
0,5341100
0,6541650
0,7941570
0,9630930
1,0021356
1,0438080
1,0889876
1,1394958
0,30
0,35
0,3809692
0,3451244
0,3146082
0,2875992
0,2632200
0,1676010
0,1009260
0,0541880
0,0232075
0,0056320
0,0000000
0,0053820
0,0212065
0,0471500
0,0831105
0,1291900
0,1857120
0,2532480
0,3327275
0,4256120
0,5342540
0,6628330
0,8203560
0,8571160
0,8965058
0,9394028
0,9876284
0,35
0,40
0,4588834
0,4209028
0,3882508
0,3591060
0,3325910
0,2262930
0,1489390
0,0915220
0,0498625
0,0216080
0,0052970
0,GCCOOOO
0,0051455
0,0204100
0,0456915
0,0810920
0,1269350
0,1837920
0,2525925
0,3347980
0,4327610
0,5506610
0,6975050
0,7321292
0,7693832
0,8101444
0,8562342
0,40
0,45
! 0,5433455
0,5038170
0,4691171
0,4379244
0,4093615
0,2928240
0,2052305
0,1375740
0,0856750
0,0471810
0,0206305
0,0050940
0,0000000
0,0050250
0,0200670
0,0452280
0,0808315
0,1274490
0,1860100
0,2579760
0,3456995
0,4533600
0,5899645
0,6225408
0,6577469
0,6964602
0,7405021
0,45
0,50
10,6371488
0,5951136
0,5584570
0,5252076
0,4946380
0,3680670
0,2704400
0,1927500
0,1308175
0,0822900
0,0457060
0,0201360
0,0050085
0,0000000
0,0050085
0,0201360
0,0457060
0,0822900
0,1308175
0,1927500
0,2704400
0,3680670
0,4946380
0,5252076
0,5584070
0,5951136
0,6371488
0,50
Р2 /
0,01
0,02
0,03
0,04
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
0,96
0,97
0,98
0,99
Р2
зуемые так, как если бы они были р\, р2 в этой .таблице.
396 ПРИЛОЖЕНИЕ
Таблица Ш
Нецентральное ^-распределение.
Таблица 5°/о значений В2-распределения Фишера.
Число степеней свободы η
Ρ8
о
0,04
0,16
0,36
0,64
1,00
1,44
1,96
2,56
3,24
4,00
4,84
5,76
6,76
7,84
9,00
10,24 !
11,56
12,96
14,44
16,00
17,64
19,36
21,16
23,04
25.00
I
3,8416
3,9940
4,4394
5,1320
6,0050
7,0018
8,0946
9,2714
10,5294
11,8673 ;
13,2853
14,7833
16,3612
18,0192
19,7571
21,5751
23,4731
25,4510
27,5090
29,6469
31,8649
34,1629
36,5408
38,9988
41,5367
44,1547
2
5,9912
6,1108
6,4613
7,0209
7,7590
8,6424
9,6466
10,7558
11,9605
13,2569
14,6406
16,1098
17,6627
19,3002
21,0195
22,8216
24,7059
26,6710
28,7178
30,8458
33,0545
35,3442
37,7143
40,1652
42,6958
45,3077
3
7,8148 1
7,9186
8,2254
8,7220
9,3881
10,2023
11,1462
12,2045
13,3671
14,6276
15,9808
17,4248
18,9564
20,5744
22,2775
24,0639
25,9346
27,8879
29,9242
32,0424
1 34,2412
36,5227
38,8864
41,3295
43,8549
46,4606
4
9,4876
9,5821
9,8627
10,3202
10,9402
11,7073
12,6061
13,6242
14,7517
15,9824
17,3089
18,7299
20,2410
21,8416
23,5283
25,3019
27,1597
29,1017
31,1275 '
33,2352
ι 35,4275
37,7008
40,0562
42,4934
45,0120
47,6128
5
11,0703
11,1589
11,4217
11,8515
12,4383
13,1704
14,0340
15,0203
16,1186
17,3222
18,6261 1
20,0256
21,5185
23,1024
24*7745
26,5349
28,3801
30,3116
32,3272
34,4276
36,6098
38,8765
41,2241
43,6551
1 46,1679
48,7637
6
12,5919
12,6750
12,9247
13,3349
13,8965
14,6000
15,4363
16,3952
17,4691
18,6486
19,9318
21,3130
22,7892
24,3572
26,0161
27,7634
29,5980
31,5192
33,5253
35,6158
37,7918
40,0499
42,3918
44,8163
47,3234
49,9128
7
14,0670
14,1474
14,3868
14,7802
15,3225
16,0040
16,8166
17,7527
18,8035
19,9639
21,2281
22,5920
24,0522
25,6066
27,2526
28,9875
30,8114
32,7230
34,7204
36,8024
I 38,9701
41,2215
43,5574
45,9752
48,4764
51,0610
Выходные значения в этой таблице являются квадратами значений В,
а значения β2—квадратами значений $t из таблицы, которая находится на
стр. 665 в работе Р. А. Фишера (1928).
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
:£> влечет
— стремится
i=t тогда и только тогда
(J объединение
Π пересечение
С содержится в
5 содержит
~ асимптотически равно
^ приближенно равно
: такое, что
{х:С} множество х, удовлетворяющих условию С
ζ принадлежит
[λ] по модулю λ, т. е. с точностью до множества λ меры О
cov ковариация
Ει ( ) математическое ожидание относительно вероятностной меры μι
О (п) величина самое большее порядка η
о (п) величина меньшего порядка по сравнению с η
mi нижняя грань
sup верхняя грань
lim верхний предел
Ига нижний предел
lim предел
tr след матрицы
D дисперсия
Абсолютная непрерывность: мера μ называется абсолютно непрерывной
относительно другой меры ν, если μ(£)=0 для каждого множества Ε такого,
что ν(£) = 0. Если мера μ абсолютно непрерывна относительно ν, мы будем
записывать μ <ζ ν [μ и ν определены на одном и том же измеримом
пространстве (.Г, 8)].
Аддитивный класс множеств — поле: называется аддитивным в
отличие от «вполне» аддитивного класса множеств, каковым является борелев-
ское поле. Другими словами, аддитивность относится к свойствам,
существенно связанным с конечным числом членов, тогда как о понятии вполне
аддитивного говорят в связи со счетным числом.
Асимптотическая функция распределения: если функция
распределения F(c; η) случайной величины χ зависит от параметра /г, функция
распределения, к которой стремится F(c; η) при п~+оэ (если она существует),
называется асимптотической функцией распределения случайной величины х.
Асимптотический доверительный интервал: доверительный интервал,
границами которого служат статистики, построенные на сколь угодно больших
выборках.
398
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
Базис: множество линейно независимых векторов таких, что любой
другой вектор пространства является линейной комбинацией векторов этого
множества.
Бит: обозначение двоичной единицы.
Борелевское множество: множество борелевского поля. В /г-мерном
евклидовом пространстве Rn поле борелевских множеств порождается классом
полуоткрытых интервалов (щ < xt ^bt)t ί" = 1, 2, ..., п.
Борелевское поле: поле $, обладающее тем свойством, что объединение
любого счетного числа множеств $ снова является множеством $.
Вероятностная мера: мера μ такая, что μ {S£) = 1 [& является
измеримым пространством (j??, §)].
Вероятностное пространство: измеримое пространство (#Г, $), на
котором определена вероятностная мера μ. Обозначается (^Г, $, μ).
Верхний предел (lim sup): наибольшая предельная точка
последовательности (действительных чисел, ограниченных сверху). (\\тх = А9 если
х<Л + е, но никогда не <Л—ε). (Нтл:п-НтМй, где М1 — верхняя гра-
rt-*oo Λ-*οο
ница хи x2t ..., М2—верхняя граница х2у x3t ..., М3—верхняя граница х&,
хь ... и т. д.) (\\тхп~inf supxm).
η—>οο k m>k
Верхняя граница (множества Ε действительных чисел): действительная
точка d такая, что для любой точки а* из Ε x^d.
Взаимно однозначное преобразование Т: преобразование такое, что
Г^) = Г(а:2) тогда и только тогда, когда х± = х2.
Выпуклое множество: множество такое, что отрезок прямой,
соединяющий любые две точки множества, содержится в этом множестве.
Гиперплоскость размерности η—ρ: множество точек пространства Rny
каждая координата которых может быть выражена как линейная функция
η—ρ параметров. При ρ = η — 1—это прямая линия.
Гипотеза: утверждение о том, что точка параметрического пространства
принадлежит заданной области этого пространства.
Главный минор (квадратной матрицы): минор, диагональными
элементами которого являются диагональные элементы матрицы.
Двоичная единица: единица двоичной системы чисел.
Диагональный элемент (квадратной матрицы): элемент, находящийся на
пересечении строки и столбца с одинаковым порядковым номером.
Доверительная вероятность: вероятность, связанная с доверительным
интервалом.
Доверительные границы: нижняя и верхняя границы доверительного
интервала.
Доверительный интервал: интервал, определенный двумя статистиками,
по которым вычисляется вероятность покрытия этим интервалом значения
параметра.
Дополнение одного множества до другого множества: множество то-
чек второго множества, не принадлежащих первому. Дополнение
множества Ε до всего пространства № есть множество всех точек J2T, не
содержащихся в Е.
Евклидово пространство Rn размерности п: метрическое пространство
точек (векторов) x — (xlt х29 ..., хп), где Χι при ΐ = 1, 2, ..., η являются
действительными числами и «расстояние» между точками x = (xl9 x2f ...» χη)
η
и У={Уь У*, ···> Уп) определяется как (2 (Xi—yi)*yt* .
£ = 1
Единичная матрица (η χ η): матрица, диагональные элементы которой
равны 1, а все остальные равны 0.
и у-го сто
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ 399
Измеримая функция: действительная функция f (х) точек χ измеримого
пространства (J?f, 8) такая, что для каждого действительного числа с
множество {x:f(x)<:c} принадлежит 8· Такая функция называется ^-измеримой.
Измеримое множество: любое множество измеримого пространства
(SC> 8)> принадлежащее борелевскому полю 8·
Измеримое преобразование: преобразование Τ (χ) элементов измеримого
пространства (J2T, 8) в элементы другого измеримого пространства (3/, ST)
такое, что для любого множества G, принадлежащего борелевскому полю £ГУ
прообраз G, Т~1 ((7), принадлежит борелевскому полю 8, T~l (G) —
^{x:T(x)£G}.
Измеримое пространство: пространство j£, в котором определено борелев-
ское поле 8 подмножеств Э£. Мы обозначаем такое пространство (.ЗГ, 8)·
Информационная матрица Фишера: k χ k матрица, элемент t-й строки
лбца которой равен \/(*,0) j-g^log/^, θ) | U-g- \ogf(xt$) \d\(x)y
где λ (χ) есть вероятностная мера и / (х> Θ) (плотность) есть функция χ и
fc-мерного параметра Θ.
Информационное неравенство: рассмотрим / (χ, Θ) — плотность,
соответствующую абсолютно непрерывной функции распределения с параметром θ
случайной величины X. Пусть Τ (Χ) — любая несмещенная оценка
функции Φ (θ). Тогда неравенство:
дисперсия Т^-—' ' ,
где / есть дисперсия величины — -jk-, называется информационным
неравенством, t a
Замечание. Область изменения X не зависит от 0, а /
дифференцируема по 0 под знаком интеграла. По определению Фишера / есть информация
о 0, содержащаяся в выборке из η наблюдений.
η η
Квадратичная форма: выражение х'Ах = 2 2 ачх1хр где χ,==
= (xly x2i .-., xη) и матрица А = (аг-у) симметрична.
Класс: множество множеств.
Конечная мера: мера μ такая, что μ(ίί2Γ)<οο га измеримом
пространстве (JT, *).
Крамера — Рао неравенство: см. информационное неравенство.
Линейно независимые векторы: векторы называются линейно
независимыми, если ни один из них не может быть представлен как линейная
комбинация остальных.
Линейно независимые функции (на Rn): множество функций /г- (х),
определенных на Rn> таких, что ни одна из них не может быть выражена как
линейная комбинация других с действительными коэффициентами, среди
которых не все нули.
Линейное преобразование: у = Ах, гце у' — (у1У у», ..., ут), х' =
= (.*!, х29 ..-, хп)у А = (аф> £=1, 2, ...,т, у=1, 2, ..., п.
Мера: неотрицательная, вполне аддитивная функция множества,
определенная на борелевском поле 8 измеримого пространства (J2T, 8).
Минор (матрицы А): определитель любой квадратной подматрицы
матрицы А.
Мощность критерия: мощность критерия (данного размера) есть
вероятность отвергнуть нулевую гипотезу, когда верна альтернативная
гипотеза.
400 СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
Наиболее мощный критерий: критерий, который среди всех критериев
данного размера дает наибольшее возможное значение вероятности
отвергнуть нулевую гипотезу, когда верна альтернативная гипотеза.
Наибольшая нижняя грань: наибольшая из нижних границ множества
(действительных чисел).
Наилучшая оценка: та из оценок параметра, которая обладает
минимальной достижимой дисперсией.
Наименьшая верхняя грань', наименьшая из верхних границ множества
(действительных чисел).
Невырожденная матрица: квадратная матрица А такая, что ее
определитель |А|^0. Если |А| = 0, то матрица называется вырожденной.
Невырожденное линейное преобразование: линейное преобразование
с невырожденной матрицей.
Невырожденное преобразование: взаимно однозначное преобразование,
для которого существует обратное.
Непересекающиеся множества: множества, не имеющие общих
элементов.
Несмещенная оценка: такая оценка параметра, математическое ожидание
которой равно оцениваемому параметру.
Нижний предел (Hm inf): наименьшая предельная точка
последовательности (действительных чисел, ограниченных снизу). (lim л: = я, если х>а—ε,
но никогда не ;>α-[-ε), (lim хп = \\ттп> где mt—нижняя граница xlf x2t
я->оо п-усо
х&> -··» Щ—нижняя граница х2, х&, ..., т& — нижняя граница х&, xit ...,
и т. д.) (lim хп = sup inf xm).
Нижняя граница (множества Ε действительных чисел): действительная
точка с такая, что для любой точки χ множества Ε х^с.
Область принятия (отклонения) гипотезы: множество выборочного
пространства такое, что если выборочная точка попадает внутрь (вне) этого
множества, то мы принимаем (отклоняем) данную гипотезу.
Обратная матрица: говорят, что квадратная невырожденная η χ η
матрица А имеет обратную матрицу А"1, если АА~1 = А~1А = 1, где I — пХп
единичная матрица.
Объединение двух или большего числа множеств: множество всех тех
точек пространства SC> которые принадлежат по крайней мере одному из
η
этих множеств. Если Е\ обозначают множества при /=1, 2, ..., п, то [J E-t
обозначает их объединение.
Однородное семейство мер: семейство мер такое, что любые две меры
семейства абсолютно непрерывны друг относительно друга.
Однородные выборки: выборки из популяций с одинаковыми значениями
параметров. Если только некоторые из параметров одинаковы, то выборки
называются однородными относительно этих параметров.
Односторонняя гипотеза: гипотеза, которая ограничивает значение
параметра некоторой фиксированной константой лишь с одной стороны (сверху
или снизу).
Окрестность точки: окрестность точки а есть множество точек х»
которые удовлетворяют неравенству вида |х—а|<е, где ε;>0, а |х — а1
обозначает расстояние между χ и а. (См. Евклидово пространство.)
Ортогональная матрица: матрица С такая, что СС' = 1, где С —
транспонированная матрица С и I—единичная матрица.
Открытое множество в Rn: множество, все точки которого являются
внутренними, т. е. такими, что некоторая окрестность точки целиком
принадлежит множеству.
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
401
Отношение правдоподобия (при Х=х): отношение ft(x) к f2(x)t где
fi(x) при ί=1,2 является плотностью вероятности для наблюдения Х=х
при справедливости гипотезы о том, что случайная величина X принадлежит
популяции, которой соответствует плотность fi (X),
Оценка: статистика, выбранная для приближения (или оценивания)
данного параметра (или функции этого параметра).
Ошибка второго рода: вероятность принять нулевую гипотезу, когда
она неверна.
Ошибка первого рода: вероятность отвергнуть нулевую гипотезу, когда
она верна.
Параметрическое пространство: пространство всех допустимых
параметрических точек.
Пересечение двух множеств: множество точек, принадлежащих обоим
множествам. Пересечение множеств А и В записывается как A f) В.
Плотность вероятности: рассмотрим μ — вероятностную меру, которая
абсолютно непрерывна относительно λ на вероятностном пространстве
{SC> 8, λ). Тогда плотность вероятности, соответствующая μ, есть функция
fix)t единственная, положительная и конечная всюду, за исключением
множества λ меры нуль, и такая, что μ (E) = \Ef(x) άλ (χ) для всех множеств Ε,
принадлежащих 8-
Поле: класс 8 множеств пространства SC такой, что объединение и
пересечение любых двух множеств из 8 принадлежит 8 и дополнение
любого множества из 8 до всего пространства SC снова принадлежит 8.
Положительная квадратичная форма: квадратичная форма, которая
неотрицательна и которая может быть нулем при действительных значениях
переменных, не всех равных нулю.
Положительная матрица: матрица положительной квадратичной формы.
Положительно определенная квадратичная форма: квадратичная
форма, которая всегда неотрицательна при действительных значениях
переменных и равна нулю только тогда, когда все переменные имеют нулевые
значения.
Положительно определенная матрица: матрица положительно
определенной квадратичной формы.
Предельная точка (последовательности действительных чисел): точка,
каждая окрестность которой содержит бесчисленное множество точек
последовательности.
Преобразование: функция Т(х)=у элементов χ пространства .2?,
которая устанавливает соответствие между этими элементами и элементами
пространства У.
Производящая функция моментов (случайной величины X): функция
действительной переменной t, равная математическому ожиданию
величины егХь
Прообраз множества: если множество G принадлежит пространству 2/,
соответствующему пространству SC при преобразовании Τ (χ)> то множество
всех точек χ из SC> образы которых при Τ (χ) являются точками G,
называется прообразом G. Это обозначается T~l (G) = {χ: Τ (χ) 3 G}.
Равномерно наиболее мощный критерий: критерий, который среди
критериев данного размера является наиболее мощным для всех допустимых
альтернативных гипотез.
Радона — Никодима теорема: пусть μ и ν σ-конечные меры на измеримом
пространстве (££,8) такие, что \ абсолютно непрерывна относительно μ.
Тогда существует ^-измеримая функция f (х) такая, что 0 </(х) < + со
и для каждого множества Εζ8 ν (E)=\Ef(x)dp(x). Функция f (x)
единственна в том смысле, что если существует другая функция g (x) с теми же
самыми свойствами, что и f(x), то \L(x:f (x)zfig(x)) = 0.
402
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
Размер критерия: вероятность отвергнуть нулевую гипотезу, когда она
верна.
Ранг матрицы: говорят, что матрица имеет ранг г, если г является
наибольшим целым числом таким, что по крайней мере один минор порядка г
не равен нулю.
Расстояние (как функция); действительная функция d точек дг, у, ζ
такая, что:
1) d(x,y)^0,
2) d(x,y) = 0 в том и только том случае, если χ—у,
3) d(xty) = d(y,x),
A) d (x,y)^d(x,z) + d (z,у).
Последнее соотношение называется неравенством треугольника.
Семейство мер с доминирующей мерой: семейство Μ мер μ,,
определенных на измеримом пространстве (^Г, $), для которого существует конечная
мера ν такая, что меры μι абсолютно непрерывны относительно ν (μι <ζ ν)
для каждой μι из Μ. Мера ν не обязана принадлежать М.
Семейство эквивалентных мер: семейство мер μ/, определенных на
измеримом пространстве (j?f, $), для которого существует мера ν такая, что
каждая мера μι эквивалентна ν(μ.£ = ν). Это означает, что каждая мера μι
абсолютно непрерывна относительно ν, и наоборот.
След квадратной матрицы: сумма диагональных элементов.
Случайная величина: любая ^-измеримая функция f(x), определенная
на измеримом пространстве (j?f, 8).
Смещение: разность между математическим ожиданием оценки и
оцениваемым параметром.
Смещенная оценка: оценка параметра, математическое ожидание
которой не совпадает с оцениваемым параметром.
Событие: множество вероятностного пространства (^Г, $, μ),
принадлежащее $.
Состоятельная оценка: оценка параметра, которая сходится по
вероятности к оцениваемому параметру.
Статистика: случайная величина, которая является функцией выборки,
не зависящей от параметров.
Стохастическая сходимость или сходимость по вероятности: пусть
заданы случайные величины ft (x)y /2 (-*), ... на пространстве л:-ов. Тогда
говорят, что последовательность fn (x) сходится стохастически (или по
вероятности) Kf(x), если lim Ρ {(/„(*)—/ (*) | $2 ε} = 0.
Сходимость с в°роятностъю 1: пусть заданы случайные величины
А (·*)» /s (x)f ··· на пространстве х-оъ. Если для почти всех χ limfn (x) =f(x),
то говорят, что fn(x) сходится к f (х) с вероятностью 1.
Счетное множество: множество, элементы которого можно поставить во
взаимно однозначное соответствие с элементами множества натуральных чисел.
с-алгебра: то же, что борелевское поле. Непустой класс множеств,
замкнутый относительно дополнений и счетных объединений.
оконечная мера: мера μ, для которой может быть найдена конечная
или счетная последовательность измеримых множеств Ει таких, что UEi = SP
(ЗС — все пространство) и μ (Ει) < со для каждого L
Усеченное распределение: все наблюдения, лежащие вне данного
интервала, отбрасываются. Тогда оставшиеся наблюдения приводят к усеченному
распределению с функцией распределения
0 при х^а.
F{b)-F{a) прн *<*<*,
1 при x>by
F(x\a<Z^b):
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ
403
где F (х | а < £ ^ Ь) является функцией условного распределения случайной
величины £ в предположении, что £ лежит в интервале (я, Ь\ (полуоткрытом)
и где F(x) функция распределения £ на всем ^-пространстве £.
Функция множества: функция, областью определения которой является
класс множеств.
Функция точки: функция, определенная для каждой точки пространства.
Характеристическая функция множества: функция точек множества,
равная 1 на этом множестве и 0 вне множества.
Характеристический вектор (соответствующий характеристическому
корню характеристического уравнения для квадратной матрицы А): вектор х,
который удовлетворяет матричному уравнению Αχ = λχ при некотором
значении характеристического корня λ.
Характеристическое уравнение (для квадратной матрицы А): уравнение
относительно λ вида |А—λΙ|=0, где I — единичная матрица того же
порядка, что и А.
Хинчина теорема: пусть Xlt X2t ... — одинаково распределенные незави-
— 1 п
симые случайные величины с конечным средним т. Тогда Х=— VI Χι
п t = i
сходится по вероятности к т.
Эквивалентные меры: две меры μ и ν такие, что μ абсолютно
непрерывна относительно ν (μ<ζν) и ν абсолютно непрерывна относительно μ (ν<ζμ).
Эквивалентность мер μ и ν мы обозначаем μ^ν.
Якобиан преобразования: пусть yi—f^x^ ... f xk) при i = 1, 2, ..., k
определяет преобразование. Тогда определитель, элемент £-й строки и у-го
столбца в котором равен dfijdXj, называется якобианом преобразования.
АЛФАВИТНЫЙ УКАЗАТЕЛЬ *)
Абсолютная непрерывность 13, 40,
397
Аддитивный класс 13, 397
Асимптотический доверительный
интервал 397
Асимптотическое распределение 82,
109, 336, 397
Базис 398
Байеса теорема 14, 96
Бартлетт (Bartlett Μ. S.) 313, 341
Бартлетта критерий однородности
дисперсий 330
Берэнса—Фишера проблема 321
Бесселя функция 338
Бокс (Box G. Ε. Ρ.) 339
Борелевское множество 13, 398
Борелевское поле 13, 398
Броунли (Brownlee К. А.) 202
Бхаттачарья (Bhattacharyya А.) 52
Вальд (Wald А.) 12, 86, 109, 113
Вероятностная мера 13, 398
Вероятностное пространство 13,398
Вес довода (weight of evidence) 15
Взаимодействие 184, 200, 250; —
второго порядка 202; — отрицательное
186, 199
Винер (Wiener N.) 11, 12
Винера информация 12, 44
Вогнутая функция 27, 45, 184
Вудворд (Woodward P. M.) 12
Выборки; — из многомерных
нормальных популяций 205; —
эквивалентные 94
Выборочное пространство 13
Выборочные средние значения) ~,
производящая функция моментов
308; —, распределение 205
Выпуклая функция 45
Выпуклое множество ПО, 398
Выпуклости свойство 27, 126, 147,
158, 169, 184
Гарнер (Garner W. R.) 167
Гильберт (Gilbert Ε. Ν.) 11
Гиперплоскость 109, 398
Гипотеза 398; — многомерная
нормальная 345; — односторонняя 131.
133, 143, 161, 164, 400; —условная
179
Гипотезы независимости 178, 196—
197
Главное направление 76
Главные компоненты 211
Грин (Green P. E.) 12
Гринхауз (Greenhouse S. W.) 355
Гуд (Good I. J.) 15, 125
Двоичная единица (бит) 17, 398
Диагональная матрица 206, 208
Диагональный элемент 398
Дискриминантная функция] —цоста-
точная 209; —линейная 209, 216,
219, 265, 286, 316, 321, 328, 353
Дисперсионный анализ 120; —,
многомерное обобщение 120; —,
многомерный аналог 305
Доверительная область 114
Доверительные границы 114, 398
Доверительный интервал 102, 115,
162, 398; —для биномиального
распределения 114
Доверительный коэффициент
(доверительная вероятность) 114,
398
Дополнение одного множества до
другого 54, 398
Достаточная статистика 29, 31—
35, 56, 71
Достаточное разбиение 29
Достаточность) —, критерий 29, 57
Единичная матрица 398
Енсена неравенство 27
*) Знак ~ заменяет слово или группу слов, выделенных курсивом*
АЛФАВИТНЫЙ УКАЗАТЕЛЬ
405
g Τ (х)\ ~, определение 30
/(1:2) 15
/ (* : 2) 49
/(*:Н) 97
Измеримая функция 14, 399
Измеримое множество 11, 13, 399
Измеримое преобразование 29, 82,399
Измеримое пространство 13, 399
Инвариантность 16
Инвариантные свойства 76, 208, 303
Информационная статистика 93,
95, 97, 124, 131, 136
Информационное неравенство 47, 67,
399
Информация', ~, аддитивность 23;
~Винера 12, 44; ~ в категориях
строки относительно категорий
столбца 168; ~ в категориях строки
относительно категорий (столбец,
глубина) 175; ~ в множестве 27; ~
в * одной величине относительно
другой величины 18; ~ в элементах
множества 27; ~, единицы 15, 17,
18; '—', логарифмический вид 24; ~,
определение 13, 15; ~, передача 36;
~ псевдо- 52; ~- различающая
(discrimination) 15, 30, 82, 97, 209; ~
семантическая 12; ~средняя 18, 155,
168,215; ~Сэвиджа 15; ~,
уменьшение 27,33,86, 157;«~ условная 24; ~
Фишера 24, 37, 67; ~ Хартли 17; ~
Чернова 52; ~ Шеннона 12, 17, 18
Итерация 354, 360
Ито (lto K-) 278
7(1,2) 16
Канал] ~, пропускная способность
19, 36; ~, шум 35
Каноническая корреляция 215—217,
285, 287, 289, 291; ~, проверка
гипотез 286, 288, 292; ~,
различающая эффективность 288
Каноническая форма 208
Картер (Carter A. H.) 241
Категории-, ~, группировка 125, 127
Квадратичная форма 67,399; ~
положительная 401; ~ положительно
определенная 401
Класс 13, 399
Клеммер (Klemmer Ε. Τ.) 121
Ковариационная матрица 203; ~
линейных функций 300; ~9
несмещенная оценка 206; нулевая гипотеза,
задающая ~ 313; ~ оценок 226, 249,
266, 302
Ковариационные величины 217
Ковариационные матрицы; ~,
критерий однородности 333, 334; ~ у
однородность 326, 336
Ковариационный анализ 232, 251
Колоджейчик (Kolodzie]czyk S.) 224
Компоненты независимости; ^,
анализ 186
Конечная мера 15, 399
Корреляционная матрица; нулевая
гипотеза о ~315
Корреляционные матрицы 206; ~,
нулевая гипотеза равенства 332
Корреляция;~каионтеская 215—217,
285, 287,289,291; ~ множественная
217, 219; —простая 218
Коссск (Kossack С. F.) 323, 324
Коэффициенты корреляции; ~,
критерий равенства 333—335
Крамера~~Рао неравенство 47, 399
Критерий; ~, мощность 399; ~
наиболее мощный 399; ~
равномерно наиболее мощный 401; ~,
размер 401; ~ состоятельный 111,
116
Критическая область 86, 98
Кульбак (Kullback J. H.) 324
Куперман (Kupperman Μ.) 95,109—111
Купмен (Коортап В. О.) ЬО
[λ] (по модулю λ) 14, 397
Латинские квадраты 250
Левин (Levin S. G.) 120
Леман (Lehmann Ε. L.) 104
Линдли (Lindley D. V.) 19
Линейная гипотеза 120, 224, 225, 264
Линейная комбинация 265, 286, 287,
328, 359
Линейная регрессионная модель 305
Линейная регрессия; ~, двуфакторная
классификация 251; ~\ критерий
227; ~, общая для г выборок 279;
~, однофакторная классификация,
^-категорий 232
Линейное преобразование 399; ~
невырожденное 208, 400
Линейно независимые векторы 399
Линейно независимые функции^ 399
Линейные дискриминантные
функции; критерий минимальной ошибки
для нахождения ~ 359; пара ~217;
~ с наибольшей информацией (most
informative) 212, 213, 216, 357; ~
с наибольшим расхождением (most
divergent) 212, 213, 216, 357; ~,
сравнение 362
406
АЛФАВИТНЫЙ УКАЗАТЕЛЬ
Линейные оценки; ~ с минимумом
дисперсии несмещенные—249, 2с0,
266, 302
Лоули (Lawley D. Ν.) 267, 278
Мак-Гилл (McGill W. J.) 167
Мак-Колл (McCall С. Η. Jr.) 250
Максимум правдоподобия 97, 105;
оценка ~ 105, 113; уравнения~ 129,
152 192
Манн (Mann Η. Β.) 113
Масштабный множитель в
"^-приближении по Боксу 339
Матрица; ~ диагональная 206, 208;
~, дифференцирование 309;
^'невырожденная 400; ~ ортогональная
212, 400; ~ положительная 248, 299,
401; ~ положительно определенная
401; ~, ранг 401
Махаланобиса расстояние 204
Мера 399; ~ вероятгостная 13, 398;
~о-конечная 402; ~ связи 18, 19,
36, 168, 172, 175, 213, 215
Минор 399; ~ главный 68, 398
Многомерная нормальная плотность
203
Многомерная регрессия) ~, критерий
275
Множественная ковариация 251
Множественная корреляция 217
Мощность; ~ критерия 399; ~ сигнала
19; ~ шума 19
Мурье (Mourier E.) 89
N fa, Σι) 203
Наблюдения; ~, группировка 27, 33;
~ нецентрированные 231, 243, 244,
272
Наиболее мощный критерий 399
Наилучшая оценка 120, 400
Наименее информативное (least
informative) распределение 122, 132, 156
Направленное расхождение (directed
devergcnce) 17, 94, 97
Независимости компоненты;*^,
анализ 186
Независимость; гипотезы ~ 178, 196;
~ множеств случайных величин 317;
~, таблица сопряженности с двумя
входами 168; ~, таблица
сопряженности с тремя входами 172, 174,191;
~ условная 179
Нейман (Neyman J.) 98, 105, 125
Неймана критерий достаточности
статистики 57
Неймана χ'2 125
Неопределенность 167; ^
апостериорная 35; априорная 35
Неравенство; ~ Енсена 27; ^
информационное 47, 67, 399; ~ Крамера—
Рао 47
Несмещенная оценка 69, 400
Несмещенная оценка ковариационной
матрицы; ~ , производящая
функция моментов 308
Нецентральности параметр 117,138
159, 171, 175, 178, 223, 268, 339 '
Нецентральные распределения 268
Нецентральный χ2 117, 138, 223, 268;
~, распределение 339; ~, таблица
396
Hum (nit) 18
Нормальная плотность 18, 25, 203
Нормальные уравнения 225, 228, 229,
233, 234, 238, 242, 249, 266, 269, 299
Область принятия (отклонения)
гипотезы 86, 400
Обобщенное стькдентово
отношение; см. Хотсллинга Р-статистика
Обратная матрица 400
Объединение выборок 149, 160, 202
Однородная выборка; ~, гипотеза о
среднем значении 312
Однородное семейство мер 31, 400
Однородность; ~, выборка из
многомерных нормальных популяций 310;
~, выборка из нормальных
популяций 106; '—', выборки из
полиномиальных популяций 140, 146; ~ ,
выборки из пуассоновских
популяций 157; ~ выборочных средних
значений 290; ~ дисперсий,
критерий Бартлетга 330; ~
ковариационных матриц 326,329; ~
корреляционных матриц 332; ~ коэффициентов
регрессии 233; нулевая подгипо-
теза ~ 237; ~ средних значений
выборок из многомерных популяций
275, 286, 320, 322; ~ средних
значений выборок из одномерных
популяций 235; ^средних значений и
регрессий 282, 283; ~, таблица
сопряженности с двумя входами
181;'— условная 182; -—^ частных
распределений 194, 345
Однородные выборки 400
Односторонняя гипотеза 131, 133,
143, 161, 164, 400
Окано (Okano F.) 244
Ортогональная матрица 212, 400
Открытое множество 400
АЛФАВИТНЫЙ УКАЗАТЕЛЬ
407
Отношение правдоподобия 15, 105,
106, 109, 116, 125, 400
Оценка 93, 400;— максимума
правдоподобия 105, 113; — несмещенная
69, 400; — состоятельная 110, 402;
— эффективная ПО
Оценочная (estimation)
эффективность 76, 77, 78
Ошибка первого (второго) рода 86,
89, 98, 137, 401
Параметрическая матрица 232, 265;
—, достаточная оценка 303; —,
несмещенная оценка 300; —,
разбиение 227, 304
Параметрическое пространство ПО,
401
Пауэре (Powers К. Н.) 12, 24, 44
Пиллаи (Pillai К. С. S.) 268
Пирс (Pierce J. R.) 11
Пирсон (Pearson E. S.) 98, 105, 334
Пирсон (Pearson К.) 18
Пирсона у^-ве личина 125
Питмэн (Pitman Ε. J.) 50
Плотность вероятности 14, 401
Подгипотеза (subhypothesis) 227,271;
—, критерий 229, 271
Подгипотеза с разбиением на три
части; —, критерий 298
Поле 401
Полиномиальное распределение; —
условное 127; «подгонка» (fitting) 128
Полиномиальные популяции;
проверка гипотез о — 123
Положительная квадратичная
форма 401
Положительная матрица 248, 299,
401
Положительно определенная
квадратичная форма 401
Положительно определенная
матрица 401
Последовательный анализ 12, 54
Преобразование 29, 33,401; — взаимно
однозначное 398; — линейное 399;
—невырожденное 32, 400; —,
якобиан 336, 340, 403
Производящая функция; ~ моментов
52, 308, 401; — семиинвариантов 52
Прообраз множества (T^(G)) 29, 401
Пространство; — вероятностное 13,
398; — входа 35; — выборочное 13;
— выхода 35; — евклидово 13, 398;
— измеримое 13, 399;
^^параметрическое ПО, 401
Процедура классификации 97, 359
Прямое (кронекерово) произведение
матриц 266, 301, 304
Равномерно наиболее мощный
критерий 401
Радона—Никодима производная 14,
40
Радона—Никодима теорема 39, 401
Разбиение; — выборок 150; ~
достаточное 29; — таблиц 186
Различающая информация
(discrimination information) 15, 30,82,97,209;
—, минимум 48, 49, 93, 97, 105, 120,
226, 266, 313, 314; —условная 24
Различающая эффективность
(discrimination efficiency) 75—78, 211, 287,
288
Размер критерия 401
Распределение; — асимптотическое
336, 397; —корней
характеристического уравнения 341;
—многомерное нормальное 203; — наименее
информативное (least informative)
122, 132, 156; — нецентральное 268;
— нецентральное у3 339;
—сопряженное 93, 118, 122, 156, 308, 309,
320, 326, 329; — Уишарта 205, 337;
— Фишера В 339
Расстояние 16, 401; — Махаланобиса
204
Расхождение (divergence) 16, 33, 52,
121, 155, 204, 225,
265;—направленное 17, 94, 97
Регрессионная модель 305; — для
^-категорий 234, 237; — Картера 241;
— многомерная 264, 265, 268, 275,
276, 279
Регрессия; — , двуфакторная
классификация, анализ 251; —, критерий
278, 282; —, критерий подгипотезы
292, 296, 297; нулевая гипотеза
отсутствия —279 *
Регулярности условия 37, ПО
Репараметризация 248, 299
Рипп (Rippe D. D.) 313
Роберте (Roberts Η. R.) 114
Розенблат (Rosenblatt Η. Μ.) 244
Ротстейн (Rothstein J.) 11
Сакагути (Sakaguchi Μ.) 89
Семейство мер; — с доминирующей
мерой 40, 402; — однородное 31, 400
а-алгебра 13, 402
σ-конечная мера 402
Симметрия; нулевая гипотеза — 192,
193; —, критерий 194
408
АЛФАВИТНЫЙ УКАЗАТЕЛЬ
Скорость передачи 35, 36
След 402
Случайная величина 402
Смещение 402
Смешенная оценка 70, 402
Смит (Smith С. А.) 333, 355, 359
Событие 13, 402
Сопряженное распределение 93, 118,
122, 156, 308, 309, 320, 326, 329
Состоятельная оценка ПО, 402
Состоятельность по Фишеру 153
Состоятельный критерий 111, 116
Сравнения',^ дихотомические 126,127;
~, объединение выборок 149, 160
Средние значения) ~, однородность
235, 275, 282, 283, 286, 320, 322
Статистика 29, 82, 402; ~
достаточная 29, 31—33, 35, 56, 71
Стейн (Stein С.) 89
Стирлинга аппроксимация 337
Стьюдента t-критерий 109, 312
Стюарт (Stuart А.) 346
Стюарта критерий 345
Стюмперс (Stumpers F. L. Η. Μ.) 11, 12
Сходимость по вероятности 87,113,
402
Сходимость с вероятностью единица
154, 202, 402
Сэвидж (Savage L. J.) 12,14,15,30,47
Таблицы с двумя входами) ~,
однородность 181
Таблицы, ~ log гс и η log n 120, 121,
382; ~ Фишера В2 (нецентрального
Xя) 396
Таллер (Tuller W. G.) 11, 18
Тензор фундаментальный 76
Уилкс (Wilks S. S.) 109, 125, 334
Уилкса теорема 109
Уишарта распределение 205, 337
Условная вероятность 15, 35, 96, 128,
179
Условная информация 24
Условная независимость 179, 183, 196
Условная однородность; ~, анализ
185, 196, 199; нулевая гипотеза ~Л 83
Условная различающая информация
24
Условная энтропия 35
Условное математическое ожидание
30
Факторный анализ 313
Фишер (Fisher R. А.) 11, 12, 24, 29,
130, 153
Фишера В-распределение 339
Фишера информационная матрица
39, 61, 399
Фишера z-критерий 335
Халмош (Halmos P. R.) 30
Характеристическая функция 336,
340, 341; — множества 32, 54, 403
~ нецентрального х2-распределения
223, 339; ~ 72-распределения 223,
338, 342
Характеристические векторы 209,403
Характеристическое уравнение 208,
211, 403; ~, корни 209, 341
Хартли (Hartley R. V. L.) 12, 17
Хинчина теорема 87, 116, 403
Хотеллинг (HotelHng H.) 212,215,267,
278
Хотеллинга коэффициенты
канонической корреляции 286
Хотеллинга обобщение t-критерия
Стьюдента 312
Хотеллинга Т2-статистика 226, 267,
273, 289
Центральная предельная теорема
113, 117
Центрирование 230, 274
Частная корреляция 223
Частные распределения; однородность
~ 194, 345
Чернов (Chernoff H.) 52,89,98, 106, 109
Черри (Cherry E. С) 12, 13
Шеннон (Shannon С. Ε.) 11, 12, 35,
36, 48
Шеннона информация 12, 17, 18
Шутценбергер (Schutzenberger Μ. Ρ.)
Эвклидово пространство 13, 398
Эквивалентные выборки 94
Экспоненциальное семейство 50, 96
Экспоненциальный тип 50, 56
Энтропия И, 17, 45; ~ условная 35
Эффект; ~ столбца 251, 252; ~
строки 251, 252
Эффективная оценка ПО
Эффективность; ~ относительная 89;
^оценочная (estimation) 76, 77, 78;
~ различающая (discrimination) 75—
78, 211, 287, 288
Якобиан преобразования 336,340, 403
с* куаьбак
ά Lulu •^VV^^'g^iM "'—