Текст
                    С. КУЛЬБАК
ТЕОРИЯ ИНФОРМАЦИИ
И СТАТИСТИКА
Перевод с английского
Д. И. ГОРДЕЕВА и А. В. ПРОХОРОВА
Под редакцией и с предисловием
академика А. Н. КОЛМОГОРОВА
&
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 1967


517.8 K90 УДК 519.240 INFORMATION THEORY AND STATISTICS SOLOMON KULLBACK Professorial Lecturer in Statistics The George Washington University New York — John Wiley & Sons, Inc. London — Chapman & Hall, Limited Соломон Кулъбак Теория информации и статистика М-, 1967 г., 408 стр. с илл. Редактор Я. Д. Светлова Техн. редактор Л. А. Пыжова Корректоры И. #. Кришталь, О. А. Сигал Сдано в набор 1/Х 1966 г. Подписано к печати 5/V 1987 г. Бумага 60 X 901/ie- Физ. печ. л. 25,5. Условн. печ. л. 25,5. Уч.-изд. л. 25,83. Тираж 16000 экз. Цена книги 1 р. 98 к. Заказ *й 613. Издательство «Наука» Главная редакция физико-математической литературы. Москва, В-71, Ленинский проспект, 15. Ордена Трудового Красного Знамени Ленинградская типография № I «Печатный Двор» имени А. М. Горького Главполиграфпрома Комитета по печати при Совете Министров СССР, г. Ленинград, Гатчинская ул., 26. 2-2-3 89-66
ОГЛАВЛЕНИЕ Предисловие редактора перевода 5 Предисловие 7 Глава 1. Определение информации 11 1. Введение (11). 2. Определения (13). 3. Расхождение (16). 4. Примеры (17). 5. Задачи (20). Глава 2. Свойства информации 23 1. Введение (23). 2. Аддитивность (23). 3. Выпуклость (25). 4/ Инвариантность (29). 5. Расхождение (33). 6. Информация по Фишеру (37). 7. Информация и достаточность (39). 8. Задачи (42). Глава 3. Неравенства теории информации 47 1. Введение (47). 2. Минимум различающей информации (47). 3. Достаточные статистики (55). 4. Экспоненциальное семейство (57). 5. Близкие значения параметров (67). 6. Эффективность (75). 7. Задачи (79). Глава 4. Предельные свойства 82 1. Введение (82). 2. Предельные свойства (82). 3. Ошибки первого и второго рода (86). 4. Задачи (90). Глава 5. Информационные статистики 93 1. Оценка / (*:2) (93). 2. Классификация (95). 3. Проверка гипотез (97). 4. Обсуждение (105). 5. Асимптотические свойства (109). 6. Оценка J (*, 2) (118). 7. Задачи (119). Глава 6. Полиномиальные популяции 120 1. Введение (120). 2. Предпосылки (121). 3. Сопряженные распределения (122). 4. Одна выборка (124). 5. Две выборки (140). 6. г выборок (146). 7. Задачи (152). Глава 7. Популяции Пуассона 155 1. Предпосылки (155). 2. Сопряженные распределения (156). 3. г выборок (157). 4. «Односторонняя» гипотеза, одна выборка (161). 5. «Односторонняя» гипотеза, две выборки (164). 6. Задачи (166). Глава 8. Таблицы сопряженности признаков 167 1. Введение (167). 2. Таблицы с двумя входами (167). 3. Таблицы £ тремя входами (171), 4. Однородность таблиц с двумя входами (181). 5. Условная однородность (182). 6. Однородность (183). 7. Взаи-
4 ОГЛАВЛЕНИЕ модействие (184). 8. Отрицательное взаимодействие (186). 9. Разбиения (186). 10. Параметрический случай (190). 11. Симметрия (192). 12. Примеры (194). 13. Задачи (200). Глава 9. Многомерные нормальные популяции 203 1. Введение (203). 2. Компоненты информации (205). 3. Каноническая форма (208). 4. Линейные дискриминантиые функции (209). 5. Случай равенства ковариационных матриц (210). 6. Главные компоненты (211). 7. Каноническая корреляция (214). 8. Ковариационные величины (217). 9. Общий случай (219). 10. Задачи (220). Глава 10. Линейная гипотеза 224 1. Введение (224). 2. Предпосылки (224). 3. Линейная гипотеза (225). 4. Статистика минимума различающей информации (225). 5. Под- гипотезы (227). 6. Регрессионный анализ: однофакторная классификация, k категорий (232). 7. Подгипотеза с разбиением на две части (237). 8. Пример (242). 9. Репараметризация (248). 10. Регрессионный анализ, двуфакторная классификация (251). 11. Задачи (263). Глава 11. Многомерный анализ; многомерная линейная гипотеза 264 1. Введение (264). 2. Предпосылки (264). 3. Многомерная линейная гипотеза (264). 4. Статистика минимума различающей информации (266). 5. Подгипотезы (268). 6. Специальные случаи (272). 7. Каноническая корреляция (285). 8. Линейные дискриминантиые функции (286). 9. Примеры (289). 10. Репараметризация (299). 11.'Замечание (305). 12. Задачи (305). Глава 12. Многомерный анализ; другие гипотезы 308 1. Введение (308). 2. Предпосылки (308). 3. Одна выборка (310). 4. Однородность средних значений (320). 5. Однородность ковариационных матриц (326). 6. Асимптотические распределения (336). 7. Критерий Стюарта однородности частных распределений при дву- факторной классификации (345). 8. Задачи (346). Глава 13. Линейные дискриминантиые функции 353 1. Введение (353). 2. Итерация (353). 3. Пример (355). 4. Замечание (358). 5. Другие линейные дискриминантиые функции (359). 6. Сравнение различных линейных дискриминантных функций (361). 7. Задачи (363). Литература 364 Приложение 382 Таблица I. Loge η и η loge η для значений η от 1 до 1000 382 Таблица И. F(pu pa) =pt log Ь- +4l log 9± fp1 + q1 = l =ps + ς, 395 Ра Ч& Таблица III. Нецентральное ^-распределение 396 Словарь специальных терминов 397 Алфавитный указатель 404
ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА Центральной задачей математической статистики является разработка методов, позволяющих извлекать возможно более полную информацию об интересующих нас явлениях из ограниченного запаса наблюдательных данных. Поэтому нет ничего удивительного в том, что первые существенные шаги в направлении уточнения самого понятия «информация» были сделаны основателем большой части современной математической статистики — Р. А. Фишером. Что касается способа измерения количества информации, то Фишер ограничился тем, что ввел выражение k k 7(Θ,Θ + ΔΘ) = -1-21 2 ?«βΔθ«Δ%» 0) «=1 рет1 о котором говорится в разделе 6 главы 2 книги Кульбака. Но роль Фишера в формировании наших представлений о том, что такое сама информация, значительно больше. Он, по-видимому, первый усмотрел, что это понятие нуждается в уточнении, и дал это уточнение в форме определения достаточных статистик: то есть такого экстракта из наблюдательных данных, который содержит «всю имеющуюся в Э1их данных» информацию о параметрах. Впрочем, книга Кульбака посвящена более узкой теме: роли в математической статистике заимствованных из теории информации аналитических выражений, измеряющих количество информации. В первом же разделе главы 1 Кульбак говорит, что сам термин «информация» ои будет понимать в узком «техническом смысле». В этом направлении роль Фишера действительно сводится к указанию на формулу (1), которая дает с современной, излагаемой в книге Кульбака точки зрения лишь предельное выражение информации I(l:2)=^Mx)logj^d\(x) в специальном случае двух близких гипотез о значении параметров Аналитический аппарат теории информации был создан тогда, когда здание математической статистики было в своих основных, нахо-
6 ПРЕДИСЛОВИЕ РЕДАКТОРА ПЕРЕВОДА дящих наиболее широкое применение частях уже построено и кодифицировано. Но навыки мысли и аналитический аппарат теории информации должны, по-видимому, привести к заметной перестройке этого здания. Уже в простой задаче проверки гипотезы о принадлежности двух выборок с (Х) = (Xh Хъ . . ., Хс), у i Xi rr= J\/i и с 00=θΊ> Уь ···> Ус), 2-^1 = ^ к одному общему распределению (p)=(pi, ръ .., рс) (см. раздел 5 гл. 6) информационный критерий — Ni+Ns £\Nl NJl°8 Nly. i=l является сильным конкурентом критерия χ NtNtL Xi+yi Λ. Λ. Если / значимо отличается от нуля, то / может служить оценкой информационной меры расхождения с между распределениями (Р) = (Рь Ръ --> Рс) и (я) = (Чь Чъ ···, Яс)> отвечающими нашим двум выборкам. Книга Кульбака содержит довольно много расчетных примеров, которые должны демонстрировать практическую применимость предлагаемых методов. Но изложение теоретического материала в книге тяжеловесно, а иногда запутано, примеры же схематичны. По-видимому, внедрение предлагаемых методов в практическую статистику будет облегчено, если тот же материал будет изложен более доступно и проиллюстрирован на подробно разобранных содержательных примерах. Во всяком случае книгу Кульбака можно рекомендовать всем обладающим достаточной математической подготовкой читателям, интересующимся расширением арсенала средств математической статистики. А. Колмогоров
ПРЕДИСЛОВИЕ Информация в точно определенном смысле впервые была введена в статистике Фишером в 1925 г. в его работе по теории оценок. Определение информации по Фишеру хорошо известно статистикам. Ее свойства существенно используются в статистической теории оценок. Шеннон и Винер, независимо друг от друга, опубликовали в 1948 г. работы, в которых были описаны логарифмические меры информации для использования их в теории связи. Это стимулировало огромное количество исследований в технических кругах на темы теории информации. При этом некоторые ошибочно рассматривали теорию информации в качестве синонима теории связи. Теория информации есть ветвь математической теории вероятностей и математической статистики. В этом качестве она может быть применима и применяется в целом ряде областей. Теория информации связана с теорией статистических выводов и потому должна весьма интересовать статистиков. Теория информации позволяет унифицировать известные результаты и ведет к естественным обобщениям и новым результатам. Предмет этой книги состоит в изучении логарифмических мер информации и применении их к проверке статистических гипотез. В существующей литературе можно встретить разнородные статистические приемы. В этой книге достигается унификация на основе последовательного применения понятий и достижений теории информации. Включены также некоторые новые результаты. У читателя предполагается некоторое знакомство с математической теорией вероятностей и математической статистикой. Так как необходимый материал имеется во множестве опубликованных книг, то здесь представляется возможным иметь дело исключительно с главным предметом книги. То, что это покрывает классические результаты и методы, не удивительно. Основы теории информации были известны и ими пользовались уже некоторое время, но выкристаллизовались они в последнее десятилетие. То, что эти основы дали новый подход к известным результатам, как полезно, так и необходимо.
8 ПРЕДИСЛОВИЕ Применения в этой книге ограничиваются анализом выборок фиксированного объема. Применения к более общим случайным процессам, включая последовательный анализ, составили бы естественное продолжение, но это выходит за рамки книги. В некоторой мере эта книга возникла в результате вопросов, задаваемых студентами, и из необходимости изложения, избегающего специальных методов для каждой из задач, которые существенно связаны. Я надеюсь, что опытный статистик, если и иайдег в этой книге знакомые вещи, то в унифицированном (и, может быть, незнакомом ему) виде, и что студент найдет этот подход поучительным. В главе 1 вводятся и определяются меры информации. В главе 2 излагаются свойства информационных мер и изучается их связь с мерой информации по Фишеру и понятием достаточности. В главе 3 выводятся некоторые фундаментальные неравенства теории информации и изучается их связь с классическим теперь неравенством, связанным с именами Фреше, Дармуа, Крамера и Рао. В главе 4 получены некоторые предельные свойства, вытекающие из закона больших чисел. В главе 5 рассматривается асимптотическая теория распределений оценок информационных мер. Выводы в этих пяти главах опираются на теорию меры. Читатель, не знакомый с теорией меры, тем не менее может понимать теоремы и доводить до конца доказательства в терминах знакомой ему теории интегрирования, понимая интегралы в обычном классическом смысле. Остальная часть книги посвящена применениям. В главах 6, 7 и 8 рассматриваются выборки из полиномиального распределения и из распределения Пуассона. Результаты, полученные в главе 6, служат основой анализа таблиц сопряженности признаков в главе 8. Глава 9 в основном представляет собой введение к различным идеям, связанным с многомерными нормальными популяциями. В главе 10 проводится анализ выборок из одномерных нормальных популяций при линейной гипотезе и указываются пути к обобщению на многомерную линейную гипотезу (глава 11). В главе 12 излагается анализ выборок из многомерных нормальных популяций при гипотезах, отличных от линейной. В главе 13 изучаются некоторые общие вопросы теории линейных дискриминантных функций, а также указываются вопросы, заслуживающие дальнейшего изучения. В книге имеется множество разработанных примеров. Я надеюсь, что они помогут сделать прозрачными рассуждения и дадут простые иллюстрации. В конце каждой главы и в тексте читателю предлагаются задачи главным образом для расширения и применения теории, а также для ускорения и совершенствования некоторой необходимой подготовки. Использование теории информации в статистических выводах оказывает унифицирующее воздействие на материал, собранный в книге.
ПРЕДИСЛОВИЕ 9 Это становится ясным из обобщений, к которым естественным образом приводит теория информации. Главы 8, И и 12 иллюстрируют это. В разделе 4 главы 11 делается заключение, что статистика критерия, применяемого в многомерном обобщении дисперсионного анализа, имеет форму обобщенного стьюдентова отношения (72-статистика Хотеллиига). Основные факты, на которых базируется это заключение, были известны раньше. Теория информации дает их в надлежащем освещении. Разделы нумеруются по порядку в пределах каждой главы; так, раздел 4.5.1 означает раздел 4, подраздел 5, подподраздел 1. Равенства, таблицы, рисунки, примеры, теоремы и леммы в пределах каждого раздела нумеруются так: цифры перед точкой указывают раздел, а цифры после точки — порядковый номер в пределах раздела; например, (9.7) — седьмое равенство в разделе 9. Если делается ссылка на раздел, равенство, таблицу, рисунок, пример, теорему или лемму в пределах той же самой главы, то дается только номер раздела, равенства и т. д. Если ссылка делается на раздел, равенство и т. д. из другой главы, то в добавление к номеру раздела, равенства и т. д. дается номер главы. В ссылках библиографического характера за фамилией автора следует год публикации в круглых скобках. Матрицы обозначаются жирным шрифтом. Заглавные буквы используются для обозначения квадратных и прямоугольных матриц, а строчные—для одиостолбцовых матриц (векторов). Транспонированные матрицы обозначаются посредством штриха; так, однострочная матрица отличается от одностолбцовой добавлением штриха. Если матрица обладает индексом, то подразумевается, что этот индекс предшествует индексам, использованным для идентификации элементов внутри матрицы, например А = (flijjy А2 = (&2iyX х == (хъ %ъ · · ·> хк)- Имеются некоторые исключения из этих общих правил, но они будут ясны из контекста. Широко используются сокращенные обозначения в том смысле, что кратные интегралы выражаются с помощью только одного интегрального знака, а многомерные величины или параметры обозначаются одной буквой. Когда представляется особенно важным подчеркнуть этот факт, в тексте делаются соответствующие указания. Словарь специальных терминов, включенный в книгу, предназначается для ориентировки читателя и с помощью указателя облегчает отыскание необходимых определений, символов и т. д. Критические замечания и вопросы друзей, коллег и рецензентов содействовали улучшению изложения в этой книге. Ее недостатки — исключительно мои. Приношу благодарность моим студентам и
10 ПРЕДИСЛОВИЕ коллегам по университету Георга Вашингтона за их интерес, понимание и поддержку. С благодарностью признаю полную и сердечную поддержку профессора Франка Вейда. Гарри М. Розеиблат практически подготовил большинство разделов главы 10, со 2 по 8 включительно. Самюэль В. Гриихауз практически подготовил главу 13. Мартон Ку- пермаи и Остии Боиис просмотрели варианты рукописи наиболее тщательно и критически, и их замечания, хотя не всегда принимаемые, были постоянно полезны. Другие указания на оказанную помощь помещены в тексте. Соломон Кульбак Университет Георга Вашингтона Февраль 1958
ГЛАВА 1 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ 1. ВВЕДЕНИЕ Теория информации в том виде, в каком мы ее будем рассматривать, является ветвью математической теории вероятностей и ста* тистики. Поэтому ее абстрактные формулировки применимы к любой вероятностной или статистической системе наблюдений. Следовательно, теорию информации можно использовать во многих областях, так же как теорию вероятностей и статистику. Она играет важную роль в современной теории связи, которая рассматривает систему связи как стохастический, или случайный, процесс. Таллер (1950) отмечает, что статистическую теорию связи часто называют теорией информации. Ротстейи (1951) определял теорию информации как «чистую математику, оперирующую измеримыми множествами, с выбором из альтернатив неопределенного характера». Пирс (1956, стр. 243) считает, что теория связи и теория информации — одно и то же. Гильберт (1958, стр. 14) говорит: «Информация—это такая мера времени или стоимости, которая, в частности, нужна инженеру при планировании эксперимента». Математический и статистический по существу характер теории информации подчеркивался тремя математиками [Винер (1956), Фишер (1956), Шеннон (1956)], которые внесли значительный вклад в дело развития этой науки. Что касается духа и идей теории информации, то они вырастают из понятия беспорядка или энтропии в термодинамике и статистической механике. [См. Фишер (1935, стр. 47), Шеннон и Уивер (1949), сноска 1 на стр. 95.] Существует обширная литература, посвященная изучению соотношения между понятиями и математической формой энтропии и информации. Стюмперс (1953) посвящает стр. 8—11 своей библиографии ссылкам на такую литературу, а здесь приводится еще несколько работ: Бартлетт (1955, стр. 208—220), Бриллюэн (1956), Грелль (1957, стр. 117—134), Джоши (1957), Квастлер (1953, стр. 14—40), Колмогоров (1956), Мак-Миллаи (1953), Мандельбройт (1953, 1956), Пауэре (1956), Фишер (1935, стр. 47), Хинчии (1953, 1956, 1957), Черри (1957, стр. 49—51; 212—216).
12 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. 1 Мера количества информации, доставляемого данными о неизвестном параметре, по Фишеру хорошо известна статистикам. Эта мера является самым первым использованием «информации» в математической статистике, и она была введена в основном для нужд теории статистических оценок. Хартли (1928) определил меру информации как логарифм числа возможных последовательностей символов для использования в технике связи. Интерес к теории информации и широкое применение ее инженерами связи, психологами, биологами, физиками и др. сильно возросли после появления работ Шеннона (1948) и Винера (1948) в особенности из-за утверждения Винера (1948, стр. 76), что в практике статистики его определение информации можно использовать вместо определения по Фишеру. Заметим, однако, что Сэвидж (1954, стр. 50) отмечает: «Идеи Шеннона и Винера кажутся довольно далекими о г статистики, хотя и связаны с вероятностью. Поэтому представляется просто случайностью, что термин «информация», введенный ими, не оказывается неуместным в статистике». Пауэре (1956, стр 36—42) рассматривает фундаментальные работы Винера, Шеннона и Вудворда как введение к развиваемой им унифицированной теории информации, связанной со стохастическим процессом. Стюмперс (1953) перечисляет 979 работ в своей библиографии и только 104 из них опубликованы до 1948 г. Хотя Вальд (1945а, 19456, 1947) явно не упоминал понятия информации в своей трактовке последовательного анализа, следует отметить, что его работу должно рассматривать как большой вклад в применение теории информации в статистике. [См. Гуд (1950, стр. 64— 66), Шутценбергер (J954, стр. 57—61).] Обширный исторический обзор можно найти у Черри (1950, 1951, 1952, 1957). Наиболее глубокий обзор теории информации в СССР дает Грин (1956, 1957), который рассматривает теорию информации как «применение статистических понятий к проблеме передачи информации». Текущая литература по теории информации многочисленна. Здесь приведены некоторые ссылки на литературу, которая даст читателю представление о широких возможностях применения теории информации. Белл (1953), Брадт и Карлин (1956), Бриллюэн (1956), де Бройль (1951), Винер (1948, 1950), Вудворд (1953), Гильберт (1958), Голдман (1953), Гуд (1952, 1956), Дэвис (1954), Квастлер (1953, 1955), Мак-Карти (1956), Мак-Миллаи и др. (1953), Мандельбройт (1953), Файнстейн (1958), Фаио (1954), Черри (1955, 1957), Шеннон и Уивер (1949), Шутценбергер (1954). Мы будем рассматривать информацию в техническом смысле, и ее не нужно путать с нашим семантическим понятием, несмотря на то, что свойства меры информации, вытекающие из технического определения, соответствуют свойствам, которые основываются на нашем интуитивном представлении об информации. Обсуждение «семантической информации» можно найти в работах Бар-Хиллел (1955), Бар-Хиллел и Карнап (1953).
21 ОПРЕДЕЛЕНИЯ 13 Вообще говоря, всякий раз, когда мы производим статистические наблюдения или планируем и проводим статистический эксперимент, мы ищем информацию. Спрашивается, насколько полные выводы о выборочной совокупности мы можем сделать на основании серии статистических наблюдений или экспериментов? [Ср. Черри (1957, стр. 61).] Наша цель состоит в рассмотрении возможных ответов на этот вопрос в терминах строгого определения меры информации и ее свойств. Мы определим меру информации и выведем ее свойства на таком математическом уровне общности, коюрый охватывает как непрерывные, так и дискретные статистические популяции, и благодаря этому избежим необходимости параллельного рассмотрения этих двух ситуаций [Пауэре (1956), Фрезер (1957, стр. 1 — 16)]. 2. ОПРЕДЕЛЕНИЯ Рассмотрим вероятностные пространства (SV, $, μ;), г =1,2, т. е. основное множество элементов χζ^££ и совокупность Ш всевозможных событий (множеств), состоящих из элементов выборочного пространства ££у на которых определены вероятностные меры μ^ иц2. I — σ-алгебра подмножеств ££, борелевское поле или аддитивный класс измеримых подмножеств Ж. Пара (Ж, $), т. е. совокупность выборочного пространства ££ и σ-алгебры Ш подмножеств Ж, называется измеримым пространством [Фрезер (1957, стр. 2)]. Элементы SV могут быть одномерными или многомерными, дискретными или непрерывными, количественными или качественными [Фрезер (1957, стр. 1—2)]. Для инженера элементами 3V могут служить наличие или отсутствие сигнального импульса, совокупностью Ш — возможные последовательности определенной длины, образованные символами, обозначающими наличие или отсутствие импульса, а μι и μ2 могут определять вероятности появления таких последовательностей в соответствии с двумя различными гипотезами. Для статистика элементами Ж могут служить различные выборки из нормальной популяции, Ш может быть классом борелевских множеств в Rn, n- мериом евклидовом пространстве (если рассматриваются выборки в η независимых наблюдений), a \it и μ2 могут определять вероятности выборок при различных значениях параметров популяции. Мы предполагаем, что вероятностные меры μχ и μ2 абсолютно непрерывны одна относительно другой, или, символически, ^ = μ2, т. е. не существует множества (события) Εζ$, для которого рг(Е) = = 0, μ2(έ)^0 или [11(Е)^Ь09 μ2(£) = 0 [μχ абсолютно непрерывна относительно μ2, μι<^μ2> если μι(£) = 0 для всех Е(^$, для которых μ2(Ζ:) = 0; μ2 абсолютно непрерывна относительно μι, μ2«^μι, если μ2(£) = 0 для всех Εξ^$, для которых μ1(£)=0]. При отвержении статистических гипотез, которые имеют смысл до наблюдений, но теряют его после наблюдений, не возникает
14 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. никаких существенных проблем, и наше математическое предположение как раз исключает этот случай. Согласно Сэвиджу (1954, стр. 127), «.. .определяющие наблюдения не играют важной роли в статистической теории именно потому, что статистика имеет дело главным образом с неопределенностью, а в результате наблюдений, полностью определяющих рассматриваемые явления, исчезает всякая неопределенность». Для дальнейшего изучения абсолютной непрерывности см. Лоэв (1955, стр. 129—132), Фрезер (1957, сгр. 12), Халмош (1950, стр. 125—128), Халмош и Сэвидж (1949). Пусть λ — вероятностная мера такая, что Х = р,ь λ = μ2, например, мерой λ может быть мера μ!, или μ2, или (μ! -}- μ8)/2. По теореме Радона — Никодима [Лоэв (1955, стр. 132—134), Фрезер (1957, стр. 13), Халмош (1950, стр. 128— 132)] существуют функции fi(x), /=1,2, называемые плотностями вероятности*), единственные с точностью до множества меры (вероятности) нуль относительно λ, измеримые, 0 <^ft (х)<С °° [Ц> I = 1,2, такие, что μ* (£) = $/* (*) Λ (*), /=1,2, (2Л) Ε для всех Εξ$. Символ [λ] («по модулю λ»), следующий за утверждением, касающимся элементов из SVy означает, что это утверждение верно всюду, за исключением множества Ε такого, что Ε(Ζβ и λ (Ε) = = 0 [Халмош и Сэвидж (1949)]. Функции fi(x) называют также производными Радона—Никодима и пишут d^t (χ) =fi (х) dk (x)t а так- же fi (χ) = d\Xijdk. В примере 7.1 главы 2 приводится вероятностная мера μ,, абсолютно непрерывная относительно вероятностной меры μ2, но при этом μ2 не абсолютно непрерывна относительно μχ. Если вероятностная мера μ абсолютно непрерывна относительно вероятностной меры λ, а вероятностная мера ν абсолютно непрерывна относительно вероятностной меры μ, то мера ν также абсолютно непрерывна относительно меры λ и производные Радона—Никодима удовлетворяют равенству ^=тр;?тМ [Халмош (i960, стр. 133), Халмош и Сэвидж (1949)]. Если Ни г =1,2,— гипотеза о том, что X (мы используем X для обозначения случайной величины, а х для конкретного значения X) принадлежит статистической популяции с вероятностной мерой μ;, то из теоремы Байеса или из теорем об условной вероятности [Гуд (1950), Колмогоров (1950), Лоэв (1955), Феллер (1950), Фрезер (1957, стр. 13—16)] следует, что *) В оригинале эти функции называются обобщенными плотностями вероятности. (Прим. перев.)
щ ОПРЕДЕЛЕНИЯ 15 откуда получаем log/L^=logP(^l*) ^!оДт ί23) g/2 (*) g Ρ № Ι χ) ё Ρ №)ιΗ ( ' где Ρ (ЯД /=1,2, — априорная вероятность //f, аР(//;|.*;)— апостериорная, или условная, вероятность //,- при условии, что Х=х. [См. Гуд(1956, стр. 62), Сэвидж(1954, стр. 46 — 50).] Основание логарифмов в (2.3) несущественно, если только нас не интересует единица измерения. Если не указано особо, мы будем использовать натуральные, или иеперовы, логарифмы (основание е\ (См. конец примера 4.2.) Правая часть (2.3) является разностью между логарифмами шансов в пользу Ηχ до и после наблюдения Х=х. Эту разность, которая может быть положительной или отрицательной, можно рассматривать как информацию, получаемую в результате наблюдения Х = х, и мы определяем логарифм отношения правдоподобия log [ft (x)/fax)] как информацию в точке Х=х для различения в пользуй против //2. [Ср. Гуд (1950, стр. 63), который называет эту величину весом довода, вносимого χ в пользу Hi.] Средняя информация для различения в пользу Нх против //2 при условии χ(~Εζ^β> относительно меры μ^ равна ^-[fiWogj^dHx), μι(£)>0, где 0, m(£)=0, (2.4) Когда Е совпадает со всем выборочным пространством S*, мы обозначаем среднюю информацию от наблюдения в пользу Нг против /ί2 относительно μ! символом /(1 :2), а не /(1:2; Ж), т. е. опускаем область интегрирования, когда она совпадает со всем пространством /(1:2)= J log £Ц d^(x)= $/,(*) log &|g- dl(x) = ^ЯШ^^-^йШ-· (2·5) Отметим, что последний член в (2.5) есть разность между средним относительно \it значением логарифма апостериорных шансов гипотез и логарифма априорных шансов гипотез. Вслед за Сэвиджем (1950, стр. 50) мы можем также называть /(1:2) информацией в μ<! относительно μ2. Заметим, что интегралы в (2.4) или (2.5) всегда существуют, даже если они равны -f- со, так как меры конечны [Фрезер (1957, стр. 10 — 11), Халмош (1950)]. Необходимым (но не доста- s
16 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. 1 точным) условием конечности/(1:2) является условие ι^ = щ. В качестве примера, когда средняя информация бесконечна, возьмем <2Г—(0,1), μχ — мера Лебега, fz(x)lf\(x) — ke~-l/xy k~l = ^e-l/tdt. Можно прове- о рить, что /(1:2) бесконечна [Харди, Литлвуд, Пойа (1934, стр. 137)]. См. задачу 5.7. 3. РАСХОЖДЕНИЕ Следуя разделу 2, определим /(2:l)=$/,(J01og£$^dX(*) (3.1) как среднюю информацию от наблюдения относительно (л3 для различения в пользу /72 против Н± или -/(2:1)== ^Мх)1оШ^Щ-аХ(х) как среднюю информацию от наблюдения относительно μ3 Для Раз" личения в пользу Нх против 772. Наше предыдущее предположение о взаимной абсолютной непрерывности \хх и μ2 обеспечивает существова- ние интеграла в определении 7(2:1), даже если он равен-f-со. Определим теперь расхождение У(1, 2): J(l,2) = /(1:2)+/(2:1)== = №Щ$) ^W~ J biig|W4 (3.2) Средний вариант приводимого выше выражения для /(1,2) был введен Джеффрисом (1946, 1948, стр. 158) и, так как выражение это инвариантно при преобразовании параметров, он использовал его в основном тогда, когда были даны априорные плотности как функции параметров. У(1, 2) — мера расхождения между гипотезами Нх и Нъ или между j*t и (% и является мерой трудности их различения [Джеффрис (1948, стр. 158), Кульбак (1953), Сакагути (1955), Судзуки (1957), Хузурбазар (1955), Чернов (1952)]. Отметим, что 7(1,2) симметрична относительно \)Л и ja2, и априорные вероятности Ρ (//г), / = 1, 2, не входят в ее выражение. Расхождение, как мы увидим, обладает всеми свойствами расстояния (метрики), определяемого в топологии, кроме неравенства треугольника, и, следовательно, не задает расстояния. Информационные меры /(1:2) и /(2:1) можно рассматривать в связи с этим как направленные расхождения. (См. задачу 5.9.)
4] ПРИМЕРЫ 17 О других мерах рассгояний между распределениями вероятностей см. Адхикарии Джоши (1956), Балмер(1957), Бхаттачарья (1943,1946а), Рао (1945, 1952, стр. 351—352), Фрезер (1957, стр. 127). 4. ПРИМЕРЫ Прежде чем изучать свойства, вытекающие из определений информации и расхождения и обосновывающие использование термина «информация», полезно будет для приобретения опыта рассмотреть несколько иллюстраций формул (2.3), (2.5) и (3.2). Пример 4.1. В качестве крайнего случая предположим, что Н2 представляет собой семейство гипотез, одна из которых должна быть верной, и Hi принадлежит семейству Н2; тогда Р(//2) = 1, Р(Н2\х) = \ и правая часть формулы (2.3) дает в качестве информации, содержащейся ва'в пользу Ни величину log Ρ (Ht | χ) — log P (Ht) = log [Ρ (Η1 \χ)\Ρ (HJ\- Когда эта величина равна нулю? Если в результате наблюдения χ оказывается, что Нх верна, т.е. Р(Н1 \х) = 1, то информация, содержащаяся в χ относительно Ни равна —\ogP(Ht) [Гуд (1956)]. Заметим, что если безусловная вероятность Нх мала, то информация, получаемая от ее подтверждения, велика, если же безусловная вероятность велика, то информация мала. Согласуется ли это с интуицией? Пример 4.2. Чтобы продвинуться несколько дальше, предположим, что существует исчерпывающая система взаимно исключающих друг друга гипотез Н1У #2i. · · > Нп и что из любого наблюдения можно выяснить, какая из гипотез верна. Например, мы можем рассмотреть систему связи, в которой гипотезами являются возможные сообщения, передаваемые без искажений, и отсутствует неопределенность в установлении полученного сообщения. Или мы имеем дело с экспериментом, результатом которого может быть один из η исходов, причем нет ошибок при наблюдении и нет неопределенности в установлении исхода опыта после наблюдения. Здесь средняя информация о гипотезах, содержащаяся в наблюдении, есть среднее значение величины — log Я/, t = 1, 2,..., η, т. е. -Р(//1)1о8Р(//1)-Р(//а)1о8Р(Я1)-...-Р(Яя)1о8Р(//я). (4.1) Выражение (4.1) называют энтропией H-t-x. [См. Белл (1953), Бриллюэн (1956), Вудворд (1953), Голдман (1953), Грелль (1957), Гуд (1950, 1956), Джоши (1957), Квастлер (1956), Мак-Миллан (1953), Хинчин (1953, 1956, 1957), Шеннон (1948).] Когда пользуются логарифмом по основанию 2, единица информации называется «бит* (двоичная единица), и оказывается, что один бит информации есть способность разрешения неопределенности в ситуации с двумя равновероятными гипотезами или альтернативами. Таким образом, в выборе «да» или «нет» с вероятностью-^- для каждой альтернативы содержится —9"l°g2-9 о" l°gs "«Г ^ 1°ё» 2 = 1 «бит». Когда имеется η равновероятных гипотез, так что Ρ (Я,·) = — 9 находим, что — ^ Ρ (Hi) log Р{Нг) ~ = logn—мера информации по Хартли.
18 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. I Принято, что если используются десятичные логарифмы, единица информации называется «Хартли» [Таллер (1950)], а если используются натуральные логарифмы, единица информации называется «нит» [Мак-Дональд (1952)]. Пример 4.3. Для получения другой серии иллюстраций предположим, что выборочное пространство SV является евклидовым пространством R2 двух измерений с элементами Χ=(λγ,^) и что по Ηι χ и у— зависимые переменные с совместной плотностью распределения f(x9 у), но по Ms χ и ^ — независимые переменные с соответствующими плотностями распределений g(x) и h (у). Тогда (2.5) можно записать так: / (1:2) определяют также как среднюю информацию в χ относительно у или в у относительно х, [См. Вудворд (1953, стр. 53, 54), Гельфанд, Колмогоров и Яглом (1956), Гуд (1956), Колмогоров (1956), Линдли (1956), Шеннон (1948).] Так как (это будет показано в теореме 3.1 гл. 2) /(1:2) в выражении (4.2) неотрицательна и равна нулю в том и только в том случае, когда / (л:, у) = g (x) h (у), то средняя информация в (4.2) может служить также мерой связи между χ и у. [Ср. Кастаньс Камарго, Медина-и-Исабель (1956), Линфут (1957), Ферон (1952а, стр. 1343).] В частности, если Нх задает двумерное нормальное распределение с плотностью f{x'y)= ^(ι-Λ^ ехр[-^=?у(-^-2р^+т)]' а #2 — произведение частных нормальных плотностей распределения g{x)=-^exp(~4)· Λω=^εχρ("4)' то находим I(\:2)=^f(x,y)log^^Ldxdy = -^\oga~p*), (4.3) так что /(1:2) является функцией только коэффициента корреляции р и изменяется от 0 до оо, когда | ρ | изменяется от 0 до 1. Соответствующие многомерные величины даны в (6.12) и (7.4) главы 9. Пример 4.4. Для конкретной иллюстрации /(1, 2) предположим, что Λ и /а —нормальные плотности, использованные в (4.3). Находим, что /(1, 2)= J V(x,y)-g(x)h(y)) log/{^1у)dxdy = P«/(l-P2), (4.4) так что /(1,2) является функцией только коэффициента корреляции ρ и изменяется от 0 до оо, когда | р | изменяется от 0 до 1. Пирсон (1904) показал, что если двумерное нормальное распределение расклассифицировано в двуфакторной таблице, то средняя квадратическая сопряженность и коэффициент корреляции связаны соотношением <р2 = χ2/7ν = = р2(1 — р2) в предположении, что число наблюдений N велико, а интервалы группировки очень узки [Ланкастер (1957)]. Соответствующая й-мерная величина дана в (6.13) главы 9, но она отличается от величины <ра, данной Пирсоном (1904). См. также выражение (7.5) главы 9. Пример 4.5. Чтобы проиллюстрировать некоторый результат теории связи, предположим, что в (4.2) χ является переданным сигнальным напряжением, а у—полученным сигнальным напряжением, состоящим из передан-
41 ПРИМЕРЫ 19 ного сигнального напряжения и аддитивного шума, т. е. у = лг-f-n, где η — шумовое напряжение. Шум и переданный сигнал можно считать независимыми, так что f (х, y) = g(*) h {y\x) =g(x)h 0>—*). (4.5) /(1:2) в (4.2), мера связи между полученным и переданным сигналами, является в таком случае характеристическим свойством канала связи. Если мы предположим нормальность распределений, то, так как плотность двумерного нормального распределения / (х, у) в примере (4.3) может быть переписана в виде —гехр(-— —) . ехр (у—^1х)\ *х V*" \ 2а£/ Ь V** (1 - Р2) L 2с^ (1 - f) Y ax ) \ то, сравнивая (4.6) и (4.5), видим, что h(y\x)~h(y — χ), если , (4.6) 'ν , , «Ь р£ = 1' ρ2==^Γ = 5--Ρν' (4·7) где S = Ε (χ2) — средняя мощность переданного сигнала и Ν—Ε (η2) — мощность шума [Вудворд и Дзвис (1952), Лоусон и Уленбек(1950, стр. 55)]. Подставляя величину р2 из (4.7) в (4.3) и (4.4), найдем, что средняя информация в полученном сигнале относительно переданного и расхождение между полученным и переданным сигналами соответственно равны /(l:2) = ^llog(l^4^)4^(l+l)^ <«> jn 2)~ W + W -* (49) В главе 2 будет показано, что /(1:2) и J(l, 2) аддитивны для независимых наблюдений. Методом отсчета [Уиттекер (1915), Шеннон (1949)] установлено, что требуется 2WT независимых выборочных значений, чтобы определить функцию с длительностью Τ и полосой частот W. Таким образом, имеем /(1:2; W, Т) = 2WTI (1:2) = \*7Tlog (l +-^-\ , (4.10) J(1,2; W, Л=2УШ(1, 2) = 2WT^ = ^=?|f (4.11) где Ν = WN0, N0 — средняя мощность шума на единицу полосы частот, а Е — полная энергия переданного сигнала. Интерпретация (4.10) как пропускной способности канала хорошо известна в теории связи [Белл (1953), Вудворд (1953), Голдман (1953), Шеннон (1948)]. Отношение сигнал/шум продолжительное время использовалось инженерами для определения характеристики каналов связи. Пример 4.6. Для иллюстрации менее общей формы (Линдли (1956)) определения информации, получаемой в результате эксперимента, будем рассматривав у в (4.2) как параметр θ со значениями в пространстве в, так что / (χ, Θ) — совместная плотность распределения χ и Θ, h (θ) — безусловная плотность распределения Θ, gt(x | Θ) — условная плотность распределения χ
20 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. 1 при условии Θ, g(x) = t h(b)gt (x\b)dQ— частная плотность распределения χ. Эксперимент $ определяется как упорядоченная четверка $ = (3\ 8, ®» & C*W)> и информация, получаемая в результате эксперимента $ при априорно известной h (θ), есть /(1:2Η$/(*,θ)1ο8|^^^β. Этих иллюстраций пока достаточно. В главе 2 мы рассмо!рим свойства /(1:2) и 7(1, 2). 5. ЗАДАЧИ 5.1. Как много «битов» информации (в среднем) содержится в дихотомическом выборе: (а) с вероятностями /? = 0,99, #=1—/7 = 0,01; (б) с вероятностями /?=1, д= 1-/7 = 0? 5.2. Вычислите величины /(1 :2) и J(l, 2) для: (а) Р(* = 0|//*) = ?,·, Р(*=1|//£)=/>,, Λ + *ί=1, ί=1, 2, (б) биномиальных распределений В (/?£, gf·, η), /^4-^=1, t= 1, 2, (в) распределений Пуассона с параметрами от,·, £=1, 2, (г) нормальных распределений ΛΓ(μ$, σ2), ί = 1, 2, т. с. нормальных распределений со средними μι и дисперсиями σ2, (д) нормальных распределений Ν{μ, σ^2), г = 1, 2, (е) нормальных распределений Ν (μ/, σ^2), ί=ί, 2. 5.3. Вывести равенство (4.3). 5А Вывести равенство (4.4). 5.5. Пусть 1 4~ х — число независимых испытаний, необходимых для получения успеха, когда вероятность успеха не зависит от номера испытания. Если Ρι (χ) = Ρ (Χ = χ | Hi) =Piqi*% x = 0, 1, 2,... ; 4ϊ = 1 -/>/, ί = 1, 2, ΊΟ / (1:2) = Ε (1+ χ | Щ (Alog£- + ?1 log Jf\, т. е. средняя различающая информация равна произведению математического ожидания числа испытаний и средней информации от одного испытания. 5.6. Пусть fi (χ) = ехр (и (θ,·) υ (χ) + α (χ) + Ь (0f)), г = 1,2, где w и ^—функции θ/, ί = 1,2, a ti и а—функции .*;, с J/t· (л:) dx = 1. Покажите, что J(l, 2) = = (w (6ι) — w (*У) (^i (ν (x)) — £s (*> (*))), r^e £* fa (л:))—математическое ожидание υ (χ) при распределении с плотностью fi(x), i = 1, 2. [Для случая многомерных, многопараметрических распределений, допускающих достаточные статистики см. Хузурбазар (1955).] 5.7. Пусть оо со *1==2j ~7T(logn)2 <0°' к2^2л n*(\ognf <00> р (X = П) = т. гг, р2 (X = П) = г όΤι \й~ » Й = 2, 3, . . . У1К ; /^nflog n)*' r2V ' Μ (log n)2 '
δ] ЗАДАЧИ 21 со Pl(X=zrt) Покажите, что /(1:2)= /Pi (л*=л) log ) __ I =00, и что 1(2: 1) = со = Л /?g(Ar = n)log^2 ^ " ~<со. [См. Джоши (1957), где этот результат п^2 приписывается Шутценбергеру] 5.8. Вычислите значения /(1:2) и J (1, 2) для дискретных двумерных распределений: P(x = Q9y = 0[Hl) = P(x=\9y=\\Hl)^9 Р(лт=0, у=1|/Л) = = Р(х=19 у = ЦН1)=£,р + д=\, Р{х = 09 у =0\НШ) = = р{х = 19у=цНл) = Р(х = 09у=\\Н9) = = Р(*=1, у=ЦНя)=1. 5.9. Покажите, что \ \ Л (х) /2 (у) log "94\£/\ ^ Φ можно пере- ть в виде \ (ft (х) —/2 (χ)) log (4гут) dx> гДе /ι и /г-плотности вероятности, ахи у—случайные величины, области значения которых совпадают. [Ср. Барнард (1949), Гиршик (1946, стр. 123—127).] 5.10. Пусть N-—-—~ г , п1~\-п2-\ . .. + /1ь = л. J щ\п2\.. .nk\ ' 1 ' г l l R Используя формулу Стирлинга, покажите, чго при больших «/, ί = = 1, 2, ..., ky выполняется приближенное равенство писа log N^-n^i log pi9 ί=1 где/^ = п/|я. [Ср. Бриллюзн (1956, стр. 7 — 8).] 5.11. Рассмотрим последовательности из k различных символов. Покажите, что последовательность длины я, в которой имеется соответственно пи «2»· · ·» nk символов разного рода, содержит информацию, приблизительно к равную «Y pi log pi~j~n log k, где pi определены в задаче 5.10. 5.12. Пусть Ρ(«ιΛ>..., nk) = nj^l.jibltfP*·■ ·/#· Я = Tlt + Па + . . . + ЯА, Я1 +Р2 + ·. . +Я* = 11 Я;>0, / = 1,2, ...,ft.
22 ОПРЕДЕЛЕНИЕ ИНФОРМАЦИИ [ГЛ. I (а) Покажите, что, как в задаче 5Л0, приближенно k 1о*Р(пип1..,щ)=»2р№уг (б) Покажите, что log-^ : для pi =/?2==... = р^ —\jk равен ве- личине информации в задаче 5.11. [Ср. Санов (1957, стр. 13), Чернов (1952, стр. 497).] 5ЛЗ. Вычислите величину /(1:2) для дискретных двумерных распределений, заданных системой вероятностей Ρ (χ = хь у =yi\Hx) =рй > 0, i = 1, 2, ..., η, Ρ (λ: - ^, з>=уДН^ = 0, ί ^ /, Ρ (χ = *,, з> =Уу1^) = = P(* = *£|//f) P<y = yAHt)=Pipfi i,y=l,2,..,« (0 log 0 по определению равен 0).
ГЛАВА 2 СВОЙСТВА ИНФОРМАЦИИ 1. ВВЕДЕНИЕ Займемся теперь свойствами меры информации, определенной в главе 1, и рассмотрим выводы, основанные на этих свойствах [ср. Куль- бак и Лейблер (1951)]. Будем использовать обозначения /(1:2; Е), /(2:1; Х\ J(l, 2; X, У) и т. д., когда считаем необходимым указать множество, пространство, случайные величины и т. д., которые мы рассматриваем. Там, где это нужно для ясности, будем использовать X, К,... и т. д. для обозначения случайных величин, а х, у,... и т. д. для наблюденных значений этих величин. Обычно мы будем использовать только один интегральный знак, даже если интегрирование ведется более чем по одной переменной. 2. АДДИТИВНОСТЬ Теорема 2.1. /(1:2) есть аддитивная функция независимых случайных величин, т. е. для X и Y, независимых при гипотезах Нь ί=1, 2: /(1:2; Χ, Υ) = Ι(1:2;Χ) + Ι(1:2; Υ). Доказательство. 7(1:2; Χ, Υ)= §/,(*, У) tog ]$$&(*>y) = = /(1:2; X) + /(l:2; Y), где вследствие независимости ft (χ, у) = gt (χ) ht (у), I = 1, 2, dk (x, y)= = <ίμ(χ)<ίν(», \gi(x)d\>-(.x)=h $/г,-00^00=1, ί=1> 2·
24 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Интуитивно аддитивность информации для независимых событий является основным требованием и действительно постулируется как необходимое свойство в большинстве аксиоматических построений теории информации [Барнард (1951), Винер (1950, стр. 18—22), Гуд (1950, стр. 75), Линд ли (1956), Мак-Кей (1950), Рейх (1951), Фишер (1935, стр. 47), Шеннои (1948), Шутценбергер (1954)]. Аддитивность является основной причиной логарифмического вида информации. Выборка в η независимых наблюдений из некоторой популяции содержит в себе информацию, превышающую среднюю информацию одного наблюдения в η раз. Мера количества информации Фишера для оценки параметров также обладает свойством аддитивности [Сэвидж (1954, стр. 235—237), Фишер (19256, 1956, стр. 148—150)]. В разделе б мы рассмотрим соотношение между мерой Фишера и мерой различающей информации, представленной выражением (2.5) главы 1. Если случайные величины X и Υ зависимы, аддитивное свойство все же имеет место, но в терминах условной информации, определяемой ниже. Чтобы упростить доказательства и избежать задач из теории меры, касающихся условных вероятностей [см., например, Фрезер (1957, стр. 16)], мы будем иметь дело с плотностями вероятности и мерой Лебега, предоставляя читателю выполнять соответствующие выкладки для дискретных переменных. Учитывая сказанное, имеем /(1:2; X, Ю = $ Λ(*, У) [°^^J)d* аУ = =\ ^)los|§H*+\ *И5 h^x^W0)dy] dx> где ft(*)=S/i(*> У)Лу, К(у\х)=^(ху У)/&(х)> i=1> 2· Теперь полагаем /(1:2; Y\X=x)= § /^(^log^^dy И /(1:2; Y\lX)=E1(I(1:2; Y\X=x))=lgi{x)I(l:2; Y\lX=x)dxy где 7(1:2; У]Х=х) есть условная информация, содержащаяся в Υ для различения в пользу Н\ против 772, если Х=х, когда верна Нъ а 7(1:2; Υ\Χ) — среднее значение условной различающей информации 7(1:2; Υ\Χ=χ\ когда верна Н±. [Ср. Барнард (1951), Гуд (1950), Ливдли (1956), Пауэре (1956, стр. 54—62), Файнстейн (1958, стр. 12), Ферон и Фуржо (1951), Шеннон (1948).] Аналогичный результат можно получить путем замены X на К, так что можно считать установленной следующую теорему. Теорема 2.2. 7(1:2; X, J0 = /(1:2;*H-/(1:2; П*) = /(1:2; Г)+1(1:2; X\Y).
8] ВЫПУКЛОСТЬ 25 Пример 2.1. Рассмотрим плотности двумерного нормального распределения 2πσ^ΊΛ-Ρ? L 2(1—Pf) V A так «по Λ·(3,μ)- a,VS(l-rf)W eXP[ 2^ (1-Pf) J' где β/ = Ρίσ^/σ^. Отметим, что дисперсии не зависят от i = 1, 2. Для этих плотностей находим [можно путем подстановки б (1.2) гл. 9], что /(1:2; Χ) = (μ«*~μι*)'> 2σ# /(1:2; nx^^liog|=Й_|+^4=Й + ι ι [μ^+Μ*—nJ—Ри>—Μ*—μΐΑ-)12 2 «4(1 — pS) /(l:2^X) = i-log|^-2-^| + Ρι)2 2aji(l —Ρ» 2(1" Pi>' /Π · 9· У V\ — 1 Ιπσ ["Ρ^ J- р2 (Ρ« —Ρι) ι /(1.2,*, r)--logr—^- + (1_ρ|) + 1 \(Ρ2χ — μίΛ·)2 οη (μ2,ν — μΑΛ·) ^ — μι^) ■ fray—Егу)8 2Ρ Γ 2(1-P»L aj "2 Vy <* Отметим, что/(1:2;ΛΤ, Υ) = Ι(\:2;Χ)+Ι(1:Ζ Υ\Χ). Если р1=г:р2=0, так что X и У независимы при гипотезах //, и H2t /(1:2; Κ|λΊ = (μ2ν— μιν)2/2σν = = /(1:2; У) и /(1:2; X, }^=^*~fa*>> + igHC^y^ = /(i :2; А) + /(1:2; Υ). 2σ.ν 2су 3. ВЫПУКЛОСТЬ Теорема 3.1. /(1:2) почти всюду неотрицательна, т. е. /(1:2)^0, и равенство имеет место тогда и только тогда, когда f% (χ) =/2 (χ) [λ].
26 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Доказательство. Пусть g(x)=fi(x)/f%(x). Тогда I(l:2) = \Mx)g(x)logg(x)d\(x)^g(x)\ogg(x)dMx)9 (3.1) где d\x% (χ) =/2 (х) dX (χ). Так как 0<^g-(x)<^co[X], можно написать, полагая ψ (t) — t log t [ср. Харди, Литлвуд и Пойа (1934, стр. 151)], где h(x) лежит между g(x) и 1, так что 0<^1г(х)<^оэ[Ц. Так как φ(ΐ)=ο, φ'(ΐ)=ι и J g (л;) rfjAa (·*) = $ /ι (*) <*λ (*) = 1 > (3*3) имеем \ ψ (g{x)) <fa (*) =4 $ [*(*) -1 ] Υ Φ (χ)) <fo (χ), (3.4) где φ"(0 = j^>0 для t^>0. Из (3.4) видно, что J*(*) toggfr) d\H(x) = J Λ(·*>1ο^ ^W" Λ(X)^°' (3·5) и равенство достигается тогда и только тогда, когда g(x) — =Λ (*)/Λ(*)== ι Μ- Теорема 3.1 говорит нам, что в среднем различающая информация, получаемая из статистических наблюдений, положительна [ср. Фишер (1925 6)]. Если распределения, соответствующие обеим гипотезам, совпадают, то различающая информация не существует. Теорему 3.1 можно проверить для величины /(1 :2), вычисленной в примере 2.1. Следствие 3.1. J /ι WIog^AW>(j/t WAW) log |^ dX(x) для λ(£)^> 0, и равенство достигается тогда и только тогда, когда Μ*) — μι №) l J ^ Доказательство. Если левый член неравенства равен со, результат тривиален. В противном случае берем усеченное распределение на множестве Ε и пишем gx (x) =/t (х)/\н (£), &(·#) = =/2 (^)/μ2 (£). Из теоремы 3.1 $ft(*)i°gf$|<a(*);^o,
31 выпуклость 27 где равенство достигается тогда и только тогда, когда gl(x) = ==gaC*0[M> откуда и следует наше утверждение. Следствие 3.2. Если Е^З, /=1, 2,..., Eif]Ej = 0, ιφ], и ^ — {JiEi, т.е. если S£ разбито на попарно непересекающиеся множества Еь Е& ..., то /(1:2)^2^1оё^| и равенство достигается тогда и только тогда, когда Доказательство. Используйте следствие 3.1 и равенство (см. задачу 8.37) 7(1:2)= J Л И log ^A(*)=2 J/^iog^ άλ(χ). i E. Свойства, выраженные теоремой 3.1 и следствиями 3.1 и 3.2 [ср. Линдли (1956), Сэвидж (1954, стр. 235)], есть свойства выпуклости, связанные с тем, что функция tlogt вогнута и выполняется неравенство Енсена [Енсен (1906)]. [См. задачу 8.31. Подробности о выпуклых функциях читатель может найти в работах: Блекуэлл и Гиршик (1954, стр. 30—42), Фрезер (1957, стр. 52—55), Харди, Литлвуд и Пойа (1934).] Из следствия ЗЛ видно также, что группировка наблюдений вызывает обычно уменьшение информации [ср. Винер (1948, стр. 79), Фишер (19256)], левая часть неравенства следствия ЗЛ есть различающая информация, содержащаяся в элементах множества Е, тогда как правая часть неравенства есть различающая информация, содержащаяся в множестве Е. Необходимое и достаточное условие того, что информация не уменьшается после группировки (следст- f (χ) f (χ) виеЗЛ), можно также записать в виде )' =JS\J [λ] для х£Е, от- μι {£) ^2 (£) ражающем тот факт, что условные плотности распределения χ при условии Ε совпадают для обеих гипотез. Все χζΕ, для которых выполнено условие равенства в следствии 3.1, можно рассматривать как эквивалентные в задаче различения. В качестве иллюстраций теоремы 3.1 и следствий ЗЛ и 3.2 приведем следующие примеры. Пример 3.1. (См. пример 4.2 гл. 1 и теорему 3.1.) Alog^+Alog&+ ... +ρη1ο%ψ^0, (3.6) η η η
28 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 где Pi>0, t = 1, 2,..., η, pt +ps +... +рп = 1. Отсюда следует, что logn^ —2яг1°ёЯ£| гДе равенство достигается тогда и только тогда, когда /?£== 1/«, ί= 1, 2,..., η; это соответствует тому, что самой неопределенной ситуацией с η альтернативами оказывается ситуация, когда все альтернативы равновероятны [Шеннон (1948)]. Пример 3.2. (См. следствие 3.1.) > (fti +Λ. + ■■■ +Рид log p21+p2S+...+jp2„ <3·7> для Pij> 0, i= 1, 2, 7= 1, 2,..., «, с равенством тогда и только тогда, когда Рп ==£и = Ал _ Яп+Я12 + --+Рш Я21 /?22 />2Л Я21+Я22 + ---+Я2/1 Пример 3.3. (См. следствие 3.2.) Для пуассоновских популяций с параметрами \ и λ2 имеем 1 -к * л:! оо + Σ- х = 2 )+е~^ λ -log-^ Λ2 с равенством тогда и е е~~ ,xUf λ2 ι λ: Λ2 "λ'λ?/*! λ( β- -λ·λ*/*! ~й ΐ£* е- 108 ^ffc"^1 - + (1 —β~λι —λ^~λι только тогда, когда 1—*-λι—λ^~λι ~~ 1 —β—λ» — λβ^—λ* -λ! — J -λ2 i (Κ- )log -e-^Xjlog -Μ + *~"λι 1—е~Хя — , Λ ' />f Oj ■ · · «-λ«λ, *~λ*λ2 + ιλ,(λ,- λιβ-λι Численная иллюстрация группировки величин χ ^4 есть в табл. 2.1 призера 2.2 главы 4. Пример 3.4. (См. следствие 3.1.) $ /ι (·*> .У) dy _ =11Лх)^Ш"'(&8) с равенством тогда и только тогда, когда тЦ-^=^Ц~т, где^(лг), £=1,2, /2 (*» .У) ^2 (■#) есть частная плотность распределения х. Необходимое и достаточное условие равенства может быть записано также в виде ft (xty)jgi (x)—/2 (xty)lgn (x) или h1(y\x) = hs(y\x)t где hi (у\х), г =1,2, — условная плотность распределения у при условии х.
41 ИНВАРИАНТНОСТЬ 29 Фактически (3.8) иллюстрирует Следствие 3.3. (а) 1(1 :2;XtY)^I(l: 2; X) с равенством тогда и только тогда, когда 1(1:2; У\Х) — 0; (б) /(1: 2; X, У) ^ /(1:2; Υ) с равенством тогда и только тогда, когда 7(1 :2; Лг| F) = 0; (в) /(1:2;X,Y)^I(l :2; У\Х) с равенством тогда и только тогда, когда 7(1:2; Л^ = 0; (г)/(1: 2\Χ,Υ)^Ι(\: 2; Х\ Υ) с равенством тогда и только тогда, когда /(1:2;У) = 0. [Ср. Линдли (1956).] Доказательство. Используете теорему 3.1 в сочетании с теоремой 2.2. 4. ИНВАРИАНТНОСТЬ Если разбиение пространства ЗР в следствии 3.2 таково, что необходимое и достаточное условия равенства выполнены, т. е. если плотности распределения χ при условии Е( одни и те же для обеих гипотез по всем членам разбиения Ei7 то мы можем определить разбиение St7z=z\JiEi как достаточное разбиение для различения. Отметим, что достаточное разбиение с самыми крупными элементами группировки содержит в себе такую же информацию, как разбиение, элементами которого являются точки пространства ЗС% Понимая под статистикой разбиение пространства X на множества эквивалентных χ [Леман (19506, стр. 6—7)], можно сказать, что статистика, определенная разбиением 3?=\JiEb является достаточной для различения, если необходимое и достаточное условие равенства в следствии 3.2 выполнено. Это совместимо с первоначальным критерием достаточности, введенным Фишером (19226, стр. 316): «статистика отбирает для суммирования всю относящуюся к делу информацию, доставляемую выборкой», и с дальнейшими достижениями (см. Бахадур (1954), Блекуэлл и Гир- шик (1954, стр. 208—223), Дармуа (1945), Дюгэ (1936а,б), Купмен (1936), Леман и Шеффе (1950), Питмэн (1936), Нейман (1935), Сэ- видж (1954), Фишер (1925а,б), Халмош и Сэвидж (1949). [Ср. Фрезер (1957, стр. 16-22).]). Чтобы продолжить изучение соотношения понятий «информация» и «достаточность», введем некоторые обозначения. Пусть К— Т(х) — статистика, т. е. Т(х) является функцией с областью определения X и областью значений ^, и пусть <ЗГ — аддитивный класс подмножеств ^. Предположим, что Т(х) — измеримая функция, т. е. для любого множества G£<^ полный прообраз Г"*1 (б) = {*: Τ(x)£G} [TX(Q) есть совокупность элементов χ таких, что Τ(χ)ζ-0] принадлежит классу 8 измеримых подмножеств пространства &* (см. раздел 2 гл. 1). Класс всех множеств вида Г"1 (G), где G £<^, обозначается Г"1 (е^). Таким образом, мы имеем измеримое отображение Τ вероятностного пространства (££у $, μ£) в вероятностное пространство (^, <£Г, ν,·), где, по определению, Μ0) = μι (7^(0)) [Колмогоров (1950, стр. 21, 22), Лоэв (1955, стр. 166), Фрезер (1957, стр. 1 — 16), Халмош и Сэвидж (1949)].
30 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Если определить γ (G) =А (7^(0)), то ν! = ν2 = γ (меры абсолютно непрерывны одна относительно другой) и, так же как в разделе 2 главы 1, теорема Радона—Никодима позволяет утверждать существование таких плотностей вероятности gi(y), г=1,2, что V|(Q)=$ftO0dTO/), *=1,2, Ge^, (4.1) о для всех G(^<^~. Функция gi(j/) является условным математическим ожиданием /£ (х) при условии Г (х) =j/ и обозначается Ελ (/f·[у) [Колмогоров (1950, стр. 47—50), Лоэв (1955, стр. 337—344), Фрезер (1957, стр. 15), Халмош и Сэвидж (1949)]. В терминах вероятностных пространств (^,е^~, vf), /=1,2, различающая информация [ср. (2.4) гл. 1] есть /(1:2; G) = ν, т l^l<Md^>^0)>*> (4.2) [О, v,(Q = 0 и [ср. (2.5) гл. 11 /(1:2; *) = J ftOOlQggg^TCy). (4.3) Для доказательства теоремы 4.1 нам потребуется нижеследующая лемма. Если g— функция точки на ^, то, придерживаясь обозначений Халмоша и Сэвиджа (1949), gT, заданная равенством gT(x) = g(T(x)), является функцией точки на 3\ Лемма 4.1. Если g— действительная функция на Ф, то $SU0<biO0= J gT(x)d[xi(x)f / = 1,2, О Г-1 (G) для любого G£^<^~ в том смысле, что если один из интегралов существует, то существует и другой, и они равны. Доказательство. См. Халмош (1950, стр. 163), лемму 3 из работы Халмоша и Сэвиджа (1949), Лоэв (1955, стр. 342). Теорема 4.1. /(1:2; #*)^/(1:2; Щ с равенством тогда и только тогда, когда fi(x)/A(x) = gi(T(x))fg<i(T(x)) [λ]. Доказательство. Если /(1:2; 37) = оо, результат тривиален. Используя лемму 4.1, получим /(1:2;*)=$ db(y) log|^= J dlH(x) log gjTjx) g*T(x)
41 ИНВАРИАНТНОСТЬ 31 и, следовательно, /(1:2; Л)-/(1:2; *)= J <Ы*)[ ^Щ—^ЙШЬ Полагая ^)=4^М^, получим /(l:2;^)-/(l:2;9')=J^^^g(jf)logi(Jf)a(jf)= =$ £(*) bg g(*) <ίμ12 (χ), (4.4) где μ,,(£)= (^Д'У&С*) Для всех Εζ$. Так как то рассуждения, доказывающие теорему 3.1, приводят к заключению, что 1(1:2\ X) — 7(1:2; ^)^= 0 с равенством тогда и только тогда, когда fi(x)_giT(x) _gi(T(x)) m ,4~ f2 (*) ~^2Γ (χ) —g2 (Γ (χ)) L J' V'0) Необходимое и достаточное условие равенства в теореме 4.1 может быть переписано в виде [см. (4.1)] ЛЩ=Щ[Х] или aw = ■/;<*> [λ], т. е. условная плотность распределения χ при условии Г(лО=.у одна и та же для обеих гипотез. Статистика, удовлетворяющая условию равенства в теореме 4.1, называется достаточной статистикой для различения. [Ср. Мурье (1951).] Предположим теперь, что вероятностные меры \хг и μ2 принадлежат некоторому семейству мер т, например семейству всех мер одного и того же функционального вида, но с различными значениями одного или нескольких параметров. Допустим, что семейство мер т однородно, т. е. что любые две меры этого семейства абсолютно непрерывны одна относительно другой. Тогда в силу теоремы Радона — Никодима каждый член однородного семейства мер может быть представлен плотностью вероятности относительно общей меры [Фрезер (1957, стр. 21), Халмош и Сэвидж (1949)]. Теорема 4.2. Если μι и μ2— любые два члена однородного семейства мер т, то /(1:2; ,2Г)^/(1:2; <¥) с равенством тогда и только тогда, когда статистика Υ= Τ (χ) является достаточной для однородного семейства т.
32 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Доказательство. Необходимое и достаточное условие, задаваемое соотношением (4.5), эквивалентно в этом случае тому, что условная плотность распределения χ при условии Т(х)=у одна и та же [λ] для всех мер однородного семейства т, или требованию, чтобы Τ (χ) была достаточной статистикой [Бахадур (1954), Блекуэлл и Гиршик (1954), Дармуа (1936), Дуб(1936), Леман и Шеффе (1950), Нейман(1935), Рао (1952), Сэвидж (1954), Фишер (19226), Фрезер (1957, стр. 17), Халмош и Сэвидж (1949)]. Л е м м а 4.2. Если f — действительная функция на 3?у то необходимым и достаточным условием существования измеримой функции g на *¥ такой, что f=gT, является измеримость /относительно Т~1(^Г)\ если такая функция g существует, то она единственна. Доказательство. См. лемму 2, Халмош и Сэвидж(1949). Следствие 4.1. /(1:2; ^) = /(1:2; Ф\ если У=1(х) — не- вырожденное преобразование. Доказательство. Если 7— невырожденное преобразование, то Т~х (<^) совпадает с $, а следовательно, fi(x), / = 1, 2, измеримы относительно Г-1^"), и утверждение вытекает из леммы 4.2 и теоремы 4.2. Отметим, что можно получить другое доказательство путем последовательного применения теоремы 4.1 к преобразованию из X в *¥ и обратному преобразованию из ^ в 3t\ Следствие 4,2. /(1:2; T~X(G)) = /(1 :2; G) для всех G£<^ тогда и только тогда, когда К™ Т(х) — достаточная статистика. Доказательство. Пусть χΕ(χ) — характеристическая функция множества Е, г. е. χ£(χ)~ 1, если χζ^Ε и χΕ(χ)~0, если х^~Е. Имеем /(1.2, С)- J _^-log^_ J XG(y) -^gj-log -gjfr- ί Хг-i (G) W μι (г-1 (G)) WS g2r (x) -i Φι (*) lQg gi^W /.Μ />W Г-1 (G) Применение метода доказательства теоремы 4.1 к / (1:2; Т1^)) — — /(1:2; G) и использование теоремы 4.2 завершает доказательство. Можно «рандомизировать» следствие 4.2 путем введения функции ф(_у) такой, что 0^ф(_у)^1, например взяв в качестве ψ (у) вероятность определенного действия при условии, что у наблюдено. По
5] РАСХОЖДЕНИЕ 33 определению условного математического ожидания [Колмогоров (1950, стр. 53), Лоэв(1950, стр. 340), Фрезер (1957, стр. 15), Халмош (1950, стр. 209), Халмош и Сэвидж(1949)] имеем $φ(^)Λ(^)=5φ(ν)<ίγ^ S?W/iW<ft(Jp)=StO')e(y)rfTW. t=i, % где φ(*) = ψΓ(*) = ψ(74*)λ $ψ) = Ελ(Ψ(χ)\Τ(χ)=γ), т.е. ψ О) является условным математическим ожиданием φ (χ) (относительно меры λ) при условии Т(х)=у. (См. леммы 3.1 и 3.2 гл. 3.) Следствие 4.3. с равенством тогда и только тогда, когда Y=T(x) — достаточная статистика. Доказательство. Утверждение следует в результате применения метода доказательства теорем 4.1 и 4.2. Предшествующие теоремы и следствия показывают, что группировка, сгущение или другие преобразования наблюдений с помощью статистики ведут, вообще говоря, к потере информации. В случае достаточной статистики информация не теряется [ср. Фишер (19256, 1935, 1956, стр. 150 —152)]. Увеличить же информацию посредством статистической обработки данных нельзя. Численный пример уменьшения информации можно найти в разделе 2 главы 4. [Ср. Файнстейн (1958, стр. 70 — 71).] Следствия 4.2 и 4.3 показывают, что достаточность статистики для семейства распределений не нарушается при усечении или при отборе в соответствии с функцией φ (χ) = ψ (Τ (χ)) [ср. Бартлетт (1936), Питмэн (1936), Тыоки (1949)]. С другой стороны, усреднение является статистической процедурой или преобразованием, приводящим, вообще говоря, к потере информации. Преобразование, которое затрагивает только частное распределение в многомерной ситуации (игнорирует некоторые переменные), также ведет, вообще говоря, к потере информации. (См. следствие 3.3, а также раздел 8 гл. 9.) 5. РАСХОЖДЕНИЕ Для 7(2:1), определенной в (3.1) главы 1, справедливы теоремы и следствия, аналогичные тем, когорые были доказаны для /(1:2) ввиду предположения раздела 2 главы 1 о том, что вероятностные меры μ! и μ3 абсолютно непрерывны друг относительно друга. Так как J(l,2) = /(1:2)-|-/(2:1), то имеется множество аналогичных
34 СВОЙСТВА ИНФОРМАЦИИ 1ГЛ. 2 результатов для J(1,2), которые мы сформулируем, используя понятия и обозначения разделов 2, 3, 4. Доказательства оставляем читателю. Теорема 5.1. 7(1, 2) аддитивна для независимых случайных величин, т. е. если X и У независимы, то 7(1, 2; X, fY)=i = 7(1, 2; X) + J(l, 2; У). Теорема 5.2. 7(1, 2; X, У) = 7(1, 2; X) + 7(l, 2; Y\X) = = 7(1, 2; 10 +-/(1,2; X| У). Теорема 5.3. 7(1, 2) неотрицательна, т. е. 7(1, 2)5=0 с равенством тогда и только тогда, когда fx (х) —/3 (χ) [λ]. Следствие 5.1. J σι с*) -/. с*» iog^-л w s* $/, (χ) Λ (χ) Ξ>(ί/ι(*)Λ(.*)- [Mx)dk(x))iog E = V J J У ^/2(х)<Д(х) для λ (jB) ^> 0 с равенством тогда и только тогда, когда h (*)//« (Jf)=μι (£)/щ (£) [λ] для jc ζ Ε. Следствие 5.2. £слн £г£$, *=1, 2,..„ £,ПЕ/ = 0. Ι φ],..., и S'=\JiEi, то J{\, 2) ^ J О*» №) -^ №» 1оё £ЙУ с равенством тогда и только тогда, когда f±(x) Ι'/«(#) = ^Цп^ [Ц для χ ζ-Ец t=l, 2. Следствие 5.3. (a) 7(1, 2; X, У) ^7(1, 2; X) с равенством тогда и только тогда, когда 7(1, 2; У|Х)=0; (б) 7(1, 2; Д У)^ 5=7(1, 2; У) с равенством тогда и только тогда, когда 7(1, 2; Х| У) = 0; (в) 7(1, 2; X, У)5=7(1, 2;У|Х) с равенством тогда и только тогда, когда 7(1,2 ; Х)=0; (г) 7(1, 2; X, У)5=7(1, 2; А^У) с равенством тогда и только тогда, когда 7(1, 2; У) = 0. Теорема 5.4. 7(1, 2;$*) 5=7(1, 2; ^) с равенством тогда и только тогда, когда fi(x)lfz(x) = gi(T(x))lg%(T(x))m. Теорема 5.5. Если μχ и μ3— два любых члена однородного семейства мер т, то 7(1, 2; .2^)5=7(1, 2; ^) с равенством тогда и только тогда, когда статистика У= Т(х) достаточная для однородного семейства мер т. Следствие 5.4. 7(1, 2; ,20 = 7(1, 2; ^), если 7= Г (х) — «£- вырожденное преобразование.
51 РАСХОЖДЕНИЕ 35 Следствие 5.5. J(l, 2; T^(G)) = J(17 2; G) для всех G£<^ тогда и только тогда, когда J(l, 2; Jf) = J(l, 2; ^), #z. е. тогда и только тогда, когда Г= Т(х) — достаточная статистика. Следствие 5.6. $ φ (χ) (/ι И -Л (*)) log j^d\ (χ) s* с равенством тогда и только тогда, когда Υ=Τ(χ) —достаточная статистика. На данном этапе будет уместно описать задачу различения двух гипотез Hi и Ном в терминах теории связи и вывести результат, способствующий уяснению содержания понятия 7(1,2). Мы рассмотрим модель, состоящую из источника, создающего символы, канала, передающего символы с искажением (канал с шумом), и приемника, который должен в конечном счете действовать на основе полученного сообщения (или того сообщения, которое считается полученным). Об общих моделях задач связи и обосновании используемых терминов см. Джоши (1957), Мак-Миллан (1953), файнстейн (1958), Хинчин (1957), Шеннон (1948), Шеннон и Уивер (1949). Предположим, что источник, или пространство входа, полностью описывается двумя гипотезами Д и //2 с Р(Щ=р и Р(#2) = # = = 1—р. Входное пространство содержит тогда только два символа i7e, θ=1, 2. Эти символы передаются посредством некоторого дискретного рандомизированного процесса, отбирающего последовательные символы независимо с вероятностями ρ и q. Приемник, или выходное пространство, есть выборочное пространство & элементов х, рассмотренное в разделе 2 главы 1. Действие канала с шумом описывается посредством плотностей вероятности fB(x), θ = 1,2, введенных в разделе 2 главы 1, так что \ц(Е)— условная вероятность того, что переданный символ Нь принимается как χξΕξ§. Эту систему связи можно обозначить (р; fv /2), а канал—(Д, /з). Скорость передачи информации этой системы jR(p; /i,/а) была определена Шенноном (1948) как разность между энтропией (см. раздел 4 гл. 1) источника или энтропией входа (априорной неопределенностью), и средней условной энтропией входа на выходе (апостериорной неопределенностью), т. е. R fa U Λ) = ^Г(в) - ЯГ (θ|χ), где <2%"(θ) — априорная неопределенность, а <£% (Щх) — апостериорная неопределенность, определяемые выражениями ^(6)=^p(^01ogP(^0-P(^)logP(^) = ^logp-^log^,(5.1) & (ЩХ) = Е(-Р (Щх) log Ρ (Щх) — Ρ (Щх) log Ρ (Щх)) = = - [(Ρ (Щх) log Ρ (Щх) + Ρ (Щх) ΐοε Ρ (Щх))/(х) άλ (xl (5.2ϊ
36 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 rne f(x)=pf1(x)-^qU(x). [Ср. Линдли (1956, стр. 986—990).] Скорость передачи информации по системе связи является также мерой связи между входными и выходными символами. Используя выражения для <=5Γ(Θ) и <2%" (Θ|Χ), данные в (5.1) и (5.2), получаем 2 Я (к U /0=2 \ П*№*ъ p^'ft) d4x)== 8=1 ' =| (/>/i(*)log^-N/2(*)log £$)dk(x)^0, (5.3) где Р{Щ, χ) dl(x) = P(HB\x)f(x)dl(x)—совместная вероятность 2 #е и ■*- Отметим, что У ι Р(НВ, х) log p * *' ** ■ rfX(at) может быть 8=1 определена [ср. (4.2) гл. 1] как средняя информация в X относительно Щ. Пропускная способность С (Л,/2) канала (Д,/2) по Шеннону (1948) равна max R(p; fh /3), т. е. равна максимальной скорости передачи по всем возможным источникам. Обозначим максимум C{fb f%)/J(l> 2) по всем /х и /2, которые являются плотностями относительно одной С (f f) и той же меры, как max У*\ J! . Можно утверждать [ср. Сакагути (1955, 1957а)] следующее: Теорема 5.6. Доказательств о. Заметим, что функция R(p; fb /2)в (5.3), как функция/?, 0^/?^ 1,выпукла (вторая производная отрицательна); Я(0; А Л) = Я(1; Λ, /2) = 0, а #(0; Λ, Λ) = /(1:2), определенной в (2.5) главы 1, K(l; fb /2) = —/(2:1), определенной в (3.1) главы 1, где Rr обозначает производную R по /?; максимум R(p; fl3 /2) достигается для такого /?, что J/i (*) log^dX (*) = J Λ (χ) logff$d\ (χ). Далее, представляя fi(x)=pfi(x)-\-qfi(x) и используя выпуклость как в примере 3.2, имеем ^ J />/i (*) log^ga(x)+ J qf, (x) log g^jdX (*) = <?/(!: 2).
61 информация по фишеру 37 Аналогично J/2(х) 1оёуЩ Л(дг)</>/(2:1), так что R(p; fb /2) < ^рд(/(1:2) + /(2:1)) или С(Л, /s) = max Я(ρ, /„ /j)< 1У(1,2), откуда, наконец, получаем неравенство теоремы. 6. ИНФОРМАЦИЯ ПО ФИШЕРУ Меры информации, которые мы изучаем, связаны с мерой информации Фишера. Рассмотрим параметрический случай, когда члены семейства т из теоремы 4.2 имеют один и тот же функциональный вид, но отличаются значениями Α-мерного параметра В = (въ θ2, ..., θ^). Предположим, что в и θ —}— Δ0 — соседние точки в Α-мерном параметрическом пространстве, которое, по предположению, является открытым выпуклым множеством в Α-мерном евклидовом пространстве, и /1(α:)=/(α:,Θ)> /2(λ:)=/(χ, θ-(-ΔΘ). Мы покажем в этом разделе, что 7(θ:θ-(-ΔΘ) и J(6, Θ + ΔΘ) могут быть представлены в виде квадратичных форм с коэффициентами, определенными информационной матрицей Фишера. [Ср. Сэвидж (1954, стр. 235—237)]. Можно написать 7(Θ,6 + ΔΘ)= J (f{χ,6)-~f(x,θ + Δ6))log/£$·_£!щdK(*> = = $/(A:'e)T^rAl0g/(x'e)a(^ И /(θ: θ + Δβ)= - If (χ, θ) Δ log/(*, 6)dX (л), где Δ/(*,θ)=/(*,θ + Δθ)—/(*,θ) и Δ log/(λ, θ) = = log/(*, θ + Δθ) — log/C*, θ). Предположим, что плотность f(x, θ) удовлетворяет следующим условиям регулярности [ср.Герлянд (1954), Крамер (1946а, стр. 500— 501)1: 1. Для всех χ [λ] частные производные -^, *$ξ9 ^ЩЖ, существуют по всем α, β, γ=1, 2,..., А, в каждой точке θ' = ~ 0ч> θ2,..т) θ^), принадлежащей невырожденному интервалу А = =(е <е;<еа+деа). *· Для любого θ'ζ Л ΐΙ<'<* bS»|<e» |a£affi;|<:»«
38 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 для всех α, β, γ=1, 2, ..., k, где F(x) и Q(x) интегрируемы [λ] по всему пространству и \f(x,в) H(x)dl(x)<^M <^co, где Μ не зависит от б = (9ьθ2,...,θ^). 3. §η^άλ(χ) = 0, ^^^-а(лг) = 0длявсехв,р=1>2>.., ft. Разлагая в ряд Тейлора по Θ, получим Iog/С*, θ + Δθ) — log/(*, θ) = _ у δθ aiog/ ι * У Уде δθ аЧоё/-ц — Ζι « аеа +2! ΖΖι · °β aeaae + a=l a α=1β=1 Ρ + 1 У У У Δθα Δθβ ΔΘΎ (#Μ ) , (6.1) α=1 β=1 τ=1 ρ где в последнем члене θ заменено на θ -j- £ΔΘ = (θχ -j- txtSb θ2 -j- ί2Δβ3,..., Θ^-|-^ΔΘ^), 0<^ίβ<^ΐ, α==1, 2, ..., k. Кроме того, имеем aiog/_ ι а/ »iog/_ ι а2/ ι а/ а/ , 2. $К — / <эеа' aeeaep — / аеа аер /* аеа аер · ^· ' Можно, следовательно, написать α=1 α=1 β=1 ft Λ ft -i ί [Σ 2 Σ ^MiSftlU*»- α=] β=;1 γ=1 ft -4i^i(^-7*i)*w- α—] β~1 ^ ^ - ^τί ί ί Δθ« П 4 ί/(ϋζ&Γ^Λ^ (6.3)
7] ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ 39 В силу условий регулярности, пренебрегая членами выше второго порядка, имеем /(Θ:Θ + ΔΘ) = |2 2νθ«Δθβ> <6·4> α=1β=χ1 где и G = fefi) — положительно определенная информационная матрица Фишера [Бартлетт (1955, стр. 222), Джеффрис (1948, стр. 158), Дуб (1934), Мандельбройт (1953, стр. 34—35), Рао (1952, стр. 144), Сэ- видж (1954, стр. 235—238), Фишер (1956, стр. 153), Хузурбазар (1949), Шутценбергер (1954, стр. 54)]. Наметим доказательство соответствующего результата для J(6, θ -\- ~ί/(*»β)(7·ίΔβ»+···+7^Δβ*)'Α(*)= 7. ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ В определении /(1:2) раздела 2 главы 1 мы предполагали, что вероятностные меры μχ и μ2 абсолютно непрерывны одна относительно другой. Существенной причиной такого предположения было требование определенности интегралов /(1:2) и /(2:1), для того чтобы J(l, 2) могло существовать. Если ограничиться рассмотрением только /(1:2) и не иметь дела с J(l, 2), то можно изменить некоторые первоначальные предположения такие, как предположение об однородности семейства мер в теореме 4.2. Если внимательнее изучить интегралы в (2.1) и (2.5) главы 1, то можно увидеть, что они остаются определенными, даже j*ra/i(.*)==0 при х£Е, а Мх)фЪ, χζΕ, λ(£)^0, так как U log О по определению нуль. Таким образом, если иметь дело только с /(1:2), нам нужно просто предположить абсолютную непрерывность вероятностной меры μχ относительно вероятностной меры μ^, τ. е. J4(£)=:0 для любого измеримого множества £, для которого μ2(£)=0. соответствии с теоремой Радона—Никодима (см. раздел 2 гл. 1 и там же ссылки) имеем:
40 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Для того чтобы вероятностная мера \it была абсолютно непрерывна относительно вероятностной меры μ2, необходимо и достаточно, чтобы на SC существовала неотрицательная функция f(x) такая, что μΐ(£)=$/(*)<ίμ>(*) (7·1) для любого Εζ^ΙΒ. Функция f(x), производная Радона—Никодима, единственна в том смысле, что если μι(£)=$*(*)Φβ(*) (7·2) для любого Е^Ш, то /0*0=£"(-*;) [λ]. Мы пишем а\хг (х) ==/ (χ) άμ% (χ) или f (x) = d^/d^ Результаты разделов 2 и 3 остаются в силе, если вероятностная мера μι абсолютно непрерывна относительно вероятностной меры μ2. Так, для f(x), определенной в (7Л) [сопоставляя с (3.1) и замечая, что Д (χ) =f (χ), /2 (χ) = 1 с μ2 (Ε) = ξ ίίμ2 (χ)]> имеем Ε /(1:2) = \ log/C*) d^ (x) = ]f (χ) log/(*) ί/μ2 (χ). (7.3) Заметим, что множество Е, согласно следствию 3.1, не содержит информации для различения в пользу Ни если μ1(£) = 0, а μ2(£)^0. Теорема 4.2 также сохраняет силу, если требование о принадлежности вероятностных мер μχ и μ2 однородному семейству вероятностных мер заменить требованием принадлежности их семейству вероятностных мер с доминирующей мерой. Семейство Μ мер, определенных на $, называется семейством с доминирующей мерой, если на $ существует мера λ, не обязательно являющаяся членом семейства Μ такая, что любой член семейства Μ абсолютно непрерывен относительно λ. [См. Фрезер (1957, стр. 19), Халмош и Сэвидж (1949).] Применяя теорему Радона—Никодима к каждой мере μ^, принадлежащей семейству мер с доминирующей мерой, имеем [ii(E) = \fi(x)dl(x) для всех ££#. Ε Пример 7.1. Предположим, что популяции, соответствующие гипотезам Ht и #2, — равномерные популяции с 0 ^ χ ^ 6lt 0 ^ χ ^ θ2, bt < θ2 и I 0 в противном случае, I 0 в противном случае, их ,„. С dx μι(£)= J^f, μ*(£)= J Заметим, что μχ (Я) = f /t (x) dx = 0, но что μ2 (Ε) = ^ /2 (λ:) ίί,χ;
ИНФОРМАЦИЯ И ДОСТАТОЧНОСТЬ 41 7] /θ θ1)/θ2 ^ 0, когда Ε = {λγ:Θ1<^λ;:^Θ8}. Мы видим, что μ2 не является ~бсолютно непрерывной относительно μ1? но μ1 абсолютно непрерывна относительно μ2, так как μ!=0, когда μ2 = 0. Обе меры μι и μ2 абсолютно непрерывны относительно меры Лебега. Затем /(1:50- Ц]°*Ща*+ 1°1о^7^ (7'4) О Θϊ или, в обозначениях (7.3), ef /(1:2)- J/Wlog/(x)^, о где / (х) = 02/θι ПРИ O^x^Oj и/(л:) = 0 при 6х^л:^62) так что '(l = 2)-fttoef)J = «08j (7-5) и, следовательно, для случайной выборки Оп в я независимых наблюдений /(1 :2; Оя) = л log θβ/θι· Известно, что если S£ — пространство выборок в η независимых наблюдений и К— Τ (χ) = max (xlt x2,..., xn), то gt (y) = nyn-ifti, Ο^^^θ;, и нулю в противном случае, г = 1,2. [Уилкс (1943, стр. 91).] Таким образом, имеем /(1:%У) = ί ^r'bgl ^-«logi2. (7.6) О Так как «log (θ2/θ1) = /(1:2;^) = /(1:2;^), то в силу теоремы 4.2 заключаем, что максимальная величина в выборке из равномерной популяции с нижней границей области определения, равной нулю, является достаточной статистикой. [Ср. Леман (1950а, стр. 3).] Пример 7.2. Рассмотрим экспоненциальные популяции /i (χ) = е^х ϊ\ 6j < л: < оо, ft (χ) = 0, — oo < χ <6г, г = 1, 2, θ4 > θ2. Находим, что оо /(1:2)== ί e-i^-Bi) (θι_у dx = θχ_θβ (77) и для выборки Опъ η независимых наблюдений /(1:2; Оп) = п/ (1:2; ОО = ^η^ — θ2). Известно, что если ^—пространство выборок в η независимых наблюдений и К= Τ (χ) = min (*lt *2 ,...,.*;„), то g£ (з>) = яв~л(-у"в«), °»^3'<οθι и н^лю в противном случае, г = 1, 2. [Уилкс (1943, стр. 91).] Таким образом, получаем оо /(1:2;^)= $ ^-"Ο'-Βι) (ηθ1 — ηθ2) dy = η(θχ — θ2). (7.8) Так как η(θ1 —θ2) = /(1:2;^Γ)--=/(1:2;^), то в силу теоремы 4.2 заключаем, что наименьший член выборки из популяции экспоненциального типа е {x—B)t Θ^λ;<οο, нуль в противном случае, является достаточной статистикой.
42 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 Пример 7.3. Рассмотрим пуассоновские популяции с параметрами λ1? λ2. Находим, что со /(1:2)= У £Z^liogi^ig- = X1log^- + (X2-X1)> (7.9) ЛГ=0 и для случайной выборки Оп в η независимых наблюдений /(1:2;Ол)== = til (1:2; 0t) = п\ log (Xj/X2) -j-я (λ2 — \). Известно, что если SC — прост- п ранство выборок в η независимых наблюдений и Υ= Г(л:)= ^] хи т0 gi(y) = e-**i(rikdyy\ з> = 0, 1, 2 ,...; l=\, 2 [Крамер (1946а, стр. 205)]. Таким образом, имеем со /(1:2;У)-2 ^l0g ^ι*. U)v =яХ* *°g ξ+ " <*.-**>- (7Л0> Так как I (\ :2;3?) = 1(\:2;У), то в силу теоремы 4.2 заключаем, что η J)xi является достаточной статистикой для пуассоновских популяций. [Ср. Леман (1950а, стр. 3).] Пример 7.4. Рассмотрим пуассоновские популяции примера 7.3, где / (1 :2) задается равенством (7.9). Предположим, что £& является пространством, элементы которого — неотрицательные целые числа, и Y=T(x) есть 0, 1, 2, когда χ равен 0, 1 или ^2 соответственно. В примере 3.3 было показано, что /(1:2;^Г)>/(1:2;У), и следовательно, К не является достаточной статистикой для пуассоновских популяций. [Ср. Леман (1950а, стр. 3—4).] 8. ЗАДАЧИ 8.1. Вычислите /(1:2; X), /(1:2; Υ\Χ=χ), Ι(\:2;Υ\Χ), /(1:2;Χ,Υ) для распределений, данных в примере 2.2: (а) когда pf = p§ = p2; (б) когда μ1χ — = μ2χ; (В) КОГДа μ1ΛΓ = μ2χ, р1у = \Ъу 8.2. Проверьте следствие 3.3, используя соответствующие случаи из примера 2.1. 8.3. Покажите, что в примере 3.4 равенство имеет место, когда χ — достаточная статистика. 8.4. Если ft (χ), /2 (χ), f(x) —плотности распределений из однородного семейства мер, то ■J" Λ <*) ^К^Ц Λ (χ) ^ J Λ (χ) log /Ц- dk (χ). Когда имеет место равенство? 8.5. Докажите теоремы и следствия раздела 5. 8.6. Каков максимум по ρ величины R(p',fi,f2) в (5.3)? 8.7. Какова величина /(Θ + Δθ*. β), в обозначениях раздела 6, как квадратичной формы?
81 ЗАДАЧИ 43 8.8· Покажите, что для популяций и статистик примеров 7.1 и 7.2 условия равенства в теореме 4.1 выполнены. 8.9. Положите в выражении (7.5) θ2 = θ-[-Δθ, θ4 =θ. Сравните с результатами, получающимися согласно разделу 6. 8.10. Положите в выражении (7.7) 61 = θ + ΔΘ, θ2 = θ. Сравните с результатами, получающимися согласно разделу 6. 8.11. Выведите выражения для gt(y), данные в примерах 7.1, 7.2 и 7.3. 8.12. Покажите, что число «успехов» в выборке из η независимых испытаний является достаточной статистикой для биномиальных популяций. 8.13. Покажите, что выборочное среднее является достаточной статистикой для нормальных популяций с одинаковой дисперсией. 8.14. Пусть f(x)— плотность распределения со средним μ и конечной дисперсией σ2 такая, что f(x) log/(χ) суммируема (Hog£ по определению равно 0 при г = 0). Покажите, что $/Wlog/(.)^log(-^) с равенством тогда и только тогда, когда f (х) совпадает почти всюду 1 / (χ — μ)2\ τη _ с плотностью нормального распределения —— ехр ( — ■ 0 а · ι^Ρ- ВУД" σκ2π \ ζσ / ворд (1953, стр. 25), Am. Math. Monthly, vol. 64 (1957, стр. 511 —512), Шеннон (1948, стр. 629 — 630).] 8.15. Обобщите результат задачи 8.14 на многомерные плотности вероятности. 8.16. Вычислите /(1, 2; Х)у /(1, 2; Y\X=x)9 /(1, 2; Y\X), J (1, 2; Χ, Υ) для популяций примера 2.1. 8.17. Вычислите величину /(1, 2; Χ, Υ) в примере 2.1 для p1 = Ps = P, μ1ΛΓ = v-iy, μ2χ = v-ъу, ν% = «J. Сравните полученную вами величину с 2/(1:2; X), когда ρ изменяется от — 1 до 1. 8.18. Вычислите /(1, 2), /(1, 2; Оп), /(1, 2; V) для популяций примера 7.3. Каковы соответствующие величины для популяций примеров 7.1 и 7.2? 8.19. Положим в (5.3) /е (χ) = μθ (Ег), х 6 Еи i = 1, 2, θ = 1, 2, где 2 \ SC = U Еь Ει Π £s = °ι f*i (£i) — ^2 (E2)f P = Q =~2" · Покажите, что в этих условиях R (p; fti /2) = μ! (£t) log fyt (Et) + μχ (E2) log 2μ4 (E2), что совпадает с величиной /(1:2) для биномиальных распределений при N=1, рг=- = R (^i)» ft = 1 — Pi = 14 (^2)» Ps == 02 = -9" · [См. ваш ответ в задачах 5.2 (а) и 5.8 гл. 1.] Какова величина R (p; fly /2), если μ1 (Et) = μ2 (Е2) = 1? 8.20. Вычислите величины /(1:2; X), /(1:2; К|АГ=0), /(1:2; Г|А0 Для распределений задачи 5.8 главы 1. Согласуются ли ваши величины со следствием 3.3 (в)? 8.21. Пусть в выражении /(1:2)= [ ft (x) log f}^\ d\(x), /2 (x) = J /2 (-*j -^)/Х(Л),/Л*) = *дП^>^^ al4(^)—характеристическая функция множества Л. Покажите, что для любого множества Εζ§: (а) μι (Ε) = λ (Ε{)Α[}Β)Ιλ (Α[\Β), μ, (Б) = 1, (б) μ2 (Ε) - λ (ΕΓΗ)/λ (Λ), μ2 (θ) = λ (Я ΓΗ)/λ (Λ),
что 44 свойства информации [гл. 2 (в) если λ (Ε) = 0, то μ± (Ε) = μ2 (Ε) = О, (г) если μ2 (Ε) = 0, то μ, {Ε) = О, (д) если /2 (л;) = 0, то /х (л:) = О, (е) /(l:2) = log5^^=-logPa(B). Отметим, что (е) дает винеровское определение информации, которую можно получить от знания того, что χ ζ В, когда уже известно, что χ ξ-А [Пауэре (1956, стр. 44 — 45)]. 8.22. Покажите для данных задач 5.8 главы 1, что разбиение ^ = £1UE2, где Et = (x = Q, у = 0)[)(х=\, у=\) и Е2 = (х = 0, у=\){}(х=\, у = 0), является достаточным разбиением или что статистика Τ (χ, у) = О для х=у, Т(х, у) = \ для хфу — достаточная статистика. 8.23. Покажите для данных задачи 5.8 главы 1, что статистика Т(х, у) = = х не является достаточной статистикой. 8.24. Пусть /г (χ), ί = 1,2,..., η, — плотности распределений, принадлежащих однородному семейству вероятностных мер, и пусть/?г- $= О, г = 1,2,..., я, таковы, что Л+/>я + ...+/Ь=1. Если /(*)=αΛ (■*)+АЛ (*) + ■■ ■ η ■. ■ -\-Pm fn (л:),покажите, что максимум величины R (р,-;/0 = \ ( У Pifi (х) X X log i ) () d\(x) по всевозможным наборам pi достигается для таких р^ f \x) I J А (х) log fj$Ok (χ)=J/, (x) log^ Λ (χ) =... = J /„ (λ) log^| d\(x) и что max 7? (pif /Л равен этой общей величине. Покажите также, что R (Pit fi) =^ y\PiPj J (*> Л* Опишите соответствующую модель связи, как в конце раздела 5. 8.25. Пусть fi(x)ypiy /=1, 2,..., я, и /(χ) определены так же, как в задаче 8.24, и предположим, что g(x) есть плотность распределения, принадлежащего тому же однородному семейству вероятностных мер. Покажите, что η 2 л J Л (*) log f|f Л <*> > $ fWlog Щ rf* <*> с равенством тогда и только тогда, когда ft (x) =f2 (χ) = ...=/„ (χ) [λ]. [Отсюда следует, что для различения ^(л;) «смесь» ft (χ),..., fn (x), данная посредством /(χ), содержит меньше информации, чем среднее информации, доставляемых компонентами смеси. См. пример 2.1 гл. 3.] 8.26. Пусть / (х) — плотность распределения случайной величины, область значений которой ограничена константой V% и пусть /(х) log/(x) суммируема (t log t равно нулю при t = 0). Покажите, что ^ f (x) log/(x) dx ^ ^log(l/V) с равенством тогда и только тогда, когда /(х) совпадает почти всюду с константой 1/К [Ср. Шеннон (1948, стр. 629).] 8.27. Пусть/(х)— плотность распределения неотрицательной случайной величины со средним μ такая, что/(х) log/(х) суммируема (Mogl равно со нулю при £ = 0). Покажите, что ^ f(x) log/(x) dx^— log μι с равенст-
ЗАДАЧИ 45 т>лм тогда и только тогда, когда f(x) совпадает почти всюду с (Ι/μ^-^/μ, V^O. [См. Шеннон (1948, стр. 630 — 631).] ^8.28. Рассмотрим дискретную случайную величину а:, которая принимает значения х19 х2»···, *п и имеет среднее, равное μ, т.е. pj=P(x=J)9 η п V XjPj— V- Покажите, что 2 Pj^gPj^ Ри — *°ё Μ (β) с равенством тогда и только тогда, когда pj= щк, ™е ^ (Ρ) = Σ &*Р ^= Σ *#/ = _ у Xj^j^jL log Μ (β). (См. задачу 8.36.) [Ср. Бриллюэн (1956, 4~\ Λί(Ρ) ^β стр. 41 —43), Джейнес (1957, сгр. 621—623).] 8.29. Покажите, что /(1:2; К|Х) = 0 тогда и только тогда, когда /^ {у | χ) = Л2 (у | х) для почти всех χ (см. теорему 2.2 и следствие 3.3). 8.30. Рассмотрим дискретные случайные величины х, у; η Ри=Р{х = х»у=уЬ,1=\Л т, У=1,2 я, pim — % ру, т τη η τη η p.j= Ϊ3^/'^7>ο, 2 Σ /^ Σ λ·= Σ/ν^1» ί=ι ί=ι 7^1 ί = ι 7=1 и энтропии определяются равенствами Ш (χ, у) — — ^] Σ Pi f^0^ Pip 7 ^7· ζ7!· * (У \х) = ЦР|. Я? (У I *l) = - Σ Σλ/!ο8^. ί ί 7 /** Покажите, что (a)30(*,;y) = J0(*)+30(y|*)f (б) Ж (χ, j)< 30 (χ) +Ж (у), (в) 50 (у) 5* 30 (у |х). [Ср. Шеннон (1948, стр. 392 — 396).] 8.3L Действительная функция/(х), определенная в каждой точке интервала а^х^-Ъу называется выпуклой, если для любой пары а^(хи хЛ^Ъ ивсехХ1 + Хв=1|Х£^0|/=1Г2, hf(Xi) + λ,/(*,) </(*Л + λΛ). Функция называется вогнутой, если λ^^-Ι-λ^/^) ^f(ktx± + *2*s)· Функция называется строго выпуклой или строго вогнутой, если равенство достигается, только когда х1=х2. Покажите, что: (а) Если - \j a ■ ■ существует в каждой точке а^х^Ь, то необходимым и Достаточным условием выпуклости функции f(x) будет условие
46 СВОЙСТВА ИНФОРМАЦИИ [ГЛ. 2 (б) Если f(x)—выпуклая функция и а^(хи..., хп)^Ь то *l/ (*l) + - + V (*ll) ^/ (λΛ + ■ ■ . + *«*п), ^i + X, + ..-+Xn=lf λ,^Ο, i= 1,2,..., It. b (в) Если f(x)— выпуклая функция, ρ (χ) :>= 0, \ ρ (x)dx = 1, то а Ъ Ь \ f(x)p (χ) άχ ^f ( 5 */> (a:) tfx). α α 8.32, Предположим, что ри+рь + ...+ри = 1>Р&Ъ /= 1,2; у ^ 1,2,...,с " и qij^a^pi^app^ + .^ + ajcPic, i= 1,2; / = 1, 2,..., с, где β^ + β/2 + + —+в/с = Ь У=1, 2,...,с и α^ + β2* + ·.· + β^=14 ^ = 1, 2,..., с, а* 5=0. с с Покажите, что / (1 : 2; р) = J A/log |^ ^ Д] ^ log -^ = / (1:2; q) с равенством тогда и только тогда, когда Pi///?2/=PiAj/P2ft> /ι ^= 1»2,..., с. 8.33. Пусть хь л:2, ...,xft — выборка из значений дискретной случайной величины, К= Υ (xlt xs,..., хп) — статистика и Ρ (xlt х2,..., хп\ Щ φ О, г = 1, 2. Покажите, что Б Г8 Ρ <*„ *2 *„ | Яа) | Я» K-^J ^ l0g Ρ (К=у I tf2) · Когда достигается равенство? [Ср. Сэвидж (1954, стр. 235).] 8.34. Рассмотрим пуассоновские популяции с параметрами /^ = 1, /я2 = 2, ms = 3. Покажите, что [см. задачу 5.2 (в) гл. 1 и последний абзац раздела 3 гл. 1]: (а) J(1,3)>J(1,2)+ J(2,3), (б) /7(1,3) >]Λ77ΰ2Γ + |λ7(2,3). 8.35. Покажите, что F(pl9 р2) = Pi bg — +pt log —, 0 ^/?,· ^ 1, явля- ется вогнутой функцией /^ (/?2) при фиксированном /?2 (pt). 8.36. Пусть в задаче 8.28 χ7·—положительные целые, a pt >0 такое, что 2 ^""^=1. Покажите, что μ5s3tf(p)/P« где 30 (ρ) =— Jj PjlogP/. В частности, если х/ = у, я= оо, найдите $t и значения ру и μ, для которых достигается равенство. [Отметим, что это связано с теоремой кодирования для канала без шума. См., например, Файнстейн (1958, стр. 17 — 20), Шеннон (1948, стр. 401—403).] 8.37. Пусть 0 <с φ (α£ | χ) ^ 1, ^φ (α* fx) = 1 для всех χ £ ^[λ], рДа,·) = = J 9 (β/1 x)fj(x) d\ (χ), т. е. φ (α^ | χ) есть вероятность «события» α* при данном χ, а />у(в;)— вероятность «события» щ при гипотезе Яу, У=1,2. Покажите, что и дайте необходимые и достаточные условия равенства. Выведите следствие 3.2 как частный случай этой задачи.
ГЛАВА 3 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ 1. ВВЕДЕНИЕ Неравенство Крамера — Рао, которое дает при определенных условиях регулярности нижнюю грань для дисперсии оценки, хорошо известно статистикам из теории оценок. Сзвидж (1954, стр. 238) предлагает называть его «информационным неравенством», так как вывод неравенства был дан Фреше (1943) и Дармуа (1945), Рао (1945) и Крамером (1946а, 19466). Различные расширения сделали Баранкин (1949, 1951), Бхаттачарья (19466, 1947, 1948), Вольфовиц (1947), Кифер (1952), Сетх (1949), Фрезер и Гутман (1952), Чэпмен и Роб- бинс (1951), Чернов (1956, с помощью Чарльза Стейна и Германа Рубина). В теореме 2.1 мы выведем неравенство относительно различающей информации, которое можно рассматривать как обобщение неравенства Крамера — Рао, или информационного неравенства (если прш-шь предложение Сэвиджа). [Ср. Кульбак (1954).] Теорема 2.1 играет важную роль в последующих приложениях к проверке статистических гипотез. В разделах 5 и 6 мы установим связь теоремы 2.1 (и ее следствий) с классическим информационным неравенством. 2. МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ Предположим, что ft(x) и /2(лг) — плотносги распределений из множества вероятностных мер с доминирующей мерой на измеримом пространстве [SC, $), так что (см. разделы 2, 4 и 7 гл. 2) μι№)=$/iW<&(■*)> Εξ*, /=1, 2. Ε Для данной /а (χ) ищем член множества вероятностных мер с доминирующей мерой, который является «ближайшим» (или самым похожим) к вероятностной мере μ2 Β смысле наименьшего направленного
48 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 расхождения (см. последний абзац раздела 3 гл. 1) 7(1 : 2)= J Λ (jp) log AM.dX(jc> Так как 7(1:2)^0 с равенством тогда и только тогда, когда fi(x)=f$(x)[i] (см. теорему 3.1 гл. 2), то ясно, что необходимы дополнительные ограничения на Λ (л:), если мы хотим, чтобы «ближайшая» вероятностная мера была мерой, отличной от меры μ2. Мы потребуем от fi(x), чтобы /(1:2) было минимально при условии, что t Τ [x)fi (x) dX (χ) = θ, где G — константа, а Υ= Τ (χ) — измеримая статистика (см. раздел 4 гл. 2). В большинстве случаев θ является многомерным параметром популяций, но может также представлять собой некоторую другую нужную характеристику популяций. В главе 5 мы в деталях изучим связь θ с наблюденными выборочными значениями и значение θ при проверке статистических гипотез. Лежащий в основе проверки принцип заключается в том, что /2 (х) будет свя- за но с семейством популяций нулевой гипотезы, а /г (х) будет в пределах семейства популяций альтернативной гипотезы. Выборочные величины будут использоваться для определения «сходства» между выборкой, являющейся возможным членом семейства популяций альтернативной гипотезы, и ближайшей популяцией из семейства популяций нулевой гипотезы посредством оценки наименьшего направленного расхождения или минимума различающей информации. Нулевая гипотеза будет отвергаться, если оценка минимума различающей информации окажется значимо большой. [Колмогоров (1956, стр. 104), Шеннон (1948, стр. 649—650).] [Ср. с концепцией «наименее благоприятствующего» распределения (Фрезер (1957, стр. 79)) и «максимума энтропии» оценок (Джейнес (1957)).J Наше требование эквивалентно минимизации J [M^)^sj^ + kT(x)Mx)i-lMxfj άλ(χ), (2.1) где k и /—произвольные постоянные коэффициента. Используя метод, аналогичный методу раздела 3 главы 2, введем g{x)=fi(x)lf%(x\ так что (2.1) может быть переписано следующим образом: ligi^ogg^ + kT^g^-^lgix^d^ix). (2.2) Пусть <t(t)=tlogt + kTt + U, t0 = e-kT~1-1; тогда φ(*) = φ(ί0) + + (* —*о)?Ч*о) + у@ —'о)аЧ^(*1)> где tx лежит между t и ί0. Но, как легко проверить, φ(£0) = — ί0, φ'(£0) = 0, φ"(£1)= 1/^^>0, так
2| МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 4 ЧГО $<Р&С*0)<*ЦяС*) = где ft(**0 лежит между g(x) и е-*П*)-*--1. Из (2.3) видим, что Ι φ (g(*))^2 (*)Ξ* - $ ^*Γ<*-*~ι <£μ,(*) (2.4 с равенством тогда и только тогда, когда g{x) = e-kTW~t-\ [λ]. (2.5 Таким образом, минимум в (2.1) достигается для /1(jt)=/*(jt)=/a(jt)e-*rw-/-i [λ]. (2.6 В этом случае (2.1) и (2.4) дают /(* : 2) + кв -f /= - \f%{x)e-bn*)-i-1</Х(х). (2.7 Если мы заменим — k на τ и положим Μ^(τ) = ^/^(χ)β+τΤ^χ)άλ(χ) Λί3(τ)<^οο, то из (2.6) получим, что 1 =е~1-{ Μ$(τ), а из (2.7) — что минимум различающей информации равен /(*:2) = θτ — logAfaOc), (2.ff где е=$ тюг№(х)=$ ™'.№™*М =^^-(2.9 для всех τ из интервала, в котором Λί2(τ) конечна. В дальнейшее мы будем обозначать τ символом τ (θ), когда важно подчеркнуть, что ι является функцией Θ. Теперь можно сформулировать [ср. Кульбак (1954), Санов (1957 сгр. 23—24)] следующую теорему. Теорема 2.1. Если fx (χ)—произвольная, а /2 (х) — фиксированная плотность распределения из семейства вероятностных мер с доминирующей мерой и если Υ—Τ(χ) — измеримая статистика такая, что существуют θ=ζ^Τ(χ)/1(χ)άλ(χ) и Μ%(τ)—^/%(χ)ехТМάλ(χ) для τ из некоторого интервала, то 7(1:2)^θτ-1οκΛΤβ(τ) = 7(·:2), e = -£logM3(t) (2.10)
50 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 с равенством тогда и только тогда, когда Λ (■*) =/* С*) = ^Пх)А И/ЛГа (τ) [λ]. (2.11) Говорят, что /* (х) =/2 (х) exT^x)jM% (τ) порождает экспоненциальное семейство распределений, т. е. семейство экспоненциального типа, определяемое посредством/2(лг), когда τ пробегает область допустимых значений. Экспоненциальное семейство является незначительным расширением семейства, введенного Купменом (1936) и Питмэном (1936) при исследовании достаточных статистик. Многие из обычных статистически интересных распределений таких, как нормальное распределение, распределение X2, Пуассона, биномиальное, полиномиальное, отрицательно-биномиальное, и т. д., являются распределениями экспоненциального типа. [Ср. Блекуэлл и Гиршик (1954), Бранк (1958), Гиршик и Сэвидж (1951), Эйткен и Сильверстон (1941).] Для/*(х), определенной равенством (2.11), легко вычислить J(* 2)= J(/*(x)^/2(x))log^^^(x) = (e^E2(7(x)))T, (2.12) где E*(T(x)) = \ Τ(χ)Μχ)άλ(χ). В последующих применениях теоремы 2.1 нам представится случай ограничить множество популяций семейства с доминирующей мерой, в пределах которого может находиться f*(x). Будем называть такие f*(x) и соответствующие значения τ допустимыми. Если не существует допустимых значений τ, удовлетворяющих уравнению θ = = (d/dz) log M2 (τ), то минимум различающей информации есть ноль. Прежде чем перейти к примерам, иллюстрирующим теорему 2.1, нам хотелось рассмотреть следующие результаты, также связанные с теоремой 2.1 [Ср. Кульбак (1954), Чернов (1952, 1956, стр. 17—18)]. Предположим, что fx(x), A(x), f(x) — плотности распределений из однородного семейства вероятностных мер. Используя теорему 3.1 главы 2, имеем (см. задачу 8.4 гл. 2) = J /(x) log j^-dl(x)^0 (2.13) или J /(*) logj^dk(x)^:f(x) log Agj- dk(x) (2.14)
МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 51 с равенством тогда и только тогда, когда f(x) =/, {χ) [λ]. Если в теореме 2.1 взять Τ (х)=log (/t (λγ)/Λ (х)), то минимум величины /(/:/3) = = \ /С*01°ё (ттг) ίίλ(Λτ) при условии, что θ= ι T(x)f(x)dk(x)— =z[f(x)log(/t(x)/Mx))dk(x) равен min /(/:/2)= θτ — log Μ* (τ), Μ, (τ)= J /, (Χ) exp (τlog-^-Ц) <ВД= = $(ЛИГСЛ(-»))1^Л(х), α f (Λ (*))« (Λ ί*))1- bg 4й Λ (*) θ= 4- log Μ2 (τ) = -^ f £^ , η _ exp (τ log ^§-) /, (χ) _ ц ^ у> (χ)) Μ,Μ Αί,(τ) (2.15) (2.16) (2.17) (2.18) Заметим, что если fi(x) и /2(х) являются членами семейства экспоненциального типа, порожденного некоторой плотностью распределения, то f(x) — член того же самого семейства. Отметим следующие значения из (2Л5) — (2.18): τ 0 1 Μ* (τ) 1 1 /(*> θ -/(2:1) /(1:2) <Ш2 (τ) -/(2:1) /(1:2) βτ — log Ms (τ) 0 /(1:2) Предвосхищая обсуждение в разделе 4 [ср. Санов (1957, стр. 18), Чернов (1952)], уже теперь сформулируем: (а) с изменением θ от —/(2:1) до /(1:2) τ меняется непрерывно и строго монотонно от 0 до 1; (б) Λί3(τ), \ogM%(z) — строго вогнутые функции от τ; (в) для бит, удовлетворяющих (2.17), θτ — logM^(z) с изменением τ от 0 до 1 изменяется непрерывно и строго монотонно от О До /(1:2); (г) 0^Ж3(т)^1 для O^Tsgl.
52 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Если θ = 0, то, следовательно, существует τ0, 0<Ч0<[1, такое, что НЛ-Л) = ~ log М*Ы— — logw2, w,= inf Λί2(τ), (2.20) ο<-<ι 0= $ΛΗ1<*£$§·Λ(*)= J/o(Jf)iog-^-a(jf) + ИЛИ = ^/ο(^)1ο&^-^(χ) = /(Λ:Λ). (2.21) Бхаттачарья (1943, 1946a) рассматривал Λί3(Ό Β (2.16) для τ = γ как меру расхождения между популяциями. Чернов (1952, 1956) предлагал в качестве меры информации, содержащейся в эксперименте, величину — log( inf E(e™)). Чернов указывает, что эта информа- 0<τ<1 ционная мера такова, что информация, получаемая от η независимых наблюдений одной выборочной величины, равна увеличенной в η раз информации, полученной от одного наблюдения, тогда как информация, получаемая от наблюдений нескольких различных независимых выборочных величин, меньше либо равна сумме информации, получаемых от наблюдения каждой из них. Интересно отметить, что Шутценбергер (1954, стр. 65) определяет логарифм от производящей функции моментов (производящая функция семиинвариантов) как псевдоинформацию, так как она не обладает всеми свойствами информационной меры. Пример 2.1. Проиллюстрируем теорему 2.1 простым численным примером. Пусть /2 (х) = I \pxqN~x—биномиальное распределение с N = 2, 2 Ρ = 0,4, и пусть Τ (χ) = χ. Так как М2 (τ) = ]£j eTXh Μ = (Ре* + qY> то Q ρ (X) = *«/, (Х)/М2 (τ) = Q (p*y (**)«-* где ρ* = -J?£—yq*=-pe, + q. Отметим, что р (х) также является биноминальным распределением. Если мы желаем, чтобы Ei(A:) = e = l, то 1 = 2ре«1{ре« + <?) = 2Р* и ^^Т* В качестве возможных распределений с Et (χ) = 1 возьмем гипергеометрическое распределение Λ W = ί^)ί^χ]/(^) » « = 4> /» = 4" = « ди"
2] МИНИМУМ РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 63 скретное равномерное распределение /3С*:)=-^, х=0, 1, 2; дискретное рав- номерное распределение /4(х)=-г, х = 0, 2, /4(х) = 0, х=1; распределение /5 (х) = 1, χ = 1, /5 (.ν) = 0, χ = 0, 2; соответствующие численные величины даны в табл. 2.1. Таблица 2.1 X 0 1 2 /ι 1 6 2 3 1 6 h 1 3 1 3 1 3 η 1 2 0 1 2 /5 0 1 0 /· 1 4 1 2 1 4 /2 0,36 0,48 0,16 '■-**Я —0,12835 0,21900 0,00680 0,09745 /aiog^j —0,02565 —0,12155 0,24466 0,09746 '•**Й 0,16425 0 0,56972 0,73397 /.!<*£ 0 0,73397 0 0,73397 f* —0,09116 0,02041 0,11157 0,04082 Отметим, что /(*:2) является минимальной величиной в таблице 2.1 и что τ = log (qlp) = log 1,5, log M2 (τ) = 2 log (ρ*τ + g) = 2 log 2q == 2 log 1,2, θ=1, θτ — log Αί2 (τ) = log 1,5 —2 log 1,2 = 0,405465 — 0,364643 = 0,04082 = = /(·:2). Этот пример иллюстрирует также задачу 8.25 главы 2 с/* (х) = Пример 2.2. Используя статистику К== min (xlt xs, ... , хп), популяции и результаты примера 7.2 главы 2, найдем fiJ 1—— g*(y) = (n — T)e-"(»-*)Cv-Wf е2^;у<со. Так как оо „^-»(3--e)rfy = e + ^-, то /(*:2; ^ = ^8,+1)τ-τ82 + 1ο8(ΐ-^, где «1 + ί = θ2 + ;Γϋ-ί_Ι или , = 1J^_^_<n> и/(*:2; у) = = η(θ1 — θ2) — log (1 +n (Oi — 6S)). Таккакб1>е2 и x^logO+x) для *>—1 с равенством тогда и только тогда, когда л: = 0 [Харди, Литлвуд и Пойа (1934, теорема 142, стр. 103)], очевидно, что /(1:2; <8Γ) = λ(Θ1 — θ2)^/(*:2; ^=«(6, — θ2)-log (1 -f η^ —θ2)) ^0 с равенством для конечного η тогда и только тогда, когда θ1 = θ2.
54 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Пример 2.3. Возьмем в качестве статистики Т(х)—1р(х) [ср. Фрезер (1951, стр. 145)], где 1Е(х) = 1 для χ £ Ε и Х£(лг) = 0 для χ £ JT — — Е=Е, т. е. 1С£(лг) — характеристическая функция или индикатор множества Ε ζ 8 и J X (jc) Λ (χ) Λ (дг) = J Λ (χ) rfX (jf) = Η (Ε) = θ. Ε Теперь имеем Μ, (τ) = J /*£ W />, (χ) άλ (χ) = **(*) = τχβ (χ) Λί,(τ) ΛΜ_] «*/· Μ βΐ,(£)+μί(β) μχ (Ε) μ2 (Ε) θ=μι(£)= £>s (E) - , t=logi _ , ε^(Ε) + μ,(Ε)' *ΙΗ(Ε)ΙΗ(Ε) ' Ι (·: 2) =Η (Ε) τ -log (βν, (Ε) + μ. (β)) = =μι (Ε) kgмзмд _logM|L = μ, (Ε) μ, (Ε) μ. (Ε) Таким образом, имеем /(l:2)^M^log^ + ME)log^ с равенством тогда и только тогда, когда AW-/*W = μ2(£) Отметим, что вышеприведенное является специальным случаем следствия 3.2 главы 2 при Et^=E, E2 = E. (См. задачу 7.19.) Методом последовательного анализа [Вальд (1947)] в действительности находят разбиение пространства SC с μ1(Ε)=1 — β, μ2(Ε)==α и без потери информации, так как определяемое разбиение достаточное.
3] ДОСТАТОЧНЫЕ СТАТИСТИКИ 55 3. ДОСТАТОЧНЫЕ СТАТИСТИКИ Мы покажем, что Т(х)— достаточная статистика для семейства экспоненциального типа, порожденного функцией /2 (х). Будем использовать обозначения и понятия раздела 4 главы 2. В дальнейшем потребуются следующие леммы. Лемма 3.1. Если λ — мера на <§*, g—неотрицательная функция на *&> интегрируемая относительно λΓ~1 = γ, и μ— мера на $, определенная равенством d[i. = gTdX, то d\bT~1 = (fa = = gdXT~1 = gd^9 или, что эквивалентно Ex(gT\y) = g(y)[^]. Доказательство. Из равенства μ (Ε) = J gT (x) d\ (χ) и леммы Ε 4.1 главы 2 следует, что ν(0) = μΤ1 (0) = μ(Τ~1 (G)) = \g(y)d^ {y). о [См. Халмош (1950, стр. 209), Халмош и Сэвидж (1949), Колмогоров (1950, стр. 53), Лоэв (1955, стр. 340).] Лемма 3.2. Если λ — мера на $, f и h — неотрицательные функции на SC и *& соответственно, несли/, hT uf-КТ интегрируемы относительно λ, то Ei(f-hT\y) = Ex<f\y)h(y)[i\. Доказательство. Если положить άμ=/άλ, то v(G)= = \Ex{f\y)d^{y\ По лемме 3.1, приведенной выше, и лемме 4.1 о главы 2 имеем SEx{f\y)h{y)d^(y)=\h{y)d^{y)= \ hT(x)dp(x) = Q О Г-1 (О) = 5 f(x)hT{x)d\(x) = \Ex(f.hT\y)di(y}, Т-1 (О) С и утверждение следует из факта единственности в теореме Радона — Никодима. [См. Колмогоров (1950, стр. 56), Лоэв (1955, стр. 350), Халмош и Сэвидж (1949).] Лемма 3.3. Распределение статистики Y—T(x) для х, принадлежащих популяциям, соответственно с μ* (£)= ^ f*(x)dl(x) Ε Ря(£) = $/а(*)ас*) для Е£8, f*(x) = exT{x)Mx)/Mz(z) Ε задается соответствующей из формул v*(Q)=S«*O)*r0'). MO)=\g,{y)d^{y\oe^ (ЗЛ) о о *е g*(y) = ev&(y)llb&[il
56 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 ρτΤ{χ) * / \ Доказательство. Так как dp* =f*dl = м VV dk, v*(q)==j^(^^b)rfrO')= по лемме 3.2, утверждение следует из факта единственности в теореме Радона — Никодима. Заметим, что плотность распределения g*(y) статистики У= Т(х) порождает экспоненциальное семейство — семейство экспоненциального типа, определяемое посредством g% (у). В дальнейшем под Т(х) мы будем подразумевать измеримую функцию, не оговаривая этого специально. Теорема 3.1. Статистика Υ= Τ (χ) является достаточной статистикой для семейства экспоненциального типа, порожденного /%(х). Доказательство. Пусть Tj и т2 — два произвольных значения τ из области, в которой Λί2(τ) конечна, и пусть jf(x) и gf (лг)— плотности распределений, соответствующие τ£, ί = 1, 2. Из леммы 3.3 вытекает, что /Г (*) _ ?ιΤ{χ) Μ, fa) _gf (Γ (χ)) г> о /.· (χ) ~ ?*Тм Μ* Ы ~~Π (τ (χ))L J' l J или /i (·*) /a (·*) qi /o q\ gf(rW)"rt(rw)lAi l°·"' а это и есть необходимое и достаточное условие (4.5) главы 2 для достаточности статистики Υ= Τ (χ). Если μ2 — фиксированная мера из однородного семейства мер в теореме 4.2 главы 2, а ^ — любая мера из того же семейства, то необходимое и достаточное условие (4.5) главы 2 того, что У== Τ (χ) — достаточная статистика, может быть записано следующим образом [ср. Рао (1952, стр. 135), Фрезер (1957, стр. 20)]: Λ (*)=^Щ}"Л (*) = *м ( ВД)Л 0*0 W, (3.4) где hn(T(x)) = gl(T(x))ig,(T(x)) — функция 7(*). Видим, что /*(я) имеет тот же вид, что и fx (x) в (3.4). Следовательно, мы имеем другое доказательство теоремы 3.1. Из равенства (3.4) еще не следует, что Т(х) — достаточная статистика. Условие принадлежности мер ^ и р,2 к однородному семейству, или, более строго, абсолютная непрерывность \ъг относительно
4] ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 57 μ8, существенно для этого критерия достаточности статистики, известного как критерий Неймана. Если только fx = 0 не всякий раз, когда у2 = 0, то й12 не определена, так как ui2=/i/A a если всегда для некоторого множества Ε, Λ —0 всякий раз, когда /2 = 0, τομι(£;) = = ^/1rfX = 0 всякий раз, когда ^2(£,)=^/2rfX = 0, или ^ абсолютно непрерывна относительно μ2. В качестве иллюстрации полезен пример с равномерными распределениями. (См. пример 7.1 гл. 2.) Пример ЗЛ. Пусть I 0, л: < 0, χ > 0lf Предположим, что θ1 < 02 и положим Τ (χ) = 1, 0^ х^Ь1у Τ (χ) = 0, л: < 0, л:>61. Тогда/1(^) = 0 всякий раз, когда /2 (л:) — 0, так что μ1 абсолютно непрерывна относительно μ3. Очевидно, что f± (x) = h1& (T(x))fa (x), где Λ12(Γ(^)) = (02/Θ1)·1, 0^^<Оь /?12(^W) = (°2/ei)*0, *<0, jofi,. Следовательно, Τ (χ)—достаточная статистика (ср. пример 2.3). Однако если Οι > 021 то/ι (л:) не равна нулю всякий раз, когда /2 (х) = 0, т. е. μ1 не абсолютно непрерывна относительно μ2> и для 02<л:^01 ft (χ) не представима в виде Л (х) = Л12 (Г (л)) /, (л). Следствие 3.1. Ясли /(«ч:^; ^)= i/*(^)log^^rfX(jtr) и Доказательство следует из теоремы 3.1 и теоремы 4.2 главы 2. Следствие 3.2. £с/ш 6(т,.) = $ T(x)ft (х) άλ(χ) = Ε (Τ(χ)\τί)ί i=l, 2, то Ι(τχ: τ2) = θ(τι) (τι — τ2) — log^±Щ и J(xu τ2) = = (β(τ1)-θ(τβ))(τ1-τ5|). Доказательство. Результат проверяется непосредственным вычислением. (Ср. задачу 5.6 гл. 1.) 4. ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО Теперь мы хотим исследовать поведение /(*:2) = θτ — logM^^) с изменением τ и Θ. [См. Блан-Лапьер и Тортра (1956), Блекуэлл и Гиршик (1954), Браик (1958), Гиршик и Сэвидж (1951), Кульбак (1954), Ле Кам (1956), Хинчин (1949, стр. 76—81), Чернов (1952).] Доказательства следующих лемм предоставляем читателю. Лемма 4.1. Для всех τ из интервала, на котором функция Щ{х) существует и конечна, Ж2(т)— неотрицательная, анали-
58 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 тическая и dMa (τ) άτ d*M2 (τ) J T(x)exT^Mx)dk(x)= ^^ftO)dT(y), (4Л) J (T(x))*e"™Mx)dk(x) = Jy^ft(y)rfr(y»0. (4·2) причем равенство достигается тогда и только тогда, когда 1Ь(х:Т{х) = 0)=1. Лемма 4.2. θ (τ) = f Г (*)/* (χ) dl (χ) = Ug* (y) dyCv) = <ί Μ' (τ) = -r- log Λί2 (τ) = тгут-, где f* (χ) и g* (.у) — плотности, определенные β лемме 3.3. Будем обозначать через τ (θ) значение τ, для которого θ = — ^ tog Ms (Я) — Μ, (τ (β))' Лемма 4.3. £((Γ(λγ) — 6)2 | τ) = £·((3/ — 6)2 |τ) = £>0| τ) = - J /· w (^W*£? * м = f «· ω (Й5Г *Л « w= Лемма 4.4. J (.T(x)-6ff*(x)dk(x). ^{x)^(-)dJ^)Jdk(x)=l. Лемма 4.5. Если ^(x: T(x) = 6) Φ 1, mo θ (τ) — строго возрастающая функция τ, α logAis (τ) — строго вогнутая. При фиксированном θ функция θτ — log7W2(T) — выпуклая функция τ с максимумом, равным θτ(θ) — log Λί2 (τ (θ)), который является вогнутой функцией θ. Лемма 4.6. Если θ (0) = J Τ (χ)/* (χ) d\ (χ) = ^yg^ (у) ώγ (у), то Θ(0) = ΜΗ0), ЛГа(0)=1, V(0) = E((y-6(0)?\x = 0) = D(y\x = 0y Лемма 4.7. Если 6 = ' |τ | ^ и μ^ί·^· Γ(λ;) = Θ) ^ 1, wo Λί,(τ(β» ~ (Αί,ίτίθ))] 3? l0g Ms (ΐ (θ)) и τ (θ) — строго возрастающая функция θ. Лемма 4.8. /(*: 2) = θτ (θ) — log M% (τ (θ)) ^ 0. Равенство достигается тогда и только тогда, когда τ(θ) = 0, т. е. Θ = θ (0) =
4] ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 59 Лемма 4.9. / (* : 2) = θτ (θ) — log Ж2 (τ (θ)) — монотонно возрастающая функция при Θ^Θ(Ο) и монотонно убывающая при Θ^Θ(Ο). Теорема 4.1. /(* :2) = (θ(τ) —6(0))2/2D(j; |τ(ξ)), где ξ заключено между θ (τ) и 0(0). Доказательство. Пусть /(*: 2)== т(6) = θτ (θ) — log Ж2 (τ (θ)); тогда да'(в) = ^да(В)=:т(В), ι^(β) = ^^(θ) = τ'(θ),*ζ(θ(0)) = 0, даг(В(0)) = 0 и да(6) = да(б(0)) + (в(т) —θ(0))ι»'(β(0)) + 5-(βω — — О (О))2 w" (ξ), откуда и следует требуемый результат. В силу теоремы 2.1 и теоремы 4.1 главы 2 можно считать установленным Следствие 4.1. /(1:2;Я)^*1{1:2; ^)^{Ег{у) — E*(y)f j 2D (у | τ (ξ)), где £>ΟΙτ00)— дисперсия у с плотностью распределения, равной еУх<*)д(у)/М%(τ(Ε)), α ξ лежит между Ех{у) и Е%(у). Равенство между первой парой величин достигается тогда и только тогда, когда Υ— Τ (χ) — достаточная статистика, а между второй парой—тогда и только тогда, когда gi(y) = В частности, если у = а1у1-\- а^ -]-...-{- а^ул, где уь I = 1, 2, ..., k, линейно независимы, измеримые функции от χ (^ «2Г, δ£ = = Е\{Уд — Еъ(уд> l=h % ..., k, и cov (yiy yj \ τ (ξ)) — ковариация Vi и J'/» *> y=l, 2, ..., £, при распределении, соответствующем τ = τ(ξ), то в терминах матриц (и в обычных матричных обозначениях) Σ (τ (ξ)) = (cov (yh уj I τ (ξ))), α' = (04, α* ..., ч\ δ' = (81э δ2,... — > δ*)> (АО) — £20))2 = «'δδ'«> βΟ/|τ(ξ)) = α'Σ(τ(ξ))α. Можно показать (см. раздел 5 гл. 9), что max (α'δδ'α/α'Σ (τ (ξ)) α) для положительных значений α£, /==1, 2, ..., k, равен δ'Σ"1 (τ(ξ))δ. Итак, мы можем установить Следствие 4.2. /(1:2; ДГ) 3*7(1: 2; У) з* у δ' Σ"1 (τ (Ι)) δ. Заметим, что последний член неравенства следствия 4.2 есть информация для различения двух многомерных нормальных популяций с соответствующими средними £ΊΟι)> ^βΟΛ *—1> ···> *> и общей ковариационной матрицей Σ (τ (ξ)) (см. раздел 1 гл. 9). Следствие 4.3. J(*, 2) = (θ(τ) — 6(0)f/D(y |τ(ξ)). Доказательство. Примените метод доказательства теоремы 4.1 к /(*, 2) = (θ(τ) —θ(0))τ(Β). Следствие 4.4. /(т1:та) = (£0 Ιτι) — Е(У \ъ?рй(у\ *Ш где ξ лежит между В(гг) и θ(τ2). Доказательство. Примените метод доказательства теоремы 4.1 к следствию 3.2. Следствие 4.5. /(ть ^)==(E(y\^)-E{y\^fjD(y\^^)l где ξ лежит мерсду 6(tj) и θ(τ2).
60 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ ЦЛ. а Доказательство. Примените метод доказательства теоремы 4.1 к следствию 3.2. Надо отметить, что предшествующие результаты многомерны не только по переменным, но также и по параметрам, т. е. θ = (θ1, β* ..., 0,), τ = (τι, τ2, ..., τΛ) Υ={Υν Υ* ..., Yk) = = (Ά(χ)ί Γ2(*)> ..., Tk{x))=T{x\ а под θτ, τΤ(χ) и τ К понимаются θ^ -f- θ2τ2 +... -f- θ^τΛ, ^^(л;)-}- + τ2^(^) + ··· + τΛ(·*;) и ^yi + ^Ka-j-...-|-τΛKft соответственно. Полезно переписать некоторые из предшествующих результатов в соответствующих матричных обозначениях. Запишем и определим невырожденные матрицы О* (*) = («&(*)), Η* (*) = (/$(*)), где π обозначает любую уместную систему параметров, а /, у пробегают число компонент π, например г, /=1, 2, ..., £, где π есть τ или 0. Так как /*(*)_<У*(*)<% ■ д/*(л:) d6s , #*(*) <% ._, 9 . dty — ae1 dt/ "г ае2 Лу "г" · · ■ "г аей <η7·'y ~~ ' ' * * *' ' то, вводя aij = d6i!dxp невырожденную матрицу A=(a£y), i, j= 1, 2, ..., £, \f* dt j ~~ \f* <V /* δτ2 ' ···»/* dtj и аналогично (-ρπ**-) , имеем If* ~d*]~ \f· дб \f* dt)\P d% j — Λ\ί* de A ** dej а переходя к математическим ожиданиям, G*(t) = AO*(6)A. Аналогичным образом имеем Η*(τ) = ΑΉ*(θ) А. Лемма 4.3 теперь может быть записана как Лемма 4.10. Σ(τ(θ))==0*(τ) = Η*(τ) = Α, а лемма 4.4 —как Лемма 4.11. Σ (τ (Θ)) О» (Θ) = I == О· (τ) Ο* (Θ). Так как
*J то, вводя матрицу ((1θ)' —(ift^, c?62, ..., d6k) и аналогично матрицу (dt)f, имеем (d6) = A(dt) или (dt) = Α"1 ((1Θ). Так как ^1 = Щ^1 + Щ^ + -' + Ща^ /=1,2, ...,Λ, то можно ввести а,у = дт£/дбу, £, у=1, 2, ..., & и (а17)=А"Л Таким образом, лемма 4.7 может быть теперь записана как Лемма 4.12. (αιν') = Α-1 = Σ-1(τ(6)). Как было отмечено в разделе 6 главы 2, матрицы G*(tc), Η* (π) являются информационными матрицами Фишера. [Ср. Фишер (1956, стр. 155).] Проиллюстрируем предыдущие рассуждения числовыми примерами. Пример 4.1. Пусть J2?— пространство выборок Оп объема η из случайной величины, принимающей два значения: успех или неуспех; К= = Г(д:) — число успехов в η наблюдениях, ар/, ^-=1—рь £=1, 2, — вероятности успеха, соответствующие гипотезам Й-1У £=1, 2. Находим, что [ср. задачи 5.2 (б) гл. 1 и 8.12 гл. 2] /(1:2; Оя) = /г/(1:2; О,) - л (Pl log & + ^ log g), (4.3) — (Pilog^ + ftlog-g·). (4.4) £* M^^fw^yHn-yV{ряу> {q*r~y' Ma (τ) = <р*+ч№ <4·5> / (*: 2) = Vlt fe) - η log (/^ 0»ι) + ςύ = „ ^ log Ж + ?1 log &) = _ ("Pi — "Ps)a __ "(Pi—p3)a м- где ρ =—ί-ί- л = —if? для некоторого значения τ. заключенного между τ(ρ2) = 0 и τ (Pi) = log^8-, т. е. р лежит между pt и р2. Отметим, QiPs что в этом примере /(1:2; ^Г) = /(1:2; У)=/(*:2). Пример 4.2. Пусть .^—пространство выборок Оп объема и из нормальных популяций N(6., а?), 1 = 1, 2, У— Τ (χ) = Λ — среднее
62 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 арифметическое «наблюдений. Находим, что [ср. задачи 5.2 (е) гл. 1 и 8.13 гл. 2] /(1:2; Oj0 = n/(l:2;OJ=!-(tog J-1+^+ί?!^^), (4.7) /(1.2,jc)_Tlog^~T + ^ + 2Ϊ| . <48) в«й й ехР Г- sSr (* - θ*—ΊΓ")Ί «•"--kw— V-kv.- ■ (49> Μ М = ежр(^+§), θ* = θ2+τ-|-, где θ* = (djdx) log M2 (τ) есть среднее для распределения с плотностью g* (X), и значения τ для θ* = θ2 и θ* = θ1 соответственно равны °2 /(•iJO-e^O-^O-^l-'i!^. (4.10) Отметим, что в этом примере /(1:2; X) >/(1:2; У)>/(»:2). (См. задачу 7.21.) Пример 4.3. ^ — то же пространство, что и в примере 4.2, К= Г (л;) = = (·*» s2)» гДе ■*—среднее арифметическое, a s2= г 2, (xi — %)2 — несмещенная оценка дисперсии по η наблюдениям. Находим, что /(1:2; SC) такая же, как в выражении (4.7), (4.11) /(1:2; X) такая же, как в выражении (4.8), (4-12) /(l:2;^) = ^(log|-~-l+l), (4.13) /(1:2; У) = /(1:2; *)+/(!:2; s2) (ср. теорему 2.1 гл. 2), (4.14) М2 (tlf <cs) σ2 |/2я/|/л η—3 24 (я-i) /(tt-l)s*\ 2 / (я-1)*\ ,|Γ/»-ι\\ 2c| ; exp\ 20| ;· *.«*4> = [βρ(·Λ+^(ι-^)" β*=-^1θδΜ5Κ,τ!!)=θ2+^1, d -2 η—Ι 2 ^ -6-».v-i, ^-[l-2vJ/(n-l)]·
41 ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 63 значения zt и τ2 для θ* = θ2, θ* = θ1, σ| = σ|, σ| = σ| соответственно равны τ1(θ2) = 0>τ1(θ1) = ^^, / (*: 2) = βΛ (β,) -βΛ (θ,)- ^Μ. + oft2 (β|) + +^*(,-ЭД-!в54Е+!тгМ-,+1Ь =Mt-V + (i-f|ii^i=|ra_1(i(£))6i (416) где σ2 лежит между σ| и σ§ и It ° \ 2 (*©) = ( П 2σ4 Κδ' = ((θι-02), (σϊ-oD)- V η— 1 / Отметим, что в этом примере /(1:2; .#*)—/(1:2; ^)>/(*:2) и что Yz=T{x) = (X, s2)—достаточная статистика. Пример 4.4. Пусть SC—пространство выборок Оп объема η из нормальных популяций N(0t af)t г = 1, 2, Y=T(x) = s2, где (и— l)s2 = η = Υ] (л^—χ)2. Находим, что i = l /(l:2;0«)-n/(l:2;01)=~(log|--l + -|), (4.17) /(1:2; s2) такая же, как в выражении (4.13), (4Л8) g*/^_cTS2&(S2) __ я —3 _ С'4 :Л9) 2* " ("-Ц (("-ШЧ 2 c3Epf (»-Ц«Ч ί4] σ,Γ^-1\ Ι 2α| j еХЧ 2σ| J' <4J 2 «-«-Ьи-) 2 ^ = -^log^W=(l-24(n-I)) ' 4*:2) = ,Mo!)+£^log(l_^) = л — 1
64 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 где σ2 лежит между of и σ|. Отметим, что в этом примере / (1: 2; SC) > >/(1:2; ^)=/(*:2) и s2 не является достаточной статистикой. Пример 4.5. SC— то же пространство, что и в примере 4.4, F= Τ (х) = = — 2, ХЬ Находим, что /(1:2; J2?) такая же, как в выражении (4.17), (4.21) / (1 :2; У) - -J (log £ - 1 + -|), (4.22) ГС «=(■-¥) . «* = -4г log M2 (т) ;(-2)=σ^(σ!)+|ΐο8(ι-^Μ.) = где σ2 лежит между of и of. Отметим, что в этом примере /(1:2; SC) = я = /(1:2; ^) ==/ (* : 2) и — /, xl —достаточная статистика. Пример 4.6. J2T — пространство выборок Оп объема η из двумерных нормальных популяций. Будем рассматривать двумерные нормальные популяции с нулевыми средними, единичными дисперсиями и коэффициентами корреляции pt и р2 соответственно. Находим, что (см. пример 2.1 гл. 2) /(1:2; Оп) = п1 (1:2; О,) = η(±log L^| + ^E^f)· (425) Невырожденное преобразование # = ^ — x2> ό = ^ -j_ д;2 (4.26) переводит двумерную нормальную плотность ! ~- ехр [ — (х\ — 29х±ха + *Э \ (4·27) 2π(1-Ρ2)1/2 \ 2(1 —р2) К l V ^ 7 V
4] ЭКСПОНЕНЦИАЛЬНОЕ СЕМЕЙСТВО 65 в произведение одномерных нормальных плотностей с нулевыми средними и дисперсиями 2(1 — р) и 2(l-fp) /2* (2(1-ρ))1'» ν 4 (ι—ρ); Χ -у= π- exP I — ) ■ (4·28) "" '" " \ 4(1+ρ)/ Τ2π(2(1+Ρ))1/2 Теперь находим [вспоминая вывод (4.17) и соотношение /(1:2; и, «)== = /(1:2; и) -\-1 (1:2; υ)], что имеет место равенство „l:li,,„)-i-(l.g 1^-1+|^) + иллюстрирующее аддитивность для независимых случайных величин (см. раздел 2 гл. 2) и инвариантность по отношению к невырожденным преобразованиям (см. следствие 4.1 гл. 2). Берем теперь F== Т(х) — (уи у2), где 1 = 1 ί=1 я /г (4.30) и находим, что (ср. пример 4.5) /(1:2; у) = л/(1:2; и, «)=/(! :2; ДГ), (4.31) Λί2 (Tlf τ2) re—2 2 4(1—Ρ ^)Г/^\(4(Г-р*)) €ХР( 4(Г-Р*))Х η / пу2 \ 2 / пу2 \ п_ η 2 / /. /ι ι _ ч« ч~~2~ м.(*,ч> = (1-!<Ц^) J(i-iii±i^) О* = 2(1 -ρ·), Of = 2(1+?·), ef = AiogMs(t,,4), er = g^logM2(T1( <са),
66 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 on D*) — 2(1 —р2) 2(1+р») *V Р>- 1_4(1 —ρ2)τι/η » 2(Χ + Ρ>- 1-4(1 + ρ2)τ2/η' /e:2)^2(l-p0x^P0+llog(l-4(1"^^^ ^Wl"2"l0gr=^F+ 1 —pi J--2<Pi-P*> (1-pV (433) где р лежит между рх и р2. Отметим, что в этом примере /(1:2; ^Г) = = /(1:2; ^)=/(*:2) У= Т(х) = {уи у&)—достаточная статистика. , Пример 4.7. Используем в этом примере результаты, полученные в примере 4.2 главы 2 и в примере 2.2. В качестве несмещенной оценки рассмотрим статистику К= Τ (χ) = min (л^, ха, ..., хп) — 1/л. Находим, что & (У) = п ехр (— я (д> + 1/гг— es))f θ2---ί ^з> <<*>, /(1:2; У) = п(Ъ1 — θ2), 01^θ. (как в примере 7.2 гл. 2), (/г - - τ) ехр (— (η — τ) (у -f- 1/л — У), если η > τ, ехр (* -ΐ) Μ* ^ = ——;— » η > τ» ι η -^1θ8Μ2(τ) = θ* = θ2-1 + _ί_ τ(θ2)=0 и τ (θ,) = "(6l~6s) < η, как требовалось, 7(* : 2) = θ,τ (θ,) — θ2τ (θ,) + + li^ + i0g(l-l2i)j = „(61-e2)-log(l+n(ei-e!!))= (как в примере 2.2), = -~2ea)8(i-fn(t-e8))^^-e^2D (ν Ι * (β)). где θ лежит между Gt и θ2, θ, 2=θ2=θ2. Отметим, что в этом примере /(1:2; ЙГ)=/(1:2; у) >/(*:2).
51 БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ ( 5. БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ В разделе 6 главы 2 исследовалась связь между мерой инфо] мации по Фишеру и той, которую мы изучаем. Тут мы продолжи это исследование, чтобы изучить связь между неравенством те< ремы 2.1 и его следствиями с классическим информационным нер; венством теории оценок. Предположим, что yt, ί = 1, 2, ..., ι в следствии 4.2 — несмещенные оценки параметров. В разделе главы 2 было показано, что при соответствующих условиях регуляг. ности, с точностью до членов высшего порядка, 2/ (Θ + ΔΘ: Θ; SP) = (ΔΘ)' G (θ) (ΔΘ) = /(θ + Αθ, Θ; JT), (5.1 где (ΔΘ)' = (ΔΘ1} Δθ2, ..., ΔΘΛ) и G(0) — положительно определенна матрица (g;y(6)), Sij (6) = J /(*) (щ log/Ц (^ log/(*)) dl (χ), (5.2 Uj=h 2, ..., Κ Аналогично 2/(θ + ΔΘ:0; ^) = (ΑΘ)Ή(θ)(ΔΘ)=/(θ + ΔΟ, 0; Ψ\ (5.3 где (ΔΘ)' определено выше, а Η (θ) — положительно определенна? матрица (%(θ)), Κι (6)=J *ω(-38τ l°s g(yi) (~щ iogi ω) лт ω, ί, ;=1, 2,..., Λ. (5.4; Теперь может быть сформулирована [ср. Баранкин (1951), Дармуа (1945), Крамер (19466)] Теорема 5.1. При соответствующих условиях регулярности (Щ G (θ) (ΔΘ) ^ (ΔΘ)' Η (θ) (ΔΘ) ^ (ΔΘ)' ΣΤ1 (ΔΘ), (5.5) где (Δθ), G(6), Η (θ) определены соотношениями (5.1)—(5.4), а Σ — ковариационная матрица несмещенных оценок. Равенство между первыми двумя членами достигается тогда и только тогда, когда несмещенные оценки являются достаточными, а между двумя последними членами тогда и только тогда, когда g(y) в выражении (5.4) имеет вид eT^yh(y)lM(t(6))t где h(y) не содержит θ и М^(Ь)) = ^е'"^УН(у)а'{(у). Доказательство. Воспользуйтесь следствиями 4.1, 4.2, 4.4. В следующих леммах даны некоторые полезные результаты, относящиеся к квадратичным формам. [Ср. Баранкин и Герлянд (1951, стр. 109—110), Кульбак (1954, стр. 749), Рой и Бозе (1953, стр. 531), Фрезер (1957, стр. 55—56\1
68 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Лемма 5.1. Если обе формы х'Ах и х'Сх являются поло-, жителъно определенными квадратичными формами (в матричных обозначениях) такими, что х'Ах ^ х'Сх, то (а) корни уравнения | А — ХС | = 0 действительны и ^ 1; (б)|А|=3=|С|; (в) любой главный минор А не меньше соответствующего главного минора С (в смысле значения детерминанта или квадратичной формы); (г) y'c-V^y'A-V; (д) любой главный минор С * не меньше соответствующего главного минора А-1 (в смысле значения детерминанта или квадратичной формы). Доказательство. Утверждения (а), (б) и (в) немедленно следуют из известных теорем о квадратичных формах, например из теорем 44 и 48 у Феррара (1941). Так как А^^С^СА-1 и С~1 = ^^С^АА-1, то существует невырожденная матрица В такая, что [Бохер (1924), стр. 301] С^В'АВ и А~*=В'СВ. Применение преобразования х = Ву дает х'Ах = у'В'АВу = у'С-1у> х'Сх = у'В'СВу= = у'А-1у, откуда непосредственно следуют утверждения (г) и (д). Заметим, что можно по определению считать, что А^С, если х'Ах ^ х'Сх для любого действительного вектора (матрицы) Х^О. Лемма 5.2. Если А = (ац), l> j = 1, 2,..., k — положительно определенная матрица, то an^an'2^ail*23^.. .^ап*23"·(Λ_1)^ ^ l/яц, где а11-23...; — элемент в первой строке и первом столбце матрицы, обратной к матрице, полученной из А вычеркиванием строк и столбцов с номерами 2, 3,..., у. Доказательство. Рассмотрим две многомерные нормальные популяции с общей ковариационной матрицей А и разностью средних а'= (04, а^···» ал)· Как Уже отмечалось в связи со следствием 4.2 (и будет показано в гл. 9), информация для различения двух многомерных распределений равна /(1:2; X) = у a'A^a. Совместное распределение величин уг — хъ j/2 = х& уг = хь ..., yk_x = xk также является многомерным нормальным распределением с ковариационной матрицей В, получающейся из А вычеркиванием второй строки и второго столбца [Уилкс (1943, стр. 68)]. Для этого распределения /(1:2; V)~$'B-% где & = (h fc,..., $k-i)> βι = *ι> Е*з = *з>··· ... , §k__x=zak. Но, согласно разделу 4 главы 2, /(1 :2; ^)^/(1, 2; *&) или α'Α^α^βΒ^β для всех аь а2,..., ak и, следовательно, в частности, для α2 = 0, β^β Ss β'Β_1β, где С есть матрица А'1 с вычеркнутыми второй строкой и вторым столбцом. На основании леммы 5.1 можно заключить, что ап^а11*2. Последовательное применение этого процесса доказывает наше утверждение.
БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ 69 Лемма б.З.Если А — положительно определенная матрица пчмепноспги k\k, a U — матрица размерности г \k ранга г, Pr^k!mo a^a^a'U'iUAUT1 Ua, где a'^fa, a* ..., α,). ^Доказательство. Рассмотрим две нормальные многомерные популяции, описанные в лемме 5.2, для которых 7(1:2; J) = yX ya'A~!«. Величины уъ j/2,..., уп определенные равенством y = Ux, где Yz=(yv ..., уг)у х' = С#ъ X* ..., х*), U — матрица размерности γ ν £ из условия леммы, также распределены нормально с общей ковариационной матрицей UAU' и разностью средних Ua [Уилкс (1943, стр. 71)]. Для этого распределения 7(1:2; Ψ) = —-a'U'X XtUAU'X^Ua. Но, согласно разделу 4 главы 2, 7(1:2; 3?)^ ^7(1:2; ^), откуда и следует требуемое утверждение. Лемма 5.4. Если В — положительно определенная матрица размерности ky^k, U — матрица размерности г\к ранга г, r^k, С — матрица размерности k X г /?аяга г, wo §'С'ВС§ ^ β'ΟΊΙ' χ XiUB-WUCfr где β' = (β!, β*..., РД Доказательство. Для доказательства положим в лемме 5.3 Вг^А1 и а = С^ Следствие 5.1. Для произвольного а' = (at,... ak),aif i = = 1, 2,..., &, действительны αΌ(Θ)α^αΉ(θ)α^α'Σ_1α, α'Σα^ ^οΉ"1(θ)ο^οΌ~1(β)°» г<^ матрицы G(6), Η (θ), Σ и условия, при которых достигается равенство, определены в теореме 5.1. Доказательство. G(0), Η (θ), Σ положительно определены, так как они являются ковариационными матрицами линейно независимых величин. Первый ряд неравенств является простым повторением теоремы 5.1, а второй ряд неравенств следует из леммы 5.1. Следствие 5.2. Если уέ — несмещенная оценка 6if то о* ^ ^"(θ)^£»(θ), /==ι; 2,..., k, где hH(6) и gH(6) являются Соответственно элементами i-й строки и i-го столбца матриц Н^ДОц G-i(B). Доказательство. Используйте для доказательства следствие 5.1 и лемму 5.1. Следствие 5.3. Если ух — несмещенная оценка въ то\ >p.11.23...(fe--I);- 1 г е g ·23...7·—>элеМент первой строки и первого столбца мат- РЩы, обратной к матрице, полученной из G(6) вычеркиванием ™<Рок и столбцов с номерами 2, 3,..., j. Аналогичный резуль- ат имеет место для несмещенных оценок других пара-
70 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Доказательство. Используйте для доказательства следствие 5.1 и лемму 5.2. Отметим, что gll(Q)=lfgii(Q), если G(6) — диагональная матрица. Пример 5.1. В примере 4.1 полагаем ρί=ζρ-\-Δρ, р2~р. Нижняя грань для дисперсии несмещенной оценки р, равная pqjnt достигается для оценки p=zyjn. Пример 5.2. В примере 4.2 полагаем Ьх = θ + Δθ, θ2 = θ, σϊ = °s + β Λ β °\ -f-Δσ2, σ| = σ2. Находим, что G= , Η = ' и нижняя грань для дисперсии несмещенной оценки Θ, равная c2jnt достигается для оценки §==*. Пример 5.3. В примере 4.3 полагаем Qt = θ -f- Δθ, θ2 — θ, σ| = σ2 -{- + Δσ2, σ| = σ2. НаходИМ, что ffl η\ /Π \ /"2 Нижняя грань для дисперсии несмещенной оценки σ2, равная 2с4/я, т. е. g22, не достигается с помощью оценки s2, дисперсия которой равна 2σ4/(η—1). Из примеров 4.4 и 4.5 видно, что, когда среднее популяции известно (мы использовали нулевые средние), нижняя грань дисперсии несмещенной η 1 VI s оценки σ достигается для оценки — У Xi- Пример 5.4. В примере 4.6 полагаем рг = р + Δρ, р2 = р. Находим, что G (р) = ( /ι д\а 1 == ^ (Р) и нижняя грань для дисперсии несмещенной оценки ρ равна (1 — р2)2/и 0 +Р2)- [Ср. Кендалл (1946, стр. 33).] Теперь мы изменим предположение о том, что yit /=1,2,... ..., ky — несмещенные оценки параметров. Вместо этого предположим, что £(j/i) = 6i(9i> φ*..., φΓ), 1=1, 2,..., k, k^r, т. е. параметрами являются <pv..., ψη a j/8- не являются больше несмещенными оценками этих параметров, которых может быть несколько меньше, чем у. Определим теперь μ,/ = ^., ϋ = (μι>), /=1, 2,..., k;j=l9 2,..., г, (5.6) где матрица U имеет ранг г. Разность математических ожиданий величин yt для близких значений параметров задается теперь формулой Δθ£ = θ£ (φ -J- Δφ) — β| (φ) = μ,^Δφ! + . .. + μίΓΔφΓ + Q (Δφ), ИЛИ, В Μ8- тричных обозначениях, пренебрегая членами высшего порядка, (Δθ)=ϋ(Δφ). (5.7)
БЛИЗКИЕ ЗНАЧЕНИЯ ПАРАМЕТРОВ 71 61 Имеем также J- log/C*)=W/ ^ 1о^*> + · · · + W щ log/W, φ/ 7=1, 2,..., г, (5.8) или, в матричных обозначениях, (^logf(x)) = U'(Alogf(x)). (5.9) Аналогично (^logg(y)) = U'(-J-logg(y)). (5.10) Таким образом, получаем Ikiog f (x)) &iog f (х))'=и' (£iog f (x)) (■*iog f (х))'и (5л i} и, переходя к математическим ожиданиям [ср. Фишер (1956, стр. 155) и раздел 4], имеем G(cp)==U4j(e)U, (5.12) где 0(B) — матрица, определенная в (5.2), a G (φ) = (gij (φ)) — матрица с элементами »>(?)= ^/(*)(41о8^))(^ю8/и)л(^ /, j =1,2,..., г. (6.13) Аналогично Η(φ)=ϋΉ(θ)ϋ, (5.14) где Η(θ) — матрица, определенная в (5.4), а Н(<р)= (%(<р))— матрица с элементами М?)= J ^ω("4 log ^ Су)) (^togicv)) *t(y)> U y=l, 2,..., г. (5.15) Теперь может быть сформулирована Теорема 5.2. При соответствующих условиях регулярности (Δφ)' G (φ) (Δφ) ^ (Δφ)' Η (φ) (Δφ) ^ (Δφ)' U' Σ^ϋ (Δφ), (5.16) *te U, (Δφ), G(cp), Η (φ) определены равенствами (5.6), (5.7), (5.12), (5·14), α Σ = (σί7·), /, у=1, 2,..., &,—ковариационная матрица *¥ ^E^i- ο, (φ* φ* · - ·, φ,)) · (λ - ey (Ϋ1, φ2,..., φΓ)> Ρα**«- weo между первыми двумя членами достигается тогда и только тогда, когда уъ уъ..., yk — достаточные статистики. авенство между последними двумя членами достигается, если выполнено условие (5.25), приведенное ниже. (Ъв\ °гГазательств °- Рассматривая неравенства (5.5) и используя rJ '' ^ ^ (5-12) и (5.14), получим (5.16) и условия для достижения пеРвого равенства.
72 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Рассмотрим теперь условия для достижения равенства последних двух членов выражения (5.16). Предположим, что существуют функции zt (х\ /=1,..., г, такие, что z = Cy, (5.17) где «=[ ; U= ι ;. с=(,<д j-J;j;;;;i (ы8) и С имеет ранг г. Математическое ожидание zzf=Cyy'C/ дает S^CSC, (5.19) где ^! — ковариационная матрица компонент ζ, которые являются несмещенными оценками <pf. Полагаем R = (LTΣ^ϋ)"1. Леммы 5.4 и 5.1 дают cfCSC'a ^ a'CURU'C'a', (5.20) | СЕС | ^ | CURU'C | = | CU |21R |, (5.21) | CU |2 < | СЕС11 ΙΤΣ^ϋ |. (5.22) Если Си = 1, то из (5.20) и следствия 5.4 вытекает аВДСа Ss a'Ra ^ αΉ1 (φ) a s* o'O"1 (φ) a. (5.23) Отметим, что если элементами матрицы С в соотношении (5.17) являются константы, не зависящие от параметров, то, используя равенство (5.7) или условие CU = I, получим (Δφ) = С (ΔΘ) = CU (Δφ). (5.24) Если плотность распределения у равна g(y) = ex^yh(y)/M^ (τ (φ)), где k τ (?)У= Σ УРь (θι (<Ρι> Ъ> · · · > <ΡΛ · · · » θ* (<Ρι> <Ρ* · · · > φΓ))> λ Q0 i— I не зависит от параметров (ср. теорему 5.1) и матрица В = (£,Д bij = d*jfd<pi9 ί=1,..., г; у = 1, ...А имеет ранг г, т. е. если (-^logg(y))=By, (5.25) где у определен в (5.18), то Η(φ) = ΒΣΒ'. (5.26) Равенство (5.26) получается из (-^-logg(y)] (у-log g (у)) = ВууТ5' при переходе к математическим ожиданиям. Так как aiy· = дв^дур U ]=1, 2,..., А, и А = (а,Д то ABr=U,
bJinaiVHC ЗНАЧЕНИЯ llAFAJWtlFUb 73 что по лемме 4.10 равносильно равенству ΣΒ' = ϋ. (5.27) Из (5.26) и (5.27) получаем Η 1(φ)Βϋ = Ι. (5.28) Используя Η1 (φ) В в качестве матрицы С в неравенствах (5.23), получим αΉ1 (φ) ΒΣΒΉ1 (φ) α Ss «'R« ^ «Ή"1 (φ) α. (5.29) Подстановка (5.26) в (5.29) дает αΉ"1 (φ) α ^ arRa ^ α'Η1 (φ) α, (5.30) или Η(φ) = υ'Σ'ϋ, и, таким образом, равенство последних двух членов выражения (5.16) достигнуто. Следствие 5.4. Для произвольного аг = (о^, о^,..., ar), af, / = 1, ..., г, действительны, a'G(φ)α^а'Н(φ)α^αΊΓΣ^ϋα, a' (U'S^U)-1 а ^ αΉ-1 (φ)α ^ a'G-1 (φ) а, где матрицы U, G (φ), Η (φ), Σ ιι условия равенства определены в теореме 5.2. Доказательство проводится так же, как доказательство следствия 5.1. Пример 5.5. Этот пример является продолжением примера 5.4. Возьмем в качестве g (у) плотность распределения g* (у), определенную в (4.32), полагая при этом р* = р2 = р. Так как Е(у1) = 2(\—р), £(у2) = 2 (1 -f- ρ), имеем θ± = 2(1 — ρ), Θ2 = 2(1+Ρ)> φι = ρ, k = 2, r = 1, U = (— 2, 2). При Ρι = ρ+Δρ, ρ2 = ρ, 1 — р2 = θ4/2, 1 + ρ2 = θ2/2, 1-Ρι = (θ1 + ΔΘ1)/2, 1 + Pl = = (θ24-ΔΘ2)/2 из первого равенства соотношения (4.29) получаем а без членов высшего порядка '»+-=* »-i(^+-iSf). Таким образом, так как у — достаточная статистика, имеем η "(1 + Р*) 4(1_р)*-г4(1+р)а (1-PS)*'
74 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [Гл. з что равняется величине, полученной в примере 5.4. Так как D (ух) = 2θ?/η D (ys) — 2θ|/π и cov (ylf y2) = 0, находим, что G (φ) = Η (φ) = ϋ^ΣΓ'ϋ. В со' ответствии с (5.17) имеем гх — р= τ-0>ι—ei) + -T(Vs — es), т. е. ** — [ 4> 4JI 2Θ| Ι ί Γ 8η ~ η " Отметим, что CU=1. Мы видим, что дисперсия несмещенной оценки р, 1 П ζι = (Уг^-уо!* ——У1 ^ι^2ί равна (1 -f- Ps)/rc» что больше нижней грани П м для дисперсии несмещенных оценок р, равной (1 — р2)2/я(1 + Р2) [СР- Стюарт (19596, стр. 528)]. Оценка гх в зависимости от математических ожиданий и дисперсий Может принимать значения, которые превышают по абсолютной величине единицу. Из (4.32) видно, что матрица В в условии (5.25) равна ρ/ η п \ \ 4(1 —р)2> 4(l + p)"J' так как ^ = — и/4 (1 — ρ), τ2 = — и/4 (1 -f- Ρ) и> следовательно, /«О-Ρ)3 π \ / » ΣΒ' = | " ·' о 1 и / \ 4(1 + р)2' т. е. выполняется неравенство (5.27). Находим теперь, что Η-ι^Β-0-рУ ( η « \_( (t + p)s 0-р)М WD~«(l + P,)\ 4(1 —ρ)·» 4(l + p)2J-V 4(1 + PV 4(1 + P")/· и, используя Η * (φ) В в качестве матрицы С в (5.17), имеем ^-ρ=-^7Π^^-θι)+ιΤΠ$)(3'2~θ8)== =(-т-Т(ТТ^)^-2(1-р)) + (т-1ТГТ?))^--2(1+р)) = = *^-ρ-_π^+*-4)· Поскольку JB" 0?ι) = 2 (1 — ρ) и Ε (у2) = 2 (1 -f- ρ), так что ^О^+зУ — 4» рассмотрим оценку г (yly y2) = (y2—y1)l(y2+yi). Так как \r(yltys)\^l и г (ylt ;у2) непрерывна и имеет непрерывные производные первого и второго порядка по 3>ι и у2 в окрестности точки (Е (уД £ (У2))» то можно применить результат, приведенный на 354 странице книги Крамера (1946а), т. е.
ЭФФЕКТИВНОСТЬ 75 Ε (г (yi, Л» = r (£ (*>■ £ (УJ) + ° МО. D (r (и, Л)) = аЮ (yt) + 4-2ab cov (УиУ*) + ^ Ob) + О 0/я8/2), где а и & равны соответственно а -Lr(y»yJ> Wr&19 у**' взятым в точке (£(3Ίλ £ Ы)- 'Гак как ^_(14-р)/4, ^ = (1—р)/4, находим, что Ε (г (уь Л)) = Ρ + О (1/п) hD , /ν ^2))= ί1 ~~ Ρ2)2//β + ^ (V^8)- Оценка г (yIf у2) состоятельна [Уилкс (1943, теорема (А), стр. 134)], а ее дисперсия, которая меньше, чем D (0>2 —3>ι)/4), не достигает нижней грани. Взяв двумерную нормальную популяцию с пятью параметрами (θ4, θ2, of, σ|, ρ) [ср. Кендал л (1946, сгр. 38), который рассматривал в качестве параметров (6lf 6Sl clf σ2, ρ)], находим / 1 Ρ G — η σ?(1-ρ2) βΛ(1~Ρ") Ρ 1 '«Λίΐ-Ρ1) °Ι(1-Ρ8) 2-ρ 0 0 0 ϋ 0 0 ο ο ο ο 4cJ (1 - ρ2) 4σ|σ1 (1 — ρ2) 2σ|(1_ ρ2) Ρ2 2-ρ2 ρ 4σ?σ1(1-ρ*) 4σ1(1 —ρ·) 2α« (1 - Ρ1) Ρ Ρ 1+Pa \ U υ 2α»(1—ρ«) 2σ|(1 —ρ») (1-ρ: )2/ Находим далее, что g&5 = (1 — p2)2//z=g-&5-1 = g·5512, g55-123= (2 —ρ2) (1 — — р2)2/2я, g·55-1237* = l/g-53 = (1 — ps)2/n (1 +p2), что подтверждает следствие 5.3. Отметим, что £) (г (у19 у2)) приближается к нижней грани gbb (наибольшей нижней границе дисперсии несмещенной оценки р), когда п—*со. Видим также, что g-11 = c2//z и gii.s=g-ii-M_=g.ii.284==g.ii.M46==: i/g — = σ* (1 PS)M Hf = J —g-eS-l ^g-33.12^ g-33.124 = 20} (1 — p4)//l, g-33-1245 _. = 1/£з8==2с| (1 —pa)/n(l—P2/2), что подтверждает следствие 5.3. 6. ЭФФЕКТИВНОСТЬ Определим различающуюю эффективность статистики Yz=T(x) отношением /(1:2; ^)//(1 :2; 37\ Из свойств, рассмотренных в главе 2, вытекает, что это отношение неотрицательной ^ 1. Равенство достигается в том и только в том случае, если Υ=Τ(χ) — достаточная статистика. Когда плотности распределений популяций имеют один и тот же функциональный вид, но различаются соответствующими значениями ^-мерного параметра б = (6ь θ8, ... , ΘΛ), мы определяем различающую эффективность статистики Υ=Τ(χ) в точке θ ^-мерного параметрического пространства как предел lim (/(θ + ΔΘ:θ;^)//(θ-4- + Δθ:θ; 37)1 Δ6^° Различающая эффективность несмещенных оценок уь i = *> % ... , в точке θ = (Blt ... , Bk) Α-мерного параметрического Р°странства может быть определена, следовательно, как λ = (άβχ Η (θ) (άθ)/(άθ)' G (θ) (άθ). (6.1)
76 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ 1гл. з Возьмем (άθ)Ό(θ)((1θ) в качестве метрики параметрического пространства [ср. Рао (1945)]. В (5.2) ^(θ) являются компонентами кова- риангного тензора второго порядка, фундаментального тензора метрики [Эйзенхарт (1926, стр. 35)]. Так как (άθ)' Η (θ) (Щ ^ ^ (άθ)'G (θ) (άθ) и обе квадратичные формы положительно определены, то корни |Η(Θ) — XG (θ) Ι = 0 действительны, положительны и все ^ 1. (См. лемму 5.1.) Таким образом, существует действительное преобразование параметрического пространства такое, что в точке θ квадратичные формы (6.1) могут быть переписаны в виде где Xt, λ2, ... , Xk — корни уравнения |Н(0) — XG (θ) | = 0 |Эйзенхарг (1926, стр. 108)]. Обозначая cos^'= щ+...+dW 1 = г> 2> · · · ' k> (6-3) можно записать (6.2) как X = Xj cos2 <Xi -j- X2 cos2 a2 ~\-... -j- \k cos3 ak. (6.4) Направления в точке θ, заданные равенствами cosa!=l, cosa2 = = 1, ..., известны как главные направления, определяемые тензором hij(b) [Эйзенхарт (1926, стр. ПО)]. Кроме того, в точке 0 конечные максимум и минимум величины X, определенной соотношением (6.1), достигаются вдоль главных направлений в точке и действительно являются корнями уравнения | Η (θ) — XG (θ) | = 0. Так как квадратичная форма (άθ)'G (θ) (άθ) положительно определена, то величина X конечна вдоль всех направлений [Эйзенхарт (1926, § 33)]. Оценочная эффективность [ср. Фишер (1956, стр. 145—152)] несмещенных оценок уь у2, ... , yk определяется как произведение различающих эффективностей вдоль главных направлений в точке Θ, т. е. (см. лемму 5.1) 9φφ. = λι, Х2, ... , λΛ = |Η(β)|/|0(β)|^1. (6.5) Так определенная эффективность инвариантна относительно всех невырожденных преобразований параметров. Равенство имеет место тогда и только тогда, когда оценки являются достаточными. Предположим, что мы имеем η независимых наблюдений из /-мерной популяции с k параметрами. Определим асимптотическую различающую эффективность несмещенных оценок уь /==1, 2, ... , k, в точке θ параметрического пространства равенством
ЭФФЕКТИВНОСТЬ 77 61 элементы G (θ) вычисляются для единичного наблюдения из /-мерной популяции. Так как ((Ш)' 2Г1 ((Ш) ^ η (d9)' G (θ) {OS) и обе квадратные формы положительно определены, то корни уравнения Ι2Γ1 — λ/iG (θ)| = 0 (6.7) ействительны, положительны и ^ 1. (См. лемму 5Л.) Конечный максимум и минимум (6.6) являются корнями уравнения (6.7) и дости- аются на главных направлениях, определенных тензором ои в точке Θ, где ΎΓ* = № Асимптотическая оценочная эффективность несмещенных оце- н0К у.9 i=zl, 2, ... , k [ср. Крамер (1946а, стр. 469, 494)], определяется как произведение асимптотических различающих эффективности вдоль главных направлений в точке Θ, т. е. Асимят. эфф. = ХдХ2 ... \k = | Σ 11 /1 nG (Θ) | ^ 1 (n большое). (6.8) Равенство имеет место для всех п, если выполнены условия равенства теоремы 5.1. Если | Σ|| G(θ)| ~+п~к, то асимптотическая оценочная эффективность приближается к единице и корни уравнения (6.7) также приближаются к единице. Различающая эффективность смещенных оценок yi9t=l9 2, ... ... , ky теоремы 5.2 в точке у = (уъ ... , <рА) r-мерного параметрического пространства может быть определена как 1_(*кРУН(у)(|1д>) (69) (<ϊψ)Ό(φ)(<ϊψ) где матрицы ϋ(θ), Η (θ) определены равенствами (5.12) и (5.14) соответственно. Рассмотрения, аналогичные тем, которые включают в себя соотношения (6.1) — (6.4), позволяют нам установить, что λ, определенное равенством (6.9), конечно по всем направлениям, конечные максимум и минимум λ являются корнями уравнения | Η (φ) — XG (θ) | = = ]U'H(6)U — XU'G(6)U| = 0 и достигаются в точке φ вдоль главных направлений, определенных тензором /г17(<р), с (ύψ/0(φ)((1φ) в качестве метрики параметрического пространства. Отметим, что если статистика Y=T(x) = (yu уь ...>вул) достаточная, то на основании теоремы 5.2 различающая эффективность равна единице. Оценочная эффективность смещенных оценок уь /=1, 2, ... ··· у К теоремы 5.2 в точке φ = (φι, <ра, .·· > <рг) r-мерного параметрического пространства определяется как произведение различающих эФфективностей вдоль главных направлений в этой точке, т. е. Эфф-λ λ χ { Η (<р> f 1U'H(B)U| Qfr)|— | U' G (θ) U | венство достигается тогда и только тогда, когда статистики доста- 1 очные.
78 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 Асимптотическая различающая эффективность в точке φ = = (<Ρι> ... , φΓ) r-мерного параметрического пространства определяется равенством (см. теорему 5.2) где элементы G (φ) вычислены для единичного наблюдения из популяции. Величина λ в (6.11) конечна по всем направлениям, и ее конечные максимум и минимум являются корнями уравнения | U Σ^ν — InG (φ) Ι = IU' IrlV — λ/iU' G (Θ) U | = 0, (6.12) т. е. достигаются на главных направлениях, определенных тензором, компоненты которого суть элементы матрицы ϋ'Σ-1υ. Асимптотическая оценочная эффективность смещенных оценок уь уь ... , yk теоремы 5.2 определяегся как произведение асимптотических различающих эффективностей по «главным направлениям в точке φ = (φι, ... , <рД г. е. Асимпт. эфф. = λ,λ, ... V—1Т7Ю"Ш = 1 ιίίΓΟ (θ) UT ^ * (п большое). (6.13) Для несмещенных оценок (<pt, φ2, ... , φΓ) с ковариационной матрицей CSC такой, что CU = I, из неравенства (5.22) видно, что | (CSC)-11 ^ | ϋ'Σ-1υ |, и, следовательно, гакие несмещенные оценки имеют не большую асимптотическую эффективность, чем смещенные оценки, которые мы рассматривали. Кроме того, если условие (5.25) выполнено и Y=T(x) — (yi, j/2, ··· > Ук) — достаточная статистика, то асимптотическая эффективность, определенная в (6.13), равна 1 для всех п. Пример 6.1. Из примера 5.3 видно, что различающая эффективность (х, s2) равна единице, как и оценочная эффективность. Тем не менее, так как корни уравнения -XnG| = = 0 есть λ1=1, λ2 = асимптотическая различающая эффективность при фиксированном σ2, τ. е. в направлении среднего, равна единице, тогда как асимптотическая различающая эффективность при фиксированном Θ, т. е. в направлении дисперсии, равна (и— 1)/и и асимптотическая оценочная эффективность также равна (п— 1)/и. Пример 6.2. Из примера 5.5 видно, что различающая эффективность (Ун .Уа) равна единице, как и оценочная эффективность, с аналогичным значением для асимптотической различающей эффективности и асимптотической оценочной эффективности. Асимптотическая различающая эффективность и асимптотическая оценочная эффективность несмещенной оценки
7] ЗАДАЧИ 79 * = (У1~Л)/4 обе равны (я/(1 +р2))/(и (1 + р2)/(1 - р2)2) = (1 - р«)«/(1 +Р2)2, что меньше единицы, за исключением случая р2 = 0. У состоятельной оценки г (Уи 3>з) асимптотическая различающая эффективность и асимптотическая оценочная эффективность равны (и/(1 — р2)2)/(п (1 +р2)/(1 — р2)2) = 1/(1 + р2), что меньше 1, за исключением случая р2 = 0. Оценка г (уи у2) более эффективна, чем (у2— 3Ί)/4. Результат в последней части примера 5.5 и следствие 5.3 показывают, что не может существовать несмещенной оценки ρ с асимптотической оценочной эффективностью большей, чем асимптотическая оценочная эффективность оценки г {уи у2). Отметим, однако, что для z=-te-^i)/4-p(^+^-4)/2(l+p2),£(2) = p, Я(2) = (1-р2)>(1+р2). 7. ЗАДАЧИ 7.1. Докажите утверждение (приписываемое Чернову), сформулированное в замечаниях, следующих за (2.21), о поведении — log (inf Ε (ехх)) (как 0<τ<1 информационной меры). 7.2. Докажите следствие 3.2. 7.3. Докажите леммы в разделе 4. 7.4. Покажите, что для распределений Пуассона / (1:2; SF) = / (1: 2; 30 = = /(*:2), когда Υ=Τ(χ)=χι+χ2+.,. + χη. 7.5. Докажите следствие 4.3. 7.6. Докажите теорему 5.1. 7.7. Докажите следствие 5.4. 7.8. В примерах 4.6, 5.4, 5.5 мы обсуждали достаточную статистику. Существует ли достаточная оценка параметра р? 7.9. Докажите инвариантность эффективности в определении (6.5). 7.10. Выразите (6.6) как предел отношения, содержащего /(*:2) и /(1:2; О). 7.11. Можно ли определить различающую эффективность и оценочную эффективность для статистик и популяций примера 4.7? 7.12. Сравните результаты, полученные в примере 4.7, с результатами, получающимися при использовании в качестве статистики выборочного среднего. 7.13. Вычислите J(*, 2) для данных примера 2.3. 7.14. Вычислите J(l, 2; On), J(*, 2) для данных: (а) примера 4.1; (б) примера 4.2; (в) примера 4.3; (г) примера 4.4; (д) примера 4.7. if f(x) 7.15. Рассмотрите минимум величины I(f:fi)~ \ f (x) \og~~-^d\ (х) Τ (χ) f (x) dl (x)=z \f (χ) log чгг\ <*λ {х). Покажите, что для θ = 0 minl(f:fj) удовлетворяет равенству (2.21). [Ср. пример 3.1 гл. 5; Чернов (1952, стр. 504).] 7.16. Покажите, что J (Д (χψ (f2 (x))1^ dl (x) < (μ± (£))* (μ2 (Ε))1"*, для £ζ$Ηθ<τ<1. [Ср. Адхикари и Джоши (1956), Джоши (1957).] 7.17. Покажите, ^о 2{p1—p2)s+^{p1~p2)i^p1\og^+q1\og^-^ о р2 q2 <; ~J~J^L· Cpgf равНьш наименьшему из/Од;, #,·= 1 —Pi,l = 1, 2. [Ср. Шут- иенбергер (1954, стр. 58—59).] 7.18. Покажите, что J(/0,/2) = τ0/(2:1), где τ0 и /0 (х) определены в (2.19). 7.19. Примените метод примера 2.3 для доказательства следствия 3.2 главы 2.
80 НЕРАВЕНСТВА ТЕОРИИ ИНФОРМАЦИИ [ГЛ. 3 7.20. Рассмотрите дискретную случайную величину х, которая принимает значения xltxSi ... , хп с вероятностями Ρ (л: = л:у| HJ^pj, р(х = х*\ И2) = = 1/я. Используя Т(х)~х в качестве статистики, покажите, что задача 8.28 главы 2 следует из теоремы 2.1. 7.21. Пересмотрите пример 4.2 для случая, когда σ| = σ§. 7.22. Εοηκμ*(Ε) = 1/*(χ)άλ(χ), μ*(Ε) = $Μχ)άΚ(χ), E£*f /*(*) определена в (2.11), покажите, что τ max Τ (χ) — log Λί2 (τ) ^ log -^—^ τ min Τ (χ) — log Μ2 (τ), τ > 0, τ min T(x) — log Μ2 (τ) ^ log ^—^-^ τ max Г (χ) — logAf8(«c), τ<0. χξΕ ν-ζΚΡ) χζΕ [Ср. Колмогоров (1950, стр. 42), Чернов (1952, 1956).] 7.23. Пусть в задаче 7.22 /2 (х)= Г J Μ , * = <), 1, ... , и и Г(х) = х; а (a)Mf(T) = (I+i-^)nf »-Jf ν —- П I и я* — . 1 +β*' 2 (") (/>*)* («·)"""* тогда (б) /* (*)-Q (/>*)* (<7*)Λ~*, Χ = 0, Ϊ, ... , И, p*=rJ-—,g· (в) nlog2tf*^log*~° ДШ" х=0 :rlog2p* + (n — r)log29*, />*<^, (г) г log 2р* + (и — г) log 2ς*; 2(")(р*И(9*)П~ Ш7 :l0g£zii__ ^nlog2?*,/?*>!, лг^О Σ Ш" дг = 0 '<г<г
7] ЗАДАЧИ 7.24. Пусть в задаче 7.22 /2 (х) = ~—- е~х2/2, ]/2π = х; тогда (3)Λί2(τ)=*τ2/2, (б) /*(A-)=~L·^^"^ (в) оо tog^ 5=ατ — ^-, τ>0. α 81 —oo < χ < oo и Γ (.ν) = 7.25. Покажите, что | G (θ) 11 2 | ^ 1, где Σ и G (Θ) определены в теореме 5.1. Когда достигается равенство? 7.26. Покажите, что | G (φ) 11 ϋ'Σ-1 U |-1^ 1, где Σ, G (φ) и U определены в теореме 5.2. Когда достигается равенство? 7.27. Найдите /* (х) = етТМ/2 (х)\М2 (τ) и /(*:2), если Γ(χ) = 1+χ, /ι(*)=Λ?ϊ» ^ = 0, 1, 2, ... , q2=\—p2, Е1(Т(х)) = Ъ=11р1. (Ср. задачу 5.5 гл. 1.) 758. Покажите, что для Μ2(τ), определенной в (2.16), т2, определенной в (2.20), *'={*-·т№<р*}· p+q==l·/,>0: (а) Ma (t) ^ fp/9)>s (£t) + (qlpy-y, (£s), (б) /^s (Ε,) -f ?μι (Es) s=£ ms.
ГЛАВА 4 ПРЕДЕЛЬНЫЕ СВОЙСТВА 1. ВВЕДЕНИЕ Основные свойства информационных мер (за исключением аддитивности), рассмотренные в предыдущих главах, описывались неравенствами. Закон больших чисел и центральная предельная теорема дают хорошую аппроксимацию результатов для больших выборок. Часто можно выяснить асимптотическое поведение и для выборок меньших размеров. В этой главе мы рассмотрим некоторые предельные свойства, а в следующей главе будем изучать свойства асимптотических распределений оценок информационных мер. Изложенные здесь идеи читатель сможет использовать при решении ряда задач, которые будут поставлены в последующих главах. 2. ПРЕДЕЛЬНЫЕ СВОЙСТВА Следующая теорема 2.1 является по существу продолжением теоремы 4.1 главы 2. Рассмотрим измеримые преобразования TN(x) вероятностных пространств (&, $, μ^) в вероятностные пространства (¥, <Г9 ψ\ где Т-$ (0)= {*: ΤΝ{χ) £ G}, ψ (0) = μ<(7^1 (G)), для G£«Г, /= 1, % т. е. TN(x) — статистика, а N—объем выборки. Теорема 2.1. Если TN(x) таковы, что UmvW(0)=v,(q), /=l, 2, Οξ^, (2.1) где vf (G) — вероятностная мера, то /(1:2; ^O^liminf/(1W:2W; У)5г/(1:2; У). i\T->oo Выражение /(1^:2^; ^) £c#zo жера различающей информации, соответствующая vi^(G), G^^, /=1, 2.
2j ПРЕДЕЛЬНЫЕ СВОЙСТВА 83 Доказательство. Получим сначала результат, аналогичный лемме, использованной Дубом (1936). Из следствия 3.2 главы 2 получим /(1W:2W; ^)^2vf)(Gy)log^g, (2.2) у где сумма берется по любому множеству попарно непересекающихся Q. таких, что ^==UjOj. Соответственно, и поэтому 11ш inf/(lW:2W *)5s Уу,(Оу)1о8 Jig|, (2.3) liminf /(1W: 2<™; ^)^7(1 :2; ^), (2.4) //--♦oo поскольку правая часть (2.4) является точной верхней гранью правой части (2.3) по всевозможным разбиениям пространства Ψ. Комбинируя теорему 4.1 главы 2 и неравенство (2.4), завершим доказательство теоремы [ср. Гельфанд, Колмогоров, Яг лом (1956), Кульбак (1954)]. Как частный случай вышеизложенного возьмем вероятностные пространства (.Ж*, 8, μ^, μ1? μ2) и допустим, что lim\i^V)(E) = ^i(E) для всех Ε (^ $. Получим Следствие 2.1. liminf/(1^):2)^/(1:2). Л^оэ Доказательство аналогично доказательству теоремы 2.1. Для любого разбиения ££ на попарно непересекающиеся Efi J liminf/(lW:2)^yH(f/)log^ff·, Hminf/(lM:2)Ss/(l:2). Рассмотрим снова вероятностные пространства следствия 2.1 с плотностями №{E)^\fW){x)dl{x), μί(£)=5/ί(^)ί/λ(^),/=1,2; Εζ%. Ε Ε Получим следующий результат. Лемма 2.1. lira /(1M:1) = 0 тогда а только тогда, когда lim (f[N\x)jfi{x))— 1 [λI равномерно по χ.
84 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4 Доказательство. Достаточность. Если положить g{N)(x)=fW(x)/fi(x), то, как показано в теореме 3.1 главы 2, /(К*>: 1)= J/^(*)i0g*i^dX(*) = = l2J(gW(x)-lY/P^-dM*)> (2.5) где Λ^> (λγ) лежит между gW(x) и 1. Для-достаточно больших N и для всех χ [λ], | gW М-1|<е, * < yL-p ε> 0, так что O^/ClW.-lxi--^—, и поэтому Hm/(lW:l) = 0. Необходимость. Если 0^/(1(А): 1)<[ε для достаточно больших TV мы видим из (2.5), что (dN)(x)~ 1)2//*(Λ°(-*0<2εΐ4 и мы получаем требуемый результат, гак как h{N)(x) лежит между g(N)(x) и 1. Теперь можно сделать следующее утверждение. fN (х) Теорема 2.2. Если lim J\ ) !■= 1 [λ] равномерно по χ, то N~*coJl \xf lim /(1W:2) = /(1:2), когда /(1:2) конечна. N~+oo Доказательство: /(1™:2) = J/ГЧ*) log /£^-Λ(*)= = J/Г'W log 4^^W+ί/Γ Wlog^l^), /(1(Л,):2)~/(1:2) = //^(Л)ЮёЛ^-Л(^) + + J(C(*)-/i(*))log|$|dX(*). Для достаточно больших N имеет место неравенство |/(lW:2)-/(l:2)|</(lOT:l) + eJ/1(*)|log^|dX(j;X и поэтому Iim/(1W:2) = /(1:2) (см. задачу 4.17). ;v—со Пример 2.1. В качестве иллюстрации теоремы 2.1 рассмотрим N независимых наблюдений из биномиальных распределений с параметрами ри qi=\—pif i=\, 2. Когда при N—*cot ρι—»0 и Npi —>пц <со, биномиаль-
ПРЕДЕЛЬНЫЕ СВОЙСТВА . 85 ные распределения стремятся к распределениям Пуассона с параметрами m.^Nph /=lf 2. Находим, что = tf(Alog-g-+*ilog-|L), (2.6) OO /(1:2)== 2~V~{0*^^=(т*~щ)+щ{0*~щ· (2J) Из неравенства x1\og(xJx2)^x1—x2 (правая часть равенства (2.7) неотрицательна) и того, что rrii^=Npi7 / = 1, 2, следует, что или lim inf/(1(ΛΓι:2(ΛΓ,)^/(1:2). В действительности же, как можно ви- N~*co деть из первых двух частей формулы (2.8), lim /(1<">:2<*>) = /(1:2). Пример 2.2. Для иллюстрации следствия 2.1 возьмем в качестве μι и μ2 распределения Пуассона с параметрами т1~1 и /я2 = 1,5 соответственно, а в качестве μ^ — отрицательно-биномиальное распределение (T(N+x)lx\ T(N)) pxq-N-xt q=l+p, p>0, 7V>0, x = 0, 1, 2 ... Если N-»со, р—*0, Tvp—*m<co, то отрицательно-биномиальное распределение стремится к распределению Пуассона с параметром т [ср. Уилкс (1943, стр. 54—55)]. В табл. 2.1 приведены значения отрицательно-биномиального распределения для N=2, /г = 0,5, # = 1,5, значения для распределений Пуассона и значения для вычисления /(1^:2) и /(1:2). Численные значения для отрицательно-биномиального распределения взяты из работы Кохрэна (1954, табл. 1, стр. 419). Таблица 2.1 X 0 1 2 3 4+ ρψ\*) 0,4444 0,2963 0,1482 0,0658 0,0453 1,0000 Pi (х) 0,3679 0,3679 0,1839 0,0613 0,0190 1,0000 Р2 (Χ) 0,2231 0,3347 0,2510 0,1255 0,0657 1,0000 p(N) log lpW/p2) 0,30624 —0,03611 —0,07813 —0,04249 —0,01678 0,13273 Pi log (pi/pa) 0,18402 0,03479" —0,05720 —0,04392 —0,02357 0,09412
86 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4 Все значения χ ^4 при вычислении табл. 2.1 были сгруппированы. Заметим, что /(1^>:2) = 0,13273>0,09412 = /(1:2) и что 0,09412 меньше, чем значение, полученное по формуле (/^2 —^i) + /^iiog(/^1//^2)=l,5— 1 + 1 log (1/1,5) = 0,09453, что иллюстрирует утверждение разделов 3 и 4 главы 2 о том, что при группировке информация уменьшается (см. задачу 4.3). 3. ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА Предположим, что просгранство W разбито на непересекающиеся множества Ег и £"2, т. е. Е1(~)Еъ = 0, £V — Ex \J ЕЪ £ — пространство выборок в η независимых наблюдений. Допустим, что проверочная процедура заключается в том, что если выборка χ £ Εν мы принимаем гипотезу Нх (отвергаем 7/2), и если выборка χ £ £2, принимаем гипотезу Н% (отвергаем Hi). #2 мы рассматриваем как нулевую гипотезу. Ει называется критической областью. Вероятность неправильного принятия гипотезы Н19 ошибка первого рода, равна α = Ρ(χζ^Εί\ //2) = μβ(£i)> a вероятность неправильного принятия гипотезы Нь ошибка второго рода, равна ф = Р(х ^£,2|Я1)=[л1(£2). [См. Хоул (1954, стр. 30—35).] Установим следующий результат. Теорема 3.1. (а) 7(1:2; On) = nI(l:2; Ο^β log^ + O _p)IogL=lf (б) 1(2:1; Ой) = я/(2:1; Q^alog^ + O -oc)!og^, где Оп обозначает выборку в η независимых наблюдений, а Ох — выборку, состоящую из одного наблюдения. Доказательство. Доказательство следует из свойства аддитивности (теорема 2.1 гл. 2), следствия 3.2 главы 2 и того, что 1_а=ф2(£2)> 1—β = μι(£Ί). (См. пример 2.3 гл. 3.) Отметим, что правые части неравенств теоремы 3.1 являются значениями /(1:2) и /(2:1) для биномиальных распределений с /?ι = β> ^ = 1 —р17 #}=! —α, #2 = α [см., например, (2.6), если N=1]. Эти значения встречаются также в теореме Вальда об эффективности последовательных испытаний [Вальд (1947, стр. 196—199)]. Заметим, что (см. задачу 8.35 гл. 2) F(pv Pi)=Pilog(pilpz)-\~qilog(qilq<z) является вогнутой функцией р% при фиксированном pl9 F(pb /?2) = 0 при ρι=ρ%, монотонно убывает при O^p^^pi и монотонно возрастает при р1*^Ръ^ 1. В табл. 3.1 приведены значения F(pb po) для ^^Ο,Οο. (См. табл. II на стр. 394.)
ОШИБКИ ПЕРВОГО И ВТОРОГО РОДА 87 Таблица 3.1 F(PuPi),Pi = Ofi& Р2 0,01 0,02 0,03 0,04 0,05 0,10 0,15 0,04129 0,01628 0,00575 0,00121 0,00000 0,01671 0,05074 Р& 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,09394 0,14410 0,20052 0,26322 0,33259 ; 0,40936 0,49464 j P2 0,55 ' 0,60 0,65 0,70 0,75 0,80 0,85 0,58996 0,69751 0,82036 0,96309 1,13285 1,34161 1,61188 Ра 0,90 0,95 0,96 0,97 0,98 0,99 1,99422 2,65000 2,86147 3,13424 3,51892 4,17690 Для фиксированного значения а, скажем а0, 0<^а0<^1, нижняя граница минимума всех возможных β (обозначим ее символом β£) получается из формулы /(2:1; O0^|(a0log^, + (1-G^logi^) (3.1) при использовании утверждения (б) теоремы 3.1. Аналогично для фиксированного значения β, скажем βο,0<^β0<4, нижняя граница минимума a, ajj, получается из формулы /(1:2; O0^(i3ologn^ + (l-po)log^). (3.2) Таким образом, если, например, ηΙ{\ :2; θ!) = 4,17690 и β0 = 0,05, из табл. 3.1 видим, что а* ^0,01. Чтобы проследить поведение формул (3.1) и (3.2) при я->оо, воспользуемся законом больших чисел, или теоремой Хинчина [см., например, Крамер (1946а, стр. 253), Феллер (1950, стр. 191)]. Если /(1:2; Ог) конечна и у нас имеется выборка в η независимых наблюдений из популяции, соответствующей Нь то »V g/.(*iM + ёМхп)1 сходится по вероятности к /(1:2; ОД т. е. для любого ε]>0, β]>0 и δ]^>0, для достаточно больших я, р{^тМ^Ш>^:2· ад+-|Ц<8· или ρ W(i: 2; Ού—) ^йЩ^АЩ Ι πλ ^ 1 — Β. (3.4) Ι /2 \Χΐ) •■•/■2 \Χη) I J
88 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4 Поэтому можно разбить выборки, соответствующие Нь на две непересекающиеся группы Ег и £2 такие, что выборки из Ег удовлетворяют неравенству А (*0 -А (*п) 5* e*W ■■ * о») -)/. (*ι) · ■-А (*„), (3.5) а выборки из Е% (при условии Н%) появляются с вероятностью, меньшей чем β, для достаточно больших п. Интегрируя неравенство (3.5) по Е1У получим г^Р^Н^еп^'ЪЫ-^Р^Нъ), (3.6) или для любого значения β, скажем β0, 0<^β0<]1, lim|k>g^r^/(l:2; OJ. (3.7) Комбинируя (3.7) с неравенством, которое может быть получено предельным переходом из (3.2), получим limllog-L^/(l:2; Р03> п~*со п ап ^ Urn lf(l - р.) log^ + βοlogy^*). (3.8) Теперь сформулируем следующую теорему. Теорема 3.2. Для любого значения β, например β0, 0<^β0<^1, lim (о©1/я = ^-/(1:2;01) j^a Um (—log-U = /(l:2; Ot). Доказательство. Пусть £3 обозначает совокупность выборок, удовлетворяющих условию ^(/(1:2;01)--е)^М^ф^Л_(^я)^^я(/(1:2;01) + е) /3 9) Λ(*ΐ).-/« (*я) * V ' ' Из (3.3) видим, что Ρ (fa |//ι) 5* 1—β — &· Интегрируя правую часть неравенства (3.9) по Е& получаем, что Р(£3 | tfj)< ^(/(Ι:2; °ι)+·)Ρ(Ε8 | Я2). (ЗЛО) Поскольку EzCLEb где £Ί определено неравенством (3.5), Р(£3| М)^ ^Ρ(£Ί|^2), и из (3.10) получаем 1 —p — j^^aasfto^+rto·, (3.U) Комбинация формул (3.6) и (3.11) дает нам [ср. Джоши (1957)1 (l_P_i)^-«(/(I:2;Oi)+e)^aJ^e-iI(/(l:2;01)-e)e (3.12) Требуемый результат следует из соотношений (3.8) и (3.12).
3] ошибки первого и второго рода 89 Аналогичным образом может быть доказана Теорема 3.3. Для любого значения а, например с^, 0<^а0<4, Нш (Р»1/я = *~/(2:,; 0l) > или lim Д- log -1-) = /(2:1; ОД Чернов (1956) получил теоремы 3.2 и 3.3, пользуясь усиленной центральной предельной теоремой. [Крамер (1938).] Чернов указывает, что эти результаты содержатся в неопубликованной работе Стейна. [Ср. Санов (1957, стр. 40).] Отметим, что дроби /(1:2; X)//(l:2; Y) и /(2:1; Д)//(2: 1; Υ) из теорем 3.2 и 3.3 могут быть использованы (по крайней мере для больших выборок) как меры относительной эффективности конкурирующих переменных X и У в том смысле, что /(1:2; А) пу 7(2:1; Л) _NV /(1:2; Υ) ~ηχ > /(2:1; Υ) ~ΝΧ' где пх, пу и Νχ, Ny соответственно являются объемами выборок, необходимых для того, чтобы получить для данного β0 то же самое а% и для данного оо то же β* [см. Чернов (1956)]. Асимптотические выражения для ошибок первого и второго рода в терминах J(l, 2) обсуждаются у Мурье (1946, 1951) и Сакагути (1955). Мурье и Сакагути показывают, что если область Е* определяется неравенством 1 ЛПГА (*ι) ι ι w/i(^)\ ^ ^(1:2; OQ-qj/(2:1; О,) η li0g/2 (xj ϊ- ·' · "Г 10ё/2 {Xn)) > ^ψ72 ' где °ϊ=J (log W))*^1 (*)_(/(i :2; 0i))2> οι = J (log £g}-)2 dm (*) -(/(2:1; O,))2, так что α* = Ρ(0„££*|//2), 1 - β£ = Ρ(0„ ££* | ЯД то j. min max (am ря) = j «-co max (α*, β·) m^ («*, β*) lim —: = 1 я^оо φ (/n/(l, 2; ОД/fa + o,)) lim ^nin max (ant n~>co φ(ΐΛι/(1, 2; ОД^ + а^) Другой области £le J^—* f*dt 7=—> а ал> Ρ» — вероятности ошибок для любой ΐ/2π
90 ПРЕДЕЛЬНЫЕ СВОЙСТВА [ГЛ. 4 4. ЗАДАЧИ 4.1. Рассмотрим вероятностные пространства («#Г, §, μ^, μχ, μ2) и предположим, что Iim μψ^ (Ε)=μ2(Ε) для всех Ε £ $. Докажите, что N-*co iiniinf/(i:2(iV))^/(l:2). ΛΓ~»-οο 4.2. Покажите, что для отрицательно-биномиальных распределений (Τ(Ν+χ)Ιχ\Τ№ΡΪΐΓΝ-χ> qt = l+Pv />,>(>. tf>0, * = 0, 1, % ..., / = 1, 2/(1 :2) = Afa log fe/A) -tfft log M?,). 4.3. Если при N~->oo, pi~*0 Npi —► W/ <:со, то отрицательно-биномиальные распределения в задаче 4.2 стремятся к распределениям Пуассона с параметрами т,·, /=1, 2. Покажите, (а) что теорема 2.1 верна; (б) что lira 7(1^:2^) =/(1:2); N-♦00 (в) что выполняется следствие 2.1. 4.4. Покажите, что распределения примера 2.1 удовлетворяют условию леммы 2.1. 4.5. Покажите, что распределения задачи 4.3 удовлетворяют условию леммы 2.1. 4.6. Покажите, что распределения примера 2.1 удовлетворяют условию теоремы 2.2. 4.7. Покажите, что распределения задачи 4.3 удовлетворяют условию теоремы 2.2. 4.8. Вычислите таблицу, аналогичную табл. 2.1, группируя: (а) все значения х^З; (б) все значения χ ^2; (в) все значения х^1. 4.9. (а) Покажите, что для выборки в η независимых наблюдений из нормальных популяций Nfe, σ2), /=1, 2, 7(1, 2; 0Λ)=«(μ1—μ2)δ/σ2· (б) Рассмотрим преобразование квантования (или группировку) нормальных величин из (a), у=\ для x<zg и j> = 0 для x^zg, так что у есть -(*-μ..)2/2*2 биномиальная величина с ри q-t — 1 —/>,·, pi = ι — dx, i = 1, 2. Покажите, что 7(1, 2; ^)^n((p1~p2)log(p1lpa) ^(q, —q2) log (qjq2)). (в) Покажите, что 7(1:2; У) максимальна, когда g = (μι+μ·2)/2, и что μ-2—μ-ι 2<Т /2/ max J (1, 2; y) = 2n(p1- qt) log |i-, где pt = J ' i-^-«. — OO (г) Покажите, что max 7(1, 2; У)/7(1, 2; 0Л) —*2/π при (μ2 — μι)/σ — 0. (д) Покажите, что max 7(1, 2; У)/7(1, 2; Ол)-*-^- при (μ3 —μ^/σ-^αα [См. Questions and Answers, Am. Statistician, vol. 7 (1953, стр. 14—15).] 4.10. Если в теореме 2.1 Τ (χ) является достаточной статистикой, 4(G)=:K(T-l(G))t для G£dT, <=1, 2 и Г"1 (G) = {л:: Τ (χ) £ G}, то Hminf/(lW:2(JV); У)=/(1 :2; у). Λ7"-» οο
4, ЗАДАЧИ 91 4.11. В обозначениях теоремы 3.1 покажите, что /(1, 2; 0„)=п/(1, 2; 0l)^(l-«-p)log °~~"^1~~P) ^ ^[-Τ-^λ-ία + ΰρ + ν 2—J102" (« + β)/2 J' 4.12. Если 7(2:1; Oi) конечна, покажите, что для любого значения а, например а0, 0 < а0 < 1, A^¥IO^^/(2:1;Ol)^Jimco^((1~ae)1Ogl? + a0,Og^%)· 4.13. Докажите теорему 3.3. 4.14. Покажите, что n(7(l:2; Ot) — в)^1 (\ :2; 0ПУ Es)^n (J(\ :2; Ot) + -f- ε), где область Е3 определяется из (3.9) и 7(1:2; От Es) определяется в соответствии с (2.4) главы 1. [Ср. Джоши (1957).] 4.15. В обозначениях теоремы 3.2 покажите, что Ρ (Е3\Н2) =^e~w(/(1:2; °^~^ и, таким образом, lim Ρ (Ег \ Н2) = 0, если 7 (1:2; Ot) > ε. [Ср. Джоши (1957), η —»■ оо Сэвидж (1954, стр. 46—50).] 4.16. Покажите, что 1, 2п ρ , л о г \ lim—log — =plog-£- + q\og-f-9 Ρ<~<γ, 4 = 1 2 (") T T (Ср. задачу 7.23 гл. З.) 4.17. Если lim f\ /** = 1 [λ] равномерно, то lira 7 (1: 2(N) = 7 (1:2), когда 7(1:2) конечна. 4.18. Пусть SC — Ει (J E2 — Ef (J Ε*, где JT — пространство выборок, определенное в разделе 3, Τ?! f] E2 = 0=Ef f] £*> α = μ2 (Ει) = 1*2 (Ε?) ι β = μ1(£2) и β* = μι(£?). Покажите, что для β*<β<1—а: (a) (l-a)log-!=^>(l-a)log l~a β (Φ «1ogT-^<alog1- β*^ 6 Ι — β1 (Β) «logj-^+0 —«)I°g--|^ 4.19. В обозначениях задачи 4.18 покажите, что для 1—α<β*<β: (а) (l_«)logl^>(l-«)logi-=^, (б) a log γ~ < a log JZTp", (в) a log γ^ψ + (1 — a) log ~^ϊ- < a log J^J+ (1 — «) log —=A 4.20. В обозначениях задачи 4.18 покажите, что если «log ■ ^-}- + (l^a)log~^^>alogT^Ip-+(l — a) log -у^-, το β* <β< 1 —α или 1 — «<β<β*.
92 ПРЕДЕЛЬНЫЕ СВОЙСТВА 1ГЛ. 4 4.21. Предполагая, что Рю +Р20 + · · · +Рсо = 11 Я/о > 0, ptj= ацри j.„ i + ai2p2j j_ t +... ••• + e£c/W-i> ^i + ei8 + -- + eic=b ^ife + flsfe + ··· +«cfe=l, β/fe^O, i, ft = lf 2, ..., c;/ = l, 2, ..., с покажите, что lim 7 /?-Arlog -^- = 0. [Ср. с задачей 8.32 гл. 2.1 *— I 4.22. Если пространство выборок в задаче 7.28 главы 3—пространство выборок в η независимых наблюдений и α=μ2(Ζ:1) и β — μιί^)» где области Et и Е2 определены в той же задаче, то lim (pa-J-tfPJ — O. [Ср. п-*со Джоши (1957).]
ГЛАВА 5 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1. ОЦЕНКА /(*:2) До сих пор мы изучали меры информации как параметры популяций или как функционалы на распределениях. Теперь мы будем изучать оценки этих мер, информационные статистики и исследуем общую теорию асимптотических распределений этих оценок (статистик). В частных применениях в следующих главах мы получим точные распределения, или аппроксимации лучшие, чем те, которые получаются из общей теории. В главе 3 мы ввели минимум различающей информации /(*:2), определяемый как минимальное значение для данной f^(x) и всех f\(x) таких, что b = \T{x)fx{x)dk(x). Минимальное значение /(*:2) = θτ(Θ) — logAi2(t(6)) [см. замечание, следующее за формулой (2.9) гл. 3] достигается для сопряженного распределения [мы употребляем термин, введенный Хинчиным (1949, стр. 79)] с плотностью распределения, определяемой формулой [ср. Крамер (1938)] /*(^)=^^A(~ ■ ^W=$*τΤ{χ)Μχ)<ΐλ(χ), θ = Αΐ08Λί2(τ). Если /2(х) — плотность распределения п независимых наблюдений, мы оценим /(*: 2), пользуясь наблюденным в выборке Оп значением JX-xr) в качестве оценки для Θ, 6(х), и связанной с θ оценкой τ, ί (χ) = τ(6(χ)) так, что Пх^Нх)^^^^ ш (1.1)
94 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1ГЛ. 5 (1.1) означает, что Τ(χ) = [Ε(Τ(χ))]τ==*. [Ср. Бартон (1956), Купер- ман (1958, стр. 573).] Если существует несколько различных функций х, которые являются несмещенными оценками Θ, в качестве д(х) будем использовать ту, при которой 7(*:2) принимает максимальное значение. Оценкой для 7(*:2) будет тогда /(*:2; On) = 6(x)x(x)~\ogM^(x)) = ^(d)-\ogM^x(Q)). (1.2) /(*:2; Оп) в (1.2) есть минимум различающей информации между популяцией с плотностью /*(х), описанной выше, со значением параметра Θ, равным выборочному значению Θ, и популяцией с плотностью /2(-*0. Поскольку /(*:2; Оп)^0, причем равенство выполняется тогда и только тогда, когда τ —0, т. е. когда θ равен значению параметра популяции с плотностью /2 (х), /(*: 2; Оп) является мерой направленного расхождения (ср. раздел 3 гл. 1) между выборкой и /2(х). Чем больше значение /(*:2; Оп), тем меньше «сходства» между выборкой и популяцией с плотностью А(х). Поэтому выборки, дающие одинаковое значение /(*: 2; Ол), называются эквивалентными, если речь идет о направленном расхождении. Заметим, что у эквивалентных выборок не обязательно должны быть одинаковые значения Θ. [Ср. Балмер (1957).] Прежде чем продолжать рассуждения, проиллюстрируем сказанное выше на некоторых примерах главы 3. Пример 1.1. В примере 4.1 главы 3 b = npit так что T(x)=y=V = npit S(*) = T(A) = logr--^— Ч« — У) Ρ* Ϊ(* : 2; Оп) =у log -£- + (η-у) bg^-== n U log £-+q, log £A. np2 nq2 \ p8 42/ Из значений F (р„ p2), приведенных в табл. II на стр. 394, видно, что только при р2 = 0,5 эквивалентные выборки действительно имеют значения Д такие, что \р2—А| = const. Пример 1.2. В примере 4.2 главы 3 θ — θ^ Г (*)==.* = 6, τ (χ) = = τ (β) = η (χ — θ2)/σ§ и / (* : 2; Οη) = η{Χ— e2)_2/2cf. Заметим, что эквивалентные значения χ расположены симметрично относительно θ2. Пример 1.3. В примере 4.3 главы 3 θ = (θ1, σ|), так что Т{х) = (х, s2) = (б,, е», Заметим, что здесь эквивалентными будут такие выборки, для которых значения X и s2 лежат в плоскости (х. s2) на кривой, для которой /(*:2; 0„) = const.
2} КЛАССИФИКАЦИЯ 95 Пример 1.4. В примерах 4.4 и 4.5 главы 3 мы видели, что η •у=:(1/«) J] х\ дает несмещенную оценку θ = σ| с большим значением /=| η 7(*:2), чем несмещенная оценка s2, где (п—l)s2= 2 (xi — ·*)2» еСли ги~ потезы предполагают нормальные распределения N(0, σ?). Из примера 4.5 видно, что '«-■;&-» » /r=*<u-i(*if->+i). Заметим, что эквивалентные значения ^ не располагаются симметрично относительно σ|. Пример 1.5. В примере 4.6 главы 3 для преобразованных переменных и и г/, определенных формулами (4.26) этого же примера, θ ==(2(1—рх), 2(1+Pi))» так что Τ (х) = (ylf л) = (2 (1 - Pi), 2(1 + pj), ^(i-W)-i(r^-|-). ^20+^)^(^-1), / (*: 2* О ) — _J»iW?iL=i£_.l+_*_ +iog2<1+PS)_1 , У, ) — 2\Ю* Λ +2(1-P2)^10g Λ '+2(1+Ps)j· Заметим, что здесь эквивалентные выборки — это выборки, для которых yi и у.2 лежат в плоскости (ylf у2) на кривой, для которой / (*: 2; Оп) = const. Пример 1.6. В примере 4.7 главы 3 θ = θ1^θ2 и 6t = L— 1/л, где £ = min(jfll *й, ..., лгл), t (8i) =л Г/: — — — eaJ/(£ —θβ) и /(*:2;0„) = «^l^e2)^log(i+«(l-l-~e2^ = л (£ —θ2) — 1 — log « (L — B2). Заметим, что /(*:2; On) не определена для £<θ2. Для любого значения I такого, что η (L — θ2) > 1, существует эквивалентное значение V такое, что η (Lr — θ2) < 1; /(*: 2; Оп) =0 тогда и только тогда, когда η (L — θ2) = 1. 2. КЛАССИФИКАЦИЯ Мы изложим задачу классификации или отнесения выборки к одной из нескольких возможных популяций, используя результат, фактически принадлежащий Куперману (1957, 1958), связывающий априорные и апостериорные вероятности гипотез с информационными сгатистиками. Предположим, что выборка Оп появляется, когда происходит одно из событий группы Ην Нъ ...,//г. Априорные вероятности этих событий (которые мы можем называть гипотезами) обозначаются через Ρ (ЯД Р(Щ ... Р(НГ) соогвегственно, где Р(Ят)>0
96 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 г и 2] Р(//т)=1. Условные вероятности появления Оп обозначаются через Р(Оп\Нт), т=\, 2, ..., г. Апостериорная вероятность Нт при условии, что Оп произошло, обозначается через Р(Ит\Оп). Из теоремы Байеса (ср. раздел 2 гл. 1) следует, что р(нт | оп)=р(нт)Р(Оп | нт)12 p(Hj) p(On ι ягд т=1, 2, ..., г. (2.1) Предположим теперь, что условные вероятности появления Оп есть вероятностные меры из экспоненциального семейства (см. раздел 4 гл. 3) с соответствующими плотностями для данного Н^. Мх) = ех№/(х)/М(%д, М(%д = 1&™/(х)*к(х1 (2.2) /=1, 2, ..., г. Для любой пары плотностей (2.2), скажем fi{x) и /2(х), имеем в силу следствия 3.2 главы 3 7(1:2; Оя) = /(т1:т2; OJ = ΘΛ - ΘΛ - log Λί (τ4) + log Λί Ы (2.3) где 91 = £'1(7,(jc)) = J Γ^/ιίΛ;)^^). Следовательно, оценка, определенная в (1.2), равна /(»:2; 0Λ)=ΐΓ(χ)-1οΕΛ1(τ)-τ2Γ(χ) + 1θδΛ1(τ2), (2.4) где r(-^) = (rf/^)log7W(t)ji.sr=!^. Аналогично направленное расхождение между выборкой и популяцией с плотностью fm(x)> m=\, 2, ..., г, равно /(*: т; Оп) = ΪΤ (х) - log Μ (τ) - zmT (χ) + log Μ (xm), m=h 2, ..., г, (2.5) где Τ(x) = (d/dx)\ogΜ(τ)|τ==-. Разность между любой парой оценок (2.5) соответственно равна (если воспользоваться формулой (2.2)) /(*:/· 0„)-/(*:/; 0„)=τ/7(.ν)-τ/Γ(Λ:)-1ο8Λί(ν) + + log Λί (τ,) = log (fj (Χ)/Α (X)), l^j,i,j=l,2,...,r. (2.6) По формуле (2.1) [ср. формулу (2.3) гл. 1] имеем ' //(*) , Р(Щоп) p(Hj) i0eM^=l0en^m~logpW)' (2J) или, используя (2.6), /(*:/; On)-!(*:j; 0„) = log^[^-log^. (2.8)
31 ПРОВЕРКА ГИПОТЕЗ 97 Если мы отнесем выборку к той популяции, на которую она больше походит, т. е. для которой /(*:/; Оп) минимальна, то из (2.8) видим, что /(*:/; On)-/(*:y; Ow) = log^[^-logJ^^0, (2.9) или 1 P(Hj\On) P(Hi\On) Таким образом, эта процедура выбирает популяцию, для которой отношение апостериорной вероятности Hj к априорной вероятности Hj максимально. (См. задачу 7.11.) Заметим, что это заключение справедливо для многомерных экспоненциальных популяций с параметрами из й-мерного евклидова параметрического пространства. Э^о то же самое, что метод максимального правдоподобия. [Ср. Гуд (1950, стр. 62—64, 68—73, 82—83), Сэвидж (1954, стр. 46—50, 134—135, 234—235).] (См. раздел 4.) Отметим, что левая часть неравенства (2.10) есть информация, содержащаяся в Оп в пользу Hj (см. пример 4.1 гл. 1). Во многих задачах, представляющих интерес для статистиков, плотность /2(лг), входящая в определение /(*: 2; Оп) (см. (1.2)), пробегает семейство популяций, которое мы будем обозначать символом Η Пусть /(*: Н) представляет собой минимум /(*: 2; Оп) по всевозможным /2(лг), принадлежащим //, т. е. /(*: #) —min/(*: 2; 0„). Зна- чение /(*: Н) является, таким образом, мерой направленного расхождения между выборкой и тем членом из семейства популяций //, на который эта выборка больше всего походит. Если значение параметра β выборки совпадает с значением параметра Θ для одного из членов семейства популяций //, то, разумеется, /(*:/i) = 0, т. е. выборка не дает нам никакой информации для различения против Η Если существуют две или более групп популяций, обозначаемые для удобства через Нх, //2, //2, ..., то мы относим выборку к группе популяций с наименьшим из значений /(*: //Д /(*: //2), /(*: //3), ... Это означает, что мы относим выборку к той группе популяций, среди которых существует популяция, на которую наша выборка похожа больше всего, или против которой она дает нам меньшую различающую информацию. (См. замечание в конце раздела 3 гл. I.) 3. ПРОВЕРКА ГИПОТЕЗ Будем называть /(*://) статистикой минимума различающей информации и проверять нулевую гипотезу //2 против альтернативной гипотезы Нь отвергая //2 в том случае, если Р{/(*:#2) — /(*://i)3sc|//2}^a. Путем соответствующего выбора константы
98 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 су на которую величина /(*://а) должна превосходить /(*://t), для того чтобы гипотеза Я2 была отвергнута, мы можем регулировать величину ошибки I рода (вероятность того, что мы отвергаем нулевую гипотезу Нъ когда выборка принадлежит популяции //2). Мы увидим, что эта процедура обеспечивает критерий с желаемыми свойствами, когда речь идет о величине ошибки II рода (вероятности принятия нулевой гипотезы, когда выборка принадлежит популяции из Hi). [О теории проверки гипотез см., например, Фрезер (1957, стр. 69—108), Хоул (1954; стр. 30—38, 182—196).] Прежде чем исследовать свойства статистики минимума различающей информации, полезно проиллюстрировать эту процедуру. В нижеприведенных примерах мы будем рассматривать выражение /(*://2) — — /(* :Hi)^c9 т. е. критическую область, или выборочные значения, на основе которых мы отвергаем нулевую гипотезу. Пример 3.1. Предположим, что у нас есть наблюдение х> которое может быть выборкой в η независимых наблюдений, и мы хотим проверить нулевую гипотезу И2 о том, что наблюдение принадлежит популяции с плотностью /2 (л*) при альтернативной гипотезе Ht о принадлежности наблюдения к популяции с плотностью fx (χ). Взяв в качестве статистики Τ (χ) = = l°g(A W /Λ W)i имеем в соответствии с процедурой оценки, изложенной в разделе 1, 6 = log (ft (x) lf2(x))-J43 равенств (2.16), (2.17) главы 3 и (1.1), 1.2) настоящей главы имеем (Na (τ2) и Nt (τ^) определены ниже в контексте) /(* Г Щ = τ8 log^| - \0gM2 (ΐ2) , Μ2 (τ) = ξ (Λ {x)Y </2 {χ)Υ~τ άλ (χ), ?2 (*) J^ {x)y2 (Λ (χ)) 1 - τ2 άλ (χ) Μ2{χ2) ' Аналогичным образом имеем /(*: Я,) =;х Iog^|- log Λί, (ΐ,), Λ1, (τ) = J (/, (*))«+* (f2 (χ)Γ* ctk (x), • (χ) \(Λ W)1+iV, WP юв^л W Νι $ό Ιοε^ίΜ $(Λ (χ))1+τΨ* (*)Γτι λ (*) Μι ^ Поскольку N2(i2)[M2(i2) = N1(li1)lM1(i1) = log(f1(x)lf2(x)), то, как показал Чернов (1952, стр. 504), ia = ii + l, Λί2 (%) = Λί, (ΐ,). Соответственно /(* : Н2) -/(*: //,)=«,log^-logAf, (%)- (t2- l) log^^ + + logMI(i1) = log^g, f ίχ\ и, следовательно, критическая область определяется неравенством log; -^с. Это наиболее мощная критическая область, как показывает основная лемма Неймана и Пирсона (1933). [Ср. Фрезер (1957, стр. 73).]
31 проверка гипотез 99 Пример 3.2. Нам понадобятся некоторые результаты примера 1.1 этой главы и примера 4.1 главы 3. Предположим, что гипотеза Ht предполагает биномиальное распределение с ρ =pl9 q == 1 —pl9 а гипотеза Н2 — биномиальное распределение с p=p2i <?2 = 1—\Р* Мы оцениваем θ = ηρ* посредством пр, где пр=у, q = l—p, а у = Τ (χ) — число наблюденных успехов в выборке Оп в η независимых наблюдений. Из результатов примера 1.1 видно, что /(*:^i)=«(plogA + ^og|-), /(•■•^-)=^logA + iiogAJ. Поэтому мы отвергаем //2, если (вновь появляющиеся константы мы обозначаем одним символом, поэтому с не обязательно одна и та же константа по всему изложению) или Р2 42 ИЛИ * Р2Я1 Когда рх >р2, log (ρ&Ιρύύ > 0 и мы отвергаем Н29 если ppzc С другой стороны, когда рх <р2, log (ρ^\ρ24ι) < 0, и мы отвергаем//* если ρ < с. (Этот пример является частным случаем примера 3.1.) (См. рис. 3.1.) Рис. 3.1. Рис. 3.2. Пример 3.3. Продолжим рассмотрение примера 3.2, но пусть теперь гипотеза Нх предполагает биномиальное распределение ср>р2, д=1—р, а гипотеза Н2 — биномиальное распределение с р~р2, <?2 = 1 —/>2- Ка* и раньше, мы оцениваем 6 = пр* посредством пр=у, и 1(*:Н2) = 1=5 п (р log (plp2) + £ log (qlq2))- В разделе 3 главы 4 мы заметили, что F (р,р) = ^Р log ф/р) -f- ^ log (q \q)) — вогнутая функция р для данного ρ, F (ρ, ρ) = 0 Дляр—^ монотонно убывает для О^р^р и монотонно возрастает для P^p«s£l; поэтому/(»://i) = 0f если ρ >р2, и /(»: //i)=n (plog (p/pg) + 4*
100 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 -|- § log (^/^2)), если ρ </>2. Следовательно, мы отвергаем H2t если р: P^og (pjp2)-f-q log (qjq2)^ с, т. е. если р^с>/>2. (Си. рис 3.2.) Зд< >>Р2 и Р1°К{р1Ра)-^-Яю^{31Яя)^сг т. е. если/>^гс>/>2. (1Ж рис. о:г.) Здесь мы имеем равномерно наиболее мощную критическую область. [Ср. Нейман (1950, стр. 325—327).] Пример 3.4. Продолжим рассмотрение примеров 3.2 и 3.3, но пусть теперь Н2 предполагает семейство биномиальных распределений с p^pSi q=^l—pf Hi — семейство биномиальных распределений с p*^pi<Lp2- Как и раньше, мы оценим 6 = яр* посредством пр=у. В связи^с поведением функции F(pf ρ), описанным в примере 3.3, /(*:#i) деляются следующим образом: /(*:Я2) опре- Р>р2 Pt^p^p2 Ρ<Ρι Д*: ЯО «(/HogJL + Slogl) «(^logA-Hiogl) 0 /(»: Яа) 0 "(pbg|- + 9logl) \ Pz Я21 "(pbgA+§i0gl) \ P2 Я21 Поэтому мы относим выборку к семейству популяций Я2, если р>р, где р(# = 1—р) удовлетворяет равенству p\og±—\-q\og-^-=plog— -f Pi Я1 P2 + ?logf, т. e. p^(\og^)l\ogMl. [Ср. Чернов (1952, стр. 502).] Я2 л \ qi/ л Р2Я1 Если р =р, то / (*: Щ =1 (*: ЯА) (см. рис. 3.3). /r*wj— /гч;— Пример 3.5. Предположим, что у нас имеется случайная выборка Оп в η независимых наблюдений и в качестве множества Ε из примера J2.3 главы 3 мы берем интервал 0 ^ χ < со, а в качестве его дополнения Ε — интервал —со<л;<0. Рассмотрим нулевую гипотезу Н2 о том, что /2 (х) является плотностью непрерывного распределения такого, что μ2 (Ε) =
ПРОВЕРКА ГИПОТЕЗ 101 ^μ^ (Ε) = γ. Используем ρ ~yjn в качестве оценки \Lt (Е) (здесь μ! (Ε) есть Θ), we y = Jj^T(xi)=y\lp(xi)t т. е. з> — число неотрицательных наблюдений в выборке, и q = 1 —р. Если альтернативная гипотеза /УА заключается в том, что /2 (л;) — плотность любого непрерывного распределения, такого, что μ2 (£) =р ^ —, μ2 (£) = q = 1 —/?, то ? (* : Я2) = = «(i?log2/>+<? l°g2£) и /(*:Я1) = 0. Поэтому мы отвергаем Я2, если plog2/5 + #log2$^:c, или plogjS + §log#^c» τ· е· если \β— -9- ^=c· (См. рис. ЗА) [Ср. Фрезер (1957, стр. 167—169).] Пример 3.6. Нам понадобятся некоторые результаты примера 1.4 этой главы и примеров 4.4 и 4.5 главы 3. Пусть гипотеза Я,- предполагает нормальное распределение N(0, σ|), / = 1,2. Будем оценивать θ = с*2 посредством статистики у=Т (x)==(ljn) 2 х\ примера 4.5 (а не посредством статистики s2 примера 4.4). Из примера 1.4 видим, что Следовательно, мы отвергаем гипотезу Я2, если i(*f-+$KK-'+$)»* ИЛИ или -2 „2 ^ С» или 2^!^ci еСЛИ σ2>σ|, 2Xi^C» еслИ σι<σ1· (См. рис. 3.5.) Этот результат — частный случай примера 3.1. Пример 3.7. Продолжим рассмотрение примера 3.6, но теперь Я2 предполагает семейство нормальных распределений N (0, σ2), с2 ^ σ|, а Я! — семейство нормальных распределений N(0, σ2), σ2^σ|<σ|. Заметим, что F (у, cs\ = log (c2/j>) — 1 +3>/σ2 —вогнутая функция 1/с2 для данного у, F(yt с2) = 0 для σ2=3>, F(y9 с2) монотонно убывает для 0<σ2^^ и монотонно возрастает для у*^с2 <со. I (*:Ht) и / (* : Я2), следовательно, равны у>4 о!<з»<°1 3»«4 /(·:Ηι) iM-'+ί) тИ->+*) 0 ί{*:Η2) 0 ihf-'+ί) ίΚ-'+ί)
102 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1ГЛ. 5 Поэтому мы относим выборку к семейству популяций Я2, если у > σ2, где с2 удовлетворяет равенству log —~—1 -|—- = log _log(°K) ""i/ef-i/oj- [Ср. Чернов (1952, стр. 502).] 1 + т. е. с^=: Если У=с\ то /(•://1) = /(»:Я8). (См. рис. 3.6.) Пример 3.8. Продолжим рассмотрение примеров 3.6 и 3.7, но теперь нулевая гипотеза Я2 предполагает нормальные распределения N (0, с2), σ2^σ!> а альтернативная гипотеза Н1—нормальные распределения N(0, σ2) с2 < с|. / (*: ЯА) и / (* : Я2) задаются следующим образом: Следовательно, мы отвергаем Я2, если j><of, и log (сЦу)— 1+3>/с|^с> т. е. если ^^^<σΙ· Мы получаем равномерно наиболее мощную критическую область. [Ср. Фрезер (1957, стр. 84).] Если мы рассмотрим Н1 как нулевую гипотезу, а Я2 как альтернативную, то из соображений симметрии мы отвергаем Ни если у ^ σ| и log (cf/y) — 1 -(-^Н ^ с» т- е. если у ^ с > σ|. Если значение σ| не задано, то находят доверительный интервал, определяемый из формулы log(c2/jv)— 1 + -™^с для параметра cs, с коэффициентом доверия Ρ [log (os/y) — 1 +}>/cs ^ Φ2] ==1 — α· Можно также сказать, что выборка дает меньшее, чем хотелось бы, количество информации для различения против гипотетического значения с2, попадающего в доверительный интервал. (См. рис. 3.7.) Пример 3.9. Продолжим рассмотрение примеров 3.6—3.8, но теперь мы должны будем относить выборку либо к Ни семейству нормальных
щ ПРОВЕРКА ГИПОТЕЗ ЮЗ распределений /V (0, о8), о2 < of, либо к Н3, семейству нормальных распределений N (О, о2), of^o2sgo§, либо к Ht, семейству нормальных распределений N(0,°*), с2>с§. \1(*>Ъ) / 7 б У Рис. 3.7. /(*:#ι), Г(*:Н2) и /(*:Я3) задаются таблицей y>'i of ^3»<o| У<°1 Ι(*:Η{\ ίΜ-'+ί) *Μ->+ί) 0 Д*:Ш iW-'+ί) 0 τΜ-'+i) /(* ·- #з) 0 *(**-■+*) ihf-'+i) Следовательно, мы приписываем выборку семейству Hit i~ которого /(*:Я£)==0. (См. рис. 3.8.) Пример 3.10. Рассмотрим снова пример 3.9, но с нулевой гипотезой На, предполагающей семейство #2 и альтернативной гипотезой ^4i предполагающей объединение семейств #< 1, 2, 3, для лиЯ3,т е. ΗΑ = ΗΧ\]Η» Мы видим, что / (*:#4) = 0 для JV>ci или у<;а* и /(*:Я4) = = min (/ (* : Ht)t /(*: //,)) для cf <j^ <α| (см. пример 3.9). Поэтому мы отвергаем Я2, если У > σ| и log (oi/y) — 1 +^| ^ с, т. е. если ^^Οσί; или если }><σ?, и Ιο£(σι/>0 — l+}>/ci^c> те· если}^с<с?. Константы должны быть определены в соответствии с заданным уровнем значимости. (См. рис. 3.9.) Пример 3.11. Нам понадобятся результаты примера 1.2. Пусть альтернативная гипотеза Н1 предполагает нормальное распределение Λ^μ, 1),
104 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1ГЛ. 5 μ=μ1>μ2, а нулевая гипотеза Н&—нормальное распределение Ν(μ, 1), μ«^μ2. Оцениваем θ посредством ΰζ=χ, ΐ(*:μ) = η(χ—μ)δ/2. /(* : Hi) и 7(*:Я2) определяются следующим образом: Χ^μ% μ2 < Χ < μι Ι{·ιΗι) η(χ—μι)* n(x — V<i)2 2 0 / (*: Ля) 0 П(^—μ2)2 2 tt(£—μ2)2 Поэтому мы отвергаем #2, если μ2<^<μι, и η (χ—μ2)2/2—η (Χ—μ^β^ε, или если μ!<^ и η (Χ — μ2)2/2$2β, т.е. если Х^О\ьа* (См. рис. ЗЛО.) Леман (1949, стр. 2—17) показывает, что эта критическая область равномерно наиболее мощная. !'<·*,) р&г Рис. 3.11. ^г Пример 3.12. Продолжим рассмотрение примера 3.11, но теперь альтернативная гипотеза Н1 предполагает нормальное распределение Ν(μ, 1), μ = 0, а нулевая гипотеза Н2—семейство нормальных распределений Ν (μ, 1), μ ^ — μ2, μ ^ μ2. / (* : Ht) и / (*: H2) задаются следующим образом: Х^— μ2 —μ2 < Χ < μ2 X^V-2 ?(*:tfi> пХ2 2 пХ2 2 пх2 /(* : Ш 0 η(χ—μ2)2 2 0 Поэтому мы отвергаем #2, если —μ2<^<μ3 и п(Х—μ2)2/2 — rix2l2^c, т. е. если | χ | s^c. (См. рис. 3.11.) Леман (1949, стр. 2—18) показывает, что это наиболее мощная критическая область, или наиболее мощный метод проверь.
4] ОБСУЖДЕНИЕ 105 4. ОБСУЖДЕНИЕ Читатель имел возможность заметить, что τ (χ) есть оценка максимума правдоподобия τ как параметра плотности распределения f*(x) [ср. Бартон (1956)]. Действительно, так как ^ log/* (χ) = Т(х)-^ log Μ, (τ), где (d/άτ) log Ж2 (τ) — строго возрастающая функция τ (см. леммы 4.2 и 4.5 гл. 3), значение τ, для которого (ά/άτ) log/* (χ) = 0, единственное и задается формулой (1.1). [Ср. Хинчин (1949, стр. 79—81).] Далее, как можно ожидать из общих соображений, статистика минимума различающей информации связана с отношением правдоподобия, лежащим в основе критерия Неймана—Пирсона (1928). Действительно, мы можем записать [ср. Барнард (1949), Фишер (1956, стр. 71—73)] max/* (χ) /(*:2; 0„) = θΈ(θ)-1οδΛί2(τ(θ))=1ο8-^—, (4.1) где, как мы помним, /2 (х) =/* (х) для τ = 0, и max/* (χ) /(*: Η) = min log \ . (4.2) /2 ζ Я /aW Если популяции Н являются членами экспоненциального семейства, пробегаемого /* (х)} и если мы обозначим область значений τ через Ω, область значений τ, соответствующих //, через со, то тах/2(лг) = = тах/*(х) и τζω max/*(x) ^■•^=1Ш7^=-1^ (4·3> где λ — отношение правдоподобия Неймана — Пирсона (см., например, Уилкс (1943, стр. 150), Хоул (1954, стр. 189—192), па/ ч тах/*(л;) ?Р*(тахсо)_ τ€ω Ρ* (max Ω) — max /* (χ)· ^'
106 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ 1ГЛ. 5 Если //2 означает, что τ^ω2, и Нх — что τ^ω1? то max/* (χ) /(* : Щ = log τ€Β „, ., (4.5) ν " ъ max/* (λ:)' v ' τζ>2 max/* (χ) max/ 7>://»)=log-Spw w max/* (χ) max/* (л;) max/* (χ) τζ>2 (4.7) Заметим, что здесь Ϊ(*:Η<^ — /(*://t) = — log λ*, где отношения правдоподобия вида max/* (х) max /* (χ) изучались Черновым (1954) для ряда гипотез. Если Я2 означает, что τ£ω, и //t —что τ^Ω — ω, то /(*:Я1)==0, если /(*://2)]>0, поскольку /(*:2; Оп) вогнута и неотрицательна. Проверка нулевой гипотезы //2 теперь зависит только от значения /(*:#2), потому что, когда /(*://2) = 0, мы принимаем нулевую гипотезу без дальнейшей проверки. Несколько простых примеров. В последующих главах мы будем применять понятия этой главы к целому ряду важных статистических задач. Пример 4.1. Допустим, мы хотим проверить нулевую гипотезу об однородности выборки, т. е. о том, что η независимых наблюдений в выборке Оп принадлежат одной и той же нормальной популяции, с заданной дисперсией σ2, при альтернативной гипотезе о том, что наблюдения принадлежат нормальным популяциям с различными средними, но с одинаковым заданным значением дисперсии с2. Обозначим нулевую гипотезу через Н2 (μ/σ2) или Ή2(*|σ2) в зависимости от того, задается или нет среднее, а альтернативную гипотезу обозначим через Ηι (μ^2) или Hi (·|σ2), также в зависимости от того, заданы ли различные средние. я Пусть Г (*) = (*„ х2 хп) и /, (х) = ТТ еХр l~(Xi-^'W, юг- ·-■-■- σ 1/ 2π ί=1 да /(*:2; ед=2 (*Α~Λ-Τ*ή, (48> i=l
4] ОБСУЖДЕНИЕ 107 где ч удовлетворяет равенству Λ^=μ-|-σ2ν Таким образом получаем / (·: Иш №)) =» 2 (*i - μ)2/2*2. (4.9) Если μ не задано, / (*: //2 (.|cs)) = min/ (*: И2 (μίσ2)) равно μ- ? (· : Я 2 (.|o*j) = J] (*ί ~ *)2/2с*> * = (^ +... + xn)ln. (4.10) С другой стороны, если ^(л;) — ^, x2f ..., л:ге), но то / (*: 2; Οη) = 2 (χ^ ~ W*4 - γ *«?). (4·1 1) £=1 где τ^ удовлетворяет равенству χχ = μέ -[- σ2τ£. Таким образом, имеем / (· : Я, (R/c*)) = J] (*, -μέ)2/2σ2· (4.12) Если μι не заданы, то для / (*: ЯЛ (·|σ*)) = πιίπ/ (*:#! (μ,*|σ2)) выполняется ί(·:#ι(·|σ·)) = α (4.13) Если мы потребуем, чтобы сопряженное распределение из (4.8), т. е. η f* ,χ) =h (х) ехР fri*i + ... +τηχη) _ TTexph (Xj — μ— σ2τ/)*/2σ2] M2 (xlf τ2, ... , τη) LL aV2n i=I пробегало нормальные популяции с одинаковым средним, то μ¥ = μ|:=... ... =μ* означает, что μ-\-α2τ1=ι... = μ-{-α2τη,Μΐιιι что допустимы только значения τ1 = τ2 = ...==τΛ = τ. При таком ограничении из (4.8) следует ΐ (Я2 (-|σ2): 2; Оп) = «Χτ — щ£ — η ~ τ2, (4.14) где £ удовлетворяет равенству Χ = μ-}-σ2τ, и (4.14) приобретает вид / (//, (·|σ2) : 2; 0„) = л(* —μ)2/2σ*. (4.15) Отметим, что если ш1==й является «-мерным пространством zit τδ, ... , τΛ, χο (4.9) равно log (max/* (χ)|/2 (χ)) и что если ω2—подпространство Ω, τζω2
108 информационные Статистики im. δ в котором τ1=:τ2==... = τΛ> то (4.15) равно log (max/* (χ)jfs (x)). Из (4.10), (4.13) и всего предыдущего видим, что (4.7) приобретает вид 2 (Xi -*)*/2с* = 2 (χ._μ)δ/2α2-« (*_μ)*2α2. (4.16) Гипотеза Н2 (μ|σ2) является пересечением двух гипотез: (i) что выборка однородна и (ii) что математическое ожидание однородной выборки равно μ. Переписывая (4.16) в виде 2 (^-μ)·/2σ« = 21(^- Χ)Ψ°* + η(Χ~μ)η2*2 (4.17) или в виде / (* : Я2 (μ[α«)) =/(*: Н2 (·|σ«)) +/ (Я2 (. | σ*): 2; 0„), мы подчеркиваем, что первый член суммы в правой части есть статистика минимума различающей информации, лежащая в основе критерия проверки однородности, а второй член суммы—статистика минимума различающей информации, лежащая в основе критерия проверки величины математического ожидания однородной выборки. Пример 4.2. Предположим, что имеется однородная случайная выборка От а именно выборка из одной и той же нормальной популяции, и мы хотим проверить гипотезу о среднем, когда дисперсия не задана. Пусть гипотеза Н2 (μ, с2) заключается в том, что выборка принадлежит нормальной популяции Ν(μ, σ2), а гипотеза Н2 (μ) заключается в том, что выборка принадлежит нормальной популяции со средним μ и неизвестной дисперсией. Пусть альтернативная гипотеза Hi заключается в том, что выборка принадлежит к какой-то нормальной популяции. Если T(x)=z(X} s2), где s2—несмещенная оценка дисперсии, и η U (х) =П 0/°Κ2ί) ехр [-(** -μ)δ/2ο2], то из примера 1.3 этой главы и из примера 4.3 главы 3 видно, что /(*://2(μ, ^^^-t^-^ + ^Iog^-^J + s^, где * = μ+*ι(σ8/"), s2 = o*/(l— 2Usl(n — 1)), или /С://.(ib '*)) =Ξ^Ρή + Ι1^1[^$- 1 +^). (4-18) Из примеров 4.2 и 4.3 главы 3 видно, что если нормальные популяции имеют одни и те же дисперсии при Ял и На, т. е. σ| = σ| = σ|, то τ2 = 0 является единственным допустимым значением. Мы придем к тому же заключению, если потребуем, чтобы дисперсионные параметры в распределении χ и s2 в выражении плотности g* (у) (см. (4.15) гл. 3) были одинаковы. Соответственно для / (*: Hs (μ)) мы получим то же самое выражение, что получили для / (*: Н2 (μ, с2)), за исключением того, что £=μ + ч (°s/w) и £2 = 0 или ss—σ2, так что / (*: Я2 (μ)) = η (x-tffis*. (4.19)
61 АСИМПТОТИЧЕСКИЕ СВОЙСТВА 109 Мы видим, что ?(*://!)= О, и проверка гипотезы #2(μ) зависит только от значения /(*: Н2 (μ))· Это хорошо известный ί-критерий Стыодента. (См. задачу 7.8.) Пример 4.3. Предположим, что мы хотим проверить нулевую гипотезу о дисперсии нормальной популяции, из которой извлечена случайная выборка Оп. Пусть гипотеза Н2 (σ2) состоит в том, что выборка извлечена ΡΙ3 нормальной популяции с дисперсией о2. Видим из (4.18), что /(·: На (с*)) = min /(* : Я2 (μ, <?)), μ- или /(*: Нг (о·)) = Л=1 (log-£- 1 +-g) . (4.20) Гипотеза Н2 (μ, cs) в примере 4.2 является пересечением двух гипотез: (i) среднее однородной выборки равно μ при данном σ2 и (ii) H2 (σ2). Подчеркнем этот факт, переписав (4.18) в виде /(·://,(К οί)) = /(//,(.|«1):2; Оп)+1(*:Н2(с*)). (4.21) 5. АСИМПТОТИЧЕСКИЕ СВОЙСТВА Асимптотическое распределение отношения правдоподобия λ в некоторых случаях известно. Уилкс (1938а) показал, что при соответствующих условиях регулярности — 2 log λ асимптотически имеет распределение χ2 с (k — г) степенями свободы при нулевой гипотезе о том, что (вектор) параметр лежит на г-мерной гиперплоскости Α-мерного пространства. Вальд (1943) обобщил теорему Уилкса на более общие подмножества параметрического пространства и показал, что критерий отношения правдоподобия имеет асимптотически наилучшую среднюю мощность и асимптотически наилучшую постоянную мощность для некоторого семейства поверхностей в параметрическом пространстве и что он является асимптотически наиболее точным критерием. [О понятии точности см., например, Фрезер (1957, стр. 103 —107).] Вальд (1943) также показал, что при справедливости альтернативной гипотезы распределение — 2 log λ асимптотически приближается к нецентральному х2-распределению. Чернов (1954) получил, при соответствующих условиях регулярности, асимптотическое распределение — 2 log λ* [см. замечание, следующее за (4.7)]. Во многих случаях — 2 log λ* ведет себя как случайная величина, которая иногда равна нулю, а иногда χ2. [См., например, Бартлетт (1955, стр. 225 — 226), Уилкс (1943, стр. 150—152), Фрезер (1957, сгр. 196 — 200), Хоул (1954, стр. 189 —196), о критерии отношения правдоподобия и его асимптотических χ2 свойствах.] Куперман (1957) показал, что для случайной выборки в η независимых наблюдений, при условиях регулярности, которые будут даны ниже, 2я/=2«[$ f{x, 6)log/^f Λ(*)],_| (5.1)
no ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 асимптотически распределено как χ2 с k степенями свободы при справедливости нулевой гипотезы [k — число компонент (вектора) параметра], где f(x, θ) — плотность вероятности многомерной, многопараметрической популяции, случайный вектор θ — любая состоятельная, многомерная асимптотически нормальная, эффективная оценка Θ, и вектор θ2 определен нулевой гипотезой. Условия регулярности таковы (ср. раздел 6 гл. 2): 1. Θ = (ΘΑ, θ2, ..., Qk) — точка в параметрическом пространстве Θ, которое является открытым выпуклым множеством в ^-мерном евклидовом просгранстве. 2. Семейство популяций, определенное плотностью f(x, θ), θ ζ Θ, однородно. 3. f(x, θ) имеет по всем компонентам θ из θ непрерывные частные производные первого и второго порядка для χ ζ Χ [λ]. 4. Для всех θ ζ θ $-^3^Λ<*>=°· I4$brd4x)z=0' i>j=i>2>->k· 5. Интегралы ^ao=Saiogy,a)aiog^,a)/(^ β>*(*λ и 7=i, a,... k, конечны для всех θ ζ θ. 6. Для всех θζθ матрица С(Θ) = (с^(Θ)) положительно определена. Если вместо одной выборки, как ранее, у нас имеется г независимых выборок объема пь 1=1, 2, ..., г, и каждая с состоятельной многомерной асимптотически нормальной эффективной оценкой θ£ = (θη> 6ia, ..., 6fft) (1=1 у 2, ..., г), то, как показал Куперман (1957), при вышеуказанных условиях регулярности г г распределена асимптотически как χ2 с £г степенями свободы, если справедлива нулевая гипотеза о том, что г выборок принадлежат одной и той же популяции с плотностью распределения f(x, q). Куперман (1957) показал также, что при справедливости нулевой гипотезы о принадлежности г выборок к одной и той же популяции с плотностью, функциональный вид которой известен, но неизвестны параметры, г г 2jinili = 2jini[f{x,bi)\og^^-d4x)\ _л (5.2)
5j АСИМПТОТИЧЕСКИЕ СВОЙСТВА 111 асимпгогически распределена как χ2 с (г—\)k степенями свободы, где щ — число независимых наблюдений в i-й выборке, Θ,- — состоятельная, многомерная асимптотически нормальная, эффективная оценка £ параметров по /-й выборке, и пЬ = п1Ь1-\~щ%-\~...-\~пгЬп п== = пх~\~щ-\~...-\~пп Если нулевая гипотеза неверна, то, как пока- η η зал Куперман (1957), 2я/, 2^ п^ф) и 2^]я^ сходятся по вероятно- i=i ί=ι сти к неограниченно большому числу и при большой выборке распределение может быть аппроксимировано распределением, связанным с нецентральным х2-распределением с большим параметром нецентральности и таким же числом степеней свободы, как и у х2-распре- деления при справедливости нулевой гипотезы. Куперман (1957) показал, что при тех же условиях регулярности аналогичные результаты имеют место и для оценок расхождения. Таким образом, в тех же обозначениях, что и выше, nJ=n[(f{x, β)-/(*, ^)iog^^dl(x)\^s имеет асимптотически х2-распределение с k степенями свободы, если выборка принадлежит популяции с плотностью f(x, бд); η г i=l i = l i i асимптотически распределена как χ2 с rk степенями свободы, если г выборок принадлежат популяции с плотностью распределения f(x, θ); г г 2У*= 21й* [\ ν(χ> θ»)-/(^ β» log ^|λ(*)] 9 = ί асимптотически распределена как χ2 с (г—l)k степенями свободы, если г выборок принадлежат одной и той же популяции. Для двух выборок Куперман (1957) показал, что 62 = θ2 имеет асимптотически χ2-pacπpeдeлeниe с k степенями свободы, когда две независимые выборки принадлежат одной популяции с неопределенным (вектором) параметром Θ. Поведение оценок расхождения, когда нулевая гипотеза неверна, аналогично поведению оценок различающей информации. Эти критерии состоятельны, с мощностью, стремящейся к единице для больших выборок. [См., например, Фрезер (1957), стр. 108).]
112 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 Пример 5.1. Мы можем сделать вывод, что 2/(*: Н2 (μ|σ2))=ζ η = 2 (Xi — ^)2/°2 (см* (4-9)) имеет асимптотически ^-распределение с η степенями свободы. (Можно, конечно, показать, что это справедливо для всех п). Этот вывод можно получить из теоремы Уилкса, так как имеется η параметров τ0 τ2ι ..., τη, и нулевая гипотеза задает точку τ1=τ2 = ... = τη = 0. Пример 5.2. Можно сделать вывод о том, что 2/ (*: Н2 (-1 σ2)) = η = 2 (χΐ — ^)/°2 (см· (4.Щ) асимптотически ^-распределена с (ft — 1) сте- пенями свободы. (Можно показать, что это справедливо для всех ft.) Можно прийти к этому выводу на основании результата Купермана, представляемого соотношением (5.2), поскольку 2/ (1:2) = (μ4— μ2)2/°2 для нормальных распределений с разными средними и одинаковыми дисперсиями, и каждое наблюдение есть выборка объема 1, так что μι· = ΛΓίι μ2 = ^, fc=l, r = ft. Пример 5.3. Можно заключить также, что 2/ (* : И2 (μ, σ·)) = ft {Χ-μΥ(** + (ft - 1) (log (σ^/s2) - 1 +S2/cs) (см. (4.18)) имеет асимптотически х2-распределение с 2 степенями свободы. К этому заключению можно прийти, используя теорему Уилкса, так как имеется два параметра τχ и τ2 и нулевая гипотеза дает τ1 = τ2 = 0. Пример 5.4. Предположим, что у нас есть выборка в η независимых наблюдений из нормальной популяции с нулевым средним и неизвестной дисперсией. Используя пример 3.8 и асимптотические свойства, можно определить доверительный ивтервал для параметра σ2 с асимптотическим коэффициентом доверия (1 — а) из неравенства ft (log (o»jfy) - 1 +J>/*2) < xb (5.3) η где y= (1/ft) 2 ХЬ а 'Ч.— табличное значение χ2 с одной степенью свободы, соответствующее 100а°/о уровню значимости. Так как в левой части (5.3) стоит вогнутая функция от l/σ2 при фиксированном у, то равенство в (5.3) достигается для двух значений σ2. (См. примеры 3.8 и 5.6.) Дополним предшествующие утверждения более детальным рассмотрением асимптотического поведения 2/(*: Н). Сначала изучим подробнее связь между Τ(χ) = θ и оценкой τ, т(л;) = т(б) (см. (1.1)). Так как ΓΑ1οβΛ|β(τ)] Α=Γ-^-1ο8Λί,(τ)] -f + (- (β) - τ (θ)) Γ^ log Ж2 (τ)] _ , (5.4) где τ (θ) лежит между τ (б) и τ (θ) и θ= [(d/dx)\ogM^(z)]x=s τ(θ), то из леммы 4.3 главы 3 и формул (1.1), (5.4) получаем соотношение θ — θ = (τ (6) — τ (θ)) Ζ) (б I τ (θ)). (5.5) Обращаем внимание читателя на многомерность переменных и параметров, как это указывалось для лемм 4.10 — 4.12 главы 3. В терминах матриц (векторов) θ^^, θ2, ..., ΘΛ), θΓ=(δΧ, ..., 0Α), τ, = (τ1,
5] АСИМПТОТИЧЕСКИЕ СВОЙСТВА ИЗ Чу ·■·> τ/0> ^' = 0ч> τ2, ···> ^записываем вместо соотношения (5.5) б — θ = Σ(τ (б)) (i — Τ), (5.6) или i ~~ Τ = Σ -1 (τ (θ)) (6 — θ), (5.7) где Σ (τ (θ)) — ковариационная матрица компонент θ для сопряженного распределения с параметром τ (θ). Можно вывести (5.7) непосредственно из τ (θ) = τ (θ) -f- (б — θ) [dt (6)/cffi)] - и лемм 4.7 и 4.12 главы 3. Если мы запишем /(*:2; 0Л) = /тг (б) = 6τ (β) — logAf2(T(6)) и проследим метод доказательства теоремы 4.1 главы 3, то увидим, что /(*:2; 0„)=/(*:2; On) -f (β - G) τ (θ) + Φ ~ θ)21 2D (β | τ (6)), (5.8) где θ лежит между б и 6. В терминах матриц, введенных выше для (5.6), получим /(*:2; 0„)=/(*:2; 0„) + (6-θ)'τ+4-(6-6)'Σ,(τ(6))(θ-θ).(5.9) Если θ есть деленная на η сумма независимых, одинаково распределенных векторов с конечной ковариационной матрицей Σι(τ(θ)), то по центральной предельной теореме [Крамер (1937, стр. 112 —113; 1955, стр. 114—116)] распределение У^пф — Θ) стремится к многомерному нормальному распределению с нулевыми средними и ковариационной матрицей Σι(τ(θ))=/ι2(τ(θ)); и, в частности, θ сходится по вероятности к Θ. [См., например, Фрезер (1957, стр. 208 — 215).] Из леммы 4.7 главы 3 видим, что τ(θ) — непрерывная функция θ для всех τ из интервала, где Λί2(τ) существует и конечна. Мы можем, следовательно, применить теорему Манна и Вальда (1943) о стохастических пределах, чтобы прийти к заключению, что из сходимости по вероятности θ κ θ следует сходимость по вероятности τ (б) к т(6). [Ср. Крамер (1946а, стр. 252 — 255).] Так как τ (6) лежит между τ (б) и τ(θ) [τ. е. каждая компонента τ(θ) лежит между соответствующими компонентами т(6) и τ(θ)], то т(§) сходится по вероятности к τ(θ), и на основании лемм 4.3 и 4.10 главы 3 и теоремы Манна и Вальда (1943), Σ(τ)(ί)) сходится по вероятности к Σ(τ(θ)). Из соотношения (5.7) видим, что распределение ΐ — т стремится к многомерному нормальному распределению с нулевыми средними и ковариационной матрицей G* (6) = G*-1 (τ ) = Σ"1 (τ (θ)), где матрицы определены в леммах 4.10 и 4.11 главы 3. Это хорошо известное свойство оценок максимума правдоподобия. Здесь уместно напомнить читателю, что результаты, сформулированные в (5.6), (5.7), (5.9) и предшествующих абзацах, выражены в терминах параметров распределения Θ, и неявно в терминах параметров одномерной величины. Мы должны, следовательно, вспомнить, что 2(τ(θ)) = 0(1/η), 0*(в)=0(л> (5.10)
114 ИНФОРМАЦИОННЫЕ СГАГИСГИКИ [ГЛ. 5 Если выборка Оп принадлежит популяции с плотностью распределения Мх), то θ = 6(0), τ = 0, /(*:2; Оп)=0 и 2/(»:2; Оп), как видно из (5.9), является асимптотически квадратичной формой компонент многомерного нормального распределения и, следовательно, имеет х2-распределение с k степенями свободы [Ср. Рао (1952, стр. 55), задача 10.21 гл.9]. Отметим аналогию между соотношениями (5.9) при т = 0 и (6.4) главы 2 с б — θ в качестве (ΔΘ). Теперь мы можем определить для параметров f%{x) доверительную область с асимптотическим коэффициентом доверия 1 — α из неравенства 2/(*:2; 0я)^(а, *), (5.11) где χ2 (α, k) — значение, для которого х2-распределение с k степенями свободы дает Ρ {χ2 ^ χ2 (α, k)} = α. Так как 2/(* : 2; Оп) — вогнутая функция, то неравенство (5.11) дает две критические точки для одного параметра, значения на замкнутой кривой для двух параметров, на замкнутой поверхности для трех параметров и т. д. Дадим несколько примеров, прежде чем рассматривать асимптотические распределения при справедливости альтернативной гипотезы. Пример 5.5. Как мы видели в примере 1.1, для биномиального распределения 2/(*:2; 0„) = 2я (р log (p//>2)-f-£ log (qlq2)), где у = прямою наблюденных успехов. Таким образом, 95°/0 доверительный интервал для р2 определяется неравенством (5.12) 2«(plog^ + ^log^)<3,84. В табл. 5.1 приведены некоторые 95% интервалы для биномиального распределения, вычисленные Говардом Р. Робертсом [См. Роберте (1957) о таблицах доверительных границ]. Таблица 5.1 η \ 10 20 30 50 100 250 1000 0 0 0,174 0 0,091 0 0,062 0 0,038 0 0,019 0 0,008 0 0,002 0,1 0,006 0,372 0,017 0,278 0,025 0,240 0,037 0,203 0,051 0,169 0,067 0,141 0,082 0,120 0,2 0,036 0,499 0,067 0,405 0,085 0,364 0,106 0,324 0,130 0,285 0,154 0,253 0,176 0,226 0,3 0,085 0,607 0,132 0,516 0,157 0,476 0,185 0,435 0,216 0,394 0,246 0,359 0,272 0,329 0,4 0,146 0,700 0,207 0,617 0,238 0,578 0,272 0,538 0,307 0,498 0,341 0,462 0,370 0,430 0,5 0,217 0,783 0,291 0,709 0,327 0,673 0,364 0,636 0,403 0,597 0,438 0,562 0,469 0,531 0,6 0,300 0,854 0,383 0,793 0,422 0,762 0,462 0,728 0,502 0,693 0,538 0,659 0,570 0,630 0,7 0,393 0,915 0,484 0,868 0,524 0,843 0,565 0,815 0,606 0,784 0,641 0,756 0,671 0,728 0,8 0,501 0,964 0,595 0,933 0,636 0,915 0,676 0,894 0,715 0,870 0,747 0,846 0,774 0,824 0,9 0,628 0,994 0,722 0,983 0,760 0,975 0,797 0,963 0,831 0,949 0,859 0,933 0,880 0,918 1,0 0,826 1,000 0,909 1,000 0,938 1,000 0,962 1,000 0,981 1,000 0,992 1,000 0,998 1,000
5] АСИМПТОТИЧЕСКИЕ СВОЙСТВА 115 Пример 5.6. Мы видели в примере 1.4, что для выборки из нормальной популяции с нулевым средним, 2Ϊ (*: 2; Оп) = η (log (o|/y) — 1 +^/σΙ)» где η yz=.(\ln) 2 ХЬ Следовательно, 95% доверительный интервал для σ| опре- деляется неравенством (ср. пример (3.8)) "(log ^-1+^)^3,84. (5.13) Для п = 10 получаем ^/2,15^о|^^Д359, а для л = 100 ,y/lt303<oj <^/°»748· Пример 5.7. В примере 1.5 мы получили, что для выборки из популяции с двумерным нормальным распределением с нулевыми средними и единичными дисперсиями *?■■* o.>Hi°*i^--2+*+V-t(»'~*))· П П где 3>ι = J- 2(*ii—*ai)f> Ун = JL 2 (^ii+^si)2· Таким образом, 95% дове- я £=1 /г jr=i рительный интервал для р2 определяется неравенством Заметим здесь, что в соответствии с разделом 3.4 главы 12 для выборки Оп из популяции с двумерным нормальным распределением с неизвестными средними и дисперсиями 95% доверительный интервал для р определяется неравенством (п- 1) (log γΞ^~2+ 2 УГр?*) ^3>84> (5·15) где г — обычный выборочный коэффициент корреляции. Пример 5.8. Как мы видели в примере 5.3, 2/(*://2(μ, σ2)) = = п(х— μ)2/σ2 + («—1) (log(o2/s2) — 1 + $2/σ2) с s2 в качестве несмещенной оценки дисперсии имеет асимптотически х2-ра определение с 2 степенями свободы, если μ и σ2 — параметры нормального распределения. Соответственно для выборки Оп из популяции с нормальным распределением, 95% доверительная область для (μ, σ2) задается неравенством п(х — μ)2 + (n-l) (log ^-1+^)^5,99. (5.16) Пример 5.9. В примере 1.6 мы показали^что для выборки из популяции с плотностью /8 (х) = ехр [— (х — θ2)], θ2 ^ χ < оо, ,2/(*:2; On) = 2(n(L — b9)—l-\ogn(L — b))9 где L = min(xt9 x2, ..., хп)· Соответственно для выборки Оп из популяции с плотностью /2 (х) 95% доверительный интервал для θ2 задается неравенством η (L ~ θ2) — 1 — log n (L — θ2) ^ 1,92. (5.17) Находим, что 0,057^π (Ζ. — θ8)<4,40,τ. е. Ζ, — 4,40/и^θ2<Ζ. — 0,057/и.
116 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. б С другой стороны, если выборка Оп взята не из популяции с плотностью /ъ(х), то, как можно видеть из (5.5), асимптотически £(2/(*:2; On)) = 2/(* :2; OJ-f Α = 0(/ι) + Α, (5.18) а 2/(*:2; Оп) — 2/(*:2; Οη)—2(θ —θ)'τ (5.19) имеет х2-распределение с £ степенями свободы. Покажем теперь, что (5.19) есть удвоенный логарифм отношения правдоподобия. Так как 7(*:2; Οη) + φ~6)τ(Β) = Βτ(ΰ)~ίοζΜ,(τ(Β))~\-φ~6)τ(β) = = 6τ (θ) - log М2 (τ (θ)) = log (f* (*)//„ (Χ)), то мы можем написать [см. (5.9)] 2/(*: 2; Ои) — 2/(*: 2; 0„) — 2 (β — θ/τ= = 2/(*: 2; 0„) - 2 (б'т - log Ж2 (t'))= max/* (χ) max/* (л:) = (в — ΘΧΣ"1 (τ (θ)) (б — θ) = (* — τ/ Σ (τ (θ)) (< — τ). (5.20) Критерий, который отвергает нулевую гипотезу [о том, что выборка сделана из популяции с плотностью /8(д0], является состоятельным, если значение 2/(*: 2; Ол) достаточно велико, (т. е. мощность его стремится к 1, когда объем выборки неограниченно возрастает). Это видно из того факта, что если выборка взята из популяции с плотностью f<t(x), то для достаточно больших выборок Ρ [2/(* : 2; Оп) Ξ5= χ2 (α, k)] = α, где χ2 (α, k) зависит только от α и от числа степеней свободы k. С другой стороны, если выборка взята не из популяции с плотностью ЛС*0> то из теоремы Хинчина [ср. раздел 3 гл. 4; Крамер (1946а, стр. 253), Феллер (1950, стр. 191)] для любых ε]>0, β^>0 и достагочно большого η [см. (5.18)] Р[2/(*:2; 0„)^2/(*: 2; OJ-fA — е]^ 1 — β. Отметим, что при достаточно больших п, 2/(*:2; Оп)~\~к — ε^χ2(α, k), даже для альтернатив, очень близких к нулевой гипотезе, близких в смысле малости /(*:2; ОД так как /(*:2; 0„) = я/(*:2; ОД Для того чтобы получить более полезное утверждение относительно асимптотического распределения при альтернативной гипотезе, чем утверждение относительно выражения (5.19), проделаем следующее: так как (Θ— θ-f Σ (τ(θ)τ)' Σ"1 (τ(В)) (θ — θ + Σ(τ(θ))τ) = = (β — θ)' Σ"1 (τ (θ)) (θ — θ) -f 2 (θ — θ)'τ + τ'Σ (τ (θ)) τ, (5.21)
5] АСИМПТОТИЧЕСКИЕ СВОЙСТВА 117 то из (5.6), (5.9) и (5.20) получим 2/(*:2; 0„)-2/(*:2; Οη) + *'Σ(τ(θ))τ= = (θ — θ + Σ (τ (6)) τ)' Σ"1 (τ (θ)) (θ — θ + Σ (τ (0)) Τ) = *Σ (τ (θ)) *. (5.22) Как мы видели, по центральной предельной теореме распределение ~\fn (θ — θ) стремится к многомерному нормальному распределению с нулевыми средними и ковариационной матрицей Σι(τ(θ)) = = /ζΣ(τ(6)). Следовательно, асимптотически (ср. раздел 3 гл. 12) /(*:2; OJ=fr« —в(0у« —ί*2(0)«, (5.23) где θ = θ(0)+Σ(0)ΐ [ср. (5.6) при т=0], так что 2/(*:2; Оя) = (в-в(0)У1г1(0)(в-в(0)) = = п (б _ θ (О)/ ΣΓ1 (0) (б — θ (0)) = *г Σ (0) т, (5.24) и аналогично 2/(* : 2; Οη) = (θ(τ) - 6(0))' Σ"1 (0)(θ(τ) - θ(0)) = = η (θ (τ) — θ (0)У ΣΓ1 (0) (θ (τ) — θ (τ)) = τ'Σ (0) τ. (5.25) На основании (5.22), (5.24) и (5.25) мы заключаем, что Σ (τ (6)) = = Σ(0) и что, следовательно, 2/(*:2; Оп) асимптотически распределено как нецентральный χ2 с k степенями свободы и параметром нецентральности 2/(*:2; Оп). Отметим, что это согласуется с (5.18), ибо математическое ожидание величины нецентрального χ2 равно сумме параметра нецентральности и числа степеней свободы. (См. задачу 10.22 гл. 9 и раздел 6.1 гл. 12.) Соответственно, когда f%(x) сама является членом экспоненциального семейства, как будет в большинстве приложений в последующих главах, max /* (χ) 2/(* : Щ = 2 log ^/>w = rnhi (« - τ)'Σ (0) (< - χ), (5.26) где Ω — ^-мерное пространство, а ω2 — подпространство Ω, для которого /* (χ) принадлежит популяции из //2. Если о>2 — r-мерное подпространство пространства Ω, то из работ Уилкса (1938а) и Вальда (1943) можно вывести, что 2/(*:#2) асимптотически распределено как χ2 с k — г степенями свободы, если только выборка сделана из популяции, принадлежащей семейству //2, и что 2/(* : #2) — асимптотически распределено как нецентральный χ2 с k — г степенями свободы и параметром нецентральности 2/(*://2) в противном случае. [Ср. Бартлетт (1955, стр. 225—226), Бэйтман (1949), Вейбулл (1953),
118 ИНФОРМАЦИОННЫЕ СТАТИСТИКИ [ГЛ. 5 Крамер (1946а, стр. 424—434, 506), Нейман (1949), Рао (1952, стр. 55—62), Фишер (1922а, 1924).] В иллюсграциях раздела 4 главы 6 и раздела 4 главы 7 мы сравним точные вероятности, которые можно вычислить, с их асимптотическими приближениями. Заметим, что для целого ряда последующих применений можно вычислить точные распределения или приближения лучшие, чем те, которые получаются из общей теории. В каждом случае асимптотическое поведение согласуется с выводами общей теории. 6. ОЦЕНКА J(*,2) Для сопряженного распределения f*(χ) = βτΤ^/^(χ)/Μ^(τ)9 определенного в разделе 1, находим J{*. 2)= l(f*(x)-A{x))log^^dk(x) = (B-B(O))z(tf). (6.1) Отметим, что это есть следствие 3.2 главы 3 с Tj —τ, τ2 = 0. Оценим J(*; 2) посредством /(»,2) = (β-β(0))τ(β> (6.2) где 7(x)==6 = j^logM2(T) Λ. (См. раздел 1.) В многомерном случае J(*, 2) = (θ-θ(0)χΐ, (6.3) где матрицы определены в соотношении (5.6). Поступая, как в разделе 5, видим, что если выборка взята из популяции с плотностью f%(x), соответствующей нулевой гипотезе, J(*9 2) = (θ — θ (0)УΣ~χ (0) (θ — θ (0)) (6.4) асимптотически имеет х2-распределение с k степенями свободы. С другой стороны, из (5.23) следует, что J(*9 2) = *ЧВ(0)«, (6.5) т. е. асимптотически */(*, 2) равна 2/(*; 2) и, следовательно, заключения относительно асимптотического поведения J(*, 2) такие же, как и для 2/(*:2). Отметим аналогичность связи между J(fi9 β —|—ΔΘ) и 2/(θ:θ-[~ΔΘ) в разделе 6 главы 2. Обозначим минимум величины */(*, 2) по всевозможным /2, соответствующим популяциям семейства Я2, через */(*, Я2). Асимптотическое поведение J(*, //2) то же, что асимптотическое поведение 2/(*:Я2).
7] ЗАДАЧИ 119 7. ЗАДАЧИ 7.1. Рассмотрите нормальные распределения N fait σ2), / = 1, 2, μι<μδ. Покажите, что по всем областям Д для которых \ft(x)dx=i\ — α, макси- i мум \ Л (х) log-~4*4 ^х Достигается для области А = {х: — со < χ <gj. A 7.2. Покажите, что критическая область в примере 3.3 является равномерно наиболее мощной. 7.3. Если в примере 3.4 pt = 0,20, р2 = 0,80, то каково критическое значение? /?? Если η = 25, то каковы ошибки классификации? 7.4. Покажите, что критическая область в примере 3.8 равномерно наиболее мощная. 7.5. Покажите, что критическая область в примере 3.11 равномерно наиболее мощная. 7.6. Покажите, что критическая область в примере ЗЛ2 наиболее мощная. 7.7. Нарисуйте критическую область (5.16) для п= 100, μ = 0, os= l. 7.8. Покажите, что минимум (4.18), без каких-либо ограничений на о2, равен ■—к~ log (1 + η- ~~ ], что для больших п приближенно равно η С*—μ)2 2s2 · 7.9. Докажите утверждение, сделанное в конце примера 1.1. 7.10. Пусть гипотезы Hi предполагают нормальные распределения Nfait of), t=l, 2. Разработайте критерий для проверки нулевой гипотезы #2, параллельный процедурам в примерах раздела 3. [Ср. Куперман (1957, стр. 94—96).] 7.11. Покажите, что процедура классификации, описанная в первой половине раздела 2, при г = 2 такова, что вероятность ошибочной классификации стремится к нулю, когда объем выборки неограниченно возрастает. (Ср. задача 7.28 гл. 3 и задача 4.22 гл. 4.)
ГЛАВА 6 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ 1. ВВЕДЕНИЕ Мы будем применять принципы и результаты, полученные и разработанные в предшествующих главах, при анализе выборок для проверки статистических гипотез. В этой главе мы будем анализировать выборки из полиномиальных популяций, в следующей главе — выборки из популяций Пуассона. Методы этой главы даю г основную структуру анализа таблиц сопряженности признаков главы 8. Мы увидим, что .методы глав 6, 7 и 8 во многих отношениях подобны дисперсионному анализу. Действительно, в главах 10 и 11 будет показано, как развитая в предшествующих главах техника, примененная к анализу выборок из нормальной популяции для общей линейной гипотезы, ведет к дисперсионному анализу и его многомерным обобщениям. Мы будем использовать статистику минимума различающей информации, получаемую заменой параметров популяции в выражении минимума различающей информации их наилучшими несмещенными оценками, соответствующими различным гипотезам. Для специального типа полиномиального распределения, которое возникает, когда выбирают слова или разновидности животных, приближенно несмещенную оценку энтропии дал Гуд (1953, стр. 247). Миллер и Мэйдоу (1954) дают оценку максимума правдоподобия и ее асимптотическое распределение для меры информации Шеннона — Винера в полиномиальном случае. Все формулы глав 6, 7 и 8 можно записать, используя члены вида η log η или т log n (здесь всегда натуральные логарифмы). 8 табл.1 на стр.382 приведены значения log л и л log л для η от 1 до 1000. Я обязан Шелдону Г. Левину за вычисление таблицы л log я. Таблицы л log я по основанию 2 и по основанию 10 для η от 1 до 1000 можно найти в специальном отчете Миллера и Росса (1954). Фишер (1956, стр. 137—138) приводит значения л log л по основанию 10 для η от 1 до 150. Бартлетт (1952) приводит значе-
Ά ПРЕДПОСЫЛКИ 121 ния —log/?, —p log/? для ρ— 0,00, 0,01,..., 0,99, 1,00 и — (plogp-\- -\-q\ogq) для /? = 0,00, 0,01, ... , 0,50 (логарифмы по основанию е). Клеммер (см. Квастлер (1955), стр. 71—77) дает таблицу log л для η от 1 до 999 и таблицу —ρ log ρ для ρ от 0,001 до 0,999 (логарифмы по основанию 2). Он также ссылается на AFCRC-TR 54—50, где содержатся таблицы log л с 5 десятичными знаками для η от 1 до 1000, η log η с 5 десятичными знаками для л от 1 до 500 и —-plogp для р^0,2500 с 4 десятичными знаками, а для р^0,251 с 3 десятичными знаками (логарифмы по основанию 2). Л. Долански и М. П. Долански (1952) протабулировали —log/?, —plogp и — (ptogp-\-qlogq)> р-~\~Я=1 (логарифмы по основанию 2). 2. ПРЕДПОСЫЛКИ Предположим, что две статистические гипотезы Нг и //3 задают распределения вероятностей двух гипотетических с-значных популяций (с категорий или классов) Ηι'Ριυ Ры ··· > Pio fti+fte + ...+ftc=lt i=1> 2· (2Л) Средняя информация для различения в пользу Нг против //3, получаемая от наблюдения, принадлежащего популяции с распределением, соответствующим гипотезе Нь равна /(1:2)=Allog£u+A2log^ + ...+Aclog£!-c (2.2) Р%\ Р22 Рас -(это частный случай определения для общих популяций, см. раздел 2 гл. 1). А средняя информация для различения в пользу //3 против Нь получаемая от наблюдения, принадлежащего популяции с распределением, соответствующим гипотезе 1% равна (см. раздел 2 гл. 1) /(2:l)=Allog^+^logf?-3 + ...+p2clog^. (2.3) Pll Ρί2 PlC Расхождение между Нг и //2, или мера трудности их различения (см. раздел 3 гл. 1), равно J(l, 2) = 7(1:2) + 7(2:1) = = <fti-J^)log^ + <fte-]^^ (2.4) Pai Р22 Pzc В соответствии с общими выводами главы 2 7(1:2)2*0, 7(2:1)3*0, 7(1,2)2*0, (2.5) причем равенство достигается тогда и только тогда, когда /?ι/=/?2/, i= 1, 2, ... , с, т. е. когда гипотезы задают одно и го же распределение.
122 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Средняя различающая информация и расхождение для случайной выборки 0N в N независимых наблюдений соответственно равны /(1:2; 0JV)=M(l:2) = N2Allog(pll/Afi (2.6) /(2:1; 0^ = ^/(2: l) = ^Sftilog(Af/ft^ (2.7) с J(l, 2; On) = NJ{\ :2) = /V £ (Ри-Рп№(ри/РыУ. (2.8) 3. СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ Рассмотрим полиномиальное распределение выборок объема N из с-значной популяции (с категорий или классов): Р[х)=Р[хъ ... . ^)=^~^/^ ... #. (зл) где л>0, г=1, 2, ... , с, ρι4-Λ + ··-+Ρε= Ь *ι + *а + · ■ ■ . ..-|~jec = M Предположим, что /?*(#) — любое распределение на с-значной популяции такое, что каждое возможное в соответствии с распределением р*(х) наблюдение является возможным и для распределения р{х). Это предположение необходимо, чтобы избежать случая, когда р* (х) ^ О, а р (χ) = 0. (См. раздел 7 гл. 2.) Теорема 2.1 главы 3 дает нам возможность утверждать: Лемма 3.1. Распределение на с-значной популяции с заданным математическим ожиданием, минимизирующее информацию для различения против полиномиального распределения р(х), а именно распределение р*(х) такое, что Ε*(χ£) = ΰι и \λ ρ* (χ) А Р* (х) *°g / ч минимальна, есть распределение *!+...+*,-* Р * Ρ4χ) = ^^ (3.2) где pf =pieti/{pleti -|~ · ·. ~h Рсе*с\ / = 1, 2, .. t , <:, τ^ — действительные параметры и 6t = (д/дъ) log (ρχβχι -|~ · · · ~f~ Pce^c)N· Отметим, что минимизирующее различающую информацию распределение /?* (х) является здесь полиномиальным распределением. Простая численная иллюстрация леммы 3.1 есть в примере 2.1 главы 3.
3] СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ 123 Полиномиальное распределение/?*^) в (3.2) — сопряженное распределение (см. раздел 1 гл. 5) для полиномиального распределения р(х). Используя методы, описанные в главе 3, получаем: 6| = Л»Г= *Р** ,/=1,2,...,*, (3.3) Щ =pte*4PjeV, I, j =1,2, ... , с, (3.4) ti==Iog(e«M/ft)-|~log£, 1=1, 2, ... , с, k = =A^+...+^A>0, (3.5) /(*:2; 0„)= 2 Р*^1о^Р-Ш-= =τΑ 4- *A 4- ■ ■ · 4-τΑ - w°g (л^1 + · · · 4-/^)= =e1iog|74-.4-e£iog^, (3.6) /(*, 2; 0„)= J 0>П*)-/>(*)) log^|g-= = τχ (6t - NPi) 4-... 4- тс (бс - NPc) = = (e1-^1)log3|r4—^(вс-Л^е)^^. (3.7) Так как значение & в (3.5) произвольно, то для удобства можно положить й=1, так что выражения для τ( будут однородными: ^ = log(e4/^^ /=1, 2, ... , с. (3.8) С другой стороны, так как xc = N— χγ — х% —... — хс_и мы можем положить тс = 0, или log k — — log (%/Npc). В этом случае тс = 0. В применении к задачам проверки статистических гипотез о полиномиальных популяциях основное распределение (3.1) будет соответствовать нулевой гипотезе 7/2, а сопряженное распределение будет распространяться на семейство популяций, соответствующих альтернативной гипотезе Ηχ.
124 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 4. ОДНА ВЫБОРКА 4Л. Основная задача Предположим, что у нас есть случайная выборка объема N7 хь Хъ, ..., хс, xl-\-x^-\-, ..-\-xcz=N с полиномиальным распределением на с-значной популяции (с категорий или классов), и мы хотим проверить нулевую гипотезу Н% состоящую в том, что выборка принадлежит популяции, для которой Н*'.{р) = {ръ Ръ ■•■»Mft+ft-h-+A=1 (4Л> при альтернативной гипотезе Нь что выборка принадлежит любой возможной с-значиой полиномиальной популяции. Возьмем в качестве сопряженного распределения (3.2) распределение, параметры которого — наилучшие несмещенные выборочные оценки, т. е. Qi = Np* — xi, ί=1, 2, ..., с. Из (3.8) имеем *i = logjtfi' 1=1, 2, ..., с. (4.2) Статистика минимума различающей информации есть /(*:2; 0/i)=xllog$- + ... + xeiogj!!*-, (4.3) а соответствующая оценка расхождения А*, 2; On)=N[(^-Pl)loel^ + ... + (%-ft)log^]. (4.4) Отметим, что (4.3) получается из (2.6) подстановкой xtjN вместо Ри и Pi вместо /λ3/, и (4.4) получается из (2.8) с помощью тех же подстановок (см. задачу 7.15). Если нулевая гипотеза //3 (см. (4.1)) верна, то, как следует из разделов 5 и 6 главы 5, 2/(*: 2; 0Ν) и J(*, 2; 0N) имеют асимптотически /^-распределение с (с — 1) степенями свободы. Если же верна альтернативная гипотеза, 2/(*: 2; 0N) и J(*, 2; 0N) имеют асимптотически нецентральное Х2-распределение с (с — 1) степенями свободы и параметрами^нецентральности 2/(* : 2; 0N) и J(*, 2; 0N) соответственно, где /(*:2, 0N) и J(*, 2; Одг) представляются формулами (4.3) и (4.4), в которых Xi/N, i=l, ..., с, заменены на вероятности, соответствующие альтернативной гипотезе. (См. последний член равенства (3.6).) Заметим, что (4.3) можно переписать в виде с с /(*:2; Оп)= £ *,1о8*,- 2 ^logft-AHogW для удобства вычислений с использованием таблицы η log п. Так как log^^^:—1, х^>0, и равенство имеет место тогда и только тогда, когда х—1 [см. Харди, Лиглвуд и Пойа (1934,
4] ОДНА ВЫБОРКА 125 стр. 106) или утверждение, следующее после (2.7) гл. 4J, то отсюда вытекает, что (а — b)/a ^ log (a/b) ^ (а— b)/b> а/£^>0, и равенство достигается тогда и только тогда, когда а = #. Поэтому в качестве первого приближения для log (alb) можно использовать среднее ариф- метическое его верхней и нижней границ, т. е. log (a/b) ^ у ((a — b)ja -|~ (а2 £2\ -j~(a— b)/b)— 2 h л Приближение тем лучше, чем α/b ближе к 1. Применение этого приближения в формулах (4.3) и (4.4) дает 2!(*:2;0N)^2^^-=f, (4.5) ϊ-1 Л* :2; o^^l;S^^ + ^;^^ύL^^ + y^m где первая сумма в (4.6) есть величина у3 Пирсона, а вторая сумма в (4.6) —χ'2 Неймана. [Джеффрис (1948, стр. 170—173), Нейман (1929), Холдейн (1955).] Заметим, что 2/(*: 2; Оп) равна — 2 log λ с λ, лежащим в основе критерия отношения правдоподобия [см., например, Гуд (1957, стр. 863), Уилкс (1935а, стр. 191), Фишер (19226, стр. 357—358)]. Интересно, что Уилкс (1935а) отмечал отсутствие теоретических оснований, по которым χ2 должно отдаваться предпочтение перед — 2 log λ, и что — 2 log λ может быть вычислено с меньшим числом операций, чем у2. Гуд (1957, стр. 863) отмечает, что (используем обозначения этого раздела): (i) 2/(*: 2; 0N) при справедливости нулевой гипотезы оценивает возможные выборки по степени их правдоподобия более точно, чем X2, при данных N, с, pVj ръ ..., р€; (и) вычисление 2/(*: 2; 0N) может быть выполнено с помощью сложения, вычитания и использования таблиц, если таблицы 2nlogn (по основанию е) имеются в наличии, но при этих вычислениях нужно удерживать больше значащих цифр, чем при вычислении обычного у2; (iii) χ2 является более простой математической функцией наблюдений и должно быть легче точно аппроксимировать ее распределение при данной нулевой гипотезе. 4.2. Анализ /(*:2; Ον) В случае значимых значений 7(*:2; 0Ν) целесообразна группировка категорий, которая подсказывается характером данных. 7(*:2; 0Ν) в (4.3) может быть аддитивно проанализирована для проверки таких гипотетических группировок.
126 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ.6 Рассмотрим сначала анализ, состоящий из (с—■ 1) дихотомических сравнений каждой категории с объединением всех следующих за ней категорий. [Ср. Кохрэн (1954), Ланкастер (1949).] Определим Ni=N — Χχ — *а —... — хь /==1, 2, ..., с —1, qi=\—Pl—pi — ...—pif /= 1, 2, ..., с—1. Таблица 4.1 Компонента информации С. С. В пределах категорий от (с — 1) до с\хи ... ..., л:с_2 Между категорией (с—2) и категориями (с—1) + -j- С | Χι , ..., Xc-z !(w°gfe -1 Qc-2 zPc-i -*clog XcQc-2 \ Nc-sPc) 2Uc_2log Nc__SPc-2 + + (Nc-s — ^c-i)log (ivc_3 ^c-2) ?с-з\ Μ C-3 <7c-2 В пределах категорий от 3 до с I xlt x2 Между категорией 2 и категориями 3+ ... -|- + с\х1 2 хв log *3<72 ^2Яз -^4log •^4?2 с —3 ^2^4 ... + *с legist) В пределах категорий от 2 до с | xt Между категорией 1 и категориями 2+ ... \ ^Ν±ρ2^ ^3log •*3<7i с—2 2(^108^ + ^-^ log ^-^ Итог, 2?(*:2;OJ ΛΓ' 21^1ο83§Γ+-+χ«,08^) Анализ, приведенный в табл. 4.1, выводится непосредственно из этих определений и свойств логарифма. Свойство выпуклости логарифма a1log^ + ... + aJog^^(a1 + ... + an)log|±^+|, где α/^>0, #£^>0, 1=1, 2, .,,, п, и равенство достигается тогда и
4] ОДНА ВЫБОРКА 127 только тогда, когда а^Ь^ — const, г=1, 2, ..., η [см. Харди и др. (1934, стр. 97, т. 117), а также пример 3.2 гл. 2], обеспечивает проведение дихотомических сравнений с использованием статистики минимума различающей информации, т. е. в табл. 4.1 для данной группировки каждое значение компоненты «между» является минимумом значений компоненты «в пределах», расположенной в следующей строке. Анализ, приведенный в табл. 4.1, отражает два факта: 1. Полиномиальное распределение может быть представлено как произведение частного биномиального распределения и условного полиномиального распределения остальных категорий (ср. раздел 2 гл. 2), например N\ „л Xt\ Х2\ ... Хс\ ^1 ' ' 'Ус & ~хс-_ NX t)\Pi ^ Pi* x2\ ...xc\ \qj '"WJ ' xt\ (/V— xt) W—xt)\ tpA** [PcYc _ {N—xt)\ IpA** v v2! ... xc\ [qj '"{qj x2\ (N—xi—x2)\ [qj Λ V (1 _?l\N~Xl"Xa (Ν—Χι—χ*)1 (PAX* (PcVc A\ qJ xb\.~xc\ \q*I "wJ ' где Νι = Ν—Χι, N4 —Ν — χγ — χ* ..., 9Ί=1—/Ί, q*=l—Pi — — ft = fc—A> •·Μ^ίι + ···4-Α/ίι = 1» ft/ft + ---+ft/ft=b ··· 2. Гипотеза Я2 эквивалентна пересечению {с—1) гипотез Ям, ..., Я2 (c_1)f Я3 = Я3ГП #м Π · · ■ Π яз (c-i)> гДе Ям есть гипотеза о том, что вероятность появления первой категории равна рх; Яда — о том, что вероятность появления второй категории равна /?а при условии, что вероятность первой категории равна рх; Я33 — вероятность появления третьей категории равна рг при условии, что вероятности первых двух категорий равны pt и /?а соответственно, и т. д. Степени свободы в табл. 4.1 являются степенями свободы асимптотического /^-распределения при справедливости гипотезы Я2 из (4.1). Оставляем читателю исследование соответствующих расхождений. Отметим только, что расхождение, представленное формулой (4.4), не допускает соответствующего аддитивного анализа. Рассмотрим теперь группировку или разбиение категорий на два множества, скажем от 1-й до г-й категории и от (г-|~1)-й до с-й категории. Определим У1 = *1 + *а + ... +■** Л = *w + *M+ ··· + ■** Ри —Pi +ft + · ·· + Рь Ры =Рм + Pt# + · · ·+Аг
128 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИЙ [ГЛ. 6 Анализ, приведенный в табл. 4.2, выводится непосредственно из этих определений и свойств логарифма. Степени свободы в табл. 4.2 являются степенями свободы асимптотического Х3-распределения при справедливости нулевой гипотезы 7/3 из (4.1). Оставляем читателю исследование соответствующих расхождений. Отмегим, что значение компоненты «между» есть минимум величины 2/(*:2; 0N) для данного разбиения в силу выпуклости логарифма. Без повторения всех деталей, которые рассматривались в отношении табл. 4Л, отмегим только, что, например, в строке «в пределах категорий от 1-й до г-й», у есть полное число наблюдений (соответствующее N), а условные вероятности равны р^ри, --->PijPn- Таблица 4.2 Между категориями 1 + + ... + i и категориями (ί + 1) + ... + с В пределах категорий от (ί+ 1) до с В пределах категорий от 1 до i Итог, 2/(*:2; 0N) Компонента информации 2 (у, log -£—bb log £-) 2 (Xi+l log 2о£в + ... + xc log ίε^ή 2(Xli0g^iEii+ ... +XiiogB£ii) 2{х*1о*ж+--+Хс1о*щ) С. С. 1 с—ί — 1 ί — 1 с —1 4.3. Параметрический случай Займемся теперь анализом /(*: 2; 0N)y предполагая, что ρί9 ..., рс являются известными функциями независимых параметров φ^ φ^..., φΛ, k<^c и «подгоним» полиномиальное распределение посредством оценки параметров <ру. Предположим, что у нас имеются оценки 4j(xi9 х& ..., xN), j=h ···> k (определенные каким-либо образом). Пусть ρί=ρ.($υ φ2, ..., φΛ), /= 1, ..., с, А+ ··.+&= ϊ; пере- пишем (4.3) в виде с с /(*:2; 0N)= J ^logjjfr +^V 2^1о^|г + i = 1 * / = 1 (4.7) «■=1 Для того чтобы / (* : 2; 0Ν) в (4.7) имела вид суммы информации, т. е. чтобы все члены суммы были вида (2.2), последний член в (4.7)
4] ОДНА ВЫБОРКА 129 должен равняться нулю. Следовательно, мы требуем, чтобы оценки фу были таковы, чтобы тождественно по φ,- выполнялось равенство с с 2*ii°g-fj-=tf2Alogll· (4.8) ϊ=1 Отметим, что в левой части равенства (4.8) стоит наблюденное значение log (ρ (х)/р (χ)), а в правой части — ожидаемое значение информации для различения в пользу (р) против (/?) в выборке из популяции (р) объема N [Ср. (1.1) гл. 5.] Из равенства (4.8), которое является тождеством по параметрам φ,·, получим Pi dpi L· Pi dy L pi Ъъ-' J , Z9 ..., ky (4.9) и, в частности, когда (φ) = (φ), Ι,ι шгЬ=Nimur°' "-· 2· ···' * (4·,ο) с гак как \, [ifi _~ = ^, т. е. параметры φ7- являются решением системы с £=1 Уравнения (4.11) есть уравнения максимума правдоподобия для отыскания оценок φ7·, а также уравнения, которые решают задачу нахождения параметров φ7·, минимизирующих 7(*:2; Оп) в выражении (4.3). (См. раздел 4 гл. 5.) Свойства таких оценок можно найти, например, у Крамера (1946а, стр. 426—434). (См. задачу 7.14.) Используя оценки φ7-, удовлетворяющие (4.11), получим разложение 2/(* : 2; 0Ν) на аддитивные компоненты, приведенное в табл. 4.3, где степени свободы есть степени свободы асимптотического Х2-рас- пределения при справедливости нулевой гипотезы //3 из (4.1) с Λ=Λ(φΐι ?з> ··> ?*)> *=Ь 2, ..., с. [Ср. (4.17) гл. 5.] Расхождения не допускают аналогичного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «ошибки», будет (4.12)
130 полиномиальные популяции [гл. 6 Таблица 4.3 Отклонение (ф) или (р) от (р)у 2ί(ρ:ρ) Ошибка в (χ[Ν) относительно (р), 2/(*:/>) Итог, 2/(*:/?) Компонента информации с ί = 1 с 22^1оеж с 21Х^Ж £-1 С. С. k с —1 При справедливости нулевой гипотезы Н^ из (4.1) 2ϊ(*:β) и /(*, /?) имеют асимптотически х2-распределение с с — к — 1 степенями свободы. [Для удобства обозначений мы пишем 2/(* :р) вместо 2/(*:2; Оп).] Пример расчета по этому методу дан Фишером, который рассматривает серии наблюдений, где число Ί появляется xt раз с вероятностью, соответствующей распределению Пуассона р1 = т*е~т/И, взятому в качестве нулевой гипотезы. (Здесь т играет роль параметра φ.) Уравнение, соответствующее уравнению (4.11), здесь 2xt(— 1 -j-ijm) = 0 или ih = ^1x1^X1=1. Приведем частные i i i значения [Фишер (1950, стр. 18)]: £ 0 1 2 3 4 + *! 124 12 2 2 0 140 Np. 119,6415 18,8008 1,4772 0,0774 0,0031 140,0000 m=Ii/70 2/ (*:£) = 12,318 c — k —1=2 Фишер сравнивает этот критерий, обычный метод χ2 и критерий сравнения дисперсий с точными вероятностями, вычисленными по условному распределению, для выборок с таким же объемом и средним, как рассмотренная выборка. Он приходит к выводу [Фишер
4] ОДНА ВЫБОРКА 131 (1950, стр. 24)], что (в обозначениях этого раздела) 2/(*:р), «которая является по существу логарифмической разностью в правдоподобии между самой правдоподобной пуассоновской серией и самой правдоподобной теоретической серией», есть мера, которая «кажется, хорошо согласуется с условным X2, когда математические ожидания в классе малы». [Ср. Крамер (1946а, стр. 434—437).] 4А «Односторонняя» биномиальная гипотеза Исследуем теперь задачу, которая в некотором отношении является частным случаем задачи раздела 4.1, но отличается от нее существенным образом. Конкретно, мы желаем проверить «одностороннюю» гипотезу о выборке из биномиальной популяции. Предположим, что у нас есть выборка из биномиальной популяции с числом «успехов» χ и числом «неудач» N—х. Нас интересует проверка двух гипотез: Ηχ: вероятность успеха в биномиальной популяции равна А >Л //2: вероятность успеха в биномиальной популяции равна р. См. пример 3.3 главы 5. Применим результаты раздела 3 в биномиальном случае, полагая С=2, Ρι=ρ, /72 = #=1 /7, Xi—Xi X2=:N X, Tt = Τ, Τ2 = 0. Сопряженное распределение [ср. (3.2)] принадлежит семейству биномиальных распределений Нх из (4.13), если /;* = (ре1/(ре1 -|~ q)) ^>p. Следовательно, допустимы только значения τ^>0 [см. абзац, следующий за (12.12) гл. 3]. Беря в качестве параметра сопряженного распределения наилучшую несмещенную выборочную оценку, т. е. @ = Np* = Xy получим !(р* :ρ) = τχ — N\og(pel _j_ ^ (4.14) τ = log (xqfp (TV— *)). (4.15) Если x^>Np9 то τ = log (xqfp (N—-*0)^>0 допустимо. Если x<^Np> τ<[0 и не допустимо. Таким образом, имеем статистику минимума различающей информации (см. пример 3.3 гл. 5, а также рассуждения, следующие за теоремой 2.1 гл. 3) 1{НХ\Н£ 0N) = \ &NP rv Nq ^ (4Л6) Если справедлива нулевая гипотеза Нъ то 2/(//1:Я3; 0N) имеет асимптотически /^-распределение с одной степенью свободы. Значение χ3, соответствующее уровню значимости а, нужно брать из обычных таблиц γ* на уроене 2а? тт как цы не рассматриваем значений
132 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 x<^Npy для которых 1{НХ:Щ 0N) имеет такое же значение, как для некоторых значений x^>Np. Рассмотрим теперь вместо простой нулевой гипотезы //3 (см. (4.13)) сложную нулевую гипотезу Н^ //^•вероятность успеха в биномиальной популяции равна A>ft, (4.17) //^.'вероятность успеха в биномиальной популяции равна ρ ^/?0· Учитывая поведение функции F{p> ρ) раздела 3 главы 4 и пример 3.3 главы 5, можно убедиться, что (см. задачу 7.17) ,?>,0*2£+<"-*>**Туг) = = х1о2Ж + №~х№^ЩГ> Χ>ΝΡ«· (4Л8> Статистика минимума информации для различения против наименее информативного распределения из семейства распределений сложной нулевой гипотезы, следовательно, равна [ х 1о£ тг~ + (N—Jc)log .7"* x^>Npo, ϊ(Ηί:ΗύΟΝ) = \ *МРо^У ' * Nq0 ^ ™> (4Л9) I 0, χ^Νρ0. Когда справедлива нулевая гипотеза Н% из (4.17), асимптотически P{2/(tfi:/£; О^ТОЦ^а, где Х|а — значение обычного X2 с одной степенью свободы на уровне 2а. Аналогично для гипотез //3: вероятность успеха в биномиальной популяции равна ftO„ Ηζ: вероятность успеха в биномиальной популяции равна р^ре, имеем HH3:HZ;0N)JXl°eW^N-X)1°^> X<™> (4.21) I 0, x^Npo- При справедливости нулевой гипотезы Ηζ из (4.20), асимптотически Р{2/(Д:/£; 0^χΙα}<α, где XJe — значение χ2 с одной степенью свободы на уровне 2а.
4] ОДНА ВЫБОРКА 133 (4.22) Двусторонняя гипотеза //4: вероятность успеха в биномиальной популяции равна рг φ р0, //2: вероятность успеха в биномиальной популяции равна /?=:/?о есть частный случай гипотезы раздела 4.1 и 2/(Я4:Я2; 0„) = 2 (*log -^-j_(^-jf)log^i) (4.23) асимптотически имеет х2-распределение с 1 степенью свободы при справедливости нулевой гипотезы //3 из (4.22). Отметим, что Нь Но и Щ из (4.22), (4.17) и (4.20) соответственно удовлетворяют соотношению Η%ζ^Ηζ(~)Ηζ, т. е. (р==р0) в том и только в том случае, если (р^ро) и (jp^Po) одновременно, Hiy Hi и //3 из (4.22), (4.17) и (4.20) соответственно удовлетворяют соотношению //4 zzl Hx \J H& т. е. (р^р0) в том и только в том случае, когда либо (ρι^>Ρο), либо (ρι<^Ρο). Пересечение областей принятия гипотез Н% и Н\ χ log (x/Npo) + (N—x) log ((TV— x)jNq0) ^ const (4.24) является также областью принятия гипотезы //3. 4.5. «Односторонние» полиномиальные типотезы Исследуем теперь «односторонние» гипотезы в некоторых задачах, касающихся с-значных популяций (с категорий). Первая задача заключается в проверке гипотезы Hv что вероятность первой категории больше 1/с, против нулевой гипотезы //2 о равновероятности категорий, т. е. ! (4.25) Я3:/71=/72=... = /7с = —. Предположим, что мы имеем выборку в N независимых наблюдений, как в разделе 4.1. Из раздела 3 видно, что сопряженное распределение принадлежит семейству распределений, соответствующих гипотезе Нь если pf = eTlj(eT1 -|~ е12 +... + е1^) ^> —. Следовательно, допустимыми являются только такие значения %ь г = 1, 2, ..., с, для которых (τ— 1)6?τι^>6?τ2-}-. .. + еТс. Взяв в качестве параметров сопряженного распределения значения их наилучших
134 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 несмещенных выборочных оценок, т. е. бг- = Л^* = лгг·, получим f(p*:p)=xixl+x,x, + ... + lcxc-Nlog({e^±... + e^/c), (4.26) -£Ll *-, /=1,2,...,*. (4.27) е 1 +е 2+...+е Так как βτί=χ{/Ν, i=l, 2, ..., с [берем в (3.5) ck=t]t то тг принадлежит области допустимых значений, если (с- 1)-%-> *.+*»+- + *« =£=*i, (4.28) т. е. если Xi^>Nlc. Если же xt^N/c, мы должны найти значение ϊ(ρ*:ρ) вдоль границы области допустимых значений τ£, (с—1)^ = = ет2-{-"- + еТс> второй области, для которой ΐ(ρ*:ρ) может отличаться от нуля. В этом случае [ср. Бранк (1958, стр. 438)] Л. Л Нр* ■ ρ)=χι log "f—Ί+< C +*Λ+· · ·+*Α — Mog *?I = л. л. = x*4 + --. + ^c-(N-xl)\oge*\^teC · (4·29) Последнее выражение есть выражение для (N — лг^-кратного полиномиального распределения на (с—1)-значной популяции, аналогичное (4.26). Мы имеем, следовательно, с ПНг'.Щ 0N)= J Jfilog^, xi>!j, (4.30) i=l с t(H1:H£0„)=2ixtlog^=^i, xt^, (4.31) i=2 т. е. когда xl ^ N/c, отвержение нулевой гипотезы зависит от условных значений хъ ..., хс. Если в табл. 4.1 положить pi^=zljc, 1=1, 2, ..., с, то последние три строки дадут табл. 4.4, где степени свободы есть степени свободы асимптотического ^-распределения при справедливости нулевой гипотезы Щ из (4.25).
ОДНА ВЫБОРКА 135 Таблица 4.4 В пределах категорий от 2 до с | xt Между категорией 1 и категориями (2+ ... ... +с) Итог, 2/(*:2;Су Компонента информации 2(*ilog^+ ... +хс log^) С. С. с—2 1 г — 1 Отметим, что удвоенное выражение (4.30) является «итогом» в табл. 4.4, а удвоенное (4.31) есть компонента в пределах категорий от 2 до с при данном хх. Уровень значимости α соответствует уровню значимости 2а в обычных таблицах χ2. Во второй задаче семейство распределений гипотезы Нх суживается до семейства, в котором все категории, кроме первой, равновероятны, т. е. c—V Н\ im-Pi=P>-j, Р* = Ръ = ... =Рс- Ή·'Λ=Λ= ··· =Ре — 1 (4.32) Сопряженное распределение принадлежит семейству распределений, соответствующих гипотезе Н[ из (4.32), если /ί = · exi е *+ ... + е >т. Л *'!+... +<?' έ?*+ ...+*' т. е. единственно допустимыми значениями τ{ являются τ2 = τ3: :тс = т, τ!^>τ, и (4.26) перепишется теперь в виде л. ИР* :р) = *ι*ι + (Ν- хх) τ - N\og ^ + (с "*> * Ne11 —, N—Xt _ N(c—\)e* (4.33) (4.34) еТ1 + (с—1)έ?τ ^ + (c— i)* Так как Л = ^(^ + (С-1)^), ^ = ^1* (** + {с- 1)*), то τ4 принадлежит области допустимых значений, если xx^>NJcy
136 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 и мы находим, что !{И[:Щ 0^==Х11оёс^ + (М-Х1)1оё^{с^ , х,у N (4.35) Если хх^~, мы должны найти значение /(/?*:/?) вдоль границы области допустимых значений τ1 = τ, которое будет равно /(/?*:/?) = ζ=ζτχ1~^-(Ν—xt)x— NlogeT = 0. Отметим, что удвоенное значение выражения (4.35) входит в качестве компоненты «между» в табл. 4.4. Проверка гипотез (4.32) с помощью статистики минимума различающей информации (4.35) является частным случаем проверки гипотез (4.13) с помощью статистики (4.16). Это не удивительно, так как гипотезы (4.32) указывают только разные значения рь но обе Н\ и 7/2 предполагают равенство остальных вероятностей. В третьей задаче проверяется нулевая гипотеза Н!2, что все категории, кроме первой, имеют равные вероятносш появления при альтернативной гипотезе Н[, предполагающей любую означную популяцию, т. е. Н[\рь Ръ .··> Ро /Ί+Λ + ·.· +/>с=1, Яа-'Л=Л й= ... =Рс = 1-Я с—Г (4.36) Э,то частный случай гипотез (4.1), и анализ, предлагаемый в табл. 4.5, получается из анализа, приведенного в табл. 4.1. Таблица 4.5 В пределах категорий от 2 до с | xt Между категорией 1 и категориями (2+ ··■ ... +с) Итог, 2/ (·:/# 0N) Компонента информации 2(XilogS+(^Xi)logw^)) 2(*1Iog*+*ilog*^+... С. С. с~2 1 с —1 Обычно нулевая гипотеза Λζ из (4.36) не уточняет значения р, и тогда в основе критерия лежит компонента «в пределах категорий от 2 до с при данном хг», которая имеет асимптотически х2-распре- деление с (с — 2) степенями свободы, при справедливости нулевой гипо!езы Hq из (4.36). Заметим, что эта компонента в табл. 4.5 яв~
4] ОДНА ВЫБОРКА 137 ляется минимальным значением «итога» по различным р, т. е. по семейству распределений, соответствующих Н!2. 4·5.1· Резюме. Гипотезы (4.25), (4.32) и (4.36) удовлетворяют соотношениям H[C1HiC1Hi и //3CZ^ (ЯзС^з означает, что //2 содержится в tQ. Поэтому разумно суммировать предшествующие результаты в табл. 4.6 для того, чтобы облегчить сравнение. Информационные статистики в табл. 4.6 имеют асимптотически ^-распределение с указанным числом степеней свободы, если соответствующая нулевая гипотеза верна, но вследствие ограничений на величину хх уровень значимости α соответствует уровню значимости 2а в обычных таблицах χ2 для всех, кроме последних двух статистик. Таблица 4.6 Гипотезы H'i, Hs (4.32) Hi, #2 (4.25) Щ.Щ (4.36) Информация 0, Xi^Nlc 2 (*, log ψ + (*-*.) Юё (ff (7_f У), *.>£ с ί=1 ί = 2 с 2-yil°g^-0+2I!A:ilog^((i-p)o)' ^^ i = 2 С. С. i с—: с — с — с — 4.5·2. Некоторые иллюстрации· Точные вероятности для инфо{ мационных статистик в случае гипотез Н[9 Н% из (4.32) были вь числены для с = 5, 10 и некоторых удобных значений N и ρ с пс мощью Таблиц биномиального распределения (1949). Можно сравнит ошибки первого и второго рода, а также точные вероятности с аси» птотическими, получаемыми по χ2 и нецентральному х2-распредел< ниям. (См. раздел 5 гл. 5.) Вероятности приведены в табл. 4.7, 4,
ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Таблица 4.7 Ня'Р1=Р*= ··· =Рс = — Ρ (xt < N/c) = Ρ (2/(tfj : tf8) = 0) с 5 5 5 5 5 5 5 5 5 10 10 10 10 Ν 5 10 15 20 25 30 35 40 45 10 20 30 40 N/c 1 2 3 4 5 6 7 8 9 1 2 3 4 Я 2 0,74 0,68 0,65 0,63 0,62 0,61 0,60 0,59 0,59 0,74 0,68 0,65 0,63 ρ =0,15 — — — — — — — — 0,54 0,40 0,32 0,26 ρ = 0,20 — — —- — — — — — Ι 0,38 0,21 0,12 ! 0,08 ρ = 0,25 0,63 0,53 0,46 0,41 0,38 0,35 0,32 0,30 0,28 I 0,24 0,09 0,04 0,02 ρ = 0,30 0,53 0,38 0,30 0,24 0,19 0,16 0,13 0,11 0,09 0,15 0,04 0,01 0,003 ρ = 0,35 0,43 0,26 0,17 0,12 0,08 0,06 0,04 0,03 0,02 0,09 0,01 0,002 0,0003 ρ = 0,40 0,34 0,17 0,09 0,05 0,03 0,02 0,01 0,01 0,004 0,05 0,004 0,0003 0,00003 и 4.11. В табл. 4.8 х[ выбрано так, чтобы получить вероятность, близкую к 0,01, при справедливости 7/2. Информационный параметр в табл. 4.9 является параметром нецентральности λ для нецентрального х2-распределения. В табл. 4.10 χΐ (уточненное) является средним арифметическим двух соседних значений 2Ϊ(Η[: Щ 0Ν) и используется в качестве уточненного значения для нижнего. [См. Кохрэн (1952).] «Центральные» вероятности в табл. 4.11 получатся, если взять χ0 в качестве соответствующего предела в нормальном распределении N(0, 1). «Нецентральные» вероятности в табл. 4.11 получены из нецентрального χ2 распределения с одной степенью свободы [см. (6.9) гл. 12]: Хо Хо Отметим, что Р(Х1^х[) предполагается равной Ρ(χ2^χΙ). В самом деле, χΐ было выбрано, с поправкой на непрерывность, в соответствии с х[. В табл. 4.7 даны вероятности некорректного принятия Нь когда Χι <; Ν/с9 при различных значениях ρ в гипотезе И[. Даже для небольших N аппроксимация хорошая.
ОДНА ВЫБОРКА 139 Таблица 4.8 с 5 5 5 5 5 10 10 10 10 N 5 15 25 35 45 10 20 30 40 *; 4 7 10 13 16 4 6 8 9 я2 0,0067 0,0181 0,0173 0,0142 0,0110 0,0128 0,0113 0,0078 0,0155 р=0,15 — — — — 0,0500 0,0673 0,0698 0,1354 ρ = 0,20 — — — — 0,1209 0,1958 0,2392 0,4069 ρ = 0,25 0,0156 0,0566 0,0713 0,0756 0,0753 0,2241 0,3828 0,4857 0,7002 ρ = 0,30 0,0308 0,1311 0,1894 0,2271 0,2538 0,3504 0,5836 0,7186 0,8890 ρ « 0,35 0,0540 0,2452 0,3697 0,4577 0,5248 0,4862 0,7546 0,8762 0,9697 ρ = 0,40 0,0870 0,3902 0,5754 0,6943 0,7751 0,6177 0,8744 0,9565 0,9939 Таблица 4.9 2N{plogcp+qlog7^ = 2I(H'i:Hs; 0N) С 5 5 5 5 5 10 10 10 10 Ν 5 15 25 35 45 10 20 30 40 ρ = 0,15 0,2447 0,4894 0,7341 0,9788 ρ = 0,20 0,8881 1,7761 2,6642 3,5522 ρ = 0,25 0,0738 0,2215 0,3691 0,5167 0,6644 1,8466 3,6933 Ι 5,5399 7,3865 ρ = 0,30 0,2817 0,8450 1,4084 1,9717 2,5351 3,0733 6,1465 9,2198 12,2931 ρ = 0,35 0,6090 1,8270 3,0450 4,2630 5,4810 4,5388 9,0777 13,6165 18,1554 ρ = 0,40 1,0465 3,1395 5,2325 7,3255 9,4185 6,2248 12,4495 18,6743 24,8991 Таблица 4.10 2Ϊψ[:Η» 0Ν) = 2 [χ, log ψ+ (N~Xl) log ^Tf1}/). *»>7· С 5 5 5 5 5 5 5 5 5 5 Ν 5 5 15 15 25 25 Э6 35 45 45 χι 3 4 6 7 9 10 12 13 15 16 2/ 3,819 8,318 3,139 5,375 3,440 5,232 3,887 5,484 4,385 5,871 2/ (уточненное) « χ| 6,068 4£57 4,336 4,686 5,128 с ί ίο 10 10 I 10 10 10 10 ί 10 Ν 10 10 20 20 30 30 40 40 Χι 3 4 5 6 7 8 8 9 2/ 3,073 6,225 3,693 6,147 4,486 6,682 3,552 5,326 2/ (уточненное) = χ8 4,649 4,920 5,584 4,439
140 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Таблица 4.11 с 5 5 5 5 5 10 10 10 10 10 10 N 5 15 25 35 45 10 10 20 30 40 40 *; 4 7 10 13 16 4 4 6 8 9 9 А 6,068 4,257 4,336 4,686 5,128 4,649 4,649 4,920 5,584 4,439 4,439 я2 Центральный χ2 j ^(λ2^λ§) 0,0069 0,0196 0,0187 0,0152 0,0118 0,0155 0,0133 0,0091 0,0176 Биномиальное Ρ (Xt >: X[) 0,0067 0,0181 0,0173 0,0142 0,0110 0,0128 0,0113 0,0078 0,0155 ; Ρ 0,25 0,30 0,35 0,40 0,25 0,15 0,35 0,20 0,25 0,15 0,40 λ 0,0738 0,8450 3,0450 7,3255 0,6644 0,2447 4,5388 1,7761 5,5399 0,9788 24,8991 1 я; Нецентральный χ2 Ρ(χ2^χξ) 0,0175 0,1285 0,3670 0,7088 0,0759 0,0526 0,4920 0,1869 0,4960 0,1324 0,9980 Биномиальное Ρΐ*ιΞ=*Ρ 0,0156 0,1311 0,3697 0,6943 0,0753 0,0500 0,4862 0,1958 0,4857 0,1354 0,9939 5. ДВЕ ВЫБОРКИ 5.1. Основная задача Пусть мы имеем две независимые случайные выборки независимых наблюдений объемов Λ/Ί и А^ с полиномиальными распределениями на с-значной популяции. Обозначим выборки символами с (X) = {Х%> ДГд, . . . , Хс)9 2^ Xf = Νχ ι = 1 Мы хотим проверить нулевую гипотезу однородности //2, т. е. гипотезу о том, что выборки принадлежат одной и той же популяции, при альтернативной гипотезе Нь что выборки принадлежат различным популяциям: Ηγ. выборки принадлежат различным популяциям (р%) = = (Рхъ А* · ■ · > Pic)> (ft) = (Pet. Раа> · · - > />аД Н*: выборки принадлежат одной популяции (p) = (pltр^ ... ···> Рс\ Pu=Pn=Pi> l=U 2> ·.·> с. (5.1) Так как выборки независимы, то в обозначениях (3.1) имеем (мы опускаем обозначения объема выборки и г. д., за исключением тех
5] ДВЕ ВЫБОРКИ 141 случаев, когда это может внести путаницу в результаты) (·*>. (у) = Ы1Ури1оё^ + ыЛрмЩр^, (5.2) *Ξι Λ ί=ι Ρί У(1, 2)= 2! (Р1(^)ЛСУ)-/>(^Cy))tog-^^ff = (*)(У) ϊ = 1 i—1 Сопряженными распределениями будут (см. раздел 3 и раздел 1 гл. 5) Р?(*)=-^ ϊ 7^Г> (5·4) η(ν\ 0**1*1 ^ 'С22ЛГ2 + · ■ ■ + Х2СХС (Ρι« "+/'·* Μ+·.·+/Άβ) s И мы находим = Σ (*«*? i*i) + τ*Ε% CVi) - Μ log </%*■« + ... +/^V) - 1=1 — Ns log (дет« + ... +/?ce^), (5.6) где Ef ( ) обозначает математическое ожидание величин из популяции с распределением р* ( ). Положим е1(х() = Ntfli,El(yt) = ΝνρΙι,Γΐΐβ Рд—р^ет#1(рпе*п~\-... ··■ +/7/с^Н /=1> 2> /=1, 2, --.ι с; тогда (5.6) дает }(p*:p)==Nl2 ^logJ' + MjAlog^. (5.7) i=l r = l Возьмем в качестве параметров сопряженных распределений их наилучшие несмещенные выборочные оценки, т. е. /и = х,-/М и P2i=yi/N%, /=1, 2, ..., с; гогда с /Of :/0 = 2 (*' ^iSi+Λ Ювз^) · (5.8) ί = 1
142 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Таблица 5.1 (между) 2ίφ:ρ) Ошибка, 21(р*:р) (в пределах) Итог, 2f(p*:p) Компонента информации с '"| v log(^i + ^M С. С. с —1 с —1 2(с-1) Нулевая гипотеза //2 из (5.1) обычно не уточняет значений рь ί=1, 2, ..., с. Мы можем разложить ϊ(ρ*:ρ) на две аддитивные компоненты, одна из которых обусловлена отклонениями pt от их наилучших несмещенных оценок по объединению выборок, а другая тем, что может быть названо «ошибкой» в пределах выборок. Анализ приведен в табл. 5.1. Степени свободы соответствуют степеням свободы асимптотического х2-распределения при справедливости нулевой гипотезы //2 из (5.1). Отметим, что компонента «в пределах» табл. 5.1 является минимальным значением «итога» по различным наборам с р£, V/7f = l, т. е. по всем распределениям семейства, соответствую- щего гипотезе //2. Анализ, приведенный в табл. 5.1, отражает тот факт, что гипотеза //2 из (5.1) является пересечением гипотезы Я2(·) об однородности выборки и гипотезы Я2 (· | (/?)) о том, что однородные выборки взяты из популяции (/?) = (/?!, ръ ..., /7С), т.е. Яа = Яа(-)Пл«("107))· Компонента 2/(/?:р) табл. 5.1—статистика, лежащая в основе проверки гипотезы #2(-| (/?))> а компонента 2Ϊ(ρ*:β) или 2/(#1:Я2) — статистика, лежащая в основе условной проверки гипотезы //2(0 при условии, что наблюдены значения pt = (xt -\- ^)/(М + Аз), /=1, 2, ..., с. Компонента 21(р*:р) в табл. 5.1 может быть записана в виде, удобном для вычислений с помощью таблиц η log n ϊ(ρ* :ρ) = ϊ(Ηί: Щ = Σ *ι log *, + ЪУг logj;, - - Σ C*i +Уд log {Xi Л-Уд + (Μ + Μ) log (Μ + Μ) - — Νχ log Μ — Ν2 log Аз. (5.9)
5] ДВЕ ВЫБОРКИ 143 Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте 2/(/?*:/?), является Sip*, p)^S(Hu Hd = *l(%-f^fJlog^A+A^^ + *% Ά _ *t+yi \ 1fur iNi + N*)yi _ wfw^m-N-j^-Nji· (5Л0) Отметим, что ϊ(Ηι:Η%) = ϊ(ρ* \ρ) в табл. 5.1 получается из (5.2) подстановкой χ^Νχ вместо ри, yi/N^ вместо /?9ί и (^+^)/(М + М) вместо pif и (5.10) получается из (5.3) той же подстановкой. При справедливости гипотезы //2 из (5.1) (выборки взяты из одной популяции) Ίί{Ηχ: Н9) и S(Ht, Щ имеют асимптотически ^-распределение с (с—1) степенями свободы. Используя аппроксимации, заданные приближенными равенствами (4.5) и (4.6), находим [ср. Пирсон (1911)] J(Hb Η$)ί 1 VI (Ν2χι 2NiNs L· xx * NtNt2i' ί+У· _! (№xi-Niyiy _ . xt+yt —χ' 1 XiN^Xi- (5.11 ■N&ifto+yd 2(Ni + N2y L· ХЫ 5.2. «Односторонняя» гипотеза в биномиальном случае Рассмотрим теперь одностороннюю гипотезу о двух биномиальных распределениях. Предположим, что у нас есть две независимые случайные биномиальные выборки в Νχ и 7V2 независимых наблюдений, в которых имеется соответственно хну «успехов». Мы хотим проверить две гипотезы: Н[\ выборки принадлежат различным биномиальным популяциям с соответствующими вероятностями успеха рь /?2, А>Аа> (5.12) //2: выборки принадлежат одной биномиальной популяции ^=/72=/?. Из аналогов (5.4), (5.5) и (5.6) для биномиальных распределений (ср. раздел 4.4) мы видим, что сопряженное распределение принадлежит семейству, соответствующему гипотезе Н[ из (5.12), если pfi + Q-p)^" pe* + (i-p)
144 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Следовательно, допустимы только значения ^^τ^. Возьмем в качестве параметров сопряженных распределений соответствующие значения наилучших несмещенных выборочных оценок, т. е. β% = χ/Νι, p%=yJN<z и получим [ср. (5.6)] lip*ip) = *tx — Nt\Qg{pe4 + i\ —p)) + + %у-N.log (ре^ + (1 -/;)), (5.13) — N**1 у = ^ (5.14) или реХ1 + {\~Р) Рет*+(\~Р) τι==1ο8 {)-р)\, %, = 1о8 {)~Р)\ . (5.15) 1 &Ρ(Νι — хУ Р(М2 — у) к } Если x\N\^>y\N<i> то τ1^>τ% и тъ τ3 допустимы. Однако если x/Ni^y/Nb то τ1^τ2 и τυ τ2 недопустимы, и мы должны найти значение ϊ(ρ*:ρ) вдоль границы ^ = ^2 области допустимых значений. Подставляя τ = τ1=τ3 в (5.13), имеем +^~/>/+(i~/>) ' T-log/>("i+".-*-tf· (5Л6) Таким образом, /fr *: f)=* log ^ + (Μ — *) log ^1-p) + +^log^ + (M-^)log^~^( £>£, (5.17) l(p*:p)=ix+y)loep{^Ni) + + iNl + N9-x-y)log %ΧΝ^Ξ% > ^=^i· (5Л8) В табл. 5.2 приведен анализ табл. 5.1 в случае биномиальных распределений для двусторонних гипотез: Н{. выборки принадлежат биномиальным популяциям с соответственными вероятностями успеха рь /?2, Λ т* ft» (5.19) //2: выборки принадлежат одной и той же биномиальной популяции pi=p<i—p. Мы видим, что 2ΐ(ρ*:ρ) (см. 5.17) — «итог» в табл. 5.2, когда xlN^>yjNb а 2/(/?*:/?) (см. (5.18)) — компонента 2ΐ(ρ:ρ) табл. 5.2, когда x/Ni^y/N^. Гипотеза //2 из (5.12) обычно не уточняет значения р, и минимум значений «итога» и компоненты «между» (минимум по всевозможным /?, т. е. по семейству распределений соответствующих гипотезе //2) равен (компонента «ошибки» табл. 5.2, x/Ni^y/No, /(Я1:Яа)=\о,*/м^/м· ' (5·20)
ДВЕ ВЫБОРКИ 145 Таблица 5.2 Компонента информации С. С. Р Ni + N* 21 (β:Ρ), (между) Ошибка, 2ί(ρ*:ρ) (в пределах) 2 (х+у) log х+;у (Ν, + Ν^ρ ■μ + JV2)x -Λ bg 7VA-f- N2 — x— у (Mi+N2)(l-p) (х+У) + +("i + ^log М + АЦУ JV2 (*+>>) + (N9—y) log -y) \ x~y)j Итог, 2/(/?*:/?) + ^log^ + (7V2—^)log N2-y Nt(l-p) Когда нулевая гипотеза Я2 из (5.12) верна, 2/(Я1':Я2) в (5.20) имеет асимптотически χ2-pacπpeдeлeниe с одной степенью свободы, но значение χ2, соответствующее уровню значимости а, нужно брать из обычных таблиц χ2 на уровне 2а. Аналогично для проверки двух гипотез: Я[: выборки принадлежат различным биномиальным популяциям с вероятностями успеха рг и р2 соответственно, ΡιΟ* (5.21) Я2: выборки принадлежат одной биномиальной популяции /71=/72=/7, имеем /(/?*:/?), заданную формулой (5.17), когда xjN±<Cy/Nb и 1(р*:/?), заданную формулой-(5.18), когда xfNi^yfN* Гипотеза Я2 из (5.21) обычно не уточняет значения /?, и тогда компонента «ошибки» табл. 5.2, xJNi<^yJN^ ζν/Λ/a- Если справедлива нулевая гипотеза Я2 из (5.21), 2/(Я[:Я2) в (5.22) имеет асимптотически х2-распределение с одной степенью свободы, но значение χ2 на уровне значимости α нужно брать из обычных таблиц χ2 на уровне 2а. (компоне! (5.22)
146 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Заметим, что Нь Н[ и Н[ из (5.19), (5.12) и (5.21) соответственно удовлетворяют соотношению Hi^H[\J H'{9 т. е. (ρχ^ρ^) тогда и только тогда, когда (Ρι<^ρ%) или (ρι^>ρ%). Заметим еще, что в табл. 5.2, когда xjN±=y/N^ «итог» становится равным компоненте «между», а компонента «в пределах» исчезает. В любом случае альтернативные гипотезы Н[, И{, Ηχ будут приняты, если статистика минимума различающей информации превзойдет некоторую константу. Суммируем предшествующее в табл. 5.3, из которой для различных гипотез видно, когда лежащая в основе критерия проверки статистика есть «итог», а когда — компонента «между» или «в пределах» из табл. 5.2. Например, при проверке Η\'·{ρ\^>ρ*), против Н^:(рх=р^=р)у когда задано /? = /?0, используется «итог» 2Ϊ(ρ*:ρ), если xfNi^>yjNto и компонента «между» 2/(/?:/?), если x/Ni^y/N^ Однако если ρ не задано, используется компонента «в пределах» 2Ϊ(ρ*:ρ), если x/Ni^>y/N^ и принимается нулевая гипотеза Нъ если xfNx^yfN* Таблица 5.3 Между, 21(р:р) В пределах, 2/(Р*:£) Итог, 2/>*:р) 15.12) χ ^ у ж^ж>р==р0 χ у х+У р=р=ж+ж χ у нг.на (5.21) χ ~~. у χ у х-\-у »· Μ х ^ У 15.19) Р=Ро х+У ρ=ρ=νΓ+ν3 Р=Ро 6. г ВЫБОРОК 6.1. Основная задача Предположим, что имеется г независимых случайных выборок с полиномиальными распределениями на с-значной популяции, и нас интересует проверка нулевой гипотезы об однородности выборок. Обозначим выборки символом (χ-) —= (Хц, Х&, ... у Xich xil Τ" · · · Г" Х™ ^ί' * » 2, .. . , Γ,
61 г выборок 147 и рассмотрим две гипотезы: Н{. выборки принадлежат различным популяциям (Рш Л* .. · f Pic)> i= 1, 2> · · ■» г» (6.1) Я2: выборки принадлежат одной популяции (ρί9... 9 рс), а именно Pij=Pj^>09 i=l, 2,..., г, /=1, 2,..., г. Не повторяя детально рассуждений, аналогичных предыдущим, находим здесь, что г с 7(l:2)=2"i2ft'l0g^· (6·2) г с 7(1, 2) = ^ ^ 2 ^ - ^ l0g ^ ' (6'3) Взяв в качестве параметров сопряженных распределений соответствующие наилучшие несмещенные выборочные оценки, получим г с ¥:p)=22^log%:- (6·4) *=1/=1 J Гипотеза Н% из (6.1) обычно не уточняет значений ρ ρ j = 1,..., с. Мы можем разложить ϊ(ρ*:ρ) в (6.4) на две аддитивные компоненты, одну, обусловленную отклонениями pj от их наилучших несмещенных оценок по объединению выборок, и другую, обусловленную «ошибкой» в пределах выборок. Анализ суммирован в табл. 6.1, г где Xj= 2 xip N=N1-\-N<*-\-...-\~Nr. Степени свободы соответ- i=l ствуют степеням свободы асимптотического х2-распределения при справедливости нулевой гипотезы Н<* из (6.1). Отметим, что /(/?* :р) в табл. 6.1 является минимумом величины (6.4) по различным наборам с ρ ρ 2'?У===1, т* е* п0 семействУ популяций, соответствующих гипо- тезе Нъ а по свойству выпуклости (см. раздел 4.2 и раздел 3 гл. 2) г с с 2 2^logiS^ 2^logi^·Будем писать теперь №://>) вместо /(/?*:/?)· Анализ в табл. 6.1 отражает тот факт, что гипотеза Я2 из (6.1) является пересечением гипотез: #2(*) об однородности выборок, и ^ai'lO7)) ° том> чт0 однородные выборки принадлежат популяции (р)=(рьрь...у рс), т. е. Я2 = #2 (■) Π #а (· | (ρ)). Компонента «между» 2/(/?:/?) в табл. 6.1 лежит в основе проверки гипотезы Я2(-|(р)), а
148 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. о Таблица 6.1 Компонента информации pj=XjlN, 21ф:р) (между) Ошибка, 2/ (р* :р) (в пределах) Итог, 2/ (р*:р) 2 2^4 2 ς ς «■■*&, i=i ;«1 с. с. с —1 (г —1)(с —1) г(с-1) компонента «в пределах» в табл. 6.1, 2/(/?*:/?) или 2/(/ii://a),— в основе условной проверки гипотезы Н$(-) при условии, что наблюдены значения pj = Xj/N, 7 = 1» 2,...» £"· Компонента «ошибки» в табл. 6.1 может быть записана также в виде, удобном для вычислений с помощью таблиц л log л, /<ρ*:# = /(Μ:/4)= 2 2 *vlog*iy- £ XjlogXj + ί = 1/=1 7=1 r + TV log TV— 2 Μ log Nt. (6.5) Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «ошибки», является * = 1 /=1 J Отметим, что ϊ(ρ*:β) в табл. 6.1 получается из (6.2) подстановкой XijjNi вместо ρ^ и XjjN—вместо pj и что (6.6) получается из (6.3) теми же подстановками. При справедливости нулевой гипотезы К2 из (6.1) выборки взяты из одной популяции, 2/(//i:/ia) и J(Hb Щ имеют асимптотически Х2-распределение с (г—\)(с — 1) степенями свободы. Используя аппроксимации, заданные приближенными равенствами (4.5) и (4.6), находим [ср. Сюй (1949, стр. 397—398)] (см. задачу 7.18) г с 2/(^: Яз) ^ 2 Σ N(XV ~ *Ί$ΙΝ*Ι·
6] г ВЫБОРОК 149 6.2. Разбиение Компонента «ошибки» в табл. 6.1 может быть разложена на (г—1) сравнений, каждое с (с—1) степенями свободы, между каждой выборкой и объединением всех предшествующих выборок. Это позволяет оценить вклад каждой выборки в проверку резких изменений. [Ср. Кохрэн (1954, стр. 422—423), Ланкастер (1949).] О разбиении в пределах категорий см. раздел 4.2. Таблица 6.2 Компонента информации В пределах 1 и 2 выборок Между выборкой 3 и выборками 1 и 2 В пределах выборок от 1 до (г — 2) Между выборкой (г—1) и выборками от 1 до (г — 2) В пределах от 1 до (г — 1) выборки Между выборкой г и выборками от 1 до С-1) ι 2/(Я1:/У2) (в пределах) 2 \ yXijlog§*U ; = 1 : : 2У У xtjlog1^- «=1 7 = 1 1 = 1 /esl +*-.'">!= fez) 2 Σ Σ *^Ш i-1 /=1 С. С. с —1 с—1 (г_3)(с-1) с —1 (г-2) (с-1) с —1 (г_1)(с_1)
150 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 Для обозначения последовательных объединений выборок определим yijz=xlj + ху +... + Xyf i == 2,..., г — 1,/*=1,2,..., с, yn+yi* + ..-+yic=N1 + N% + ... + Ni=Mi. Анализ в табл. 6.2 получается непосредственным образом из определений (6.7) и свойств логарифма. Отметим, что в силу свойства выпуклости (см. раздел 4.2 и раздел 3 гл. 2) каждая компонента «между» в табл. 6.2 является для данного объединения минимумом значения компоненты «в пределах», расположенной в следующей строке. Заметим, что (см. замечание относительно анализа, данного в табл. 4.1) анализ в табл. 6.2 отражает два факта: 1. Гипотеза однородности //> в (6.1) эквивалентна пересечению (г—1) гипотез Я2(1, 2), //,(1 + 2, 3),..., //,(1 +2 + ... + Γ — —1, г), //а = //9(1, 2)Π...η^(1+··. + '"-1> П где Я2(1,2) — гипотеза, предполагающая, что выборки 1 и 2 однородны, //2(1+2, 3)— что выборка 3 однородна с объединением однородных выборок 1 и 2, #2 (1+2 + 3, 4) — что выборка 4 однородна с объединением однородных выборок 1, 2 и 3, и т. д. 2. Совместное распределение двух независимых выборок может быть представлено в виде произведения частного распределения объединения выборок и условного распределения конкретной выборки при данной объединенной выборке, т. е., в обозначениях (6.7), NJ χ п.. xlc N2\ „Х9А Ха ,-р" "· · ·» ιέ . —5:—_ «лм .. .„л2с — xn\...xlc\yi. нс х21!...х2с! Ηι гс Хм- χ$ι· ··- -^ас- Результаты для 3, 4,... выборок аналогичны. [Ср. Бартлетт (1937).] Степени свободы в табл. 6.2 есть степени свободы асимптотического χ2-распределения при справедливости нулевой гипотезы //2 из (6.1). Предоставляем читателю оценивать расхождения и выражать компоненты в виде, удобном для вычислений с использованием таблицы η log я. Могут возникнуть основания для разбиения г выборок на два или более классов. Мы приведем анализ в случае разбиения на два класса, который легко распространяется на общий случай. Для удобства будем считать, что в первый класс входят выборки с 1 по гь а во второй — выборки с г± +1 по г, и определим *1/ = *У+ *«/ + · ·· + */■!/■ ,_, о Zy -*Vi + l./~Г ■ ■ ■ Ί~ xrp η=Σζψ n=j]zy, N=Tt+Tt (6.8) /=1 /=1
6] г ВЫБОРОК 151 Анализ, приведенный в табл. 6.3, получается непосредственным образом из определений (6.8) и свойств логарифма. Отметим, что в силу свойства выпуклости (см. раздел 4.2), компонента «между» в табл. 6.3 есть минимум величины 2ΐ(Ηχ\Η^ для данного разбиения. (Ср. табл. 4.2.) Оставляем читателю сделать детальные замечания относительно анализа нулевой гипотезы и распределений, которые аналогичны замечаниям по поводу табл. 6.2. Степени свободы в табл. 6.3 — это степени свободы, которые имеет асимптотическое х2-распределение при справедливости нулевой гипотезы Н% из (6.1). Оставляем также читателю оценку расхождений и представление компонент в виде, удобном для вычислений с использованием таблиц η log п. Таблица 6.3 Компонента информации Между 1 и 2 множествами В пределах 2 множества В пределах 1 множества 2ί(Η1:^ύ в пределах г выборок ч 2 2 2'ч**ц% 2ΣΣ^£| с. с. с —1 (Γ_Γι ΐ)χ X (с-1) (г*—1)(с —1) (г_1)(в_1) 6.3. Параметрический случай Предположим теперь, что рь /?2>...> Рс из табл· 6.1 являются известными функциями независимых параметров φυ φ2,..., φΛ, k <^ с. Допустим, что мы «подогнали» полиномиальное распределение, используя оценки (полученные посредством некоторой процедуры) φ„ /=1, 2,..., k, параметров φ,. Имеем pj=pj(yb φ2,..., φ*), ;=1, 2,..., с, ]5ι + ...+Λ=1· Если pj или φ^ таковы, что тождественно по φ выполняется: У-1 У-1
152 полиномиальные популяции [ГЛ. 6 мы получим дальнейший анализ табл. 6.1, представленный в табл. 6.4. Условие (6.9), которое является аналогом (4.8), обеспечивает информационную аддитивность анализа в табл. 6.4. Табл. 6.4 содержит также дальнейший анализ табл. 5.1, когда г = 2. Мы видим [ср. (4.8) — (4.11)] из (6.9), что ф£ являются решениями системы с 2-%^г°>1=1'2'-'к· (6Л0) Уравнения (6.10) — уравнения максимума правдоподобия для нахождения оценок <pj, а также уравнения, которые решают задачу нахождения φ^, минимизирующих компоненту «между» или «итог» в табл. 6.1. Оставляем читателю оценку расхождений, а также представление компонент в виде, удобном для вычислений с использованием таблицы η log я. Степени свободы в табл. 6.4 есть степени свободы асимптотического х2-распределения, когда справедлива нулевая гипотеза 772 из (6.1) и ρj взяты как функции параметров φΛ (См. задачу 7.16.) Таблица 6.4 Компонента информации Между pj—x/N и Pj=Pj (ϋι> ··■» <?k)> 2/ (ρ: ρ) Ошибка, 2/(p*:j5) (в пределах) Между XijjNi и ρ 2/(р*:р) (р) ПрОТИВ (р) φ*, 21(р:р) Итог, 2/(/?*:/?) ί=1 7«1 J 2 2 Ϊ Х^*Щ с 2 2 Ϊ х^Ш> i = l /=1 с. с. с —£ — 1 (г —1)(с —1) r(c— \) — k k r(c-l) 7. ЗАДАЧИ 7.1. Оцените расхождения, соответствующие информационным компонентам в табл. 4.1. 7.2. Оцените расхождения, соответствующие информационным компонентам в табл. 4.2.
7] ЗАДАЧИ 153 7.3. Оцените расхождения, соответствующие компонентам «в пределах» в табл. 6.2. 7.4. Выразите информационные компоненты в табл. 6.2 в терминах вида η log п. 7.5. Завершите в деталях обсуждение анализа нулевой гипотезы и распределений для табл. 6.3. 7.6. Оцените расхождения, соответствующие информационным компонентам в табл. 6.3. 7.7. Выразите информационные компоненты в табл. 6.3 в терминах вида η log п. 7.8. Оцените расхождения, соответствующие информационным компонентам в табл. 6.4. 7.9. Выразите компоненту «в пределах» в табл. 6.4 в терминах вида η log я. 7.10. Фишер (1956, стр. 144) определяет состоятельную оценку как «функцию наблюденных частот, которая принимает точное значение параметра, когда вместо частот подставляют их математические ожидания». Какие из информационных статистик в главе 6 состоятельны по Фишеру, т. е. состоятельны в смысле предшествующего определения? [Ср. Фишер (19226, стр. 316).] 7.11. Являются ли следующие шесть независимых полиномиальных выборок однородными? 2 8 6 5 5 4 7 10 6 6 7 8 8 8 5 4 4 12 4 13 10 6 2 7 9 4 12 4 14 5 7.12. Являются ли следующие четыре независимые выборки однородными? 2 8 5 12 8 2 5 2 1 3 5 7 2 1 3 2 7 3 3 7.13. Являются ли следующие контрольные результаты для пяти мануфактур однородными? Мануфактуры Бракованные . Итог. . . А 26 172 198 Б 72 169 241 в 61 142 203 Г 29 36 65 Д 135 542 677
154 ПОЛИНОМИАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 6 7.14. На основании анализа, данного в табл. 4.3, и свойств различающей информации покажите, что если XilN—>pi с вероятностью 1 при N-+co, то с вероятностью 1 Xi/N—^pi, pi-^pu I = 1, ·-·, с· [Ср. Рао (1957).] (См. лемму 2.1 гл. 4.) 7.15. Какова связь, если она вообще имеется, между (4.3) и задачей 5.12 главы 1? 7.16. На основании анализа, данного в табл. 6.4, и свойств различающей информации покажите, что если XijINi~^pj с вероятностью 1 при А^—*со, то с вероятностью 1 XijjNi-+pjy pj-+pj и χ/,'Ν-^ρρ ί=1, 2, ...г, / = = 1, 2, ... , с. (См. задачу 7.14.) 7.17. Покажите inf (л: log-т£- + (N— х) log ~ ] = χ log -r^-4- Μ χ + (Ν-χ)log-щ-, *>*Sv [См. 4.18.] 7.18. Найдите приближенное /(#lf Я2) в (6.6), используя аппроксимации (4.5) и (4.6).
ГЛАВА 7 ПОПУЛЯЦИИ ПУАССОНА 1. ПРЕДПОСЫЛКИ Предположим, что две простые статистические гипотезы Н± и //2 задают соответственно две популяции Пуассона р(х, mt)=—^-Ч х = 0, 1, 2,..., *=1, 2, m£>0. (1.1) Средняя информация для различения в пользу Нх против //2, содержащаяся в наблюдении из популяции, соответствующей гипотезе Нь равна (см. раздел 2 гл. 1) сю /(1:2)= J** *0ЮВ|^-=«,1ов5- + 1Я|-Яч. (1.2) Расхождение между гипотезами //j и Нь мера трудности их различения, равно (см. раздел 3 гл. 1) сю J(l, 2)=^(р(х, щ)-р(х, m3))logji|-^= х^О mt --(ntt — mi)log-±. (1.3) т. Средняя различающая информация и расхождение для случайной выборки Оп в η независимых наблюдений есть /(1:2; On) = n{m1\og^ + m^-~m^nl{\:2)y J(l, 2; On) = n(m1-m,)log^ = nJ(l, 2), Они могут быть вычислены непосредственно или полученьд из свой-* £тва аддитивности ^см, раздел 2 гл. 2),
156 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 2. СОПРЯЖЕННЫЕ РАСПРЕДЕЛЕНИЯ Предположим, что каждое возможное наблюдение из любого распределения на неотрицательных целых числах /?* (х) является также возможным наблюдением из распределения Пуассона р(х, т)= =^e~mmxjx\> χ —0, 1, 2,.... Это предполагается для того, чтобы избежать случая, когда /?*(х)^£0, а р(х, т)=0. (См. раздел 7 гл. 2.) Теорема 2Л главы 3 позволяет нам утверждать: Лемма 2.1. Распределение вероятностей на неотрицательных целых числах с данным математическим ожиданием, доставляющее минимум информации для различения против распределения Пуассона р(х, т)=е~ттх/х\, а именно распределение р* (х) такое, чтоЕ*(х) = Ви 2 Z7* (х) 1о£ О7* (Х)/Р (х> т)) минимальна, есть распределение р*(х) = е τχρ(χ, т)/е-т+те*^е~т"(meY/xl^e-n^Y/xl, (2.1) со где 2 еххР(*> т) = е~т^т\ т* = те* = В = ~logе-т+тх, α τ — действительный параметр. Отметим, что распределение р* (х), доставляющее минимум информации, является распределением Пуассона. [Ср. Санов (1957, стр. 25).] Проиллюстрируем лемму 2.1 численным примером (ср. пример 2.1 гл. 3). В табл. 2.1 даны отрицательно-биномиальное распределение p\(x) = (T(n-{-x)/x\T(n))pxq~n-x9 я = 2, /7 = 0,5, 0=1,6, среднее = 1; распределение Пуассона р% (х) = е~ттх\х\ т = \; и распределение Пуассона p{x) = e~mmxjx\7 m = l, 5, которое взято в качестве распределения р(х) леммы 2.1. Для первых двух распределений Е*(х)=1. [Численные значения отрицательно-биномиального распределения взяты у Кохрэна (1954, стр. 419). См. пример 2.2 гл. 4.] Таблица 2.1 X 0 1 2 3 4+ Р*(*) 0,4444 0,2963 0,1482 0,0658 0,0453 1,0000 P*ix) 0,3679 0,3679 0,1839 0,0613 0,0190 1,0000 Р(х) 0,2231 0,3347 0,2510 0,1255 0,0657 1,0000 0,30624 —0,03611 —0,07813 —0,04249 —0,01678 0,13273 РЦх) Р$ (*) log -=-— 0,18402 0,03479 —0,05720 —0,04392 —0,02357 0,09412
3] г ВЫБОРОК 157 Отметим, что распределение Пуассона дает меньшее значение %p*(x)\og(p*(x)jp(x)\ равное [см. (1.2)] 1 log(1/1,5)+ 1,5—1 = = 0,09453. Различие между 0,09421 в табл. 2.1 и 0,09453, вычисленным по формуле для /(1:2), обусловлено группировкой значений х^4и отражает тот факт, что группировка уменьшает информацию (см. разделы 3 и 4 гл. 2, пример 2.2 гл. 4 и задачу 6.6). Распределение Пуассона /?* (х) в (2.1) — сопряженное распределение для распределения Пуассона р(х, т) (см. раздел 1 гл. 5). Поэтому /(Р* :/>)= 2 Р*(Х)l0g Х,(м) =Ь + т-те* = eiog-|- + m-6, (2.2) J (Ρ*, р)= 2 WW-Pi** и)) log ffi^ = = t(e-i*)=(e-i*)iog-^-. В применении к проверке гипотез о пуассоновских распределениях основное распределение Пуассона р(х, т) должно быть тем распределением, которое предполагается нулевой гипотезой Н& а сопряженное распределение должно принадлежать семейству, соответствующему альтернативной гипотезе Нх. 3. г ВЫБОРОК 3.1. Основная задача Пусть мы имеем г независимых выборок в ni3 щ, ... > пг независимых наблюдений из популяций Пуассона. Мы хотим проверить гипотезы: Н{. параметры популяций Пуассона равны ть тъ ..., т^ Щ. параметры популяций Пуассона mi = m^ = ...= mr = m, т. е. нулевая гипотеза //2 есть гипотеза об однородности, или о том, что выборки произведены из одной и той же популяции Пуассона. Из свойства аддитивности (см. раздел 2 гл. 2) или непосредственным вычислением для г выборок получим г 1 (Я,: Я9)=2 Щ {т, log В + т - «,), (3.2) i=\ г J{H„ Я2)=2 "'· № ~ т) 1°ё it ■ (3·3)
158 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 Взяв в качестве параметров θ£ сопряженных распределений их наилучшие несмещенные выборочные оценки, соответствующие выборочные средние, получим г t(m* : !»)== 2|(ν*Λ + Щ (т — т^% (3·4) где [см. (2.1)] Jbi = \og(xijm\ /=1, ..., г, и [см. (2.2)] г 1{т*:т) = ^ щ (xt log^+m-*,). (3.5) Гипотеза //2 из (3.1) обычно не уточняет значения т. Мы можем разложить 1(т* : т) на две аддитивные компоненты, одну, обусловленную отклонением т от ее наилучшей несмещенной оценки по объединению выборок, и другую, обусловленную «ошибкой» в пределах выборок. Анализ приведен в табл. ЗЛ, где пх = пххх~f-...-}-пгхп п = п1~\~щ~\~т..-\~пГ Степени свободы являются степенями свободы асимптотического х2-распределения при справедливости нулевой гипотезы Я2 из (3.1). Отметим, что 1(т*: т) {1{Ηχ: Я2)) в табл. 3.1 есть минимум величины 1(т*\т) из (3.5) по различным w]>0, т. е. по семейству распределений, соответствующему гипотезе Нъ и что из свойства выпуклости (см. раздел 3 гл. 2) вытекает г 2 [П& 10£ IT + Ui (Ш — **)) ^ Я* lOg -J + Я (IW — X). Анализ, приведенный в табл. 3.1, отражает тот факт, что гипотеза //2 из (3.1) является пересечением гипотез //2Q о том, что выборки однородны, и //2 (-\т), что параметр однородных выборок есть т> т. е. Н^ = Н^(:)[\Н^{-\т). Компонента «между» в табл. 3.1 2l(m:m) лежит в основе проверки гипотезы Н^{-\т\ а компонента «в пределах» 2/(т*: т)у или 2Ϊ(ΗΧ: //2), лежит в основе условной проверки гипотезы //2(·) при условии, что мы имеем пх = пххх -|~... ... + ягхг. Компонента «ошибки» в табл. 3.1 может быть представлена в виде г Ϊ(ΗΧ: Я2)=2 Щ*1 tog *i ~ я* tog χ = г г = Σ η**ί 1θ§ ПЛ* — Σ *ini 1θ§ Λ* — П* l0S П* + *П l0g Я, (3,6) удобном для вычислений с использованием таблицы η log я, так К^К ЩХр l~h 2? ,,,, г? и #,£ —цщ>ш¥
3] г ВЫБОРОК 159 Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценка расхождения, соответствующая компоненте «ошибки», есть г J{m\ т) = J(Нь Я,) = J Щ (*4 - х) log Щ. (3.7) 1=1 Отметим, что 1(Н±:Н^ = 1(т*:т) в табл. 3.1 получается из (3.2) подстановкой xt вместо /я,- и χ вместо т и что (3.7) есть (3.3) с теми же подстановками. Таблица 3.1 Компонента информации Между т = Х и т1 2/ (in: m) Ошибка (в пределах), 2/(т*:ш) Итог, 2/ (т* : т) 2(nx\og \-п (т—х)\ г 2 ^ Щ*'1 1ο^ γ ί = 1 г 2 У [Щ*1 log^ + щ (» — **)] с. с. 1 г—\ г Если нулевая гипотеза Нг из (3.1) верна (выборки принадлежат одной популяции), то 2Ϊ(Ηι: Я2) и /(/ii, /4) имеют асимптотически Ха-распределение с (г—1) степенями свободы. Если же справедлива альтернативная гипотеза Hi из (3.1), то 2l(Hx ://2) и 3(НЬ //2) асимптотически распределены как нецентральный χ2 с (г — 1) степенями г свободы и параметрами нецентральности 2 ]Г} п^ log {тг\т) и г г г 2 ni (wi — т) 1оё (mtlm)> пт = ^ щт1 соответствует пх = ^ #Л*. С помощью аппроксимации, использованной в (4.5) и (4.6) главы 6, находим [ср. Кохрэн (1954), Рао и Чакраварти (1956), Фишер (1950)] 2HHl:m^2ini(Xi7xr=^
160 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 3.2. Разбиение Компонента «ошибки» в табл. 3.1 может быть разложена на (г—1) сравнений, каждое с одной степенью свободы, между каждой выборкой и объединением предшествующих выборок. (Ср. анализ Таблица 3.2 Компонента информации В пределах выборок 1 и 2 Между выборкой 3 и объединением выборок 1 и 2 : В пределах выборок от 1 до (г —2) Между (г—1) выборкой и объединением выборок от 1 до (г — 2) В пределах выборок от 1 до (г —1) Между г и объединением выборок от 1 до (г-1) Ошибка в пределах г выборок, 2/ (#!: Н2) 2 2 ^ щЩ log -^ * = 1 : г-2 ί=! Ι 2 (n^ *r_, log St*- + Nr_&M log Μ \ Уг-i Уг-i I г-1 2 У ЩХ1 log-^- 1 = 1 2 (MVlog § +Wr_1^_1 log^i-) Γ 2 ^ лЛ-log^ ί=1 С. С. 1 1 .* г —3 1 г —2 1 г —1 компоненты «ошибки» в разделе 6.2 гл. 6. Мы оставляем читателю проведение сравнений в деталях). Это позволяет оценить каждую выборку по ее вкладу в изменения, которые будут происходить. [См. Кохрэн (1954), Ланкастер (1949).] Для обозначения последовательных объединений выборок определим Λ^ = "Λ + "Λ + .·. + >№ * = 2, .·«> г—1 и Λ^ = Λι + Λβ + --- + Λί-
41 ^ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ОДНА ВЫБОРКА 161 Анализ, предлагаемый в табл. 3.2, получается непосредственным образом из этих определений и свойств логарифма. Отметим, что, так как имеет место свойство выпуклости (см. раздел 3 гл. 2), для данного объединения каждая компонента «между» в табл. 3.2 является минимальным значением компоненты «в пределах», расположенной в следующей строке. Степени свободы есть степени свободы асимптотического χa-pacπpeдeлeния при справедливости нулевой гипотезы Н% из (3.1). Оставляем читателю оценку расхождений и представление компонент в виде, удобном для вычислений с использованием таблицы л log л. 4. «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ОДНА ВЫБОРКА (Ср. раздел 4.4 гл. 6.) Интересно изучить одностороннюю гипотезу. Предположим, что у нас есть случайная выборка в η независимых наблюдений из популяции Пуассона, и мы хотим проверить гипотезы /^•.параметр популяции Пуассона равен Шх^т, Нъ\параметр популяции Пуассона равен т. Сопряженное распределение (2.1) принадлежит семейству пуассонов- ских популяций, соответствующему гипотезе/^, если т* — тех^>т. Поэтому только значения τ^>0 являются допустимыми. Взяв в качестве параметра θ сопряженного распределения наилучшую несмещенную выборочную оценку 6 (выборочное среднее х), получим [ср. (3.4)] 1(т* : т) = τηχ-\-п{т — теТ), ί = log(xjm). (4.2) Если х^>т, то τ^>0 и допустимо. Если х^т, то ΐ^Ο и не допустимо. На границе τ = О области допустимых значений 7(т*: т)= 0. Таким образом, имеем (пх\оех/т 4- η(т —-х\ х^>т>\ '<«:">>= {о, Цт ) <«) Когда нулевая гипотеза И% из (4.1) верна, 2Ϊ(Ηχΐ Η%) имеет асимптотически х3-распределение с одной степенью свободы, но значение χ2, соответствующее уровню значимости а, нужно брать из обычных таблиц χ2 на уровне 2а, так как мы не рассматриваем значений х<^/гс, Для которых Ϊ(Η1:Η^) имеет такое же значение, как и при некотором х^>т. Вместо простой нулевой гипотезы Яа из (4.1) рассмотрим теперь сложную нулевую гипотезу И'^\ //j*. параметр популяции Пуассона равен т1^>тб1 ί т;.т;) /^•.параметр популяции Пуассона равен m^m$. Можно показать, что [ср. (4.18) гл. 6] (см. задачу 6.7) 1 X \ X inf [nxlog \~п{т — x))=nxlog —4~л(то— *)> х^>Щ> (4.5) m^m0 V т I Щ
162 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 и, следовательно, !(Н1:Н;) = )пП°ё£-0 + П(Щ-*)' Х>Щ' (4.6) :ЯНо* (4.9) Если нулевая гипотеза Н\ из (4.4) справедлива, Ρ [2/(Ях · Н£) ^ ^χ2α]^α, где χ|α — значение в обычных таблицах χ2, соответствующее уровню 2а для одной степени свободы. Аналогично для гипотез Я3:параметр популяции Пуассона равен т1<^т09 Я'^: параметр популяции Пуассона равен т^т0 получим ПНш:НЭ=1я*-и*-к + п<т·-**· *<т°' (4.8) [ 0, х^гщ. При справедливости нулевой гипотезы Щ из (4.7) асимпготически Ρ [2/(Я3: HI) ^ χ|α] ^ α2, где χ|α определено выше. Двусторонняя гипотеза Я4 * параметр популяции Пуассона равен т{ φ m0, Я3: параметр популяции Пуассона равен т — т6 является частным случаем гипотез раздела 3.1, и 2/(Я4:Я2) = 2 (nxlog^ + nXmo — xj) (4.10) имеет асимптотически /^-распределение с одной степенью свободы при справедливости нулевой гипотезы Яа из (4.9). 100 (1—а)°/0 асимптотический доверительный интервал для т6 дается неравенством 2пх log £ + 2п («0 - χ) < χ2 (α, 1), (4.11) где χ2 (α, 1) — значение, для которого /^-распределение с одной степенью свободы дает Ρ [χ3 ^ χ* 0х» 1)] = α. (Ср. раздел 5 гл. 5.) (См. задачу 6.4.) Отметим, что для Яа, Н\ и Я£ из (4.9), (4.4) и (4.7) соответственно выполняется соотношение Я2 — Н^{] Н'^ т. е. (т = т0) тогда и только тогда, когда (m^m0) и (m^m0); также для Я4, Hi и Я3 из (4.9), (4.4) и (4.7) соответственно выполняется Я4 — Нх \] Я3, т. е. (mt ^ Щ) тогда и только тогда, когда (щ^>гпо) или (/^0^>Wj). Пересечение областей принятия гипотез Я^ и Я^, ях log (x/fnQ) -|~ и(/я0 — х) ^ const есть также область принятия гипотезы Я2. Для иллюстрации берем /Ш70 = 50 и вычисляем для (4.6) некоторые вероятности, когда верпы Я^ и Н{ из таблиц Молина (1942) для точных пуассоновских величин (см. табл. 4.1 и 4.2), и из таблиц ·£* и нецентрального /^-распределений для аппроксимирующих величин (см. габл. 4.3). (Ср. раздел 4.5 гл. 6.)
«ОДНОСТОРОННЯЯ» ГИПОТРЗД, ОДНА ВЫБОРКА 163 Таблица 4.1 Значения Р(пХ^50) для распределений Пуассона пт 40 45 50 Н2 0,9474 0,7963 0,5375 пт1 = 55 0,2768 60 0,1077 Hi 65 0,0321 70 0,0075 80 0,0002 Таблица 4.2 Значения Р(пх^63) для распределений Пуассона пт 40 45 50 Ч 0,0005 0,0065 0,0424 tfi nnii = 55 0,1559 60 0,3662 65 0,6146 70 0,8140 80 0,9781 2 (62 log !®. + 50 — 62) = 2,67381, ου 2 (63 log J^- + 50 — 63) = 3,12007, 50 2/ (H1: tfg) (уточненное) = 2,90 (ср. раздел 4.5.2 гл. 6).' «Центральное» значение в табл. 4.3 получено вычислением оо —— \ е~х2/Ых, а «нецентральные» — вычислением оо оо где μ2 —2 ι пгпх log нй^ + 50 — птЛ. [Ср. раздел 4.5.2 гл. 6 и выражение (6.9) гл. 12.] Таблица 4.3 Значения Ρ (χδ ^ 2,90) для х2-распределений Центральное Нецентральное 0,0443 пт1 55 60 80 2 [пт, log ^ + 50- птЛ 0,48412 1,87859 15,20058 0,1652 0,3710 0,9860
164 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 Полученные значения сведены в табл. 4.4 для сравнения точных и приближенных вероятностей отвержения гипотезы И'2 в случае, когда она верна, и в случае, когда верна одна из указанных альтернатив. Таблица 4.4 Пуассоновские г2 Н'ш 0,0424 0,0443 ^ птх = 55 0,1559 0,1652 60 0,3662 0,3710 80 0,9781 0,9860 5. «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ДВЕ ВЫБОРКИ (Ср. раздел 5.2 гл. 6.) Рассмотрим теперь проверку односторонней гипотезы для двух выборок. Пусть мы имеем две независимые выборки в щ и л2 независимых наблюдений каждая. Мы хотим проверить гипотезы: /^'•.параметры популяций Пуассона есть тх^>т^ (о.1) Щ:параметры популяций Пуассона есть тх=^т^ = т. Сопряженные распределения [ср. (2.1)] принадлежат семейству популяций Пуассона, соответствующему гипотезе Н[ из (5.1), если т\ = mezi ^> т% = те^ш Следовательно, допустимы только значения τι^>τ2. Для г = 2, на основании (3.4), получим ϊ(?η*: т) = τγηγχγ 4-^ι (т — те^) -f- ЧЩ*ъ~\-1Ц{т — те^\ (5.2) ΠγΧγ = Пупге"^ пгхг == щте**, (5.3) или *i = log£\ i« = lpg^. (5.4) Если Χι^>Χζ, то xt^xg допустимы. Однако если Д^^Ха, то Ч^Ч не допустимы, и мы должны найти значение 1(т*:т) вдоль границы τ8=τ1 = ΐ области допустимых значений. Для τ% = % = τ имеем л. τ? nx = nmezy или i = log—-, пХ = ηχΧι-{-ntf* п = п1-\-щ, (5.5)
5] «ОДНОСТОРОННЯЯ» ГИПОТЕЗА, ДВЕ ВЫБОРКИ 165 и, следовательно, 2 /(я** : да) = J [щ*1 log § + я1 (т — *«)) > *ι > ** (5·6) /(/и* :т) = пх log [- л(/и — х\ хх ==ζ х2. (5.7) Если мы изучим анализ, данный в табл. 3.1 для г = 2, соответствующий двусторонней гипотезе //^параметры популяций Пуассона есть тхфт^ (5.8) Н^: параметры популяций Пуассона есть Wj —/я2 =/я, то увидим, что 21(т*:т), где 1(т*:т) задана формулой (5.6), есть «итог» табл. 3.1, когда χγ^>χ^ и 2/(/я*:да), где 1(т*:т) задана формулой (5.7), — компонента «между» табл. 3.1, когда Χι^χ& Гипотеза //2 из (5.1) обычно не уточняет значения т. В этом случае имеем , ( компонента «ошибки» табл. 3.1, г = 2, Xi^>x2, ЩН[:Щ= _^_2 (5.9) Асимптотически, если справедлива нулевая гипотеза Н% из (5.1), 21{Н[:Н^ имеет х2-распределение с одной степенью свободы, но значение χ2 на уровне значимости α нужно брать из обычных таблиц χ2 на уровне 2а. Аналогично для проверки гипотез //('.-параметры популяций Пуассона равны ml<^mi, //2: параметры популяций Пуассона равны mY — mi = in имеем 1(т*:т) из (5.6), когда хг<^х^ и 1(т*:т) из (5.7), когда *i^x2. Гипотеза //2 из (5.10) обычно не уточняет значения т, и мы имеем тогда of/tj" ( компонента «ошибки» табл. 3.1, г = 2, Χι<^χ& 2ίΚΗι -Щ = { п (5Л1) (0, χχ ^ х2. Если нулевая гипотеза Щ из (5.10) верна, 2/(/^':Я2) в (5.11) имеет асимптотически х2-распределение с одной степенью свободы, но значение χ2 на уровне значимости α нужно брать из обычных таблиц χ2 на уровне 2а. Отметим, что Нь Н[ и HI из (5.8), (5.1) и (5.10) соответственно удовлетворяют соотношению Нх ~ Н[ (J Н\у т. е. (щ φ т2) тогда и только тогда, когда [mY^>m^ или (ту<^т^). Предшествующее суммировано в табл. 5.1 (см. табл. 5.3 гл. 6).
166 ПОПУЛЯЦИИ ПУАССОНА [ГЛ. 7 Таблица 5.1 Между 2 [пх log iir + п (m° ~~ХЧ В пределах 2 2 ^ *i*/log^ i—1 Итог 2 **>) (δ.1) Λ ι ^^^ Λ g m — m0 Χι Ξ> Xg m=m~x 0, xx ^ x2 Χι Ξ> «^2 /Я = ftt0 (5.10) Jtj ^^ Ag tn=m0 Χι <Ζ. Χ2 m= m = x 0, x^x2 Xj <Ξ X% //1 : Η2 (6.8) m = tf?0 m=m—x m=m0 6. ЗАДАЧИ 6.1. Выполните детально анализ, приведенный в табл. 3.2. 6.2. Оцените расхождения, соответствующие информационным компонентам в табл. 3.2. 6.3. Выразите компоненты «в пределах» табл. 3.2 с помощью членов вида η log п. 6.4. Вычислите доверительный интервал для т0 из (4.11) при Jc=10, я =10, 100. 6.5. Следующие данные представляют собой суммарные значения последовательных выборок одинакового объема из пуассоновских популяций: 427, 440, 494, 422, 409, 310, 302 [данные взяты у Ланкастера (1949, стр. 127)]. Являются ли последовательные выборки однородными? Если нет, то где возникает отклонение от однородности? (Ланкастер приводит данные, полученные из наблюдений над чашечками со смесью бактериальных культур с дезинфицирующим средством.) 6.6. Вычислите ΣιΡ* (х) logpf (x)jp (χ), тле ρ (χ) приведено в табл. 2.1, а р* (х) = χ _ Х\\РХЯП~*> «=Ю, р = 0, 1, gz=z\~pf и сравните с таблицей 2.1. пх log \~n(m—X)) = nXlog \~n (m0 — X), in J m0 X > m0. [Cm. (4.5).] 6.8. С помощью аппроксимации, использованной в (4.5) и (4.6) главы 6, покажите, что для компонент «между» и «итог»[. в табл. 3.1 выполняется: (а) 2/ (ш: ш) ъ п(Х — m)2jm. г (б) 2/ (т*: щ) «а^З щ (хг — л?)2/т. г=1
ГЛАВА 8 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1. ВВЕДЕНИЕ Таблица сопряженности признаков является в сущности некогорой выборкой из многозначной популяции с различными вероятностями и разбиениями категорий, которые зависят от ограничений, дополнительных к требованию полиномиальности распределения. Поэтому анализ таблиц сопряженности признаков в этой главе тесно связан с анализом полиномиальных выборок в главе 6. Изучение и применение таблиц сопряженности признаков в статистической теории имеет длинную историю. См., например, Кендалл (1943), Крамер (1946а), Митра (1955), Пирсон (1904), Рао (1952), Рой (1957), Рой и Кастенбаум (1955, 1956), Рой и Митра (1956), Уилкс (1943), Фишер (1925а, все издания), Юл и Кендалл (1937). Мак-Гилл (1954) применял меру передаваемой информации из теории связи для анализа таблиц сопряженности признаков. Хотя метод Мак-Гилла несколько отличается от нашего, он употребляет родственные понятия, и мы получим аналогичные результаты для таблиц сопряженности признаков. Гарнер и Мак-Гилл (1954, 1956) отмечали некоторые параллели, существующие между дисперсионным анализом, корреляционным анализом и информационной мерой, которую они называют неопределенностью, как методами анализа составляющих отклонения [ср. статью Мак-Гилла на стр. 56—62, Кваст- лер (1955)]. Детально мы будем изучать только таблицы с двумя и тремя входами. При распространении методов на таблицы более высокого порядка не возникает новых концептуальных проблем, и мы оставляем это читателю. 2. ТАБЛИЦЫ С ДВУМЯ ВХОДАМИ Сначала изучим двуфакторные таблицы, или таблицы с двумя одами. Предположим, что у нас есть N независимых наблюдений, °Рые расклассифицированы в таблице с г строками и с столбцами
168 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 по значению двух признаков, признаков строки и сголбца. Признак строки состоит из г категорий, признак столбца — из с категорий. Пусть xtj — число наблюдений в /-й строке и /-м столбце и с г Xi· ==z 2.J ^ijy X'j == 2.Л ^*f7 ,=1 i=l N=Σ Σ *ч=Σ χο =Σ χ·ί· Вероятности будем обозначать символами ρ с соответствующими индексами. Начнем с проверки нулевой гипотезы //3 о независимости признаков строки и столбца, т. е. ffi'Pijl^PhP.p l=h % ...> г, 7 = 1, 2, ..., с, по г с крайней мере для одной пары (г, у), ^ ΣΛ7= 1j Ή: /?ι7 = л ./?./, А:+/?2. + ... + Ρ г. = 1 = Ρη + ... -··+/>·* Λ·>0, Λ/>0. ) Без детального повторения рассуждений (аналогичных рассуждениям в случае выборки в N независимых наблюдений из полиномиальной популяции с гс категориями) имеем [ср. (2.6) и (2.8) гл. 6] г с /(Я,: Щ=мУ У Λ/log·^, (2-2) Г С j(//„ //2)=iv22^-^v>l0g^;.· С2·3) Отметим, что /(/^ ://2)/Ν в (2.2) есть мера связи между категориями строки и категориями столбца, которая определялась также как средняя информация, содержащаяся в категориях строк относительно категорий столбца или наоборот (см. примеры 4.3 и 4.4 гл. 1). Для сопряженного распределения (см. раздел 3 гл. 6) с наилучшими несмещенными выборочными оценками в качестве параметров имеем г с tW-V» =2 Σχυ 1(>ёщ^:. (2-4) /=1 /=1
2! таблицы с двумя входами 169 Нулевая гипотеза о независимости //2 из (2.1) обычно не уточняет значений /?,., /=1, 2, ..., г, и р.р j=l, 2, ... с. ϊ((ρ)*:(ρ)) из (2.4) можно разложить на три аддитивные компоненты: частную компоненту, обусловленную отклонениями между рг. и их наилучшими несмещенными оценками по суммарной строке, частную компоненту, обусловленную отклонениями между p.j и их наилучшими несмещенными оценками по суммарному столбцу, и условную компоненту, обусловленную гипотезой о независимости. Эти компоненты соответствуют: гипотезе Н%(Я), уточняющей значения pia9 гипотезе //3(С), уточняющей значения р.р и гипотезе Я2(/?ХС) о независимости, т. е. Н.х из (2.1) является пересечением //2 (/?) f] ^а (О Π n/Z^RXC2). Анализ, приведенный в табл. 2.1, является аналогом анализа, приведенного в табл. 4.3 главы 6. Здесь имеется г —· 1 независимых параметров ρι.ρ^? ..., /V-t)· и О7—*) независимых параметров р.ь р.ь ..., pm{C-\y Уравнения (4.11) главы 6 выглядят здесь так: ι—1 Так как Pij = Pi.p.p то эти уравнения сводятся к уравнениям ψ = ^, /=1,2,..., г-1, ^=Ь,у = 1, 2, ...,*-1, дающим / = 1, 2, ..., r, y = l, 2, ..., с. [Ср. Крамер (1946а, стр. 442—443).] Отметим, что компонента «независимости» в табл. 2.1 является минимумом «итога» по всевозможным /7£. И /?.у, г с т. е. по семейству популяций, соответствующих гипотезе //2 с данными частными значениями, и что по свойству выпуклости (см. раз- Дел 3 гл. 2) г с г 2 2 х<71оётк^ 2 Xi-log ί& > г с с 2 2 x'JXoZNi^j^2x->l0ei$:r
170 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 Степени свободы в табл. 2.1 соответствуют степеням свободы асимптотического х*2-распределения при справедливости нулевой гипотезы Я2 из (2.1) [Ср. Уилкс (1935а).] Таблица 2.1 Компонента информации Строки, Н2 (R) Д. = *,./# Столбца, И2 (С) Независимости, Н2 (R X С) 2/(Я1:Я2) = 2/((р)*:(р)) Итог, 2/((р)*:(/?)) г i=l с 2 У x.Aog-^ jLl j s Np.j 2 ί i^sgfc с. с. г—1 c—\ re—1 Для удобства вычислений с помощью таблиц η log n компонента «независимости» в табл. 2Л может быть представлена в виде г с г 1{НХ: Я2) = 2 Σ χυ 1οβ X*J ~ Σ ■**· loS *ί· ~ с — Σ х; 1о£ * ·/ + ^ l0S M (2·5) Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «независимости» в (2.5) [ср. (4.12) гл. 6], будет ϊ=1 /=1 J -Ϊί('*-Φ>*Β!;- <2·6> Отметим, что компонента «независимости» в табл. 2.1 есть (2.2) с подставленными x^jN вместо pijy χέ./Ν вместо pimy x.j/N вместо p.j и что (2.6) — это (2.3) с теми же подстановками.
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 171 Если признаки строки и столбца независимы, то 2l(Ht: //2) и j(Hlf Я2) имеют асимптотически х2-распределение с (г—1)(с— 1) степенями свободы. Если же верна альтернативная гипотеза Ну из (2 1), то 2/(//i://a) и 3(Нъ Нъ) имеют асимптотически нецентральное ^распределение с (г—1)(<:—1) степенями свободы и параметрами нецентральности 21(Н1:Н^) и J(Hb Щ соответственно, которые заданы равенствами (2.2) и (2.3) с с г !-\ i-i (См. задачу 13.11.) С помощью аппроксимации, использованной в (4.5) и (4.6) главы G находим, что [ср. Крамер (1946а, стр. 441—445), Рой (1957, стр. 128), Сюй (1949, стр. 367—369)] \2 ί-iy-i N mm mm λ{.λ., L· mm ΛιιΛιι с [х Xj-X'j У(Я1, //з)^ - у у * - ' +4- Ζ Ζ J ~-^· С2·8) *ι/ Теперь читателю предоставляется возможность выразить (2.2) в терминах энтропии, определенной в задаче 8.30 главы 2. Проверка однородности г выборок в разделе 6.1 главы 6 может рассматриваться также как проверка гипотез (6.1) главы 6 для дву- факторной таблицы сопряженных признаков при условии, что фиксирована строка итогов, т. е. при данных Nb 1=1, 2..., г. Мы оставляем читателю соотнести компоненты в табл. 2.1 и табл. 6.1 главы 6. [Ср. Гуд(1950, стр. 97—101).] 3. ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ Число возможных, представляющих интерес комбинаций гипотез становится гораздо больше для трехфакторных таблиц сопряженности признаков и для таблиц более высокого порядка. Мы изучим несколько случаев проверки гипотез для трехфакторных таблиц, чтобы проиллюстрировать общий метод. [Ср. Мак-Гилл (1954), Митра (1955), Рой (1957, стр. 116—120), Рой и Митра (1956).] Предположим, что имеется N независимых наблюдений, каждое из которых характеризуется значением трех признаков: признаков строки, столбца и глубины; наблюдения распределены среди г кате- °рий строки, с категорий столбца и d категорий глубины. Пусть
172 таблицы сопряженности признаков [Гл# 8 xijk — число наблюдений в 1-й строке, у'-м столбце, k-й глубине, и пусть red с d Xl Xl Xl Xijk = N, Xi..= 2j X ХЦЪ> r d re d X.j, = £j £j xijk у Χ· *k:=== ^j ^j Xijki xij· == ^j «#£/*> с red *i.k= Σ ■**/*» х*]ь— Σ ■**/*» Σ Σ x-Jk = N> red Σχ*·· = Σ χ./.= Σ *-·*=№ Вероятности будем обозначать символом /? с соответствующими индексами. 3.1. Независимость трех признаков Рассмотрим таблицу с тремя входами и гипотезы: Hi'-Pi/k^Pi'-P-j'P-b п0 крайней мере для одной тройки (/, у, k), ΣΣΣΡι»=1> PiJk>0, Н*ш-Рук—Р1-Р+Р~ь '=Ь 2> ·■·, *> j=l> 2> ··> с> *=1, (3.1) =^..1+/7-2+/?.-з + ...+P«rf= 1,Л->0,р.у.>0,р..л>0. Без повторения в деталях рассуждений (подобных рассуждениям в случае выборки в N независимых наблюдений из полиномиальной популяции с red категориями) [ср. (2.6) и (2.8) гл. 6] имеем I(^^)=NlllPifklog^-B^t (3.2) J(HV H^N222ipiJk~p,.p,:P.,)log m^k . (3.3) Отметим, [что Ι(Ηχ:Η2)/Ν в (3.2) является мерой взаимосвязи между категориями строки, столбца и глубины [см. замечания, следующие за (2.3)]. Для сопряженного распределения (см. раздел 3 гл. 6) с наилучшими несмещенными выборочными оценками в качестве параметров имеем
ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 173 31 Нулевая гипотеза о независимости Я2 из (3.1) обычно не уточняет значений ft.., ft/., ft-ь /=1, 2,..., г, у = 1, 2, ..., с, А=1, 9 d. ϊ((ρΤ:(Ρ)) из (3·4) можно разложить на несколько аддитивных компонент. Эти компоненты соответствуют: гипотезе Я2(/?), уточняющей значения ft.., гипотезе Я2(С), уточняющей значения puJu, гипотезе НъФ), уточняющей значения р..*, и гипотезе о независимости H^RXCXDl т. е. Я2 из (3.1) есть пересечение Яа(К)П nH^(C)f)^h(D)f)M^(Ry(Cy(D). Приведенный в табл. 3.1 анализ является аналогом анализа, приведенного в табл. 4.3 главы 6. Здесь имеется (г—1) независимых параметров ft.., г=1, 2, ..., г—1, (с—1) независимых параметров ft/., у=1, 2, ..·, (с—1), и (d— 1) независимых параметров ft.д., £=1, 2, ..., d— 1. Уравнениями, соответствующими уравнениям (4.11) главы 6, здесь будут Σ Σ (^■'•'••'-^'•'■?··"Η',=1·2 '-'· Σ Σ &*·*--5ϊ*·*-)-<^->. *·■■·'-"■ d—1. £=1 ;=Ί Так как pijk=pi-*P-pP~k, tq эти уравнения сводятся к уравнениям х1·· хг·· ] 10 г Л X*J* Хтся Pi- Pr- ' P-r P-c- j=\, 2, ..., c-U TT=^, k=l, 2, .... d~\, дающим β. xi·· & X*J· л x"k i * xi·· x-j· x*-k ί=1, 2, ..., г, 7=1, 2, ..., с, k=l, 2, ..., d. (Мы пишем здесь /?, а не р, так как символ ρ будет нужен для различных оценок в анализе раздела 10.) Отметим, что компонента «независимости» в табл. 3.1 есть минимум «итога» по всевозможным на- б°Р™ ft·.., ft,,, Ратк, г d Σ л- = Σ p-j-= Σ ρ··*=ь £=1 /—1 k=l тез6 а/° различным популяциям семейства, соответствующего гипо- "ъ с данными частными значениями, и что по свойству выпук-
174 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 лости (см. раздел 3 гл. 2) «итог» не меньше компонент «строки», «столбца» и «глубины». Степени свободы в табл. 3.1 являются степенями свободы асимптотического х2-распределения при справедливости нулевой гипотезы //2 из (3.1). Для удобства вычислений с помощью таблиц η log n компонента «независимости» в табл. 3.1 может быть представлена в виде /(#!:Η*) = ΣΣΣxijk log Хцк — Σ л*., log χι.. — — Σ x*j- l°g ·*./- — Σχ·*ΐι log x..k + 2jVlog N (3.5) Расхождения не допускают подобного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «независимости» в табл. 3.1, будет [ср. (4.12) гл. 6] Аяьяо=^222(^-^^^)1°в^?^7· (3·6) Отметим, что компонента «независимости», ϊ(Ηι:Η^) в табл. 3.1 есть (3.2) с подставленными Xijk/N вместо pi]ky x^jN вместо pimmy x.j./N вместо рф и x.^jN вместо р..и и чт° (3.6) есть (3.3) с теми же подстановками. Таблица 3.1 Компонента информации Строки, Я2 (R) Pi.. = xl..lN Столбца, #2 (С) p.Ju = x.j.lN Глубины, Н2 (D) p..k = x-.klM Независимости, Я2 (R X С χ D) 2Ι(Ηί: Н2) Итог, 2/((р)*:(р)) г 2lXi-logwr. с /=1 ' 2tx-^wh Λ= 1 red 2 Σ Σ Σ*"*10* ί=1 у—l Λ=1 red 2 Σ Σ Σ x4kXog ί=1 /=1 **=1 WtUh Λ j · ■ Λ · /■ «Λ· ■ ■ h χ'φ Npi..p.j.p..k С. С. г —1 с~\ d—l red — г — _г_</4-2 rcd~~l Если признаки строки, столбца и глубины независимы, то 21(Нг: Н$) и */(//], //2) имеют асимптотически χ2-pacπpeдeлeниe с {red — г — — с — ^_]_2) степенями свободы. Если же верпа альтернативная гипо-
ТАБЛИЦЫ С TPFMfl ВХОДАМИ 175 теза из (3.1), 2/(#1://2) и J (Нь Я3) имеют асимптотически нецентральное х2-распределение с (red— г — с~~d-\-2) степенями свободы и параметрами нецентральное™ 21(Н1:Щ) и J(Hb //2) соответственно, которые даны соотношениями (3.2) и (3.3) с Ρί«=ΣΣρ*7*' ^'·=ΣΣ^ ρ-Λ=ΣΣ^/> j к i k i j (См. задачу 13.8.) 3.2. Независимость признака строки от других признаков Рассмотрим трехфакторную таблицу и гипотезы #i ipijk Φ Pi~P-jk по крайней мере для одной (*,;&), Σ Σ ΣΡι/π^ = 1> Pijk>®> rt2'-Pijk=Pi~P-jk> ί=ι> 2> ···> rfy=l,2, ...,<:, & = 1, 2,...,d, (3.7) Г if Ρι..+Α··+···+/ν··==1= 2 Σ^ν*' Α··>°> P-jk>°- Отметим, что /Y2 из (3.7) влечет ^ if Ρ*/· = Σ Pijk=Pi» Σ P-Ik=Pi-P<j' Pi.A = Σ Pljk=Pi» Σ />·/Α=Λ··Ρ··*» j=\ /=1 т. е. что признаки строки и столбца независимы и признаки строки и глубины независимы. [Верно ли обратное? См. Колмогоров (1950, стр. 11), Феллер (1950, стр. 87—88).] Без повторения в деталях рассуждений (аналогичных уже использованным), получим у(я11яо=^2212^*-л-*'/*)108^^ (3·9) [ср. (2.6) и (2.8) гл. 6]. Отметим, что l^H^H^jN в (3.8) есть мера связи между категориями (строка) и (столбец, глубина) и может быть определена как информация, содержащаяся в категориях (строка) относительно категорий (столбец, глубина) или наоборот [см. замечание, следующее за (2-3)].
176 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 Для сопряженного распределения (см. раздел 3 гл. 6) с наилучшими несмещенными выборочными оценками в качестве параметров имеем /«w:(p»= til x^^m}L·,· (ЗЛ0) Нулевая гипотеза /У2 из (3.7) обычно не уточняет значений /?/.. p,Jky l=ly 2, ..., г, 7=1, 2, ..., Су k=l, ..., d. Мы можем разложить /((/?*):(р)) в (ЗЛО) на несколько аддитивных компонент. Эти компоненты соответствуют: гипотезе //2(/?), уточняющей значения/?^., гипотезе //2(CD), уточняющей значения p.jk> и гипотезе о независимости //2 (R X CD), т. е. Я2 в (3.7) есть пересечение Я2 (/?) (^ Р( //2 (CD) Р( Я2 (R X CD). Анализ, приведенный в табл. 3.2, является аналогом анализа, приведенного в табл. 4.3 главы 6. Здесь имеется (г—1) независимых параметров ph.f z=l, 2, ..., г—1, и (cd—1) независимых параметров p.jky j = ly 2, ..., с, k = 1, 2, ..., <f, (комбинация у' = с и & = d опускается). Уравнения (4.11) здесь имеют вид i = l (опускаются j = c и k = d). Так как Pijk—Pi'-P.jky то эти уравнения сводятся к уравнениям ·**" — хг·· /—ι о г 1 Х'}1г —X'cd /—1 2 г k — = 1, 2, ..., d (опускаются j=c и k = d), дающим Pi.· Xi~ Ν ' η 'У*·* ·*'■# / ΙΟ г Fijk дг ДГ > * А > ^ · · · > Г» 7 = 1, 2, ..., г, /г=1, 2, ..., d. Отметим, что компонента «независимости» в табл. 3.2 есть минимум «итога» по всевозможным наборам /?*.. и p.jk'. г с d т. е. по различным популяциям семейства, соответствующего гипотезе Нъ с данными частными значениями компонент (строка) и (столбец,
31 ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 177 глубина), а по свойству выпуклости (см. раздел 3 гл. 2) «итог» не меньше компонент «строка» и «(столбец, глубина)». Степени свободы в табл. 3.2 являются степенями свободы асимптотического χ2-pacπpeдeлeния при справедливости нулевой гипотезы //2 из (3.7). Таблица 3.2 Компонента информации Строка, Н2 (R) Pi.. = Xi..lN (Столбец, глубина), H2(CD) p.jk = x.jklN Независимость, строка χ X (столбец, глубина), И2 (/? X CD) 2ί(Ηί:Η2) Итог, 2/ ((/?)*: (ρ)) г 21*·-10* шт. £ = 1 7«1 k^\ J i = \ j=\ k=\ С. С. r~\ cd—\ (r-l)X X (erf —1) red— 1 Компонента «независимости» в табл. 3.2 может быть представлена также в виде t(Hx:Ηζ) = ΣΣΣxmlogxijk — Σ■*!·. logxu. —ΣΣ■*·/*logx.jk + -fTVlogiV (3.11) для удобства вычислений с помощью таблиц η log я. Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «независимости» в табл. 3.2, будет [ср. (4.12) гл. 6] >_A/Y\\fe w*w="ZZZ^-W-iff *i» X-Jk\ log Nxjjk X'fX.jk (3.12) Отметим, что ϊ(Ηί: //2) в табл. 3.2 есть (3.8) с подстановками xijklN, Xi../Ν и x./kfN вместо/?£уА, /?£.. и р.уЛ соответственно и что (3.12) есть (3.9) с теми же подстановками. Если признак строки не зависит от других двух признаков, то 21(НХ:Щ из (3.11) и J{Hb Щ) из (3.12) асимптотически распределены как χ2 с (г—\){cd—1) степенями свободы. При справедливости
178 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 альтернативной гипотезы Нх из (3.7) 2/(//1:/ή2) и J(Hb //2) асимптотически имеют нецентральное χ2-pacπpeдeлeниe с (г— \){cd~ 1) степенями свободы и параметрами нецентральное™ 2/(Я1://2) и J{Hb Я2) соответственно, которые даны посредством (3.8) и (3.9) с Ρ'·· = ΣΣΡ'/*' Ρ·/* = ΣΡ'/*(™. заДачУ 13·9)· j k i Подобный анализ возможен, конечно, и тогда, когда гипотеза о независимости касается независимости признака столбца или признака глубины от других двух признаков. Детали оставляем читателю. 3.3. Гипотезы независимости В табл. 3.3 компонента «независимости» из табл. 3.1 разложена на аддитивные составляющие. Это отражает тот факт, что //2 (R χ X С X D) ^ Я2 (/? X CD) Π //2 (С X D), т. е. что три признака независимы тогда и только тогда, когда признак строки не зависит от признака (столбец, глубина) и признаки столбца и глубины независимы, потому что Pijk=Pi--P-jk и p.jk=p.j.p..k влечет piJk = --Pi..p.j.p..k; a PiJk=Pi~p.j.p..k влечег £] piJk=p.jk=p.j.p..k или pijk =pimmp.jk> Также верно, конечно, что H^(RX CXD)^//2(CX XRD)f)Hz(RXD) и Hz(RXCXD)^Hz(RCXD)f)Hz(RXC), но детали мы оставляем читателю. Заметим, что в силу свойства выпуклости (см. раздел 3 гл. 2) компонента //2 (С X D) есть минимум значения компоненты //2(RXCXD) для данной группировки. (См. пример 12.3 и задачу 8.30 гл. 12.) Таблица 3.3 Компонента информации С. С Столбец X глубина И2 (С X D) Строка X (столбец, глубина) Н2 (R X CD) с d «Σ Σ"**:££; red ΣΣΣ-^a* ί=1 /=»1 Λ = 1 jk (c-\)(d~\) {r~-\){cd~\) Независимость, H2(RXCXD) red Σ Σ Σ **щ£*!Ь. ϊ = 1 /=1 Λ = 1 red—г—с- — d-\-2
31 ТАБЛИЦЫ С ТРЕМЯ ВХОДАМИ 179 3.4. Условная независимость Предположим, что для некоторой категории (скажем k-й) признака глубины мы хотим проверить нулевую гипотезу о независимости признаков строки и столбца. Рассуждения здесь аналогичны рассуждениям в случае двуфак- торных таблиц сопряженности признаков. Будем придерживаться обозначений, введенных для исследования трехфакторных таблиц сопря- женносги признаков в нашей основной задаче. Мы хотим проверить гипотезы: Нх: риь Φ Q^& по крайней мере для одной пары (I, /), red Σ Σ Σρν*=1'Λ/*>ο, и . „mij ^Pi'kp-jk з 19 r ·—1 9 (3.13) Ρ·· н re г с Σ Έι Pifh=P»b Σ Pi-b=P~k= Σ Ρ·/*' Ρ*·*>°» Ρ·/Α>0, p..i£>0. Отметим, что мы имеем дело с условными вероятносгями Pifk/р^ь Pi.k/p..k и P'jkjp..k· Анализ, приводимый в табл. 3.4, получаегся из анализа, данного в табл. 2.1. Будем обозначать условную гипотезу относительно строк, при условии k-й категории признака глубины, посредством H%{R\k)9 а соответствующую гипотезу, при условии любой категории признака глубины, посредством //2 (R \ D); аналогично для столбцов. Если //2 из (3.13) верна для всех k, т. е. признаки строки и и столбца условно независимы при данном признаке глубины, то соответствующий анализ получается из анализа, приведенного в габл. 3.4, суммированием каждой компоненты информации по k — = 1, 2, ..., d, и умножением каждой степени свободы на d. В частности, компонента информации в пользу нулевой гипотезы об условной независимости //2(/?|D)X(C| D) равна 2/(//1:Я2) = 2 Щ Хцш^1-ВЖ— (3.14) 1 = 1 /=.1 β—1 с d(r—\){c — 1) степенями свободы асимптотического х2-распреде- ления при справедливости нулевой гипотезы об условной независи- мости.
180 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 Таблица 3.4 Компонента информации С. С. Строки, Н2 (R | k) Столбца, Н2 (С | k) p-jklp^k—x-jklx-k Условной независимости H,{{R\k)x (C\k)) 2 У ^.*l°g т^А г L· in *x..k(Pi-klP-k) с 2 У x.jklog /±& г- JL J* *x..k(p-/hlP"k) г с 2 У У Xitklog ^ L· L· ljn *Xi.kX*jklx~k i = l /==1 г —1 с — 1 (г-1)Х X (с— 1) Итог, 2/ ((/?)*: (р)) Xjjk 2d L· Xijk og x..k(Pi-klp»a (p-jhlp-k) re —1 3.5. Дальнейший анализ - Компонента //2 (R χ CD) в табл. 3.3 [лежащая в основе проверки гипотезы о независимости признаков (строка) и (столбец, глубина)] разложена в табл. 3.5 на аддитивные компоненты. Это отражает тот факт, чго H*(RXCD)^H*((R\D)X(C\D))f)H2(RXD), т. е. признаки (строка) и (столбец, глубина) независимы тогда и только тогда, когда признаки строки и столбца условно независимы при данном признаке глубины, а признаки строки и глубины независимы потому, что piJk=Pi.kp.fk/p~k и Pi-k=Pi~P.-k влечет Λ/Λ=ρ,-..ρ./Λ; с a Pi/k =Pi"P-jk влечет J] Pijk=Pi-k=Pi"P»k или Pijk=Pi-kP4k/p~k- Отметим, что свойство выпуклости (см. раздел 3 гл. 2) гарантирует, что компонента /f2 (R X D) является минимумом величины компоненты Hz(RXCD) для данной группировки. (См. пример 12.3 и задачу 8.31 гл. 12.) Если же гипотеза об условной независимости относится к другим комбинациям признаков, то следует аналогичный анализ. Детали оставляем читателю.
ОДНОРОДНОСТЬ ТАБЛИЦ С ДВУМЯ ВХОДАМИ 181 Таблица 3.5 Компонента информации Строка X глубина Н2 (/? X D) (Строка, глубина) χ χ (столбец, глубина) /М(/?|Я)Х(С|Я)) Строка X (столбец, глубина) H2(RXCD) i = \ /=1 k=\ χ / л · · k i=l /=1 ft=l ' с. с. (r —l)(rf —1) rf(r-l)(c-l) (r-l)(flrf-l) 4. ОДНОРОДНОСТЬ ТАБЛИЦ С ДВУМЯ ВХОДАМИ Мы можем рассматривать г независимых с χ d таблиц выборок как трехфакторную таблицу г X с χ d с соответствующими гипотезами и ограничениями. Предположим, мы хотим проверить нулевую гипотезу об однородности г выборочных таблиц с χ d при условии, что фиксирован объем каждой с χ d таблицы. В обозначениях для трехфакторных таблиц наши гипотезы есть [ср. (6.1) гл. 6] с d H*-Pijh=P'/h 1=Ъ 2> •--tj* j=h 2> ···» ^ (4Л) k = l9 2, ...,d, 2 2p./ft = l. Анализ, приведенный в табл. 4.1, получен из анализа, данного в табл. 6.1 главы 6 для основной задачи об однородности г выборок из полиномиальных популяций с cd категориями. Если нулевая гипотеза //2 из (4.1) верна, то степени свободы в табл. 4.1 совпадают со степенями свободы асимптотического х2-рас- пределения. Заметим, что компонента «ошибки» (или «в пределах», или «однородности») в табл. 4.1 есть минимум значений «итога» по с d различным наборам p.jk, 2 2^·/*=1 приданной с χ d суммарной таблице, т. е. по популяциям семейства, соответствующего гипотезе //* а по свойству выпуклости (см. раздел 3 гл. 2) «итог» не меньше,
182 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ. 8 чем компонента «между». Как можно было ожидать, анализ в табл. 4.1 связан с анализом в табл. 3.2 для гипотезы о независимости признака строки от других двух признаков. Действительно, «итог» табл. 4.1 равен разности «итога» и компоненты «строки» табл. 3.2, компонента «между» табл. 4.1 есть компонента («столбец, глубина») табл. 3.2, а компонента «в пределах» (или «однородности») в табл. 4.1 есть компонента «независимости» табл. 3.2. (См. задачу 13.10.) Таблица 4.1 Компонента информации p./ft = *./*/// (между) Ошибки, 21(Н1:Н2) (в пределах, однородности) Итог, 2/((/?)*:(/?)) /—1 Λ«1 J ί = 1 /—1 Λ = 1 J с. с. cd—l (r-l)(cd-l) r(cd — l) 5. УСЛОВНАЯ ОДНОРОДНОСТЬ Предположим, что у нас есть г выборок раздела 4, и для некоторой фиксированной категории (скажем, /-й) признака столбца мы хотим проверить гипотезу об однородности выборок по признаку глубины. Рассуждения здесь аналогичны рассуждениям в разделе 6.1 главы 6 по поводу основной задачи об однородности г выборок. Продолжим ее рассмотрение в обозначениях для трехфакторных таблиц сопряженности признаков. Мы хотим проверить гипотезы: d Hi:pijk^p.jk> ^Pijk=Pij·' i=h % ...» г, H*'Pijk=P'jk> ί=1, 2, ..., r, k=l, 2, ..., d, (5.1) d Σρ-»=ρ-/- Анализ, предлагаемый в табл. 5.1, получен из анализа, данного в табл. 6.1 главы 6.
ОДНОРОДНОСТЬ 183 Таблица 5.1 Компонента информации С. С. (между) Ошибки, 21 (Ht: Н2) (в пределах) а 2 У л:./*log ^т . г d d — l (r-l)(rf_l) /· d Итог, 2/((/>)* :(Ρ» '12"^^кт> i=\ k=\ r(d-\) Если //2 из (5.1) справедлива для всех у, т. е. если выборки условно однородны по признаку глубины при данном признаке столбца, то соответствующий анализ получится из анализа, данного в табл. 5.1 суммированием компонент информации по/=1, 2, ..., с и умножением числа степеней свободы на с. В частности, компонента информации В ПОЛЬЗУ УСЛОВНОЙ ОДНОРОДНОСТИ Pijk/Pij.—p.jh/p.j., i—U 2,. . ., Г, У=1, 2, ..., с, k=], 2, ..., d есть 2/№:Wa) = 22 2 2%logl^ i = l/«=lfe=l jk)l* V" (5.2) с с (г— \){d— 1) степенями свободы для асимптотического /^распределения при справедливости нулевой гипотезы об условной однородности. Отметим, что 2/ (Нг: Я2) в (5.2) аналогична компоненте Я2 ((R \ С) X X(D|C)), лежащей в основе критерия проверки нулевой гипотезы об условной независимости (ср. табл. 3.5). 6. ОДНОРОДНОСТЬ Компонента «однородности» табл. 4.1 разложена в табл. 6.1 на аддитивные составляющие. (Ср. табл. 3.5.) Анализ, приведенный в табл. 6.1, отображает тот факт, что (С, D)- однородность ;=± условная однородность^/) | С) (~\ (С)-однородность, т· е. что двуфакторные таблицы (столбец, глубина) являются однородными тогда и только тогда, когда они условно однородны по признаку глубины при данном признаке столбца и одновременно одно-
184 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 родны по признаку столбца, так как Pijk/Pij- =p.jk/p-j·* * = 1> % ·.., г, /=1, 2, ..., г, А=1, 2, ..., d, и Pij.==p.j. влечет Pijk=p.j^ ί=1, 2, ..., г, /=1, 2, ..., г, /г=1, 2, ..., d; pijb=p.jto Z=if 2, ..., г, у=1, 2, ..., г, A=l, 2, ..., й влечет ft/.=p.y., ί=1, 2, ..., г, /=1, 2, ..., с, и Pijk/pij'=P-jk/P-j· Свойство выпуклости гарантирует, что компонента «(Q-однородности» является минимумом значения компоненты «(С, ^-однородности» для данной группировки (см. примеры 12.2 и 12.4). Таблица 6.1 Компонента информации С. С. (С)-однородность Условная однородность-^ | С) «2 2*»*^ i =s 1 /= 1 к ε= 1 (г —1)(с—1) |c(r —l)(d —1) (С, £)-однород- ность red 22 2Σ*^£^ (r-l)H-l) t^iy^l fe=l 7. ВЗАИМОДЕЙСТВИЕ Так как компонента «информации» в табл. 6.1, обусловленная отклонением от условной однородности, — вогнутая функция (см. раздел 3 гл. 2), то red г d i = ly—1/г = 1 у. . t = 1 /г= 1 7 - 1 ]=\ ' (7.1) причем равенство в (7.1) достигается тогда и только тогда, когда (ср. пример 3.2 гл. 2) 4}к_ ximk Xjj-X^jk XjmmX*mk 1=1, 2, ..., r, k=h 2, ..., й, у, m=l, 2, ..., с.
ВЗАИМОДЕЙСТВИЕ 185 Следовательно, мы можем разложить компоненту «условной од- ооодности» табл. 6.1 на две аддитивные компоненты, как показано с в табл. 7.1, с yi.k=1 Zi Xij.x.jklx*j·· d r Отметим, что yt..= У yhk — xi» и чт0 ^»*= Σ J'i·^··*· (См. пример 12.4.) Анализ, приведенный в табл. 7.1, отражает тот фаКТ, ЧТО /?;.*: . у Pij-P-jk Pijkz Pi-kPij-P-jk влечет нуле- ВуЮ ГИПОТезу Об УСЛОВНОЙ ОДНОРОДНОСТИ Pijkfptj. =:p.jk/p.j.; a Pijk/Pij. = с =P-jklp.j· влечет Pi.k= J ^ff^ и P'V* Pi-kPij-P-jk (l^h- Сте- /=ι пени свободы в табл. 7.1 являются при справедливости нулевой гипотезы об условной однородности степенями свободы асимптотического Х*-распределения. [Ср. Рой и Кастенбаум (1956).| Таблица 7.1 Компонента информации (RD) -взаимодействия (RD, С)-взаи мо- действия Условной однородности-^ | С) ί =1 *=1 о Τ у V ,. ,0„ хт * Ζ Ζ ZXl>k]°gXi.kX,j.X.jk 2 2 22**'°^ с. с. (r_l)(rf_l) (r-l)(c-l)x X (d- 1) с(г-1)(й-1)
186 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 8. ОТРИЦАТЕЛЬНОЕ ВЗАИМОДЕЙСТВИЕ Компонента «условной однородности» табл. 7.1 можег быть также разложена алгебраически, как показано в табл. 8.1. Однако компонента «(Ц)-однородности» не обязательно меньше компоненты «условной однородности». Следовательно, взаимодействие компонент в табл. 8.1 может быть отрицательно. Это замечание проиллюстрировано в примере 12.4. Обратное проиллюстрировано в примере 12.2. Отметим, что если х^.==х^.х^·., т. е. если компонента «(С, ^-однородности» совпадает с компонентой «условной однородности-(£)|С)>>, с то yhk=/ Xij-X'jk =x.mmx„kJi\l и компонента «(/?£))-взаимодейст- /=ι 3 вия» табл. 7.1 переходит в компоненту <<(£))-однородности» табл. 8.1, а компонента «(/?Д С)-взаимодействия» табл. 7.1 переходит в компоненту «/^CD-взаимодейсгвия» табл. 8.1.[Ср.Мак-Гилл (1954, стр. 108), Сакагути (19576, стр. 26).] Таблица 8.1 Компонента информации (/^-однородности ^CD-взаимодействия г d red L· L· Zi Xifk °gNxjj.Xj.bx7j f = l /=1 A=l *\t m m *\ · /· */* · · Ъ Условной однородности- (о I с) ЛГ.д Jt 9. РАЗБИЕНИЯ Компонента «независимости» в табл. 2.1 может быть разложена на составляющие, зависящие от разбиений г X с таблиц сопряженности признаков [см. Ирвин (1949), Кимбалл (1954), Кохрэн (1954), Ланкастер (1949)]. Разбиения соответствуют возможной зависимости между подмножествами значений признаков строки и столбца. Смотрите раздел 3.6 главы 12 по поводу аналогичной проблемы в случае многомерной нормальной популяции. Предположим, например, что мы разбиваем двуфакторпую таблицу сопряженности признаков на четыре
щ РАЗБИЕНИЯ 18', части посредством группировки с ι рок в два множества по гх и г строк, соответственно /Ί -}- г2 = г, а столбцов в два множества по с и с% столбцов, соответственно c1~\-c<i=:c. Введем дополнительные обозначения: Ναρ — ΣΣχίρ α=1=β Для ί=1, 2, ..., г^ у= 1, 2, ..., ^, α = 2 = β для i==rl'^-ly ..., ίΊ + r* 7 = ^+1, ..., Г! + С2, Χ£. ^j Xip ·#·/—'■ 2^j Xij> Xi· Xi· ~\ xi· > X>j—X.j ~j~ X*p 4.= ^«i + AU N.p = Mp + Mpf a=l, 2, β=1, 2, N=N„ + ^„+N„ + ^ = ^. + ^. = ^1 + ^^ Составляющими анализа будут: анализ четырех подтаблиц сопряженности признаков, анализ пар суммарных строк подтаблиц, анализ пар суммарных столбцов подтаблиц и анализ суммарной 2 χ 2 таблицы, полученной в результате разбиения. Анализ, приведенный в табл. 9.1, получается непосредственным образом из свойств логарифма при использовании введенных обозначений. Степени свободы являются степенями свободы асимптотического ха-распределения при справедливости нулевой гипотезы #2 из (2.1). Та же самая процедура применима к любому разбиению первоначальной таблицы сопряженности признаков на нодтаблицы, которое получается или ab initio, или путем дальнейшего разбиения подтаблиц. Эта процедура применяется, когда есть основания для проверки возможной зависимости между подмножеством значений признака строки и подмножеством значений признака столбца, после получения значимо большой величины компоненты «независимости» в табл. 2.1. Аналогично разбиение трехфакторных таблиц сопряженности признаков и таблиц более высоких порядков ведет к анализу компонент «независимости». Так, компонента «независимости» в табл. 3.1 может быть разложена дальше в добавление к анализу табл. 3.3. Давайте, например, разобьем трехфакторную таблицу сопряженности признаков на восемь частей посредством группировки строк в два множества По гъ т<ь строк, соответственно г4 —|- г2 = г, столбцов в два множества по сь с<ь столбцов, соответственно ct -|- с2 = с, глубин в Два множества по db d2 глубин, соответственно dx ~f- d2 = d. Введем
188 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [Гл^ 8 Таблица 9.1 Компонента информации С. С. Разбиение итога Разбиение суммарного столбца Разбиение суммарного столбца Разбиение суммарной строки Разбиение суммарной строки Подтаблица Подтаблица Подтаблица Подтаблица 2 2 2 Σ H^Arrf + ^^iV1^) VI / N..x\\ N..xV\ Γΐ + Γ2 C1 + C2 Г1 + Г2 Ci /•1 C1+C2 > Σ Σ **·%% 2 \ У χ \ocNllXiJ 2 L Lx,jlogxY.x\) Cg — 1 ci-l Γι-1 (r,—l)(*-l) (r,-1)^-1) (r,-l)(c.-l) (ft-Ofa-l) Независимости, Я2 (Я X С) 2/(Я,: Я2) (г — 1)(с — О
РАЗБИЕНИЯ Компонента информации Разбиение итога Два разбиения суммарной глубины для γ = = 1,2 и £=1,2, ..., dt для γ=1, k = d1~\~ + 1» ·■·» di~hd2 Для 7 = 2 Два разбиения суммарного столбца для β = = 1,2 и /=1,2, ..., сг для р=1, /=(?! +It ... , сг + с2 для β = 2 Два разбиения суммарной строки для а= 1,2 и *=1,2, ..., Г! для а==1, 1 = ^ + 1,·.., Г1 + Г2 ДЛЯ а = 2 Восемь трехфакторных подтаблиц для α, β, γ=1,2 с £= 1,2,..., гг для 0=1,1=^4-1,..., ri + ra для а = 2и т.д. Независимость ^(RxCxD) 2 2 2 '■212 α=1β = 1ϊ==1 N2Nt αβγ "•"'чтад. >Ш α б /г ^log Λ^..γ^| ■2ΣΣ κ Τ / ·*#7 log ί У k 11 g4^fx!l 189 Таблица 9.2 С. С. 8№- 1) 1) 8(c, —1) 8(c, —1) 8(r,-l) 8(r,—1) r^d,—r,—c, —«ί,- Γ^Α—r,—c,—d2- Γι^ι — Γι — c2 — ^i - r2Cjd, — ra — c, — rf, - Γ2^Μ2 ^ 2 ^1 ^2 ~~r~ Y$C?U\ Γ2 —- С2 «J Г2^2^2 ^2 ^2 "2 22Σ2 ^i/ftlog ΑΡ*ϋ» ΛΓj··Λ . ί. X,m fc rcd- -d + 2
190 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 дополнительные обозначения Κβ1 = ΣΣΣ^> α = β = γ=1 для ί= 1, 2, ..., rh j=\, 2, ..., clt k=l, % ..., db α = β = γ = 2 для i = ^ + 1, ..., rt + r* j = ct+l, ..., ^-f c%t *$?=ΣΣ*ν*> *$=ΣΣ*ν*> *Ά=ΣΣ*ν* j к г k i j ^::=ΣΣ^ κ%=ΣΣ^> *::ΐ=ΣΣ^Χ β γ α γ α β Ν-=ΣΣΝν> Ν;·=ΣΣΝ^ ^=ΣΣν β γ α γ α β Α/=ΣΣΣ^=Σ^--Σ^.β.=Σ^ α ρ γ α Ρ γ Анализ состоит из анализа восьми трехфакгорных таблиц сопряженности признаков, анализа пар множеств, состоящих из суммарных строк, столбцов и глубин подтаблиц с четырьмя элементами в множестве и анализа суммарной 2 X 2 X 2 таблицы. Анализ, приведенный в табл. 9.2, получается непосредственным образом из свойств логарифма при использовании введенных обозначений. Процедура разбиения может быть применена, конечно, к яюбой под- таблице, но подробный анализ мы оставляем читателю. Степени свободы совпадают со степенями свободы асимптотического х2-распределения в случае, когда нулевая гипотеза о независимости Н2 из (3.1) верна. В случае табл. 9.1 и 9.2 мы оставляем читателю оценку соответствующих расхождений, а также выражение компонент в терминах вида η log n для удобства вычислений. (См. задачу 8.26 гл. 12 по поводу аналогичной проблемы в случае многомерной нормальной выборки.) 10. ПАРАМЕТРИЧЕСКИЙ СЛУЧАЙ Предположим, что в табл. 3.1 /?,-.., £—1, 2, ..., г, — известные функции независимых параметров аъ а2, ..., ат, т<^г9 /?ν·„ / = = 1, 2,..., с7 — известные функции независимых параметров рь β2,..., βΛ, п<^с, p„k, k—1, 2, ..., d, — известные функции независимых параметров fh γ2, ..., γ5, s<^d. Мы «подгоняем» таблицу сопряженности признаков с помощью оценок (определенных посредством некоторой процедуры) аь ..., ат9 βυ ..., βΛ, γ1? ..., γ5 для аа, β^, γ^, полагая
ιοί параметрический случаи 191 Таблица ЮЛ Компонента информации С. С. Между pi.. = xl..IN и pi. Между p.j.= x.j.lN и p.j. Между Независимости H2(RXCXD) 2/ (Я!: Я2) £=1 с 22^log^ JU L· L·* J ъ Xi„x.j.x..k r—m — 1 с — η — 1 d— s— 1 red— r—c— rf + 2 2/(a, ft 7) P.. p.y. p..Λ г с if Σ Σ Σ *^τΛ £=1/«1Λ=1 г Ш У ft., log^- j-P-k г=-Л с 2Ν χ p.j. iog^ /«ι d 2Nl?~»^9frk k^\ red—m—η—s—1 m Итог, 2/((p)*:(p)) red *iii*^^m^ i^I/=l k=\ rcd—\ P,\.=Pi..(&ъ ..., am), /==1, 2, ..., r; p.j. = p.j. Φι, ..·> Р^)»У=Ь 2, ..., с; /?../г =^..Α(γ„ ..., γ5), Λ=1, 2, ..., d;
192 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 Если /?,·.., p.j.y р..ку или α, β, γ таковы, что тождественно ποαα, β6, fg ϊ = 1 /=1 J k = \ мы получим дальнейший анализ табл. 3.1, приводимый в табл. 10.1. Очевидным образом (ср. (4.8)—-(4.11) гл. 6) из (ЮЛ) следует, что art, β г» Τ§· являются решениями системы ci Xi..dpi. с 2 if 2 ЛГ.у. р. у. /?.·Λ &ig α=1, 2, ..., /и, b=l, 2, ..., л, (10.2) 0, g=l, 2, ..., 5. Это уравнения максимума правдоподобия для нахождения оценок аа> βδ> 7# или значений, минимизирующих «итог» в табл. 3.1. Мы оставляем читателю оценивать расхождения, а также выражать компоненты в терминах вида η log n для удобства вычислений. Степени свободы есть степени свободы асимптотического ^-распределения, если верна нулевая гипотеза //2 из (3.1) о независимости; pimmf p.j.f p..k понимаются как функции αβ, β^, γ^ соответственно. (См. задачу 13.12.) И. СИММЕТРИЯ Для двуфакторных таблиц сопряженности признаков с одинаковым числом строк и столбцов может представлять интерес проверка гипотезы о симметрии Нъ т. е. гипотезы о том, что события, расположенные симметрично относительно главной диагонали, имеют одинаковые вероятности появления [см. Боукер (1948)]: Hi-Pij^Pjb *=Ь 2, ..., су 7=1, 2, ..., су 1ф}у по крайней мере для одной пары (/, 7), (11.1) H*-Pij=Pjr Для сопряженного распределения (см. раздел 3 гл. 6), с наилучшими несмещенными выборочными оценками в качестве параметров получим с с
Π] Диагональные члены Xij-jrXji РЧ— 2 N Симметрии, 2i(Ht:H,) Итог, 2? (/?*:/?) симметрия 193 Таблица 11.1 Компонента информации 1 L· L· Xi} °g Xn+Xji *Φί J J с с с. с. с—1 с(с-1) 2 с(с-1) 2 с2 —1 Нулевая гипотеза //2 из (ПЛ) обычно не уточняет значений pijy 1=1, 2, ..., с, у=1, 2, ..., с. В табл. ПЛ /(/?*:/?) из (11.2) разложена на несколько аддитивных компонент. Степени свободы совпадают со степенями свободы асимптотического х2-распределения, если нулевая гипотеза //2 о симметрии верна. Свойство выпуклости (см. раздел 3 гл. 2) гарантирует, что компонента, обусловленная Pip — минимум величины «итога» для симметричной группировки, компонента «симметрии» есть сумма всех, кроме диагональных, членов «итога» с pij вместо pij. Для удобства вычислений с помощью таблиц η log n компонента «симметрии» в табл. ПЛ может быть представлена в виде ΐφ! ~ ΣΣ C*V + Χμ) log (xif + Χμ) + (log 2) ^Σ XV (! l-3> *</ ΙΦΙ Расхождения не допускают подобного аддитивного анализа (с такими оценками), но оценкой расхождения, соответствующей компоненте «симметрии» в (11.3), будет ίφί ίφ] Xij~\~xji (11.4)
194 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 Если нулевая гипотеза //2 из (11.1) (события в клешах, расположенных симметрично относительно главной диагонали, имеют одинаковые вероятности появления) верна, то 2/(7^: //2) и J(Hiy 7/2) асимптотически распределены как χ2 с с (с—1)/2 степенями свободы. С помощью аппроксимации, использованной в (4.5) и (4.6) главы б, получим 2/<".:Н»~21'!йЗ?=** ("·5) Если Pij=Pji, /==1, 2, ... , с, j=h 2, ... , <?, i^y, то частные распределения признаков строки и столбца совпадают, т. е. Pu=Pi\+Pi* + -"+Pb=P.i=Pii+P# + --+P& *=1> 2, ... ,<\ Более слабая гипотеза о равенстве частных распределений также интересна, особенно при отсутствии симметрии. По поводу проверки более слабой гипотезы см. Стюарт (1955а) и раздел 7 главы 12. 12. ПРИМЕРЫ Π ρ и м е ρ 12.1. В качестве примера проверки симметрии рассмотрим данные табл. 12.1 о дальности зрения невооруженного глаза для 3242 человек в возрасте 30—39 лет [взятые у Стюарта (1953, стр. 109)]. Из (11.3) и таблиц η log n находим 2 2**7 log *£/== 4622,580, £ ]g С*у+*д) log C*y+*Ji) =5322,353, Ίφ} ί</ ΣΣ·*4/=1013' Ю13 log 2 = 702,158 и 2/ (tfx: tf2) = 4,770, Ιφ! Таблица 12.1 Классификация 3242 человек 30—39-летнего возраста по дальности зрения невооруженного глаза ^ч. Левый ^ч. глаз Правый ^ч. глаз \^ 1 2 3 4 Итог I 821 116 72 43 1052 2 112 494 151 34 791 3 85 145 583 106 919 4 35 27 87 331 480 Итог 1053 782 893 514 3242
12] ПРИМЕРЫ 195 что, как значение у3 с б степенями свободы, не значимо. Следовательно, мы'принимаем нулевую гипотезу о симметрии зрения левого и правого глаз для популяции, из которой был произведен выбор. Пример 12.2. Данные в табл. 12.2 представляют собой число принятых деталей Ρ и число забракованных деталей F, в соответствии с двумя критериями Tti T2 проверки некоторой продукции, произведенной фабриками А, В, С, D. Для критериев в качестве признака строки, фабрик в качестве признака столбца и результата проверки в качестве признака глубины находим 2 4 2 2 4 Σ Σ ΣχΦΐ0ζχ№^2*93>*19> Σ Σ**/·1^*'/—3215*410· ί=1 У=1 Λ=1 ί = 1/=1 2 2 4 2 Σ Σ*'·*1°8·*ί·*=3829'547' Σ Σχ-*ι°ζχ-ρ=&ιβ,*?ο, 2 4 ^ *ί» log Xf.. = 4158,008, 2 ■*■/■ loSXml· = 3701,858, 2 Σ ^.ft log .v..ft = 4317,737, TV log TV = 4646,210. Эти значения и анализ, данный в табл. 6.1, приводят к табл. 12.3 для проверки однородности результатов и фабрик относительно критериев проверки деталей. Так как 5% значения у2 для 3, 4, 7 степеней свободы равны соответственно 7,81; 9,49; 14,07, то мы принимаем нулевую гипотезу о том, что результаты для различных фабрик относительно критериев проверки однородны. Табл. 12.4 дает иллюстрацию табл. 8.1. Ввиду значений табл. 12.4 мы можем принять нулевую гипотезу о том, что процент брака одинаков для обоих критериев проверки деталей. А В С D П Р 112 76 87 41 316 F 32 20 9 7 68 Итог 144 96 96 48 384 Та блица 12.2 п Ρ 84 86 58 40 268 F 24 10 14 8 56 Итог 108 96 72 48 324 Пример 12.3. В табл. 12.5 124 бракованные детали, использованные в табл. 12.2, расклассифицированы еще и по дефектам Dlf D2. Для 4 X 2 χ 2 табл. 12.5(a) мы проверяем гипотезы из (3.1) с 1 = А, В, С, D, ]=Ти 7\>, Λ = /λ. Л„ т. е. нулевую гипотезу о независимости фабрик, критериев k = Du D
196 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ. S проверки деталей и дефектов. На основании данных находим 4 2 2 4 2 Σ Σ Σ Xijkl°gXifk = 280,642, 2 Σ XiJ-bgXif- = 357,097, 4 2 2 2 Ц 2 ^..ftlog^.fe = 359,061, 2 Σ ^//Hog.*./* ==429,705, 4 2 *,·.. log *f.. = 440,193, 2 2 -«..ftlog*..* = 512,023, /«I fc=l 2 *./. = 512,347, JVlogW= 597,715. Эти значения и анализ, данный в табл. 3.3, приводят к табл. 12.6. Таблица 12.3 Компонента информации Однородность фабрик Условная однородность результатов для данной фабрики Однородность (результат, фабрика) 3,508 7,594 11,102 с. с. 3 4 7 Так как 5% значения χ2 для 1, 9, 10 степеней свободы равны 3,84, 16,92, 18,31 соответственно, а 1% значения равны 6,63, 21,67, 23,21, то мы отвергаем гипотезу о независимости между критерием проверки и дефектом и, разумеется, о независимости трех факторов, и в дальнейшем изучаем гипотезу о независимости между фабрикой и парой (критерий проверки, дефект). Таблица 12.4 Компонента информации Однородность результатов Взаимодействие: критерий, результат, фабрика Условная однородность результатов для данной фабрики 0,024 7,570 7,594 С. С. 1 3 4 Анализ условной независимости табл. 3.5, примененный к компоненте И2 (фабрика х (критерий проверки, дефект)) в табл. 12.6, в результате дает табл. 12.7 и 12.8.
12| ПРИМЕРЫ 197 Таблица 12.5 А В С D /Л о2 Οι D2 Dt D2 Dx D2 Л 24 8 7 13 7 2 5 2 68 г. 11 13 2 8 7 7 3 5 56 *Двв=56 *В..=Э0 X г·. »===: ^" ^^=5=15 ЛГ= 124 1 \Dl \ds τ, 43 25 λτ-7· ==68 г8 23 33 *.г,.=5в ·*..£>, =66 x.-£)s=58 (б) (а) Таблица 12.6 Компонента информации Я2 (критерий χ дефект) #2 (фабрика X (критерий, дефект)) #2 (фабрика X критерий X дефект) 6,100 16,918 23,018 Таблиц Компонента информации #2 (фабрика χ критерий) Условная независимость фабрики и дефекта для данного критерия #2 (фабрика X (критерий, дефект)) 4,544 12,374 16,918 с. с. 1 9 10 а 12.7 с. с. 3 6 9 Так как 5% значения χ2 для 3 и 6 степеней свободы равны 7,81, 12,59 соответственно, а 1% значения равны 11,34, 16,81, то мы на основании табл. 12.6, 12.7, 12.8 заключаем, что фабрика и критерий независимы, но дефект и критерий, дефект и фабрика не независимы и что фабрика и дефект условно независимы при данном критерии проверки. Пример 12.4. В табл. 12.9, взятой у Кемпбелла, Снедекора и Симан- тона (1939, стр. 64) дано распределение 1397 комнатных мух по полу и
198 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ. Таблица 12.8 Компонента информации Н2 (фабрика χ дефект) Условная независимость фабрики и критерия при данном дефекте /Уа (фабрика X (критерий, дефект)) 9,120 7,798 16,918 С. С. 3 6 9 смертности в 12 последовательных испытаниях стандартного средства от насекомых [см. также Нортон (1945)]. Здесь рассматривается задача проверки однородности пола и результатов смертности по 12 последовательным испытаниям. Используя номер испытания в качестве признака строки, пол в качестве признака столбца, смертность в качестве признака глубины, находим 12 2 2 12 2 Σ Σ Σ */y7k log *iy7fc = 5118,828 Σ Σ *ί/. log *;/. = 5713,331, 12 2 2 2 Σ I>;.nog*;.* = 5766,322, £ £ x.jk\ogx.Jk = 8554,522, 12 2 Σ Xi- !og ^.. = 6652,973, ^ *.y. log *.y. = 9159,110, t = l /=1 2 2 a-..ft log *..* = 9215,809, TV log N = 10117,189. Эти значения и анализ, данный в табл. 6.1, приводят к табл. 12.10. Таблица 12.9 Смертность самок и самцов домашних мух в 12 последовательных испытаниях стандартного средства от насекомых Номер испытания 1 2 3 4 5 6 7 8 9 10 п 12 Число самцов выживших 17 14 19 21 9 21 19 15 20 15 12 12 194 1 погибших 40 44 1 42 33 39 38 40 32 35 29 19 29 240 1 сумма 57 58 61 54 48 59 59 47 55 44 31 41 614 1 | Число самок выживших 46 44 48 41 68 70 56 51 73 78 69 75 719 1 погибших 6 5 5 4 8 5 4 8 9 5 2 3 64 сумма 52 49 53 45 76 75 60 59 82 83 71 78 783 1 Полная сумма 109 107 114 99 124 134 119 106 1 137 1 127 102 119 1397 1 Сумма выживших 63 58 67 62 77 91 75 66 93 93 81 87 913 Сумма погибших 46 49 47 37 47 43 44 40 44 34 21 32 484
щ ПРИЗЕРЫ 199 Таблица 12.10 Компонента информации Однородность пола Условная однородность смертности для данного пола Самцы Самки Однородность (пол, смертность) Однородность смертности Условная однородность пола при данной смертности Выжившие Погибшие 36,874 20,170 8,906 11,264 57,044 29,458 27,586 21,340 6,246 С. С. 11 22 И 11 33 11 22 11 11 Кемпбелл, Снедекор и Симантон (1939), используя классический у2, нашли значения 8,6 и 10,5 соответственно при проверке условной однородности результатов смертности для самцов и для самок; 36,5—для однородности пола; 28,7—для однородности результатов смертности. Мы принимаем нулевую гипотезу об условной однородности результатов смертности при данном поле. Так как 1% значения χ2 для 11, 22, 33 степеней свободы соответственно равны 24,72, 40,29, приблизительно 55, то заключаем, что результаты смертности не однородны, результаты для данного пола не однородны и (пол, результаты смертности)—не однородны, хотя существует условная однородность смертности, когда дан пол, и однородность пола, когда дана смертность. Отметим, что компонента «однородности» результатов смертности больше компоненты «условной однородности» результатов смертности, когда дан пол, а также компонента «однородности пола» больше компоненты «условной однородности пола» при данной смертности, так что здесь анализ табл. 8.1 указывает на отрицательное взаимодействие компонент. Применяя анализ табл. 7.1, вычислим 2 у У Xi.kX.Jh^ ί=1( 2 12) ;.= 1) 2> и 2 Λ·* = 2 —^Ч ϊ=1.2 12,4 = 1,2, образуя табл. 12.11. Найдем также 12 2 12 2 Σ Σ xi-klogyi.к = 5762,541, J) J] *tf.log3>i/. = 5707,284. i<=\h=\ ;=1/ = 1 Анализ компоненты условной однородности табл. 7.1 в нашем случае приводит к табл. 12.12 и 12.13.
200 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ 1ГЛ. 8 Таблица 12.11 i 1 2 3 4 5 6 7 8 9 10 11 12 УЦ- J 1 53,30 54,84 55,02 45,28 57,15 56,65 54,12 48,73 57,94 49,27 35,43 46,25 2 55,70 52,16 58,98 53,72 66,85 77,35 64,88 57,27 79,06 77,73 66,57 72,75 Λ. k k 1 65,76 63,32 67,94 58,38 84,95 87,51 73,74 69,03 ί 92,68 90,12 74,99 84,58 2 43,24 43,68 46,06 40,62 39,05 46,49 45,26 36,97 44,32 36,88 27,01 34,42 Таблица 12.12 Компонента информации (Номер, смертность)-взаимодействие ((Номер, смертность), пол)-взаимодей- ствие Условная однородность смертности для данного пола 7,562 12,608 20,170 С. С. 11 И 22 Таблица 12.13 Компонента информации (Номер, пол)-взаимодействие ((Номер, пол) смертность-взаимодействие Условная однородность пола при данной смертности 12,094 15,492 27,586 С. С. И И 22 13. ЗАДАЧИ 13.1. Выясните, как связаны компоненты табл. 2.1 и табл. 6Л главы 6. 13.2. Получите эквивалент табл. 3.5 для нулевой гипотезы о независимости признаков «столбец» и «(строка, глубина)». 13.3. Оцените расхождения, соответствующие информационным компонентам табл. 9.1 и 9.2.
131 ЗАДАЧИ 201 13.4. Выразите информационные компоненты табл. 9.1 и 9.2 в терминах впда η log п. 13.5. Являются ли две совокупности данных в табл. 13.1 однородными? Таблица 13.1 Неуспех Успех Процесс А 68 450 в 38 413 Неуспех | Успех Процесс А 76 365 в 17 82 13.6. В табл. 13.2, заимствованной у Кохрэна (1954, табл. 8, стр. 442), дана классификация матерей учащихся Балтиморской школы, которые, по мнению учителей, являются «трудными» детьми, и матерей сравнительной контрольной группы учащихся, которые не являются «трудными». Для каждой матери было зарегистрировано, теряла ли она детей (например, мертворожденные) до рождения исследуемого ребенка. Данные расклассифицированы далее по порядку рождения в три класса. Сравнение есть часть исследования возможной связи между поведением учащихся и осложнениями в период беременности у их матерей. Анализируйте данные. Таблица 13.2 Число рождений 2 3—4 5+ Трудные потери были 20 26 27 73 потерь не было 82 41 22 145 сумма 102 67 49 218 Контрольные потери были 10 16 14 40 потерь не было 54 30 23 107 сумма 64 46 37 147 13.7. Табл. 13.3 [заимствованная у Бартлетта (1935, стр. 249), который ссылается на данные Хоблина и Палмера] получена в результате эксперимента, проведенного для исследования размножения сливовых деревьев корневыми отрезками. В каждом из четырех видов обработки было использовано 240 отрезков. Анализируйте данные. Таблица 13.3 Длина отрезка Длинные Короткие Сумма Прижившиеся время посадки сейчас 156 107 263 весной 84 31 115 сумма 240 138 378 Погибшие время посадки сейчас 84 133 217 весной 156 209 365 сумма 240 342 582
202 ТАБЛИЦЫ СОПРЯЖЕННОСТИ ПРИЗНАКОВ [ГЛ. 8 13.8. Используя анализ, приведенный в табл. 3.1, и свойства различающей информации, покажите, что если при N—+cot XijkjN —+pin.p.j.pm.k с вероятностью 1, то ^ψ-,^ . ^Ji - ^t Д·..-*/>!-., А/·-*Р·/·» А·*-* —►/?..& с вероятностью 1, г=1, 2, ... , г, /=1F 2, ... , с, й=1, 2, ... , if. (См. задачи 7.14 и 7.16 гл. 6.) 13.9. Используя анализ, приведенный в табл. 3.2, и свойства различающей информации, покажите, что если при TV-^oo, ΧφΙΝr-^-Pi-»p>jk c вероятностью 1, то ^р—^p.^/fef pi..-+pim.,p.jk-+p.jb с вероятностью 1, /=1, 2, ..., г, У = 1, 2, ... , с, k=\, 2, ... , ef. (См. задачу 13.8 и задачи 7.14 и 7.16 гл. 6.) 13.10. Броунли [см. Квастлер (1955, стр. 63)] дает данные, приведенные в табл. 13.4, о числе удобрительных барабанов двух различных типов на двух различных участках. Покажите, что (количество X тип) неоднородны Таблица 13.4 Количество «Плохой» Приемлемый Сумма Участок А тип барабана 1 72 420 492 11 48 180 228 сумма 120 600 720 Участок В тип барабана 1 18 480 498 11 42 720 762 сумма 60 1200 1260 по участкам (см. раздел 4) и, следовательно, участки не нужно объединять. (Броунли поднимает вопрос об объединении участков, так как «обычно предполагается, что объединение возможно, если взаимодействие второго порядка отсутствует» [он ссылается на Снедекора (1946].) Отсутствие взаимодействия второго порядка определялось как равенство отношений произведений диагональных членов. В приводимом случае взаимодействия второго порядка в этом смысле нет, так как 72 χ180_ 18X720 48 χ 420""42x480* 13.11. Используя анализ, приведенный в табл. 2.1, и свойства различающей информации, покажите, что если при N~+co, xulN—pij, Xi.jN—*/?£., x.j'N—>p.jC вероятностью 1, то 2/(HL: H2)IN~* 2/ (H1: H^jN с вероятностью 1, ί=1, 2, ... , r, y=I, 2, ... , с, где I(HL'.H^ дана в (2.2). (См. задачи 13.8 и 13.9.) 13.12. Используя анализ, приведенный в табл. 10.1, и свойства различающей информации, покажите, что если при TV—-oo, XifilN-+pimmp.j.p..k с вероятностью 1, то μι.. — рг.., р. у. — /?. у·., р.. k —- р.. к, Ν2Χφ/χι.. χ, j. χ.. и —+ -► 1, χι..jNpi.. —* 1, x.jJNp.j. —* 1, χ.,kjNp.:и —- 1 с вероятностью 1. С другой стороны, к какому заключению вы придете, если хш^~-*рпъ Xi»jN—> -Pi-, x.j'W-^p.j., x**k!N-+P~kt (См. задачи 13.8, 13.9 и 13.11.)
ГЛАВА 9 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ 1. ВВЕДЕНИЕ Мы продолжаем рассуждения предыдущих глав, особенно б, 7 и 8, но займемся теперь исследованием одной или большего числа выборок из многомерных нормальных популяций для проверки статистических гипотез. Прежде чем мы рассмотрим вопросы построения оценок, распределения статистик и проверки гипотез, будет полезно вывести в этой главе некоторые величины как параметры популяций. Будем использовать матричную запись и теорию. Матрицы обозначаются заглавным жирным шрифтом, например, А = (а^\ X1 = (xUj) и т. д., /=1,2, ..., т; j = 1, 2, ..., п. Однострочные или одностолбцовые матрицы (векторы) обозначаются строчным жирным шрифтом, например х' = (хьХъ..-9х*), μ!=(μιι, μι& ···> μΐρ) и τ- Д· (χ'— транспонированная одностолбцовая матрица хит. д.). Предположим, что мы имеем две ^-мерные нормальные популяции Ν(μ;, Σ,·) с однострочными матрицами (векторами) средних значений μ'£= (μ. b μί2, ..., μ;Λ), /= 1, 2, и ковариационными матрицами Σ,- = (airs)y i = 1, 2; r, s = 1, 2,..., k. Обозначая соответственные плотности популяций [ср. Андерсон (1958, стр. 17), Рой (1957, стр. 15)] А С**, *, .., *η)=|2πΣ\|ΐ/2 ехР ( - Υ (χ ~~~ μ^ Σ^ (χ — Р*>)' мы находим (см. задачу ЮЛ) log Jj(xi> χ2* ···> *k) 1 ]ησ I Да I __ 1 tr y-J /γ \ /γ γ f_ g 7и^7х2,..., *Λ) —¥log |гГГ ¥tr2j κχ-μι)(χ-μι) + + ^ίΓΣΐ(χ-μ2)(χ~μ2); (1.1) откуда получаем /(l:2)=J/l(Xl, ..., ^)log \{^i;['\% dxx...dxk = + 4-ίΓΣ-1(μ1-μ9)(μ1-μ30Γ> (1.2)
204 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [Гл. 9 Χ d*.... Λ** = \tt (Σ, - Σ2) (Σ~ί - 2Γ}) + +γ ίΓ(Σ-} + Σ-')(μ, -μ2)(μ, -μ,)'. (1.3) В предположении равенства ковариационных матриц обеих популяций Σι=Σ2 = Σ выражения (1.2) и (1.3) становятся соответственно равными 7(1:2; μ) = 1ΪΓ Σ~· (μ, - μ.2)(μ, - μ2)' = ~ ιγΣ"1 66' = = ^-ό'Σ-,δ, (1.4) ./(1,2; μ) = tr Σ1 (μί - μ2)(μ/ - μ2)' - 6' Σ"1 δ, (1.5) где δ = μ! — μ2. Расстояние Махаланобиса равно kt! Σ~! δ [Махала- нобис(193б)]. [См. раздел 3 гл. 1 и Андерсон (1958, стр. 135).] В предположении равенства средних значений обеих популяций μ{ = μ2, δ = μ! — μ2 = 0 (или центрирования величин их соответственными средними значениями), выражения (1.2) и (1.3) превращаются соответственно в /(1:2; Z) = |logjJj- + 4-tr211(Z-i-2ri) = 7(1,2; Σ) = i-tr(Σ, - Σ2)(Σ"> - Σ"}) = =|tr Σ,Σ-ι + ΙίίΣ^-Ι-Α. (1.7) Соответствующие значения для /(2: о = J л(*,,., xk) log ^ ;;;;**} dxt... dxh легко выводятся из соотношения /(1:2)-f-/(2:1) = J(l,2). Заметим, что значения средней различающей информации (1.2) и расхождения (1.3) выражаются суммой двух компонент, одна из которых обусловлена различием средних значений, другая — различием дисперсий и ковариаций. Для одномерных нормальных популяций k = 1 имеем
КОМПОНЕНТЫ ИНФОРМАЦИИ 205 формулы, соответствующие формулам (1.4) — (1.7): /п .о. „\_ 1 δ2 _ ! (μι—-fa)8 π *rt Д1.Л μ)- y-^r— γ ? > U-8J J(l,2; μ) =5-· <L9> /(l:2;c3) = |log^-4 + T|-> (U°> 2. КОМПОНЕНТЫ ИНФОРМАЦИИ Ввиду того, что /(1:2) и 7(1, 2) аддитивны для независимых случайных величин, мы имеем для случайной выборки Оп в η наблюдений /(1:2; Оп) = п1(1:2) и J(l, 2; On) = nJ(l, 2), где /(1:2) и J(l, 2) определяются формулами (1.2) и (1.3) соответственно. (См. разделы 2 и 5 гл. 2.) Средние значения, а также дисперсии и ковариации выборки Оп из многомерной нормальной популяции Ν(μ, Σ) распределены независимо. Средние значения распределены нормально Ν(μ,(1/η)Σ), а дисперсии и ковариации имеют распределение Уишарта. [См. Андерсон (1958, стр. 53, 154), Кендалл (1946, стр. 330 — 335), Рао (1952, стр. 66 — 74), Уилкс (1943, стр. 120, 226 — 233).] Так как средние распределены нормально, (1.2) и (1.3) дают /(1:2; «) = ^iog[|!| + ItrZ1(S-l-S-i) + |trS-iW, (2.1) J(i, 2; χ) = 1 Ιϊ(Σι~Σί)(Σ-1-Σ'1)+ \tr(S-l + S-»)66'.(2.2) Заметим, что обгем выборки появляется в (2.1) и (2.2) как множитель только в компонентах, обусловленных различием средних значений. Обозначая плотность распределения Уишарта ( 1 )km |S|C"- k - ')/» exp (_ 1 tr NSX-+ W(s»,.... ***) = Ш S — · K*(*-i)/4|S(iv/a п Г(ДГ+1_а)/2 а — 1 мы находим (см. задачу 10.5) /(1 :2; S)=^(lQg||j + trZI(S-i-S^), (2.4) J(l, 2; S) = f tr (Σ, - 2« (Si - 2Г»). (2.5)
206 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9 где S есть несмещенная оценка ковариационной матрицы и iV= η — 1 —~ число степеней свободы. Таким образом, мы видим из предыдущего и теорем 2.1 и 5.1 главы 2, что /(1:2; 0„) = л/(1:2) = /(1:2; х) + /(1:2; S) = /(l:2;x, S), (2.6) J(l, 2; On)-=/7J(l,2) = J(l,2;x) + J(l,2;S) = J(l,2;x,S). (2.7) В предположении, что ковариационные матрицы популяций различаются лишь величинами коэффициентов корреляции, т. е. S1 = D0P1D0, 23 = D0P2Da, где Ρχ и Р2 суть матрицы коэффициенгов корреляции и есть диагональная матрица стандартных отклонений, выражения (2.4) и (2.5) превращаются соответственно в /(1:2; S) = f (logj^+ trP^-P-»), (2.8) J(l, 2; S) = ftr(P1-P^(P^-P-|). (2.9) Теперь мы обратимся к проблеме нескольких выборок. Предположим, что мы имеем г независимых выборок, соответственно по nit «2,..., пг независимых наблюдений в каждой, причем n — tii-{-щ~\- -\-.>>-\-пг. Мы можем представить г выборок как одну большую выборку из популяций со средними значениями и ковариационными матрицами, заданными формулами (n-t обозначает число появлений соответствующих членов) μί = (μ*ι>...» μίβ··>.·> Щг-Л '=1> 2» (2Л0) щ ,/=1,2, (2.11) &' = μί-μί = (*ί,..., «..., ..., δ;...), (2.12) ni rtg tir β} = μί7 —μ2,.
2j КОМПОНЕНТЫ ИНФОРМАЦИИ 207 Исходя из предыдущего (или из свойства аддитивности), находим для г выборок: г /(1:2; Оп)=2Л(щ^+1гЪч(Ъ;}--Ът})+№}Ь;6?1,(2.Щ Г J(l, 2; Оп)= J Ц (ΐΓ(Σ1/-Σ2/)(Σ2/~2ΐ/) + + tr(Si/ + S2/)fiy6}), (2Л4) /(1 :2; Ort)= £ /(1:2; ху)+ Σ Ό :2'> S/)> ί2-*5) /-ι /=ι г 7 j(i. 2; α>= Σ ·ό> 2; χ/)+ Σ J(l> 2> SA (2Л6) 7= ι /=ι где /(1 :2; ху), /(1:2; Sy), J(l, 2; хД 7(1, 2; S;) представлены фор- мулами (2.1), (2.4), (2.2), (2.5) соответственно для у-й выборки. Если г выборок взяты из популяций с одинаковыми ковариационными матрицами Σ^ = Σ, ί=1, 2, /=1, 2,..., г, мы находим г /(1:2; Оп)= J /(1:2; ху) = \tr Σ~»(«Λ*ί + · · · + "AW = 7=1 где Σ* = n%bfi\ -f-... -j- nr6r6'r. [Ср. Хотеллинг (1951).] Если г выборок взяты из популяций с одинаковыми средними значениями (или величины центрированы своими соответственными средними), бу = 0, /=1, 2,..., г, мы находим 7=1 7=1 /(1:2;0„)=^ +^Σν(Σ2/-ΣΓ/)),(2.18) J(h 2; 0„)= J JV> 2; Sy)= ^^^(Σ^-Σ^ίΣ^-ΣΓΛί^ΙΘ) 7=1 7-1 гДе Afy есть число степеней свободы, соответствующее Sy. Г N,
208 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ 1ГЛ. 9 3. КАНОНИЧЕСКАЯ ФОРМА /(1:2) и J(\, 2) являются функциями параметров популяций при гипотезах Н\ и #2. Согласно следствию 4.1 главы 2 /(1:2) и J(l, 2) инвариантны относительно невырожденных преобразований случайных величин и, в частности, относительно невырожденных линейных преобразований. Существует важная связь между инвариантными свойствами и линейными дискриминантными функциями, и мы рассмотрим ее сейчас детально. (Это найдет свое отражение и в инвариантных свойствах последующих критериев.) Если случайная матрица χ подвергается невырожденному линейному преобразованию у = Ах, средние значения и ковариационная матрица J/-OB соответственно равны μy = Aμx, Яу = Α Σ А'. Если х-ы нормально распределены, то и у-й распределены нормально и (см. Андерсон (1958, стр. 19—27), задачи 10.5 и ЮЛО) /(1:2; y)=^iogJ^|^+|trAS1A4A^S-A-1-- — Α'"1 Σ"ί A"1) -f у tr A'"1 S-J Α"1 Aofi'A' = ^γ^^ + ^ίτΣ^-Ι-Σ'^+^ίτΣ-^δ^ηΐ^; χ), (3.1) j(l, 2; y) = i-tr(AS1A'-AS2AO(A'"!S^A-1-A'~1S-;A-1) + + -1 tr (Α'-1 Σ"ί Α"1 + Af-f Σ~1 A"1) Αόδ'Α' = = |ίΓ(Σ1-Σ3)(Σ--Σ-ί) + ^-ίΓ(Σ11 + Σ-;)δδ^ = 7(1, 2; χ). (3.2) Так как Σι и Σ2 положительно определены, существует действительная невырожденная матрица А такая, что [см. Андерсон (1958, стр. 337—341), Рао (1952, стр. 25—27), Феррар (1941, стр. 151 — 153)] ΑΣ!Α' = Λ, ΑΣ2Α' = 1, (3.3) где Λ—диагональная матрица с действительными и положительными элементами Хь λ2, ..., \ky a I — единичная матрица; в действительности, λ£ являются корнями характеристического уравнения ΙΪ! — λΣ2| = 0. (3.4) Матрица А в (3.3) задает линейное преобразование лг-ов такое, что у-ки независимы и имеют дисперсии Хь λ2, ..., \k при гипотезе Н% и единичные дисперсии при гипотезе //2. Полагая А' = (аъ аъ ..., щ) (т. е. однострочная матрица (вектор) а\ есть ί-я строка матрицы А),
4] линейные дискриминангиые функции 209 получаем из (3.3) и (3.4): oflZiai = Xi, αΓι·Σ2αί = 1, i=\, 2, ..., ky ό!ι Σι aj = 0, ari Σ2 α, = 0, i φ j, Σ1αί- = λ;Σ2αι·, г=1, 2, ..., £, |Σ12Γ11| = |Σ1|/|Σ,| = λ1λί,.>Λ. ίΓΣ1Σ-1 = λ1 + λ2 + ··· + λ^ 6'А' = (6'аь δ'α* ..., fi'aft). (3.5) В терминах характеристических корней \ и характеристических векторов щ имеем /(1:2)=-1юёХЛ..Л+4(Х1+^ + -"+Х*)-4 + + |[(«^ + ... + (а'й6Л = k =Σ τ [~,og λί+λί -χ+(<w]' (3·6) =i^+i-2+(i+1)(a^)2]· (3J) (См. разделы 5 и б гл. 3.) 4. ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ Правая часть выражения (1.1) есть оптимальная или достаточная дискриминантная функция для отнесения наблюдения к одной из двух многомерных нормальных популяций. Эта функция, вообще говоря, квадратичная. [Ср. Нейман и Пирсон (1933), Уэлч (1939).] Однако мы можем предпочесть иметь дело с одной или несколькими линейными Функциями из-за доставляемого ими удобства. Как найти наилучшую линейную функцию? Какие свойства линейных функций мы оптимизируем? Сначала мы займемся максимизацией различающей информации или расхождения для линейной функции. Более подробное обсуждение и применение будет приведено позже. Рассмотрим линейную дискриминантную функцию y = aixl-\-...~\-akxk = a'x, (4.1)
210 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9 где х-и принадлежат /е-мериым нормальным популяциям Λ/(μ;, Σ,-), i=\, 2. Линейная функция _у, следовательно, распределена нормально с параметрами АО0 = а>ь ^0) = α'μ» А (У) = «'Σι«, /39(у) = агЕаа. (4.2) Мы выясним, как определить α при некоторых предположениях относительно популяций. 5. СЛУЧАЙ РАВЕНСТВА КОВАРИАЦИОННЫХ МАТРИЦ Если Σ!=Σ9=Σ, то (1.4) и (1.5) дают 2/(l:2) = J(l, 2) = trS106', δ = μ1~μ2. (5.1) Для линейной дискриминантной функции у = агх 2/(1:2; y) = J(l, 2; у) = α' δδ' а/а' Σ а. (5.2) Значение а, при котором λ = а' 66' а/а' Σ а является максимальным, находится обычными способами дифференциального исчисления (см. задачи 10.2, 10.4) и удовлетворяет соотношению 66' α = λ Σ α, где λ есть наибольший корень уравнения [66' — λ Σ| = 0. В данном случае, так как 66' имеет ранг 1, существует только один ненулевой корень λ = δ'Σ~1δ = ίΓ Σ^δδ'. Линейная дискриминантная функция с Σα=δ или α=Σ_16 является достаточной, так как ог/1 о ч γ/ι о ч α'δδ'α δ' Σ1 δδ' ΣΤ1 δ 2/(l:2;j,) = J(1, 2;у) = -— = —т^ттг=; = δ'Σ 1δ = ίΓΣ-1δδ' = 2/(1:2) = /(1, 2). (5.3) Для г выборок из популяций с одинаковыми ковариационными матрицами, но различными средними значениями (2.17) есть 2/(1:2; 0„) = J(1, 2; 0„) = = tr Σ"1 Σ* = tr Σ'1 (Α*ΑδΊ + - - - + nrbrbrr). (5.4) Если мы намерены использовать ту же самую линейную дискриминаит- ную функцию у = а'х для всех выборок, то (5.4) дает для этой линейной дискриминантной функции выражение: 2/(1:2; Omy) = J(U 2; 0„, у) = nt (af bjb't α) Η~ - · + nr (α> &r&V «) _ <*' Σ* α (ЪК\ α'Σα α' Σ α ' \ ' > Значение α, при которОхМ величина λ = α'Σ* α/α'Σ α максимальна, удовлетворяет равенству Σ*α = λΣα, где λ есть наибольший корень уравнения |Σ* — λΣ| = 0. По определению Σ* ее ранг не больше чем г. Характеристическое уравнение имеет p^min(/e, г) ненулевых корней, обозначенных в порядке убывания как Хъ..., λρ. Каждому
6] ГЛАВНЫЕ КОМПОНЕНТЫ 211 корню λ; соогветствует одностолбцовая матрица (вектор) щ такая, что Σ* «,· = *£ Σα^ и линейная дискриминантная функция yi = a'ix. Так как tr Σ* Σ"1 — Xj-f X2 + ...-f λρ9 из (5.4) и (5.5) получаем = J(1, 2; Ода J>i) + */(l, 2; Om j/2) + ... + J(l, 2; Оде _у> (5.6) Различающая эффективность линейной дискриминантной функции у\ может быть измерена отношением Xt / (kv -\~... -[- λρ) или j(l, 2; От Ух)1 J(h 2; Оп); различающая эффективность пары линейных дискриминантных функций может быть измерена отношением (λ1 + λ2)/(λ1 + λ2 + ... + λρ) или [J(l, 2; 0„ yx) + J(l, 2; Оп, yu]fJ(l> 2; Оп) и т. д. (См. раздел 6 гл. 3.) Векторы α£·, соответствующие различным корням λί9 обладают тем свойством, что αϊ:Σ*α7· —0==αί:Σα/·, Ι Φ], и соответствующие линейные дискриминантные функции у-г независимы и имеют диагональные ковариационные матрицы из элементов αίΣα£. Будут существовать одно, два и т. д. различных значений λ,- и столько же различных линейных дискриминантных функций в соответствии с тем, будут ли средние значения популяций коллинеарны, компланарны и т. д. [Ср. Уильяме (1952, 1955).] 6. ГЛАВНЫЕ КОМПОНЕНТЫ В предположении, что /е-мерные нормальные популяции центрированы своими средними значениями или что 6 = 0, линейная дискриминантная функция у = αχ распределена нормально и Ei(y) — E.2(y) = Q, Dl(y)=a'Zla, А00 = «%а, (6Л) τ/ι η ч Ι ι α'Σ2α Ι . α'Σ,α ^m /(1:2;3,) = τ1ο6^-τ + ΊδΓ^, (6.2) τ/ι о. \ 1 α'Σι« ι 1 α'Σ2α ία ΟΛ /(1, 2; j;) = __^_-J-T-^__ 1. (6.3) Значение α, при котором /(1:2; у) максимально, удовлетворяет (это доказывается обычными методами дифференциального исчисления) равенству Σ!α = λΣ2α, (6.4) где λ есть корень характеристического уравнения \ΣΧ~ λΣ21 = 0, (6.5) все корни которого действительны и положительны. Обозначим эти корни в порядке возрастания λ^ λ2,...Xfe. Разыскивая α, для которого */(!> 2; у) максимально, мы приходим к тем же самым условиям
212 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ ГГЛ. 9 (6.4) и (6.5), как при максимизации /(1:2; у). Каждому корню \. соответствует вектор аг и линейная дискриминантная функция yt = = α,:χ. Таким образом, для линейной дискриминантной функции у£ мы имеем J(l:2; Λ)=_1ΐο8λι-1+-^1 (6.6) J(l, 2; y.)=^ + J--l> (6.7) и из (3.6) и (3.7) при 6 = 0 1(\:2) = 1(\:2; У1) + 1(1:2; у*) + ...+ 1(1:2; yk), (6-8) J(l, 2)=J(1, 2; Λ) + 7(1, 2; jtf + ... + J(l, 2; Λ)· (б·9) Мы определим значение λ,·, для которого величина (6.6) максимальна (линейная дискриминантная функция с наибольшей информацией), следующим образом. Так как функция g(K) = —^ log λ — 9*~Ь"9" Является вогнутой [см. задачу 8.31 (а) гл. 2], неотрицательной и равной нулю при λ=1, максимум выражения (6.6) имеет место при Xt или λΛ, если соответственно g(K)^>g(K) или g(^i)<^g(K)y т. е. если log^.>X,_X1 или log-£ <λ*-λι· (6-Ю) Мы определим значение λ£, при котором величина (6.7) максимальна (линейная дискриминантная функция с наибольшим расхождением), следующим образом. Так как функция /(λ) = (λ / 2) -\- (1 / 2λ) — 1, λ]]>0, является вогнутой [см. задачу 8.31 (а) гл. 2], неотрицательной, равной нулю при λ=1 и такой, что /(λ) =/(1 /λ), максимум выражения (6.7) имеет место при λγ или λΛ, если соответственно λιλΛ<* или >А>1. (6.11) Заметим, что линейные дискриминантные функции этого раздела определяют преобразование с матрицей А (см. раздел 3). «Наилучшая» линейная дискриминантная функция не обязательно соответствует наибольшему λ. В предположении, что Σ! = Ζ>σΡΖ>σ, Σ2 = DCDC (где Ρ есть матрица коэффициентов корреляции и Dc — диагональная матрица стандартных отклонений, ASiA'= Λ — ΑΖ>σΡΖ)σ Α' = ΒΡΒ' и ΑΣ2Α' = = I = AJ)C DCA' = ΒΒ', В = Ad)c — ортогональная матрица), уравнение (6.5) превращается в |Р — λΙ| = 0 и (6.4) превращается в ΡΖ>σα = = Waa или Ρβ = λβ, где β = Ζ)σα, т. е. В' = фь β»..β*) = Ζ>σΑ = = (Dcal9 Ζ>σα2,..., Dcak). Линейные дискриминантные функции уь Уъ--->Ук такие, что j/ = Bx, называются главными компонентами по Хотеллингу (1933) [ср. Андерсон (1958, стр. 272 — 279), Гиршик
ГЛАВНЫЕ КОМПОНЕНТЫ 213 61 (1936)]. Так как trΡ = λχ-[-...+ ^ = /г, то в данном случае (см. задачу 10.7) /(1:2)=—4*1с«1р1= — "2 log(l— pl»...ft)(l— Pa*..-*)·.. ...(ΐ-ρν^=-γ1οελι-τ1ο8λ»-···-τ10βλ*· (6Л2) rn 0ч — trP"* — * у ^»"MMnf+i)"»ft J (It *)— 2 2 2Zj1—p? . . ~ =τ+·"+-ΪΓ> (6ЛЗ) ГДе р/.12 · · · (i-l) (i+1) · · · fei ^ = Ь 2,. . ., &, p/.y+l. . . fg, j 1, 2,.. ., k — 1, являются множественными коэффициентами корреляции популяции при гипотезе Hl9 a Xf. — корнями уравнения |Р — λΙ| = 0. Заметим, что 7(1:2) в (6.12) есть мера взаимосвязи между k случайными величинами (см. замечание, относящееся к (3.3) гл. 8). Для двумерных популяций, в частности, имеем: -СО- 7(1: 2) = -1 log(1 - f), J(l, 2) = ^ ΙΡ — λΐ I == Xa — 2λ 4- 1 — ρ3 = О, Х1=1— ρ, λ,= 1-(-ρ, p>0, Vi==(~yY'~V¥~)'P*=[yT' γΤ)' Β== _ι 7 (1: 2; j,,) = -± log (1 - ρ) - (ρ/2), /(1:2; j,,)= -4->og(l+P) + (p/2), ^0» 25 JO = 20^5"' J(1'2'^) = -20iF?)· (6·21) Заметим, что при р^>0 линейной дискриминантной функцией с наибольшей информацией и наибольшим расхождением является функция Ух — (х1 — х^/У^у так как log [(1 + р)/(1 — р)]>2р и ХХХ2 = = 1— р9<1 [или см. (6.20) и (6.21)].
214 многомерные нормальные популяции [гл. g 7. КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ [Ср. Андерсон (1958, стр. 288 — 298).] В этом разделе мы хотим рассмотреть разбиение k величин на два множества: х' = (Хр х^), х^ = = (д:1, Хъ..чХк& K = (xki+V xki+*---yxkt+k2)· Проблема разбиения на большее число множеств рассматривается в задаче 10.13 и разделе 3.6 главы 12. Предположим, что популяции центрированы своими средними значениями или что 6 = 0 и что Σ,= Σ„ ^21 Σ« ;)· ^-(ο'ς!)· (7.1) где 2ц = (о//), i, j=l, 2..., kb ΣΜ = (σ„), r, s — kt-\-l,..., kx + kb^k, 4 212 = (ois), Σϋΐ=Σΐ3, т. е., иными словами, два множества независимы при гипотезе /ί2. Можно показать (Iftl — единичная матрица порядка kx и т. д.), что kl 0\/Σ„ ΣΜ\/Ι#1 -Σ7ί Σ: μτ^ϊκο- « /Σ„ -Σ21Σ7/ lJUu SJVO -Σ21Σ-ιΣ12. Поэтов Ι», -Σ-'Σ,ή/ΣΓί 0WI*. QN| iJlo Σ1-2.1Λ-ΣΜΣ7ί IJ где Σ22.1 = Σ22 — Σ21 Σ,,1 Σ12. Поэтому /^ιί -f- Σ,/ Σ]2 Σ221.! Σ2) Σ;/ — Σ~{ Σ12 Σ^.Λ \ — 2ggM Σ21 Σ"1 Σϊϊ1.,/ Заметим, что матрица I —Σ^Σπ1 Ik* J в (7.2) является матрицей невырожденного линейного преобразования и (7.2) означает, что при гипотезе Их величины хг и х2 — Σ21 2fi Χι независимы и имеют ковариационную матрицу, равную правой части (7.2) (см. раздел 3). Таким образом, мы имеем (см. задачи 10.6 и 10.11) /(l:2) = -±-log О Σ2 Σ1Α S12 + -!4fc(I;:I;:)[(¥^)-(I;;I;i-']=, 11 ^12 2a* 2SS |ϊ«.ι|· (7.4)
КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ 215 меру связи между множествами χ'ι и х\2, т. е. среднюю информацию в χ'ι относительно х'2 или же в х'2 относительно х\ (см. пример 4.3 гл. 1), и J(l, 2) = -2"tr [(s« s«y — (o"sJJ[( Α1 Σϊί) ~ Ua Συ) J = = tr Σ21 Χ"1 ΣΜ Σ^ = tr Σ22 Σ",1., - /e2, (7.5) где (·) обозначает матрицы, величины которых нам не понадобились. Чтобы подчеркнуть факт разбиения величин, запишем линейную дискриминантную функцию _у = а'х в форме у = $γΧχ -f- $klxki -f- ixxkt+i + ·.. + Tfti^Ai+fc* = β'χι + Υ'χ* (7·6) где β и γ являются соответственно одностолбцовыми матрицами из величин рь ..., pftl и ^ь ..., γ*2> причем α' = (β',γ'), x' = (x'i,x'a)· Теперь (6,4) и (6.5) принимают вид (I;±)(?Hfe°„)ffi («) И (I~s?2"n_2«sJ=0· (7·8) (7.9) 2si (1—λ) 228 Так как (7.7) эквивалентно Σιιβ+Σ«Υ = λΣ11β> Σ91β4-Σηγ = λΣ«γ9 или 0^-у^у Σ21 Σ"1 ΣΜγ + (1 -λ)Σ28γ, (7.10) (7.8) эквивалентно уравнению |Σ^Σι2-Ρ2Σ22Ι=0, (7.11) где р2 = (1—λ)2. Корни уравнения (7.8) [см. (6.5)] действительны и положительны. Если k^^kx и детерминант в уравнении (7.11) имеет п°рядок /е2, то Xf. = 1 — р£, λΛι+ί = 1 -f- р/гн-1-й / = 1, 2, . · ·, kb λΛ8+ι =.. . = ^ft2 +(ft1-fts)= 1, (7·12) Где pi .^ рз ^.. e ^ p^2. Заметим, что — 1 <; pf ^ 1, так как λ£ неотри- ательны. Хотеллинг (1936) назвал величины рг каноническими кор-
216 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [Гл. 9 реляциями. Для соответствующих линейных дискриминантных функций [см. (6.6) и (6.7)] мы теперь имеем: /О /О /О 2;л)=—2-108θ-Ρί)-τ-. 2;ykl+i)= _llog(l + Pfts+w) + -£№i, 1— ρ,- , 1 1 ef 1 Ιο2 J(l>2;^1+0 = T(1 + P*a+W)+ 2(1+Рйа+1_г) =2(1+;^·)' J(l>2;j/)=4" + 4"~1==0, *=1.2,..,Λ» ; = Λ,+ 1,..,Λβ + + (*ι —*Λ (7.14) откуда видно, что / (1:2-,Λ) + / 0 :2;^+ι-«) = — \ log (1 — р& г = 1,2,..„ А» J(l,2;^) + J(l,2;j;i+I_i) = T-^-r (7.15) и 7(1:2) = llog l^i^jL = -log(l-p?)(l-р^)...(1-pU JSgj Σ22] ^l,2) = trS22S-J-/e2 = T^+T^ + Так как log[(l+Pl)/(l — Pl)]>2Pl и λ^ = (1 — Ρι)(1 + Ρι) = = 1—pf <^ 1, то линейная дискриминантная функция с наибольшей информацией и наибольшим расхождением (7.6) соответствует корню \χ или наибольшей канонической корреляции. Заметим, что для двумерных популяций (/г = 2, /г1 = /г2=1) (7.11) превращается в (σ21 σ12/ση— Р2 σ22) = 0 (каноническая корреляция здесь — простая корреляция между случайными величинами) и [см. (6.15)] 7(l:2)=-^log(l-P2), Для /г-мерных популяций с kx = k—1, /г2=1, формула (7.11) дает каноническую корреляцию Р2 = Σ21 Σ~* Ъ^окк. Но в данном случае ^i = (<bi><***.-*°ft*-i) или P2=l — gJ^u| iCM* (7Л)1 и поэтому
g] КОВАРИАЦИОННЫЕ ВЕЛИЧИНЫ 217 каноническая корреляция является множественной корреляцией между хк и другими величинами [ср. Крамер (1946 а, стр. 109, 308)] и /(1: 2) = -^log(l-р1и2...(*_!)), 7(1,2) = -. р^;-»-Ц . (7.18) Вместо одиночной линейной дискриминантной функции мы можем рассмотреть пару линейных дискриминантных функций и = $ххх +... + fatXki = β'Χι, ό = Ъхкг +ι +... + 1k2XkL+k2 = Υx* (7.19) Мы имеем D;(в) = р'Σ„ρ, D,(ν)=γΣΜγ, /= 1,2, COV! (И, V) = β' Σ13 γ, COV2 (И, V) = 0, 7(1 :SU»)=4log |/2ypSgY(=- |log(l -pU |γ'Σ3ιβ ν'Σ88γ| 7 (1'2; °· ^ = (β' 2η β) (γ* 2„'γ) - (β' Σ„ γ)* = Τ=3£"' (7·20) Значения β и γ, которые максимизируют /(1:2; и, τ;) [или J(l,2; ιι,ν)] в (7.20), удовлетворяют равенствам (7.9), где (1 —λ)9 = ρϊ„. Канонические корреляции, таким образом, являются корреляциями пары линейных дискриминантных функций (7.19). Из (7.15) мы имеем I(\:2;ui9vi) = I(l:2;yi) + I(l:2;y4A-i), 1= 1, 2,. ..,/е2, J(l, 2;«,-,«!) = J(lf 2;^·) +J(l, 2;^+1_£). (7.21) Таким образом, различающая информация и расхождение для пар линейных дискриминантных функций определяют упорядочение соответственно значениям канонических корреляций. а ковариационные величины Две /е-мерные нормальные популяции с одинаковыми ковариационными матрицами могут различаться только средними значениями последних &2 величин. Первые /е — k^ = kx величин называются тогда ковариационными величинами, и мы сейчас найдем различающую информацию, получаемую при использовании ковариационных величин и сравним ее с различающей информацией, получаемой при использовании только последних k% величин [ср. Кохрэн и Блисс (1948)].
218 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГЛ. 9 Пусть имеется разбиение х' = (х'ь х'2), μ\ — μΓβ = 6Γ = (6,1,β'5) с Из (5.1) и (7.3) мы тогда имеем 2/(1:2;χ·)=Α1,2;χ·) = ^2Γ·ββΤ = ΐΓ@»|»)-,(^)(0βΤ1) = =tr 2£, 6,6'3 = 6'2 Σ-i, ft* (8.1) С другой стороны, трлько для последних k% величин 2/(1:2;хУ = 7(1э2;хУ = 1гЕм1Л4вГа = вГа282вй. (8.2) Так как 7(1:2; x'i)>/(l :2;х'2) (см. разделы 3 и 4 гл. 2), вклад ковариационных величин равен Λ^ί-Λ-Λ'^δ, (8.3) и коэффициент увеличения есть Og Д22 Og где λ лежит между наименьшим и наибольшим корнем характеристического уравнения |S#i ~ λ Σ22Ί = 0 = |Σ» — λ Ϊ22.ι|, (8.5) |ΣΜΣΓίΣΜ-ρ*ϊ5Β| = 0> (8.6) где ρ2 = (λ—1)/λ. Корни уравнения (8.6) являются каноническими корреляциями [см. (7.11)]; следовательно, наибольшее значение λ в (8.4) не может превышать 1/(1 — р^), где pj есть наибольшая каноническая корреляция. Теперь мы исследуем линейные дискриминантаые функции с учетом и без учета ковариационных величин. Так как ковариационные матрицы популяций равны, существует единственная достаточная линейная дискриминантная функция (см. раздел 5). Для всех k величин при разбиении коэффициентов линейной дискриминантной функции [см. (7.6)] α = Σ~1δ превращается [см. (7.3)] в Если ковариационные величины не учитываются, то коэффициенты линейной дискриминантной функции равны β=0, γ = ΣΜ'Αί. (8.8) Для двумерных популяций /г = 2, А1=:Л2=1 каноническая корреляция становится простой корреляцией между величинами, Σ22.ι = = σ| (1 — ρ2), и (8.4) превращается в равенство λ =1/(1—ρ2). Для
9] ОБЩИЙ СЛУЧАИ 219 ^-мерных популяций при А8=1, ^ι = Λ — 1 существует только одна каноническая корреляция (множественная корреляция xk с Χχ,χ*..., Xk-\)> 222.i —4(1 — P2fe^i2...(fe-i)), и (8.4) превращается в равенство Х= 1/(1 — pVi2...(fe-i))· (См. задачу 10.9.) 9. ОБЩИЙ СЛУЧАЙ [Ср. Гринхауз (1954).] Без ограничительных предположений о средних значениях и ковариационных матрицах /е-мерных нормальных популяций при гипотезах Нх и 7/2 параметры нормальных распределений линейной дискриминантной функции у = агх равны Ех (у) = а>ь £2 (у) = α'μ2ι Д(у) = аг11сц ΑΟ) = α'Σ3α. (9.1) г/1.о «л ! л~~ «'22а 1 ι 1 а'Si а , 1 αδδ'α /Q оч /(1.2^) = -2-log-572^-T + T^2^r + -2--itr2^. (9-2) 7(2^ = ^11*^^^-^ (9.3) /П ο.ιΛ_ * <*'Σ2α . Ι «'Σ,α , •/U,^-V;— 2а^а ~Т"~2~а'2аа 1 "» +τ(^+^γ)«'66'«· (9·4> Для данной функции_у справедливо равенство ^/(1,2;_у) = 7(1:2;_у)-|- -f- / (2:1;_у). Однако утверждение, что та же самая функция у будет доставлять максимум 7(1:2;у), 7(2:1;_у), J(l,2;_у), неверно, Значение а, при котором величина 7(1:2;_у) в (9.2) максимальна, удовлетворяет (это доказывается обычными методами дифференциального исчисления) равенству 2i α — λ Σ2 α = γδ, (9.5) где } α'Σ^ / (α'δ)2 \ = (α'δ) (α' Σί α) α'Σ2α \ α' Σ3« — α'Σ!α/5 * α'Σ2α — α' Σ! α * Так как γ является коэффициентом пропорциональности, мы можем положить γ= 1, и тогда α удовлетворяет равенству Si α — λ Σ2 α = δ, (9.6) где λ, заданное (Ьормулой (9.5), не должно быть корнем уравнения \ΣΧ — λΣ*| = 0. ' Значение α, при котором величина 7(2:1;_у) в (9.3) максимальна, удовлетворяет уравнению такого же вида, как (9.5), но с X — α' Σ1 а (α' Σ1 а — α' Σ2 а) __ (af Σ1 α) (α'δ) α'Σοα^'Σ,α — α'Σ2α — (α'δ)2) ' 1 ~~ α'Σ3α — -α' Σ^ + ία'δ)2 * (9.7)
220 МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ [ГПш 9 Снова полагаем множитель пропорциональности γ=1; тогда α должно удовлетворять уравнению вида (9.6), где λ, заданное в (9.7), не должно быть корнем |ΣΧ — λ S2| = 0. Значение α, при котором величина J(l,2;j/) в (9.4) максимальна, удовлетворяет (это находится методами обычного дифференциального исчисления) уравнению того же вида; что (9.5), но с ? α' Σ1 α ((α' Σ2 а)2 — (α' %L а)2 — (а'6)2 (аг Σ J а)) ~" α' Σ2 α ((α' Σ2 а)2 — (а' 2t а)2 + (α'δ)2 (α' Σ2 а)) ' (а'6) (α' Σί α) (α' Σχ α,-{-α' Σ8 а) γ "" (α' Σ2u)s — (α' Σχ α)2 + (α'δ)2 (α' Σ2 а) * (9.8) Вновь полагаем множитель пропорциональности γ = 1; тогда α должно удовлетворять уравнению вида (9.6), где λ, заданное в (9.8), не должно быть корнем уравнения |2ι — λ Σ2| = 0. Заметим, что здесь мы нашли три типа линейных дискриминант- ных функций. Так как λ зависит от а, то для нахождения α должна быть применена итерационная процедура. Мы займемся этим в главе 13. 10· ЗАДАЧИ 10.1. Покажите, что χ'Σ~*χ = tr Σ~*χχ\ ή Ι ^α* 1 Η 10.2. Если -=- = ; , покажите, что -=-«' Σ α = 2 Σ α, где Σ — симмет- \дщ/ ричная kxk матрица и α' — (alfag ,...,αΛ). [Ср. Андерсон (1958, стр. 347).] 10.3. Если dA обозначает матрицу, каждый элемент которой есть дифференциал соответствующего элемента матрицы А, покажите, что: (а) d ιγΣ^ιγ^Σ, (б) d Σ"^ —Σ^ΣΣ"1, (β)^^|Σ|=ιγΣ~4Σ. [Ср. Двайер и Макфейл (1948).] Ό.4. По 10.4. Покажите, что (см. раздел 5) |ΧΣ-δόΊ. |l—f *'2-1б]|Х2| = II 6Ί k k 10.5. Покажите, что tr АВ = tr В А = ^] 2 аФг А = (*υ>» В = (М» <V=l,2,...,fc. 10.6. Покажите, что (см. раздел 7) ^11 **Щ Σοι Σ — |2ц| |Σ22 — Σ31 Σ Α{ Σ12|.
ΙΟ] ЗАДАЧИ 221 Ю.7. (а) Покажите, что Ρι.23.. м = 1 — 1/р11, где Ρ — матрица коэффициентов корреляции, Р™"1 = (р^) и рА.м.. .k есть множественный коэффициент корреляции Χι С ЛГ2, Xw-vXk· (б) Покажите, что |Р| = (1 — Pi-ss- - -Л) (1 — Ps-s- · .*)■·.(1 — р!-гл),где η;;ι~ι .м есть множественный коэффициент корреляции л:,· с лу-и, лу-fa,..., W'^JJ! \ 9 k 1 10.8. Покажите, что необходимым и достаточным условием независимости k случайных величин из многомерной нормальной популяции является то, что k множественных коэффициентов корреляции каждого значения χ с другими χ все равны нулю или что р11 =:p22 = ... = pfeA! = l. 10.9. Предположим, что в разделе 8 [ср. Кохрэн и Блисс (1948, стр. 157)] /2351:1259 1340\ Σ = [^ Σ* J = I 1259 3223 1200 ] > U340 1200 3137/ 6' = (0,Ь'2) = (0, —39507, 6, —27861, 9). Проверьте, что (а) pj.gs = 0,33; (б) ΐΓΣ^δδ'^ 729,556; (в) trSl|626'2 = 503,845; (г) каноническая корреляция равна р| = 0,33; (д) коэффициент увеличения не превышает 1/(1—pf). 10.10. Пусть величины xifxiv. .,хп распределены с многомерной нормальной плотностью , , 12ехр(— -^-χ'Σ^χ], где х, = (лг1,л:2,...,л:п). Если у = Ах,у' = (у„>у2,...^т)» A=(flfj}, г=1,2,...т, у = 1,2,...,п, т<п, А имеет ранг т, покажите, что у распределены нормально ΛΓ(0,ΑΣ А'), т. е. с нулевыми средними и ковариационной матрицей ΑΣΑ' ранга m<n. 10.11. Пусть у = Ах, ζ —Вх, где х,у,А определены в задаче 10.10, и z'z=(zt1zSi...,zn—m), Bz=(bij)f г = 1,2,...,η—mt y=l,2,...,n, В имеет ранг η—т. Покажите, что множества величин у и ζ независимы, если ΑΣΒ' = 0 = = ΒΣΑ\ 10.12. Покажите, что необходимым и достаточным условием независимости k случайных величин из многомерной нормальной популяции является то, что р?.28.. м = ρ 2.3.. м =... = pl-ι,Λ = 0, где p/./-fi-. -* есть множественный коэффициент корреляции Xj с лу-fι,.. .,.*/,. 10.13» Разобьем k величин на m^k множеств, x' = (xr1,xfs,.--»x'm)» х'г = = (xki+ks-l··. · ·4Λ - ι +11· · ·ι xki+ks-\-.. ,-[-лг ). Предположим, что многомерные нормальные популяции, соответствующие гипотезам Их и Н3 (см. раздел 7), центрированы своими средними значениями или что 6 = 0 и где Σ/ι^ίσ^, αιρ = Λ1 + *, + -*ί-ι + 1,-.*ι + Λ· + - + *ί, и Гμ = = Σι7= (ars)9 r = fet + *я + — + *i-i + 1ι — · *t + *ι + — + *π S = *! + *a + + ... + *i-i + l. —. *i + *a + — + *fr *i + *i+ — + *m = fe
222 Покажите, что МНОГОМЕРНЫЕ НОРМАЛЬНЫЕ ПОПУЛЯЦИИ 1ГЛ. 9 /(1:2) =-5-log ι t ΙΣιιΙΙς,,Ι-Ις^ι 2ц 212 ^21 222 2/wl 2/П2 · 10.14. Покажите, что (см. задачу 10.6) 2ц 212 ... 2jm 2гт mm |2ц 11 222>! 11 233.1211 244.m I ··· I 2 mm-i2***m ll. —1 где S/y-.j = Sjy —Σ/j Su Sjy, 2jy-.JS — 2/у.х — 2/s.t 222.ι Σ2/.ι, 2/y.123 —2/y.12 — " 2/3-12 233.12 23y.lg, ΣΛ -ι— 2Й -2—Σ ттччз«· · m-2 ^m ~im-i-i2 · * · · m-s ^m~im-i2 · · ■ m-2- 10.15. Допустим, что k величин из многомерной нормальной популяции разбиты на m<ft множеств, как в задаче 10.13. Покажите, что необходимое и достаточное условие для взаимной независимости множеств состоит в том, что |Σ22|=:|222·ι|, | 2331 = |233-121> |244| = !24.i.i23lf···, |2mm | = |Smm.ia... m—ι |, где все матрицы определены в предыдущих задачах 10.13 и 10.14. 10.16. Покажите, что [ср. (7.4) и задачу 10.]7] 2ц Σ12 ... ^ir-i 22ι 222 ··· 22/-_ι 2r_u 2r_12 Σ,—! r-t 2a 212 ... Slr| 2S1 222 ··· 22r I 12rl 2,.2 ... 2rr | |2„i \*rr |2rr.12... 1 ,-,Ι* где матрицы определены в предыдущих задачах 10.13 и 10.14. 10.17. Разобьем k величин на ffi^ft множеств, как в задаче 10.13. Предположим, что многомерные нормальные популяции, соответствующие Нх и Н2, центрированы своими средними или что 6 — 0 и №и 212 ... 2177д /2ц Σ13 Σ2ί Σ22 ... 22от \ ν _ / Σ2ΐ 222 2А = 2Й = \ν ν ν / \Sm„u S,rt_12. ^0 0 где матрицы определены в задаче 10.13. Покажите, что ■Σι«-ι 0\ 22m-i 0\ м 0 Σ /(1:2) = 1 . γ log. .1 ' I 2mm.12 •••m-i I и что при km~ 1 величина /(1:2) задается формулой (7.18). 10.18. Предположим, что k величин из многомерной нормальной популяции разбиты на m^k множеств, как в задаче 10.13. Покажите, что необходимое и достаточное условие того, что т-е множество не зависит от предшествующих т — 1 множеств, состоит в том, чтобы ( Лтт \ = | 2mm.ls... m_L I, где матрицы определены в задачах 10.13 и 10.14.
ιοί ЗАДАЧИ 223 10.19. Покажите, что величины /(1 :2) в (7.4), в задаче 10.13 и в задаче 10.17 не изменятся, если ковариационные матрицы заменить на соответствующие корреляционные матрицы. Покажите, что равенства в задачах 10.14, 10.15, 10.16 и 10.18 также не нарушатся, если ковариационные матрицы заменить на соответствующие корреляционные матрицы. 10.20. Разобьем k величин на m^k множеств, как в задаче 10.13. Предположим, что многомерные нормальные популяции, соответствующие Ни /72, центрированы своими средними значениями или что δ — 0 и • m-s ^т χ га-js ··· т т-2 ^mm-iz ··* т 2 Σ2 = [ ^m-i m-i-is-"«i я 0 где матрицы определены в задаче 10.14. Покажите, что /(1.2) = — log .-= р= -ψ log hp г * \ *тт-12 ··' т-1 ι ζ I гтт-\ъ ··· m-i I и что при fcm = fcm,t = lf /(1:2)=:— γ log (1 — psmm-j.j2 — m-2), ™e Pfflffl-Hg-m-2 есть частный коэффициент корреляции. 10.21. Покажите, что характеристическая функция распределения 3> = Χ'Σ~1χ, где χ — fc-мерная нормальная 7V(0, 2) случайная величина, есть Ε (ехр ίϊχ'χΣ-1χ) = (1 —2it)~~ ft/2,T. е. характеристическая функциях2-распре- деления с k степенями свободы. 10.22. Покажите, что если χ в задаче 10.21 принадлежит ^-мерному нормальному распределению Ν(μ, Σ), то Ε (ехр itx' Σ~* χ) = ехр [it μ' Σ-1 μ/(1 — — 2it)] (1—2ity~k{2—характеристическая функция нецентрального х2-распре- деления с k степенями свободы и параметром нецентральности μ'Σ-1 μ. (См. раздел 6.1 гл. 12.)
ГЛАВА 10 ЛИНЕЙНАЯ ГИПОТЕЗА 1. ВВЕДЕНИЕ В этой главе мы вернемся к общей линии рассуждений в главах 6, 7 и 8 с тем, чтобы исследовать выборки из нормальных популяций в целях проверки общей линейной гипотезы [Колоджейчик (1935)]. Результаты исследований этой главы могут быть получены как частные случаи результатов для многомерной линейной гипотезы в главе 11. Тем не менее рассмотрение и изучение линейной гипотезы вначале кажется нам имеющим смысл как ради самой проблемы, так и для удобства изложения материала. Рассмотрение не претендует на иол- ноту и может иметь большую применимость, чем в предлагаемых специфических случаях. 2. ПРЕДПОСЫЛКИ *) Допустим, что две простые статистические гипотезы, скажем Η и //2, задают соответственно л-мерные нормальные популяции Ν(μί7 Σ) i = ι, 2, где μί = (μΙ-ι> μ^ ..·> \*>in)> i=l* 2, являются однострочными матрицами (векторами) средних значений и Σ = (ог8)у г, 5 = 1,2,. „*, п, — общая матрица дисперсий и ковариаций, так что [см. (1.4) и (1.5) гл. 9] 2/(l:2) = J(l, 2) = (μ1-μ2)'Σ1(μ1-μ2). (2.1) Если величины независимы, ars = 0, г φ s, Σ-1 = (ars), где <fs = 0, г φ s, <fr=lfarn r=l, 2,..., η, и (2.1) превращается, если записать агг=а% в 2J(1%2\ = J(1 2) ^ 1 ^ 1 1 ^*1Я— ^2/χ)2 (2.2) *) Разделы 2 — 8 большей частью взяты из статьи Кульбака и Розен- блатта, которая была помещена в издании Bioraetrika, т. 44 (1957), стр. 67 — 83.
4j СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 225 Если величины, кроме того, что независимы, еще и одинаково распределены, т. е. ц.|/==р*, ί=1, % /=1,2,..., η, и σ* = σ2, r=l, 2, ..., л; тогда (ср. пример 4.2 гл. 3) j(l, 2)=η(μι~^μ")2 =2/(1:2). (2.3) 3. ЛИНЕЙНАЯ ГИПОТЕЗА Рассмотрим теперь выражение Ζ==:γ_Χβ, (3.1) где z' = (zh гъ ..., zn), У = (у1, j/2, ..., j/„), βΓ = (βι> β* .., βρ), Х = (*.Д /=1, 2, ..., л, г=1, 2, ..., ρ; р<л, причем: (а) все Ζι независимые, нормально распределенные случайные величины с нулевыми средними и общей дисперсией σ2; (б) величины xir предполагаются известными; (в) матрица X имеет ранг р; (г) β = β* и β —β2 являются одностолбцовыми параметрическими матрицами (векторами), определяемыми соответственно гипотезами Ηχ и Нъ и (д) Е1(у) = Хр и ^(γ) = Χβ2. Находим, что (2.1) в этом случае запишется J( 1, 2) = (Χβ1 — Χβ2)' (σ2!)"1 (Χβ1 — Χβ2) = = (β1 - β*)' УХ (β1 - β2) / °* = (β1 - β2Χ S (β1 — β2) | σ2, (3.2) где S = Χ'Χ есть ρ χ ρ матрица ранга ρ и I — л X л единичная матрица. Заметим, что выражение J(l, 2) [2/(1:2)] в (3.2) эквивалентно расхождению между двумя многомерными нормальными популяциями со средними значениями соответственно β1, β2 и общей ковариационной матрицей o2S-1. При подходящем определении матриц X и β мы получаем разумные модели для многих интересных статистических проблем. [Ср. Колоджейчик (1935), Зелен (1957, стр. 312), Рао (1952, стр. 119), Токер (1952), Уилкс (1938 6; 1943, стр. 176 — 199).] 4. СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ Вначале мы установим некоторые факты относительно оценок параметров β2 и σ2 раздела 3. Минимизация z'z = (y — Χβ/(γ —Χβ) по классическому методу наименьших квадратов приводит к нормальным уравнениям S|i = X'y. ^ (4.1) В разделе 9 будет показано, что решения уравнения (4.1) β,- являются несмещенными, достаточными, обладающими минимальной дисперсией
226 линейная гипотеза [ГЛ. Ю оценками для β^. [Ср. Дурбин и Кендалл (1951), Кемпторн (1952), Колоджейчик (1935), Плэкетт (1949), Рао (1952).] В теории регрессии известен результат, что компоненты β (линейные функции величин ζ{) распределены нормально с ковариационной матрицей o2S_1. Несмещенная оценка для σ2 с (п—р) степенями ^свободы выводится из равенства: (п—p)38 = z'z = (y— Хр/(у — Х$) = ^У'у —β'δβ. [Ср. Кемпторн (1952, стр. 54 — 59), Рао (1952, стр. 58 — 62).] (См. задачи 4.1 — 4.6 в конце этого раздела.) В соответствии с изложенным в главе 5 и как было продемонстрировано исследованиями в главах 6, 7 и 8 статистика минимума различающей информации может быть получена заменой параметров популяции в /(1:2) наилучшими несмещенными оценками при рассматриваемых гипотезах. (См. в примерах 4.1 и 4.2 гл. 5 анализ сопряженного распределения для одномерных нормальных популяций. Обобщение этих примеров для случая многомерных нормальных популяций дано в разделах 2 и 3.1 гл. 12). Замечание в конце раздела 3 и поведение оценок, полученных но методу наименьших квадратов, показывают, что анализ существенно зависит от степени влияния гипотез на распределения оценок β. Допустим, что гипотеза Нх не налагает ограничения на β и нулевая гипотеза //2 задает β = β2. Обозначая через β1 решение уравнения (4.1) при гипотезе Нь мы имеем (ср. пример 4.2 гл. 5, раздел 3.1 гл. 12) 2/(Ή: Ηύ = J(Hb Ηύ = (β1 - β2)' S (β* - β2)/σ2. (4.2) В частности, для простой нулевой гипотезы //2:β2 = 0, (4.2) превращается в (в дальнейших рассуждениях мы будем иметь дело только с J) J(Hh Ηύ = &'Φ/&. (4.3) Заметим, что при нулевой гипотезе //3:β2 = 0, J(Hh //2) в (4.3) является квадратичной формой в экспоненте многомерного нормального распределения величин [3£ с ковариационной матрицей, которая заменена несмещенной оценкой с (п — р) степенями свободы. Поэтому 3(НЪ //2) есть обобщенное стьюдентово отношение (Г2-статистика Хотеллинга) и ННъ H*)=pF, (4.4) где величина F имеет F-распределение с л1=р т п% = п—ρ степенями свободы. [Ср. Андерсон (1958, стр. 101 — 107), Вийсман (1957), Кендалл (1946, стр. 335 — 337), Рао (1952, стр. 73), Симаик (1941), Сюй (1938), Уилкс (1943, стр. 238), Хотеллинг (1951, стр. 25).] Этот подход, в противоположность такому классическому методу решения как отношение независимых х2-величин, деленных на число своих степеней свободы, особенно важен для обобщений в главе 11. [См. раздел 4 гл. 11, в особенности (4.5).] У нас нет необходимости
5] ПОДГИПОТЕЗЫ 227 обращаться к общей асимптотической теории распределений, которая согласуется с вышеизложенными выводами.^ Мых подведем итоги в табл. 4.1 дисперсионного анализа, где β^ββ1 = jJlfX'y = y'XS_1X'y [ср. Кемиторн (1952, стр. 42), Рао (1952, стр. 105)]. Таблица 4.1 Источник изменчивости Линейная регрессия Разность Итог Сумма квадратов yV-r'sr-ya-xs-^y^ = {n-p)J У'У с. с. Ρ η—ρ η При нулевой гипотезе Η%: β = β2 Φ 0 соотношение (4.4) с J(Hh Щу заданным формулой (4.2) по-прежнему справедливо. Задача 4.1. Покажите что β = 8~1Χ'ζ + βι и поэтому Ei($)=$1t £2(0) = β2. Задача 4.2. Покажите, что Ех (β1—β1) (β1—βι)' = σ2δ-1. Задача 4.3. Покажите, что (1 — XS~*Xf) (XS^X') = 0. Что это означает для квадратичных форм yXS-iX'y и у' (I —- XS-1X') у? Задача 4.4, Покажите, что 7(1, 2; β) = 7(1, 2), где последнее задано формулой (3.2). Почему отсюда следует, что оценка β является достаточной? Задача 4.5. Используя лемму 5.3 главы 3, покажите, что y'y ^ yXS-1X' у. Задача 4.6. Покажите, что(п —ρ) σ2=: y'y у'* Х'у XX !ХХ| 5. ПОДГИПОТЕЗЫ 5.1. Подгипотеза с разбиением на две части [См. Гранди (1951), Кемиторн (1952).] Допустим, что мы разбили параметры на два множества и теперь вместо (3.1) рассмотрим где Х = (ХЬ Х,) = у-(Хь Х2) ХЦУ . . ., Х\д ХП\> . . ., ХПд Ни ΦΛ (5.1) Хп q+Ь пР
228 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 с Xi и Х2> имеющими соответственно ранги q и ρ — q, и β{=: = φι> β* ..·> βρλ Ρί = (β^. ·-·> βρ). Случайные величины ^ по-прежнему предполагаются независимыми, нормально распределенными с нулевыми средними и общей дисперсией а\ и при гипотезах Нг и Н% Мы также запишем Д(У) = Х1И+ЭД. ^(y)=XiP;+x«P5. »2ΐ Saa/ W VV или supi+s1S!p|=x;y, :.-*■-*-*-. tog; JjJ). (5.2) где Su = X1X1, Si2 = X1X2 = S21, S^ = X2, X2. Тогда (3.2) превращается в Нормальные уравнения (4.1) при гипотезе Нх выглядят как iSl (5.5) (5.6) О Если положить ^•2а-1== ^22 — SaiS^S^, X2-i = Х2 э^ЬцХр Sjli-2 = Sn — Si42S22S421, Xj.s = Χι Si2S22X2, уравнения (5.6) дают k = SiliXiiY> (5·7) Полезно отметить [см., например, Фрезер, Дункан и Коллар (1938, § 4.9), а также раздел 7 гл. 9], что где д"Х.(р — у) матрица
ПОДГИПОТЕЗЫ 229 с^(нъ щ=(- руад/, йг) Так что в применениях элементы матрицы Sf/^ или S^.x можно вычислить, как только становится известной матрица S"1. Предположим теперь, что мы хотим, в частности, проверить нулевую гипо- тезу //а"Р = Ра = [ ,!)» τ· е· PI = 0, без ограничений на β2 против альтернативной гипотезы //Γ-β = β1 = (01], без ограничений на пара- метры. Снова вычислим J(l, 2), заменив параметры наилучшими несмещенными оценками, соответствующими рассматриваемым гипотезам. При гипотезе Нх мы имеем для β}, β£, σ2 выражения (5.8), (5.7), (5,6). При Н% нормальные уравнения (4.1) дают fe = S2fXiy. (5.9) Из (5,4), (5.8) и (5.9) имеем ls21sj\ ft J Можно проверить, что т. е. p^'si»=ij;s..ips+fe'sttte или З2/(Я1( Щ = β' 'SJJ1 - fe'Sufe. (5.13) Суммируем предыдущее в табл. 5.1 дисперсионного анализа. J(HU //a) = (pJ'SM.1^i)/Sa = (p — q)F, где F подчиняется F-распреде- лению с Πί=ρ— # и Щ = п — Ρ степенями свободы при нулевой гипотезе Я2: pj = 0. Таблица 5.1 =№8и.1&- (5.10) (5.11) (5.12) Источник изменчивости ^:β2' = (β|',0') Разность Разность Итог Сумма квадратов irsitif=yxisrix;y prs22.Si=yXwSs-iXi-iy=°2J№. #■) P"S^ = yXS-'X'y У'У - fr'Sfc = у (I - XS^X') у = (я -ρ) ί2 У'У с. с. p — q Ρ η—ρ η
230 ЛИНЕЙНАЯ ГИПОТЕЗА 1ГЛ. 10 Мы можем центрировать величины у относительно констант (их средних значений), полагая '1 : хп ... Х\Л Х=(ХЬ Хд-- " ' (5.14) Можно проверить, что \э21 э22/ ХПЪ . . . ХПр' (П ' П%ъ ... ПХру ПХъ (5.15) ι/ζχ„ (п%ъ\ S да·! S22 I \ )"— (П%Ъ - . · П%р) S22 IHX%X% . .. tlX^Xp \ \flXpX% tlXpXpf (5.16) = (Σ(λγ«/ — */)(■*» — ■**))» j, k = % ..vp, '"' _ Λ \ ! X2#1 — X2 — XiSji S12 — X2 — I ; I — (nx$ ... nXp) — /J?2 ... xp\ /=1, 2, ..., /2, = X2 — l· | = (xiy· — xy), U2 ... V / = 2' ··* A xiy=ny, Табл. 5.1 теперь превращается в табл. 5.2. Таблица 5.2 (5.17) (5.18) (5.19) Источник изменчивости tfS:p2'=(P?\ 0') Разность (линейная регрессия) Разность Итог Сумма квадратов y'X^s^x^y ==£*/(//,, я2) y'XS^X'y у'у—y'XS^X'y = (η —ρ) S2 УУ с. с. 1 Ρ η—ρ η Задача 5.1. Покажите, что Χ^-Λ-ι ==**2s"i· Задача 5.2. Покажите, что β2 = 8221·ιΧ2.ιζ + β2· Задача 5.3. Покажите, что Е^ ($ — βί) (β?— pl)r = QsSn.x. Задача 5А Покажите, что Χ^Χι^Ο.
5] ПОДГИПОТЕЗЫ 231 Задача 5.5. Покажите, что X2.iX2 = S22·!· Задача 5.6. Покажите, что Et (βί —- рД) (^i —βί)' == o^Sii-e- Задача 5.7. Покажите, что βί = Si?Xiz -j- βϊ· Задача 5.8. Покажите, что Es ф\— β?) (fr—βϊ)'= σ*8ϊι· Задача 5.9. Покажите, что S^.g = Si? ~f" ^й S12S22.1S21S11 · Задача 5.10. Покажите, что Xa-iS^-iXVi (*—XS_1X')=0. 5.2. Подгипотеза с разбиением на три части Если подгипотеза требует разбиения матриц β и X в три подматрицы β'Α=(Κ, β* Ю и Χ=(Χι, X» ХЛ мы получаем из S|i = X'y решения β2 = S^a-i (Х2-1У — 523.1β3), Pt = Si? (XJy - S^ - SakX (5.20) где /Su S12 S13^ S=l S21 S.22 S23 J, S/tt = X/Xa, f, h= 1, 2, 3, \S31 S32 S33/ и ^33·12 ==: ^33-1 S^.jS^.jS^»!, ^зз«1= S33 — S3jSjj S13, S32.J = S32 — SsjSj! Sj2 = S23.j, S22.J = S2a — S21S1j1Sj2, Х2.1У = (Xa — S2iSjj Xj) y, ХзчаУ = (Хз-i — Sga^S^iiXa^) у, X3.jy = (X3 — S^S^X^ y, а также [ср. (5.12)] β'ββ = y'XiSr/Xiy + /X.., S^X^Y + Ь$ы*Ж (5.21) Используя (5.20) и приводя подобные члены, мы получаем другие полезные варианты (5.21). Например, выражение $'S$ = у'ВД^у + fcX^y + fcx^y (5-22) удобно, когда данные являются нецентрированными наблюдениями и ■^1=1 Для всех /, так что первое разбиение включает хп и β£ι (т.е. учитывает отклонения от средних значений в задаче, включающей по существу разбиение на две части). Выражение faMfcXiy + tey + tey (5.23) можно использовать в задаче с разбиением на три части, когда случайные величины предполагаются центрированными своими средними. Вышеизложенное может быть с помощью индукции распространено на любое необходимое число частей разбиения.
232 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 6. РЕГРЕССИОННЫЙ АНАЛИЗ: ОДНОФАКТОРНАЯ КЛАССИФИКАЦИЯ, к КАТЕГОРИЙ Случай ρ — 1 (ковариационный анализ) см. в работах: Кемпторн (1952, стр. 48), Кендалл (1946, стр. 237), Смит (1957), Уэлч (1935), Федерер (1955, стр. 485). В случае произвольного ρ см. также Куль- бак и Розенблат (1957), Розенблат (1953). Допустим, что мы имеем k категорий, каждой из которых соответствует tij наблюдений над (у, xlf..., хр) с линейной регрессией для каждой категории *)ί =Уп — (Pyi-^ii + · · · + hr*jir + · · · + hpxJip)> (6Л > где у = 1, 2,..., k категорий, г=1, 2, ..., tij наблюдений для категории у, г=1, 2,..., ρ независимых величин (p<^tij\ где Zji независимые, нормально распределенные величины с нулевыми средними и общей дисперсией σ2, a Xjir известны. Линейные регрессии для каждой категории могут быть записаны как Zj = yj-Xjtj, (6.2) где при каждом у = 1, 2,..., k Zj = (zJb ζ μ,..., Zjnjh У/ = (У]ь .У/а» · · · > yjnjh Χ}. = (xjb Xy2j..., Xyp), xjr = (Xjlr9 Χμη ..., Xjn.r) и K = <?J1> Ру»·- β/ρ)· Мы можем записать k систем уравнений регрессии (6.2) для k категорий в объединенной форме ζ = γ-Χβ, (6.3) если определим Гх'\ ' х=\ : ч : > F = <& К·—β*λ \ό ...'xj ζ' = (ζί, Zg, ..., z'k\ yf = (yl, yi ..., Уй). Предыдущими определениями мы задаем β в (6.3) как параметрическую матрицу всех kp коэффициентов регрессии β/ν независимо от того, равны ли некоторые из них или имеют частное значение, включая нуль, при любой гипотезе. Допустим, мы задаем нулевую гипотезу относительно некоторых групп или множеств kp параметров β7> среди k категорий и желаем оценить параметры и проверить нулевую гипотезу при некоторой альтернативе. Для различения матриц и векторов, соответствующих
6] РЕГРЕССИОННЫЙ АНАЛИЗ 233 различным гипотезам На, а=1, 2, ..., мы будем использовать там, где это желательно для большей ясности и выразительности, обозначения Χα, βα и Sa = X*'Xa. В тех случаях, где эти обозначения не использованы, рассматриваемая гипотеза и определение матриц будут понятными из контекста. Для любой гипотезы На мы представим линейные регрессии для k категорий в объединенной форме г = у — ХТ> (6.4) где ζ и у определены в (6.3). Однако мы теперь определяем βα как матрицу коэффициентов регрессии, отличных друг от друга при гипотезе На и Ха как матрицу элементов xjir с различными регрессиями, заданную в соответствии с регрессионной моделью, определенной гипотезой На для объединенных вместе k категорий. Для представления регрессии (6.4) для k категорий при гипотезе На нормальные уравнения (4.1) превращаются в Siia = X«'y, f|» = S^X.'y, (6*5) где элементы S* = Xa'Xa будут зависеть, конечно, от специального выбора матрицы Ха. Эквивалентно (4.2) и (5.13) мы также имеем для нулевой гипотезы //2 и альтернативной гипотезы Hi [ср. (4.7) гл. 5] где (η — pW^y'y-fr'S^1, п = пх-\-п<>-\- ... -\-nk, (6.7) и S^X'XrrrS1 для X, определенного в (6.3). Таким образом, для любой частной гипотезы о множествах регрессионных коэффициентов в регрессии для k категорий оценки коэффициентов и критерий гипотезы легко могут быть получены исключительно лишь надлежащим определением матриц Ха и βα в (6.4). Рассмотрим две гипотезы Μ : Руг = Руг. 7=1, 2,..., А, г=1, 2, ..., р, (6.8) т. е. что Руг различны для всех категорий и для каждого г=1, 2,... • ·., р, и нулевую гипотезу однородности /*2:р/г = р.г, 7=1. 2, ..., k, r=l, 2, ...,р, (6.9) или, эквивалентно, $} = $'. —φ.ν β.2, ..., р.р), у = 1, 2, ..., k, т. е. что коэффициенты регрессии одни и те же для различных категорий пРи каждом г = 1, 2, ..., р.
234 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 При справедливости Нг из (6.8) наилучшая несмещенная оценка β выводится из (6.5), где βα и Ха из (6.4), определяющего регрессионную модель для k категорий, те же самые, что β и X в (6.3), или а ... 0\ А\ /Кул i \ i Μ = : Ь s,=xjx,. (6.Ю) \0 ShJ \pft/ XXkyJ Отсюда получаем k систем нормальных уравнений Sfij^X'ffj, 7=1,2,·..,*, (6.11) из которых При справедливости гипотезы #2 из (6.9), однако, матрицы Ха и βα в (6.4), определяющем регрессионную модель для k категорий, равны х2'=(х;,..., χί\ βΓ == (p.lf β.2,..., ρ.ρ> Таким образом, xyy=Sx}yy, и наилучшая несмещенная оценка β при справедливости #2 выводится из (6.5) jfcrsS^JP'y. (6.12) Мы также имеем при Ηλ соответственно (6.7) (п-рк)&=?у-Ъ*ъф= Σ Ыу/-Ь'£А>· (6·13) 7 = 1 Поэтому в соответствии с (6.6) имеем Ж{нь Ηύ=β^β1 - β^β* = 2 p;s7py - prs2pf (6.14) — непосредственное обобщение S2 в § 24.30 у Кендалла (1946). Подведем итоги в табл. 6.1 J(Hb H%)=p(k—1)F, где F имеет F-распределение с p{k—1) и (η — pk) степенями свободы, когда справедлива нулевая гипотеза Н% из (6.9).
6] Источник изменчивости #2:β2 = βϊ Разность Разность Итог РЕГРЕССИОННЫЙ АНАЛИЗ Тг Сумма квадратов fc'S2Pf β^β1 — &'S*$*=Z*f(Hlf Н%) k Ь19&Ъ1= 2 β/Μ/ y'y —fr'Stf1 = (»—/*) S* УУ 235 [блица 6.1 С. С. Ρ pk η—pk n = %nJ В частности, если проверяется нулевая гипотеза однородности //а (средние значения k выборок одинаковы), р=\, х]П=\, то при альтернативной гипотезе Ht (генеральные средние различны) 1 0 0 ... О 1 0 0 ... О О 1 0 ... О щ, х;=(1, ..., ι), (6.15) XvXi = S щ 0 ... О !_, О щ ... О , Sj=nJt V0 ·· nk/ xJyj =Ул +Уа Η +У*,=njyj, (6.16) (6.17) и (6-П) дает в качестве оценок генеральных средних значений при справедливости Нь %=Уу (6.18)
[ГЛ. 10 (6.19) 236 ЛИНЕЙНАЯ ГИПОТЕЗА При нулевой гипотезе однородности //2 Х* = (1, ..., 1,1, ..., 1, ..., 1, ..., 1), X*JP = Sa = /i1 + /ia + ... + л* = л, (6.20) X*ry = nly1~{- ... -\-Пъ$к = пу (6.21) и (6.12) дает в качестве оценки генерального среднего значения при справедливости Н% P.=J- (6.22) Из (6ЛЗ) и (6.14) мы находим, что k п. k п. (я_k) 3*= Σ (ΣJ*;-ntf)= Σ Σ (Уи~yj?> (6·23) A ft &3{нъ Ш = Σ **Й - ^2 = Σ я/ (Уj -у?- (6·24) 7=1 /=1 Табл. 6.1 дисперсионного анализа превращается теперь в табл. 6.2. Анализу, приведенному в табл. 6.2, чаще придают форму, указанную в табл. 6.3 J(Hl9 H<^ — (k—1)F, где F имеет F-распределение с (k — 1) и (η — К) степенями свободы при справедливости нулевой гипотезы однородности. Таблица 6.2 Источник изменчиности //s: Однородность Разность Ht: Неоднородность Разность Итог Сумма квадратов ηψ k 7=1 Σ V9 7 = 1 /=w=i k nj Σ Σ* у-t i=rl С. С. 1 k — 1 k η—k
ПОДГИПОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 237 Таблица 6.3 Источник изменчивости ДОежду выборками В пределах выборок Итог Сумма кнадратов к 7-1 k n/ Σ Σ <nj-9j)*= <*-*)* y=w=l Σ Σ (Λ/-301 _ _ _ . __ .___ _ с. с Л —1 η— k я-i 7. ПОДГИПОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 7.1. Однофакторная классификация, k категорий Разобьем параметры матрицы β7* для каждой категории j = 1, 2,... ..., k на два множества [см. (6.2)]: p;i=(Py*..-,Pyff) и Эл=(Р/^--,м насчитывающих q η ρ — # параметров соответственно, # <^р, так что β}=α>Λ. βλ)· Рассмотрим нулевую подгипотезу 772: при/=1, 2, ..., k величины [*у> различны для г== 1, 2, ..., #, но для r = q-{-1, ^-j~2, ...,ρ существует общее значение параметров β7>, равное β.Γ> τ. е. H*hr = h» /=1, 2, ...,£, r=l, 2,...,?, Pyr = P-n 7=1,2,...,^, r = y+l, ? + 2,...,p ( Л) или эквивалентно ^βλ=βλ=(Ρ^ ..., ρΛλ β72 = β·2 = (Ρ·^+1> -·ί Ρ·ρ)· Пусть гипотеза /^ остается такой же, как в (6.8), т. е. утверждает, 4X0 Ру> различны для всех у и г. При Я2 мы имеем те же касающиеся матриц определения и результаты, что в разделе 6. Однако Для 772 из (7.1) матрицы X2 и β3 для регрессионной модели с k категориями имеют вид β9'=(βί> Ρ& Χ2=(Χι. ΧΑ
238 ЛИНЕЙНАЯ ГИПОТЕЗА где 1гл. ю βί = (βίΐ> ββΐ» ···> β*ΐ)> β·2 = (β.<Η-1> β·?+2> ·>> β·ρ) = β12 /χη... ο \ /χ12 \ο ...χΜ/ \х» Xjt = (xyt> Xyg, ... , Xyg), Ау2 = (xy ρ+1ί Xy g+2> · * · у Xyp/» *Jr:==z(xj\.n xj1n · · · » Xjnjr)> j?= Ь 2, . . . , £, Г = 1, 2, . . ., /7. Таким образом, при //2 ГДе Sn = X^Xi, Si2 = XjXg, S>2i == Sj2 = X2^*i> ^aa == XaX& /Sin .·· 0 \ /SnΛ Sn= '··. , Sia= ; I, Si2 = (Sli2-|~ ··· ""Ь^/да), \o ...sj \sj Sy и = X/i Xy i, S;-l2 = XyiXya = Syai, Sj 22 = XygXyg. Из нормальных уравнений (6.5) мы теперь получаем SnPi + Me = Xiy. SMjl1 + Sepe = X;y, (7.2) так что [см. (5.7)] Ра = 8Й.1х;.1у, (7.3) где /г А; S22.i=(S22 —S2iS1JS12)= 2li (S/22 SyaiSy11Syia)= ^j Sy^.j, /=1 y=l A; ^2·1 = №2·1> '··> ^Wl)> Ха.1У= 2Lj Х/2-1У/» X2el = X2 S21S!! X1? X/2-i = Xya SygiS^Xyj. Из определения матриц при гипотезе Я2 имеем [см. (5.8)] /Ри\ /Srii - - - 0 \Г/Хи ··· О \/У1\ /Si \pkl/ \ υ ... оа.и J[(o"...xJ(IHdf4 [^ιιΑιΥι \ /SiiiS112p.2 \ : , — I i Ι. (7.4)
ИОДГИИОТЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 239 Таким образом, при справедливости Н% из (7.1) мы имеем следующие оценки коэффициентов регрессии: f/1 = Sj?1(X}iyy-Syiap.a)=|j1> j=l9 2, ... К β.2=(Σ *m*Y Σ «л.1Уу=^ (7,5) где Если при Нх из (6.8) мы также определим β/=(β}ι> β}2)> Η0 переставим и разобьем подматрицы β и X так, что где β' = (βί> № Χ=(Χι, ХД βί = (βίΐ> βίΐ> · · > β^ΐ)> β/ΐ = (β/1> β/2» · · · > β/g), β2 = (βΐ2> β22» -υ β*Α β/* = №/?+*' fW2> ···» β/ρ)> (Xu.. Χι= · \ο .. • °\ • ' .χJ Α2 — /χ« ·■ - \ο .. . 0 ' .. хк% Χ/1 (X/l> Xy"2> · · · ι X/tf)> Χ/2 (X/g+l> Xyg+2» · · · у XJph TO XA—Sn == ι *·.. , \o ...skJ /Sm...O \ X2X2 — S22 = 1 ··-. J, \o ...sm/ Syn = XjiXjf, !>y22 = XfiXjfy /Sua X1X2=S12 = I \0 /Sii X'X = S= Syia = XjiXjf = Sy21, У=1, 2, ..., £. ... эЛ12/ S12\ s /' э22' —s.21, Тогда мы получим ту же самую оценку β7·, у—1, 2, ..., k, как в разделе б, пользуясь методом раздела 5; т. е. из (6.5) мы имеем (см. задачу 11.10): Sufji+s12p2=x;y, ^2ΐβι ~г ^ааРа — ^аУ> |i = Si/ (Xiy — ^,βΛ (7-7) β2=S^al X^.ty, (7.8)
240 ЛИНЕЙНАЯ ГИПОТЕЗА [Гл. ю где (5Ш.1... 0 О ... Sfc22#1 S/aa-i =(Sy22 — SyaiS/ijS^a), у = 1, 2, ..., ft, (χη-ι · · · ° \ \Ό ... Λ^-ι / ^/&·ι ==Xfz — SyaiSynX/i, у = 1, 2, ..., ft. Из (7.7) мы получаем при //4 для каждой категории у = Ь 2, ..., ft Pyi = S7ii (ХлУу - Syi*M = Рл> (7.9) ta = Sjk-iXk-iY/ = β}2 (7.10) и С помощью этих оценок параметров при гипотезах Нх из (6.8) и Нъ из (7.1) и отмечая после некоторых сокращений, что [ср. (5.11), (5.12)] И^^УЭД&У + Й'ЗЬЛ* o=l, 2, (7.11) мы получаем [ср. (5.13)] k = Σ bj*SWih - к'ЬкЖ (7.12) 7 = 1 где для удобства вычислений мы можем записать k ^.1& = 0Жу=1!^Х>1У> (7-13) /—ι fe'SS..ii5 = ftl'X5:iy. (7.14) Мы подводим итоги в табл. 7.1 дисперсионного анализа. J(Ht, //2)= = (р — ^) (А—1)F, где F имеет F-распределение с (р— g)(k—1) и η—pk степенями свободы, когда справедлива нулевая гипотеза //2 из (7.1).
7] ПОДГИПОГЕЗА С РАЗБИЕНИЕМ НА ДВЕ ЧАСТИ 241 Таблица 7.1 Источник 1 изменчивости Разность Разность Итог Сумма квадратов p2'Ssps к р'^р1 y'y-PIfS1pI = (n— /?^)ί2 У'У с. с. qk+p—q (p-q)(k-l) pk η—pk n = n1-f-ns + ··· + nk 7.2. Схема регрессии Картера Картер (1949) рассматривает случай корреляции между /-ми наблюдениями / = 1, 2, ..., л в каждой из k выборок. Его регрессионная модель может быть записана как я Ч=Уц — Σ hr*jir — α/> (7Л5) где корреляция между выборками обусловлена α·, элементом, общим для /-го наблюдения в каждой выборке, у = 1, 2, ..., k. Стохастическая зависимость между категориями включается в многомерную линейную гипотезу в главе 11. Легко видеть, что эта модель является частным случаем схемы с «разбиением на две части», для которой матрицы β и X имеют вид β'=(βί. № х=(х» х2), а подматрицы — βί = (P!l> Р21> · · ♦ > β/fcl), β}ΐ = (β/1, β/2> · . . > $jq)> Κ = («ΐι α2» ·.·, ал), /Хц...О \ /^7'ii ·.· χΐ Χι = \o ...хи) 41 Xyi = ■?./<? \-*7nl · · · xjnq где Х2 есть k X 1 матрица подматриц I, единичных я X я матриц.
242 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 При таким образом определенных β и X нормальные уравнения для получения оценок величин β, данные Картером [1949, равенство (3.3)], следуют непосредственно из нормальных уравнений (7.2) с использованием формулы SnJi = X;.2y, (7.16) где S11#2 = SU S^SggSg!. Здесь мы получаем X ХцХ-21 5ц. а — /(l-i-JxiA, " "^-XaiXii (l -^-JXaAi — χ Χι Αι \ 1 \ ~ Τ Χ*Άΐ £~ Χ^Αΐ (i-l)x^/ ΤΧΜ Xj.g — ΤΧ21 1 (7.17) \ — у Χμ -ΤΧ*ι ··· {1-ΐ)Χ^Ι Как и раньше, Sji = XjXi, Sj2 = XjXg = S>21, S22 = X^Xg. Оценки корреляций at не даны Картером в явной форме. Решение di = zi9 /=1, 2, ..., η, где /г А; 9 получается непосредственно из S.22p.2 = Х2у — S2iPi. 8. ПРИМЕР (7.18) [См. Кульбак и Розенблат (1957).] Как пример к разделам 5, 6 и 7 мы рассмотрим данные, характеризующие некоторый произведенный продукт, испытываемый при трех условиях (категориях), из
g] пример 243 которых каждое включает три независимые величины. В уравнении zji =У]г Pyi-tf/π — Pyemia — Руз-Яу is — Py4^yi4 (8.1) данные ул и Jfyir, г = 2, 3, 4, являются нецентрированными наблюдениями, такими, что xjn = l при всех у=1, 2, 3 и /=1, 2, ..., лу. В этом примере £ = 3, ρ = 4, /^ = 16, я4—15 и л3=16. Матрицы S7· и ХуУу» У—1» 2, 3, составленные из сумм квадратов и попарных произведений, имеют вид: 16,0 286,8 139,0 4 835,0\ / 97 500^ 286,8 5 340,4 2 452,2 86 849,0 \ , I 1788 052 51 = l 139,0 2452,2 1307,0 41 990,0 Г ΧιΥι=1 838010 V4835,0 86 849,0 41 990,0 1465 575,0/ \29 484 809/ 15,0 244,6 236,0 4 625,0\ / 83 470^ _ 244,6 4 181,6 3 869,0 75 318,0 \ _/ 1404 814 52 —I 236,0 3 869,0 3 824,0 72 500,0 I' X*y*~ Ι ι 320 100 V4625,0 75 318,0 72 500,0 1427 425,0/ \25 727 050/ 3 07 П IftlfiO 7Q* Π 170/1ПЛ I» ЛзУз где ' 16,0 256,0 97,0 ,2995,0 256,0 4 221,7 1 619,2 47 897,0 97,0 1 619,2 785,0 17 840,0 2 995,0' 47 897,0 17 840,0 580 475Д 89 280^ 1 456 596 554 650 Л 6 743 450; Sy {Sjrth sjrt 2Ll XjtrXjW r> * 1» 2, 3, 4, t=l Х/Уу (sjyxr)> Sjyxr /лУПхПг Заметим, что sin = ni7 sm = n% и 5311 = яд. Уравнение множественной регрессии, объединенное для всех трех категорий, дается формулой (6.4), где, как помним, выбор матриц Ха и βα зависит от модели, задаваемой гипотезой. Данные в вышеуказанных матрицах могут быть подходящим образом расположены для анализа в соответствии с гипотезой. Чтобы проиллюстрировать статистический метод, рассматриваются и проверяются семь гипотез. Гипотеза Hi не налагает ограничений на величины β, так что ^:Pyi = Pyi> Руг=Р/« г = 2, 3, 4.
244 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 Все другие гипотезы, подсказываемые природой данных, сравниваются как нулевые гипотезы против Н\. аду1 = ру1, ру> = 0, г = % 3, 4, ВДУ1 = р.1, Руг = Р.п r = 2, 3, 4, tf4:pyi = Pyi, Руг=р.п г = 2, 3, 4, 'ВДу1 = Руь Руг = Руг· г = 2, р/г = р.г, г = 3, 4, Яв:Рл = Рл> Руг = Рул г = 2, руг = 0, г = 3, 4, ^:pyi = Pyi, РУ> = Р.г, г = 2, Руг = Ру^ ' = 3, 4. Все вышеприведенные формулировки гипотез касаются значений у = 1, 2, 3. При описании этих гипотез мы для удобства отдельно задали величину ру1> так как в этом примере она представляет постоянный член, который определяется средними значениями. Табл. 8.1 представляет собой полный итог дисперсионного анализа данных и критериев значимосги различных гипотез. Табл. 8.2 содержит оценки коэффициентов регрессии при различных гипотезах. (Расчеты были выполнены Г. М. Розенблатом, Фредом Окано и вычислительной группой в Naval Proving Ground, Дальгрен, Виргиния.) Выбор матриц Ха и βα для Hi и #s указан вслед за табл. 8.2; для других гипотез это делается аналогичным образом (и предоставляется читателю). Используя 0,01 как уровень значимости и 0,05 как «предупредительный» уровень (для предосторожности), выводим из табл. 8.1, что: 1. Регрессия действительна; Я2 отвергается. 2. Одно и то же множество коэффициентов регрессии (в предположении равенства средних) не может адекватно представлять все три категории; Иг отвергается. 3. Одно и то же множество коэффициентов регрессии не пригодно (даже при допущении различий в средних значениях для всех категорий); //4 отвергается. 4. Одно и то же множество коэффициентов регрессии для величин х% и х& для всех трех категорий не может быть использовано; 7/s отвергается. 5. Коэффициенты регрессии величин х3 и х± нельзя не учитывать; Нь отвергается. Однако 6. использование одного и того же коэффициента регрессии для величины х2 и различных для х^ и х4 и для постоянного члена пригодно; Н7 принимается. Для рассматриваемых в примере гипотез Ηγ и 77s матрица параметров β и матрица наблюдений X даны ниже. Заметим, что так как мы имеем дело в примере с нецентрированными наблюдениями, то коэффициенты регрессии φμ (элементы β) и матрица (вектор) Χμ (элементы X) /=1, % 3, разбиваются для каждой гипотезы. Это
ПРИМЕР 245 (Ρ rt (Ρ Η ο Ε3 5 Ο χ Λ Χ Η α s ο. α> Η Λ с? etf Я Ο. CO Iff со CM л (Ρ Η ο Ε3 Я U и са (Ρ с? >> S a я ο. <υ Η 5 Ο. ь. ? « ^ <^ ϋ ϋ η © *-* « α, *=ι « Μ мма >> о 1 ь 5 со [енчи: * со к чни о Ист го II ♦*£ см ю г- S 00 со ю ю —' ч* со см* II λ. α5θ II II .ч Л от ааТоа?сй, •χι— со" О) *—1 О* 00 σ> II ♦*£ I о ΙΟ CM О) О) -*# см а? о о S со ТО —ι СО *—1 *—1 1 1 О СО о см г- г- го см σ> о со ι— ю см ю —' ч* со см4 II λ. αχ αχ 11 II *н Ч αχ αχ ее 55 зР* СО со со о 05 СМ ^< 00 1 1 •«6 Ci. со со см <л σ> ι- -*& со со со О) 00 г ю т—« а? се С» СО- g в: со ТО со со 44 7 1 см см ю о t— ^ ю ю о см 00 СО со ^ ю см ю —. ч* ». со см II 1Н С ох? ах II II .·* л· «г^ 55 |« [ 1 + **< ^ ю »—ι со ,_-, 00 ю —' со, ЗР* 00 00 со ю см со см со ^ 1 7 «5. оо со ю г- со со а? а? о с аз со ТО со ♦*£ см ю г- ю о оо со ю ю —. >> ел * со ♦*£ со со О) со см оз со см >> см см I 1 о ιΟ со ел ч* «. се X ·* се >,<са<са с£ II о£ а: см II i II к «г? ч* со 11 1. с αχ 1 зР ,—< о ιΟ 3 <s см 00 т* ν—Ч У~Ч ι ι см ^ 00 ^ со ю см ^ S s см ю »—1 00 ю *—1 —- 55" 55 <s л 11 ιΟ 119 ел 1 ел ел »л Сн <CQ-<CQ- 55" а55 ^ о 40 1ί СО- g 03 со то
246 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 с с О* о ь. Ϊ8 ** ϋ ϋ CQ О рат « rt CQ CJ s £ >> 1 н CQ НЧИ ι αϊ 1 s со чиик о Ист со ♦*£ см LO г- LO о 00 со Ю LO —' **^ СО? 1 а; со <« ч* ΙΟ оз тЗ< со ч* см ч* см со II II V. V. 4 j- II £ \ со *& см со см 00 2 *—1 00 ю ^ еа ΙΓ4 г- со 3 см" см со ♦*£ с? 1 1 5. со оз оо 9 СО ξ о с S со со ♦*£ см LO г- LO о 00 со ю Ю —. II со. аз - - со г^ со о !? см см II λ. к. col со - 1 см оз г- ^ *-н со ^ см см ч* со II V. „£ II DO. о *—1 1 1 + й- ΙΟ оз г- г- *—1 00 ю *—1 со, *—1 00 см см ~ 1 τ см4 1 ft, Ю оо о 00 £ £? Η о с S со со ·«* см LO г- LO о 00 со LO ю ^ >» X Τ*4 1 *н ел ** >> J> GO. II' аз" о> 1 1 «4, о г^ оз см О) оз ^ см >} «. <п <са ^ of см" II U, ^ аз? II «ч с£? £2 ft CM CM г- 00 оз г- *—1 00 ю —' ^ <оа 53 <са ; еа 4J· V—« -Г— 8 II <м <о LO со с ΊΓ оз ^ 8 *—1 < о ·*£ ft. I •S Ϊ •Η <са 53 <са 1 1 >> >> е CJ с S со се с + с + С* II с со о г- 8 00 см 00 ю —' >> >> о Η
пример 247 Таблица 8.2 Оценки коэффициентов регрессии при различных гипотезах и, и, я8 я4 л. я« н7 Гипотезы У=1 /=з У=1 / = 2 /=з / = 1, 2, 3 У=1 У = 2 /=з /=1 У = 2 /=з У=1 У = 2 /=з /=1 / = 2 У=з 3,586 —7,186 1,654 6,094 5,564 5,580 2,009 1,803 1,589 1,862 1,349 1,617 1,625 2,467 1,873 2,001 3,431 -6,767 1,758 ?у. 203,4 231,1 227,7 219,8 216,0 216,0 216,0 206,9 224,0 205,6 202,3 226,4 223,7 219,8 219,8 219,8 h —10,69 70,02 — 6,93 -11,19 3,71 3,71 3,71 34,64 34,64 34>64 —4,28 79,26 —4,15 л. —3,46 25,10 1,73 0,647 1,28 1,28 1,28 2,43 2,43 2,43 —4,10 24,33 1,77 приводит к обычным приемам получения сумм квадратов и попарных произведений отклонений от выборочных средних и к упрощению дальнейших вычислений за счет сокращения на единицу ранга матрицы S (матрицы сумм квадратов и попарных произведений), для которой должна быть получена обратная матрица. Him-y = hu hr=h» r = 2> 3> 4> 7 = 1,2,3, β'=(β;> κχ х=(*1> χ2)> βί = (βΐ1> β21> ββΐλ β« = (βί» βή* β32), β/2 = (β/2> β/3> β/Λ /?11 ... 0 \ /Χ12...0 \ ^ι= : ^21 : |> ^2—Ι: ^Ча : ь \0 ... χ31/ \0 ... Xj Χ/ι=(1» U .··> 1)> Хуа = (Хуа» Х/з> x_/i)> порядок 1 χ nj x)r = (ху1„ xyir> ..., xfnjr).
248 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 #8:βι = βι· hr=hr> r = 2, $jr = $.n г = Ъ,А, /=1,2, 3, β'=(βί> Pi §з). X = (Xj, Χϊ, Хз). βί = (β«> hl> Ы β* = (βΐ* $*» Ы β3 = (β.3. Р.Д /Xll . . . О \ /Xi2 . . . О \ Х3 = (Χΐ3ι Xg3> Хзз)> Х{ = I · χ21 . I, л2 = I ; х22 · I, \0 ... χ J \0 ... χ J Χρ = (χμ, ху4), Xyi и ху>, г = 2, 3, 4, определены, как при гипотезе Иг. В предыдущем примере каждая гипотеза о параметрах относится ко всем категориям j = 1, 2, 3. Должно быть ясным, однако, что это не обязательно, так как теория и метод в равной степени применимы к любым гипотезам относительно параметров. Например, мы могли бы рассмотреть ситуацию, когда гипотеза касается равенства параметров для определенных категорий, но не для всех, например, β.Γ, /=1, 3, г=1, Ру/· у = 2, г=1, β.Γ, у=1, 2, 3, г = 2, β/Γ, у=1, 2, 3, г = 3, 4. Процедура раздела 5 для подгипотезы с разбиением на три части могла бы быть применена и здесь. а РЕПАРАМЕТРИЗАЦИЯ 9.1. Гипотезы с неполным рангом [Ср. Кемпторн (1952, раздел 6.2).] Допустим, что компоненты β в (3.1) не являются линейно независимыми, а удовлетворяют (р — г) линейным соотношениям. Это означает, что матрица X в (3.1) имеет ранг г<^р (и обратно) и что β = Ογ, (9.1) где γ' = (Τι, γ* .··> тД G = (ft/)» ^= 1, ..,,/?,/= 1, 2, ..., г и G имеет ранг г<^р. Матрица S = X'X теперь положительная (но не положительно определенная) матрица ранга г, поэтому она вырождена и не имеет обратной, так что мы должны пересмотреть решение уравнений (4.1) для β. Мы можем, однако, записать (3.1) как г = у — ΧΟγ = у — Ау, (9.2)
91 РЕПАРАЛШТРИЗАЦИЯ 249 где A = XG есть п\г матрица ранга г. Оценка у по методу наименьших квадратов выводится из нормальных уравнений А'Ау = А'у или G'SGy = G'X'y (9.3) Оценка β получается из p = Gy или (i^GCG'SG^G'X'y. (9.4) Как в разделе 4, у есть несмещенная, достаточная оценка у с наименьшей дисперсией, и компоненты у нормально распределены с ковариационной матрицей σ2 (Α' Α)"1 = σ2 (G'SG)^1. Аналогично ^ = Gy есть несмещенная оценка β, и компоненты β нормально распределены с ковариационной матрицей o2G (GfSG)"1 G'. В соответствии с (4.2) мы имеем 3{Нь щ -^ (Y1 - V2)' А'А (ft - γ2) = (γ> - γ2)' G'SG (γ* - γ2) = = <РД—Р^Ф1—Р*) у (9.5) где (я — г) о* = у'у — V'Af Ау1 = у'у — y^G^SGy1 = у'у — β^β1. Заметим, что GfS^ = GfXry [см. (9.3)] изображает г линейных функций от у, которые также являются линейными функциями β. Это несмещенные оценки одних и тех же линейных функций величин β. Так как G'SJ£ = G'X'y = G'SGy, мы можем сделать подобные утверждения о величинах γ и их оценках. Рассмотрим теперь любое другое множество г линейных функций от у, скажем Ly, где L есть г\п матрица ранга г. Так как Ε (Ly) = Ε (L (Χβ + ζ)) = ίΧβ = LXGy, (9.6) το Ly есть несмещенная оценка у, если LXG = I,., где \г — единичная матрица порядка г\г. Ковариационная матрица компонент Ly оказывается равной o2LL'. По лемме 5.4 главы 3 при k = n, В = о51да где \п есть ηχη единичная матрица, L = C, U' = XG, CU' = LXG = ==1,, выполняется неравенство c^L^c^G'SG)-1, (9.7) которое означает, что квадратичная форма с матрицей o2LL' больше или равна квадратичной форме с матрицей o2(GrSG)~1. Так как ковариационная матрица компонент у равна o2(GfSG)~1, мы утверждаем, согласно (9.7) и лемме 5.1 (в) главы 3, что компоненты у обладают наименьшими дисперсиями среди всех линейных функций от у, которые являются несмещенными оценками у. Аналогично GLy есть
250 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 несмещенная оценка β, если LXG = Ir. По лемме 5.4 главы 3 мы можем заключить, что ЛИЛДГ ^ oaG (CSG^C, (9.8) откуда делаем вывод, что компоненты β обладают наименьшими дисперсиями среди всех линейных функций от уу которые являются несмещенными оценками β. Величина J(l, 2) и ее оценка одни и те же для любой репара- метризации, как видно из (9.5). Так как существует только г линейно независимых линейных функций от величин β, любое множество г линейно независимых функций β может быть получено из любого другого такого множества с помощью невырожденного линейного преобразования. Информационные функции инвариантны относительно невырожденных преобразований (см. раздел 4 гл. 2, также раздел 3 гл. 9), и отсюда следует наш вывод. [Ср. Кемпторн (1952).] Примеры применения этой процедуры к двуфакторной классификации без повторения и без взаимодействия, к двуфакторной классификации с недостающими наблюдениями, к двуфакторной классификации с повторением и взаимодействием, к двуфакторной классификации с повторением (неравные частоты клеток), взаимодействием и недостающими наблюдениями, к латинским квадратам, к латинским квадратам с недостающими наблюдениями можно найти у Мак-Колла (1957). См. также Андерсон и Бэнкрофт (1952), Кемпторн (1952). 9.2. Разбиение Если гипотезы предусматривают разбиение параметров на два множества, как, например, в (5.1), то возможно, что линейные соотношения между параметрами существуют только в одном из множеств разбиения. Здесь необходимо применить процедуры раздела 9.1 только к одному из множеств разбиения. Таким образом, допустим, что в (5.1) яХ# матрица X! имеет ранг m<^q. Это означает [ср. (9.1)], что βι = ΟιΥι, (9.9) где Υί = (γι, Ъ ..., Tm)> Gi = {gif), t=h 2, ..., q, j=l, 2, ..., m и Οι имеет ранг m<^q. Результаты раздела 5.1 применимы, если Pi и ^ заменены в различных формулах соответственно на γ4 и уь Xt на ΧχΟχ и число (п — q) степеней свободы на (п — т) степеней свободы. Оценка р! получается из f}1 = G1;y1. Таким образом, например, Stl в (5.3) заменяется на О^БцОь где Sn = Χ^Χι, и Sia — на GiS12, где S12 —ΧίΧ2. Подобные замечания применимы также к разбиению на три множества, как в разделе 5.2, когда одно из множеств не имеет полного ранга.
Ю] РЕГРЕССИОННЫЙ АНАЛИЗ 251 10. РЕГРЕССИОННЫЙ АНАЛИЗ, ДВУФАКТОРНАЯ КЛАССИФИКАЦИЯ Мы дадим сейчас иллюстрацию к методам раздела 9, которая интересна и сама по себе. Допустим, что мы имеем двуфакторную классификацию с г категориями строк и с категориями столбцов, с одним наблюдением в клетке и без взаимодействия. Допустим, кроме того, что существуют ρ независимых переменных хь х& ..., хр. Мы желаем проверить нулевую гипотезу о том, что не существует эффектов по столбцам (классификация по столбцам не значима) при альтернативной гипотезе, что классификация по столбцам значима. Случай/7=1, т. е. случай, когда применим ковариационный анализ, см. в работах Кемпторна (1952, стр. 98), Федерера (1955, стр. 487). Случай /7 = 2 (множественная ковариация) см. у Снедекора (1946, раздел 13.7). При ρ произвольном см. Андерсон и Бэнкрофт (1952, раздел 21.4). Общая линейная регрессионная модель для каждой клетки имеет вид Zij = yij — μ — Pi — */ — hxiji — β***/β — ■ · - — $р*ур> Ο0·1) где /=1, 2, ..., г категорий по строкам, j =1,2, ..., с категорий по столбцам, р£ есть эффект г-й строки, τ;· есть эффект /-ого столбца, [х есть полное среднее, £1у- — независимые, нормально распределенные случайные величины с нулевыми средними и общей дисперсией с\ а Xijk> *=1, 2, ..., г, у=1, 2, ..., с, k=\, 2, ..., /7, известны. Занумеровав клетки слева направо и сверху вниз, мы можем записать линейные регрессии как ζ = γ-Χβ = γ-Χ1β1-Χ2β2-Χ3β3, (10.2) где ζ' = (*ш *\ъ · · · > ΖΛ У' = (Ун» У\ь ..., У Л Χ = (Χι, Х2, Х3)> β' = (βί> β^ βδ)» 1 0 ... 0 1 0 ... 0\ 1 О ... О О 1 ... 0 \ 1 О ... О О О ... 1 ι * ι > О О ... 1 1 0 ... 0 О О ... 1 О 1 ... 0 I \о о ... ι о о ... ι | х,= ·
252 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 Xlj (Xijb Xij%> ··· > Xijph \Xrc. Pi=(μ). Pi=W> Ό. ?'=(pi> рз> · · > pr)> %' = {zb τ2, ..., тс), Рз == (βι> β* ··> βρλ т. е. Xi —матрица re X 1, Χ2 — re X(r + c), X3 — rcXpt xlj— -ΐΧΑ Ρί-ιχι, K-iX(r + ^ ρ'-ιχ*% f~ixr, Рз-ιχ^. Мы хотим проверить гипотезу Я,: β'=β4'=(К', РГ, РГ). К' =(р", Ό, (Ю.З) т. е. отсутствие ограничений на параметры, и нулевую гипотезу Яа:Р' = Э»' = (РГ, β', β32'), РГ = (р2', 0) или *2' = 0, (10.4) т. е. отсутствие эффектов по столбцам. Заметим, что гс X (г -|- с) матрица Х2 имеет ранг г -(- с — 2, так как эффекты строк и столбцов существенно ограничены тем, что удовлетворяют [ср. Андерсон и Бэнкрофт (1952), Кемпторн (1952)] условиям Pi + Ps + .-. + Pr = 0> ^ + ^ + ... + ^ = 0. (Ю.5) Новые параметры для второго множества разбиения, если принять в расчет (10.5), даются формулой где γ; = (γη, ..., γ1(/._υ), γ2 = (ϊ2ΐ> ..., γ^^.ΐ)), a d и G2 являются соответственно ry((r — 1) и с\(с — 1) матрицами Ι ι о... 0 1 ... 1 0 0 — 1 0 ... 1 ... 0 ... — 1 ... 0 0 1 — 1 0,= . G о о... V-1 -1...
10] РЕГРЕССИОННЫЙ АНАЛИЗ Для второго множества разбиения мы находим 253 X9G = 1 } I 1 1 0 0 0 — 1 — 1 — 1 0 .. 0 .. 0 .. 1 .. 1 .. 1 ... — 1 ... — 1 ... — 1 ... 0 0 0 0 0 0 — 1 — 1 — 1 1 0 — 1 1 0 — 1 1 0 — 1 0 ... 1 ... — 1 ... 0 ... 1 ... — 1 ... 0 ... 1 ... — 1 ... 01 0 — 1 0 0 — 1 0 0 — 1 , (Ю.7) \ г—1 с—1 где X2G имеет г с строк и г — 1 -(- с — 1 столбцов, 12с с ... с 0 0 ... О1 с 2с ... с G'X'X2G = GS2,G= 0 0 ... 0\ ] о о ... о\ I ( г— 1, с с ... 2с 0 0...0 О 0 ... О 2r r ... г О 0 ... О г 2г ... г О 0... О г г ... 2г \ г- —Г (10.8) с—1, XiX2G = S,sO=:(0, 0, ..., 0), 1 Х(г— 1 +с—1), (10.9) AgXjO = SsgG = • i,Xj» Χ/*·> Хз· Χ/··> ·. · > Χ/·—1· Χ/··* Χ·ι' • · > Х»с—1 Х»сЛ (10.10) где xh = χη -μ xi2 _μ... -μ Xfc, x.y = χ1; _μ χ2/ _μ... _μ χΓ/ и S32G есть Ζ7 Χ (г — l-j-c — 1) матрица.
254 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 Мы также находим, что x[xl=sll=rc9 x;x3=s13=x:., (ΐο.ιΐ) где χ'.. = х'п -\- х{2 -\-... + х*7 + · · · + х'гс и х[. есть 1 χ ρ матрица, ХзХ3=s33 = Σ Σ χα*» (10·12) где S33 есть /?Х/? матрица, X[y=y.., (10.13) где >. = j/u -f j/i2 +... +j/l7 +... +jVc> / Уи —уА &Ку= У*. —Уг Уг-\- —Уг- У-1 — у.с У-* ~У >с \Усо1 / (10.14) Vv.c_i — у.J где yh =yn +j/£2 +... + j/£c, уч=уч-\-уу + ... +JV/> yiow = Q>i.—JVo ..., Уг-i- — JV-)> У«1 = СУ-1— J>.» .... У-ъ-i— У-с)> ХзУ=хиУи + Х1аУ12+ ... +x^iy + ... + XrcVrc, (10.15) где ХдУ есть я X 1 матрица. Так как при справедливости Нх оценки параметров даются в (5.20), мы переходим к отысканию других необходимых матриц: ^22 ·1 ^ SjgO О Эзд^П S^G где С есть (г — 1) X (г — 1) матрица (с — 1) X (с — 1) матрица /2r r г 2г (10.16) и R есть
Ю] РЕГРЕССИОННЫЙ АНАЛИЗ 255 г с 1 , 8зз-1 = ^зз — S^Sj^Stf— £ 2miXijXiJ — χ··~χ.· = *—t У—ι i где χ =7ϊχ· = Σ Σ оч/-*)(*,- χ)'> (10л7) $&·ι==: S32G — S3iS11 S12G = (χ1# — χΓ., χ2. — χΓ., ... . .. , ΧΓ_ι· ΧΓ., Χ.j X.c, X.2 — Χ.ci ... > X-c-l — X«c)> (1^.1 о) S33-12 = ^33·1 S32.1S22.iS23.! = Ι'}- \ = Σ Σ άνά'υ ~ (di·» · · ·' dr-i· d-i> · ·' d-c-i) L R-iJ dr-i. all kd!c-i/ dj. Σ Ed/A-(di wc-'i ι '-^-· \d;_,. -(d.1(..., d.c._,)R-1 : = Vdlc-i / г с = ,Ζ-ι Σ d/ydj/ — XrowC~ Xrow — Xcoi R~ Xcoi у (10Л 9) где df7 = x.y — χ, df. = χ,-. — xr., d.y = χv- — x.c, Xrow=(di„ ..., dr_1#), Xcoi=(d.i, ..., d.^), hi- —Уг- ^-«тхй-оялуч,- £'·!£ -(£-). (.о. 20) Xa.iV=: -1 —J-C iy=X3y-S3IS711Xiy = ί = 1/-1 *=1/=1
256 где г су =у.., ЛИНЕЙНАЯ ГИПОТЕЗА х;.му=х;.1у—s32.iS22i.1x;.1y= ς Σ *и(Уи—у)— /С1 0\ — (йи> ..., d^i.d-i, ..., d.c_!) к R_t I / Λ· JV-i·—JV- J>-1 — J>-c \ У.с-1 —У-с Σ Σ х*7 (Уи -У) - (*- · · ■ > d-i·)c_1 : \Уг-и—Уп i=\j=\ -(d.i, ..., d.^R"1 J4 ^.c-i —У-. Можно показать (см. задачу 11.4), что / cr cr " · 1 r—-1 С "* = cr cr _1_\ СГ cr J_ СГ R~J = cr c —1 _J_ cr cr „J_ c —1 cr cr r—\ cr -±\ 1_ cr cr cr r c—\ cr I с Xcol R Xcol ==~JT A Χ·/Χ·/ 7:cX**X*", 1ГЛ. Ю = Σ Σ x>7 CViy - JO - XiowC^yrow - XioiR^ycoi. (Ю.22) (10.23) 7=*
Ю] РЕГРЕССИОННЫЙ АНАЛИЗ 257 г г—ι с XioiR^Ycoi = 7" 2 Х-/У-У — те х--У-> где С-1 и R"1 являются соответственно (г — 1)Х(г — 1) и {с — 1)Х χ (с — 1) матрицами. Таким образом, при справедливости Н1 мы получаем из (5.20) оценки &8=эд.1Ях;.му. (10·24) где S33.i2 дано в (10.19) и Х3.12У дано в (10.22), fy\- —Уг-\ Уг-х- —Уг- Ул —У-с If \ dr_i· т. е. Λν-β-ι — J'J \d-Vi / -I *нс.д::)-(Ш (10.25) Υ! = С"1 (yrow — Xrowfo, Y2 = R * (Усо! — Xcol β3)> fc40L-i:.to (10·26) re Мы имеем теперь [см. (5.21)] jJi'S1^ = y'XiSb'Xiy + у'Хг^Ая + fc'Sn.nfc (1 °·27) где y,x1s1-1ix;y=cy..)V'·^» УХгм^Хв^У — (Уи—Уг (Уи —УгЛ /J.i —У-Л +(y.i —У-с ■■·> У-сл —У-с)К1 : 1= = Уго«гС_1Уго\«г + Усо1К_1Усо1. и ft Дается в (10.24) и S33.13 в(ЮЛ9). [См. (10.46).]
258 линейная гипотеза [ГЛ. Ю Первоначальные параметры эффекта по строкам и столбцам оцениваются как P1 = QiYi· tf^GiY» (10.28) где Gi и 02 определены в (10.6), a yt и γ2 в (10.25). При гипотезе //2 вместо матрицы G в (10.6) мы имеем только матрицу Οι, а матрица Х2 теперь задается гсУ^г матрицей Х!= 1 1 1 0 0 0 . 0 . 0 . 1 . 1 . . 0 . 0 .. о .. 0 .. о О 1 ... 0 О О ... 1 о о ... ι (10.29) \0 0 ... 1 Вместо (Ю.7) при гипотезе Щ имеем XJG,= 0... 0\ 1 0 0 0 ... 1 ... 1 ... 0 0 0 1 — 1 ...— 1 -. -..:.-J (10.30)
РЕГРЕССИОННЫЙ АНАЛИЗ 259 е χ^Οι имеег тс строк и (г— 1) столбцов; вместо (Ю.8) при #2 мы имеем (2с с ... с\ ° .2с ;*'. Чг-i; (10-31> с г· ... 2с/ г—\ вместо (Ю.9) при #2 имеем X;XIG, = SJ9G, = (0, 0, .... 0), 1 X (г - 1); (10.32) вместо (10.10) имеем X'3XlGi = S1SG! =(Xl. — xr., ..., хг_ь — xr.) = Xrow, (10.33) где S§sGi есть pX(r— 1) матрица; вместо (10.14) при Hs имеем />ι· —УгЛ о;хГу= · =yrow; (Ю.34) Wi· —Уг-1 ъ вместо (10.16) имеем SIa.i = C; (10.35) вместо (10.18) при //2 имеем Sfa-i ==(χι· — χγ·> ···> xr-i· — X/-.) = Xraw> (10.36) вместо (10.19) при Нг имеем г с (άί. \ S&-13 = Σ Σ «Μν- №.. · · · > drJ.) С-1 ; = = Σ Σ ίίΛ-χ»°"1χ™; (Ю.37) *—»У—ι вместо (10. 20) при #а имеем /Λ. —jvA ХГ.,У= i Myrow; (Ю.38) \JV-i·—Λ-' вместо (10.22) при H2 имеем *.иУ = J] Σ χί/ 0Ί> -У) - № Φ-ΐ·) С"1 i = '-U-i \JV-i. —JV·/ = Σ Σ x«7 (УV -Λ - XrowC-Vrow (10.39) 1 = 1 У-1
260 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 Таким образом, при гипотезе Н% мы получаем в качестве оценок параметров вместо (10.24) R2 = S2_1 X2' у, (10.40) ^3 33-12 3·12·^ ν > где S^12 задано в (10.37) и Х^у в (10.39); вместо (10.25) где γϊ = ϋ-1 сто (10.26) rdi· (10.41) = С-1 (уrow — XrowPD; вме- =тЛу~ — х-Рз); ГС (10.42) вместо (10.27) Ρ'*Ψ = У'Х^ХГ У + У'КгЧыКгУ + ЙЧм A О0·48) где У1- —Уг. \Vr-l- —Уг = Yrow^ У row» β| дается в (10.40) и S|3.12 в (10.37). Первоначальные параметры эффекта по строкам и столбцам при гипотезе //2 оцениваются как p^GiY?, т2г=0. (10.44) Используя найденные выше величины, мы теперь имеем c*J(Hly Я,) = β'^β1 — β2'β2β2, (10.45) где (re — 1— г + 1 — г + 1 — p)o« = yfy— &1'S^1 = ((r — 1)X x(c_i)_rta«. Мы суммируем предыдущий анализ в табл. 10.1. J(Нь //2) =: = (с—1)F, где Z7 имеет /^распределение с rii = c—1 и п^ = (г— 1)(с—1) — ρ степенями свободы при справедливости нулевой гипотезы //2, заданной в (10.4),
Ю] РЕГРЕССИОННЫЙ АНАЛИЗ 261 Таблица 10.1 источник изменчивости Я,: (Ю-4) ! Разность Я,: (Ю.З) Разность Итог Сумма квадратов ι y'y - β^β1 = ((r — 1) (c — 1) —p)e» У'У с. с. r+P с—1 r + c—1-f-p |(r —1) (c— 1)— ρ re В частности, для обычной двуфакторной классификации без регрессии, т. е. β£ = β§ = 0, табл. 10.1 сводится к табл. 10.2. Таблица 10.2 Источник изменчивости Среднее Строки Столбцы *1 Разность Сумма квадратов yiowC-'yrow^^CV Щ (jjf + У ;owC_1y row + У^'Усо! = У'У - (jjf - Уго№С-1Уrow - Уад^УсЫ = = (r—l)(e —l)e» J С. С. 1 г —1 с—1 r-f с — 1 (г —1)(С_1)
262 ЛИНЕЙНАЯ ГИПОТЕЗА [ГЛ. 10 Можно показать, что [см. (10.23) и задачу 11.5] У rowC У row = \ — ' с у\. yt ГС уЬ (10.46) YcolK Усо1 — ^ —ρ γζ · Заметим, что здесь альтернативная гипотеза Ηχ может быть представлена как пересечение трех независимых гипотез, т. е. Ηχ — = Hpf)HR0 Н0 где Ημ есть гипотеза, утверждающая, что μ Φ Ο, HR — гипотеза о том, что ρ φ 0, и Нс — гипотеза, что Χ φ 0. При нулевой гипотезе //2: μ = 0, ρ = 0, ΐ = 0 мы видим, что J(HbH^) = J(HlLfHi) + J(HR> HJ + J(Ha Я2), где J(H^ HU = F{nx=h щ = (г-1)(с-1)), J(H^H^) = (r-l)F(nx==r-h щ = (г-1)(с-1))7 J(HC, HJ = {c—l)F(n1 = c—l, m = (r—l)(c— 1)), J(Hly HJ = (r + c—l)F(n% = r + c—l9 щ = (г—1)(с—1)), где в свою очередь F{nb щ) имеет F-распределение с пх и л.2 степенями свободы, если справедлива нулевая гипотеза. При^=1 мы получаем из (10.23), (10.19), (10.24), (10.37) и (10.40) следующие величины, использующиеся в табл. ЮЛ в добавление к указанным в (10.46) (см. задачу 11.6): i = \ ΧόοΐΚ~%ο1 = 2^ ~y- — y~y У-1 γ- г и _Y Xi'yi- x~y· X^iR-1yc6i = 2 Τ 7«l г rc rc
ЗАДАЧИ 263 ΙΣ w-Σ ^-2 ^+~ β; _ re Ζλ xV~Δ с L ΊΓ^~ re i—1 У=1 1 = 1 / = 1 fe=i=ii=L i=i . (10.47) ΣΣ*-Σ£ t = ly = l fel И. ЗАДАЧИ 11.1. Каково распределение величины J(Hit H2), определенной формулой (4.3), если нулевая гипотеза не выполняется? [Ср. Андерсон (1958, стр. 107).] 11.2. Покажите, что SY}SiaS^el = Sr£8S18S7g, где матрицы определены в (5.6), (5.7), (5.8). 11.3. Подберите матрицы Χα, βα для гипотез Яа, а = 2, 3, 4, 6, 7 в разделе 8. 11.4. Подтвердите результаты, данные в (10.23). 11.5- Подтвердите результаты, данные в (10.46). 11.6. Подтвердите результаты, данные в (10.47). 11.7. Проверьте, что асимптотическое поведение статистики минимума различающей информации в главе 10 находится в соответствии с результатами главы 5. 11.8. Покажите, что а) /(#„ Я2) в табл. 5.2 равно (п— р) г».,. т >р/(1 — г».,.. ,р), где Γν·2...ρ является множественной корреляцией^ с х2, ... , хр. 6)J(Hit H2) является оценкой величины 7(1, 2) в (7.18) главы 9 для выборки в η наблюдений. 11.9. Допустим, что табл. 5.1 относится к выборке, состоящей из п—}— 1 наблюдения, т. е. _у-ки и х-ы центрированы относительно своих соответственных выборочных средних, и что q=p—1. Покажите, что в этом случае J(Hlt Я2) = (η —ρ) rjj^g m ш шpl(\ — r*yl,n p)t где ryl.n _ p есть частная корреляция у с xt. 11.10. Покажите, что величина βχ в (7.7) может быть также выражена как bi = STl-JLl*y, где SM = Sll^Slfi^Su и X;* = Xi —S^SSX,.
ГЛАВА 11 МНОГОМЕРНЫЙ АНАЛИЗ; МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА 1. ВВЕДЕНИЕ В этой главе мы изучим критерии линейных гипотез для выборок из многомерных нормальных популяций, продолжая таким образом анализ предыдущей главы. В следующей главе мы применим общие идеи к анализу выборок из многомерных нормальных популяций для проверки гипотез о ковариационных матрицах и средних значениях, отличных от тех, которые включались в линейную гипотезу. Изложение в этой главе не претендует быть исчерпывающим и имеет большую применимость, чем в рассмотренных специальных случаях. 2. ПРЕДПОСЫЛКИ Допустим, что две простые статистические гипотезы, скажем Их и #2, задают соответственно средние значения η ^-мерных нормальных популяций с общей ковариационной матрицей Σ = (с/у·), г, у = = 1, 2,..., k. Для η независимых наблюдений (1 χ k матрицы или векторы), по одному из каждой популяции, выражение (2.17) главы 9 превращается в {ηχ = щ =... = пг = 1, г = п) 2/(1:2, 0я) = /(1, 2; 0п) = tr Σ"1 (ftt δ,' +... + Ьп Ь'п)> (2.1) где δΙ· = μ*— μ2* с μα., α=1, 2, одностолбцовыми матрицами (векторами) средних значений г-й популяции при гипотезе Н0, и μί = (μ;ι> №&···> V4k)> *=1> 2,..., п. (Это было рассмотрено детальнее в разделе 2 гл. Ю.) 3. МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА 3.1. Предположения относительно модели Для /-го наблюдения мы имеем регрессионную модель ж, = у, —Вх„ 1=1, 2,..., η, (3-1) rmz'i=(zi{7 zi2,..., zik2), y'i = (yiv j/i2>..., yik2\ xl = (xiv xi2 .·■' *iki)> Β = (βΓ5), r=l, 2,..., k* s=h2,...kb А1<я,Аа<л,Виме-
3. МНОГОМЕРНАЯ ЛИНЕЙНАЯ ГИПОТЕЗА 265 ет ранг min^, £2). Мы можем также изобразить η уравнений регрессий (3.1) как одно регрессионное уравнение Ζ = Υ — ΧΒ\ (3.2) где Zf = (zi, z2,..., ζη), Υ = (yl9 y3,..., yn), Χ = (xt, x2,..., χΛ)> Χ и Υ' — k%x η матрицы и Xr — kxx n матрица. Мы предполагаем, что: (а) Zi — независимые, нормально распределенные, случайные А* X 1 матрицы (векторы) с нулевыми средними и общей ковариационной матрицей Σ; (б) величины xfp /=1,2,..., η, j=l,2t..9, klf известны; (в) X имеет ранг k^ (г) В = В* и В = В2— параметрические матрицы, заданные соответственно гипотезами Ηχ и //2; (д) у£ — стохастические k%x 1 матрицы, и £,1(Y) = XB1', £"a(Y) = = ХВ2'. При этих предположениях (2.1) превращается в 2/(1:2; 0п) = J(l,2; 0„) = tr Σ'1 ((tfx, -В2х1)(В1х1 — B*xJ + +... + (В*х„ - В2х„) (В*хя - B2xJ)= = tr Σ"1 (Β1 - В2) (Xlx't +... -+ x„x'„) (В1 - В2/ - = tr Σ"1 (Β1 — В2) Х'Х (В1 — В2)'. (3.3) Как и в главе 10, мы увидим, что при подходящем выборе матриц X и В получаются разумные модели для многих интересных статистических задач. [Ср. Андерсон (1958, стр. 211—212; 215—216), Рой (1957, стр. 82), Уилкс (1943, стр. 245—252).] 3.2. Линейная дискриминантная функция Здесь мы обобщим представление раздела 5 главы 9. Рассмотрим ^i = o'yi=<4Va + (Wi« + --' + aft2J;ift8» *=1,2,.., л, одну и ту же линейную комбинацию у-ов для каждого наблюдения. Так как величины Щ распределены нормально с Сщ = α! Σ α, (3.3) дает для них [ср. (5.2) гл. 9] ./(1,2; w) = ^ tf(B'Xl - B2xt) (B*Xl - B2xt)r a +... + a' (В'хя - B2xn) (B*x„ - B2xn)'a= J%'(B*-B2)X'X(B'-B2)'a Для линейной комбинации, максимизирующей 7(1, 2; w), мы находим (с помощью процедур обычного анализа), что α удовлетворяет соотношению (В1 —В2) Х'Х (В1 — В2)'α=λΣα, где λ —наибольший
266 МНОГОМЕРНЫЙ АНАЛИЗ [Гл. и корень характеристического уравнения KB1 — В^Х'Хф1 — В2)' — λ Σ | = 0. Ранг матрицы (В1 — В^Х'Хф1— В2/ не больше чем mm(kb k2); поэтому характеристическое уравнение имеет p^min(kit k%) ненулевых корней, обозначенных в порядке убывания Хь λ2,..., λρ. Таким образом, мы имеем 7(1, 2; 0Λ) = ίΓΣ-1(Β1-Β2)Χ^Χ(Β1-Β7 = λ1 + λ2 + ... + λρ = = 7(1, 2; λ1) + ... + 7(1, 2; λρ), (3.5) где λχ· = 7(1, 2; λ|) есть значение (3.4) для α, соответствующего X = Xt·. 4. СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ Вначале мы установим некоторые факты об оценках параметров В и Σ из раздела 3.1. [Ср. Андерсон (1951, стр. 103—104; 1958, стр. 179—183), Лоули (1938, стр. 185—186), Уилкс (1943, стр. 245 — 250).] Минимизация tr Г Ζ = tr (Υ' — ВХ') (V — ХВ') по βΓί методом наименьших квадратов приводит к нормальным уравнениям Χ'ΧΒ' = ΧΎ, или ΒΧ'Χ = Υ'Χ, Β = φΓ8) = ΨΧ(Χ'ΧΓι. (4.1) Величины §rs, г = 1, 2,..., £2, s = 1, 2,..., kb (kxk^ линейных функций оту-ов)— нормальные, обладающие наименьшей дисперсией, несмещенные, достаточные оценки рг5. Эти свойства будут введены в разделе 10, равно как и тот факт, что ковариационная матрица ktk2 величин (U упорядоченных как рш β12,..., |Ц, £*,.., $Uv..., &у,.., $k^b есть k%kx χ k^kx матрица / ou (X'X)"1 ott (X'X)"1 ... сщ (XXp\ (Σ)χ.(X'X)-1=Ι °21 (χ'χ)-1 °м(Χ'ΧΓ1 ··· σ«β(Χ'Χ)"1 \ (42) \ %ι (Χ'ΧΓ1 °V (Χ'ΧΓ1... σΛΛ (Χ'Χ)"1/ где (Σ) Χ «(Χ'Χ)-1 обозначает кронекерово или прямое произведение матриц [Мак-Даффи (1946, стр. 81—88), см. также Андерсон (1958, стр. 347-— 348, Корниш (1957)]. Несмещенная оценка для Σ с (п — kj) степенями свободы получается из (η — Α1)Σ = Ζ'Ζ = (Υ — Xfi7(Y — ΧΒ0 = ΥΎ — ВХ'ХВ'^ = ΥΎ — (Υ'Χ) (Χ'Χ)'1 (Χ'Υ). (См. задачи 12.15 и 12.16.) Статистика минимума различающей информации может быть получена замещением параметров популяции в /(1:2) наилучшими оценками при рассматриваемых гипотезах. (Подробности о сопряженном распределении для многомерного нормального распределения имеются в разделах 2 и 3.1 гл. 12.)
СТАТИСТИКА МИНИМУМА РАЗЛИЧАЮЩЕЙ ИНФОРМАЦИИ 267 Допустим, что гипотеза Н^ не налагает ограничения на В, а нулевая гипотеза Я2 задает В = В2. Обозначив через В1 решение уравнения (4Л) при Нъ имеем 2i(Ht:Hi On) = J(Hv Щ Oft) = trS-4Bt-B2)X^X(B1-B7, (4.3) где (л — h) Σ = tz = (Υ — XBlf/ (Υ — ΧΒ1') = ΥΎ — ΒΉ'ΧΒ1' = = ΥΎ — (Υ'Χ) (Χ'Χ)"1 (ΧΎ). Статистики вида (4.3) были введены Лоули (1938), Хотеллингом (1947). В разделе 10 мы также покажем, что tr ΣΓ1 (В - В) Х'Х (В - В)' = фп - ри,..., hkt - plftl,.. ., Ριι — Ри \ /, Li - р*,ь · ·, Ъшг - Ρ*.*ι) ((2-1) х чх'х)). Pifei — Pifti (4,4) Ykaki — $k2kij Так как матрица, обратная ковариационной матрице (4.2), является прямым произведением обратных матриц, т. е. ((Σ) Χ · (Х'Х)"1)-1 = = (Σ~1)Χ·(Χ'Χ) [Мак-Даффи (1946, стр. 82)] мы видим из (4.4), что: (а) Расхождение [2/(1:2; Оп)] в (3.3) эквивалентно расхождению между двумя ^з-мерными нормальными популяциями с соответственными средними (βπ,..., β?*!,·.., β*2ι,·.., β^), α =1,2, и общей ковариационной матрицей (Σ) χ · (Х'Х)-1 (см. замечание в конце раздела 3 гл. 10). (б) Первая часть равенства (4.4) есть квадратичная форма в экспоненте ^з-мерного нормального распределения §r$9 r =1,2,..., kb 5=1,2,..., kl9 с ковариационной матрицей, замененной на несмещенную оценку с (п — kt) степенями свободы. Поэтому J(Hb #2; Оп) в (4.3) есть обобщенное стьюдентово отношение (7*— статистика Хо- теллинга). Лоули (1938) по существу показал, что при k%^lt к^ф\ и большом п7 приближенно ННь Я* Оп) = tr Σ"1 (В1 - В2) Х'Х (В1 - В2)' = ^ifS^x F* (4.5) где F имеет F-распределение при нулевой гипотезе Н% со степенями свободы пх = [(1 + с) kxk^ и я, = [(1 + с) {п — kx — ki -J- 1)], где
268 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. И c = (kx—1)(£2—1)/(л — ^ι) и [ ] обозначает ближайшее к данному целое число. Когда ^=1 или k% = 1,(4.5) выполняется точно. [В равенстве (4.4) гл. 10 £2=1, ki=p.] Пиллаи (1955) показал, что приближенно J(Ни Щ Оп) = tr ΣΓ1 (В1 - В2) Х*Х (В1 - В2)' = Ms (П — &д с (л ~, ~n — kt — ki — \+2\kbr* I·™' где F имеет F-распределение при нулевой гипотезе Н% с л, =£,£й и л2 — &ъ(п — ^i — ^2 — О~Ь 2 степенями свободы. Согласно асимптотической теории величина J(Hlf //2; Оп) асимптотически распределена как χ2 с kik% степенями свободы. [Ср. Андерсон (1958, стр. 224).] С другой стороны, при одной из альтернатив, (4.5) по-прежнему выполняется, однако F имеет тогда нецентральное F-распределение с тем же самым числом степеней свободы, что и при нулевой гипотезе, и параметром нецентральности J(Нъ Н%) = tr Σ-1 (Β1 — В2) χ X Х'Х (В1 — В2)'. Согласно асимптотической теории, величина J(fih //2; Оп) асимптотически распределена как нецентральный χ2 с kxk^ степенями свободы и параметром нецентральности J(Hb 7/2) в случае, если нулевая гипотеза неверна. [О нецентральных распределениях см., например, Андерсон (1958, стр. 112—115), Вейбулл (1953), Вийсман (1957), Кемпторн (1952, стр. 219—222), Пэтнайк (1949), Пирсон и Хартли (1951), Рао (1952, стр. 50), Симаик (1941), Сюй (1938), Тэнг (1938), Фикс (1949), Фишер (1928) и раздел 6.1 гл. 12.] 5. ПОДГИПОТЕЗЫ 5Л. Подгипотеза с разбиением на две части Допустим, что параметры разбиты на два множества, и вместо (3.1) мы теперь рассматриваем zI = yI — В±хи — В2х2/, ί=1, 2,..., л, (5.1) ГДе х/ = (Хн, X2i), X\t = (Xib *f*···, *iql)> Хя=(Хцд1+\у,..., *i(qi+qi))> qi-\-q% = kly B=(B!, B2), В, и В2 соответственно £2X#i и ^Xft матрицы. Мы также можем изобразить л регрессий (5.1) в виде полной регрессионной модели Ζ = Υ —Χ,β; —Χ,Β;, (5.2) где Υ, Ζ определены как в (3.2), и \Х21> * · · ι X2rt/ \Х2/ с Х1=(хи, x12l..., xlft), X2 = (x2i, х22,..., Щп), а X! и Х2 имеют соответственно ранги qx и #2 = £1 — qx.
б. подгипотезы 269 При тех же предположениях относительно ъь как в разделе 3.1, мы рассмотрим теперь гипотезы: я1:е1(Ю=х1в;'+ЭД'> ,_ Я2:Е2(У) = Х1ВГ + Х2ВГ. {ό'ό) Тогда (3.3) дает 2/(1:2; 0„) = J(1,2; 0„) = -«-«-вяв-ч)(£^1^),(") где _/χ;\ _/χίχι χίχΛ _ /Su sM\ x'x-\x;j(x» χ^-^Χι χ;χ2;-^ s22J-5· Нормальные уравнения (4.1) при Ηχ превращаются в ^A'KSl1 £)=°РХь νΧΛ (5·5) или (5.6) Из (5.6) мы находим [ср. (5.7) и (5.8) гл. 10] Ъ\ = Y'X^S-,, В} =УВД - ejSttS-', (5.7) где AS.1 = XJ — XtSjjSja, SiS.1 = Sffl— SjjSjjSu. Оценку Σ мы получаем из (4.3) С n-*l)2 = Y'Y-(B;( Ц^ ^)(|L). (5.8) Пусть мы теперь желаем, в частности, проверить нулевую гипотезу Я3:В = В3 = (В*, 0), (5.9) т. е. Bg=0, без ограничения на WV против альтернативной гипотезы Л1:В=В1=(В;, В'), (5.10) не ограничивающей параметры. При Hi мы имеем (5.7) и (5.8). При //3 нормальные уравнения (4-1) дают BJSu = Y%, B\ = YXJSTJ. (5.11)
270 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11 Мы оцениваем J(l,2; Оп) в (5.4), заменяя параметры наилучшими несмещенными оценками при рассматриваемых гипотезах, так что нни я3)=trΣ-чβ5-β^βD(s;;s;;)((δllвTβ?))· (5л2) Из (5.7) и (5.11) находим [ср. (5.10) — (5.13) гл. 10] -fvx.AlxX'^Y, (5ЛЗ) Хнь ^)=trS-1fi1SBIr —trS-^Su6f. (5.15) Можно проверить, что X^XiX^S^X^^O (5.16) и, так как Х^Х^ = S22#1, (}п ^1^и Xi Х2.1^22.1^2·ΐ) ^2-1^22-1^2-1 = ^ fi.l ^) Λ (где 1п есть я χ я единичная матрица), т. е. что множители Σ-1 и Β^.ιΒΓ в ДМ> ^з) независимы. Полученное выше сведено в табл. 5Л и 5.2. Таблица 5.1 Источник изменчивости Я,:В' = (В!,0) Разность //,ιΒ^ίΒΐ, в2) Разность Итог Сумма квадратов "2^22·1**2 === * ·Λ·2.1022·1·Λ·2.1 Υ frX'XB1' = Υ'Χ,βΓ/Χί Υ + Y'XwSrA Αι Υ ΥΎ ~Β*Χ'ΧΒ* = (л — /?0 £ ΥΎ с. с. Яг η—ki η
ПОДГИПОТЕЗЫ 271 Таблица 5.2 Статистика Распределение статистики Нулевая гипотеза J {Иг, Ηύ = = trS~161X'Xft1' Ни» #.) = = trS-»fe»SiM6j' η1 = ΙΜ»(1+<!ι)] n,= [(n-ft1-ft, + l)(l+ct)l βι = (*ι—!)(*. —1)/(η-*.) Γ / И f-f \ ^2 2 (И *ΐ) τ? «, = [(«-*!-*,+ !) (1+c,)] c2 = (fr ~ 1) (К — 1)/(я — *t) B = B2 = 0, т. е. BJ = ft Bf = 0 B = B« = (BJt0)f т. е. В| = 0 6.2. Подгипотеза с разбиением на три части (Ср. раздел 5.2 гл. 10.) Если подгипотеза требует разбиения матриц X и В в три подматрицы Х = (ХЬ Х2, Х3), В = (ВЬ В*, В3), мы получаем из (4.1) решения где "3 * ^3·12^33·12> В2 — (Υ Х2#1 — Вз^зз^) 822>1, Bj = (Υ'Χι — B2S21 — B3S31) S~l, (5.18) /$n S12 S13\ S =( S21 S22 S23 J, S^ = X/Xa, t, i/=l, 2, 3, . «*,ai ~ш ~23 j, \S31 S32 S33/ - β β c-i с :S33 — S31S11S13, '32-1 —- ^n S31Sn S12 — Sgg.j, ^22-1 ^22 - SaiSuSia, Мы также имеем [ср. (5.21) гл. 10] fcfr=увддо+y'X^s-.xuy+b3s83.12b;= =y'x1s-1x'1y+y'x8.16;+y'x3.13b;, (5.i9)
272 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. Π где последний вариант записи удобен, когда данные являются нецентри- рованными наблюдениями и Хц=1 для всех /. (См. задачи 12.11 12.12, 12.13.) 6. СПЕЦИАЛЬНЫЕ СЛУЧАИ Для иллюстрации разделов 3, 4 и 5 мы рассмотрим некоторые интересные специальные случаи. 6.1. Обобщенное стьюдентово отношение (Т2-статистика Хотеллинга) Допустим, что мы имеем случайную выборку в η независимых наблюдений из многомерной нормальной популяции и хотим проверить нулевую гипотезу Нъ точно определяющую средние значения популяции против альтернативной гипотезы Нъ при которой средние значения отличаются от заданных. (См. раздел 3.1 гл. 12.) Матрицы в регрессионных моделях (3.1) и (3.2) задаются гипотезами Н± и //2 как tf^B^B^p*.1 ), tf2:B = B*=J^ I (6.1) W/ χί==(1), Х' = (1, 1, .., 1), где X' — 1 Χ η матрица. Мы находим, что Х'Х = п, Y'X = y1~|-ySi~|- \nyj Нормальные уравнения (4.1) тогда дают (6.2) и [см. (4.3)] {n-l)± = YY~nnr = (Xiyij-yj)iyii~-yi))- = NSyy, N=n — ly j9 /=1, 2, .., k% (6.3) где Syv есть A2 X k% несмещенная оценка ковариационной матрицы у-оъ.
6] специальные случаи 273 Так как В2 задано, из (4.3) получаем ) (Ну Ш=tr Σ"1 (у — В*) η (у - В2)' = л(у — В*)' Σ"1 (у - В2). (6.4) Заметим, что J(Hb H%) является обобщенным стьюдентовым отношением (Г2-статистика Хотеллинга) (см. раздел 4 этой главы и раздел 4 гл. 10) или, если в (4.5) положить k1=li J(Hb H^={n~^F, (6.5) где F имеет F-распределение с щ = к% и щ = п — k% степенями свободы при нулевой гипотезе /72 из (6.1). [Ср. Андерсон, (1958, стр. 107), Рао (1952, стр. 243).] 6.2. Центрирование [Ср. (5.14—5.19) гл. 10.] Мы можем явно ввести среднее значение у£ в (3.1), полагая хп=19 ί=1, 2, ..., я, так что матрица X' в (5.2) разбивается следующим образом: Х'=1 Т5 ""V" Τ I = (χ/), ΧΊ=(ΐι ι,..., ΐ), ι χη. (6.6) ^Xtkt X2kt Xnkj Как и в формулах (5.14) — (5.17), мы тогда имеем (П ; ПХъ . .. ПХкА ?: sS2 1 <6·7> SM = #, S12 = {JIX% .. ., tlXklh η /, /=2, ..., ^ N=n—l. $Xx есть несмещенная оценка (&t — 1)Χ(^ι — 1) ковариационной матрицы χ-ов) ^.i=Xs —XtS-,SM=((Jiriy — Xj)), 1=1,2, .... я, у = 2, 3, ..., *t.
274 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. и Из (5.11) мы выводим, так же как в (6.1), что [ср. (5.18) и (5 19) гл. 10] ' } 1 YfXi = (yi, У*·-, Ул) 1 = яу = я в?=у, (6.8) ух> Υ Χ2β1 — Υ Х2 — η \ · J (x%, х&..., Xkj) — кУъ / = (.§ Oty —У/) (реи — хд) = NS. у=1, 2, ..., kb 1=2, 3, ..., kb (S^ есть несмещенная оценка k^\{kx— 1) матрицы ковариаций у-ов с лг-ми, причем S^ = S^). Для разбиения, заданного формулой (6.6), табл. 5.1 заменяется табл. 6.1. Таблица 6.1 Источник изменчивости Средние Я2:В2 = (В|, 0) Разность Разность Итог Сумма квадратов BfSuBf' = «yy' ШХ'ХВ*' = nyy' + Y'X^S^X^ Υ Y'Y— ΒΉΧΒ1^ (n— kj) 2 ΥΎ с. с. 1 η—kx η Если мы центрируем у-ш и х-ы относительно их соответственных выборочных средних, анализ в таблице 6.1 принимает вид табл. 6.2 НИь Я2)=МгГ Syxs2sxy=^^J^i^mF имеет F-pac- пределение с [(kt — 1) А2(1 + с)] и [(п — kt — £2 -f ΐχΐ + с)] степенями свободы, с = (^ — 2)(£2 — 1)/(л — ^ι), при нулевой гипотезе В = В2 = 0. [Величина J(Hb Я2) асимптотически распределена как % с (£t—l)k2 степенями свободы.]
СПЕЦИАЛЬНЫЕ СЛУЧАИ 275 Таблица 6.2 Источник изменчивости Многомерная регрессия Разность Итог Сумма квадратов {n — kt)% NSyy С. С. η—kx л —1 Более общим образом, если мы центрируем _у-ки и х-ы относительно их соответственных выборочных средних, то анализ в табл. 5.1 в существенных чертах сохранился бы с тем исключением, что η заменилось бы на η — 1, kx на kt — 1 и, конечно, qx + q% = kx — 1. 6.3 Однородность г выборок Допустим, что мы имеем г независимых выборок, насчитывающих соответственно пь /=1, 2..., г, независимых наблюдений из многомерных нормальных популяций с одной и той же ковариационной матрицей. Мы желаем проверить нулевую гипотезу #2 о том, что г матриц (векторов) генеральных средних значений равны, против альтернативной гипотезы #ь что матрицы средних значений не все равны. [Ср. (6.15) —(6.24) гл. 10.] Регрессионная модель для г-й выборки записывается как [(ср. 3.2)] ζ^υ,-χ,β;, (6.9) где Zj = (Ζл, Ζ £2, . . ., Zin,·)» zij = (Zijbzijb * · · у zijk^y Y* = (Уа, У»..., УiH\ ylj = (Уць Уцъ · · ·» У'ф^ χ;=(ΐ,ι,..., ι), ixnh в;=(р|Ь р,*..., $ikj, ί=1, 2,..., г выборок, 7 = 1, 2,...,щ наблюдений. альтернативная гипотеза формулируется как Я,: ВГ = ®и, β» · · · ,β«*2), ί = 1, 2,..., г, (6.10) и нулевая гипотеза однородности — как Я2:В2' = В.' = $.„ β.*..., Μ. ί = 1, 2,..., г. (6.11) Мы можем записать регрессионную модель при Я! объединенно Для г выборок как Ζ=Υ — ΧιΒν, (6.12)
276 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. и где z'=(Zi, zl..., ζ;), γ'=(Υί, vi..., y;), /Χι 0 ...Ο1 χΐ'=| °: Χ*'° Ι » = (В1>В»...,ВД ο ο χ;^ При tf2 регрессионная модель, объединенная для г выборок, записывается как Ζ = Υ —X2 В2', (6.13) где Ζ и Υ определены так же, как в (6.12), и Χ2' = (Χί, Χ%...,Х'Г\ В2 = В. Таким образом, имеем при Η ι ίχ[Χιχ'χ °\ h °- ^ χι-χι= · XsX* · =(: : :\ (6.14) \ ό ."::kxJ ^° °···^ Υ' Χ1 = (Υί Хь Υ2 Χ*... ,Υ; ΧΓ)=Oh η щ у„..., nrVr), (6.15) где Уг = (Уп, У η, ···, ytkj, Щуи =уш -\-ут +... +Л«гг· Нормальные уравнения (4.1) выглядят как /«!0 ... 0 δ1 0/19 -0 ■ = (/!,?„ /ЦУ*...,Я^Д (6.16) \0 0 ...nj или (й^ь йД, ..., ИГВГ) = (И1У1. "аУа. •••.«гУ/·). т. е. Вг = уг. Из (4.3) получаем оценку для Σ: (и—γ)ς=υύ — filxl'xlfil'=YiY1+ ... +υ;υγ— /4--.oWyi\ -(Vi,?b..,Vr)\ ■ ■ · i MYlVi-^y^+.-.+YrYr- — »ryry;=MSt+ ...+NrSr = NS, (6·17) где Л^ = иг —1, «==nI + «5!+ ... +/г„ N=M+№+ ··· ~· -\-Nr=n—г и Sf есть несмещенная оценка ковариационной матриИь _у-ов внутри z-й выборки.
6] специальные случаи 277 При Н2 мы имеем χ^Χ^ΧίΧιΗ- ... + х;Хг = я1+«2+...+и;.=и, (6,18) у'Х* ==yi% + y^s+ ...+ У;хг=п1у1 + и2У2 +...+nrfr=ny, у' = 0М,J-2, · · ·, У.кЛ пуа = щуи -j- «ajy -f ... -f /Vj7rt, /= = 1,2,..,^. (6.19) Нормальные уравнения (4.1) теперь дают яВ. = лу. (6.20) Поэтому мы имеем [ср. (2.17) гл. 9] /4 0 ... 0\ ЛМ, ^^tri-H^-B., в2-в.,..,вг-6.)Ρ'"0 χ \00 ...ηΓ/ Χ ^Γ^0' =trf-i(«,didi + .·. +"Ad;)=trS-1S*, (6.21) \(Β,.-Β.)7 где di = yi —у, S определена в (6.17) и S*=nIdidi+... +ΜΛ есть умноженная на (г—1) несмещенная оценка ковариационной матрицы J7-OB. Заметим, что /и10...0\/(ё1-В.)'\ /«ι 0...0\ Фг~Ь„..Лг-Щ .···)[ \ )=Фь..Л)[ · · · · X \оо...пг!\фг-ку; \оо ...nj /Βίλ χ : ] — «в\в:=itowfi*—frx^B4'. (6.22) Мы можем записать [ср. (6.6) гл. 10] кнъ Ηύ = tr Σ-ΨΧ^Χ1^—tr Σ^Χ^ίΚ (6.23 ) [предыдущее суммируется в табл. 6.3 (ср. табл. 6.2 гл. 10). Записывая табл. 6.3 в обычной для дисперсионного анализа форме, иы получаем табл. 6.4. J (Нь Ηύ= trS^S*= ^"У^Г? ^>™e ^ имеет F-распределение с [(г — 1)^(1 + с)] и [(я—г —£2+*)Х М1 + с)] степенями свободы, с =(г — 2)(£2 — 1)/(я — г), при справед- Ивости нулевой гипотезы Я2 из (6.11). Асимптотически величина
278 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. Π J(Hb #2) распределена как χ9 с k%(r — 1)степенями свободы.[Ср. непосредственный вывод у Кульбака(195б, раздел 5).] При г = 2 см задачу 12.14 и Андерсон (1958, стр. 108—109), Рао (1952, стр' 73 — 74). Таблица 6.3 Источник изменчивости Я2:В. Разность, между Разность, в пределах Итог Сумма квадратов пуу' П&61+ ... +nruru'r=S* ΥΎ —"ιΥιΥί— ··■ —η№ί = Νι$ι+ — ... +NrSr = NS Υ'Υ с. с. 1 г n—r η Таблица 6.4 Источник изменчивости Между В пределах Итог Сумма квадратов ΥΎ—пуу С. С. г —1 п — г л — 1 Статистика вида trS-1S* была впервые введена Лоули (1938) и Хотеллингом (1947, 1951). Асимптотическое поведение распределения этой статистики было исследовано Ито (1956), который дал асимптотическое выражение для процентных точек этого распределения через соответствующие процентные точки χ2 распределения с (г — 1)#з степенями свободы. 6.4. г выборок с одной и той же ковариацией Допустим, что мы имеем г независимых выборок, насчитывающих соответственно по пь i = 1, 2,..., г, независимых наблюдений из многомерных популяций с одной и той же ковариационной матрицей· Мы рассмотрим некоторые гипотезы, более общие, чем в разделе 6.3·
6] специальные случаи 279 6.4.1. Критерий значимости регрессии. Допустим, мы хотим проверить нулевую гипотезу //2, что не существует линейной регрессии, против альтернативной гипотезы Нь что существует общая линейная регрессия в г выборках. Для i-й выборки регрессионная модель записывается как [ср. (3.2), (6.9)] Ъг = Y, - ХпВ'п ~ Х£2В:2, (6.24) где Ζ£, Υ, определены в (6.9), χ/ι=0, ι,...»ι), 1Хщ, в;1==(рш> pni>...,piftii), Xf2 = (Xil» Xtb · · · у х£лД *iJ = (XiJb ·..» xijk^)> 1=1, 2, ..., г выборок, /=1, 2, ..., я,- наблюдений Β·* = (βΜ)> P=U 2, ..., Λ* q = 2, 3, ..., Λ1β Альтернативная гипотеза общей линейной регрессии формулируется как #ι:Βί; = (βΙιι. βί,ι,...,ΡΜ. Bi« = W. p=l, 2, ..., kbq = 2, 3, ..., fcu (6.25) и нулевая гипотеза отсутствия регрессии — как И,: В·; = (р?и> βϊΜ, ... .pfajO, B?2 = 0. (6.26) Мы можем записать объединенную регрессионную модель для г выборок при Ηχ как Z = Y-XiBif —ХЭД', (6.27) где Ζ и Υ определены в (6.12), fXlfi ... 0 , . U -«Цц ... U | Χί = I ·. ;л : |> XJ == (Χΐ2> Хде> · · ■ > Хгз) * ,0 0 Х'п В{ = (ВЬ, В5ь .... ΒίΛ B£=B.S. При //2 объединенная регрессионная модель для г выборок записывается как Z=Y — XfBf, (6.28) где Ζ и Υ определены в (6.27), Х{ = Х\' и Bf = (B12I> ВЬ В*,).
280 МНОГОМЕРНЫЙ АНАЛИЗ Таким образом, мы имеем [ср. (6.14)] ι 0 л*...0 , Xir γι Υ2 V2 Qi Q2 t Λχ — Λχ Λχ ] Ъц — 3ц, 1гл. и xj xj=l /XuXi2> Χ$ιΧ22 fn1x1 э12> (6.29) (6.30) ГДе Щ%1 = Xit -f- Х**2 -j- · · · ~~Γ Χ/»ί ===: (-^ί·2ί ^i-3> · · ·» ^i-ftj)» ^t-p=== -^ίΐρ H~ + -^гзр ~г · · ·"г -^ϊλ,- ρ* гх;=(у;хш γ;χΜ,..., урс#1)=(л1у1, /^у»...t /vyr)=irx;, (6.31) где у * определены в (6 Л 5), п. у х;=(γ;χΜ+γ;χ„+...+υ;χγ2)=ii уν х'г/ =. ϊ=ι y=i я. = (ΣΣ УшХцЛ ί=1, 2,..., ft„ о = 2, 3 ftlf (6.32) ,-=ι /=ι X'.1 = X»-XiSi71Sl2= Xl5 ХцХЛ ■ Xs A i — \Χ/·2 XrlX/*/ #1/112 -^12 Х\п\Ъ -#13 · · · Χ\ηφγ X\k\ #212 #22 #213 #23 · · · #21 k\ #2fci #2/i22 #22 #2п23 ~ #23 · · · #2nsfti ~ #2£i Xr\% Xr% #ri3 — #гз · · * #rifti ~ %rk\ #/-nr2 #/-3 #/7i/3 ^r3 · · · Xrnrk\ #rftij nX{h-\), (6.33) V т. e. XJ#1 есть я X (fti — 1) матрица лг-ов, центрированных относитель-
6] СПЕЦИАЛЬНЫЕ СЛУЧАИ 281 но своих соотвегственных выборочных средних. Из (6.33) и (6.31) имеем гхи=γ;χι2 - γ;χιιχ;+- -+γ^ - γ^χ,ιχ; = =Υί*ι*—rtfi*i+...+γ;χ,2—nryx= = N^ + ... + N^ = N8^ (6.34) где Νί = Πι — 19 Ν= Μ + Μ + ■ · · + Κ> $iyx есть несмещенная оценка £2 X (#ι — 1) матрицы ковариаций у-ов и л;-ов внутри i-Vi выборки и 8^ = 8^, Sk ==: Х2ГХз = Xl2 Xl2 "Т" Х22 Х22 -[-...-{- Х/-2Х/-2 = = 8Ш -|- S222 -f-... -f- Sr22, (6.35) где Sl22 = Xi2 X/2, / = 1, 2..., r, S22-1 === ^22 $21 S ц Sj2 = S22 (#lxl> #2X2> · · · > ^rXr) ($122 ~~ #1X1 Xi) ~Ь ' ' ' 4~ @V22 —' ^гХгХг) = MS^ + --- + ^S^ = ^S^, (6.36) где Sixx есть несмещенная оценка ковариационной матрицы лг-ов внутри /-й выборки. Из (5.7) и (5.11) мы имеем ъ\^Y'x^sy.,, ъ\=&19 уа>..., yr) —Bi(xlf χ*..., χΓ), fi? = (ylf Уа>...,уг). (6.37) Из (5.8) и (5.13) мы имеем (П - h + 1 - г) 2 = ΥΎ — пДД[ —... — пг?гуг — BJsJm В*' = = NSyy — B2S!swBj', (6.38) где NSyy = NjSiyy -f... + NJSryy и Эу/у есть несмещенная оценка ковариационной матрицы у-ов внутри Z-й выборки [ср. (6.17)]. Таблица 6.5 Источник изменчивости #2: (6.26) Разность #Г-(6.25) Разность Итог Сумма квадратов ηιΥι9'ι + - +пъУгУ'г NSyy^-BlSl2.1Bl, = (n-kl + \~r) t ΥΎ с. с. г /?!—1 fti —1 + г /г—ftj-f-l — Г η
282 МНОГОМЕРНЫЙ АНАЛИЗ UX ιί Мы подводим итоги проведенного анализа в табл. 6.5 (ср. табл. 5 η J(Hlt Щ _ trS Β^ηΛΒ2 = „_Λι + 1_Γ_^+1 г, где р имеет ^-распределение с [{kx — 1) k% (1 -f- с)] и [(η — &ι — k% — r-\- 2) у Χ (1 -j- с)] степенями свободы, с = (kx — 2) (£2 — 1)/(я — ^ι + 1 —- г) при нулевой гипотезе //2 из (6.26). Асимптотически величина J{Hb И) распределена как χ2 с £2 (kx — 1) степенями свободы. 6.4.2. Критерий однородности средних значений и значимости регрессии. Если вместо нулевой гипотезы #2 о том, что регрессия отсутствует [см. (6.26)], мы хотим проверить нулевую гипотезу, что регрессия отсутствует и средние значения однородны, против альтернативы Нь заданной в (6.25), мы должны рассмотреть нулевую гипотезу //3: ^4·Β|1 = Β.'1 = (β.11, β.21> ..., β.Λ ι), Β?2=0. (6.39) Результаты для Η± уже введены в разделе 6.4.1. Результаты для //3 подобны тем, которые получены в разделе 6.3 для //2, т. е. Х| = (Х11, Х21, ..., Χ/ΐ), §ц = Xf Xt = XjiXii -f- . . . -f- XrlXrl==: nl ~\· "~\ ftr=1t, у^=у;хи+...+у;хг1=п1у1+^У2+...+ягуг=пу, яВ.! = пу. (6.40) Таблица 6.6 Источник изменчивости Я3:(6.39) Разность Я2:(6.26) Разность Ях: (6.25) Разность Итог Сумма квадратов пуу' "!?!?;+- +nryry'r NSyy —§184ΜβΓ = (AT— ft» -f 1) Σ ΥΎ с. с. 1 г /г
СПЕЦИАЛЬНЫЕ СЛУЧАИ 283 61 Мы суммируем анализ, относящийся к Нь Нъ Н3, в табл. 6.6, яе SyV есть матРИ1*а S* в табл. 6.3 (мы обозначили ее так, чтобы показать отношение к j-ам). J (Hi, Ш — IT 2л [Ъуу -f- ВДв-ДО ) — (yv ^^ __j__ χ ^s—J— I) ' гДе F имеет F-распределение с [(^i-f-r— 2)£2(1 -\-c)\ и [(Ν—kt — __£2_|_2)(l-f-c)] степенями свободы, c:=(£1-}-r-—3)(£2—l)/(N—h~{-l) при нулевой гипотезе Нъ из (6.39). Асимптотически величина распределена как χ2 с (^i-f-r— 2)£2 степенями свободы, выражение trS-1S|y ПРИ (Г—1)^в степенях свободы служит критерием однородности и tr Е^ЩЗ^Щ' при fa — 1)^2 степенях свободы—критерием значимости регрессии. 6.4.3. Критерий однородности в предположении значимости регрессии. Предположим, что имеется одна и та же линейная регрессия во всех г выборках. Мы хотим проверить нулевую гипотезу однородности средних значений. Альтернативная гипотеза определяется как Их из (6.25) и нулевая гипотеза — как Я4:В|1' = В:1 = (р.11, Ub ..., β.*2ΐ)> Βί,=(β^), /7=1, ..., kb q = 2, ..., k±. (6.41) Результаты для Нх выведены в разделе 6.4.1. При гипотезе //4 мы видим, что [ср. (6.27) и (6.40)] Х1=(Х119 Х^, ..., ХГД Х2 =(Χΐ2> Хаз» ···> Xz-a)» (6.42) так что [ср. (6.40)] 84и = я, YXl = ny (6.43) и [ср. (6.32), (6.35)] Sfti=S1M + S« + ... + Sf«l ΤΧί = (Σ ЕЛ/Л/Л (6.44) /= ι y= ι ί=1, 2, ..., kb u = 2, 3, ..., kv Мы находим также, что [ср. (6.30)] i Λ2 = SJ2 = Х'пХп -(- XgiXsS -}-... + XriXr2 = = я^ -(- я^ + · · · + пЖг — η*'- (6.45) Таким образом, имеем [ср. (6.33)] /^*Д /Xll\ /Xl2 Хц^'\ Χϊ·ι =* X* - Xjsf^Si, = Ι ?* Ι — [ ?м J Xf = Ι X** Τ X**' ], (6.46) iX rV
284 многомерный анализ ira ц т. е. XJ.! есть η χ (kt — 1) матрица лг-ов, центрированных относительно своих соответственных средних значений, посчитанных по объединению выборок, и [ср. (6.34)] Y'X|.i = YjXhj — Y[Xn%r -{-... -j- YrXr2 — YrXriXf = =y;x12 — n^r+...+γ;χ^ — nryrr= =y;x12—/ity л+...+υ;χ^—nryrxr+ + ntf&l + - - - + nryrxr — пух! = N$yx + S**, (6.47) r где Syx определена в (6.34), S$x= ^ Щ (y£ — y) (xt — x)'> причем S*^ = S*j» S** есть ^2X(^i—1) матрица, пропорциональная несмещенной оценке матрицы ковариаций между у-ми и дг-ми, и [ср. (6.36)] ^22*1 == ^*22 ^21^11 ^12 == ^22 ΛΧΧ = Ь^^З ~Т~ · · · ~|~ ^/*22 ЯХХ = = S122 — ял^ -)-... -j- S^a — nrxrxr -j- njX^ -f-... .,. + λ,Χ/Χ; — «XX' = ^VS*P + Si*=SJa.1 + SiJe, (6.48) r где S^ определена в (6.36) и S**= ^ #i(x*— ^)(Xi— x)'· i = l Из (5.7) мы тогда имеем В* = YXUsCu В? = у - В*х, (6.49) где YfX2-i и Sn.t даны соответственно формулами (6.47) и (6.48). Мы суммируем анализ, относящийся к Ηχ и //4, в табл. 6 7. J {Hi, //4) = tr Σ"1 {Syy -\- BaS82alBa — B^S^g^B^ ) = _(r —1)M#—*i + Oc где F имеет F-распределение с [{г — 1)^(1 + с)] и [{Ν— kx — fta + 2)X Χ(1 -f-с)] степенями свободы, с = (г — 2)(&2 — 1 )f{N —kx+l), при нулевой гипотезе //4 из (6.41). Асимптотически величина J{Hb tfi) распределена как χ2 с k%{r — 1) степенями свободы. Заметим, что в обычном для дисперсионного анализа соотношении между суммами квадратов, «полная» сумма = «внутривыборочная»4~ «междувыборочная сумма», мы можем положить Y'Y — nyy' = S$ = NSyy + S$y, ^хх === Nbxx —ρ Ъхх, S% = NSyx+S*x. (6-5°)
каноническая корреляция 285 реличина (N— k± -f- 1) Σ == NSyy — NSy£xxSxy вычисляется через «внутривыборочные» величины, а Syy -\- В^а-А — Ba^aa-iBsi = &уу — (Sj/JS!* S*^ — NSyxSxxSxy) вычисляется через «междувыборочные» величины и разницу между «полным» выражением и «внутривыборочным». Таблица 6.7 Источник изменчивости Я*: (6.41) Разность ft: (6.25) Разность Итог Сумма квадратов nyy+ftlSjUej' iVSj.j, - 6lSlwe>' = (Ν— ft, +1) Σ Υ'Υ с. с. *1 г —1 ft,—1 + r Ν—ft,+ l π 7. КАНОНИЧЕСКАЯ КОРРЕЛЯЦИЯ Мы теперь рассмотрим критерии гипотез, связанных с канонической корреляцией, определенной в разделе 7 главы 9. Нам потребуются результаты анализа, приведенного в табл. 6.2. Для у-ов и лг-ов, центрированных относительно своих соответственных выборочных средних, мы имеем, согласно анализу, приведенному в табл. 6.2 J{Hl9 ^ = (n — kOtx^yy — Syfix^xy)^SyxSixSxy (7.1) Допустим, что мы, как в разделе 7 главы 9, примем у-ш за второе множество k% величин и дг-ы за первое множество (кг— 1) величин; вся популяция (kx—l)-f-^9 величин разбивается на эти множества. Если мы запишем в соответствии с системой обозначений раздела 7 главы 9 у у ~ Э22, Ъух = 5>21, Ъхх = Оц, Ъуу ОухЪххЪху = Sa$ ^21^11 ^12 == §22·1> Т0 (7.1) превращается в J{Hb Ηύ = (я — Αι) tr Si^SatSTi^a, (7.2) оценку параметрической величины (7.5) главы 9. Мы можем также выразить J(Hl9 //2) как (я — kx) раз повторен- Ую сумму k% корней (почти всюду положительных) характеристического уравнения I SaiS^Sjg — /Saa.i I = 0, (7.3)
286 МНОГОМЕРНЫЙ АНАЛИЗ j причем мы предполагаем, что &2^^ι — 1» так что ранг £2Х£2 мат рицы S2iSjiS12 равен £2. Заменяя S2a.i в (7.3) на $22 —· S^iS^ Sig, мы находим I $218и S12 —■ /S^.j | = 0 = | S^S^ S12 — r S221, ^7 ^ где /=r2/(l—r2), r2 = //(l+/). Величины г, таким образом опреде. ленные, являются наблюденными значениями коэффициентов канониче, ской корреляции Хотеллинга [Хотеллинг (1936); ср. (7.11) гл. 9]. Таким образом, мы можем записать (7.2) как [ср. (7.16) гл. 9] J(Hb Ηύ — {η — kx) tr S^S^S^ = (л — kx) (4 + 4 +... -f /Й2) ^ =(«-^(τ^+ϊ^+··-+τ^- <w> Для нулевой гипотезы //2:В2 = 0 результаты эквивалентны результатам для нулевой гипотезы, утверждающей, что в ((£х—1)-|- ^-мерной нормальной популяции множество первых^ — 1) величин не зависит от множества последующих k% величин (эта гипотеза рассматривалась в разделе 7 гл. 9). [Ср. Андерсон (1958, стр. 242), Сюй (1949, стр. 391—392).] (См. раздел 3.6 гл. 12.) Заметим, что члены в (7.5) зависят только от выборочных коэффициентов корреляции, так как, если элементы матриц Su, S12, S22 выражены через стандартные отклонения и коэффгц^енты корреляции, можно показать (это предоставляется читателю), что стандартные отклонения сокращаются и J(HU Щ = (я — kx) tr R^RuRriRi» (7.6) т. е. выражается через соответствующие корреляционные матрицы 8. ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 8.1. Однородность г выборок Выборки и гипотезы заданы также в разделе 6.3. Мы xonw провести анализ линейной дискриминантной функции, описанной в разделе 5 главы 9. Мы разыскиваем линейную дискриминантную функции Щ] = «'У ,7 = ojjtyi + <ЧУ т + · · · + «**>Ί/** (8Л) i=l, 2, ..., г, 7=1, 2, ..., я-, где уг/ определены в (6.9), т. е являются линейными комбинациями у, одними и теми же для кажд° выборки. [Ср. Бинэ и Уотсон (1956), Рой (1957, стр. 95—104).] ^ Таким образом, мы получаем для величин wtj в качестве oueHKi параметра в (5.5) главы 9 (ср. (6.21)) Ни, и, *=*£■ ^
ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 287 8] Значение а, для которого величина J(Hit Я2; w) максимальна, удовлетворяет равенству у S*a = /Sa, (8.3) ПР /—наибольший корень характеристического уравнения Где «- |S* —S| = 0, (8.4) которое имеет (почти всюду) ρ положительных и (k%—ρ) нулевых корней, причем p^mm(k%y г—1). Обозначая положительные корни в порядке убывания 1Ь 4 ..., 1р имеем 1(Ни Wi) = trS-*S* = /1 + 4 + ... + 'p = = J(Hl9 Щ /,) + ... + /(#„ Я2; lp\ (8.5) где J (Ни Η& Id — h есть (8-2) Для α, удовлетворяющего (8.3) с /=/j. Различающая эффективность линейной комбинации, соответствующей 1Ь может быть определена как (см. раздел 6 гл. 3 и раздел 5 гл. 9) Эфф.(/,)= '%*» - ,,+ί,j...+ff ■ Р.6) Асимптотически при нулевой гипотезе однородности Н% из (6.11) мы имеем х2-разложение [ср. Рао (1952, стр. 373)] J(Hh Я2; Ip) = lp \k% — (г — 1)|+1 степеней свободы S(Hb Щ /р-1) = 1р_х \К — (г — 1)1 + 3 степеней свободы ^-^ ■ ■ - ^ - · · · · (8.7) j (ни я*)=4 + 4+... ... + 1р=tr S-1S* £2 (** — 1) степеней свободы. Это следует понимать в том смысле, что сумма /т+1 +... + 1р асимптотически распределена как χ2 с (k^ — т) (г — 1 — т) степенями свободы, но что /т+1, ..., 1р имеют асимптотические независимые Ζ-распределения. (См. раздел 6.4 гл. 12.) °·2· Каноническая корреляция 4Ср. Марриотт (1952).] Выборки и гипотезы заданы так же, как в разделе 7. Мы хотим провести анализ линейной дискриминантной Функции, описанной в разделе 3.2. Мы разыскиваем линейную дискри- *инангную Функцию ^^ = ^ + ^4-.,+^^ /=1, 2, ..., я, (8.8) • одну и ту же линейную комбинацию j/-ob для каждого наблюдения.
288 многомерный анализ [гл. ц Таким образом, мы получаем для величин wt, как оценку параметра в (3.4) (в соответствии с гипотезами и обозначениями (7.2)) J(Hlf Я2; w) = ^ = (я — АО " 12 . (8.9) Значение α, для которого величина J(Hb Н2; w) в (8.9) максимальна, удовлетворяет [ср. (7.10) гл. 9] SaiSri Swa = /SM.ta, (8 Л 0) где I — наибольший корень характеристического уравнения |S21SriS12 —/8^1 = 0. (8.11) Заметим, что (8.11) то же самое, что (7.4), и (8.10) то же самое, что S^S^/S^a = г*§ша. Обозначая А2 положительных (почти всюду) корней в порядке убывания /ь /2, ..., 42, мы можем также записать разложение (7.5) как ННь H*i) = J(H1, Я2; /i) + ... + J№ Я2; 42), (8.12) где J(Hly Я2; /£) = (n — k1)li = (n — k1)rf/(l — г β есть (8.9) для а, удовлетворяющего (8.10) с /=/ίβ Различающая эффективность линейной комбинации, соответствующей /f, может быть определена, как в выражении (8.6). Асимптотически при нулевой гипотезе Я2:В = В2 = 0 мы имеем χ2-разложение 3{Н* Я2; 42) = (я - АО 42 = (я - АО г|2/(1 - г*я) kx — А2 степеней свободы ДЯь Я2; V0 = (я — Ах) 42_х = (я - Α,) r]U/(l - г%^) kx — А2--|-2 степеней свободы (8.13) НН* Я2; /О = (я — АО А = (я — АО г}/(1 - г?) Ai -f- A2 — 2 степеней свободы ΛΜ, Щ=(п~ АО Σ /г = (я-А0 Σ /1/(1 -г|) (Aj — 1)А2 степеней свободы. Как и в (8.7), это следует понимать в том смысле, что величина (я — АО (4ч-1 ~Ь · · · ~Ь 42) асимптотически распределена как χ2 с {kx — — 1 — m) (А2 — m) степенями свободы, но что (я—АО /m+i,..., (я — АО 4з имеют асимптотические независимые х2-распределения (См. раздел вЛ гл. 12.)
9] примеры 289 8.3. Обобщенное стъюдентово отношение (^-статистика Хотеллинга) Выборки и гипотезы заданы так же, как в разделе 6.1. Мы хотим провести анализ линейной дискриминантной функции, описанной в (5.2) главы 9. Мы можем трактовать это как специальный случай рассмотренной в разделе 8.2 ситуации, задавая Н% в (6.1) условием В2 = 0 и обозначая величины в (6.1), (6.2) и (6.3) как Х'Х = nSn = я, Υ'Χ = nS*A = лу, ΥΎ = nS», так что коэффициенты линейной дискриминантной функции (8.8) должны удовлетворять (см. (8.10) и (8.11)) равенству yyf« = /~Sy>of (8.14) где /—наибольший корень уравнения уг-4& η "УУ уу' —r*-^Y'Y (8.15) Здесь существует ровно один корень [ср. Андерсон (1958, стр. 108)] /= £y'S^y, J\Hb Ηύ = (η—1)1= nfSylyy = ηtrS^yy', квадрат канонической корреляции равен г2 = nf (ΥΎ)"1 у = η tr (ΥΎ)"1 yy' l+^y's^y N J УУУ и коэффициенты линейной дискриминантной функции имеют вид а —$ууУ. [Ср. рассуждения вслед за формулой (5.2) гл. 9.] Линейная Дискриминантная функция равна, таким образом, зд = а'у = y'S^y, и вектор коэффициентов линейной функции дг-ов, корреляция которой с w=a'y дает вышеуказанную каноническую корреляцию г, пропорционален a'B = yrS^y. [Ср. Фишер (1938).] 9. ПРИМЕРЫ Мы проиллюстрируем некоторые рекомендации предыдущих разделов численными примерами. Наша цель — демонстрация методики вычислений, а не законченный анализ проблемы.
290 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. П 9.1. Однородность выборочных средних Пирсон и Уилкс (1933) приводят данные, заимствованные у Шу- харта (1931) для пяти выборок по 12 наблюдений над прочностью на разрыву и твердостью_у2 алюминиевых заготовок. Желательно проверить, являются ли выборочные средние однородными. (Критерий однородности ковариационных матриц, обсуждаемый в главе 12, склоняег нас к принятию нулевой гипотезы, предполагающей, что ковариационные матрицы одинаковы.) Это соответствует анализу в табл. 6.3 при &2 = 2, г = 5, п1 = щ = ...щ= 12, # = 60. Пять выборочных средних равны [Пирсон и Уилкс (1933, стр, 356)]: Прочность уп =33,399 3*21 = 28,216 j31 = 30,313 3>41 =33,150 уЪ1= 34,269 Твердость 3>12 = 68,49 ί22 = 68,02 3?32 = 66,57 J42 = 76,12 3?δ2 = 69,92 Элементы матриц, соответствующие суммам квадратов, таковы: Между В пределах Итог Степени свободы г —1 = 4 η — г = 55 п— 1=59 У\ 306,089 636,165 942,254 У1 662,77 7653,42 8316,19 У1У2 214,86 1697,52 1912,38 т. е. 1 / 636,165 1697,52\_/11,5666 30,9004\ ~ 55\Ϊ697,52 7653,42/ \30,9004 139,153 )' 306,089 214,8б\ 214,86 662,77/ J(Hlt Яа) = trS-'S* = 56,3 = \^2+1 F или F==:6>91> что пРевы- шает 0,001 уровень значимости F-распределения при щ = 8 и #2 = 57 степенях свободы. Для 4 χ 2 = 8 степеней свободы мы находим из таблиц ^-распределения, что Ρ (Χ2^56,3)<[0,00001. Поэтому мы отвергаем нулевую гипотезу однородности. (Пирсон и Уилкс используют другую статистику, обозначаемую L2, с наблюденным значением 0,6896, для которой Ρ (L2< 0,6896) = 0,0000019.) Характеристи-
9] ПРИМЕРЫ 291 ческое уравнение (8.4) для нахождения линейных дискриминантных функций в этом примере есть I 306,089 — 11,5666/ 214,86 — 30,9004/1 214,86 —30,9004/ 662,77—139,153/ = 0. Квадратное уравнение дает корни 1г = 51,702, /3 = 4,614. Поэтому разложение, соответствующее (8.7), таково: J(Hlt tfs; /2)= 4,6 J(HU Я2; /1)=51,7 J(HV Я2) = 56,3 3 степени свободы 5 степеней свободы 8 степеней свободы Корень /2 для дальнейшего не существен. Поэтому мы приступим к отысканию коэффициентов линейной дискриминантной функции, соответствующей /,. При/=51,7 = /! уравнения (8.3) превращаются в — 291,906 — 1380,809 — 1380,809\/оЛ — 6531,445/ \oJ~~ ' т. е. 291,906^+1380,809^ = 0, 1380,809^ + 6531,445^ = 0, доставляя решение 02/04 =— 0,211. Таким образом, единственной существенной линейной дискриминантной функцией является функция w=yt — 0,211_у2, которая связана с корнем /1 = 51,7, 9.2. Каноническая корреляция Хотеллинг (1936) рассматривал приведенные Келли (1928, стр. 100) данные, касающиеся выборки из 140 учеников седьмых классов, где Х\ и х2 характеризуют соответственно скорость чтения и способность к чтению, гуг и_у2— соответственно скорость арифметического счета и способность к счету. Данные нормированы и корреляционная матрица Для 140 наблюдений равна R= 1,0000 0,6328 0,2412 ■ 0,0586 0,6328 j 1,0000 . - 0,0553 0,0655 0,2412 0,0586 — 0,0553 0,0655 1,0000 0,4248 0,4248 1,0000 f VR21 R22/ 10*
= 0 292 многомерный анализ [гл. ц Мы находим, что _/0,1303 0,0043\ RslR„Rls-^00043 a0048J, и характеристическое уравнение, соответствующее (7.4), I 0,1303 — г2 0,0043 — 0,4248г2 I | 0,0043 — 0,4248г2 0,0048 — г2 | дает корни г\ = 0,1556, г\ = 0,0047. Разложение, соответствующее (8.13), поэтому таково: J (Ни Н*; г|) = 137 г^—& = 0,6439 1 степень свободы J(Ни Щ rf) = 137 r-^-g = 25,2491 3 степени свободы _ 1 **1 J(Hh Щ =25,8930 4 степени свободы значимы при уровне 0,005. Существует, таким образом, только одна значимая каноническая корреляция, и коэффициенты соответствующей линейной дискриминантной функции должны удовлетворять (8.10) или эквивалентному уравнению 0,1303—0,1556 0,0043—0,1556 (0,4248)\ /V ^0,0043—0,1556(0,4248) 0,0048—0,1556 / \а2/ т. е. — 0,0253а! — 0,0618а2 = 0, — 0,0618^ — 0,1508а2 = 0, или а1/а2 = —2,44. Линейная дискриминантная функция есть функция w = —2,44_yj -j-_y2. [Эта функция соответствует второй из пары линейных дискриминантных функций в (7.19) гл. 9.] Мы отвергаем нулевую гипотезу, что _у-ки (скорость счета и способность к счету) не зависят от х-ов (скорость чтения и способность к чтению). Проверим теперь подгипотезу о том, что способность к чтению как характеристика несущественна, т. е. что коэффициент при х2 в регрессиях уг и _у2 по хх и х2 равен нулю. Мы вычислим значения, необходимые для анализа, содержащегося в табл. 5.1, не забывая о замечаний в конце раздела 6.2. В обозначениях раздела 5.1 мы имеем /1,0000 0,4248\ /Sn S12\_/1,0000 0,6328' = 1,0,4248 1,0000/' \S21 S22/= \θ,6328 1,0000 /0,2412\ _/—0,0553\ Y'Xl = Uo586J' YX*~\ °,0655JJ
9] примеры 293 SK#1 = 1,0000—(0,6328)2 = 0,599564, 0,2412 —0,0553\ /1,0000 0,6328 Г1 -G B1 _ (Y X) ( ) ^o,0586 0,0655/ \0,6328 1,0000 / /0,2412 —0,0553\ / 1,667878 —1,056433\ До,0586 0,0655/ \—1,055433 1,667878/' /0,460658 —0,346804\ (o,028607 0,047398/ Bl(XX)Blr = (YX)(XrXyl (XV) = /0,2412 —0,0553\ /1,0000 0,6328V-1 / 0,2412 0,0586\_ = Ιθ,0586 0,0655/\0,6328 1,0000/ \—0,0553 0,0655/ ~" /0,1303 0,0043\ ~" \0,0043 0,0048/ 1,2412 1,0586 /0,5 Bf=vx1sr1I=^,c л л /0,2412 \ /0,0582 0,0141\ BiSuBi' = ( (0,2412, 0,0586)= . 1 u * \0,058б)К J \0,0141 0,0034/ Табл. 9.1 соответствует табл. 5.1 и указывает подходящую форму анализа. Мы находим /0,8697 0,4205V"1 /0,1303 0,0043\_ \0,4205 0,9952/ \0,0043 0,0048/ / 1,4450 —0,6106\ /0,1303 0,0043\ = tr 137 =25,8930, V—0,6106 1,2628/ \0,0043 0,0048/ что, конечно, совпадает со значением, уже полученным с помощью канонических корреляций, и tr(0,8697 0,4205^ 0,0721 -0,00984 = ι6 ιβ= ι χ 2 χ 137 f 0,4205 0,9952/ \—0,0098 0,0014/ ' 137-2 + 1 или F = 8,02, что превышает 0,001 уровень F-распределения при пг — 2 и#2=136 степенях свободы. Поэтому мы отвергаем нулевую подгипотезу, что характеристика х2 несущественна. Подобный критерий может быть построен для подгипотезы относительно хъ но это мы предоставляем читателю.
294 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. И Таблица 9.1 Источник изменчивости Я2:В2 = (В?, 0) Разность ЯХ:В^(ВЬВ|) Разность Итог Сумма квадратов лр л , /0,0582 0,0141\ B2S В2 — I 1 1 " * V0,0141 0,0034/ b*s *·-{ °'0721 ~oms) 1,0,0043 0,0048/ 1,0,4205 0,9952/ γΎ__ /1,0000 0,4248\ \0,4248 1,0000/ c. c. 1 1 2 137 139 Вектор коэффициентов линейной функции лг-ов, чья корреляция с линейной функцией у-ов w = —^Д4 J'l+J'a дает каноническую корреляцию rl9 пропорционален α'Β, τ. е. [ср. (7.10) гл. 9] 0,460658 -0,346804\ 0,047398 1 = (—1,095, 0,894), 7 (—2,44, 1), v ;\0,028607 или ν = — 1,095*! -\- 0,894лг2. 9.3. Подгипотеза Рассмотрим нижеследующую корреляционную матрицу, используемую Томсоном (1947, стр. 30) для иллюстрации вычисления канонической корреляции, и Бартлеттом (1948) для иллюстрации соответствующих критериев значимости, полагая # = 20: 0,2 \ 0,8 * 0,3 R = / ι,ο / 0,1 0,6 1 0,7 \0,2 0,1 1,0 0,4 0,3 0,8 0,6 0,4 1,0 0,5 0,3 0,7 0,3 0,5 1,0 0,4 0,4 1,0/ Rn R12 R21 R<z% Мы соотнесем первые три строки матрицы с хи х%, хъ а последующие две строки с уь у%. Ввиду относительно больших значений корреляции х$ с Xj(0,6) и с х2(0,4), мы желаем проверить нулевую
9] ПРИМЕРЫ 295 подгипотезу о том, что х$ не вносит существенного вклада в дополнение к Χχ и лг2 в регрессию у-ов по лг-ам. Характеристическое уравнение, соответствующее (7.4), таково: 0,5434 0,3210 — 0,4г2 0,3210 — 0,4г2 0,6693 —г2 = 0. Его корни rf = 0,6850, г| = 0,4530. Разложение, соответствующее (8.13), выглядит как J(Hb Щ г|)= 16т^—2= 13,28 2 степени свободы 1 Г 2 J(Hb Щ г|)= 16-г^—а = 34,72 4 степени свободы 1 Гх J(Hb Щ = 48,00 6 степеней свободы Здесь все величины значимы при уровне 0,005, обе канонические корреляции значимы и имеются две существенные линейные дискри- минантные функции. В обозначениях раздела 5.1 мы имеем ууЦ1'0 °·4) (S'- М= 0,1 1,0 ^0,4 Ifij' \Sn Sj I \0,б 0,4 /0,7 0,3\ /0,5\ \0,2 0,8,/' ^ ^0,3/' /1,0 0,1Г» /0,6\ 8^ = 1,0-(0,6, 0.4)(αι χ;ο) (0;4) = 0,523232, Β1 (Χ'Χ) Β1' = (Υ'Χ) (Χ'Χ)-» (ΧΎ) = /0,7 0,3 0,5ΧΛ° ^n °fXli°'l °/\ /0,5434 0,32104 no «ο Λη ИМ 1.0 0,4 0,3 0,8)== 10,2 0,8 0,3,1 \φβ 0>4 J [^ 0>з/ Ιθ,3210 0,6693,1' ^г=у%8Гда=Г °'3)(ι>° 0ДГГ °'2)= \Ό,2 0,8Д0,1 1,0/ \0,3 0,8/ 1\& 0,5434 0,3212\ 0,3212 0,654δ]
296 МНОГОМЕРНЫЙ АНАЛИЗ 1ГЛ. II Табл. 9.2 соответствует табл. 5.1 и указывает подходящую форму анализа. Таблица 9.2 Источник изменчивости Я2:В*=(В?,0) Разность Я1:В1 = (В}1В» Разность Итог Сумма квадратов й*с 6^_/0'5434 °&12) ΒΛιΒι _(θ,3212 0,6545/ йх« &' ( 0т° -0'0002\ Β»!,"·»Β·- \_0,0002 0.0148J /0,5434 0,3210\ В1 Х'ХВ1' 1 1 №,3210 0,6693/ * /0,4566 0,0790\ ~~\0,0790 0,3307/ \0,4 1,0/ с. с. 2 1 3 16 19 /0,4566 0,0790V1 /0,; trl6 \0,0790 0,3307/ \0; = tr 16 [ l-o, 0,4566 0,0790V1 /0,5434 0,3210' 3210 0,6693 2,2845 —0,5457\ /0,5434 0,3210\_ 5457 3,1543/ ^0,3210 0,6693/ 3 χ 2 χ 16 : 48,00 = 16—2+1 F, или F=7,50, что превышает уровень 0,001 /^-распределения при «ι = 7 и и2:=17 степенях свободы. J (Ни Н^) = 48,00 является значением, полученным также при использовании канонических корреляций. tr 16 0,4566 0,0790V1 0,0790 0,0790V1 / Ο,ι 0,3307/ [—0; 0,0000 0002 -0,0002\ 0,0148 — 075 — JX2X16 ρ = 0,75— 16_2+1F ИЛИ F=0,35, что не превышает 3,683 — 0,05 точки ^-распределения при щ = 2 и щ=15 степенях свободы. Поэтому мы принимаем нулевую подги- потезу о том, что величина х% дает незначимую информацию.
9] ПРИМЕРЫ 297 Чтобы проверить аналогичную подгипотезу о паре величин xif л:3, мы имеем /ι,ο ; ο,ι о,б\ о,,; ι,ο и . v%=p, ™,_(£ JJJ). \0,6 ; 0,4 1,0/ /1,0 0,4\ /0,1\ /0,99 0,34\ *" = (<М ,.o)-(o,6)(OA °·6) = (θ,34 «да)' - - , , /0,7\ /0,49 0,1 В^ВГ = ГХ^Х;У=У (0,7, 0,2)=(014 оо Таблица 9.3 соответствует таблице 5.1 и указывает подходящую форму анализа. Таблица 9.3 Источник изменчивости Разность //i:B* = (BJ, В» Разность Итог Сумма квадратов *.о п%, /0>49 0>14\ B?S»B— (θ,14 0,04) ήις m'_/0'0534 °'181(Л /0,5434 0,3210\ В'ХГХВ1Г = \0,3210 0,6693/ Л /0,4566 0,0790\ 16Σ = 1,0,0790 0,3307/ \0,4 1,θ/ с. с. 1 2 3 16 19 trl6 (°ЛШ 0,0790V"1 /0,0534 0,1810\_ \0,0790 0,3307/ \0,1810 0,6293/ = 30,54 = ^2^fi или F = 7,15, что находится между 4,772 и 7,944 — 0,01 и 0,001 точками F распределения при /^ = 4 и щ=16 степенях свободы. Поэтому мы отвергаем нулевую подгипотезу о том, что обе величины лг2 и хз не существенны.
298 многомерный анализ [ГЛ. 11 Таблица 9.4 Источник изменчивости •^3-12 В1 Разность Итог Сумма квадратов Y'XS-X'Y-f0,49 °М) VXlbltXlY-[o,U 0,04J γ·χ s-» χ' γ-/0·0534 °'m2\ ΥΛ2·Λ2·ιΛ2·ιΥ_Ιθ,1812 0.6145J γ-χ s-« χ- γ-( 0,000° ~om2\ /0,5434 03210\ Y'X(X'X)-.X'Y=(03210 o6693) ^_/0,4566 0,0790\ [ 0,0790 0,3307) Ιθ,4 1,0/ С. С. 1 1 1 3 16 19 Наконец, если мы рассматриваем подгипотезу относительно лг-ов с разбиением на три части, то в обозначениях раздела 5.2 мы имеем: /S,i S» S,3\ /1,0 0,1 0,6^ Sal S», SS3 = 0,1 1,0 0,4], S33., = 1,0-(0,6)a = 0,64, \S3i S3S S33/ \0,6 0,4 1,0/ S^.^ 0,4 —(0,6) (0,1) = 0,34, 8^=1,0 —(0,1)2 = 0,99, S33.12 = 0,64 - (0Ю<№> =0,523232, /0,08\ /0,23\ 1 / 0,0010\ Y'X3.1S = ^18j-^78j— (°.34)-^_0,0879j' ' /0,7\ /0,49 0,14\ Y'X1S71,XJY= (0,7, 0,2)= 1, 1 " M ^0,2/ K ' ^0,14 0,04/
10) РЕПАРАМЕТРИЗАЦИЯ 299 /0,23\ ι /0,0534 0,1812\ / 0,00l0\ ι Y'X3.iaS33'.12X3.lsY = (_0>0879j o^2(0'0010· -0.0879) = _/0,0000 —0,0002\ _ (θ,0002 0,0148) ' Принимая во внимание (5.19), мы суммируем эти результаты и табл. 9.2 и 9.3 в табл. 9.4. /0,4566 Ο,ΟΥΘΟΧ-1 /0,49 0,14\ tr 16 I „ L =17,46 2 степени свободы, ^0,0790 0,3307,/ V0·14 0,04/ /0,4566 0,0790\-» /0,0534 0,18124 trl6U790 0.3307J Ul812 0,6145J = 29'79 2 "епени свободы, /0,4566 0,0790\-ν 0,0000 —0,0002\ tr 16 (θ,0790 0.3307J (-0,0002 0,0148J = 0'75 2 «епенисвободы. 10. РЕПАРАМЕТРИЗАЦИЯ 10.1. Гипотезы с неполным рангом (Ср. раздел 9 гл. 10.) Допустим, что компоненты строк матрицы В в (3.1) не являются линейно независимыми, но для каждой строки они являются линейными функциями одних и тех же p<^kt параметров, т. е.; В = ГС, (10.1) где Γ = (γί7), G' = (gJk)y i = ly 2,..., къ j=l9 2,..., ρ, k = l, 2, ..., kif G' имеет ранг p<^kx и Г — ранг min(p, £2). Из этого следует, что матрица X в (3.2) имеет ранг p<^kx и обратно, так что Х'Х теперь положительная (но не положительно определенная) матрица ранга p<^kl9 поэтому она является вырожденной и не имеет обратной, так что мы должны пересмотреть решение для В в (4.1). Мы можем записать (3.2) как Z = Y~XGr = Y —AF, (10.2) где А = ХО есть η>ζρ матрица ранга р. Оценка Г по методу наименьших квадратов выводится из нормальных уравнений [ср. (4.1)] ΓΑΆ = ΥΆ или fCX'XG = Y'XG. (10.3) Оценка В получается из В = ГС, или В = Y'XG (G'X'XG)"1 G'. (10.4)
300 МНОГОМЕРНЫЙ АНАЛИЗ 1ГЛ. 11 Из (10.2) и (10.3) мы видим, что Г = Y' А (А'А)"1 = (Г + Г АО А (А' А)"1, так что £(Г) = Г и E(B) = E(t)G' = TG' = B, т. е. Г и В являются несмещенными оценками соответственно Г и В. В соответствии с (4.3) имеем J(Ни Щ 0„) = tr-i-1^ — Γ^ΑΆίΓ1— Γ2)' = = tr ί"1 (f1 — Г2) G'X'XG (f1 — Г3)' = = tr ΊΓ1 (В1 — В2) Х'Х (В1 — B9)', (10.5) где (η—ρ) Σ = ΥΎ — Γ * Α'ΑΓ1; = ΥΎ — ΒΉ'ΧΒ1'. Заметим (см. (10.3)), что BX'XG = Y'XG изображает k^p линейных функций от _дюв, которые распределены нормально и являются также линейными функциями величин р. Это несмещенные оценки одних и тех же линейных функций величин β. Так как BX'XG = = Y'XG = fG'X'XG, мы можем высказать аналогичные утверждения относительно величин γ и их оценок. Рассмотрим теперь любое другое множество k$p линейных функций от j-ob, скажем Y'L, где L есть η Χ ρ матрица ранга р. Так как ^YX) = £(Z/ + BX')L = BX/L = rG'XL, (10.6) то Y'L является несмещенной оценкой Г, если G'X'L=:Ip, где 1р — единичная матрица. Чтобы получить ковариационную матрицу линейных функций от у, мы поступим следующим образом. Вместо разбиения матрицы Y', данного для (3.2), мы рассмотрим разбиение Y'= · · S/ = (Vy> У*р...>Упа (Ю.7) так что (10.8) где £jL есть 1 χ ρ матрица, изображающая ρ линейных функций от η наблюденных значений у-й величины у. Введем в рассмотрение pk^ X 1
ιοί РЕПАРАМЕТРИЗАЦИЯ 301 матрицу (10.9) и запишем ковариационную матрицу pk% линейных функций из (10.8) как /V cov (ЬК) L V cov (Ш L... U cov №2) L L' cov (ζ£) L L' cov (Ш L... I/ cov (6ft.) L W cov (U£) L I/ cov (£*,£) L... V cov(b,Ei.) LJ 1/оц1яЬ L'o13InL... Uotk2lrX< \ 1/σ2ιΙΛί I/o^I^L... 1/с2£21Д, | _ \LOft2lIftL 1Л^221Д,... Uok2k2lnL/ onUL o13L/L... OiftsLfL \ o21L'L o22L'L...o^L'L =(Σ) χ . (l/L)> (10Л0) \Ok2iVL σ*2βΙΛ/... C£2fc2L/L / где ΙΛ есть я χ я единичная матрица и Σ — ковариационная матрица j. Запись (Σ) Χ · (L/L) обозначает кронекерово или прямое произведение матриц [определенных последними двумя членами равенства, Мак- Даффи (1946, сгр. 81—88), см. также Андерсон (1958, стр. 347), Корниш (1957)], причем (S)X-(L'L) есть /?£2Х/?£2 матрица. Аналогично, записывая £А(А'А)-*ч ЬА(А'А)-1 \ γ,Α(Α,Α)Λ (10п) .^2A(A'A)-V Υ/— (Τ/ι> Ъ'г> ···' Ъ'р) и рассматривая pk% элементов Г по порядку их расположения в 1 Хр£2 матрице (γ,', у% ..., γ^), мы имеем для оценок элементов Г
302 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11 ковариационную матрицу / (А'АГ А'ои1«А (А'АГ1 ... (А'АГ» А'е,Й11»А (ΑΆ)"1 / (А'АГ1 A'a^UAiA'Ay1 ... (ΑΆ)"1 Α'σ3*2Ι„Α(ΑΆ)"1 \(ΑΆ)-ι Α'σ,2ΐΙ„Α(ΑΆ)"» ... (ΑΆ)"1 Α'β*ΛΙ„Α(A'ArV σ„ (А'А)"» о« (А'АГ ... cik, (А'А)"1 о,, (А'А) 1 βΜ (А'А)"1... a2fts (А'АГ1 W^iA'A)-1 σ^ΑΆ)"1... сы, (ΑΆ)"1/ = (Σ) Χ · (ΑΆ)-1 = (Σ) Χ · (G'X'XG)-1, (10.12) матрицу размера pk$ X pk$. Аналогично, записывая δ=(^|. &=(fo. Ρ/»···.Ρ/·α (Ю.13) мы получаем для ^^2 элементов В ковариационную матрицу (Σ) Χ · (G (G'X'XG)-1 ОГ). (10.14) По лемме 5.4 главы 3 при k = n, r=p, Β = σι£ΙΛ, £=1, 2, ...,&2 (Ift — л X η единичная матрица), С = L, U = G'X', UC = G'X'L = Ip, auUL S* о и (G'X'XG)-1, (10.15) где неравенство обозначает, что квадратичная форма с матрицей o^L'L больше или равна квадратичной форме с матрицей си (G'X'XG)"1. Из (10.15), (10.12), (10.10) и леммы 5.1 главы 3 мы заключаем, что компоненты Г обладают наименьшими дисперсиями среди всех линейных функций от у> которые являются несмещенными оценками Г. Аналогично Y'LG' есть несмещенная оценка В, если G'X'L = Ip, и, так же как выше, мы можем заключить, что auGL'LG ^o/fG(G'X'XG)1 G', (10.16) откуда мы делаем вывод, что компоненты В обладают наименьшими дисперсиями среди всех линейных функций от j/, которые являются несмещенными оценками В. Значение У(1, 2; Оп) и его оценка одни и те же для любой репа- раметризации, как показано в (10.5). Так как существуют только ρ линейно независимых линейных функций от элементов строки матрицы В, то любое такое множество ρ линейно независимых функций
10| РЕПАРАМЕТРИЗАЦИЯ 303 может быгь получено из любого другого такого множества с помощью невырожденного линейного преобразования. Наш вывод основан на том, что информационные функции инвариантны относительно невырожденных преобразований (см. раздел 4 гл. 2 и раздел 3 гл. 9). Мы покажем, что элементы Г являются достаточными оценками. В модели (10.2) возьмем для удобства Г2 = 0; тогда 7(1, 2; Ο,^ττΣ^ΓΑΆΓ. (10.17) Мы видели, что матрица (γ/, у%у ..., γ^2) нормально распределена со средним (\[, Yg, ..., \k2) и ковариационной матрицей (Σ) Χ - (А'А)"1. Так как матрица, обратная прямому произведению матриц, равна прямому произведению обратных матриц [Мак-Даффи (1946, стр. 82)], мы имеем /Yi J(l, 2; Υ) = ίτ((Σ-*)χ.(ΑΆ))\ Ъ |(Yl'f ^ ..., γ*2); VA))h = ΣΣ ^tr ΑΆγ,γ;= 2 2 Α/ΑΆγ* (10.18) ΑΆ(Υι> γ* ..., γ*2) = γ;ΑΓAYl γίΑΆγ2 ... γίΑΆγ*2 \yi8ΑΆγ! γ*2ΑΆγ2 ... γ*2ΑΆγ*2 у так что tr Σ-ΤΑ'ΑΓ = 2 2 ^WMfi (10.19) i — 1У — I и так как ои = ^\ мы имеем из (10.19) и (10.18) J(l, 2; Oft) = J(l, 2; f). (10.20) По теореме 4.2 главы 2 мы заключаем, что Г является достаточной оценкой. Пример ЮЛ. Используя данные раздела 9.2, т. е. \— 0,6106 1,2628/' \0,6328 1,0000/'
304 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11 мы имеем 1,4450 (Σ"1)Χ-(Χ,Χ) = 137 = 137 ' 1,0000 0,6328\ пяшяП»0000 0,6328V °'6106V0,6328 1,ΟΟΟθ)\ Ь26281о,6328 UOOOOJ/ \0,6328 1,0000/ fi /1,0000 0,6328\ V"0i6106io,6328 1,ΟΟΟθ] 1,44500000 0,91439600 0,91439600 1,44500000 ^ — 0,61060000 —0,38638768 \_ 0,38638768 — 0,61060000 Мы находим, что 137 (0,460658, —0,346804, 0,028607, 0,047398) χ ( 1,44500000 0,91439600 —0,61060000 — 0,38638768^ -0,61060000 -0,38638768 1,26280000 0,79909984 0,38638768 0,61060000 0,79909984 ,' 1,26280000^ X \: 0,91439600 -0,61060000 -0,38638768 1,44500000 —0,38638768 -^0,61060000 1 — 0,38638768 — 0,61060000 1,26280000 0,79909984 0,79909984 / 1,26280000/ X 0,460658> -0,346804 , _mtr 0,028607/ 0,047398/ что подтверждает (10.19). l-ο,ι 1,4450 ,6106 -0,6106\ 1,2628/ /0,1303 0,0043\ iQQfi/fO Π ΠΑ/ΙΟ Ι ^tOtfuU, ),0043 0,0048/ 10.2. Разбиение Если гипотезами предусматривается разбиение параметров на два множества, например как в (5.2), возможно, что линейные соотношения между строками параметрической матрицы существуют только в одном из множеств разбиения. Здесь необходимо применить процедуры раздела 10.1 только к одному из множеств разбиения. Итак, допустим, что в (5.2) л X qx матрица Xt имеет ранг т <Г qv Это означает [ср. (ЮЛ)], что В^ВД, (10.21) где Γι = (γ^), G;=(^), ί=1, 2, ..., &2, y = l, 2, ..., m, k=l, 2, ..., qb G[ имеет ранг m<^q1 и Ti — ранг min(#z, &2). Результаты раздела 5.1 применимы, если Bt и Bt заменены в различных формулах соответственно на Ft и Γι, Χι на XiGi и число (п — qt) степеней свободы на (п — т) степеней свободы. Оценка Ъг получается из Bj = TiGj. Таким образом, например, Sn в (5.6) заменится на GiSnGi, где S11 = X^X1, и S12 на 0[БП) где S12 = XiX2. Подобные замечания приложимы также к разбиению на три множества, как в разделе 5.2, если одно из множеств не имеет полного ранга.
12] ЗАДАЧИ 305 11. ЗАМЕЧАНИЕ Читатель несомненно заметил сходство аргументации и результатов в главах 10 и 11. Мы теперь фактически покажем, как многомерный аналог таблицы дисперсионного анализа может быть получен из таблицы, соответствующей подходящему выбору модели линейной регрессии в (3.1) главы 10. Рассмотрим многомерную регрессионную модель (3.2) Ζ = Υ — XBf. Возьмем в качестве ar — (av с^,..,, ak2) любую действительную 1 X А2 матрицу, в которой по крайней мере одно из α не равно нулю, и вычислим, исходя из (3.2), выражение Ζα = Υα — ΧΒ'α. (11.1) Мы получим эквивалент регрессионной модели (3.1) главы 10, если положим ζ = Ζα, y = Ya, β = Β'α. (11.2) В колонках таблиц главы 10 (или полученных методами главы 10), содержащих суммы квадратов, заменим у на Υα и β на В'а. В результате приходим к квадратичным формам относительно величин а. Так как соотношения между этими квадратичными формами тождественны относительно величин а, мы получаем столбцы соответствующих сумм квадратов для многомерного аналога с матрицами квадратичных форм от величин а. Это становится очевидным, если мы сравним табл. 5.1 в главе 10 и табл. 5.1 в главе 11, не забывая, что kt в главе 11 есть ρ в главе 10 и qt в главе 11 есть q в главе 10. Аналогичные замечания применимы и к репараметризации, так как из (10.2) мы имеем Za=Ya —XGFa, (11.3) что эквивалентно (9.2) главы 10, если положить z = Za, y = Ya, γ = Γα, A = XG. (11.4) 12. ЗАДАЧИ 12.1. Выведите нормальные уравнения (4.1). 12.2. Проверьте (5.16) и (5.17). 12.3. Проверьте (5.18) и (5.19). 12.4. Проверьте (7.6). 12.5. В разделе 9.2 проверьте нулевую подгипотезу о том, что коэффициент при хх в регрессиях у1 и у2 по х1 и х2 равен нулю. 12.6. Рассмотрим следующие данные из задачи, обсуждаемой Бартлет- том (1947, стр. 177); здесь г = 8, £2 = 2, /1 = ^ + --- -fn8 = 57, /136972,6 58549,0\ V 58549,0 71496,1/' _/ 12496,8 —6786,6 \ *~V_ 6786,6 32985,0/"
306 МНОГОМЕРНЫЙ АНАЛИЗ [ГЛ. 11 (а) Являются ли восемь выборок однородными? (б) Вычислите существенные линейные дискриминантные функции, если таковые имеются. 12.7. Рассмотрим следующую корреляционную матрицу, полагая я = 20: R = Ί,Ο 0,5 0,3 0,8 0,1 0,5 1,0 0,4 0,7 0,3 0,3 0,4 1,0 0,2 0,8 0,8 0,7 0,2 ι,ο 0,4 0,1> 0,3 0,8 0,4 1,0' | /Ri. RM\ \R2i R22/ Проведите анализ, аналогичный анализу раздела 9.3. 12.8. Фостер и Рис (1957, стр. 241) приводят следующую несмещенную оценку ковариационной матрицы (число степеней свободы равно 82): 5,77 4,90 ! 3,83 — 1,95\ 12,36 8,33 ! 39,14 — 44,75 S = 10-*( 4,90 8,33 11,88: 28,38 —30,95 "39,14■" 28,38 1 ЩЖ" — 261,52 j — 44,75 —30,95 ; —261,52 388,31У (Sii S12\ ^21 ^22/ Если первые три строки связать с х19 xZj хь, а последующие две строки — с Уи Уъ будут ли регрессии уг и у2 по х19 лга, xs значимыми? 12.9. Проверьте (4.4) с данными из раздела 9.3, предполагая В = 0. 12.10. Корниш (1957, стр. 25) приводит следующие матрицы [я переписал их в соответствии с обозначениями, использованными в (4.4)]: / 0,072948 — 0,000524\ В=0, В = ( 0,022898 0,000619), \—0,089651 —0,001473/ __/ 175,2654 — 722,3850\ ~~ V— 722,3850 19855,5000/ ' / 1138,265050 —161,151320 215,304630\ £-*=(— 161,151320 534,296632 — 125,495288 ]. V 215,304630 —125,495288 199,183242/ Корниш (1957) получил для правой части (4.4) значение 950,06. Проверьте это, вычислив значение левой части (4.4). 12.11. В обозначениях раздела 5 покажите, что: (а) XJX^O. _ (б) Х2Х2#1 — S22#1 — Xa*iAfial. (в) 62 = Y'X^S^ = Ζ'Χ,.^ + BJ. (г) Ковариационная матрица k2q2 элементов β J есть (Σ) Χ · (S^). (Д) Хз«12Хз«12 ζ==' ^33·12· (е) В3 = Y'X3.12S"3Sl12 = Z'X3.12S^31.12-|-B3. (ж) Ковариационная матрица k2qs элементов В3 есть (2) X · (S^s{12). (в) | S | = | SiA | -1 SeM I -1 Se,.A, |. (и) Х2.1Х3.12=0. 12.12. Подведите итоги разделу 5.2 в таблице, аналогичной 5.1, при //i:B' = (Bb В2, В», tf2:B* = (B?, Bf, 0), Я3:В3 = (В*, 0, 0).
12] ЗАДАЧИ 307 12.13. Обобщите результаты, приведенные в разделе 5.2, для подгипотезы с разбиением на четыре части. 12.14. В разделе 6.3 покажите для двух выборок (г = 2), что: (б) J(Ни Н2) = tr S^S*=;г^г (у,- у2)' S-* (у,- у2). (в) (пх -f- п2 — k2 — 1) пгщ k2(n1 + n2 — 2)(n1 + n2)yifl где F имеет F-распределение с k2 и щ-^^ 1 степенями свободы. [Ср. Андерсон (1958, стр. 108—109), Рао"(1'952, стр". 73—74, 246—248),] 12.15. Используя лемму 5.4 главы 3, покажите, что ΥΎ ^ (Υ'Χ) (Х'Х)"1 Χ χ (ΧΎ), где Χ, Υ определены в разделе 3. (Вспомните замечание, следующее за леммой 5Л гл. 3.) 12.16. Покажите, что (см. раздел 4) Ι ΥΎ Υ'Χ Ι |(η —Λ,)ϊ| = Χ'Υ XX (Ср. задачу 4.6 гл. 10.) IX'Xj
ГЛАВА 12 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ 1. ВВЕДЕНИЕ В предыдущей главе мы изучали критерии линейных гипотез для выборок из многомерных нормальных популяций при основном предположении, что все популяции имеют одну и ту же ковариационную матрицу. Теперь мы отбросим это предположение относительно ковариационной матрицы и рассмотрим некоторые гипотезы о самих ковариационных матрицах. 2. ПРЕДПОСЫЛКИ В разделах 1 и 2 главы 9 мы видели, что для двух А-мерных нормальных популяций Ν(μί7 Σ;), Ζ=1, 2, /(1:2; Оя) = я/(1:2) = /(1:2; х) + 7(1:2; S), (2.1) где 7(1:2), 7(1:2; х) и 7(1:2; S) даны соответственно формулами (1.2), (2.1) и (2.4) главы 9. Рассмотрим выборку От насчитывающую η независимых наблюдений из ^-мерной нормальной популяции Ν(μ,Σ) со средним μ' = =(μι> \Η> · · · > V-k) и ковариационной матрицей Σ=(σ£/), /, у" = 1, 2,.., А. Производящая функция моментов выборочных средних х=(хь хь..., Jck) и элементов несмещенной оценки ковариационной матрицы S = (s£j), l9 j=l, 2, ..., k9 при N степенях свободы известна и равна [Андерсон (1958, стр. 36, 53, 160), Уилкс (1943, стр. 121)] Λί (τ, Т) = ι*-4ΣΤ -Ν/2 !6χρ(^μ + 4τ^Στ), (2.2) где Гг = (т1, τ2, ..., τΛ), Τ = (τί7), /, /=1, 2, ..., &. Для сопряженного к Ν(μ2, Σ2) распределения со средним значением μ* (см. раздел 4 гл. 3) 7(*:2; χ) = τ'μ* -τ'μ2-1 г'-^Σ,τ, (2.3)
2j ПРЕДПОСЫЛКИ 309 где (ср. пример 4.2 гл. 3) μ* = μ + ^Σ2τ. (2.4) ГО дифференцировании матриц, необходимом для (2.4) и (2.7), см. задачи 10.2 и 10.3 гл. 9, Димер и Олкин (1951, стр. 364).] Из (2.4) находим τ = /ιΣ^(μ* — μ3) и (2.3) дает /(*:2; χ) = |-(μ*-μ2)Έϊ1(μ*~μ·2). (2.5) Заметим, что 7(1:2; х)^>/(*:2; х) для μ* = μ1 и Σ! Φ 22 и чго сопряженное распределение есть ^-мерное нормальное распределение Ν(μ*, Σ3). Для сопряженного к Ν(μ%, Σ2) распределения с ковариационной матрицей Σ* N. 'Ν Ι*~2^Σ2Τ (2.6) /(*:2; S) = trTE* + ylog где (ср. пример 4.4 гл. 3, см. задачу 10.3 гл. 9) Σ*=(ΐ* -21ς3τ)_1Σ2· (2.7) Из (2.7) находим Ί~γ(Σ? — Σ*"1), и (2.6) дает 7(*:2; 8)=^(ΐο8]||ί-Α + ίΓΣ*Σί1). (2.8) Заметим, что 7(1:2; S)=/(*:2; S) для Σ* = Σ1. Вследствие независимости χ и S в выборке из многомерной нормальной популяции мы имеем (ср. пример 4.3 гл. 3) /(*:2; х, 8)=^· —fm-lf ■i-L8T + trTL* + Ι,-2-1ς2τ|, (2.9) 2 гДе т и Τ даны соответственно в (2.4) и (2.7), или '(*:2; X, S) = /(*:2; X) + /(*:2, S) = ^1(μ* -μ2)'ν(μ* - μ2) + ^ (log|||i - k + ίτΣ^ή. (2.10)
310 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 3. ОДНА ВЫБОРКА Допустим, что мы имеем случайную выборку в η независимых наблюдений из ^-мерных нормальных популяций. Пусть х' = = (Хи %ъ ..., %k) и S = (sfy), i, y=l, 2, ..., k, соответственно обозначают выборочные средние и выборочные несмещенные дисперсии и ковариации с N степенями свободы. Мы рассмотрим критерии для проверки некоторых гипотез о нормальных популяциях, из которых была произведена выборка. 3.1. Однородность выборки Допустим, мы хотим проверить нулевую гипотезу однородности, т. е. что наблюдения в выборке принадлежат одной и той же k- - мерной нормальной популяции с заданной ковариационной матрицей Σ, против альтернативной гипотезы, что наблюдения принадлежат k- мерным нормальным популяциям с различными средними, но одной и той же заданной ковариационной матрицей Σ (ср. пример 4.1 гл. 5). Мы обозначим нулевую гипотезу #2(μ|Σ) или #2(·|Σ) (3.1) в соответствии с тем, задано общее среднее или нет, и альтернативную гипотезу Μ(μ,|Σ) или Μ(·|Σ) (3.2) в соответствии с тем, заданы различные средние или нет. Используя выборочные величины в качестве статистики Т{х) и полагая η и(*)=Д |2Jsii'2ехр (—т(х*—μΣ-1(χ*—»*))> мы имеем [ср. (4.8) гл. 5 и (2.3), (2.4) в данной главе] η /(*: 2; Оп) = 2 («Λ - *&» - у *3»ι), (3.3) где ii удовлетворяет χί = μ~|-Σίί. Тогда мы имеем /(*: Я2 (μ| Σ))=2 γ(х* ~ НУ Σ_1 (х«" ~ М)· (3·4) Если μ не задано, то величина /(*: Н% (·| Σ)) = min /(*: 7/2(μ| Σ)) равна μ η /(* :Я2(.|2))=2 γ(χ« - χ)' *\*t - П (3.5) где хг — (хь х* ..·, Ч\
3] ОДНА ВЫБОРКА 311 С другой стороны, при той же самой статистике Т(х)у но с η мы имеем [ср. (4.11) гл. 5 и (2.3), (2.4) в данной главе] η '(*:2; 0„) = 2(ΐίχ,-*ίμι—J-*^,), (3.6) где ii удовлетворяет Χ£ = μι-|-Σί|. Мы тогда имеем η /(* ιΗχ (μ, Ι Σ)) = J у (χ* ~ Μι/ Σ'1 (χ* - ^ (3·7> £=1 Если μ£ не заданы, то величина /(* :Нх(·12)) = min /(* :Ηχ(μχ\Σ)) равна **f /(»:Μ(.|ϊ)) = 0. (3.8) Если сопряженное распределение в (3.3) принадлежит совокупности ^-мерных нормальных популяций с общим средним, тогда μ* = ... = μ* означает, что μ -j- 2xt = ... = μ -\~ Στη или что допустимы только значения Τι = ... = τη = τ. С эгим ограничением (3.3) дает /(Я2 (.| Σ): 2; 0п) = п?х — ηΐμ — ~ *ΊΛ, (3.9) где f удовлетворяет χ = μ-}-Σΐ, и (3.9) превращается в /(^(·|Σ):2; 0п) = ± (х - μ/ Σ"1 (χ - μ). (3.10) Заметим, что [ср. (4.17) гл. 5] Σ (х« - Μ)' Σ"1 (χ, - μ) = 2 (Χι - χ/ Σ"1 (Χι - Ю + «■=1 £=Ι + η (Χ -μ/ Σ'1 (Χ -μ), (3.11) т. е. /(*:^(μ!Σ)) = /(*:^(-|Σ)) + /№(·|Σ):2; 0„). (3.12) Гипотеза 7/2(μ|Σ) есть пересечение двух гипотез: (ϊ) выборка однородна и (ii) средним значением однородной выборки является μ. η Величина 2/(*: Я2 (·12)) = 2 (х* — ХУ 2"1 (х* — х), которая распре- Делена как χ2 с {п—l)k степенями свободы при справедливости нулевой гипотезы, служит критерием однородности. Величина
312 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 2/(//2(·|Σ):2; Οη) = η(χ — μΧΣ~*(χ— μ), которая распределена как χ2 с k степенями свободы при нулевой гипотезе, служит критерием того, что среднее равно заданному значению при условии однородности выборки. Пусть предполагается теперь, что выборка однородна, именно что все наблюдения принадлежат одной и той же ^-мерной нормальной популяции, и мы хотим проверить гипотезу о среднем при неизвестной ковариационной матрице (ср. пример 4.2 гл. 5). Пусть гипотеза Η%{μ, Σ) утверждает, что выборка произведена из определенной Α-мерной нормальной популяции Λ/(μ, Σ), а гипотеза Η%(μ) — что выборка произведена из Α-мерной нормальной популяции с определенным средним μ, но неизвестной ковариационной матрицей. Допустим, альтернативная гипотеза Ηγ утверждает, что выборка произведена из неизвестной Α-мерной нормальной популяции. При Т(х) — = (х, S), где х и S определены в разделе 2, и U {х) = JIj^W ехР (— Τ (х* ~~ ^ Σ~*(Xf — **>) мы имеем [ср. (2.9)] -2l St /(*:^(μ, Σ)) = Λ-^μ—g-^^^ + t^ + T1^ ΓΛθΧ = μ+ΐΣ*, S=(lft-2lEf)"1i, или /(»://, (μ, Σ)) = = ™ (Χ — μ/ Σ"1 (χ — μ) +~ flog ||| — k + tr βΣ"1). В соответсг- вии с общей асимптотической^ теорией, если справедлива нулевая гипотеза //2(μ, Σ), величина 2/(*://2(μ, Σ)) асимптотически распределена как χ2 с k-\-k(k-\-1)/2 степенями свободы [ср. Андерсон (1958, стр. 268), Хойт (1953)]. Если Α-мерные нормальные популяции имеют одну и ту же ковариационную матрицу при гипотезе Н\ и 7/2, мы видим из (2.7), что Σ* = Σ2 приводит к единственному допустимому значению Т = 0. Это эквивалентно требованию, чтобы в выборках из сопряженного распределения элементы ковариационных матриц в распределениях х и S были одинаковыми. Соответственно ι 1 для 7(*://2(μ)) χ = μ~| Στ и Т = 0 или β=Σ, и вместо /(*://* (μ, Σ)) мы имеем /(* : /4(μ)) = |-(χ - μ/S"4x - μ). Заметим, что последнее есть (2.10) при μ.2 = μ и Σ2 = Σ* = 8. Мы видим, что ϊ(*:Ηι) = 0, и критерий гипотезы Η%(μ) зависит только от значения 2/(*: /72 (μ)), что является обобщением ^-критерия Стью- дента, принадлежащим Хотеллингу. (См. раздел 6.1 гл. 11.)
3] ОДНА ВЫБОРКА 313 3.2. Гипотеза о том, что ft-мерная нормальная популяция имеет заданную ковариационную матрицу Теперь мы рассмотрим критерий проверки нулевой гипотезы //2, которая задает ковариационную матрицу популяции при неопределенном среднем, против альтернативной гипотезы Ни которая не определяет ни ковариационную матрицу, ни среднее, т. е. Нг:Ъ, μ; //2:Σ=Σ2, μ. (3.13) Мы возьмем сопряженное распределение, параметрами которого являются наилучшие несмещенные оценки, т. е. μ* = χ, S* = S, и (2.10) превращается в /(*:2) = |(χ-μ)'Σί1(Χ-μ) + γ(ΐοΕ^-Α+ίΓ8Σϊ1). (3.14) Так^ как нулевая гипотеза не задает среднее значение, то, записывая /(//1://2)=min/(*:2), мы находим, что статистика минимума μ различающей информации имеет вид 21(НХ:Щ = A/(logibi — A + trSEj1). (3.15) (См. задачи 8.32 и 8.33.) В соответствии с общей асимптотической теорией, если справедлива гипотеза 7/2, сформулированная в (3.13), величина 2/(Я1://2) из (3.15) асимптотически распределена как χ2 с k(k-\-1)/2 степенями свободы. Используя характеристическую функцию распределения 21 {Ηχ ://2), можно показать (см. раздел 6.2), что лучшей аппроксимацией распределения является ^-распределение Р. А. Фишера [Фишер (1928, стр. 665)] (т. е. нецентральное х2-распределение с параметрами β2 = (2£3 + ЗА? — k)/l2N, В* = 2/{Нх: Я2) и с k{k-\-l)j2 степенями свободы) [ср. Хойт (1953)]. Таблица, рассчитанная Фишером для величин β и В, пересчитана ради удобства для β2 и Б3 и помещена на стр. 396 (таблица III). При числе степеней свободы, большем чем 7 (максимальное число в таблице), вместо нецентрального х3-распределения можно рассмотреть величину 2!(Н1:Щ(\— (2£3 + 3/г2 — £)/6Λ*(£+1)), как χ2 с £(A-f 1)/2 степенями свободы. (См. раздел 6.2.) Для критериев значимости в факторном анализе Бартлетт (1950, 1954), используя «однородность» функции правдоподобия, и Рипп (1951), используя метод отношения правдоподобия для проверки значимости компонент матрицы факторизации, пришли к статистике 2/(//1:Я2) и тому же выводу о ее асимптотическом χ2-распределении. [Ср. Андерсон (1958, стр. 264—267).]
314 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 3.3. Гипотеза независимости Если нулевая гипотеза 7/2 утверждает, что случайные величины независимы, т. е. Ή :2а = Ыр σ*7 = °> '^7> U J=h % ..·> *, (3.16) так что Ρ = (ρ£.)==ΙΛ, где Ρ есть матрица корреляционных коэффициентов популяции, то мы можем записать (3.15) как k 2HH1:H,) = ~Niog\R\ + Nji(^+logfi--l), (3.17) f ϊ'=1 где R—матрица выборочных коэффициентов корреляции. Гипотеза 7/2 в (3.16) представляет собой пересечение двух гипотез, 7/2 = = №%(*) //£, где Н^ — гипотеза независимости, т. е. гипотеза Ρ = lki и Н\ — гипотеза, задающая дисперсии. Мы можем тогда записать (3.17) как 21 {Нх: Но)=2Ϊ(ΗΧ: /ф + 2/(//ι: НЦ (3.18) где 2Ϊ{Ηχ: Н%) = — N log | R | — статистика минимума различающей информации для критерия независимости [см. (6.12) гл. 9] и k 21 {Ηχ: Hi) = Ν/ Ι— + log — — 1] — статистика минимума раз- i=\ личающей информации для критерия равенства дисперсий заданным значениям. [Заметим, что 2t{H1\H"o) равна сумме k одномерных статистик.] Известно, что при гипотезе (3.16) sit и г^ независимы [Уилкс (1932)], так что 2/(//1:/^) и 21(Н\\Н'£) являются независимыми. В соответствии с общей асимптотической теорией при справедливости нулевой гипотезы 7/2 из (3.16) величина 2ί(Ηχ:Η'ο) асимптотически распределена как χ2 с k (k —1)/2 степенями свободы и 21{Н1\Н^) асимптотически распределена как χ2 с k степенями свободы. Можно показать, что (см. раздел 6.3) лучшей аппроксимацией распределения 2Ϊ(ΗΧ\Η'^ является ^-распределение Фишера [Фишер (1928, стр. 665)] с f = k{Jt— l)(2£~f5)/12yv, β* = 2Ϊ(Η1:Η'9) и с k (k—1)/2 степенями свободы [ср. Бартлетт (1950, 19516, 1954), Лоули (1940)] и лучшей аппроксимацией распределения 21(Н\\Н1) является ^-распределение Фишера с $* = k/3N, β2=:2Ϊ(Ηί:Η'^) и с k степенями свободы. Заметим, что степени свободы и значения β2 для распределений трех членов в (3.18) аддитивны, т. е. k(k~\-l)/2 = = k{k—\)j2^k и (2£3 + 3£2 — k)/l2N=k(k— l)(2A-f б)/12ЛГ+ -\-k/3N, это свойство нецентрального χ2 [ср. Бэйтман (1949), Лаха (1954)]. (См. задачи 8.21 и 8.22.)
3] ОДНА ВЫБОРКА 315 Пример 3.1. В разделе 9.2 главы 11 мы имели корреляционную матрицу (1,0000 0,6328 0,2412 0,0586 0,6328 1,0000 —0,0553 0,0655 0,2412 —0,0553 1,0000 0,4248 0,0586 0,0655 0,4248 1,0000 для выборки, состоящей из 140 наблюдений. Чтобы проверить нулевую гипотезу о том, что четыре случайные величины независимы, мы подсчитаем 2Ϊ(Ηί:Η'2) = — Ν log I R 1 = — 139log 0,4129= 139.(0,88431) = 122,92, k (k— 1)(2fc + 5)/ \2N=4(3) (13)/12(139) = 0,0935. При 6 степенях свободы 5°/0 точки ^-распределения для β2 = 0,04 и 0,16 равны соответственно 12,6750 и 12,9247, и наблюденное значение 2/(Я4: #0 очевидным образом значимо. Мы отвергаем нулевую гипотезу независимости, как и должно быть ввиду заключений раздела 9.2 главы 11. 3.4. Гипотеза о корреляционной матрице Если нулевая гипотеза Щ'\ Σ2 = (0,·/) = D0P2D0 задает матрицу корреляционных коэффициентов Р2, но не задает диагональную матрицу стандартных отклонений ^ 0 ... 0 Da= 0 σ2 ... 0 1 то^ используя d-8=DS2 = \0 0 о мы имеем из (3.15) 2/(M:/rO = ^(loglj§|-*+trRPi1). (3.19) 2\Ht:H'^) в (3.19) асимптотически распределена как χ3 с k(k—1)/2 степенями свободы при справедливости нулевой гипотезы Щ\ Заметим, что (3.19) есть выражение (2.8) главы 9, когда P1 = R, и дает 2/(#1:#2'), когда Р2 = 1/г. Для двумерных популяций (k = 2) (3.19) дает L ν ι—?! ι—pi/J =Nfce\^+H^fY' (3·20) эта величина распределена асимптотически как χ2 с одной степенью свободы. Заметим, что (3.20) есть (4.33) в примере 4.6 главы 3 с N вместо η и г вместо р1в См. замечание в примере 5.7 главы 5 о доверительном интервале для р.
316 МНОГОхМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 3.5. Линейная дискриминантная функция Оценки для линейных дискриминантных функций в разделе б главы 9 могут быть получены с помощью той же самой процедуры, как для информационных статистик. Тем не менее поучительно провести эту процедуру в явном виде. Мы сначала рассмотрим нулевую гипотезу, которая задает Σ2. [См. (3.15).] Нам нужна линейная дискриминантная функция у = а1х1 -f- а2д;2 +... + akxk = а'х, (3.21) одна и та же линейная комбинация для каждого наблюдения. Мы разыскиваем величины α с тем, чтобы максимизировать величину, эквивалентную (3.15) для у. Тем самым мы приходим к результатам, подобным (6.4) и (6.5) в главе 9, а именно, что α должно удовлетворять Sa = FE2a, (3.23) где F является корнем характеристического уравнения |S —FS2| = 0 = |A/S —/S2|, F=l/N, (3.24) корни которого почти всюду действительны и положительны. (См. раздел 6.4 о распределении этих корней.) Если обозначить эти корни в убывающем порядке Flf F2> ..., Fkt то применимы рассуждения раздела 6 главы 9 (если принять во внимание способ упорядочения). В частности, мы имеем разложение для выражения (3.15) 21(^1 H,)=N (log ^i-k + trS^l) = = 2/(Я,: Щ j/,) +... + 2/(//!: Я2; yh\ (3.25) где yi есть линейная дискриминантная функция, соответствующая F-v Из (3.22) мы видим, что 2/(//,:Щ уд = Щ- logFi-l+Fi) = = A/log A/— Ν — N log ii + ii. (3.26) Если значения 2Ϊ(Ηί:Ηύ yt) расположены в порядке убывания величин, то при справедливости нулевой гипотезы, что выборка принадлежит нормальной популяции с ковариационной матрицей 2* сумма последних (k — т) величин 21(Н1:Щ у{) асимптотически распределена как yj с (k — rri) {k— т-\-1)/2 степенями свободы. (См. раздел 6.4.) Лучшим приближением к распределению служит
3] ОДНА ВЫБОРКА 317 ^-распределение Р. А. Фишера [Фишер (1928, стр. 665)] (т. е. нецентральное χ2-ρ определение с параметрами β2 = ((2£3 -|- ЗА2 — Щ — — (2гп?~\-Ът*— m))j\2N7 В* равна сумме последних [k — т) величин 2/(Ηχ: Щ yi)y с (k — m)(k — т -f-1)/2 степенями свободы). 3.6. Независимость множеств случайных величин [Ср. Андерсон (1958, стр. 230—245), Вальд и Брукнер (1941), Сюй (1949, стр. 373—376), Уилкс (19356, 1943, стр. 242—245).] Допустим, что мы разбиваем случайные величины А-мерной нормальной популяции на т множеств, насчитывающих klf къ ..., km величин, kl~\-k^~\-...~\-. ..km = k. Мы желаем проверить нулевую гипотезу Нъ что множества величин взаимно независимы, против альтернативной гипотезы Нь что множества не являются независимыми, без точного задания средних значений, т. е. Яt: Σ = (в{Д i, J = 1, 2, ..., k, (3.27) /Σ,ι .0 ... 0 \ tf2:S= ° Σ» ■;0 J, Ъи=Ы\ (3.28) \0 0 ...nj a, p = A1 + Ai + ...-|-At_1+l, .... *, + **+. .. + Α,. В разделе 7 главы 9 рассматривается случай двух множеств т = 2. (См. задачи 10.13 — 10.19 гл. 9.) Обозначая гипотезу (3.28) через /^(Σ,·,·), если Ση, ..., ~Lmm заданы, мы получаем из (3.15) 2/(#,:Яв(ад = = Jv(log ^\Ы...\^тт\ A+tr(S„Srif+... + SmmSil„)),(3.29) где S^· — наилучшая несмещенная оценка ковариационной матрицы величин в i-м множестве. Обозначая гипотезу (3.28), которая не определяет матрицы 2,·,·» /=1, 2, ..., /#, через //2(0» мы находим, что (3.29) минимально при 23^. = S^ и Щнг:Н^)) = A/log |Snl '-S||Smml =A/log lR"^"jR^L, (3.30) гДе R/£ и R — выборочные корреляционные матрицы величин соответственно в 1-м и во всем множестве. Последний член в (3.30) получается посредством вынесения за скобки в числителе и знаменателе стандартных отклонений. В соответствии с общей
318 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 асимптотической теорией при справедливости нулевой гипотезы величина 2/(#1:#2(·)) асимптотически распределена как χ2 с &(&-]-1)/2 — т — 2 ^№ΐ + 1)/2= 2 kikj степенями свободы. Можно показать (см. £=1 *</ раздел 6.3), что лучшим приближением к распределению 2/(//1://2(.)) служит ^-распределение Р. А. Фишера [Фишер (1928, стр. 665)] (т. е. нецентральное х2-распределение с β* = ((2£3 + Ъ& — k) - J) (2*f + ЗА! — k$\l 12А/, * £=1 ' Ζ?2 = 2/(//1://2(·)) и с 2***/ степенями свободы). Мы суммируем *<; анализ статистики минимума различающей информации (3.29) в табл. 3.1. Заметим, что степени свободы и значения параметра нецентральности β2 в табл. 3.1 аддитивны, это свойства центрального и нецентрального х2-распределения. Таблица 3.1 Компонента информации С. С. Между, Su против Σα В пределах, т iyiog|Sll|,"|Smml = Σ* £=1 -■Ν log 1 Rii [ ·- [ *vnm \ 2 t«I 2ftJ + 3*f—ft. 127V 2й3 + 3/г3 — A — i=A YIN Итог, 2/(^:^(2,·;)) n[\oz- Σιι|···|^/π/πΙ д ι 2 2#» + Зй2 — й 12УУ + 2trS«^) i = \ Отметим, что если Ах = = йт == 1, то 21 (Ht :Я2(·)) равна величине 2/(7^ :Яа) раздела 3.3, компонента «между» в табл. 3.1 есть 21 (Hi: #2) раздела 3.3, а число степеней свободы и значения β2 те же, что даны в разделе 3.3. (См. задачи 8.19, 8.25—8.29, 8.34.)
3] ОДНА ВЫБОРКА 319 Пример 3.2. Рассмотрим корреляционную матрицу из примера 3.1, причем разобьем четыре случайные величины на два множества, как в разделе 9.2 главы 11. Для того чтобы проверить нулевую гипотезу о том, что множества независимы, мы вычислим: | Rn | = 0,5996, |R221 = 0,8195, 2/ (И,: Я2 (О) = 139.log ((0,5996) (0,8195)/0,4129) = 24,16, JJ h */= 4, β2 = *</ = (172—26—26)/12 (139) = 0,0719. При 4 степенях свободы 5% точки В*9 соответствующие β2 = 0,04 и β2 = 0,16, равны 9,5821 и 9,8627. Наблюденное значение 2/(гУ4: Н2 (-)) = 24,16 очевидным образом значимо, и мы отвергаем нулевую гипотезу, как и должно быть ввиду выводов раздела 9.2 главы 11. [Ср. Кульбак (1952, стр. 98-99).] 3.7. Независимость случайных величин и равенство дисперсий [Ср. Андерсон (1958, стр. 259—261), Сюй (1949, стр. 376—378).] Мы хотим проверить нулевую гипотезу в (3.16), которая задает сп — =аш= ...=ckk = c*. Обозначим гипотезу Ηζ из (3.18) с заданной общей дисперсией σ2 через Щ(сР) и гипотезу равенства дисперсий через Η'ί (·)· Из (3.17) и (3.18) (при более привычной записи sH = s\ для дисперсий) мы видим, что 2/(М :/^V)) = iV J (-5-H-log^-— l). (3.31) i= I Так^ как минимум (3.31) достигается при σ9 = (s? +... + s|)/A = 5а, то ϊ(Ηί:Η%(;))==ϊηϊΏΪ(Ηί:Ηζ(α'*)) определяется из формулы k 21 (Η,: Ηζ (·)) = N У log 4. (3.32) Итог анализа величины 2Ϊ(ΗιΛ.Η%(α*)) с соответствующими степенями свободы и параметрами нецентральности, подведен в табл. 3.2. Таблица 3.2 Компонента информации Между, s2 против а2 В пределах, Итог, 2?(Я1://£>2)) Л»(£ + к*£-1) -ί(#+'»4->) t —I с. с. 1 k Ρ2 1/3Λ/& (k*—l)l3№ kjSN
320 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 Когда справедлива нулевая гипотеза, величина 21 (Hi: Н£ (·)) асимптотически распределена как χ2 с k —1 степенью свободы. Лучшим приближением к распределению служит Б-распределение Р. А. Фишера [Фишер (1928, стр. 665)] (т. е. нецентральное х2-распределение с рт = (# — О/ЗА/А, & = 21 (Нх:/£(-)) и k— 1 степенью свободы). Заметим, что величина 21 (Hi: Н% (·)) является частным случаем более общего результата, полученного в разделе 5.3 и равна (5.16) при r = k, N1 = muu = Nr = N. [Отметим, что N=Ni~\-Ni-\-..m-\-N в (5.16) здесь есть Nk.] (См. задачу 8.35.) 4. ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ Теперь мы желаем рассмотреть проблему проверки гипотезы о равенстве г средних значений каждой из k величин по г А-мерным нормальным выборкам, но без предположения о равенстве ковариационных матриц популяций. Сначала мы исследуем случай двух выборок, г = 2, что представляет интерес само по себе и полезно в качестве вводных объяснений. 4.1. Две выборки Допустим, что мы имеем две независимые выборки в п^ и щ независимых наблюдений из А-мерных нормальных популяций с ковариационными матрицами Σι и Σ2. Мы хотим проверить нулевую гипотезу 7/2, что векторы (матрицы) средних равны, без предположений относительно Ej и Σ2> против альтернативной гипотезы Ни что средние не равны, т. е. //2:μ1 = μ2 = μ, Σΐ9 Σ* Ηχ:μχ, μ2, Σι, Σ2. (4.1) Для сопряженного распределения с 6* = (хъ х3, Sb S2) и в обозначениях раздела 2 имеем /(*: 2) == τ,'χ, - f [μ -± f [ -i- 1Д + tr f ,S, -f Λ-Ί 2 2 + Щ- iog | h — -щ 2xf! J -f t;x2 — ΐ;μ — -j fa — Σ2τ2 -f + trfA + f.log|lk --£ Щ. (4-2) Следуя процедуре раздела 2, мы находим, что [ср. (2.4) и (2.7)] f ι = Πι ΣΓ1 (Χι — μ), τ2 = щ Σ? (χ2 — μ), Τ, = ^ (ΣΓ1 - SrO, % = 4^ (V - SЛ
ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 321 и (4.2) превращается в /(· : 2)=-§- (*ι - μ)' ΣΓ1 (х, - μ) + Ц- (Χ, - μ)' Σ^1 (Χ2 - μ) + + ^(l0g"ftT ^+trS1Sr)+^(logi|j| —A-|-trSa2:^).(4.4) Нулевая гипотеза //2 подразумевает равенство средних при неизвестных ковариационных матрицах. При меняющихся Σι и Σ2 величина /(*:2) минимальна для Si^Sj, 22 = S2 и для μ, удовлетворяющего О = П&1 (%, — μ) = /laSi"1 (x3 — μ), (4.5) или £ = (nfo1 + щБ^у1 ("iSl'Xi + я^ %). (4·6) Пусть для удобства d = Xi— х2, A = niSi1, В — щБ^1; подставляя это в (4.4), мы получаем 2/(Я1:Я2) = й[(В(А + В)-1А(А + В)-1В + + А (А -f В)"1 В (А + В)"1 A) dd']. (4.7) Но В (А + В)"1 А = (А"1 (А + В) В"1)'1 = (В"1 + А"1)"1 и А (А + В)"1 В = (В"1 (А + В) А"1)"1 = (В'1 + А'1)-1, так что в конце концов 21 (Нх: Щ = tr [(В"1 + A"1)'1 dtf] = <*' (В"1 + A"1)'1 d = = (X! - х2У (J- St + 1 S,y (χ, - х2). (4.8) Мы приходим к тому, что. здесь J(Hb Н<2)=^2!(Н1:Щ. [Случай одномерных популяций ср. Гроноу (1951), Уэлч (1938), Фишер (1939а). Многомерную проблему Берэнса —Фишера ср. Андерсон (1958, стр. 118—122), Джеймс (1954, стр. 37—38).] Распределение 2/(//1://2) для г выборок дано в разделе 4.3. 4.2. Линейная дискриминантная функция Рассмотрим y = arx = ixi~{~0Lix<2-\-...~\-akxk, одну и ту же линейную комбинацию для каждой выборки. Так как величина у Распределена нормально, мы разыскиваем а, максимизируя 2/(Я,: Щ у)= l a'dd'"1 . (4.9) a'U~Si+^S2r
322 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. U Как можно определить (ср. раздел 5 гл. 9), максимум имеет место при α = (_L Sx + ~ S3)_1 d, и 2/(Ях: Щ у) = 2/(//,: Я2). 4.3. г выборок Допустим, что мы имеем г независимых выборок по ni9 i— 1, 2,... ..., г, независимых наблюдений из ^-мерных нормальных популяций с ковариационными матрицами Σ/, /=1, 2,..., г. Мы хотим проверить нулевую гипотезу //2, что векторы (матрицы) средних равны, без предположений о Σρ против альтернативной гипотезы Нъ что средние не равны, т. е. #2:μ1 = μ3 = ... = μ/. = μ, Σι, Σ»..., Σλ, f4I(tt //ι: μι,..., μΓ, Σι, ..., Σλ. Без повторения подробностей мы находим, что 2/(* : Щ = £ щ (X, - μ/ S-1 (χ, - μ). (4.11) Как и в случае других критериев однородности нескольких выборок, здесь нулевая гипотеза также может быть представлена пересечением двух гипотез, одна из которых утверждает однородность, а другая определяет общие параметры популяций. Пусть //з(·) будет нулевой гипотезой, утверждающей однородность, а Η%(μ) нулевой гипотезой, задающей средние значения однородных выборок, без предположений о ковариационных матрицах в том и другом случае, так что #3 = #2(.)Π#2(μ)· Так как минимум 2/(*://2) в (4.11) достигается при Α=(Σ«ι8Γ1)"4Σ'Ι'8ϊΓΐχ0=^ мы имеем, что величина /(//1://3(-)) = min/(* ://3) равна μ 2/(/А: Я2 (·)) = i>, (X, - *)'S^ ίχ' - S> = = 2 "iXiSrx,· -?(Σ ηβΤ1) χ. (4.12)
4] ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 323 Из (4.11) и (4.12) имеем г 2/(*: Ηύ = Σ ni & ~ &У S^ (*' - ^) = = £ Л| ρ, - *)'S^ (*ι -*)+(*- ι*Χ (Σ «Α-"1) (χ - μ)= = 2/(7/,: tfa (.)) + 2/(Я3 (.): Η (μ)), (4.13) где 21 (Hi: Яа (·)) служит критерием однородности и 2/(#3(·): Я2 (μ)) — критерием равенства средних значений однородных выборок заданной величине. Предыдущий анализ суммируется в табл. 4.1. Таблица 4.1 Компонента информации Между, х против μ В пределах, 21 (Нх: Я, (·)) Итог, 2/(*:Я2) i = \ j}n.(x.-xYSTi(x.-x) i = 1 2η.(χ.-μ)^^(χ.^μ) i = \ С. С. /г (г-1)* rk Степени свободы в табл. 4.1 являются степенями свободы асимптотического /^распределения при справедливости нулевой гипотезы. [Ср. Джеймс (1954, стр. 39—40), Слой (1949, стр. 394—396).] Джеймс (1954) показал, что лучшее приближение к. распределению получается, если сравнивать величину 2/(#1:#2(·)) при 100 а% уровне значимости не с χΐ а с χ2(Λ + βχ£)> где Ва= л=1 + 2Т(Г=гт) Σ ι^Κ1* - (Σ т**У*"&)]%- ί = 1 х ' j — 1 Λ (г-1) (ft (г-I)+ 2) ί.Σ (иг_ 1) Χ ХЧ1* - (Σ я^-Ч^-КА- l)A(r- 1)]. (4.14) i-=l гот Мер 4^· ^оссек (1945) рассмотрел следующую проблему. На под- мнительных курсах A. S. Т. Р. *) учащиеся должны быть классифициро- гпя»/2 A£my Specialized Training Program —специальная армейская прощания обучения. (Прим. перев.)
324 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ 1ГЛ. 12 ваны в соответствии с тем, ожидается от них успешное или неуспешное прохождение курса математики в первом семестре. Тремя выбранными переменными являются: хх — балл испытания по математике, лг2 — школьная оценка, хь — балл при испытаниях по Армейской Классификационной системе. Наблюдалось 96 испытуемых, не успевавших по математике, и 209 успевавших. Мы найдем линейную дискриминантную функцию, как в разделе 4.2. Здесь k = St n1==96, п2 = 209. Коссек (1945, стр. 96) приводит следующие данные: й' = (—17,5972, —1,7997, —5,3308), /133,8592 7,0572 2,0717\ /217,1505 14,0692 35,7085\ S4 = 7,0572 4,1288 —2,0109 I , S2 = 14,0692 3,9820 0,4031 \ 2,0717 —2,0109 27,7016/ \ 35,7085 0,4031 72,7206,) Затем мы вычисляем (подсчеты проведены Дж. X. Кульбак) /1,39436676 0,073512939 0,021580263 \ 0,073512939 0,043008772 —0,020946382 ] , \0,021580263 —0,020946382 0,288558772/ f 1,038997768 0,067316709 0,170853859\ 0,067316709 0,019052470 0,001928528 J , ^ 0,170853859 0,001928528 0,347945253 / 0,493634948 —1,176664865 —0,184397647 \ -1,176664865 19,066796354 0,925430152 ] , -0,184397647 0,925430152 1,654481546/ 4-ь= 1 + •Г-1 0,493634948 —1,176664865 —0,184397647 -1,176664865 19,066796354 0,925430152 ~0,184397647\ 0,925430152 ] 1,654481546,/ —17,5972\ —1,7997 = —5,3308/ 2/(7/,://,; д» = 2/(//,:#*) = = (—17,5972, —1,7997, / —5,58596\ = —18,54179 \ —7,24032/ / —5,58596\ -5,3308) —18,54179]: \ —7,24032/ ; 170,2637. Линейная дискриминантная функция может быть записана как y^=zxx-\- -f- 3,32лг2 -f- 1,29лг3 с отношениями величин а к а4 в качестве коэффициентов. Коссек (1945) получил коэффициенты линейной дискриминантной функции из равенства a^S^d, где NS = N1S1+Nfi2i N=Nt+N2. [Ср. Фишер (1936).] Эта процедура (здесь г = 2) обсуждается в разделе 8.1 главы 11 в предположении, что ковариационные матрицы популяций являются равными. Линейная дискриминантная функция, полученная КоссекоМ (1945), может быть записана как з> =-^ι + 3,69лг2 + 0,93л:3. Используя процедуру объединения и вывод Коссека, что d'S-1d = 1,9890, мы вычисляем 2/(//г.Я2): -d'S^d^ 96X209 полученное значение меньше, чем то, 305 1,9890=130,8637; что было подсчитано выше, когда
4] ОДНОРОДНОСТЬ СРЕДНИХ ЗНАЧЕНИЙ 325 ковариационные матрицы не были объединены. (Мы увидим в примере 5.2, что нулевая гипотеза, утверждающая, что ковариационные матрицы популяций равны, должна быть отвергнута.) Пример 4.2. Чтобы проиллюстрировать проверку нулевой гипотезы однородности средних, мы используем следующие данные и подсчеты Джеймса (1954, стр. 42—43). (Я выразил результаты в обозначениях раздела 4.3.) Существуют три двумерные выборки с nj = 16, п2 == 11, п3=11: Xl - \15,06J ' X2 ~ \22,57J' *8 - U.17/' / 120,0 -16,3\ /81,8 32,1 \ =/100,3 23,2\ 1 1—16,3 17,8/' s 1,32,1 53,8/' 8 \ 23,2 97,1/' wS^_/0,1523 0,1396\ nS_,_/ 0,1756 —0,1048\ Щ ' \0,1396 1,0272/' "* 2 — i—0,1048 0,2670/' s_1==/ 0,1161 -0,0277\ "* " \—0,0277 0,1199/' ^„чП-/0'4440 °'°°7l\ /v c-iV» ( 2'2524 -°'0U3\ i^i "\0,0071 1,4141) ' [& n& ) -(,_0,0113 0.7072J' e ,_ / 3,5980\ 0 /—0,0738\ „ /1,0060' "lSrlXl = (l6,8405)' "*S*1X* = ( 4,658б)' ^""UlS, ) βηδ ' у n.Sns. = / 4·5302\ - = / 2,2524 -0,0113\ / 4,5302\ = / 9,9314\ & ' ' ' 1,24,1106/' i—0,0113 0,7072^24,1106/ [ 16,9998/' + (14,67, 25,17) f1?") - (9,9314, 16,9998) (^ °^1) ( **1*\ = 18,75. 42,6115^ Kl ' 4θ,0071 1,4141/\ 16,9998/ Асимптотически величина 21(И1 :Я2 (·)) = 18,75 есть У.2 с (г—1)£ = 4 степенями свободы. Мы найдем лучшие приближения при соответственных Уровнях значимости /1 0\ / 2,2524 —0,0113\/0,1523 0Д396\ / 0,6585 —0,3028\ \0 1/ \—0,0113 0,7072Д0,1396 1,0272/" \—0,0970 0,2751 /' Л 0\_/ 2,2524 —0,0113\/ 0,1756 —0,1048\ /0,6033 0,2391 \ \0 1/ V—0,0113 0,7072/ {—0,1048 0,2670/ ~~\0,0761 0,8100/' [Х °) — ( 2,2δ24 ~0,0113\ / 0,1161 —0,0277\ /0,7382 0,0637\ \0 1/ V—0,0113 0,7072/V—0,0277 0,1199/ \0,0209 0,9149/' ./ 0,6585 --0,3028\2 /0,6033 0,2391\2 4-0,0970 0.275IJ ==0'5680' *(θ,0761 0,810θ) = ^
326 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ 0,6585 —0,3028\Ί2 /0,7382 0,0637\2 ^^ Г / 0,< tr ' =1,3846, tr \0,0209 0,9149/ ' ' L \~<У Г /0,6033 0,2391\P f _ Г /О, Ηώ™ 0,810o)J ==1·"74· [trU ,0970 0,2751 0,7382 0,0637\12 ,0209 0,9149/J [ГЛ. 12 II =0,8716, : 2,7327, 0,5680 15 0,8716 1,0565 fb3846=0i2820i 10 ' 10 1,9974 2,7327 15 10 10 : 0,5311, A = 1 +y (0,5311) = 1,0664, В = Jj ί0,2820+-ί (0,5311)] = 0,02281. Точность аппроксимации при 5%, 1%, 0,1% уровнях значимости иллюстрируется табличкой: Уровень значимости 5% 1% 0,1°/о χ2, 4 степени свободы 9,488 13,277 18,467 А + ВХ2 1,283 1,369 1,488 Х2{А + ВХ2) 12,17 18,18 27,48 т. е. уточненное значение при 5% уровне равно 12,17, при 1%—18,18, при 0,1%—27,48. Нулевая гипотеза однородности должна быть отвергнута при 1% уровне. 5. ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ Теперь мы рассмотрим критерий для нулевой гипотезы о равенстве ковариационных матриц г Α-мерных нормальных популяций. Мы рассмотрим сначала две выборки, так как случай интересен и сам по себе, и как введение, а затем г выборок. 5.1. Две выборки Допустим, мы имеем две независимые выборки с пх и щ независимыми наблюдениями из ^-мерных нормальных популяций с неизвестными средними. О ковариационных матрицах совокупностей мы имеем две гипотезы Их: Σι Φ Σ2 и #2: ΣΑ = Σ2 = Σ. Для сопряженного распределения с θ* = (χ1} Х3, Slf S2) и в обозначениях раздела 2 мы имеем [ср. (4.2)] /(*:2)=*;χ1-*;μι-Ι.*;;!-2*ι+*τΑ+ I #11 +frtA+^iog|iJk-£2fii. (w>
5] ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАГРИЦ 327 Используя ту же процедуру, что для (4.2), мы находим, что [ср. (4.3)] f! = л. Σ-1 (Χι — μι). *ϊ = "ζΣ * (Xs — μ2), f1=^1(2:-1-Sr1), f. = ^(S-1-Si1X (5.2) и (5.1) превращается в [ср. (4.4)] /(*:2)=:§(χ1_μ1)ΓΪ-ί(χ1- μι) + ^(χ2- ptfSr^- μ2) + +f(io^!i\~A+trSi:si+T(iog!-fi--A+trSa2i· (5·3) При меняющихся μ^ μ2 и Σ величина /(*: 2) должна быть минимальной для μ1( μ2 и Σ, удовлетворяющих [см. задачи 10.2, 10.3 гл. 9, Димер и Олкин (1951) о дифференцировании матриц] /^•(Xj — μι) = 0, /ι,ϊ-1^—(W) = Q, 0 = - I (St - £ι)' Σ"1 (dS) Σ-1 (xt - μ0 - - ^ (Χ, - μ2/ Σ'1 (dS) 2Γ1 (χ, - μ*) + γ1 tr Σ"1 (tfS) - - у tr St Σ"1 (dS) Σ"1 + ^ tr Σ"1 (<fS) — γ2 tr S^i-1 (<ίϊ) Σ"1. (5.4) Мы находим, что μι = Χι, μ2 = χ2, (M+M)i = N1S1+MSa = ^VS, (5.5) где Ν—Νι-}-Νϊ, и следовательно [ср. Уилкс (1932, стр. 489)], 2/(Я,: Я2)=Μ log |l!j + Ν, log ||i . (5.6) Найдено, что оценка J (Hi, Щ имеет вид [ср. Кульбак (1952, стр. 91) и равенство (1.7) гл. 9] ПНЬ Щ = 2(^Ns) (trS^1 + tr S^Sr1 - 2k). (5.7) В соответствии с общей асимптотической теорией при справедливости нулевой гипотезы 7/2 величина 2/(#г: Я2) в (5.6) асимптотически распределена как χ2 с k(k-\-l)/2 степенями свободы. Используя характеристическую функцию распределения 2Ϊ{Ηχ: Я2), можно показать (см. раздел 6.1), что лучшим приближением к распределению служит ^-распределение Фишера [Фишер (1928, стр. 665)] (т. е.
328 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [гл , нецентральное χa-pacπpeдeлeниe с параметрами ρ — ί2 (π;+ж - π) > Β —2/(//ι ·Яа)- и с k(k~\~l)/2 степенями свободы). 5.2. Линейная дискриминантная функция (Ср. раздел 3.5.) Мы разыскиваем линейную комбинацию, одну и ту же для обоих выборок, у — а'х = аххх-j~а2х2 + ... + α^, которая максимизирует [см. (5.7)] J (Ни Нь y)-2(Ni + NA«S^+«S^~~ У* (5*8) Мы находим, что α удовлетворяет Sia = /7S2a, где Ζ7 является корнем характеристического уравнения | St — FS21 = | N& — ΙΝβ% \ = О и P — Nzl/Ni (ср. раздел б гл. 9). Та же самая линейная функция получается в результате максимизации [см. (5.6)] ПН,: Н3; y) = -f log^^ + у log ^^. (5.9) Если корни характеристического уравнения, которые почти всюду положительны, суть Flf F& ..., Fk> расположенные в порядке возрастания, тогда, как было показано в разделе 6 главы 9, максимум J(Hl9 Щ у) имеет место для линейной комбинации, связанной с F\ или Fk> в зависимости от того, выполняется FtFk<^l или FiFk^>\. Можно также показать, что 1(Ηλ: Я2) = 1(НХ: Щ к) + 1(НХ: Я2; /,)+...+ I(Ht: Я2; 4), (5.10) J(Hb H*) = J(Hb Щ FJ + JiHi, tf2; F2)+ ... +J(Hl9 Щ Fk\ где №:Ъ 4) = ^1о.^Ц^+^1оёж^(1+/г) = = ^1оёШТ7ГлГ + -Т^ 2 '"eW + W2 ^ 2 ws Κ + Ν,Τ + ^4^1og(l+/;)-^log/,·, (5.П) Асимптотически, когда параметры популяций имеют значения, определенные нулевой гипотезой, сумма 2Ϊ(Ηι:Η3] im+t)-\--.--\-^H^i: Нъ 4) (слагаемые расположены в порядке убывания величин) распределена как χ2 с (k — m)(k — m-\-l)/2 степенями свободы. Лу4'
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 329 шим приближением служит ^-распределение Р. А. Фишера [Фишер Π 928, стр. 665)], т. е. нецентральное χ2-pacπpeдeлeниe с P2„_(2fe3 + 3fe3 — Щ — (2m3-(-3m2 — от)/ 1 , 1 1\ " — 12 [n^NiNJ9 k fj^Ni + Nb В*= Σ 2№··№; Α) и с (ft —ro)(ft —iw+O/2 степенями свободы. (См. раздел 6.4.) [Ср. Андерсон (1958, стр. 259).] 5.3. г выборок Допустим, мы имеем г независимых выборок по пь % ..., пг независимых наблюдений из ft-мерных нормальных популяций с неизвестными средними. Относительно ковариационных матриц популяций мы имеем две гипотезы Нх:Ъь Σ* ..., ΣΓ и #a- Σι = Σ3== ··· = Σ =Σ He повторяя подробностей, мы, как в разделе 5.1, находим, что для сопряженного распределения с В*=:(хи ..., xr, Su ..., Sr) г /(*:2)=2 |(Χί-μίΧΣ-1(Χί-μ,·) + Г +2T(iog{H~*+trSi2:i· (5Л2) *=1 i=l Если нулевая гипотеза //2(Σ) задает Σ, то минимальное значение /(*: 2) в (5.12) при меняющихся μ;, / = 1, 2, ..., г, равно г /(*:^(Σ)) = 21τΚ]|ΐΓ1-* + ΪΓδίΣ"1)· <5ЛЗ> £=1 Последнее выражение есть (2.18) в разделе 9 с Σ вместо Σ.2/· и S* вместо Σ1;·, у=1, 2, ..., г. Если нулевая гипотеза Я2(·) не задает Σ, а лишь подразумевает однородность, то минимум /(*://2(Σ)) в (5.13) применяющейся Σ достигается для n£ = N1S1~}~ ... -j-NA- — Λ/S, A/=7Vi + iV3+ ... +Ak и величина /(^:^2(.))=:min/(*: Ή3(Σ)) равна ""■:f''») = 2f(.og^f-* + lrS,S-.)=^.og||i. (5Л4, i — l i=I ICP· Андерсон (1958, стр. 249), Бокс (1949), Уилкс (1932, стр. 489).]
330 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [гл. 12 Заметим, что оценка J(Hb #2(·)) может быть получена из (2.19) главы 9 замещением Σι7· на S;- и S.2y на S,/= 1, 2,..., г, и имеет вид г J (Я„ Я2 (.)) = 2 τ <tr ^ +tr SSr> - *^= = 2f trSSF'-f = 2 ^(trS.V + trS.Sr-Sft). (5Л5) В соответствии с общей асимптотической теорией, если справедлива нулевая гипотеза //2, величина 2/(//i://2 (·)) в (5.14) асимптотически распределена как χ2^ с (г—l)k(k~\~l)/2 степенями свободы. Используя характеристическую функцию распределения 2Ϊ(Η1: //2 (·))> можно показать (см. раздел 6.1), что лучшим приближением к распределению служит β-распределение Фишера [Фишер (1928, стр. 665)], т.е. нецентральное ^-распределение с β2=— ίο (Σ */Nt-—*/NJi β2 = 21 {Hi: Я2 (.)) и с (г — 1) k (к + 1)/2 степенями свободы. При числе степеней свободы, превышающем 7 (наибольшее число, табулированное Фишером), величина 2/(Я1:Я2(·)) (1 — 2ψ\(ν—1)β(β-}--1)) может рассматриваться как X2 с (г—1) k(k-\~l)j2 степенями свободы. В одномерном случае k = 1 мы имеем г 2/(Я1:Яа(.)) = 2 W,log£, (5.16) i=\ l где iVs2=.A/1Si+ .·· +Λ^λ W=M+M+ ... + Λ£, Ρ 3\^^ Ν) (r—\)k(k+\) — S(r~-\)\^Ni Nj' ί=\ i=\ Полученный результат совпадает с критерием Бартлетта однородности дисперсий [Бартлетт (1937, 1954), Бокс (1949), Кемпторн (1952, стр. 21), Лоули (1956)]. См. замечание в конце раздела 3.7. Мы подводим итоги анализу статистики различающей информации в табл. 5.1. Заметим, что компонента «между» в табл. 5.1 есть статистика различающей информации для критерия нулевой гипотезы //2(·|Σ) о том, что ковариационная матрица однородных выборок равна Σ. Анализ в табл. 5.1 является отражением того факта, что //2 (2)= = Η%(.)Γ\Ηι('\Σ\ и можно записать 2/(* :Η%(Σ))=2Ϊ(Η1 :#2(0) + + 2/(tf2Q:tf2(.|S)).
ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 331 *- 1 ιΩ rt п \о {Я 1 CD. I U ϋ s i as Оч о нта инф ш Я о и « I 1 ли ! со ι + со CM I 5: СМ »-н ^ + СМ ^ ^ 1 W ел 1-4 + ЛИ W t ел 5J0 3, " W m s н ° Рч с ел ^» *=t о J ч Н^ 1 1 -N" кр<$1 *** \ I 1 «я ЛИ со + со ЛИ (N У—* (N1 1 + ЛИ τ ^ СМ ел ~- сл4 ЪЛ £ £ ^] •—ч о а? а? тк^ (N t5 о Рч С с 0 L-~ ~'\ •-^<|Ί *** Ι ι ·** CO 4-1 (Ν см У—-Ч + Λέ ^ см "^ W ей* г-· + Λί W с/Г ъл ι *- -^ •—ч W о * 1 ,Kw CM 1 Сч С 1 * 5 (N fc3 (Μ Ι со. ι о ϋ мации нфор в 1 « н я 1 & я ° с £ ° * Ч* 1 «•{^Ίί ^, ^."* Λέ Ico Λί »-н ι I ^ 1 W4e *<e со : ст CO w CO ft со* 2 (M со* _ ·« 1 CO Я •>k<ij У—s ·* a; έ С g - ^ 1 1 -l£_ "■^1 ίο" + Λί CM τ it .g <M s~^\ 7 ^ Λί •^ τ CM Ctf !0? ,—- ьл ! Я ! £ KWi a? έ TK ч -ξ Ι 1 ** 1 AS 1 1 CO + CO Й CM <-—ч| j + & Λί s~-. CM СЛ СЛ* — 1 ьл 1 с *""' 5? _ ** I (M a: ё CM
33^ МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 Степени свободы в таблице — это степени свободы асимптотического /^-распределения или лучшего приближения, доставляемого β-распределением Фишера, т. е. нецентральным /^распределением с параметром нецентральности β2. 5.4. Корреляционные матрицы С помощью статистики минимума различающей информации в (5.14) мы можем вывести критерий для нулевой гипотезы //3 о том, что корреляционные матрицы г популяций равны. Записывая ковариационные матрицы популяций из раздела 5.3 в виде Σ, = 0ΙσΡ,0Ιβ. Σ = ΌσΡΌσ с матрицами коэффициентов корреляции Pf, P и диагональными матрицами стандартных отклонений Dio, Dc, мы представляем //2 = = #3 Π Нь где tf3:Pi = P2= ..· =Pr = P> (5.17) //4 *· ^ΐσ2 = D2ct2| = . . . = Dra2 = Ό02. (5.1 8) Записывая несмещенные оценки ковариационных матриц в виде S1 = DijRiDii, S = DSRDS, мы получаем из (5.14) =2/(Ях: Щ + 2/(Ях: /У4). (5.19) Мы помещаем этот результат, степени свободы и параметр нецентральности β2 асимптотического Б-распределения Фишера или нецентрального /^распределения при нулевой гипотезе в табл. 5.2 [Ср. Сюй (1949, стр. 399 — 400).] Для двумерных популяций k==2 мы имеем г 2/(//ι: Щ = У Nt log -Ь^., (5.20)
б] где г2 - '12- ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 333 г Щ (Σ 23 (**/-**) (л/-л))* i=l/=l " *=i/=i i=iy=i (Ё(*у-*о(л/-л))* /12 лг. jv. (Σ(*«-**)0(Σ<%-*)*) /=1 1 = 1 для двух случайных величин χ и у (индекс i — номер выборки, а индекс j — номер наблюдения внутри каждой выборки). Число степеней г свободы для 2/(//!: Щ в (5.20) равно г — 1 и β2 = 1,5 (^ Ι/ty —Ι/Ν). ί=ι Пример 5.1. Мы проиллюстрируем проверку нулевой гипотезы однородности ковариационных матриц на данных, приведенных Смитом (1947, табл. 2, стр. 277) для вычисления линейной дискриминантной функции для группы из 25 нормальных лиц и 25 психически больных. Здесь k = 2, г = 2, Л^ = ЛГ2 = 24, N=48, / 6,92 -5,27\ § /36»75 13,924 /21,83 4,33\ 1 \—5,27 40,89/' 2 \ 13,92 287,92/' \ 4,33 164,40/' | St | = 255,1859, | S. | = 10387,2936, | S | = 3570,1031, 2/ (Ht: Н2 (·)) = 24 log (3570,1031/255,1859) + + 24 log (3570,1031/10387,2936) = 37,7268 = В\ _(2—1)2χ3_ 12 3 степени свободы. 2 В таблице ^-распределения Фишера, таблице III на стр. 396, 5% значения для η = 3 и β2 = 0,04 и 0,16 равны соответственно 7,9186 и 8,2254. Поэтому мы отвергаем нулевую гипотезу равенства ковариационных матриц популяций. Смит (1947) отметил, что корреляции незначимы, но что Дисперсии психически больных значимо больше, чем дисперсии НОрМалЬ- НЫХ ЛИЦ.
334 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 Пример 5.2. Теперь мы обоснуем замечание, сделанное в конце при* мера 4.1. В дополнение к Si и S8 в примере 4.1 мы также имеем ,191,04 11,871 25,162 \ 11,871 4,0280 —0,35378), \25,162 —0,35378 58,606 / | S, | = 13313, | S81 = 43779, | S | = 34053, 7l{Hx: //, (.)) -95 log |g§- + 208 log^gg = 227,09- В\ а_ 54 + 27 — 3 12 [к+т^тГ^1^ (2—1)3χ4 = 6 степеней свободы. В таблице ^-распределения Фишера, таблице III на стр. 396, 5% значения для п = 6 и β2 —0,04 и 0,16 равны соответственно 12,6750 и 12,9247. Поэтому мы отвергаем нулевую гипотезу равенства ковариационных матриц популяций. Пример 5.3. Мы используем данные, приведенные Пирсоном и Уилксом (1933) для пяти выборок, каждая по 12 наблюдений над длиной и твердостью алюминиевых заготовок. (См. раздел 9.1 гл. 11.) Основываясь на данных Пирсона и Уилкса (заметим, что они не пользовались несмещенными оценками) и опуская здесь де! али, имеем k = 2, г — 5, Nt =... = N5 — 11, /V = 55, log I Si I =5,82588, log | S21 = 6,63942, log | S3 | =5,31904, log | S41 = = 6,66973, log | S51 = 5,35937, log | S | = 6,13953, 2/ (Ht: H2 (-)) = 55 (6,13953) — — 11 (29,81344) = 9,726 = B\ 2_ 16+12 — 2 ~~" 12 __ (5— 1)2X3 (π-άΗδ >,945454, 12 степеней свободы. Таблица 5.3 В таблице ^-распределения Фишера, таблице III на стр. 396, 5% значения для η = 7 (наибольшее в таблице число) и β2 = 0,64 и 1,0 равны соответственно 15,3225 и 16,0040. Так как табулированные значения возрастают с возрастанием η при фиксированном β2, мы не отвергаем здесь нулевую гипотезу равенства ковариационных матриц популяций. Мы могли бы также проверить величину 9,726^1— 0,945454 \ = 8Q6 как X2 с 12 степенями свободы и получить тот же самый вывод — принять нулевую гипотезу равенства ковариационных матриц популяций. Это совпадает с результатом Пирсона и Уилкса (1933). [Ср. Андерсон (1958, стр. 256).] Пример 5.4. Чтобы проиллюстрировать раздел 5.4, мы подсчитаем 2/ (Н1: Я3) в (5.20) для пяти выборок примера 5.3, так что £==2, г = 5, Nt = ... =Ν5= 11» N=55. По данным Пирсона и Уилкса (1933, стр. 370) мы произвели подсчеты, приведенные в табл. 5.3. i 1 2 3 4 5 *-^ι2 0,534106 0,232617 0,490595 0,488835 0,351891
51 ОДНОРОДНОСТЬ КОВАРИАЦИОННЫХ МАТРИЦ 335 i—г218 = 0,408161, я ==4 степени свободы, ™ of/w ич hi 0,408161 . .... 0,408161 по,.. 5^ = 2/(Я1:Я3) = 11 log ^34^ + ---+1,l0gt35T891=0'8504' 5% значения, содержащиеся в таблице ^-распределения Фишера, таблице Ш на стр. 396, для 4 степеней свободы и β2 = 0,64 и 1,00 равны соответственно 10,9402 и 11,7073, так что, в согласии с примером 5.3, мы принимаем нулевую гипотезу равенства коэффициентов корреляции. Пример 5.5. В качестве другой иллюстрации раздела 5.4 рассмотрим данные Пирсона и Уилкса (1933, стр. 372 — 375), представляющие собой стандартные измерения длины и ширины черепа в миллиметрах, полученные для 20 взрослых мужчин в каждой из 30 различных рас или групп, так что k = 2, г = 30, ΝΙ = ... = ΛΓ30= 19, /V=570. По данным Пирсона и Уилкса (1933, стр. 373) мы произвели подсчеты, приведенные в табл. 5.4. Таблица 5.4 i 1 2 3 4 5 6 7 8 9 10 *-** ! 0,991591 0,960796 0,668224 0,999775 0,970071 0,416304 : 0,998631 0,555111 0,999804 I 0,987456 ι ι u 12 13 ! 14 15 16 17 18 19 20 1-г2 1 гт 0,952039 ! 0,976896 0,898239 0,903900 0,999639 0,801975 0,831900 0,105084 0,999676 0,974400 i 21 22 23 24 25 26 27 28 29 1 зо l-'fn 0,968316 0,417831 0,989799 0,798399 0,939975 0,870400 0,649536 0,734775 0,999471 0,935484 1—r\s = 0,959955, η = 29 степеней свободы, pi=i*(S-^)=2w 0,991591 ' 0,935484 Так как 29 степеней свободы нет в имеющейся в нашем распоряжении таблице β-распределения Фишера, мы подсчитаем величину 111,1216 (1—2,3658/29) = 102,0564, которая как X2 с 29 степенями свободы значима, и мы отвергаем нулевую гипотезу равенства коэффициентов корреляции. Для этих данных Пирсон и Уи.ткс (1933, стр. 374), используя 2-кри- 30 герий Фишера [Фишер (1921)], подсчитали У.2 — У (щ—Ъ) fa — ζ)2 , где i=l *'= y[loge(l + Oi8)— loge(l — r/1§)] и 2=2*«/Э0, получив X2 = 96,01 с 29 степенями свободы. зо ι ΐ-=1
336 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [Гл. 12 6. АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ В этом разделе мы дадим обоснование утверждениям, сделанным относительно асимптотического поведения статистик в предыдущих разделах данной главы. 6-1. Однородность ковариационных матриц Если справедлива гипотеза Я2 раздела 5.3, мы положим Λ/ΡΑ = Σ!'2ν,21'2, Λ/8 = Σ1'2ν21/2, 1=1, 2, ..., г, (6.1) что определяет в конечном счете линейное преобразование элементов матриц Sf, S в элементы VhV соответственно. Якобианы этих преобразований имеют вид [ср. Андерсон (1958, стр. 162), Димер и Олкин (1951)] fe + l А;-И 2 I I *-j 1 2 v-21 й \nL\ Распределения Уишарта элементов матриц S,·, S тем самым преобразуются в соответственные вероятностные плотности элементов Vit V Π2 -itrV,.„.-4i— /Π2 -itrV 2L __Ltrv ^~fe~1 /nl ».-« ^-*-l iv,,-1-*- (J-) V*"vm \2/ _^ fe(^-l) /fe И *(*-!), Λ ' (6·2) π 4 Π Г((А^ + 1 — α)/2) π 4 Π Γ ((W+1 — α)/2) α=1 α=1 Применяя преобразование (6.1) к / (//х: //а (·)) в (5.14), мы получаем Так как г выборок независимы, характеристическая функция распределения величины г г ρ=ι р ρ=ι
АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 337 равна [ср. Бокс (1949, стр. 321)] kN Л х _ NR[\-2it)-k-l i«=\(iliri-TE3n )χ ,Р = ! *J \У~ π 4 Π Γ((ΛΓρ+1—α)/2) / α = Ι xivrnn ^чпп^ажу»)* Π Γ((ΛΓ(1—2ιϊ)+1—α)/2) Π/ г ((ΛΓ+ 1 - α)/2) ΤΤ Γ ((Ν, (1 - Щ +1 - α)/2)\ ,β » [Τ((Ν(\-2Η)+\-α)β)11 ТЩ+\-а)р) J' 1°'' где промежуточный результат следует из свойств распределения Уишарта [Андерсон (1958, стр. 162), Уилкс (1943, стр. 232)]. Мы используем аппроксимацию Стирлинга чтобы получить приближенное значение (6.4) при больших Λ/. Мы имеем 1орГ((^0-2й) + 1-«)/2) _ ё Γ((7νβ+1-α)/2) — _NB(\—2if) — a. N*(\—2it)+l—a Λ^β(1 —2tY)+I—α ι ~~~ 2 g 2 2 ' « Ι ! Ί б (ΛΤρ (1 — 2ίΥ)+ 1 — <*) 45 (Λ/ρ (1 —2«)+1 —«)3 2 ' 2 6(Νβ + α—1) ι 1 +0(1/Νβ5), (6.5) 45(7νβ+1—α) и после некоторых алгебраических преобразований правую часть (6.5) можно записать как
338 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 Поэтому мы имеем logy(Q= £ UtNlog?-- N{\~2it)~a lQg(1 _щ_т_ « = 1β=1 =-« |iWptog^-^-1)y*+1>iog(i-af) + β-l P β=1 Пренебрегая последними членами в 6.6, мы имеем г (6.7) Г где c = (2k*-\~3k*~ ft)(2 l/Λ/ρ— 1/7V)/12. β = 1 Вследствие (6.3) и (6.4), если обозначить ζ = 2/(#!: #2 (·))> то плотность вероятностей величины ζ равна со J_ С exy(-~l& + cit\(\-2U))dt „„ ^^'""йс J (i_ 2ίΛ(»·-«*(* + »)/* * *· ' Пренебрегая членом с су получаем, что D (ζ) есть плотность вероятностей /^распределения с (г-^- l)k(k-\-1)/2 степенями свободы; иначе, интегрируя (6.8) [см. Лаха (1954), Мак-Лаклан (1939, стр. 86)], мы получаем вследствие того, что величина ζ действительна и положительна и (г — i) k (k ~\~ i )/4 ^> О, D® = \e-«*-V» (j-У~т1п-х (1^), (6.9) где n = (r—l)ft(ft-f-*)/4 и /Λ_ι(|Λ:ζ) есть функция Бесселя от чисто мнимого аргумента [Уотсон (1944)] п— \ , , п—\ . со (λ) ' (Л\ /«О
6] АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 339 Вероятностная плогность (6.9) есть плотность нецентрального х2-рас- пределения с 2п степенями свободы и параметром нецентральности с, т. е. плотность ^-распределения Фишера [Фишер (1928, стр. 665)] с Аппроксимация логарифма характеристической функции ζ, τ. е. — nlog(l—2if)~\- _2Ϊ> соответствует аппроксимации Бокса (1949, формула 29, стр. 323), если сохранить только первый член в его сумме; т.е. его— ( . 1] (в формуле содержится опечатка) здесь с it , есть γ·__2·*9 эт0 можно проверить, используя соответствующие формулы, данные Боксом (1949, стр. 324—325), с β = 0. При большом η мы можем аппроксимировать 1п-\(УсЪ в (6.9), записывая г ,л/^_(^)(я-|)/2 V (ДС/4УГ(Я) _ /„_! (V Л) — —щ^ 2, flT(n+j) /=о ~ (^/4)("~"/2 V 1 Г* V _ W4)"~1/2 £СС/4П ~ Г (η) Δβ\4η)— Г (я) * ' тем самым получая Если положить С (1— ;ί-)=χ2> (6.10) дает .-с/2 ρ-χ2/2 /vs\rt-l м У*.)"Х — г ип I» \2/ 2 2/zJ T{n) (6.11) или, другими словами, величина ζ fl— ^~j асимптотически распределена какх2с2я = (г— \)k(k~\~\)j2 степенями свободы. Можно проверить, что 1—9~ = Р есть масштабный множитель в χ2-πpиближe- нии по Боксу (1949, стр. 329). [Ср. Андерсон (1958, стр. 255).] О других приближениях к нецентральному χ2-pacπpeдeлeнию см. Абдель-Ати (1954), Тьюки (1957).
340 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ μνΐ. 12 6.2. Одна выборка Для одной выборки мы получили значение 2/(//ι://2) Β (3.15). Тем же самым преобразованием (6.1), т. е. A/S==H^2v2l/2 с якобианом -У 1* + 1)/3 , вероятностная плотность распределения Уишарта элементов матрицы S преобразуется в плотность, выраженную правым членом пары (6.2), и 2/(^:^) = ^(logl^|-^ + trSS7l) = = Nk log N— Nlog I V J — //ft -f.tr V. (6.12) Характеристическая функция распределения 2/(//i://2) поэтому равна N{\—2it)~k-\ ( 1 у, ^—exp(—2tr(1~2")V+ \ * -\-UNk\ogN-ltNk\ Ц dvlt „*(ft-и/4Π Γ((/ν+1-α)/2) ο = 1 Ι \ilNk ^ exp(ttNklogN—it№) * ПГР(1-йН1-а))2) (l—af)***1-8")" JL1 . Γ((Λτ+ι-~α)/2) α= 1 Используя (6.5), мы получаем результат 1<* φ (9 = 4LJ<1-2*>+ 12(1-^^+0(1/^, (6.14) откуда установленные в предыдущих разделах выводы следуют так же, как в разделе 6.1. 6.3. Гипотеза независимости Известно, что логарифм характеристической функции распределения величины 2/(//1:#g) = — Nlogj R| [см. (3.18)] рав^н [см. Бартлетт (1950), Уилкс (1932, стр. 492)] logT(Q = (*-l)log Γ(/^ϊ)/2) + +ку wiMiiz^b^a (61Б) Т ^юёΓ((ΛΓ—α)/2) · УЬЛ0) α=1
б] АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 341 Используя приближение Стирлинга, как в (6.5), и сохраняя сравнимые по порядку члены, как в (6.7), мы имеем log φ (t) = - *fcL> log (1 - 2it) + j^, (6.16) где с = k (k — 1) (2k -\- 5)/I2M Тогда утверждение, сделанное в конце раздела 3.3, следует из (6.16), (6.8) и (6.9). Из (6.11) мы можем также вывести, что величина 2/(я1:я;)(1 - *(*64g+5) ) = -(Ai-T(2*+5>HRl асимптотически распределена как χ2 с ft (ft—1)/2 степенями свободы. Последний результат принадлежит Бартлетту (1950). Логарифм характеристической функции распределения величины 2i(H1:H*(-)) = Nlog 1R"I'^IR««I [см. (3.30)] равен [Вальд и Брукнер (1941), Уилкс(1932, стр. 493, 1943, стр. 244)] т Η р = 1 ct= l + L 10g Г ((N+1 - γ)/2) · (0Л i} Используя приближение Стирлинга, как в (6.5), и сохраняя лишь сравнимые по порядку члены, как в (6.7), мы имеем т iqg φ (9 = ψ iog(l_2if)+rSu, (6·18) где с = ((2ft3 + 3ft2 — ft) — J] (2Щ + 3ft} — k))jl2N, откуда следуют β=1 результаты табл. 3.1. Заметим, что при k —19 β = 1, ..., т, так что m = k, (6.17) превращается в (6.15) и (6.18) в (6.16). 6.4· Корни характеристических уравнений Из результатов, которые получили Гиршик (1939), Рой (1939, 1957), Сюй (1939, 1941а, 1941b, 1941—1942), Фишер (1939b) [см. Андерсон (1951, 1958, стр. 307—329), Муд (1951), Уилкс (1943, стр. 260—270)], известно, что плотность вероятности распределения
342 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 корней уравнения | S* — /S [ = 0 [см. (8.4) гл. 11] при больших (п — г) равна ■ιγ-\)Ρβ πΡ/2 р >11 (/,... /р)(г-Р-2)/2Х Π Г((г—ο)/2)Γ((ρ+1-α)/2) «=1 χ е-4 ('«+···+ν π (/._,,.), (бЛ9) и что плотность распределения корней | S^S^S^ — /Si2.j | = 0 [см. (7.4) гл. 11] при больших (я — kt) равна —5J ^ fa. · .t»*Jt»i-*«-»)/» X Π Γ^-οΟ/^ΓβΑ,+ Ι-οΟΡ) *>/ где г>£ = (л — kx) lt. Характеристические функции асимптотических распределений 3(НьНъ) в (8.5) и (7.5) главы 11 могут быть получены из (6.19) и (6. 20) и равны соответственно (1 — 2^)~(г_Ьр/2 и (1 — 2tf)~(ftl~l)*2/2, откуда следует вывод о том, что это χ2-pacπpeдeлeния. χ2-paзлoжe- ния в разделах 8.1 и 8.2 главы 11 основаны на том факте, что асимптотически распределения корней /т+1, ..., 1р из (6.19) и i>m+i» ··· ..., Vk2 из (6.20), в предположении, что соответственные параметры популяций имеют значения, заданные нулевой гипотезой, не зависят от распределения остальных корней и имеют вероятностные плотности, заданные соответственно ^yr_l_m)(p_m)/2^(p_m)/2 p„m [2} (4+i.../pF^-2)/2 Χ Π Г((г —от—α)/2)Γ((ρ—m+1 —α)/2) ХеЧ^+-+Ур(/._/;)) (б21) Μ γ*ι-i-mi (*. -яй/а ^_я)/а #2 — W Π Г((^— т— а)/2)Г((Ла — т + 1 —а)/2) X* П^у — *«)· (6·2 }
АСИМПТОТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ 343 Если Si и S2 — независимые, несмещенные оценки одной и той же ковариационной матрицы т при N\ и 7V2 степенях свободы соответственно, то вероятностная плотность распределения корней уравнения | MSi — /iVaSa I = ° Равна т /ТТ Г((Ц + Ц+1-«)/2) \ π \\\ Г ((Nt + 1 — α)/2) Г ((ΛΓ2+ 1 - α)/2) Г ((*+ 1 - α)/2) ) А χ ((i+/1)...(i + /ft))^+JVa)/2 * (6'23) Если S является несмещенной оценкой Σ с N степенями свободы, то вероятностная [плотность распределения корней уравнения I TVS — / Σ | = 0 равна π*/2 ρ^/2 (Ί - ■. /*)^-*- ^ X Π Г((ЛГ+1-«)/2)Г((й + 1—а)/2) о-1 ' -T^i + - + V χ* Π ('/-«· <6·24) ί>7 Распределение корней /т+1, ..., /ft в (6.24), в предположении, что соответственные параметры имеют значения, заданные нулевой гипотезой, не зависит от распределения остальных корней и имеет плотность вероятности (ft— го)/2 / 1 \{N—m) (ft—ro)/2 τ^ - И (W · - /Λ)ΐ"-*-'>* Χ Π Τ ((Ν— m+1 — α)/2) Γ ((fc — m+1 — α)/2) α = Ι xriwh~+l*n ('/-«· (6·25> *>/ В разделе 3.5 мы касались распределения суммы k Ν Σ ( — logFi — l+Fi) = (k — m)NlogN—(k — m)N+ + Σ (-MogJi + to ^e величины /г являются корнями уравнения (Λ/S—/Σ2| = 0. ^ы находим, что характеристическая функция интересующего нас
344 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 распределения равна [используя (6.25)] ί ^J exp (it (k — m)N log N— (k — m) Nit) ?Р)= (1 __2iY)(A!~w)(^1 -ЭД-«)/2 ^ ft —m X JUL Γ((ΛΓ—m+I —a)/2) ' ^-Zb> a— 1 Заметим, что при т = 0 рассматриваемая сумма есть не что иное, как 21(Н1:Н<2) в (6.12), и характеристическая функция, выведенная в (6.13), есть (6.26). Используя приближение Стирлинга, как в (6.5), и сохраняя лишь сравнимые по порядку члены, как в (6.7), мы находим, что логарифм характеристической функции (6.26) равен l°gT(')=- <*-"><*-"+'> 108(1-2/0 + 1^5, (6-27) где с = ((2£3 -[- 3&2 — k) — (2m3 -\~ 3яг2 — яг))/12А7, откуда следует утверждение о распределении, сделанное в разделе 3.5. Распределение корней /т+1, ... , 1к в (6.23), в предположении, что соответственные параметры имеют значения, заданные нулевой гипотезой, не зависит от распределения остальных корней и имеет плотность вероятности π(*-»ι)/2χ k—tn V TT Г((ЛГ-т+1-а)/2) v A Ц Г ((ΛΓ,-μ+1 — α)/2)Γ ((AT, — m+1 — о)/2)Г((й — m+1 — a)/2) A t = l x «i-i-A№)...a-i-/*))^-i-jMW/a"' (6,28) где Ν=Νι-\-Ν* В разделе 5.2 мы касались распределения (*-«)iVllogi^r + (*-«)^logi^ + k + Σ ((Μ + М) log (i+/0-М log a i=m+l где величины /г· являются корнями уравнения | N^ — /A/2S21 = 0. Мы находим, что характеристическая функция интересующего нас
7} КРИТЕРИЙ СТЮАРТА 345 распределения равна [используя (6.28)] φ (ί)=exp (it(k - tri) 2 Nj log $} X ft — m XT Г((ЛГ-т+1-«)/2) ч/ Г ((^ (1 - Ж) - m+1 -α)/2) ν A1J Γ((Ν(1 — 2tf) — m + 1 — α)/2)Λ T((Nt — m-\-l— α)/2) Λ V Γ((^(1-2«)-?η+1-α)/2) fi 9Q. Χ Г((ЛГ,-т+1-а)/2) * (°гУ) Аналогично тому, как в (6.5), (6.6) и (6.7), мы находим logT(0=- (*-»)»-»+0 d-210 + yj^, (6.30) (2ft3 + 3fts — ft) — (2m8 + 3m2 — m) / 1 ,1 1\ гдес = X V (ϊνϊ + ΛΓ,-ϊν)' 0Ткуда Сле' дует утверждение о распределении, сделанное в разделе 5.2. 7. КРИТЕРИЙ СТЮАРТА ОДНОРОДНОСТИ ЧАСТНЫХ РАСПРЕДЕЛЕНИЙ ПРИ ДВУФАКТОРНОЙ КЛАССИФИКАЦИИ Мы вернемся к проверке нулевой гипотезы о равенстве частных распределений, упоминавшейся в конце раздела 11 главы 8, и продемонстрируем метод Стюарта (1955а). 7.1. Многомерная нормальная гипотеза Рассмотрим следующую альтернативную гипотезу Hi и нулевую гипотезу //2 для средних значений и ковариационных матриц многомерных нормальных популяций: Hi'^t^nA, Σι = ηΣ — ηΑΔ', Ή2:μ2 = 0, Σ2 = λΣ. Из (1.2) главы 9 имеем /(l:2) = lM^A + LlogT^ML-|- + -f \ tr (л Σ — ηΔΔ') i- Σ1 = g- ηΔ'ΣΗΔ - (7.1) — \ log (1 — Δ'Σ^Δ) — \ Δ'Σ^Δ, (7.2)
346 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 используя то, что [ср. Уилкс (1943, стр. 237—238), задачи 10.4 и 10.6 гл. 9] Λ Δ' η -\ηΣ-~ηΑΑ'\ = ^ΙηΣΚί-Δ'Σ-'Δ). (7.3) |Δ ηΣ Таким образом, при больших п мы можем использовать величину 2/(1:2) = ηΔ'Σ^Α = {пЫ) (ηΣ)'1 (яА), (7.4) эквивалентную той, которая получилась бы при гипотезе равенства ковариационных матриц ηΣ и различия средних яА. 7.2. Проблема таблицы сопряженности признаков Указанная проблема, если принять обозначения раздела 2 главы 8 для двуфакторных таблиц сопряженности признаков и учесть равенство хг.-\-. ..-|-хс. = хш1 -[~...-|-х,с — п, сводится к задаче с с—1 переменной. Стюарт (1955а) предложил статистики di = Xi.—х.ь 1=1, 2, ... , с—1. (7.5) Известно, что полиномиальное распределение стремится к многомерному нормальному распределению [Кендалл (1943, стр. 290—291), Крамер (1946а, стр. 318, 418)]. Стюарт (1955а, стр. 413—414) показал, что E(di) = n{pi. ~p.il D(di) = n[(pi.-{-p.i — 2pii) — (pi.—p.if]> cov(di9 df)= — n [(ρ4-\-Ρμ)-\-{ρί. —/м)(Р> —P-j)l (7·6) так что при pi.—ρψί = ^ι матрица Σ в (7.1) есть Σ — ^ί/), сн = =Pi.+P-l—2Pii> <*ij = — {Pij+Pii)> I, j=l, 2, ..- t c—1. Статистика критерия (оценка 2/(1:2)) имеет вид 2/(tf1://2)=d'S-1d, (7.7) где a' = (db аъ ... , dc_x\ величины dt определены в (7.5), и S = === (β if л Sii == Xi· \~ χ·ί — ^xiv Sif ==:: — (xif "T* Xfi'> *» J :== ^' 2, . . - ... , с — 1. Если справедлива нулевая гипотеза //2, величина 2Ϊ(Ηι: Я2) асимптотически распределена, как χ2 с с — 1 степенью свободы. Как и при репараметризации, выводы не зависят от того, какие с — 1 из с величин аг были использованы. 8. ЗАДАЧИ 8.1. Что хможно сказать, исходя из (ЗЛ8), об области значений | R|? 8.2. Каково формальное соотношение между (3.26) и величиной (3.5) главы 7 при г= 1? 8.3. Проведите рассуждения раздела 4.1, если нулевая гипотеза (речь идет о средних значениях) превращена в #2: μ1 = μ + δ, μ2 = μ, при заданном δ, т. е. нулевая гипотеза утверждает, что различие средних равно δ.
8] ЗАДАЧИ 347 8.4. Каково асимптотическое распределение величины 2/ (Ях: Н2 (·)) в табл. 4.1, если нулевая гипотеза неверна? 8.5. Покажите, что 2/(//1://2 (·)) в (4.12) при г = 2 дает 2/(//1://2) в (4.8). 8.6. Проверьте однородность средних значений для первой и третьей выборок в примере 4.2. 8.7. Если бы вы подсчитали линейную дискриминантную функцию для второй и третьей выборок в примере 4.2 с помощью процедуры раздела 4.2 и процедуры раздела 8.1 главы И, были бы различными полученные результаты? 8.8. Каково асимптотическое распределение величины 2/(#1:#2(·)) в (5.14), если нулевая гипотеза неверна? 8.9. Проверьте однородность трех ковариационных матриц в примере 4.2. 8.10. Продолжите анализ данных в примере 5.1 согласно табл. 5.2 и подтвердите вывод Смита (1947), что корреляции незначимы. 8.11. Завершите анализ данных в примерах 4.1 и 5.2 в соответствии с табл. 5.2. 8.12. Найдите сходство и различие между критерием независимости двух множеств случайных величин в разделе 3.6 и критерием в разделе 7 главы 11. 8.13. Запишите плотности вероятности (6.2) для й=1. 8.14. Проведите алгебраические преобразования в (6.5). 8.15. Запишите плотность вероятности (6.19) дляр=1, плотность (6.20) для ft2 = l и плотность (6.23) для й=1. 8.16. Уилкс (1935b, стр. 325) рассмотрел нижеслецующую корреляционную матрицу, приведенную Келли (1928, стр. 114) для выборки, состоящей из 109 семиклассников, где пять величин характеризуют соответственно скорость арифметического счета, способность к счету, интеллектуальные интересы, общественные интересы, деловые интересы: 1 0,4249 —0,0552 —0,0031 0,1927 0,4249 1 —0,0416 0,0495 0,0687 \ R=[ —0,0552 —0,0416 1 0,7474 0,1691 -0,0031 0,0495 0,7474 1 0,2653у 0,1927 0,0687 0,1691 0,2653 1 ' Примете ли вы нулевую гипотезу о том, что множество первых двух величин не зависит от множества последующих трех величин? 8.17. Бартлетт и Раджалакшман (1953, стр. 119) сделали вывод, что наблюденная корреляционная матрица R с N= 29 значимо отличается от ги- потеаической корреляционной матрицы Р2, где П 0,7071 0,7071 0,ί 0,7071 1 0,5000 0,7071 0,7071 0,5000 1 0,7071 VO,5000 0,7071 0,7071 1 П 0,2676 0,5931 0,1269\ 0,2676 1 0,3753 0,5941 R=l Проверьте это заключение, 0,5931 0,3753 1 0,6796 ,0,1269 0,5941 0,6796 1
348 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 8.18. Бокс (1950, стр. 387) приводит следующие три ковариационные матрицы, полученные при исследовании изменения роста крыс в трех группах, содержавшихся в различных условиях: 210,5 13,5 —7,5 —13,$ 13,5 202,5 224,5 110,5 —7,5 224,5 310,9 117,5 Ч—13,5 110,5 117,5 258,5, mi,4 83,0 78,4 39,7 83,0 246,0 292,0 157,0 78,4 292,0 473,4 264,7 39,7 157,0 264,7 174,9 260,4 —54,0 —126,4 —54,0 160,5 110,0 -126,4 110,0 262,4 V—100,8 77,0 76,8 9Si = | 6S2 = 9S. = ' Бокс пришел к выводу, что нет причины сомневаться в однородности ковариационных матриц. Проверьте это заключение. 8.19. Предположим, что в табл. 3.1 анализ производится только для двух множеств (^ = 1, k2 = k—I). Покажите, что 2/(Ht: Н2 (·)) = — Nlog(l — ~ri-23...fe) c k — * степенью свободы и β2 = (&2—1)/2А/, где r1#23 k есть наблюденная множественная корреляция хг с лг2, лг3, ... , лг^. [См. (7.18) гл. 9.] 8.20. Покажите, что задача 10.12 главы 9 равносильна следующей. Обозначим через //J гипотезу независимости, заданную в (3.18) и Щ (Р/./-и,... fk = = 0)—гипотезу о том, что множественная корреляция xj с лг/+1, ... , Xk равна нулю, j =1,2,..., fc—1. Тогда Я^/^ (pf.23... д. = 0) П Щ (Р|.3 ... * = = 0)П ... П/Ш-ы^О). 8.21. Покажите, что — Nlog | R |= — AHog (1 — г*.ад k) — Nlog (1— -γΪ.8...α)---^1ο8(1-γΪ-ι.*)» т- е· что 2/(Я1:/У;) = 2/(Я1: ^(Р12.23...^-=0)) + ...+2/(Я1:^(р|_1.,г = 0)), где 2/(^1^) задана в (3.18) и 2/(Я1:/^ (Р)./+1 ft = 0))=-AHog (1-г)./+ь_ Д. 8.22. Покажите, что в табл. 8.1 проводится анализ величины 2ί(Ηί:Η'&) из формулы (3.18). 8.23. Покажите, что - AHog (1 - r}.a ... k) = - A/log (1 - rfft.a ... Л^) - ^A^log(i-rfft_1.23...^.2)-...^^log(l~r123.2)-^log(l--r312)> где ri/.23 .../_ΐ, 7=2, ... , ky есть частный коэффициент корреляции. 8.24. Покажите, что в табл. 8.2 проводится анализ величины 2/ (Ht: ^(pi.M..:*=°)). 8.25. Покажите, что задача 10.15 главы 9 равносильна следующей. Обозначим через Н2(Хц) гипотезу, определенную в (3.18), и через Я2(|2«| = ^ I s//-i2.-. /-11 > — гипотезу о том, что |2/у| = |2//.Мвв./_1|, у = 2, ... ... , т. ТогдаЛ№и)^//Л|2»| = |2.,.1|)П^(|2м1 = |2№»1)П··· ··· Π Я2(|2тт| —|2mm,12_.m„l|).
ЗАДАЧИ 349 Таблица 8.1 Компонента информации р1-ьа=о Ρ)·/+ι *=0 pf.a...A = 0 //; —A^iogd—rl_„bft) _tflog(l-rJ.y+lf_fft) _^l0g(l_rfe2 _ft) —/^Iog|R| С. С 1 *-У /г—1 Л (Л— 1) 2 β2 3 2Ν {k-j)* + 2(k-j) 2N k* — \ 2N k(k — \)(2k + 5) \2N Компонента информации pfs=o Pl3.2 = 0 Ρι/·23.../-ι = 0 P?fc.23 ... ft-l=0 pJ.a...*=o -АПо2(1-г?2) -ΑΠοδ(1-Γ?3.2) -^logO-rJ^^^) — Wlog(l—rfc.M ...A_t) -~Mog(l--rf.2_ft) Та С. С. 1 1 i 1 k~ 1 блица 8.2 β2 3 2N 5 27V 2/-1 2N 2k — \ 2N k*—l 2N 8.26. Покажите, что в табл. 8.3 проводится анализ величины 2Ϊ (Нх: Н2 (·)) из табл. ЗЛ. 8.27. Покажите, что анализ табл. 8.3 (задача 8.26) при ki = k2 = ...= = fcm = l подобен анализу в табл. 8.1 (задача 8.22). 8.28. Покажите, что в табл. 8.4 проводится анализ компоненты информации, обусловленной |^//.13.../_11 из та^л· 8.3 (задача 8.26) при l = kt-\- + *■ + ... + */ 8.29. Покажите, что при kj= kj_t = 1 компонента частичной независимости в табл. 8.4 (задача 8.28) сводится к компоненте для гипотезы рЛ7~-1)-1а.../—а5^» эт0 получается с помощью результата, подобного результату в'табл. 8.2 (задача 8.24). (Ср. задачу 10.20 гл. 9.)
350 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 оо 1 00 ЕГ S VD (Μ GEL ϋ С ES s 9 S о s rt » о с s С) ^1 + β? <м * \ *f •«г <м ее 14 ъд о * — ел 1 i~ 5* ел % \ f •—ч| + *& + : + + ■ + *у СМ . j> •«Й •—Ч + + лГ "^ е? Ч-Н 1 • • еч | ЪД о 1 I ■ ~^ζ • с/? ■ — 1 1 ♦ * ©ι ! Г~"> of ьд о ' £ ! Τ •^ сч ; ρ •Η *—"ч| + **£ + + ^ε + +! лГ г* ε Ι ** •—>ч 1 ε ·** + ι + *г — ε ■ ε Οί —■ Τ ε • Ο* «Η ε ε с* ЬД о '. * • . • — * ε • ε • ел ■ — j ε • с έ ε ел wT о : ξ ■— w* I ε с «Η ; ρ ε ε '*~*4 ! Ι <Ν·«» + See* εΡ^Ι ι "I 1 <м •*Й оо + *«£ (Ν СМ Wv "ε ε ι • С? с* "— ЬД О * ~i ε ел -*—_ • • ~ С/Г 1 ! .-"— ел W о ^ •—V ^ ί 1 ? 1 с "Ч Μ 00 S VD GO. ϋ ϋ в маци Οι •Θ· а 1 *"' ев а G С) ixi •—ч1 *""*' + •ί 1 *"-* *1 | 1 *>-4 ' ' *«sT •—Ч ι I Ι ι Ν—' ^ CC еч I 1 C3 «H A ••^ hi —· Ьй J2 ξ II 54 ел СЧ 1 •^ ■ Ά •^ ел — ЬЛ о ^ еч Ι I ея «Η s *^» w "~ 1 C^\ + 14 ^ I | 1 CM «г CM -ξ" i· —Ζ Ι 1 ! e* ••-ι •<-4 tf — 1 I СЯ «H :·^. ·> Ctf — Ьй £ ξ e* I **-. * СЧ ^*«l •^ ел -^_ | 1 1 "-» • 1^» "^ ел 1— bX) о fe: I S CQ ed CO <V S3 C3 £_ χ α tr о S s is С Г «—ч + •^4 1 CM ,fc> I **** Э oi I 1 СЧ «H 1^» > C£ — ьл о ^ 1 :=ί ел 1 1 ■•^ :^» •^ ел —' ьл о ξ «Η [ '^ e* «H *^ ••^ w —
8] ЗАДАЧИ 351 8.30. Соотнесите анализ в табл. 8.1 (задача 8.22) при k = 3 с табл. 3.3 главы 8. 8.31. Соотнесите анализ в табл. 8.2 (задача 8.24) при k = 3 с табл. 3.5 главы 8. 8.32. Пусть случайный вектор х подвергнут невырожденному линейному преобразованию у = Ах. Покажите, что (см. раздел 3 гл. 9): (а) μ^ = Αμ^ (б) Ху = АХхХ'; (в) у = Ах; (г) SJF = ASjeA'; (д) величина /(*:2) в формуле (3.14) равна J (у-μ^Σ-| (у-μ,) + ^(logi^!_ft+tr S^). 8.33. Пусть в задаче 8.32 \Σ21 Σ22/ \S21 S22/ \ Е^Ец1 \fij Покажите, что (см. разцел 7 гл. 9): (б) *>~Qz ь$' Σ'"=Σ,ν Σ«'="ο=ϊ«" 2jj,2s = 222 Σ21Σ1/Σ12 = 22Sal; (в) S^M1 ^J, SJ,11 = S11, SJl,12==S12™S112Y1i212 = S^1, S^22=: S22— Σ21Σ11ο12 S2i211Si2-}-22i211 ^liSj!^!^ ίΓ) SJV22-1 = SJV22 ~ S^21SiAS^12 β S22-l ^ S22 ~ S2lSTlS12; (д) величина 2l(Ht\H2) в (3.15) равна ^(log^5n-^+trS-«+logfei"^+ 4-trS Σ"1 } ioglS^ulls^l\ \ " °>22^22 Ι ιυ& ι g ι у . 8.34. Покажите, что в табл. 8.5 проводится анализ величины 2Ϊ(Ηί:Η2), данной в (3.15) (см. задачи 8.32 и 8.33 и табл. 3.1, k = kt-{-k2). 8.35. Пусть в (3.13) Σ2 = σ2'Σ3. Обозначим нулевую гипотезу, задающую σ2 и Σ3, через #3 (σ2), и нулевую гипотезу, задающую Σ3, но не задающую σ2, через #3 (·). Покажите, что [ср. Андерсон (1958, стр. 262), Мочли (1940)]: (а) 2/(//1:^(a2))^yv(logl^i+feloga2-fe + itrSSr); (б) тт2/(Я1 ://3 (°2)) достигается при σ2 = ν- tr SS^1; (в) 2/ (Я,: Я, (·)) = min 2/ (Я,: Я3 И) = N log 1|*1 где S = e*S8. о2 I »8 I
352 МНОГОМЕРНЫЙ АНАЛИЗ; ДРУГИЕ ГИПОТЕЗЫ [ГЛ. 12 Таблица 8.5 V ^11 2 si Σ 7/ 2t(Hl:fi2) (3.15) Компонента информации ^(logjI^-^+trS^/) ^(logib^l _*,+tr Sjes SsjLi) NiogilmL 1 S2s·! 1 wiog(JAL-fe + trss^) с. с. 2 2 ktk2 k{k+\) 2 Ρ2 2fcf + 3fcf — ^ 127V 2fel + 3fel—^ 127V *A(*+i) 27V 2Λβ + 3Λ8 —Λ 127V
ГЛАВА 13 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 1. ВВЕДЕНИЕ В этой главе мы продолжим обсуждение, начатое в разделе 9 главы 9. Мы уже рассмотрели линейные дискриминантные функции в предположениях равенства средних значений или ковариационных матриц в разделе 8 главы 11, разделах 3.5, 4.2 и 5.2 главы 12. Для этих линейных дискриминантных функций мы получили один и тот же матричный (векторный) коэффициент α в выражении _у = а'х, независимо от того, определяли мы а, максимизирующее 1(1:2; у), или 7(1, 2; у). Однако в разделе 9 главы 9 мы видели, что линейные дискриминантные функции оказываются различными в зависимости от того, максимизируем ли мы /(1:2; у)у 1(2:1; у) или J(l, 2; у). 2. ИТЕРАЦИЯ В разделе 9 главы 9 мы вывели уравнения для' нахождения коэффициентов линейной дискриминантной функции вида (9.5), т. е. Sja — λΣ2α = γό, (2.1) где λ и γ определены в разделе 9 главы 9 в соответствии с тем, какие из величин /(1:2; у\ /(2:1; j/) или J(l, 2; у) должны быть максимизированы. Заметим, что при выводе (9.5) в главе 9, деля на подходящий множитель, мы могли бы также записать уравнения как Σ2α — λ%α = γ'ό, (2.2) где при максимизации /(1:2, у) — a%a (a'S2a — a%a — (α'δ)2) ' ,_ («'Σ2«)(«'δ) 1 ~ α'Σ^α— α'Σ2α+(«'δ)2 '
354 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ТП. 13 при максимизации 7(2:1; у) ν ftrS2ft («%« — «'Σ2« — («'δ)2) αΊ^αία'Σ^α—α'Σ2α) ' ' α'Σ^α —α'Σ2α ' и при максимизации J(l, 2; j;) λ, <*'Σ2α ((<*'Σ2α)2 — (α'Σ!α)8 + (ftr6)s (<*'Σ2α)) «^«((α'Σ,α)2 — (α'Σ1α)2~(α'δ)2(«'21α)) ' , (af6) (ftfS2ft) (<*%«-}-α'Σ2«) T — (a%a)2 — (a'Ssa)2+(α'δ)2 (a%a)' Если мы для удобства положим множители пропорциональности γ и γ' равными 1, то (2.1) и (2.2) запишутся Σ& — λΣ2α = 6, Σ2α —Х%а = 6, (2.6) где λ=1/λ' в каждом случае. Если λ, λ' не являются решениями уравнений | Σι — λΣ21 = 0, | Σ3 — λ'Σι | = 0 соответственно, то формулы (2.6) дают следующие неявные решения для а: а = {Σ1 — λΣ2)~ι δ, « = (Ха — λ%)"* δ. (2.7) Если λ — известное число, то (2.7) непосредственно дает значение а. Однако λ, λ' во всех ситуациях являются функциями а. Поэтому требуются начальные или входные значения а, чтобы начать итерационную процедуру. За вводное значение α принимается соответственно «ο = ΣΓδ, а0=2^Д. (2.8) Должно быть ясно, что одно и то же начальное значение α пригодно для итерационного процесса независимо от того, максимизируегся 1(1:2; у), /(2:1; j;) или J(l, 2; у). После определения а0 находятся значения щЬу α^Σ^ο, αόΣ2α0 и затем λ0 или λ^. 1-й цикл начинается с использования λ0 или λ'ϋ для нахождения нового набора значений a щ = (Σχ — λ0Σ2)-ι δ, «ι = (Σ2 — ΚΣιΤ1 δ, (2.9) далее определяются α[6, а^сц, α|Σ2α2 и затем Xt или λί; так завершается первый цикл. Эта процедура продолжается до тех пор, пока различие в последующих значениях α или, точнее, в последующих ο^/ocj не станет так мало, как требуется. Мы будем заменять параметры популяций наилучшими несмещенными выборочными оценками. (2.4) (2.5)
з) пример 355 3. ПРИМЕР Мы проиллюстрируем описанные процедуры данными Смита (1947) (см. пример 5.1 гл. 12). Вычисления были выполнены Гринхаузом. Исходные значения таковы: _ _/20,80\ _ _/12,80\ / 8,00\ Xl ~ \12,32)' Щ~ U,4<V' ~ 1-24,08/' / 6,92 - 5.27Х /36,75 13,924 ^ ^ ^—5,27 40,89/ 2 у3,92 287,92/ ' *' /0,16023613 0,02065161 \ I So 1 = 10387,2936, 87' = 1 2| 1 1,0,02065161 0,02711749/ _/ 0,02771848 —0,001340Ю\ а = \—0,00134010 0,00353798/' /(l:2)=i-(log-f^[-2 + trS1Si1) + 4-tfSild = = 1,028432 4-2,170861=3,199293, /(2:1) = 4,282444+ 9,010994= 13,293438, .7(1, 2) = 6,310876 + 11,181855= 16,492731. Мы будем искать линейную дискриминантную функцию у = =αιΧι + (ЦХь 0|=1, 03=02/^, максимизирующую 7(1:2;_у); аналогичные действия предпринимаются в процедуре, ведущей к нахождению линейной дискриминантной функции, максимизирующей /(2 :1; у) и J(l, 2; у). Мы получим начальное значение по формуле (2.8), т. е. _ _/ 0,02771848 —0,001340Ю\/ 8,00\_ «о— * —^_0jooi34010 0,00353798/1,—24,08/ ~ ί (3.1) 0,25401745\ -0,09591536/' так что ат= 1,000000, аю = —0,377594. Огсюда получаем / 8,00\ aid = (l, -0,377594) ( ^'1 = 17,092464, / 6,92 — б,27\/ 1 \ aQS,a« = (J, —0,377594) =16,729814, 0 K V-5,27 40,89/ V-0,377594/ /36,75 13,92\/ 1 \ a0S2a0 = (l, -0,377594) = * '\J3,92 287,92/\-0,377594/ = 67,288553, и из (2.3) )· — (67,288553) (67,288553 —16,729814) __0 8417 0 16,729814(67,288553 —16,729814— (17,092464)2) ~" υ·841'*
356 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13 Цикл 1 /42,574564 9,484241 \ (S2 + 0,8417Sl)=( 9484241 322,337113)' ISa+0,84178! 1=13633,4112, / 0,02364317— 0,00069566\/ 8,00\ „1 = (S2 + 0,8417Sird = (_000069566 0)00312281)(_24(08) = _/ 0,20589685 \ = [—0,08076254/' ап — 1, ап = —0,3 92248, / 8,00\ aid=(l, —0,392248) =17,445332, ( 6,92 — 5,27\/ 1 \ •A*-(l. -0>M2248)(_5i27 4Oi89)(_0,392248) = >W«548. /36,75 13,92\/ 1 \ a;Sia1=(l, —0,392248) л л „ =70,128611, 181 У ' \\ 3,92 287,92 Д—0,392248/ и из (2.3) >,_ 70,128611 (70,128611 —17,345548) __пя4я<т 1—" 17,345548(70,128611—17,345548—(17,445332)2) ~ ЧЪЪЪобА. Цикл 2 /42,620236 9,449459\ (S2 + 0.8483 Sj)= , ν г~ " \ 9,449459 322,606987/ IS2 + 0,8483 Si | = 13660,2936, „ . / 0,02361640 —0,00069175\/ 8,00\ a8=(S9 + 0,8483 S,)r»d = | w U= 8 v %~ v ^—0,00069175 0,00312001/V—24,08/ _/ 0,20558854\ ~~ ^—0,08066384/' a,! = 1, a23 = — 0,392356, / 8,00\ a9d = (l, -0,392356)1 1=17,447932, / 6,92 — 5,27\/ 1 \ a£iai = (l, —0,392356) =17,350162, a ^ Д-5,27 40,89Д-0,392356/ /36,75 13,92\/ 1 \ a9S2a2=(l, —0,392356) =70,150078 ^13,92 287,92 Д-0,39235б/ и из (2.3) r__ 70,150078 (70,150078 — 17,350162) _ __n Я4ЯЧЯЯ *«— 17,350162(70,150078—17,350162—(17.447932)2) ~~' v'^boti6'
3] ПРИМЕР 357 Был вычислен третий цикл, хотя, по-видимому, было достагочно двух циклов ввиду незначиаельности изменений λΓ. Величина была также подсчитана для начального значения и в цикле 3. Различные значения сведены в табл. 3.1. ^\. г h &i2 a;sA *;sA a:d /(1:% у) 0 —0,8417 —0,377594 16,729814 67,288553 17,092464 2,4911 1 —0,848333 —0,392248 17,345548 70,128611 17,445332 Та 2 —0,848388 —0,392356 17,350162 70,150078 17,447932 блица 3.1 3 —0,8483901 —0,392357 17,350213 70,150338 17,447957 2,492009 В случае, когда основой для итерации служит a=(Ei — λΣ2) *δ, соответствующие значения суммируются в табл. 3.2. ν. i I h a:S3a. 0 —0,9409 —0,621689 29,276464 130,722394 1 —1,1763 —0,395810 17,497910 70,837924 Та 2 —1,1787 —0392385 17,351408 70,155892 блица 3.2 3 —1,178703 —0,392357 17,350213 70,150338 Отметим, что в этом примере обе процедуры дают одно и то же значение ап и в точности обратные друг другу значения λ только после трех циклов. В общем случае число t циклов не обязано быть равным трем. Заметим, чго значения вдоль строки в каждой таблице меняются монотонно. л Значения линейной дискриминантной функции, максимизирующей ^(1, 2; у), находятся из табл. 3.3. л Значения линейной дискриминантной функции, максимизирующей ^0-> 2; у), находятся из табл. 3.4.
358 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13 Таблица 3.3 ^■"v. i h Щъ арА «ιδΑ /(2:1; у) 0 0,0361 —0,621689 29,276464 130,722394 1 0,036582 —0,843193 44,878981 217,979141 2 0,036596 —0,848904 45,334336 220,602606 3 0,036547 —0,849072 45,347760 220,679986 10,0637 Таблица 3.4 "Ν. ί h Щъ aiSia£ ^Vi Hi %y) 0 0,00206 —0,621689 29,276464 130,722394 1 0,00231 —0,628501 29,696523 132,984963 2 0,0023397 —0,629353 29,749296 133,269606 3 0,0023435 —0,629456 29,755698 133,304168 12,3741 Таким образом, мы имеем три линейные дискриминантные функции: max /(1:2; у) :у = х1 — 0,3924*;2, max/(2:1; у):у = хг — 0,8491х2, (3.2) maxJ(l, 2; у):у = х1 — 0,6295х2. 4. ЗАМЕЧАНИЕ Хотя и несомненно, что указанная выше процедура при надлежащем выборе начальных значений сходится, мы не имеем общего доказательства сходимости или того, что решение, доставляемое этой процедурой, есть единственное, удовлетворяющее (2.6). Однако в двумерных задачах /(1:2; у)9 /(2:1; у) и J(l, 2;у) по существу являются функциями одного неизвестного, отношения α2/αν Условие максимизации записывается полиномом от этого отношения, и свойства его корней могут быть изучены. Для^ /(1:2; у) и /(2:1; у) этот полином имеет четвертую степень, а для J (1, 2; у) — шестую. В каждом примере раздела 3 существовали только два действительных корня: отрицательный корень, доставляющий максимум величинам /(1: 2; у).
Ь] ДРУГИЕ ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ 359 7(2:1; у) и J(l, 2; у)у и положительный корень, доставляющий минимум в каждом случае. Уравнения были решены методом Ньютона, и отрицательные корни, максимизирующие /(1:2; у\ /(2:1; у) и J(h 2; у\ были равны соответсгвенно — 0,392357, —0,849083 и 0,629468. Обращение к табл. 3.2, 3.3 и 3.4 несомненно убеждает нас в ι ом, что итерация сходится к эгим значениям и что значения, полученные после двух циклов, верны до 4-го десятичного знака. 5. ДРУГИЕ ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ Смит (1947) вычислил линейную дискриминантную функцию для приведенных данных в предположении, чго ковариационная матрица в обеих популяциях одна и та же. Тогда решение для α имеет вид a = S-4 (5.1) где /VS = MSi + MSa» Ν = Μ + Ak (См. последнюю часть примера 4.1 гл. 12 и раздел 8.1 гл. 11.) Полученные Смитом значения, сведенные к форме, сравнимой с (3.2), т. е. так, что 04 = 1, дают дискриминантную функцию j/ = jd — 0,3947х2. (5.2) Так как обе выборки имеют одинаковый объем, линейная дискрими- нантная функция вычисляется так же, как в разделе 4.2 главы 12, т. е. значение а, удовлетворяющее соотношению Ή^+^Γ* (5·3) дает линейную дискриминантную функцию (5.2). Заметим, что линейная дискриминантная функция (5.2) почти такая же, как функция (3.2), получающаяся при максимизации 7(1:2; у). Дискриминантная функция часто используется для отнесения индивидуума к одной из двух популяций на основе вектора наблюдений (хь хъ ..., xk) и данной линейной комбинации у = ч1х1-{-... ... + ΪΛ· [Мы используем матрицу γ'=(γι, γ2> ..., γΑ), чтобы в дальнейшем избежать путаницы с вероятностью ошибки а.] Обычно классификация производится в соответствии с некоторым правилом, таким, как, например: если у принадлежит области Л*, то относим индивидуум к популяции, скажем, ъь если же у не принадлежит области Л*, то относим к популяции щ. Ясно, что с эй ой или любой Другой классификационной схемой связываются два рода ошибок, а именно: отнесение у к популяции %, тогда как у в действшель- ности из популяции π2, и отнесение у к популяции π2, тогда как у в Действительности из популяции щ. Обозначим вероятность ошибки первого рода через α и вероятность ошибки второго рода через β. Мы можем теперь построить критерий минимальной ошибки для
360 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13 нахождения линейной дискриминантной функции. Какая линейная функция χ при данном β будет минимизировать а? Так как α и β— монотонные функции нормальных отклонений ία и ίβ соответственно, проще иметь дело с последними. Можно показать, что при данном β величина α будет минимизироваться при максимизации t = ν'δ-'β(ν,,Σιν)1/2 (γ'Σ2γ)1/2 ' Посредством обычных вычислений можно показать, что значение γ, максимизирующее предыдущее выражение, определяется из уравнения ['ρ (Υ%Υ)1/2 Ά + К (Y'W2 Σ*] Υ = (Y%Y)1/s (Y%Y)1/s δ, (5.4) которое нелинейно по γ. (То же самое уравнение получается, если задавать α и минимизировать β.) Решение здесь лучше искать так же, как в разделах 2 и 3, применяя итерационную процедуру к уравнению вида (Σ1 + λΣ2)γ = δ, (5.5) где λ = /α(γ'Σ1γ)1/2/ίβ(γ'Σ2γ)1/2. Процесс итерации проходит тождественно описанному в разделе 2. Начальные значения для у получаются из γ = 27*6, они в свою очередь определяют γ'Σχγ, γ'Σ2γ и при фиксированных t, ta этим определяется λ, так что (5.5) становится явным уравнением относительно γ. Циклы итерации могут быть продолжены до тех пор, пока изменения ta не станут столь малыми, как то необходимо. Таким способом были найдены две функции; одна для β = 0,05 (f = 1,645) и другая для β = 0,16 (ίβ= 1,000), max ta (ί = 1,645) :y =xx — 0,4173*» (5.6) max έα(έβ= lf000):j/ = jei — 0,3990x2. (5.7) Хотя линейная дискриминантная функция, выведенная из критерия минимальной ошибки, интересна и сама по себе, наше внимание к ней здесь связано с тем, что с ее ошибками классификации мы будем сравнивать соответствующие ошибки других линейных дискриминант- ных функций. Заметим, что критерий минимальной ошибки не доставляет единственную функцию, но снабжает нас различными дискриминантами при каждом t. Кроме того, используемый здесь критерий дает лишь приближение (хотя и очень хорошее) к фактической линейной функции, минимизируя α при фиксированном β. Это происходит потому, что процедура предполагает область отнесения к популяции щ, скажем, у ^>уо (или у <Cj>oX оптимальной как при Σι Φ 2s> так и при Σχ = Σ2. Известно, что это не так [см., например, Пен- роуз (1947) и раздел 2 гл. 5].
б] СРАВНЕНИЕ РАЗЛИЧНЫХ ЛИНЕЙНЫХ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ 361 6. СРАВНЕНИЕ РАЗЛИЧНЫХ ЛИНЕЙНЫХ ДИСКРИМИНАНТНЫХ ФУНКЦИЙ Прежде чем сравнивать различные линейные дискриминантные функции, полученные в разделах 3 и 5, мы представим в табл. 6.1 значения различающей информации для х-ок для хх и х% раздельно и вместе. Отметим, что значения всех трех информационных мер для х2 больше, чем соответствующие значения для хь т. е. наблюдение над характеристикой х% в выборке из любой популяции несет большую информацию при различении двух популяций, чем наблюдение над характеристикой хх. Обращение к нижней части табл. 6.1, где представлена ошибка, сделанная при классификации наблюдения из π2(α) для данной ошибки при классификации наблюдения из щф), убеждает нас, что в соответствии с критерием ошибок х% также лучше, чем хх. Таблица 6.1 Информационные меры /(1:2) /(2:1) 7(1, 2) *1 1,2997 5,9448 7,2445 Х2 1,5539 9,1351 10,6890 Xl И Х2 вместе 3,1993 13,2934 16,4927 Ошибки а при β = 0,01 а при β = 0,05 а при β = 0,16 Πΐίη(α + β) β а 0,3782 0,2723 0,1879 0,3154 0,0738 0,2416 0,2937 0,2123 0,1486 0,2580 0,0553 0,2027 Последний столбец табл. 6.1 дает /(1:2; у\ /(2:1; у) и J(l, 2;у) для хх и х% в предположении, что они имеют двумерное нормальное распределение в каждой из двух популяций. Чтобы определить эффективности линейных дискриминантных функций от χλ и х%> заметим, что максимум, которого могут достигать величины /(1:2;_у), /(2:l;j/) и 3{\, 2; у), равен соответственно 3,1993, 13,2934 и 16,4927. Одна из самых интересных особенностей табл. 6.1 состоит в том, что в этом примере хх и х% совместно дают значение /(1:2), которое превосходит сумму значений /(1:2) в отдельности для хх и х2. Это не верно для /(2:1; у) и J(l, 2; у). В табл. 6.2 содержатся данные по шести линейным функциям от χι и х2; три из них были получены посредством максимизации информационных вдер, две с помощью критерия ошибок и одна была
362 ЛИНЕЙНЫЕ ДИСКРИМИНАНТНЫЕ ФУНКЦИИ [ГЛ. 13 найдена посредством объединения дисперсий и ковариаций дВух вы_ борок и следования предположению, что ковариационные матрицы одинаковы. Верхняя часть табл. 6.2 имеет отношение к информационным мерам для линейных комбинаций, а нижняя часть изображает различные комбинации ошибок при классификации наблюдений включая минимальную суммарную ошибку, которая могла быть сделана при использовании каждой функции. Таблица 6.2 Линейные дискриминаитные функции Способы получения У /(1:2; зО /(1:2; у)//(1:2) /(2:1; у) /(2:1;у)//(2:1) /(1, 2; у) Пи %y)iHh 2) 8 *I-0,3924.*2 2,4920 0,779 9,5962 0,722 12,0882 0,733 СЗ В *i-0,849U2 2,2272 [ 0,696 10,0637 | 0,757 12,2909 1 0,745 к: 8 λ:ι-0,6295λ:2 2,3728 0,742 10,0012 0,752 12,3741 0,750 Объединение вариационных матриц *!-0,3947*2 2,4920 0,779 9,6040 0,722 12,0960 0,733 min α при β = 0,05 Χΐ-0,4173χ2 2,4897 0,778 9,6711 0,728 12,1608 ! 0,737 min о при (3 = 0,16 *!-0,3990л;8 2,4918 0,779 9,6172 0,723 12,1090 0,734 Ошибки а при β = 0,01 а при β ^ 0,05 а при β = 0,16 min (α -|- β) β α 0,1771 0,1029 0,0564 0,1525 0,0438 0,1087 0,1948 0,1212 0,0719 0,1708 0,0446 0,1262 0,1823 0,1096 0,0626 0,1591 0,0434 0,1157 0,1770 0,1029 0,0564 0,1525 0,0438 0,1087 0,1764 0,1027 0,0564 0,1522 0,0435 0,1087 0,1769 0,1028 0,0564 0,1523 0,0437 0,1086 Очевидно, чю четыре линейные дискриминаитные функции, полученные: (а) путем максимизации /(1:2; у), (б) объединением дисперсий и ковариаций, (в) минимизацией α при β = 0,05 и (г) минимизацией α при β = 0,16, весьма схожи в отношении различающей информации, расхождения и ошибок классификации. Максимизация /(2:1;_у) и J(l, 2; у) дает линейные дискриминаитные функции, которые имеют большую эффективность, чем другие четыре, по отношению к /(2:1;у) и J(l, 2; у), но характеризуются меньшей эффективностью по отношению к /(1:2; у), а также имеют большие ошибки классификации, чем другие четыре линейные дискриминаитные функции. С точки зрения теории информации наиболее интересным в случае, когда ковариационные матрицы не равны, является тот факт
7] ЗАДАЧИ 363 что /(1:2; у)^1(2%Л\ у)9 и поэтому максимизация этих двух мер и меры расхождения. J(l, 2; у) дает три различные линейные функции. Пример подсказывает, что по крайней мере одна из дискриминант- иых функций, полученных таким образом, в добавление к имеющимся оптимальным свойствам, связанным с информационной мерой, приводящей к ней, будет также обладать оптимальными свойствами, связанными с критерием минимума ошибок для нахождения линейной дискримйнантной функции. Возникающей интересной проблемой является исследование свойств тах/(1:2; у), тах/(2:1; у) и maxJ(l, 2; у) для определения условий, при которых одно из этих выражений становится наилучшим с точки зрения ошибок в численных приложениях. Предполагается, что если % всегда рассматривать как популяцию с наименьшей ковариационной матрицей (см. замечание, следующее за леммой 5.1 гл. 3), то линейная дискриминантная функция, получающаяся в результате максимизации /(1:2;_у), будет всегда давать ошибки, гораздо меньшие, чем две другие линейные дискриминантные функции. Заметим также, что, хотя max7(2:1; у) и max J(l, 2; у) приводят к дискриминантным функциям, худшим, чем построенные на основе критерия ошибок, они в большей степени отличаются от линейных дискриминантных функций, полученных на другой основе, чем информационные меры. Дальнейшее изучение этих двух линейных дискриминантов может выявить важные стороны теоретико-информационного подхода. Общий интерес представляет тот факт, что линейная дискриминантная функция, полученная объединением ковариационных матриц, столь же хороша. Предстоит выяснить, остается ли это справедливым в других примерах или это свойственно данному случаю. 7. ЗАДАЧИ 7.1. Выведите (2.2), (2.3), (2.4), (2.5). 7.2. Выведите величины в табл. 3.2. 7.3. Выведите величины в табл. 3.3. 7.4. Выведите величины в табл. 3.4. 7.5. Выведите два полинома четвертой степени и один шестой степени, упоминавшиеся в разделе 4. 7.6. Выведите (5.4) и (5.5). 7.7. Получите значения в формуле (5.7). 7.8. Выведите (5.4), минимизируя β при данном а.
ЛИТЕРАТУРА А б д ел ь - А т и (S. H. Abdel-Aty) (1954)« Approximate formulae for the percentage points and the probability integral of the non-central χ2 distribution»; Biometrika, Vol. 41, pp. 538—540. Адхикари и Джоши (В. P. Adhikari and D. D. Joshi) (1956) «Distance-Discrimination et resume exhaustib, Pubis, inst. statist, univ. Paris, Vol. 5, Fasc. 2, pp. 57—74. Андерсон и Бэнкрофт (R. L. Anderson and T. A. Bancroft) (1952) Statistical Theory in Research, McGraw-Hill Book Co., New York. Андерсон (Т. W. Anderson) (1951) «The asymptotic distribution of certain characteristic roots and vectors», Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, Univ. Calif. Press, pp. 103—130. (1958) An Introduction to Multivariate Statistical Analysis, John Wiley & Sons. (Русский перевод: Т. Андерсон, Введение в многомерный статистический анализ, Фнзматгиз, 1963.) Б а л м е ρ (Μ. G. Buhner) (1957) .«Confirming statistical hypotheses», J. Roy. Statist. Soc, Ser. B, Vol. 19, pp*. 125—132. Б a p a h к и η (Ε. W. Barankin) (1949) «Locally best unbiased estimates», Ann. Math. Statist., Vol. 20, pp. 477—501. (1951) «Concerning some inequalities in the theory of statistical estimation», Skand. Aktuar. Tidskr., Vol. 34, pp. 35—40. Баранки η и Герляид (Ε. W. Barankin and J. Gurland) (1951) «On asymptotically normal, efficient estimators: 1», Univy Calif. Ptibl. Statist, Vol. 1, No. 6, pp. 89—130. Барна-рд (G. A. Barnard) (1949) «Statistical inference», J. Roy. Statist Soc, Ser. B, Vol. 11, pp. 115—149. (1951) «The theory of information», J. Roy. Statist. Soc, Ser. B, Vol. 13, pp. 46—64. Бартлетт (Μ. S. Bartlett) (1935) «Contingency table interactions», /. Roy. Statist Soc, Stippl., Vol. 2, pp. 248—252. (1936) «Statistical information and properties of sufficiency», Proc. Roy. Soc, Ser. A, Vol. 154, pp. 124—137. (1937) «Properties of sufficiency and statistical tests», Proc. Roy. Soc, Ser. A, Vol. 160, pp. 268—282.
ЛИТЕРАТУРА 365 (1947) «Multivariate analysis», J. Roy. Statist. Soc, Sappl., Vol. 9, pp. 176—197. (1948) «Internal and external factor analysis», Brit. J. Psychol., Vol. 1, pp. 73—81. (1950) «Tests of significance in factor analysis», Brit. J. Psychol., Stat. Sec, Vol. 3, pp. 77—85. (19ola) «An inverse matrix adjustment arising in discriminant analysis», Ann. Math. Statist., Vol. 22, pp. 107—111. (1951b) «The effect of standardization on a χ2 approximation in factor analysis», Biometrika, Vol. 38, pp. 337—344. (1952) «The statistical significance of odd bits of information», Biometrika, Vol. 39, pp. 228—237. (1954) «A note on the multiplying factors for various χ2 approximations», J. Roy. Statist. Soc, Ser. B, Vol. 16, pp. 296—298. (1955) An introduction to Stochastic Processes, Cambridge Univ. Press. (Русский перевод: М, С. Б а р τ л е τ τ, Введение в теорию случайных процессов, ИЛ, 1958.) Бартлетт и Раджалакшман (М. S. Bartlett and D. V. Rajalakshman) (1953) «Goodness of fit tests for simultaneous auto regressive series», J. Roy. Statist. Soct Ser. B, Vol. 15, pp. 107—124. Бартон (D. Ε. Barton) (1956) «A class of distributions for which the maximum-likelihood estimator is unbiased and of minimum variance for all sample sizes», Biometrika, Vol. 43, pp. 200—202. Бахадур (R. R. Bahadur) (1954) «Sufficiency and statistical decision functions», Ann. Math. Statist., Vol. 25, pp. 423—462. Бар-Хиллел (Υ. Bar-Hillel) (1955) «An examination of information theory», Philos. Sci., Vol. 22, pp. 86—105. Бар-Хиллел и К а р н a π (Υ. Bar-Hillel and R. Carnap) (1953) «Semantic information», Brit. J. Phil. Sci.t Vol. 4, pp. 147—157; also appears with a discussion in Communication Theory, W. Jackson (ed.), Academic Press, New York, 1953, pp. 503—512. Б е л л (D. A. Bell) (1953) Information Theory and its Engineering Applications (1st ed.), Sir Isaac Pitman & Sons, London; 2 nd ed., 1956. Бинэ и Уотсон (F. Ε. Binet and G. S. Watson) (1956) «Algebraic theory of the computing routine for tests of significance on the dimensionality of normal multivariate systems», /. Roy. Statist. Soc, Ser. B, Vol. 18, pp. 70—78. Блан-Лапьер и Тортра (A. Blanc-Lapierre and A. Tortrat) (1956) «Statistical mechanics and probability theory», Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Univ. Calif. Press, Vol. HI, pp. 145—170. Бяекуэлл и Гиршик (D. Blackwell and M. A. Girshick) (1954) Theory of Games and Statistical Decisions, John Wiley & Sons, New York. (Русский перевод: Д. Блекуэлл и Μ. А, Гиршик, Теория ИгР и статистических решений, ИЛ, 1958.)
366 ЛИТЕРАТУРА Бокс (G. Ε. P. Box) (1949) «A general distribution theory for a class of likelihood criteria», Biometrika, Vol. 36, pp. 317—346. (1950) «Problems in the analysis of growth and wear curves», Biometrics, Vol. 6, pp. 362—389. Б о у к е ρ (Α. Η. Bowker) (1948) «A test for symmetry in contingency tables», /. Am. Statist. Assoc, Vol. 43, pp. 572—574. Бохер (Μ. Bocher) (1924) Introduction to Higher Algebra, The Macmillan Co., New York. Брадт и Карлин (R. N. Bradt and S. Karlin) (1956) «On the design and comparison of certain dichotomous experiments», Ann. Math. Statist, Vol. 27, pp. 390—409. Б ρ a η κ (Η. D. Brunk) (1958) «On the estimation of parameters restricted by inequalities», Ann. Math. Statist, Vol. 29, pp. 437—453. Б ρ и л л ю э н (L. Brillouin) (1956) Science and Information Theory, Academic Press, New York. (Русский перевод: Бриллюэн, Наука и теория информации, Физматгиз, 1959.) д е Б ρ о й л ь (L. de Broglie), (chairman) (1951), La Cyber netiqtie, Editions de la Revue dOptique Theorique et Instrumentale, Paris. Бхаттачарья (A. Bhattacharyya) (1943) «On a measure of divergence between two statistical populations defined by their probability distributions», Bull. Caicutta Math. Soc, Vol. 35, pp. 99—109. (1946a) «On a measure of divergence between two multinomial populations», Sankhya, Vol. 7, pp. 401—406. (1946b, 1947, 1948) «On some analogues of the amount of information and their use in statistical estimation», Sankhya, Vol, 8, pp. 1—14; pp. 201—218; pp. 315-328. Б э й τ м а н (G. 1. Bateman) (1949) «The characteristic function of a weighted sum of non-central squares of normal variates subject to s linear restraints», Biomeirika, Vol. 36, pp. 460—462. Вальд (A, Wald) (1943) «Tests of statistical hypotheses concerning several parameters when the number of observations is large», Trans. Am. Math. Soc, Vol. 54, pp. 426—482. (1945a) «Sequential tests of statistical hypotheses», Ann. Math. Statist., Vol. 16, pp. 117—186. (1945b) «Sequential method of sampling for deciding between two courses of action», J. Am. Statist. Assoc, Vol. 40, pp. 277—306. (1947) Sequential Analysis, John Wiley & Sons, New York. (Русский перевод: А. Вальд, Последовательный анализ, Физматгиз, 1960.) Вальд и Брукнер (A. Wald and R. J. Brookner) (1941) «On the distribution of Wilks' statistic for testing the independence of several groups of variates», Ann. Math. Statist, VoJ. 12. pp. 137—152.
ЛИТЕРАТУРА 367 В ей б у л (М. Weibull) (1953) «The distributions of t- and F-statistics and of correlation and regression coefficients in stratified samples from normal populations with different means», Skand. Aktuar. Tidskr., Vol. 36, 1—2 Suppl., pp. 1—106. В и й с м а н (R. A. Wijsman) (1957) «Random orthogonal transformations' and their use in some classical distribution problems in multivariate analysis», Ann. Math. Statist., Vol. 28, pp. 415—423. Винер (Ν. Wiener) (1948) Cybernetics, John Wiley & Sons, New York. (Русский перевод: Η. Винер, Кибернетика, ИЛ, 1960). (1950) The Human Use of Human Beings, Houghton Mifflin Co., Boston. (1956) «What is information theory?», IRE Trans, on Inform. Theory, Vol. IT-2, p. 48. Вольфовиц (J. Wolfowitz) (1947) «The efficiency of sequential estimates and W aid's equation for sequential processes», Ann. Math. Statist, Vol. 18, pp. 215—230. В у д в о ρ д (Р. Μ. Woodward) (1953) Probability and Information Theory, with Applications to Radar, McGraw-Hill Book Co., New York. (Русский перевод: Φ. Μ. Β у д в о р д, Теория вероятностей и теория информации с применениями к радиолокации, Советское радио, 1955.) Вудворд и Дэвис (Р. М. Woodward and L L. Davies) (1952) «Information theory and inverse probability in telecommunications», Proc. I. E. E.t Part III, Vol. 99, pp. 37—44. Гарнер и Мак-Гил л (W. R. Gamer and W. J. McGill) (1954) «Relation between uncertainty, variance, and correlation analyses», Rep. No. 166-1-192, ONR Contract N5oriA66, Johns Hopkins Univ. (1956) «The relation between information and variance analyses», Psycho- metrika, Vol. 21, pp. 219—228. Г ель фан д, Колмогоров, Яглом (1956) «К общему определению количества информации», ДАН СССР, т. 111, № 4, стр. 745—748. Г ер л ян д (J. Gurland) (1954) «On regularity conditions for maximum likelihood estimators», Skand. Aktuar. Tidskr., Vol. 37, pp. 71—76. Гильберт (Е. N. Gilbert) (1958) «An outline of information theory», Am. Statistician, Vol. 12, pp. 13—19. Гиршик (Μ. A. Gjrshick) (1936) «Principal components», J. Am. Statist Assoc, Vol. 31, pp. 519—528. (1939) «On the sampling theory of the roots of determinantal equations», Ann. Math. Statist., Vol. 10, pp. 203—224. (1946) «Contributions to the theory of sequential analysis», I, II, HI, Ann. Math. Statist, Vol. 17, pp. 123-143; 282—298. Гиршик и Сэвидж (Μ. Α. Girshick and L. J. Savage) (1951) «Bayes and minimax estimates for quadratic loss functions», Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, Univ. of Calif. Press, pp. 53—73.
368 ■ ЛИТЕРАТУРА Г о л д м а н (S. Goldman) (1953) Information Theory, Prentice-Hall, New York. (Русский перевод: С. Голдман, Теория информации, ИЛ, 1957.) Гранди (Р. М. Grundy) (1951) «A general technique for the analysis of experiments with incorrectly treated plots», J. Roy. Statist. Soc, Ser. B, Vol. 13, pp. 272—283. Грелль (Н. Grell) (ed.) (1957) Arbeiten zur Informationstheorie I, Deutscher Verlag der Wissenschaften, Berlin. (Переводы с русского и венгерского.) Грин (Р. Е. Green, Jr.) (1956) «A bibliography of Soviet literature on noise, correlation, and information theory», IRE Trans, on. Inform. Theory, Vol. IT-2, pp. 91—94. (1957) «Information theory in the U. S. S. R.», IRE WESCON Convention Record, Part 2, pp. 67—83. Γ ρ и η χ а у 3 (S. W. Greenhouse) (1954) «On the problem of discrimination between statistical populations», M. A. Thesis, George Washington Univ. Γ ρ ο η о у (D. G. С. Gronow) (1951) «Test for the ^significance of the difference between means in two normal populations having unequal variances», Biometrika, Vol. 38, pp. 252—256. Гуд (I. J. Good) (1950) Probability and the Weighing of Evidence, Charles Griffin, London. (1952) «Rational decisions», J. Roy. Statist. Soc, Ser. B, Vol. 14, pp. 107—114. (1953) «The population frequencies of species and the estimation of population parameters», Biometrika, Vol. 40, pp. 237—264. (1956) «Some terminology and notation in information theory», Proc. I. E. E., Part C, Vol. 103, pp. 200—204. (1957) «Saddle-point methods for the multinomial distribution», Ann. Math. Statist., Vol. 28, pp. 861—881. Д a ρ μ у a (G. Darmois) (1936) Methodes d'Estimation, Actualites sci. et ind. No. 356. (1945) «Sur les limites de la dispersion de certaines estimations», Rev. Inst, intern. Statist., Vol. 13, pp. 9—15. Двайер и Макфейл (P. S. Dwyer and M. S. MacPhail) (1948) «Symbolic matrix derivatives», Ann. Math. Statist., Vol. 19, pp. 517-534. * Джеймс (G. S. James) (1954) «Tests of linear hypotheses in univariate and multivariate analysis when the ratios of the population variances are unknown», Biometrika, Vol. 41, pp. 19—43. Д ж е й η e с (Ε. Τ. Jaynes) (1957) «Information theory and statistical mechanics», Phys. Rev., Vol. 106, pp. 620—630. Джексон (W. Jackson) (ed.) (1950) Proceedings of a Symposium on Information Theory, Royal Society, London, 1950, published by Ministry of Supply, and by the IRE, Feb, 1Q53?
ЛИТЕРАТУРА 369 (ed.) ^(1952) Communication Theory, Papers Read at a Symposium on «Applications of Communication Theory», IEE, London, Sept. 1952; Academic Press, New York, 1953. Джеффрис (Н. Jeffreys) (1946) «An invariant form for the prior probability in estimation problems», Proc. Roy, Soc. (London), Ser. A, Vol. 186, pp. 453—461. (1948), Theory of Probability (2nd ed.), Oxford Univ. Press. Джоши (D. D. Joshi) (1957) «L'information en statistique mathematique et dans la theorie des communications», These, Faculte des Sciences de TUniversite de Paris, June Диме ρ и Олкин (W. L. Deemer and I. OIkin) (1951) «The Jacobians of certain matrix transformations useful in multivariate analysis», Biometrika, Vol. 38, pp. 345—367. Долански и Долански (L. Dolansky and M. P. Dolansky) (1952) «Table of log2·—, plog2 — and ρ log2 — + (1 — p) log2 y—--», Tech. Rept. No. 227, R. L. E., M. I. T., Jan. 2. Дуб (J. L. Doob) (1934) «Probability and statistics», Trans. Am. Math. Soc, Vol. 36, pp. 759 775^ (1936) «Statistical estimation», Trans. Am. Math. Soc, Vol. 39, pp. 410—421. Дурбин и Кендалл (J. Durbin and M. G. Kendall) (1951) «The geometry of estimation», Biometrika, Vol. 38, pp. 150—158. Д э в и с (Н. Davis) (chairman) (1954), Symposium on statistical methods in communication engineering, Berkeley, California, August 1953, Trans. IRE, PGIT-3, Mar. Дюгэ (D. Dugue) (1936a) «Sur le maximum de precision des lois limites d'estimation», Compt. Rend., Vol. 202, p. 452. (1936b) «Sur le maximum de precision des estimations gaussiennes a la limite», Compt. Rend., Vol. 202, p. 193. Ен сен (J. L. W. V. Jensen) (1906) «Sur les fonctions convexes et les inegalites entre les valeurs moy- ennes», Acta Math., Vol. 30, pp. 175—193. Зелен (Μ. Zelen) (1957) «The analysis of covariance for incomplete block designs», Biometrics, Vol. 13, pp. 309—332. Ирвин (J. О. Irwin) (1949) «A note on the subdivision of χ2 into components», Biometrika Vol. 36, pp. 130—134. Ито (К. Ito) (1956) «Asymptotic formulae for the distribution of Hotelling's generalized 7| statistic», Ann. Math. Statist.^Vol. 27, pp. 1091—1105. Картер (Α. Η. Carter) (1949) «The estimation and comparison of residual regressions where there are two or more related sets of observations», Biometrika, Vol. 36, pp. 26—46. Кастаньс Камарго (Μ. Castans Camargo) (1955) «Una teoria de la certidumbre», Anales real soc. espaft. fts. у qutm., Ser. A, Vol. 51, pp. 215—232.
370 ЛИТЕРАТУРА Настань с Камарго и Медина-и-Исабель (М. Castans Camargo and Μ. Medina e Isabel). (1956) «The logarithmic correlation», Anales real soc. espan. fis. у quim., Ser. A, Vol. 52, pp. 117—136. Квастлер (Η. Quastler) (ed.) (1953) Information Theory in Biology, Univ. of Illinois Press, Urbana. (ed.) (1955) information Theory in Psychology, The Free Press, Glencoe, 111. (1956) «A Primer on Information Theory», Tech. Memo. 56—1, Office of Ordnance Research, Box CM, Duke Station, Durham, N. C, Jan. К е л л и (J. L. Kelley, Jr.) (1956) «A new interpretation of information rate», Bell System Tech. J., Vol. 35, pp. 917—926. К е л л и (Т. L. Kelley) (1928) Crossroads in the Mind of Man. Stanford Univ. Press. Кемпбелл, Снедекор и Симантон (F. L. Campbell, G. W. Snede- cor and W. A. Simanton) (1939) «Biostatistical problems involved in the standardization of liquid household insecticides», J. Am. Statist. Assoc, Vol. 34, pp. 62—70. Кемпторн (О. Kempthorne) (1952) The Design and Analysis of Experiments, John Wiley & Sons, New York. К e η д а л л (Μ. G. Kendall) (1943, 1946) The Advanced Theory of Statistics, Charles Griffin, London, Vol. Ϊ, 1943; Vol. II, 1946. К и Μ б а л л (A. W. Kimball) (1954) «Short-cut formulas for the exact partition of χ2 in contingency tables», Biometrics, Vol. 10, pp. 452—458. К и φ e ρ (J. Kiefer) (1952) «On minimum variance estimators», Ann. Math. Statist., Vol. 23, pp. 627—629. Колмогоров (1950) Foundations of the Theory of Probability, Chelsea Publishing Co., New York. (Перевод с русского: А. Н. Колмогоров, Основные понятия теории вероятностей, ОНТИ, 1936.) (1956) «On the Shannon theory of information transmission in the case of continuous signals», IRE Trans, on Inform. Theory, Vol. IT-2, pp. 102—108. Колоджейчик (S. Kolodziejczyk) (1935) «On an important class of statistical hypotheses», Biometrika, Vol. 27, pp. 161—190. К о р н и ш (Е. A. Cornish) (1957) «An application of the Kronecker product of matrices in multiple regression», Biometrics, Vol. 13, pp. 19—27. К о с с е к (С. F. Kossack) (1945) «On the mechanics of classification», Ann. Math. Statist., Vol. 16, pp. 95—98. К о х р э н (W. G. Cochran) (1952) «The χ2 test of goodness of fit», Ann. Math. Statist, Vol. 23, pp. 315—545. (1954) «Some methods for strengthening the common χ2 tests», Biometrics, Vol. 10, pp. 417—451.
ЛИТЕРАТУРА 371 Кохрэн и Блисс (W. G. Cochran and С. I. Bliss) (1948) «Discriminant functions with covariance», Ann. Math. Statist., Vol. 19, pp. 151—176. Крамер (Н. Cramer) (1937) Random Varaibles and Probability Distributions, Cambridge Tracts in Mathematics, No. 36, Cambridge. (Русский перевод: Г. Крамер, Случайные величины и распределения вероятностей, ИЛ, 1947.) (1938) «Sur un nouveau theoreme-limite de la theorie des probabilites», Actualites sci. et ind.t No. 736. (1946a) Mathematical Methods of Statistics, Princeton Univ. Press. (Русский перевод: Г. Крамер, Математические методы статистики, ИЛ, 1948.) (1946b) «Contributions to the theory of statistical estimation», Skand. Aktuar. Tidskr., Vol. 29, pp. 85—94. (1955) The Elements of Probability Theory and Some of its Applications, John Wiley & Sons, New York. Кульбак (S. Kullback) (1952) «An application of information theory to multivariate analysis», Ann. Math. Statist, Vol. 23, pp. 88—102. (1953) «A note on information theory», J. Appl. Phys., Vol. 24, pp. 106—107. (1954) «Certain inequalities in information theory and the Cramer-Rao inequality», Ann. Math. Statist, Vol. 25, pp. 745—751. (1956) «An application of information theory to multivariate analysis», II, Ann. Math. Statist, Vol. 27, pp. 122—145; correction p. 860. Кульбак и Лейблер (S. Kullback and R. A. Leibler) (1951) «On information and sufficiency», Ann. Math. Statist., Vol. 22, pp. 79—86. Кульбак и Розенблат (S. Kullback and Η. Μ. Rosenblatt) (1957) «On the analysis of multiple regression in k categories», Biometrika, Vol. 44, pp. 67—83. Куперман (Μ. Kupperman) (1957) «Further applications of information theory to multivariate analysis and statistical inference», Dissertation, Graduate Council of George Washington Univ. (1958) «Prababilities of hypotheses and information-statistics in sampling from exponential-class populations», Ann. Math. Statist, Vol. 29, pp. 571—574# К у η м е н (Β. Ο. Koopman) (1936) «On distributions admitting a sufficient statistic», Trans. Am. Math. Soc, Vol. 39, pp/399-409. Ланкастер (Η. Ο. Lancaster) (1949) «The derivation and partition of χ2 in certain discrete distributions», Biometrika, Vol. 36, pp. 117—129. (1957) «Some properties of the bivariate normal distribution considered in the form of a contingency table», Biometrika, Vol. 44, pp. 289—292. Л ax a (R. G. Laha) (1954) «On some properties of the Bessel function distributions», Bull. Calcutta Math. Soc, Vol. 46, pp. 59—72. Л е К a μ (L. Le Cam) (1956) «On the asymptotic theory of estimation and testing hypotheses», Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, Univ. of Calif. Press, Vol. I, pp. 129—156.
3?2 ЛИТЕРАТУРА Л е м а н (Ε. L. Lehmann) (1949) Theory of Testing Hypotheses, Notes recorded by Colin Blyth, Associated Students Store, Univ. of Calif., Berkeley, Calif. (Русский перевод окончательного варианта книги, изданного в 1959 г.: Э. Л е м а н, Проверка ста- аистических гипотез, «Наука», 1964.) (1950а) Notes on the Theory of Estimation, Notes recorded by Colin Blyth, Associated Students Store, Univ. of Calif., Berkeley, Calif., Sept. (1950b) «Some principles of the theory of testing hypotheses», Ann. Math. Statist, Vol. 21, pp. 1—26. Л e μ a η и Ш e φ φ e (Ε. L. Lehmann and Η. Scheffe) (1950) «Completeness, similar regions and unbiased estimation», Part I, Sankhya, Vol. 10, pp. 305-340. Л и н д л и (D. V. Lindley) (1956) «On a measure of the information provided by an experiment», Ann. Math. Statist, Vol. 27, pp. 986—1005. (1957) «Binomial sampling schemes and the concept of information», Bio- metrikat Vol. 44, pp. 179-186. Л и η φ у τ (Ε. Η. Linf oot) (1957) «An informational measure of correlation», Information and Control, Vol. 1, pp. 85—89. Л о у л и (D. N. Lawley) (1938) «A generalization of Fisher's ζ test», Biometrika, Vol. 30, pp. 180— 187; correction, pp. 467—469. (1940) «The estimation of factor loadings by the method of maximum likelihood», Proc. Roy. Soc. Edinburgh, Vol. 9, p. 64. (1956) «A general method for approximating to the distribution of likelihood ratio criteria», Biometrika, Vol. 43, pp. 295—303. Лоусон и Уленбек (J. L. Lawson and G. E. Uhlenbeck) (1950) Threshold Signals, McGraw-Hill Book Co., New York. Л о 9 в (Μ. Loeve) (1955) Probability Theory, D. Van Nostrand Co., New York. (Русский перевод второго (1960 г.) издания: Μ. Л о э в, Теория вероятностей, ИЛ, 1962.) Мак-Гил л (W. J. McGill) (1954) «Multivariate information transmission», Psychometrika, Vol. 19, pp. 97—116. Μ а к-Д a φ φ и (С. С. MacDuffee) (1946) The Theory of Matrices, Chelsea Publishing Co., New York. Μ а к-Д ο η а л ь д (D. К. С. MacDonald) (1952) «Information theory and its application to taxonomy», J. AppL Physics, Vol. 23, pp. 529-531. Мак-Карти (J. McCarthy) (1956) «Measures of the value of information», Proc. Nat Acad. Sci.t U. S.f Vol. 42, pp. 654—655. Мак-Кол л (С. Η. McCall, Jr.) (1957) «The linear hypothesis, information, and the analysis of variance», Dissertation, Graduate Council of George Washington Univ. Мак-Кей (D. Μ. MacKay) (1950) «Quantal aspects of scientific information», Phil. Mag., Vol. 41, Seventh Series, No. 314, pp. 289—311.
ЛИТЕРАТУРА 373 Мак-Лаклан (Ν. W. McLachlan) (1939) Complex Variable and Operational Calculus with Technical Appll· cations, Cambridge Univ. Press. Мак-Миллан (В. McMillan) (1953) «The basic theorems of information theory», Ann, Math. Statist. Vol. 24, pp. 196—219. Мак-Миллан, Грант, Фите, Фрик, Мак-Каллох, Миллер и Б ρ о з и н (В. McMillan, D. A. Grant, P. M. Fitts, F. С. Frick, W. S. McCulloch, G. A. Miller, and H. W. Brosin) (1953) Current Trends in Information Theory, Univ. of Pittsburgh Press. Мандельбройт (В. Mandelbrot) (1953) «Contribution a la theorie mathematique des jeux de communications, Pubis. Inst statist, un'w. Paris, Vol. 2, Fasc. 1 et 2, pp. 3—124. (1956) «An outline of a purely phenomenological theory of statistical thermodynamics»: I. Canonical ensembles, IRE Trans, on Inform. Theory, Vol. tT-2, pp. 190—203. Манн и Вальд (Η. Β. Mann and A. Wald) (1943) «On stochastic limit arid order relationships», Ann. Math. Statist., Vol. 14, pp. 217—226. Μ a ρ ρ и ο τ (F. Η. С. Marriott) (1952) «Tests of significance in canonical analysis», Biometrika, Vol. 39, pp. 58—64. Махаланобис (Р. С. Mahalanobis) (1936) «On the generalized distance in statistics», Proc. Nat. Inst. Set. India, Vol. 12, pp. 49—55. Миллер и Мэйдоу (G. A. Miller and W. G. Madow) (1954) «On the maximum likelihood estimate of the Shannon-Wiener measure of information», AFCRC-TR-54-75, Air Force Cambridge Research Center, Air Research and Development Command, Boiling Air Force Base, Washington D. C, Aug. Миллер и Росс (G. A. Miller and P. M. Ross) (1954) «Tables of η log2 η and η log10 η for η from 1 to 1000», Tech. Rep. No. 60, Lincoln Laboratory, M. I. T., Feb. 10. Митра (S. К. Mitra) (1955) «Contributions to the statistical analysis of categorical data», N. С Inst, of Statist. Mimeo Series No. 142, Dec. Μ о л и и а (Е. С. Molina) (1942) Tables of Poisson's Exponential Limit, D. Van Nostrand Co., New York. Мочли (J. W. Mauchly) (1940) «Significance test for sphericity of a normal rc-variate distribution» , Ann. Math. Statist., Vol. 11, pp. 204—209. Μ у д (Α. Μ. Mood) (1951) «On the distribution of the characteristic roots of normal second moment matrices», Ann. Math. Statist, Vol. 22, pp. 266—273. Мурье (Ε. Mourier) (1946) «Etude du choix entre deux lois de probabilite», Compt. Rend.,Vo\. 223, pp. 712—714. (1951) «Tests de choix entre diverses lois de probabilite», Trabajos Esta Uistica, Vol. 2, pp. 233—26Q.
374 ЛИТЕРА ГУРЛ Η е й м а и (J. Neyman) (1929) «Contribution to theory of certain test criteria», XVIIi Session de rinstitut International de Statistique, Varsovie, pp. 1—48. (1935) «Su un teorema concernente le cosiddette statistiche sufficient!», Giorn. 1st. ital. Attuari, Vol. 6, p. 320—334. (1949) «Contribution to the theory of the y2 test», Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability, Univ of Calif. Press, pp. 239—273. (1950) First Course in Probability and Statistics, Henry Holt and Co., New York. Нейман и Пирсон (J. Neyman and E. S. Pearson) (1928) «On the use and interpretation of certain test criteria for purposes of statistical inference», Biometrika, Vol. 20A, pp. 175—240; 263—294. (i933) «On the problem of the most efficient tests of statistical hypotheses», Phil Trans Roy. Soc. London, Ser. A, Voi 231, pp. 289—337. Нортон (Η. W. Norton) (1945) «Calculation of chi-square lor complex contingency tables», J. Am Statist, Assoc, Voi. 40, pp. 251—258 Пауэре (К Н. Powers) (i956) «A unified theory of information», Tech. Rept. No. 311, R. i. Ε, Μ. 1. Т., Feb. 1 Π e и р о у з (i. S Penrose) (1947) «Some notes on discrimination», Ann. Eugenics, Voi. 13, pp. 228—237. Пияааи (К. С S. Piiiai) (i955) «Some new test criteria in multivariate analysis», Ann. Math. Statist., Vol. 26, pp. 117—121, Пирс (J. R Pierce) (1956) Electrons, Waves and Messages Hanover House, New York Пирсон (К. Pearson) (1904) «Mathematical contributions to the theory of evolution, Xili, on the theory of contingency and its relation to association and normai correlation», Drap. Co. Mem. Biotn. Ser., No 1. (1911) «On the probability that two independent distributions of frequenc} are reaily samples from the same population», Biometrika, Voi 8, pp. 250—253. Пирсон и У и л к с (Е. S. Pearson and S. S. Wilks) (1933) «Methods of statistical analysis appropriate for k samples ol two variables», Biometrika, Vol. 25, pp 353—378. Пирсон и Хартли (Ε. S. Pearson and Η ϋ. Hartley) (195i) «Charts of the power function for analysis of variance tests, derned from the non central /^distribution», Biometrika, Vol 38, pp- i 12—130. П и т м э и (Е. J. G. Pitman) (1936) «Sufficient statistics and intrinsic accur.icv», Proc. Camb. Phil. Soc, Vol. 32, pp. 567-^579 П л э к с τ τ (R. 1. Plackett) (1949) «A historical note on the method of 1еаь! squares?, Biometrika, Voi -#>» pp. 458—460. Π э τ я а й к (Р. В. Patnaik) (1949) «The non-central χ2 and F distributions and their applications», Biometrika, Vol. 36, pp. 202—232,
ЛИТЕРАТУРА 375 Ρ а о (С. R. Rao) (1945) «Information and the accuracy attainable in the estimation of statistical parameters», Bull. Calcutta Math. Soc, Vol. 37, pp. 81—91. (1952) Advanced Statistical Methods In Biometric Research, John Wiley & Sons, New York. (1957) «Maximum likelihood estimation for the multinomial distribution», Sankhya, Vol. 18, pp. 139—148. Pao и Чакраварти (С. R. Rao and 1. M. Chakravarti) (1956) «Somme small sample tests of significance for a Poisson distribution», Biometrics, Vol. 12, pp. 264- 282. Рейх (Ε. Reich) (1951) «On tile definition of information», J. Math, and Phys., Vol. 30, pp. 156—16i. Рипп (D. D Rippe) (1951) «Statistical rank and sampling variation of the results of factorization of со variance matrices», Doctoral Thesis, on fiie at the Univ. of Michigan. Роберте (Η. R. Roberts) (1957) «On estimation and information», M. S. Thesis, George Washington Univ. Ρ о з е и б л а τ (Η. Μ. Rosenblatt) (i953) «On а к sample multivariate regression problem», Master's Thesis, George Washington Univ. Рой (S N. Roy) (1939) «/7-statistics, or some generalizations in analysis of variance appropriate to multivariate problems», Sankhya, Voi. 4, pp. 38 i—396. (1957), Some Aspects of Multivariate Analysis, John Wiley & Sons, New York. Рой и Бозе (S. N. Roy and R С Bose) (1953) «Simultaneous confidence interval estimation», Ann, Math. Statist., Voi. 24, pp. 513—536. Рой и Кастенбаум (S. N. Roy and Μ. A. Kastenbaum) (1955) «A generalization of analysis of variance and multivariate analysis to data based on frequencies in qualitative categories or class intervals», N. C. Inst, of Statist. Mimeo Series No. 13i, June 1. (1956) «On the hypothesis of no 'interaction' in a muiti-way contingency able», Ann. Math. Statist, Vol. 27, pp. 749—757. Рой и Митра (S. N. Roy and S. K. Mitra) (1956) «An Introduction to some non-parametric generalizations of analysis of variance and multivariate analysis», Biometrika, Vol. 43, pp. 361—376. Ρ ο τ с т е й и (J. Rothstein) (195i) «Information, measurement, and quantum mechanics», Science, Vol. 114, pp. 171—175. Сака г ути (Μ. Sakaguchi) (1952, 1955, 1957a) «Notes on statistical applications of information theory», Repts. Statist. Appli. Research Union Japan. Scientists and Engineers, Vol. 1, No. 4, pp. 27—31; 11, Vol. 4, No. 2, pp. 21—68; HI, Voi. 5, No. i, pp. 9-16 (1957b) «Notes on information transmission in multivariate probability distributions», Rep. Univ of Electro-Communications, No. 9, Dec, pp. 25—Λ1.
376 ЛИТЕРАТУРА Санов (1957) «О вероятности больших отклонений случайных величин», Математический сборник, нов. серия, т. 42, вып. 1 (84), стр. 11—44. С е τ χ (G. R. Seth) (1949) «On the variance of estimates», Ann. Math. Statist, Vol. 20 pp. 1—27. С и μ а и к (J. В. Simaika) (1941) «On an optimum property of two important statistical tests», Bio- metrika, Vol. 32, pp. 70—80. Смит (Η. F. Smith) (1947) «Some examples of discrimination», Ann. Eugenics, Vol. 13, pp. 272—282. (1957) «Interpretation of adjusted treatment means and regressions in analysis of covariance», Biometrics, Vol. 13, pp. 282—308. С η e д e κ ο ρ (G. W. Snedecor) (1946) Statistical Methods (4th ed.), Collegiate Press of Iowa State College, Ames. Стюарт (A. Stuart) (1953) «The estimation and comparison of strengths of association in contingency tables», Biometrika, Vol. 40, pp. 105—110. (1955a) «A test for homogeneity of the marginal distributions in a two way classification», Biometrika, Vol. 42, pp. 412—416. (1955b) «A paradox in statistical estimation», Biometrika, Vol. 42, pp. 527— 529. С τ ю м η е ρ с (F. L. Η. Μ. Stumpers) (1953) «A bibliography of information theory; communication theory-cybernetics» (R.L.E., M.I. Т., Feb. 2, 1953); IRE Trans., PGIT-2, Nov. 1953; First suppl., IT-1, Sept. 1955, pp. 31—47; Second suppl., IT-3, June 1957, pp. 150—166. С у д з у к и (К. Suzuki) (1956) «On *amount of information'», Proc. Japan Acad., Vol. 32, pp. 726—730. (1957) «On the ecart between two 'amounts of information'», Proc. Japan Acad., Vol. 33, pp. 25—28. С 9 в и д ж (L. J. Savage) (1954) The Foundations of Statistics, John Wiley & Sons, New York. С ю й (Р. L. Hsu) (1938) «Notes on Hotelling's generalized T», Ann. Math. Statist, Vol. 9, pp. 231—243. (1939) «On the distribution of roots of certain determinantal equations», Ann. Eugenics, Vol. 9, pp. 250—258. (1941a) «On the problem of rank and the limiting distribution of Fisher's lest function», Ann. Eugenics, Vol. 11, pp. 39—41. (1941b) «On the limiting distribution of roots of a determinantal equation», /. London Math. Soc, Vol. 16, pp. 183—194. (1941—1942) «On the limiting distribution of the canonical correlations», Biometrika, Vol. 32, pp. 38—45. (1949) «The limiting distribution of functions of sample means and application to testing hypotheses», Proceedings of the Berkeley Symposium on Mathematical Statistics and Probability, Univ. of Calif. Press, pp. 359—402. Таблицы биномиального распределения вероятностей (Tables of the Binomial Probability; Distribution) (1949) Nat." Bur. Standards (U.S.), Applied Math. Series 6, Washington.
ЛИТЕРАТУРА 377 Г а л л е ρ (W. G. Tuller) (1950) «Information theory applied to system design», Trans. AIEE, Vol. 69, Part II, pp. 1612—1614. Τ ο κ e ρ (Κ. D. Tocher) (1952) «The design and analysis of block experiments», J. Roy. Statist. Soc, Ser. B, Vol. 14, pp. 45—100. Τ ο μ с о η (G. Thomson) (1947) «The maximum correlation of two weighted batteries», Brit. J. Psychol., Stat. Sec, Vol. 1, pp. 27—34. Тьюки (J. W. Tukey) (1949) «Sufficiency, truncation and selection», Ann. Math. Statist., Vol. 20, pp. 309—311. (1957) «Approximations to the upper 5°/0 points of Fisher's В distribution and non-central X2», Biometrika, Vol. 44, pp. 528—530. Тэнг (Р. С. Tang) (1938) «The power function of the analysis of variance tests with tables and illustrations of their use», Statistical Research Memoirs, Vol. 2, pp. 126—149. У и л к с (S. S. Wilks) (1932) «Certain generalizations in the analysis of variance», Biometrika, Vol. 24, pp. 471—494. (1935a) «The likelihood test of independence in contingency tables», Ann. Math. Statist, Vol. 6, pp. 190—196. (1935b) «On the independence of k sets of normally distributed statistical variables», Econometrica, Vol. 3, pp. 309—326. (1938a) «The large-sample distribution of the likelihood ratio for testing composite hypotheses», Ann. Math. Statist., Vol. 9, pp. 60—62. (1938b) «The analysis of variance and covariance in non-orthogonal data», Metron, Vol. 13, pp. 141—158. (1943) Mathematical Statistics, Princeton Univ. Press. (Русский перевод: С. С. У и л к с, Математическая статистика, «Наука» (готовится к печати).) Уильяме (Е. J. Williams) (1952) «Some exact tests in multivariate analysis», Biometrika, Vol. 39, pp. 17-31. (1955) «Significance tests for discriminant functions and Дпеаг functional elationships», Biometrika, Vol. 42, pp. 360—381. У и τ τ е к е ρ (Ε. Т. Whittaker) (1915) «On the functions which are represented by the expansions of the Interpolatory theory», Proc. Roy. Soc. Edinburgh, Vol. 35, pp. 181—194. У ο τ с о и (G. N. Watson) (1944), Bessel Functions (2nd ed.), The Macmillan Co., New York. У э л ч (В. L. Welch) (1935) «Problems in the analysis of regression among k samples», Biometrika, Vol. 27, pp. 145—160. (1938) «The significance of the difference between two means when the population variances are unequal», Biometrika, Vol. 29, pp. 350—362. (1939) «Note on discriminant functions», Biometrika, Vol. 31, pp. 218—219. Файнстенн (A. Feinstein) (1958) Foundations of Information Theory, McGraw-Hill Book Co., New York. (Русский перевод: А. Файнстейн, Основы теории информации, ИЛ, I960.)
378 ЛИТЕРАТУРА Φ а н о (R. M. Fano) (chairman) (1954), 1954 Symposium on information Theorv, M. L Т., September 1954. Trans. IRE, PGIT-4. Федерер (W. T. Federer) (1955) Experimental Design, The Macmillan Co., New York. Φ e л л е ρ (W. Feller) (1950) An Introduction to Probability Theory and its Applications (1st ed.), John Wiley & Sons, New York. (Русский перевод: В. Ф е л тг е р, Введение в теорию вероятностей и ее приложения, ИЛ, 1952, а также перевод второго издания: «Мир», 1964.) Φ е ρ о н (R. Feron) (1952а) «Information et correlation», Compt. Rend., Vol. 234, pp. 1343—1345. (1952b) «Convexite et information», Compt. Rend., Vol. 234, pp. 1840—1841. Ферон и Фуржо (R. Feron and C. Fourgeaud) (1951) «Information et regression», Compt. Rend., Vol. 232, pp. 1636—1638. Φ e ρ ρ a p (W. L. Ferrar) (1941) Algebra, Oxford Univ. Press. Фикс (Е. Fix) (1949) «Tables of noncentral y2», Univ. Calif. Pttbl. Statist., Vol. I, No. 2, pp. 15—19. Фишер (R. A. Fisher) (1921) «On the «probable error» of a coefficient of correlation deduced from a small sample», Metron, Vol. I, pp. 3—32. (1922a) «On the interpretation of χ2 from contingency tables, and the calculation of Я», /. Roy. Statist. Soc., Vol. 85, pp. 87—94; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 5. (1922b) «On the mathematical foundations of theoretical statistics», Phil. Trans. Roy. Soc. London, Ser. A. Vol. 222, pp. 309—368; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 10. (1924) «The conditions under which χ2 measures the discrepancy between observation and hypothesis», J. Roy. Statist. Soc, Vol. 87, pp. 442—450; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 8. (1925a) Statistical Methods for Research Workers (1st ed.), Oliver & Boyd, London; 10th ed., 1948. (Русский перевод: Р. А. Фишер, Статистические методы для исследователей, Госстатиздат, 1958.) (1925b) «Theory of statistical estimation», Proc. Camb. Phil. Soc, Vol. 22, pp. 700—725; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 11. (1928) «The general sampling distribution of the multiple correlation coefficient», Proc. Royal Soc, Ser. A, Vol. 121, pp. 654—673; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 14. (1935) «The logic of inductive inference», /. Roy. Statist. Soc, Vol. 98, pp. 39—54; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 26. (1936) «The use of multiple measurements in taxonomic problems», Ann. Eugenics, Vol. 7, pp. 179—188; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 32. (1938) «The statistical utilization of multiple measurements», Ann. Eugenics, Vol 8, pp. 376—386; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 33.
ЛИТЕРАТУРА 379 (1939а) «The comparison of samples with possibly unequal variances», Ann. Eugenics, Vol. 9, pp. 174—180; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 35. (1939b) «The sampling distribution of some statistics obtained from nonlinear equations», Ann. Eugenics, Vol. 9, pp. 238—249; Contributions to Mathematical Statistics, John Wiley & Sons, New York, 1950, paper 35. (1950) «The significance of deviations from expectation in a Poisson series», Biometrics, Vol. 6, pp. 17—24. (1956) Statistical Methods and Scientific Inference, Oliver & Boyd, London. Фостер и Рис (F. G. Foster and D. H. Rees) (1957) «Upper percentage points of the generalized Beta distribution», Ϊ, Biometrika, Vol. 44, pp. 237—247. Фрезер (D. A. S. Fraser) (1957) Nonparametric Methods in Statistics, John Wiley & Sons, New York. Фрезер и Гутман (D. A. S. Fraser and I. Guttman) (1952) «Bhattacharyya bounds without regularity assumptions», Ann. Math. Statist, Vol. 23, pp. 629—632. Фрезер, Дункан и Кол л ар (R. A. Frazer, W. J. Duncan and A. R. Collar) (1938) Elementary Matrices, Cambridge Univ. Press. Фреше (Μ. Frechet) (1943) «Sur l'extension de certaines evaluations statistiques au cas de petits echantillons», Rev. Inst, intern. Statist., Vol. 11, pp. 183—205. X а л μ о ш (P. R. Halmos) (1950) Measure Theory, D. Van Nostrand Co., New York. (Русский перевод: П. Халмош, Теория меры, ИЛ, 1953.) Халмош и Сэвидж (P. R. Halmos and L. J. Savage) (1949) «Applications of the Radon-Nikodym theorem to the theory of sufficient statistics», Ann. Math. Statist., Vol. 20, pp. 225—241. X a p д и, Л и т л в у д и Π о й a (G. Н. Hardy, J. E. Littlewood and G. Polya) (1934) Inequalities (1st ed), Cambridge Univ. Press; 2nd ed., 1952. (Русский перевод первого издания: г.г. Хард и, Д ж. Литтльвуд, Г. Поли а, Неравенства, ИЛ, 1948.) Хартли (R. V. L. Hartley) (1928) «Transmission οι information», Bell System Tech. J., Vol. 7, pp. 535—563. Хинчин (1949) Mathematical Foundations of Statistical Mechanics, Dover Publications, New York. (Перевод с русского: А. Я. Хинчин, Математические основания статистической механики, ГИТТЛ, 1943.) (1953) «Понятие энтропии в теории вероятностей», УМН, т. 8, вып. 3, стр. 3—20. (1956) «Об основных теоремах теории информации», УМН, т. 11, вып. 1 (67), стр. 17—75. (1957) Mathematical Foundations of Information Theory, Dover Publications, New York. (Перевод на английский двух предыдущих работ.) X о й τ (J. P. Hoyt) (1953) «Estimates and asymptotic distributions of certain statistics in information theory», Dissertation, Graduate Council of George Washington Univ. 13*
380 ЛИТЕРАТУРА X о л д е й н (J. В. S. Haldane) (1955) «Substitutes for χ2», Biometrika, Vol. 42, pp. 265—266. Хотеллинг (Η. Hotelling) (1933) «Analysis of a complex of statistical variables into principal components», /, Educ. Psych., Vol. 24, pp. 417—441; 498—520. (1936) «Relations between two sets of variates», Biometrika, Vol. 28, pp. 321—377. (1947) «Multivariate quality control, illustrated by the air testing of sample bombsights», Techniques of Statistical Analysis, McGraw-Hill Book Co., New York, pp. 111—184. (1951) «A generalized Τ test and measure of multivariate dispersion», Proceedings of the Second Berkeley Symposium on Mathematical Statistics and Probability, Univ. of Calif. Press, pp. 23—41. X о у л (Р. G. Hoel) (1947) Introduction to Mathematical Statistics (1st ed.), John Wiley & Sons, New York; 2nd ed., 1954. Хузурбазар (V. S. Huzurbazar) (1949) «On a property of distributions admitting sufficient statistics», Biometrika, Vol. 36, pp. 71—74. (1955) «Exact forms of some invariants for distiibutions admitting sufficient statistics», Biometrika, Vol. 42, pp. 533—537. Чернов (Η. Chernoii) (1952) «A measure of asymptotic efficiency for tests of a hypothesis based on the sum of observations», Ann. Math. Statist., Vol. 23, pp. 493—507. (1954) «On the distribution of the likelihood ratio», Ann. Math. Statist. Vol. 25, pp. 573—578. (1956) «Large-sample theory: parametric case», Ann. Math. Statist., Vol. 27, pp. 1—22. 4 e ρ ρ и (С. Cherry) (ed.) (1955) Information Theory, Papers Read at a Symposium on'Infor- rnation Theory', Royal Institution, London, Sept. 1955; Academic Press, New York, 1956. (1957) On Human Communication, John Wiley & Sons, New York. 4 e ρ ρ и (Е. С. Cherry) (1950) «An history of the theory of information», Proceedings of a Symposium on Information Theory, W. Jackson (ed.), Royal Society, London, 1950, published by Ministry of Supply, and by the IRE, Feb. 1953, pp. 161—168. (1951) «An history of the theory of information», Proc. I.E.E. {London), Vol. 98, Part III, pp. 383—393. (1952) «The communication of information», Am. Scientist, Vol. 40, pp. 640—664. Чэпмен и Ρ о б б и н с (D. G. Chapman and H. Robbins) (1951) «Minimum variance estimation without regularity assumptions», Ann. Math. Statist., Vol. 22, pp. 581—586. Шеннон (С. Е. Shannon) (1948) «A mathematical theory of communication», Belt System Tech. J.t Vol. 27, pp. 379—423; 623—656. (Русский перс вод в сборнике К. Шеннон, Работы по теории информации, ИЛ, 1963: Математическая теория связи.) (1949) «Communication in the presence of noise», Proc. IRE, Vol. 37, pp. 10—21. (Русский перевод в сборнике К. Шеннон, Работы по теории информации, ИЛ, 1963: Связь при наличии шума.)
ЛИТЕРАТУРА 381 (1956) «The bandwagon», IRE Trans, on Inform. Theory, Vol. IT-2, p. 3. (Русский перевод в сборнике К. Шеннон, Работы по теории информации, ИЛ, 1963: Бандвагон.) Шеннон и Уивер (СЕ. Shannon and W. Weaver) (1949) The Mathematical Theory of Communication, Univ. of Illinois Press, Urbana. Шутценбергер (LP. Schiitzenberger) (1954) «Contribution aux applications statistiques de la theorie de l'lnforma- tion», Pubis, inst. statist, univ. Paris, Vol. 3, Fasc. 1—2, pp. 3—117. Ш у χ a p τ (W. A. Shewhart) (1931) Economic Control of Manufactured Product, The Macmillan Co., New York. Эйзенхарт (L. P. Eisenhart) (1926) Riemannian Geometry, Princeton Univ. Press. Эйткен и Сильверстон (А. С. Aitken and Η. Silverslone) (1941—1943) «On the estimation of statistical parameters», Proc. Roy. Soc. Edinburgh, Vol. 61, pp. 186—194. (issued separately Apr. 2, 1942.) Э л а й а с (Р. Elias) (chairman) 1956, IRE Trans, on Inform. Theory, Vol. IT-2, No. 3. (1956), 1956 Symposium on Infromation Theory, M. I. Т., September. Э ш б и (W. R. Ashby) (1956) An Introduction to Cybernetics, John Wiley & Sons, New York. (Русский перевод: У. Р. Эшби, Введение в кибернетику, ИЛ, 1958.) Юл и Кендалл (G. U. Yule and M. G. Kendall) (1937) An Introduction to the Theory of Statistics (11th ed.)t Charles Griffin, London. (Русский перевод: Д. Э. Ю л и М. Д. Кендалл, Теория статистики, Госстатиздат, 1960.)
ПРИЛОЖЕНИЕ Таблица I Logen и η logen для значений η от 1 до 1000 η 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 \ogen 0,0000000000 0,6931471805 1,0986122886 1,3862943611 1,6094379124 1,7917594692 1,9459101490 2,0794415416 2,1972245773 2,3025850929 2,3978952727 2,4849066497 2,5649493574 2,6390573296 2,7080502011 2,7725887222 2,8332133440 2,8903717578 2,9444389791 2,9957322735 3,0445224377 3,0910424533 3,1354942159 3,1780538303 3,2188758248 3,2580965380 3,2958368660 3,3322045101 3,3672958299 3,4011973816 3,4339872044 3,4657359027 η \oge η 0000,0000000000 0001,3862943611 0003,2958368660 0005,5451774445 0008,0471895622 ■ 0010,7505568154 i 0013,6213710434 j 0016,6355323334 0019,7750211960 0023,0258509299 0026,3768480008 0029,8188797975 0033,3443416470 0036,9468026146 0040,6207530165 0044,3614195558 0048,1646268490 0052,0266916421 0055,9443406042 0059,9146454711 0063,9349711922 0068,0029339739 0072,1163669664 0076,2732919284 0080,4718956217 0084,7105099886 0088,9875953821 0093,3017262849 0097,6515790696 0102,0359214499 0106,4536033390 0110,9035488896 η 33 34 35 36 37 38 39 ! 40 1 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 1 64 J \ogen 3,4965075614 3,5263605246 3,5553480614 3,5835189384 3,6109179126 3,6375861597 3,6635616461 3,6888794541 3,7135720667 3,7376696182 3,7612001156 3,7841896339 3,8066624897 3,8286413964 3,8501476017 3,8712010109 3,8918202981 3,9120230054 3,9318256327 3,9512437185 3,9702919135 3,9889840465 4,0073331852 4,0253516907 4,0430512678 4,0604430105 4,0775374439 4,0943445622 4,1108738641 4,1271343850 4,1431347263 4,1588830833 η \oge η 0115,3847495284 0119,8962578369 0124,4371821521 0129,0066817844 0133,6039627678 0138,2282740696 0142,8789041991 0147,5551781646 0152,2564547349 0156,9821239679 0161,7316049748 0166,5043438924 0171,2998120397 0176,1175042385 0180,9569372804 0185,817^485236 0190,6991946074 0195,6011502714 0200,5231072689 0205,4646733662 1 0210,4254714183 0215,4051385145 0220,4033251878 0225,4196946812 0230,4539222666 0235,5056946117 0240,5747091904 0245,6606737333 I 0250,7633057146 ι 0255,8823318728 0261,0174877627 0266,1685173350
ПРИЛОЖЕНИЕ 383 Таблица I (продолжение) η 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 1С0 101 102 103 104 105 106 107 108 109 ПО \ogen 4,1743872698 4,1896547420 4,9046926193 4*2195077051 4,2341065045 4*2484952420 4,2626798770 4,2766661190 4,2904594411 4,3040650932 4,3174881135 4,3307333402 4,3438054218 4,3567088266 4,3694478524 4,3820266346 4,3944491546 4,4067192472 4,4188406077 4,4308167988 4,4426512564 4,4543472962 4,4659081186 4,4773368144 4,4886363697 4,4998096703 4,5108595065 4,5217885770 4,5325994931 4,5432947822 4,5538768916 4,5643481914 4,5747109785 4,5849674786 4,5951198501 4,6051701859 4,6151205168 4,6249728132 4,6347289882 4,6443908991 4,6539603501 4,6634390941 4,6728288344 4,6821312271 4,6913478822 4,7004803657 η \oge η 0271,3351725432 0276,5172129737 0281,7144054992 0286,9265239520 0292,1533488172 0297,3946669435 0302,6502712699 0307,9199605692 0313,2035392038 0318,5008168971 0323,8116085152 0329,1357338618 0334,4730174827 0339,8232884818 0345,1863803449 0350,5621307739 0355,9503815285 0361,3509782757 0366,7637704471 0372,1886111028 0377,6253568017 0383,0738674778 0388,5340063229 0394,0056396741 0399,4886369062 0404,9828703297 0410,4882150930 0416,0045490885 0421,5317528633 , 0427,0697095334 ι 0432,6183047021 0438,1774263809 0443,7469649148 0449,3268129097 0454,9168651633 ι 0460,5170185988 ! 0466,1271722010 0471,7472269550 0477,3770857877 0483,0166535107 0488,6658367665 0494,3245439759 0499,9926852874 0505,6701725294 0511,3569191630 0517,0528402372 η 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 | 135 Ι 136 ' 137 138 139 140, Ι 141 | 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 ι°εβ η 4,7095302013 4,7184988712 4,7273878187 4,7361984483 4,7449321283 4,7535901911 | 4,7621739347 Ι 4,7706846244 4,7791234931 4,7874917427 | 4,7957905455 ! 4,8040210447 4,8121843553 ' 4,8202815656 ' 4,8283137373 4,8362819069 4,8441870864 ' 4,8520302639 ! 4,8598124043 4,8675344504 4,8751973232 4,8828019225 4,8903491282 4,8978397999 4,9052747784 4,9126548857 4,9199809258 4,9272536851 4,9344739331 4,9416424226 4,9487598903 4,9558270576 4,9628446302 4,9698132995 4,9767337424 4,9836066217 4,9904325867 4,9972122737 5,0039463059 5,0106352940 5,0172798368 5,0238805208 5,0304379213 ι 5,0369526024 5,0434251169 5,0498560072 η loge η 0522,7578523457 0528,4718735851 0534,1948235145 0539,9266231170 0545,6676947618 0551,4164621683 0557,1743503713 0562,9407856869 0568,7156956803 0574,4990091338 0580,2906560172 0586,0905674575 0591,8986757108 0597,7149141350 0603,5392171628 0609,3715202759 0615,2117599802 0621,0598737817 0626,9158001627 0632,7794785592 0638,6508493394 0644,5298537814 0650,4164340535 0656,3105331934 0662,2120950892 0668,1210644601 0674,0373868385 0679,9610085517 0685,8918767052 0691,8299391653 0697,7751445433 0703,7274421794 0709,6867821272 0715,6531151389 0721,6263926510 0727,6065667694 0733,5935902565 0739,5874165171 0745,5879995859 0751,5952941144 0757,6092553591 0763,6298391686 0769,6570019730 0775,6907007717 0781,7308931225 0787,7775371309
384 приложение Таблица I (продолжение) η 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 logen 5,0562458053 5,0625950330 5,0689042022 5,0751738152 5,0814043649 5,0875963352 5,0937502008 5,0998664278 5,1059454739 5,1119877883 5,1179938124 5,1239639794 5,1298987149 5,1357984370 5,1416635565 5,1474944768 5,1532915944 5,1590552992 5,1647859739 5,1704839950 5,1761497325 5,1817835502 5,1873858058 5,1929568508 5,1984970312 5,2040066870 5,2094861528 5,2149357576 5,2203558250 5,2257466737 5,2311086168 5,2364419628 5,2417470150 5,2470240721 5,2522734280 5,2574953720 5,2626901889 5,2678581590 5,2729995585 5,2781146592 5,2832037287 5,2882670306 5,2933048247 5,2983173665 5,3033049080 η Iogfg n 0793,8305914397 0799,8900152183 0805,9557681530 0812,0278104374 0818,1061027625 0824,1906063076 i 0830,2812827315 Ι 0836,3780941632 0842,4810031936 0848,5899728672 0854,7049666736 0860,8259485397 0866,9528828220 0873,0857342985 0879,2244681620 0885,3690500119 0891,5194458481 ! 0897,6756220633 Ι 0903,8375454366 0910,0051831267 i 0916,1785026656 0922,3574719520 0928,5420592455 0994,7322331602 ! 0940,9279626591 0947,1292170480 0953,3359659700 ι 0959,5481794001 | 0965,7658276395 0971,9888813107 0978,2173113518 1 0984,4510890120 ! 0990,6901858463 0996,9345737105 1003,1842247569 1009,4391114293 1015,6992064586 1021,9644828583 1028,2349139199 1034,5104732092 1040,7911345614 1047,0768720775 1053,3676601202 1059,6634733096 1065,9642865199 η 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 ι 239 240 241 242 243 244 245 246 247 l°gen 5,3082676974 5,3132059790 5,3181199938 5,3230099791 5,3278761687 5,3327187932 5,3375380797 5,3423342519 5,3471075307 5,3518581334 5,3565862746 5,3612921657 5,3659760150 5,3706380281 5,3752784076 5,3798973535 5,3844950627 5,3890717298 5,3936275463 5,3981627015 5,4026773818 5,4071717714 5,4116460518 5,4161004022 5,4205349992 5,4249500174 5,4293456289 5,4337220035 5,4380793089 5,4424177105 5,4467373716 5,4510384535 5,4553211153 5,4595855141 5,4638318050 5,4680601411 5,4722706736 5,4764635519 5,4806389233 5,4847969334 5,4889377261 5,4930614433 5,4971682252 5,5012582105 5,5053315359 5,5093883366 η loge η 1072,2700748750 1078,5808137455 1084*8964787442 1091,2170457234 1097,5424907707 1103,8727902059 1110,2079205779 1116,5478586606 1122,8925814507 1129,2420661635 1135,5962902305 1141,9552312961 1148,3128672147 1154,6871760474 1161,0601360598 1167,4377257183 1173,8199236880 1180,2067088298 1186,5980601975 1192,9939570354 1199,3943787756 1205,7993050356 1212,2087156155 1218,6225904960 1225,0409098355 1231,4636539683 1237,8908034016 1244,3223388139 1250,7582410523 1257,1984911305 1263,6430702266 1270,0919596808 1276,5451409937 1283,0025958239 1289,4643059860 1295,9302534490 1302,4004203338 1308,8747889116 1315,3533416021 1321,8360609712 1328,3229297299 1334,8139307318 1341,3090469715 1347,8082615835 1354,3115578394 1360,8189191471
ПРИЛОЖЕНИЕ 385 Таблица I (продолжение) η 248 249 250 251 252 253 254 255 256 257 258 259 260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 , 279 280 281 282 283 284 285 286 287 288 289 290 291 292 ioge η 5,5134287461 5,5174528964 5,5214609178 5,5254529391 5,5294290875 5,5333894887 5,5373342670 5,5412635451 5,5451774444 5,5490760848 5,5529595849 5,5568280616 5,5606816310 5,5645204073 5,5683445037 5,5721540321 5,5759491031 5,5797298259 5,5834963087 5,5872486584 5,5909869805 5,5947113796 5,5984219589 5,6021188208 5,6058020662 5,6094717951 5,6131281063 5,6167710976 ι 5,6204008657 5,6240175061 я 5,6276211136 ι 5,6312117818 5,6347896031 5,6383546693 5,6419070709 5,6454468976 5,6489742381 5,6524891802 5,6559918108 5,6594822157 5,6629604801 5,6664266881 5,6698809229 5,6733232671 5,6767538022 η loge η 1367,3303290489 1373,8457712197 1380,3652294^56 1386,8886877221 1393,4161300529 1399,9475406481 1406,4829038227 1413,0222040154 1419,5654257868 1426,1125538181 1432,6635729098 1439,2184679802 1445,7772240640 1452,3398263112 1458,9062599854 1465,4765104628 1472,0505632306 1478,6284038863 1485,2100181359 1491,7953917929 1498,3845107769 1504,9773611129 \ 1511,5739289296 ι 1518,1742004584 1524,7781620325 1531,3858000855 Ι 1537,9971011503 1544,6120518583 1551,2306389379 8*1557,8528492139 1564*4786696060 1571,1080871282 1577,7410888874 1584,3776620828 1591,0177940045 1597,6614720330 1604,3086836378 1610,9594163766 1617,6136578945 1624,2713959230 1630,9326182792 1637,5973128645 1644*2654676644 1650,9370707469 1657,6121102623 η 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 j 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 I l0£e η 5,6801726090 5,6835797673 5,6869753563 5,6903594543 5,6937321388 5,6970934865 5,7004435733 5,7037824746 5,7071102647 5,7104270173 5,7137328055 5,7170277014 5,7203117766 5,7235851019 5,7268477475 5,7300997829 5,7333412768 5,7365722974 5,7397929121 5,7430031878 5,7462031905 \ 5,7493929859 5,7525726388 5,7557422135 5,7589017738 5,7620513827 5,7651911027 5,7683209957 5,7714411231 5,7745515455 5,7776523232 5,7807435157 5,7838251823 5,7868973813 5,7899601708 5,7930136083 5,7960577507 5,7990926544 5,8021183753 5,8051349689 5,8081424899 5,8111409929 5,8141305318 5,8171111599 5,8200829303 5,8230458954 Ι η \oge η 1664,2905744420 1670,9724515976 ! 1677,6577301202 | 1684,3463984799 1691,0384452244 1697,7338589786 1704*4326284438 1711,1347423969 1717,8401896894 1724*5489592472 1731,2610400693 1737,9764212275 1744,6950918653 1751,4170411974 1758,1422585093 1764,8707331559 1771,6024545614 1778,3374122185 1785,0755956877 1791,8169945966 1798,5615986391 1805,3093975752 1812,0603812301 1818,8155394935 1825,5718623191 1832,3323397241 1839,0959617884 1845,8627186540 1852,6326005247 1859,4055976653 1866,1817004009 1872,9608991167 1879,7431842572 1886,5285463255 1893,3169758834 1900,1084635500 1906,9030000018 1913,7005759720 1920,5011822498 1927,3048096803 1934,1114491635 1940,9210916542 1947,7337281614 1954*5493497476 1961,3679475287 1968,1895126733
386 ПРИЛОЖЕНИЕ Таблица 1 (продолжение) η 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 381 382 383 iose η 5,8260001073 5,8289456176 5,8318824772 5,8348107370 5,8377304471 5,8406416573 5,8435444170 5,8464387750 | 5,8493247799 5,8522024797 5,8550719222 5,8579331544 5,8607862234 5,8636311755 5,8664680569 5,8692969131 5,8721177894 5,8749307308 5,8777357817 5,8805329864 5,8833223884 5,8861040314 5,8888779583 5,8916442118 5,8944028342 5,8971538676 5,8998973535 5,9026333334 5,9053618480 5,9080829381 5,9107966440 5,9135030056 5,9162020626 5,9188938542 5,9215784196 5,9242557974 5,9269260259 5,9295891433 5,9322451874 5,9348941956 5,9375362050 5,9401712527 5,9427993751 5,9454206086 5,9480349891 ηloge n J 1975,0140364020 1981,8415099875 1988,6719247537 1995,5052720754 2002,3415433779 2009,1807301364 2016,0228238758 2022,8678161700 2029,7156986416 2036,5664629615 2043,4201008486 2050,2766040692 2057,1359644365 2063,9981738105 2070,8632240975 2077,7311072494 2084,6018152638 2091,4753401833 2098,3516740053 i 2105,2308091315 1 2112,1127374673 2118,9974513221 2125,8849429582 2132,7752046809 2139,6682288381 2146,5640078198 ! 2153,4625340576 1 2160,3638000249 ! 2167,2677982360 2174,1745212462 2181,0839616510 2187,9961120862 2194,9109652274 2201,8285137896 2208,7487505271 2215,6716682330 2222,5972597389 2229,5255179146 2236,4564356679 2243,3900059442 2250,3262217262 2257,2650760338 2264,2065619233 2271,1506724877 2278,0974008562 η 3S4 385 386 387 388 389 390 391 392 393 394 | 395 | 396 1 397 398 399 400 401 402 ! 403 1 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 1 422 423 424 425 426 427 428 429 loge η 5,9506425525 5,9532433342 5,9558373694 5,9584246930 5,9610053396 5,9635793436 5,9661467391 5,9687075599 5,9712618397 5,9738096118 5,9763509092 5,9788857649 5,9814142112 5,9839362806 5,9864520052 5,9889614168 5,9914645471 5,9939614273 5,9964520886 5,9989365619 6,0014148779 6,0038870671 6,0063531596 6,0088131854 6,0112671744 6,0137151560 6,0161571596 6,0185932144 6,0210233493 6,0234475^9 6,0258659738 | 6,0282785202 6,0306852602 6,0330862217 6,0354814325 6,0378709199 6,0402547112 6,0426328336 6,0450053140 6,0473721790 6,0497334552 6,0520891689 6,0544393462 6,0567840132 6,0591231955 6,0614569189 η \ще η 2285,0467401937 2291,9986837008 2298,9532246134 2305,9103562025 2312,8700717738 2319,8323646676 2326,7972282582 2333,7646559543 2340,7346411979 2347,7071774646 2354,6822582634 2361,6598771359 2358,6400276568 2375,6227034328 2382,6078981032 2389,5956053391 2396,5858188432 2403,5785323499 2410,5737396248 2417,5714344645 2424,5716106963 2431,5742621781 2438,5793827983 2445,5869664751 2452,5970071569 2459,6094988215 2466,6244354763 2473,6418111580 2480,6616199320 2487,6838558929 2494,7085131637 2501,7355858957 2508,7650682687 2515,7969544901 Ι 2522,8312387953 2529,8679154474 2536,9069787365 2543,9484229803 2550,9922425232 2558,0384317366 2565,0869850184 2572,1378967929 2579,1911615108 2586,2467736486 2593,3047277090 2600,3650182201
ПРИЛОЖЕНИЕ 387 Таблица I (продолжение) η 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 \°gen 6,0637852086 6,0661080901 6,0684255882 6,0707377280 6,0730445341 6,0753460310 6,0776422433 6,0799331950 6,0822189103 6,0844994130 6,0867747269 6,0890448754 6,0913098820 6,0935697700 6,0958245624 6,0980742821 6,1003189520 6,1025585946 6,1047932324 6,1070228877 6,1092475827 6,1114673395 6,1136821798 6,1158921254 6,1180971980 6,1202974189 6,1224928095 6,1246833908 6,1268691841 6,1290502100 6,1312264894 6,1333980429 6,1355648910 6,1377270540 6,1398845522 ! 6,1420374055 Ι 6,1441856341 ί 6,1463292576 6,1484682959 6,1506027684 6,1527326947 6,1548580940 6,1569789855 6,1590953884 η \oge η 2607,4276397357 2614,4925868347 2621,5598541215 2628,6294362251 2635,7013277996 2642,7755235236 2649,8520181002 2656,9308062568 2664,0118827449 2671,0952423400 2678,1808798414 ' 2685,2687900721 I 1 2692,3589678783 I 2699,4514081300 2706,5461057199 2713,6430555640 2720,7422526009 2727,8436917923 2734,9473681219 2742,0532765963 2749,1614122440 2756,2717701157 2763,3843452842 2770,4991328438 2777,6161279108 2784,7353256227 1 2791,8567211386 2798,9803096387 2806,1060863243 2813,2340464178 2820,3641851622 2827,4964978215 2834,6309796798 I 2841,7676260419 2848,9064322330 2856,0473935981 2863,1905055026 2870,3357633314 2877,4831624895 2884,6326984013 2891,7843665109 2898,9381622817 2906,0940811964 2913,2521187567 6,1612073216 Ι 2920,4122704835 η 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499 500 501 502 503 504 505 506 507 508 509 510 511 512 513 514 515 516 517 518 519 520 \ogen 6,1633148040 6,1654178542 6,1675164908 6,1696107324 6,1717005974 6,1737861039 6,1758672701 6,1779441140 6,1800166536 6,1820849067 6,1841488909 6,1862086239 6,1882641230 6,1903154058 6,1923624894 6,1944053911 6,1964441277 6,1984787164 6,2005091740 6,2025355171 6,2045577625 6,2065759267 6,2085900260 6,2106000770 6,2126060957 6,2146080984 6,2166061010 6,2186001196 6,2205901700 6,2225762680 6,2245584292 1 6,2265366692 ί 6,2285110035 6,2304814475 | 6,2324480165 6,2344107257 6,2363695902 6,2383246250 6,2402758451 6,2422232654 6,2441669006 6,2461067654 6,2480428745 6,2499752422 6,2519038831 6,2538288115 η \oge η 2927,5745319165 2934,7388986142 2941,9053661537 2949,0739301309 2956,2445861598 2963,4173298729 2970,5921569209 2977,7690629724 2984,9480437142 2992,1290948508 2999,3122121047 3006,4973912156 3013,6846279412 3020,8739180563 3028,0652573532 3035,2586416413 3042,4540667471 3049,6515285142 3056,8510228030 3064,0525454908 3071,2560924715 3078,4616596556 3085,6692429700 3092,8788383583 3100,0904417800 3107,3040492111 3114,5196566435 3121,7372600852 3128,9568555602 ι 3136,1784391080 ; 3143,4020067841 3150,6275546595 3157,8550788207 | 3165,0845753699 3172,3160404242 3179,5494701164 3186,7848605941 3194,0222080202 3201,2615085726 3208,5027584440 3215,7459538418 3222,9910909885 3230,2381661209 3237,4871754904 3244,7381153631 3251,9909820192
388 ПРИЛОЖЕНИЕ Таблица I (продолжение) л 521 522 523 524 525 526 527 528 529 530 531 532 533 534 535 536 537 538 539 540 541 542 543 544 545 546 547 548 549 550 551 552 553 554 555 556 557 558 559 560 561 562 563 564 565 566 ioge η 6,2557500417 6,2576675878 6,2595814640 6,2614916843 6,2633982625 6,2653012127 6,2672005485 6,2690962837 6,2709884318 6,2728770065 6,2747620212 6,2766434893 6,2785214241 6,2803958389 6,2822667468 6,2841341610 6,2859980945 6,2878585601 6,2897155709 6,2915691395 6,2934192788 6,2952660014 6,2971093199 6,2989492468 6,3007857946 6,3026189757 6,3044488024 6,3062752869 Ι 6,3080984415 6,3099182782 6,3117348091 6,3135480462 6,3153580015 6,3171646867 6,3189681137 6,3207682942 6,3225652399 6,3243589623 6,3261494731 6,3279367837 6,3297209055 6,3315018498 6,3332796281 ! 6,3350542514 6,3368257311 6,3385940782 η Iogfe η 3259,2457717535 3266,5024808747 3273,7611057060 3281,0216425842 3288,2840878606 3295,5484379000 3302,8146890813 : 3310,0828377969 ι 3317,3528804530 3324,6248134695 3331,8986332795 3339,1743363298 3346,4519190804 3353,7313780047 3361,0127095894 3368,2959103339 3375,5809767513 3382,8679053670 3390,1566927199 3397,4473353615 ; 3404,7398298559 3412,0341727803 ! 3419,3303607241 3426,6283902896 3433,9282580915 3441,2299607567 3448,5334949248 3455,8388572475 3463,1460443887 3470,4550530246 3477,7658798433 3485,0785215450 3492,3929748419 3499,7092364580 3507,0273031293 3514,3471716033 3521,6688386395 3528,9923010088 3536,3175554937 3543,6445988883 3550,9734279982 3558,3040396403 3565,6364306426 3572,9705978449 3580,3065380977 3587,6442482630 η 567 568 569 570 571 572 573 574 575 576 577 578 579 580 581 582 583 584 585 586 587 588 589 590 591 592 593 594 595 596 597 598 599 600 601 602 603 604 605 606 607 608 609 610 611 \ogen 6,3403593037 6,3421214187 6,3438804341 6,3456363608 6,3473892096 6,3491389913 6,3508857167 6,3526293963 6,3543700407 6,3561076606 6,3578422665 6,3595738686 6,3613024775 6,3630281035 6,3647507568 6,3664704477 ! 6,3681871863 6,3699009828 6,3716118472 i 6,3733197895 6,3750248198 6,3767269478 1 6,3784261836 6,3801225368 6,3818160174 6,3835066348 6,3851943989 6,3868793193 6,3885614055 6,3902406670 6,3919171133 6,3935907539 6,3952615981 6,3969296552 6,3985949345 6,4002574453 6,4019171967 6,4035741979 6,4052284580 6,4068799860 6,4085287910 6,4101748819 6,4118182677 6,4134589571 6,4150969591 η Iogf^ η 3594^9837252136 3602,3249658336 3609,6679670179 3617,0127256723 3624,3592387136 3631,7075030692 3639,0575156775 3646,4092734874 3653,7627734585 3661,1180125608 3668,4749877752 3675,8336960926 I 3683,1941345148 3690,5563000535 3697,9201897310 I 3705,2858005797 3712,6531296423 3720,0221739717 3727,3929306306 3734,7653966921 3742,1395692391 3749,5154453644 1 3756,8930221708 3764,2722967709 3771,6532662870 3779,0359278513 3786,4202786057 3793,8063157014 3801,1940362996 3808,5834375709 3815,9745166954 3823,3672708625 3830,7616972712 3838,1577931297 3845,5555556557 3852,9549820759 3860,3560696265 3867,7588155526 3875,1632171087 3882,5692715580 3889,9769761731 3897,3863282354 3904,7973250353 3912,2099638721 3919,6242420538
ПРИЛОЖЕНИЕ 389 Таблица I (продолжение) η 612 613 614 615 616 617 618 619 620 621 622 623 624 625 626 627 628 629 630 631 632 633 634 635 636 637 638 639 640. 641 642 643 644 645 646 647 648 649 650 651 652 653 654 655 656 657 logen 6,4167322825 6,4183649359 6,4199949281 6,4216222678 6,4232469635 6,4248690239 6,4264884574 6,4281052726 6,4297194780 6,4313310819 6,4329400927 6,4345465187 6,4361503683 6,4377516497 6,4393503711 6,4409465406 6,4425401664 6,4441312567 6,4457198193 6,4473058625 6,4488893941 6,4554704221 6,4520489544 6,4536249988 6,4551985633 6,4567696555 6,4583382833 6,4599044543 6,4614681763 6,4630294569 6,4645883036 6,4661447242 6,4676987261 6,4692503167 6,4707995037 6,4723462945 6,4738906963 6,4754327167 6,4769723628 6,4785096422 6,4800445619 6,4815771292 6,4831073514 6,4846352356 6,4861607889 6,4876840184 ηloge n 3927,0401568975 3934,4577057289 3941,8768858823 3949,2976947010 3956,7201295366 3964,1441877496 ί 3971,5698667089 Ι 3978,9971637918 3986,4260763843 3993,8566018807 4001,2887376838 4008,7224812046 4016,1578298625 4023,5947810853 4031,0333323087 4038,4734809768 4045,9152245420 4053,3585604646 4060,8034862129 4068,2499992635 4075,6980971008 4083,1477772173 4090,5990371132 4098,0518742969 4105,5062862843 4112,9622705995 4120,4198247740 4127,8789463472 4135,3396328664 4142,8018818861 4150,2656909690 4157,7310576848 4165,1979796112 4172,6664543333 4180,1364794436 4187,6080525421 4195,0811712363 4202,5558331410 4210,0320358783 4217,5097770778 4224,9890543762 4232,4698654175 4239,9522078530 4247,4360793411 4254*9214775473 4262,4084001444 η 658 659 660 661 662 663 664 ! 665 666 667 668 669 670 671 672 673 674 675 676 677 678 679 680 681 682 683 684 685 686 687 688 689 690 691 692 693 694 695 696 697 698 699 700 701 702 iogen 6,4892049313 6,4907235345 6,4922398350 6,4937538398 6,4952655559 6,4967749901 6,4982821494 6,4997870406 6,5012896705 6,5027900459 6,504288173ο 6,5057840601 6,5072777123 6,5087691369 6,5102583405 6,5117453296 6,5132301109 6,5147126908 6,5161930760 6,5176712729 6,5191472879 6,5206211275 6,5220927981 6,5235623061 6,5250296578 6,5264948595 6,5279579176 6,5294188382 6,5308776277 6,5323342922 6,5337888379 6,5352412710 Ι 6,5366915975 6,5381398237 6,5395859556 6,5410299991 6,5424719605 6,5439118455 6,5453496603 6,5467854107 6,5482191027 Ι 6,5496507422 6,5510803350 1 6,5525078870 6,5539334040 η loge η 4269,8968448121 4277,3868092372 4284^8782911135 4292,3712881420 4299,8657980303 4307,3618184932 4314,8593472524 4322,3583820361 4329,8589205799 4337,3609606257 4344,8644999225 4352,3695362258 4359,8760672980 4367,3840909080 4374,8936048316 4382,4046068509 4389,9170947549 4397,4310663390 4404*9465194050 4412,4634517616 4419,9818612236 4427,5017456124 4435,0231027557 4442,5459304878 4450,0702266492 4457,5959890868 Ι 4465,1232156538 4472,6519042096 | 4480,1820526200 4487,7136587568 4495,2467204981 ; 4502,7812357284 4510,3172023380 4517,8546182235 4525,3934812874 ! 4532,9337894386 4540,4755405917 4548,0187326675 ! 4555,5633635928 4563,1094313001 4570,6569337281 ! 4578,2058688214 4585,7562345304 4593,3080288112 4600,8612496261
390 приложение Таблица I (продолжение) η 1 703 704 705 706 707 708 709 710 711 712 713 714 715 716 717 718 719 720 721 722 723 724 725 726 727 728 729 730 731 732 733 734 735 736 737 738 739 740 741 742 743 744 745 746 747 748 ioge η J 6,5553568918 6,5567783561 6,5581978028 6,5596152374 6,5610306658 6,5624440936 6,5638555265 6,5652649700 6,5666724298 6,5680779114 6,5694814204 i 6,5708829623 j 6,5722825426 6,5736801669 6,5750758405 6,5764695690 6,5778613577 6,5792512120 6,5806391372 6,5820251388 6,5834092221 6,5847913923 6,5861716548 6,5875500148 6,5889264775 6,5903010481 6,5916737320 6,5930445341 1 6,5944134597 6,5957805139 6,5971457018 6,5985090286 6,5998704992 6,6012301187 6,6025878921 6,6039438246 6,6052979209 6,6066501861 6,6080006252 6,6093492431 6,6106960447 6,6120410348 6,6133842183 6,6147256002 6,6160651851 6,6174029779 η loge η 4608,4158949429 4615,9719627353 4623,5294509826 4631,0883576702 4638,6486807889 4646,2104183352 4653,7735683113 4661,3381287251 4668,9040975901 4676,4714729253 4684,0402527554 4691,6104351105 4699,1820180262 4706,7549995438 4714,3293777099 4721,9051505766 4729,4823162014 4737,0608726473 4744,6408179824 4752,2221502806 4759,8048676208 4767,3889680873 4774,9744497696 j 4782,5613107628 4790,1495491669 4797,7391630872 4805,3301506343 4812,9225099240 4820,5162390771 | 4828,1113362197 | 4835,707/994829 4843,3056270031 4850,9048169214 4858,5053673845 4866,1072765435 4873,7105425551 4881,3151635807 4888,9211377867 \ 4896,5284633444 4904,1371384302 4911,7471612253 4919,3585299158 4926,9712426928 4934,5852977520 4942,2006932942 4949,8174275249 η j 749 750 751 752 753 754 755 756 757 758 759 760 761 762 763 764 765 766 767 768 769 770 771 772 773 774 775 776 777 778 779 780 781 782 783 784 785 786 787 788 ll 789 790 791 792 793 logfe η 6,6187389835 6,6200732065 6,6214056517 1 6,6227363239 6,6240652277 6,6253923680 6,6267177492 6,6280413761 6,6293632534 6,6306833856 6,6320017773 6,6333184332 6,6346333578 6,6359465556 6,6372580312 6,6385677891 6,6398758338 6,6411821697 6,6424868013 6,6437897331 6,6450909695 6,6463905148 6,6476883735 6,6489845500 6,6502790485 6,6515718735 6,6528630293 ! 6,6541525202 ι 6,6554403503 6,6567265241 6,6580110458 6,6592939196 6,6605751498 6,6618547405 6,6631326959 6,6644090203 6,6656837177 6,6669567924 6,6682282484 6,6694980898 6,6707663208 6,6720329454 6,6732979677 6,6745613918 6,6758232216 η loge η 4957,4354986544 4965,0540048978 4972,6756444749 4980,2977156103 4987,9211165333 4995,5458454780 5003,1719006830 5010,7992803917 5018,4279828521 5026,0580063169 5033,6893490433 5041,3220092931 5048,9559853327 5056,5912754332 5064,2278778700 5071,8657909232 5079,5050128773 5087,1455420213 5094,7873766487 5102,4305150574 5110,0749555498 5117,7206964328 5125,3677360173 5133,0160726191 5140,6657045581 5148,3166301584 5155,9688477488 5163,6223556622 , 5171,2771522357 5178,9332358108 5186,5906047333 5194,2492573532 5201,9091920248 5209,5704071064 5217,2329009608 5224,8966719547 5232,5617184592 5240,2280388494 5247,8956315045 5255,5644948080 5263,2346271474 5270,9060269142 Ι 5278,5786925042 5286,2526223170 5293,9278147564
ПРИЛОЖЕНИЕ 391 Таблица I (продолжение) η 794 795 796 797 798 799 800 801 802 1 803 804 805 806 807 808 809 810 811 812 813 814 815 816 S17 818 819 820 821 822 823 824 825 826 827 828 829 830 831 832 333 834 835 836 837 838 839 logen 6,6770834612 6,6783421146 6,6795991858 6,6808546787 6,6821085974 6,6833609457 6,6846117276 6,6858609470 6,6871086078 6,6883547139 6,6895992691 6,6908422774 6,6920837425 6,6933236682 6,6945620585 6,6957989170 6,6970342476 6,6982680541 6,6995003401 6,7007311095 6,7019603660 6,7031881132 6,7044143549 6,7056390948 6,7068623366 6,7080840838 6,7093043402 6,7105231094 6,7117403950 6,7129562006 6,7141705299 6,7153833863 I 6,7165947735 6,7178046950 ! 6,7190131543 6,7202201551 6,7214257007 6,7226297948 6,7238324408 6,7250336421 6,7262334023 6,7274317248 6,7286286130 6,7298240704 6,7310181004 6,7322107064 η loge η 5301,6042682302 5309,2819811502 5316,9609519321 5324,6411789958 5332,3226607649 5340,0053956673 5347,6893821343 5355,3746186018 5363,0611035089 5370,7488352992 ' 5378,4378124199 5386,1280333219 5393,8194964603 5401,5122002938 5409,2061432850 5416,9013239003 5424,5977406099 5432,2953918876 5439,9942762113 5447,6943920624 5455,3957379261 5463,0983122913 5470,8021136507 5478,5071405006 5486,2133913410 5493,9208646757 5501,6295590118 5509,3394728604 5517,0506047362 5524,7629531572 5532,4765166454 5540,1912937261 5547,9072829283 5555,6244827846 5563,3428918310 5571,0625081072 5578,7833316562 5586,5053595249 5594,2285907632 5601,9530239250 5609,6786575672 5617,4054902505 5625,1335205388 5632,8627469997 5640,5931682040 5648,3247827260 η 840 841 842 843 844 845 846 847 848 849 j 850 851 852 853 854 855 856 857 858 Ι 859 860 861 862 863 864 865 866 867 868 869 870 871 872 873 874 875 876 877 878 879 880 881 882 883 884 ϊο^η J 6,7334018918 6,7345916599 6,7357800142 6,7369669580 6,7381524945 6,7393366273 6,7405193596 6,7417006946 6,7428806357 6,7440591863 6,7452363494 6,7464121285 6,7475865268 6,7487595474 6,7499311937 6,7511014689 6,7522703761 6,7534379185 6,7546040994 6,7577689219 6,7569323892 6,7580945044 6,7592552706 6,7604146910 6,7615727688 6,7627295069 6,7638849085 6,7650389767 6,7661917146 Ι 6,7673431252 Ι 6,7684932116 6,7696419768 6,7707894239 6,7719355558 6,7730803756 6,7742238863 6,7753660909 6,7765069923 6,7776465936 6,7787848976 6,7799219074 6,7810576259 6,7821920560 6,7833252006 6,7844570626 η \oge η 5656,0575891434 5663,7915860372 5671,5267719920 5679,2631455956 5687,0007054390 5694,7394501168 5702,4793782269 5710,2204883703 5717,9627791515 5725,7062491783 5733,4508970617 5741,1967214159 5748,9437208586 5756,6918940104 5764,4412394954 5772,1917559409 5779,9434419773 5787,6962962383 5795,4503173607 5803,2055039845 5810,9618547529 5818,7193683123 5826,4780433121 5834,2378784050 5841,9988722467 5849,7610234961 5857,5243308151 5865,2887928687 5873,0544083252 | 5880,8211758556 5888,5890941343 5896,3581618385 5904,1283776486 5911,8997402480 5919,6722483229 59274459005629 5935,2206956603 5942,9966323104 5950,7737092116 5958,5519250653 5966,3312785756 5974,1117684498 5981,8933933980 5989,6761521333 59974600433717
392 ПРИЛОЖЕНИЕ Таблица I (продолжение) η 885 886 887 888 889 890 891 892 893 894 895 896 897 898 899 900 901 902 903 904 905 906 907 908 ι 909 910 911 912 913 914 915 916 917 918 919 920 921 922 923 924 925 926 927 928 929 930 \°gen 1 6,7855876450 6,7867169506 6,7878449823 6,7889717429 6,7900972355 6,7912214627 6,7923444274 6,7934661325 6,7945865808 6,7957057751 6,7968237182 6,7979404129 6,7990558620 6,8001700683 6,8012830344 6,8023947633 6,8035052576 6,8046145200 6,8057225534 6,8068293603 6,8079349436 6,8090393060 6,8101424501 6,8112443786 6,8123450941 6,8134445995 6,8145428972 6,8156399900 6,8167358805 ι 6,8178305714 6,8189240652 6,8200163646 6,8211074722 6,8221973906 6,8232861223 6,8243736700 6,8254600362 6,8265452235 6,8276292345 6,8287120716 6,8297937375 6,8308742346 6,8319535655 6,8330317327 6,8341087388 6,8351845861 η \oge η 6005,2450658320 6013,0312182361 6020,8184993086 6028,6069077770 6036,3964423719 6044,1871018263 6051,9788848765 6059,7717902614 6067,5658167227 6075,3609630051 6083,1572278560 6090,9546100255 I 6098,7531082667 6106,5527213354 6114,3534479900 6122,1552869919 6129,9582371051 6137,7622970965 6145,5674657355 6153,3737417945 6161,1811240484 6168,9896112749 6176,7992022544 6184,6098957700 6192,4216906073 6200,2345855549 6208,0485794038 Ι 6215,8636709478 6223,6798589832 6231,4971423091 6239,3155197271 6247,1349900415 6254,9555520592 6262,7772045896 6270,5999464449 6278,4237764396 6286,2486933911 6294,0746961192 6301,9017834461 6309,7299541969 6317,5592071990 6325,3895412824 6333,2209552795 6341,0534480256 6348,8870183581 6356,7216651170 \ Ι η 931 932 933 934 935 936 937 938 939 940 941 942 943 944 945 946 947 948 949 950 951 952 953 | 954 955 956 957 958 959 960 961 962 963 964 965 966 967 968 969 970 971 972 973 974 975 976 J ι°εβ η 6,8362592772 6,8373328146 6,8384052008 6,8394764382 6,8405465292 6,8416154764 6,8426832822 6,8437499490 6,8448154792 6,8458798752 6,8469431395 6,8480052745 6,8490662826 6,8501261661 6,8511849274 6,8522425690 6,8532990931 6,8543545022 6,8554087986 6,8564619845 6,8575140625 6,8585650347 6,8596149036 6,8606636714 6,8617113404 6,8627579130 6,8638033914 6,8648477779 6,8658910748 6,8669332844 6,8679744089 6,8690144506 6,8700534117 ■ 6,8710912946 6,8721281013 6,8731638342 6,8741984954 6,8752320872 6,8762646118 6,8772960714 6,8783264682 6,8793558044 6,8803840821 6,8814113036 6,8824374709 6,8834625864 η \oge η 6364,5573871449 6372,3941832870 6380,2320523906 6388,0709933057 6395,9110048849 6403,7520859830 6411,5942354574 6419,4374521678 6427,2817349766 6435,1270827482 6442,9734943498 6450,8209686509 6458,6695045234 6466,5191008414 6474,3697564816 6482,2214703231 6490,0742412472 6497,9280681378 | 6505,7829498808 6513,6388853649 6521,4958734807 6529,3539131214 6537,2130031825 6545,0731425617 6552,9343301591 6560,7965648771 6568,6598456205 6576,5241712961 6584,3895408132 6592,2559530834 6600,1234070205 6607,9919015404 6615,8614355616 6623,7320080046 6631,6036177921 6639,4762638493 6647,3499451033 6655,2246604837 6663,1004089222 6670,9771893525 6678,8550007109 6686,7338419355 6694,6137119670 6702,4946097478 6710,3765342229 6718,2594843392
ПРИЛОЖЕНИЕ 393 Таблица I (продолжение) η 977 978 979 980 981 982 983 984 985 986 987 988 log^/г 6,8844866520 6,8855096700 6,8865316425 6,8875525716 6,8885724595 6,8895913083 6,8906091201 6,8916258970 6,8926416411 6,8936563546 6,8946700394 6,8956826977 η \ogp η 6726,1434590458 6734,0284572941 6741,9144780374 6749,8015202313 6757,6895828336 6765,5786648041 6773,4687651047 6781,3598826994 6789,2520165545 6797,1451656382 6805,0393289208 6812,9345053749 η 989 990 991 992 993 994 995 996 997 998 999 1000 \ogen 6,8966943316 6,8977049431 6,8987145343 6,8997231072 6,9007306640 6,9017372066 6,9027427371 6,9037472575 6 9047507699 6,9057532763 6,9067547786 6,9077552789 η \oge η 6820,8306939749 6828,7278936973 6836,6261035210 6844,5253224266 6852,4255493969 6860,3267834166 6868,2290234728 6876,1322685543 6884,0365176520 6891,9417697588 6899,8480238699 6907,7552789821
394 ПРИЛОЖЕНИЕ f(Pi, Ρι)=Λ log£+ qx logfi, A 0.01 0.02 0,03 0,04 0,05 0,10 0,0000000 0,0039160 0,0131606 0,0259124 0,0412940 0,1444790 0,2766080 0,4286740 0,5964975 0,7777260 0,9708980 1,1750840 1,3897125 1,6144600 1,8492245 2,0941080 2,3494340 2,6157740 2,8940575 3,1857460 3,4931920 3,8205750 4,1769020 4,2534228 4^3325734 4,4152312 4,5032176 0,0031170 0,0000000 0,0022116 0,0079304 0,0162790 0,0842990 0,1812630 0,2981640 0,4308225 0,5768860 0,7348930 0,9039140 1,0833775 1,2729600 1,4725595 1,6822780 1,9024390 2,1336140 2,3767325 2,6332560 2,9055370 3,1977550 3,5189170 3,5884048 3,6605224 3,7361472 3,8171006 0,01 0,02 0,0092198 0,0019456 0,0000000 0,0015616 0,0057530 0.0529870 0,1291650 0,2252800 0,3371525 0,4624300 0,5996510 0,7478860 0,9065635 1,0753600 1,2541735 1,4431060 1,6424810 1,8528700 2,0752025 2,3109400 2,5624350 2,8338670 3,1342430 3,1995736 3,2675340 3,3390016 3,4157978 0,0165994 0,0063448 0,0014188 o,cccccco 0,0012110 0,0335430 0,0948190 0,1760320 0,2730025 0,3833780 0,5056970 0,6390300 0,7828055 0,9367000 1,1006115 1,2746420 1,4591150 1,6546020 1,8620325 2,0828680 2,3194610 2,5759910 2,8614650 2,9238152 2,9887952 3,0572824 3,1310982 0,0247332 0,0121424 0,0048802 0,0011252 0,0000000 0,0206510 0,0702460 0,1397780 0,2250675 0,3237620 0,4344000 0,5560520 0,6881465 0,8303600 0,9825905 1,1449400 1,3177320 1,5015380 1,6972875 1,9064420 2,1313640 2,3762030 2,6499960 2,7100100 2,7726538 2,8388048 2,9102844 0,0713311 0,05126821 0,C365339J 0,C253068| 0,0167095 0,0000000 0,0122345 0,0444060 0,0923350| 0,1536690 0,2269465J 0,3112380] 0,4059720 0,5ΐ0825θ! 0,6256950J 0,7506840 0,8861155 1,0325610| 1,190950θ' 1,362744θ! 1,55029551 1,7577840 1,9942165| 2,0467584| 2,1019301 2,1606090! 2,2246165 0,03 0,04 0,05 0,10 *) Для значений F (pi, p») при p2>0,50 входными данными могут служить qlt q*, псполь-
ПРИЛОЖЕНИЕ pi+4i=l=p2+4* Ρ* 0,20 0Д81С018 0,1528296 0,1299860 0,1106496 0,0939430 0,0366870 0,0083750 0,0000000 0,0073825 0,0281700 0,0609010 0,1046460 0,1588335 0,2231400 0,2974635 0,3819060 0,4767910 0,5826900 0,7005325 0,8317800 0,9787850 1,1457270 1,3416130 1,3860456 1,4331080 1,4836776 1,5395758 0,20 0,25 0,2426649 0,2116158 0,1858953 0,1636820 0,1440985 0,0724580 0,0297615 0,0070020 0,0000000 0,0064030 0,0247495 0,0541100 0,0939130 0,1438350 0,2037740 0,2738320 0,3543325 0,4458470 0,5493050 0,6661680 0,7987885 0,9513460 1,1328475 1,1744032 1,2185887 1,2662814 1,3193027 0,25 0,30 0,3091418 0,2755796 0,2473460 0,2226196 0,2005230 0,1163170 0,0610550 0,0257300 0,0061625 0,0000000 0,0057810 0,0225760 0,0498135 0,0871700 0,1345435 0,1920360 0,2599710 0,3389200 0,4298125 0,5341100 0,6541650 0,7941570 0,9630930 1,0021356 1,0438080 1,0889876 1,1394958 0,30 0,35 0,3809692 0,3451244 0,3146082 0,2875992 0,2632200 0,1676010 0,1009260 0,0541880 0,0232075 0,0056320 0,0000000 0,0053820 0,0212065 0,0471500 0,0831105 0,1291900 0,1857120 0,2532480 0,3327275 0,4256120 0,5342540 0,6628330 0,8203560 0,8571160 0,8965058 0,9394028 0,9876284 0,35 0,40 0,4588834 0,4209028 0,3882508 0,3591060 0,3325910 0,2262930 0,1489390 0,0915220 0,0498625 0,0216080 0,0052970 0,GCCOOOO 0,0051455 0,0204100 0,0456915 0,0810920 0,1269350 0,1837920 0,2525925 0,3347980 0,4327610 0,5506610 0,6975050 0,7321292 0,7693832 0,8101444 0,8562342 0,40 0,45 ! 0,5433455 0,5038170 0,4691171 0,4379244 0,4093615 0,2928240 0,2052305 0,1375740 0,0856750 0,0471810 0,0206305 0,0050940 0,0000000 0,0050250 0,0200670 0,0452280 0,0808315 0,1274490 0,1860100 0,2579760 0,3456995 0,4533600 0,5899645 0,6225408 0,6577469 0,6964602 0,7405021 0,45 0,50 10,6371488 0,5951136 0,5584570 0,5252076 0,4946380 0,3680670 0,2704400 0,1927500 0,1308175 0,0822900 0,0457060 0,0201360 0,0050085 0,0000000 0,0050085 0,0201360 0,0457060 0,0822900 0,1308175 0,1927500 0,2704400 0,3680670 0,4946380 0,5252076 0,5584070 0,5951136 0,6371488 0,50 Р2 / 0,01 0,02 0,03 0,04 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 0,96 0,97 0,98 0,99 Р2 зуемые так, как если бы они были р\, р2 в этой .таблице.
396 ПРИЛОЖЕНИЕ Таблица Ш Нецентральное ^-распределение. Таблица 5°/о значений В2-распределения Фишера. Число степеней свободы η Ρ8 о 0,04 0,16 0,36 0,64 1,00 1,44 1,96 2,56 3,24 4,00 4,84 5,76 6,76 7,84 9,00 10,24 ! 11,56 12,96 14,44 16,00 17,64 19,36 21,16 23,04 25.00 I 3,8416 3,9940 4,4394 5,1320 6,0050 7,0018 8,0946 9,2714 10,5294 11,8673 ; 13,2853 14,7833 16,3612 18,0192 19,7571 21,5751 23,4731 25,4510 27,5090 29,6469 31,8649 34,1629 36,5408 38,9988 41,5367 44,1547 2 5,9912 6,1108 6,4613 7,0209 7,7590 8,6424 9,6466 10,7558 11,9605 13,2569 14,6406 16,1098 17,6627 19,3002 21,0195 22,8216 24,7059 26,6710 28,7178 30,8458 33,0545 35,3442 37,7143 40,1652 42,6958 45,3077 3 7,8148 1 7,9186 8,2254 8,7220 9,3881 10,2023 11,1462 12,2045 13,3671 14,6276 15,9808 17,4248 18,9564 20,5744 22,2775 24,0639 25,9346 27,8879 29,9242 32,0424 1 34,2412 36,5227 38,8864 41,3295 43,8549 46,4606 4 9,4876 9,5821 9,8627 10,3202 10,9402 11,7073 12,6061 13,6242 14,7517 15,9824 17,3089 18,7299 20,2410 21,8416 23,5283 25,3019 27,1597 29,1017 31,1275 ' 33,2352 ι 35,4275 37,7008 40,0562 42,4934 45,0120 47,6128 5 11,0703 11,1589 11,4217 11,8515 12,4383 13,1704 14,0340 15,0203 16,1186 17,3222 18,6261 1 20,0256 21,5185 23,1024 24*7745 26,5349 28,3801 30,3116 32,3272 34,4276 36,6098 38,8765 41,2241 43,6551 1 46,1679 48,7637 6 12,5919 12,6750 12,9247 13,3349 13,8965 14,6000 15,4363 16,3952 17,4691 18,6486 19,9318 21,3130 22,7892 24,3572 26,0161 27,7634 29,5980 31,5192 33,5253 35,6158 37,7918 40,0499 42,3918 44,8163 47,3234 49,9128 7 14,0670 14,1474 14,3868 14,7802 15,3225 16,0040 16,8166 17,7527 18,8035 19,9639 21,2281 22,5920 24,0522 25,6066 27,2526 28,9875 30,8114 32,7230 34,7204 36,8024 I 38,9701 41,2215 43,5574 45,9752 48,4764 51,0610 Выходные значения в этой таблице являются квадратами значений В, а значения β2—квадратами значений $t из таблицы, которая находится на стр. 665 в работе Р. А. Фишера (1928).
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ :£> влечет — стремится i=t тогда и только тогда (J объединение Π пересечение С содержится в 5 содержит ~ асимптотически равно ^ приближенно равно : такое, что {х:С} множество х, удовлетворяющих условию С ζ принадлежит [λ] по модулю λ, т. е. с точностью до множества λ меры О cov ковариация Ει ( ) математическое ожидание относительно вероятностной меры μι О (п) величина самое большее порядка η о (п) величина меньшего порядка по сравнению с η mi нижняя грань sup верхняя грань lim верхний предел Ига нижний предел lim предел tr след матрицы D дисперсия Абсолютная непрерывность: мера μ называется абсолютно непрерывной относительно другой меры ν, если μ(£)=0 для каждого множества Ε такого, что ν(£) = 0. Если мера μ абсолютно непрерывна относительно ν, мы будем записывать μ <ζ ν [μ и ν определены на одном и том же измеримом пространстве (.Г, 8)]. Аддитивный класс множеств — поле: называется аддитивным в отличие от «вполне» аддитивного класса множеств, каковым является борелев- ское поле. Другими словами, аддитивность относится к свойствам, существенно связанным с конечным числом членов, тогда как о понятии вполне аддитивного говорят в связи со счетным числом. Асимптотическая функция распределения: если функция распределения F(c; η) случайной величины χ зависит от параметра /г, функция распределения, к которой стремится F(c; η) при п~+оэ (если она существует), называется асимптотической функцией распределения случайной величины х. Асимптотический доверительный интервал: доверительный интервал, границами которого служат статистики, построенные на сколь угодно больших выборках.
398 СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ Базис: множество линейно независимых векторов таких, что любой другой вектор пространства является линейной комбинацией векторов этого множества. Бит: обозначение двоичной единицы. Борелевское множество: множество борелевского поля. В /г-мерном евклидовом пространстве Rn поле борелевских множеств порождается классом полуоткрытых интервалов (щ < xt ^bt)t ί" = 1, 2, ..., п. Борелевское поле: поле $, обладающее тем свойством, что объединение любого счетного числа множеств $ снова является множеством $. Вероятностная мера: мера μ такая, что μ {S£) = 1 [& является измеримым пространством (j??, §)]. Вероятностное пространство: измеримое пространство (#Г, $), на котором определена вероятностная мера μ. Обозначается (^Г, $, μ). Верхний предел (lim sup): наибольшая предельная точка последовательности (действительных чисел, ограниченных сверху). (\\тх = А9 если х<Л + е, но никогда не <Л—ε). (Нтл:п-НтМй, где М1 — верхняя гра- rt-*oo Λ-*οο ница хи x2t ..., М2—верхняя граница х2у x3t ..., М3—верхняя граница х&, хь ... и т. д.) (\\тхп~inf supxm). η—>οο k m>k Верхняя граница (множества Ε действительных чисел): действительная точка d такая, что для любой точки а* из Ε x^d. Взаимно однозначное преобразование Т: преобразование такое, что Г^) = Г(а:2) тогда и только тогда, когда х± = х2. Выпуклое множество: множество такое, что отрезок прямой, соединяющий любые две точки множества, содержится в этом множестве. Гиперплоскость размерности η—ρ: множество точек пространства Rny каждая координата которых может быть выражена как линейная функция η—ρ параметров. При ρ = η — 1—это прямая линия. Гипотеза: утверждение о том, что точка параметрического пространства принадлежит заданной области этого пространства. Главный минор (квадратной матрицы): минор, диагональными элементами которого являются диагональные элементы матрицы. Двоичная единица: единица двоичной системы чисел. Диагональный элемент (квадратной матрицы): элемент, находящийся на пересечении строки и столбца с одинаковым порядковым номером. Доверительная вероятность: вероятность, связанная с доверительным интервалом. Доверительные границы: нижняя и верхняя границы доверительного интервала. Доверительный интервал: интервал, определенный двумя статистиками, по которым вычисляется вероятность покрытия этим интервалом значения параметра. Дополнение одного множества до другого множества: множество то- чек второго множества, не принадлежащих первому. Дополнение множества Ε до всего пространства № есть множество всех точек J2T, не содержащихся в Е. Евклидово пространство Rn размерности п: метрическое пространство точек (векторов) x — (xlt х29 ..., хп), где Χι при ΐ = 1, 2, ..., η являются действительными числами и «расстояние» между точками x = (xl9 x2f ...» χη) η и У={Уь У*, ···> Уп) определяется как (2 (Xi—yi)*yt* . £ = 1 Единичная матрица (η χ η): матрица, диагональные элементы которой равны 1, а все остальные равны 0.
и у-го сто СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ 399 Измеримая функция: действительная функция f (х) точек χ измеримого пространства (J?f, 8) такая, что для каждого действительного числа с множество {x:f(x)<:c} принадлежит 8· Такая функция называется ^-измеримой. Измеримое множество: любое множество измеримого пространства (SC> 8)> принадлежащее борелевскому полю 8· Измеримое преобразование: преобразование Τ (χ) элементов измеримого пространства (J2T, 8) в элементы другого измеримого пространства (3/, ST) такое, что для любого множества G, принадлежащего борелевскому полю £ГУ прообраз G, Т~1 ((7), принадлежит борелевскому полю 8, T~l (G) — ^{x:T(x)£G}. Измеримое пространство: пространство j£, в котором определено борелев- ское поле 8 подмножеств Э£. Мы обозначаем такое пространство (.ЗГ, 8)· Информационная матрица Фишера: k χ k матрица, элемент t-й строки лбца которой равен \/(*,0) j-g^log/^, θ) | U-g- \ogf(xt$) \d\(x)y где λ (χ) есть вероятностная мера и / (х> Θ) (плотность) есть функция χ и fc-мерного параметра Θ. Информационное неравенство: рассмотрим / (χ, Θ) — плотность, соответствующую абсолютно непрерывной функции распределения с параметром θ случайной величины X. Пусть Τ (Χ) — любая несмещенная оценка функции Φ (θ). Тогда неравенство: дисперсия Т^-—' ' , где / есть дисперсия величины — -jk-, называется информационным неравенством, t a Замечание. Область изменения X не зависит от 0, а / дифференцируема по 0 под знаком интеграла. По определению Фишера / есть информация о 0, содержащаяся в выборке из η наблюдений. η η Квадратичная форма: выражение х'Ах = 2 2 ачх1хр где χ,== = (xly x2i .-., xη) и матрица А = (аг-у) симметрична. Класс: множество множеств. Конечная мера: мера μ такая, что μ(ίί2Γ)<οο га измеримом пространстве (JT, *). Крамера — Рао неравенство: см. информационное неравенство. Линейно независимые векторы: векторы называются линейно независимыми, если ни один из них не может быть представлен как линейная комбинация остальных. Линейно независимые функции (на Rn): множество функций /г- (х), определенных на Rn> таких, что ни одна из них не может быть выражена как линейная комбинация других с действительными коэффициентами, среди которых не все нули. Линейное преобразование: у = Ах, гце у' — (у1У у», ..., ут), х' = = (.*!, х29 ..-, хп)у А = (аф> £=1, 2, ...,т, у=1, 2, ..., п. Мера: неотрицательная, вполне аддитивная функция множества, определенная на борелевском поле 8 измеримого пространства (J2T, 8). Минор (матрицы А): определитель любой квадратной подматрицы матрицы А. Мощность критерия: мощность критерия (данного размера) есть вероятность отвергнуть нулевую гипотезу, когда верна альтернативная гипотеза.
400 СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ Наиболее мощный критерий: критерий, который среди всех критериев данного размера дает наибольшее возможное значение вероятности отвергнуть нулевую гипотезу, когда верна альтернативная гипотеза. Наибольшая нижняя грань: наибольшая из нижних границ множества (действительных чисел). Наилучшая оценка: та из оценок параметра, которая обладает минимальной достижимой дисперсией. Наименьшая верхняя грань', наименьшая из верхних границ множества (действительных чисел). Невырожденная матрица: квадратная матрица А такая, что ее определитель |А|^0. Если |А| = 0, то матрица называется вырожденной. Невырожденное линейное преобразование: линейное преобразование с невырожденной матрицей. Невырожденное преобразование: взаимно однозначное преобразование, для которого существует обратное. Непересекающиеся множества: множества, не имеющие общих элементов. Несмещенная оценка: такая оценка параметра, математическое ожидание которой равно оцениваемому параметру. Нижний предел (Hm inf): наименьшая предельная точка последовательности (действительных чисел, ограниченных снизу). (lim л: = я, если х>а—ε, но никогда не ;>α-[-ε), (lim хп = \\ттп> где mt—нижняя граница xlf x2t я->оо п-усо х&> -··» Щ—нижняя граница х2, х&, ..., т& — нижняя граница х&, xit ..., и т. д.) (lim хп = sup inf xm). Нижняя граница (множества Ε действительных чисел): действительная точка с такая, что для любой точки χ множества Ε х^с. Область принятия (отклонения) гипотезы: множество выборочного пространства такое, что если выборочная точка попадает внутрь (вне) этого множества, то мы принимаем (отклоняем) данную гипотезу. Обратная матрица: говорят, что квадратная невырожденная η χ η матрица А имеет обратную матрицу А"1, если АА~1 = А~1А = 1, где I — пХп единичная матрица. Объединение двух или большего числа множеств: множество всех тех точек пространства SC> которые принадлежат по крайней мере одному из η этих множеств. Если Е\ обозначают множества при /=1, 2, ..., п, то [J E-t обозначает их объединение. Однородное семейство мер: семейство мер такое, что любые две меры семейства абсолютно непрерывны друг относительно друга. Однородные выборки: выборки из популяций с одинаковыми значениями параметров. Если только некоторые из параметров одинаковы, то выборки называются однородными относительно этих параметров. Односторонняя гипотеза: гипотеза, которая ограничивает значение параметра некоторой фиксированной константой лишь с одной стороны (сверху или снизу). Окрестность точки: окрестность точки а есть множество точек х» которые удовлетворяют неравенству вида |х—а|<е, где ε;>0, а |х — а1 обозначает расстояние между χ и а. (См. Евклидово пространство.) Ортогональная матрица: матрица С такая, что СС' = 1, где С — транспонированная матрица С и I—единичная матрица. Открытое множество в Rn: множество, все точки которого являются внутренними, т. е. такими, что некоторая окрестность точки целиком принадлежит множеству.
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ 401 Отношение правдоподобия (при Х=х): отношение ft(x) к f2(x)t где fi(x) при ί=1,2 является плотностью вероятности для наблюдения Х=х при справедливости гипотезы о том, что случайная величина X принадлежит популяции, которой соответствует плотность fi (X), Оценка: статистика, выбранная для приближения (или оценивания) данного параметра (или функции этого параметра). Ошибка второго рода: вероятность принять нулевую гипотезу, когда она неверна. Ошибка первого рода: вероятность отвергнуть нулевую гипотезу, когда она верна. Параметрическое пространство: пространство всех допустимых параметрических точек. Пересечение двух множеств: множество точек, принадлежащих обоим множествам. Пересечение множеств А и В записывается как A f) В. Плотность вероятности: рассмотрим μ — вероятностную меру, которая абсолютно непрерывна относительно λ на вероятностном пространстве {SC> 8, λ). Тогда плотность вероятности, соответствующая μ, есть функция fix)t единственная, положительная и конечная всюду, за исключением множества λ меры нуль, и такая, что μ (E) = \Ef(x) άλ (χ) для всех множеств Ε, принадлежащих 8- Поле: класс 8 множеств пространства SC такой, что объединение и пересечение любых двух множеств из 8 принадлежит 8 и дополнение любого множества из 8 до всего пространства SC снова принадлежит 8. Положительная квадратичная форма: квадратичная форма, которая неотрицательна и которая может быть нулем при действительных значениях переменных, не всех равных нулю. Положительная матрица: матрица положительной квадратичной формы. Положительно определенная квадратичная форма: квадратичная форма, которая всегда неотрицательна при действительных значениях переменных и равна нулю только тогда, когда все переменные имеют нулевые значения. Положительно определенная матрица: матрица положительно определенной квадратичной формы. Предельная точка (последовательности действительных чисел): точка, каждая окрестность которой содержит бесчисленное множество точек последовательности. Преобразование: функция Т(х)=у элементов χ пространства .2?, которая устанавливает соответствие между этими элементами и элементами пространства У. Производящая функция моментов (случайной величины X): функция действительной переменной t, равная математическому ожиданию величины егХь Прообраз множества: если множество G принадлежит пространству 2/, соответствующему пространству SC при преобразовании Τ (χ)> то множество всех точек χ из SC> образы которых при Τ (χ) являются точками G, называется прообразом G. Это обозначается T~l (G) = {χ: Τ (χ) 3 G}. Равномерно наиболее мощный критерий: критерий, который среди критериев данного размера является наиболее мощным для всех допустимых альтернативных гипотез. Радона — Никодима теорема: пусть μ и ν σ-конечные меры на измеримом пространстве (££,8) такие, что \ абсолютно непрерывна относительно μ. Тогда существует ^-измеримая функция f (х) такая, что 0 </(х) < + со и для каждого множества Εζ8 ν (E)=\Ef(x)dp(x). Функция f (x) единственна в том смысле, что если существует другая функция g (x) с теми же самыми свойствами, что и f(x), то \L(x:f (x)zfig(x)) = 0.
402 СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ Размер критерия: вероятность отвергнуть нулевую гипотезу, когда она верна. Ранг матрицы: говорят, что матрица имеет ранг г, если г является наибольшим целым числом таким, что по крайней мере один минор порядка г не равен нулю. Расстояние (как функция); действительная функция d точек дг, у, ζ такая, что: 1) d(x,y)^0, 2) d(x,y) = 0 в том и только том случае, если χ—у, 3) d(xty) = d(y,x), A) d (x,y)^d(x,z) + d (z,у). Последнее соотношение называется неравенством треугольника. Семейство мер с доминирующей мерой: семейство Μ мер μ,, определенных на измеримом пространстве (^Г, $), для которого существует конечная мера ν такая, что меры μι абсолютно непрерывны относительно ν (μι <ζ ν) для каждой μι из Μ. Мера ν не обязана принадлежать М. Семейство эквивалентных мер: семейство мер μ/, определенных на измеримом пространстве (j?f, $), для которого существует мера ν такая, что каждая мера μι эквивалентна ν(μ.£ = ν). Это означает, что каждая мера μι абсолютно непрерывна относительно ν, и наоборот. След квадратной матрицы: сумма диагональных элементов. Случайная величина: любая ^-измеримая функция f(x), определенная на измеримом пространстве (j?f, 8). Смещение: разность между математическим ожиданием оценки и оцениваемым параметром. Смещенная оценка: оценка параметра, математическое ожидание которой не совпадает с оцениваемым параметром. Событие: множество вероятностного пространства (^Г, $, μ), принадлежащее $. Состоятельная оценка: оценка параметра, которая сходится по вероятности к оцениваемому параметру. Статистика: случайная величина, которая является функцией выборки, не зависящей от параметров. Стохастическая сходимость или сходимость по вероятности: пусть заданы случайные величины ft (x)y /2 (-*), ... на пространстве л:-ов. Тогда говорят, что последовательность fn (x) сходится стохастически (или по вероятности) Kf(x), если lim Ρ {(/„(*)—/ (*) | $2 ε} = 0. Сходимость с в°роятностъю 1: пусть заданы случайные величины А (·*)» /s (x)f ··· на пространстве х-оъ. Если для почти всех χ limfn (x) =f(x), то говорят, что fn(x) сходится к f (х) с вероятностью 1. Счетное множество: множество, элементы которого можно поставить во взаимно однозначное соответствие с элементами множества натуральных чисел. с-алгебра: то же, что борелевское поле. Непустой класс множеств, замкнутый относительно дополнений и счетных объединений. оконечная мера: мера μ, для которой может быть найдена конечная или счетная последовательность измеримых множеств Ει таких, что UEi = SP (ЗС — все пространство) и μ (Ει) < со для каждого L Усеченное распределение: все наблюдения, лежащие вне данного интервала, отбрасываются. Тогда оставшиеся наблюдения приводят к усеченному распределению с функцией распределения 0 при х^а. F{b)-F{a) прн *<*<*, 1 при x>by F(x\a<Z^b):
СЛОВАРЬ СПЕЦИАЛЬНЫХ ТЕРМИНОВ 403 где F (х | а < £ ^ Ь) является функцией условного распределения случайной величины £ в предположении, что £ лежит в интервале (я, Ь\ (полуоткрытом) и где F(x) функция распределения £ на всем ^-пространстве £. Функция множества: функция, областью определения которой является класс множеств. Функция точки: функция, определенная для каждой точки пространства. Характеристическая функция множества: функция точек множества, равная 1 на этом множестве и 0 вне множества. Характеристический вектор (соответствующий характеристическому корню характеристического уравнения для квадратной матрицы А): вектор х, который удовлетворяет матричному уравнению Αχ = λχ при некотором значении характеристического корня λ. Характеристическое уравнение (для квадратной матрицы А): уравнение относительно λ вида |А—λΙ|=0, где I — единичная матрица того же порядка, что и А. Хинчина теорема: пусть Xlt X2t ... — одинаково распределенные незави- — 1 п симые случайные величины с конечным средним т. Тогда Х=— VI Χι п t = i сходится по вероятности к т. Эквивалентные меры: две меры μ и ν такие, что μ абсолютно непрерывна относительно ν (μ<ζν) и ν абсолютно непрерывна относительно μ (ν<ζμ). Эквивалентность мер μ и ν мы обозначаем μ^ν. Якобиан преобразования: пусть yi—f^x^ ... f xk) при i = 1, 2, ..., k определяет преобразование. Тогда определитель, элемент £-й строки и у-го столбца в котором равен dfijdXj, называется якобианом преобразования.
АЛФАВИТНЫЙ УКАЗАТЕЛЬ *) Абсолютная непрерывность 13, 40, 397 Аддитивный класс 13, 397 Асимптотический доверительный интервал 397 Асимптотическое распределение 82, 109, 336, 397 Базис 398 Байеса теорема 14, 96 Бартлетт (Bartlett Μ. S.) 313, 341 Бартлетта критерий однородности дисперсий 330 Берэнса—Фишера проблема 321 Бесселя функция 338 Бокс (Box G. Ε. Ρ.) 339 Борелевское множество 13, 398 Борелевское поле 13, 398 Броунли (Brownlee К. А.) 202 Бхаттачарья (Bhattacharyya А.) 52 Вальд (Wald А.) 12, 86, 109, 113 Вероятностная мера 13, 398 Вероятностное пространство 13,398 Вес довода (weight of evidence) 15 Взаимодействие 184, 200, 250; — второго порядка 202; — отрицательное 186, 199 Винер (Wiener N.) 11, 12 Винера информация 12, 44 Вогнутая функция 27, 45, 184 Вудворд (Woodward P. M.) 12 Выборки; — из многомерных нормальных популяций 205; — эквивалентные 94 Выборочное пространство 13 Выборочные средние значения) ~, производящая функция моментов 308; —, распределение 205 Выпуклая функция 45 Выпуклое множество ПО, 398 Выпуклости свойство 27, 126, 147, 158, 169, 184 Гарнер (Garner W. R.) 167 Гильберт (Gilbert Ε. Ν.) 11 Гиперплоскость 109, 398 Гипотеза 398; — многомерная нормальная 345; — односторонняя 131. 133, 143, 161, 164, 400; —условная 179 Гипотезы независимости 178, 196— 197 Главное направление 76 Главные компоненты 211 Грин (Green P. E.) 12 Гринхауз (Greenhouse S. W.) 355 Гуд (Good I. J.) 15, 125 Двоичная единица (бит) 17, 398 Диагональная матрица 206, 208 Диагональный элемент 398 Дискриминантная функция] —цоста- точная 209; —линейная 209, 216, 219, 265, 286, 316, 321, 328, 353 Дисперсионный анализ 120; —, многомерное обобщение 120; —, многомерный аналог 305 Доверительная область 114 Доверительные границы 114, 398 Доверительный интервал 102, 115, 162, 398; —для биномиального распределения 114 Доверительный коэффициент (доверительная вероятность) 114, 398 Дополнение одного множества до другого 54, 398 Достаточная статистика 29, 31— 35, 56, 71 Достаточное разбиение 29 Достаточность) —, критерий 29, 57 Единичная матрица 398 Енсена неравенство 27 *) Знак ~ заменяет слово или группу слов, выделенных курсивом*
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 405 g Τ (х)\ ~, определение 30 /(1:2) 15 / (* : 2) 49 /(*:Н) 97 Измеримая функция 14, 399 Измеримое множество 11, 13, 399 Измеримое преобразование 29, 82,399 Измеримое пространство 13, 399 Инвариантность 16 Инвариантные свойства 76, 208, 303 Информационная статистика 93, 95, 97, 124, 131, 136 Информационное неравенство 47, 67, 399 Информация', ~, аддитивность 23; ~Винера 12, 44; ~ в категориях строки относительно категорий столбца 168; ~ в категориях строки относительно категорий (столбец, глубина) 175; ~ в множестве 27; ~ в * одной величине относительно другой величины 18; ~ в элементах множества 27; ~, единицы 15, 17, 18; '—', логарифмический вид 24; ~, определение 13, 15; ~, передача 36; ~ псевдо- 52; ~- различающая (discrimination) 15, 30, 82, 97, 209; ~ семантическая 12; ~средняя 18, 155, 168,215; ~Сэвиджа 15; ~, уменьшение 27,33,86, 157;«~ условная 24; ~ Фишера 24, 37, 67; ~ Хартли 17; ~ Чернова 52; ~ Шеннона 12, 17, 18 Итерация 354, 360 Ито (lto K-) 278 7(1,2) 16 Канал] ~, пропускная способность 19, 36; ~, шум 35 Каноническая корреляция 215—217, 285, 287, 289, 291; ~, проверка гипотез 286, 288, 292; ~, различающая эффективность 288 Каноническая форма 208 Картер (Carter A. H.) 241 Категории-, ~, группировка 125, 127 Квадратичная форма 67,399; ~ положительная 401; ~ положительно определенная 401 Класс 13, 399 Клеммер (Klemmer Ε. Τ.) 121 Ковариационная матрица 203; ~ линейных функций 300; ~9 несмещенная оценка 206; нулевая гипотеза, задающая ~ 313; ~ оценок 226, 249, 266, 302 Ковариационные величины 217 Ковариационные матрицы; ~, критерий однородности 333, 334; ~ у однородность 326, 336 Ковариационный анализ 232, 251 Колоджейчик (Kolodzie]czyk S.) 224 Компоненты независимости; ^, анализ 186 Конечная мера 15, 399 Корреляционная матрица; нулевая гипотеза о ~315 Корреляционные матрицы 206; ~, нулевая гипотеза равенства 332 Корреляция;~каионтеская 215—217, 285, 287,289,291; ~ множественная 217, 219; —простая 218 Коссск (Kossack С. F.) 323, 324 Коэффициенты корреляции; ~, критерий равенства 333—335 Крамера~~Рао неравенство 47, 399 Критерий; ~, мощность 399; ~ наиболее мощный 399; ~ равномерно наиболее мощный 401; ~, размер 401; ~ состоятельный 111, 116 Критическая область 86, 98 Кульбак (Kullback J. H.) 324 Куперман (Kupperman Μ.) 95,109—111 Купмен (Коортап В. О.) ЬО [λ] (по модулю λ) 14, 397 Латинские квадраты 250 Левин (Levin S. G.) 120 Леман (Lehmann Ε. L.) 104 Линдли (Lindley D. V.) 19 Линейная гипотеза 120, 224, 225, 264 Линейная комбинация 265, 286, 287, 328, 359 Линейная регрессионная модель 305 Линейная регрессия; ~, двуфакторная классификация 251; ~\ критерий 227; ~, общая для г выборок 279; ~, однофакторная классификация, ^-категорий 232 Линейное преобразование 399; ~ невырожденное 208, 400 Линейно независимые векторы 399 Линейно независимые функции^ 399 Линейные дискриминантные функции; критерий минимальной ошибки для нахождения ~ 359; пара ~217; ~ с наибольшей информацией (most informative) 212, 213, 216, 357; ~ с наибольшим расхождением (most divergent) 212, 213, 216, 357; ~, сравнение 362
406 АЛФАВИТНЫЙ УКАЗАТЕЛЬ Линейные оценки; ~ с минимумом дисперсии несмещенные—249, 2с0, 266, 302 Лоули (Lawley D. Ν.) 267, 278 Мак-Гилл (McGill W. J.) 167 Мак-Колл (McCall С. Η. Jr.) 250 Максимум правдоподобия 97, 105; оценка ~ 105, 113; уравнения~ 129, 152 192 Манн (Mann Η. Β.) 113 Масштабный множитель в "^-приближении по Боксу 339 Матрица; ~ диагональная 206, 208; ~, дифференцирование 309; ^'невырожденная 400; ~ ортогональная 212, 400; ~ положительная 248, 299, 401; ~ положительно определенная 401; ~, ранг 401 Махаланобиса расстояние 204 Мера 399; ~ вероятгостная 13, 398; ~о-конечная 402; ~ связи 18, 19, 36, 168, 172, 175, 213, 215 Минор 399; ~ главный 68, 398 Многомерная нормальная плотность 203 Многомерная регрессия) ~, критерий 275 Множественная ковариация 251 Множественная корреляция 217 Мощность; ~ критерия 399; ~ сигнала 19; ~ шума 19 Мурье (Mourier E.) 89 N fa, Σι) 203 Наблюдения; ~, группировка 27, 33; ~ нецентрированные 231, 243, 244, 272 Наиболее мощный критерий 399 Наилучшая оценка 120, 400 Наименее информативное (least informative) распределение 122, 132, 156 Направленное расхождение (directed devergcnce) 17, 94, 97 Независимости компоненты;*^, анализ 186 Независимость; гипотезы ~ 178, 196; ~ множеств случайных величин 317; ~, таблица сопряженности с двумя входами 168; ~, таблица сопряженности с тремя входами 172, 174,191; ~ условная 179 Нейман (Neyman J.) 98, 105, 125 Неймана критерий достаточности статистики 57 Неймана χ'2 125 Неопределенность 167; ^ апостериорная 35; априорная 35 Неравенство; ~ Енсена 27; ^ информационное 47, 67, 399; ~ Крамера— Рао 47 Несмещенная оценка 69, 400 Несмещенная оценка ковариационной матрицы; ~ , производящая функция моментов 308 Нецентральности параметр 117,138 159, 171, 175, 178, 223, 268, 339 ' Нецентральные распределения 268 Нецентральный χ2 117, 138, 223, 268; ~, распределение 339; ~, таблица 396 Hum (nit) 18 Нормальная плотность 18, 25, 203 Нормальные уравнения 225, 228, 229, 233, 234, 238, 242, 249, 266, 269, 299 Область принятия (отклонения) гипотезы 86, 400 Обобщенное стькдентово отношение; см. Хотсллинга Р-статистика Обратная матрица 400 Объединение выборок 149, 160, 202 Однородная выборка; ~, гипотеза о среднем значении 312 Однородное семейство мер 31, 400 Однородность; ~, выборка из многомерных нормальных популяций 310; ~, выборка из нормальных популяций 106; '—', выборки из полиномиальных популяций 140, 146; ~ , выборки из пуассоновских популяций 157; ~ выборочных средних значений 290; ~ дисперсий, критерий Бартлетга 330; ~ ковариационных матриц 326,329; ~ корреляционных матриц 332; ~ коэффициентов регрессии 233; нулевая подгипо- теза ~ 237; ~ средних значений выборок из многомерных популяций 275, 286, 320, 322; ~ средних значений выборок из одномерных популяций 235; ^средних значений и регрессий 282, 283; ~, таблица сопряженности с двумя входами 181;'— условная 182; -—^ частных распределений 194, 345 Однородные выборки 400 Односторонняя гипотеза 131, 133, 143, 161, 164, 400 Окано (Okano F.) 244 Ортогональная матрица 212, 400 Открытое множество 400
АЛФАВИТНЫЙ УКАЗАТЕЛЬ 407 Отношение правдоподобия 15, 105, 106, 109, 116, 125, 400 Оценка 93, 400;— максимума правдоподобия 105, 113; — несмещенная 69, 400; — состоятельная 110, 402; — эффективная ПО Оценочная (estimation) эффективность 76, 77, 78 Ошибка первого (второго) рода 86, 89, 98, 137, 401 Параметрическая матрица 232, 265; —, достаточная оценка 303; —, несмещенная оценка 300; —, разбиение 227, 304 Параметрическое пространство ПО, 401 Пауэре (Powers К. Н.) 12, 24, 44 Пиллаи (Pillai К. С. S.) 268 Пирс (Pierce J. R.) 11 Пирсон (Pearson E. S.) 98, 105, 334 Пирсон (Pearson К.) 18 Пирсона у^-ве личина 125 Питмэн (Pitman Ε. J.) 50 Плотность вероятности 14, 401 Подгипотеза (subhypothesis) 227,271; —, критерий 229, 271 Подгипотеза с разбиением на три части; —, критерий 298 Поле 401 Полиномиальное распределение; — условное 127; «подгонка» (fitting) 128 Полиномиальные популяции; проверка гипотез о — 123 Положительная квадратичная форма 401 Положительная матрица 248, 299, 401 Положительно определенная квадратичная форма 401 Положительно определенная матрица 401 Последовательный анализ 12, 54 Преобразование 29, 33,401; — взаимно однозначное 398; — линейное 399; —невырожденное 32, 400; —, якобиан 336, 340, 403 Производящая функция; ~ моментов 52, 308, 401; — семиинвариантов 52 Прообраз множества (T^(G)) 29, 401 Пространство; — вероятностное 13, 398; — входа 35; — выборочное 13; — выхода 35; — евклидово 13, 398; — измеримое 13, 399; ^^параметрическое ПО, 401 Процедура классификации 97, 359 Прямое (кронекерово) произведение матриц 266, 301, 304 Равномерно наиболее мощный критерий 401 Радона—Никодима производная 14, 40 Радона—Никодима теорема 39, 401 Разбиение; — выборок 150; ~ достаточное 29; — таблиц 186 Различающая информация (discrimination information) 15, 30,82,97,209; —, минимум 48, 49, 93, 97, 105, 120, 226, 266, 313, 314; —условная 24 Различающая эффективность (discrimination efficiency) 75—78, 211, 287, 288 Размер критерия 401 Распределение; — асимптотическое 336, 397; —корней характеристического уравнения 341; —многомерное нормальное 203; — наименее информативное (least informative) 122, 132, 156; — нецентральное 268; — нецентральное у3 339; —сопряженное 93, 118, 122, 156, 308, 309, 320, 326, 329; — Уишарта 205, 337; — Фишера В 339 Расстояние 16, 401; — Махаланобиса 204 Расхождение (divergence) 16, 33, 52, 121, 155, 204, 225, 265;—направленное 17, 94, 97 Регрессионная модель 305; — для ^-категорий 234, 237; — Картера 241; — многомерная 264, 265, 268, 275, 276, 279 Регрессия; — , двуфакторная классификация, анализ 251; —, критерий 278, 282; —, критерий подгипотезы 292, 296, 297; нулевая гипотеза отсутствия —279 * Регулярности условия 37, ПО Репараметризация 248, 299 Рипп (Rippe D. D.) 313 Роберте (Roberts Η. R.) 114 Розенблат (Rosenblatt Η. Μ.) 244 Ротстейн (Rothstein J.) 11 Сакагути (Sakaguchi Μ.) 89 Семейство мер; — с доминирующей мерой 40, 402; — однородное 31, 400 а-алгебра 13, 402 σ-конечная мера 402 Симметрия; нулевая гипотеза — 192, 193; —, критерий 194
408 АЛФАВИТНЫЙ УКАЗАТЕЛЬ Скорость передачи 35, 36 След 402 Случайная величина 402 Смещение 402 Смешенная оценка 70, 402 Смит (Smith С. А.) 333, 355, 359 Событие 13, 402 Сопряженное распределение 93, 118, 122, 156, 308, 309, 320, 326, 329 Состоятельная оценка ПО, 402 Состоятельность по Фишеру 153 Состоятельный критерий 111, 116 Сравнения',^ дихотомические 126,127; ~, объединение выборок 149, 160 Средние значения) ~, однородность 235, 275, 282, 283, 286, 320, 322 Статистика 29, 82, 402; ~ достаточная 29, 31—33, 35, 56, 71 Стейн (Stein С.) 89 Стирлинга аппроксимация 337 Стьюдента t-критерий 109, 312 Стюарт (Stuart А.) 346 Стюарта критерий 345 Стюмперс (Stumpers F. L. Η. Μ.) 11, 12 Сходимость по вероятности 87,113, 402 Сходимость с вероятностью единица 154, 202, 402 Сэвидж (Savage L. J.) 12,14,15,30,47 Таблицы с двумя входами) ~, однородность 181 Таблицы, ~ log гс и η log n 120, 121, 382; ~ Фишера В2 (нецентрального Xя) 396 Таллер (Tuller W. G.) 11, 18 Тензор фундаментальный 76 Уилкс (Wilks S. S.) 109, 125, 334 Уилкса теорема 109 Уишарта распределение 205, 337 Условная вероятность 15, 35, 96, 128, 179 Условная информация 24 Условная независимость 179, 183, 196 Условная однородность; ~, анализ 185, 196, 199; нулевая гипотеза ~Л 83 Условная различающая информация 24 Условная энтропия 35 Условное математическое ожидание 30 Факторный анализ 313 Фишер (Fisher R. А.) 11, 12, 24, 29, 130, 153 Фишера В-распределение 339 Фишера информационная матрица 39, 61, 399 Фишера z-критерий 335 Халмош (Halmos P. R.) 30 Характеристическая функция 336, 340, 341; — множества 32, 54, 403 ~ нецентрального х2-распределения 223, 339; ~ 72-распределения 223, 338, 342 Характеристические векторы 209,403 Характеристическое уравнение 208, 211, 403; ~, корни 209, 341 Хартли (Hartley R. V. L.) 12, 17 Хинчина теорема 87, 116, 403 Хотеллинг (HotelHng H.) 212,215,267, 278 Хотеллинга коэффициенты канонической корреляции 286 Хотеллинга обобщение t-критерия Стьюдента 312 Хотеллинга Т2-статистика 226, 267, 273, 289 Центральная предельная теорема 113, 117 Центрирование 230, 274 Частная корреляция 223 Частные распределения; однородность ~ 194, 345 Чернов (Chernoff H.) 52,89,98, 106, 109 Черри (Cherry E. С) 12, 13 Шеннон (Shannon С. Ε.) 11, 12, 35, 36, 48 Шеннона информация 12, 17, 18 Шутценбергер (Schutzenberger Μ. Ρ.) Эвклидово пространство 13, 398 Эквивалентные выборки 94 Экспоненциальное семейство 50, 96 Экспоненциальный тип 50, 56 Энтропия И, 17, 45; ~ условная 35 Эффект; ~ столбца 251, 252; ~ строки 251, 252 Эффективная оценка ПО Эффективность; ~ относительная 89; ^оценочная (estimation) 76, 77, 78; ~ различающая (discrimination) 75— 78, 211, 287, 288 Якобиан преобразования 336,340, 403
с* куаьбак ά Lulu •^VV^^'g^iM "'—