/
Текст
Т. АНДЕРСОН
введение
в многомерный
статистический
АНАЛИЗ
Перевод с английского
Ю. Ф. КИЧАТОВА, Е. С. КОЧЕТКОВА,
Н. С. РАЙБМАНА
Под редакцией
Б. В. ГНЕДЕНКО
ш
ГОСУДАРСТВЕННОЕ ИЗДАТЕЛЬСТВО
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА 19G3
517.8
А 65
AN INTRODUCTION
TO MULTIVARIATE
STATISTICAL ANALYSIS
T. W. ANDERSON
Professor of Mathematical Statistics
Columbia University
New York. John Wiley & Sons, Inc.
London. ChapmJ4& Hall, Limited.
Т. Андерсон
Введение в многомерный статистический анализ
М., Физматгиз, 1963 г., 500 стр. с илл.
Редактор В. В. Донченко
Техн:'редакторы И. Ш, Аксельрод, Э. И. Михлин. Корректор А. Б. Лапина
Сдано в набор 26/ХН 1962 г. Подписано к печати 4/V 1963 г. Бумага 84 X Ю81/з2.
Физ. печ. л. 15,63. Условн. печ. л. 25,63. Уч.-изд. л. 26,21. Тираж 8500 экз.
Цена книги 1 р. 46 к. Заказ № 375
Государственное издательство физико-математической литературы.
Москва, В-71, Ленинский проспект, 15.
Ленинградский Совет народного хозяйства. Управление целлюлозно-бумажной
и полиграфической промышленности Отпечатано в типографии № 1 «Печатный
Двор» им. А. М. Горького Ленинград, Гатчинская, 26 с матриц типографии
им. Евг. Соколовой. Ленинград, Измайловский пр., 29.
ОГЛАВЛЕНИЕ
Из предисловия автора 8
Глава 1. Введение 9
1.1. Многомерное нормальное распределение как модель ... 9
1.2. Общий обзор многомерных методов 11
Литература 13
Глава 2. Многомерное нормальное распределение. ... 14
2.1. Введение 14
2.2. Понятия, связанные с многомерными распределениями 14
2.3. Многомерное нормальное распределение 22
2.4. Распределение линейной комбинации нормально
распределенных величин; независимость величин; частные
распределения 32
2.5. Условные распределения и множественный коэффициент
корреляции 43
2.6. Характеристическая функция; моменты 52
Литература 58
Задачи 58
Глава 3. Оценка вектора среднего значения и
ковариационной матрицы . . .-** f ,v 64
3.1. Введение /. • . + .<*. +. . \ 64
3.2. Оценки наибольшегс^рав^Гоподрбия-для вектора
среднего значения и ковариационной "матрицы 64
3.3. Распределение вектора выборочного среднего;
заключение о среднем значении, когда ковариационная матрица
известна 74
Литература 81
Задачи 81
Глава 4. Распределения и использование выборочных
коэффициентов корреляции 85
4.1. Введение 85
4.2. Коэффициент корреляции двумерной выборки 86
4.3. Частные коэффициенты корреляции 112
4.4. Множественный коэффициент корреляции 120
Литература 134
Задачи • 1-35
I*
4 ОГЛАВЛЕНИЕ
Глава 5. Обобщенная Г2-статистика 141
5.1. Введение 141
5.2. Обобщенная Г2-статистика и ее распределение .... 142
5.3. Применения Г2-статистики 149
5.4. Распределение Г2-статистики при наличии
конкурирующих гипотез; функция мощности 155
5.5. Некоторые оптимальные свойства критерия Г2 .... 160
5.6. Многомерная проблема Беренса — Фишера 165
Литература 170
Задачи 171
Глава 6. Классификация наблюдений 175
6.1. Проблема классификации 175
6.2. Принципы правильной классификации 176
6.3. Методы классификации наблюдений в случае двух
генеральных совокупностей с известным распределением
вероятностей 180
6.4. Классификация наблюдений в случае двух генеральных
совокупностей, имеющих известные многомерные
нормальные распределения 185
6.5. Классификация наблюдений в случае двух многомерных
нормальных генеральных совокупностей, параметры
которых оцениваются по выборке 190
6.6. Классификация наблюдений в случае нескольких
генеральных совокупностей 197
6.7. Классификация наблюдений в случае нескольких
многомерных нормальных совокупностей 204
6.8. Пример классификации в случае нескольких
многомерных нормальных генеральных совокупностей 208
Литература 210
Задачи 211
Глава 7. Распределение выборочной ковариационной
матрицы и выборочной обобщенной дисперсии .... 213
7.1. Введение 213
7.2. Распределение Уишарта 213
7.3. Некоторые свойства распределения Уишарта 221
7.4. Теорема Кохрена 227
7.5. Обобщенная дисперсия 231
7.6. Распределение множества коэффициентов корреляции
в случае диагональной ковариационной матрицы
совокупности '. . . . 240
Литература 242
Задачи 242
Глава8. Проверка общих линейных гипотез.
Дисперсионный анализ 247
8.1. Введение 247
8.2. Оценки параметров многомерной линейной регрессии 248
ОГЛАВЛЕНИЕ 5
8.3. Критерии отношения правдоподобия для проверки
линейных гипотез о коэффициентах регрессии 259
8.4. Моменты отношения правдоподобия в случае, когда
справедлива нулевая гипотеза 263
8.5. Некоторые распределения величин U 267
8.6. Асимптотическое разложение распределения
отношения правдоподобия 278
8.7. Проверка гипотез о матрицах коэффициентов
регрессии и доверительные области 288
8.8. Проверка гипотезы о равенстве средних значений
нормальных распределений с общей ковариационной
матрицей 290
8.9. Обобщенный дисперсионный анализ 294
8.10. Другие критерии для проверки линейной гипотезы . . 302
8.11. Каноническая форма 307
Литература 309
Задачи 310
Глава 9. Проверка гипотезы о независимости множеств
случайных величин 314
9.1. Введение 314
9.2. Отношение правдоподобия как критерий для проверки
гипотезы о независимости множеств случайных величин 314
9.3. Моменты отношения правдоподобия при условии, что
справедлива нулевая гипотеза 320
9.4. Некоторые распределения отношения правдоподобия . 321
9.5. Асимптотическое разложение распределения величины \
(отношения правдоподобия) 326
9.6. Пример 328
9.7. Случай двух множеств случайных величин 329
Литература 334
Задачи , 334
Глава 10. Проверка гипотез о равенстве
ковариационных матриц и о равенстве одновременно векторов
среднего значения и ковариационных матриц . . . 336
10.1 Введение 336
10.2 Критерии проверки гипотез о равенстве нескольких
ковариационных матриц 337
10.3. Критерии проверки гипотезы об эквивалентности
нескольких нормальных совокупностей 340
10.4. Моменты отношения правдоподобия 342
10.5. Асимптотические разложения функций распределения
величин Vx и V 346
10.6. Случай двух генеральных совокупностей 350
10.7. Проверка гипотезы о том, что ковариационная
матрица пропорциональна заданной матрице. Критерий
сферичности 353
10.8. Проверка гипотезы о том, что ковариационная матрица
равна данной матрице 359
6 ОГЛАВЛЕНИЕ
10.9. Проверка гипотезы о том, что вектор среднего
значения и ковариационная матрица соответственно равны
данному вектору и данной матрице 363
Литература 365
Задачи 365
Глава 11. Главные компоненты 369
11.1. Введение 369
11.2. Определение главных компонент совокупности .... 370
11.3. Оценки наибольшего правдоподобия для главных
компонент и их дисперсий 379
11.4. Вычисление оценок наибольшего правдоподобия для
главных компонент 381
11.5. Пример 384
Литература 388
Задачи 388
Глава 12. Канонические корреляции и канонические
величины 389
12.1. Введение 389
12.2. Канонические корреляции и канонические величины
генеральной совокупности 390
12.3. Оценка канонических корреляций и канонических
величин 403
12.4. Способ вычислений 407
12.5. Пример 409
Литература • 412
Задачи 412
Глава 13. Распределение некоторых характеристических
корней и векторов, не зависящих от параметров . 413
13.1. Введение 413
13.2. Случай двух матриц Уишарта 414
13.3. Случай одной невырожденной матрицы Уишарта . . . 427
13.4. Канонические корреляции 434
Литература 436
Задачи 436
Глава 14. Обзор некоторых других работ по
многомерному анализу 438
14.1. Введение 438
14.2 Проверка гипотез о ранге и оценка линейных
ограничений на коэффициенты регрессии. Канонические
корреляции и канонические величины 438
14.3. Нецентральное распределение Уишарта 441
14.4. Распределение некоторых характеристических корней
и векторов, зависящих от параметров 442
14.5. Асимптотическое распределение некоторых
характеристических корней и векторов 442
14.6. Главные компоненты 443
14.7. Факторный анализ ,,..,,, 444
ОГЛАВЛЕНИЕ 7
14.8. Стохастические уравнения 445
14.9. Анализ временных рядов 446
Литература ¦ . . 447
Приложение. Теория матриц 449
1. Определение матриц. Действия над матрицами 449
2. Характеристические корни и векторы 455
3. Разбиение векторов и матриц на блоки 460
4. Некоторые результаты 464
5. Метод сокращения Дулиттла и метод сгущения по оси
для решения систем линейных уравнений 469
Литература 473
Предметный указатель 497
ИЗ ПРЕДИСЛОВИЯ АВТОРА
Эта монография была первоначально задумана как
учебник по годовому курсу статистики многомерных величин.
Надеюсь, что данная работа послужит и введением во
многие разделы этой области для всех, кто занимается
математической статистикой. Книгу эту можно использовать также
и как справочник.
В течение нескольких лет эта книга в виде конспекта
использовалась при чтении годового курса в Колумбийском
университете; первые шесть глав составили материал
первого семестра, причем особое внимание уделялось теории
корреляции. Предполагается, что читатель знаком с обычной
теорией статистики одномерных величин, в частности с
методами, основанными на одномерном нормальном
распределении. Также предполагается знание матричной алгебры,
однако этот материал включен в приложение к книге.
Надеюсь, что основные и наиболее важные разделы
многомерного статистического анализа рассмотрены в настоящей
работе, хотя отбор материала является до некоторой
степени делом вкуса. Некоторые наиболее важные результаты
лишь очень кратко затронуты в последней главе.
Широко применяется в книге метод наибольшего
правдоподобия. Он дает разумные решения, и во многих
случаях можно доказать, что эти решения являются
оптимальными. В ряде ситуаций, однако, теория желаемых или
оптимальных решений отсутствует.
За эти годы рукопись настоящей книги была обработана,
причем значительную помощь оказали мне многие студенты
и коллеги.
Стенфорд, Калифорния
Декабрь 1957 г.
ГЛАВА I
ВВЕДЕНИЕ
1.1. Многомерное нормальное распределение как модель
В этой книге рассматривается статистический анализ
данных, состоящих из совокупностей результатов измерений
некоторого числа лиц или предметов. Например, данные
выборки могут содержать сведения о росте и весе случайно
выбранных лиц из совокупности школьников некоторого
города; или статистической обработке может быть подвергнута
совокупность результатов измерений длины и ширины
лепестков или длины и ширины чашелистиков ириса двух
различных видов; или же можно изучать результаты испытаний
умственных способностей некоторого числа студентов.
Математической моделью, на которой основывается этот
анализ, является многомерное нормальное распределение или
комбинация многомерных нормальных распределений.
Проблемы, которые мы станем рассматривать, должны
затрагивать выводы о параметрах этих распределений. Здесь мы
коснемся таких вопросов, как проверка гипотез о равенстве
средних значений, получение оценок коэффициентов
корреляции, а также вопроса о том, с каким из нескольких
заранее известных распределений совпадает данное
распределение.
Хотя существуют многомерные статистические проблемы,
которые не могут быть описаны моделью Нормального
распределения, и хотя существуют статистические методы,
которые применяются для выборок из других типов
распределений (например, полиномиального распределения), мы
рассматриваем в этой книге только статистический анализ,
основанный на нормальном распределении. Основным
оправданием широкого изучения методов, относящихся к нормальному
Ю ВВЕДЕНИЕ [ГЛ. !
распределению, является приемлемость математической модели
этого распределения для большого числа многомерных
случаев.
В самом деле, обзор развития теории, приведенный
в этой книге, показывает, что в значительной мере эта
теория возникла для решения практических проблем. Одним из
первых стал заниматься такими статистическими проблемами
генетик Френсис Гальтон (Francis Galton) во второй
половине XIX века. Исследования Гальтона в статистической
теории заключались в том, что он изучал большое число
выборок и установил, что многомерное нормальное
распределение является обобщением наблюденных свойств выборок.
В частности, он изучал пары наблюдений: над родителем и
над потомком. Интересно отметить, что Гальтон направлял
своим друзьям просьбы выращивать душистый горошек,
производить наблюдения над двумя поколениями горошка и
присылать ему результаты. Плотность распределения
вероятностей двумерного нормального распределения до Гальтона
изучалась А д р и а н о м [1], Лапласом [1], Плана [1],
Гауссом [1], Браве [1]. Однако никто из этих авторов
не дал определения ни коэффициента корреляции как меры
взаимосвязи, ни таких характеристик условных
распределений, как линии регрессии и гомоскедастичность, что было
сделано ГальтономП]1).
В свою очередь К. Пирсон и другие разработали теорию
и применение различного рода коэффициентов корреляции
для изучения проблем генетики, биологии и других наук.
Проблемы классификации в антропологии и ботанике
привели к определению «коэффициента расового сходства» и
«дискриминантных функций». С другой стороны, анализ
большого числа испытаний умственных способностей привел
к разработке теории, включающей такие понятия, как
«факторный анализ», выборочная теория которого базируется
на нормальном распределении. В этих случаях, как и во
многих других (в сельскохозяйственных экспериментах,
в технических проблемах, в ряде экономических проблем и
в других областях), оказалось, что многомерное нормальное
распределение является достаточно хорошим приближением
') По поводу развития понятий, связанных с корреляцией, см.
Уокер [1].
12] ОБЩИЙ ОБЗОР МНОГОМЕРНЫХ МЕТОДОВ Ц
к действительному распределению, так что статистические
анализы, основанные на модели нормального распределения,
вполне оправданы.
Одномерное нормальное распределение возникает очень
часто, потому что изучаемый эффект является суммой
действия многих независимых случайных факторов. Подобно этому
многомерное нормальное распределение часто встречается
в связи с тем, что множественные измерения являются
суммами многих малых независимых воздействий. Подобно тому,
как из центральной предельной теоремы следует, что
предельным распределением одномерных независимых случайных
величин является одномерный нормальный закон, так и из
обобщенной центральной предельной теоремы следует, что
предельным распределением в случае нескольких измерений
является многомерное нормальное распределение.
Мы ограничиваемся рассмотрением в этой книге только
нормального распределения также потому, что многомерные
методы, основанные на нормальном распределении, нашли
широкое распространение и их можно изучать более
организованно и систематически. Распространение этих методов
обусловлено не только практической их применимостью,
но также и тем, что для теории нормального распределения
разработаны точные математические методы.
Соответствующие этой теории методы анализа основываются, как правило,
на обычных операциях матричной алгебры; распределения
многих статистик могут быть найдены точно или, по
крайней мере, охарактеризованы моментами; во многих случаях
могут быть получены оптимальные свойства.
1.2. Общий обзор многомерных методов
Статистические методы многомерного анализа удобно
разделить на следующие пять групп:
1. Корреляция. Прежде всего необходимы методы
измерения степени зависимости между двумя случайными
величинами в совокупности и в выборке. Понятие коэффициента
корреляции распространяется на измерение зависимости
между одной случайной величиной и множеством случайных
величин посредством множественного коэффициента
корреляции.
12 ВВЕДЕНИЕ [ГЛ. 1
Частный коэффициент корреляции измеряет зависимость
между случайными величинами, когда действие других
корреляционных случайных величин исключено. Различные
выборочные коэффициенты корреляции используются для оценки
соответствующих параметров распределения и для проверки
таких гипотез, как гипотеза независимости.
2. Аналоги одномерных статистических методов.
Многие проблемы, возникающие при изучении многомерных
совокупностей, совершенно аналогичны проблемам,
возникающим при изучении одномерных совокупностей; методы
решения этих проблем сходны. Например, в одномерном
случае мы хотим проверить гипотезу о равенстве нулю
математического ожидания случайной величины; в многомерном
случае мы также хотим проверить гипотезу о том, что
математические ожидания нескольких случайных величин равны
нулю. Аналогией ^-критерия Стьюдента для одномерного
случая является обобщенный Т2-критерий для многомерного
случая. Мы обобщим также методы наименьших квадратов
и дисперсионный анализ.
Для решения большинства этих проблем выбор системы
координат не играет роли, т. е. линейное преобразование
переменных не влияет на метод. В частности, во многих
случаях проверки гипотез линейное преобразование не
меняет гипотезы или процесса проверки.
3. Проблемы системы координат. Эти проблемы
являются по существу проблемами выбора системы координат
таким образом, чтобы случайные величины имели желаемые
статистические свойства. Можно сказать, что эти свойства
включают свойства, характеризующие нормальные
распределения. Указанные проблемы тесно связаны с алгебраическими
проблемами представления матриц в канонической форме.
Примером является отыскание такой нормализованной
линейной комбинации случайных величин, что ее дисперсия
максимальна или минимальна (нахождение главных
компонент); это равноценно отысканию поворота осей, который
приводит ковариационную матрицу к диагональной форме.
Другой пример — характеристика зависимости между двумя
множествами случайных величин (нахождение канонических
корреляций). Для решения этих проблем требуется находить
характеристические корни и характеристические векторы
различных матриц.
1 2] ОБЩИЙ ОБЗОР МНОГОМЕРНЫХ МЕТОДОВ 13
4. Более детализированные проблемы. Во многих из
этих проблем множества случайных величин разбиваются на
подмножества. Одной из интересных проблем здесь является
проверка гипотез о независимости этих подмножеств. Другие
проблемы относятся к гипотезам о симметрии между
подмножествами или внутри подмножеств. В категорию «более
детализированных проблем» мы включаем также факторный
анализ.
5. Зависимые наблюдения. При анализе временных
рядов наблюдения производятся над случайными величинами,
последовательными во времени. Наблюдения, сделанные в
некоторый момент времени, могут зависеть от ранее
произведенных наблюдений. Такие проблемы ведут к изучению
внутрирядной корреляции и стохастическим разностным
уравнениям. Это обширная проблема; к сожалению, мы не
можем рассмотреть ее достаточно полно.
ЛИТЕРАТУРА
ве [1], Гал1
Лаплас [1], Плана [1], Уокер [1].
Адриан [1], Браве [1], Гальтон [1], Гаусс [1],
г"\ Пл< гн* "
ГЛАВА 2
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
2.1. Введение
В этой главе дается определение многомерного
нормального распределения и рассматриваются некоторые его
свойства. В § 2.2 приводятся основные понятия, связанные
с многомерным распределением: определение частных
распределений, условных распределений, математических
ожиданий и моментов с помощью многомерной плотности
вероятности. В следующих параграфах эти понятия рассматриваются
для нормальных распределений. Одним из важных свойств
многомерных нормальных распределений является то, что
частные и условные распределения также являются
нормальными.
2.2. Понятия, связанные с многомерными
распределениями
2.2.1 • Совместные распределения. В этом параграфе
будут рассмотрены понятия совместных распределений
нескольких случайных величин, частных распределений
подмножеств случайных величин и условных распределений.
Во-первых, рассмотрим случай двух (действительных)
случайных величин г) X и Y. Вероятности событий,
определяемых в терминах зтих величин, могут быть получены из
совместной функции распределения
A)
]) В главе 2 будем различать случайные величины, которые
обозначаются прописными буквами, и аргументы, обозначаемые
строчными буквами. В последующих главах мы не сможем
придерживаться этого соглашения, поскольку его соблюдение
усложнит обозначения.
2.2] ОСНОВНЫЕ ПОНЯТИЯ 15
определяемой для каждой пары действительных чисел (лг, у).
Нам интересен случай, когда F(x, у) абсолютно непрерывна,
это соответствует тому, что почти всюду существует
частная производная:
у х
F(x, у)= Г Г f(u, v)dudv. C)
J J
— ОО —ОО
Неотрицательная функция f(x, у) называется плотностью
распределения вероятностей X и Y (плотность веооят-
ности). Случайные величины (X, Y) определяют случайную
точку на плоскости. Вероятность того, что (X, Y) попадет
в прямоугольник, будет
% y)-F(x,
Х+ЬХ
= J J f(u9 v)dudv D)
(Ал: > 0, Ly > 0). Вероятность того, что случайная точка
(Xt Y) попадет в некоторое множество Е, для которого
следующий интеграл определен (т. е. в некоторое измеримое
множество ?), равна
Р {(X, К) 6 Е] = f f / (x, у) dx dy. E)
Это • следует из определения интеграла (как предела сумм
вида D)). Если f(x, у) непрерывна по обеим переменным,
то элемент вероятности f(x, y)kykx приближенно равен
вероятности того, что X окажется между х и \
a Y — между у и y-j-Ду, ибо
У<> Y <
у+Ду х+Д*
//»
J
У *
16 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
для некоторых лг0, у0 (х<лг0<*-+-Длг, о
по теореме о среднем. Так как f(u, v) непрерывна, то
значение вероятности в формуле F) приближенно равно
f(x, у)кхку. Действительно,
= 0. G)
Рассмотрим теперь случай р случайных величин Xv
Х2, ..., Xр. Их совместная функция распределения
F(xv .... xp)=sP{Xl<^xv ..., Хр^хр} (8)
определена для любого набора действительных чисел
xv ..., хр. Если F(xv ..., хр) абсолютно непрерывна, то
плотность распределения вероятностей есть
dpF(xlt ...,xp)
dXi ... dxp
(почти всюду) и
= f(xv ..., х) (9)
р i
F(xv .... хр)= f ... ff(uv....up)dal...dap. A0)
— со —оо
Вероятность попадания точки Xv ..., Хр в измеримое
множество R р-мерного евклидова пространства равна
(xx xp)dxt ...dxp.
(И)
Элемент вероятности f(xv ..., xp)kxx ... Lxp приближенно
равен
Смешанные моменты равны
оо оо
\> ... Xh/= f . .. J *J. ...
A2)
2.2] ОСНОВНЫЕ ПОНЯТИЯ 17
2.2.2. Частные распределения. Если задана F(x, у) —
совместная функция распределения случайных величин X, К,
то частная функция распределения X будет
Р{Аг<лг}=Р{Лг<л:, Y<Cco}=F(x, со). A3)
Обозначим ее через F (х). Ясно, что
X оо
F(x)= J f f{u,v)dvdu. A4)
— ОО —СО
Назовем
оо
f f(u,v)dv = f(u) A5)
— ОО
частной плотностью вероятности величины X, Из A4) ясно,
что
х
= ff(u)da. A6)
— ОО
Таким же образом могут быть определены частная функция
распределения G (у) и частная плотность вероятности g(y)
величины Y.
Рассмотрим теперь общий случай. Дана совместная
функция распределения F(xv ..., хр) случайных величин Хх
.... Хр и нужно определить частную функцию
распределения некоторых из величин Хх Хр, например величин
Хх Хт (г</7). Имеем
Р {*!<*!, ..., *,<*,} =
= F(xx xr, со, ..., со). A7)
Тогда частная плотность вероятности величин Хх, .. ¦, Хт
равна
ОО ОО
I
БИБЛИбТЕКА
Орловского Госуларствсиного!
18 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ \ГЛ. 2
Частные функции распределения и плотности вероятности
любых других групп величин Xv ..., Хр могут быть
определены аналогичным образом.
Смешанные моменты любого подмножества случайных
величин могут быть вычислены по их частной функции
распределения; например,
— JO —СО
СО
f
••• dxp \dxx ...dxr
J
A9)
2.2.3. Статистическая независимость. Две случайные
величины X, Y с совместной функцией распределения F(x, у)
называются независимыми, если
F(x. y) = F(x)O(y), B0)
где F(x) есть частная функция распределения X и G(y) —
частная функция распределения Y. Из этого следует, что
плотность вероятности пары (X, К) есть
d*F(x)Q(y) _
—
Обратно, если /(*, y) = f(x)g(y), то
У х ух
F(x9y)= J J/(«. v)dudv= J f f(u)g(v)dudv~
— со —со
X
= f f(u)da fg (v) dv = F (x) О (у). B2)
— CO —CO
Поэтому эквивалентное определение независимости в случае,
когда существует плотность вероятности, есть
fix- y) =
2.2] OCHOBHbTF ПОНЯТИЯ 19
Пусть даны любые х1 < лг2, у1 < у2- Рассмотрим вероятность
Уз х2 х2 у2
= Г f f(u, v)dudv = j f(u)du Г g(v)dv =
= Р{х1<^<д:2)Р{у1<К<у2}. B3)
Вероятность совместного осуществления двух событий —
попадания X в первый интервал и попадания К в другой
интервал — равна произведению вероятности попадания X
в первый интервал и вероятности попадания К во второй
интервал.
Если совместная функция распределения величин Xv ...
..., Хр есть F(xv .... хр), то случайные величины
называются взаимно независимыми в том случае, когда
F (xv ..., Хр) = Fx (хг) ... Fp (Xp)t B4)
где Fi(xj) является частной функцией распределения
величины Xt (/= 1 р). Говорят, что величины Хг ХГ
независимы от величин Xr+V ..., ХрУ если
F(xv ..., хр) =
= F(xv .... хп со ocO/^oo, ..., со, хг+1, ..., Хр).
B5)
Одним из следствий независимости является формула,
согласно которой смешанный момент совокупности
случайных величин выражается через произведение
соответствующих моментов каждой случайной величины. Например, если
Xv ..., Хр взаимно независимы, то
— оо —оо
... fp(.xp)dxx ... dxp = Jl /*?'Л(*,)<**, = Д
iml -ОО /=1
B6)
2,2,4. Условные распределения. Если Л и В — два
события, вероятность совместного появления которых равна
Р (АВ) и вероятность появления В равна РE), то условная
20 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
вероятность появления А при условии, что В произошло,
будет равна Р(АВ)\Р(В) [если Р(Я)>0]. Допустим, что
событие А есть попадание X в интервал (xv х2) и событие
В — попадание К в интервал (yv y2). Тогда условная
вероятность того, что X попадет в (xv х2), при условии, что Y
попала в интервал (yv y2), равна
J g(v)dv
v) dv du
B7)
Теперь допустим, что yl = y, у2 = у-±-ку. Тогда для
непрерывной плотности вероятности
J
B8)
у
где у^СУ^Су + Ду* Также
f /(«, *)</*= Ay/ [в. у (в)], B9)
у
где у<у(«)<У + Ау. Поэтому
/^Me. C0)
Следует упомянуть, что для фиксированных у йДу(>0)
подынтегральная функция в C0) обладает теми же
свойствами, что и одномерная функция плотности вероятности.
Для значений у, при которых g*(y)>0, мы определим
Р{л;1<^Лг<^л:2|К = у} (вероятность того, что X лежит
между хх и х2 при фиксированном К, равном у) как
предел C0), когда Ду->0. Таким образом,
*2
= y}= ff(u\y)dut C1)
2 2] ОСНОВНЫЕ ПОНЯТИЯ 21
где f(u\y) = f(u, y)\g(y). Для данного у/(и\у) есть
плотность вероятности и называется условной плотностью X
при данном К. Заметим, что если X и К независимы, то
В общем случае для величин Xv .. . Хр с совместной
функцией распределения F(xv ..., хр) условная плотность
распределения величин Xv ..., Xv при данных Хг+1 =
= хг+1, ..., Xp = xpi равна
1^^> . C2)
J J
Более общее рассмотрение условных вероятностей читатель
найдет в работе А. Н. Колмогорова [1].
2.2.5. Преобразование переменных. Пусть f(xv ..., хр)
есть плотность вероятности величин Хх, ..., Хр.
Рассмотрим р действительных функций
Л = Л(*1 *р)> J'=l Р- C3)
Мы допустим, что преобразование лг-пространства в
^-пространство является взаимно однозначным 1) и обратное
преобразование есть
xi = xl(y1 ур), /=1, .... р. C4)
Пусть случайные величины Yv ..., Yp определяются
следующим образом:
Р Р- C5)
Тогда плотность вероятности величин Yv ..., К равна
\ УР) =
.... УР)> C6)
!) Точнее, мы допустим, что это справедливо для той части
л>пространства, для которой f(xlt ..., хр) положительна.
22
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
[ГЛ. 2
где
ур) = mod
ду,
дх2
ду2
дх2
дх2
дхп дх,
р_
дуг
дхр
wP
C7)
есть функциональный определитель Остроградского — Якобиг)
для этого преобразования. Мы считаем, что производные
существуют, а символ «mod» обозначает абсолютную
величину следующего за ним выражения. Вероятность того, что
(Xv ..., Хр) попадает в область /?, определяется по
формуле A1), а вероятность того, что (Кх, ..., Yp) попадает
в область S, будет равна
v ..., yp)dyx
C8)
Пусть 5 есть образ области /?, т. е. пусть каждая точка
области R преобразуется по C3) в точку области 5, и каждая
точка 5 преобразуется по C4) в точку R; тогда A1) равно
C8) по общей теории преобразования кратных интегралов.
Отсюда следует, что C6) является плотностью
распределения величин Yv ..., Yp.
2.3. Многомерное нормальное распределение
Одномерная нормальная плотность распределения может
быть записана следующим образом:
ke
где а положительно, a k выбирается таким образом, чтобы
интеграл от A) по всей оси х был равен единице. Плот-
1) Во многих книгах этот функциональный определитель
называется якобианом, однако название «определитель Остроградского —
Якоби» является более точным, ибо этот определитель был введен
Остроградским и Якоби независимо друг от друга. (Прим. ред.)
2 3] МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 23
ность вероятности многомерного нормального распределения
величин Xv ... Xр имеет аналогичную форму. Скалярная
переменная х заменяется вектором
B)
скалярную постоянную р заменяют вектором
/V
C)
а положительную постоянную а заменяют положительно
определенной (симметрической) матрицей
а\Р
D)
Выражение а (л: — рJ = (д: — Р)а(х — Р) в этом случае
заменяется квадратичной формой
(х -ЬУА (х-Ь)= 2 a^ — b^xj — bj). E)
/, 7—1
Тогда плотность вероятности /7-мерного нормального
распределения равна
xt \ ы -\{*-ЪУ AKx-V)
f(xv ..., хр) = Ке 2 , F)
где /С(>0) выбирается таким образом, чтобы интеграл
по всему р-мерному евклидову пространству переменных
xv ..., хр был равен единице.
В матричной записи становится ясным подобие
многомерной нормальной плотности распределения вероятностей F)
и одномерной плотности распределения вероятностей A).
Поэтому мы в этой книге будем использовать матричные
24 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
обозначения и операции над матрицами. В приложении
читатель может познакомиться с обзором теории матриц.
Заметим, что f(xv ..., хр) неотрицательна. Так как А
положительно определена, то
. G)
поэтому плотность распределения вероятностей
ограничена, т. е.
f(xv ....*,)<*. (8)
Теперь мы определим К так, чтобы интеграл от F) по
/7-мерному пространству был равен единице. Положим
Мы используем тот факт, что (см. следствие 4 приложения 1)
если А положительно определена, то существует
невырожденная матрица С, для которой
С'АС=1, A0)
где через /обозначена единичная матрица, а через С—
транспонированная матрица С. Пусть
х — 6 = Су, A1)
где
у=\ ; • A2)
W
Тогда
? — Ь) = у'С'АСу = у'у. A3)
Определитель преобразования будет
J=mod|C|, A4)
где «mod|С|» обозначает абсолютную величину определителя
матрицы С. Поэтому из (9) получается
с» о
J... f
e"**'!'dyp...dyl. A5)
2.2) МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 25
Так как
^2
е~2у'у =е *=i = Пе 2>it A6)
=1
то мы можем записать A5) следующим образом:
~ -Iv2 -1 v2
/С* =mod|C| f .. .
-оо
= mod|C|]J
/ = 1 l-oo )
p J_
= mod|C| JJ {/^} = mod|C| BтгJ \ A7)
ввиду того, что
1
В соответствии с A0)
|С|.|4|-|С| = |/|. 09)
Так как
\C\~\C\ B0)
и |/| = 1, то из A9) следует, что
mod | С\ = -yLzr. B1)
1 ' V\A\ V }
Тогда
/С = -^=|фГ|Bти)^Р. B2)
Таким образом, нормальная плотность распределения
вероятностей есть
Теперь мы установим роль вектора Ь и матрицы Л,
определив первый и второй моменты Xv ..., Хг Удобно
26 .МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ 2
рассматривать случайные величины как компоненты
случайного вектора
/Xi\
B4)
Определим понятия случайной матрицы и ее математического
ожидания; случайный вектор рассматривается как особый
вид случайной матрицы, когда она состоит лишь из одного
столбца.
Определение 2.3.1. Случайная матрица Z есть
матрица
Z = (Zgh), g=l т; h=\,...,nt B5)
случайных величин Zn, ..., Zmn.
Если каждая из случайных величин Zn, .. ., Zmn может
принимать только конечное число значений, то случайная
матрица Z является одной из конечного числа матриц
Z(l) Z(q). Если вероятность того, что Z = Z(t)
я
есть ри то мы можем определить MZ как 2Z @ р*. Ясно
/-1
тогда, что MZ = (MZgh). Если для случайных величин
Zn, .... Zmn существует совместная плотность
распределения вероятностей, то суммирование по Риману дает
возможность определить MZ как предел (если этот предел
существует) аппроксимирующих сумм такого вида, как в
дискретном случае, и тогда опять-таки MZ = (MZ А). Поэтому мы
можем дать следующее общее определение.
Определение 2.3.2. Математическое ожидание
случайной матрицы Z есть
MZ = (MZ^), g=\%...tm\ A=l п. B6)
Математическое ожидание случайной матрицы (или
вектора) удовлетворяет определенным свойствам, которые могут
быть обобщены в следующей лемме.
Лемма 2.3.1. Если Zx является случайной матрицей
порядка /»Х«) # действительные матрицы Dt E, F
2 3] МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 27
имеют порядок I X /я» п>Хя> 1-Х Я соответственно, то
М (DZE -\-F) = D (MZ) Е + F. B7)
Доказательство. Элемент /-й строки и у'-го столбца
матрицы M(DZE-{-F) равен
М ( 2 dihZh е * -f- /,. Л == 2 ^/л (М^Л ) ^g-y + Л у» B8)
а это является элементом /-й строки и у-го столбца матрицы
/^(MZ)^^/7, что и требовалось доказать.
Таким образом, если
X=CY+b, B9)
где С и Ь имеют прежний смысл, a Y является р-мерным
случайным вектором, то
MJr==CMK-f-*- C0)
Согласно теории преобразований, изложенной в § 2.2,
плотность распределения вероятностей вектора Y
пропорциональна A6), т. е. она равна
1T->=]iUi-''5|. CD
Математическое ожидание /-й компоненты Y равно
~ р
C2)
у
Последнее равенство следует из того !), что у^ 2 1 является
нечетной функцией yL. Таким образом, МГ=0. Поэтому
J) Или же последнее равенство следует из того, что
предыдущее выражение является математическим ожиданием нормально
распределенной величины со средним значением, равным нулю.
28 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 1ГЛ 2
среднее значение X, обозначенное через р,, будет
{1 = МЛГ= Ь. C3)
Ковариационная матрица вектора X определяется как
е(х,}Г)=ж(х—v){x— |i)'=(M(*, — fc)(*,—{*,)). C4)
Диагональный элемент этой матрицы М (Xt — (л^J является
дисперсией величины Xt\ недиагональный элемент матрицы
M(Xt — Vi)(Xj — |Лу) является ковариацией Xt и Xj.
Применив B9), мы получим
М (X— {!) (X— ц)' = MCYY'C = С(МКК') С. C5)
Элемент /-й строки и у-го столбца матрицы МКК7 есть
C6)
так как плотность распределения вероятностей Y равна C1).
Когда / = у, тогда
Последнее равенство имеет место потому, что предпоследнее
выражение является математическим ожиданием квадрата
нормально распределенной случайной величины с
математическим ожиданием, равным 0, и дисперсией, равной 1. Если
/ Ф j, то по C6)
C8)
2.3] МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 29
так как первый интервал равен 0. Согласно C7) и C8),
можем записать
МКК' = /. C9)
Тогда
М (X— |i) (X— {!)' = CIC = СС. D0)
Мы получим А = (С/)С, умножая A0) на (С) слева и
на С" справа. Если от матриц, являющихся левой или
правой частью этого равенства, перейти к обратным, то
получим
СС = А~\ D1)
Таким образом, ковариационная матрица величины X,
которую мы обозначим через 2, есть
2 = М (X— р) (X— р,)' = A. D2)
Из D1) видно, что 2 положительно определена. Суммируем
наши результаты.
Теорема 2.3.1. Если плотность распределения
вероятностей р-мерного случайного вектора X есть B3),
то среднее значение X есть Ь и ковариационная
матрица есть А'1. Обратно, если даны вектор ji и поло-
жительно определенная матрица 2, то существует
такая многомерная нормальная плотность
распределения вероятностей
(йсГТ^Щ-ГГ^-»'14-". D3)
что математическое ожидание случайного вектора
с этой плотностью распределения есть р, и
ковариационная матрица есть 2.
В дальнейшем плотность распределения вероятностей D3)
будем обозначать через /г(л:|[1, 2), а закон распределения —
через Л/([1, 2).
Ясно, что /-й диагональный элемент си ковариационной
матрицы является дисперсией /-й компоненты Х\ мы можем
обозначать ее через о2.. Коэффициент корреляции между Xf
и Xj определяется так:
?h^- D4)
30
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
[ГЛ. 2
Очевидно, что Р/у = Ру/. Так как матрица
aJjJ
D5)
положительно определена (см. приложение 1), то определитель
а.а
D6)
положителен. Поэтому — 1 < ptj < 1 (для невырожденных
распределений, см. § 2.4).
В качества особого случая изложенной теории мы
рассмотрим двумерное нормальное распределение. Среднее
значение вектора равно
<;ЬС;>
ковариационная матрица может быть записана следующим
образом:
V*2i *22; vvip a2 У D8)
где <z\ является дисперсией Xv a* — дисперсией Х2 и
p — коэффициентом корреляции между Хг и Х2. Легко
проверить, что обращение D8) есть
1-Р2 ?_ ±
D9)
Плотность вероятности Хг и Х2 равна
_2
E0)
2.3] МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ 31
Ниже будет показано, что если р = 0, то Хг и Х2
независимы; если р > 0, то между Хг и Х2 существует
положительная связь; и если р < 0, то между Х1 и Х2 —
отрицательная связь.
Отметим, что плотность вероятности D3) в р-мерном
евклидовом пространстве постоянна на эллипсоидах
(дг —рУЗГЧ* —|i) = * E1)
для каждого положительного значения с. Центром каждого
эллипсоида является точка р. Форма и положение
эллипсоида определяются значением 2, а размеры (при
фиксированном 2)— значением с.
Рассмотрим подробно двумерный случай плотности
вероятности E0). Преобразуем координаты посредством равенства
w — Ри ==yi (/=1, 2) так, чтобы центры линий, на
которых плотность распределения постоянна, находились в начале
координат. Эти линии определяются уравнениями
{У\2^ + У\) = ^ E2)
Отрезки, отсекаемые на осях уг и у2, равны между собой.
Если р > 0, то большая ось эллипса наклонена под углом 45°
к оси л: и ее длина равна 2У"сA-|-р), а длина малой оси
равна 2]/сA—р). Если р < 0, то большая ось эллипса
наклонена под углом 135° к оси л: и ее длина равна
2 Ус(\ —р), а длина малой оси равна 2 ]/сA-f-p). В
рассматриваемом случае мы можем считать, что плотность
распределения графически изображается поверхностью над
плоскостью. Контуры равных плотностей аналогичны контурам
равных высот на топографической карте; они показывают
форму «холма» (или вероятностной поверхности). Если р > 0,
то эта поверхность простирается вдоль линии с
положительным наклоном; большая часть «холма» в этом случае
находится в первом и третьем квадратах. При обратном переходе
к координатам xl = oiyi-\-^i мы растягиваем каждый контур
в а1 раз в направлении /-й оси и переносим центр в точку
(ft.
Начисленные значения функции распределения одномерной
нормальной случайной величины могут быть получены из
32 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
таблиц, приводимых в большинстве учебников по статистике.
Численные значения для
E3)
где уг = (хх — \^i)l^i иу2 = (*2 — ^2)/°2» можно найти у П и р -
со на [2], [3]. Пирсон также показал, что
E4)
где так называемые четыре хклеточные (тетрахорические)
функции ^(у) табулированы у Пирсона [2], [31 до т19(у).
Кэндалл [2] показал, что выражение E4) может быть
распространено на F(xv ..., хп).
2.4. Распределение линейной комбинации нормально
распределенных величин; независимость величин;
частные распределения
Одной из причин изучения многомерных нормальных
распределений является то, что частные и условные
распределения, полученные из многомерных нормальных
распределений также нормальны. Более того, линейные комбинации
нормально распределенных величин также распределены
нормально. Сперва мы покажем, что в результате
невырожденного линейного преобразования вектора, совместное
распределение компонент которого нормально, мы получаем вектор,
совместное распределение компонент которого также
нормально.
Теорема 2.4.1. Пусть р-мерный вектор X
распределен N(ji, 2). Тогда
Y = CX A)
распределен N(C\l, CSC0 для невырожденных С.
Доказательство. Плотность распределения Y
получается из плотности я(лг|{1, 2) распределения X путем
замены х на у такое, что
х = С1у, B)
2.4]
РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ КОМБИНАЦИЙ
33
и умножением на определитель преобразования B), который
рявен mod | С1. Этот определитель можно представить в виде
C)
mod|C| »
-•
/ И
\с\
I|S|
Id —
j у |2
1
I CLC |
Квадратичная форма в показателе плотности ft(*||i, 2) есть
Q = (х — {l)/ S (X — jl). D)
Преобразование B) переводит Q в
= (С~гу — С~гСрУ S" (С~1у — С~1Ср) =
E)
так как (С~1)' = (С/)"» согласно свойству
транспонированных матриц, и CC~l = f. Таким образом, плотность
распределения вероятностей Y будет
==Bти)
2ехр[— ^
?'). F)
Теорема доказана.
Пусть теперь рассматриваются два множества случайных
величин Xv ..., X и Xg+V ..., Хр, заданные в виде
векторов
*</
G)
Т. Андерсон
34 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
Эги случайные величины образуют случайный вектор
Предположим теперь, что р величин имеют совместное
нормальное распределение со средними значениями
MA-A) = {iA), М*B) = цB) (9)
и ковариациями
М (*"<'> - Л (X™ - {iA>)' = Su, A0)
М (хB) - {1B)) (ХB) - {tB))' = S22, A1)
М (ДГA) - {tA)) (XB) - jtB))' = S12 = 0 A2)
(S21 = S12 = О). Мы говорим, что случайный вектор X был
расчленен в (8) на подвекторы так, что вектор
^ = и<2>) A3>
был расчленен подобным же образом на подвекторы и что
матрица
/Zn 212\ /2П О
была таким же образом расчленена на подматрицы (см.
приложение 1, § 3).
Покажем, что Х^ и X®* независимы и нормально
распределены. Обратная к 2 матрица есть
2 4} РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ КОМБИНАЦИЙ 35
Таким образом, квадратичная форма в показателе плотности
/i(?|{L, 2) есть
+ (*B> - *«)' 2Й1 (х{2) - рB)) = Q, + Q2, A6)
где
Отметим также, что |2| = |2П| • |222|. Плотность
распределения X может быть записана следующим образом:
I -I I 1
\ 2 ^ i v 12 /о^ч 2 ^ ^ i v i 2
{i^, S22). A8)
Частная плотность распределения ЛГA) дается в виде интеграла
— с» —со
J ...
— с»
= п (*<'> | ji(», Su) J ... J л (лг<2> | jiw, S
22)
— CO -CO
= я(*A)||*A). 2U). A9)
Таким образом, частное распределение Xil) будет N(ji^), Su);
точно так же частное распределение Х^2) будет /V (jt<2), 222).
Значит, совместная плотность распределения Xv .,., Х^
2*
36 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
является произведением плотности частного распределения
Xv ..., Xq и плотности частного распределения Хд+г, ..., Хр,
поэтому оба множества величин независимы. Если мы имеем
некоторое подмножество множества случайных величин, то
мы всегда так можем перенумеровать эти величины, что
данное подмножество образует Х{1). Этим доказывается
достаточность условия следующей теоремы.
Теорема 2.4.2. Если совместное распределение
величин Xv ..., Хр нормально, то необходимым и
достаточным условием того, что некоторое подмножество
этих величин не зависит от подмножества, состоящего
из остальных величин, является равенство нулю всех
ковариаций величин одного подмножества и величин
другого.
Необходимость следует из того факта, что если Xt из
одного подмножества, a Xj из другого, то для любой
плотности распределения вероятности (см. § 2.2.3)
ОО 00
(xl-^i)(xJ-^j)/(xv .... xg)f(xg+1 хр) X
—оо —оо
оо оо
Xdxi dxp= f ... ]*(*,-|»,)/(*, xq)dxv . .dxqX
— oo —oo
oo oo
X f ... f(Xj— \>-j)f(x9+1 xp)dxq+i ...dxp = O. B0)
— CO —OO
Так как о^ = орлц и at Ф 0 (мы молчаливо
предполагаем, что 21 невырожденная), то условие о/;. = 0 эквивалентно
тому, что рц = $. Таким образом, если одно множество
величин некоррелировано с остальными величинами, то оба
множества являются независимыми. Следует подчеркнуть, что
заключение о независимости величин при равенстве нулю их
корреляции делается в предположении, что эти величины
нормально распределены, но обратное утверждение всегда
верно.
Рассмотрим случай двумерного нормального распределения.
Тогда X{l) = Xv X{2) = X2, {tA) =jilf Я 1
2.4] РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ КОМБИНАЦИЙ 37
<*22 = <?2 и 212 = 221 = а12 = ajOgp^. Поэтому если
12 21 12 jgp^ ^
и Х2 имеют двумерное нормальное распределение, то они
независимы Тогда и только тогда, когда они некоррелиро-
ваны. Если они некоррелированы, то частное
распределение Xt нормально с математическим ожиданием ^ и
дисперсией о2. Приведенное выше рассуждение доказывает также
следующее следствие.
Следствие 2.4.1. Если X распределен N(p, 2) и
если некоторое множество компонент X некоррелировано
с другими компонентами, то частное распределение
этого множества является многомерным нормальным
распределением со средними значениями, дисперсиями и
ковариациями, определяемыми из соответствующих
компонент р2,
Теперь покажем, что это следствие справедливо также,
если два множества не являются независимыми. Мы
расчленили X, {t и 2, как и раньше. Произведем невырожденное
линейное преобразование подвекторов
, B1)
КB) = Л-B), B2)
где Т выбирается так, чтобы компоненты КA) были
некоррелированы с компонентами КB)=ЛгB). Матрица Т должна
удовлетворять уравнению
о = м(к<1)- му^Хк® - мкB))' =
= М (А-A) - ТХ&) - МА"A) - ГМА-B))(А-B) - MA"B))' =
= М [(А"A) - МА"A)) + 7-(А"B) - МА-B))](А-B) - МА*»)' =
= 512+Г2й. B3)
Таким образом, Т = — S12S22 и
к<1) = А-A)_ ЗиЗ^дг». B4)
Вектор
m
38 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ 2
является результатом невырожденного преобразования X и
поэтому распределен нормально с
'
о
так как
- vA))' M(KB) - vB))(K<2>-vt2))'
97
B7)
S12S22 S21 0
= M
— S12S22 (^ — t1 /J == 2ц — S12S22 S21 — S12S22 S21 +
+ S12S22 222S22 S21 = 2ц — S12S22 S21. B8)
Таким образом, КA) и КB) независимы и, согласно следствию
2.4.17 АгB)= КB) имеет частное распределение A^(ji^, 222).
Поскольку нумерация компонент X произвольна, мы можем
сформулировать следующую теорему.
Теорема 2.4.3. Если X имеет распределение N'({*. S),
то совместное распределение некоторого множества
компонент X является многомерным нормальным
распределением со средними значениями, дисперсиями и ко-
вариациями, определяемыми из соответству ощих
компонент [1 и S.
Рассмотрим преобразование
Z = DXt B9)
2 4] РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ КОМБИНАЦИЙ. 39
где Z содержит q компонент, a D — действительная матрица
порядка q X р» Математическое ожидание Z есть
MZ = />{!, C0)
а ковариационная матрица есть
M(Z — 0ji)(Z — Dpy = DZD'. C1)
Случай, когда q = /7 и Z> не вырождена, был рассмотрен
выше. Если q <^ р и D имеет ранг <7> т° можно найти такую
матрицу Е порядка (р—q) X Р. для которой преобразование
) <32>
является невырожденным (см. приложение 1, § 3). Тогда для
Z w W существует совместное нормальное распределение и,
согласно теореме 2.4.3, частное распределение Z нормально.
Таким образом, для матрицы D ранга q (причем X имеет
невырожденное распределение, т. е. плотность вероятности)
мы доказали следующую теорему.
Теорема 2.4.4. Если X распределен N(\i, 2), то
Z = DX распределен N(D\l, DlaD'), где D есть матрица
порядка q X Р и ранга q ^С р.
Конец настоящего параграфа посвятим несобственному,
или вырожденному, нормальному распределению и
распространению теоремы 2.4.4 на случай любой матрицы D.
Вырожденное распределение есть распределение в р-мерном
пространстве, которое концентрируется в подпространстве
меньшего числа измерений, т. е. вероятность попадания в
множество, не пересекающее подпространства, равна нулю. В
случае вырожденного нормального распределения масса
сосредоточена на линейном подпространстве [т. е. на пересечении
некоторого числа (р—1)-мерных гиперплоскостей]. Пусть
у — множество координат подпространства (число координат
равно размерности подпространства), тогда подпространство
может быть задано параметрически в виде х — Ау-+-\9
где А есть матрица порядка /?Х?» а X — /7-мерный вектор.
Предположим, что У нормально распределен в ^-мерном
подпространстве; тогда мы скажем, что
C3)
40 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ГГЛ 2
имеет несобственное, или вырожденное, Нормальное
распределение в /?-мерном пространстве* Если MK=v, то f
X = !i. Если М(К —v)(K —v)' = 7\ то
М(Х— f)(X— ц)' =
Следует заметить, что если р> q, то матрица 2
вырожденная и не имеет обратной, и поэтому мы не можем написать
нормальную плотность для ЛГ. В самом деле, X совсем
не может иметь плотность распределения, так как из
равенства нулю вероятности попадания в любое множество, не
пересекающее ^-мерного пространства, следует, что плотность
распределения вероятностей равна нулю почти всюду.
Теперь заметим, что, наоборот, если среднее значение X
равно р. и ковариационная матрица 2! имеет ранг г, то X
можно записать в виде C3) (за исключением нулевой
вероятности), где X имеет произвольное распределение и К, состоящий
из г(<^р) компонент, имеет соответствующее распределение.
Если 2 имеет ранг г, то имеется невырожденная матрица В
порядка р X Р> такая, что
// 0\
C4)
-С °)
-\о о)'
где тождественная матрица имеет ранг г (см. теорему 6
приложения 1).
Преобразование
[ C5)
определяет случайный вектор V, ковариационная матрица
которого есть C4), а среднее значение
C6)
Так как дисперсии компонент VB) равны нулю, то с
вероятностью единица V*2)=vB). Теперь расчленим jB" так:
C7)
S 41 РАСПРЕДЕЛЕНИЕ ЛИНЕЙНЫХ КОМБИНАЦИЙ 41
где С состоит из г столбцов. Тогда C5) принимает вид
/уA>\
X=B-lV=*(.CD)[ a J-CV^ + DV® C8)
Таким образом, с вероятностью единица
C9)
что имеет вид C3) (где С заменяет Л, У*!) заменяет У и Dv®
заменяет X).
Дадим теперь определение нормального распределения,
которое включает и случай вырожденного распределения.
Определение 2.4.1. Говорят, что р-мерный
случайный вектор X с ЖХ=у. и М(*— р)(Х — ц,)' = 2
нормально распределен (или распределен N(ji, 2)), если
существует преобразование C3), в котором число строк
матрицы А равно р, а число столбцов равно рангу г
матрицы 2 и r-мерный вектор Y имеет невырожденное
нормальное распределение с плотностью распределения
1и-±Ь-»т~*ь-*т D0)
Ясно, что если 2 имеет ранг р% то А можно взять равным /
и X равным 0; в этом случае X=Y и определение 2.4.1
согласуется с изложенным в § 2.3.
Теорема 2.4.5. Если X распределен N([i, S), mo
Z = DX распределен N(Dp, Z)SZ>0-
Эта теорема включает случаи как невырожденного, так и
вырожденного распределения X, a D может быть
невырожденной и иметь ранг, меньший q. Так как X может быть
выражен формулой C3), где Y имеет невырожденное распре-
деление N(v, T), то мы можем написать
Z = ZMK+/Ml, D1)
где DA — матрица порядка qY^r. Если ранг DA равен г,
то теорема доказана. Если же ранг DA меньше г, например 5,
то ковариационная матрица величины Z
'^E D2;
42 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ГГЛ 2
имеет ранг s. Согласно теореме 6 приложения 1, существует
невырожденная матрица
такая, что
\F2EFl F2EF2)
/{FlDA)T(FlDA)' (F]DA)T(F2DAY\n 0
)
_
\(F2DA)T(FlDAY (F2DA)T(F2DA)')-\0 o)' ( '
Таким образом, матрица FXDA имеет ранг 5 согласно теореме,
обратной к теореме 1 приложения 1, и матрица F2DA = Qt
так как каждый диагональный элемент (F2DA)T(F2DA)' есть
квадратичная форма относительно элементов соответствующей
строки F2DA с положительно определенной матрицей Т.
Поэтому ковариационная матрица величины FZ есть D4) и
FlDAY
D5)
Ясно, что Ux имеет невырожденное нормальное распределение.
Пусть F~l = (G1G2). Тогда
Z = GXUX + D\, D6)
что имеет вид C3). Таким образом, теорема доказана.
Все выводы настоящего параграфа можно
проиллюстрировать, рассматривая введенную в предыдущем параграфе
геометрическую интерпретацию. Плотность распределения
вероятностей величины X постоянна на эллипсоидах E1) § 2.3.
Так как преобразование B) является линейным
преобразованием (т. е. изменяет оси координат), то плотность
распределения Y постоянна на эллипсоидах
(У — W (CSC0 (У — ОД = к. D7)
Частное распределение <?A) является проекцией массы
распределения X в ^-мерное пространство первых q координатных
осей. Поверхности, на которых плотности распределения
постоянны, также являются эллипсоидами. Ясно, что проекция
массы на любую прямую нормально распределена,
2 5| УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 43
2.5. Условные распределения и множественный
коэффициент корреляции
2.5.1. Условные распределения. В этом параграфе мы
покажем, что условные распределения, полученные из
совместного нормального распределения, также нормальны.
Условные распределения имеют особенно простую природу,
так как средние значения зависят от значений фиксированных
случайных величин только линейно, а дисперсии и ковариации
вообще не зависят от значений фиксированных случайных
величин. Теория частной и множественной корреляции,
рассматриваемая в этом параграфе, была первоначально изложена
Пирсоном [1] для трех величин и далее разработана
Юлом [1], [2].
Пусть вектор Хп имеет распределение N({1, 2) B не
вырождена) и разбит, как и раньше, на два подвектора
т\
с q и (р — q) компонентами соответственно. Применим здесь
алгебраические результаты, изложенные в § 2.4. Совместная
плотность распределения вероятностей FA) = JfA)—S^S^A*2*
и Y{2) = X{2) есть
Плотность распределения вероятностей ХA) и ХB) тогда может
быть определена из этого выражения путем подстановки
х{1)— 2i222l>V2) вместо УХ) и хB) вместо у{2) (определитель
этого преобразования равен 1). Совместная плотность
распределения вероятностей Х^ и ХB) равна
ехр { -1 [(*0> - ffli) -
)} У
X , 1 ехр [- 1 {x^-^j %'
44 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
где
2ц.2 = 2ц — 2122г2 2гь C)
Эта плотность вероятности должна быть n(x\y,, 2). Условная
плотность вероятности Х^1) при данном значении A'B) = je*2)
равна частному от деления B) на значение частной плотности
вероятности величины Х{2) в точке хB\ которое равно
/*(.*<2>|{|Я, 222), т. е. второму множителю в B). Тогда частное
будет равно
D)
Ясно, что X® состоит из р — q компонент. Плотность
вероятности f(x№\xP>) является ^-мерной нормальной плотностью
со средним значением
М (ДГA) | X™) = ^ + S12S2-2' (х® - Л = v (*B)). E)
и ковариационной матрицей
М {[Д-A) - v (*<2))] [^A) - v (хB))}' | *«} =
= 2ц.2 = 23ц — 2i2222 221» F)
Следует заметить, что среднее значение Х(Х) при данном х^2)
является просто линейной функцией х@К а ковариационная
матрица Х{1) при данном дгB) вообще не зависит от Х{2К
Определение 2.5.1. Матрица S^^1 называется
матрицей коэффициентов регрессии Х{1) на х{2).
Элемент /-й строки и у-го столбца матрицы S12S221 часто
обозначается через
Вектор jiA) -f- 2122Й1 (х{2) — р»B)) часто называют функцией
регрессии.
Пусть e^ lje># является элементом /-й строки и у-го
столбца матрицы 2ц.2. Мы назовем его частной ковариа-
цией.
УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 45
Определение 2.5.2. Выражение
называется частным коэффициентом корреляции между
Хг и Xj при фиксированных Xq+l Хр.
Нумерация компонент X и число q произвольны.
Следовательно, это определение служит для нахождения условного
распределения лю5ых q компонент случайного вектора X,
если даны другие р — q компонент. Действительно, можно
рассматривать частные распределения некоторых г компонент
вектора X и определить условное распределение некоторых q
компонент, если даны другие г — q компонент.
Теорема 2.5.1. Пусть компоненты вектора X
разделены на две группы, образующие подвекторы ДГA) и Х{2\
Допустим, что среднее значение ц, подобным же
образом разделено на jaA) и ji/2\ и предположим далее, что
ковариационная матрица 2 вектора X разбита на 2П,
212, 222, которые являются ковариационными матрицами
соответственно векторов Х{1); Х{1) и Х{2); Х{2). Тогда,
если распределение X нормально, то условное
распределение ЛГA) при данном Х{2) = х{2) также нормально
со средним значением {iA)^^-S^S^1{x{2) — р,B)) и
ковариационной матрицей 2ц — ^12^22 ^2\>
В качестве примера рассмотрим двумерное нормальное
распределение и найдем условное распределение Хг, при данном
Х2 = х2. В этом случае рЯ = pv ^2> = [х2, Sn = о2,212 = аго2р
и S22 = a2. Таким образом, матрица порядка A X 1)
коэффициентов регрессии есть Е^Егг1 = — и матрица порядка
AX1) частных ковариаций есть 2ц.2 = 2п —
о2 — о2о2р2
== ~—Г^~" = °2 0 — Р2)- Итак, плотность распределения
°2
вероятностей Хг при данном х2 будет
46 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ 2
Следует отметить, что среднее значение этого условного
распределения возрастает с ростом дг2, когда р положителен,
и убывает с ростом лг2, когда р отрицателен.
Геометрическая интерпретация этой теории известна.
Плотность вероятности f(xv х2) может быть изображена
поверхностью z = f(xv x2) над плоскостью (xv x2). Если пересечь
эту поверхность плоскостью х2 = с, мы получим кривую
z = f(xl, с) над прямой х2 = с на плоскости (xv x2).
Ордината этой кривой пропорциональна условной плотности
распределения вероятностей Х1 при данном х2 = с, т. е. она
пропорциональна ординате кривой одномерного нормального
распределения. В более общем случае удобно рассматривать
эллипсоиды постоянной плотности распределения вероятностей
в р-мерном пространстве. Поверхности постоянной плотности
распределения f{xx xq\cq+v •••• СР) являются
пересечениями поверхностей постоянной плотности f(xv ..., хр)
и гиперплоскостей xq+l = cq+l, .... хр = ср\ они также
являются эллипсоидами.
Эти понятия становятся более ясными, если рассматривать
реальные совокупности как идеализированно нормально
распределенные. Рассмотрим, например, совокупность пар
отец — сын. Если эту совокупность разумно считать
однородной, то величины роста отцов и величины роста их сыновей
приближенно распределены нормально в определенных
границах. Условное распределение может быть получено, если
рассматривать сыновей, рост отцов которых, скажем, 5 футов
и 9 дюймов (в пределах точности измерений); величины роста
этих сыновей приближенно распределены нормально. Среднее
значение этого нормального распределения отличается от
среднего роста сыновей, рост отцов которых, скажем, 5 футов
и 4 дюйма, но дисперсии обеих совокупностей равны.
Мы можем также рассматривать тройки наблюдений: рост
отца, рост старшего сына и рост второго сына. Распределение
величин роста двух сыновей при росте их отцов в 5 футов
9 дюймов является условным распределением двух случайных
величин; корреляция между величинами роста старших и
вторых сыновей характеризуется частным коэффициентом
корреляции. Закрепление роста отцов на постоянном уровне
исключает влияние наследственности отцов; однако следует
ожидать, что частный коэффициент корреляции будет
положительным, так как наследственность по материнской линии и
2 5] УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 47
факторы окружающей обстановки вызывают одинаковое
изменение роста братьев.
Как было отмечено выше, любое условное распределение,
полученное из нормального распределения, также является
нормальным со средним значением, являющимся линейной
функцией фиксированных значений случайных величин, и
постоянной ковариационной матрицей. В случае, если
распределение не подчинено нормальному закону, условное
распределение одного множества случайных величин относительно
другого обычно не обладает вышеуказанными свойствами.
Однако можно так построить распределения величин, не
являющихся нормальными, что некоторые условные
распределения будут обладать этими свойствами. Это можно сделать,
если взять за плотность распределения X произведение
rt^liiW + B^) — jt<2>), 2ii.2)/(.*<2>), где /(ЛЯ) —
произвольная плотность распределения.
2.5.2. Множественный коэффициент корреляции. Мы
опять рассмотрим вектор X, разбитый на ^A) и Х®\
Рассмотрим некоторые свойства S^S^1^2^ Поскольку мы
интересуемся только функциями от ковариации, мы можем
положить [1 = 0 (т. е. X—{1 можно заменить на X). Выберем
компоненту Х1 вектора ХA\ Тогда
где
P^tyjSS1 (9)
и ay) есть 1-я строка 212, определяемая из матрицы
Рассмотрим теперь линейную функцию случайного
вектора $Х{2\ .Поскольку ковариация между Хь — §Х{2) и Х{2)
равна
М {Xt — р*B))Х{2У = *(/) - 0222 = <J(/) — 9{iyL^22 = 0, (И)
то эти две величины независимы. Определим теперь линейную
функцию &Х®\ для которой (Xi — аХ{2)) имеет минимальную
48 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ТЛ 2
дисперсию. Так как MZ2 ¦> MZZ' для скаляра Zt то дисперсия,
в силу A1), равна
М (Xt - «ЛГ<2>J = М [(X, - №2)) + (?-•) АГB)]2 =
- М [(*, - 0ЛГ<2>) + ф - а) ЛГ<2>
+ ДГ^' ф' _ «')] = М (^
+ (Р — а) МЛГB)' (р' — «')-
Полученный в A2) результат равен
(од — аюЛй^яЛй1^*)) + О — «) S22 (P — «)'. A3)
Поскольку S22 положительно определена, то второе слагаемое
в A3) неотрицательно и достигает минимума (то есть 0),
когда « = р. Таким образом, регрессия является функцией ХB)
такой, что дисперсия (Xt — яХ®) минимальна.
Покажем теперь, что максимум корреляции между Х1 и
&Х{2) достигается при « = р. Известно, что
М (Xt - рДГB)J < М (Xi - caX{2)J A4)
для некоторых с и а. Отсюда
A5)
Таким образом,
m^ _ci mW _
Пусть теперь
Тогда A6) может быть представлено следующим образом:
Этим закончено доказательство следующей теоремы.
2.5] УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 49
Теорема 2.5.2. Пусть X распределен W({t, 2);
Vn J2), a 0 обозначает t-ю строку
21 22'
212S221(/= 1, ..., q). Из всех линейных комбинаций яХ{
линейная комбинация $Х{2) дает минимум дисперсии
Хь — %Х{2) и максимум корреляции между Хь и аЛГB).
Определение 2.5.3. Максимальное значение
корреляции между Хг и линейной комбинацией аХ{2)
называется множественным коэффициентом корреляции
между Xt и Х^2) и обозначается через Ritq+it ...,p. Из этого
определения следует
_ У *(/)S22 «(I) ^ A9)
Полезна формула
i 7J И (О 22 @ I ** I /ОЛ\
1 — /</.0_f.if ...t р — -— ~~—Ту—Г » \^Ч/
где
Поскольку
отсюда следует, что
Это, между прочим, показывает, что никакая условная
дисперсия компоненты X не может быть больше ее безусловной
дисперсии. Действительно, из формулы B3) видно, что с
увеличением /?;.0+i, ..., р уменьшается условная дисперсия.
2.5.3. Некоторые формулы для частных коэффициентов
корреляции. Рассмотрим теперь отношения между
несколькими условными распределениями, полученными фиксированием
нескольких различных множеств случайных величин. Эти
отношения полезны, поскольку они позволяют определить одно
50
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ГГЛ. 2
множество параметров условного распределения по другому.
Частным случаем является
B4)
это следует из G), когда р = 3 и q = 2. Получим теперь
обобщение этого результата. Вывод довольно скучный, но
он дается здесь для полноты изложения.
Пусть
B5)
/C)
где Х{} состоит из pv Х{' из /?2, а Хк%" из р3 компонент.
Доп/стим, что нам задано условное распределение ЛA) и А"B)
при данном А*3) = л:C); как найти условное распределение >?A)
при данных Х{2) = х{2) и ДГC) = л;C). Нам известно, что
условное среднее значение и ковариация
Н2)
будут
id)
-11<3)), B6)
J13
j-i
221.
'2ЬЗ
. B7)
2.5] УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ 51
Подобным же образом
B8)
Выразим теперь B8) и B9) в обозначениях B6) и B7).
Будем рассматривать распределение ( B) ) при данном
как многомерное нор!мальное распределение. Мы знаем, что
М(*A)|*W. ^<3))=М(Xw\x{3))+Zl2.3^.3[*<2)-М(Xi2)\*<3))]=
+ (S12 - S^Sj (S22 - ЗиЗй'ИзаГ1 X
X^-^-SaZi1^-^] C0)
= (Sn — 2132зз S31) —
— (Si2 — S13S33 S32X2I22 — 223S33 2зг) (S21 — 223S33 231). C1)
Известно, что формулы B8) и C0), а также формулы B9)
и C1) являются одними и теми же. Это можно проверить
также алгебраически.
В частности, при pl = qt P2=1 и Рз = Р~Я—^ мы
получим
g/, 0+1-0+2, ..., jpqy,0+l-g-f2, ..., p . . 1 QO
—- p^ . /.7 = 1 •?. C2)
Поскольку
°ii.a + \ о == <3ii-a+2 o( P/. a+bff+2 »)' ("")
52 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. S
мы получим
р
C4)
Это полезная формула для последовательного определения
{Р*/-рЬ {Р/7-Р-1,рЬ •••• Р12-3, ...,/? ПО [ptj].
2.6. Характеристическая функция; моменты
2.6.1 • Характеристическая функция. Характеристическая
функция многомерного нормального распределения имеет вид,
подобный плотности распределения вероятности. Моменты и
семиинварианты легко вычисляются по характеристической
функции.
Определение 2.6.1. Характеристическая функция
случайного вектора X определена для каждого
действительного вектора t*
Для разъяснения этого определения следует сперва дать
представление о математическом ожидании комплексной
функции случайного вектора.
Определение 2,6.2. Пусть комплексная функция
g(x) записана в виде g(x) = gl(x)-+ig2(x), где gx(x)
и g2(x)— действительные функции. Тогда
математическое ожидание g(X) равно
Mg (X) = Mgl (X) + Mg2 (X). B)
В частности,
Mewx _ м cos fX+ Ш sin t'X. C)
Для оценки характеристической функции вектора X часто
бывает удобно применить следующую лемму:
Лемма 2.6.1. Пусть X' = (*A)'АгB)'). Если Х{1) и Х{2)
независимы и
Mg (ЛГ) = MffA) {X(l)) mg{2) (Xi2)). D)
2.6] ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ; МОМЕНТЫ 53
Доказательство. Если g(x) вещественна и Xимеет
плотность распределения, то
со оо
f ... Jg(x)f(x)dxt ... dxp =
— оо —со
оо оо
—оо —оо
оо оо
— 00 —ОО
00 ОО
X /... fg
= М^1)(АГA))М^2)(АГB>). E)
Если g(x) комплексна, то
[ ]. F)
Тогда
Mg (X) = M Ы1» (A-A>) ^|2> (A^) - rf> (A-A>) ^2> (A"'2»)] +
^2) (AT*2') + rf> (X") gf (A-<2>)] =
) (ATB)) - Mg? (Xw) Mg? (X<2>)+
' (АГB))] =
(А-<2'). G)
Если применить лемму 2.6.1 к g(x) = elt'x, то получится
Лемма 2.6.2. Если компоненты X независимо
распределены, то
П"* (8)
Найдем теперь характеристическую функцию нормально
распределенного случайного вектора.
54 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ.2
Теорема 2.6.1. Характеристическая функция
вектора X, распределенного N(ji, 2), равна
Ч(й = Ме1*'х = е''*~*гЧ* (9)
для любого действительного вектора t.
Доказательство. Из следствия 4 приложения 1 нам
известно, что существует невырожденная матрица С, для
которой
C/SC=/. A0)
Тогда
2Г1 = С'~1С~1 = (СС7)*. A1)
Пусть
X— р = СУ. A2)
Тогда У распределен N@, /).
Характеристическая функция Y равна
W (и) = Meiu'Y = Д МЛКЛ A3)
Поскольку Yj распределена N@, 1), то
Таким образом,
ибо //С=й/; третье равенство легко проверить, если
написать обе части этого равенства в интегральной форме.
Согласно A1), получим
что доказывает теорему.
Характеристическая функция нормального распределения
очень полезна. Ясно, что мы можем применить указанный
метод доказательства для получения результатов § 2.4. Если
2.61 ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ; МОМЕНТЫ 55
Z — DX, то характеристическая функция Z есть
Же1*'2 = MeitDX = Же1 W х =
что является характеристической функцией N(D]f.9
(согласно теореме 2.6.3).
Интересно использовать характеристическую функцию для
того, чтобы показать, что только для многомерного
нормального распределения любая линейная комбинация
случайных величин распределена нормально. Рассмотрим. /?-мерный
вектор У с плотностью распределения вероятностей f (у) и
характеристической функцией
= J... f eittfyf(y)dyl...dyp A8)
и допустим, что среднее значение У есть {1 и
ковариационная матрица есть 2. Допустим также, что величина и'У
нормально распределена для каждого а. Тогда
характеристическая функция такой линейной комбинации будет
П}сть теперь /=1. Поскольку правая часть A9) является
характеристической функцией N(ji, 2), то доказательство
завершено (см. теорему 2.6.3).
Теорема 2.6.2. Если всякая линейная комбинация
компонент вектора У распределена нормально, то У
также распределен нормально.
Можно было бы мимоходом заметить, что для
справедливости теоремы 2.6.2 существенно, чтобы всякая линейная
комбинация была распределена нормально. Например, если
Yf = (Yv K2) и Kj и К2 не являются независимыми, то
каждая из Yx и К2 может иметь частное нормальное
распределение, а распределение У может не быть нормальным. Легче
всего это проиллюстрировать на геометрическом примере.
Пусть совместное распределение Xv X2 нормально со
средним значением, равным нулю. Переместим ту же массу
56
МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
(ГЛ.2
в границах рис. 1 от прямоугольника Л к С и от В к D.
Мы увидим, что результирующее распределение Y таково,
что частные распределения Ух и К2 такие же, как \\ частные
распределения соответственно Хх и Xv которые являются
нормальными, и тем не менее совместное распределение Ух
и К2 не нормально.
Этот пример может быть использован также для
доказательства того, что две величины Ух и У2 могут быть
некоррелированными, и частное распределение
каждой из них может быть
нормально, но совместное распределение Ух
и К2 не обязательно нормально и эти
величины не обязательно независимы.
Чтобы показать это, надо выбрать
прямоугольники так, чтобы для
результирующего распределения
математическое ожидание У\У<^ было
равно нулю. Геометрически ясно,
что это может быть сделано.
Для будущего мы установим
две полезные теоремы, относящиеся
к характеристическим функциям.
Теорема 2.6.3. Если случайный вектор X имеет
плотность распределения вероятностей f (х) и
характеристическую функцию <p(f), то
6
и
с
А
Рис. 1.
i .. • dtp. B0)
Отсюда видно, что характеристическая функция однозначно
определяет плотность распределения вероятностей. Если же
плотность вероятности для X не существует, то
характеристическая функция однозначно определяет распределение
вероятности для любого «интервала непрерывности». В
одномерном случае интервал непрерывности — это интервал,
в котором функция распределения не имеет разрывов на
концах.
Теорема 2.6.4. Пусть {Fj(x)}—последовательность
функций распределения, а {сру(О}—последовательность
соответствующих характеристических функций. И
2.6] ХАРАКТЕРИСТИЧЕСКАЯ ФУНКЦИЯ; МОМЕНТЫ 57
ходимым и достаточным условием сходимости Fj(X)
к функции распределения F (х) является сходимость
9j (О К ?(Ю для каждого t, где cp(f) непрерывна при /==0.
Если это условие соблюдается, то предел ср(/) есть
характеристическая функция для предельного
распределения F(x).
С доказательством этих двух теорем читатель может
ознакомиться по книге Крамера [2], §§ 10.6, 10.7.
2.6.2. Моменты и семиинварианты. Моменты величин
Хх Хр с совместным нормальным распределением могут
быть получены из характеристической функции (9). Среднее
значение равно
t-o
Второй момент есть
(fSe* ¦+¦
к J
Таким образом,
D (Л',) = М (Xt — ftJ = au, B3)
Со(Xi> Xj) = М(Xi — ft)(X, — |а,) = в},. B4)
Любой третий центральный момент равен
М (Xt — ft) (Xj — [Ху) (Хк — р-л) = 0. B5)
Четвертый центральный момент равен
М (Х1 \Xt) (Xj \bj) (Xk |X^) (Xt ft) =
= °ijakl + °ik°jl + ail°Jk- B^)
Определение 2.6.З. Если все моменты
распределения существуют, то семиинварианты равны
коэффициентам k в разложении
оо
'« sp-°
58 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ ГГЛ. 2
В случае многомерного нормального распределения
^10...0 = ^1» • • •» &0... 01 =1^» ^20... 0 = ^11, .... &0...02 =
==0/?/>' *И0...0 = в12,...
Семиинварианты, для которых 2 si У> 2, обращаются в нуль.
ЛИТЕРАТУРА
§ 2.2. Кен да л л [3], стр. 19—22, 79—81, 104—105;
Колмогоров [1]; Крамер [2], стр. 260—270, 291—297; М у д [2], стр. 74—86,
102—103; У и л к с [10], стр. 5—40.
§ 2.3. Дэвид [3J; К е н д а л л [2], [3], стр. 22, 79—80, 89,
133—134, 376—378; Кэдуел [1]; Муд [2], стр. 165—170, 176—180;
К. Пирсон [6], [7]; Плакетт [2]; Пойа [1]; Уилкс [10],
стр. 59—68.
§ 2.4. Крамер [2], стр. 312—313; Муд [2], стр. 181; Уилкс
[10], стр. 68—71.
§ 2.5. Кендал л [3], стр. 334—335; 368—376, 380—381;
Крамер [2], стр. 305—308, 314—316; Муд [2], стр. 181—184; К.
Пирсон [1]; Уилкс [10], стр. 40—46; 71;'Юл [1], [2].
§ 2.6. К е н д а л л [3], стр. 79—80; Крамер [2], стр. 100—103,
310-311, 376—378; Кук [1], [2]; Муд [2], стр. 184—186.
Ко всей главе 2. Бирнбаум [1]; Вашвани [1]; Гне-
денко [1]; Джонсон [1]; Камат [1]; Кане а до [1]; Мак-
Фадден [1]; Моран [2]; Набейя [1]; Оберг [1]; Скито-
вич[1]; Филлер, Льюис и Пирсон [1].
ЗАДАЧИ
1. (§ 2.2) Пусть /(*, у) = 1 при 0 < х < 1; 0 < у < 1,
f(x, y) = 0 в остальных случаях.
Определить:
(a) F(x,y),
F)F(x)t
(в) /<*),
(г)/(*1у),
(д) MXnYm.
(Замечание, г (*о\Уо) = 0, если f(x0, yQ) = 0.)
(е) доказать, что X и Y независимы.
2. (§ 2.2) Пусть /(х, у) = 2 при 0<у<л:<1, /(*, у) = 0
в остальных случаях. Определить;
(а) F(x,y)9
(б) F(x),
(в) /(*),
(г) G (у),
(д) g(y),
(е) /0*1H,
(ж) f(y\x),
(з) MXnYm,
(и) независимы ли X и К?
ЗАДАЧИ 59
3. (§ 2.3) Начертите эллипсы f(x, у) = 0,06, где f(x, у) является
двумерной нормальной плотностью распределения для следующих
значений:
(а) ^=1, (ху = 2, 4=1, ау = 1, ?ху = 0.
(б) (х = 0, I*-*. = 0, ох = 1, Оу = 1, р^.у = 0.
' 9 9 г\
(г) рх = 0, fiy == 0, с2х =1, а^ == 1, ?ху == 0,8.
(д) ^ = 0, м-у = 0, 4 = 4, ау = 1, Рдгу = 0,8.
4. (§ 2.3) Определить Ъ и А так, чтобы следующие плотности
распределения могли быть записаны в виде B3). Определить
также рх, {ху, <sxt ay и ?ху.
1
(г) ^ ехр [-1 B*2 + у^ + 2^у - 22х - 14у + 65)].
5. (§ 2.3) Какие плотности распределения в задаче 4
определяют распределения, в которых X и Y независимы?
6. (§ 2.3) Для каждой матрицы А в задаче 4 найти С так,
чтобы С АС = /.
7. (§ 2.3) Пусть & = 0,
п з
(а) Написать плотность распределения B3).
(б) Найти S.
8. (§ 2.4) (а) Написать частную плотность распределения X для
каждого случая задачи 3.
(б) Указать частное распределение X в каждом из случаев
задачи 4, применяя обозначение N(a, b).
(в) Напишите частную плотность распределения Х{ и Х2 в
задаче 7.
9. (§ 2.4) Каков закон распределений Z = X—Y, где
совместные плотности распределения X и Y даны в задаче 3?
10. (§ 2.4) Каков закон распределения Х] -)- 2Х2 — ЗХ3, где
плотности распределения Хь Х2, Х3 даны в задаче 7?
П.-(§2.4) Пусть X'i независимы и одинаково распределены
с законом распределения N(p, a2).
60 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ. 2
(а) Каково совместное распределение Х=\ • I? Найти сред-
\х„/
нее значение и ковариационную матрицу вектора X,
(б) Применяя теорему 2.4.4, найти частное распределение
4
12. (§ 2.4) Пусть Xt независимы и распределены N(?4* Т-2^2)»
где zi — данное число (i = 1, ..., N) и 2 zt = 0.
(а) Найти совместное распределение
(б) Найти совместное распределение X и g =» TJ •*/*//
_ ') независимы и одинаково распределены
Yi/
с законом распределения
/ = 1, 2, 3.
»[(:)¦
(а) Найти совместное распределение шести случайных величин.
(б) Найти совместное распределение ( _ )•
ч* /
14. (§ 2.4) Пусть .Y имеет (вырожденное) нормальное
распределение со средним значением, равным 0, и ковариационной
матрицей
¦¦< :
(а) Доказать, что ранг S равен 1.
(б) Найти матрицу А такую, что Х=АУ и К имеет
невырожденное нормальное распределение, и указать плотность
распределения У.
15. (§ 2.4) Пусть
,2-1 Зх
2= — 1 5 —3 .
V 3 —3 5/
(а) Найти вектор а Ф 0, такой, что 1а = 0. [Указание.
Взять алгебраические дополнения каждого столбца.]
ЗАДАЧИ 61
(б) Показать, что любая матрица вида (? = (# «), где
//—матрица порядка CX2), обладает свойством
«•-(Г Э-
(в) Применяя (а) и (б), определить В, чтобы удовлетворить C4).
(г) Найти /Г*1 и ее расчленение согласно C7).
(д) Проверить, что СС = 2.
16. (§ 2.5) Для каждого из условий задачи 3 определить
условное распределение X при данном У = у, условное распределение У
при данном X = х и нанести линию регрессии на соответствующий
чертеж в задаче 3.
17. (§ 2.5) Пусть у. = 0 и
/ 1,0
; = I 0,80
\—0,40 -~О,5б
(а) Определить условное распределение Х{ и Xs при данном
(
(б) Какова частная корреляция между Хх и Хъ при данном Х2?
18. (§ 2.5) Пусть Л^Е" и 2, разбиты одинаковым образом:
/Ац А\2\
\Л21 Л 22/'
Принимая во внимание, что Л2 = /, доказать
(а)
19. (§ 2.5) В условиях задачи 7 найти условное
распределение Хх и Х2 при данном А'з = хг.
20. (§ 2.5) Проверить равенство B4) § 2.5 непосредственно по
теореме 2.5.1.
21. (§ 2.5) (а) Показать, что определение «, дающего максимум
корреляции между Хь и лХ^2\ эквивалентно нахождению максимума
(з^а'J, если а222а' постоянно.
(б) Определить а, находя максимум (ещя'J — ^(aS^a7 — с),
где с — постоянная, а А. — множитель Лагранжа.
22. (§ 2.5) Доказать, что Rt.g+ittmtt p инвариантен относительно
линейного преобразования компонент X (т. е. если Xj заменить cjXj,
то /?/.^+it... p не изменится).
23. (§ 2jJ) Доказать, что
62 МНОГОМЕРНОЕ НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ [ГЛ 2
24. (§ 2.5) Доказать, что Я/^+i,..., р инвариантен относительно
линейного преобразования Х^2) (т. е. если Х^ заменить на #XB),
где Н не вырождена, то Ri.q+\t .., р не изменится).
25. (§ 2.5) Определить множественный коэффициент корреляции
между Х{ и (Х2 Хг) в задаче 17.
26. (§ 2.5) Доказать подробно, что если 2 положительно
определена, то
27» (§ 2.5) Доказать, что
[Указание. Используя задачу 26, доказать, что | 2 | < an 12221,
где 222— матрица порядка (р— 1) X (р—1), и применить метод
индукции.]
23. (§ 2.5) Доказать, что р12<3 = ^2.з/а22-з и Pi3-2 = а1з.2/азз-2 •
29. (§ 2.3) Пусть ковариационная матрица двумерного вектора X
имеет вид D8) §2.3. Пусть К/ = —,/ = 1, 2. Доказать, что
i
(j — Y2) = 2A — р). Почему это наводит на мысль, что р является
мерой связи между Хх и Х2">
30. (§ 2.3) Доказать, что главные оси эллипсов E2) § 2.3 всегда
наклонены под углами 45° и 135° к оси х, а их длины равны
2 Ус A + р) и 2 У^с A —р) соответственно, с помощью
преобразования согласно ух =(zl-\- z2)!V % Уг — {г\ — ^г)/^.
31. (§ 2.3) Доказать, что р12 является инвариантной
характеристикой двумерного нормального распределения N(p, 2) по
отношению к преобразованиям xt = btxt -\~ ct (i = 1, 2) (pt > 0) и является
единственной инвариантной функцией параметров.
32. (§ 2.5) Пусть двумерный вектор Ха распределен N@, 2),
о = 1, 2. Каковы условные распределения XUi Xl2, Х2и ХЧ2, если
33. (§ 2.3) Предположим, что скалярные случайные величины
Xh ..., ^я независимы и их совместная плотность распределения
является функцией только х\ + ... + х\. Доказать, что X
распределены нормально со средним значением нуль и одной и той же
дисперсией. Укажите самые слабые условия, накладываемые на
плотность, для того чтобы можно было провести доказательство.
34. (§ 2.5) Пусть плотность распределения (Хь Х2) будет
п(х 10, 2) =/(лг1э х2). Пусть далее плотность распределения Х2
при данном Хх~хх будет f(x2\xx) и совместная плотность Хь
%2> Х3 будет f(xu Ar2)/(x3|^i). Найти ковариационную матрицу
для Xlt X2, Х-ъ и частный коэффициент корреляции между Х2 и Xz
при фиксированном Х{.
ЗАДАЧИ 63
35. (§ 2.5) Докажите, что 1 — Я.\.2Ъ = (l — p?2)(l — р^.г)- ly K а*
з а н и е. Используйте то, что дисперсия Хх в условном
распределении при фиксированных х2 и х3 равна A — ^1.2з)сп]
36. (§ 2.3) Показать, что если Р {ЛГ>0, К>0} =а для
распределения
fo>
то р = cos A — 2а) те.
37. (§ 2.6) Пусть У распределен ЛГ(О, 2). Дифференцируя
характеристические функции, проверьте B5) и B6).
38. (§ 2.3) Доказать, что если р^ = р {! Ф J\ U j = 1, ...,/>)>
то р> —/(/)
39. (§ 2.5) Доказать, что при / = 1
P/y^+i y-i, y+i,...,/>e
= а/;^+1,..., У-1. У + 1 plQ)j-q+h..., У-1, У+1,..., Р-
[Указание. Докажите это для случая j = ^ + 1, рассматривая C0)
при /?! =q, р2= 1, /?з=/? — ^— 1.]
40. (§ 2.5) Если /? = 2, то может ли быть различие между
простой корреляцией между Хх и Х2 и множественной корреляцией
между Хх и *B) = Х27
41. (§ 2.4) Доказать, что если совместное (частное)
распределение Х{ и Х2 несобственное (т. е. вырожденное), то совместное
распределение Хь Х2 и Х3 также несобственное.
42. (§ 2.5) Привести необходимое и достаточное условие для
?/.*+! ртОв терминах */, ^ ..., <v
43. (§ 2.2) Пусть /(*, у)==С для x2 + y2^k2 и 0 в других
случаях. Доказать, что С = -^ , МАГ = МК = 0, MX* = МГ2 = Л2/4
и МЛТ = 0. Являются ли X и У независимыми?
44. (§ 2.3) Пусть плотность /7-мерного вектора У равна
() ]2 дляУ.у</> + 2 и 0 в остальных
случаях. Тогда МК== 0 и МУТ' = /. Из этого результата доказать, что
если для А'плотность равна g(x) = V\ A | li-^ p-\- l)/[(p + 2)%]2
при (jc— [i)' Л (л: — 1а)</? + 2 и 0 в остальных случаях, то JVUf= ц
1
и ^i)^[)
45. (§ 2.2) Пусть /^(лть ^2) — совместная функция
распределения Хь Х2, и пусть Ft (xt) — частная функция распределения Х{
(/ = 1, 2). Доказать, что если F{ (xj) (i = 1, 2) непрерывна, то
F {xit x2) также непрерывна.
ГЛАВА 3
ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ
И КОВАРИАЦИОННОЙ МАТРИЦЫ
3.1. Введение
Нормальное распределение полностью определяется
вектором [1 среднего значения и ковариационной матрицей 2.
Первой статистической проблемой является вопрос о том,
как оценить эти параметры по результатам выборки. В § 3.2
показано, что оценкой наибольшего правдоподобия для ft
является выборочное среднее, оценка наибольшего
правдоподобия для 2 пропорциональна матрице, состоящей из
выборочных дисперсий и ковариаций. Выборочная дисперсия
равна сумме квадратов отклонений наблюденных значений
от выборочного среднего, деленной на число наблюдений
без единицы; выборочная ковариация определяется подобным
же образом по результатам взаимных произведений
соответствующих отклонений. Выборочная ковариационная матрица
является несмещенной оценкой 2.
Распределение вектора выборочного среднего дано в § 3.3,
и показано, как может быть проверена гипотеза, что {л
является данным вектором, если 2 известна. Случай, когда 2
неизвестна, будет рассмотрен в главе 5.
3.2. Оценки наибольшего правдоподобия
для вектора среднего значения
и ковариационной матрицы
Пусть дана выборка наблюдений (вектор) над /^-мерным
(невырожденным) нормальным распределением, и нас
интересуют оценки вектора {1 среднего значения и ковариационной
матрицы 2 этого распределения. Мы выведем оценки
наибольшего правдоподобия.
3.2]
ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ
65
Оказывается, что метод наибольшего правдоподобия очень
полезен для различных оценок и проблем проверки гипотез,
относящихся к многомерным нормальным распределениям.
Оценки, полученные по методу наибольшего правдоподобия,
или их модификации обычно обладают некоторыми
оптимальными свойствами. В частном случае, изучаемом здесь, оценки
асимптотически эффективны (Крамер [2], § 33.3>.
Допустим, что выборка из N наблюдений над JY,
распределенным W(ji, 2), есть xv .... xN, где N> рщ Функция
правдоподобия будет равна
N
L = •
-ехр —-у
1
Поскольку показатель записан в терминах 2~\ определим
сперва оценки наибольшего правдоподобия для ji и 2 —№.
В функции правдоподобия векторы xv ..., XN фиксированы
как значения выборки и L является функцией ji и \р# Чтобы
подчеркнуть, что величины ji и ЧГ являются переменными
(а не параметрами), мы обозначим их через ji* и *р*# Тогда
логарифм функции правдоподобия будет равен
— Ю- B)
N
а-1
Поскольку In L является возрастающей функцией it T0 ее
максимум находится в той же точке пространства it*, ЧГ*,
что и максимум L.
Пусть выборочное среднее равно
N
1 ЧЧ
N
C)
3 Т. Андерсон
66 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ (ГЛ 3
и матрица сумм квадратов и попарных произведений
отклонений величин от среднего значения равна
v - Tv - 1
«-1 а а L«~i l* Ja j J
i, 7 = 1, .... P.
Будет удобно воспользоваться следующей леммой.
Лемма 3.2.1. Пусть xv ..., xN представляют со-
бой N (р-мерных) векторов и х определен равенством C).
Тогда для любого вектора Ь
N N _ _ _ _
2 (*«*-"*) (ха—Ь)' = 2 (ха—х) (ха—х)' -\-N(x—b) {х —ft/.
E)
Доказательство.
N
2(*«—»)(*.-*У =
TV
= 2 К*. — х) + (* — 6I К*. — *) 4- (*- 6I' =
1
-ft/ +
-h (x — ft) (xa — xY + E- ft) (i-ft/J ==
N ^. [ N I
a-1 * a [«-I * J
_ TV _ __ _
+ (* ft) 2 («*« */ + ^(* *) (* ft/' ' 6)
Второй и третий члены равны нулю, так как 2С*в—х)=з
== 2 -^а — ^^ "^ ® согласно C). Теорема доказана.
Если мы предположим, что ft = [л*, то получим
yv л __
a«l a a а=1
-j- N(x — ja*) (Jt — {i*/ = Д + iV(i — ft*) (S — [i% G)
3.2] ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ 67
Используя этот результат и свойства следа матрицы
(sp CD = 2 cifiji = SP Dd)t получим
= SP 2 (Xa - {I*)' W* (*. - {!*) =
a = l
= SP 2 ^* (*. - Ю (-«a - Ю' =
l
= sp VM + sp WW (* — p.*
= sp ЧР*Д -+- /V (x — pi*O W* (i — ji*). (8)
Тогда мы можем записать B) следующим образом:
18
[I*)' W* (J— {i*). (9)
Поскольку матрица W* неотрицательно определена, то
М(л; — ji*/ ЧГ*(л — [*•*)> 0 и равна нулю, когда {Ь* = л;. Для
определения максимума второго и третьего членов (9) при»
меним следующую лемму (которая применяется также в
последующих главах).
Лемма 3.2.2. Пусть
р
12 A0)
где C—(ctj) является неотрицательно определенной
и D = {йф положительно определена. Тогда максимум
/(С) получается при C—ND~~l и равен
f(NDfl=±pN\nN-±N\n\D\—±pN. A1)
Доказательство. Заметим, что /(С)->—оо,
если |С|->0 или если один или несколько элементов С все
я*
68 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ [ГЛ 3
стремятся к оо или —оо (недиагональные элементыI).
Максимумы /(С) находят, приравнивая нулю производные /(С)
по элементам С. Применив теорему 7 приложения 1, получим
df 1 N д\С\ 1 . 1*, Скк 1
где CfeJfe обозначает алгебраическое дополнение с^ в С.
Для &=?/
так как ckl = clk. Приравняв 2df/dckk и df/dckl нулю и учтя,
что СН1\С\ является элементом /-й строки ^-го столбца С,
получим NC"*1==Z>. Отсюда C=ND~X. Значение
максимума равно
) = - ЛПп | ND~* | — I sp Л//)/) =
)| —1% A4)
Применив эту лемму к (9), где последний член равен
нулю, обнаружим, что максимум достигается при
Мы предположим, что А невырожденная; в главе 7 мы
увидим, что вероятность получения выборки (N > р), когда А
вырожденная, равна нулю. Таким образом, Д""*1 существует
*) Пусть D = ЕЕ', С = Е'""^ Е. Тогда f jf
— ^ V с*/г поскольку sp CD = sp (E/"C*E"?'E/) = sp С*. Если
один или больше элементов С стремятся к оо или к —оо, то по
крайней мере один диагональный элемент С* стремится к оо. Но
согласно задаче 27 главы 2, | С* | < JJ с*ц. Таким образом,
1|^ 12Е
что стремится к —оо, если одно или несколько Су стремятся
к бесконечности.
3.2] ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ 69
и W* положительно определена. Поэтому [1* = л: является
единственным значением р,*, которое обращает последний
член (9) в нуль. Таким образом, оценками наибольшего
правдоподобия для pf служат р = х и 4? = NA~l.
Для нахождения оценки наибольшего правдоподобия для 2
нам понадобится следующая лемма.
Лемма 3.2.3. Пусть /(б) — вещественная функция,
определенная на некотором множестве S, и <р —
однозначная функция, имеющая однозначную обратную
функцию, определенная на S со значениями на некотором
другом множестве S*\ т. е. каждому 9 ? S
соответствует единственное b*?S* ut обратно, каждому 9*?S*
соответствует единственное 6 ? 5.
Пусть
6 i(9*)]. A6)
Тогда, если /(б) достигает максимума при 9 = 9О, то
g(b*) достигает максимума при б = 9о = ср(9о). Если
максимум /(9) при 9 = 9О является единственным, то
максимум g(b*) при 9 = 90 также будет единственным.
Доказательство. По предположению,
A7)
для всех 9 ? 5. Тогда для любого 9* ? «S*
№ A8)
Таким образом, g(b*) достигает максимума при 9q. Если
максимум /(9) при 90 является единственным, то при ®Ф&0
неравенство A7) является строгим, и максимум g(b*)
единственный. Имеем следующее следствие.
Следствие 3.2.1. Если для данной выборки 9Х,.,,, Ьт
являются оценками наибольшего правдоподобия ^пара-
метров распределения Вг, ..., 9т, то ^(9^ . .., 9т), .. ,
• • • ?т (Pi ®т) являются оценками наибольшего
правдоподобия для <рх (вх, .... 8т), ... <pm(9j 9m), если
преобразование 9j, ..., вт в cpi» •••! ут является взаимно
однозначным. Если оценки Ьг, ..., дт являются
единственными, то оценки <plt .... <рт также являются
единственными.
70 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ ТГЛ 3
Из следствия видно, что оценкой наибольшего
правдоподобия для 2 является 2 =Ф —(l/N)A. Обобщим
полученные результаты в следующей теореме.
Теорема 3.2.1. Если хг XN— выборка из
/V(ji2) (p < N), то оценками наибольшего правдоподобия
для р, и 2 являются величины p = x — (l/NJjXa и
а
а
Вычисление оценок 2 проще производить с помощью
специального случая леммы 3.2.1
S (*.-*)(*.-*)' = 2 лЛ
1 1
N N
N N
Элемент 2 хаХа вычисляется, как 2 хых}а* и элемент Nxx'
f
вычисляется, как NxtXj или f 2 xu ) ( 2
Следствие 3.2.2. Яс^й хг xN образуют
выборку из iV(ji, S), где <*ij = <*i<*ftij (p«=l).. mo оценкой
наибольшего правдоподобия для {ь является {1 = дг =
= A/Л02-*а» °Ценкой наибольшего правдоподобия для <з\
является Щ = A/Л^) 2 (*,. - ^/J = (J/^) B ^а - ^) .
а _ \ а /
где хи есть i-я компонента ха и xt есть 1-я
компонента х, а оценка наибольшего правдоподобия для ptj
равна
2 <**«"" хй (•*/« "~ ХЯ
2 ¦*'«•*/« ~ N*i*i
B0)
Доказательство. Множество параметров jj./ = |x/,
==a« и Pii=oiJVoiiQjj является взаимнооднозначным
3.2]
ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ
71
преобразованием множества параметров ^ и а/;.. Поэтому,
согласно следствию 3.2.1, оценкой для \х1 является {x/s
оценкой для cj является о|7, а оценкой для р/у. является
B1)
9l, = =.
V Wjj
К. Пирсон [1] доказал справедливость этой оценки
для р/;., и B0) иногда называется коэффициентом корреляции
Пирсона. Обычно он обозначается через г,..
Рис. 2.
Удобна геометрическая интерпретация векторов выборки
(ххх2. .. xN) — X как строк матрицы X. Пусть
*-
т. е. yt является /-й строкой X, Вектор yt может
рассматриваться как вектор в TV-мерном пространстве, а-я координата
одного конца которого есть х1а и другой конец которого
расположен в начале координат. Выборка образует р
векторов в iV-мерном евклидовом пространстве. Согласно
определению евклидовой метрики, длина yt (т. е. расстояние
от одного конца до другого) есть у.у'. = 2 х\а-
Покажем теперь, что косинус угла между yi и У] равен
y^'/V У$''$)У'] '==z 2 хих -лIЛ/ 2 х<\а 2 х\* Выберем
скаляр d так, чтобы вектор dyj был ортогонален вектору
Л — dyp т. е. О = dy. (yt — dy.Y = d (y^y'i — dy .yfX Поэтому
d —y.y'./y.y' Разложим yt на yt — dyj и dyj {yt = (yi—dyj)-\-
ij), как показано на рис. 2. Ясно, что косинус угла
72
ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ
[ГЛ. 3
между yt и yj есть отношение длины dyj к длине yi% т. е.
он равен
Это доказывает желаемый результат.
Для того чтобы дать геометрическую интерпретацию ап
и a>ijlVaiiajp мы рассмотрим линию, образующую равные
г
to,
углы с осями координат; эта линия проходит через начало
и точку A, 1, ..., 1) (рис. 3). Проекция yt на вектор
е = A, 1, ..., 1) будет
]е = xfl —
t xt).
Разложим yt на два вектора: xfl — проекцию yt на прямую,
образующую равные углы с координатными осями, и
yt — хьг — проекцию у1 на плоскость, перпендикулярную
к последней прямой. Длина у1 — хр равна
(у! — *1г) (У1—*?)' = 2 (*,.—xt)\
а
т. е. Nau-=au. Перенесем у{ — хьг и у^ — хр таким
образом, чтобы концы обоих векторов находились в начале
координат; а-я координата первого вектора будет х1а — х1%
а а-я координата второго будет xIa — Xj. Косинус угла между
3 21 ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ
этими двумя векторами равен
73
= • B3)
В качестве примера вычислений рассмотрим данные
таблицы 1, заимствованные у Стьюдента[1].
Таблица 1
Больной
1
2
3
4
5
6
7
8
9
10
Лекарство А
Т,9
0,8
1,1
од
—од
4,4
5,5 "
1,6
4,6
3,4
Лекарство В
—1,6
-0,2
—1,2
—ОД
3,4
3,7
0,8
0,0
2,0
Измерение хп = 1,9 показывает увеличение времени сна
в часах для первого больного при применении снотворного
лекарства А и л:21 = 0,7 — увеличение числа часов сна для
первого больного при применении лекарства В и т. д.
Предполагая, что каждая пара (т. е. каждая строка таблицы)
является наблюдением над Л/({1, S), мы обнаружим, что
'2,33^
B4)
0,75
3,61 2,56
2,56 2,88
4,01 2,84
2,84 3,20
и }п = г12 = 0,7952 (S будет определена ниже).
74 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ (ГЛ. 3
3.3, Распределение вектора выборочного среднего;
заключение о среднем значении,
когда ковариационная матрица известна
3.3.1. Теория распределения. В одномерном случае
выборочное среднее распределено нормально и не зависит от
выборочной дисперсии. Аналогично выборочное среднее X
определенное в § 3.2, распределено нормально и не
зависит от 2.
Чтобы доказать этот результат, мы произведем
преобразование множества векторов наблюдений. В связи с тем, что
этот вид преобразований применяется неоднократно в этой
книге, сначала докажем более общую теорему.
Теорема 3.3.1. Допустим, что Xv ..., XN
независимы, причем X^распределен N(\ia, 2). Пусть C=(cag)—
n
ортогональная матрица. Тогда Уа—2 са^Х^ распределен
C = 1
N
iV(va, 2), где va=2copjij3 и Yl% ...% Yx независимы.
C = 1
Доказательство. Совместное распределение
множества векторов {Ya} нормально, так как все множество
Компонент является множеством линейных комбинаций
компонент {Ха}, совместное распределение которых нормально.
Математическое ожидание Ya равно
МКЯ = М S с^Х9 = S сврМЛГр = 2 ca9b = v.. A)
р=1 р=1 р=1
Ковариационная матрица векторов Ya и Кт равна
e{Ya, KT0 = M(Ke-v.)(yt-vTy =
= м [ 2 са9 (х? - Рр)] [2 cv (х. - {i?)' ] =
N N
= 2 с?гм (*р - up (X. - ji,)' = 2 caPc7S8pes =
(is, e = 1 !Ь, e = 1
= 2vrtS = 5a7S, B)
1
3 3] РАСПРЕДЕЛЕНИЕ ВЕКТОРА ВЫБОРОЧНОГО СРЕДНЕГО 75
где 8ау есть символ Кронекера (8аТ = 1 при а = f и =0
при а Ф -f). Отсюда видно, что Ya не зависит от Кт и Ya
имеет ковариационную матрицу 2.
Применим также следующую общую лемму.
N
Лемма 3.3.1. Если С=(сая) ортогональна, то 2 ^а^а=
а = 1
= 2*УС где К.= 2с.Л-
а=1 р=1
Доказательство.
2 к.К=22 *.„*,, 2 ^ == 2 B «.в*
а ар у Pi Y V а
— 2 8рЛ^т= 2 х$х'$-
Пусть Хх ..., ЛГ^ независимы и одинаково распределены
с законом распределения N(pt S). Существует ортогональная
матрица В = (Ьа^) порядка Л/ХМ последняя строка
которой будет
(ЛУ D>
Это преобразование можно представить в виде поворота в
ЛЛ-мерном пространстве, при котором прямая, образующая
равные углы с осями координат, переходит в N-ю ось
координат (см. § 3.2). Пусть Л = Л/2, где 2 определена в § 3.2,
и пусть
Тогда
**=2 w
р р
Согласно лемме 3.3.1,
а = 2 *Ж - л^а' = 2 zX - zNz'N = 2 ^Х G)
а=1 а=1 а=1
Так как ZN не зависит от Zv ..., ZN_V то А' не зависит
от А. Так как
76 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ [ГЛ. 3
то ZN распределен Nd^Aty, 2) и X — {\jYn)Zn
распределен yV[{i, (l/iV)S]. Заметим, что
= 2 ft.pMJfp = 2 *вРр. = 2 Vw /fife = 0, а ф N. (9)
Теорема 3.3.2. Среднее значение выборки объема N
из генеральной совокупности N([i, 2) распределено
i, A//VJ] я #? зависит от 2, являющейся оценкой
наибольшего правдоподобия для 2. N2 распределена как
2 ^a^a» 2(?^ Z^распределен N @, 2) и не зависит от Zp (a
a = 1
Заметим, что
Таким образом, 2 является смещенной оценкой 2. Поэтому
мы определим
N
как выборочную ковариационную матрицу. Она является
несмещенной оценкой 2, ' и ее диагональные элементы
являются обычными (несмещенными) выборочными дисперсиями
компонент X.
3.3.2. Критерии и доверительные области для {г, когда 2
известна. Важными статистическими проблемами являются
проблема проверки гипотезы о том, что вектор среднего
значения нормального распределения является данным вектором, и
связанная с ней проблема определения доверительной области
для неизвестного вектора среднего значения. Мы рассмотрим
здесь эти проблемы в предположении, что ковариационная
матрица 2 известна. В главе 5 мы рассмотрим случай, когда
ковариационная матрица неизвестна.
Для одномерного случая основой для выбора критерия
или доверительного интервала служит тот факт, что разность
между средними значениями выборки и генеральной
совокупности распределена нормально с математическим
ожиданием, равным нулю, и известной дисперсией; тогда таблицы
нормального распределения могут быть использованы для
3.3] РАСПРЕДЕЛЕНИЕ ВЕКТОРА ВЫБОРОЧНОГО СРЕДНЕГО 77
точечных оценок или вычисления доверительных интервалов.
В многомерном случае будет использован тот факт, что
разность между векторами среднего значения выборки и
среднего значения генеральной совокупности распределена
нормально с вектором среднего значения, равным нулю, и
известной ковариационной матрицей. Можно установить
пределы для каждой компоненты на основании распределения,
но неудобства такой процедуры состоят в том, что сам
выбор пределов является отчасти произвольным и дает
критерии, довольно бедные в некотором отношении; больше
того, такие пределы трудно вычислять, так как таблицы
пригодны только для двумерного случая. Методы,
приведенные ниже, дают возможность простых вычислений и к тому же
могут быть подвергнуты общей интуитивной теоретической
проверке.
Эти методы основываются на следующей теореме.
Теорема 3.3.3. Если т-мерный вектор У
распределен N (О, Т) {невырожденное распределение), mo YlT~lY
имеет -/^-распределение с т степенями свободы.
Доказательство. Пусть С— невырожденная матрица,
такая, что СТС = /, и положим Z = CY. Тогда Z нормально
распределен со средним значением MZ=CMK = 0 и
ковариационной матрицей
MZZ' =* МСКК'С = СТС = 1.
Но
YT~lY = Z' {CTlrlCTlZ = Z' {СТС'Г1 Z = ZZ%
что является суммой квадратов компонент Z. Так как
компоненты Z независимы и распределены N{0, 1), то Z'Z=Y'T~lY
имеет х2-распределение с m степенями свободы (см. задачу 5
главы 7).
Так как YN{X—ц) распределен N@, S), то из
теоремы следует, что
#(*—р)'2Г1(*—ц) A2;
имеет ^-Распределение с р степенями свободы. Это важное
положение мы применим при выборе критериев и
доверительных областей для [i.
78 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ (ГЛ. 3
Пусть х2(°0 — такое число, что
Р{?4сс)}=а. A3)
Тогда
Р [N (Х- ц)' 2Г1 (Х- [1) > xl («)} = «. (Н)
Для проверки гипотезы о том, что ji = [i0, где jjl0—
определенный вектор, мы используем в качестве критической
области
N(x- (ц,)' 2-1 (х- Л)>Х2Р
Р («)•
Если мы получим выборку, удовлетворяющую A5), то
нулевая гипотеза отвергается. Интуитивно ясно, что вероятность
отбросить гипотезу больше а, если [л значительно отличается
от р0» так как в пространстве дс A5) определяет эллипс
с центром в р,0» и если V* отстоит далеко от to» T0 плотность
вероятности х сосредоточена в точке у границы или вне
эллипса. Доказательство теоремы 3.3.3 может быть
расширено, чтобы показать, что N(X—$0УИ~1(Х—[%) имеет
нецентральное ^-распределение с р степенями свободы и
параметром N(ji—[го)/ S ({Д, — to), когда X есть среднее
значение выборки объема N из совокупности N (ji, S)
(дано Р. Бозе [1], [2]). Теорему 3.3.3 первым доказал
К. Пирсон [2].
Теперь рассмотрим следующее утверждение, сделанное
на основе выборки со средним значением х: «Среднее
знамение распределения удовлетворяет условию
N(x — {**)' 2Г1 (х- {!*) <х2р W A6)
как неравенству относительно [А*». Из A4) видно, что
вероятность получения выборки, для которой указанное
утверждение правильно, равна 1—а, так как событие в A4)
эквивалентно тому, что это утверждение ложно. Таким образом,
множество JA*, удовлетворяющих A6), является определением
доверительной области для fi с доверительным уровнем 1 — а.
В р-мерном пространстве х A5) является поверхностью
и внешней частью эллипсоида с центром в to» форма
эллипсоида зависит от 2~\ а объем —от A/Л^)/^(а) при дан-
3 3] РАСПРЕДЕЛЕНИЕ ВЕКТОРА ВЫБОРОЧНОГО СРЕДНЕГО 79
ном S. В /7-мерном пространстве ji* A6) является
поверхностью и внутренней частью эллипсоида с центром в X.
Если 2! = /, то A4) говорит, что а есть вероятность того, что
расстояние между х и fi больше, чем г
Теорема 3.3.4. Если х—среднее значение выборки
объема N, взятой из совокупности N (pt 2), и 2
известна, то A5) определяет критическую область вероят-
t ности а для проверки гипотезы ji = ji0 и A6) дат до-
верительную область для [л с доверительным уровнем
1—а. х«(а) выбирается так, чтобы удовлетворить A3).
Такая же техника может быть использована для
соответствующих проблем в случае • двух выборок. Предположим,
что у нас имеется выборка Ы1Н(а=1, ..., Nx) из
совокупности, распределенной Л/"([аA), S), и выборка {л42)}
(а = 1, .. ., N2) из другой нормальной совокупности N (р/2), S)
с той же ковариационной матрицей. Тогда оба выборочных
средних
A7)
а = 1
независимы и распределены M[^l\ A/A/X)S] и N[p&\ A//V2J]
соответственно. Разность двух выборочных средних у —
= Х{1)—ХB) распределена N {v, [A/Л^1) + A/УУ2)] S}, где
v = {iA) — jiB\ Таким образом,
^'c) A8)
является доверительной областью для разности v двух
векторов средних значений, а критическая область для
проверки гипотезы pW = [i/2) дана неравенством
80 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ [ГЛ. 3
Махаланобис [1] предложил рассматривать
как меру расстояния между двумя совокупностями.
3.3.3. Достаточные статистики для |i и! Было
показано, что
— v.Y = A + N(x — (ОС* —|*У. B0)
а
2 <*. - {!)' S (*. - р.) = sp B"'Д) + Л^(ж—ц)' S (*-ц).
B1)
Таким образом, совместная плотность Xv .... А"^ может
быть записана следующим образом:
=К,ехр [- jN(x - ц)' S (х- {I)] АГ2ехр[— I sp (S'
B2)
Таким образом, х и (l/N)A образуют достаточные
статистики для {t и S. Если 2 известна, то X является
достаточной статистикой для р,. Однако если известен ji, то (l/N)A
не является достаточной статистикой для 2, но
0/ЛО 2 (*.-10 (*.-*/
является достаточной статистикой для S. Напомним, что *
является достаточной статистикой для в, если
N
XI / (*в; в) = * (ft в) ^ (ж1в ..., *я). B3)
1
где /(лга; в) есть плотность вероятности для а-го
наблюдения; g(t; 6) — плотность распределения / и h(xv ..., хп)
не зависит от 6 (Крамер [2]).
Если среднее значение ^-мерного случайного вектора Y
равно MK = v и его ковариационная матрица равна
К — v)(K— vy = iP, то
B4)
ЗАДАЧИ 81
называется эллипсоидом рассеяния для Y (см. Крамер [2]).
Плотность вероятности, определяемая равномерным
распределением в внутренней части этого эллипсоида, имеет тот же
вектор среднего значения и ту же ковариационную матрицу,
что и Y (см. задачу 44 главы 2). Пусть в — вектор,
состоящий из q параметров распределения, и пусть /—вектор
несмещенных оценок (т. е. М/ = б), полученный по N
наблюдениям над этим распределением с ковариационной матрицей ЧГ.
Тогда эллипсоид
(^)(^)' B5)
целиком лежит внутри эллипсоида рассеяния t\ d\nf/db
обозначает вектор-столбец производных плотности
вероятности (или вероятностной функции) по компонентам б.
В работе Крамера [2] рассуждение проводится для скаляра
наблюдений, но ясно, что оно справедливо и для вектора
наблюдений. Если B5) есть эллипсоид рассеяния для /, то
/называется эффективным. В общем случае отношение объема B5)
к объему эллипсоида рассеяния определяется как
эффективность /. В случае многомерного нормального распределения,
если 6 = р» — вектору среднего значения, то х эффективен.
Если 6 включает и р, и 2, то эффективность х и 5 будет
ЛИТЕРАТУРА
§3.2. В ото, Рэфферти и Д^имер [Ц;_Дв?йер [1]; Деш
[3]
ер
[3],
Рай [1], [2]; Кендалл [3], стр. 329—334, 337—339; Крамер [21;
Муд [2], стр. 186—188; К. Пирсон [1]; Стьюдент [1];
Фишер [101; Фретс [11; Хотеллинг [71; Хьюз [11; Чоун и
Морэн [1]; Эйткен [3]; Юл [2], [3].
§ 3.3. Р. Бозе [1], [2]; С. К. Бозе [1], [2]; Даш [1];
Крамер Р];,лМаЛалано^ [2], [4], [5];
Р_а"
Уилксл'[2], [10]~'стр. 100—101/103—105, 120—^121. *
ЗАДАЧИ
1. (§ 3.2) Определить ц, 2 и (р/;) для данных табл. 2,
заимствованной из работы Ф р е т с а [1].
2. (§ 3.2) Проверить численные результаты B4).
3. (§ 3.2) Вычислить a, S, S, р для следующих пар наблюдений:
C4,55), A2,29), C3,75), D4,89), (89,62), E9,69), E0,41), (88,67).
82
ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ
[ГЛ. 3
4. (§ 3.2) Доказать лемму 3.2.2, используя тот факт, что |С*|:
1, где А.,, ..., L,—
=11^ sp С =2 */ и С* =* /, если А,
характеристические корни Сг. [Указание. Используйте /,
приведенную в подстрочном примечании к доказательству леммы 3.2.2.]
Таблица 2
Длина головы
первого сына
*\
191
195
181
183
176
208
189
197
188
192
179
183
174
190
188
163
195
186
181
175
192
174
176
197
190
Ширина головы
первого сына
155
*149
148
153
144
157
150
159
152
150
158
147
150
159
151
137
155
153
145
140
154
143
139
167
163
Длина головы
второго сына
179
201
185
188
171
192
190
189
197
187
186
174
185
195
187
161
183
173
182
165
185
178
176
200
187
Ширина головы
второго сына
145
152
149
149
142
152
149
152
159
151
148
147
152
157
158
130
158
148
146
137
152
147
143
158
150
5. (§ 3.2) Доказать, что ру инвариантен относительно выбора
начала координат и масштаба (т. е. доказать, что ^tJ =?*у, где р*;.
вычисляется на основании того, что
= cix
ixla
с c
> 0).
6. (§ 3.3) Пусть Хл распределен N(rca, 2), а = 1, ..., N, где
са — скаляр. Показать, что распределение g = (V2 с«) 2с«^а
есть N [7 A/2$) 4 Показать, что Е - 2 <*« - ^с«) <*.'- **«>'
ЗАДАЧИ 8с
распределена как 2 Za.Z*> гДе Za независимы и одинаково распре-
а = 1
делены с законом распределения N (О, 2). [Указание. Пусть Za =
= 2&apKp, где 6дф = Cp/V2 са» и матРиДа Д ортогональна.]
7. (§ 3.3) Пусть m-мерный вектор У распределен Af(v, Г). До-
т
казать, что Y'T~lУ распределена как 2 z%r^eZi—независимые
/ = 1
нормально распределенные величины с дисперсией, равной единице,
и MZ, = У'у'Г-Ч, MZ/ = 0, / > 1.
8. (§ 3.3) Доказать, что мощность критерия в A9) является
функцией только р и MAy^+A^jGiW-- [i^/S" (ijlA) — iaB))-
9. (§ 3.2) Пусть ati—вес тела кошки (в килограммах), а х2 —
вес сердца (в граммах). (Данные заимствованы у Фишера [10].)
а) В выборке из 47 кошек
_/110'9\ V '-.( 265'13 1029'62\
Й~Л 432,5/' 2d Х*Х« " \ 1029,62 4064,71/'
Определить ji, % S и (Г.
б) В выборке из 97 котов
/ 281,3 \ у ,__/ 836,75 3275,55 \
~ \ 1098,3/' 2dx*X*-\3275,55 13056,17/'
Определить Ji, 2, »9 и р*.
10. (§ 3.3) Доказать, что х является эффективной оценкой р..
11. (§ 3.3) Доказать, что эффективность хи5 для оценки ц
и S равна [(ЛГ— 1)/АЛ] ^(/7+1)/2.
12. Пусть Z(k) = (Zij(k)), где / = 1 /?, /=1, ...? и
Л = 1, 2,..., является последовательностью случайных матриц.
Пусть одна норма матрицы А будет Л^ (А) = max/, у mod (я/;-), а
вторая норма будет N2 (А) = 2 ajj = sp ДД'. Альтернативными
способами определения стохастической сходимости Z(k) к матрице В
порядка, (р X Я) являются
а) Nx (Z \k) — В) сходится стохастически к нулю,
б) Nt{Z(k)-—B) сходится стохастически к нулю и
в) Zij(k) — bij сходится стохастически к нулю, / = 1, ..., р
J=*h ..., Я-
Доказать, что эти три определения являются эквивалентными.
Отметим, что определение стохастической сходимости X (к) состоит
в том, что для любых положительных Ь и е можно найти столь
большое Кг что для k > К
Р {I X (к) — а | < Ь} > 1 — е.
84 ОЦЕНКА ВЕКТОРА СРЕДНЕГО ЗНАЧЕНИЯ (ГЛ. 3
13. (§ 3.2) Доказать, что х является состоятельной оценкой р
и 5 является состоятельной оценкой 2, т. е. что ~х и 5 сходятся
стохастически соответственно к ja и 2.
14. Пусть ^-мерный вектор t является достаточной статистикой
для r-мерного вектора 6. Говорят, что t является полным, если из
Мб/@ = 0 для каждого б следует f(t) = 0 для каждого t, за
исключением множества нулевой вероятности для каждого б. Доказать,
что х в этом случае полон (для данного 2). [Указание. Для 2 = /
получим
Луч*)-**-"^/ ... //?>/*V* NX'Xdxt ...dxp
и используем то, что этот интеграл является преобразованием Ла-
пласа выражения f(x)e (Уилкс [10]).]
ГЛАВА 4
РАСПРЕДЕЛЕНИЯ И ИСПОЛЬЗОВАНИЕ ВЫБОРОЧНЫХ
КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ
4.1. Введение
В главе 2, в которой было введено многомерное
нормальное распределение, показано, что мерой зависимости
между двумя нормально распределенными величинами является
коэффициент корреляции p^ = Gfyj/a/f.o.y. В условном
распределении величин Хг Хд при условии, что Xq+l =
= xq+v • •«> Хр = хр9 частный коэффициент корреляции
Pij. q+it ...,р является мерой зависимости между Xt и Xj.
Был рассмотрен также третий вид
корреляции—множественная корреляция, которая представляет собою меру
зависимости между одной случайной величиной и множеством
других случайных величин. В этой главе мы рассмотрим
выборочные эквиваленты этих величин. Эти эквиваленты
являются точечными оценками соответствующих величин
совокупности. Будут получены также распределения
выборочных коэффициентов корреляции, разработаны критерии для
проверки гипотез и изучены доверительные интервалы.
В случае нормальных совместных распределений
рассмотренные коэффициенты корреляции являются естественными
мерами зависимости между случайными величинами. Для
генеральной совокупности они являются единственными
параметрами, кроме расположения (математического ожидания)
и масштаба (дисперсии). Выборочные коэффициенты
корреляции возникают как естественные оценки коэффициентов
корреляции генеральной совокупности. Так как выборочные
средние значения и дисперсии являются оценками
расположения и масштаба, то выборочные коэффициенты корреляции
86 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4
(т. е. нормированные выборочные вторые моменты) дают
всю возможную информацию о коэффициентах корреляции
генеральной совокупности. Выборочные коэффициенты
корреляции являются функциями достаточных статистик,
которые инвариантны относительно преобразований расположения
и масштаба. Коэффициенты корреляции генеральной
совокупности являются функциями параметров, инвариантными
относительно этих же преобразований.
В «теории регрессии» или методе наименьших квадратов
одна из величин рассматривается как случайная или
«зависимая», а другие — как фиксированные или «независимые».
В теории корреляции мы рассматриваем несколько величин
как случайные и трактуем их одинаково. Если исходить из
нормального совместного распределения и зафиксировать все
величины, кроме одной, то получится модель метода
наименьших квадратов, поскольку математическое ожидание
случайной величины в условном распределении является
линейной функцией фиксированных величин. Выборочные
коэффициенты регрессии, получаемые по методу наименьших
квадратов, являются функциями выборочных дисперсий и
корреляций.
При проверке независимости мы увидим, что к
одним и тем же критериям мы приходим в разных случаях
(т. е. при нормальном совместном распределении или при
условном распределении в методе наименьших квадратов).
Вероятностная теория в случае, когда верна нулевая гипотеза,
одна и та же. Распределение критерия согласия в случае,
когда нулевая гипотеза не верна, различно в двух случаях.
Если все величины можно рассматривать как случайные, то
используется теория корреляции, приведенная ниже; если же
только одна величина является случайной, то используется
метод наименьших квадратов (который подробно
рассматривается в главе 8).
4.2. Коэффициент корреляции двумерной выборки
4.2.1. Распределение выборочного коэффициента
корреляции в случае, когда коэффициент корреляции
генеральной совокупности равен нулю. Проверка гипотезы
о некоррелированности. В § 3.2 было показано, что если
имеется выборка (из /7-мерных векторов) х1% .... л:^ из
4 21 КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 87
нормальной совокупности, то для коэффициента корреляции
между Xt и X. (двумя компонентами случайного вектора X)
получается следующая оценка наибольшего правдоподобия:
N _ —
2 (**« — ¦**)(¦*/« — ¦*;)
1
<х = 1
где xia — /-я компонента вектора ха и
В этом параграфе мы найдем распределение величины rtjt
предполагая, что коэффициент корреляции генеральной
совокупности между Xi и Xj равен нулю, и увидим, как можно
использовать выборочный коэффициент корреляции для
проверки гипотезы о том, что коэффициент корреляции
генеральной совокупности равен нулю.
Для простоты рассмотрим г12. Аналогичным образом
исследуется, очевидно, и любой другой коэффициент ri..
Так как г12 зависит лишь от первых двух координат каждого
из векторов ха, то очевидно также, что для нахождения
распределения г12 нужно знать лишь совместное
распределение величин. (лгп, лг21), (х12, дг22), .... (xw x2n)* ^ле"
довательно, рассматриваемую проблему можно
сформулировать в терминах двумерного нормального распределения.
Пусть x*v .... x*N — векторы результатов наблюдений над
совокупностью
*и:.¦)• (_„ j )i. C)
Рассмотрим
r=v?yv,' ' D)
~ ^У' / ^ \г \ ( v v \ (t i 1 О\ {Е\\
it <mJ v la. О \ /а // \*/* J ' ^)* \^)
а = J
88
ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
[ГЛ 4
xt определяется по формуле B). (Здесь х1а — /-я компонента
вектора #*.)
Из § 3.3 мы видим, что alv al2 и а22 распределены как
*|/ = в2 */.*/. С /=*• 2)' F>
где n = N—1, а вектор (zla, z2a) распределен
"[О- U, 7)]
и не зависит от B1р, Z20 при а Ф р.
Пусть zi = (ziu ..., 2/л), /=1, 2. Эти два вектора
можно рассматривать как векторы л-мерного пространства
(рис. 4),
Рис. 4.
Коэффициент корреляции равен косинусу угла б между
zx и г2. Чтобы найти распределение cos б, мы найдем
сначала распределение ctg 6. Поскольку z2 = (z2 — bzx) -f telt
мы выберем скалярную величину Ь как функцию zx и г2
так, чтобы векторы z2 — bzx и Ъгх были ортогональны. Тогда
= bV (Zt-
Если вектор гх фиксирован, то оси координат можно
повернуть так, чтобы первая ось проходила в направлении zv
4.2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 89
Тогда у вектора bzx только первая, а у вектора z2— bzx
только вторая координата отлична от нуля. Покажем, что
если р = 0, то ctg 8 пропорционален ^-распределенной
случайной величине.
Условное распределение величины Z2a при Zla=zla
(заглавные буквы используются для обозначения случайных
величин) есть Af(p2la, о2), где Р=ро2/а1 ио2 = О2A — р2)
(см. § 2.5). Совместное распределение координат вектора Z2
при условии, что Zx — zx, есть N($zv о2/), так как Z2e
независимы. Точнее, совместная плотность распределения
вероятностей Zx и Z2 равна
частная плотность распределения вероятностей Z, равна
следовательно, условная плотность распределения Z2 при
Z1=#1 равна совместной плотности распределения
вероятностей Zx и Z2, деленной на частную плотность
распределения вероятностей Zx (в точке zx), т. е.
Тогда ctg 6 = b п
Вращение осей координат сводится к отысканию
ортогональной матрицы С порядка (п X я)» первая строка которой
будет (y)z'v где c2=zz[zv
Применим теорему 3.3.1, полагая Xa = Z2a. Пусть Ка =
^Zyp Величины {Ка} независимы и распределены
90 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ 4
нормально с дисперсией а2 и математическими ожиданиями
Т-1 Т=1
Имеем Ъ = 2 22«г1а/2 4. = с 2 ^2ас1а /с2 = К,с и по лемме
а /а а /
3.3.1
V= ± Zl-b> ±zl=±Yl-Y\^± Yl A0)
0 = 1 а = 1 а = 1 а = 2
что не зависит от Ь.
Лемма 4.2.1. Если векторы (Zla, Z2a), (a=l, ..., n)t
независимы и одинаково распределены с законом
распределения G), то условные распределения величин
г1 и v/o2
/
^ia —^ь (a=l, ..., /г) будут соответственно
a2/c2) (^2 = 2'г1а) й ^-распределение сп—1
пенями свободы, кроме того, b и V независимы.
Если р = 0, то р = 0; поэтому условное распределение ?
есть N@, а'2/с2), а условное распределение величины
СЬЮ _ сб (П)
V Т=\ V л—1
является условным ^-распределением с « — 1 степенями
свободы. Но эта случайная величина равна
/«22 —
Поэтому У"п—1 r/)/"l—г2 имеет условное
/-распределение с п — 1 степенями свободы. Плотность распределения
4 21 КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 91
величины t равна
и плотность распределения вероятностей величины W' =
=zrjy\—г2 равна
у2)"". A4)
Так как w — r(\—г2) 2, то dw/dr==(l—г2) 2.
Следовательно, плотность распределения г равна (заменяя п т N— 1)
Г-1- (АЛ— 1I
Следует, заметить, что выражение A5) является условной
плотностью распределения величины г при фиксированном zv
Но так как A5) не зависит от zv то она является и частной
плотностью распределения величины г.
Теорема 4.2.1. Пусть Xv ..., XN — независимые
одинаково распределенные случайные величины с законом
распределения N(p, 2). Если р/у. = 0, то плотность
распределения величины Гц, определенной формулой A),
дается формулой A5).
Из A5) мы видим, что кривая плотности симметрична
относительно начала координат. Дли Ы > 4 она имеет моду
при г = 0, а при г = ± 1 ее порядок касания с осью г
равен -«(N — 5) для нечетных N и -у Л/" — 3 для четных N.
Так как эта плотность является четной функцией, то все
нечетные моменты равны нулю; в частности, математическое
ожидание равно нулю. Четные моменты находятся
интегрированием (полагая х = г2 и используя определение бета-
функции). Читателю предлагается проверить, что
Mr»" = Г [1 (N - 1)] Г [т + j)/{ V^ Г [I (М - 1) + т] } •/
в частности, дисперсия равна \j(N—1).
/¦
92 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ 4
С наиболее важным применением теоремы 4.2.1 мы
сталкиваемся при нахождении точек значимости для проверки
гипотезы о том, что две случайные величины являются
некоррелированными. Рассмотрим гипотезу
Я:Р/у = 0 A6)
для некоторой конкретной пары (/, у). Было бы разумно
отвергнуть эту гипотезу, если бы соответствующий
выборочный коэффициент корреляции сильно отличался от нуля.
Но как решить «сильно» отличается выборочный
коэффициент корреляции от нуля или нет?
Предположим, что наряду с гипотезой Н имеется
конкурирующая гипотеза ptj > 0. Если выборочный коэффициент
корреляции Гц больше некоторого числа г0, то мы
отвергаем гипотезу /У. Вероятность отвергнуть гипотезу Н, когда
она верна, равна
1
kN(r)dr, - A7)
Го
где функция kN(r)t определяемая формулой A5), является
плотностью распределения вероятностей выборочного
коэффициента корреляции, полученного по N наблюдениям.
Выберем г0 так, чтобы выражение A7) давало желаемый уровень
значимости. Если конкурирующая по отношению к Н гипотеза
состоит в том, что р(л < 0, то мы отвергаем Н при г^ < г0.
Предположим теперь, что нас интересует случай, когда
pij Ф 0, т. е. когда ptj может быть как положительным,
так и отрицательным. Тогда если Тц^>гх или г^ <—г1$
то мы отвергаем гипотезу Я. Вероятность отвергнуть
гипотезу //, когда эта гипотеза верна, равна
Г kN (г) dr-\- [ kN (г) dr. A8)
-1 г,
Число гх выбирается так, чтобы выражение A8) давало
желаемый уровень значимости.
Точки значимости гг приводятся во многих книгах,
содержащих таблицу VI Фишера и Иейтса [1]. Индекс п
в таблице VI равен в нашем случае N—2. Так как
Y— 2 г/У 1 — г2 имеет t -распределение с N— 2 степенями
свободы, то можно использовать .также таблицы
/-распределения. При конкурирующей гипотезе р^Ф 0 Н отвергается,
4.21 КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 93
если
^4 A9)
где ^_2(a)— двусторонняя точка значимости /-статистики
е дг__2 степенями свободы для уровня значимости а. При
конкурирующей гипотезе р^ > О Н отвергается, если
Г„_2 (а), B0)
где 7дг_2 (а)— ^лг-2 Bа) — односторонняя точка значимости.
Из (И) и A2) видно, что ]/N — 2 г/]/1 — г2 является
соответствующей собственной статистикой для проверки
гипотезы о том, что регрессия Z2 на zx равна нулю. В
терминах первоначальных наблюдений \xia) имеем
- 2)
B1)
где ft = 2 (*2« — ^г) (*и — *i> /2 (^ь — -^iJ — коэффициент
а ' а
регрессии х2а на л:1а, полученный по методу наименьших
квадратов. Легко видеть, что проверка гипотезы р12 = 0
эквивалентна проверке гипотезы о том, что регрессия Х2
на х{ равна нулю (т. е. что Pi2a2/0i = 0).
Для иллюстрации этого метода рассмотрим пример,
приведенный в § 3.2. Проверим нулевую гипотезу, состоящую
в том, что действия двух наркотиков не коррелированы.
Конкурирующая гипотеза состоит в том, что они
положительно коррелированы. Используем пятипроцентный уровень
значимости. Для N=10 5%-ная точка значимости (г0)
равна 0,5494. Полученный нами по результатам наблюдения
коэффициент корреляции 0,7952 является значимым. Поэтому
мы отвергаем гипотезу о том, что действия двух наркотиков
независимы.
4.2.2. Распределение выборочного коэффициента
корреляции в случае, когда коэффициент корреляции
генеральной совокупности не равен нулю. Проверка
гипотез. Доверительные области. Чтобы найти
распределение выборочного коэффициента корреляции в случае, когда
94 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ 4
коэффициент корреляции генеральной совокупности отличен
от нуля, найдем сначала совместную плотность распределения
случайных величин ап> а12 и #22. ^ § 4.2.1 мы видели, что
если zx фиксирован, то случайные величины Ь = а12/ап
и V/o2=(a22 — ai2/aii)/°2 независимы и имеют соответственно
распределения N($, с2/с2) и ^-распределение с п—1
степенями свободы. Обозначая плотность ^-распределения через
gn-i(v)> запишем условную плотность Ъ и V в виде
я (#|C, о2/ап) gnm_l(vl<32)/a2. Совместная плотность
распределения Zv bnV равна п {гх 10, о2/) n(b\$, c2/an) gn_x (vla2)Jo2.
Частная плотность величины Z[ZJa2 = аи/а2 равна gn(v)',
значит, плотность распределения величины ап равна
где dW—соответствующий элемент объема.
Интегрирование ведется по сфере z/lzl — aiv поэтому dW
будет элементом поверхности этой сферы (см. задачу 1
главы 7 на использование полярных координат для
определения dW). Таким образом, совместная плотность
распределения случайных величин Ь, V и ап равна
f ... /п(Ь\^суап)ёп_
4.21 КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ
95
Положим Ь^ам/ац, V = #22 — #i2/#u« Определитель
этого преобразования равен
д (b, v)
д (а12, а22)
-L О
—2^ 1
ап
B4)
Таким образом, совместная плотность распределения aiV
и а22 равна
/ 12j
B5)
«
11 j
1
а?2
«12 , Р2°1а2
11 __i_ __LL I " 0 " _J_
of aJ \агп cf en a4
«И
1 / а\Л __ Г 1 ?Ц4 1
-т [ fl22 — — ) — аи -т 4- -шт. ^7
— 2a,.
ре,
B6)
Эта плотность может быть записана в виде
B7)
Это частный случай распределения Уишарта, которое будет
рассмотрено в главе 7.
96 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4^
Плотность распределения вероятностей случайных
величин аи, а22 и г — al2/Y ana22 (dal2 = drY ana22) равна
}«-! \п-\
где
+ 4)- B9)
Чтобы найти плотность распределения вероятностей
величины г, нужно проинтегрировать B8) по аи и а22 в
пределах от 0 до оо. Существует несколько методов
вычисления такого интеграла, которые приводят к различным
выражениям для плотности. Мы приводим здесь прямой
метод вычисления. Разложим в ряд экспоненту
Г
Тогда плотность B8) запишется в виде
. ~~г X
Так как
си
I
C2)
r (|«) г [4oi-
\2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ &7
то интеграл от функции C1) (почленное интегрирование
законно) равен
(Ж
ХГ2[1(д + а)] 2л+ааГаа2Л+аA-р2Га =
• C3)
Константу можно видоизменить, используя формулу удвоения
Теорема 4.2.2. Коэффициент корреляции выборки
объема N из двумерной нормальной совокупности с коэф*
фициентом корреляции р распределен с плотностью
, C4>
г^ n = N—\.
Распределение величины г впервые было получено
Фишером [1]. Им же предложена другая форма этой
плотности
*(л-2)!
которая получается из B8) заменой ап на ue~v и а22 на «ev.
Хоте л л инг [9] провел исчерпывающее исследование
распределения г. Он предложил следующую форму
плотности, которая получается из B8) с помощью приведенного
Т, Андерсон
98 Выборочные коэффициенты корреляции [гл 4
выше преобразования:
ХA—рг) ^(у. ; л + "; ~ТУ' C6)
где
00
/?(я *• г х)-У T{a+J) T(b+J) Г(с) х (Ъ7)
t (а. о, с, х)—? г (д) г Г(с+У) JT {д7)
/«о
— гипергеометрическая функция. Ряд в C6) сходится
быстрее, чем ряд в C4). Хотеллинг рассмотрел методы
интегрирования плотности, а также вычислил моменты г.
Функция распределения величины г,
Р{г<г*}=/Чг*|ЛГ, р), C8)
табулирована Дэвид [2] для1) р = 0(.1).9, N = 3AJ5,
50, 100, 200, 400 и /•* = — 1 (.05) 1. (То, что мы
обозначаем буквой N, Дэвид обозначает буквой п.) Из C4) ясно,
что F(r*\N, р) = 1 — F (— г* | Nt — р), так как плотность
распределения величин г, р равна плотности распределения
величин —г, —р. Эти таблицы можно использовать во
многих статистических процедурах.
• Во-первых, рассмотрим проблему использования выборки
для проверки гипотезы
Я:р = Ро. C9)
Пусть конкурирующая гипотеза состоит в том, что
р > р0. Тогда мы отвергаем гипотезу Н, если выборочный
коэффициент корреляции больше г0, где г0 выбирается так,
чтобы 1—/^ (л*01Л^, р0) равнялось уровню значимости а.
В случае, когда конкурирующая гипотеза заключается в том,
что р < р0, мы отвергаем гипотезу Я, если выборочный
коэффициент корреляции меньше r'Qt где r'Q выбирается из
условия F(r'Q\N, po) = a. Если конкурирующая гипотеза
состоит в том, что р Ф р0, то гипотеза Н отвергается, если г
попадает в одну из областей г > гх и г < r'v где г1 и г[
р = О (Д).9 означает, что р = 0; 0,1; 0,2; ...; 0,9.
4.2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 99
выбираются так, чтобы [1 —Р(гг\Ы, р0)] -+- F (r'x | N, ро) = <*.
Дэвид предложила выбирать гх и г[ из условия
1 /7(r|M ) F^r/\N Р)а
A| PQ) ^l\ РъJ показала П1> чт0
для N^ 10, |р |^0,8 эта критическая область близка
к области несмещенного критерия для проверки гипотезы Я,
т. е. критерия, функция мощности которого имеет минимум
в точке р0.
Следует указать, что любой критерий, основанный на
выборочном коэффициенте корреляции г, является
инвариантным относительно преобразований х*а = с^ы -\- dt
(а=1, ..., N\ /=1, 2, сг > 0), причем г является
единственным инвариантом достаточных статистик (задача 19).
Рассмотренная выше методика для проверки гипотезы
Я: р = р0 при конкурирующей гипотезе р > р0 описывает
равномерно наиболее мощный критерий из класса всех
инвариантных критериев (см. задачи 29, 30 и 31).
Пример. Предположим, что требуется проверить
гипотезу р = 0,5, используя 5%-ный уровень значимости, по
выборке объема 15. Конкурирующая гипотеза состоит в том,
что р Ф 0,5. По таблицам Дэвид получаем
(интерполированием) ^@,0271 15; 0,5) = 0,025 и ^@,8051 0,15; 0,5) =
= 0,975. Следовательно, мы отвергаем гипотезу р = 0,5,
если выборочный коэффициент корреляции/* меньше чем 0,027
или больше чем 0,805.
Во-вторых, мы можем использовать таблицы Дэвид для
вычисления функции мощности для критерия проверки
корреляции. Если область значений г, при которых гипотеза Н
отвергается, определяется неравенствами г^>гх и г < r'v
то мощность критерия является функцией истинного
коэффициента корреляции р, [1—F(r{\'N, р)] + [Z7 (r[ | N, р)];
она равна вероятности отвергнуть нулевую гипотезу, если
коэффициент корреляции генеральной совокупности равен р.
В качестве примера найдем функцию мощности критерия
для проверки гипотезы р = 0, рассмотренного в
предшествующем параграфе. Область значений г (односторонняя),
при которых гипотеза отвергается, определяется
неравенством г^.0,5494 при 5%-ном уровне значимости.
Вероятности отвергнуть гипотезу приведены в табл. 3. График
функции мощности приведен на рис. 5,
4*
100 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Таблица 3
[ГЛ. 4
р
-1,0
—0,8
—0,6
-0,4
-0,2
Вероятность
0,0000
0,0000
0,0004
0,0032
0,0147
р
0,0
0,2
0,4
0,6
0,8
1,0
Вероятность
0,0500
0,1376
0,3215
0,6235
0,9279
1,0000
В-третьих, вычисления Дэвид дают возможность
получить доверительные интервалы для р. При заданном N
величина г'х (определяющая точку значимости) является одной
функцией р, скажем fx(p\ а ^ — другой функцией р,
скажем /2(р), так что
Р {/i(p) < г < /2(р)|р} = 1 -а. D0)
Ясно, что если гг и г[ выбираются из условия 1 — F(rx | N, р) =
= — b = F(r\ \N9 p), то Д(р) и /2(р) являются монотонно
возрастающими функциями р. Если функция р = /-г(г)
является обратной к функции г = //(р) (/== 1, 2), то
неравенство /i(p)</* эквивалентно1) неравенству р</Г1(г),
1) Точка (/i (p), р) на первой кривой находится левее точки (г, р),
а точка (г, f[l (r)\ — выше точки (г, р).
4.2]
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ
101
аг</2(р) эквивалентно
можно переписать в виде
Таким образом, D0)
D1)
Это равенство указывает, что вероятность получения такой
выборки, чтобы интервал (/f1^)» f{l(r)) содержал
параметр р, равна 1—а. Поэтому этот интервал является
доверительным интервалом для р с коэффициентом доверия 1—а.
Для фиксированных N и ос кривые r = f{(p) и г = /2(р)
выглядят так, как показано на рис. 6. При проверке гипотезы
Рис. 6.
р = р0 пересечение прямой р ===== р0 с обеими кривыми дает точки
значимости гх и г'у При построении доверительного интервала
для р по выборочному коэффициенту корреляции г* мы
находим значения f^x{r*) и ffl(r*) как точки пересечения прямой
г = г* с двумя кривыми. Дэвид приводит эти кривые при
а = 0,1; 0,05; 0,02 и 0,01 для разных значений N.
Односторонние доверительные интервалы могут быть получены
использованием лишь одного из написанных выше неравенств.
Для нахождения доверительных интервалов вместо
кривых могут быть использованы также таблицы функции
102 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
F(r\N, p). Если выборочный коэффициент корреляции
равен Л то f{l(r*)— такое значение р, что 9"а =
— Р [г < г* | р} = F (г* | Af, p) и аналогично f~l (r*) — такое
значение р, что -^а = Р {г^г* |р} == 1 — F(r*\N, p).
Интервал между этими двумя значениями р, (f~1 (г*), /~1 (г*)\
является доверительным интервалом.
В качестве примера рассмотрим доверительный интервал
с коэффициентом доверия 0,95 при условии, что
коэффициент корреляции выборки, построенной по 10 наблюдениям,
равен 0,7952. Используя график II у Дэвид, находим два
значения: 0,34 и 0,98. Следовательно, мы устанавливаем,
что 0,34 < р < 0,98,
Интересно посмотреть, каково отношение правдоподобия
для проверки гипотезы р = р0 при условии, что дана выборка
xv .,., xN из совокупности с законом распределения /V([i,S),
где {i/ = (ix1, i*2), оп = а2, <з12 = о21 = рсЛ и *22 = 4
Функция правдоподобия может быть записана в виде
"с2-"A - Р2р" exp J - — » |>1
° °a 4 J j
D2)
°i °ia2 4
Находя максимум D2) в области изменения параметров 2
(область параметров Q определяется неравенствами о\ > 0,
ol > 0, р2<1), получаем ?l2 = an/N. o22Q = a22/Nt p2 =
z=ai2/Yana2r ^2 = ^, ?2e —*2' Если максимУм D2)
находится в области изменения параметра о> (со получается из 2,
когда р = ро), то [х1о) = хх и р-2@ = лг2, так как квадратичная
форма относительно хх — рг и х2 — ^2» стоящая под знаком
экспоненты, является отрицательно определенной (и, стало
быть, имеет максимум, равный нулю). После этого мы
можем находить максимум логарифма выражения D2; по
4 2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ ЮЗ
переменным <зг и о2:
1 а1а2 а2
Приравнивая нулю частные производные, получаем
^г)- D3)
или •
-Ц- — p0 J*L = Лф — pi). D5)
/<i) io> jot
Складывая D5) при /=1, У = 2 и / = 2, у = 1, получаем
-^ 2p0 -^1 h ~- = 2A/ A — p2). D6)
ffl<o alo>a2o) a2o>
Вычитая D5) при /=1, у = 2 из D5) при / = 2, У=1,
получаем dnh2l(ii = а&1а\ш = ^2/<з2. Поэтому
Таким образом,
1 — Р(/ a2 olo>o2u)
• — Ро) ^la>°L = ( ~J*f2 ^ "^ ' D9>
Максимум функции правдоподобия равен
5 " ~ 1 .. 1 .. *~N- E0)
104 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
При изменении параметров в области Q максимум функции
правдоподобия равен
NN
max L = —х = =— e~N. E1)
a JL 7v — n ¦— TV
"V 2 4
Следовательно, отношение правдоподобия равно
maxL _ _
E2)
1^
J -
Критерий отношения правдоподобия состоит в том, что
A—pg)(l—г2)A — Р(/*)~2 < с, где с выбирается так, чтобы
вероятность этого неравенства в случае, когда выборки
произведены из нормальных генеральных совокупностей
с коэффициентом корреляции р0, была равна заданному уровню
значимости. Критическая область может быть аналогично
описана неравенствами
(Р^-р|1Н-1)'2-2р0сгЧ-с-1+р20>0, E3)
или
E4)
Таким образом, критерий отношения правдоподобия для
проверки гипотезы Н : р = р0 при конкурирующей гипотезе р Ф р0
дает область тех значений г, при которых гипотеза
отвергается, в виде г>гх и г < г[; но гх и rj выбираются не так,
чтобы вероятность каждого из неравенств E4) была равна а/2,
когда гипотеза Н верна, а так, чтобы гх и rj имели вид
правых частей E4) при таком выборе с, чтобы вероятность
обоих неравенств была равна а.
4.2.3. Асимптотическое распределение выборочного
коэффициента корреляции; z — распределение Фишера.
В этом параграфе мы покажем, что если объем выборки
возрастает, то выборочный коэффициент корреляции стремится
к нормально распределенной случайной величине. Распреде-
4.2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 105
ление конкретной функции выборочного коэффициента кор-
релляции, функции Фишера (Фишер [2]), дисперсия которой
почти не зависит от корреляции генеральной совокупности,
еще быстрее стремится к нормальному.
Сначала докажем многомерную центральную предельную
теорему.
Теорема 4.2.3. Пусть YxY2i ...—независимые и
одинаково распределенные т-мерные векторы с
математическим ожиданием МКа = v и ковариационной
матрицей М(Ка— v)(Fa — v)' = 7\ Тогда при я->оо распреде-
<ря(/, и) = Мехр Ш'у^^(Уа — v) L
ление вектора A/]/nJj(Ya — v) стремится к N@, Т).
сс=1
Доказательство. Пусть
п —*|
™ E5)
где и — скаляр, a t—ю-мерный вектор. При
фиксированном t срЛ(/, и) можно рассматривать как характеристическую
п
функцию случайной величины (l/V^J(^^a — M/'KJ. По
a = l
одномерной центральной предельной теореме (см.
Крамер [2], стр. 238) предельным распределением этой
случайной величины является N@, t'Tf). Следовательно, для
любых и и t
L uH'Tt
Iim <pn(t, u) = e 2 E6)
/J->oo
(для /—О используется особое и очевидное рассуждение).
При й = 1 и любом t
Iim Mexp
Л->оо
E7)
Так как функция е 2 непрерывна при t=0, то
сходимость будет равномерной в некоторой окрестности точки
/ —0. Теорема доказана.
Теперь мы хотим показать, что выборочная
ковариационная матрица имеет асимптотически нормальное
распределение, когда объем выборки неограниченно возрастает.
106
ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
[ГЛ 4
Теорема 4.2.4. Пусть А(п) = %(Ха — XN)(Xa — XN)',
a-l
где Xv X2, ... — независимые случайные векторы,
распределенные N(p, 2) и n — N—1. Тогда распределение
вектора /?(я) = A/}Лг)[Л(/г)— #2] асимптотически
нормально с нулевым вектором среднего значения и кова-
риациями
ЖЬЧ (п) bkl (п) = <3ikojt -f- апа.к. E8)
п
Доказательство. Как показано ранее, A(n) = ^ZaZat
a = l
где Zv Z2, . .. —независимые случайные векторы,
распределенные N@, S). Представим элементы произведения ZaZ'a
в виде вектора
E9)
Как показано в § 2.6, моменты вектора Ya можно вычислить,
зная моменты вектора Za. Имеем
M (z/«z/« — j
образом, векторы Ka, определенные формулой E9),
удовлетворяют условиям теоремы 4.2.3, где элементы
вектора v играют роль элементов матрицы S, расположенных
в векторной форме, а элементы матрицы Т определены
выше. Если элементы матрицы А (п) расположить в векторной
форме аналогично E9), скажем в виде вектора W(n),
п
то W(n) — ^v = 2(^a —v)- По теореме 4.2.3 вектор
СЕ=1
(l/YH)[W(n)—/zv] распределен асимптотически нормально
4.2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ 107
с нулевым вектором среднего значения и ковариационной
матрицей вектора Ка, что и требовалось доказать.
В особенности нас интересует коэффициент корреляции
и (п) Ап (п)
для некоторых I и J (/ Ф у). Это выражение может быть
переписано в виде
Ctj(n)
г(п) = — — г F1)
где Cgh (п) = Л^ {n)IYaggahh. Множество
и Сц(п) распределено так же, как
, F2)
Eе )(z;z}a)=2^-/^Vzj/o-
=l \Z/e / «=1 \ZV К °/У/
где (z]a, Z*ja)—независимые одинаково распределенные век-
Г/ 0 \ /1 р\1
торы с законом распределения ^ I ( л )» ( " , ) I и р =
Тогда вектор ]/я ((/(«) — 6) будет асимптотически
нормальным с нулевым вектором среднего значения и
ковариационной матрицей
2 2Р2
F5)
108
ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
[ГЛ. 4
Теперь воспользуемся общей теоремой.
Теорема 4.2.5. Пусть U(n) — т-мерный случайный
вектор, b — фиксированный вектор. Предположим !), что
= & и вектор )Лг(?/(/г) — Ь) асимптотически
нормален N (О, Т). Пусть w — f(u) — функция вектора а,
для которой в окрестности точки и = Ь существуют
первая и вторая производные. Пусть, далее, ^и'
и-Ь
1-я компонента вектора уь. Тогда предельным
распределением вектора ]/^[/(?/(я))— /(&)] будет
F6)
Эта теорема, по существу, доказана в книге Крамера [2],
стр. 401.
Очевидно, что вектор U(n), определенный формулой F3),
с Ъ и Т, определенными соотношениями F4) и F5)
соответственно, удовлетворяет условиям теоремы. Функция
F7)
удовлетворяет этим условиям. Элементы вектора уь равны
дг
дг
дг
ди3
= _4-в.вГ«1
2
2 аъп
1 1
= иЛ 2ио
= 1
F8)
и /F) = р. Асимптотическая дисперсия величины |Лг (/•(#)—р)
*) plim U(n)*= b означает, что U(n) сходится к Ь по
вероятности; см. задачу 12 главы 3.
4.2]
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ
109
2
2р2
2р
2Р2
2
2р
1
2р
2Р
+ Р2
= (р—р3, р — р3, 1—f
-h
—jp
i
F9)
Таким образом, мы получаем следующую теорему.
Теорема 4.2.6. Если г(п) — коэффициент
корреляции выборки объема N(=n-\-\) из нормальной
совокупности с коэффициентом корреляции р, то случайная
У~ [ / ]
рр р у
величина Уп(г(п) — р)/A—р2)[или |/лГ(г(я) — р)/A — р2)]
асимптотически нормальна с параметрами 0 и 1.
Из теоремы 4.2.5 следует, что если функция f(x) имеет
первую и вторую производные в точке х = р, то случайная
величина УШ [/ (г)—/(р)] асимптотически нормальна с
нулевым математическим ожиданием и дисперсией
Часто в качестве / (х) полезно выбирать такую функцию,
для которой асимптотическая дисперсия является константой
(в данном случае единицей), не зависящей от параметра р.
Такая функция удовлетворяет уравнению
Таким образом, в качестве f(x) можно взять функцию
i [In (I + Р) - In A - Р)] =4 In [A + р)/A - р)].
Величина
G1)
НО ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
называется ^-величиной Фишера. Обозначим
G2)
Теорема 4.2.7. Пусть величина z определена по
формуле G1), где г — коэффициент корреляции выборки
объема N(=n-{-l) из двумерной нормальной
совокупности с коэффициентом корреляции р; С—величина,
определенная по формуле G2). Тогда случайная
величина Yn(z — С) асимптотически нормальна с
математическим ожиданием 0 и дисперсией 1.
Можно показать, что с довольно хорошей точностью
-t:-^-J. G4)
Последняя формула получается из представления M(z— СJ
в виде
bi=?-+ ... G5)
C) }?+ ...
и дает хорошее приближение при малых р2/д2. Хотел-
л и н г [8] приводит моменты z с точностью до л". Важным
свойством случайной величины z является то, что она сходится
к нормально распределенной случайной величине гораздо
быстрее, чем г. Дэвид [2] произвела сравнение между
табулированными вероятностями и вероятностями,
вычисленными в предположении, что z распределена нормально. Она
рекомендовала при N > 25 рассматривать z как нормально
распределенную случайную величину с математическим
ожиданием и дисперсией, определяемыми по формулам G3) и G4).
Теперь покажем, как может быть использована теорема 4.2.7:
а) Предположим, что по выборке объема N мы хотим
проверить гипотезу р = р0 при конкурирующей гипотезе р Ф р0.
Вычислим г, а затем z по формуле G1). Положим
Тогда при 5%-ном уровне значимости область тех
значений z, при которых гипотеза отвергается, определяется
неравенством
УТГ^Ъ\ ^\196 G7)
4 2] КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ДВУМЕРНОЙ ВЫБОРКИ Ш
Точнее эта область определяется неравенством
1)|>1,96. G8)
б) Предположим, что у нас есть выборка объема Nx из
одной генеральной совокупности и выборка объема N2 из
другой генеральной совокупности. Как проверить гипотезу
о том, что коэффициенты корреляции этих генеральных
совокупностей равны, pj = p2? Из теоремы 4.2.7 следует, что
если нулевая гипотеза верна, то разность zx — z2 (где zt
и z2 определяются по формуле G1) для двух выборочных
коэффициентов корреляции) распределена асимптотически
нормально с математическим ожиданием 0 и дисперсией 1/(Л^—3)-f-
-|-l/(Af2 — 3). В качестве критической области при 5%-ном
уровне значимости используем область
\zz\ > 1,96. G9)
3) '
в) При условии (б) предположим, что р1=р2 = р. Как
использовать результаты обеих выборок, чтобы получить
совместную оценку р? Так как дисперсии zx и z2 равны
соответственно 1/(Л^— 3) и l/(N2— 3), то мы можем
оценить С величиной
и использовать это для оценки р посредством соотношения,
обратного к формуле G2).
г) Пусть г — выборочный коэффициент корреляции,
полученный по N наблюдениям. Как получить доверительный
интервал для р? Мы знаем, что приближенно
Р {— 1,96 < /aT=TB — С) < 1,96} =0,95. (81)
Отсюда следует, что [—1,96/yOV—3-f-2, 1,96/|/N—3 + z]
является доверительным интервалом для С. Чтобы получить
доверительный интервал для р, воспользуемся тем, что р =
= th С = (*с — ?-с)/(?с + ^~с), что является монотонной
функцией С. Таким образом, для р получается следующая
доверительная область:
ig)( /96 ) (82)
112 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4
4.3. Частные коэффициенты корреляции
4.3.1. Оценка частных коэффициентов корреляции.
Частные коэффициенты корреляции — это коэффициенты
корреляции условных распределений. В § 2.5 было показано,
что если вектор X распределен N(ji, 2), то условное
распределение подвектора Х{1) при условии Х{2) = х{2) (где Х'=
B = Si2S22 . (О
2ц.2 = 2ц — S12S22 2гь B)
Частные корреляции Х*1) при данном х{2) являются
корреляциями, вычисляемыми обычным путем из 2ц.2. В этом
параграфе мы интересуемся статистическими проблемами,
связанными с этими коэффициентами корреляции.
Сначала рассмотрим проблему оценки. Предположим, что
у нас есть выборка объема N из совокупности W(ji, 2). Что
является оценкой наибольшего правдоподобия для частных
коэффициентов корреляции ?ij.Q+1 ^-мерного
вектора ХA)? Мы знаем, что оценкой наибольшего
правдоподобия для 2 является
N
2
где x = (l/N) 2 ха- Соответствие между 2 и 2ц.2, В и 2гг
взаимно однозначно ввиду A) и B) и
212 = В222, D)
гп^ц.з + ВгзгВ7. E)
Из следствия 3.2.1 получим, что оценками наибольшего
правдоподобия для матриц 2ц.г, В и 222 являются
2ц.2 = 2ц — 2i2222 2гь В = 2i2222 и 2г2»
Кроме того, оценками наибольшего правдоподобия для
частных коэффициентов корреляции являются
F)
4.3] ЧАСТНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ИЗ
гдеа,,,,,, л — элемент /-й строки и у-го столбца ма-
трицы 2ц.2.
Теорема 4.3.1. Пусть xv..., xN—выборка объема N
из совокупности N({i, 2). Оценка наибольшего
правдоподобия для частных коэффициентов корреляции
первых q компонент при фиксированных остальных р — q
компонентах, p(J.Q+l р> дается следующим образом:
где
•<7+l, ..., р) = М\ — МъМъ >*21 = Ли.2» (8)
N
*22/ ~i
Оценка pjy.^+1 ##< р. обозначаемая через г^ г ,
называется выборочным частным коэффициентом
корреляции между Xt и А'у при фиксированных Xg+V ..., А^.
Можно дать две геометрические интерпретации
вышеприведенной теории. В /7-мерном пространстве хг, ..., XN
представляют ^V точек. Выборочная функция регрессии
есть (р — #)"меРная гиперплоскость, являющаяся
пересечением q гиперплоскостей размерности р — 1:
A1)
где х, Xj — текущие координаты. Здесь р^ является
элементом матрицы В =Si2S^21 ==i4i2^221- *-я строка В есть
(h, q+v •••» Р/р- Каждый член правой части (И) является
функцией среднеквадратичной «регрессии» xt на xQ+v ..., хр.
Это означает, что если мы спроектируем точки xv ..., xN
на гиперплоскость координат xi% xQ+v ...i xpi то A1)
114 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
будет плоскостью регрессии. Точка с координатами
р
лежит на гиперплоскости A1). Разность между /-й
координатой точки ха и /-й координатой точки A2) равна yia =
==: хи —\xi + 2 Р// (Х1Л — */) Для i = !» • • •» Я и 0 для
других координат. Пусть
Г'Л
A3)
Эти N точек можно мыслить как точки ^-мерного простран-
N
ства. Тогда Дц.2==2 УаУа9
Выборку можно интерпретировать также, как р точек
/V-мерного пространства. Пусть Zj = (XjV ..., XjN) — у-я
точка игр+1 = A, ..., 1) — (/*+ 1)-яточка. Точка с
координатами (л:{. xt) может быть записана в виде xtzp+v
Проекция zi на гиперплоскость, образованную векторами zq+v ...
•••• zp+v Равна
это ближайшая к zi точка на гиперплоскости. Пусть zt —
вектор, проведенный из точки z* к точке zi% т. е. zt — z*t
или, что то же, этот же вектор, перенесенный одним из
концов в начало координат. Векторы zv .... 2^ являются
проекциями векторов zx zq на гиперплоскость,
ортогональную к zq+1 zpArV Поэтому 'zflzl = aiH+1 ## p
есть квадрат модуля zt (т. е. квадрат расстояния от точки zt
до точки г*). Отношение z'iZj/V~z'iZi Iz'jZj = rij.q+if ,,9§p равно
косинусу угла между 'г1 и zJt
4 3] ЧАСТНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Ц5
В качестве примера на исследование частной корреляции
рассмотрим данные Хукера [1] по урожаю сена (Xt)
в центнерах на акр, весенним осадкам (Х2) в дюймах и
количеству весенних дней (^3) с температурой воздуха выше 42° F
в Англии за 20 лет. Оценки j^, o/(="|/"ow) и р^ таковы:
A5)
,00 0,80
,80 ;,оо
—0,40 —0,56
Из полученных коэффициентов корреляции видно, что урожай
сена и количество осадков положительно коррелированы, а
урожай сена и температура воздуха, а также количество осадков
и температура воздуха отрицательно коррелированы. Какую
интерпретацию можно дать отрицательной корреляции между
урожаем сена и температурой воздуха? Является ли высокая
температура причиной низких урожаев или, может быть, она
связана с небольшим количеством осадков и, следовательно,
с низким урожаем? Чтобы ответить на этот вопрос,
рассмотрим корреляцию между урожаем и температурой воздуха
при фиксированном количестве осадков, т. е. используем
приведенные выше данные для оценки частного
коэффициента корреляции между Хг и Xz. Получаем1)
а13-2
= 0,097. A6)
' У а1Ь2аЗЗ-2
Таким образом, если действие осадков не учитывать, то
урожай и температура оказываются положительно коррелирован-
*) Мы производим вычисления с матрицей 2 так же, как это
делали бы с матрицей 2.
116 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
ными. Следовательно, как большое количество осадков, так
и высокая температура повышают урожай сена, но в
большинстве случаев большое количество осадков наблюдается
при низкой температуре, и наоборот.
4.3.2. Распределение выборочного частного
коэффициента корреляции. Частные коэффициенты корреляции,
как показано в теореме 4.3.1, вычисляются из матрицы Ли.2 =
= Ли — А\2А22^2\ так же, как и обычные коэффициенты
корреляции из матрицы Л. Чтобы получить распределение
этих коэффициентов корреляции, мы показали, что Л рас-
пределена как 2 2JZa9 где Za — независимые и одинаково
распределенные случайные величины с законом
распределения N@, 2). Чтобы найти распределение выборочного
частного коэффициента корреляции, мы докажем
аналогичный результат. Этот результат получается из следующей
теоремы, которая установлена в более общей форме, так что
ее легче будет использовать в дальнейшем.
Теорема 4.3.2. Предположим, что Yv ..., Ym —
не зависящие от Ya векторы, распределенные N(Twa, Ф),
где wa — r-мерный вектор. Пусть G = 2 Yaw'aH~l, где
a
/f=2wawl — невырожденная матрица. Тогда случай-
а
т
ная величина 2 У «У*— ОНО' распределена так же, как
т—г
^jUaU'ai где Ua — не зависящие друг от друга, а также
a=l
от G векторы и каждый из них распределен N@> Ф).
Доказательство. Пусть W—{wv ...twm) и
F—квадратная матрица, такая, что FHF' = I (см. теорему 6
приложения 1); тогда P~lH~xF~l = /. Положим E2 = FW; тем
самым W=F~lE2. Тогда
E2Er = FWW'F' = F^ww'F' = FHFr = /. A7)
a=a a a
Таким образом, w-мерные строки матрицы Е2 являются
ортогональными и нормированными. Можно найти матрицу Ег
4.3] ЧАСТНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ Ц7
с т— г строками и т столбцами такую, что матрица
будет ортогональной (см. приложение 1, лемма 2). Пусть
теперь Y = (YV ..., Ym) = UE или U=YE' (т. е. Ua =
= Щ еа^Л- ^° теоРеме 3.3.1 столбцы матрицы U, скажем
i/a, независимы и одинаково распределены, причем
ковариационная матрица каждого столбца будет Ф. Среднее
значение U равно
№ = №YE' = TWEf = ТР"гЕ2(Е[ Е*2) = (О TF~l). A9)
Для завершения доказательства теоремы 4.3.2 нужно
показать, что
m—r
2 Yya—GHG'= 2 UJU.'a. B0)
a = l
По теореме 3.3.2
22
o = l et=l
Кроме того,
OHG' = l)l
= 2 UJK, B1)
l
Таким образом,
m mm mт
2 YX- Q'HQ = 2 UaU'a — 2 UJ/'a = 2 UJUl B2)
a=l a=l a = /w-r+l a=l
Теорема доказана. ,
Из приведенных выше рассуждений получается, что если
Г = 0, то М?/ = 0, и мы получаем следующее
Следствие 4.3.1. Если Г = 0, то матрица GH0\
определенная в теореме 4.3.2, распределена так же,
118 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ. 4
т
как 2 UJJ** ^e Ua — независимые, одинаково рас-
а = т~г+1
пределенные векторы с законом распределения N (О, Ф).
Теперь мы таким же образом найдем распределение
матрицы Ац.2 в той же форме. В теореме 3.3.1 было
показано, что А распределена так же, как 2 ZaZa, где Za —
независимые, одинаково распределенные векторы с законом
распределения N@, 2). Разобьем вектор Z% на два под-
вектора размерности gup — q соответственно
Тогда Л//= 2 ^Za . Условная плотность распределения
У а=1
а=1
Zf, .... Zjjl, при 42) = 42), .... ^_1 = ^'_1 равна
7V-1
JJ /i(«J0,S)
. Sn.2). B4)
где B = Si2S221 и Sii.2=^=Sii — ХиЗй'^гь Применим
теорему 4.3.2, считая, что 'Z[l) = Yat г(а2) = tva, N—\=m,
Ая — Н. В результате получим, что условное распределение
An — (AnAwl)A22(AnA[2) = An.2 при Zi2) = ^> совпадает
УУ-1-(/>-<7)
с распределением 2 ^ U1^ где ?/а — независимые, оди-
а = 1
наково распределенные случайные векторы с законом
распределения N@, 2ц.г). Так как это распределение не зависит
от 1^2)}. то справедлива следующая
4 3] ЧАСТНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ 119
Теорема 4.3.3. Матрица Лц.2 = 4ц—А^А^ А21 рас-
N-l-(p-q)
пределена так же, как 2 UJP'n* где Ua—независимые,
а = 1
одинаково распределенные векторы с законом
распределения N@, 2ц.2)«
В качестве следствия получаем
Следствие 4.3.2. Если 212 = 0 (В —0), то матрица
N-l-(p-q) f
А\\ .2 распределена так же, как 2 UJJa* а Л12Л22 Ач\—
а = 1
7V-1
так же, как 2 U U', где Un — независимые, оди-
a = N-(p-q) а а
наково распределенные векторы с законом распределения
N@, 21Ь2).
Отсюда следует, что частный коэффициент корреляции
rijq+it...,p выборки, построенной по N наблюдениям,
распределен так же, как обычный коэффициент корреляции
выборки, построенной по N — (р — q) наблюдениям над
генеральной совокупностью с коэффициентом корреляции
Теорема 4.3.4. Если функцию распределения
коэффициента корреляции Гц выборки объема N из
нормальной генеральной совокупности с коэффициентом
корреляции p(j обозначить F (r \N, Pi*), то функция распределения
частного коэффициента корреляции /*//.^+i, ...,р выборки
объема N из нормальной генеральной совокупности будет
F[r\N—(j>—q), 9ij.q+i р].
Это распределение было получено Фишером в 1924 году.
4.3.3. Проверка гипотез и доверительные области
для частных коэффициентов корреляции. Поскольку
распределение частного коэффициента корреляции rtj.q+i, ...t p
выборки объема Af из совокупности с частным коэффициентом
корреляцииp*y.<7+i,...,p> равным некоторой величине, скажем р,
совпадает с распределением обычного коэффициента
корреляции г выборки " объема N — (р — q) из совокупности
с соответствующим коэффициентом корреляции р, то все
методы получения статистических выводов относительно
обычных коэффициентов корреляции могут быть использованы и
для получения статистических выводов относительно частных
коэффициентов корреляции. Методика для получения выводов
120 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ 1ГЛ. 4
относительно частных коэффициентов корреляции точно
такая же, как и для получения выводов относительно
обычных коэффициентов корреляции, за исключением того, что
N заменяется на N — (р — q). Для иллюстрации этого
приведем два примера.
Пример 1. Предположим, что по выборке объема N
нам нужно получить доверительный интервал для pij.q+i, ...)/7.
Пусть выборочный частный коэффициент корреляции равен
rtj.g+\f ...>p. Методика состоит в том, чтобы использовать
диаграммы Дэвид для N — (р — q). Для примера,
приведенного в конце § 4.3.1, нам могло бы понадобиться найти
доверительный интервал для р12.3 с коэффициентом
доверия 0,95. Выборочный частный коэффициент корреляции
равен Г12.з = 0,790. Используем диаграмму (или таблицу) для
/^ — (/?—^) = 20—1 = 19. Интервал есть 0,52 < р^.з < 0,92.
Пример 2. Предположим, что, имея выборку объема N,
мы используем ^-величину Фишера для приближенного
критерия значимости для гипотезы Р/у><7+1> #..|/7 = р0 при
двусторонней конкурирующей гипотезе. Положим
B5)
Тогда у N — (р — q) — 3 (z — Со) сравнимо с точками
значимости нормированного нормального распределения. В примере,
приведенном в конце § 4.3.1, мы могли бы пожелать
проверить гипотезу pi3.2 = 0 при 5%-ном уровне значимости.
В этом случае Cq = O и z = ]/20 — 1 — 3 @,0973)=0,3892.
Эта величина, очевидно, не является значимой (| 0,38921<
< 1,96) и, следовательно, у нас нет основания отвергать
нулевую гипотезу.
4.4. Множественный коэффициент корреляции
4.4.1. Оценка множественного коэффициента
корреляции. Множественный коэффициент корреляции между
одной случайной величиной и множеством случайных величин
был определен в § 2.5 для совокупности. В этом параграфе
мы для простоты рассмотрим множественный коэффициент
4 4) МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 121
корреляции между Хх и множеством Х2, ..., Хр\ ставить
индексы при R нет необходимости. Случайные величины
всегда можно перенумеровать так, чтобы рассматриваемый
множественный коэффициент корреляции был коэффициентом
корреляции между первой из них и остальными (все
ненужные величины могут быть опущены). Тогда множественный
коэффициент корреляции генеральной совокупности будет
равен
PS22?' _ 1 /
—-у
где р, S(i) и 222 определяются из соотношений
Р = а<1J22. C)
По данной выборке xv ..., xN(N> p) мы оценим
матрицу 2 матрицей S = [N/(N—1)]S или
N
/ Он ^/i \ \
D)
и вектор Р — вектором ^=аAJ221 = аA)Л221« Выборочный
множественный коэффициент корреляции определим по
формуле
«II ^ ?11 " ^
Так как /?, ^(i), S22 мы можем определить как взаимно
однозначное преобразование матрицы 2, то в силу следствия
3.2.1 эта оценка является оценкой наибольшего
правдоподобия для R. Справедливо также другое выражение для R
[см. B0) § 2.5]: "
l-/?2:=JfJ = 1Л' . F)
*п|222| аи\А22\
R и § имеют такие же свойства в выборке, как R и р в
генеральной совокупности. Так, например, из всех (р—1)-
122
ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
[ГЛ. 4
мерных векторов-строк d, определяющих линейные
комбинации dx{2) координат вектора х{2\ вектор d—$ дает
N _ __,
минимум суммы 2 [(xia — х\) — ^ W} — -^^О]^ Прежде
всего заметим, что так как P = a(i)A221, то
N
G)
Таким образом,
N
= 2 [(Xu-Xi)-U*(?-
1
-d). (8)
Так как матрица А22 является положительно определенной
(за исключением случаев, когда полученные выборки имеют
нулевую вероятность), то минимум (8) достигается, когда
d — ^ = 0. Тем самым утверждение доказано. Само
минимальное значение равно
(как определено в § 4.3 при ^=1).
Этому результату можно дать интересную
геометрическую интерпретацию. yV-мерный вектор с а-й компонентой
хы — хг является проекцией вектора с а-й компонентой xia
на плоскость, ортогональную к прямой, образующей равные
углы с осями координат. У нас есть р таких векторов.
d{x^] — х{2)) является а-й компонентой вектора в
гиперплоскости, образованной последними р—1 векторами. Так
как (8) является расстоянием между перпым вектором и
линейной комбинацией оставшихся р — 1 векторов, то
Р(л42) — х{2)) является компонентой вектора, который дает
4.41
МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
123
минимум этого расстояния. Интерпретация формулы G)
такова: вектор с компонентой (х1а — хх) — C(л:12) — х{2))
ортогонален к каждому из последних р — 1 векторов. Таким
образом, вектор с компонентой р(лт?2) — х{)) является
г
Рис. 7.
проекцией первого вектора на гиперплоскость (рис. 7).
Квадрат длины проекции вектора равен
2 IP W2) - *B>)Г = U4' = ЩЦА?а'Л).
а квадрат длины первого вектора равен 2 (хи — -^iJ == a\v
а
Поэтому R равно косинусу угла между первым вектором и
его проекцией на гиперплоскость.
В § 3.2 мы видели, что обычный коэффициент
корреляции равен косинусу угла между двумя векторами ,(в
плоскости, ортогональной к прямой, образующей равные углы
с осями координат). Другое свойство R состоит в том, что
эта величина равна максимуму коэффициента корреляции
между хи и линейными комбинациями координат вектора лгB).
Этому соответствует следующая геометрическая
интерпретация: R есть косинус наименьшего угла между вектором
с компонентами (д:1а — хх) и вектором, лежащим в
гиперплоскости, образованной остальными р — 1 векторами.
Этот результат можно получить, исходя из геометрических
124 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4
соображений, или доказать из предшествующего результата
способом, аналогичным тому, который был использован при
доказательстве соответствующего утверждения для /?.
Рассмотренные геометрические интерпретации целиком
даны в терминах векторов, лежащих в (N—1)-мерной
гиперплоскости, ортогональной к прямой, образующей равные
углы с осями координат. В § 3.3 было показано, что в этой
гиперплоскости вектор (хп — xt, ..., xlN — xt) может быть
представлен в виде (ziV ..., zltN^.1)y где zia — координаты,
соответствующие (N— 1)-мерно'й системе координат в
гиперплоскости. Там же было показано, что новые координаты
получаются из старых посредством преобразования
N
xia = 2 zi$$a> где & является ортогональной матрицей с no-
Mi
следней строкой (l/|/7v, .... l/yOv). Поэтому
N _ _ 7V-1
Я/у = 2 (*/а — */) (XJa — *j) = 2
а=1 а=1
Удобно будет называть множественный коэффициент
корреляции, определенный в терминах zia, «множественным
коэффициентом корреляции без вычитания среднего».
При вычислении R приходится извлекать квадратный
корень из отношения а(\)А&а{\) к ап. Поскольку А
вычисляется прямо по наблюдениям, то особая техника требуется
лишь для вычисления Щ\)АмЩ\у Вычисления такого рода
рассматриваются в § 5.3.1.
4.4.2. Распределение выборочного множественного
коэффициента корреляции в случае, когда
множественный коэффициент корреляции генеральной совокупности
равен нулю. В силу E)
тогда
а\\
4.4] МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 125
Для # = 1 следствие 4.3.2 утверждает, что если C = 0, т. е.
_ N-p f
если /? = 0, то аП2 распределен как 2 ^«» а &{i)Am*{i)—
а= 1
ЛГ-1
как 2 ^а, где Va — независимые, одинаково распреде-
ленные случайные величины с законом распределения
N@, <зц.2). Поэтому ац.2/ац.2 и а^Ай^'ц/оц.г независимы
и имеют ^-распределения соответственно с N-— р и р— 1
степенями свободы. Таким образом,
О4)
имеет ^-распределение с р — 1 и N—р степенями свободы.
Плотность распределения вероятностей F равна
. 05)
Поэтому плотность распределения вероятностей величины
r
Г
P
—р P-1.N-P
N — p p-l,N~p
равна
2
Теорема 4.4.1. Пусть R — множественный
коэффициент корреляции между Хх и A^2)' = (Х2, ..., Хр)
[определенный формулой E)] — получен по выборке
объема N из совокупности N(ji, S). ^сла R = 0(m.e.
126 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
(и V(i)^ mo tW-#J] • l(M~p)/(p- 1)]
имеет F-распределение ср— \ и N—р степенями свободы.
Следует заметить, что р — 1 есть число компонент
вектора Х{2) и N—p=N — (р—1)—1. Если рассматривать
множественный коэффициент корреляции между компонентой
Xt и q остальными компонентами, то эти числа будут равны
соответственно q и N — q — 1.
Можно показать, что отношение /?2/A — R2) представляет
собой величину, с которой часто приходится иметь дело
в регрессионном анализе (или методе наименьших квадратов)
при проверке гипотезы о том, что регрессия Хх на Х2, ..., Хр
равна нулю.
Если R Ф О, то распределение R получить значительно
труднее. Этот случай мы рассмотрим в § 4.4.3.
Теперь рассмотрим статистическую задачу проверки
гипотезы Н: R = 0 по выборке объема N из совокупности
yV([t, 2). [R есть множественный коэффициент корреляции
генеральной совокупности между Хг и (Х2, ..., Хр).] Так
как /?^>0, то конкурирующая гипотеза состоит в том,
что 7г>0.
Выведем критерий отношения правдоподобия для
проверки этой гипотезы. Функция правдоподобия равна
= r-J гг ехР I - т
A8)
Результаты наблюдения нам даны, L является функцией
неопределенных р.* и 2*. Пусть со есть область в пространстве
параметров 2, соответствующая нулевой гипотезе.
Отношение правдоподобия 1) равно
*max L ([!*, 2*)
*Д*
max
!) В оригинале «The likelihood ratio criterion». Чтобы *не
путать эту величину с критерием как алгоритмом для проверки
гипотез, мы здесь и в дальнейшем это название величины \ будем
переводить не как критерий отношения правдоподобия, а как
отношение правдоподобия. (Прим. перев.)
4 4] МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 127
Критерий отношения правдоподобия состоит в том, что если
X меньше некоторой наперед заданной константы, то
нулевая гипотеза отвергается. Интуитивно ясно, что нулевая
гипотеза должна отвергаться, если плотность распределения
вероятностей наблюдений при наиболее благоприятном выборе
параметров согласно нулевой гипотезе намного меньше
плотности, полученной при наиболее благоприятном
неограниченном выборе параметров. Критерии отношения
правдоподобия обладают рядом важных асимптотических свойств
(Вальд [1]). В большинстве задач, относящихся к
многомерным нормальным распределениям, эти критерии являются
оптимальными или, по крайней мере, разумными.
Здесь 2 является пространством параметров р,*, 2*.
причем 2*— положительно определенные матрицы; а> — область
в этом пространстве, где /?= го^^^'о^/Уба^^, т. е.
где Gi2221ff(i)=0. Последнее условие вследствие того, что
матрица 2221 является положительно определенной,
эквивалентно условию агA) = О. Максимум функции ?(ft*, 2*) при
изменении параметров в области 2 достигается при jjl* = ft = х
и 2*= 2 =A/Л0А = A/А0 2(*« — *)(•*« — *)' и Равен
а=1
max AQi\ S*)= N l e j B0)
Функция правдоподобия ?(ц,*, 2*) при значениях параметров
в области со равна
2 4Jy }^
B1)
Первый множитель принимает максимальное значение
при 1*! = ^==^ и ои = ои = A/Л0ац, а второй — при
128 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ. 4
jiB)*— ?B) =х{2) и S22=S22 = (I//1/) Л22. Максимальное
значение функции правдоподобия равно
max LV. g)-",', " , ' , ¦ B2)
Таким образом, отношение правдоподобия равно [см. F)]
1* 1
1
= A —/?2J ^ ^ B3)
X^-JLAJ
al\ I A22 I
Критерий отношения правдоподобия дает критическую область
X < Хо, где Xq выбирается так, чтобы при R = О вероятность
неравенства X < Хо была равна а (уровню значимости).
Рассмотренный критерий, очевидно, эквивалентен следующему
критерию:
1-Х2/" = /?2>1-Х2Л B4)
Поскольку [/?2/A — #2)][(N—рI(р—1)] является
монотонной функцией /?, то из рассмотрения эквивалентного
критерия следует, что это отношение больше некоторой
константы. При /? = 0 это отношение имеет Fpmmh у^-распре-
деление. Следовательно, область значений /?, при которых
гипотеза принимается, определяется неравенством
где ^p-i, лг-р (а) есть (верхняя) точка значимости,
соответствующая уровню значимости а.
Теорема 4.4.2. Если xv ..., XN — выборка из
совокупности Af(ft, 2), то критерий отношения
правдоподобия* соответствующий уровню значимости а, для
гипотезы /? = 0, где 7? — множественный коэффициент
корреляции генеральной совокупности между Хг и
Xv ..., Хр, описывается неравенством B5), в
котором R — выборочный множественный коэффициент
корреляции, определяемый по формуле E).
4 41
МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
129
Так как плотность распределения вероятностей величины R
монотонно возрастает с ростом R (см. § 4.4.3), то можно
утверждать, что для проверки гипотезы R = 0 критерий B5)
является равномерно наиболее мощным в классе всех
критериев, зависящих от R. Поскольку R инвариантен
относительно преобразований х\а = сх\а ~\- d и х^* = С*42) -{- е и
является лишь единственной инвариантной функцией
достаточных статистик (см. задачу 20), то можно утверждать,
что критерий B5) является равномерно наиболее мощным
инвариантным критерием.
В качестве примера рассмотрим данные, приведенные
в конце § 4.3.1. Выборочный множественный коэффициент
корреляции определяется из
1
1
1,00 0,80
0,80 1,00
_0,40 —0,56
—0,40
—0,56
1,00
1
г23
г23
1
=0,357. B6)
1,00 —0,56
—0,56 1,00
Поэтому /? = 0,802. Если нам нужно при уровне значимости
0,01 проверить гипотезу о том, что урожай сена не зависит
от количества весенних осадков и температуры воздуха,
то мы вычислим [#2/A — R2)\ [B0 — 3)/C — 1)] = 15,3 с
^217@, 01)= 6,11 и получим значимый результат. Поэтому мы
отвергаем нулевую гипотезу.
Следует заметить, что критерий для проверки
независимости случайной величины Хг от вектора (Х2, ..., Хр) = Х®]'
эквивалентен критерию, заключающемуся в том, что если
регрессия Хх на х^ (то есть условное математическое
ожидание случайной величины Хг при условии Х2 = х2% ...
..., Хр = хр) равна fr + PC**2*— р>B)), то вектор
коэффициентов регрессии будет нулевым. ^ = Щ\)А221 является
обычной оценкой, полученной по методу наименьших
квадратов для случайной величины C с математическим
ожиданием ? и ковариационной матрицей o11.2i4^1, когда Х^
фиксированы; ап.гДМ — р) является обычной оценкой
величины о1Ь2. Таким образом [см. A3)],
#2 N—p M22P' N — p
-Я* р-\
а1Ь2
B7)
5 Т. Андерсон
130 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ 4
является обычной /^-статистикой для проверки гипотезы о том,
что регрессия Хх на лг2, ..., хр равна нулю.
Интересно отметить, что R является единственной
функцией параметров ji и 2, инвариантной относительно
изменений расположения случайных величин, масштаба Xv
а также относительно невырожденных линейных
преобразований вектора Х®\ Аналогично этому, R является
единственной функцией X и 2, достаточного множества статистик
для ji и 2, инвариантной относительно подобных
преобразований.
4.4.3, Распределение выборочного множественного
коэффициента корреляции в случае, когда
множественный коэффициент корреляции генеральной совокупности
не равен нулю. В этом параграфе мы найдем
распределение R для случая, когда нулевая гипотеза неверна, и убедимся
в том, что это распределение зависит только от
множественного коэффициента корреляции генеральной совокупности R.
Сначала мы рассмотрим условное распределение величины
7( /?2) = аA)Д21аA)/Л1Ь2 при Zi2) = *(«2), а=1 п.
В этом случае величины Zla независимы и распределены
по законам N($zf\ оц.2). где p = tf(iJ^1 и оц.2 = <зп —
— Q(i)%22lG(\)' Эти условия совпадают с условиями
теоремы 4.3.2 при Ka = Zla, Г = р. wa = z$)(r = p— 1),
ф = оц,2, т = п. Поэтому ац.2 = ац — ЯщАюЩц соответ-
т
ствует 2 ^«^а — ОНО'9 а ац.2/оц.2 имеет ^-распределение
1
с п — (р—1) степенями свободы. Величина ЩцА^Щг) =
= (щгуА®) && (щ\)Л221У соответствует GHG' и распределена
как 2^а(а = я — (Р — 0+1 я)» где D([/a) = on.2 и
\ B8)
где FHF' = l\H = F-\F'yx]. Поэтому аМ» e[i)/en-2 Pac"
пределена как ^(^а/Т/зи-гJ» где D(^/a/l/"aii.2)= 1 и
4.41 МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 131
Таким образом (при указанных выше условиях), а^А^Щц/оц^
имеет нецентральное х2~РаспРеДеление с р — 1 степенями
свободы и параметром РДагР'/^ьг (см- теорему 5.4.1). Мы^
приходим, таким образом, к следующей теореме.
Теорема 4.4.3. Пусть R— выборочный
множественный коэффициент корреляции между Х\ и Х{2)' =
= (Х2 Хр) выборки, построенной по N наблюдениям
{x\v М2))' ""• (xin' x(n)- Условное распределение
величины [R2№—R2)][(N—p)/(p—l)] при фиксированном х^
есть нецентральное F-распределение с р—1 и N — р
степенями свободы и параметром рЛ22?'/аи-2.
Условная плотность распределения вероятностей величины
F = lR2l(l—R2)]l(N — p)l(p—l)) (см. теорему 5.4.2) равна
Условная плотность распределения величины W'= R2
(df = [(Л/ — /?)/(/? — 1)] A — w) ~2 dw) равна
C1)
J
Для того чтобы получить безусловную плотность
распределения вероятностей, нужно сначала умножить C1) на
плотность распределения вероятностей Zf* Z^\ тем самым
мы получим совместную плотность W и Zf* Z^; затем,
б*
132 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ. \
интегрируя по переменным zv ..., zn, получим частную
плотность распределения вероятностей величины W. Имеем
Так как вектор Z^2) распределен N (О, 222), то
распределен нормально с нулевым математическим
ожиданием и дисперсией
\ У «11.2 / «11.2
_
- ftrf' 1 - PSmP7<»iI 1 - /?2
Таким образом, ((Мгг^МьгУ^/О—^2I имеет x2-jacnpe-
деление с п степенями свободы. Пусть /?2A—R2) = <f.
Тогда Р^Ц2Р7<»п.2 = (РЗЙ- ПолУчаем
Me , г
oo-
фа Г
2* J
U2 g 2
о
1— "г —^ =
«« Г 1 уЯ+а-1 -1
= -5Г — и е
J тп /1 \
= 1 /i \ I ~t
-л+а Tl±_n) J -x-
/ ^
-/г+а-1 - —v
2 e г dv ~
. C4)
4 41 МНОЖЕСТВЕННЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ 133
Применяя этот результат к C1), получаем в качестве
плотности распределения вероятностей величины R2
C5)
Это распределение получено Фишером в 1928 году.
Легко проверить, что эту плотность можно записать
также в виде
n. ~n; ^(p-l); R2R2], C6)
где F—конфлуэнтная гипергеометрическая функция.
При четном п — /?+1 можно получить другую формулу
для этой плотности. Имеем
?
\dt)
4"
2
134 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4
Следовательно, плотность равна
' (Z?2) (Р'ЩA -R^(n~P'l) х
C8)
Теорема 4.4.4. Плотность распределения
вероятностей R2, квадрата множественного коэффициента
корреляции между Хх и Х2, .., Хр, полученного по
выборке объема N = п-\-\, дается формулой C5) или
C6) [или C8), если п — /?+1 четно], где R2—квадрат
соответствующего множественного коэффициента
корреляции генеральной совокупности.
Моменты R равны
— Ъ П СО
- ° \- * / — \o>*ir~/-|Q\/'i'- */1Г"|
. C9)
ЛИТЕРАТУРА
§ 4.2. Гзйен [1]; Гэрвуд [1]; Дзвид [1], [2]; Кендалл [3
стр. 324—347; К оно [1]; Крамер [2]; К. Пирсон [4], [5
Сато [1]; Сопер, Янг, Кэйв, Ли и Пирсон [1]; Уилкс [10!
стр. 116—120; Фишер [1], [2]; Фишер и Иейтс [1]; Хотел
л инг [9]; X эр л и [1].
§ 4.3. Иссерлис [1], [2]; К ел ли [1]; Кендалл [3],
стр. 368—379; Крамер [2]; М а й н е р [1]; Фишер [3]; Холл [1];
V +т 90 л ¦*-*. Г 1 1
Хукер[1].
§ 4.4. Банерджи [1]; Иссерлис [3J; Кендалл
Бозе
ш ер
стр. 380—385; Крамер [2]; Морэн [1]; С. Н. Рой и Р.
Уилкс [3], [10], стр. 244—245; Уишарт [2]; Фи
Холл [1].
Ко всей главе 4: Бартлетт [1); Е зеки ль [1]; К ел л и [2J;
Мариц [1]; Симонсен [1J; Фриш [1J; Эльфвинг [1J.
ЗАДАЧИ 135
ЗАДАЧИ
1. (§ 4.2.1) Начертить график плотности
х г» V**
для (а) // = 3, (б) N = 4, (в) N = 5 и (г) W = 10.
2. (§ 4.2.1) Используя данные задачи 1 главы 3, проверить
гипотезу о том, что Хх и Х2 независимы при уровне значимости 0,01.
Конкурирующая гипотеза состоит в том, что Х{ и Х2 зависимы.
3. (§ 4.2.1) Предположим, что коэффициент корреляции 0,65
получен по выборке объема 10. Проверить гипотезу о
независимости при уровне значимости 0,05. Конкурирующая гипотеза состоит
в том, что величины положительно коррелированы.
4. (§ 4.2.2) Предположим, что коэффициент корреляции,
полученный по выборке объема 20, равен 0,65. Проверить гипотезу
о том, что коэффициент корреляции совокупности равен 0,4 при
уровне значимости 0,05. Конкурирующая гипотеза состоит в том,
что коэффициент корреляции совокупности больше 0,4.
5. (§ 4.2.1) Найти точки значимости для проверки гипотезы р = 0
при уровне значимости 0,01, если число наблюдений N=15, а
конкурирующая гипотеза состоит в том, что (а) р Ф 0, (б) р > 0 и
(в) р<0.
6. (§ 4.2.2) Найти точки значимости для проверки
гипотезы р = 0,6 при уровне значимости 0,01, если число наблюдений
N = 20, а конкурирующая гипотеза состоит в том, что (а) р Ф 0,6,
(б) р > 0,6 и (в) р < 0,6.
7. (§ 4.2.2) Составить таблицу функции мощности при
р = — 1 @,2) 1 для критериев в задаче 5. Построить графики всех
функций мощности.
8. (§ 4.2.2) Составить таблицу функций мощности при
р == — 1 @,2) 1 для критериев в задаче 6. Построить графики этих
функций мощности.
9. (§ 4.2.2) Используя данные задачи 1 главы 3, найти
двусторонний доверительный интервал для р12 с коэффициентом
доверия 0,99.
10. (§ 4.2.2) Пусть N=10, г = 0,795. Найти односторонний
доверительный интервал для р [в форме (г0, 1)] с коэффициентом
доверия 0,95.
11. (§ 4.2.3) Использовать ^-распределение Фишера для
проверки гипотезы р = 0,7 при конкурирующей гипотезе р Ф 0,7 и
уровне значимости 0,05, если г = 0,5 и N = 50.
12. (§ 4.2.3) Использовать ^-распределение Фишера для
проверки гипотезы pi = р2 при конкурирующей гипотезе р, Ф р2 и
уровне значимости 0,01, если гх = 0,5; Nx = 40; r2 =» 0,6; N2 = 40.
13. (§ 4.2.3) Использовать ^-распределение Фишера для оценки р
по выборочному коэффициенту корреляции —0,7 (N = 30), а также
по выборочному коэффициенту корреляции —0,6 (N = 40).
136
ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
[ГЛ 4
14. (§ 4.2.3) Использовать ^-распределение Фишера для
нахождения доверительного интервала для р с коэффициентом
доверия 0,95 по выборочному коэффициенту корреляции 0,65 при объеме
выборки N = 25.
15. (§ 4.3.2) Найти доверительный интервал для р13#2 с
коэффициентом доверия 0,95, если г13.2== 0,097 и N = 20.
16. (§ 4.3.2) Использовать ^-распределение Фишера для
проверки гипотезы р12.34 = 0 при конкурирующей гипотезе Pi2.34 ^ ^
с уровнем значимости 0,01, если г12.з4~ 0,14 и N = 40.
_ 17. Оценками р и 2 в задаче 1 главы 3 являются величины
*' = A85,72 151,12 183,84 149,24),
/95,2933 52,8683
52,8683 54,3600
69,6617 51,3117
\ 46,1117 35,0533
69,6617 46,1117
51,3117 35,0533
100,8067 56,5400
56,5400 45,0233,
(а) Найти оценки параметров условного распределения (дг3, хА)
при данных (xv х2), т. е. найти ^l^ii1 и ^22-1 ~ ^22 "~ ^2\s\\s\2-
(б) Найти частный коэффициент корреляции г34.12-
(в) Использовать ^-распределение Фишера для нахождения
доверительного интервала для Р34.12 c коэффициентом доверия 0,95.
(г) Найти выборочный множественный коэффициент корреляции
между х3 и (хь х2), а также между хл и (хь х2).
(д) Проверить гипотезы о том, что х3 не зависит от (хи х2)
и хА не зависит от (хь х2) при уровне значимости 0,05.
18. Пусть компоненты вектора X соответствуют скорости
производства вычислений №), способности производить
вычисления (Х2), памяти на слова (Х3), памяти на осмысленные
символы (Х4) и памяти на бессмысленные символы (Хъ).
Коэффициенты корреляции, полученные по 140 наблюдениям
(К е л л и [2]), равны
1,0000 0,4248 0,0420 0,0215 0,0573
0,4248 1,0000 0,1487 0,2489 0,2843
0,0420 0,1487 1,0000 0,6693 0,4662
0,0215 0,2489 0,6693 1,0000 0,6915
0,0573 0,2843 0,4662 0,6915 1,0000
(а) Найти частный коэффициент корреляции между Х4 и X5i
считая Л'з фиксированной.
(б) Найти частный коэффициент корреляции между Хх и Х2,
считая Х3, Х4 и Хь фиксированными.
(в) Найти множественный коэффициент корреляции между Хх
и множеством XZ} Х4 и Хъ.
ЗАДАЧИ 137
(г) Проверить при 1%-ном уровне значимости гипотезу о том,
что скорость производства вычислений не зависит от трех величин,
представляющих собой память на слова, память на осмысленные
символы и память на бессмысленные символы.
19. (§ 4.2) Доказать, что в двумерном случае г12 является
единственной функцией достаточных статистик х и 2, инвариантной
относительно изменения расположения и масштаба (т. е.
относительно преобразований xia = ctxi(l -f- dt\ i = 1, 2, c^ > 0).
20. (§ 4.4) Доказать утверждение, приведенное в конце § 4.4.2,
о том, что R является единственной функцией достаточных
статистик х и 2, инвариантной относительно изменения расположения
и масштаба величины х1а и невырожденных линейных
преобразований вектора х^ (т. е. относительно преобразований
21. Доказать, что если 9ij.q+\t..., р — 0, то
имеет /-распределение с N — 2 — (/? — q) степенями свободы.
22. Пусть вектор Xf =*(Xlt Х2, Х^') распределен N(\t, S).
Условным распределением Х{ при Х2-=х2 и ХB) = jcB) будет
„., р\,
где
'в22 «I
°B) S
Оценки величин f2 и Т определяются из условия
2 вB)\/С2
аB) A22
Показать, что с2 = a12.3f ..ш| p/a22-z,..., /?• [Указание. Выразить с
через с2 и а.]
23. В обозначениях задачи 22 доказать, что
а
П -2, ..., р
1аA) — С2 (а22 — а(
[Указание. Использовать соотношение
138 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ ГГЛ 4
24. Доказать, что 1/а223,...,/? равно элементу матрицы
' Л22 а<
стоящему в верхнем левом углу.
25. Используя результаты задач 21, 22, 23 и 24, доказать, что
критерий для проверки гипотезы р12.3 р = 0 эквивалентен
обычному ^-критерию при Y2 = 0.
26. (§ 4.2.2) Доказать, что при N = 2 и р = 0
Р{г=1}=Р{г = -1}=1.
27. Допустим, что вектор A'/ = (K/Z0, где К — /?-мерный,
a Z —^-мерный векторы, распределен #(ц, 2), где
Пусть произведено М наблюдений над X и N—M дополнительных
наблюдений над К. Найти оценки наибольшего правдоподобия для р.
и 2. [Указание. Выразить функцию правдоподобия через частную
плотность распределения вероятностей У и условную плотность
распределения вероятностей Z при фиксированном Y.]
28. Предположим, что X распределен N @, 2), где
Показать, что по результатам одного наблюдения х' = (хъ х2> х3)
можно получить доверительный интервал для р (с коэффициентом
доверия 1 — е), используя в качестве конечных точек интервала
корни t уравнения
е)'2-2(*1*2 + *2*з)' +*? + *2+*!-*.« 0.
где Ке — точка значимости, соответствующая х2-РаспРеДелению
с тремя степенями свободы для уровня значимости е. •
29. (§ 4.2) Пусть kN (r, р) — плотность распределения
вероятностей выборочного коэффициента корреляции г для данных
значений р и N. Доказать, что отношение правдоподобия для г является
монотонной функцией г, т. е. показать, что если pi > р2, то
kN(г> h)lkN(r> h) монотонно возрастает с ростом г. [Указание.
Используя C6), показать, что если
оо
^n+i' j0 + 9г)] =
о-О
ЗАДАЧИ 139
имеет монотонное отношение правдоподобия, то этим свойством
обладает и kN (г, р). Показать, что
+ РI О 32
2 2jMl+rp)«
[_a = 0
если (д2/д? дг) g (r, p) > 0, то g (r, р) имеет монотонное отношение
правдоподобия. Показать, что стоящая в числителе двойная сумма
является положительной, поскольку при каждом а сумма по р
положительна; использовать тот факт, что са+1 < -у са.
30. (§ 4.2) Показать, что из всех критериев для проверки
гипотезы р = ро при конкурирующей гипотезе р = pi (> Ро), основанных
на выборочном коэффициенте корреляции г, критерий, отвергающий
гипотезу при г > с, является наилучшим. [Указание. Это является
следствием задачи 29.]
31. (§ 4 2) Показать, что из всех критериев для проверки
гипотезы р = р0 при конкурирующей гипотезе р > р0, основанных на
выборочном коэффициенте корреляции г, критерий, отвергающий
гипотезу при г > с, является равномерно наиболее мощным.
32. (§ 4.2) Доказать, что отношение правдоподобия для г при
г>0, р>0 монотонно, доказав, что отношение h (r)—kN(r, Pj)/^ (г, р2)
монотонно возрастает при ?! > р2. h (r) может быть записано в виде
/со \ / <х> \
h (г) = I 2 caPira )/( 2 caP2r<X ) • Показать, что коэффициент при г*
\а»0 /' \а = 0 /
в числителе производной h' (r) является положительным.
33. (§ 4.4) Доказать, что при условии Zla == zlOi (a = 1,_..., л)
отношение R2/(l~R2) распределено как T2/(Nk—1), где T2=Nx'S~lx
построено по N * = п наблюдениям над р* = (р — 1)-мерным
вектором X со средним значением (c/qn)qm (пс2 = S^ia) и
ковариационной матрицей 2221 — ^22 — 0/аи) a(if(iy [Указание.
Z®) при Zla = zla распределен М[A/ап)сг('1)(г1а, Sgg.J. Существует
ортогональная матрица В порядка пХп, которая переводит (г{Ь.„,гХп)
в (с,..., с) и (Zn, ..., Zin) в (Гц Г,„), / = 2, ...,/?. Пусть
новые векторы Л(а будут (К2а,..., Ури)-]
34. (§ 4.4) Доказать, что параметр нецентрального
распределения, рассмотренного в задаче 33, равен (au/<su) R2/(l — /?2).
35. (§ 4.4) Найти распределение отношения ^2/A — /?2),
умножив плотность распределения вероятностей, рассмотренную в
задаче 33, на плотность распределения вероятностей ап и
проинтегрировав по аи.
36. (§ 4.2) Доказать, что если матрица S является диагональной,
то множества Г/у и ац независимы. [Указание. Использовать
тот факт, что Гц инвариантен относительно преобразования
140 ВЫБОРОЧНЫЕ КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ [ГЛ. 4
масштаба и что плотность распределения вероятностей наблюдений
зависит только от ац.\
37. (§ 4.2.1) Доказать, что если р = 0, то
38. (§ 4.2.2) Доказать, что fx (р) и /2 (р) являются монотонно
возрастающими функциями р J).
39. (§ 4.2.2) Доказать, что плотность распределения
вероятностей выборочного коэффициента корреляции г (данная формулой C4)),
равна
1
li1
П—1 П р2\2 A_Г2\2 /
* ( Р) u ' / (i-
хп-\
[Указание. Разложить A — 9rx)n B степенной ряд,
проинтегрировать и использовать формулу удвоения для гамма-функции.]
!) См. стр. 100. (Прим. перев.)
ГЛАВА 5
ОБОБЩЕННАЯ 72-СТАТИСТИКА
5.1. Введение
Одна из наиболее важных групп задач одномерной
статистики связана с вопросами, касающимися оценки
математического ожидания некоторого распределения, дисперсия
которого неизвестна. Бывают случаи, когда по выборке хотят
решить, равно ли математическое ожидание некоторому
наперед заданному числу, или же указать интервал, в котором
находится математическое ожидание. В одномерных случаях
обычно используется статистика, являющаяся частным от
деления разности между выборочным средним значением х
и гипотетическим математическим ожиданием генеральной
совокупности на среднее квадратичное уклонение s. Если
выборка произведена из совокупности N(\b, о2), то величина
t = YW^^ A)
имеет хорошо известное ^-распределение с N—1 степенями
свободы, где N—объем выборки. Основываясь на этом,
можно построить критерий для проверки гипотезы р. = ^х0.
где [х0 — заданное число, или построить доверительный
интервал для неизвестного параметра [х.
Многомерным аналогом квадрата величины t,
определенной формулой A), является величина
72 = N(i — tfs^Oc — ji), B)
где х — вектор среднего значения и S — ковариационная
матрица выборки объема N. В этой главе будет показано,
как можно использовать эту статистику для проверки
гипотез о векторе среднего значения генеральной совокупности {«•
142 ОБОБЩЕННАЯ ^-СТАТИСТИКА [ГЛ 5
и для получения доверительных областей для неизвестного
вектора ji. Будут рассмотрены также другие применения
этой статистики. Для двух выборок Т2 — статистика была
предложена Хотеллингом [1], который получил ее
распределение при условии, что справедлива нулевая гипотеза.
5.2. Обобщенная 72-статистика
и ее распределение
6.2Л. Т2-статистика как функция отношения
правдоподобия. Несмотря на то, что 72-статистика имеет много
применений, мы начнем ее изучение с доказательства именно
того, что критерий отношения правдоподобия для проверки
гипотезы Н\ {i = {io по выборке из совокупности N(p, 2)
основан на 72-статистике, определенной формулой B) § 5.1.
Предположим, что мы произвели N наблюдений xv ..., xN
(N > р). Функция правдоподобия равна
— exp
L a»l
A)
Результаты наблюдений нам даны; L является функцией
неизвестных {1, 2~\ (Мы не будем делать различия в
обозначении неизвестных и параметров.) Отношение правдоподобия
равно
Числитель равен максимуму функции правдоподобия для ji,
2~J в пространстве параметров, ограниченном нулевой
гипотезой ({1=={10, 2Г1 — положительно определенная матрица),
а знаменатель — максимуму функции правдоподобия для [t
и 2" во всем пространстве параметров B — положительно
определенная матрица). Если параметры выбирать
произвольно, то максимум L достигается, когда |1 и 2 опре-
5.2) ОБОБЩЕННАЯ Г-СТАТИСТИКА И ЕЕ РАСПРЕДЕЛЕНИЕ 143
деляются оценками наибольшего правдоподобия для ц и ?
(см. § 3.2)
D)
Если {i = |*o> то п0 лемме 3.2.2 функция правдоподобия
принимает максимальное значение при
у —1
*« ~~ N
E)
Более того, по лемме 3.2.2
max
max/L(ji0> 2 ') = i 1—e 2"
s BuJ |2J2
Таким образом, отношение правдоподобия равно
±лг
F)
G)
Iff
2
где
= S (*. — *) (*« — */ = (N — 1) S.
(8)
Так как |в|=^0 и в силу формулы F2) приложения 1
В С
D Е
В С\\1 -В~С
D Е\ О
-I-
/
в о
D E — DB~XC
— DB~lC\. A0)
144 ОБОБЩЕННАЯ Г2-СТАТИСТИКА [ГЛ. 5
Применяя этот результат дважды, получаем
—щ,)! \Vn <*- П)\\
\А\
— К77 (ic — i
r^o/Д (JC —
где
A2)
Критерий отношения правдоподобия определяется
критической областью (областью тех значений X, при которых
гипотеза отвергается)
^V A3)
где Хо выбирается так, чтобы вероятность неравенства A3)
при условии, что нулевая гипотеза верна, была равна уровню
значимости. Извлекая из обеих частей неравенства A3) корень
степени Л//2, переходя к обратным величинам и умножая
полученное неравенство на N — 1, получаем
A4)
где
Tl = (N-l)(Xo2/N-l). A5)
Теорема 5.2.1. Критерий отношения правдоподобия
для проверки гипотезы ft = [i0 no выборке объема N
из совокупности N(|i, S) дается формулой A4), где Т2
определяется соотношением A2), х — среднее значение
выборки объема N из совокупности N(p, S), S —
выборочная ковариационная матрица; Т\ выбирается так,
чтобы вероятность неравенства A4) при условии, что
справедлива нулевая гипотеза, была равна выбранному
уровню значимости.
/-критерий Стьюдента обладает тем свойством, что при
проверке гипотезы [л = 0 он инвариантен относительно прг-
образования масштаба. Если скалярная случайная величина X
распределена Л/" (р., о2), то Х* = сХ распределена N(cp, c2o2)t
5 2] ОБОБЩЕННАЯ Г-СТАТИСТИКА И ЕЕ РАСПРЕДЕЛЕНИЕ 145
т. е. имеет распределение того же класса, что и
распределение X. Гипотеза JVLY = O эквивалентна гипотезе №Х* =
= ЖсХ = 0. Если взять преобразование подобия х*а = сха
результатов наблюдений ха, то при с > 0 t* будет так же
вычисляться через #*, как t — через ха. Таким • образом,
какую бы единицу измерения мы ни выбирали,
статистический результат будет одним и тем же.
Аналогичными свойствами обладает обобщенный
критерий Г2. Если случайный вектор X распределен М(ц, 2), то
вектор Х* = СХ (при \С\Ф0) распределен Af(Cji, CSC'),
которое является распределением того же класса, что и
распределение вектора X. Гипотеза №Х=0 эквивалентна
гипотезе №Х* = МСХ~0. Если х^ = Сха есть
преобразование подобия результатов наблюдений ха, то Т* вычисляется
через xfa так же, как и Г2 — через ха. Это следует из того,
что Х* — Сх и А* = САС\ и из следующей леммы.
Лемма 5.2.1. Для любых невырожденных матриц С
и Н порядка (рХР) и любого вектора k
fiH'^k = (С*)' (СНС)'1 (Ck). A6)
Доказательство.
(СЛ) (G/7L ) (СЛ) =« С (С ) п С Lk = ft п к. A7)
В § 5.5 будет показано, что из всех критериев,
инвариантных относительно преобразований подобия, критерий A4)
является равномерно наиболее мощным.
Дадим геометрическую интерпретацию корня степени N/2
из отношения правдоподобия
N _
A8)
в терминах параллелепипедов (см. § 7.5). В р-мерной
интерпретации числитель X' является суммой квадратов объемов
всех параллелепипедов, главными ребрами которых являются
р-мерные векторы, одним концом каждого из которых
является точка х, а другим концом — точка ха. Знаменател'.
146 ОБОБЩЕННАЯ Я-СТАТИСТИКА [ГЛ 5
является суммой квадратов объемов всех параллелепипедов,
главными ребрами которых являются /?-мерные векторы,
выходящие из точки [i0, концами которых являются точки ха.
Пусть сумма квадратов объемов параллелепипедов,
построенных на векторах, выходящих из точки X— «центра»
точек ха, — много меньше суммы квадратов объемов
параллелепипедов, построенных на векторах, выходящих из точки fi0.
Тогда мы отвергаем гипотезу о том, что ji0 является
средним значением исследуемого случайного вектора. Можно дать
также интерпретацию в терминах yV-мерного пространства.
Пусть у} — (хп, ..., xiN) есть /-й вектор. Тогда
а = 1
есть расстояние от начала координат до проекции точки yt
на прямую, образующую равные углы с осями координат
(с направляющими косинусами -72=-, ..., г— )» Коорди-
\ у N У N ]
натами проекции являются (л^ xj). Тогда вектор
(хп — x-v ..., xiN —xt) является проекцией у1 на плоскость,
проходящую через начало координат перпендикулярно
прямой, образующей равные углы с осями координат.
Числитель в A8) является квадратом объема /7-мерного
параллелепипеда с главными ребрами, являющимися векторами
(хп —~xi> • • • • xiN ~хд- Точка (*л — tV • • • • *ш — Ы)
получается перемещением точки у( параллельно прямой,
образующей равные углы с осями координат (на
расстояние V^V^o/). Знаменатель в A8) является квадратом объема
параллелепипеда, главные ребра которого совпадают с
векторами (хп — (jl0/, ..., xlN — |i,w). Следовательно, №N равно
отношению этих квадратов объемов.
б.2,2. Распределение Т2. В этом параграфе мы найдем
распределение величины Т2 в общем случае, включая случай,
когда нулевая гипотеза неверна. Пусть Т = Y S К, где Y
п
распределен N{yt S), a nS распределена как 2 ^<Ж»
сс= 1
где Za — независимые одинаково распределенные случайные
векторы с законом распределения N @, 2). Г2, определенная
в § 5.2.1, является частным случаем новой величины Т2 и
5.2] ОБОБЩЕННАЯ Г-СТ^ТИСТИКА И ЕЕ РАСПРЕДЕЛЕНИЕ 147
получается из нее при У = ]/;? (х — ji0), v = YN (ft — ji0)
и n — N—1. Пусть невырожденная матрица D такова, что
DlD' = /, и определим
B0)
v* = />v.
Тогда (по лемме 5.2.1) Г2 = K*/<S*~IK*. где Y* распределен
п п
/V(v*. /), a nS* распределена, как 2 KZa' — 2 DZa (DZJ,
где Zl = DZa — независимые одинаково распределенные
случайные векторы с законом распределения N@, /). Заметим,
что v/S~4 = v*'^)"*1 v* = v*4*.
Выберем в качестве первой строки ортогональной
матрицы Q порядка (р X Р) строку с элементами
Яи= лГЦ— ('=!..... Р). B1)
У у*'у*
Такой выбор возможен, поскольку 2#н —*• Остальные
р — 1 строк можно выбрать методом, указанным в лемме 2
приложения 1. Матрица Q является случайной, так как она
зависит от К*. Теперь положим
bZZsq: ! B2)
В силу определения Q
B3)
Поэтому
'bn bn ... b*P
-(^...0,1 *¦ *"-..^][ ° L^", B4)
,6pl ^
^2 app
148 ОБОБЩЕННАЯ Я-СТАТИСТИКА [ГЛ. 5
где (Ь**) = В~1. В силу задачи 18 главы 2
!/^U = #11 6A)^22^A) = #11-2, .... р,
где
(Ь\ Ьп\
A) #22
и Т2/п = U\fbu>2,..., р = У* Y*/bn.2,..., /?. Условное
распределение Z? при фиксированной Q совпадает с распределе-
п
нием суммы 2 ^а^'а» где ПРИ Данном Q векторы Va = QZa
a=l
являются независимыми и одинаково распределенными с
законом распределения N@, /). По теореме 4.3.3 условное
распределение величины Ьц.2....,р совпадает с распределением
п-{р-\)
суммы 2 W«, где при данных условиях Wa — независи-
a = l
мые, одинаково распределенные случайные величины с
законом распределения N@, 1); т. е. &ц.2,...,р условно
распределен как х2 с п — (р—1) степенями свободы. Поскольку
условное распределение величины ?ц.2, ...,р не зависит от Q,
то безусловное распределение этой величины совпадает
с х2"РаспРед.елением- Случайная величина К* У* имеет
нецентральное ^-распределение с р степенями свободы и
параметром v*v* = v'S~1v. Поэтому Т2/п распределено как
отношение нецентральной величины х2 к не зависящей от нее
величине х2.
Теорема 5.2.2. Пусть T2=Y'S~lY, где Y
распределен Af(v, 2), а матрица nS не зависит от Y и рас-
п
пределена как 2 %*&** где Za независимые, одинаково
a=l
распределенные случайные векторы с законом
распределения N@, 2). Тогда (T2ln)[(n — p-f l)/p] имеет
нецентральное F-распределение с р и п — р + 1
степе'4
нями свободы и параметром v'S". Если v = 0, то
распределение является центральным F-распределе-
нием.
Такое распределение мы назовем ^-распределением
с п степенями свободы.
5.3] ПРИМЕНЕНИЯ Г-СТАТИСТИКИ 149
Следствие. 5.2.1. Пусть хх xN—выборка из
совокупности N(pt 2) и T2 — N(x— р0)'S~* (x— ji0).
Тогда величина [T2/(N— 1)] l(N — p)/p] имеет
нецентральное F-распределение ери N — р степенями свободы и
параметром N(|i — {Iq/S^ — jjl0). Если fi = {t0, то
это F-распределение является центральным.
Приведенный выше вывод ^-распределения принадлежит
Баукеру (сообщено в частном порядке). Плотность
нецентрального /^-распределения и таблицы распределения
рассматриваются в § 5.4.
5.3. Применения 72-статистики
5.3.1* Проверка гипотезы о том, что вектор
математического ожидания равен данному вектору.
Вычисление Т2. Как показано в § 5.2.1, критерий отношения
правдоподобия для проверки гипотезы р, = ji0 по выборке
объема N из совокупности iV([i, 2) эквивалентен критерию
t> 7t A)
Если уровень значимости равен а, то берется 100а%-ная
точка /^-распределения, т. е.
Выбор уровня значимости может зависеть от мощности
критерия. Этот вопрос мы рассмотрим в § 5.4.
Г2-статистика просто вычисляется по выборке. Положим
A~l(x — {io) = 6. C)
Этот вектор является решением уравнения
46 = (i-ji0). D)
Если вектор Ь получен из уравнения D), то
Таким образом, нет нужды вычислять Л или S. В самом
деле, если для решения уравнения D) использовать метод
Дулиттла (Doolittle), то нужно лишь следовать за передовым
150 ОБОБЩЕННАЯ Г2-СТАТИСТИКА [ГЛ 5
решением. В § 8.2 показано, что передовое решение
получается посредством умножения D) слева сначала на
матрицу F (такую, что FA является треугольной матрицей),
а затем на матрицу D, где D — диагональная матрица
с диагональными элементами, равными соответствующим
диагональным элементам FA. В правой части при этом
получается сначала F(x — jjl0), а затем D~lF(x— [t0). Поэтому
[F(x-\iQ))[D-lF(x — {to)] =
= (х — ji0)' FD]F(x — ji0) = (x — ji0)' A (x — fi0),
так как FD~lF= A~l. Детали этой процедуры и
доказательство приведены в § 8.2.
Интересно отметить, что T*I(N—1) является ненулевым
корнем уравнения
{10)'-ХЛ| = 0. F)
Лемма 5.3.1. Если v—р-мерный вектор,
В—невырожденная матрица порядка (р X Р)* то v B~]v
является ненулевым корнем уравнения
|vv' — Xfi| = 0. G)
Доказательство. Ненулевой корень уравнения G),
скажем \v связан с характеристическим вектором ^
уравнением
vv'P = M?p. (8)
Поскольку \ Ф 0, то v'P Ф 0. Умножая (8) слева на v'/*~\
получаем
(v/B-%)(v'p) = X1(v'p), (9)
что и доказывает лемму. В случае, рассмотренном выше,
v=yTV(i-|io) и В = А.
6.3.2. Доверительная область для вектора среднего
значения. Если р. есть среднее значение распределения Af (ji, S),
то, как мы знаем, вероятность получить выборку объема N
со средним х и выборочной ковариационной матрицей S
такую, что
{*)' S (*-1*)<7о(а) A0)
5 3] ПРИМЕНЕНИЯ Г2-СТАТИСТИКИ 151
равна 1—а. Таким образом, если для конкретной выборки
произвести вычисления по формуле A0), то утверждение
относительно ji, выраженное формулой A0), будет
справедливо с доверием 1—а. Совокупность точек, координаты
которых удовлетворяют неравенству
N(x — m)' S~l(x — т)<Го(а), A1)
образует в /7-мерном пространстве внутренность и границу
эллипсоида с центром в точке х, размеры и форма
которого зависят от J и а (рис. 8). Мы утверждаем, что ji
лежит внутри этого
эллипсоида. Эллипсоид A1) является
случайным, так как выборка
случайна.
5.3.3. Проблема двух
выборок. С другим случаем при-
менения 72-статистики мы
сталкиваемся при проверке
гипотезы о том, что среднее зна- Рис. 8.
чение одной нормальной
генеральной совокупности равно среднему значению другой
нормальной генеральной совокупности при условии, что
ковариационные матрицы этих совокупностей равны, но
неизвестны. Предположим, что у[1К ..., у$ — выборка из сово-
i
купности N(jiW, 2), / == 1, 2. Мы хотим проверить нулевую
гипотезу ji(J) = {л<2>. у<) распределен N[\fSl\ A/Л^J].
Следовательно, при условии, что нулевая гипотеза справедлива,
1 (У1}—У2)) распределен N@, 2). Положим
Nt+N2-2
Тогда (Nx-{-N2 — 2) S будет распределена, как 2 ^a^a.
где Za распределен /V@, S). Таким образом,
^tf1'-?2')'5''^-?2') A3)
152
ОБОБЩЕННАЯ Г-СТАТИСТИКА
[ГЛ 5
распределена как Т2 с Ni-jrN2 — 2 степенями свободы.
Критическая область для уровня значимости а определяется
неравенством
(Nx+N2-2)p
Мы можем, очевидно, на основе Г2-статистики построить
доверительную область для ji/2) — р/1).
Рассмотрим пример, заимствованный из работы
Фишера [5]. Пусть хх — длина чашелистика, х2 — его ширина,
лг3 — длина лепестка, х4 — его ширина. Было произведено
50 наблюдений над совокупностью Iris versicolor A) и
50 наблюдений над совокупностью Iris setosa B).
Полученные данные могут быть представлены в следующем виде
(в сантиметрах):
i 5,936 \
2,770
985 = 1
19,1434
9,0356
9,7634
3,2394
4,260
1,326 /
5,006'
3,428
1,462
0,246
9,0356 9,7634
11,8658 4,6232
4,6232 12,2978
2,4746 3,8794
A4)
A5)
A6)
Величина 7^/98 равна 26,334, а 7^/98 X 95/4 = 625,5. Эта
величина является высоко значимой (по сравнению с /^-точ-
кой для 4 и 95 степеней свободы).
6.3.4. Проблема q выборок. После рассмотрения
приведенного выше примера Фишер производит третью выборку
из генеральной совокупности, ковариационная матрица
которой предполагается такой же, как и ковариационные
матрицы первых двух генеральных совокупностей. Он
производит аналогичные 50 наблюдений над Iris virginica. Имеются
5.3] ПРИМЕНЕНИЯ Г-СТАТИСТИКИ 153
теоретические основания считать генетические структуры этих
трех видов такими, что векторы средних значений трех
генеральных совокупностей удовлетворяют условию
3jiA)==.jiC) + 2tiB)> A7)
где fi<3)—вектор среднего значения третьей генеральной
совокупности.
Это частный случай следующей общей проблемы.
Пусть {л?)} (а = 1, . .., Nt; I = 1, . .., q) — выборки из
совокупностей, распределенных соответственно N(ySl\ 2)
(/=1, ..., q). Проверим гипотезу Я:
A8)
*=Vmw
где рр ..., $q — данные скалярные величины, [i — данный
вектор. Величина Т2 равна
V = i ' / \/ = i 1 /'
где
0=1
= 1 а=1
я
Эта величина Т2 имеет ^-распределение с 2 ^/ — Ч степе-
нями свободы.
Фактически в своем примере Фишер допускает, что
ковариационные матрицы трех генеральных совокупностей могут
быть разными. Поэтому он использует метод, описанный
в § 5.6.
5.3.5. Проблема симметрии. Рассмотрим вопрос
о проверке гипотезы И: \i{ = \ч = . .. =V>P по выборке
Xv...,xN, произведенной из совокупности A/(ji,S), где
154 ОБОБЩЕННАЯ Г-СТАТИСТИКА [ГЛ 5
p,'==(jx11 ... , \ip). Пусть С—любая матрица порядка
(р — \)Х Р ранга р — 1 такая, что
Се = 0, B3)
где е' = A, ..., 1). Тогда
Уа = Сха (а=1, ..., N), B4)
имеет среднее значение С{1 и ковариационную матрицу CLC.
Гипотеза Н состоит в том, что С{1 = 0. Статистика,
которую нужно использовать, равна
T2 = Ny'S~ly, B5)
где
N
N
«3 • "w Г"
-^c/- B7)
Эта статистика имеет Г2-распределение с N— 1 степенями
свободы для (р — 1)-мерного распределения. Она является
инвариантной относительно любого линейного
преобразования в (р — 1)-мерном пространстве, ортогональном
вектору е. Следовательно, эта статистика не зависит от выбора С.
Пример такого рода приводит К. Р. Рао [7]. Пусть
N — количество пробки на северной стороне пробкового
дерева; Е, S и W определяются аналогично. Множество этих
четырех величин, соответствующих одному дереву,
рассматривается как наблюдение над четырехмерной нормально
распределенной совокупностью. Вопрос ставится так:
одинаковое ли количество пробки имеет пробковое дерево с каждой
стороны? Сделаем преобразование:
yx = N — E —
B8)
Было произведено 28 наблюдений.
5.4] РАСПРЕДЕЛЕНИЕ Р-СТАТИСТИКИ 155
Вектор среднего значения равен
B9)
ковариационная матрица для у равна
/ 128,72 61,41 —21,02\
5 = 1 61,41 56,93 —28,30 ]. C0)
\—21,02 —28,30 63,53/
Величина T2/(N— 1) равна 0,768. Статистику 0,768 X 25/3 =
= 6,402 сравнивают с точкой значимости /^-распределения
с 3 и 25 степенями свободы. Эта величина является
значимой при 1%-ном уровне значимости.
6,4. Распределение 72-статистики
при наличии конкурирующих гипотез;
функция мощности
В § 5.2.2 мы показали, что (T2jri)(N — р)/р имеет
нецентральное F-распределение. В этом параграфе мы
рассмотрим вопросы, касающиеся нецентральных х2т и
^"-распределений, табулирования и применений последнего
распределения к задачам, связанным с Г2-статистикой.
Центральное ^Распределение есть распределение суммы
квадратов независимых (скалярных) нормально
распределенных случайных величин с математическим ожиданием 0 и
дисперсией 1. Нецентральное х2"РаспРеДеление является
обобщением центрального х2*РаспРеДеления на случай, когда
математические ожидания слагаемых отличны от нуля. Пусть
/^-мерный вектор Y распределен A/(v, /). Q —
ортогональная матрица, элементами первой строки которой являются
156
ОБОБЩЕННАЯ Г-СТАТИСТИКА
[ГЛ. 5
Тогда Z=QY распределен N(k, /), где
V
О
B)
р
(см. § 5.2.2). Положим V= Y'Y = ZZ = 2 zi Тогда
k
W = 2 ^/ имеет ^-распределение с р — 1 степенями сво-
1 = 2
боды (задача 5 главы 7), а совместная плотность
распределения вероятностей Zx и W равна
e 2 =
где
Совместная плотность распределения вероятностей величин"
V = W -\-Z\ и Z\ получается посредством подстановки
w = v — z\ (определитель равен 1):
D)
Совместная плотность V и U = <
1 1
равна {dzx = Y'
1
„2J
E)
a-0
5 4] РАСПРЕДЕЛЕНИЕ Г-СТАТИСТИКИ 157
Допустимый интервал для гг при фиксированном v есть
(—Yv* Vv)> а допустимый интервал для и есть (—1, 1).
Если ряд E) проинтегрировать почленно по переменной и,
то члены с нечетными а дадут в результате нуль как
интегралы от нечетных функций. Для вычисления других
интегралов мы сделаем подстановку и = Ys ldu = Y^sIVs) и»
используя обычные свойства бета- и гамма-функций, получим
о
Г -(Р-з)
-^. (в)
-1
5 ds =
Таким образом, плотность распределения вероятностей V
равна
"-1 у
2
I
22
BP)!
Это плотность нецентрального ^-распределения с р
степенями свободы и параметром т2.
Теорема 5.4.1. Если р-мерный вектор Y
распределен A/(v, /), то V=YfY имеет плотность распре-
деления вероятностей G), где х = ]/Vv.
Пусть V имеет нецентральное ^-распределение с р
степенями свободы и параметром т2, a W не зависит от V и
имеет ^-распределение с т степенями свободы. Найде?>г
плотность распределения вероятностей величины F = (У/рI(№/т),
т. е. плотность нецентрального /^-распределения с
параметром х2. Совместная плотность V и W равна произведению G)
на плотность W, которая равна
158 ОБОБЩЕННАЯ ^-СТАТИСТИКА [ГЛ. 5
Совместная плотность F и W (dv — pwdfjm) равна
22
1
--w (l + pf/m)
2 X
Частная плотность распределения вероятностей,
получаемая интегрированием (8) по .w от 0 до оо (см. § 4.2.2),
равна
т
4)
X—^ 1 L- (9)
A+/>//«J
Используя формулу удвоения для гамма-функции
получаем плотность
2)р (р//«)уР+Рг[4(р + т) + р]
• A0)
Теорема 5.4.2. Если V имеет
нецентральное-/^-распределение с р степенями свободы и параметром т2, а я#
зависящая от V случайная величина W имеет yj-pac-
пределение с т степенями свободы, то F = (V/p)l(W/m)
имеет плотность A0).
Если T2 = N(x — {Iq)^^ — (i0) построена по выборке
объема N из совокупности N (jji, 2), то величина (Т2/п) (N—p)jp
имеет нецентральное F-распределение с р и N — р степенями
сюбоды и параметром TV (ji — РоУ^'Чр. — {*о) —х2* ^
5.41 РАСПРЕДЕЛЕНИЕ Г-СТАТИСТИКИ 159
следует, что плотность распределения вероятностей
величины Т2 равна
A1)
Тэнг [1] составил таблицы вероятностей принятия
нулевой гипотезы (т. е. вероятностей ошибки II рода) для
различных значений т2 и доверительных уровней 0,05 и 0,01.
Его значения степеней свободы /г и /2 соответствуют нашим
р[1A)8] и п — р+1 [2, 4AK0, 60, сю], а параметр <р
связан с нашим параметром т2 соотношением
("l (-о-') 3A) 8*1. Его таблицы точек значимости составлены
для f2l(T*-{-N—l).
Пример. Предположим, что р = 4, п — p+l=2Q.
Мы хотим проверить нулевую гипотезу (А = 0 при 1 % -ном
уровне значимости. Нам хотелось бы знать, с какой
вероятностью мы принимаем нулевую гипотезу при ср—2,5 (т2=31,25).
Эта вероятность равна 0,227. Если мы считаем, что принять
нулевую гипотезу при Nt [i и 2 таких, что т2 = 31,25, менее
невыгодно, чем отвергнуть, если она верна, то может
оказаться целесообразным использовать критерий так, как это
предполагалось раньше. Однако, если ошибка первого рода
примерно равна ошибке второго рода, то наиболее разумным
кажется желание иметь возможно меньшую вероятность
ошибки II рода. Так, если использовать 5%-ный уровень
значимости, то вероятность ошибки II рода (для ср == 2,5)
будет равна лишь 0,043.
Эмма Лемер [1] составила таблицу значений ср для
данных уровня значимости и вероятности ошибок II рода.
Ее таблицы могут быть использованы для нахождения таких
значений х2, при которых вероятность принять нулевую
гипотезу при {1^=0 достаточно мала. Например, если мы на
основе выборки для данных р, и S хотим отвергнуть
нулевую гипотезу {1 = 0, то мы должны выбрать N так, чтобы
160 ОБОБЩЕННАЯ Г2-СТАТИСТИКА [ГЛ. 5
величина Aty/S^ ==т2 была достаточно большой. Приэтом,
конечно, возникают трудности, состоящие в том, что обычно
мы не знаем точно значений р, и 2 (а стало быть, и т2), по
которым мы хотим получить определенное значение
вероятности отвергнуть гипотезу.
Распределение Т2 для случая, когда нулевая гипотеза
неверна, получили разными методами Хсу [1], а также Р. Бозе
и С. Рой [1].
5.5 Некоторые оптимальные свойства критерия Т2
В этом параграфе мы покажем, что в определенном классе
критериев критерий Т2 является наилучшим, и наметим
краткое доказательство этого.
Пусть на основе N наблюдений х{, .... xN над
совокупностью N(ji, 2) нужно проверить гипотезу {1 = 0. Сначала
мы рассмотрим класс критериев, основанных на статистиках
Л = 2(Л:а — х)(ха — ХУ и х> которые являются инвариант-
ными относительно преобразований А* = САС их* — Сх, где
С—невырожденная матрица. Преобразование х*а = Сха не
изменяет инвариантности задачи; т. е, в терминах х*а мы
проверяем гипотезу Мл;* = 0 при условии, что х*> ..., x*N
— N наблюдений над многомерной нормальной генеральной
совокупностью. Представляется целесообразным потребовать,
чтобы решение было также инвариантным относительно этих
преобразований. Это значит, что следует искать такую
критическую область, которая не изменяется при невырожденном
линейном преобразовании координат (т. е. область, не
меняющуюся при переходе к другой системе координат).
Теорема 5.5.1. Из всех критериев для проверки
гипотезы [л = 0 по выборке хх xN из совокупности
N (ji, 2), основанных на статистиках х и Л =
= 2 (ха — х) (ха — ХУ* инвариантных относительно
преобразований х*=Сх, А* = САС (С—невырожденная
матрица), критерий Т2 является равномерно наиболее
мощным.
Доказательство. Во-первых, как мы видели в § 5.2.1,
любой критерий, основанный на Г2-статистике, является
инвариантным. Во-вторых, этот критерий является единственной
5 5] НЕКОТОРЫЕ СВОЙСТВА Р-КРИТЕРИЯ 161
инвариантной функцией, так как из инвариантности f(x, А)
следует, что f(x, A) = f(x*, /), где только первая
координата вектора х* отлична от нуля и равна V х'А~1х.
(Существует матрица С такая, что Сх = х* и САС = /.) Таким
образом, /(л:, А) зависит только от х' А~ х. Поэтому
инвариантный критерий должен быть основан на х'А~1х.
В-третьих, мы можем применить (Леманн [1]) фундаментальную
лемму Неймана — Пирсона к распределению Т2 [см. A1),
§ 5.4], чтобы получить равномерно наиболее мощный
критерий, основанный на Т2, при простой конкурирующей гипотезе.
-c2=A^[i/S~1{t. Наиболее мощный критерий для проверки
гипотезы т2 = 0 основан на отношении A1) к той же формуле A1)
при т2 = 0. Этот критерий состоит в том, что
г1
с<е 2 2
к
Первая часть A) является строго возрастающей функцией
t2ln
отношения ^ «/г/ и» следовательно, t2. Таким образом, при
подходяще выбранном к неравенство A) равносильно
неравенству t2 > к. Так как последнее не зависит от т2, то
критерий является равномерно наиболее мощным.
Определение 5.5.1. Критической функцией ty(x, A)
называется функция, значения которой заключены
между 0 и 1 (включая эти значения) и такая, что при
{1 = 0 Щ(х, Л) —е, где е — уровень значимости.
По рандомизированному критерию гипотеза отвергается.
с вероятностью ф (х, В), когда х = х и А = В. Нерандоми-
6 Т. Андерсон
162 ОБОБЩЕННАЯ Я-СТАТИСТИКА [ГЛ 5
зированный критерий определяется как критерий,
соответствующий такой критической функции ф (х, А), которая
принимает лишь значения 0 и 1. Используя лемму Неймана —
Пирсона в форме, удобной для критических функций,
получаем следующее следствие.
Следствие 5.5.1. Из всех рандомизированных
критериев, построенных по наблюдениям хг XN над
совокупностью Af(jt, 2), основанных на статистиках х
и А и являющихся инвариантными относительно
преобразований х* = Сх, А* = САС (С— невырожденная
'матрица), критерий Т2 является равномерно наиболее
мощным.
Теорема 5.5.2. Среди всех критериев для проверки
гипотезы {!, = О по выборке xv ..., xN из совокупности,
распределенной N(\x, 2), которые являются
инвариантными относительно преобразований х*а — Сха
(С—невырожденная матрица), критерий Т2 является
равномерно наиболее мощным. Таким образом, критерий Т2
является самым мощным, по крайней мере, среди всех
других инвариантных критериев.
Доказательство. Пусть ty(Xv ..., XN) —
критическая функция инвариантного критерия. Тогда
М[ф(*х. :... *„)] = %*№(*! х„)\х. А]\- B)
Так как х и А являются достаточными статистиками для [i
и 2, то М [<]>(#!, ..., xN)\x, А] зависит только от х, А.
Это математическое ожидание является инвариантом и имеет
такую же мощность, как и ty(Xv ..., XN). Таким образом,
каждый критерий из этого большего класса критериев можно
заменить равномощным критерием из меньшего _ класса
(в который входят критерии, зависящие только от л: и А).
Следствие 5.5.1 завершает доказательство.
Теорема 5.5.3. Из всех критериев для проверки
гипотезы ji = 0, построенных по наблюдениям хх, ..., xN
над совокупностью А/({1, 2) и основанных на х и
А = ^(ха — х)(ха — x)f с мощностью, зависящей только
от yVji'2^, критерий Т2 является равномерно
наиболее мощным.
Доказательство. Мы хотим свести эту теорему к
теореме 5.5.1, доказав тождество класса критериев с мощно-
5 51 НЕКОТОРЫЕ СВОЙСТВА Г-КРИТЕРИЯ 163
стью, зависящей от Afp/S}!, классу инвариантных критериев.
Для этого нам потребуется следующее определение.
Определение 5.5.2. Критерий ty(xv ..., XN)
называется почта инвариантным, если
xN) = ty(Cxv .... CxN) C)
для всех xv ..., xN, за исключением множества
х{, ..., xN, мера Лебега которого равна нулю; это
исключаемое из рассмотрения множество может
зависеть от С.
Ясно, что теоремы 5.5.1 и 5.5.2 останутся справедливьпш,
если мы распространим определение инвариантного критерия
на тот случай, когда C) справедливо везде, кроме
фиксированного множества xv ..., XN меры нуль (множества, не
зависящего от С). Хантом и Стейном (см. Леманн [1])
показано, что в этом случае почти инвариантность влечет
инвариантность (в широком смысле).
Теперь мы хотим доказать, что если критерий ф(лг, А)
имеет мощность, зависящую только от N\i'H^, то он
является почти инвариантным. Поскольку мощность критерия
ф(дг, А) зависит только от Afp/S^ji, то мощность есть
= М^(С*, САС). D)
Второй и третий члены D) являются просто одним и тем же
интегралом, записанным разными способами. Таким образом,
Мц, s № (*> Л) - ф (С*. САС)] в 0 E)
тождественно по р, и S. Так как X и А представляют
полное множество достаточных статистик для [i и S, то почти
всюду /(*, Л) = ф(*. А) — ф(С*, CAC0 = 0. Чтобы
доказать это утверждение, рассмотрим следующее соотношение:
Lx
aO, F)
164 ОБОБЩЕННАЯ Г2-СТАТИСТИКА [ГЛ. 5
где
dx = П dxl% dA = Л daif
и
/-1
Равенство (б) является тождеством относительно ji и S.
Левая часть F) представляет интеграл от функции /(х, А),
умноженной на плотность распределения вероятностей х и
плотность распределения вероятностей А (плотность
распределения Уишарта, см. § 7.2) Заменим в F) 2~ на /—20,
где 0 = 0;, и [л на (/—20)*. Тогда получим
X ехр | — -j [sp (/ — 26) (А + Nxx') — 2Nfx +
_|_ Ml' (/— 26)"' t\} dx dA == 0. «)
Умножая (8) на |/— 26 f^^ exp[jW<7— 26) Л ,
получаем
К j ... ffii,(A + Nxx') — tfii'l | Л |г" iN~"~2) X
X exp [— j sp (i4 H- JVii?) +
-HspeCA-l-Nje^O+yV/'Jtjfif^^ssO. (9)
Это является преобразованием Лапласа функции
7 [л:, (Л+Л^лглгО-Л^лгл;^ /С | А\2 ехр [—i- sp
относительно переменных Ate и A-\-Nxx'. Так как оно
равно нулю, то
всюду, за исключением множества меры нуль. Таким
образом, теорема 5,5.3 доказана.
Б.6] МНОГОМЕРНАЯ ПРОБЛЕМА БЕРЕНСА - ФИШЕРА 165
Как из теоремы 5.5.1 следует теорема 5.5.2, так же и
из теоремы 5.5.3 следует теорема 5.5.4.
Теорема 5.5.4. Из всех критериев для проверки
гипотезы [1 = 0, построенных по наблюдениям xv ..., xN
над совокупностью A/(ji, 2) с мощностью, зависящей
только от Affi/S^ji, критерий Т2 является равномерно
наиболее мощным.
Теорема 5.5.4 впервые доказана Симаика [1].
Результаты и доказательства, приведенные в этом параграфе,
следуют из работы Леманна (мимеографическая запись). X с у A0]
получил оптимальное свойство критерия Г2, касающееся
усреднения мощности по р, и 2.
5.6» Многомерная проблема Беренса — Фишера
Теперь мы рассмотрим многомерный аналог решения
Шеффе [2] многомерной проблемы Беренса — Фишера.
Пусть {л;^} (а= 1 Nt\ /= 1, 2) — выборки из
совокупностей N(\i{i), Zf)(/ = 1, 2). Мы желаем проверить гипотезу
ji(i) =|t<2>. Среднее значение х№ первой выборки нормально
распределено с математическим ожиданием
A)
и ковариационной матрицей
@ ! = -*- Sj. B)
Аналогично, среднее значение х^ второй выборки нормально
распределено с математическим ожиданием
= рг) C)
и ковариационной матрицей
JV1 (#B) — р,B)) (jpB) &B)у = — 2 . D)
Таким образом, л:*1*—х® имеет среднее значение jiA)—{tB)
и ковариационную матрицу (l/iVlJ14-A/Л^2J2. Однако
здесь мы не можем использовать метод, изложенный в § 5.2,
166 ОБОБЩЕННАЯ Г-СТАТИСТИКА (ГЛ. 5
так как
2 & S ) - *<2>)' E)
уже не имеет распределения Уишарта с ковариационной
матрицей о/твд + о/л^.
Если N1 = N2 = Nt то, очевидно, можно использовать
критерий Т2. Пусть уа = х?>— х™ (нумерация наблюдений
в обеих выборках считается независимой от самих наблюде-
ний). Тогда уа будет распределен нормально с
математическим ожиданием [iA) — {iB) и ковариационной матрицей
Sj + 22 и не будет зависеть от у$ ф Ф а). Пусть у = 2 Л/^ =
а = 1
= JtA) — JtB). Определим 5 соотношением
(iv_ О s = 2 (л -5о (л —50' =
N
Тогда для проверки гипотезы {iA) — {iB> =0 удобно
использовать статистику
T2 = Ny'S'ly, G)
которая имеет ^-распределение с N—1 степенями свободы.
Следует иметь в виду, что если известно 2^ = 22, то
предпочтительней использовать Т2-статистику с 2N—2 степенями
свободы. Таким образом, при построении критерия, не
зависящего от двух ковариационных матриц, мы теряем N—1
степеней свободы.
Теперь обратимся к случаю, когда Nx Ф N2< Пусть для
удобства Nx < N2. Положим
Nx N2
v = *(D -1/ ^ X® + -Д= У 42) — тг S *B)' (8)
•^а а г N2 а ' YnN2 « ^ N2**» V '
2 2
а==1 Л^ХГ
Математическое ожидание д;а равно
5 6) МНОГОМЕРНАЯ ПРОБЛЕМА БЕРЕНСА - ФИШЕРА 167
Ковариационная матрица величин уа и у$ равна
= м [(л?> - *<») - j/fi D2> - t*<2>) 4-
т=1
|
^+ВД~2
= ^(^ + ^2,). (Ю)
Таким образом, удобной статистикой для проверки гипотезы
(I*1) — jiB)=0 является статистика, имеющая
^-распределение с N—1 степенями свободы:-
•n = N$S-ly, A1)
где
-1) s - V (л _5|) (л -уу =
х ^а, _ *,) _ /^ (^ - ^ | ^))] • A3)
168 ОБОБЩЕННАЯ 72-СТАТИСТИКА 1ГЛ 5
В терминах иа = л?> — /ЛуЛ^лЯ (а=1, ..., Nx) это
последнее равенство может быть переписано так:
(^-1M = 2 (иа - а) (иа - и)', (И)
где
20
Эта методика была предложена Шеффе [1] для
одномерного случая. Шеффе показал, что в одномерном случае
эта методика дает кратчайшие доверительные интервалы,
какие только можно получить с помощью ^-распределения.
Преимущество этого метода состоит в том, что используется
статистика х№—х®\ которая больше, чем какая-либо
другая статистика, подходит для [|Я>—\iPK Ошибки
наблюдений оказываются не столь важными при оценке
ковариационной матрицы. Бен нет [1] распространил эту методику
на многомерный случай.
Этот метод рассуждения может быть использован в более
общих случаях. Пусть [х^\ (а= 1, ..., Nt\ /= 1, ..,, q) —
выборки соответственно из совокупностей N{^1\ 2,) (/ =
= 1, ..., q). Рассмотрим вопрос о проверке гипотезы Н:
A5)
где plf ..., р^ — данные скалярные величины, а {1 — данный
вектор. Пусть числа Nt не равны между собой.
Предположим, что Nx есть наименьшее из них. Пусть
5 61 МНОГОМЕРНАЯ ПРОБЛЕМА ВЕРЕНСА - ФИШЕРА 169
Тогда
.-р#<»+j; р, /Щ^-ж
/2
1=1
Пусть у н S определены соотношениями
- М ур)' = Кв IV !^L S/ J. A8)
\/=i /
где
p=1 B0)
(W, - 1) S = 2 (ya -у) (у,-уУ.
<x=l
Тогда
-n^N^-pyS-^j-p) B1)
является удобной статистикой для проверки гипотезы Н\
если гипотеза верна, то эта статистика имеет
^-распределение размерности р с N{ — 1 степенями свободы. Если
обозначить
?- а = 1 "*• B2)
то S можно определить как
(Nx - 1) S = 2 (в. - в) (дв - ?)'. B3)
а=1
Другая задача, относящаяся к рассматриваемому виду
задач, заключается в проверке гипотезы о том, что два
170 ОБОБЩЕННАЯ Г-СТАТИСТИКА [ГЛ 5
подвектора имеют одинаковые математические ожидания.
Пусть
B4)
распределен нормально со средним значением
и ковариационной матрицей
B6;
Предположим, что каждый из подвекторов х^ и х№ имеет
q компонент. Тогда л^1) — х^ распределен нормально со
средним значением [лД1) — jjl<2) и ковариационной матрицей
М [( р)( j0] [( 1) ( J
= 2U-221_S12 + S22. B7)
Чтобы проверить гипотезу рД1) = jiB), используем 72-стати-
стику
w (^A) - *<20' Eц - s21 - s12 + Ч2Г1 (^A) - ^B))>
где выборочные вектор среднего значения и ковариационная
матрица разбиты аналогично |i и I
ЛИТЕРАТУРА
5.1. Хотеллинг [1].
I Poi
стр. 234 — 238; Фишер [51,'[61, [71; Хотеллинг
§ 5.3. Гаррет [1]; КохрениБлисс [1]; К. Р. Р а о [3], [7];
Фишер [5]; Хотеллинг [1]; Хсу [1].
5.2. Р. Б о з е и С. Рой [1], [2]; ВальдиВольфовиц [1];
Кендал л Г4], стр. 335—338; Раш [2]; С. Рой [2]; Уилкс[10],
§5.4. П. Бозе [3]; Р. Бозе и С. Рой [1]; Л ем ер [1];
С. Р о й [2]; Т э н г A]; Феррис, ГруббсиУивер [1]; Хсу [1].
§ 5.5. Леман, Нанди [1]; С и м а и к а [1]; Хсу [10];
§ 5.6. Баранкин [1]; Бен нет [1]; Г. Джеймс [2]; Ш е ф-
фе [2].
Ко всей главе 5. Бхаттачарья и Нараиян [1]; П. Бозе;
[2J; Вальд [1]; Дюранд [1]; К. Р. Рао [8].
ЗАДАЧИ 171
ЗАДАЧИ
1. (§ 5.3) Использовать данные § 3.2 для проверки гипотезы
о том, что никакой наркотик не оказывает усыпляющего действия,
при уровне значимости 0,01.
2. (§ 5.3) Используя данные § 3.2, построить доверительные
области для у. с коэффициентом доверия 0,95.
3. (§ 5.6) Используя данные задачи 17 главы 4, проверить
гипотезу о том, что средняя длина и ширина головы первых сыновей
равны соответствующим размерам головы вторых сыновей, при
уровне значимости 0,01.
4. (§ 5.2) Пусть векторы ха распределены
-*). 2), « = 1, .... N, где
Пусть, далее, Ь = [l/2 (*« - Щ 2 х« (г. -
2
Показать, что Т2 имеет Р-распределение с N — 2 степенями
свободы [Указание. См. задачу 6 главы 3.]
5. Пусть х и S получены по N наблюдениям над
совокупностью N(ji, 2); предположим, что х — дополнительное наблюдение
над совокупностью N(p,, 2). Показать, что х — х распределен
Проверить, что [W/(N+ 1)] (* — х)' S~l (я— х) имеет 7*2-распре-
деление с iV-1 степенями свободы. Как может быть использована
эта статистика для получения упрежденной области для х,
полученной по х и S' (т. е. области, в которую с данным доверием
попадает следующее наблюдение).
6. (§ 5.3) Доказать утверждение, приведенное в § 5.3.5, что
Р-статистика не зависит от выбора С.
7. Пусть х^ — результаты наблюдений над совокупностями,
распределенными N(\i^\ 2Д а= 1, ..., Nt; i = 1, 2. Каково будет
отношение правдоподобия для проверки гипотезы р.М =jiB>?
. 8. Путем проверки равенства
9 " I 9 У — 9 •
2 \ 9 " I 9 У — 9 • /ч 9\ 9
1 — р2 \ с? ага2 q2/ q2 (I — р2) а|
доказать, что для ji'= (p,, fx2) [a'S"^ больше, чем для ji=-=(fJ4).
Сравнить мощность критерия для проверки гипотезы ц, = 0 с
мощностью критерия для проверки гипотезы [^ =0, (х2 = 0.
9. (а) Используя данные § 5.3.3, проверить гипотезу ^ = р^'К
(б) Проверить гипотезу $] = ^2), ^1) = |^2).
172 ОБОБЩЕННАЯ Г-СТАТИСТИКА [ГЛ. 5
10. Пусть
Доказать, что jjl's V^> J^'SnV^- Найти условия, при которых
это неравенство обращается в строгое неравенство. [Указание.
Эта задача является векторным аналогом ^задачи 8.]
Но (§ 5.2) Используя распределение х и свойства S, доказать,
что если справедлива нулевая гипотеза, то величина Т2
асимптотически распределена как х2 с Р степенями свободы.
12. Пусть X{iy = (К(/)', Z{i)'\ /= 1, 2, где K(i) и Z{i) —
соответственно р и ^-мерные векторы, распределен N($.1*), 2), где
По выборке из N[ векторов Х^\ i= 1, 2, найти отношение
правдоподобия (или эквивалентную ^-распределенную величину) для
проверки гипотезы ji^ = [i^ при условии, 4toji^=ji^.
[Указание. Выразить плотность распределения вероятностей отношения
правдоподобия через частную плотность У^ и условную плотность
Z{i) при данном К(/Ч
13. Найти распределение величины, полученной в
предшествующей задаче, при условии, что справедлива нулевая гипотеза.
14. Применяя рассуждения, аналогичные тем, которые
использовались при рассмотрении A1), показать, что
1) = Nx'A~lx = Мс'В~гх/(\ — Nx'B~lx),
где Д
15. (§ 5.2.2) Показать, что Р/(Л^—1) в задаче 14 можно
записать в виде R2l(l — R2). Соответствующие величины приведены
в таблице 4.
16. (§ 5.2.2) Пусть
где uv ..., uN — N чисел, a jcr ..., jc^ — независимые одинаково
распределенные случайные векторы с законом распределения
N @, 2). Доказать, что распределение величины R2/(\ — R2) не
зависит от Uy ..., uN. [Указание. Существует ортогональная
матрица С порядка («X л)> которая переводит вектор (их uN)
в вектор, пропорциональный вектору A/yTv, ..., \IVn).\
17. (§ 5.2.2) Используя задачи 15 и 16, показать, что
[T2/(N— 1)J [(N—рIр\ имеет FpN „^-распределение (при условии,
ЗАДАЧИ
173
что справедлива нулевая гипотеза). [У к а з а н и е. Это анализ,
соответствующий геометрическому доказательству Хотеллинга [1].]
Таблица 4
§5.2
х*
VNx
* = 2*.*«
1=2*0»
T2
N—l
P
N
§4.4
<D = 22la42)
22 ~~~ / l &a ^n
aw = 2 zi<*
R2
\ — R2
18. (§ 5.2.2) Пусть Г2 = Nx'S~lx, где х и 5 —среднее
значение и ковариационная матрица выборки объема N из cobokjhihocth
iV(ji, 2). Показать, что распределение Т2 не изменится, если \х
заменить на Я'= (x, 0, .... 0), где т^ =* jx S
19. (§ 5.2.2) Пусть ц=
что иатГ (КК7)^', где
Г = A//ЛГ,..., \/YN) и
20. (§ 5.2.2) Пусть
'v-i.,
заменить на /.
—1)]. Показать,
Г =*Г
Vi
174
ОБОБЩЕННАЯ Г*-СТАТИСТИКА
[ГЛ 5
Доказать, что U = s -f- A — s) w, где
. (rvlT (TV,?
w ¦
V2 --Vp
[Указание. Пусть
1
Vi
v!
0
- 1
г 0
...0
...0
...1
тогда ?Y = V*.]
21. (§ 5.2.2) Доказать, что w распределен как квадрат
множественного коэффициента корреляции между одним нецентрирован-
ным вектором и/? —1 нецентрированными векторами в (N — 1)-
мерном пространстве, т, е. имеет плотность
Т\— (N '
w
[Ук азание. Преобразование, приведенное в задаче 20, является
преобразованием проектирования векторов v2, ..., v^, у на (N—1)-
мерное пространство, ортогональное вектору Vj.J
22. (§ 5.2.2) Доказать, что произведение г = 5 /A — 5) на (Л/"—-1)/1
имеет нецентральное ^-распределение с 1 и N — 1 степенями
свободы и параметром Nx2.
23. (§ 5.2.2) С помощью задач 18 —22 доказать следствие 5.2.1.
ГЛАВА 6
КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ
6.1. Проблема классификации
Проблема классификации возникает, когда
исследователь делает некоторое число измерений, связанных с
каким-то индивидуумом, и на основе этих измерений хочет
отнести его к одной из нескольких категорий. Он не
может непосредственно определить категорию, к которой
относится индивидуум, и вынужден использовать эти
измерения. Во многих случаях можно предположить, что имеется
конечное число категорий или генеральных совокупностей,
из которых мог быть взят рассматриваемый индивидуум,
причем каждая из этих категорий характеризуется
определенным законом распределения вероятностей для измерений.
Таким образом, индивидуум рассматривается как случайное
наблюдение над этой генеральной совокупностью. Вопрос
ставится так: как по результатам измерений определить,
из какой генеральной совокупности взят данный индивидуум.
Проблему классификации можно рассматривать как
проблему «статистических решающих функций». Имеется
несколько гипотез, каждой из которых соответствует свое
распределение вероятностей для наблюдений. Мы должны
принять одну из этих гипотез и отвергнуть остальные. Если
множество допустимых генеральных совокупностей состоит
лишь из двух генеральных совокупностей, то
рассматриваемая задача является элементарной задачей проверки одной
гипотезы, соответствующей определенному распределению
вероятностей, при одной конкурирующей гипотезе.
В одних случаях категории определены заранее тем,
что полностью известны распределения вероятностей
измерений. В других вид каждого распределения известен,
176 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ 5
но неизвестны параметры этих распределений, которые
и должны быть оценены по выборке из генеральной
совокупности.
Рассмотрим пример, связанный с проблемой
классификации. Прежде чем поступить в колледж, будущие студенты
сдают ряд экзаменов. Оценки этих студентов образуют
множество векторов х, векторов результатов измерений.
Будущий студент может быть отнесен либо к генеральной
совокупности, состоящей из тех студентов, которые успешно
закончат или, по крайней мере, имеют возможность успешно
закончить обучение в колледже, либо к другой генеральной
совокупности, состоящей из студентов, которые не
закончат курс обучения успешно. Задача состоит в том, чтобы
на основе оценок, полученных будущим студентом на
вступительных экзаменах, решить, к какой из этих
совокупностей отнести данного студента.
В этой главе будет изложена обшая теория
классификации, которая затем будет применена к случаю
нормального распределения.
6.2. Принципы правильной классификации
6.2.1. Предварительные замечания. При построении
процедуры классификации желательно сделать минимальной
вероятность неправильной классификации, точнге — добиться
того, чтобы в среднем неправильные выводы делались как
можно реже. Уточним это. Для удобства рассмотрим
случай лишь двух категорий. Затем' будет рассмотрен и более
общий случай.
Предположим, что наблюдаемый индивидуум относится
либо к генеральной совокупности izv либо к генеральной
совокупности тг2. Классификация наблюдения зависит от
вектора результатов измерений xr — (xv. .., хр) этого
индивидуума. Установим правило, согласно которому индивидуум
должен быть отнесен к генеральной совокупности пг, если
он характеризуется определенным множеством значений
xv ..., xpi и к генеральной совокупности тг2 при других
значениях xv. .., хр.
Результат наблюдения можно рассматривать как точку
/^-мерного пространства. Разделим это пространство на две
6.2]
ПРИНЦИПЫ ПРАВИЛЬНОЙ КЛАССИФИКАЦИИ
177
области. Если наблюдение попадает в Rv то мы относим
индивидуум к генеральной совокупности izv Если же
наблюдение попадает в /?2, то мы относим индивидуум к
генеральной совокупности тг2.
При таком способе классификации можно сделать два
рода ошибок. Несмотря на то, что в действительности
индивидуум принадлежит генеральной совокупности irlt
статистик может отнести его к генеральной совокупности я2-
Или же индивидуум может принадлежать к2, а статистик
относит его к tzv Нам необходимо знать относительную
невыгоду этих двух видов ошибочной классификации. Пусть
«цена» ошибочной классификации первого типа равна
СB|1)(>0), а цена ошибочной классификации второго
типа равна СA|2)(>0). Эти цены могут быть измерены
в любых единицах. Как мы увидим в дальнейшем, важным
является лишь отношение этих двух цен. Хотя статистик
может и не знать этих цен в каждом отдельном случае,
он часто имеет, по крайней мере, грубое представление о них.
Таблица 5, состоящая из двух строк и двух столбцов,
содержит цены правильной и неправильной классификации.
Ясно, что метод, определяющий хорошую классификацию, —
это такой метод, который так или иначе минимизирует цену
ошибочной классификации.
Таблица 5
Решение статистика
Генеральная
совокупность
6.2.2. Два случая двух генеральных совокупностей.
Рассмотрим способы определения «минимума цены» в двух
случаях. В первом случае предположим, что нам известны
априорные вероятности, соответствующие двум генеральным
совокупностям. Пуеть вероятность того, что наблюдение
ведется над индивидуумом из генеральной совокупности nv
равна qv а соответствующая вероятность для генеральной
1С,
Ъ
я,
0
СA|2)
СB|1)
0
178 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ 5
совокупности тг2 равна q2. Вероятностные свойства
генеральной совокупности 7гх определяются функцией распределения.
Для удобства мы будем считать, что у этого распределения
существует плотность, хотя случай дискретного
распределения требует почти таких же рассуждений. Пусть плотности
распределения вероятностей, соответствующие генеральным
совокупностям тг1 и тс2, равны соответственно Pi(x) и р2(х).
Если при попадании выборки в область Rx она
классифицируется как выборка из izv то вероятность правильно
классифицировать наблюдение при условии, что оно
производилось действительно над индивидуумом из тс1э равна
1, R) = fPl(x)dxt A)
где dx — dxx.. .dxp, а вероятность неправильно
классифицировать наблюдение, производимое над индивидуумом
из кг, равна
РB|1, /?) = fpx(x)dx. B)
я»
Аналогично вероятность правильно классифицировать
наблюдение, производимое над индивидуумом из тс2, равна
РB|2, R) = fp2(x)dxt C)
а вероятность неправильно классифицировать такое
наблюдение равна
P(l|2, R)= f p2(x)dx. D)
Д.
Так как вероятность того, что наблюдение производится
над тгр равна gv то вероятность такого наблюдения и
правильной классификации его равна ^1/эA 11, R), т. е. это
вероятность ситуации, соответствующей левому верхнему
углу таблицы 1. Точно так же вероятность того, что
наблюдение производилось над генеральной совокупностью тс1
и классифицировалось неправильно, равна qxPB\1, R).
Вероятность, соответствующая нижнему левому углу
таблицы 1, равна q2P(l\2, R), а вероятность,
соответствующая правому нижнему углу, равна q^PB\2, R).
6 2] ПРИНЦИПЫ ПРАВИЛЬНОЙ КЛАССИФИКАЦИИ 179
Чему равны средние потери, или математическое
ожидание потерь, связанных с неправильной клиссификацией?
Это математическое ожидание равно сумме цен каждой
неправильной классификации, умноженных на вероятность
такой классификации, т. е.
2. R)q2. E)
E) выражает средние потери, которые и нужно сделать
минимальными. Таким образом, нам нужно разбить
пространство на такие две области Rx и R2, чтобы математическое
ожидание потерь было как можно меньшим. Метод,
который обеспечивает минимум E) при данных qx и q2,
называется методом Бейеса.
В примере со студентами «невыгоды» неправильной
классификации связаны, с одной стороны, с затратами на
обучение студентов, которые не закончат успешно курс
обучения, и, с другой стороны, с исключением цз колледжа
возможно хороших в будущем студентов.
В другом случае, который мы здесь рассмотрим,
априорные вероятности неизвестны. В этом случае
математическое ожидание потерь при условии, что наблюдение
производилось над генеральной совокупностью пг, равно
СB|1)РB|1, /?) = гA, R). F)
Если же наблюдение производилось над тг2, то
математическое ожидание потерь равно
СA|2)ЯA|2, /?) = гB, /?). G)
Нам неизвестно, над какой генеральной совокупностью
производилось наблюдение: над пг или над тг2. К тому же
мы не знаем вероятностей этих двух случаев.
Метод R не хуже метода /?*, если гA, R)^r(\, R*)
и г B, /?)^гB, /?*). R лучше, чем /?*, если хотя бы одно
из этих неравенств является строгим. Обычно не существует
метода, который был бы лучше или, по крайней мере,
не хуже всех остальных методов. Метод R называется
допустимым, если не существует метода, лучшего, чем R.
Нас будет интересовать целый класс допустимых методов.
Мы покажем, что при определенных условиях этот класс
совпадает с классом методов Бейеса. Класс методов
является полным, если для любого метода, не входящего
180 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ ГГЛ. б
в этот класс, существует лучший метод из этого класса.
Класс методов называется почта полным, если для любого
метода, не входящего в этот класс, существует метод
из этого класса, который не хуже такого метода.
Минимальный полный класс (если он существует) — это такой
полный класс, что никакой его собственный подкласс не
является полным. Аналогично определяется и минимальный
почти, полный класс. Мы покажем, что при определенных
условиях допустимый класс является минимальным полным
классом. Для простоты мы отождествип методы,
отличающиеся друг от друга лишь на множествах нулевой
вероятности. В следующем параграфе мы будем делать
утверждения, подразумевая, что они справедливы везде, «за
исключением множеств нулевой вероятности», но не оговаривая
этого особо.
Принцип, называемый минимаксным, обычно приводит
к единственному методу. Метод называется минимаксным,
если максимум математического ожидания потерь, г(/, /?),
является минимальным. С установившейся точки зрения этот
метод может считаться оптимальным. Более полное
рассмотрение понятий, содержащихся в этом и последующих
параграфах, можно найти в книгах Вальда [3] и Блекуэлла
и Гиршика [1].
6.3. Методы классификации наблюдений в случае
двух генеральных совокупностей
с известным распределением вероятностей
6.3.1. Случай, когда известны априорные
вероятности. Теперь мы перейдем к проблеме отыскания областей
Rx и /?2i при которых достигается минимум средних потерь
(см. E) § 6.2). Поскольку априорные вероятности известны,
мы можем найти совместные распределения вероятностей
для генеральной совокупности и для множества
наблюденных случайных величин. Вероятность того, что при
наблюдении над генеральной совокупностью тс1 каждая величина
будет меньше соответствующей компоненты вектора у, равна
Ур У.
/ 4xPi(x)dxl...dxp. A)
6.3.] СЛУЧАЙ ИЗВЕСТНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 181
Можно определить также условную вероятность того, что
наблюдение производилось над определенной генеральной
совокупностью при условии, что наблюдаемые величины
имеют данные значения. Например, условная вероятность
того, что наблюдение произведено над генеральной
совокупностью TCj при условии, что его результаты составляют
вектор х, равна
B)
Ч\Р\
Q\P\(x) + q2p2(x) *
Предположим, что С (\ | 2) = СB| 1)= 1. Тогда
математическое ожидание потерь будет равно
Ч\ { Pi
Pi (•*) dx. C)
Это вероятность неправильной классификации.
Следовательно, нам нужно сделать эту вероятность минимальной.
Для данного результата наблюдения х мы достигаем
минимума вероятности неправильной классификации, выбирая
ту генеральную совокупность, которой соответствует
наибольшая условная вероятность. Если
Q\P\(x)
Ч\Р\ (X) + Я2Р2 (*) ^ Ч\Р\ (X) + q2P2 (X)' К '
то мы заключаем, что выборка была произведена из
генеральной совокупности ic1# В противном случае мы отдаем
предпочтение генеральной совокупности 7г2. Поскольку мы
достигаем минимума вероятности ошибочной классификации
в каждой точке, то мы тем самым достигаем минимума ее
и во всем пространстве. Таким образом, правило состоит
в следующем:
V- 9iPi()>q2P2()' 1
)
Если q\pl (x) = q2p2 (*)> то точку х можно отнести и к т^,
и к 7и2. Мы можем договориться отнести ее, например, к Rv
Если для данного X qiPi(x)-^ q2p2(x) = Ot то точка также
может быть отнесена к любой из двух областей.
Теперь формально покажем, что E) является наилучшим
методом. Для любого метода /?* = (/?J, Rl) вероятность
182 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ б
неправильной классификации равна
R*2
Второй член правой части есть фиксированное число;
первый член будет минимальным, если Rl включает в себя
такие точки х, для которых qxPi(X) — д2р2(х) <^0, и
исключает точки х, для которых giPi(x) — д2р2(•*) > 0. Если мы
предположим, что
дг f px(x)dx + g2f p2(x)dx =
= f liiPi С*) — Я2Р2 (¦*)] d*+42§ Pi (*) dx. F)
то метод Бейеса будет единственным с точностью до
множеств нулевой вероятности.
Заметим, что математически задача состоит в следующем.
Для данных неотрицательных чисел дг и д2 и
неотрицательных функций рг(х) и р2(х) найти такие области Rx и /?2,
чтобы C) было минимальным. Решение этой задачи дается
соотношениями E). Если нам нужно найти минимум
величины E) § 6.2, которую можно записать в виде
[С B 11) qx] f Pl (X) dX + [С A12) q2] f p2 {X) dX, (8)
R2 /?i
то, поскольку [0BI)^] и [C(l\2)q2] — неотрицательные
константы, Rx и /?2 нужно выбрать согласно следующим
условиям:
#i: [СB| 1)дг] рх (х)> [СA12)д2] р2 (лг), |
(9) можно записать по-другому:
г> . Pi(x)^ C(\\2)g2
СB\\)дГ
<*) ^ С(\\2)д2
6.3] СЛУЧАЙ ИЗВЕСТНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 183
Теорема 6.3.1. Пусть qx и q2— априорные
вероятности того, что наблюдение производится над
генеральной совокупностью пх с плотностью распределения
вероятностей рх(х) и над генеральной совокупностью тг2
с плотностью р2{Х) соответственно. Пусть, далее, цена
ошибочной классификации наблюдения, производимого
над tcj, равна СB|1), а цена ошибочной классификации
наблюдения, производимого над тс2> равна СAB). Тогда
области классификации Rx и R2, определяемые из
условия A0), дают минимум математического ожидания
потерь. Если
/^rtttCg 12) ) 0 / = 12 (П)
р2(х) ?,СB|1) Ч v '
то такой метод является единственным с точностью
до множеств нулевой вероятности.
6.3.2. Случай, когда априорные вероятности
неизвестны. Во многих случаях классификации статистик не
может приписать априорные вероятности двум генеральным
совокупностям. В этом случае мы отыскиваем класс
допустимых методов, т. е. множество методов, которые не могут
быть улучшены.
Сначала докажем, что метод Бейеса является
допустимым. Пусть R = (RV R2)— метод Бейеса для данных qv q2.
Существует ли метод /?• = (/?*, /??) такой, что РA|2, /?*)<
<РA|2, #)иРB|1, /?*)<РB|1, /?), причем хотя бы одно
из этих неравенств является строгим? Так как R—метод
Бейеса, то
qiPB\l, R) + q2P(\\2, /?)<^PB|1, /?*) + ?2P(l|2, R*).
A2)
Это неравенство может быть переписано в виде
A3)
Предположим, что qx > 0. Тогда, если Р{\B, /?*)<Р{\|2, R\
то правая часть A3) меньше или равна нулю и, следовательно,
РB|1,/?)<РB|1,/?*). Если?2>0,тоизРB|1, /?*)<РB|1,/?)
аналогично получаем РA1 2, /?)<РA | 2, /?*). Таким образом,
R* не лучше R и /?*—допустимый метод. Ecnwql = 0, то из A3)
следует, чтоО<РA|2, /?*) —P(lj2, /?). В методе Бейеса Rx
184 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ (ГЛ 6
включает лишь точки, для которых р2(х) = 0. Следовательно,
РA|2, /?) = 0, и если R* должно быть лучше /?, то
РA|2, #*) = 0. Если Р{/?2(л;) = 0|7г1} = 0, то РB|1,/?) =
= Р {/72(л:) > 0jttj} == 1. Если РA|2, /?*) = 0, то /?1
включает лишь точки, для которых р2 (X) = 0. Поэтому Р B11, /?*)==
= Р {/?21 ^i} =P {р2С*)>0К} = L и значит, R* не лучше,
чем /?.
Теорема 6.3.2. Если Р {р2(х) — 0\пг} = 0 иР {р1(л:) =
= 0|тг2} == 0, wo любой метод Бейеса является
допустимым.
Теперь докажем обратное утверждение, что любой
допустимый метод является методом Бейеса. Предположим,
что1)
||gI| oo. A4)
Тогда для любого qx метод Бейеса является единственным.
Кроме того, функция распределения вероятностей Pi(X)/p2(x)
для ttj и 7г2 является непрерывной.
Пусть R — допустимый метод. Тогда существует такое к%
что
где R* — метод Бейеса, соответствующий тому, что q2\ci\ — k
[т. е. #!= 1/A +?)]. Так как метод /? является
допустимым, то РA|2, #)<РA|2, /?*). Однако в силу
теоремы 6.3.2 метод R* является допустимым, и потому
РA|2. /?)>РA|2, /?*), т. е. РA|2, /?) = РA|2, R*).
Следовательно, /? — также метод Бейеса. Вследствие
единственности метода Бейеса R совпадает с R*.
Теорема 6.3.3. Если A4) верно, то любой
допустимый метод является бейесовым.
Доказательство теоремы 6.3.3. показывает, что класс
методов Бейеса является полным, поскольку для любого
метода /?, не входящего в этот класс, можно построить
метод Бейеса /?* так, чтобы было PB|l, /?) = PB|1, R*).
Вследствие того, что метод R* является допустимым,
РA|2, /?)>РA|2, /?*). Более того, класс бейесовых мето-
Pi (хIРг (х) = °° означает, что рг (х) = 0,
6.4| СЛУЧАЙ МНОГОМЕРНЫХ НОРМАЛЬНЫХ РАСПРЕДЕЛЕНИЙ 185
дов является минимальным полным классом, так как он
совпадает с классом допустимых методов.
Теорема 6.3.4. Если A4) верно, то класс методов
Бейеса является минимальным полным классом.
Наконец, рассмотрим минимаксный метод. ПустьР(/|/\ qx)—
= Я(/|у, /?), где R — метод Бейеса, соответствующий qv
P(i\j, #1) есть непрерывная функция qv Когда qx изменяется
от 0 до 1, ЯB|1, q{) изменяется от 1 до 0, а P(l|2, qx) —
от 0 до 1. Поэтому существует такое значение qv скажем q\,
что ЯB|1, q*^ = P(\\2, q*y Это значение q\ определяет
минимаксный метод, так как если бы существовал другой
метод R* такой, что max {ЯB|1, /?*), ЯA|2, #*)}<РB|1, ?*)=
= ЯA|2, #*), то это противоречило бы тому, что любой
метод Бейеса является допустимым.
6.4. Классификация наблюдений в случае двух
генеральных совокупностей, имеющих известные
многомерные нормальные распределения
Теперь мы используем общий метод, описанный выше,
для случая двух многомерных нормальных генеральных
совокупностей с равными ковариационными матрицами, а именно
для совокупностей с законами распределения М(^1К S) и
iV(fiB), S), где jiW=(|j.(O рЯ) — вектор среднего
значения /-й генеральной совокупности (/=1,2), а 2 —
ковариационная матрица каждой совокупности. [Этот метод
впервые был использован В а л ь д о м [ 1 ]. Тогда /-я плотность
распределения вероятностей будет равна
—г—гехр [~^(х~ р*0)'2 <* - р(/))] • 0)
Отношение плотностей равно
(*) ехр [- I (х - {1<2>)' Б (X - {1<2)I
= ехр { — у [(х — {i<'))' S (X — ц<0) —
B)
186 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ \ГЛ б
Область Rv при попадании в которую наблюдение
классифицируется как наблюдение над rclf является множеством
векторов х, для которых величина B) больше k (k выбирается
подходящим образом). Так как логарифмическая функция
монотонно возрастает, то неравенство B) эквивалентно
неравенству (получающемуся из B) переходом к логарифмам)
— у [(* — РA))' S (х — цО>)-(*-|1<2>)' 2 (*-рЯ)] > In k.
C)
Левую часть C) можно представить в виде
^-^'S-1^2»]. D)
Группируя соответствующие члены, получаем
1 (^ Л 1 (^> Л' S (ttA) - ^<2>). E)
Первый член является хорошо известной дискриминантной
функцией. Это линейная функция компонент вектора
результатов наблюдений.
Следующая теорема является прямым следствием
теоремы 6.3.1.
Теорема 6.4.1. Если ni имеет плотность
распределения вероятностей A) (/=1,2), то области
наилучшей классификации определяются следующим образом:
F)
Если априорные вероятности qx и q2 известны, то k
равно
В частном случае двух равновероятных генеральных
совокупностей, которым соответствуют одинаковые цены СA|2)
и СB|1), А —1 и ln& —0. Поэтому область, при попада-
6.4) СЛУЧАЙ МНОГОМЕРНЫХ НОРМАЛЬНЫХ РАСПРЕДЕЛЕНИЙ 187
нии в которую выборка рассматривается как выборка из ic1<f
определяется следующим образом:
Я,: х' S-1 (|/> - Л > 1 (/*> + Л' I'1 (tiA) - Л- (8)
Если нам неизвестны априорные вероятности, то мы
можем выбрать \nk — ct например, из условия, чтобы
математические ожидания потерь, связанных с ошибками
классификации, были равны. Пусть X—случайное
наблюдение. Нам нужно найти распределение случайной величины
и=х> s-1 fr« - Л) - \ (ц<»+Л' s-1 (itA) - Л • (9)
считая сначала, что X распределен N (^х\ 2), а затем что X
распределен N(\i^\ S). Если X распределен N(^lK 2), то
величина U распределена нормально с математическим
ожиданием
- Л - \ (^A)+ftB))' s-1 (tt(l) - Л
и дисперсией
DlU = Mt ({ia) - рР))' 2 (*-Л(Л--Л' S ({iA)-Л ==
Будем называть «расстоянием» между N (fiA), S) и N(pV\ S)
величину
(Л-^Уг-Ч^-Л^- A2)
Тогда, если X распределен N(\pfl\ S), то U будет
распределена Л^|^а» аЬ Если же ЛГ распределен N(^P\ S), то
M2t/=Л s-1 (ttA) - Л - i (^A)+рB))' s-1 ({iA) - Л=
= i к® - {tA))' S (tt^ - {lB)) =. -1 a. A3)
Дисперсия U будет такой же, как и в случае, когда X
распределен Af((iD S), поскольку она зависну лишь .от
188 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ ГГЛ G
моментов второго порядка случайного вектора X. Таким
образом, U будет распределен Лм ^а, а).
Вероятность ошибочной классификации при условии, что
наблюдение производилось над tzv равна
а вероятность ошибочной классификации при условии, что
наблюдение производилось над тс2, равна
ОО j
^, 2 4у. A5)
4)/
На рис. 9 эти две вероятности изображены в виде
заштрихованных площадей, ограниченных «хвостами» плотностей.
Для минимального решения с выбирается так, чтобы
+*
f
-±=-
A6)
Теорема 6.4.2. Если тс, (/ = 1,2) имеют плотности
распределения вероятностей A), то минимаксные
области классификации определяются по F), где с = 1п&
выбирается из условия A6), a C{i\j) — цены ошибочных
классификаций.
G4] СЛУЧАЙ МНОГОМЕРНЫХ НОРМАЛЬНЫХ РАСПРЕДЕЛЕНИЙ 189
Следует отметить, что если цены ошибочных
классификаций равны между собой, то с = О и вероятность
ошибочной классификации равна
dy.
A7)
В случае, когда цены ошибочных классификаций не равны
между собой, с может быть определено достаточно точно
по таблицам нормального распределения методом проб и
ошибок.
Оба слагаемых в E) содержат вектор
A8)
который получается как решение уравнения
S8 = (|i^ —|i'2'). A9)
полученное эффективным численным методом, как, например,
метод сокращения Дулиттла.
Интересно отметить, что х'Ъ является линейной
функцией, которая дает максимум
D (X'd)
при любом выборе d.
Числитель B0) равен
а знаменатель
f м (X—ь\Х) {X — тху а = а'ъа.
— ji^y]dt B1)
B2)
190 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ С
Нам нужно найти максимум B1) по й, сохраняя B2)
постоянным. Если X— множитель Лагранжа, то задача
сводится к нахождению максимума выражения
df [({i(D — {1,B)) фа) _ рЯу] а — X(d'Zd— 1). B3)
Приравнивая нулю производные B3) по компонентам
вектора d, получим
2 [({id) — {1B)) ({А*1) — jiB))'] d= 2X2tf. B4)
Так как (jiM—{JL<2))'tf— скаляр, скажем v, то B4) можно
записать в виде
{!(!)_ {lB) =A-Srf. B5)
Поэтому вектор d, являющийся решением уравнения B4),
пропорционален вектору 8.
В заключение отметим, что если мы имеем выборку
объема N либо из kv либо из тг2, то можно использовать
выборочное среднее значение и классифицировать выборку
как выборку из N[p(l), A/ЛГJ] или из N2 1N2
6.5. Классификация наблюдений в случае двух
многомерных нормальных генеральных совокупностей,
параметры которых оцениваются по выборке
6.5.1. Критерий классификации. До сих пор мы
предполагали, что распределения обеих генеральных
совокупностей известны точно. Но в большинстве приложений этой
теории эти распределения являются неизвестными, но они
могут быть получены из выборок, по одной из каждой
генеральной совокупности. Сейчас мы рассмотрим случай,
когда у нас есть выборка из каждой нормальной
генеральной совокупности, и нам нужно использовать эту
информацию для того, чтобы решить, над какой из этих двух
генеральных совокупностей произведено другое наблюдение.
Пусть л:*1), ..., х$ и xf] *$> — выборки из
совокупностей A/r(ji<1), S) и 7V({iB>, 2) соответственно. На
основе этой информации нам нужно классифицировать
наблюдение х как наблюдение над i:l или над тт2. Очевидно,
наилучшими оценками рД1) и \ь№ являются соответственно
6 5] СЛУЧАЙ ОЦЕНКИ ПАРАМЕТРОВ ПО ВЫБОРКЕ 191
*<i) = 2 41}/^i и. х{2) = 2 42)/^2' а лУчшей оценкой
матрицы S является матрица 5, определяемая из условия
{Nl + yv2 - 2) 5 = S Dn - *A)) К' - *(I))' +
a. — 1
-f- 2 D2) - *B)) K2) - *<2))'- 0)
a= 1
Подставив эти оценки параметров в E) § 6.4, получим
'1 ({1) <2)) 1 (iA) 22))' 5 (iA) - 22))'. B)
Первый член B) является дискриминантной функцией,
полученной по двум выборкам [предложено Фишером [5]].
Это — линейная функция, имеющая наибольшую «дисперсию
между выборками» относительно «дисперсии внутри
выборок?/. Мы предлагаем использовать B) в качестве критерия
классификации таким же образом, как используется E)
§ 6.4.
В случае, когда распределения, соответствующие
генеральным совокупностям, известны, можно доказать, что
критерий классификации является наилучшим в том смысле, что
он дает минимум математического ожидания потерь в случае
известных априорных вероятностей, и образует класс
допустимых методов, когда априорные вероятности неизвестны.
Использование B) не может быть оправдано таким же
образом. Интуитивно, однако, кажется разумным, что B) дает
хороший результат. В § 6.5.5 предлагается другой критерий.
Предположим, что xv ..., xN есть выборка либо из т^,
либо из тг2, и нам нужно классифицировать эту выборку как
целое. Определим S уравнением
ос 1
4- 2 «2) - *B))(*<2) - х™)' + S (*« - х) (хл - хI C)
где
N
а = 1
192 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ 1ГЛ 6
Тогда величина, дающая критерий, будет такой:
(*A) — *B)). E)
[х — 1
Можно показать, что чем больше Л/, тем меньше
вероятности ошибочной классификации.
6.5.2. О распределении величины V. Пусть для
случайных ЛГ, *A), Х{2) и 5
V = X'S'1 (Х{1) - Х{2)) -1 (Х<1) + ^BТ S'1 (Х{1) - Х{2)) ==
Распределение величины V слишком сложно. Оно зависит
от объемов выборок и неизвестного параметра а. Пусть
\ \ G)
У = Х{1) — Х{2). (8)
Тогда
V = Z'S~lY. (9)
Математическое ожидание Y равно р/1) — \ьBК а
ковариационная матрица есть [A/Л/1)-|—A/Л/2)] S. Вектор Z
распределен нормально со средним значением
A0)
если X принадлежит генеральной совокупности i^, и
i(И)
если X принадлежит генеральной совокупности тг2-
Ковариационная матрица в любом случае равна [1 -f- l/D7V^-f-
-f- l/DyV2)]2. Ковариация между векторами Z и Y равна
Если Nx = iV2, то эта ковариация равна нулю. Легко
видеть, что в этом случае распределение V для X из т^
совпадает с распределением —V для X из 7г2. Поэтому,
если V ^ 0 есть область классификации наблюдения как на-
6 5] СЛУЧАЙ ОЦЕНКИ ПАРАМЕТРОВ ПО ВЫБОРКЕ 193
блюдения над nv то вероятность ошибочной классификации
при условии, что X принадлежит izv равна вероятности
ошибочной классификации при условии, что X принадлежит тс2-
Распределение V рассмотрено Андерсоном [4], Сит-
гривесом [1] и Вальдом [2].
6.5.3. Асимптотическое распределение величины V.
В случае, когда объемы Л^ и N2 выборок, произведеных из
совокупностей, распределенных N(^l\ 2) и N([i<2), 2),
велики, то можно использовать предельные распределения.
Поскольку Х{1) есть среднее значение выборки, состоящей
из Nx независимых наблюдений над совокупностью,
распределенной М(^1К 2), то, как известно,
plim Л^A) = {1A). A3)
Точное определение A3) следующее: для любых
положительных Ь и е можно найти такое N, что для всех NX^N
p\\X{l)-tf)\<bt /=1. .... p}>l-e A4)
(см. задачу 12 главы 3). Это можно доказать, используя
неравенство Чебышева. Аналогично
plim A-B) = {iB). A5)
= 2, A6)
когда Л/х —>оо, Л^2—>оо, или когда и Nl и Af2->oo. Из A6)
получаем
plimS'^S, A7)
так как пределы сумм, разностей, произведений и
отношений случайных величин по вероятности равны суммам,
разностям, произведениям и отношениям соответствующих
пределов, если только предел каждого знаменателя отличен от
нуля (Крамер, [2], стр. 281). Далее
plim S-4*a)-*<2))=2-V'-tiB)). A8)
AY N
plim _(X + )()
= (V.° +!iB>)'2-4li<1)-i*<2)). A9)
7 Т. Андерсон
194 > КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ. в
Отсюда следует, что предельное распределение V является
распределением U. Для достаточно больших выборок из пх
и тс2 величину можно использовать так же, как если бы мы
точно знали распределение генеральных совокупностей, и при
этом мы допускаем лишь небольшую ошибку. (Этот
результат впервые был получен В а льдом [2].)
Теорема 6.5.1. Пусть величина V определена
равенством F), где Х^— среднее значение выборки
объема Nx из совокупности N(f.M, 2), X*®— среднее
значение выборки объема N2 из совокупности N([i<2), 2),
S — оценка 2, полученная по объединенной выборке.
Тогда предельным распределением V при Nx->oo и
N2->oo будет nI-^ol, a\r если X распределен N({10), 2),
и Лн — -н-а, а|, если X распределен N(ji<2), 2).
6.5.4. Другой вывод критерия. Удобный мнемонический
метод вывода критерия основан на использовании регрессии
фиктивной величины (предложено Фишером [5]). Пусть
^РЖ (a==1
Найдем формально регрессию на величины х%\ выбрав такой
вектор Ь, который дает минимум величины
2 N,
2 ^W-VW-x)?. B0)
где _ ,
х = (Nxxto + N2xW)KNx + ЛГ2). B1)
«Нормальные уравнения» будут такими:
2 Nt 2
2
2
/-1 a-1 . /«1 a-1
B2)
6.5] СЛУЧАЙ ОЦЕНКИ ПАРАМЕТРОВ ПО ВЫБОРКЕ 195
Матрицу, которая умножается на Ь, можно записать в виде
2 Nt 2 Nt
2 Sw*-*)^-*/^ Ек^-
1*1 а-1 im\ а-1
+ Nx (*<*> — х) (J?1) — х)' -f N2 (x& —
/-1 а-1
— *~2>)'. B3)
Поэтому B2) можно записать в следующем виде:
ОЬ — (x(i) — х&)Г J*^2 n*!u1j (**A) — ^B)/*1» B4)
где
?=2 2D°-
/-1 a«lv
°—
Так как (л;*1) — дгB))' Ь — скаляр, то вектор Ъ% являющийся
решением B4), пропорционален вектору S"^1* — х®).
6.5.5. Отношение правдоподобия. Другой величиной,
которая может быть использована для критерия
классификации наблюдений, является отношение правдоподобия.
Предположим, что нам нужно проверить составную нулевую
гипотезу, состоящую в том, что х% х^% ..., дЭД есть
выборка из совокупности Л^рД1), S) и л;^, ..., *$ —
выборка из совокупности N({i<2>, 2). Конкурирующая составная
гипотеза состоит в том, что х^\ .... х$ — выборка из
совокупности N(ji<2\ S), a x, xf\ .... л;$) — выборка из
совокупности N(\k<lK S); {i^, jt<2> и 2 неизвестны. Если
справедлива первая гипотеза, то оценками наибольшего
196 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ (ГЛ 6
правдоподобия для ji*1', р,B> и 2 будут
ft * 1), jif) = *B>,
La-1
W3 1
- ft>) (х - ft))' + 2 D2) - Й2)) D2) - W •
a-1 J
Так как
a-l
B7)
то St можно выразить таким образом:
-~ХA)У}' B8)
где С определяется по формуле B5). Если предположить,
что справедлива конкурирующая гипотеза, то (вследствие
симметрии) получим следующие оценки наибольшего
правдоподобия для параметров:
B9)
6 61 СЛУЧАЙ НЕСКОЛЬКИХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 197
Следовательно, отношение правдоподобия равно
(ty + A/j-f О/2-й степени
С +
C0)
Это отношение может быть записано также в виде
C1)
Область, при попадании в которую наблюдение
классифицируется как выборка из тга, состоит из тех точек, для
которых отношение C1) больше заданного числа.
6.6. Классификация наблюдений в случае
нескольких генеральных совокупностей
Рассмотрим проблему классификации наблюдений в
случае нескольких генеральных совокупностей. Для этого мы
распространим методы предшествующего параграфа на
случай более чем двух генеральных совокупностей. Пусть
TCj, ..., тст — т генеральных совокупностей с плотностями
распределения вероятностей рх (х) рт (х) соответ-г
ственно. Мы хотим разбить пространство наблюдений на
т попарно непересекающихся областей Rv .... Rm. Если
наблюдение попадает в область Rt, то мы скажем, что оно
произведено над icj. Пусть цена ошибочной классификации
наблюдения, произведенного над 7г^ как наблюдения над it,
равна С (J | /). Вероятность этой ошибочной классификации
равна
PU\*. #)= fpiWdx. (I)
Предположим, что нам известны априорные вероятности
?i» •••• Чт того, что выборка произведена из соответствую*
щей генеральной v совокупности. Тогда ч. математическое
198 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ.6
ожидание потерь будет равно
т ( т \ - '
J /, R)\. B)
Области Rv ..., Rm мы желаем выбрать так, чтобы
сделать B) минимальным.
Так как нам известны априорные вероятности,
соответствующие каждой генеральной совокупности, то можно
определить условную вероятность того, что наблюдение
произведено над определенной генеральной совокупностью, при
условии, что компоненты вектора X имеют данные значения.
Условная вероятность того, что наблюдение произведено над
генеральной совокупностью tzif равна
4iPi (*) Пч
Если мы охарактеризуем наблюдение как наблюдение над
то математическое ожидание потерь будет равно
С U Ю- D)
Мы получим минимум математического ожидания потерь, если
выберем j так, чтобы D) было минимальным. Рассмотрим
сумму
Д Для всех j E)
и выберем j так, чтобы E) было минимальным. (Если
минимум E) достигается при двух различных значениях у, то
можно выбрать любое из них,) Этот метод относит точку х
к одной из областей Rj. Повторяя его для каждой точки х>
мы определим наши области Rv .... Rm. Следовательно,
метод классификации заключается в том, что наблюдение
классифицируется как наблюдение над Kj, если его
результаты попадают в /?у. - -
6.6] СЛУЧАЙ НЕСКОЛЬКИХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 199
Теорема 6.6.1. Если априорная вероятность того,
что наблюдение произведено над генеральной
совокупностью tcj с плотностью распределения вероятностей
pt(x) (t=l9 ..., т), равна qr и цена ошибочной
классификации этого наблюдения как наблюдения над Тсу
равна С (j\i), то области классификации Rx Rm, при
которых математическое ожидание цены является
минимальным, определяются следующим образом:
область Rk состоит из тех точек х, для которых
т т
2: QiPt (х) c(k\t) < д qiPi w с а | о F)
(j=\, ..., т,
[Если F) выполняется для всех индексов j (у^=Л), за
исключением h некоторых индексов, для которых
неравенство заменяется равенством, то такая точка может
быть отнесена к любой из h-j-l генеральных
совокупностей, соответствующих этим индексам.] Если
вероятность равенства между правой и левой частями F)
равна нулю для любых k и j при условии, что
наблюдение произведено над ти^ (/ — любое), то метод, дающий
минимум потерь, является единственным с точностью
до множеств нулевой вероятности.
Докажем это утверждение. Пусть
G)
Тогда математическое ожидание потерь для метода R будет
равно
т
^ f f (8)
где для а: из Rj h(x)*= hj(x). Для метода Бейеса,
описанного в теореме, h(x) есть h*(x) = min^ht(x). Поэтому
разность математических ожиданий потерь для метода R* и
200 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ. 6
любого другого метода R равна
[h (х) — h* (x)\ dx — 2j I \hj(x) — min ht (x)\ dx >. 0. (9)
Равенство может выполняться лишь в том случае, когда
hj(х) = min,ht(x) для всех х из /?у, за исключением
множеств нулевой вероятности.
Посмотрим, как можно применить этот метод в случае,
когда C(j\L)=\ для всех / и j (/=?/). Тогда в Rk
т т
^J 4iPi (X) <С ^ 4lPl (.X) U Ф Л). (Ю)
/ - 1 I'al
т
Вычитая из обеих частей неравенства A0) 2
'Л >
получим
gjPj(X)<qkPk(x) ОФк). A1)
В этом случае точка х принадлежит Rfc, если k есть индекс,
для которого gipi (х) максимальна, т. е. nk — наиболее
вероятная генеральная совокупность.
Предположим теперь, что априорные вероятности нам
неизвестны. Тогда мы не можем определить безусловное
математическое ожидание потерь, соответствующих данному
методу классификации. Однако можно определить
математическое ожидание потерь при условии, что наблюдение
производилось над данной генеральной совокупностью.
Математическое ожидание потерь при условии, что наблюдение
произведено над тг/э равно
/?)=г(/, /?). A2)
Метод Rt по крайней мере, не хуже метода R*% если
г(/, /?)-<г(/, /?*), /=1, ..., т\ при этом если хотя бы
одно из неравенств строгое, то R лучше R*. Метод R
является допустимым, если не существует метода /?*,
который был бы лучше /?. Класс методов является полным*
если для любого метода R, не принадлежащего этому классу,
6.6] СЛУЧАЙ НЕСКОЛЬКИХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 201
существует метод /?*, входящий в этот класс, который
лучше R.
Покажем, что метод Бейеса является допустимым. Пусть
R — метод Бейеса, a R* — некоторый другой метод. Поскольку
метод R является методом Бейеса,
Предположим, что r(/, R*)^Cr(i, R)t i — 2, ..., т и
Тогда
ЯхШи /?) —гA. /?*)]< 2 ?,И'. ЯГ) — гA. /?)]<0, A4)
* =2
и гA, /?)ОA, /?*). Аналогично, если ^ > 0, то г(/, /?)<[
<>(/, /?*). Таким образом, /?* не может быть лучше /? и,
следовательно, /? — допустимый метод.
Теорема 6.6.2. Если q{ > 0 (i = 1, ..., т), то метод
Бейеса является допустимым.
Теперь предположим, что C(t\J)= 1, / Ф j, и
Р {/7^ (л:) == 01 tzj] = 0. Из последнего условия следует, что
все Pi(x) положительны на одних и тех же множествах
(за исключением множеств меры 0). Пусть ^ = 0 для
/ == 1 * и <7/> 0 Для l = t-\-\, ..., m. Тогда для
решения Бейеса множество Rt (/=1, ..., t) пусто (с
точностью до множества нулевой вероятности), как это видно из
A1), т. е. для X из Rt /?mDc) = 0» Отсюда следует, что для
/ = 1. .... * г(/./?)= 2Р|У 1Р|
Поэтому (/?/+1, .... Rm)—решение Бейеса для задачи,
содержащей р/+1(#). ..., Р«(*) и qt+l qm. Из
теоремы 6.6.2 следует, что никакой метод /?*, для которого
P(l\i, R*) = 0 (/=1, ..., t), не может быть лучше метода
Бейеса. Теперь рассмотрим метод R* такой, что R* содержит
множество положительной вероятности, так что РA11, /?*)>0.
Для метода /?*, лучшего, чем R,
<Р(/|/, /?*)= f pt(x)dx, 1 = 2, ..., т. A5)
202
КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ
ГГЛ. 6
В таком случае метод /?**, где /?** пусто, / = I, .. ., t9
R? = R*, i = t+l, ..., т— 1, и Rm=R*mUR*iU ... \)R*,
дал бы риск такой, что Я(/|/, 7?**) = 0, /=1, .... ?,
/>| #**) р(| /?*>Р(| #) * + 1
, R). A6)
, R**)>P(m\m,
Тогда метод (R*\ь .. •» R*m) был бы лучше, чем (Rt+X Rm)
для (m—^-мерного решения, что противоречит
предшествующим рассуждениям.
Теорема 6.6.3. Если C(i\J)—\ при 1ф] и
Р [Pi (х) = О1 Тсу} = 0, то метод Бейеса является
допустимым.
№'1\ Теперь покажем, что до-
1;'Щ t- » -\ пустимые методы являются
методами Бейеса. Мы
ограничимся лишь случаем т = 3.
Предположим, что
оо. A7)
(ЧьЬ')
рис 10
Это означает, что функция
распределения pt (x)/pj (x)
для любого тгА и совместная
функция распределения двух отношений являются
непрерывными (см. задачу 45 главы 2).
Пусть ai (/?) == 1 — Р (i | /, R) — вероятность принять
неправильное решение в случае, когда выборка производится
из ni и используется метод R. Если R является методом
Бейеса, то cLt(R) есть функция qv qv qs, скажем аД^, q2, q3).
Это непрерывная функция переменных qv q2, q& например,
совместная функция распределения Р2(*IР\(Х) и
,..*.*) является непрерывной. (qv qv q^) удобно
рассматривать как барицентрические координаты точки.
Границы пространства троек (qv q2, q$) и значения функций на
границах указаны на рис. 10.
6.6] СЛУЧАЙ НЕСКОЛЬКИХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 203
- Пусть теперь R* —- допустимый метод и а/ (/?*) = а*.
Покажем, что R* — метод Бейеса. Рассмотрим совокупность
методов Бейеса, для которых ^x(qv qr ^з)==аг Если
03=: 0, то фактически мы имеем дело с двумерным
решением, и поэтому «2 = «2(^1). что есть наименьшее а2 при
условии а1 = а* (получается из результатов для двумерного
случая). Поэтому a2(at)^a2 и аз==='" Аналогично, если
^2 = 0, то а3 = а3(а*)^а* иа2=1. Геометрическое место
точек (qv q2, qz), для которых <*>x(qv qY ?3)=:=ai> есть не"
прерывная кривая1), соединяющая точки [a*, а2(а*), 1J и
[а*, 1, a3(ai)]* ^ак как а2 непРерывно изменяется от а2(а*)
до 1, то существует точка, для которой a2 = a*. Поэтому
существует метод Бейеса R такой, что 0^G?) = ос* и
a2(/?) = a*. Поскольку метод R является допустимым (по
теореме 6.6.3), а3(/?)<а*, но так как метод R* —
допустимый, а3 (/?) = а*. Вследствие единственности решения Бейеса
/?* = #.
Теорема 6.6.4. Если A7) верно, то любой
допустимый метод является методом Бейеса.
Доказательство приведенной выше теоремы показывает,
что класс методов Бейеса является полным. т Для любого
заданного метода R* существует метод Бейеса /?, который
по крайней мере не хуже R* (это следует из полноты класса
методов Бейеса). Но если R не хуже /?*, а R* не хуже /?,
то эти методы совпадают (с точностью до множества
нулевой вероятности нуль).
Далее, класс методов Бейеса является минимальным пол-,
ным классом, поскольку он совпадает с классом
допустимых методов.
Теорема 6.6.5. Если A7) верно, то класс методов
Бейеса является минимальным полным классом.
1) Вдоль каждого луча q2 = k (I — qxy qb = A — k) A — qx\
0 < k < 1, a, убывает непрерывно и монотонно от 1 до 0. Пусть
qi = qi(k) — такое значение qh что о: = а*; тогда qx (k) есть
непрерывная функция k [вследствие непрерывности a, {qh q2, q$) и
монотонности ад как функции q\ при фиксированном ?J.
204 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ, S
Можно рассмотреть также минимаксное решение.
Существует решение Бейеса, для которого сих = а2 = а3, ибо
совокупность точек, для которых аг = а2, является связной и
включает точки, для которых а3=1, и точки, для которых
а3 = 0. Вследствие непрерывности существует точка, для
которой otj = a2 = а3. Так как этот метод является
допустимым, то не существует никакого другого метода, имеющего
меньший максимум вероятности ошибки (т. е. метода, для
которого каждый риск будет меньше). Поэтому получается
минимаксный метод.
Для ознакомления с общей теорией статистических
решений отсылаем читателя к работам Вальда [3] и Бле-
куэлла и Гиршика[1]. Другим методом решение
минимаксной проблемы было получено Мизесом [1].
6.7. Классификация наблюдений в случае
нескольких многомерных нормальных совокупностей
Теперь мы применим теорию, изложенную в § 6.6, к
случаю, когда каждая генеральная совокупность распределена
нормально (см. Мизес [1]). Предположим, что средние
значения этих распределений различны, а их
ковариационные матрицы одинаковы. Пусть N(jt(/), 2)— распределение
совокупности тг/# Плотность этого распределения
определяется формулой A) § 6.4. Предположим вначале, что
параметры этих распределений известны. Для общих цен
с известными априорными вероятностями можно
определить т функцией E) (см. § 6.6) и определить область Rj
как совокупность таких точек х, в которых у-я функция
оказывается минимальной.
В дальнейшем в этой главе мы будем считать, что цены
ошибочных классификаций равны. Используем функции
A)
Если априорные вероятности известны, то область /?,
определяется как совокупность точек х% удовлетворяющих
условиям
Rj'.uJk(x)>\n^-, k=\ m\ k^j. B)
6.7] СЛУЧАЙ НЕСКОЛЬКИХ НОРМАЛЬНЫХ СОВОКУПНОСТЕЙ 205
Теорема 6.7.1. Вели qt — априорная вероятность
того, что наблюдение производится над гс^ = Л/(р,('\ 2)
(/=1, ..., т), и цены ошибочных классификаций равны
между собой, то области классификации Rv ..., Rm,
для которых математическое ожидание цены
минимально, определяются из условия B), где Ujk(x)
получается по формуле A).
Следует отметить, что каждая из функций Ujk(x) есть
классификационная функция, связанная с у'-й и k-ft
генеральными совокупностями, и Ujk(x) = — ukj(x). Так как эти
функции являются линейными, то область Rt ограничена
гиперплоскостями. Если векторы среднего значения входят
в (т — 1)-мерные пространства (например, в случае, когда
векторы [i(/) линейно независимы и р^т—1), то Ri
ограничена т — 1 гиперплоскостями.
В случае, когда априорные вероятности неизвестны,
область Rj определяется неравенствами
*jk(*)>cj — ck' k==l> •••• т> Ьф].~ C)
Константы ck можно взять неотрицательными. Эти
множества областей образуют класс допустимых методов. Для
минимаксного метода эти константы определяются так, чтобы
все P(i/i, R) были равны между собой.
Теперь покажем, как оценить вероятности правильной
классификации. Пусть X—случайное наблюдение.
Рассмотрим случайные величины
-№> + iP)]rW»-№ D)
Здесь Uji = — Цц. Таким образом, если векторы среднего
значения принадлежат (т—1)-мерному пространству, то
используется т(т —1)/2 классификационных функций.
Если X принадлежит тг^, то Uц распределена
( ГДе
^-^-^У^^-Л E)
Ковариация между Uji и Ujk равна
«^Ч^-ГГ^Ч^'-Л ' F)
206 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ (ГЛ. в
Чтобы определить константы Cj, рассмотрим интегралы
сГст СГС1
G)
где Л — плотность распределения вероятностей U»
(/=1, 2, ...,«) (t^j).
Теорема 6.7.2. Если п1 распределена N(ji@, 2) и
цены ошибочных классификаций равны между собой,
то области классификации, Rv ..., Rm, при которых
условное математическое ожидание потерь минимально.
Рис. 11.
находятся из условий C), где функции Ujk(x) даются
формулой A). Константы Cj определяются так, чтобы
интегралы G) были равны между собой.
В качестве примера рассмотрим случай т = Ъ. Без
ограничения общности можно считать, что р = 2, ибо плотность
для ббльших значений р можно спроектировать на
двумерную плоскость, определенную векторами среднего значения
трех генеральных совокупностей, если эти векторы некол-
линеарны (т. е. вектор X можно преобразовать в вектор
с координатами я12, я13 и р — 2 остальными координатами,
причем последние не будут зависеть от ип и и13 и будут
иметь нулевые математические ожидания). Области /?*, как
показано на рис. 11, определяются тремя полупрямыми.
6.71 СЛУЧАЙ НЕСКОЛЬКИХ НОРМАЛЬНЫХ СОВОКУПНОСТЕЙ 207
Если этот метод является минимаксным, то мы не можем
передвинуть линию между Rx и R2 ближе к (ytf\ |i?>), линию
между R2 и /?3 ближе к (pfK р$2)) и линию между /?3 и /?,
ближе к (\xf\ jiB3>), сохраняя при этом равенство Р A|1, /?) =
= ЯB|2, /?) = ЯC|3, R) и не выходя из треугольника,
который не включается целиком ни в одну область. Таким
образом, поскольку области должны исчерпывать все
пространство, то линии должны пересечься в точке, а
равенство вероятностей определяет сг — Cj однозначно.
Чтобы сделать это в конкретном случае, в котором мы
имеем числовые значения компонент векторов |iA), цB), рьC*
и элементов матрицы 2, мы рассмотрели бы три D^р + 1)
совместных распределения, каждое из которых является
распределением величины 2U^{j Ф /). Мы могли бы испытать
значения с? = 0 и, используя таблицы (Пирсон [7])
двумерного нормального распределения, вычислить Р(/|/, /?).
Методом проб и ошибок можно было бы получить ct,
приближенно удовлетворяющие приведенным выше условиям.
Вся предшествующая теория излагалась в предположении,
что параметры известны. Если же они неизвестны, но
имеется выборка из каждой совокупности, то в определение
функции utj(x) можно подставить оценки параметров. Пусть
наблюдения х[1\ ..., х$ произведены над совокупностью
N(\fSl), S), /=1, .... т. Оценим р,(/) величиной
<8>
а матрицу 2 — матрицей S, определяемой из уравнения
W/>-*('))'- (9)
Тогда аналогом функции и^(х) будет
VlJ (х) = [х - i (?<*> + *(У))]' S'1 (*О - %Л). A0)
Поскольку используемые здесь величины являются
случайными, то полученные распределения будут отличны от
208
КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ
[ГЛ. 6
распределений Utj. Однако при Nl->oo совместные
распределения будут стремиться к распределениям 11ц.
Следовательно, при достаточно больших выборках можно использовать
изложенную выше теорию.
6.8. Пример классификации в случае
нескольких многомерных нормальных генеральных
совокупностей
Ра о [6] рассмотрел три генеральные совокупности,
состоящие из членов индийских каст браминов (т^),
ремесленников (тс2) и корва (тс3). Для каждого члена касты
измерялись рост стоя (хг), рост сидя (лг2), ширина носа (лг3) и
длина носа (х4). Средние значения этих величин для трех
генеральных совокупностей приведены в таблице 6.
Таблица 6
Рост стоя (хх) . . . .
Рост сидя (х2) ....
Ширина носа (лг3) . .
Длина носа (лг4) . . .
Брамины
(«О
164,51
86,41
25,49
51,24
Ремесленники
<*2>
160,53
81,47
23,84
48,62
Корва
<*s)
158,17
81,16
21,44
46,72
Корреляционная матрица для всех генеральных
совокупностей равна
1,0000 0,5849 0,1774 0,1974
0,5849 1,0000 0,2094 0,2170
A)
0,1774
0,1974
0,2094
0,2170
1,0000
0,2910
0,2910
1,0000
Стандартные отклонения равны <з{ = 5,74; о2 = 3,20; о3= 1,75;
о4=3,50. Предположим, что каждая генеральная
совокупность является нормальной. Задача состоит в' том, чтобы
разбить пространство четырех случайных величин xv x2,
лг3, хА на три области классификации. Предположим, что
цены ошибочных классификаций равны между собой. Мы
найдем: 1) множество областей в предположении, что новое
6.8] ПРИМЕР ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ 209
наблюдение можно с одинаковой вероятностью отнести
к каждой из генеральных совокупностей (q1 = q2 = дг=^\/3)
и 2) множество таких областей, что наибольшая вероятность
ошибочной классификации будет минимальной (минимаксное
решение).
Сначала мы вычислим коэффициенты Z^1*— [iB)) и
ц-Ч^-цЮ). Тогда s-1^2)-^))^^-1^-^)-
— 2~!({1A) — jiB)). Затем мы вычислим
Мы получим дискриминантные функции!)
и12 (х) = — 0,0708л:, + 0,4990л:2 + 0,3373дг3 + 0,0887лг4 + 43,13, \
и18 (х) = 0,0003*! + 0,3550х2 + 1,1063*3 + 0,1375дг4 + 62,49, | B)
и23 (х) = 0,071 \хг — 0,1440л:2 + 0,7690лг3 + 0,0488л:4 + 19,36. ]
Другие три функции определяются следующим образом:
«21 (*) = —«12(*). % (*) = — UIZ (*) И «32 С*) = — «23(*)-
Если известны априорные вероятности и если они равны
между собой, то наилучшее множество областей
классификации определяется таким образом:
Например, если при измерении некоторого индивидуума мы
получили такой результат лс, что и12(X)>0 и й13(х)^0,
то мы отнесем его к касте браминов.
Чтобы найти вероятности ошибочных классификаций,
когда индивидуум взят из совокупности тс , необходимо
знать средние значения, дисперсии и ковариации
соответствующих пар и. Они приведены в таблице 72).
1) Вследствие ошибки, допущенной при вычислениях,
дискриминантные функции, полученные Рао, являются неточными. Я
благодарю Питера Франка за помощь в вычислении этих функций.
2) Некоторые вычислительные ошибки, допущенные
Андерсоном [4], исправлены в таблице 7 и в C).
210
КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ [ГЛ. 6
Таблица 7
Генеральная
совокупность х
«2
«8
и
«12
«13
«21
«23
«31
«32
Среднее
1,491
3,487
1,491
1ДО1
3,487
1,031
Стандартное
отклонение
1,727
2,641
1,727
1,436
2,641
1,436
Коэффициент
корреляции
0,8658
—0,3894
0,7983
Вероятности ошибочных классификаций получаются тогда
посредством использования таблиц для двумерного
нормального распределения. Эти вероятности равны 0,21 для 7ulf
0,42 для тс2 и 0,25 для ir3. Например, если измерения
произведены над брамином, то вероятность классифицировать его
как ремесленника или как члена касты корва равна 0,21.
Минимаксное решение получается посредством
нахождения констант cv с2 и cz для C) § 6.7 так, чтобы
вероятности ошибочной классификации были равны между собой.
Области классификации определяются следующим образом:
: «12 (*) > 0,54;
0.54;
Яз : % (*) > — 0,29; и32 (*) > 0,25.
C)
Полная вероятность ошибочной классификации (с точностью
до двух десятичных знаков) равна 0,30. Таким образом,
максимальная вероятность ошибочной классификации
уменьшена с 0,42 до 0,30.
ЛИТЕРАТУРА
§6.2. Б ер к с он [1]; Берт [1];
§ р
шик [1]; Вальд [3].
§6.3. Б
[]; []
§6.3. Блекуэлл и Гиршик [1]; Вальд
и Пирсон [1]; Хоел и Петерсон [1].
Блекуэлл и Ги р-
[3]; Нейман
ЗАДАЧИ 2U
§ 6.4. В а л ь д [2].
§6.5. Андерсон [4]; Барнард [1]; Бартлетт [6], [7J;
Билл [1]; Вальд [2]; Кен да л л [4]; Косее к [1]; К охрен
и Б лис с [1]; Крамер [2]; Ситгривес [1]; Фишер [5],
F], [8]; Хорст и Смит [1].
§ 6.6. Блекуэлл иГиршик [1]; Вальд [3]; М и з е с [11.
6.7. Мизес [1]; К. Пирсон [7J.
6.8. Гамильтон [11; К. Рао [6].
й 6 А [
Ло всей главе 6. Андерсон [4]; Армитедж
Бартлетт [2]; Браун [2], [3]; Квенауилл [1]; Л орд ж
Любин [1]; Мартин [1]; Махаланобис [2]; Нанда
Н.раи» [3]; Пе»ро,3.Г11; К. P. Pio [31 в). [6|, т.
ун [2], [3]; Квенауилл [1]; Ло\
н [11; Махаланобис [21; Hai
оуз [1]; К. Р. Рао [31, [5], [6],
50, [161, [17], [181; К. Р Рао и
]; К. Смит [1]; X. Смит [1]; Уо
[1] У [1]
.._,_ , l\.
[13], [15], стр. 273-350, [161, [17], [181; К. Р Рао и Слей-
тер [1]; С. Рой [15]; К. Смит [1]; X. Смит [1]; Уоллес и
Траверс [1]; Уэлч [1]; Уэрри [1].
ЗАДАЧИ
1. (§ 6.5) Найти критерий (§ 6.5.1) классификации Iris как Iris
setosa или Iris versicolor на основе данных, приведенных в § 5.3.3.
2. Пусть и(х) — критерий классификации, определенный
формулой B) § 6.5.1. Показать, что величина Т2 дляцпроверку
гипотезы N(^lK 2) = N(pW, 2) пропорциональна и (хМ) и#(х<2>).
3. (§ 6.3) Пусть щ распределена 7V(ji, 2/), /= 1, 2. Найти вид
допустимых методов классификации.
4. (§ 6.3) Пусть щ распределена N (pW, 2/), / = 1, 2. Найти вид
допустимых методов классификации.
5. (§6.7) Пусть щ распределена iV(jiW,2), /=1, ..., т.
Показать, что если ц<*> лежат на одной прямой (т. е. ji<'> = ji + ^P)»
то для допустимых методов Rt определяются параллельными
плоскостями. Показать таким образом, что необходимо использовать
ЛИШЬ ОДНУ ДИСКрИМИНаНТНуЮ фуНКЦИЮ UjUt(X).
6. (§ 6.7) В § 8.8 приведены данные о выборках из четырех
генеральных совокупностей, состоящих из черепов. Рассмотрим
первые два измерения и первые три выборки. Построить функции
классификации иц(х). Найти метод для qt = Nil(Nx -J- N2 -f* ^з)-
Найти минимаксный метод.
7. (§6.5) Пустьxl{i)-Bxp + c (/-1, 2; a-lv ..., Nt)t где
В — невырожденная матрица и х = Вх -f- с. Показать, что
статистика B) § 6.5 для классификации является инвариантной
относительно таких преобразований.
8. (§6.4) Пусть ЯB|1) н ЯA|2) определяются по
формулам A4) и A5) § 6.4. Доказать, что если а возрастает, то с можно
подобрать так, чтобы, по крайней мере, одна из величин РB11) или
Я A12) убывала, а другая не возрастала. [Указание. Доказать,
дР A12) дР B1 1) дР A12) дР B11) ]
что да дс дс да < aJ
212 КЛАССИФИКАЦИЯ НАБЛЮДЕНИЙ ГГЛ б
9. (§ 6.4) Пусть х' = (*A) , хBу). Используя задачу 10 главы 5
и задачу 8 этой главы, доказать, что класс методов, основанных
на ху равномерно не хуже класса методов, основанных на jc(i).
10. (§ 6.3) Доказать, что любой полный класс методов
включает класс допустимых методов.
11. (§ 6.3) Доказать, что если класс допустимых методов
является полным, то он является минимальным полным классом.
12. (§ 6.6) Доказать, что можно провести замкнутую кривую
из точки (qv q2, О) с [a*, a2(aj), lj ДО точки (qv 0, д3) в [а*, 1, «3(а*)]
так, чтобы в любой точке на кривой было а: = а*.
13. (§ 6.5) Рассмотрим d'x^. Доказать, что отношение
2 (d'4)-d'xmf+ f {d'xf-d'x^f
ct-1 a» 1
максимально при d = 5'1 (лгA) — jcB))«
14. (§ 6.3) Фундаментальная лемма Неймана — Пирсона
утверждает, что при данном уровне значимости из всех критериев для
проверки нулевой гипотезы о том, что х есть выборка из рх (х\
при конкурирующей гипотезе, состоящей в том, что х есть выборка
из р2 (jc), наиболее мощный критерий имеет критическую область
Р\ (x)lP2 (х) < к. Доказать этот результат, используя рассуждения*
приведенные в § 6.3.
15. (§ 6.3) В случае, когда р (х) = п (х \ ji, S), найти наилучший
критерий для проверки гипотезы ji = 0 при конкурирующей
гипотезе [1 = ji* при заданном уровне значимости е. Показать, что для
всех конкурирующих гипотез ji = qi*, с > 0, этот критерий является
равномерно наиболее мощным. Доказать, что не существует
равномерно наиболее мощного критерия при конкурирующих гипотезах
ji = ^ и р =* рР\ если не выполняется ji^ = cjiB) для некоторого
с>0.
16. (§ 6.6) Доказать, что функция qx (k), как утверждалось
в подстрочном примечании к доказательству теоремы 6.6.4, является
непрерывной.
ГЛАВА 7
РАСПРЕДЕЛЕНИЕ ВЫБОРОЧНОЙ КОВАРИАЦИОННОЙ
МАТРИЦЫ И ВЫБОРОЧНОЙ ОБОБЩЕННОЙ
ДИСПЕРСИИ
7.1. Введение
Выборочная ковариационная матрица
является оценкой ковариационной матрицы генеральной
совокупности. В § 4.2 была получена плотность распределения
вероятностей матрицы A — (N—1)S в случае матрицы
порядка 2 X 2. В § 7.2 этот результат будет обобщен на
случай матрицы А любого порядка. Если. 2 = /, то это
распределение является в известном смысле обобщением
^-распределения. Распределение матрицы А (или 5), часто
называемое распределением Уишарта, является основным
распределением в многомерном статистическом анализе.
В §§ 7.3 и 7.4 будут рассмотрены некоторые свойства
распределения Уишарта.
Обобщенная дисперсия определяется в § 7.5 как |«S|.
Эта величина является некоторой мерой разброса выборки.
Ее распределение охарактеризовано ниже.
7.2. Распределение Уишарта
В этом параграфе будет получено распределение матрицы
N _ _
Л= 2 Л — ^ОС^а — X)', где Ха — независимые одинако-
а = 1
во распределенные случайные векторы с законом
распределения N(\i, 2). Как было показано в § 3.3, матрица А
214 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
распределена так же, как и 4»22jtUt где дяЛ/ — 1 и
Za — независимые одинаково распределенные случайные
векторы с законом распределения N@, 2). Покажем, что для
положительно определенной матрицы А плотность
распределения вероятностей равна
(лр1)
ехр(—i
V
Сначала выведем A) для 2 = /. Мы неоднократно
используем здесь следующий частный случай теоремы 4.3.2. Если
скалярные величины Ua независимы и Ua распределена
N(Twa, <р), то 2 Ul — 2 t/.«« B WawIV12 u«v>a распре-
a a \ a / a
n-q
делена, как 2 ^a. где q — число компонент вектора «l§
a-l
Va — независимые одинаково распределенные случайные
величины с законом распределения N@t <p) и не зависящие от
2 ^a^a B W«Wa) • В ЧаСТНОСТИ, еСЛИ <р == 1, ТО 2 Ua —
— 2 ?A*Wa B ЗДсДОа)"" 2 ^а^а имеет х2-распределение с д—q
степенями свободы, плотность которого равна
-= г е . B)
Далее, 2 ^awo нормально распределена; если Г = 0, то
М 2 Uaw* = 0, а ковариационная матрица равна
2 у««>в 2 ит = 2 w«wp8«P=2 «>««;«.
a, p a
м
Пусть a{i) = (ал /+1, аи /+2 а//?) и Аи = (аул), У,
/, .. •, р. Тогда
( 7 ) D)
)•
/
7.2]
РАСПРЕДЕЛЕНИЕ УИШАРТА
215
Г
Пусть <*„.,+,,...,, = аи — а(/)ЛГ+i, /+i <*('/)• Множество
(Zn, .... Zin) не зависит от (ZJV .... Z^), у =? /
(вследствие того, что 2 = /) и, следовательно, при условии Zja = Zja
(j Ф /i а=1, ..., л) элементы множества (Zn, . .\, ZM)
независимы и одинаково распределены с законом
распределения N@, 1), который имеет вид N(Twat ср) при Г = 0 и
<р=1. Пусть Ziy)'=(ZK ZJ+ha Zp<t). Тогда
Из частного случая теоремы 4.3.2 находим, что при
условии Za+1) = ^a+1) я/ы-н, ...,р имеет ^-распределение с /г—
— (р — /) степенями свободы и не зависит от вектора Щу
условное распределение которого есть N @, А1+1, /+1).
Отметим, что условное распределение зависит от
только через Ai+V l+v т. е. плотность этого распределения
имеет вид ft(aiM+h t..tpt a(i)\ Ai+V /+1). Таким образом,
совместная плотность распределения вероятностей ап.2 р*
•••• ap-hp-hp>*ip-lh app Равна
Un-(p-t)]-l ~au.ni i
аН.М р • 2
1
X
1 —1
1 а^
E)
Подставляя в E) произведение
на определитель преобразования, равный единице, и
упрощая полученное выражение, получим плотность распределения
216
ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА
вероятностей аи, аA>. ..., арр. Показатель при е
будет
[ГЛ. 7
в E)
L /-1 /-1 J
*
- 1
Используя то, что (теорема 5 приложения 1)
l, t+l
_ \AU\
находим (арр =
P-\
PPJI
Значит,
П
Г
p\
2"[«-(
'М+1
ХД
1
1
1 \Al+ui+l\2
G)
Степень -к в знаменателе E) равна -j [(p
... + 1] = i l(p — 1) /7/2]. Так как
<>-1). (9)
— 2) -j- ...
П
П
7.2] РАСПРЕДЕЛЕНИЕ УИШАРТА 217
то плотность распределения вероятностей аи, а12 арр
равна
\.А[ *
Это совпадает с A) при 2 = /.
Теперь выведем (Ь) для произвольной матрицы 2. Пусть
п
А = 2 ZaZa, где Za — независимые одинаково распределен-
<х=1
ные векторы с законом распределения N@, S) и А* =
п
= *2jZiZlt где Za — независимые одинаково распределен-
a = l
ные векторы с законом распределения N@, /). Тогда А*
имеет плотность A0). Допустим, что С—такая треугольная
матрица {ctj = 0, / > у), что С2С = / (теорема 4 приложе-
/I
ния 1). Распределение САС = 2 (С^аК^оУ совпадает с
распределением Л*, поскольку распределение CZa совпадает
с распределением Za. Следовательно, плотность А получается
посредством подстановки А* — САС в A0) и умножения на
определитель этого преобразования.
Лемма 7.2.1. Пусть симметрическая матрица А*
преобразована в симметрическую матрицу А
посредством невырожденной треугольной матрицы С (^, = 0,
* > У)» так чт0 ^* = САС. Тогда определитель этого
преобразования равен модулю |C|ptl.
Доказательство. Выполнено следующее
преобразование:
<?Ц =Ъсшаысц- A1)
Частные производные равны
ikc}k> A2)
да\.
да) i
^ 1 + Ь-
218
ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА
[ГЛ. 7
Выпишем элементы матрицы А в линейном порядке: ап,
а12 а1р, 022 арр. В матрице частных производных
элемент ¦ Лжш расположен в я^-й строке и akl-u столбце.
Получим треугольную матрицу
2сис12 ... 2спс1р
спсп ... спс2
О
О
О
о
СПСРР
2
2С22
2
С2
С1РС2Р
С1рСРР
A4)
Ее определитель равен произведению диагональных
элементов, т. е. II^/1 = | C\p+l. Это и доказывает лемму.
Теперь заменим А в A0) на САС. Из C2SC/ =
/получаем 1 = | CLC | = | С\ | 2 11 С | = 12 11 СС |. Таким образом,
| ОС | = 1/12 | и mod | С| = 1/VT^T- Далее s = C""X (С) =
= (С/С). Поэтому spCi4C = sp4C/C=spi4SH|CAC/|==
= | С\ | Л11 С | = | А11 СС\ = | А |/| S |. Эти подстановки в A0)
и умножение на определитель дают A).
Теорема 7.2.1. Предположим, что р-мерные
векторы Zv ..., Zn (n^-p) независимы и одинаково
распределены с законом распределения N@, S). Тогда плот-
п
ность распределения вероятностей А = 2 ^*2Т« равна
A5)
JJ
-0]
положительно определенных А и нулю в остальных
случаях.
7.2] РАСПРЕДЕЛЕНИЕ УИШАРТА 219
Следствие 7.2.1. Предположим, что р-мерные
векторы Хх XN (N > р) независимы и одинаково
распределены с законом распределения N({i, 2). Тогда
плотность распределения вероятностей
а т 1
дается формулой A5) при n = N—1.
Обозначим плотность распределения вероятностей A5)
через гв>(Л|2, п), а распределение, которому соответствует
эта плотность, —через WBt n).
Первый вывод этого распределения [Уишарт [1]] был
сделан с помощью геометрических преобразований, которые
очень близки к приведенному здесь доказательству. Пусть
(ziV ..., г1г^ = ч\ — вектор в я-мерном пространстве.
Диагональные элементы матрицы А являются квадратами длин
этих векторов, a^evjvj, а недиагональные элементы
соответствуют длинам и углам между векторами, так как Гп —
= а^/Уаиа^ есть косинус угла между v^ и Vy. Матрица А
описывает длины и конфигурацию векторов.
Элемент вероятности для У v^, v^vm v^ при
данных v/+1, ..., v^ приближенно равен вероятности того,
что Vj лежит в области, для которой
^i <
Первая пара неравенств определяет сферический тор
внутреннего радиуса Yau-> каждая из других пар неравенств
определяет область между двумя гиперплоскостями. В этой
области плотность распределения вероятностей
является приближенно постоянной. Пересечение областей
является- сферическим тором в п—(р—/)-мерном пространстве
220 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА ГГЛ 7
С (р — /)-мерной областью пересечения. Объем области
пересечения приближенно равен
d V^u dau l+1 .. • daipl\ At+lt /+1\\
Квадрат радиуса сферического тора равен au.l+h ...ip=s
= пц — а(*)АГ+1,/+i0(/) (см. § 4.4.1). Поверхность его (или
объем) равна произведению [п — (р — /)—1]-й степени
радиуса на поверхность [п — (р — /)]-мерной сферы единичного
радиуса. Поверхность сферы единичного радиуса равна
Таким
образом, элемент вероятности для ]Л>->., vjv/+1, .... v,vp
равен
e l 2n2 л [n-(p-i)-D d Vau dau f+l ... dalo
A6)
Этот элемент вероятности для v^vf., v^v/+1, ..., vjv
предусматривает подстановку d У~(Ги = dau/B Y~<hi)- ^T0 приводит
к /-му члену произведения в E).
Анализ, полностью параллельный геометрическому выводу
Уишарта (и затем выводам Махаланобиса, чБозе и
Роя [1J) сделан Свердрупом [1] (и Фого м [1] для/? = 3).
Мэйдоу [1\ использовал другой метод, основанный на
распределении коэффициента корреляции (для 2 == /),
полученном Хотеллингом путем рассмотрения определенных частных
коэффициентов корреляции. Хсу [3] дал индуктивное дока»
зательство, а Раш [1] предложил метод, основанный на
использовании функциональных уравнений. Другой метод
состоит в получении характеристической функции, а затем
плотности распределения вероятностей, т. е. обратного пре-'
образования Фурье от характеристической функции, как это
сделано Ингемом [1] и Уишартом и-Бартлеттом [2].
Крамер [2] проверил, что распределение Уишарта имеет
характеристическую функцию матрицы А своей
характеристической функцией. . _ ._____;
7.31 HEKOTOPbTF СВОЙСТВА РАСПРЕДЕЛЕНИЯ УИТПАРТА 221
В заключение этого параграфа мы приведем совместное
распределение выборочных дисперсий и ковариаций. Мы
показали, что матрица /V2 [для выборки объема N из сово-
п
купностй N({1, 2)] распределена как ^ZnZai где Za — не-
зависимые одинаково распределенные векторы с законом
распределения N@, 2), n = N—\, МЛ/2-=я2 и MS = 2,
где S = (N/n)t.
Теорема 7.2.2. Предположим, что Xv ..., XN
(N >-/? + 1) — независимые одинаково распределенные
случайные векторы с законом распределения Af(ji, 2). Тогда
матрица S = (\/п)^(Ха— Х)(Ха— ХУ имеет
распределение 1»ЧA/лJ, п]*где лг = Л^ — 1 и И7[A/лJ,
п}_—распределение Уишарта с ковариационной матрицей 12
и п степенями свободы.
Доказательство. Ясно, что
= A/я) А =
где [\jYn)Za — независимые одинаково распределенные
векторы с законом распределения N[0, A/яJ]. Поэтому теа-
рема 7.2.2 следует непосредственно из теоремы 7.2.1.
п
Если п < р, то матрица А = 2 ZaZl не имеет плотности
распределения вероятностей. Тем не менее мы будем назьк
вать это распределение распределением Уишарта.
7.3. Некоторые свойства распределения Уишарта
7.3.К Характеристическая функция.
Характеристическая функция распределения Уишарта проще всего может
быть получена из распределения наблюдений. Предположим,
что векторы Zp ..., Zn (n^p) независимы и одинаково
распределены с плотностью - .
1
Texp(—i*'S:'*). A)
222 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА (ГЛ. Т
Пусть
л
4 = SZX B)
Введем матрицу 0 = @/у) порядка (р X Р\ причем 8^ = 0у/.
Вследствие того, что
sp EFQ = 2 ttjfjkgki = SP FQE>
характеристическая функция Alv Л22, . •., Appt 2Л12, 2Л13, ...
.... 2Л,_1§/, равна
М ехр [/ sp (Ав)] = М exp U sp 2 Z*Z&) ==
= М ехр (/ sp |j ZleZ.) = М ехр (i 2
) ( jC)
Из леммы 2.6.1 следует, что
(п \ я
/ 2 2T«eZa )=П М ехр (/Z«eZa)=[M exp (/Z'eZ)]", D)
где Z имеет плотность распределения вероятностей A). Для
действительной матрицы в существует невырожденная
матрица В такая, что
fi/Sfi = /, E)
fire^ = Z>, F)
где D — действительная диагональная матрица (теорема 3
приложения 1). Если положить
Z = fiy. G)
то по лемме 2.6.2
М ехр (/Z'BZ) = М ехр (tY'DY) =
= М jjj exp (idjjY)) = Д М ехр (tdjj Y7j). (8)
7-й член в произведении есть Mexp(WyyKy), где Ку
распределена N@, 1), т. е. этот член есть характеристическая
функция х2"РаспРеДеления с одной степенью свободы,
а именно A — 2tdjj) "* (это может быть легко доказано по-
7.3] НЕКОТОРЫЕ СВОЙСТВА РАСПРЕДЕЛЕНИЯ УИШАРТА 223
средством разложения ехр(/*/у/у5) B степенной ряд и
почленного интегрирования). Таким образом,
р ± _i
Mexp(/Z'6Z) = ПA— Шп) 2 = |/—2/Z>| 2, (9)
поскольку /—2iD— диагональная матрица. Из E) и F)
видно, что
\/—2iD\=\B'Z-lB — 21В'ЪВ\ = \В'{Ъ~1 —
= |fi'||S — 2/в| |,В| = |,в|2| S" — 2/е|, A0)
I^IIS]^^!/^! и \B\2=l/\Z~l\. Комбинируя
подученные выше результаты, получаем
2 П
М ехр [/ sp (Лв)] = '* ' 1 . A1)
IS-1 —2/©|2 Л
Можно показать, что этот результат остается в силе, если
только матрица 9l(oJk — 2ibJk) положительно определена.
В частности, это справедливо для любой действительной
матрицы в.
Теорема 7.3.1. Если векторы Zv ..., Zn независимы
и одинаково распределены с законом распределения N@,2),
то характеристическая функция величин Alv ..., Appf
2Al2 2^-i,p* где
<х« 1
дается формулой A1).
Моменты элементов А можно получить или из
характеристической функции, или из первоначального нормального
распределения. Математическое ожидание А^ равна
п п
у = М 2 ZlaZJa = 2 оу = /toy. A2)
а=1 а = 1
224 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
Чтобы получить ковариации, нам нужна формула
= м 2 zuzjazkazla + м 2 z,.az/azft3z,3 =
а = 1 а, 3 = 1
п (л — 1) а,7<зи =
^у/ + n°ifljk> (! 3)
где моменты четвертого порядка берутся из § 2.6.2. Таким
образом, ковариация между Ац и Akl равна
М (Ау — пси) (Akl — nokl) = n {oikon + Qifijk). A4)
Если i = k и у = /, то получается дисперсия Ац
u). A5)
7.3.2. Сумма матриц Уишарта. Предположим, что
матрицы Аь (/=1,2) независимы и распределены
соответственно по законам №B, nt). Тогда матрица Ах распреде-
пх
лена, как 2 ^a^l. а матрица Л2 — как 2 ^<Ж, где Za —
o = l a = /i! + l
независимые одинаково распределенные векторы с законом
распределения N@, 2). Поэтому матрица
4 = ^ + 4, A6)
п
распределена как ^ ZaZ'at где п = /^ -f- я2. Таким образом,
матрица Л распределена по закону W (S, /г). Очевидно,
сумма # независимых матриц, каждая из которых
распределена по закону Уишарта с ковариационной матрицей 2, имеет
распределение Уишарта с ковариационной матрицей 2, а число
степеней свободы равно сумме степеней свободы слагаемых
матриц.
Теорема 7.3.2. Если матрицы At (/=1, ..., q)
независимы и распределены соответственно по законам
7.3] НЕКОТОРЫЕ СВОЙСТВА РАСПРЕДЕЛЕНИЯ УИШАРТА 225
, nt)t то матрица
Л=ЦА, A7)
распределена по закону W\ 2, 2л
7сЗ.З. Одно линейное преобразование. Мы часто делаем
преобразование
A8)
где С—невырожденная матрица порядка р X Р- Если А
распределена по закону W A>, п), то В будет распределена по
закону №(Ф, п), где
Ф = С"2С". A9)
Доказывается это следующим образом. Пусть
B0)
где Za — независимые одинаково распределенные векторы
с законом распределения N@, 2). Тогда вектор
Уа = С'% B1)
распределен N@, Ф). Однако матрица
В =2 KaKa = C2zaZlC/ = C~14C' B2)
a=l a=l
распределена по закону W (Ф, п). Л* , определитель
преобразования A8), равен
\А\2 |Ф|2
_ d
- mod
|P+i
7.3.4. Частные распределения. Если патрица А
распределена по закону WB, n)> то получить частное
распределение произвольного множества элементов Л, вообще говоря,
трудно. Однако можно легко получить частные
распределения некоторых множеств элементов. Мы дадим некоторые
из них в следующих двух теоремах.
> 8 Тя Андерсон
226 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА ГГЛ 7
Теорема 7.3.3. Пусть А и 2 разбиты на q и р — q
строк и столбцов
B4)
Ч21 " "
матрица А распределена по закону WB, n), то
матрица Ап распределена по закону W(?lv n).
Доказательство. Матрица А распределена как
п
2 ZaZat где Za — независимые одинаково распределенные
а-1
векторы с законом распределения N@, 2). Разобьем
вектор Za на q и (р — #)-мерные подвекторы
/z{1)\
B5)
Тогда Zax) — независимые одинаково распределенные векторы
с законом распределения N@, 2П), и матрица Ап распре-
п
делена как 2 Z^Z^' t которая имеет распределение WBn, n).
Теорема 7.3.4. Пусть А и 2 разбиты на pv
pv ..., pq строк и столбцов (рг + ... -f- pq = /?)
Jl?\ /Sn ... Sw\
: • • • • • S=U ' ' •-•)• B6>
Aql ... AqqJ \bqX ... 2W/
^ = 0 для 1Ф] и матрица А распределена по
закону W(Lt n), то матрицы Ап, Л22, ..., Aqq
независимы и Ajj распределена по закону W(L^, n).
Доказательство. 'Матрица А распределена как
п
2 ZaZa. где Za — независимые векторы, каждый из которых
распределен N@, 2). Пусть вектор Za разбит на
подвекторы следующим образом:
B7)
сообразно с разбиением Д и1,
7.4] ТЕОРЕМА КОХРЕНА 227
Так как 2,. —О, то Zi° не зависит от ZJ/*. Тогда
п } п
^w = Szi/)zi/)' не зависит от Ап= 2 Z^Z^'. Остальная
а = 1 JJ а=1
часть теоремы 7.3.4 следует из теоремы 7.3.3.
7.4. Теорема Кохрена
Теорема Кохрена [1] оказывается полезной при
доказательстве того, что определенные «векторные квадратичные
формы» распределены как суммы «квадратов векторов». Это
статистическая трактовка алгебраической теоремы. Сначала
мы в виде леммы приведем следующее алгебраическое
утверждение относительно скалярных величин.
Лемма 7.4.1. Пусть квадратичная форма
N
Чг= 2 <рУ.Ур. '=1 ™> A)
а, р -1
имеет ранг rt и
Jjft = 2i? B)
1=1 а=1
Для того чтобы существовало ортогональное
преобразование, переводящее {уа} в {za} и такое, что
чь= 2 *1 C)
необходимо и достаточно, чтобы
/-,+ ... +/-Ш = М D)
Доказательство. Необходимость условия очевидна,
потому что сумма рангов не может быть меньше N, если
выполняется B), и не может быть больше Л/", если
преобразование, переводящее^, ..., у в г. zr , ^ ,
невырождено.
Докажем достаточность. Из следствия 7 приложения 1
мы знаем, что существует (невырожденная) матрица D та-
кая, что „ 0
ИМ 0 — / 0 \d = Av (б)
8/»
228 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
где А\ = (flip)- Пусть da$ = b% а= 1, ..., /у, р = 1, ..., М
Тогда 2а=2^Р)У? (а==1. «••> /*i) образует множество из
гг линейных функций {ур}, таких, что !)
/¦|
tfl = 2 Ca^a» F)
a=l
где ca=l или —К Вообще существует множество из rt
линейных функций
N
G)
таких, что
Таким образом,
IU = 2cX- (9)
/=1 а=1
т
Поскольку квадратичная форма 2 4i является положительно
i = l
определенной, все са=\. Поэтому (8) эквивалентно C).
Записав G) для всех / в виде
N
*.= 2&.вУр. а==1 N. (Ю)
р-1 '
получаем из B) и (9)
1Н24
сс = 1 а=1
Таким образом, преобразование A0) является ортогональным
(т. е. 1=В'1В = В'В).
Альтернативное утверждение леммы состоит в
следующем. Пусть ранг квадратной матрицы At порядка NN
1) Сумма порядков / и — / в E) равна
7.4]
ТЕОРЕМА КОХРЕНА
229
q
равен г, (/ = 1 q) и 2 ^ = /. Необходимое и достаточ-
ное условие того, что существует ортогональная матрица
A2)
такая, что
= BiBt, состоит в том, что 2r*—
Теперь мы сформулируем теорему Кохрена.
Теорема 7.4.1. Предположим, что вектор Ya
распределен N@, 2) и не зависит от Fp (а Ф р). Пусть
матрица (а*Л = Аг используемая при образовании
матриц
p 1
\i=\ да).
A3)
имеет ранг rt и
5 Q, = 2
*1 1
а=1
Тогда, для того чтобы матрица QL A =
распределена, как
A4)
, ..., т) была
A5)
г<?^ Za распределен N@, 2) # я^ зависит от Z* (а^=р),
a Q^ «? зависит от Qj (IФ у), необходимо и
достаточно, чтобы
гг+ ... +rm = N. A6)
Следствие 7.4.1. ?ай г^р. то Qt распределена
по закону W(L, rj).
Доказательство- Если A6) выполняется, то
существует такая ортогональная матрица В, определяемая по
230 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
формуле A2), что Ai=BiBi. Так как матрица В
ортогональна, то векторы
^=2**3^ A7)
[1=1 ' *
независимы и каждый из них распределен N@, 2) (см.
теорему 3.3.1). Мы видим, что
a, ,3 = 1 a, E у Y = rl+•••+rj_l+1
A8)
Необходимость A6) доказывается так же, как и в лемме 7.4.1.
Эта теорема полезна для обобщения результатов
одномерного дисперсионного анализа (см. главу 8). В качестве
примера на использование этой теоремы докажем, что
произведение вектора среднего значения выборки объема N на
транспонированный к нему вектор и выборочная
ковариационная матрица независимы и имеют соответственно
вырожденное и невырожденное распределение Уишарта. Пусть
Yv . .., YN независимы и одинаково распределены с
законом распределения N@, 2). Используем матрицы (#Щ) = 1/0
и К?) = Р«р —(W)]. Тогда
N
, 0
N N
-У)'. B0)
Очевидно, A4) выполнено. Ранг первой матрицы равен
единице; ранг второй матрицы равен N—1 (так как ранг
суммы двух матриц меньше или равен сумме рангов матриц,
а ранг второй матрицы меньше N).
Условия теоремы выполняются; следовательно, Qx
распределена как ZZ', где вектор Z распределен N@, S),
а матрица Q2 распределена по закону W(%, N—1) и не
зависит от Qj.
7.5] ОБОБЩЕННАЯ ДИСПЕРСИЯ 231
7.5. Обобщенная дисперсия
7.5.1. Определение обобщенной дисперсии. Одним из
многомерных аналогов дисперсии о2 одномерного
распределения является .ковариационная матрица 2. Другим
многомерным аналогом является скаляр |2|, который
называется обобщенной дисперсией многомерного распределения
(У и л кс [1]; см. также Фриш [1]). Аналогично
обобщенная дисперсия, полученная по выборке, состоящей из
векторов xv ..., xN, равна
N
\(ха-х)(ха — ху : A)
В некотором смысле каждая из этих характеристик является
мерой разброса. Мы рассмотрим здесь эти характеристики,
поскольку выборочная обобщенная дисперсия часто будет
встречаться в критериях отношения правдоподобия для
проверки гипотез.
Дадим геометрическую интерпретацию выборочной
обобщенной дисперсии в терминах р точек в Af-мерном
пространстве выборок. Пусть га==лга — х и
= (г„ .... zN). B)
N компонент вектора у, состоят из 1-х компонент
zv .... zN. Поэтому all^=yiyi — квадрат длины /-го
вектора и atj =у\У} — произведение длин yt и^ на косинус угла
между ними. Теперь рассмотрим изображенную на рис. 12
геометрическую фигуру, построенную по этим р векторам.
При /? = 2 мы имеем параллелограмм, построенный на
векторах ух и у2\ при р = 3 получается параллелепипед,
построенный на векторах yv у2 и j>3- При произвольном р
параллелепипед будет фигурой в /ьмерной гиперплоскости,
содержащей векторы уг уг Этот параллелепипед
ограничен парами параллельных (р — 1)-мерных гиперплоскостей,
одна из ^которых, содержит /?-г-1 -векторов (из числа
232
ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА
[ГЛ. 7
Л» •••• УР)> а ДРУгая проходит через второй конец остав*
шегося вектора. Определитель \А\ =\(N—1)S| =(N—l)p\S\
равен квадрату объема этого параллелепипеда.
Теорема 7.5.1. Пусть Y = (yv ...,ур)9 где yt — W-
мерный вектор. Тогда квадрат объема р-мерного
параллелепипеда, построенного на векторах yv ..., ур> равен
|К'К| |Л|(ЛГ1)*|5|
Рис. 12.
Доказательство. Лемма верна для р = 1, так как
\Y/Y\=y/1yl есть квадрат длины yv Предположим, что
лемма верна для p—k—1, и докажем ее справедливость
для p = k. Сначала заметим, что если два ^-мерных
параллелепипеда имеют в качестве оснований (k—1)-мерные
параллелепипеды с равными (k—1)-мерными объемами,
а также равные высоты, то их ^-мерные объемы равны
[так как ^-мерный объем равен интегралу по
(k—^-мерному объему]. Поскольку это справедливо для
прямоугольного параллелепипеда, ^-мерный объем равен произведению
высоты на (k—1)-мерный объем основания. Линейная
комбинация векторов уг, ..., yk-V скажем схух + •. • + ckmmlyk^v
есть вектор, лежащий в основании параллелепипеда, а
минимум длины вектора у=ук — (с^Н- ... -{-ck^1yk^l) равен
высоте параллелепипеда, построенного на векторах yv ..., yk.
Длина вектора v будет минимальной при таких значениях
cv ..., cft-1, которые удовлетворяют условиям 0=^v =
7.51
Пусть
ОБОБЩЕННАЯ ДИСПЕРСИЯ
l = G>i Л-i). Ук = (Ух Л).
1 0 ... О — ^
о 1 ..; о — с9
о о ... 1
о о ... о
233
C)
Тогда |С| = 1 и (Yk_x v) = KftC. Мы получаем
v'
D)
Так как мы предположили, что |K^iF^_i| есть квадрат
(k—1)-мерного объема параллелепипеда, являющегося
основанием, a v'v — квадрат высоты, то произведение является
объемом /г-мерного параллелепипеда. В силу принципа
индукции теорема доказана.
В дальнейшем мы увидим, что многие многомерные
статистики можно интерпретировать в терминах этих объемов.
Эти объемы являются аналогами расстояний, с которыми мы
имеем дело в частном случае, когда р = 1.
Теперь мы рассмотрим геометрическую интерпретацию |Д|
в терминах Af точек в /ьмерном пространстве. Пусть, как
определено выше, zv ..., zN — Af точек /7-мерного
пространства. Когда /? = 1, И1=2*1а' т* е# сУмме квадратов
а
расстояний точек от начала координат. В общем случае |Л|
есть сумма объемов всех параллелепипедов, которые
получаются, если в качестве их образующих векторов выбрать р
векторов из множества zv ..., zN.
234 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА
Мы видим, что
2 4а •••
л
[ГЛ. 7
г У z2
0 — 1,а
i ZpaZla
E)
по правилу разложения определителей [см. B4)
приложения 1]. Матрица А в E) разбита на матрицы с /7—1 и
1 столбцами. Последовательно применяя это правило к
столбцам, находим
N
И|= 2 \ZlajZja\. F)
По теореме 7.5.1 квадрат объема параллелепипеда,
построенного на векторах za ,
., za , равен
G)
где сумма распространяется на все значения р из
множества (а2 <хр). Если теперь разложить этот определитель
таким же образом, как и |А|, то получим
"'P/yPyl* (8)
где суммирование ведется по всем ру, принимающим
значения из множества (а1э ..., ар). Суммируя (8) по всем
различным множествам (а1э ..., а ), получаем F). (|?/вА/р.| = О,
и \ I "у * "у I
если два или больше Ру равны между собой.) Таким
образом, \А\ есть сумма квадратов объемов всех параллелепи-
7 5] ОБОБЩЕННАЯ ДИСПЕРСИЯ 235
педов, построенных на всевозможных р векторах из
совокупности za. Если заменить га на ха— лг, то можно
утверждать следующее.
Теорема 7.5.2. Пусть \S\ определен формулой A),
где xv .. ., xN представляют собой N векторов
выборки. Тогда \S\ пропорционален сумме квадратов
объемов всех параллелепипедов^ образованных следующим
образом. В качестве образующих каждого
параллелепипеда берутся всевозможные р векторов, одними
концами которых являются р точек из числа хи .«>., xN,
а другими концами — точка х. Коэффициент
пропорциональности равен l/(N—\)р.
Аналогом |5| для генеральной совокупности является |2|,
которому также можно дать геометрическую интерпретацию.
Из § 3.3 нам известно, что если X распределен Af(O, 2), то
} = !-«. (9)
т. е. вероятность того, что X попадает внутрь эллипсоида
х'1Г1х = х1(а), A0)
равна 1 — а. Объем этого эллипсоида равен
где С (р) определена в задаче 3.
7.5.2. Распределение выборочной обобщенной
дисперсии. Величина |5| распределена так же, как и \A\/(N—\)р,
где
п
A=^ZaZrat A1)
a = l
вектор Za не зависит от Zp (афф) и распределен N@, 2),
n = N — 1. Пусть
Wa = CZa, A2)
где С выбрана так, что СЪС = /. Тогда Wa не зависит
от W$ (a ф C) и распределен N@, /), а
. A3)
236 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА ГГЛ. 7
где
Я = 2 WaWa = 2 CZaZaC' = CAC'. A4)
а=1 а=1
Это следует из того, что |С||2||С| = 1.
Как и в § 7.2, положим
Bii = (Pjk)> J> k = t p.
Тогда
Как показано в § 7.2, bn.2t.... p, ^22.3 p. ..-. &pp
независимы и J//,/+ifililP имеет ^-распределение c'/t — (/? — /)
степенями свободы. Таким образом, \В\ распределен как
Теорема 7.5.3. Обобщенная дисперсия \S\,
полученная по выборке Xv ..., XN из совокупности N(p, 2),
имеет такое же распределение, как величина |2|/(Af—-\)p,
умноженная на произведение р независимых величин,
1-я из которых имеет yj-распределение с N — /
степенями свободы.
Можно дать геометрическую интерпретацию этой
теоремы. Пусть Yiz=:(Wni ..., Win) — вектор в я-мерном
пространстве, р векторов Yv ..., Yp независимы; каждая
компонента вектора Yt распределена N @, 1). \В\ есть
квадрат объема параллелепипеда, построенного на векторах
Yv ..о, Yp. Пусть Ui — вектор из совокупности К,,
ортогональный к Yl+V ..., Yр% Тогда квадрат объема
параллелепипеда, построенного на векторах Yif K/+1, .... Ypf равен
произведению квадрата объема параллелепипеда,
построенного на векторах К/+1 Yру на UiUi = au.i+\ р, т. е,
на квадрат длины Ut (см. доказательство теоремы 7.5.1).
Отсюда следует, что |/?| =U[Ui • U2U2 •.. UPUP. Теперь Ut
ортогонален к UM, ..,, Vр\ следовательно, условное
распределение Ut является нормальным в п — (р — /)-мерном
пространстве и п — (р — /) координат распределены N@, 1).
7.5] ОБОБЩЕННАЯ ДИСПЕРСИЯ 237
Таким образом, U\Ui имеет ^-распределение с п — (р— i)
степенями свободы (и не зависит от других U).
При р = 1 или 2 можно получить точное
распределение |S|, при ббльших же значениях р получаются интегралы,
которые не могут быть просто вычислены. Однако легко
получить моменты |S|, если воспользоваться тем, что |5|
может быть записан в виде
\S\ = \A\l(N-l)p. A6)
а |Л| в свою очередь — в виде
\^\x%_lXl,_1 ... fN_p. A7)
Так как /г-й момент величины, распределенной по закону %2
с т степенями свободы, равен 2ЛГ (-^ т -f ^)/Г ("о" т) *
а момент произведения независимых величин равен
произведению моментов этих величин, то /г-й момент |Л| равен
-^5 -. A8)
Таким образом,
П^-/), A9)
B0)
где D(|i4|) — дисперсия |А|.
Для случая, когда р = 1 или р = 2, можно привести
распределение V= |Л|/|2|. При /?==1 К имеет
^-распределение с N—1 степенями свободы. При р = 2 из A8)
238 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
находим момент k/2 порядка величины V
так как A8) выполняется для любого положительного числа h
(это следует из теоремы 7.5.3 и интегрального
представления гамма-функции). Теперь в B1) используем формулу
удвоения для гамма-функции
22Т (а) Г (а + ^) = 1^ Г Bа). B2)
Тогда получим следующее выражение для А/2-го момента V:
-2) '
Это k-Vi момент половины случайной величины, имеющей
^-распределение с 2N—4 степенями свободыв Нам
потребуется следующая теорема.
Теорема Карлемана. Если последовательность
чисел {|^} (/ = 1, 2, .в.) такова, что ряд
Ш
расходится, то самое большее, одно распределение
имеет в качестве своих моментов
последовательность {[Х^}е
Доказательство этой теоремы содержится, например,
у Шохата и Тамаркина [1]. Используя критерий
расходимости
для соответствующего С(>0) и достаточно большого kt
можно проверить, что моменты ]/V удовлетворяют условиям
приведенной выше теоремы. Таким образом, 2j/V имеет
^-распределение с 2Л^—4 степенями свободы.
7.51 ОБОБЩЕННАЯ ДИСПЕРСИЯ 239
Хоул [!] предложил в качестве приближения для
плотности распределения вероятностей V1/p величину
B6)
где
7.б»3. Асимптотическое распределение выборочной
обобщенной дисперсии. Пусть \В\/пр = Vx (п) • V2(п).. .
. .. 1^ (д), где Vt — независимые случайные величины и
nVt(n)=zy?n_ r Так как yjn_ +l распределена так же, как
2 1^а» где \ГЯ — независимые одинаково распределенные
а-1
случайные величины с законом распределения Л/@, 1), то
центральная предельная теорема (примененная к
ИРа)'утверждает, что величина
+ -ir~ B8)
Р1
распределена асимптотически нормально с параметрами @, 1).
Тогда величина V^Wii11)—И будет асимптотически
нормальна с параметрами @, 2). Теперь применим теорему 4.2.5.
Имеем
1
B9)
и ФьТ<рь = 2р. Таким образом, величина
C0)
асимптотически нормальна с параметрами @, 2/?).
240
ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА
[ГЛ. 7
Теорема 7.5.4. Пусть S — выборочная
ковариационная матрица порядка р X Р с п степенями
свободы. Тогда случайная величина 1/"л(|5|/|2|— 1)
асимптотически нормальна с математическим ожиданием
нуль и дисперсией 2р.
7.6, Распределение множества коэффициентов
корреляции в случае диагональной
ковариационной матрицы совокупности
В § 4.2.1 мы нашли распределение выборочного
коэффициента корреляции для случая, когда соответствующий
коэффициент корреляции совокупности равен нулю. Здесь
мы найдем плотность распределения вероятностей множества
ty. 1ф j* i> У = 1. • • •» Р Для случая, когда pfJ = 0, / ф j.
Мы начнем с распределения матрицы А при условии, что
матрица 2 диагональная, т. - е. распределена W ((?иЪф> п).
Плотность распределения А равна
ехр I—2Д-5Г
\ / = 1
A)
поскольку
о ... о
°22
0 0 ... о
рр
U
B)
Сделаем преобразование
^j=V^iV^nj. 1Ф], C)
аи = аи. D)
Определитель этого преобразования равен произведению
определителя преобразования D) на определитель
преобразования C) при фиксированном аи. Определитель
преобразования C) является определителем диагональной матрицы
р(р-— 1)/2-го порядка с диагональными элементами VV^
7.6) СЛУЧАЙ ДИАГОНАЛЬНОЙ КОВАРИАЦИОННОЙ МАТРИЦЫ 241
Так как каждый отдельный индекс, скажем k, встречается
в множестве /*,,(/< у) р—1 раз, то определитель
преобразования равен
•/=Па"<Р)- E)
Если подставить выражения для пц из C) иD) в w{A\{ai^lj)t п)
и результат умножить на E), то получится следующая
совместная плотность распределения вероятностей [аи] и [rtM
-' 4cp-i>
2 тс
*=i
\П)\
4 (я-p-i)
р
X
-п-1
так как
I V*u Vajjriji = (П
F)
G)
где ги = 1. В /-м члене произведения в правой части F)
положим аа/Bап) — ut\ тогда интеграл от этого члена по
определению гамма-функции (или в силу того, что аи/ои
имеет ^-распределение с п степенями свободы) будет равен
22 "о?
= Г[±п . (8)
7/
242 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ. 7
Следовательно, плотность распределения вероятностей
величины Гц равна
(9)
Теорема 7.6.1. Если случайные векторы Xv ...,ДГЯ
независимы и одинаково распределены с законом
распределения Af([i, (ацЪц)), то плотность распределения
вероятностей выборочных коэффициентов корреляции
дается формулой (9), где n = N— 1.
ЛИТЕРАТУРА
§ 7.2. А. Т. Джеймс [1]; Инг ем [1]; Кендалл [4], стр.
330—335; Крамер [2]; Махаланобис, Бозе и Рой [1];
Молдон [1]; Мэйдоу [1]; Огава [3J; Раш [1]; Свердруп
[1]; Стейн [1];Уилкс [10], стр. 226—232; Уишарт [1], [3];
Уишарт и Бартлетт [1], [2]; Ф о г [1J; X с у [3]; Э й т к е н [5].
§ 7.3. Уишарт и Бартлетт [21.
§ 7.4. Г. С. Джеймс [1];Кохрен [1]; К р эйг [1]; М ат V-
сита [1]; Огава [1], [2]; Огасавара и Так ахаски [1];
Эйткен [5].
§7.5. Бен нет [1]; Каллбек [1]; Леви[1|; Никвист,
Райе и Риордан [1]; К. P. Pao [1J; Уилкс [1]; Фриш [1J;
Хоул [1]; Шохат и Тамаркин [1].
ЗАДАЧИ
1. (§ 7.2) Преобразование перехода от прямоугольной системы
координат к полярной записывается следующим образом:
ух «= w sin 0ь
уг = w cos 0, sin 02,
Уз = w cos 6! cos б2 sin 03,
Уп-\ = *^cos 0j cos 02... cos 0Л_2 s*n ^я-г>
yn = w cos 0l cos 02 ... cos 0Л.2 cos 0Л_,,
где — y^<0/< y*(/=l, -., л —2) и —тс<0л-.1
ЗАДАЧИ
243
(а) Доказать, что w2 = 2 у1- [Указание. Вычислить
последовательно y2n + y2n_v ()? + >?-l) + >?-2 И Т. Д.]
(б) Доказать, что определитель этого преобразования равен
wn~l cosrt" Oj cosw~302 .,. cos Ьп_2. [Указание. Доказать, что
••» Уп)
cos 0, О
0 cos 02
О
О
О О ... cos 0w_j О
sin 0! w sin 02 ... w sin bn_ x 1
w x x x
0 w cos 0! ... x x
О 0 ... w cos 0! ... cos 0Л_2 .*
О 0 ... О cos 0! ... cos 0rt_!
где x означает элемент, точное значение которого несущественно.]
2. (§ 7.2) Доказать, что
«/2
/
Г \-7Г
[Указание. Положить cos2 0 = и и использовать определение
S (a q).]
3. (§ 7.2) Используя задачи 1 и 2, доказать, что площадь
поверхности /г-мерной сферы единичного радиуса равна
1
С (/!)=¦
Г [~
4. (§ 7.2) Используя задачи 1, 2 и 3, доказать, что если плотность
распределения вероятностей случайного вектора у' = (уь ..., уп)
равна f(y'y), то плотность распределения вероятностей случайной
I Jn~x
величины и=эу'у равна -^ С (п) f (и) и
5. (§ 7.2) Используя задачу 4, показать, что если величины уа
независимы и одинаково распределены с законом распределения
N@, 1), то U = y'y имеет ^-распределение с п степенями
свободы. ,
244 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА ГГЛ 7
6. (§ 7.3) Найти характеристическую функцию Л, исходя из
W B, п). [ У к а з а н и е. Из Г w (A | 2, л) d>4 = 1 следует, что
%-'-1> ¦ ¦ -ил
1 ч
-± зрФ'1 A)
'-
2»'
тождественно относительно Ф.] Заметим, что из сравнения этого
результата с результатом § 7.3.1 получается вывод распределения
Уишарта.
7. (§ 7.6) Доказать, что если 2 = /, то совместная плотность
распределения вероятностей гц.р> U У == 1, ...,/> —1 и г1р> ...
.... />-!,/; Равна
г 1-7 (л-/;
«¦=¦1
хЦ-—у-2-1—(\-rU2
где
[У к а з а н и е.^
Использовать (9).]
8. (§ 7.6) Доказать, что совместная плотность распределения
вероятностей г12.3> ...,р, г13.4э...|Р, 'ям. ...,Р •••'1р ^.Ьр
ЗАДАЧИ 245
равна
L A-^2.з ,) X
4*-rt
—г/з.4 p) x
ff Г[т(Л-
4i
хД
[Указание. Использовать индуктивно результат задачи 7.).
9. (§ 7.6) Доказать (не используя задачу 8), что если 2 = /, то
ript •<•» rp-i,p являются независимыми. [Указание.
Доказать, что если (zlpt ..o,znp) фиксированы, то пары (alpt an\ ...
..., v^-i,p, ap_Up_l) независимы, а также заметить, что из
§ 4.2.1 следует, что частное распределение rip при фиксированном
zap не зависит от zap.]
10. (§ 7.6) Доказать (не используя задач 7 и 8), что если S = /,
то множество г1/?> ,.., гр-\,р не зависит от множества Гцръ
г,у = 1, ...,/> — 1. [Указание. В силу результатов § 3.2 арр, (aip)
не зависят от (а/у.р> Показать, что арр, (aip) и au(i = 1, ...,/?— 1)
не зависят от (г/у.р), доказав, что aiimp не зависят от (г^.р). См.
задачу 36 главы 4.]
11. (§ 7.6) Доказать утверждение задачи 8, используя задачи
9 и 10.
12. (§ 7.6) Обращая последовательность действий в задаче 8,
вывести формулу (9) § 7.6.
13. (§ 7.2) Используя (9) § 7.6, получить распределение А.
14. (§ 7.3.2) Доказать теорему 7,3.2, используя
характеристические функции.
15. (§ 7.3.1) Найти первые два момента элементов матрицы Л,
дифференцируя характеристическую функцию A1).
246 ВЫБОРОЧНАЯ КОВАРИАЦИОННАЯ МАТРИЦА [ГЛ 7
16. (§ 7.4) Пусть ха — наблюдение над совокупностью,
распределенной N(р2га, 2),а = 1, ...,#,гдегл — скаляр и Ь = 2*а*а/2*&
а а
Используя теорему 7.4.1, показать, что 2 *«*«"" bb'lLz\ и &г>'
a a
независимы.
17о (§ 7.5) Найти М | А \ непосредственно из W B, п). [У к а-
зание. Из того, что
С w (А | 2, п) dА =е 1,
следует
\А\г е^
dk
_, 2
«¦яр 4
как тождество относительно п.
18. (§ 7.5) Рассмотрим доверительную область для ji,
определенную неравенством
(
где jc и 5 получены по выборке объема Л^ из совокупности A/"(ja, S).
Найти математическое ожидание объема доверительной области.
19. Пусть плотность распределения вероятностей случайного
вектора Y будет f(y) = K при у'у^р + 2 и нуль в остальных
2
случаях. Доказать, что К = Г ^ /> + Л/[(/? + 2) тс] 2 и показать,
что МК=0, МКГ /
ГЛАВА 8
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ.
ДИСПЕРСИОННЫЙ АНАЛИЗ
8.1. Введение
В этой главе мы обобщим одномерную теорию
наименьших квадратов (т. е. «регрессионный анализ») и
дисперсионный анализ на случай векторных случайных величин. Алгебра
в многомерном случае в сущности такая же, как и в
одномерном случае. Это приводит к теории распределений,
аналогичной той, которая используется в одномерном случае,
и к построению критериев, аналогичных /^-критериям.
Фактически, если задан критерий для одномерного случая, то мы
можем немедленно написать соответствующий критерий для
многомерного случая. Так как дисперсионный анализ,
основанный на модели неизменных эффектов, может быть
получен из теории наименьших квадратов, то мы непосредственно
построим теорию многомерного дисперсионного анализа.
В многомерном случае имеется, однако, больше свободы
в выборе критериев значимости.
В одномерной теории наименьших квадратов мы
рассматривали скалярные зависимые величины xv ..., xN, взятые
из генеральных совокупностей с математическими ожиданиями
pzit ..,, $zN соответственно, где ?—^-мерный вектор-строка,
а каждый из векторов za является известным ^-мерным
вектором-столбцом. В предположении, что дисперсии всех
совокупностей равны между собой, оценка компонент JS,
получающаяся по методу наименьших квадратов, равна
N
248 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
Если генеральные совокупности являются нормально
распределенными, то этот вектор является оценкой наибольшего
правдоподобия для JJ. Несмещенной оценкой полной
дисперсии о2 является
N
%q); B)
и в предположении нормальности генеральных совокупностей
оценка наибольшего правдоподобия для о2 равна о2 —
= (N — q)s2/N.
В многомерном случае ха является вектором, {3 заменяется
матрицей В, а с2— ковариационной матрицей S. Оценки В
и 2, приведенные в § 7.2, являются матричными аналогами
A) и B).
Чтобы проверить какую-нибудь гипотезу относительно {},
скажем гипотезу {3 = 0, мы используем /^-критерий.
Величина, эквивалентная /^-отношению, будет
l4l{N—q
где о* — оценка <з2, построенная при условии, что
справедлива нулевая гипотеза. Мы получим, что отношение
правдоподобия для соответствующей многомерной гипотезы, скажем
В = 0, равно приведенной выше величине, если в последнем
выражении дисперсии заменить на обобщенные дисперсии.
Это дает общий метод для установления многомерного
аналога любого F-критерия. Мы рассмотрим также другие
аналоги /^-критерия.
8.2. Оценки параметров многомерной
линейной регрессии
8.2Л. Оценки наибольшего правдоподобия.
Предположим, что хг, .... XN образуют множество, состоящее
из N наблюдений, ха — наблюдение над совокупностью
N(Bza, S). Обычно векторы za (^-мерные) известны, а
матрицы S и В порядков р X Р и р X Ч соответственно
неизвестны. Будем считать, что N^p-^-q и ранг матрицы
? = (*! *N) 0)
8.2] ОЦЕНКИ ПАРАМЕТРОВ 249
равен q. Оценим 2 и В по методу наибольшего
правдоподобия. Функция правдоподобия будет
X
Г N 1
Элементы 2* и В* в B) являются неопределенными. Метод
наибольшего правдоподобия заключается в определении
оценок 2 и В по данной выборке xv zv ..., xN, zN как
таких 2* и В*, при которых B) принимает максимальное
значение. Удобно выразить L через значения координат.
Положим
. D)
E)
Логарифм функции правдоподобия будет
In L = — -i Np In Bit) 4- -i iV In | o*°' | —
Заметим, что для того, чтобы \nL был максимальным,
матрица S* должна быть невырожденной. Следовательно, по
лемме 3.2,3 максимум lnL относительно 2* и В* равен
максимуму In/, относительно 2*" и В*, и значение матрицы 2*,
дающее максимум lnZ,, равно обращению значения
матрицы 2*~\ дающего максимум lnL. Можно проверить, что
для того, чтобы In L достигал максимума, необходимо, чтобы
производные lnZ, по {}* были равны нулю. Для нахождения
максимума lnZ, оказывается удобным использовать
следующую лемму.
250 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
Лемма 8.2.1. Если f(ut ит)= ^ d^Uj, где
dlJ = dJi, то
df o V а дщ
=2Ld^Uf G)
Доказательство.
d
откуда G) и (8) следуют непосредственно.
Производная от \nL по р* равна
р N t q ч
У-1
где _,
C)f=2iXj«Z/a, A1)
(X
«u/=S^a^/«. A2)
a
A0) следует из леммы при « = ?;, и иы = S
Так как матрица (а*л^), для которой In/, является макси^
мальным, невырождена, то, приравнивая A0) нулю, получаем
Эти уравнения можно записать в матричной форме
следующим образом: С—-ВМ = 0, гяе C—(ck/) и A = (aA/).
Решение этого уравнения (для невырожденной матрицы А)
В = &4~' . . . A4)
8.2] ОЦЕНКИ ПАРАМЕТРОВ 251
является единственным и определяет оценку наибольшего
правдоподобия для В. Легко видеть, что каждая строка В
записывается в виде В = ?, где b определен формулой A)
§ 8.1.
По лемме 3.2.2 находим, что lnZ, будет максимальным
по отношению к о*1) в том случае, когда
= N [S (*«-
Таким образом, оценкой наибольшего правдоподобия для 2
является
=-w 2 <*,-
Эта оценка является многомерным аналогом оценки о2 =^
= (N — q)s2/N, определенной формулой B) § 8.1.
Теорема 8.2.1. Если ха— наблюдение над
совокупностью N(Bza, 2), а=1, ..., N, и ранг (zv ..., zN)
равен q, то оценка наибольшего правдоподобия для В
определяется по формуле A4), где С=2 хаК а ^=S zaK*
а а
Оценка наибольшего правдоподобия для 2 определяется
по формуле A6).
Из A6) вследствие A4) следует полезный алгебраический
результат
Х A7)
а
Теперь рассмотрим геометрическую интерпретацию
процедуры построения оценок. Пусть /-я строка (xv ..., .%)
есть вектор х* (состоящий из N компонент), а /-я строка
(zx zN) есть вектор 2* (состоящий из Л/1 компонент).
Тогда 2 Р/ -^ будучи линейной комбинацией векторов
?*, ..., z*, является вектором ^-мерного пространства с
базисными векторами z*, ..., г* который фактически из всех
векторов этого пространства является ближайшим к вектору х*г
252 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
Эта линейная комбинация, следовательно, является проекцией
вектора х\ на ^-мерное пространство. Таким образом,
вектор л:*— S Р/уЗу» являясь разностью вектора х\ и
проекции х* на ^-мерное пространство, ортогонален к ^-мерному
пространству. Перенесем этот вектор так, чтобы один из его
концов находился в начале координат. Тогда р векторов
X*—2 Pi/** х*р — S Рр/З/ будут образовывать
множество векторов, выходящих из начала координат. Nau =
= (х* — 2 Р//*/) (х*—2 Pi/*/)' есть кваДРат длины /-го
вектора этого множества), a No.. = (х*— ^Sp^V*}—2 hgz*g)'
есть произведение длин 1-го и /-го векторов на косинус
jjwia между ними.
8.2.2. Распределение В и 1 Теперь найдем совместное
распределение величин р/и (/== 1, ..., р\ а = \ q).
Совместное распределение, очевидно, является нормальным,
поскольку р/ц — линейные комбинации Хы, Из A4) видно,
что
N N
1 =В. A8)
а=1 а=1
Ковариация между р^ и ру, двумя строками В, будет
a=«l y = l
N
a, y = l
TV TV
=o//i4. A9)
Резюмируя вышеизложенное, можно сказать, что вектор
(р1# ..., рр, имеющий pq компонент, распределен нормально
8.2] ОЦЕНКИ ПАРАМЕТРОВ 253
с математическим ожиданием ($lt ..., $р) и ковариационной
матрицей
B0)
Матрица B0) является кронекеровским (или прямым)
произведением матриц 2 и А1.
N
Из теоремы 4.3.2 следует, что N2 = 2 х х' — ВЛЁ'
а=1 а *
распределена по закону U^B, N— q). Отсюда видно, что
несмещенной оценкой 2 является S = [N/(N — #)]2.
Теорема 8.2.2. Оценка наибольшего правдоподобия
для В, полученная по N наблюдениям, а-е из
которых производится над совокупностью, распределенной
N(Bza, 2), распределена нормально со средним
значением В, и ковариационная матрица между i-й и j-u
строками матрицы В равна О/.-Л1, где A = ^zaz'a.
ос
Оценка наибольшего провдоподобия 2, умноженная на N,
не зависит от % и распределена по закону W (L, N — q),
где q — число компонент вектора za.
В выражении для плотности распределения вероятностей
Xv ..., XN под знаком экспоненты имеем
2 (ха - Ъга)' 2 (*а-Вга) = sp 2"х 2 (*а-Вга) (л:а-Вга/.
а а
Мы можем написать
= S К*. - ВЧ) 4- (В - В) *.1 [(ж. - В .
а
= 2 (ж. - Вга) (*„ - Вга)' + (В - В) Д (В - В/. B1)
254 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
Тогда плотность может быть записана в следующем виде:
—- r-
тг pN — N )
B*J |2|2 B2)
Тем самым доказано следующее
Следствие 8.2.1. В и 2 образуют множество
достаточных статистик для В и 2,
Теорема 8.2.3. Пусть вектор Ха распределен
N(Bza, 2), а= 1, о.., N, и не зависит от Х^ ф ф а).
(а) Тогда если wa = Hza и Г = В#~\ то Ха
распределен N(Twa, S) и не зависит от Х^ ф Ф а).
(б) Оценка наибольшего правдоподобия для Г,
полученная по наблюдениям ха над векторами Ха (а=1,..., N),
есть f = fi//, г<^^ В — оценка наибольшего
правдоподобия для В.
(в) Г /2 *>aw?\ & = ЪАЯ' где А === 2 а<
\ а / а
наибольшего правдоподобия для /VS равна NS = 2 -
(г) Г и S независимы.
(д) Г распределена нормально со средним значением Г,
и ковариационная матрица между 1-й и j-й строками
матрицы Г tfy<J*m вч{НАН')~~1 = otjHf~lA'xH~\
Доказательство предлагается провести читателю.
8.2.3. Вычисление В и 1 Для каждого А уравнения A3)
или же
!!<**&* = **/• B3)
h-1
образуют систему q линейных уравнений с q неизвестными
Pfti» •••» Рл^- Эффективным методом численного решения
таких систем уравнений является метод сокращения Дулиттла.
При использовании этого метода для решения р систем
таких уравнений передовое !) решение одинаково для каждой
*) В оригинале forward solution. (Прим. ред.)
8.2]
ОЦЕНКИ ПАРАМЕТРОВ
255
системы _ (за исключением одного столбца) и, следовательно,
не требуется производить в р раз больше вычислений, чем
при решении одной системы.
Рассматривая вычислительный метод, удобно заменить
уравнение ВЛ = С уравнением ЛВ' = С или AB = Ct где
/? —В' и С—С. В компонентах это запишется так:
2
Я* k=\,...%p. B4)
Как в методе сокращения Дулиттла, так и в методе
сгущения по оси х) решение состоит из операций, состоящих
в замене B4) совокупностью линейных комбинаций
компонент уравнений, которая образует новую систему
или
где '
А** =
А**В = С*\
1 а" ... а"
О 1 ... аТ
B5)
B6)
B7)
О О ... 1
Обратное решение состоит в том, чтобы решить B5),
переписанное в виде
B8)
пое ледовательно для oqk% ot
Это относительно легко вследствие специального вида А**.
Метод сгущения по оси является прямым методом
последовательного исключения переменных. До у'-го шага
имеем следующие уравнения для последних q—У4~1
неизвестных Ъ (при данном k)i
B9)
l) В оригинале method oi pivotal condensation. {Прим. ред.)
256 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ |ГЛ 8
(ay = aij). у-й шаг вычислений состоит в следующем:
h — j, ¦. •, q, C0)
= i) и
., q, h = j q% C1)
Уравнения C0) и C1) указывают, что на у-м шаге мы делим
уравнение j на ведущий коэффициент, чтобы получить
J л/+1
C2)
В C1) мы вычитаем этот результат, умноженный на a}ffl\
из каждого последующего уравнения. Тогда последние q — j
уравнений будут содержать лишь последние q — у
неизвестных Ь (так как а^/ = 0, g > у); они имеют вид B9) с той
лишь разницей, что у — 1 заменено на у. Если собрать вместе
уравнения C2) для у = 1, ..., р^ то получим B6) с
матрицей А** вида B7) (т. е. ^"^ ^ = у q).
Метод сокращения Дулиттла предполагает те же самые
вычисления, но в другом порядке. Пусть ауд = а(//
Тогда
А* =
0
2
п.*
0 0 ..
qq)
C3)
q. C4)
Вычисление элементов матрицы А* по методу сокращения
Дулиттла производится следующим образом (заметим, что
;-i
*=*. *-и. -••
C5)
8.2] ОЦЕНКИ ПАРАМЕТРОВ 257
Эти вычисления может легко сделать на доске даже
вычислитель с минимальными знаниями. Такие же операции
производятся и с матрицей С:
с;*=^-2*«;> C6)
F
C7)
Для вычисления элементов g-й строки требуется знать лишь
элементы первых g — 1 строк А* и Л**. В приложении 1
показано, что вычисления по методу сокращения Дулиттла
такие же, как и вычисления по методу сгущения по оси.
В приложении 1 показано, что в любом случае операции
сводятся к умножению матриц А и С слева на треугольную
матрицу
1 О ...0
т. е.
C9)
Поэтому матрица
'1
является треугольной с диагональными элементами а*и, но
так как матрица FAF' симметрическая, то она должна быть
диагональной, т. е.
О ... О
D1)
О 0 ... a"qq,
9 Т. Андерсон
258 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ ГГЛ 3
D — диагональная матрица. Следовательно, А** = />"] А*,
= FC и С** = О~гС*. Из D1) получаем
A FDF.
Таким образом,
%AW = В'АВ = В'АА~1АВ = С'А1^
D2)
D3)
= CFD~lFC= С* С** = С**^*. D4)
Это дает нам способ вычисления ВЛВ' и, следовательно, 2»
ибо N2 = 2*a*l —ВЛВ'. С другой стороны, ВЛЙ/ = ЙС/.
Легко видеть, что передовое решение можно проверить,
взяв сумму правых частей 2 ат~\~ 2 cfk* Операции, про-
Л=1 J k=\ J
изводимые над этой суммой, должны дать в итоге
р
i
Решение В можно проверить, сравнивая АВ с С.
Вычисление А может быть выполнено вместе с
вычислением Bt так как Л" удовлетворяет равенству А (А) = /,
которое имеет такой же вид, как и АВ = С. Действия,
выполняемые над матрицей С, выполняются и над матрицей /.
В конце передового решения получается уравнение Л**(Л) =
— D~~lF; каждый столбец этого матричного уравнения
образует систему q уравнений, которая решается относительно
элементов того же столбца матрицы А" .
Мы определили а^=^гиг^ и cki = ^xkazia = clk.
a a
Если zla = 1, то ап = N, atj = Nzj и ckl = схк =
В этом случае первый шаг сгущения по оси дает
= 2 хклгел — Nx^zg, g, h = 2 q.
8.3] КРИТЕРИИ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 259
8.3. Критерии отношения правдоподобия
для проверки линейных гипотез
о коэффициентах регрессии
Предположим, что мы разбили матрицу В на две части
В = (В1 В2), A)
так, что Bj имеет qx, а В2 — q2 столбцов. Выведем
отношение правдоподобия для проверки гипотезы
Я:В1 = В*, B)
где В* — данная матрица. Максимум функции правдоподобия L
для выборки xv ..., xN будет
. . а « 8 . C)
В, 2
где Eg дается формулой A6) или A7) § 8.2.
Чтобы найти максимум функции правдоподобия для
значений параметров, ограниченных областью со, определенной
формулой B), положим
V =Х —В*2A>, D)
•г & d la \ /
где
*« = (*w) E)
— разбиение вектора га, соответствующее разбиению
матрицы В. Тогда уа можно рассматривать как наблюдение
над совокупностью N(B2z^K 2). Оценка В2 получается по
методу § 8.2 и имеет вид
N N
•g чст B)' *—1 ^1 / ц* A)\ B)' л — 1
= (Сг — Ъ*А12)Ая, F)
где С а А разбиты соответственно разбиениям Ваг,
С=(С1 С2), G)
А )• (8)
А22/
9*
260 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
Оценка для 2 дается формулой
Ш= 2 (ув-В2шг
1
N
— 2 у*у* — в2со A2262U, =
= 2 {хл-Ъ\г^){хл-Ъ\г^)'- %шА22в'2а. (9)
1
Таким образом, максимум функции правдоподобия в области со
будет
max L=Btt)"p;V|SJ^ V*p". A0)
B2lS
Отношение правдоподобия для проверки гипотезы Н равно
отношению выражений A0) и C), а именно
(")
При проверке гипотезы Н отвергается, если X < Хо, где Хо —
определенным образом выбранное число.
Алгебраическим методам, изложенным здесь, можно дать
геометрическую интерпретацию. Удобно будет
воспользоваться следующей леммой.
Лемма 8.3.1.
— Вгд = (Bis — Bi) A12A22 . A2)
Доказательство. Из A4) § 8.2 получаем
С2 = В Л л12 J = В12Л12+ В22Л22. A3)
Таким образом, B22 = C>2i4221—812^12^22 • Лемма следует из
сравнения этого результата с F).
8.3] КРИТЕРИИ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 261
Теперь мы можем написать
Х- BZ = (Х- %Z) + (В22 - В2) Z2 4- (Bis - BI) Zx =
= (Л"— B2Z) + (B2@ — B2) Z2 —
— (B2q) — Я22) Z2 + (B12 — BJ) Zx =
= (X— B2Z) + (B2@ — B2) Z2 +
+(в12—b;)(z! — а12А22%) (И)
как тождество; здесь Х=(хг xN)t Z1=(^11), ..., г$)
/Zi\
и Z2 = (^2), ...,-г^). Строки матрицы Z = f ) образуют
^-мерное пространство. Каждая строка матрицы BZ является
вектором в ^-мерном
пространстве и, следовательно,
каждая строка матрицы
X—BZ есть разность
^-мерного вектора и вектора,
соответствующего строке матри-
цы BZ. Каждая вектор-стро-
ка матрицы X—BZ пред-
ставлена выше в виде суммы
трех векторов-строк. Пер- рис |з.
вая матрица в правой части
A4) имеет в качестве /-й строки вектор, ортогональный
(/-мерному пространству и ведущий (как показано в предыдущем
параграфе) к 1-й вектору-строке матрицы X. Векторы-строки
матрицы (В2а) — B2)Z2 являются векторами в д2- мерном
пространстве, образованном строками матрицы Z2 (так как
эти векторы являются линейными комбинациями строк
матрицы Z2). Векторы-строки матрицы (Bi2—Bt)(Zi—A12A22Z2)
являются векторами в ^-мерном пространстве, образованном
строками матрицы Zi — A12A22Z2', это пространство входит
в ^-мерное пространство, образованное строками Z, но
ортогонально ^-мерному пространству, образованному строками Z2
[так как (Zi — AnA^Z^Z^ = о]. Таким образом, каждая
строка матрицы X—BZ, как показано на рис. 13, является
суммой трех ортогональных векторов. Один вектор принадлежит
пространству, ортогональному пространству, образованному
262 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
строками матрицы Z, другой вектор принадлежит
пространству, образованному строками матрицы Z2, и третий вектор
принадлежит тому подпространству пространства,
образованного строками матрицы Z, которое ортогонально к
пространству, образованному строками матрицы Z2.
Из условий ортогональности получаем
T—BZ)' =
— %zy + (В2@ — в2) z2z2 (В2ш — в2у+
+{812 — В!) (Zi — А12А22%) (Zi — Al2A22XZ2) (В12 — В?)' =
= N% + (В2о> — В2) 422 (В2A) — В2)' +
+ (В12 — Bt) (An — Al2A22lA21) (B12 — titf. A5)
Если вычесть (В2@ — B2)Z2 из обеих частей A4), то получим
X— BiZi — B2coZ2 = (X— BaZ) + (В12—Bi) (Zi — A\2A22 Z2).
A6)
Отсюда следует, что
N2» = (X— BlZi — B2wZ2) (X— BiZi — B2a)Z2)' ==
= (X — b2z) (X— %zy +
+ (Bi2 - В!) (Zx- Al2A22lZ2) (Z^A12A22lZ2y (fi12 - В*)' =
= NtQ + (B12 - ВО (Ли - ЛиЛи Ai) («is - В*/- A7)
Определитель | S8| = {l/Np)\(X— B2Z)(AT— B2Z/ |
пропорционален квадрату объема параллелепипеда,
образованного векторами-строками матрицы X—B2Z (перенесенными
в начало координат). Определитель
~ Blzx — B2a)Z2) (X
пропорционален квадрату объема параллелепипеда,
образованного векторами-строками матрицы X—BiZi — B2(OZ2
(перенесенными в начало координат). Каждый из этих
векторов является той частью соответствующего вектора
матрицы X—B*Zr которая ортогональна к пространству,
образованному строками матрицы Z2. Таким образом,
критерий, основанный на отношении правдоподобия, зависит от
отношения объемов параллелепипедов. Один из параллелепи-
8.4] МОМЕНТЫ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 263
педов построен на векторах, ортогональных к пространству,
образованному строками матрицы Z, а другой — на векторах,
ортогональных к пространству, образованному строками
матрицы Z2.
Из A5) и B2) § 8.2 видно, что плотность распределения
вероятностей xv •.., XN может быть записана в виде
=— =— ехр ( — ~ sp {2Г1 [N2 + (В2A) — В2) X
BпJ |S|2
X А22 (Вга) — В2У + (Bis—Bi) (An — ^12^22 ^21) (Bia—Bi) J}).
A8)
Таким образом, 2, Bis и Ё2ш образуют множество
достаточных статистик для 2, Вх и В2.
Уилкс [1] впервые применил отношение правдоподобия
в качестве критерия для проверки гипотезы о равенстве
векторов математических ожиданий для нескольких
генеральных совокупностей (§ 8.8). Уилкс [5] и Бартлетт [2]
распространили использование этого отношения на
коэффициенты регрессии.
8.4. Моменты отношения правдоподобия в случае,
когда справедлива нулевая гипотеза
Отношение правдоподобия равно TV/2-й степени величины
К\
где Ац.2 = Ли — А12А22 A21. Найдем моменты [} в случае,
когда Bi = Bi. В § 8.2 было показано, что MHq
распределена по закону №B, п), где n = N — q, элементы fis — В
имеют совместное нормальное распределение и не зависят
от NSg, а ковариация между /-й и у-й строками равна ОцА~1.
Лемма 8.4.1. (Bi2 — BlLu.2(Bis> — Ъ\У распределена
как 2 ^v^v, где векторы Kv независимы и одинаково
распределены с законом распределения N@, S).
264 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
Доказательство. Ковариация между /-й и у-й
строками матрицы Sis равна произведению о^ на подматрицу
матрицы Л, состоящую из первых ее qx строк и
столбцов, т, е. ковариация будет о/уЛГьг (см. задачу 18 главы 2).
Пусть Е — любая матрица, удовлетворяющая условию
?Л?' = / и
fi12 _ Ъ\ = YE = (Уг УЯх) Е. B)
Тогда
- ВО Дц.2 (fiw - ВО' = YY* = S УХ C)
l
12
Очевидно, что МК = М (fiia—ВО?"! = 0, так как MBi2 == В*.
Пусть /-я строка матрицы Sis есть В/ь а /-я строка
матрицы Y есть Fj. Тогда
1 = о/;/. D)
Тем самым лемма 8.4.1 доказана.
Пусть G = N%2. Тогда
Положим F=O+S^^« А"й момент t/ равен
где
8.4] МОМЕНТЫ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 265
и dO = dgn ... dgppt dY = dyn ... dy . Момент может
быть записан следующим образом:
J •'•
X Bicf * ™ IS Hqi exp (-1 S^S^) rfOrfK. (8)
Ту часть подынтегрального выражения, которая
включает О, можно рассматривать как плотность распределения
W(L, n-\-2h). Так как F=G-\-^ytyfr то интеграл можно
рассматривать как математическое ожидание величины \F\~h,
где F имеет распределение №B, n-\-2h-\-q^). Таким
образом, (8) может быть записано в виде
_K(Z, n)K(Z, n + 2h + qi) „
в силу формулы A8) § 7.5. Это эквивалентно следующему:
=11
Г [1 (N-qi-q2+l-i)] Г [1
Обозначим случайную величину U при условии, что
гипотеза Н верна, через Upt4un. Это является аналогом
Теорема 8.4.1. В случае, когда гипотеза Н верна*
h-й момент величины \N, определенной в § 8.3, дается
формулой A0).
Так как значения U заключены между 0 и 1, то моменты
однозначно определяют распределение.
266 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
Легко показать, что в приведенном выше выражении р
и qx могут меняться ролями, когда N — q2 остается
постоянным, т. е.
ми — II
tA
Г ГА (tf-fc+1-ol Г \\ (N-q2-
h] '
J
(И)
Предположим, что q1 < р. Тогда A0) может быть
записано в виде
xiT
A2)
Так как величина, заключенная в фигурные скобки, равна
единице, то A2) равносильно A1). Если qx > p, то мы,
конечно, можем провести доказательство в обратном порядке.
Это доказывает следующую теорему.
Теорема 8.4.2. Если гипотеза Н верна, то
Up>q\>N-qx-qi имеет такое же распределение, как и
Uqi,p,N-p-g2 (м- ?. распределение Uгр,ЯиП совпадает с рас*
пределением Uqu Pt n+qx-p)-
8.5] ' НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН V 267
8.5. Некоторые распределения величин U
8.6.1. Введение. Чтобы получить точки значимости для
критериев, использующих отношение правдоподобия,
желательно воспользоваться распределением величины UPt Qlt n.
В этом параграфе мы покажем, что это распределение
совпадает с распределением произведения независимых величин.
В некоторых частных случаях это приводит к явному
выражению для распределений. В других случаях распределения
могут быть получены лишь в виде интегралов.
Принимая во внимание теорему 8.4.2, мы предположим
здесь, что p^qi* Обозначим qx через т.
8.5.2. U как произведение независимых случайных
величин. Используем то, что
• A)
о r'^'
Пусть
r La — Л1— L* i—xi~ '(\ v\2 - • ^o"»
в единичном интервале и равно нулю вне этого интервала.
Если X имеет плотность распределения fylx\ ¦^¦a, -о-^Ь то
/г-й момент X определяется по формуле A). Из формулы A0)
предыдущего параграфа следует, что
р
_ ТТ
\, C)
i = l
268 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ ' [ГЛ. 8
где Xv ..., Хр независимы и Xt имеет плотность
распределения вероятностей р Глг; -^ (п-f 1 — /), j m\. Таким
образом, МУЛ = 11{М^}=М{П(^/)}=М{(П^/)Л}. Так как
распределение V конечного порядка и, следовательно,
определяется однозначно своими моментами, то мы получаем
следующую теорему:
Теорема 8.5.1. Величина U т%п имеет такое же
р
распределение, как и Ц {Xt}t где Х1 Хр
—независимые случайные величины, и плотность распределения
вероятностей величины Х1 равна ф\х; -<у(п-\-\—•/), ~кгп\-
Функция распределения величины U может быть найдена
посредством интегрирования совместной плотности
распределения вероятностей величины Хх> .. •, Хр по области
D)
Предположим, что р четно, т. е. /?==2г. Воспользуемся
тем, что
E)
Тогда А-й момент величины U будет равен
гГ4(т + л + 2)-
Г [1 (т+л+2)-у+ А] Г [I (т + л + 1) -/ + *]
г[ ][
Г [1 (л + 2)-у] Г [-1 (л + 1)-/]
П
X
8.5] НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН V 269
Из A) ясно, что F) равно
где Ку — независимые случайные величины, причем К, имеет
плотность распределения вероятностей р (у; /г + 1 — 2/, /я).
Предположим, что /? нечетно, т. е. р = 2$+1. Тогда
MUh = M Ml Z?Z,+1 . (8)
Где Zi — независимые случайные величины и Zt имеет
плотность распределения вероятностей р (z; n -j- 1 — 2/, m) для
/ = 1, ..., s, a Z5+1 имеет плотность р [Zj\ (п + 1 — Р)/2, w/2].
Теорема 8.5.2. Случайная величина и2г$тп распре-
т
делена так же, как и JJ К?, где К^ — независимые
величины и Yt имеет плотность распределения
вероятностей р(у; я+1—2/, т)\ случайная величина U2S+i,m,n
S
распределена так же, как и UZ/Z5+i, где Zt
(/=1, ..., 's) — независимые случайные величины и Zt
имеет плотность распределения вероятностей р(г;
п+1—2/, т)у а не зависящая от них случайная
величина Zs+l имеет плотность р \z\ -«• (п + 1—р), Ym\*
8.5.3. Некоторые особые распределения.
Случай 1. /? = 1. Из результатов предшествующего
параграфа следует, что плотность распределения
вероятностей величины Uhmtn равна
Г [1 (л + тI }_п_г
270 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
Другим способом величину Uhmin можно записать
следующим образом:
U
где gn — один из элементов матрицы G = N2q, a Fmtll —
/^-статистика. Таким образом,
1 ЕЛ, т, п п р /11ч
1 пи п* \х */
ui,m,n
F-распределение хорошо известно.
Теорема 8.5.3. Распределение случайной величины
¦ Г ит'п • — есть F-распределение с тип степенями сво-
боды\ распределение случайной величины— р>1>пшЦ±ш—?
ир, ь п Р
есть F-распределение с р и п~\-1 —р степенями свободы.
Случай 2.р = 2.Изтеоремы 8.5.2 следует, что плотность
распределения вероятностей случайной величины У?/2f m, n
равна
Т(п + т — 1)
и, таким образом, плотность распределения вероятностей
случайной величины ?/2,ОТ|Л равна
Из A2) следует, что
*, 1
= F2mt2(n-l)- О4)
т
Теорема 8.5.4. Распределение величины ~~ 2> ^Д X
V 2, /Л, /I
X гс~ ^сть F-распределение с 2т и 2(п— 1) степенями
свободы; распределение величины
р
есть F-распределение с 2р и 2(я+1—р) степенями
свободы.
8.5]
НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН V
271
Случай 3. р = Ъ. Здесь U = z\z2i где совместная
плотность распределения вероятностей Zx и Z2 равна
.-2)]
" 2>"
Мы хотим найти вероятность того, что U ^и (^ 1). Для
этого мы проинтегрируем плотность по той области, которая
Рис. 14.
на рис. 14 заштрихована. Интеграл по части / этой области
равен
и 1
о о
где функция
= /« [j (л - 2), | да]. A6)
а
была табулирована К. Пирсоном [8]. Интеграл по части //
этой области равен
A7)
f f f{zv z2)dzxdz2,
О
f
и О
272 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ ГГЛ 8
Чтобы вычислить этот интеграл, разложим f(zx) в ряд по
степеням zv Тогда интеграл по части // этой области будет
равен
и 0 i-0 )
^") (\—г ^<т) йг - С СI V <ж-!>' V
I
V Z2) aZ2>
A8)
(-1)' /»\T<"-\ j(*4)
m-1 , i(n-H-0 i
У A)!A)^2
где
Если т четно, то выражение A—z2J можно
разложить в ряд по степеням zv после чего интегрирование
выполняется немедленно. Если же т нечетно, то A —z2J
можно разложить в ряд по степеням 22. Тогда
подынтегральное выражение будет представлено в виде суммы степеней zv
умноженной на |Л—z2.
В качестве примера рассмотрим случай т = Ъ (случай
w = 4 будет подробно рассмотрен позже). В этом случае
интеграл по части // области, представленной на рис. 14,
будет равен
4^^
8 51 НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН U 273
где
B1)
и
Первый член равен произведению С ——=— на
1 1
« — 1), B2)
Второй член равен произведению —С на
1 _1 Г dz
„ 2 J 2лГТ=7 —
In (sec 6 + tg 6)
9=arc cos Vи
f
In
Vu
B3)
Третий член равен произведению С—-г
1 " 1
на
ГУТ=7 * 2 Yl-g
J z* 3 zVz
dz
2 У\-и , 2 Vz-;
3 uVu 3 z
2 /yr=
3
B4)
274
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
ГГЛ. 8
Теперь запишем распределение случайной величины Ч/3|з,я
в виде
B5)
Таблица 8 дает значения и, для которых Р{У<^и} =
= 0,05 и 0,01. Значения вычислены не точно (верны,
возможно, лишь две значащие цифры). Для больших значений п
метод нахождения вероятностей, предложенный в § 8.6,
приводит к тем же результатам.
Таблица 8
Значения и, для которых
Р{^з,з,л<и}=0,05 и 0,01
п
3
4
5
6
7
8
9
10
5%
8,59 ХЮ
3,30 X 10~3
0,0183
0,0447
0,0794
0,105
0,131
0,162
1%
4,09 ХЮ"
6,6 ХЮ
0,00626
0,0979 •
В следующем параграфе будет показано, что для /м =
ИГ <Гп\— (я + 2)(Д+1)я'(я-1)(я-2) л <л-2) v
\игл,п<>и\—" 48
f 1 8У7Г ,12 6 . ,8-|
B6)
8.5) НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН V 275
Случай 4. /? = 4. Здесь U = z\zl, где совместная
плотность распределения случайных величин Zx и Z2 равна
^— г (/г— 1)Г(т)Г(л — З)Г(ти)
X *Г2 A - ^f *2 ~
Чтобы найти вероятность того, что ?/<>, проинтегрируем
эту плотность по той области, которая заштрихована на
рис. 15. Интеграл по части / этой области равен 1у~(п—1;т).
Интеграл по части // равен
1 Vu \zx
f f /C*i.
УН °
Лт-1 V*l*i
Za /!(m_l_i)! J ^2 fl
/-0 0
-С /(У1 (я-1)К-1У
m-l . I
(m-l)l(-l)'»2
1
J Zi V~ZV dzi =
— ^ A il(m-l-i)\j\(m-l-j)Hn-3 + i)J zi i
B8)
где
Г (и— 1)Г(л — 3)[Г
276
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
[ГЛ. 9
Интегрирование, указанное в B8), может быть
выполнено отдельно для любого данного т. Функция
распределения величины U равна сумме 1у„(п — 1, т) и B8).
Рассмотрим частный случай т == 3. Интегрирование по z2
дает
Vu
- <л-3)
[Уи
х
Vu
— 2
и2 (l-Vu
п — 2 3
1 1
¦+¦
п — \
X
У1Г
— С[п-3 [ 3 4 J 3(n-2) +
8.5] НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ ВЕЛИЧИН V
где
Т(п)
Таким образом,
4Г(/г
3) '
277
C1)
•и\-/ (П-\ 3) 1 Г(* + 2)Г(*> w
и\—1у-{П 1. ^-Г 4Г(л—1)Г(л — 3) Х
л
J(") Г
n — 3 L
—2)
* C2)
Это можно записать следукнщш образом:
1)л(я~1)«(д^2)(я-3) 4(п-з) i 1 8У7Г
48
+ T^lF«-7^TaIn«+l«l-7JTT«2}- C3)
Рассмотрим также случай m = 4. Интегрирование по z,
в B8) дает
I т("-3) /1
f
Vu
Vu
i (я-З)
^
л — 3
L/e
-Zlfdzx— f(l-zl)*dzl
л'-Ni.
—2
X
¦+¦
1
х
1
VIl
Va
Vu.
Vu
278 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
1 111
п
Уи Vu Vu Va
3> in
I n — 3 L 4 5 J 4(л —2) T
. C4)
36Г(л—1)Г(/г —3) *
где
Функция распределения величины U равна сумме C4) и
/^(л—1, 4).
Вальд и Брукнер [1] предложили метод нахождения
распределения величины U для случая, когда или /?, или qv
или оба эти числа четные. Эти распределения могут быть
также получены посредством интегрирования плотностей,
приведенных в § 8.5.2 (предположение о четности р или qx
приводит к тому, что величина U в этом случае оказывается
г
распределенной так же, как и Д К?, причем плотность рас-
1
пределения вероятностей величин Yv ..., Yr может быть
разложена в степенной ряд).
Уилкс [6] получил в явном виде распределение U для
р=19 р = 2, /? = 3 при т = 3; для р = 3 при т = 4, для
р = 4 при /га = 4. Формула Уилкса для /; = 3 при m — 4
отличается от полученной нами и оказывается неверной.
8.6. Асимптотическое разложение распределения
отношения правдоподобия
8.6.1. Общая теория асимптотических разложений.
В этом параграфе мы разработаем теорию распределения
отношения, изучаемого в этой главе, при большом объеме
выборки. Сначала мы рассмотрим асимптотическое разложе-
8.6] АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ 279
ние распределения случайной величины, моменты которой
являются определенными функциями гамма-функций (Бокс [ 1 ]).
Затем мы применим это разложение к случаю отношения
правдоподобия для линейных гипотез.
Рассмотрим случайную величину W (O^W-^1) с /г-м
моментом 1)
. А = 0,1 A)
где К — константа (такая, что MUP°=1) и
Легко видеть, что /г-й момент величины X = U2 п имеет
вид'A) с xk = jN = yjt tk= 2"(— q+l— k), Чу =
= -о"(—#2И-*—J)* a — b = p. Здесь мы рассматриваем
более общий случай, поскольку это нам потребуется в
дальнейшем.
Если положить
М== — 21nW\ C)
то характеристическая функция величины рМ (
будет
Здесь р — произвольная константа, которая будет определена
позднее. Если а = 6, л:й = уй, 5л^т]л, то A) является h-u
1) Во всех случаях, когда мы применяем этот результат,
параметры Xfi, ?л, уу и y\j предполагаются такими, что существует
распределение с этими моментами.
280 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
моментом произведения степеней величин с
бэта-распределениями и тогда A) выполняется для всех А, для которых
существуют гамма-функции. В этом случае D) имеет место
для всех действительных значений t. Здесь мы предположим,
что D) выполняется для всех действительных значений t,
и в каждом случае, когда мы применяем этот результат, мы
будем проверять, выполняется ли это предположение.
Пусть
Ф(*) = 1п<р (*) = *(*) — g@). E)
где
g (f) = 2tfp(S xk In xk — 2 yj In
pft = A—-р)хкие; = A —p)yy. Из выражения для g(t)—g@)
получается Ф@) = 0. Это согласуется с тем, что константа К
такова, что ср @) ===== 1. Используем формулу разложения гамма-
функции (Барнес [1] стр. 64), которая является
асимптотической по х при фиксированном h:
Tfq^ F)
Г=1
где1) Rm+l(x) = O(x-(m+V) и Br(h) — полином Бернулли
степени г и порядка единицы, определяемый следующим
образом 2):
1) ^+iW = 0(r(m^) означает, что \хт+Ч1т+1(х)\
ограничен при | х | -> оо.
2) Это определение несколько отличается от определения У и т-
текера и Ватсона ([1], стр. 126), которые раскладывают в ряд
z(ehx— 1)/(?T — 1). Если B*r(h) — этот второй тип полиномов, то
1
Вх (h) = *J (А) —1, 52г (А) =- < (А) + (-1)г+1^г, где Вг - г-е
число Бернулли и
8.61 АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ
Первые три полинома таковы [BQ(h)=l]:
1,
281
(8)
Полагая поочередно л; == рлгА A—2U), руД1—2it) и
P + S + > получаем
in(i
r-l
где
A0)
(-1)г
=i(c —ft) In
A2)
В результате получается следующее представление для
(которое мы здесь не используем):
A3)
где 2iuvz-m — первые m+1 членов разложения
0
282 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
a Rm+i — остаточный член. С другой стороны,
т
ь (Н)
где
Ят+1 = 2 о (vw+1))+2 о (yj
В A4) мы разложили g@) таким же образом, как и g(t),
и привели подобные члены.
Тогда
= A— 2tf)"/exp
У» 1_2«-г_У«> R' 1-
r-l r-1 J
= A - 2tf)"? / j Д [l + »r A _ 2/0"r +
1
^1 -
= A—2/0 2 [1 + Fi@+72@+ ...
A6)
где Гг (/) — член в разложении, содержащий со^ ... со^,
2/$f = r; например,
Г1@ = ш1[A—2/0-1—1], A7)
|+1]. A8)
^В большинстве приложений xk = ckb и yj = dft, где сл
и tfy — константы, а 0 — переменная (которая растет с
увеличением объема выборки), В этом случае, если р выбран так,
чтобы A—p)xk и A—р)уу имели пределы, то /?^+1 =
= О(б~(т+1)). В A6) мы группируем все члены со^ ... оД,
2^ =г* потому что они имеют порядок О((РГ).
8.6]
АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ
283
Заметим, что Tr(t) — полином степени г в разложении
2
A—2tf)~\ а каждый член выражения A—2it) 2 Tr(t)
есть константа, умноженная на A—2it) 2 для целых v.
\^
Известно, что A —2lt)~ 2 V есть характеристическая функция
^-распределения с v степенями свободы, т. е.
Пусть
оо г
Rm+\— j ^(\—2it) 2 Rm+ie
dt.
B0)
Тогда плотность распределения вероятностей величины рМ
будет
1 [«7+2 (*) —
Пусть
^г (*о) = / 5г B) dz. Rl+i = J
• B1)
B2)
Функция распределения величины Мо выражается через
функцию распределения величины рЖ0, которая является
284 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
интегралом от плотности, а именно
т
Р \М < Мо] = Р {РЖ <РМ0] = 2 UТ (рЖо) + Rl+l +
Ч) - р де <
=р да < р^о}+«1
4 (Р {Х5-+4 < РЖо} - 2Р {Х2,+
№ ^г B3)
Остаток /?^+i есть О(б"(/7г+1)). Последнее утверждение может
быть проверено непосредственно (в самом деле, чтобы
доказательство было строгим, необходимо проверить, что эта
оценка равномерна для каждого остатка).
Во многих случаях желательно выбирать р так, чтобы о>1
было равно нулю. В таком случае использование лишь
одного первого члена B3) дает ошибку порядка 0"" .
Дальнейшие детали, касающиеся разложения в ряд, можно
найти в работе Бокса [1].
Теорема 8.6.1. Предположим, что для всех чисто
мнимых h N[Wh дается формулой A), причем.
выполняется B). Тогда функция распределения величины
— 2pln№ дается формулой B3). Если xk^ckBt Уу><//9
(ck > 0, dj > 0) и A —p)xk и A —р)у, имеют пределы,
где р может зависеть от G, то ошибка, /?^+i есть
1)
)
Бокс рассмотрел также вопрос о приближении
распределения величины — 2р In W /^-распределением. Он обнаружил,
что можно сделать так, чтобы ошибка такой аппроксимации
имела порядок 9~3. Мы не будем* останавливаться на
аппроксимации /^-распределением.
8.6.2. Асимптотическое распределение величины X.
Теперь мы применим теорему 8.6.1 к распределению
величины — 21пХ, отношению правдоподобия, рассмотренному
8.6]
АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ
285
в § 8.3. Положим W = А. /г-й момент величины X равен
р
Д
и это справедливо для всех А, для которых гамма-функция
существует, включая и чисто мнимые h. Пусть а = Ь — р
±N,
Мы видим, что
1
B5)
у К1
JV Г [A —P)^ —
k
"+" 2 J —
. B6)
Чтобы это было равно нулю, необходимо, чтобы
Р=
Тогда
= Р
V. B8)
286 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
где
± B9)
48
о
То РОл
1лг
Так как Х = 1/^^я, где n — N — q, то B8) дает
Р{—win */,,
Теорема 8.6.2. Функция распределения величины
— /я In UPtqlt n дается формулой B8), где т — п —
— =-(/? — #i+l), а 72 # Т4 определяются соответственно
по формулам C0) # C1). Остаточный член есть О(ЛГ6).
Если используется первый член B8), то ошибка имеет
порядок ЛГ, если второй, то ЛГ~4, и если третий!), то ЛГ~6.
Второй член всегда отрицательный и достигает максимума
при z= У(рЯ\-^г^){рЯ\) (приближенно равном pq\-\- 1). При
р>-3, ^>-3 Ч2/т2^[(Р2^~ч1)/т]2/^> а величина второго
члена больше —0,005 Г(/?2 + ^)/яг]2 и меньше нуля. При
Р ^ 3, #1^-3 74 ^ T2» а величина третьего члена меньше
чем Gг/^2J- Весьма приближенное правило состоит в том, что
использование первого члена обеспечивает точность до трех
десятичных знаков, если p2-\-q\^mlb.
В качестве примера вычислений рассмотрим случай р = 3,
ql = Qi N — ^2 = 24 и 2 = 26,0 A0%-ная точка значимости
распределения Xi8> 18 = /?^). В этом случае *[2lm2 — ®№%
и второй член равен —0,007; ^4/т4 = 0,0015, а третий член
равен — 0,0001. Таким образом, вероятность того, что
— 191п?/3,6, is ^ 26,0, равна 0,093 с точностью до трех
десятичных знаков.
-5
1) Бокс показал, что член порядка N равен нулю, и указал
коэффициент, который используется в члене порядка N .
8.6]
АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ
287
Таблица 9 дает представление о точности этих
приближений; в приближениях используется только первый член
разложения. UP,qt,N-q табулирована для 5%-ных точек
значимости (Бокс [1] приводит больше примеров.)
Таблица 9
р
1
2
1
2
1
2
4
1
2
3
2
3
1
3
1
3
4
N-q
50
25
15
24
Точное
значение
0,925
0,883
0,849
0,819
0,766
0,850
0,564
0,752
0,352
0,232
Использование
-2 In X
0,935
0,892
0,856
0,827
0,778
Использование
-m\nU
0,924
0,883
0,849
0,819
0,767
0,849
0,564
0,752
0,350
0,236
Таблица 8 § 8.5 содержит точки значимости при 5%-ном
уровне значимости для /? = 3, ^ = 3 и п от 3 до 10.
Таблица 10 дает точки значимости для —m\nU при п,
изменяющемся от 8 до бесконечности.
Таблица 10
Точки значимости для — т In U3,3, п
п
8
9
10
И
5%
17,4
17,3
17,2
17,2
1%
22,3
22,2
22,1
22,0
п
12—14
15—21
22—28
29
5%
17,1
17,0
17,0
16,9
1%
21,9
21,8
21,7
21,7
Величина B8) при 2=16,92 E%-ная точка значимости
для х|) Равна 0,9440 при п =10; 0,9487 при л = 21 и
0,94959 при я = 37. Таким образом, при я>-21 достаточно
взять первый член, чтобы получить 5%-ный уровень
значимости с точностью до 0,001.
288 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ ГГЛ 8
Вальд и Брукнер [1] получили асимптотическое разло -
жение для —21пХ. Бартлетт [5] предложил использовать
точки значимости, соответствующие х2-РаспРеДелению, для
— m\nUt а К. Р. Рао [7] видоизменил разложение
Вальда и Брукнера с целью получить B8).
8.7. Проверка гипотез о матрицах
коэффициентов регрессии и доверительные области
8.7.1. Проверка гипотез. Предположим, что нам даны
векторы наблюдений Хх xN вместе с фиксированными
векторами zv ..., zN% где ха — наблюдение над
совокупностью N(Bza, 2). Пусть В = (В1 В2) и а? = (*?>'. zf'\
где В: и z^Y имеют qx(=q— q2) столбцов. Нулевая
гипотеза Н состоит в том, что
где Bi — определенная матрица. Предположим, что желаемый
уровень значимости равен а. Процесс проверки гипотезы
состоит в вычислении величины
U = { J] B)
и сравнении ее с U Pt Qv n (а), точкой значимости UPf Qu
„-распределения для уровня значимости ос. Для некоторых случаев
этот критерий проверки можно получить из теории
распределений, приведенной в § 7.5.2, а в других случаях его
можно получить из асимптотической теории, если
использовать достаточно большое число членов. С другой стороны,
можно вычислить Р [UPt?11„<(/), Если эта вероятность
окажется меньше а, то нулевая гипотеза отвергается.
Теперь рассмотрим проблему вычисления величины B).
Если мы положим уа — ха — ВЗД1), то уа можно будет
рассматривать как наблюдение над совокупностью /^(А^, S),
где Д = (Дх Д2) = (Вх — В^Вг). Тогда нулевая гипотеза Н
будет состоять в следующем: Д1 = 0.
В этом случае
а-'а ^J а а 11
8.7] ГИПОТЕЗА О КОЭФФИЦИЕНТАХ РЕГРЕССИИ 289
Таким образом, проблема проверки гипотезы Bi = Bi
эквивалентна проблеме проверки гипотезы \{ = 0, где Муа = Лга.
Исходя из этого, предположим, что задача состоит в
проверке гипотезы В1 = 0. Тогда
В § 8.2.2 мы показали, как по методу Дулиттла
вычисляется В2Д62, а следовательно, и N%q. Ясно, что ВгшЛйЬга»
можно вычислить аналогичным образом. Если метод
Дулиттла применялся к
то первые q2 строк и столбцов матриц А* и А** будут
такими же, как и в случае применения передового решения
к левой части уравнения
A22BL = C2, F)
а первые q2 строк матриц С* и С** будут такими же, как
и в результате применения передового решения к правой
(С*\
-• I
H)
Можно было бы отметить, что из метода сокращения
Дулиттла следует метод вычисления определителя. В § 8.2.3
было показано, что результат передового решения
удовлетворяет уравнению /7А==4*. Таким образом, ^Ц А\= \А*\.
Так как определитель треугольной матрицы равен
произведению ее диагональных элементов, то |,Р| = 1 и |Д| = |Д*| =
= JJ а**. Этот результат остается справедливым, если
вместо матрицы А рассматривать любую положительно
определенную матрицу (с соответствующим видоизменением
10 Т. Андерсон
290 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. &
матрицы F). Поэтому его можно использовать для
вычисления |ЛЛЕа| и \Nta\.
8.7.2. Доверительные области. Мы рассмотрели
критерии для проверки гипотезы Bi = В*, где В^ — заданная
матрица. Обычным способом можно, исходя из семейства
критериев, получить доверительную область для В^ Из
приведенной выше теории мы знаем, что с вероятностью 1—а
выборка такова, что
| N% + (В12 - Bl} (Ап - А12А^А21) (В12 - ВО' | > "'' «' " (°°'
G)
Таким образом, если мы сделаем такое утверждение
относительно доверительной области, что Вг удовлетворяет условию
>^(а) (8)
где (8) интерпретируется как неравенство относительно
В1 = В1, то с вероятностью 1—а выборка будет такова,
что это утверждение будет верным.
Теорема 8.7.1. Область (8) в пространстве Вг
является доверительной областью для Вх с
коэффициентом доверия 1 — а.
8.8. Проверка гипотезы о равенстве средних
значений нормальных распределений
с общей ковариационной матрицей
В одномерном анализе хорошо известно, что многие
гипотезы могут быть выражены в виде гипотез относительно
коэффициентов регрессии. То же самое справедливо и
в соответствующих многомерных случаях. В качестве
примера рассмотрим вопрос о проверке гипотезы о том, что
средние значения, скажем, q нормальных распределений
с общей ковариационной матрицей равны между собой.
8.8]
ГИПОТЕЗА О РАВЕНСТВЕ СРЕДНИХ ЗНАЧЕНИЙ
291
Пусть j?> — наблюдение над совокупностью N(^lK 2),
а=1, ..., Nf, /=1, ..., q. Нулевая гипотеза
Н: |i<i)= ... =ц^). A)
Чтобы свести задачу к задачам, рассмотренным ранее в этой
главе, положим
Л I 1 2 • • • 7V
где N=Nt-\-
Z — (Z\ z2... *
...+лгг
Пусть
.*лг) =
1
0
0
0
1
1
0
0
0
1
... 1
... 0
... 0
... 0
... 1
0 ...
1 ...
0 ...
0 ...
1 ...
О1
0
0
0
1
C)
т. e. */e=I, если ^ + ... +^1<a<iV1+ ... -f ^,
j^iot = 0 в остальных случаях (/=1, ..., q—1) и zqa=\
(при всех а). Пусть В = (В1 В2), где
D)
Тогда ха будет наблюдением над совокупностью М(Ъга, Б),
а нулевая гипотеза будет Bi = 0. Таким образом, мы можем
использовать изложенную выше теорию для нахождения
критерия для проверки этой гипотезы.
Имеем
. О N,
Л/, О
О N,
0
О О
N
E)
F)
10*
292 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
Здесь A<n = N и С2 =¦ ^2] j#). Таким образом,
2
/, а
S
1, а
Для Ss мы используем формулу
Пусть
D==
1
О
0 ...
1 ...
О
о
тогда
О 0 ... 1
—1 -1 ... —1
П 0 ... О О
О 1 ... О О
0 0 ... 1 О
1 1 ... 1 1
Таким образом.
[ГЛ. 8
—io (У.'>—5)'- G)
DC
DC' =
-lW){°
... О
,.. о
о ... л/,
(8)
(liy{')~Fu2jy\ )==2
i \ « г / t
A0)
8.8] ГИПОТЕЗА О РАВЕНСТВЕ СРЕДНИХ ЗНАЧЕНИЙ 293
где у') = -j~ 2j у^К Поэтому
2 у.у' - 2 л
/, а i
2
/, а
Легко видеть, что в том случае, когда fiA) — ... =р,^\ S^
является оценкой матрицы 2, 22— средним взвешенным
оценок S, произведенных по отдельным выборкам.
Если нулевая гипотеза верна, то | N%% |/| yVSo |
распределена как Upq_hn, где n — N — q. Следовательно, при
уровне значимости а область, при попадании в которую мы
отвергаем гипотезу, определяется неравенством
Заметим, что
Л/ 2Ю — N ±; ==
, а
Легко видеть, что, когда /? = 1, этот критерий сводится
к обычному F-критерию
Приведем пример. Данные заимствованы из результатов
изучения Барнардом [1] египетских черепов. Четыре (=<7)
генеральные совокупности состоят из представителей
следующих периодов: до династии фараонов (/=1), с 6 до
12 династии (/ = 2), с 12 до 13 династии (/ = 3) и династия
Птолемеев (/ = 4). Четыре (== р) измерения (компоненты
вектора у^) представляют максимальную ширину, базиаль-
веолярную длину, высоту носа и базибрегматическую высоту.
294 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ ГГЛ. 8
Числа наблюдений таковы: Л^ = 91, Л^2=162, Д^3 = 70,
А/4 = 75. Данные представлены в следующем виде:
133,582418 134,265432 134,371429 135,306667 4
98,307692 96,462963 95,857143 95,040000 1
50,835165 51,148148 50,100000 52,093333 Г * 5^
133,000000 134,882716 133,642857 131,466667/
/9661,997470 445,573301 1130,623900 2148,5842104
/ 445,573301 9073,115027 1239,211990 2255,812722 \
/in ¦" I I .
I 1130,623900 1239,211990 3938,320351 1271,054662 I
\2148,584210 2255,812722 1271,054662 8741,508829/
Из этих данных находим
9785,178098 214,197666 1217,929248 2019,8202164
214,197666 9559,460890 1131,716372 2381,126040 \
2
1217,929248 1131,716372 4088,731856 1133,473898 Г ^
^2019,820216 2381,126040 1133,473898 9382,242720/
Отношение определителей равно
2,4269054X1
2,9544775 X
= 0,8214344. A8)
Здесь N=398, п = 394, р = 4 и q = 4. Таким образом,
т = 393. Так как п достаточно велико, то можно
допустить, что — т\п UAt 3,394 распределена как х2 с 12
степенями свободы (если нулевая гипотеза справедлива). В нашем
примере — т In U = 77,30. Поскольку 1 % -ная точка
значимости ^-распределения равна 26,2, гипотеза [iA) = {i<2) =
== jiC) = p,D> отвергается 1).
8.9. Обобщенный дисперсионный анализ
Возможно прямое обобщение одномерного
дисперсионного анализа на случай векторных случайных величин. Это
обобщение приводит к анализу сумм квадратов векторов
') Приведенные выше вычисления сделаны Бартлеттом [8].
8 91
ОБОБЩЕННЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
295
(т. е. сумм вида ^ХаХга). Фактически это обобщение уже
было рассмотрено в предшествующем параграфе для задач
дисперсионного анализа, содержащих простую классификацию.
В качестве другого примера рассмотрим таблицу с двумя
входами. Допустим, что нас интересует вопрос о том,
равны ли нулю воздействия элементов столбца. Мы сделаем
обзор анализа для скалярных величин, а затем проведем
анализ в случае векторных величин. Пусть Уц (/=1, ..., п
у = 1, ..., с) — совокупность г с случайных величин.
Предположим, что
г; /=
с ограничениями
y-i
с, A)
B)
дисперсия К/у равна о2; величины К/у независимы и
распределены нормально. Проверить, равны ли нулю действия
столбцов, — это все равно, что проверить равенства
с.
C)
Хорошо известно, что эту задачу можно рассматривать как
задачу регрессионного анализа, если ввести фиктивные
фиксированные величины. Пусть
= 0, k Ф i,
= 0, кф].
Тогда A) можно записать в следующем виде:
т с
D)
МК/у =
/y
-f
/у
S
. /у
E)
296
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
[ГЛ.
Гипотеза состоит в том, что коэффициенты при zOki u равны
нулю. Так как матрица фиксированных величин
*оо, п
гю, и
г20, И
^00, гс
ZW, re
Z2Q, re
z0c, 11
zQc, re )
F)
является вырожденной (например, строка 00 равна сумме
строк 10, 20, ..., гО), то нужно разработать регрессионную
теорию. Когда это делают, то обнаруживается, что критерий,
указываемый регрессионной теорией, есть обычный А-крите-
рий дисперсионного анализа.
Пусть
1 чгч 1 тг-^ 1 «"-ч
и (?)
I, J
i.j I j
b=r^(Y.j-Y..f = r^.j-rcYl.
Тогда /^-статистика будет определяться формулой
Ь_ (с—1)(г—1)
г~а ' с—1
(9)
Если верна нулевая гипотеза, то эта величина имеет F-pac-
пределение с с—1 и (г—\){с—1) степенями свободы.
Отношение правдоподобия, требуемое для проверки гипотезы,
равно rc/2-й степени величины
а 1
аА-Ь ~
L + (с — 1)/[(г _ 1) (с — 1)] /=- *
Обратимся теперь к многомерному дисперсионному
анализу. У нас имеется совокупность /?-мерных независимых,
нормально распределенных случайных векторов Y^ (/= 1, .. ., /*;
j=\ с) с средними значениями A), где [А, Х/э v, —
8 9] ОБОБЩЕННЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ 297
векторы, и ковариационной матрицей 2. В этом случае для
сведения этой задачи к задаче о регрессии можно
использовать те же самые алгебраические результаты. Определим
К.., Yt., Y.t по формуле G) и положим
(И)
Статистикой, аналогичной A0), будет следующая статистика
J11», - A2)
.1
2 YijY'ij — c^ Yiyi.—rSY.jY'.j + rcY.y..,
2
I, j
Если верна нулевая гипотеза, то эта величина имеет
^/-распределение для /?, л = (г—1)(с—1) и qx = c—1, данных
в § 8.5. Для того чтобы матрица А была невырожденной
(с вероятностью 1), нужно потребовать, чтобы выполнялось
11
В качестве примера рассмотрим данные, впервые
опубликованные Иммером, Хейесом и Пауэрсом[1] и
использованные впоследствии Фишером [9], Е й т с о м и
Кохреном[1] и Тюкеем [1]. Первая компонента
наблюдаемого вектора есть урожай ячменя в данном году;
вторая компонента есть урожай того же ячменя в
следующем году. В различных столбцах фигурируют различные
сорта ячменя, а в различных строках — различные места его
выращивания. Данные приведены в таблице 11.
/81\
Например, I Q1 J в верхнем левом углу указывает на
\bl /
урожай 81 ячменя сорта М в каждом году в районе UF.
Числа, расположенные на одной вертикали и одной
горизонтали, суммируются, и суммы записаны по краям таблицы.
Мы считаем, что квадрат A47,100) есть
21609 14 700 \
14 700 10 000/
298
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
(ГЛ. 8
Тогда
/380 944
I 315 381
315 381
277 625
)'
2 157 924
C0К..)C0К..)' =
1 874 386
1560 145
10 705 984
9 145 240
«Сумма квадратов ошибок» будет
/ 3279 802 \
А~\ 802 3977/'
«сумма квадратов строк» будет
1 844 346 \
1 579 583 У
1560 145
1 353 727
9 145 240
7 812 025
)¦
18011
7 188
7188N
10384 у1
а «сумма квадратов столбцов» будет
/2788 2550 \
В = \ 2550 2922 / '
Величина A0) в этом случае будет
3279 802
|Д| 802 3977
\А + В\
6067 3352
3352 6899
= 0,4075.
A3)
A4)
A5)
A6)
A7)
A8)
A9)
B0)
Этот результат должен быть сопоставлен с точкой
значимости для U2t 4, го* Используя результат § 8.5, мы видим, что
1—1
должно быть сопоставлено с точкой значимости для FSt3S,
Эта значимость соответствует 5%-му уровню. Наши данные
8.9]
ОБОБЩЕННЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
299
показывают, что сорта значительно отличаются друг от
лрУ™' Таблица 11
UF
I W
ее
I м
ев
О*
§ с
2
D
Сорта ячменя
М
81
81
147
100
82
103
120
99
99
66
87
68
616
517
s
105
82
142
116
77
105
121
62
89
50
77
67
611
482
V
120
80
151
112
78
117
124
96
69
97
79
67
621
569
г
ПО
87
192
148
131
140
141
126
89
62
102
92
765
655
р
98
84
146
108
90
130
125
76
104
80
96
94
659
572
514
414
778
584
458
595
631
459
450
355
441
388
3272
2795
Покажем теперь, что каждый /^критерий в одномерном
дисперсионном анализе имеет в качестве аналога tZ-критерий
в многомерном дисперсионном анализе. В модели линейной
гипотезы для одномерного дисперсионного анализа
предполагается, что математические ожидания случайных величин
Yv ..., Ytf являются линейными комбинациями неизвестных
параметров
где fyg— параметры, a zga — известные коэффициенты.
Случайные величины {Ya} предполагаются независимыми и
нормально распределенными с общей дисперсией о2. В этой
модели существует совокупность линейных комбинаций,
скажем 2 Т/а^сс» где Т/а — известные числа, такая, что величина
*У*Ув B2)
300 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ТЛ 8
распределена как о2^2 с п степенями свободы. Существует
другая совокупность линейных комбинаций, скажем 2 ср аКа,
а
где yga известны, такая, что величина
^кэ B3)
распределена как о2^2 с m степенями свободы в случае,
когда нулевая гипотеза верна, и как произведение о2 на
нецентральную величину х2 в случае, когда нулевая гипотеза
неверна. В любом случае величина Ъ не зависит от а. Таким
образом, если нулевая гипотеза верна, то
a m 2W«K? m
имеет /^-распределение соответственно с m и п степенями
свободы. Нулевая гипотеза состоит в том, что некоторые
из величин р равны нулю.
В многомерном дисперсионном анализе Yv ..., YN
являются р-мерными векторными величинами.
Математическое ожидание вектора Ya дается формулой B1), где $g—
вектор, координаты которого суть р параметров. Мы
предполагаем, что {Ya} независимы и распределены нормально
с общей ковариационной матрицей 2. Из этих векторов
можно образовать линейные комбинации 2 Т/а^а* Тогда
=2<1<*УУ* B5)
распределена по закону W (S, п). Если нулевая гипотеза
верна, то
В = 2 B <?gJa) B 9gJa)' = 2j C*Yjt B6)
распределена по закону W (S, m) и не зависит от А. Тогда
B7)
имеет Upt mt „-распределение.
Рассуждения, проведенные при выводе распределения
величин а и Ь, показывают, что если некоторые из чисел {J
8 9]
ОБОБЩЕННЫЙ ДИСПЕРСИОННЫЙ АНАЛИЗ
301
равны нулю, как этого требует нулевая гипотеза, то
м2Т/аКх = 0 и М 2 ?р- ^ ^ 0 (тождественно
относись а ^
тельно р, оставшихся неопределенными). Ясно, что эти
рассуждения проходят в многомерном случае с таким же
успехом, как и в одномерном случае. Далее утверждается, что
в одномерном случае существует ортогональная матрица
\р = (фар) такая, что преобразование Y^ =
а и Ь к виду
п
B8)
Вследствие ортогональности преобразования величины {Za}
будут независимы и распределены нормально с общей
дисперсией а2. Так как Za, a=l, ..., п, должны быть
линейными комбинациями 2 T/a^a и ^а» а = /г+ ^» • • •» л + w,
должны быть линейными комбинациями
то они
должны иметь нулевые математические ожидания (при
нулевой гипотезе). Таким образом, а/а2 и Ь/о2 имеют
фиксированные независимые х2-Распределения.
В многомерном случае используется преобразование
Kp^=2fyaza' ™е кр и Ze —векторы. Тогда
2
а, Р» Г»
B9)
так как из B8) следует, что, с одной стороны, 2 ^«рФатФра —
а р
при
= о
2
а, р
и нулю в остальных случаях, а с другой
СТОрОНЫ,
2
а, р
= ^ ПРИ
и НУЛЮ
в остальных случаях. Поскольку матрица ЧГ ортогональная,
то векторы {ZJ независимы и распределены нормально
302 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
с ковариационной матрицей 2. Те же самые доводы
показывают, что если справедлива нулевая гипотеза, то MZa = 0,
a=l, ..., л-f-w. Таким образом, А и В независимы и
распределены по законам W (L, п) и W(L, m)
соответственно.
8.10. Другие критерии для проверки
линейной гипотезы
Пока мы рассмотрели лишь один критерий для проверки
линейной гипотезы — критерий отношения правдоподобия.
В этом параграфе мы рассмотрим некоторые другие методы
проверки этой гипотезы.
Пусть 21а, В12 и Вг»-— оценки параметров распределения
N(Bz, 2), вычисленные по выборке из N наблюдений. Они
образуют множество достаточных статистик, и мы можем
на их основе построить критерий. Как было показано в § 8.3,
если гипотеза заключается в том, что Bi —Вь то она может
быть переформулирована в виде Вх = 0 (посредством замены
Ха на Ха — В*^). Более того,
A)
где 2Л(а2)'=0 и 2ЛГ=4.2. Поэтому % = %*
и Вг
Чтобы уменьшить множество критериев, которые мы
будем рассматривать, используем принцип инвариантности.
Во-первых, если мы сделаем преобразование Хъ = Ха-\-Tz%\
то нулевая гипотеза при этом не изменится, поскольку
ЖК = В^а1)+(»2 + Г) 42), В2 + Г — неопределенная мат-
рица. Единственными инвариантами достаточных статистик
являются S и Вх (так как для каждой матрицы В?
существует матрица Г, которая преобразует ее в 0, а именно — 8?).
Во-вторых, нулевая гипотеза инвариантна относительно
преобразования z7 = Czl (матрица С невырожденная); это
8.10] ДРУГИЕ КРИТЕРИИ ПРОВЕРКИ ЛИНЕЙНОЙ ГИПОТЕЗЫ
303
преобразование переводит Вг в ЛгС !. 2 и В1Л11.2В1
инвариантны относительно этого преобразования; мы
рассматриваем Ац.2 как информацию, относящуюся к выводу. Но эти
матрицы являются единственными инвариантами. Рассмотрим
функцию матриц Ё2 и Ли.2, скажем, /(Вь Л п. г). Тогда
существует матрица С*, переводящая эту функцию в/(BiC*",/),
а следующее ортогональное преобразование переводит ее
в f(T, /)¦ гДе *ь = 0, *<v> ^/>0. (Если каждую строку
матрицы Т рассматривать как вектор в ^-мерном
пространстве, то поворотом осей координат можно добиться того,
чтобы направление первого вектора совпадало с направлением
первой координатной оси, второй вектор находился в
плоскости, определенной первыми двумя осями координат, и т. д.).
Но Т есть функция матрицы 7T/ = fii4n.28i, т. е.
элементы Т однозначно определяются этим уравнением й
предыдущими ограничениями. Таким образом, наши критерии
будут зависеть от 2 и Ё1Л11.2В1.
Пусть N2 = О и Sii4n.2Bi = И.
В-третьих, нулевая гипотеза инвариантна относительно
замены ха на Кха, ибо 2 и Bjjj — неизвестные матрицы. Это
преобразование переводит G в KGK! и Я в KHKf.
Единственными инвариантами матриц G и И относительно таких
преобразований являются корни уравнения
\Н— 60 | = 0. B)
Ясно, что эти корни инвариантны, ибо
Г|. C)
С другой стороны, эти инварианты являются единственными,
ибо для данных G и Н существует матрица К такая, что
KG К' — 1 и
о
о е0
о о
о
о
D)
304 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
где б^ ... >.0р — корни уравнения B) (см. теорему 3
приложения 1).
Теорема 8.10.1. Пусть ха — наблюдение над
совокупностью NCB^f^Btz®* 2), где 2 a^V?' = О
а
tt 2*« z** =4ii.2. Единственными функциями доста-
а
точной статистики и Л1Ь2, инвариантными
относительно преобразований х*а = ха + Гг(а2), zT = Czl и
xl — KXa, являются корни уравнения B), где G = N2> и
Отношение правдоподобия является функцией величины
-1
E)
Очевидно, оно инвариантно относительно рассматриваемых
преобразований.
Интуитивно могло бы показаться, что, руководствуясь
хорошим критерием, мы должны отвергнуть нулевую
гипотезу, если корни в некотором смысле велики, ибо если Вх
сильно отличается от 0, то fij будет велико и таким же
будет Н. Предлагаются некоторые другие величины, как
например, (а) 2 6/» (б) SfyO +вД (в) тах6* и (г) min6/-
Во всех случаях мы отвергаем нулевую гипотезу, если
какая-либо из этих величин превышает некоторое
определенное число.
Первые две величины можно записать в виде простых
функций матриц Н и О. Пусть К—такая матрица, что
KGK*' = / [0 = ДГ(ДГО или G~l = K'K] и, таким
образом, D) выполняется. Тогда
2 в, = sp в = sp КИК = sp НК'К = sp HG~\ F)
/1
8.10] ДРУГИЕ КРИТЕРИИ ПРОВЕРКИ ЛИНЕЙНОЙ ГИПОТЕЗЫ 305
Эта величина была предложена Лолеем [1] и Хотел-
лингом [6]. Вторая величина может быть записана
следующим образом:
т^щ = sp в (/+ в) = sp KHK {KGKf + КИКУ1 =
= spHK[K(G + H)K'rlK=spH(O + H)-1. G)
Третья величина была предложена С. Роем [17].
В принципе вероятность того, что какая-либо из этих
величин превышает заданное число, можно получить, исходя
из распределения корней (глава 13). На практике же
достаточно легко это сделать для /? = 2, но для р>2 это
сделать значительно труднее. Мы изложим асимптотическую
теорию. Для sp HG~~l дано асимптотическое разложение1)
(Морроу [1]).
Если справедлива нулевая гипотеза, то матрица G распре-
п
7,
делена как 2 %<?'* (п = ^ — Я)* а матрица Н — как 2 ^v^v»
CC«1 V-1
где векторы Za и Kv независимы и одинаково распределены
с законом распределения N@, 2). Поскольку корни
инвариантны относительно определенных ранее линейных
преобразований, мы можем найти матрицу К так, чтобы К%КГ = /.
Пусть G* = #G/r[=2(tfZa)(tfZa)'] и Н* = КНК'. Это
эквивалентно предположению о том, что с самого
начала 2 = /.
Теперь
>^12^: = /. (8)
Этот результат получается путем применения (слабого) закона
больших чисел к каждому из элементов (\/N)G
!) Л о лей [1] намеревался получить точное распределение
величины sp HQ~ly но его результат оказался ошибочным.
306 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ 8
Теорема 8.10.2. Пусть /(//) — функция, точка
разрыва которой образуют множество нулевой
вероятности, когда Н распределена как 2
V-1
независимые, одинаково распределенные векторы с
законом распределения N@, /). Тогда предельное
распределение функции f(NHG~l) есть распределение
функции /(Я).
Доказательство. Непосредственным применением
общей теоремы (например, теорема 2, Чернов [1]) получаем,
что если функции распределения векторов Хп сходятся
к функции распределения вектора X (в каждой точке
непрерывности последней) и если g(x)— функция, разрывная
на множестве нулевой вероятности относительно
распределения вектора X, то функция распределения g (Xn) сходится
к функции распределения g(X).
В нашем случае Хп состоит из компонент Н и G, а
X—из компонент Н и /.
Следствие 8.10.1. Предельное распределение
NspHG~l есть ^-распределение с pqx степенями
свободы.
Это следует из теоремы 8.10.2, поскольку
=2 й//== 2 2 ^ь«
A0)
Аналогично предыдущему можно утверждать, что
N spff(H-\-G)~l также имеет в пределе х2"РаспРеДеление
с pqx степенями свободы. Теорема 8.10.2 говорит также
о том, что произведение N на наибольший корень
уравнения B), т. е. наибольший характеристический корень
матрицы NHG~lt имеет в пределе распределение наибольшего
характеристического корня матрицы Н.
Очевидно, существует много различных удобных
критериев, которые можно использовать. К сожалению, еще не
создана теория, которая давала бы ответ на вопрос, какой
полный класс критериев является хорошим, а также как
среди предлагаемых критериев выбрать критерий, если мы
хотим увеличить мощность для определенного класса кон-
8.11] КАНОНИЧЕСКАЯ ФОРМА 307
курирующих гипотез. На раин [4] показал, что критерий
отношения правдоподобия является несмещенным. С. Рой [17]
получил некоторые свойства критерия, основанного на
наибольшем характеристическом корне.
8*11. Каноническая форма
Проблему 'проверки гипотезы о том, что подматрица
коэффициентов регрессии будет нулевой, можно привести
к более простому виду. Как и в § 8.2, будем считать, что
Xv ..., XN — независимые случайные векторы, причем Ха
распределен N(Bza, 2), где ^-мерные «фиксированные»
векторы zv ..., zN таковы, что матрица Z = (zx zN)
имеет ранг q (^ N). Разобьем В и Z так:
В = (В1В2). A)
Так как гипотеза Bi = В! посредством вычитания Bjai1* из Ха
может быть преобразована к виду Bj = 0, то нам достаточно
рассмотреть лишь вопрос о проверке гипотезы
Я:В1 = 0. C)
Пусть X=(XV ..., ЛГдг). Тогда мы можем написать
MX=BZ. D)
Положим
Wi = Z[ — ZiZ'2 (Z2z'2yl Z2 = Zi — Ai2AnZ2, W2 = Z2. E)
Тогда Wj и W2 будут ортогональны друг к другу, т. е.
WxV/2 = Z1Z2 — Z1Z2 (Z2Z2) Z2Z2 = ZiZ2 — Z1Z2 = 0. F)
Поэтому
MA-=BiWi + B2W2. G)
где
В^ = В2 + B!ZiZ2 (ZaZa). (8)
Гипотеза В1 = 0 не изменяется при преобразовании.
После этого рассмотрим преобразование
W1 = Z>1V1, W2 = D2V2, (9)
308 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. 8
где Dx (порядка (qx X qx)) и D2 (порядка (q2 X q2)) — Две
такие невырожденные матрицы, что строки каждой из
матриц Vx (порядка (qx X N)) и V2 (порядка (q2 X Щ являются
строками ортогональной матрицы, т. е.
УУ! = /, V2V2 = L A0)
Можно обнаружить, что матрица V2 ортогональна к Vv ибо
VxV2 = DTlWi W2(D21)' =0, A1)
так как
Выберем матрицу V3 [порядка (М — q)X>N] так, чтобы
= [ V2 \q2 A2)
была ортогональной (квадратной) матрицей порядка
Сделаем преобразование U = XV'. Из G), (9) и вследствие
того, что матрица V ортогональная, получаем
i + B2*Z>2V2) • (V[ V'2 Vj)=(Bi/)i B2Z>2 0). A3)
Пусть U = (иг U2 f/3), где Uv U2, Uz содержат
соответственно первые qx столбцов, последующие q2 столбцов и
последние N — q столбцов матрицы U. Тогда
(U1U2Uz) = X(v[V2Vf3). A4)
В силу результатов § 8.2 первые ^-мерные векторы (UXU2)
являются выборочными коэффициентами регрессии векторов X
(Vi\
на ( I с математическими ожиданиями
A5)
Математические ожидания элементов Ub равны нулю: Mf/3=0.
Так как матрица V ортогональна, то столбцы матрицы U
независимы и распределены нормально с ковариационной
матрицей 2. •
Пусть
B A6)
ЛИТЕРАТУРА
309
Тогда плотность распределения вероятностей матрицы ?/==
= (иг, ..., UN) будет равна
N
~~2 Zi Ua U*y ' '
Гипотеза C) будет эквивалентна гипотезе
A9)
Формула A8) называется канонической формой плотности.
Величина A1) § 8.3 преобразуется в
2 *>Ж
N
2^Ж + S ил*
B0)
ЛИТЕРАТУРА
[5]; Уилкс [1], [5]; Финней [2]; Эйт-
П. Бозе [1]; Уилкс [1], [5].
[1]; Джамбунатан [1];
[]
[1]; Бартлетт [5];
. Рао [14]; Д. Рой [1];
зо [14];
н [1].
]; Бар
Бокс [11; Вальд и
Тюкейи Уилкс [1];
§ 8.2. Бартлетт
кен [2].
§ 8.3. Бартлетт [2];
§ 8.4. У и лкс [1].
§ 8.5. Вальд и Брукнер
Уилкс [6]; Хартлей и Фитч
§ 8.6. Варне с '"
Брук нер [1]; К. Р,
Уиттекер и Ватсон
§ 8.8. Барнард [1]; Бартлетт [8].
§ 8.9. Ейтс иКохрен [1]; Иммер, ХейесиПаузрс [1];
К. Р. Рао [19]; Тюк ей [1]; Фишер [9].
§ 8.10 Ка лбэк [4]; Лолей [1]; Морроу [1]; Нанда [5];
Нараин [4]; Пиллей [1]; С. Рой [14], [17]; Хотел-
линг [6], [8]; Чернов [1].
§8.11. Хс)г[9].
Ко всей главе 8: Р. Андерсон и Бэнкрофт [1]; Т. А н-
р рф [];
дерсон [7]; Галликсен и Уилкс [1]; Даннетт и Со-
б[1] Ка [1] К [4]
др
бел[1]; Карте
С. Рой [12] [1
[1]; Фишер
;
ртер [1]; К
, [15]; Уиш
[5]; Хсу [4].
ендал л
арт [4];
[4]
Уо
стр. 338—341, 345—348;
олц, Рэйд и Колуэлл
310
ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ
[ГЛ. S
5
19
11
9
30
18
ЗАДАЧИ
1. (§ 8.2.2) Рассмотрим следующую выборку (для N
Вес зерна 40 17 9 15 6 12
Вес соломы 53 19 10 29 13 27
Количество удобрений ... 24 11 5 12 7 14
Пусть г2а = 1, а г]а — количество удобрений, внесенное на а-й
участок земли. Оценить В по этой выборке. Проверить гипотезу В! = 0
при уровне значимости 0,01.
2. (§ 8.3) В следующих данных (Уолц, Рэйди Колуэлл
[1]; затем эти данные были использованы Р. Андерсоном
и Бэнкрофтом [1]) atj — скорость сгорания папиросы, х2 —
процент никотина, гх — процент азота, г2 — процент хлора, гъ — калия,
фф 1 N 25
- фосфора,
V
(za — z)(za
1,8311
—0,3589
—0,0125
—0,0244
1,6379
0,5057
0
гъ — кальция и zb —
ух /42,20\
, (Х« — JC)(JCa — X)' =
-*г =
—0,3589
8,8102
-0,3469
0,0352
0,7920
0,2173
0
—0,0125 ¦
-0,3469
1,5818 -
-0,0415
-1,4278
—0,4753
0
магния;
/0,6690
= V 0,4527
-0,0244
0,0352
-0,0415
0,0258
0,0043
0,0154
0
0,2501
—1,5136
0,5007
-0,0421
—0,1914
-0,1586
0
*7 = 1 i
53,92
62,02
56,00
12,25
89,79
24,10
25
i Л
9
0,4527 \
6,5921)'
1,6379
0,7920
—1,4278
0,0043
3,7248
0,9120
0
2,6691
—2,0617
—0,9503
—0,0187
3,4020
1,1663
0
г = 25.
0,5057
0,2173
-0,4753
0,0154
0,9120
0,3828
0
•
0
0
0
0
0
0
0
ЗАДАЧИ 311
(а) Оценить регрессию хх и х2 на гь z5t ze и z7.
(б) Оценить регрессию на все семь случайных величин.
(в) Проверить гипотезу о том, что регрессия на z2t гя и z4
равна нулю.
3. (§ 8.2) Показать, что теорема 3.2.1 является частным случаем
теоремы 8.2.1 [Указание. Положить q = 1, za = 1, В = ji.]
4. (§ 8.2.) Доказать теорему 8.2.3.
5. (§ 8.2) Показать, что В дает минимум обобщенной дисперсии
N
6. (§ 8.3) Пусть q = 2, <гг1а =* wa (скаляр), 2г2в = 1. Показать,
что (/-статистика для проверки гипотезы Bj = 0 является
монотонной функцией Р-статистики и дать Г2-статистику в простой форме.
7. (§ 8.3) Пусть zqa == 1, q2 = 1. Положим
Доказать, что
(В12 - ВО (Ап - ЛяЛ^Лп) (B1S - Btf = (В1а - В,) А* (В1а-В,)'.
8. (§ 8.3) Пусть qi = q2. Как проверить гипотезу Bj = В2?
9. (§ 8.3) Доказать, что
^ i4)(Д — АА А)
А2г)
10. (§ 8.4) Сравнивая теорему 8.2.2 с задачей 9, доказать
лемму 8.4.1.
11. (§ 8.4) Доказать лемму 8.4.1, показав, что плотность
распределения вероятностей В12 и В2@ равна
12. (§ 8.5) (а) Показать, что если р четно, то
характеристическая функция величины Y=s\nUpt m, л, скажем <р(^) = MeitYy есть
функция, обратная к многочлену, (б) Указать метод обращения
характеристической функции величины Y с помощью вычетов, (в)
Показать, что результирующее выражение для плотности распределения
вероятностей величины U есть многочлен относительно и и In и.
312 ПРОВЕРКА ОБЩИХ ЛИНЕЙНЫХ ГИПОТЕЗ [ГЛ. Ч
13. (§ 8.6) Используя асимптотическое разложение
распределения, вычислить Р {— т In UZt 3, п < М*} для
(а) л = 8, М* = 14,7,
(б) /г = 8, М* = 21,7,
(в) п = 16, М* = 14,7,
(г) п = 16, М* = 21,7.
(Каждое вычисление проводить с точностью до трех десятичных
знаков или использовать разложение до члена т~А.)
14. (§ 8.6) В случае /? = 3, ^ = 4 и л = JV-— # = 20 найти 5%-ную
точку значимости для mln?/, используя в качестве х2 (а) —2 In Л.
и (б) —m\nU. Используя большее число членов этого разложения,
оценить точность уровня значимости для ваших ответов в
случаях (а) и (б).
15. (§ 8.9) Пусть р-мерные векторы Ytj распределены N (у.ц% 2),
где
Yij — взаимодействия, если над каждым Уц сделано т наблюдений
(скажем, Уц\% •••* Уупд* ^ак вы проверите гипотезу X/ = 0
(/ = 1, ..., г)? Как вы проверите гипотезу уп=>0 (/= 1, ..., г;
У1 )?
У , )
16. (§ 8.9) Рассмотрим латинский квадрат. Пусть УуA, у=1,..., г)
распределен ЛГ (ji/y, S), где МГ/у = рь/у- = у + ^/ + V + ^л и
(а) составить таблицу одномерного дисперсионного анализа
для основных дефектов и ошибок (включая суммы квадратов,
числа степеней свободы и так далее).
(б) Составить таблицу для векторного случая.
(в) В векторном случае показать, как проверять гипотезу
^=0, /=1, ..., г.
17. (§ 8.9) Пусть х1 —результат некоторого процесса, а х2 —
качественная характеристика. Допустим, что zx = 1, <г2 = ± 10°
(колебание температуры относительно средней), гъ = ± 0,75
(относительная мера действия одного фактора) и гк = ± 1,50 (относительная
мера действия другого фактора). (Подробнее см. Т. В. Андерсон
[7].) Произведено три наблюдения над хх и х2 для каждой
возможной тройки значений z2, zb и zA. Оценка В такова:
g_ /58,529 —0,3829 —5,050 2,308 \
" \ 98,675 0,1558 4,144 —0,700 )'
5, =3,090, s2 = 1,619 и г = —0,6632 можно использовать для
вычисления S или S.
(а) Сформулировать модель дисперсионного анализа для этой
ситуации.
ЗАДАЧИ 313
(б) Найти доверительную область для действия температуры
(т. е. p12f р2а).
(в) Проверить гипотезу о том, что два фактора не оказывают
влияния на результат и качество.
18. (§ 8.10) Интерпретировать преобразование, о котором
упоминается в теореме 8.10.1, в первоначальных терминах, т. е. в
терминах И: Bj = В* и 4Х)-
19. (§ 8.10) Найти функцию распределения величины sp HQ~l
для р = 2. [Указание. Использовать распределение
характеристических корней, данное в главе 13.]
20. Пусть j^v) (а=з1,.,„ ^ — наблюдения над совокупностями
N(\fi*\ 2) (v = 1,..., q). Какой критерий можно использовать для
проверки гипотезы
т
А-1
где chk — данные числа, a yv, ji — неизвестные векторы?
[Замечание. Эта гипотеза (о том, что математические ожидания лежат
в ттг-мерной гиперплоскости с известными отношениями расстояний)
может быть сформулирована в виде общей линейной гипотезы.]
21. Пусть хл — наблюдение над совокупностью N(B2e, S),
о = 1,..., N. Допустим, что существует известный фиксированный
вектор y такой, что By = 0. Как оценить В?
ГЛАВА 9
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ
МНОЖЕСТВ СЛУЧАЙНЫХ ВЕЛИЧИН
9.1. Введение
В этой главе множество из р случайных величин с
нормальным совместным распределением разбивается на q
подмножеств и ставится вопрос о взаимной независимости q
множеств. Это эквивалентно проверке гипотезы о том, что
каждая случайная величина одного множества некоррелиро-
вана с каждой случайной величиной другого. Находим
отношение правдоподобия для этой гипотезы, моменты отношения
правдоподобия при условии, что нулевая гипотеза верна,
некоторые частные распределения и асимптотическое
разложение распределения. Будет показано, что в случае двух
подмножеств эта теория тесно связана с теорией,
разработанной в предыдущей главе.
9.2. Отношение правдоподобия как критерий
для проверки гипотезы о независимости
множеств случайных величин
Пусть р-мерный вектор X распределен Af (ji, 2). Разобьем
X на q подвекторов с pv /?2> • • • • Pq компонентами
соответственно, т. е.
9.21
КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ
315
Таким же образом разбиваются вектор -среднего значения
и ковариационная матрица
B)
B)
2 =
... 2„
C)
Нулевая гипотеза, которую мы хотим проверить, состоит
в том, что подвекторы Х{1\ ..., X^q) взаимно независимы,
т. е. плотность вероятности X является произведением
плотностей вероятности ЛГA), ..., X^q\ Эта гипотеза
Если -YA), ..., ЛГ^—независимые подвекторы, .то
D)
/ E)
(см. § 2.4). Обратно, если справедливо E), то зерно и D)
Таким образом, нулевая гипотеза эквивалентна гипотезе И
%.. = 0, 1Ф]. Ее можно сформулировать также как гипо
тезу о гом, что 2 имеет вид
Sn О
О
О
<г<г
316 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ 1ГЛ 9
Если задана выборка хх л:^ из N наблюдений
над Х> то отношение правдоподобия равно
max L (ji, So)
m
max?(|i, 2) '
где
J4(*
и L({t, So) равно L({t, S) при 2^ = 0, /^=y, а максимум
берется по всем векторам ft и положительно определенным
S и So (т. е. 2^). Как доказано в § 5.2, равенство F),
maxL(ji. 2) = р-^ —e~~*pN9 (9)
где
-*)'. A0)
При нулевой гипотезе
({1(/). 2„). (И)
где
A2)
Ясно, что
maxl(fi, 20) = ТТ max «
-11 |,<л,„ \n ~
~~"N, A3)
pN «. „ i-JV
TT|S|2
КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 317
Если разобьем А и Ss так же, как 2:
A5)
то увидим, что
Отношение правдоподобия равно
A6)
Критическая область проверки гипотезы по критерию
отношения правдоподобия имеет вид
A7)
где Х(е) — такое число, что вероятность A7) равна е,
когда S = 20. (Остается показать, что такое число можно
найти.) Пусть
J^i. A8)
ft'
Аи\
Тогда X = V2 является монотонно возрастающей
функцией V. Критическую область A7) можно записать также
в виде
A9)
318 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ [ГЛ. 9
Теорема 9.2.1. Пусть хг, ..., xN —выборка из N
наблюдений над совокупностью N(ji, 2), где ха, fi и 2
разбиты на рх pq строк (и столбцов в случае 2),
как показано в A), B) и C). Отношение правдоподобия
для проверки гипотезы о взаимной независимости q
множеств компонент задается формулой A6), где А,
определяемая в A0), разбита на части согласно A5).
Критерий отношения правдоподобия задается форму-
лой A7) или эквивалентной ей формулой A9), где V
определяется формулой A8), а Х(е) или V(e) выбираются
таким образом, чтобы достигался уровень значимости г.
Так как rtj= а^/У аиа^, то имеем
М1 = |Л|Дан, B0)
где
B1)
\AU\=\RU\ U l ап. B2)
Таким образом,
V =z= l'4! = [?l . B3)
Ц\Аи\ J{\Ru\
Следовательно, V можно целиком выразить через
выборочные коэффициенты корреляции.
Величину V можно интерпретировать при помощи
обобщенной дисперсии. Каждое множество (хп, ..., хш) можно
рассматривать как вектор в Af-мерном пространстве;
множество (xn — xi,...txiN — xl) = zl, например, является
проекцией на плоскость, перпендикулярную прямой, которая
образует равные углы с осями координат. Определитель \А\
представляет собой квадрат объема р-мерного
параллелепипеда, построенного на векторах zv ..., zp.
Определитель \Аи\ представляет собой квадрат объема (/^-мерного)
9 21 КРИТЕРИЙ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 319
параллелепипеда, построенного на векторах из J-го
множества. Если каждое множество векторов ортогонально
любому другому множеству (т. е. RlJ = 0t Ьф]\ то квадрат
объема \А\ равен произведению квадратов объемов \Аи\.
Например, если р = 2, р{ — р2=\, то это утверждение
сводится к следующему: площадь параллелограмма равна
произведению сторон, если углы между его сторонами
прямые. Если множества почти ортогональны, то
определитель |Л| близок к JI|i4^| и объем V близок к единице.
Отношение правдоподобия обладает следующим свойством
инвариантности. Пусть Ct — произвольная невырожденная
матрица порядка pit и пусть
Сг 0 ... О
С=[ °. CV;° I- B4,
о о ...с,.
Пусть Сха==х\ Тогда критерий для проверки
независимости в терминах лг* тождествен критерию для проверки
независимости в терминах ха. Пусть матрица А* =
= 2(*«— х*)(х*а— х*)г разбита на подматрицы (блоки) Л*у
а
Тогда ч
= С, S (*</> - *W) КУ) - *и)У C'j = C.AyCJ B5)
и А* — САС. Поэтому
ибо 1C| = JJ|Q|- Таким образом, критерий инвариантен
относительно линейных преобразований каждого множества.
320 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ (ГЛ 9
Нараин [4] показал, что критерий, основанный на V,
является строго несмещенным, т. е. вероятность отвергнуть
нулевую гипотезу больше, чем уровень значимости, если эта
гипотеза неверна (см. также Дэйли [1]).
9.3. Моменты отношения правдоподобия
при условии, что справедлива нулевая гипотеза
Чтобы найти точки значимости V(e) (использованные
в формуле A9) § 9.2), мы хотим найти распределение V
при условии, что справедлива нулевая гипотеза.
Матрица A = N^iq распределена по закону WB0, ri),
где n = N—1 и 20 определяется по формуле F) § 9.2.
Распределение вероятностей матрицы Л// = М2//а> является
распределением Уишарта W (Lu, n) и так как при нулевой
гипотезе Х^1) не зависит от Х^, то матрица Аа
распределена независимо от А^ (i Ф /).
Момент /г-го порядка отношения | А |/| Ао | = V равен
MVh=f... f\A\hl[?\AurhK(X0,n)X
О)
где /C(S, n) определяется по формуле G) § 8.4, а
интегрирование проводится nQ dA — dan ... dappt где А — все
неотрицательно определенные матрицы. Член в скобках
представляет собой плотность распределения W (S, n-\-2h).
Интеграл от этой плотности по всем элементам Ац при
1ф j дает частную плотность распределения вероятностей
Лп, ..., Aqr которая является произведением плотностей
w(Au\^Ui n~\~ 2/г). (Следует отметить, что интегрирование
9.4] НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ 321
не включает \Аи\.) Таким образом, A) переходит в
Г /*ТТ|Д Г*У
X ехр (— \ sp 2Й1 Ли) dAii J =
1
— sp.
я
,n)
KB0,n + 2h)±l
Так как | 2 | = Ц12tt |, то B) сводится к
C)
Поскольку 0<^V<^l, эти моменты определяют
распределение V единственным образом. Следует отметить, что моменты
не зависят от 20. Таким образом, распределение V не
зависит от неудобных параметров, когда справедлива нулевая
гипотеза.
9.4. Некоторые распределения отношения правдоподобия
Зная моменты величины V, в некоторых случаях можно
вывести точное распределение; некоторые примеры
приведены в § 9.4.2. Вывод некоторых формул основывается на
представлении V в виде произведения независимых случайных
величин (§ 9.4.1); в принципе распределение V можно
представить как интеграл от совместной плотности вероятности
независимых величин. Для определения точек значимости
И Т. Андерсон
322
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ
[ГЛ 9
полезным оказывается асимптотическое разложение, которое
исследуется в § 9.5.
9,4.1. V как произведение независимых случайных
величин. Момент Л-го порядка величины V равен
= JJ
-д-О»+!-/
п
/-1
q
и
/«2
Г[1 (я + 1 -л -/)] Г[i (л + 1 -У) + А]
'
где Pi = j?j -f- ... -f- jf/.j. Это выражение можно переписать
следующим образом:
1-2
П.-К
Pi
<? f i
=ППВ"' [т(«+1-Л-Л { л] X
«
i-2 [ y-1
1
x/
о
Таким образом, распределение величины V совпадает с
распределением lT{II^//|t где A'jy независимы, а плотность
г 1 ~ . 1 - 1
вероятности величины Хц равна C1л;; -g- (л+1—Л—Л Y^M*
Когда р, четно, pi — 2ri, /> 1, то, пользуясь формулой
удвоения для гамма-функции
9.4]
НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ
323
можно привести выражение для момента h-то порядка
величины V к виду
—2ft)
_ ТТ J ТТ
t& [ Г А
-Pi-2k) г (" + \-
X
f
xfr1 dx \. C)
Таким образом, распределение величины V совпадает с
распределением ТТ | Д У\и Г. где величины Yik независимы и
плотность распределения Yik имеет вид р (у; /г-(-1 —/?^—2^, jt;^.
9.4.2. Некоторые частные случаи распределений.
В некоторых частных случаях можно получить точное
выражение для распределения величины V = X2/7V.
Случай 1: # = 2. В этом случае момент Л-го порядка
величины V равен
-= П
уi
-2- <л-А + 1 -/)] г[1 (л + 1 -0+ й] J
D)
Это выражение имеет тот же вид, что и формула A0)
§ 8.4, причем имеют место следующие соответствия между
параметрами:
Глава 8 Глава 9
Р
Рх
11*
324 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ [ГЛ 9
Таким образом, распределение V при # = 2 совпадает с
распределением UPuP2fN-\-p2. Ряд специальных случаев уже
рассматривался в § 8.5.
Случай 2: q = p. Здесь /7^ = 1, и проверка гипотезы
о независимости является проверкой некоррелированности
каждой пары переменных. В § 9.4.1 показано, что вели-
чина V имеет такое же распределение, как Д^, где
независимы и плотность вероятности Xt равна
1 ]
Рассмотрим случай р = 3. Если
К-1 = в[\(п-1),±]в[±(п-2). l],
то
v l i 11
— К I х2 A —л:J у2 dydx+-
0 О
I v/x
+к f / х> (Л-1)-1 A -*)"У (я-2) ^^=
4^~2> Г \~1,л чТ-1^ I
-j-t;2 / х2 {1-хJ dx) =
)
2 ("~2>
4- 2t»2 ("~2>arcsin /П=И} =
1 [-!(«—1). |] х
X v2 arcsin у 1— v. , E)
Случай 3: /71=...=^ = 2. В § 9.4.1 показано,
что в этом случае распределение V совпадает с распределе-
9.4]
НЕКОТОРЫЕ РАСПРЕДЕЛЕНИЯ
325
q-\
Ц
q
нием Ц Х\% где Xt независимы и плотность вероятности Xt
имеет вид C (х\ п — 1 — 2/, 21).
Рассмотрим теперь случай <7=3. Пусть К =В(п—3,2)Х
X В (п — 5,4). Тогда
f f xn~*(\— xfyn~4
0
1 Vv~\x
J f x»-*(l—x)\
Vv
l
% x~*(\—xfdx
о о
Vv
Q
n — о
VW
hn~2) r
Vv
F)
Это распределение приводит Уилкс [6]. Случай />/=!,
/= 1, 2, 3, является частным случаем распределения Уилкса!)
*) В формуле Уилкса вместо Г Г^- (N — 2 — /) 1 должно быть
]
326 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ [ГЛ 9
при р1==:1, /?2=1 и pz—l. Уилкс вывел также
распределение для /72 == 1, /?2 = /?з = 2; для рг — 19 /?2 = 2, p3 = S;
для р1=1, р2 = 2, />з = 4 и для р1=/?2 = 2> /?з=3.
Вальд и Брукнер [1] указали метод вывода
распределения в случае, когда не более чем одно pt нечетно.
Легко видеть, что тот же результат можно получить,
применив формулу удвоения, чтобы упростить выражение для
моментов, и проинтегрировав произведения бета-функций.
9.6. Асимптотическое разложение распределения
величины X (отношения правдоподобия)
Момент Л-го порядка величины Х = 1/2 равен
р
где коэффициент К выбран таким образом, чтобы МХ°=1.
Это выражение имеет тот же вид, что и формула A)' § 8.6,
причем
. N , — k
Ч 1 С2)
Тогда / = |
Для того чтобы второй член разложения уничтожился,
выберем р следующим образом:
9 51 АСИМПТОТИЧЕСКОЕ РАЗЛОЖЕНИЕ ВЕЛИЧИНЫ
ПуСТЬ 3 р'Ур»
—¦"'-"-т-
327
D)
Тогда а>2 = ^г/77*2» где» как показал Бокс [1],
48 96 72 (/^ —
Пользуясь изложенным в § 8.6, мы получаем разложение:
E)
Если q = 2, то последующие члены разложения можно
получить, используя результаты § 8.6.
Если /^=1, то имеем
3240
1);
G)
другие члены получены Боксом [1]. Если /?/==2(/?=2<7), то
/ = 2?(9-1), ЯвАГ-!?+28.
В таблице 12 указан порядок приближения выражения F)
при pi=zl. Во всех случаях v выбирается таким образом,
что первый член равен 0,95.
Таблица 12
р
4
5
6
/
6
10
15
V
12,592
18,307
24,996
Т2
11/24
15/8
235/48
15
15
15
16
т
71/6
69/6
67/6
73/6
0,0033
0,0142
0,0393
0,0331
Второй член
—0,0007
--0,0021
—0,0043
—0,0036
328
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ
[ГЛ 9
9.6. Пример
В настоящем примере используются материалы
исследования о затратах времени в промышленности (А б р у ц ц и [ 1 ]).
Исследовалось время, затрачиваемое разными работниками
на швейной фабрике при выполнении различных элементов
операции глаженья одежды.
Всю операцию глаженья можно разделить на следующие
шесть элементов:
1. Одежда размещается на гладильной доске.
2. Разглаживаются короткие швы.
3. Одежда перекладывается на гладильной доске.
4. Разглаживаются длинные швы на три четверти.
5. Разглаживаются остатки длинных швов.
6. Одежду вешают на вешалку.
В этом случае ха представляет собой вектор измерений
над индивидуумом а. Компонента xia — это время,
затраченное на выполнение /-го элемента операции. N=76. Данные
(время в секундах) обработаны, получены выборочные вектор
среднего значения и ковариационная матрица
9,47
25,56
13,25
Х~ 31,44
27,29
8,80 J
5 =
2,57 0,85 1,56 1,79 1,33 0,42
0,85 37,00 3,34 13,47 7,59 0,52
1,56 3,34 8,44 5,77 2,00 0,50
1,79 13,47 5,77 34,01 10,50 1,77
1,33 7,59 2,00 10,50 23,01 3,43
0,42 0,52 0,50 1,77 3,43 4,59
B)
Выборочные стандартные отклонения равны A,604; 6,041;
2,903; 5,832; 4,798; 2,141). Выборочная корреляционная
9.71
СЛУЧАЙ ДВУХ МНОЖЕСТВ СЛУЧАЙНЫХ ВЕЛИЧИН
329
матрица имеет вид
1,000 0,088 0,334 0,191 0,173 0,123
0,088 1,000 0,186 0,384 0,262 0,040
0,334 0,186 1,000 0,343 0,144 0,080
R= 0,191 0,384 0,343 1,000 0,375 0,142
0,173 0,262 0,144 0,375 1,000 0,334
0,123 0,040 0,080 0,142 0,334 1,000
Для исследователей представляет интерес проверка
гипотезы о взаимной независимости шести случайных величин.
Часто при изучении затрат времени предлагается новая
операция, в которой элементы комбинируются иным способом.
В новой операции некоторые элементы могут повторяться
по нескольку раз, а некоторые могут быть выброшены. Если
оказываются независимыми величины, обозначающие время,
затрачиваемое на различные элементы операции, то
естественно считать, что и в новой операции они останутся
независимыми. Тогда распределение затрат времени на новую
операцию можно будет оценить, пользуясь средними
значениями и дисперсиями, вычисленными для остальных элементов.
В этой задаче отношение правдоподобия V равно
У = |/?| =0,472. Так как объем выборки велик, то можно
пользоваться теорией асимптотических разложений: т = 433/6,
/=15 и —яг In V = 54,1. Так как точка значимости для
^-распределения с 15 степенями свободы равна 30,6 при
уровне значимости 0,01, результат оказывается значимым.
Мы отвергаем гипотезу о независимости: значения затрат
времени на различные элементы операции нельзя считать
независимыми.
9.7. Случай двух множеств случайных величин
В случае двух множеств случайных величин (q = 2)
случайный вектор Xt вектор результатов наблюдений лга, вектор
средних значений {t и ковариационная матрица 2 разбиваются
на части следующим образом:
уг
*.=
I
330 ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ ГГЛ 9
Нулевая гипотеза о независимости предполагает, что 212 = 0,
т. е. что 2 имеет вид
П 0
Отношение правдоподобия для проверки этой гипотезы равно
lAll^l' W
В § 9.4.2 было показано, что когда справедлива нулевая
гипотеза, распределение этого отношения правдоподобия
совпадает с распределением UРи Ръ w-i-p, отношения
правдоподобия для проверки гипотезы о коэффициентах регрессии
(глава 8). Исследуем вопрос о том, каким образом связаны
проверка гипотезы о независимости двух множеств случайных
величин и проверка гипотезы о том, что регрессия одного
множества на другое равна нулю.
Условное распределение Х^ при условии Х^ = хТ
представляет собой
N[^ + B(xM-^), 2n.2] = AqB(jf>-?&>) + v. Slb2],
где В = S12S2I1, Sn.2 = S11 — S12S2VS21, и v = ji<^ -f
+ В (xW — {iB)). Пусть XI = X?\ zt = |(^2) - x{2)) \\
B* = (Bv) и S* = Sii.2. Тогда условное распределение Xl
представляет собой N (ВУ, S*). Это распределение такого же
вида, как то, которое было изучено в главе 8.
Нулевая гипотеза о том, что 212 = 0, эквивалентна
нулевой гипотезе В = 0. В главе 8 доказано, что при
фиксированных х^ критерий для проверки этой гипотезы
(основанный на отношении правдоподобия) имеет вид
и
9.7] ' СЛУЧАЙ ДВУХ МНОЖЕСТВ СЛУЧАЙНЫХ ВЕЛИЧИН 331
где
Za = 1, В200 = V = X = X •
В2 = (В12 В22) =
= (А12N&)(* 1У (М «
Матрица в знаменателе U равна
2(xil)-xw)(xil)-xm)' = An. F)
Матрица в числителе равна
21*<?> _ х^ - AnAh1 (*?> - ^B))] X
х |д?> _ JP)_ д12дй' (х?-х™)]' = Л„ - Aaitt1^. G)
Следовательно,
п_\А\\ — АпА:пАг\\ _ \А\ ' ,ft.
|Дц| "НиМ^мГ W
что в точности совпадает с V.
Выясним, почему распределение (/ = V при условии, что
верна нулевая гипотеза, не зависит от того, фиксированы Х^
или нет. В главе 8 было показано, что, когда верна нулевая
гипотеза, распределение U зависит только от р, qx к N — q2
и не зависит от za. Таким образом, условное распределение V
при Xf] = л^2) не зависит от л;{а2); совместное распределение V
и Х^2) является произведением распределения V и
распределения Х®\ и частное распределение V совпадает с этим
условным распределением. Это доказывает, что распределение V
(при условии, что верна нулевая гипотеза) не зависит от того,
являются ли X® фиксированными или они имеют какое-нибудь
распределение (нормальное или нет).
Обобщив этот результат, покажем, что для q > 2
распределение V при условии, что верна нулевая гипотеза
332
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ
ГГЛ 9
о независимости, не зависит от распределения одного
множества случайных величин, например XiqK
Имеем
А22 ... А2
V
Аа>> ... A
QQ .
A22 * * • An
"O2 . • • *"fl
Л33 ... Аъ
A A
...X
х...
qq
q^\t 0_j I • |
= VVo ... V"
(9)
Когда верна нулевая гипотеза, распределение Vv согласно
ранее доказанному, не зависит от распределения Х®\ ..., Х^\
Рассуждая таким же образом, находим, что распределение Vj
не зависит от распределения X^*l\ ..., Х^\ Следовательно,
распределение Vv .... Vqmml не зависит от распределения ЛГ^.
Теорема 9.7.1. Распределение V при условии, что
верна нулевая гипотеза о независимости, совпадает
с распределением, приведенным в этой главе, если q — 1
множеств имеют совместное нормальное распределение,
даже когда одно множество распределено не по
нормальному закону.
Возвратимся к случаю q = 2. Некоторый интерес
представляет обобщение понятия коэффициента корреляции,
характеризующего взаимосвязь двух случайных величин, —
понятие «вектора коэффициентов корреляции»,
характеризующее взаимосвязь двух множеств случайных величин. Одно
такое обобщение основывается на определителях (таким же
путем, как получается обобщенная дисперсия при обобщении
понятия дисперсии).
В случае двух скалярных случайных величин Хх и Х2
«коэффициент чужеродности» будет
«1.2
A0)
9.7] СЛУЧАЙ ДВУХ МНОЖЕСТВ СЛУЧАЙНЫХ ВЕЛИЧИН 333
где
представляет собой дисперсию Хг относительно ее регрессии
на Х2, когда
МХ1 = МХ2 = 0 A2)
и
В случае двух векторов Я*1* и Х^2) регрессионная матрица
равна
B = Si2S2-21 A4)
и обобщенная дисперсия Х^1) относительно регрессии на Х^2)
будет
I M \(X — dX ) (X — msX ') J | ==
Так как обобщенная дисперсия Х{1) равна
|MJfA)Jf() | = |Sn|, A6)
то векторный коэффициент чужеродности равен
A7)
Выборочным эквивалентом A7) является просто V.
Квадрат коэффициента корреляции между двумя
скалярами Хг и Х2 можно записать в виде
^Р". 08)
где о2 (ft) — дисперсия функции регрессии. Обобщенная
дисперсия ЪХ^2) равна
Следовательно, квадрат вектора коэффициента корреляции
равен
О 212
ад-2^
B0)
334
ПРОВЕРКА ГИПОТЕЗЫ О НЕЗАВИСИМОСТИ
ГГЛ
При рг = р2 B0) переходит в
B1)
Конечно, предложенная мера связи множеств величин не
является вполне достаточной характеристикой, так как
отбрасывается информация о двух множествах; другими словами,
отношение между ЛГA) и Х{2) невозможно характеризовать
одним числом. В главе И этот вопрос будет исследован
более глубоко. Будет установлено, что «канонические
корреляции» выражают зависимость между Х{1) и А^2)
независимо от координатных систем ЛГA) и А"B).
Другие способы проверки независимости множеств
случайных величин основываются на методах, изложенных
в главе 8. Гипотезу о том, что подвекторы Х{1\ ..., Х{д)
взаимно независимы, можно рассматривать как гипотезу о том,
что Х{1) не зависит от Х{2\ ..., Х{я\ что Х{2) не зависит
от Х{3\ ..., Х{д) и т. д. или, другими словами, как гипотезу
о том, что регрессия АгA) на Х®\ ..,, Xiq) равна нулю и т. д.
ЛИТЕРАТУРА
Абруцци [1]; Бокс [1]; Вальд и Брукнер [1]; Гам-
бел и Литтауер [11; Гиршик [4]; Дзй ли [11; К ел л и [21;
Нар айн [4];Уилкс [6], [10], стр. 242—245.
ЗАДАЧИ
1. Пусть хх — скорость арифметических вычислений, х2—
способности к арифметике, хъ— интерес к интеллектуальной
деятельности, хА — интерес к общественной деятельности, хъ — деловая
активность. К е л л и ([1], стр. 114) наблюдал следующие корреляции
между последовательностями испытаний над 109 учениками по этим
признакам:
1,0000
0,4249
—0,0552
—0,0031
0,1927
0,4249
1,0000
—0,0416
0,0495
0,0687
—0,0552
—0,0416
1,0000
0,7474
0,1691
—0,0031
0,0495
0,7474
1,0000
0,2653
0,1927
0,0687
0,1691
0,2653
1,0000
Пусть
хь). Проверить гипотезу
ЗАДАЧИ
335
о том, что хр) не зависит от х^2\ положив уровень значимости
равным 1%.
2. По данным 188 наблюдений затрат времени в производстве
(Абруцци [1]) была составлена следующая корреляционная
матрица:
1,00 —0,27 0,06 0,07 0,02
—0,27 1,00 —0,01 —0,02 —0,02
0,06 —0,01 1,00 —0,07 —0,04
0,07 —0,02 —0,07 1,00 —0,10
0,02 —0,02 —0,04 —0,10 1,00
что
(/=^=Д положив
уроПроверить гипотезу о том,
вень значимости равным 5%.
3. (§ 9.4) Вывести распределения, полученные У и л к с о м [6],
на которые ссылаются в конце § 9.4. (Указание. Использовать
результаты § 9.4.1).
4. (§ 9.7) Доказать, что отношение правдоподобия V в этой
главе можно представить как произведение /У, определенных
в главе 8.
5. (§ 9.7) Дать определение выборочного вектора
коэффициентов чужеродности и выборочного вектора коэффициентов
корреляции.
6. (§ 9.7) Пусть у — квадрат выборочного вектора
коэффициентов чужеродности и г — вектор коэффициентов корреляции. Найти
'*, когда S12 = 0.
7. (§ 9.5) Выразить т и 72 в случае />/ = 2. Вычислить второй
член в формуле F), когда v выбрано так, чтобы первый член был
равен 0,95 при р = 4 и б, а N = 15.
ГЛАВА 10
ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ
КОВАРИАЦИОННЫХ МАТРИЦ И О РАВЕНСТВЕ
ОДНОВРЕМЕННО ВЕКТОРОВ СРЕДНЕГО ЗНАЧЕНИЯ
И КОВАРИАЦИОННЫХ МАТРИЦ
10.1. Введение
В этой главе изучаются проблемы проверки гипотез о
равенстве ковариационных матриц и о равенстве одновременно
ковариационных матриц и векторов средних значений.
Описываемые критерии представляют собой критерии
отношения правдоподобия или видоизменения критериев отношения
правдоподобия. В каждом рассматриваемом здесь случае
формулировка задачи и критерий являются многомерными
обобщениями формулировки задачи и критерия для
соответствующего одномерного случая. Вначале будут рассмотрены
гипотезы о равенстве ковариационных матриц и о равенстве
одновременно ковариационных матриц и векторов средних
значений различных генеральных совокупностей в
предположении, что вид ковариационной матрицы или вид
ковариационной матрицы и вектора среднего значения не дан. Затем
будут рассмотрены гипотезы о том, что ковариационная
матрица равна данной матрице, и о том, что одновременно
ковариационная матрица равна данной матрице и вектор
среднего значения равен данному вектору. Еще одной
гипотезе, рассмотренной в этой главе, — гипотезе о равенстве
ковариационной матрицы данной матрице с точностью до
коэффициента пропорциональности — соответствует тривиальная
одномерная гипотеза. Во всех случаях класс критериев для
проверки класса гипотез приводит к вычислению
доверительных областей.
10.2] КРИТЕРИИ ПРОВЕРКИ ГИПОТЕЗ О РАВЕНСТВЕ 337
10.2. Критерии проверки гипотез
о равенстве нескольких ковариационных матриц
В этом разделе рассматривается несколько нормальных
совокупностей; на основе множества выборок (по одной из
каждой совокупности) проверяется гипотеза о равенстве
ковариационных матриц этих совокупностей. Пусть х<&) (а =
= 1, ..., Ng; g = 1, ..., q) — выборка из g-й совокупности
с распределением N(^K Sp. Требуется проверить гипотезу
//,:2Х= ... =S,. A)
Пусть
g-l g
B)
Прежде всего найдем отношение правдоподобия. Функция
правдоподобия равна
'
Пространство 2 представляет собой пространство
параметров, в котором каждая 5L — положительно определенная
матрица и \х№— произвольный вектор. Пространство о>
представляет собой пространство параметров, в котором 2^ =
= 22= ... =%д и ^g)— произвольный вектор. Оценки
наибольшего правдоподобия для {i^) и 2^. в области 2 даются
формулами
Jig = X , S^s = -др— Ag. D)
Оценки наибольшего правдоподобия для ji^. в области о>
даются формулами D) jiif* =x^g\ так как значения \Jg\ при
338 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ ГО
которых функция правдоподобия максимальна, не зависят
от Sr Функция, максимум которой требуется найти при
21== ... = 2^ = 2, имеет вид
.„' ¦„¦"f-т
2wJ |S]2 L
„ „f-тsa*1 -
BwJ |S]2 L
E)
По лемме 3.2.2 значение 2, дающее максимум E), равно
2 = — А (Ъ\
а максимальное значение функции правдоподобия равно
—Г7—T^e"PN щ G)
Отношение правдоподобия для проверки гипотезы A)
равно
я -Lyv <? JL
n2
^Ц (8)
Критическая область определяется неравенством
*i<*i(«). (9)
где \г (а) определяется таким образом, чтобы соотношение (8)
выполнялось с вероятностью а, когда гипотеза A) верна.
Бартлетт [3] предложил видоизменить \ в одномерном
случае, заменив объем выборки числом степеней свободы Ag.
Кроме числовой постоянной, он предлагает еще
статистику A0)
A0)
10.21 КРИТЕРИИ ПРОВЕРКИ ГИПОТЕЗ О РАВЕНСТВЕ 339
где ng=Ng— 1 и n = ^ng=zN — д. Числитель
пропорционален некоторой степени взвешенного среднего
геометрического обобщенных выборочных дисперсий, а знаменатель
пропорционален некоторой степени определителя взвешенного
среднего арифметического выборочных ковариационных
матриц.
В случае скалярной переменной (/7=1), когда имеются
две выборки, статистика A0) равна
(и.J (n2J (s\) (si) _{ntf (n2f F*
I — : » \11)
(
где 5j и s| — обычные несмещенные оценки q2 и о^ (двух
дисперсий генеральных совокупностей) и
Таким образом, в уравнении критической области
а) A3)
используется F-статистика с пх и п2 степенями свободы, и
неравенство A3) лежит в основе обычного метода выбора
/^(а) и F2(ol) для критической области
Браун [1] и Шеффе [1] показали, что A4) дает
несмещенный критерий для проверки гипотезы.
Бартлетт привел интуитивные доводы в пользу
применения Vx вместо Х1# Он рассуждает следующим образом. Если
Nx мало, то матрице Ах приписывается слишком большой
вес в Xv а другие эффекты могут оказаться неучтенными.
Если предположить, что
Bgz[g\ A5)
340 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ 10
где zT содержит kg компонент, и если оценивать матрицу В ,
определив
то здесь, очевидно, применяется формула A0) при п — Ng—kg.
10.3. Критерии проверки гипотезы
об эквивалентности нескольких нормальных
совокупностей
В § 8.8 рассматривалась проверка гипотезы о равенстве-
векторов среднего значения в предположении, что
ковариационные матрицы соответствующих генеральных
совокупностей равны, другими словами, мы проверяли гипотезу
#2: ji<i> = ji<2) _...== ц<?) ПрИ 2j == S2 = ... = 2^. A)
В § 10.2 производилась проверка справедливости
условия, входящего в //2. Рассмотрим теперь гипотезу о
равенстве одновременно средних значений и ковариаций. Эта
гипотеза представляет собой комбинацию Нг и Я2. Требуется
проверить гипотезу
Я :{!(!) = jiB)= ... ^цЧ 21==22== ... =2^ B)
Пусть, как и в § 10.2, х?* (а=1, ..., Ng) обозначает
наблюдение над совокупностью, распределенной N(\p№t Sp
(g = 1, .... q). Тогда Q представляет собой неограниченное
пространство параметров {ji^, Hg] (g=l, ..., q), где 2^.—
положительно определенная матрица и со* представляет
собой часть этого пространства, ограниченную условием B).
Функция правдоподобия определяется формулой C) § 10.2.
Гипотеза Нх § 10.2 состоит в том, что значение параметра
попадает в со; гипотеза Н2 § 8.8 состоит в том, что
значение параметра попадает в ю* при условии, что это значение
принадлежит (odw*; гипотеза Н этого параметра состоит
в том, что значение параметра попадает в со* при условии,
что это значение принадлежит 2.
В дальнейшем нам понадобится следующая лемма.
10 3] КРИТЕРИИ ДЛЯ ГИПОТЕЗЫ ОБ ЭКВИВАЛЕНТНОСТИ 341
Лемма 10.3.1 Пусть у — вектор наблюдений над
случайным вектором с плотностью вероятности f(z, в),
где в — вектор параметров в пространстве 2. Пусть
На — гипотеза 6?&flc:2; Нь — гипотеза b?QbczQa при
условии в ? Qa и НаЬ — гипотеза в ? Qb при условии 6 ? Q.
Если Ха, Хь и \аЬ — отношения правдоподобия для
проверки гипотез На> Нъ и НаЪ соответственно—однозначно
определяются значением вектора наблюдения у, то
Доказательство. Так как
max f(y% в)
max/Cv, в) '
max /(jf, в)
max /(у, в) '
max /(у, 6)
Q
шах/(у, в) '
то равенство C) очевидно.
Таким образом, отношение правдоподобия для проверки
гипотезы Н является произведением отношений
правдоподобия для проверки гипотез Нг и Н2
где
а
= А + 2 Ng (*{g) — *) (*{g) — х)'. (8)
Критическая область определяется уравнением
, (9)
где Х(а) выбирается таким образом, чтобы (9) выполнялось
342
ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ
[ГЛ 10
с вероятностью а при условии, что гипотеза И верна. Пусть
1
A0)
I
эта величина, очевидно, эквивалентна отношению
правдоподобия Xj для проверки гипотезы Н2. По-видимому, для
проверки гипотезы Н разумно пользоваться величиной
1
вместо X.
\В1
Тп
(П)
10.4. Моменты отношения правдоподобия
В этом разделе мы найдем смешанные моменты V{ и V2
при условии, что верна гипотеза Н. Отсюда определим
моменты Vx при условии, что верна гипотеза Hv и моменты V
при условии, что верна гипотеза Я. В § 8.8 показано, что,
когда ji^==Ji, то распределение %Ng(X{g)—X)(X{g) — X)'
совпадает с распределением матрицы 2 ^/^л где векто-
/-1
ры Y* независимы и одинаково распределены с законом
распределения N@, 2) независимо от Ag.
Выражение для смешанного момента Vx и V2 имеет вид
10.4J
МОМЕНТЫ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ
343
X
X
,, A)
что устанавливается с помощью рассуждений, приведенных
в §§ 8.4 и 9.3. Интегрирование по всем положительно
определенным Ag (if = l> ..•. q) можно рассматривать (при
соответствующей замене переменных) как интегрирование
по всем положительно определенным А при ^jjAg = A. При
интегрировании по *2jAg—A выражения JJ ге/(Л^|2, ng-\- hng)
g
по теореме 7.3.2 получится w(A \ S, n-\- hn). Таким образом,
1Г-1
к
к h
J ...J \
, я)
«fy,
_TT ^<(S,"g)
где MV* задается выражением (9) § 8.4 при qt = q — 1.
Подставляя
р-Д
344 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ
в B), получим
[ГЛ. 10
р
п
/ = 1
uI[h+t4+l-n] \*
X
C)
Момент Л-го порядка величины V\ при условии, что
верна гипотеза Н, получается по формуле C) при k = 0;
он равен моменту Л-го порядка величины Vl при условии,
что верна гипотеза Н{, так как распределение матрицы Ag
не зависит от ц^. Таким образом,
г [1
-о]'
X
X
D)
Для определения Л-го момента величины V следует
положить k = Л,
Л г[^
¦Л
i
X
X
E)
Так как 0<У1<1, 0<К2<1. 0<У<1, то моменты
однозначно определяют распределение. Таким образом, можно,
по крайней мере в принципе, определить V\ (a), V2 (а) и V (а).
Следует отметить, что эти распределения не содержат
нехороших параметров.
10.4] МОМЕНТЫ ОТНОШЕНИЯ ПРАВДОПОДОБИЯ 345
Из B) следует, что
MVM = MV?MKj. F)
Таким образом, Vx и V2 независимы. Следовательно, можно
использовать сначала Vx для проверки гипотезы Нх, а затем V2
для проверки гипотезы #2. Допустим, требуется проверить
гипотезу Н при уровне значимости а. Можно пользоваться
Vx и V2, выбирая Vx($) и V2(f) так, чтобы
A—P)(l_T)=l_at G)
то есть
-РТ = «- (8)
По-видимому, разумно предположить, что, выбрав р и f,
удовлетворяющие уравнению (8), можно выделить либо
ту часть гипотезы Н, где речь идет о равенстве средних
значений, либо ту ее часть, где речь идет о равенстве
ковариационных матриц. Однако трудно дать точную
формулировку этого положения, так как о мощности критерия
известно слишком мало.
Приведенные рассуждения обобщены в следующей теореме.
Теорема 10.4.1. Пусть Vx— определяемая фор-
мулой A0) § 10.2 величина для проверки гипотезы
Нх : 21!= ... =2^, где Ag—выборочная ковариационная
матрица, умноженная на ng, a ng-\- 1 — объем выборки
из g-й совокупности; пусть V2 — определяемая
формулой A0) § 10.3 величина для проверки гипотезы
Н2: yLx— ... ={i^ при условии, что гипотеза Нг верна,
причем B = A + ^Ng(JpCff)_ х)(xig) — ху. Когда гипотезы
g
Нг и #2 верны, Vx и V2 независимы. Момент h-го
порядка величины Vj при условии, что верна гипотеза Hv
определяется формулой D). Момент k-го порядка
произведения V = V<y2, величины для проверки одновременно
гипотез Нх и Н2, определяется формулой E).
Эта теорема впервые была доказана Уилксом [1].
Если р четно, например р — 2г, то можно применить
формулу удвоения для гамма-функции
346 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
Тогда
Г(/1, + Л/|,+ 1-2/I г (л+ 1-2/)
При помощи этих моментов можно выразить Уг и V2
в виде произведений случайных величин Xй A—X)bt где
все X независимы и имеют плотность вероятности типа р *)„
В принципе эти плотности можно проинтегрировать и
получить функцию распределения величин Vx и V. В § 10.6
будет рассмотрено распределение величины Vx при р = 2,
q = 2 (в случае /? = 1, # = 2 это распределение является
функцией /^-статистики). В остальных случаях интегралы
не вычисляются. В следующем параграфе для вычисления
плотностей вероятности применяются асимптотические
разложения. Бокс [1] получил другие приближенные
выражения для распределений.
10.5. Асимптотические разложения функций
распределения величин V, и У
Для получения асимптотических разложений функций
распределения Vx и V можно вновь воспользоваться
теоремой 8.6.1. Положим /&_ = &-/&, где 2&*г=1- Асимптотиче-
ское разложение получается при возрастании /г, когда
kv ..., kg остаются фиксированными. (Можно предположить
только, что \imng/n = kg> 0.)
Момент /г-го порядка величины
-тгрп
Ух И)
1) Уилкс [1J получил другие интегральные представления.
10.5]
равен
АСИМПТОТИЧЕСКИЕ РАЗЛОЖЕНИЯ
1 Л
347
Q Р
X
ПП
А р
р
1
/-1
- B)
Это выражение имеет такой же вид, как и формула A)
§ 8.6 при
5 (l /) ft /
Тогда
C)
/-I
D)
=1A— p)n, pft = i(l— p)«^=y(l—
,gp),
348
ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ
[ГЛ. 10
Для того чтобы второй член в разложении обратился
в нуль, выберем р в виде
Тогда
48р2
Следовательно,
). G)
i q -I
Пусть W = Vn2PnJ\tl 2 g' Момент Л-го порядка этой
^=i g
величины равен
Q Р
ТТ ТТ [±-п
Q
ту
П.
чу *-1
1
g)
Р
ГТг Г
11г
f = l
X
(8)
Здесь a, ft, A:ft, yy и ^ определяются по формуле C), но
vij = j(q — J). Находим f=j(q—l)p(p + 3). Для того
чтобы второй член в разложении обратился в нуль,
выбираем р таким образом, чтобы
P —
(9)
10 5]
Тогда
АСИМПТОТИЧЕСКИЕ РАЗЛОЖЕНИЯ
349
_(у J 1\2 B/>2-
п(р + 3)
— 2р2_ 6р — 4) • A0)
Асимптотическое разложение функции распределения
величины— 2p]nW имеет вид
S). A1)
Бокс [1] очень подробно рассмотрел случай
разложения Wv Кроме этого разложения, он применил формулу A3)
§ 8.6. Он получил также ^-приближение.
Рассмотрим пример, который приводят Э. Пирсон и
Уилкс [1]. Проделаны измерения прочности на
растяжение (Хг) и твердости (Х2) алюминиевых отливок.
Произведено по 12 наблюдений в каждой из пяти выборок.
Наблюдавшиеся значения квадратов и взаимных произведений в пяти
выборках представлены в таблицах
78,948 214,18 ^
214,18
223,695
657,62
57,448
190,63
187,618
1247,18
657,62
2519,31
190,63
1241,78
375,91
375,91 1473,44
88,456 259,18
259,18 1171,73
A2)
350 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
Сумма их равна
636>165 1697,52
1б97,52 7653
,52 \
,44;-
Отсюда величина —\nWx равна 5,399. Чтобы применить
асимптотическое разложение, находим р = 152/165 = 0,9212
и о>2 = 0,0018. Так как ш2 мало, можно считать, что —2p\nW
имеет х2-РаспРеДеление с 12 степенями 'свободы. Поэтому
наблюдаемое значение величины V оказывается незначимым,
10.6. Случай двух генеральных совокупностей
В случае двух генеральных совокупностей можно
получить некоторые результаты, которые не могут быть
получены в более общем случае. При р = 1 величины Vx и V2
равны:
1 1
v\ —
у (Я1 + Л2)
1
Отношения (п2/пг) AJA2 и (п1-\--п2)(В — Л)/А независимы
и распределены по законам Fnu % и F\fnx+ni соответственно.
При р = 2 можно получить в замкнутом виде выражение
для функции распределения величины Vv
Имеем
Г (/г, + /ш, — 1) Г (л2 + foia — 1) Г (Л1 + п2 — 1) _
n2)-\) —
я, —2)
1 1
0 0
10.6]
СЛУЧАЙ ДВУХ ГЕНЕРАЛЬНЫХ СОВОКУПНОСТЕЙ
351
Следовательно, распределение величины Vx совпадает с
распределением величины XIх (\ —Xif'XZ1*, где Хх и Х2
независимы и распределены по законам {}(*; пх—1, п2—1)
и р(дг; пх + щ — 2, 1) со-
ответственно. Таким
образом,
.r/y/W'**2-
Пусть а>^^—два корня уравнения х^(\ — лгЛ/12=г> (рис. 16).
Тогда выражение D) переходит в
?'A -Х0щ\, а<
Н-Р
X
/
О
1 («i-l, »з — 1)/ лс«.-2A _ JCi)"»rfjc, ==
Л1+Л2) y
«2-1).
E)
В общем случае полученный интеграл трудно вычислить.
352 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ 10
Если пх = п2 = т, то
9 Ь=^(\ + V1 — 4v1/«)=l — a.
Следовательно,
/в(да —1. m— 1)=1 — /*(да — 1. да—1)
и
P{V1<«}=2/e(m-l, да-
l)^"'17"" f xT\l — xi)~1dxl =
Э. Пирсон и Уилкс[1] получили это выражение в
другой форме.
При р > 2 интеграл становится еще более сложным.
Для более полного исследования величины Vx ее следует
выразить через корни характеристического уравнения. Имеем
I 1
1л,Г|Дг| =-пге7|ттA+е^(>"+Лг>, G)
где б^бз^ ... ^6^ — корни уравнения
1^-64,1=0. (8)
Это следует из того, что (8) можно переписать в виде
[Л^1 —е/| = 0 или \AiA2X + I— A Н-в)/| = О,
следовательно, ne/ = l^iV| и ПA + 9/) = 1>4И2 + /|.
Очевидно, что Vx и со для гипотезы Нх инвариантны
относительно невырожденных преобразований
К==САГ4-7. (9)
Можно выбрать С так, чтобы
CS2C /, }
). У"'') = 625^ = 1. I U }
10.7] ПРОВЕРКА ГИПОТЕЗЫ О ПРОПОРЦИОНАЛЬНОСТИ 353
где А — диагональная матрица, диагональные элементы
которой Х1^.Х2^> ... ^>Х являются корнями уравнения
I v 1V I Г\ (\ 1Ч
| ^1 — ^^2 I == ' '
Таким образом, функция распределения величины Vx при
условии, что гипотеза Нх не верна, зависит только от р
параметров Xj, .. ., Хр. (Заметим, что средние значения не
влияют на Ах и А2)
Гипотеза Нх состоит в том, что \х = ... =Хр=1.
Величина Vx является в некотором роде мерой близости 0^
к пх1п2. Любая другая мера близости bt к пх/п2 — также
способ проверки гипотезы Ht. Например, другой способ
проверки гипотезы основан на том, что 0i !> 0?, 0р <; 0р
(предложено Роен [17]). Любой способ проверки гипотезы,
основанный на значениях 0, инвариантен относительно
преобразований, оставляющих гипотезу инвариантной.
При q = 2
A2)
Применяя преобразование (9), находим, что функция
распределения величины V при условии, что гипотеза Н не
верна, зависит от Хх, ..., \р и C(\^l) — H»B)Y Если некоторые
из корней X; равны между собой, то число ненулевых
элементов матриц C(jiA)—fi/2>) можно сделать меньшим р.
10.7. Проверка гипотезы о том, что ковариационная
матрица пропорциональна заданной матрице.
Критерий сферичности
ЮЛ.К Гипотеза, В одномерном статистическом анализе
часто делается предположение о том, что совокупность
случайных величин является независимой и дисперсии этих
величин равны. В этом параграфе рассматривается проверка
этих предположений, основанная на множествах
повторяющихся наблюдений.
12 Т. Андерсон
354 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
Точнее говоря, для проверки гипотезы И : 2 = о2/, где о2
не задана, используется выборка из /7-мерных векторов
xv ..., xN, взятых из совокупности N(ji, 2). Можно дать
алгебраическую интерпретацию этой гипотезы в терминах
характеристических корней матрицы 2, т. е. корней уравнения
|2-<р/|=0. A)
Гипотеза верна в том и только в том случае, если все корни
уравнения A) равны между собой1). Это можно получить
и в силу того, что среднее арифметическое корней <р1э ..., срр
равно их среднему геометрическому, т. е.
Квадраты длин главных осей эллипсоидов постоянной
плотности пропорциональны корням ср/ (см. главу 11); гипотеза
устанавливает, что они равны между собой, т. е. что
эллипсоиды являются сферами.
Проверка гипотезы Н эквивалентна проверке более общей
гипотезы ЧГ = а2ЧГ0, где ЧГ0 задана и известны векторы
наблюдений yv ..., yN над совокупностью N(v, W). Пусть
С—матрица такая, что
CW0C' = I, C)
и пусть {1* == Cv, S* = CWC, х*а = Суа. Тогда x*v ..., д:^—
наблюдения над совокупностью N({1*, 2*), и гипотеза
преобразуется в Н: 2* = о2/.
10.7.2. Отношение правдоподобия. Гипотеза Н в
канонической форме представляет собой комбинацию гипотезы Нх:
2 — диагональная матрица (составляющие вектора X
независимы), и Я2: диагональные элементы матрицы 2 равны между
собой при условии, что матрица 2 диагональная (дисперсии
составляющих вектора X равны между собой при условии,
что эти составляющие независимы). Таким образом, по
лемме 10.3.1 отношение правдоподобия X для гипотезы Н
является произведением отношений правдоподобия \х и Х2
1) Это следует из того, что 2 = О'ФО, где Ф — диагональная
матрица, диагональными элементами которой являются корни
уравнения A), а О — ортогональная матрица.
10.7] ПРОВЕРКА ГИПОТЕЗЫ О ПРОПОРЦИОНАЛЬНОСТИ 355
для гипотез Нх и Н2 соответственно. В § 9,2 было показано,
что отношение правдоподобия для гипотезы Нх имеет вид
D)
4
П4
где
N
А = S (*. —
и /У
гиаи/Уаиа„.
Для вычисления Xg можно использовать результаты § 10.2,
если рассматривать /-ю компоненту вектора ха или а-е
наблюдение над 1-й совокупностью (величинам р% N, pN из
этого параграфа соответствуют величины qt N^ N из § 10.2),
Таким образом,
• (О)
PN
Поэтому отношение правдоподобия для гипотезы Н равно
G)
!
77 P^V
(sP4//;J
Заметим, что формула для X имеет сходства с выражением B).
Если 6lt .. •, 6р — корни уравнения
|А-9/|=0, (8)
то отношение правдоподобия является некоторой степенью
отношения среднего геометрического к среднему
арифметическому:
Вернемся к гипотезе W = o2W0 при известных векторах
наблюдения у1% .•., yN над совокупностью A^(v, ЧГ). В пре-.
12*
356 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ГГЛ 10
образованных переменных {**} отношение правдоподобия
L п/у -pN
имеет вид \А*\2 (spA*/p) 2 , где
S
а=1
где
A0)
в'=?Ц(ул—у)(у.—уУ. (И)
а = 1
Из уравнения C) имеем W0 = C~l (С)'1 = (СС)~\ Таким
образом,
spA =sp CBC = sp ВС C=spB Wo . A2)
Изложенные результаты можно сформулировать следующим
образом.
Теорема 10.7.1. Если задано множество р-мерных
векторов наблюдений yv ..., yN над совокупностью
Af(v, Ф), то отношение правдоподобия для гипотезы
Н: W = o24F0, где Wo задана, а о2 не задана, имеет вид
A3)
..¦«¦"•
М о ч л и [2] получил это отношение правдоподобия и его
моменты при условии, что справедлива нулевая гипотеза.
Можно рассматривать spBWol/(pN)nnu spBWo1/[p(N—l)\
в качестве оценки величины с2 (Хоте л л инг [8]). Из
предыдущего следует, что sp BWq1 имеет ^-распределение
с p(N—1) степенями свободы,
10.7.3. Моменты отношения правдоподобия. Для того
чтобы вычислить распределение величины X, найдем моменты
этой величины. Как было отмечено в § 7.6, распределение
коэффициентов корреляции [rtj] не зависит от дисперсий {au/(N—1)},
если матрица 2! является диагональной. Поскольку \х зависит
только от {гу}, a Xg зависит только от {««}•• то .эти величины
10.7] ПРОВЕРКА ГИПОТЕЗЫ О ПРОПОРЦИОНАЛЬНОСТИ 357
независимы при условии, что справедлива нулевая гипотеза, и
следовательно, MXr =
A4)
Обозначим W =
В § 9.3 показано, что
Г (l« + )M [(+о]
W можно
где1) n = N—1. Момент /г-го порядка величины W2
найти по формуле из § 10.4, подставив вместо р, ng и q
величины 1, п и р соответственно; тогда
Таким образом,
г (ъп
Отсюда следует, что
Из рассмотрения этих моментов можно видеть, что W
можно выразить в виде произведения рр на многочлен от
независимых случайных величин, имеющих ^-распределение,
так как в таком виде можно представить W} и W2. При
р = 2 получается особенно простой случай, потому что,
применяя формулу удвоения для гамма-функций, получим
Г(л)Г(л-1+2Д)
A7Х
]) Если среднее значение, вектора A« является регрессией щ
то п есть число степеней свободы матрицы Л.
358 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ГГЛ. ТО
Таким образом, W имеет такое же распределение, как Z2,
где плотность вероятности величины Z равна (п—l)zn~2,
а плотность вероятности величины W равна у (я— \)w2 n .
Функция распределения величины W имеет вид
Этот результат также может быть получен из совместной
плотности вероятности 8Х и 62 — корней уравнения (8).
10.7.4. Асимптотическое разложение функции
распределения. Из формулы A6) следует, что r-й момент вели-
чины W2 s=sZ имеет вид
A9)
Эта формула похожа по форме на формулу A) § 8.6 при
а = р, xk = ^nt 5Л=2"A—*), ftssl, ...,/?, b—\9
уг =s ъ пр, 7|i= 0- Таким образом, разложение из § 8.6
остается справедливым при /авуР(р+0—1- Для того
чтобы второй член в разложении обратился в нуль, следует
выбрать р так, чтобы
Тогда
Таким образом, функция распределения величины W
находится по следующей формуле:
Р (—2р In Z < z] — Р {— яр In W < г) =
) (*-»). B2)
10 8] РАВЕНСТВО КОВАРИАЦИОННОЙ И ДАННОЙ МАТРИЦ 359
10.7.5. Доверительные области. Если даны наблюдения
Л» •••• 3>n наД совокупностью N(v, W), то можно
проверить гипотезу Чг = о2Чр0 при любой заданной ЧГ0. По
определенной таким образом совокупности критериев можно
построить доверительную область для ЧГ. Если некоторая
матрица находится в доверительной области, то все
матрицы, отличающиеся от нее только множителями, также
находятся в этой области. Доверительная область такого
вида представляет интерес, если все составляющие вектора уа
измеряются в одних и тех же единицах, а исследователь
хочет, чтобы эта область не зависела от единицы измерения.
Доверительная область с коэффициентом доверия 1 — е
содержит все матрицы ЧГ*, удовлетворяющие неравенству
где Х(е) — уровень значимости е для этого отношения
правдоподобия.
Рассмотрим случай р = 2. Если выбор единицы
измерения несуществен, то исследователю интересно получить
т = фп/<]>22 и Р = ф12/Угфцф22- в этом случае
пг-1— 1 ( Фи —
~PV4 B4,
Неравенство для области, выраженное через тир, имеет вид
2
Хикмен [1] построил пример такой доверительной
области.
10.8. Проверка гипотезы о том, что ковариационная
матрица равна данной матрице
Если вектор Y распределен W(v, ЧГ), то мы хотим
проверить гипотезу Нх о том, что W = WOi где Wo —
положительно определенная матрица. Используя рассуждения
предыдущего параграфа, можно установить, что это эквивалентно
360 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ . [ГЛ. 10
проверке гипотезы Нх: 2 = /, где 2 — ковариационная
матрица вектора Х% распределенного N(ji, 2). Отношение
правдоподобия при заданной выборке xv ..., XN равно
max L (ji, /)
1 _ V /14
S) ' K J
где функция правдоподобия равна
* * -1 лг "^ S (*« - «*>'S ^ - **>
L(|i. S) = Btu)^/7 |S| 2 ^ a . B)
Из результатов, полученных в главе 3, следует, что
„1 v -у 2 <*«—*>' (*« — *)
^2 й
где
a
Выраженное через корни уравнения
\А — в/| = 0 E)
отношение правдоподобия имеет вид
П
Используя алгебраические выкладки предыдущего
параграфа, можно доказать следующую теорему.
Теорема 10.8.1. Если заданы р-мерные векторы
наблюдений yv ..., yN над совокупностью W(v, ЧГ), то
отношение правдоподобия для проверки гипотезы
Иг: ЧР = 4F0, г^^ Wo задана, имеет вид
10 8] РАВЕНСТВО КОВАРИАЦИОННОЙ И ДАННОЙ МАТРИЦ 361
Это отношение правдоподобия является функцией суммы
и произведения корней. Это интуитивно ясно, так как
гипотезу можно сформулировать по-другому, как утверждение
о том, что сумма характеристических корней матрицы 2
равна р> а их произведение равно единице.
Определим теперь моменты /г-го порядка отношения
правдоподобия при условии, что справедливы нулевая и
конкурирующая гипотезы. Пусть WB, n) — закон распределения
матрицы Л, где n = N — 1. Мы хотим найти
A
' i i
f ... f Wme~hspAw(A\^ n)dA. (9)
Так как
±(n+Nh-p-l) —
\A\*e 2
T PNh
22
X
х^±М]1
Х*>(Л\B~1+М) .л + Nh), A0)
362 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
то момент h-ro порядка величины \х равен
тгЛТг ,
mxM?F г - ^. do
Можно показать, что характеристическая функция величины
—2 In Xj имеет вид
|/-2«S|2 ' l
При условии, что справедлива нулевая гипотеза, S = / и
-ш in х, _
^^^^Т^Л-Н, (,3)
Эта характеристическая функция представляет собой
произведение р членов вида
Таким образом, распределение величины —21п Хх такое же,
как распределение суммы р независимых случайных величин,
причем характеристическая функция у-й случайной величины
определяется формулой A4). Применяя формулу Стирлинга
10.91 ГИПОТЕЗА О ВЕКТОРЕ СРЕДНЕГО ЗНАЧЕНИЯ 363
для гамма-функции и полагая n = N—1, получим
X
е
х —
UN A — 2it))
При Л^-> оо <р/ @ -> A — 2Л) • характеристической
функции распределения Ху# х2"РаспРеделения с / степенями
свободы. Таким образом, распределение величины —21пХ1
р
асимптотически стремится к распределению 2 Ху» что есть
^-распределение с 2~,j = п-/?(/?Н- 1) степенями свободы.
10.9. Проверка гипотезы о том, что вектор
среднего значения и ковариационная матрица
соответственно равны данному вектору
и данной матрице
В главе 3 указывалось, что если W известна, то для про»
верки гипотезы
//2:v = v0 при 4f^% A)
можно применять (у — vo/ Щ1 (у — Vo).
Пусть гипотеза Нх из § 10.8 комбинируется с гипотезой Н2
и проверяется гипотеза
//:v = v0, *P = W0, B)
на основе выборки yv ,.., yN из совокупности N(y9 W).
364 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
Пусть
- Vq). C)
где
CW0C' = l. D)
Тогда xl% ..., xN образуют выборку из совокупности N(ji, 2)
и гипотеза состоит в следующем:
Отношение правдоподобия для гипотезы Н2: Ji = 0 при
условии, что 2 = /, равно
Х2 = в~'2"УУлгЛГ. F)
Отношение правдоподобия для гипотезы Н равно (по лемме
10.3.1)
11 1 — ,—
Л| 2 л 2 л 2 ——
1 _ Л, 1 «, 1
Множители Xt и Хз независимы, так как Xj есть функция от А
и X.J есть функция от х, а А и д; независимы. Так как
Ш2 = Ме"^ AVVS *? = Ме"^ wp = A + А)" «¦р. (8)
то момент А-го порядка величины X равен
мх" = мх? мх? =
при условии, что справедлива нулевая гипотеза. Очевидно,
распределение величины
— 2 In X = — 2 In \ — 2 In X2 A0)
асимптотически стремится к ^-распределению с
степенями свободы-.
ЗАДАЧИ 365
Возвратимся к векторам наблюдений yv ..., yN. Тогда
2 *Л = 2 (л - vo)' cco>. - v0) =
а а
= 2 (У. — vo/ Vo ' (Л — v0) = sp A H- W*'* =
Vo/W1^ —v0) A1)
\. A2)
Теорема 10.9.1. Если даны р- мерные векторы
наблюдения yv ...*Ум над совокупностью N(v, W),
то отношение правдоподобия для проверки гипотезы
Н: v = v0, 4r = W0, имеет вид
X = (±
Распределение величины —2 In X асимптотически
стремится к -/^-распределению с -^ р(р+1)+р степенями
свободы при условии, что справедлива нулевая гипотеза.
ЛИТЕРАТУРА
§ 10.2—10.6. Бартлетт [3]; Бишоп [1]; Бокс [1J; Браун
[11; Нзйр [1]; Пи л лей [1]; Э. ПирсониУилкс [1]; Плэ-
кетт [1]; С. Рой A5], [17]; Уилкс [1]; Шеффе [1].
§ 10.7. Г и р ш и к [4]; И м [1]; М о ч л и [1], [2]; X и к м е н [1];
Хотеллинг [8].
ЗАДАЧИ
1. (§ 10.2) Суммы квадратов и суммы взаимных произведений
отклонений от средних значений четырех измерений приведены
в таблице (см. § 5.3). Совокупности представляют собой Iris versi-
color A), Iris setosa B), и Iris virginica C); каждая выборка состоит
из 50 наблюдений:
13,0552 4,1740 8,9620 2,7332 \
4,1740 4,8250 4,0500 2,0190 \
1~~\ 8,9620 4,0500 10,8200 3,5820 Г
2,7332 2,0190 3,5820 1,9162/
366 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ (ГЛ. 10
/6,0882 4,8616 0,8014 0,5062 \
/ 4,8616 7,0408 0,5732 0,4556 \
2=Х\ 0,8014 0,5732 1,4778 0,2974 Г
\ 0,5062 0,4556 0,2974 0,5442/
19,8128 4,5944 14,8612 2,4056 \
4,5944 5,0962 3,4976 2,3338 \
8"~1 14,8612 3,4976 14,9248 2,3924 Г
2,4056 2,3338 2,3924 3,6962/
а) Проверить гипотезу 2, = 22, положив уровень значимости
равным 5%
б) Проверить гипотезу 2t = 22 » 28, положив уровень
значимости равным 5%.
2. (§ 10.2) Пусть x^g) (а= 1, .,., N) — наблюдения над
совокупностью N (p.ig\ 2g.), g =я 1,2,3 (порядок матрицы 2^ равен р).
Вычислить отношение правдоподобия для проверки гипотезы 2! = 22;
вычислить отношение правдоподобия для проверки гипотезы о том, что 23
равна 2] и 22, в предположении, что 2] = 22; проверить, что эти
отношения правдоподобия статистически независимы при 2! =22=23.
3. (§ 10.2) (а) Пусть Y^g) (^=1,..., q) — множество
случайных р-мерных векторов. Предположим, что
мк(^ = о,
Пусть С — ортогональная матрица порядка qXq такая, что элементы
последней строки равны
Определим
Показать, что
в том и только в том случае, если
(б) Пусть Х^ (а = 1,..., Л^) — случайная выборка из
совокупности N(^g\ lg) (^= 1, ,¦.,#). Использовать результат задачи (а)
для построения критерия проверки гипотезы
И: 2, = , # e a 2^,
основываясь на проверке гипотезы о независимости Z^ и
множества Z^\ ..., Z^"]). Найти точное распределение отношения
правдоподобия в случае р «= 2.
ЗАДАЧИ 367
4. (§ 10.2) Показать, что гипотезы Я, и Н2 инвариантны
относительно преобразований Х^8) = CX{g) + с. Проверить, что
величины V, и V2 инвариантны относительно преобразований ^
5. (§ 10.4) Выразить Vx и V2 как произведение величин
Xй A — Х)ь, где величины X независимы и имеют плотность
вероятности р.
6. (§ 10.6) Пусть j^v) х$ — наблюдения над совокупностью
N (p/v)» 2V) (v = 1, 2), и Пусть i4v = 2 (¦*?* — -*^) {*№ — Х^У •
(а) Доказать, что проверка гипотезы //: 2j = 22 по критерию
отношения правдоподобия эквивалентна правилу, по которому
гипотеза Н отвергается, если
1 = : -
(б) Пусть d\y d% ..., d2p — корни уравнения |Sj— XS2|=0, и
пусть
^ 0 0 ...dp*
Показать, что Т имеет такое же распределение, как
где В{ распределена по закону W (D2, N— 1) и В2 распределена по
закону W (I,N— 1). Показать, что 71 имеет такое же распределение, как
| DC{D | \С2 I/I DCXD+C212, где Ct распределены по закону W (/, N— 1).
7. (§ 10.7) Рассмотрим проверку гипотезы о том, что S = а2/,
где о2 не задано.
(а) Какая группа преобразований вектора оставляет инвариантной
нулевую гипотезу и оставляет инвариантной множество
конкурирующих гипотез? Построить наибольшую группу таких преобразований.
(б) Функция мощности критерия такой проверки зависит от
некоторых функций ji и S. Определить наименьшее число таких
функций.
8. (§ 10.7) Найти распределение величины W при р = 2
при условии, что справедлива нулевая гипотеза, (а) пользуясь
непосредственно распределением матрицы А и (б) пользуясь
распределением характеристических корней (глава 13),
9. (§ 10.7) Пусть jcr ..., xN — выборка из совокупности N(ji, 2).
Чему равно отношение правдоподобия для проверки гипотезы
ji = &n0, S = ?220, где |х0 и 20 заданы, a k не задана?
10. (§ 10.7) Пусть х^\ ..., л^| —выборка из совокупности
N (рР\ 2j), а х^\ ..., xffl — выборка из совокупности
Чему равно отношение правдоподобия для проверки гипотезы
368 ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ [ГЛ. 10
о том, что 2! = Л222, где k не задана? Чему равно отношение
правдоподобия для проверки гипотезы о том, что у.М = k^2)
и 2! = ?222 при условии, что k не задана?
11. (§ 10.7) Пусть р-мерные векторы ха (а = 1, ..., N) —
наблюдения над совокупностью N(y.t 2). Определим следующие
гипотезы:
Я: li = 0, 2
Я2:!1 = 0 при 2 =
Во всех случаях k2 не задана, а 20 задана. Найти отношение
правдоподобия \2 Для проверки гипотезы Н2. Найти асимптотическое
распределение вдличины —21пХ2 при условии, что справедлива
гипотеза Я2. Построить точное распределение подходящей
монотонной функции \2 ПРИ условии, что справедлива гипотеза Я2.
12. (§ 10.7) Найти отношение правдоподобия X для проверки
гипотезы Я задачи 11 (л^, ..., д:^ заданы). Каково асимптотическое
распределение величины —2!пХ при условии, что справедлива
гипотеза Я.
13. (§ 10.7) Показать, что А. = кх\2, где X определена в задаче 12,
Х2 определена в задаче 11, a A.j—отношение правдоподобия для
проверки гипотезы Н{ в задаче 11. Являются ли величины \х и Х2
независимыми, если справедлива гипотеза Я? Дать обоснование.
14. (§ 10.7) Проверить, что врЯЧ^1 имеет х2"РаспРеДеление
с p(N—\) степенями свободы.
ГЛАВА И
ГЛАВНЫЕ КОМПОНЕНТЫ
11.1. Введение
Главные компоненты — это линейные комбинации
случайных (или статистических) величин, характеризующиеся тем,
что их дисперсии обладают особыми свойствами. Например,
первой главной компонентой называется нормированная
линейная комбинация (т. е. сумма квадратов коэффициентов
равна единице) с наибольшей дисперсией. По существу
преобразование от исходной векторной величины к вектору
главных компонент сводится к повороту координатных осей,
такому, что новая координатная система имеет характерные
статистические свойства. Следует отметить, что во многих
рассмотренных ранее задачах выбор координатной системы,
в противоположность данному случаю, не имел никакого
значения.
Оказывается, что главные компоненты являются
характеристическими векторами ковариационной матрицы. Таким
образом, для изучения главных компонент достаточно
представить в терминах статистических величин обычные
выражения для характеристических корней и векторов
неотрицательно определенных матриц.
С точки зрения статистической теории множество
главных компонент представляет собой удобную систему
координат, и соответствующие дисперсии компонент характеризуют
их статистические свойства. Статистики применяют на
практике метод главных компонент для нахождения линейных
комбинаций величин с большими дисперсиями. Во многих
исследовательских работах число рассматриваемых
случайных величин, которые требуется обработать, слишком
велико. Поскольку в таких работах интерес представляют
370 ГЛАВНЫЕ КОМПОНЕНТЫ [ГЛ. 1!
именно отклонения, применяемый метод сокращения числа
случайных величин состоит в том, что линейные
комбинации, имеющие малые дисперсии, отбрасываются, а
рассматриваются лишь линейные комбинации с большими
дисперсиями. Например, антрополЬг-физиономист может проделать
десятки измерений, таких, как длина уха, ширина уха, длина
лица, ширина лица и т. д. у большого числа индивидуумов.
Его может интересовать описание и анализ различий
индивидуумов по такого рода физиологическим характеристикам.
Возможно, он захочет «объяснить» эти различия, но вначале
он хотел, бы знать, какие измерения или комбинации
измерений дают значительные отклонения; другими словами, что
следует изучать дальше. Главные компоненты представляют
собой новое множество измерений, полученных в результате
линейной комбинации исходных измерений. Может оказаться,
что различия между индивидуумами сводятся к трем
линейным комбинациям. Тогда антрополог может обратиться к
изучению этих трех величин. Другие линейные комбинации так
мало изменяются от одного человека к другому, что
изучение их дает мало новых знаний о различиях между
индивидуумами.
Хотеллинг, который разработал многие из этих идей,
достаточно подробно изложил их [2].
11.2. Определение главных компонент совокупности
Пусть р-мерный случайный вектор X имеет
ковариационную матрицу 2. Поскольку в этой главе нас будут
интересовать только дисперсии и ковариации, будем считать, что
вектор среднего значения равен 0. Более того, для
приводимых здесь понятий и алгебраических выкладок из всех
характеристик распределения X существенное значение имеет
только ковариационная матрица; однако если вектор X
распределен нормально, то главные компоненты могут иметь
большое значение.
В последующем изложении не будут использоваться
результаты обычной теории характеристических корней и
векторов; эти результаты всякий раз будут выводиться. Будут
рассмотрены случаи, когда 2 — вырожденная матрица (т. е.
неотрицательно определенная) и когда 2 имеет кратные корни.
Пусть р— //-мерный вектор-столбец такой, что Р'Р=1.
11.2] ОПРЕДЕЛЕНИЕ ГЛАВНЫХ КОМПОНЕНТ СОВОКУПНОСТИ 371
Дисперсия р'А равна
М ф'ХJ в мр'ЛНГр = Р'2р. A)
Для того чтобы определить нормированную линейную
комбинацию $'Х, имеющую максимальную дисперсию, требуется
найти вектор р, удовлетворяющий условию Р'Р = 1 и
дающий максимум выражения A). Пусть
-1). B)
где X— множитель Лагранжа. Вектор частных производных
(dy/dfo) равен
|L = 22p-2Xp C)
(по теореме 8 приложения 1). Так как C'2р и Р'Р имеют про*
изводиые всюду в области, содержащей C'Р а 1, то вектор р,
при котором {3'2? достигает максимума, должен обращать
в 0 выражение C), т. е.
B-Х/)Р = О. D)
Для того чтобы существовало решение уравнения D) при
условии Р'Р = 1, матрица 2 — X/ должна быть вырожденной;
другими словами, X должна удовлетворять уравнению
|2-Х/| = 0. E)
Функция 12 — Х/| является многочленом от X степени р.
Следовательно, уравнение E) имеет р корней; пусть это
будут Хх ]> Хз ;> ... ^ Хр. Умножая D) слева на Р', получим
Х. F)
Отсюда следует, что если р удовлетворяет уравнению D)
(и p^ssl), то дисперсия $'Х [определяемая по формуле A)]
равна X. Таким образом, чтобы получить максимальную
дисперсию, следует подставить в D) наибольший корень Х1#
Пусть рA) — нормированное решение уравнения B—Xj/) 3=0;
тогда Ux = РA) X является нормированной линейной
комбинацией, имеющей максимальную дисперсию. (Если ранг матрицы
2 —Xj/ равен />— 1, то решение уравнений B—X^JJ^O
и g'P = 1 единственно.)
372 ГЛАВНЫЕ КОМПОНЕНТЫ [ГЛ. 1!"
Определим теперь нормированную комбинацию ф'Х,
которая имеет максимальную дисперсию среди всех линейных
комбинаций, некоррелированных с Uv В силу
некоррелированности
О = Mp'AT/j = мр'ЛОГ'р™ = p'2ipA) = \$'f\ G)
так как Ер^^Х^1*. Таким образом, вектор $'Х
ортогонален к U и в статистическом смысле (некоррелированность),
и в геометрическом смысле (скалярное произведение р и р*1*
равно нулю). (То есть XjP рA) = 0 только в том случае, если
р'р(П = 0 при X, Ф 0 и \ Ф 0, если S ф 0; случай 2 = 0,
очевидно, тривиален и потому не рассматривается.) Теперь
мы хотим найти максимум
% = р'2? — Х(р'р— l)-2v/sf >, (8)
где X и Vj — множители Лагранжа. Вектор частных
производных будет
^ 2Xp-2v1SpA), (9)
и мы полагаем его равным 0. Из (9) умножением слева на рA)
в силу G) получим
0 = 2РA)'2$ — 2ХрA)'р — 2vipA)'spA) = — 2v1X1. A0)
Следовательно, v1 = 0 и р должен удовлетворять D), и
поэтому X должно удовлетворять выражению E). Пусть
Х{2) — наибольшее из чисел \v •.., \р такое, что существует
вектор р, удовлетворяющий уравнениям (S — ХB)/)Р = О,
р;р = 1 и G). Обозначим этот вектор рB), а соответствующую
линейную комбинацию U2 = рB) X. (Ниже будет показано,
что ХB) = Х2. Мы применяем обозначение X(i) = X1.)
Продолжим этот процесс; на (г-(- 1) шаге требуется найти
вектор р такой, что $'Х имеет максимальную дисперсию
среди всех линейных комбинаций, некоррелированных
с Uv ..., t/r, т. е. такой, что
0 = Мр'АГ(У? = У$ХХ'$1) = ?'2р(/) = X(/)p'p(/)t A1)
/=1 г.
11.2] ОПРЕДЕЛЕНИЕ ГЛАВНЫХ КОМПОНЕНТ СОВОКУПНОСТИ 373
Мы хотим получить максимум выражения
= P'Sp — Х(р'Р— О — 2 ^ v^p'sp^. A2)
где X и Vj, ,.., vr—множители Лагранжа. Вектор частных
производных равен
%tl_ e 2S§ - 2X0 - 2 У v^f \ A3)
и мы полагаем его равным 0. Умножая A3) слева на р(;) •
получим
0 = 2p(y)'sp — 2\6(/)Гр — 2v//)'sp(/). A4)
Если ХщфО, то из A4) следует —2^X^ = 0 и Vy = O.
Если Х(у) = 0, то 25<^> = Х(у)р<^> = 0 и у-й член в сумме A3)
обращается в нуль. Таким образом, вектор fl должен
удовлетворять уравнению D) и, следовательно, X должно
удовлетворять уравнению E).
Пусть Х(г+1) — наибольшее из чисел \v • .., Хр такое,
что существует вектор C, удовлетворяющий уравнениям
B —Х(г+1)/)Р = О, Р'Р = 1 и A1). Обозначим этот
вектор р(г' 1\ и соответствующая линейная комбинация будет
Если Х(г+1) = 0 и Х(Л = 0 (у^г+1). то
из p<'>'sp(r+1) = O не следует fyf+l) = 0. Однако p
можно заменить на линейную комбинацию |з(г+1) и тех
векторов J3^\ для которых Х(^ = 0, так что новый
вектор §(г+1) будет ортогонален всем векторам frJ) (У = 1 г).
Этот процесс продолжается до тех пор, пока на w-f-1-м
этапе не будет найден вектор C, удовлетворяющий уравнениям
р'Р=1, D) и (И). При этом либо т = р, либо w < р,
так как рA), .... ^т) должны быть линейно независимыми.
Покажем, что неравенство т < р приводит к
противоречию. Если т < р, то существуют р — т векторов
em+v ..., epi таких, что р(/)'^; = 0, ^; = 8/у. (Это следует
из леммы 2 приложения 1.) Пусть (em+v ..., ер) = Е.
Покажем теперь, что существуют (р — /я)-мерный вектор с
и число 6 такие, что Ec=^^ciel является решением
374
ГЛАВНЫЕ КОМПОНЕНТЫ
(ГЛ. II
уравнения D) при к = 0. Рассмотрим корень уравнения
\Е'%Е — б/| = 0 и соответствующий вектор с%
удовлетворяющий уравнению Е'ЪЕс = Ьс. Вектор 1*Ес ортогонален к
Г. ... iim) (так как р(<) Мс^Х^^с^^с,?»*,«0)
и, следовательно, принадлежит пространству с базисными
векторами em+v .... ер; он может быть записан в виде Eg
(где g является (р — т)-мерным вектором). Умножив
%Ec = Eg слева на Е\ получим E'TLEc — E'E^^g. Таким
образом, g = 6с и S (Ее) == 6 (?*:). Следовательно» вектор
(Ее)' X некоррелирован с ^)/X(J=slb .¦,, т) и поэтому
получается новый вектор р(ш+1). Поскольку это противоречит
предположению т < р, то должно быть /и = р.
Пусть В = (Р"> р>) и
A5)
Уравнения SE(r) =
виде как
можно записать в матричном
= BAf A6)
и уравнения g<r)'p(r) s 1 и p(r>'g(s) s= 0, г Ф s% можно записать
в виде
Из A6) и A7) получаем
В'2В = А.
Из того обстоятельства, что
|2 — Х/| = |В'1Ч2 — Х/|
A8)
|
= | BrSB — ХВ'В | == | А — Х/| = JJ (Х{/) — X), A9)
следует, что корни уравнения A9) являются диагональными
элементами матрицы А, т. е.
Таким образом доказана следующая теорема*
11.2] ОПРЕДЕЛЕНИЕ ГЛАВНЫХ КОМПОНЕНТ СОВОКУПНОСТИ 375
Теорема 11.2.1. Пусть дан случайный р-мерный
вектор X, для которого МХ=0 и МХХ' = 2. Тогда
существует ортогональное линейное преобразование
U = WX B0)
такое, что ковариационная матрица U будет
= А и
0 ... 0
А = | v X2 ••• ° |, B1)
0 0 ... X,
где \^\^ ¦.. ^Ьр^О—корни уравнения E); r-й
столбец матрицы В, ^г\ удовлетворяет уравнению
B — Хг/) р = 0; r-я компонента вектора U, Ur = ^(г) X,
имеет наибольшую дисперсию среди всех нормированных
линейных комбинаций, некоррелированных с Uv ..., UT_V
Вектор U определяется как вектор главных компонент X.
Следует отметить, что теорема 2 приложения 1 доказана
для неотрицательно определенных В, а в действительности
доказательство ее справедливо для любых симметрических
матриц В. Следует отметить, что как только произведено
преобразование к Uv ..., Up, становится очевидным, что
Ux — это нормированная линейная комбинация с наибольшей
дисперсией, так как если U* = ^ici(Ji, где 2е] — 1 (^* также
является нормированной линейной комбинацией X), то
р
щи*)=2Ф,=\+2 4(х/-\) (так как с? =1 -
а это выражение, очевидно, достигает максимума При
с2. = 0, / = 2 /?. Аналогично, ?/2 представляет собой
нормированную линейную комбинацию, некоррелированную
с Ux и имеющую наибольшую дисперсию (из того, что
U* = ^ciUl некоррелировайа с Uv следует сг = 0); таким же
образом проверяются свойства максимума для ?/3» .... Up.
Можно получить также другие следствия.
Следствие 11.2.1. Предположим, что Хг+1=...
• .. =Xr+m = v (т. е. V —корень кратности т)\ тогда
ранг матрицы B — v/) равен р — т. Более того,
376 ГЛАВНЫЕ КОМПОНЕНТЫ [ГЛ. 11
В* = (C(г[1), ..., p(r+m)) однозначно определяется с
точностью до умножения справа на ортогональную матрицу.
Доказательство. Из доказательства теоремы
следует, что (S—v/)P<'>=0, / = r+l, .... r + w, т. е.
C(г+1), ..., j3(r+m) — гп линейно независимых решений
уравнения B — v/) p = 0. Для того чтобы показать, что не может
быть другого линейно независимого решения этого урав-
р
нения, возьмем 2 х$*\ гДе *i — скаляры. Если это
/ i
решение, то v2*,P(/) = 2B*/Р(/)) = 2/? 2ЛР
Так как vjtj == Х^лг/Э то должно быть хь — 0 для всех /,
кроме / = г —}— 1 r-f-/ra. Таким образом, ранг равен
jo — т.
Если В* — какое-нибудь множество решений уравнения
B — v/) р = 0, то любое другое множество решений состоит
из линейных комбинаций решений первого множества, т. е.
имеет вид ВМ, где А — невырожденная матрица. Однако
условия ортогональности В*В* = Д примененные к линейным
комбинациям, дают / == (ВМ/ (ВМ) = Л7В*'ВМ = ДМ, и,
таким образом, А должна быть ортогональной, что и
требовалось доказать.
Теорема 11.2.2. Ортогональное преобразование
V = СХ случайного вектора X оставляет инвариантной
обобщенную дисперсию и сумму дисперсий компонент.
Доказательство. Пусть МЛ' = 0 и ЮСХ' = S.
Тогда MV = 0 и MVVr' = C2C/. Обобщенная дисперсия V
равна
| СЪС | = | С\ . 121 . | С\ = 12 | . | СС | = 12 |, B2)
что совпадает с обобщенной дисперсией X. Сумма дисперсий
компонент V равна
2MV?=sp(C2C/)=spBC/C)==spB/) = sp2 = 2MAr?. B3)
Следствие 11.2.2. Обобщенная дисперсия вектора
главных компонент равна обобщенной дисперсии исход-
ного вектора, а сумма дисперсий главных компонент
равна сумме дисперсий исходных величин.
Другой метод получения эгих результатов основывается
на использовании поверхностей постоянных значений нор-
11.21 ОПРЕДЕЛЕНИЕ ГЛАВНЫХ КОМПОНЕНТ СОВОКУПНОСТИ 377
мальной плотности вероятности с вектором среднего
значения 0 и невырожденной ковариационной матрицей 2.
Плотность вероятности равна
B4)
/г) ч 2 г | у | 2
и поверхности постоянной плотности представляют собой
эллипсоиды
х'Л~1х = С. B5)
Главной осью этого эллипсоида называется отрезок прямой
от —у до у, где у— точка эллипсоида, в которой квадрат
расстояния х'х принимает экстремальное значение.
Пользуясь методом множителей Лагранжа, определим
стационарные точки; для этого рассмотрим
ф = хх — Хлг'2~ 1х, B6)
где X—множитель Лагранжа. Продифференцируем ф по
компонентам х и, приравнивая производные нулю, получим
^ х = 0, B7)
или
x = XL'lx. B8)
Уравнение на 2 дает
2* = \х. B9)
Это уравнение совпадает с D), и можно пользоваться
приведенными там алгебраическими методами. Таким образом,
векторы §A), с.., C(р) являются главными осями эллипсоида.
Преобразование и = Вх представляет собой вращение
координатных осей такое, что направление новых осей совпадает
с направлением главных осей эллипсоида. Уравнение этого
эллипсоида в новых координатах имеет вид
2
2
Отсюда длина /-й главной оси равна 2 jA^C
Третий метод получения этих результатов можно
изложить в терминах «наименее отклоняющихся плоскостей»
(К. Пирсон [3]). Рассмотрим плоскость, проходящую через
378 ГЛАВНЫЕ КОМПОНЕНТЫ ГГЛ. И
начало координат, а'х = 0, где а'а = 1. Расстояние точки X
от этой плоскости равно а'лг. Найдем коэффициент
уравнения плоскости такой, что среднее значение квадрата
расстояния случайной точки X от плоскости минимально,
причем МАГ=О и ЖХХ' = 2. Таким образом, мы хотим найти
минимум М (а'ХJ = Жа'ХХ'ск, = а'2а при ограничениях
я'я = 1, Из сравнения с первым методом сразу получается,
что решением является я = ^р\
Методы анализа с помощью главных компонент лучше
всего подходят к случаям, когда все компоненты X
измеряются в одних и тех же единицах. Если они измеряются
в различных единицах, то вряд ли разумно искать
максимум |3'2j3 относительно Р'{5; в самом деле, результаты такого
анализа будут зависеть от различных единиц измерения.
Пусть Л — диагональная матрица, и пусть Y — &X.
Например, одна компонента X может быть измерена в дюймах,
а соответствующая компонента Y — в футах, другая
компонента X может быть измерена в фунтах, а соответствующая
компонента Y — в унциях. Ковариационная матрица X равна
МКК/ = МД*ЛГ/Д==Д2Д==ЧГ. Тогда анализ Y при помощи
главных компонент приведет к задаче нахождения'максимума
M(y'I02 = Y^Y относительно y'Y и к решению уравнения
О = (ЧГ— v/)y = (A2A — v/)y, где v должна удовлетворять
уравнению |ЧГ — v/|;=0. Умножение слева на Д" дает
C1)
Пусть Ay = «, т. е. y'K==y'\X—x'X. Тогда C1)
получается из задачи нахождения максимума М (я'ХJ = а'2а
относительно а'Д~2а. Последняя квадратичная форма
представляет собой взвешенную сумму квадратов, где
коэффициенты веса— диагональные элементам матрицы Д 2. Следует
отметить, что если матрица Д~2 выбрана в виде
0
0
0 .
0 .
.. о
.. о
•• СРР
C2)
то ЧГ является корреляционной матрицей.
11.3] ОЦЕНКИ НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ 379
11.3. Оценки наибольшего правдоподобия
для главных компонент и их дисперсий
Основная задача теории статистических выводов,
решаемая с помощью анализа главных компонент, состоит в оценке
векторов РA), .... Р(р) и скаляров Xlf ..., \р. Применим
алгебраические результаты предыдущего параграфа для оценки
ковариационной матрицы.
Теорема 11.3.1. Пусть xv..., xN —N(>p)
наблюдений над совокупностью N({i, 2), где Ъ —матрица,
имеющая р различных характеристических корней.
Тогда множество оценок наибольшего правдоподобия
для \v .,., \р и рA), .... $iPK определенных в тео»
реме 11.2,1, состоит из корней кг > ... > kp уравнения
|?-*/|-о A)
и множества соответствующих векторов &A\ ..о
удовлетворяющих уравнениям
0. B)
&(/)'&«>=1, C)
где 2 — оценка наибольшего правдоподобия для ма*
трицы S.
Доказательство. Поскольку корни уравнения
|2—Х/| = 0 различны, каждый вектор |}(/) однозначно
определяется с точностью до замены |5(/) на — fi(/). Если потребовать,
чтобы первая ненулевая компонента $(i) была положительной, то
${i) определяются однозначно, и р,, А, В -— однозначные
функции [I, 2. По следствию 3.2.1 множество оценок наибольшего
правдоподобия для ji, А, В является той же самой функцией
от {t, S. Эта функция определяется уравнениями A), B) и C)
и соответствующим условием, что первая ненулевая
компонента Ь{1) положительна. [Можно показать, что если |2| =?0,
то с вероятностью 1 корни уравнения A) различны, так как
наложенные на S условия, при которых эти корни
имеют кратность, большую единицы, определяют область
380 ГЛАВНЫЕ КОМПОНЕНТЫ [ГЛ !!
в пространстве 2, размерность которой меньше -^ р(р-\- 1I.
Из формулы A8) § 11.2 видно, что
= 2X/p</)p('> D)
и в соответствии с алгебраическими результатами,
приведенными там же,
2 = 2Х&@6(/)'. E)
При замене Ь{1) на —b{i) ^ktb{i)b{i)\ очевидно, не изменится.
Так как функция правдоподобия зависит только от 2 (см. § 3.2),
то максимум функции правдоподобия можно получить, выбрав
любое множество решений уравнений B) и C), что и
требовалось доказать.
Можно решить задачу с учетом произвольной кратности
характеристических корней матрицы 2. Если эти кратности
не все равны единице, то оценки наибольшего правдоподобия
не определяются уже по теореме 11.3.1. Не вдаваясь в
подробности этой задачи, рассмотрим только один крайний
случай. Предположим, что уравнение |2— Х/|=0 имеет один
только корень кратности р. Пусть этот корень равен Х1#
Тогда по следствию 11.2.1 матрица 2— Хх/имеет ранг нуль,
т. е. 2!—Х1/== 0 или S = X1/. Если вектор X распределен
iV(fi, 2) = </V(ja, Хх/), то компоненты X независимы и имеют
дислерсию Хх. Таким образом, оценка наибольшего
правдоподобия для \ равна
р N
и 2!=^/, а В — ортогональная матрица. Следует отметить,
что в § 10.7 рассматривалась задача проверки гипотезы о том,
что 1] = Хх/ (Xj не задана), т. е. гипотеза состояла в том,
что S имеет один характеристический корень кратности р.
В большинстве приложений анализа главных компонент
можно считать, что характеристические корни матрицы 2
различны. Следует отметить также, что при некоторых
применениях этого метода алгебраические результаты применяются
к матрице коэффициентов корреляции, а не к ковариационной
матрице. В общем случае при этом получаются различные
корни и векторы..
1141 ВЫЧИСЛЕНИЕ ОЦЕНОК НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ 387
11.4. Вычисление оценок наибольшего правдоподобия
для главных компонент
Имеется несколько способов вычисления
характеристических корней и характеристических векторов (главных
компонент) матрицы 2. Здесь будут указаны два метода.
Один метод состоит в разложении уравнения
0 = | S — kl\ A)
и решении полученного уравнения р-й степени относительно k
(например, по методу Горнера) для корней kx > k2 > ... > kp.
Тогда ранг матрицы 2— kj равен р— 1, и решение
уравнения B — kj) b^ = 0 можно получить, выбирая Ьр в качестве
алгебраического дополнения элемента первого (или любого
другого фиксированного) столбца и у-й строки матрицы 2 — ktl.
Второй метод является методом последовательных
приближений. Уравнение для характеристического корня и
соответствующего характеристического вектора можно записать
в виде
2# '= \х, B)
причем уравнение относится к совокупности. Пусть Х@)
—любой вектор, не ортогональный к первому
характеристическому вектору; определим
хш=Ъу{1_1)9 /=!, 2, ..., C)
уш= 2 *</>• / = 0. 1. 2'. ... D)
У X(i)XKi)
Можно показать, что
Jim jrw>= ±p«». . E)
I ->ОО
Имеем 2 = ВАВ', и, таким образом, по индукции
S' = (BAB')S' = (BAB/)BA'-1'B = BA'B! G)
Пусть st = yV*lt)xar Из C) и D) имеем
sMi-W (8)
382 ГЛАВНЫЕ КОМПОНЕНТЫ
Применяя несколько раз (8), получим
Ую
где tt
Из D) получим
Можно записать
/ 1 \i
Предел выражения 1-т-А) равен
1 0 ... О
о (^Х ... о
ЬИ-
lim
1 0 ... 0'
0 0 ... 0
0 0 ... ()
так как ХД < 1 при /> 1. Таким образом,
A 0 ... 0\
о о...о\в,
» . . . . I
о о ... о/
= (Г 0 .•. )
Из A0) и A3) имеем
Отсюда следует E) и F).
1ГЛ. II
(9)
A0)
A2)
A4)
11.4] ВЫЧИСЛЕНИЕ ОЦЕНОК НАИБОЛЬШЕГО ПРАВДОПОДОБИЯ 383
Чтобы найти второй корень и вектор, определим
S2 = S — \ffiy. A5)
Тогда
22р(/) = 2р@ - Л^У >'р(|) = Sp(/) = \f\ A6)
если /=^=1 и
S2pA) = O. A7)
Таким образом, Хз— наибольший характеристический корень
матрицы 22 и Р<2> — соответствующий характеристический
вектор. Процесс последовательных приближений применяется
теперь к 22, B результате определяются Х2 и $№. Определяя
23 = 22 — Х2CB)рB)', можно найти Х3 и рC) и т. д.
Имеется несколько способов, позволяющих сократить
объем работы в методе последовательных приближений. Один
из них состоит в том, что матрицу 2 возводят в некоторую
степень, а затем уже применяют метод последовательных
приближений. Так, можно пользоваться матрицей 22, положив
* «) = *%-»> 08)
^1 09)
Этот процесс сходится вдвое быстрее, чем процесс,
определяемый формулами C) и D). При использовании 24 = 2222
сходимость получается вчетверо более быстрая и т. д.
Следует отметить, что S2 — симметрическая матрица, и поэтому
требуется определить только р(р-{-1)/2 ее элементов.
Другой способ ускорения процесса приближения был
предложен Эйткеном [1]. Предположим, что требуется
точность до q значащих цифр. Если компоненты у^
совпадают с компонентами Jty-D с точностью до q значащих цифр,
определим г^—Уцу z^ = lz^)t гB)=2<гA), гC>=2г<2),
z
= -±- (/=1 р; * = 1, 2, 3). B0)
384
ГЛАВНЫЕ КОМПОНЕНТЫ
[ГЛ. 11
с точностью до q значащих цифр. Общее
значеыбирается в качестве оценки ХA). Компоненты
пропорциональны величине
(/=1 р). B2)
11.5. Пример
ш-.
В § 5.3 были рассмотрены две выборки из-множества
наблюдений над разновидностями ириса (Фишер [5]). В
качестве примера анализа главных компонент используем одну
из этих выборок, взятую из разновидности Iris versicolor.
Имеется 50 наблюдений (iV=50; n — N—1=49). Каждое
наблюдение состоит из четырех измерений растения; хх—длина
чашелистика, х2 — ширина чашелистика, хг — длина лепестка,
х4 — ширина лепестка. Полученные в результате наблюдений
значения сумм квадратов и взаимных произведений
отклонений от среднего равны
13,0552 4,1740
4,1740 4,8250
8,9620 4,0500
2,7332 2,0190
и оценка 2 есть
0,266433 0,085184 0
0,085184 0,098469 0
0,182899 0,082653 0
8,9620
4,0500
10,8200
3,5820
2,7332
2,0190
3,5820
1,9162
182899 0,055780
082653 0,
041204
220816 0,073102
0,055780 0,041204 0,073102 0
039106
A)
B)
Для нахождения первой главной компоненты применим
метод последовательных приближений, вычисляя
последовательно -г(^=<$<г^~1). В качестве начального приближения
возьмем z{0) =A, 0, 1, 0). Не обязательно нормировать этот
вектор на каждом шаге, но для сравнения последовательных
11.5J
ПРИМЕР
385
векторов следует вычислять величину dp IrzV'~l) = г^\
которая является приближением к lv наибольшему
характеристическому корню матрицы «S, Через семь шагов процесса
последовательных приближений гФ совпадут с точностью до
двух единиц в пятом десятичном разряде (до пятой значащей
цифры). Этот вектор нормируется, и матрица S умножается
на нормированный вектор. Отношения rf) совпадают с
точностью до двух единиц шестого десятичного разряда;
значение 1Х (вь сленное с точностью до шестого разряда) равно
/1== 0,487875. Нормированный вектор, вычисленный на
восьмом шаге процесса последовательных приближений, является
оценкой {Н1), именно
0,6867244
0,3053463
0,6236628
0,2149837
Этот вектор совпадает с нормированным вектором,
вычисленным на седьмом шаге, с точностью до одной единицы
в Шестом разряде. Следует отметить, что 1г и Ы1) следует
вычислять более точно, чем /2 и Ы2К и т. д. След матрицы 5,
равный сумме ее характеристических корней, равен 0,684824.
Таким образом, 1Х более чем в три раза превосходит сумму
остальных корней.
Затем вычисляется
C)
0,0363559 —0,0171179 —0,0260502 —0,0162472
—0,0171179 0,0529813 —0,0102546 0,0091777
—0,0260502 —0,0102546 0,0310544 0,0076890
—0,0162472 0,0091777 0,0076890 0,0165574
D)
и последовательно вычисляются z^) = S2z^), причем
выбирается z{0) =@, 1, 0, 0). (При вычислениях матрица S2 была
умножена на 10, а первая строка и первый столбец были
умножены на —1.) В этом случае процесс приближений уже
не сходится так быстро; как будет показано, отношение /2
к /3 равно приблизительно 1,32. Через пятнадцать шагов г{У
Т. Андерсон
386
ГЛАВНЫЕ КОМПОНЕНТЫ
[ГЛ. И
оказывается вычисленным с точностью до третьего
десятичного разряда (до двух значащих цифр). На 15-м, 16-м и 17-м
шагах гФ вычисляются с точностью до десяти значащих цифр.
Для ускорения процесса можно вычислить Rt с точностью
до шести значащих цифр и уточненное значение вектора
с точностью до трех десятичных знаков. (В этом случае
в уточненном векторе верных значащих цифр втрое меньше,
чем в гУ>.) Уточненный вектор используется на следующем
шаге процесса последовательных приближений, результат
нормируется и вновь используется на последующем шаге.
На этом последнем шаге отношения вычисляются с точностью
до четырех единиц в пятой значащей цифре. Получается
/2 = 0,0723828 и
6B) —
Находим
-0,669033
0,567484
0,343309
0,335307
E)
F)
0,003955 0,010363 —0,009425 —0,000010
0,010363 0,029671 —0,024356 —0,004595
—0,009425 —0,024356 0,022523 —0,000643
—0,000010 —0,004595 —0,000643 0,008419
Выбирая начальное приближение ?@) =@, 1, 1, 0) и вычисляя
шесть последовательных приближений, получим /3 = 0,054775 и
-0,265105
-0,729589
0,627178
0,063676
Затем вычисляется
S4 = 53 — t
(J)
0,000105 —0,000232 —0,000318 0,000915
—0,000232 0,000514 0,000708 —0,002050
—0,000318 0,000708 0,000977 —0,002831
0,000915 —0,002050 —0,002831 0,008197
(8)
11.51
ПРИМЕР
387
Приближенно можно считать, что ранг этой матрицы равен
единице; характеристический вектор пропорционален каждому
столбцу. Отсюда /4 = 0,009793 и
0,10231
—0,22890
—0,31602
0,91502
(9)
Для проверки можно вычислить S4 — l4b{)b{) ; отсюда
находим, что элементы этой матрицы с точностью до 0,000003
равны нулю. Так как элементы матрицы 54 очень малы,
компоненты вектора о могут быть верными только до
четвертого знака после запятой и, по-видимому, верны только
до третьего знака после запятой. Так как другие векторы
вычисляются с точностью до четвертого или пятого знака
после запятой, то, вероятно, точнее будет вычислить &D) из
условия ортогональности Ь{1\ 6B) и &C).
Результаты можно представить в таком виде:
(!v к к '4)=-@,4879 °>0724 °>0548 0,0098),
0,6867 —0,6690 —0,2651 0,1023
0,3053 0,5675 —0,7296 —0,2289
0,6237 0,3433 0,6272 —0,3100
0,2150 0,3353 0,0637 0,9150
п
A0)
(И)
Следует отметить, что на долю первой компоненты
приходится 78% общей дисперсии этих четырех измерений;
на долю последней компоненты приходится немногим больше
1% общей дисперсии. В самом деле, дисперсия величины
0,7^-4" 0,Зх2+ 0»6д:з+0,2д:4 (приближение к первой
главной компоненте) равна 0,478, что составляет 77% общей
дисперсии. Если требуется изучить изменения условий,
которые приводят к изменению величины (xv х2, аг3, а;4), то
можно рассматривать изменения условий, приводящие к
изменению величины 0,7лг1 + 0,Зх2 + 0,6л:з~(-0,2а:4. Не
существенно, пренебрегают ли другими изменениями величины (хг,
л:2, хъ, а:4) в исследовательской работе.
13*
388 ГЛАВНЫЕ КОМПОНЕНТЫ [ГЛ. II
ЛИТЕРАТУРА
Гиршик [1]; Лордж и Моррисон [1]; Пирсон [3];
Стоун [1]; Уилкс [10], стр. 252—257; Фишер [5]; Хотел-
линг [2], [4]; Эйткен [1].
ЗАДАЧИ
1. В примере из § 9.6 рассмотреть три элемента операции
глаженья (х2, х4, xQ). Найти первую главную компоненту
оцениваемой ковариационной матрицы.
[Указание. Начать с вектора A, 1, 1) и применить метод
последовательных приближений.]
/1 р \
2. Доказать, что характеристические векторы матрицы ,
• t \Р ]/
соответствующие характеристическим корням 1 + Р и * — Р» равны
>1//2\/ 1//2Л
\ 1/1/2 / \-1//2 /'
3. Проверить, что доказательство теоремы 11.2.1 дает
доказательство теоремы 2 приложения 1 для любой действительной
симметрической матрицы.
4. Пусть z = у -\- ху причем Жу = Mjc = 0, Mj/y' = Ф, Мхл:' = а2/.
Можно назвать р компонент вектора у систематической частью,
а компоненты х — ошибками.
(а) Найти такую линейную комбинацию у'2 с единичной
дисперсией, для которой дисперсия ошибки минимальна (т. е. ^'х
имеет минимальную дисперсию).
(б) В предположении Мг? = 1 найти такую линейную
функцию -f'z, имеющую единичную дисперсию, для которой сумма
квадратов коэффициентов корреляции между zt и у'г максимальна.
(в) Связать полученные результаты с главными компонентами.
5. Непосредственно доказать аналог теоремы 11.2.1 для выборки,
2 2
2 2
6. Пусть ан = 1, ъу = р, 1ф). Доказать, что один из
характеристических корней матрицы S равен 1 + (р — 1) р и ему
соответствует характеристический вектор, пропорциональный вектору
A, 1, ..., 1), и что другие характеристические корни равны 1 —р.
7. Пусть S = Ф + с2/, где Ф — неотрицательно определенная
матрица ранга г. Доказать, что каждый характеристический вектор
матрицы Ф является характеристическим вектором матрицы S
и каждый характеристический корень матрицы 2 является суммой
характеристического корня матрицы Ф и а2.
ГЛАВА 12
КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ
И КАНОНИЧЕСКИЕ ВЕЛИЧИНЫ
12.1. Введение
В этой главе рассматриваются два множества величин
с совместным распределением и дается анализ
коэффициентов корреляции между случайными величинами одного
множества. Выбирается новая система координат в пространстве
каждого множества Случайных величин таким образом, что
новые координаты непосредственно указывают на значение
корреляции. Точнее говоря, в каждом множестве
отыскиваются линейные комбинации величин, имеющие
максимальную корреляцию; эти линейные комбинации являются
первыми координатами новых систем. Затем в каждом множестве
рассматриваются следующие линейные комбинации,
обладающие тем свойством, что корреляция между ними больше,
чем корреляция между любыми другими линейными
комбинациями, некоррелированными с первыми линейными
комбинациями. Этот процесс продолжается до тех пор, пока не будут
полностью построены две новые координатные системы.
Указанный статистический метод оказывается особенно
полезным в исследовательской работе. Может оказаться, что
исследователю доступны два больших множества величин,
и его могут интересовать взаимосвязи между ними. Если эти
множества очень велики, то естественно ограничиться
рассмотрением небольшого чиоа линейных комбинаций из
каждого множества. Исследователя может интересовать изучение
наиболее коррелированных линейных комбинаций. Например,
одним множеством величин могут быть анатомические
характеристики, такие, как длина и ширина различных черепов;
другие величины могут представлять собой измерения
390 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ [ГЛ. 12
характеристик умственных способностей, например, число
очков, набранных в испытаниях на сообразительность. Если
исследователя интересует взаимосвязь между этими
множествами, то он может установить, что эта взаимосвязь почти
полностью описывается коэффициентом корреляции между
несколькими первыми каноническими случайными величинами.
Эта теория была разработана Хотеллингом [5].
12.2. Канонические корреляции
и канонические величины генеральной совокупности
Пусть ковариационная матрица /^-мерного случайного
вектора X равна 2. (Эта матрица предполагается положительно
определенной.) Так как в этой главе нас будут
интересовать только дисперсии и коэффициенты ковариации, то будем
предполагать, что МАГ = 0. При выводе основных положений
и при алгебраических доказательствах нам не понадобится
предположение о том, что вектор X распределен по
нормальному закону, хотя это предположение потребуется при
построении теории, относящейся к выборкам.
Вектор X разбивается на два подвектора размерности рг
и р2 соответственно
Для удобства будем полагать рх ^ р2. Ковариационная
матрица разбивается аналогичным образом на блоки с рх и р2
строками и столбцами.
В предыдущей главе рассматривалось вращение
координатных осей и переход к новой системе, в которой свойства
дисперсии оказывались наиболее наглядными. В этой главе
будет построено преобразование первых рх координатных
осей и преобразование последних р2 координатных осей
к новой (/?! + р2)"меРной системе координат, в которой вза*-
имная корреляция между Х^1) и Х{2) станет наиболее наглядной.
Рассмотрим произвольную линейную комбинацию U =
«=$'Д(A) компонент эектора А"A) и произвольную линейную
12 2] СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 391
функцию V = у'Х{2) компонент вектора А"B). Найдем прежде
всего линейные функции с максимальной корреляцией. Так
как коэффициент корреляции между величиной, отличающейся
от U только множителем, и величиной, отличающейся от V
только множителем, равен коэффициенту корреляции между
U и V, то векторы а и у можно нормировать
произвольным образом. Поэтому выберем векторы а и у такими,
чтобы дисперсии величин U я V были равны единице, т. е.
= я%га, C)
1 = ЖУ2 = My'AV* у = гХг- D)
Отметим, что М^/==М«/А'A)==а/МАгA)=0, аналогично MV=0.
Тогда коэффициент корреляции между U и V равен
MUV = М*Х{1)Х{2)\ = а'212у. E)
Алгебраическая задача состоит, таким образом, в
определении векторов а и у, при которых выражение E) достигает
максимума при условии, что выполняются C) и D). Пусть
ф = в'212Т — ^Х(«'2П«_1)— ^(у'222у_ 1), F}
где X и [а — множители Лагранжа. Продифференцируем ф по
компонентам векторов а и у. Приравняв векторы
производных нулю, получим
it Of G)
^ 0. (8)
Умножив выражение G) слева на а' и (8) слева на у;, получим
Ot (9)
Так как л'Ъпл=\ и у'З^у^И, то очевидно, что Х = |х==
= a/S12y. Таким образом, выражения G) и (8) можно
переписать в виде
0, A1)
O, A2)
392 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ 1ГЛ 12
так как 2i2 = 22i. Это можно переписать в виде одного
матричного уравнения
-Х2П 212 \/вГ
221 —Х222/\
Для существования нетривиального решения (это необходимо
для того, чтобы решение удовлетворяло соотношениям C)
и D)) матрица слева должна быть вырожденной, т. е.
— Х2П 212
221 — Х222
= 0. A4)
Определитель слева представляет собой многочлен
степени р. Чтобы показать это, рассмотрим формулу Лапласа
для разложения по минорам первых рх столбцов. Один член
имеет вид | — Х2П |. | — Х2221 = (— \)Pl+p* | 2П |. | 2221. Другие
члены разложения содержат X в низшей степени, так как
одна или несколько строк каждого минора в первых рх
столбцах не содержит X. Так как матрица 2 положительно
определенная, то | 2П |-| 222|=?0 (следствие C) приложения 1).
Следовательно, уравнение A4) — алгебраическое степени р.
Поэтому оно имеет р корней: \ *^> Х2 ^ .. . ^ \р.
Из формулы (9) видно, что величина X = а'212у равна
коэффициенту корреляции между U = а Х^ и V = у'Х®\
где а и у удовлетворяют уравнению A3) при некотором
значении X. Так как требуется получить максимальный
коэффициент корреляции, выберем Х = ХХ. Пусть решение
уравнения A3) при Х = Х1 представляет собой aW, yW, и пусть
Ux = аA)ЛГA) и V, = уA)'лгB). Тогда Ux и Vx являются
нормированными линейными комбинациями компонент векторов
Х^1) и Х^2) соответственно и коэффициент корреляции между
ними максимален.
Определим теперь вторую линейную комбинацию
компонент вектора ДГA), пусть это будет U = аХ{1\ и вторую
линейную комбинацию компонент вектора Х®\ пусть это
будет V = y/ArB), таким образом, чтобы они имели
наибольшую корреляцию среди всех линейных комбинаций,
некоррелированных с Ux и Vv Продолжим этот процесс. На г-м шаге
получили линейные комбинации 6/1 = aA) A"A), Vi=yA)A'B)l ...,
12.21 СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 393
Uт = a(r) X{1\ Vr = у(/<) Х{2> с соответствующими
коэффициентами корреляции ХA)==Х1, ХB), ..., Х(г) (эти коэффициенты
корреляции являются корнями уравнения A4)). Будем искать
такую линейную комбинацию компонент вектора Х{1\ U =
= лХ^\ и такую линейную комбинацию у'А^, чтобы
коэффициент корреляции между ними был больше коэффициента
корреляции между любыми двумя линейными комбинациями,
некоррелированными с Uv Vv ..., Ur Vr. Условие
некоррелированности величин U и Ut имеет вид
О ==JAUUt = Жь'Х^Х^ V/} = %ЪХХ*{1). A5)
Если Х(/)=?0, то Sn«(/) = (lA(/)J12T(/) и' следовательно,
Если Х(/) = 0, то SJ2y(f)==0 и выполняется соотношение A6).
Условие некоррелированности V и Vt имеет вид
По тем же причинам
О = у'221а«> = MVUt. A8)
Найдем теперь максимум MUr+lVr+v выбирая а и у таким
образом, чтобы удовлетворялись соотношения C), D), A5)
и A7) при /=1, 2 г. Рассмотрим
где X, (л, Vj, ..., vr> 6j, ..., 0r — множители Лагранжа.
Векторы частных производных, функции фг+1 по элементам
векторов а и у приравняем нулю, получим
= 0, B0)
) = 0. B1)
394
КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ
[ГЛ 12
Умножая B0) слева на
0 =
и B1) слева на
получим
B2)
B3)
Таким образом, уравнения B0) и B1) сводятся к уравнениям
A1) и A2) или к уравнению A3). Следовательно, выберем
наибольший из корней \ (пусть это будет, для
определенности, л(г+1)) таких, что существует решение уравнения A3),
удовлетворяющее условиям C), D), A5) и A7) при/=1,
A) ( Х)
..., г. Пусть это решение будет а
> '
()
Х)> и.пусть Ur+l =
и Vr+l =
r+l f
Этот процесс продолжается последовательно, шаг за
шагом, до тех поо, пока не будут найдены решения,
удовлетворяющие условиям A3) при некотором \ и условиям C),
D), A5) и A7). Пусть т — число шагов, необходимых для
этого. Покажем теперь, что /п==р1«/?2)- Пусть Л =
1\ = (уA) ... у(т)) и
B4)
B5)
Условия C) и A5) можно записать как
Из того, что ранг матрицы 2П равен pv г ранг матрицы /
равен т, следует т ^ pv Покажем теперь, что
предположение т < рх приводит к противоречию, установив, что в этом
случае существует другой вектор, удовлетворяющий
указанным условиям. Так как матрица 4'2П имеет порядок т X Pv
то существует матрица Е порядка рг X (Р\ —т) и ранга
рх — т, такая, что Л/211? = 0. Аналогично существует
матрица F порядка р2Х(Р2 —т) и ранга р2 — т, такая,
что riS22/7=0. Имеем также Г^Я = Ai4/S11? = 0 и
i4/Si2/7= AriS22/r=0. Так как ранг матрицы Е равен pl—m1
то матрица Е'2а? невырожденная и аналогично матрица
12 2] СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 395
F'%22F тоже невырожденная. Следовательно, уравнение
имеет корень, так как \Е'ЪХХЕ\ • \Fl^22F\ Ф 0. Из
приведенных ранее алгебраических рассуждений следует, что
существуют векторы а и й, такие, что
E'2l2Fb = v?'2n?a, B7)
Ff^2lEa = ^Ff^22Fb. B8)
Пусть Ea = g и Fb = h. Покажем, что v, ^ и Л
образуют новое решение Х(ш+1), a(m+1), Y(w+1). Пусть Sfi1Si2*=*.
Из А'Зцй = A'Hil2Fb = 0 следует, что вектор ft ортогонален
строкам матрицы Л'2П и, следовательно, является линейной
комбинацией столбцов матрицы ?, т. е. имеет вид Ее. Таким
образом, уравнение S12A = Snft можно записать в виде
212f»==211?lc. B9)
Умножение на /^ слева дает
EfyZl2Fb = Ef"LuEc. C0)
Так как матрица ?7Sn? невырожденная, то из сравнения B7)
и C0) получается r = va и, следовательно, k~vg. Таким
образом,
S 2 C1)
Аналогично можно показать, что
vS22A. C2)
Следовательно, v = X(/w+1), g = a{m+l\ А==Т(Я1И)
представляет собой другое решение. Но это противоречит
предположению о том, что X(m), a(m\ y(m) — последнее возможнее
решение. Следовательно, пь = pv
Условия, наложенные на X, а и у» можно записать в виде
- А, C4)
i = /. C5)
396
КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ
[ГЛ. 12
Пусть r2=(Y(/7l+1). ¦ ^Y(/?2))—матрица порядка р2Х(р2—Pi)>
удовлетворяющая уравнениям
Г&вГ2 = /. C7)
Эту матрицу можно построить последовательно, столбец за
столбцом; вектор y(/7'+1) ортогонален вектору 222Г\ и
нормирован так, что y(Pi+1)'222Y(/?l+1) = 1, вектор y(Pi+2)
ортогонален вектору S22(I\ y(Pi+1)) и нормирован так, что
Y(/7l+2)'S22Y(/?l+2)= 1, и так далее. Пусть Г:
квадратная матрица невырождена,
Рассмотрим определитель
Эта
так как Т%2Т = I.
А1
О
О
О
г;
-Х2
— XS,
22
А
0
/
0
г,
¦Х)р
0
г2
— X/
А
А
-V
— X/ А О
А —X/ О
О О —X/
_ (_ ху*-л | _ Х/| • | — X/— А (— X/) А | =
/ \\p2~Pl l\9W А 91 / \\p2~Pi I I Л2 *tl\*\
|Х2/— А2| = (— ХУ'-р- П (X2 — X'" )• C8)
Полученный многочлен с точностью до постоянного
множителя равен
2
— XS,
22
C9)
Таким образом, корни уравнения A4) равны корням
уравнения, которое получается, если приравнять нулю
выражение C8), т. е. Х=±Х(/), /=1, ..., /?! и Х = 0 (корень
кратности p2-~Pi)- Таким образом, (Хх, ..., Хр) = (Х1э ..., XPi,
О, ..., О, — ХА, ...,— Xj). Множество {Х(/J} (/=1, ..., р{)
совпадает с множеством {X?} (/= 1 рг). Чтобы доказать,
что множество {Х(*}} (/ = 1, ..., рх) совпадает с множеством
{X.} (/=1, ..., /7Х), достаточно показать, что все Х(о
неотрицательны и, следовательно, каждое из них равно одному
12 2] СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 397
из чисел \ (i=\ px). Замечаем, что
D0)
D1)
Таким образом, если Х(г), а(г), у(Г> — решение, то и —Х(г),
— «(г), у^ — также решение. Если бы Х(г) были
отрицательными, то —Х(г) были бы неотрицательными и —Х(г)^Х(г).
Но так как Х(г) должны быть максимальными, то должно
выполняться соотношение Х(г)^—Х(г) и, следовательно, Х(г)^.0.
Поскольку множество {Х(г)} совпадает с множеством [к^
(L=\, ..., рх), должно быть Х(|) = Х^.
Пусть ^
[ ! ] 1) D2)
D3)
D4)
Компоненты вектора U составляют одно множество канони-
ческих величин, а компоненты вектора V = I B) I — другое
множество. Имеем \V J
U
о о\ , . ...
/'
-А
\0
А
/
0
0
0
/
398 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ ГГЛ 12
где
А о ... о х
.V;-.0. • <«о
vo о ... \J
B) I, где
вектор Х^г) рх-мерный, а вектор Х{2) р2-мерный (р2 = р —
— Pi^> Pi)> г'й парой канонических величин является
пара линейных комбинаций UT — а(г) Х^1) и VT = *fr)'x®\
каждая из которых имеет единичную дисперсию, не
коррелирована с первыми г—1 парами канонических
величин, причем коэффициент корреляции между
элементами этой пары максимален. Этот коэффициент
корреляции называется r-й канонической корреляцией.
^ I — случайный век-
тор с ковариационной матрицей S. r-я каноническая
корреляция между Х^1) и Х^2) равна r-му по величине
корню уравнения A4). Коэффициенты в линейных
комбинациях а(г) Х^х) и у(г) Х®\ определяющие r-ю пару
канонических величин, удовлетворяют уравнению A3) при
условии \ = ХГ и при условиях C) и D).
Теперь можно проверить (не дифференцируя), что
коэффициент корреляции между Ux и Vx принимает максимальное
значение. Линейные комбинации a'U — {а'Аг)Х{1) и b'V =
() нормированы, т. е. выполняются соотношения
а'а=1 и &/6=1. Поскольку матрицы Л и Г
невырожденные, любой вектор а можно записать в виде Аа и любой
вектор у можно записать в виде ТЬ, и поэтому любые две
линейные комбинации а'Х^ и у'Х® можно записать в виде
a'U и b'V. Коэффициент корреляции между ними равен
D7)
Пусть \aJV^ Q>iaiJ = ci» Тогда максимум выражения
12.2] СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 399
а1 (А 0) Ъ = У^ (Х^а.J ^icibi относительно Ь достигается при
bi = cv так как ^cLbt представляет собой косинус угла между
векторами Ь и (сх сРх, 0, ..., 0). Тогда выражение D7)
равно
оно достигает максимума при at = 0, i = 2, ..., pv Таким
образом, максимум достигается при выборе U{ и Vx в
качестве линейных комбинаций. Для проверки того, что U2
и V2 образуют вторую пару канонических величин, заметим,
что некоррелированность Ux и линейной комбинации а'И
влечет Q=-}AUxafU = Mf/j2 а№i ~ a\ и некоррелированность
величин Vx и b'V влечет 0 = bla Алгебраические выкладки,
использованные выше, позволяют получить требуемый
результат; при этом всюду суммирование должно начинаться с / = 2.
Для векторов а и у можно получить одно матричное
уравнение. Если умножить уравнение (И) на X и
уравнение A2) на Ег^1» то получится
Х212у = Х22па, D8)
2я1221« = Ху. D9)
Подстановка из D9) в D8) дает
ИЛИ
B1222-21S2i-X2211)a = 0. E1)
Величины Хь .. ., \Рх удовлетворяют уравнению
ISwS^Sm — vSn| = 0 E2)
и векторы аA), ..., a(/?l) удовлетворяют уравнению E0) при
X =ХЬ ..., \Р{ соответственно. Аналогичные уравнения для
уA), ..., у(/?2) получаются при подстановке X2 = X?, ..., ХР2;
при этом
(S2iSri1Si2-X2S22)Y = 0. E3)
Если два множества величин не являются случайными,
то для построения канонических величин используется другой
подход. Пусть имеется множество величин Х^ со средними
400 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ [ГЛ 12
значениями ВлгB) при ср=1, . в., /г, и пусть
М D1( - В^2)) (Х<? - Ъх?)' = ЧГ. E4)
Это распределение является условным распределением
вектора ЛГA) при условии X{2) = xf\ если совместная плотность
вероятности вектора X равна N@; 2); тогда B = 2i2222l
и ЧГ = 2ц — З^Зй^гь Рассмотрим линейную комбинацию
Uy = &X§\ Математическое ожидание этой линейной
комбинации равно Мб/ — а'Вдр и дисперсия D(?/ ) = <я'Ч!>а;
среднее значение суммы квадратов математических ожиданий равно
9 = 1
где
Для того чтобы найти максимум средней суммы
квадратов при заданной дисперсии, найдем максимум выражения E5)
при условии «/ЧГ«=1. Получим векторное уравнение
(В&аВ' —vV)« = 0. E7)
где v удовлетворяет уравнению
B' — vip|=o. E8)
Умножая уравнение E7) слева на а', получим, что при а и v,
удовлетворяющих условию a'W& = 1 и уравнению E7), имеет
место соотношение a/B522B/a = v. Для того чтобы найти
максимум, выберем наибольший корень уравнения E8).
Линейная комбинация компонент вектора ^A), для которой
среднее значение суммы квадратов максимально среди всех
линейных комбинаций, некоррелированных с первой,
соответствует решению уравнения E7) при выборе второго по
величине корня уравнения E8).
Чтобы установить более полное родство между вторым
методом построения канонических величин и первым методом,
требуется рассмотреть соответствующие оценки. Можно
получить их, замечая, что если второй метод получается из первого
при X{2) = jc?\ то ? = 211_2122й1Е2Ь В = ^^V; 52^
соответствует 222, так что BS22B' соответствует S^S^S^
12 2] СЛУЧАЙ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ 401
и В^В7—v4F соответствует S^S^lbi — v Bц — S12S22 22i)=
= (I 4- v) (S12S^1S2, — ^j- Sn) .
Пусть U^ — a{l)X§\ где а{1) — решение уравнения E7)
при v = Vj (vx — наибольший корень уравнения E8)), тогда
Ми^) = л{1уВх^). Пусть aA)'B = ^Y0) > г*е * определяется
таким образом, чтобы
4=тA)'522тA); " E9)
р
тогда ^=]/rv1. Пусть vW = уA)'#*2). Таким образом,
Аналогично определяются U®\ .. ., f/(/f) и v*\ ..., ^Pl).
Тогда
MUp^VVtvy F0)
и ^/^() некоррелирована с U{j\ l Ф j. Дисперсия
величины и^] равна единице. Аналогично
F1)
Таким образом, мы получили каноническое решение
регрессионной структуры.
Этим выводам можно дать еще одну интерпретацию в
терминах предсказаний. Рассмотрим две случайные величины U
и V со средними значениями, равными нулю, дисперсиями а*
и a2v и коэффициентом корреляции р. Будем искать
приближение величины U при помощи bV\ величины, отличающейся
от V только множителем; тогда среднеквадратичная ошибка
приближения равна
щц- bVf = о* - 2*w + ЪЧ\ =
Ч-р°вJ- F2>
Она имеет минимум при b = aup/ov. Можно считать, что
величина bV определяет линейное предсказание величины U
по значениям величины V, тогда а2и(\—р2) равна
среднеквадратичной ошибке предсказания. Отношение
среднеквадратичной ошибки предсказания к дисперсии величины U
402 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ [ГЛ. 12
равно а2 A — р2)/<з2 = 1 — р2; эта величина является мерой
относительного влияния V на U или мерой относительной
эффективности величины V при предсказании величины U.
Таким образом, чем больше р2 или |р|, тем более
эффективной является величина V при предсказании величины U.
Рассмотрим случайный вектор X, допускающий
представление в виде A). Воспользуемся линейной комбинацией.
V = y'X^ * для предсказания линейной комбинации U = xrX^ *;
тогда величина V позволит наилучшим образом
предсказывать величину /У, если коэффициент корреляции между U
и V максимален. Таким образом, можно утверждать, что
аA) Х^1) представляет собой линейную комбинацию компонент
вектора Х^\ которую можно предсказывать наилучшим
образом, и такое наилучшее предсказание осуществляет комбина-
ция ГA)'Л-B).
За меру среднеквадратичного эффекта величины V на U
можно выбрать
М (bV? = р2 -f Ml/2 = pV, F3)
a в качестве меры относительного среднеквадратичного
эффекта можно взять отношение M(^VJ/M^/2 = p2. Таким
образом, максимальный эффект, который может оказывать
линейная комбинация компонент вектора Х^2) на линейную
комбинацию компонент вектора Х^1\ оказывает у^'Х® на
'1
Аналогичную интерпретацию допускает случай, когда
вектор Х^2) не случайный. При этом вычисляем
математическое ожидание векторов Х^ и производим усреднение по ср.
Следует отметить, что в частном случае рх = 1
единственная каноническая корреляция представляет собой вектор
множественной корреляции между АГA) = Хг и Х®\
Определение канонических величин и канонических
корреляций было дано в терминах ковариационной матрицы
Я = М(Х—МХ)(Х—MX)'. Можно было бы применить
более общий метод: взять в качестве исходного (р -f- P3)"
мерный нормально распределенный вектор Y и определить X
как вектор, распределение которого совпадает с
распределением первых р компонент вектора Y при фиксированных
12 31 ОЦЕНКА 403
значениях последних рг компонент. Это означало бы, что
рассматривается вектор Хо со средним значением МЛГр= в^3);
элементы ковариационной матрицы представляли бы собой
в этом случае частные ковариации первых р элементов
вектора Y.
12.3. Оценка канонических корреляций
и канонических величин
Пусть xv ..., xN— N наблюдений над совокупностью
N({1, 2). Пусть вектор Ха разбит на два подвектора
размерностей рх и /?2 соответственно:
Оценка наибольшего правдоподобия для матрицы 2 (разбитой
на части, как в формуле B) § 12.2) равна
3 /2.ДЛ ± х _- -
-х^у, 2 (
Оценки наибольшего правдоподобия для канонических
коэффициентов корреляции А и канонических величин,
определенных с помощью матриц Л и Г, требуют
применения к матрице S алгебраических рассуждений,
приведенных в предыдущем параграфе. Матрицы А, А и Тг
определяются однозначно, если предположить, что
канонические корреляции различны и первый ненулевой элемент
каждого столбца матрицы А положителен. Неоднозначность
матрицы Г2 позволяет умножать справа на ортогональную
матрицу порядка (р2 — Р\)Х,(Р2 — Р\У> от этой неопределен?
ности можно избавиться, накладывая разного рода
ограничения, например, требуя, чтобы подматрица, образованная
нижними /?2 — Р\ строками, была треугольной с
положительными диагональными элементами. Применяя следствие 3.2.1,
404 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ ГГЛ 12
можно показать, что оценками наибольшего правдоподобия
для величин Хх Хр являются корни уравнения
J1 J2 =0, C)
Е21 -Х222 K)
и у-е столбцы матриц А и 1\ удовлетворяют уравнениям
= 0, D)
E)
F)
Матрица !f2 удовлетворяет уравнениям
ft?at*i = 0. G)
Когда на ^матрицы 4 и Г2 наложены другие ограничения,
матрицы Л Г и А определяются однозначно.
Теорема 12.3.1. Пусть xv ..., xN— N наблюдений
над совокупностью Af([i, 2). Пусть матрица 2 разбита
на подматрицы с рг и р2 (рх <; р2) строками и
столбцами соответственно, как в формуле B) § 12.2, и
пусть вектор ха аналогичным образом разбит на части,
как в формуле A). Оценки наибольшего правдоподобия
для канонических корреляций являются корнями
уравнения C), где матрицы Ъц определяются по формуле B).
Оценки наибольшего правдоподобия для коэффициентов
при j-x канонических компонентах удовлетворяют
уравнениям D), E), F), j=l, ..., pv остальные
компоненты удовлетворяют уравнениям G) и (8).
Канонические корреляции и канонические величины
генеральной совокупности были найдены из условия максимума
корреляции линейных комбинаций двух множеств величин.
Те же самые рассуждения можно применить в случае, если
все указанные величины относятся к выборке. Таким образом,
выборочный коэффициент корреляции между сА1)'х^ и
уA)'д:B) принимает максимальное значение среди всех коэф-
12.31 ОЦЕНКА 405
фициентов корреляции между любыми двумя линейными
комбинациями векторов х^ и х?К и этот коэффициент
корреляции равен \. Аналогично, линейным комбинациям
а!®'х^1) и уB)'лгB) соответствует второй по величине
выборочный коэффициент корреляции и т. д.
Следует также заметить, что можно было бы определить
выборочные канонические величины и корреляции через
матрицу S, являющуюся несмещенной оценкой матрицы 2.
Тогда aU)=V(N— \)INlu\ cU) = V(N — l)/N y(/) и
L = X, удовлетворяют уравнениям
= l;Suau\ (9)
S21a(/) = /yS22cO). A0)
auySnau>=l, A1)
cuyS22cU)=l. A2)
Линейные комбинации aUyx№ и cfJY х&> будем называть
выборочными каноническими величинами.
Выборочные канонические величины можно также
определить с помощью выборочной корреляционной матрицы
Пусть
/YJT, о ... о \
I Г\ \1 л Л I
A4)
A5)
406 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ [ГЛ 12
Тогда можно выразить уравнение (9) через A2; так, что
A6)
A7)
A8)
A9)
Рассмотрим теперь случай, когда ^){1)(f)
и М^-МХ^^-МХ^)' ==W. Тогда оценки матриц В
и ЧГ имеют вид
B = Si2Sn\ B0)
5ц — BS22B' = 5ц — S12S22 ^21- B1)
Корни vi, ..., vPl уравнения
| SuSnS2i — v («и — Si7$nS2i) I = 0 B2)
являются оценками величин vb ..., v^. Пусть вектор а^
является решением уравнений
[Sis^^i — п Eц — SnS22lS2i)] а = 0, B3)
а' Eц — S12SvS2i) а = 1. B4)
Тогда v/ = /?/A_-— //) и а(/) = [l/(l — /?)f2 а@. Следовательно,
величина (l/к vi)B'al = ct равна ^.
Эти алгебраические выкладки допускают геометрическую
интерпретацию. Столбцы матрицы (л^, .. ., xN) можно
представить в виде /7-мерных векторов в Л/-мерном пространстве,
а строки (хх — ху ..., л:^ — л:) представляют собой проекции
/?-мерных векторов на (N— 1)-мерное подпространство,
ортогональное к прямой, образующей равные углы с осями
координат. Обозначим их х\, .... х*Р. Любой вектор и* с
компонентами я {х^ — Х{1\ ..., ЛГ/v— x{1)) = oliX*i-\- ... +аР|лрр|
содержится в /?х-мерном пространстве с базисными
векторами #*, ..., х*рt, а вектор v* с компонентами у' (xW—xV\ ...
..., л$> — лЯ) = Ti*pl+i +• • - + TPl*p содержится в
^-мерном пространстве с базисными векторами х* v ..., лг*#
Косинус угла между этими двумя векторами равен коэффи-
12 4] СПОСОБ ВЫЧИСЛЕНИЙ 407
циенту корреляции между величинами иа = а'х^ и va = ч'х*®
(а=1, ..., N). Задача нахождения векторов а и у, при
которых коэффициент корреляции достигает максимума,
эквивалентна задаче определения таких векторов в /?х-мерном и
в /?2-мерном пространствах, угол между которыми принимает
наименьшее значение (и, следовательно, косинус принимает
наибольшее значение). Отсюда находится первая пара
канонических величин, и первая каноническая корреляция равна
косинусу этого угла. Аналогично вторая пара канонических
величин соответствует векторам, ортогональным первым двум
каноническим величинам, причем угол между векторами,
входящими во вторую пару, минимален.
12.4. Способ вычислений
Здесь будет дано краткое изложение метода вычислений
в терминах величин, относящихся к совокупности. Обычно
используются формулы E0), E1), E2) § 12.2. Вычисление
матрицы 2i2222!22i описано в § 8.2.3. Эту матрицу можно
также найти, вычислив из уравнения 221 = 222F величину
/?—222J22i и умножив результат на 212. Если число рг
достаточно мало, то определитель IS^^^i — V2n | можно
разложить по степеням v и полученное алгебраическое
уравнение можно решить относительно v. Решение подставляется
затем в формулу E1), откуда находятся векторы а.
Во многих случаях число рх слишком велико, и этот
метод оказывается неэффективным. Тогда следует применять
метод последовательных приближений
^\2^%\Л @ = X2 (/ + 1) Sn« (/ + 1). A)
В качестве исходного приближения выбирается а@); вектор
а(/+1) можно нормировать при помощи соотношения
Обычно вместо соотношения A) используется
SiVSuia^i* @ = X2 (/ + 1) а (/ + 1) C)
(для этого решается уравнение S^S^i^i = 2ц?). Тогда
Х2(/-+-1) сходится к X2, a «(/-f-1) сходится к а^ (если
^i > ^г)« Это можно показать с помощью метода, применяв-
408 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ ГГЛ 12
шегося при выводе аналогичных соотношений для главных
компонент. Из формулы D5) § 12.2 можно заключить, что
2ii S12S22 22i = ДА А" . D)
Результат (/-f 1)"го приближения равен
«(/+1) = ^/+1(ЛА2Л-1)/+1«@) = ^ИА2(/ + 1)Л-1а@), E)
где ti+l — нормирующий множитель. При этом матрица
//+1A2(f+1) сходится к матрице, в верхнем левом углу
которой стоит единица, а на всех остальных местах — нули.
Отсюда следует, что а(/+1) сходится к вектору, который
только постоянным множителем отличается от первого столбца
матрицы А, равного вектору аA>.
Уравнение D) имеет вид
2 «">х?««>', (б)
где а'1>'—/-я строка матрицы Л. Из того, что А'ЯцА — /,
следует, что- А'2ц = А'1, и, таким образом,
«ОХ = ?«>'. G)
Воспользуемся формулой
(8)
Максимальный характеристический корень этой матрицы
равен Х|. Если эту матрицу использовать для получения
следующих приближений, то можно будет вычислить X2 и аB).
Этот процесс продолжается до тех пор, пока не будет
найдено желаемое количество Х/2) и а@.
Если Х^ и «W заданы, то у(/) находится из соотношения
221«@ = ХДау*0 или (l/X/)S2"*21S2ia(O = T(/). Для проверки
вычислений следует сравнивать 212у(/) и Х^ЕцЯ^.
1 = 2
<°
0
X2
0
... 0
... о
... 4,
12.51
ПРИМЕР
409
В случае, когда вычисления проводятся для выборки,
вместо 2;у всюду используются 2^ или S/7-. Часто в
вычислениях для получения Sxa{j) и S2cJ) оказывается удобным
применять Ry (так как —1 < rtj < 1); отсюда легко
вычислить а^] и си'К
12.5. Пример
В этом параграфе для иллюстрации будет рассмотрен
простой пример. К. Р. Рао ([15], стр. 245) приводит
измерения, проделанные над первыми и вторыми взрослыми
сыновьями в выборке из 25 семей. (Эти данные были использованы
в задаче 1 главы 3 и в задаче 17 главы 4.) Пусть хи — длина
головы первого сына из сс-й семьи, а2а — ширина головы первого
сына, хга — длина головы второго сына и х4а — ширина
головы второго сына. Исследуем соотношения между
измерениями для первого сына и измерениями для второго сына.
Таким образом, х%)' =(*1в, *2а) и х®'=(хда, х4а)- Данные
можно записать в виде *)
*' = A85,72; 151,12; 183,84; 149,24),
95,2933 52,8683 69,6617 46,1117>
52,8683 54,3600 51,3117 35,0533
69,6617 51,3117 100,8067 56,5400
.46,1117 35,0533 56,5400 45,0233,
Корреляционная матрица равна
R =
1,0000 0,7346
0,7346 1,0000
0,7108 0,7040
0,6932 0,7086
0,7108 0,6932
0,7040 0,7086
1,0000 0,8392
0,8392 1,0000
#11 #12
)i К. оо
B)
!) В вычислениях Рао допущена ошибка; последняя «разность»
у него вычислена неправильно.
410
КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ
[ГЛ 12
Все коэффициенты корреляции равны приблизительно 0,7
(кроме коэффициента корреляции между двумя измерениями
над вторыми сыновьями). Ранг матрицы /?12 почти равен
единице и, следовательно, второй канонический коэффициент
корреляции приблизительно равен нулю.
Вычислим
_1 /0,405 769 0,333 205
#22 /?2i = ( о,363 480 0,428 976
/?12/?22
0,544 311 0,538 841
0,538 841 0,534 950
C)
D)
Детерминантное уравнение имеет вид
! 0,544 311 — v 0,538 841 — 0,7346v
0=i
0,538 841 — 0,7346v 0,534 950 — v
= 0,460 363v2 _ o,287 596v -f 0,000 830. E)
,3665014
Корни равны 0,621816 и 0,002900; таким образом, /1 =
= 0,788553 и /2 = 0,053852. Этим корням соответствуют
векторы
(б)
где Sx — диагональная матрица с диагональными элементами
~ = 9,7618, "/^ = 7,3729. Умножая (l//,)/?»1^ на
получим
0,504511\
0,538242 Г
\ G)
1.767281N f ;
-1,757288/'
где 52 — диагональная матрица с диагональными элементами
12.5]
ПРИМЕР
411
'$зз= 10,0402 и ]Л44 = 6,7099. Для проверки вычислим
j^RuRi2\S2c -)= ^0,521560/'
1 ,
1,365151\
(8)
Первый вектор в (8) очень близок к первому вектору в F);
на самом деле, он вычислен даже несколько точнее, так
как последнее действие над S{a^ эквивалентно одному
шагу метода последовательных приближений. Второй
вектор (8) оказывается уже не настолько близким ко второму
вектору F). Во-первых, /2 вычисляется с точностью до
четырех или пяти значащих цифр (так же, как v2~ll) и, таким
образом, компоненты вектора S2c^ могут быть верными
только с такой же точностью; во-вторых, поскольку S2c^2)
соответствует меньшему .корню, процесс последовательных
приближений не увеличивает, а уменьшает точность.
Окончательный результат имеет вид
A) B)
/. = 0,789, 0,054,
'0,0566\ / 0,1400
,0,0707^' V—0,1870 ^ * (9)
'0,0502\ / 0,1760
ч0,0802/' \—0.2619
Наибольшая из двух канонических корреляций» 0,789,
больше любого коэффициента корреляции между величинами,
принадлежащими различным множествам. Вторая
каноническая корреляция очень близка к нулю. Эго означает, что при
изучении соотношений между двумя размерами головы
первых сыновей и вторых сыновей следует сосредоточить
внимание на первой паре канонических величин; канонические
величины второй пары слабо коррелированы. Первые
канонические величины каждого множества приблизительно
пропорциональны соответствующим суммам двух измерений,
деленным на соответствующие стандартные отклонения; вторые
канонические величины каждого множества приблизительно
пропорциональны разности двух стандартизованных измерений.
412 КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ И ВЕЛИЧИНЫ [ГЛ. 12
ЛИТЕРАТУРА
Бартлетт [6]; Виногрейд [1]; Квенауил [21;
Кендал л [4], стр. 348—354; К р у л л ь [1], [2]; К. Р. Р а о [15]; С. Р о й
[13]; Стил [1]; Уилкс [10], стр. 257—260; У о [1]; Финне й
[3]; Хотеллинг [3], [5].
ЗАДАЧИ
1. Найти канонические корреляции и канонические величины
для двух первых и трех последних величин из задачи 18 главы 4.
2. Доказать непосредственно аналог теоремы 12.2.1 для выборки.
3. Дать точное выражение для нормирующего множителя ^+1
в формуле E) § 12.4 и доказать, что матрица ^+1А2^+1^ сходится
к матрице, в левом верхнем углу которой расположена единица,
а на всех остальных местах — нули.
4. Пусть ?а = -г1а=1, а = 1,..., п и В = 0. Проверить, что
аО) =2"^. Сравнить этот результат с дискриминантной функцией
(глава 6).
5. (а) Пусть
где а и х — векторы. Доказать, что выбор векторов а и у, дающих
максимум M.UV, эквивалентен выбору векторов « и у, дающих
минимум обобщенной дисперсии (U}V).
(б) Пусть
X'
2„
2,1
2ц
232
2»
S23
S33
Рассмотреть задачу определения векторов а, у и 0, дающих
минимум обобщенной дисперсии вектора (?/, К, W). Показать, что этот
минимум является инвариантным по отношению к преобразованиям
{1) ^
^ \1\Ф
(в) Пользуясь этими преобразованиями, представить S в
наиболее простой форме.
(г) В случае, когда векторы Х{1) двумерные, свести задачу
нахождения минимума обобщенной дисперсии к простейшему виду.
(д) В этом случае записать уравнения в конечных разностях.
(е) Показать, что минимальная обобщенная дисперсия равняется
единице в том и только в том случае, если 212 = 0, Si3 = 0, 22з = 0.
(Примечание. Это обобщение понятия канонических
величин не позволяет построить «изящную» строгую теорию.)
ГЛАВА 13
РАСПРЕДЕЛЕНИЕ
НЕКОТОРЫХ ХАРАКТЕРИСТИЧЕСКИХ КОРНЕЙ
И ВЕКТОРОВ, НЕ ЗАВИСЯЩИХ ОТ ПАРАМЕТРОВ
13.1. Введение
В этой главе будет найдено распределение выборочных
векторов главных компонент и их выборочных дисперсий
.при условии, что дисперсии совокупности равны 1 (§ 13.3).
Затем будет найдено распределение выборочных
канонических корреляционных матриц и одного множества
канонических векторов в случае, когда два множества исходных
величин независимы. Будет показано, что второе из этих
распределений совпадает с распределением корней и векторов,
которое будет получено в следующем параграфе.
Распределение этих корней представляет особый интерес, так как
многие инвариантные критерии являются функциями этих
корней.
Например, инвариантные критерии для общей линейной
гипотезы (§ 8.10) зависят от выборки только через корни
уравнения
|(В,а ~ЩАи4К -В;)'-ХЛГ22|=о. A)
Если гипотеза верна, то распределение корней определяется
теоремой 13.2.2 или 13.2.3*. Таким образом, уровень
значимости любого инвариантного критерия для общей
линейной гипотезы можно получить из распределения, которое
будет выведено в следующем параграфе. Если величиной,
определяющей критерий, является один из упорядоченного
набора корней (например, наибольший корень), то искомое
414 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
распределение является частным распределением,
полученным из совместного распределения корней.
Другие распределения корней, приведенные в этой
главе, оказываются полезными для других инвариантных
критериев. Те же распределения возникают как предельные
распределения при рассмотрении более сложных задач
(например, при нахождении распределений корней в случае,
когда неверна общая линейная гипотеза).
13.2. Случай двух матриц Уишарта
13.2.1. Преобразование. Рассмотрим матрицы А* и В*
порядка (/>ХР). независимые и распределенные по законам
W(L, т) и W(Lt п) соответственно (т, п^> /?). Назовем
корни уравнения
| А* _ ХВ* | = 0 A)
характеристическими корнями А* в метрике В* и
векторы, удовлетворяющие уравнению
0, B)
характеристическими векторами А* в метрике В*.
В этом параграфе будет рассмотрено распределение этих
корней и векторов. Позднее будет показано, что квадраты
канонических корреляций имеют это распределение, если
все канонические корреляции генеральной совокупности
равны нулю.
Вначале преобразуем А* и В* таким образом, чтобы
распределения не содержали произвольной матрицы 2. Пусть
С—матрица такая, что
/. C)
Пусть
Тогда А и В независимы и распределены по законам
W(It m) и W(I, n) соответственно (§ 7.3.3), Так как
\А — 1В | = | СА*С — \СВ*С | =
/| = |C| |A* — ХД*1 |С|.
13 21 СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА 415
то корни уравнения A) являются корнями уравнения
E)
Соответствующие векторы, удовлетворяющие уравнению
(А — Щх = О, F)
удовлетворяют уравнению
0 = (Г1(А — \В)х = С (СА*С — \СВ*С) х =
G)
Таким образом, векторы х* равны векторам С'х.
Будет удобно рассматривать корни уравнения
(8)
и векторы у, удовлетворяющие уравнению
[A~f(A + B)]y = 0. (9)
Последнее уравнение можно записать в виде
A0)
Так как вероятность того, что /=1 (т. е. того, что
} — В | = 0), равна нулю, то уравнение A0) принимает вид
Таким образом, корни уравнения E) связаны с корнями
уравнения (8) соотношением Х = //A—/) или / = Х/A-[-Х)
и векторы, удовлетворяющие уравнению F), равны (или
пропорциональны) векторам, удовлетворяющим уравнению (9).
Рассмотрим теперь задачу нахождения распределения
корней и векторов, удовлетворяющих уравнениям (8) и (9).
Пусть корни расположены в порядке возрастания /г > /2 >
> ... > fp > 0 (так как вероятность равенства двух корней
равна нулю). Положим
A2)
О 0 ... f
416 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ (ГЛ. 13
Пусть соответствующие векторные решения уравнения (9),
нормированные при помощи соотношения
1, A3)
равны yv ..., ур. Эти векторы должны удовлетворять
уравнениям
У/(А + *).УУ = О, 1Ф1 О4)
так как у\Ау, = f)y't (A + В)у^ и у\Ау} =fty\ (A + B)yJt
а это может быть только тогда, когда выполняется A4)
(// ф /р.
Пусть матрица У порядка (р X р) равна
? = (У1,...,Ур). A5)
Уравнение (9) может быть записано в виде
AY = (A-\-B)YF, A6)
а из уравнений A3) и A4) следует, что
Y'(A-\-B)Y = I. A7)
Из уравнения A6) имеем
Y'AY=Y'(A + B) YF= F. A8)
Умножение A7) и A8) слева на (Y')~l и справа на Y~l
приводит к
Положим теперь F~1 = ?. Тогда
A=rE'FE,
B0)
Рассмотрим совместное распределение матриц Е и F.
Из уравнения B0) видно, что А и В однозначно
определяются по Е и F. Из уравнений (8) и (9) и из условия
fx > ... > fp следует, что F однозначно определяется
по А и В. Уравнение (8) при / = // и уравнение (9)
однозначно определяют yt с точностью до умножения на — 1
13.2] СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА 417
(т. е. с точностью до замены yt на —у(). Так как К? = /,
то это означает, что Е определяется однозначно, если
не учитывать того, что строки матрицы Е можно умножать
на —1. Чтобы избавиться от этой неопределенности,
потребуем, чтобы еп^0 (вероятность того, что еп = 0 равна
нулю). Таким образом, Е и F однозначно выражаются через
А и В.
13.2.2. Определитель Остроградского — Якоби. Чтобы
найти плотность вероятности Е и F, подставим в плотность
вероятности А и В выражения B0) и умножим на
определитель преобразования. Этот параграф будет посвящен
вычислению определителя Остроградского — Якоби1)
д(Л, В)
ЩТ)
Так как определитель преобразования от А и В к А
и G = A-\-B равен единице, то находим
B2)
д(А, О)
d(E,F)
д{А,В)
d(E,F)
Отметим вначале, что если ха — fa(yv ..., уп),
а=1, ..., п, — взаимно однозначное преобразование, то его
определитель Остроградского — Якоби представляет собой
определитель линейного преобразования.
где dxa и dy$ только формально являются
дифференциалами (т. е. они пишутся с мнемонической целью). Если
fa(yv ..., уп) — многочлен, то — есть коэффициент при
у* в выражении для /а(^i + У*. •••» Уя+Уд) [по существу,
коэффициент в выражении для fa(yv ..., Ур-i» Ур + Уя»
Ур+i» •••» Уп)]* Элементы матриц А и О являются
многочленами от элементов матриц Е и F* Итак, производная
элемента матрицы А есть коэффициент при элементе
матрицы Е* или F* в выражении (Е + ?*/ (F + F*) (Е + ?*)
1) См. примечание на стр. 22.
14 Т. Андерсон
418 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
и производная элемента матрицы G есть
коэффициент при элементе матрицы Е* или F* в разложении
(Е-\-Е*У (Е-{-Е*). Таким образом, определитель
Остроградского— Якоби преобразования от AuGkEhF является
определителем линейного преобразования
dA = (dEYFE -f E1 (dF)E+E'F(dE), B4)
dG = (dE)fE -f El (dE). B5)
Так как матрицы А и G {dA и dG) симметрические, то
используются только функционально независимые скалярные
уравнения для их элементов.
Умножив B4) и B5) слева на Е'~1 и справа на E~lt
получим
E'~l id А) Е~1 = Е'~х (dE)'F+ dF+ F(dE) ЕГ\ B6)
E'~l (dG) E~l = E'~l (dE)' + (dE) ?-1. B7)
Следует иметь в виду, что B4) и B5) рассматриваются
теперь как линейные преобразования независимо от того,
каким путем были получены уравнения.
Пусть
E^1(dA)E"l = dAf B8)
E'~l(dG)E~l=:dG, B9)
(dE)E~l = dW. C0)
Тогда
C1)
C2)
Линейное преобразование от dE% dF к dA% dG
рассматривается как произведение линейного преобразования от dE,
dF к dW, dF с определителем |?"*1|р= \Е\~Р (так как Е~1
преобразует каждую строку dE) линейного
преобразования от dW, dF к dA, dG и линейного преобразования
от dA, dG к dA = E'(dA)E, dG = Er {dG) E с определителем
\E\P+1\E\P+1 (согласно § 7.З.З.); определитель линейного
преобразования от dE, dF к dA, dG является
произведением определителей этих трех преобразований. Преобра-
13 2]
СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА
419
зование C1), C2) может быть записано через элементы
матриц
au = dfli-\-2fldwu.
n = 2 dwu,
= dwn -f- dwl)t
i<J>
i<J.
Определитель этого преобразования равен
dfn
dan
C3)
где
0
0
0
2F
2/
0
0
2F
2/
0
0
M
I
M
I
N
I
О
О
N
I
— 2Р\М — N\, C4)
и.
dalp
da%z
M= '•
da2p
•
dw12...
0 ...
0 ...
0 ...
,0 ,„
dwXp
0
/i
0
0
•
i
1 °
:
I
1 о
! о
0
з... dw2p
... 0
... 0
... о
,,, 0 =
1 • • •
• • •
j
! 0
|
0
о
0
//7-1 -
C5)
14
420
и
РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ
[ГЛ. 13
dw2x ... dw
pl
... dw,
P,P-i
N= .
da12
dalp
u.
da2p
•
dap-uP
"/2
0
0
0
_ 0
... 0
... /p
... 0
... 0
... 0
0 .
0 .
i л •
1 ° •
0 .
.. 0 1
1
i
.. 0
.. 0
f
.. 0
...
0 -
0
0
0
! /p -
Тогда
![
C6)
C7)
Определитель линейного преобразования C1), C2) равен
''+1Г+1 *JLi-f} =
C8)
Теорема 13.2.1. Определитель Остроградского —
Якоби преобразования B0) равен абсолютной величине
выражения C8).
13.2.3. Совместное распределение матрицы Е и
характеристических корней. Совместная плотность
вероятности матриц А и В имеет вид
% m)w(B\I, я)==
13.2] СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА 421
где
1, п) =
Следовательно, совместная плотность вероятности матриц Е
и F равна
р 2 v T I F'F\ 2 II Г/ f ^ Г4П
Так как |?'<Р?| = |?'| \F\\E\ =
|?'(' — /=¦)?! = |/—FUE'fi^ П (!—//) l^'^l. то
плотность вероятности матриц ? и F равна
X
П,-/;). D2)
Очевидно, матрицы Е и F статистически независимы, так
как плотность вероятности является произведением функции
от Е и функции от F. Для определения частных плотностей
остается только найти две нормирующие постоянные
(произведение которых равно 2рСг).
Оценим интеграл
^m+np)e-^pE'EdE, D3)
где интегрирование распространяется на 0 < *д < оо.
— oo<fy<oo, ]Ф\. Значение интеграла D3) Не
изменится, ееди цодожщь —с® .<*д<°9 Ч результат
422 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ 13
умножить на 2~р. Таким образом, выражение ^43) равно
- D4)
Выражение D4) только постогнным множителем BиJ
отличается от математического ожидания величины \Е'Е\
в степени -~ (т + /г — /?), когда функция в квадратных
скобках представляет собой плотность вероятности величин et*. Это
математическое ожидание представляет собой -^(т-^-п—/?)-й
момент обобщенной дисперсии \Е'Е\9 когда Е'Е
распределена по закону W(f, p) (см. § 7.5). Таким образом,
выражение D4) равно
Следовательно, плотность вероятности матриц Е имеет вид
р
2 Д
D6)
Плотность вероятности величин fi определяется
выражением D2), деленным на D6); другими словами, плотность
вероятности величин ft равна
/? Uft)%ft-fj) D7)
13.2] СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА 423
при 0<Д< ... <Д< 1, где
с2=-
/«1
D8)
Плотность вероятности величин Х/ получается из D7),
если положить
откуда
1 <49)
Таким образом, плотность вероятности величин \ равна
ч-К) E0)
при 0 < 1р < ... < 1г.
Теорема 13.2.2. Если матрицы А и В независимы
и распределены по законам №B, т) и W (L. п) соответ»
стаенно (т^р, п^р), то совместная плотность рас*
пределения корней уравнения \А — \В\ =0 дается
формулой E0), где С2 определяется по формуле D8).
Совместную плотность вероятности матрицы Y можно
найти из выражения D6), пользуясь тем обстоятельством, что
определитель равен |К|-2^ (см. теорему 11 приложения 1).
13.2*4. Распределение корней в случае, когда
матрица А вырожденная. Приведенную выше матрицу А
можно представить в виде
4=2 КЖ, (S1)
а-1
424 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
где векторы Ya линейно независимы и одинаково распреде-.
лены с законом распределения N@, /). Рассмотрим случай
т < р. Найдем распределение ненулевых корней уравнения
0 E2)
при т < р.
Для вывода этого распределения положим A-\-B = Q.
Совместная плотность вероятности В и Ya равна
_ (Л-р- 1) -_ sp? -I spA
_ ""' , '' S^-. E3)
Определитель преобразования от у1а и Вк у1а и С = A -f- В,
очевидно, равен единице, так что совместная плотность
вероятности yia и Q равна
E4)
Пусть С = СС где С—квадратная матрица, выбранная
некоторым способом. Это просто определение матрицы С,
которая будет использована для преобразования yia, т. е. мы не
заменяем матрицу G ее выражением через С. Пусть
Г = (у,а)=а/. E5)
Здесь f/ = (tf/e) имеет то же число строк и столбцов, что и
Y (/=1, ..., р, а=1, ..., т). Определитель
преобразования, ставящего в соответствие а-му столбцу матрицы U
а-й столбец матрицы К, равен |С|, так что определитель
всего преобразования имеет вид
C|m= |G|Tm. E6)
Тогда
A=YY' = CUU'C\ E7)
\0 — А\ = \0C—CUU'C\ =
ТЗ 2] СЛУЧАЙ ДВУХ МАТРИЦ УИШАРТА 425
Таким образом, из E4) следует, что совместная плотность
вероятности матриц О и U равна
-т (п+т-р-1) тг (л-р- 1) —г spO
E9)
Проинтегрируем по G, используя то обстоятельство, что
эта матрица распределена по закону W (/, т + п); это
следует из E9), и кроме того становится очевидным, если
вспомнить, что по определению матрица О равна А-{-В.
Плотность вероятности элементов матрицы U оказывается
равной
П
F0)
Величины /;, распределение которых требуется найти,
являются ненулевыми корнями уравнения
0=\A-f(A4-B)\ = \A-fG\ =
= \CUU'C—fCC\ = \C\ • \UU' — fI\ • |С|. F1)
Так как матрица С невырожденная, то величина ft
удовлетворяет уравнению
\UU' — ff\=0. F2)
Покажем, что ненулевые корни ft уравнения F2) равны
ненулевым корням уравнения
\U'U — //|=0. F3)
Для каждого корня / Ф 0 уравнения F2) существует вектор лг»
удовлетворяющий уравнению
(UU' — ff)x = 0. F4)
При умножении на V слева получим
0 = W (UU' — fl)x = (U'U — /I) U'x. F5)
Таким образом, U'x — характеристический вектор матрицы
U'U, а / — соответствующий характеристический корень.
426 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
Пусть fx > ... > fm — ненулевые корни уравнения F2).
Тогда |^'_//|=Ц(/,_/)(_//-™ и )?/'*/-//( =
Полагая / = 1, получим
F6)
При подстановке выражения F6) в F0) задача сводится к
нахождению распределения т ненулевых корней 1 > fx > ...
• • • > fm > 0 уравнения F3), где вектор t/ имеет
плотность вероятности
tf'tfl701*. F7)
Рассуждая так же, как при выводе E9) и F2) в случае,
когда число измерений вектора не больше числа векторов
в матрице А, можно показать, что формула D7) (со
звездочками при переменных) дает распределение корней
уравнения
\Uj/m-fF\ = 0. F8)
где {/„, (с р* строками и т* столбцами, т*^р*) имеет
плотность вероятности
^-р*-\ <б9>
Если положить т* = р, р* = т> п* — п + т — р и U^^Uft
то формулы F8) и F9) совпадут с формулами F3) и F7)
и, таким образом, fv ..., fm должны быть распределены
по закону D7), где р, т и п заменены соответственно
на /», р п п-\-т — р, т. е.
/Ч
t-\
i-1 K
13.3] СЛУЧАЙ ОДНОЙ НЕВЫРОЖДЕННОЙ МАТРИЦЫ УИШАРТА 427
Теорема 13.2.3. Если распределение матрицы А
т
совпадает с распределением 2 Y*Ya* г^е векторы Ya
а = 1
независимы и одинаково распределены с законом
распределения N@, 2), т^рУ'и матрица В распределена
по закону WB, n), п^>р, независимо от Ка, то
плотность вероятности ненулевых корней уравнения
\A — f(A-\-B)\=Q дается формулой G0).
Интересно отметить, что эти распределения корней были
найдены независимо примерно в одно и то же время
Фишером [7], Гиршиком 12], Хсу [2], Мудом [3] и
С. Роем [2], [3]. Вывод выражения для определителя
Остроградского — Якоби в § 13.2.2 принадлежит в
основном Хсу, как указывают Димер и Олкин [1].
13.3. Случай одной невырожденной матрицы Уишарта
В этом параграфе будет найдено распределение
вероятностей корней уравнения
\А — Х/|=0, A)
где матрица А распределена по закону W(l, n). Будет
показано, что дисперсии главных компонент выборки объема
я-j-l из совокупности Л/({1, /), составляют \/п корней
уравнения A). В дальнейшем нам понадобится следующая теорема.
Теорема 13.3.1. Если плотность вероятности
симметрической матрицы В имеет вид g(kv ..., \р), где
\> • • • > ^р — характеристические корни матрицы В,
то совместное распределение этих корней имеет вид
B)
*~1
Доказательство. Из теоремы 2 приложения 1
известно, что существует ортогональная матрица С такая, что
C)
428
РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ
(ГЛ 13
где
А=
D)
Если числа X перенумерованы в порядке убывания их
величин и если ?д!>0, то (с вероятностью 1) преобразование
от В к А и С единственно. Пусть матрица С задается
координатами С\ СР(р_1)/2, и пусть определитель
Остроградского— Якоби преобразования равен /(А, С). Тогда
совместная плотность вероятности матриц А и С равна
g(kv ..., X )/(А, С). Для доказательства теоремы требуется
показать, что %р (p+iy4 тт (Х. __ А^
К)
d
/
E)
Чтобы показать это, возьмем частный случай, когда B =
и плотность вероятности матрицы U порядка рУ^т
имеет вид
|/—UU'\*
F)
Тогда по лемме 13.3.1, которая будет доказана ниже,
плотность вероятности матрицы В равна (
¦R
-lp(p-l)
п
X
X
A—
X
„). G)
Совместная плотность вероятности матриц А и С равна
/¦(А, <?)?*(>•! Хр). В предыдущем параграфе было до-
13.5] СЛУЧАЙ ОДНОЙ НЕВЫРОЖДЕННОЙ МАТРИЦЫ УИШАРТА 429
казано, что частное распределение матрицы А выражается
формулой E0). Таким образом,
••• //(A, C)dC=
7V К). (8)
Этим заканчивается доказательство формулы E) и,
следовательно, теоремы.
Утверждение G), использованное выше, основывается на
следующей лемме.
Лемма 13.3.1. Если плотность вероятности
матрицы Y порядка рХт равна f(YY')> то плотность
вероятности матрицы B=YY' равна
Доказательство этой леммы, гак же как и доказательство
теоремы 13.3.1, сводится к проверке утверждения в одном
частном случае; пусть /(КК/) = Bтг) 2 е 2 ; тогда
распределение (9) представляет собой w{B\I, m).
Определим плотность вероятности корней уравнения A).
Плотность вероятности матрицы А равна
A0)
t<j
430 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
Отсюда по доказанной теореме находим распределение
характеристических корней матрицы А
A1)
Теорема 13.3.2. Если матрица А порядка рХР
распределена по закону W(I, n), то плотность
вероятностей характеристических корней \^\^> ...
... !> Ьр ^> 0 выражается формулой A1) всюду, где
плотность вероятности не равна нулю.
Следствие 13.3.1. Пусть vt^- ... ^vp — выборочные
дисперсии главных компонент выборки объема N = n-\-l
из совокупности Л/"({1, а2/). Тогда плотность
вероятности величин (л/о2)г^ выражается формулой A1).
Характеристические векторы матрицы А определяются
однозначно (с точностью до множителя —1) с вероятностью 1
из уравнений
(А — X/)v = O, )
A2)
так как с вероятностью 1 корни различны. Пусть эти
векторы при Уу^О равны
гР
Тогда
AY=YA. A4)
В соответствии с доказанным в § 11.2,
Y'Y = I. A5)
Умножение выражения A4) справа на К~ — Y дает
A=YLY*. A6)
Таким образом, Y' = С, определенной выше.
Рассмотрим совместное распределение матриц А и С.
Распределение матрицы А равно
07)
13.3] СЛУЧАЙ ОДНОЙ НЕВЫРОЖДЕННОЙ МАТРИЦЫ УИШАРТА 431
где векторы Ха независимы и одинаково распределены с
законом распределения N@, /). Пусть
X*a = QXa, A8)
где Q — любая ортогональная матрица. Тогда векторы Ха
независимы и распределены по закону TV @, /) и матрица
A9)
распределена по закону W(I, n). Характеристические корни
матриц А* и А соответственно равны; таким образом, из
соотношений
Л*=С**АС*
определяется С**,
Пусть
если потребовать ct
*
=
0
0
0 ...
4
| С21
о ...
0
0
#
. Пусть
B0)
B1)
B2)
B3)
причем с*п/I e*j 1 = 1, если с*, = 0. Таким образом, «/(С*) —
диагональная матрица; i-й диагональный элемент равен
единице, если с*а !> 0, и минус единице, если с*п < 0. Таким
образом,
С** = J(С*) С* = /(CQf) CQ'. B4)
Распределение матрицы С** совпадает с распределением
матрицы С. Покажем, что это обстоятельство полностью
определяет распределение матрицы С.
Определение 13.3.1. Если распределение
случайной ортогональной матрицы Е порядка рУ.р таково, что
432 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ 13
матрица EQf имеет то же распределение для любой
ортогональной матрицы Q, то распределение матрицы Е
называется «инвариантным по Хаару» (или
нормированной мерой).
Такое определение оказывается возможным, так как было
доказано, что существует только одно распределение с
требуемым свойством инвариантности (Халмош [1]). Было также
показано, что это распределение является единственным
инвариантным относительно умножения слева на ортогональную
матрицу (т. е. распределение матрицы QE совпадает с
распределением матрицы Е). Отсюда следует, что с
вероятностью — матрица Е такова, что еп ^> 0. Это можно
показать следующим образом. Пусть Jt J2p — 2Р
диагональных матриц с элементами -f-1 и —1. Так как
распределение матриц JtE и Е совпадает, то вероятность того, что
еп ^ 0, равна вероятности того, что все элементы первого
столбца матрицы JtE неотрицательны. Эти события при
/=1 2Р взаимно исключают друг друга и образуют
полную систему (с точностью до элементов, равных 0,
вероятность которых 0) и, таким образом, вероятность каждого
из них равна 1/2*\
Условное распределение матрицы Е при условии еп ^ 0
равно инвариантному по Хаару распределению в этой части
пространства, умноженному на 2Р. Будем называть его
условным инвариантным по Хаару распределением.
Лемма 13.3.2. Если распределение ортогональной
матрицы Е таково, что еп ;> 0, и если оно равно
распределению матрицы ?** = J(EQf) EQ' при любых
ортогональных матрицах Q, то матрица Е имеет
условное инвариантное по Хаару распределение.
Доказательство. Пусть пространство V
ортогональных матриц разбивается на подпространства Vv .,., V2p
таким образом, что, например, JiVi = Vv где JX = I и Vx —
множество, для которого еп^0. Пусть [х — мера Vv
соответствующая распределению матрицы Е, о котором идет речь
в лемме. Мера \l(W) измеримого множества W в
подпространстве Vt определяется, как (l/2p)\>4(JiW). Покажем
теперь, что р—инвариантная по Хаару мера. Пусть W — лю-
13.3] СЛУЧАЙ ОДНОЙ НЕВЫРОЖДЕННОЙ" МАТРИЦЫ УИШАРТА 433
бое измеримое множество в Vv Утверждение леммы'сводится
к тому, что
= 2 Pi Wt WQ' П Vt]) = 2рр (WQ').
2Р
Если U — любое измеримое множество в V, то U = ^J (U f> Vj).
Так как ji(t/ nKy) = (l/2p)^1 [Уу(?/ П^у)], то .из изложен-
ного выше следует, что это выражение равно у>[(У [\V j)Q'\.
Таким образом, (*•(?/) = р. (?/<?')• Следовательно, мера {х
инвариантна, и [Xj — условное инвариантное распределение.
Из леммы следует, что распределение матрицы
С—условное инвариантное по Хаару. Так как условное
распределение матрицы С при фиксированной матрице А совпадает
с безусловным распределением, то Си А независимы.
Теорема 13.3.3. Если С—У\ где Y = (YV ..., Yp)~
нормированные характеристические векторы матрицы А
пРи Уи^-0 и матрица А распределена по закону W(f, ri),
то распределение матрицы С является условным
инвариантным по Хаару и это распределение не зависит
от характеристических корней. . ;
Эти результаты позволяют обобщить теорему 13.3.1.
Теорема 13.3.4. Если плотность вероятности
симметрической матрицы В имеет вид g(\, .... X ), где
Xj > ... > Х^ — характеристические корни матрицы В,
то совместное распределение корней выражается фор-
мулой C), матрица нормированных
характеристических векторов У(Уц^>0) не зависит от матрицы В и ее
распределение является условным инвариантным по
Хаару. :
Доказательство. Плотность вероятности матрицы
QBQ', где QQ' = /, равна плотности вероятности В в силу
инвариантности характеристических корней, и, следовательно,
распределение матрицы J(Y'Q') Y'Q' совпадает с
распределением матрицы У. Утверждение теоремы 13.3.4 следует из
леммы 13.3.2.
Применим эту теорему к случаю, когда матрица В = В'
распределена нормально, причем (функционально независимые)
434 РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
компоненты матрицы В независимы, средние значения их
равны нулю и дисперсии ЖЬ2ц = 1 и М#?у = -^ (L < у).
Теорема 13.3.5. Пусть плотность вероятности
матрицы В = В' равна
B5)
Тогда плотность вероятности характеристических
корней Xj > ... > Хр матрицы В равна
\t — x;), B6)
матрица Y нормированных характеристических векто-
Ров (Уи^-О) не зависит от матрицы В и ее
распределение является условным инвариантным по Хаару.
Доказательство. Утверждение теоремы
непосредственно следует из того, что характеристические корни
матрицы В2 равны X? Х? и sp В2 = 2 ^?*
13.4. Канонические корреляции
В § 12.3 было показано, что выборочные канонические
корреляции равны квадратным корням из корней уравнения
| * *~~i^l fAu I = 0 (\}
где
N
Aij = 2l\X* —Х Дла —Л ), B)
и вектор
распределен N({1, S), где
(П /) D)
В § 3.3 было показано, что распределение матрицы Atj
совпадает с распределением матрицы
13 4] КАНОНИЧЕСКИЕ КОРРЕЛЯЦИИ ' 435
где n = N — 1 и вектор
/K(i)\
К= F)
распределен N(О, 2). Предположим, что размерность рг
вектора КA) не больше размерности р2 вектора Y®\ Тогда
имеются р1 ненулевых корней уравнения A)
/, > /2 > - • • > /рг- G)
Найдем распределение корней [ft}9 тогда
212 = 0. (8)
Временно зафиксируем {К?*}. Тогда матрица
^фиксирована и
(9)
является матрицей коэффициентов регрессии вектора
на КB>. Из § 4.4 известно, что
S (
а=1
== Ли — ВА22В' = Ац — А12А22гА2] A0)
Q = BA22Bf = A12A?A2l A1)
(В = 0) независимы и распределены по законам W (L\v п~-Рг)
и WBilv p2) соответственно. Уравнение A), определяющее /,
выражается через Q так:
\Q-f(Aw2+Q)\ = 0. A2)
Распределение корней /Д/=1, ..., рг) совпадает с
распределением ненулевых корней уравнения A2), и это
распределение задается формулой (см. § 13.2)
436 ' РАСПРЕДЕЛЕНИЕ КОРНЕЙ И ВЕКТОРОВ [ГЛ. 13
Так как условное распределение A3) не зависит от К*2\ то
это распределение является безусловным распределением
квадратов выборочных канонических корреляций двух множеств
XiX) и Х{2) (а=1, ..., N). Распределение A3) имеет место
также, когда X*® действительно являются фиксированными
векторами или случайными векторами с известным
распределением, поскольку векторы Х^ и Х^ независимы и ЛГ
имеет многомерное нормальное распределение.
В частном случае, когда рг = 1, р2 — р — 1,
выражение A3) сводится к
гГ-lw—
Г [\\N-p)\ Г [j(/>-1)
что совпадает с распределением выборочного множественного
коэффициента корреляции между Х^1) (рг = 1) и Х{2) (р2 = р—1)-
ЛИТЕРАТУРА
Гиршик [2]; Голдстайн и Нейман [1]; Димер и
Олкин [1]; Кендалл [4], стр. 354—358; Лаха
Марриотт [1]; Муд [3]; Нанда [1], [2], [4], [5]; Олкин
; Муд [3]; Нанда [1], [2], [4], [5];
i [1]; С Рой [3], [4], [6], [16]; С
>. 260—270; Ф и щ е р [7]; X а л м о ш
Олкин и Рой [!]; С Рой [3], [4], [6], [16]; С ас три
Уилкс [10], стр. 260—270; Фищер [7]; Халмош [1]; Хсу
ЗАДАЧИ
1. (§ 13.2) Доказать теорему 13.2.1 для случая р = 2, вычислив
определитель Остроградского — Якоби непосредственно.
2. (§ 13.2) Доказать теорему 13.3.2 для случая р = 2
непосредственно, вычисляя ортогональную матрицу С через синусы и
косинусы угла поворота.
3. (§ 13.3) Записать в явном виде инвариантное по Хаару
распределение для ортогональной матрицы, элементы которой выражены
через синусы и косинусы угла поворота.
4. (§ 13.3) Пусть матрицы А и В распределены по законам
W{?3m\yi_W(S, п) соответственно. Пусть Х{> ... > кр — корни
уравнения fA—lB \ = Ои ух>... >fy,—корни уравнения \А—<р2|=0.
Найти" распределение величин <р, пользуясь распределением
величин X, положив л->оо.
5. (§ 13.2) Рассмотреть распределение корней уравнения
А — \В\—-0, когда А и 8 — матрицы второго порядка,
распределенные по законам W (S, m) n w (S, п) соответственно, (а) Найти
ЗАДАЧИ 437
распределение наибольшего корня, (б) Найти распределение
наименьшего корня, (в) Найти распределение суммы этих корней.
6. Пусть матрица А распределена по закону W B, /г). В случае
р = 2 найти распределение характеристических к эрней матрицы А.
(Указание. Преобразовать матрицу 2 к диагональному виду.)
7. Пользуясь результатами задачи 6, найти распределение
критерия сферичности (при условии, что нулевая гипотеза неверна).
8. (§ 13.2) Доказать, что определитель Остроградского —
Якоби л (Е F\ является функцией матрицы ?,
умноженной на JJ(//—/у), показав, что этот определитель обращается
в нуль для fi=fj и степень ft в нем равна степени JJ(// — fj).
9. (§ 13.3) Доказать лемму 13.3.1 так же подробно, как
доказана теорема 13.3.1.
ГЛАВА 14
ОБЗОР НЕКОТОРЫХ ДРУГИХ РАБОТ
ПО МНОГОМЕРНОМУ АНАЛИЗУ
14.1. Введение
В этой главе мы дадим краткий обзор наиболее
разработанных направлений многомерного анализа.
Предшествующие тринадцать глав были посвящены фундаментальным
вопросам статистики, однако в них не были затронуты многие
существенные аспекты многомерного анализа. Здесь мы
рассмотрим наиболее важные из полученных за последнее время
результатов относительно статистических выводов
применительно к многомерным нормальным распределениям. Мы не
будем останавливаться на некоторых других проблемах,
которые, вообще говоря, связаны с другими распределениями.
Выбор вопросов, рассматриваемых в этой главе, обусловлен,
конечно, интересами автора.
14.2. Проверка гипотез о ранге и оценка
линейных ограничений на коэффициенты регрессии.
Канонические корреляции и канонические величины
В главе 8 мы изучили некоторые аспекты проблемы
регрессии. Пусть ха(а=19 ..., N)— наблюдение над
совокупностью N(Bza, 2). Мы рассмотрели вопрос о проверке
гипотезы В1==^Вь где B = (Bj B2). В этом параграфе мы для
простоты предположим, что В = Blf и гипотеза состоит в том,
что В = 0. (Более общий случай можно свести к этому
соответствующими преобразованиями; см. главу 8.) Нулевая
гипотеза состоит в том, что za не оказывает влияния на ха. Если
нулевая гипотеза неверна, то можно поставить задачу о том,
оказывает ли влияние гл на ха в определенных направлениях;
14 2] ПРОВЕРКА ГИПОТЕЗ О РАНГЕ 439
т. е. мы рассматриваем математические ожидания N нормаль*
ных распределений как N точек в /?-мерном пространстве
и спрашиваем, будет ли размерность линейного
подпространства равна некоторому числу. Предположим, что эта
размерность равна q*. Тогда можно выбрать новую систему
координат в /7-мерном пространстве векторов ха так, чтобы
это линейное подпространство было образовано первыми q*
осями координат. Можно сказать, что в новой системе
координат независимые величины действуют на q* зависимых
величин. В новой системе координат ясно видно влияние
независимых величин на зависимые.
Если с'ха — линейная комбинация величин, на
математическое ожидание которой не оказывает влияния za, то из
Мс'ха = с'Ъга = 0 следует, что с'Ъ = 0. Если существует q*
линейно независимых линейных комбинаций ха, на которые
производится влияние, и р — q* линейных комбинаций, на
которые не производится влияния, то существует р — q*
линейно независимых векторов с, таких, что с'Ъ = 0. Таким
образом, ранг матрицы В равен q*.
Теперь изложим это в терминах канонических корреляций
и величин согласно второму методу, рассмотренному в § 12.2.
Для матрицы В ранга q* существует q* корней
уравнения E8) § 12.2, отличных от нуля, т. е. корней
уравнения |ВСВ' — v2|=0, где С=A/Л02*Х- Любой вектор,
удовлетворяющий уравнению E7), (ВСВ'— v2)« = 0, для
корня v = 0, удовлетворяет и уравнениям ВСВ'а ==0 и
(В'а)' С(В'«) = 0 и, следовательно, а'В = 0.
Исходя из выборки, мы оцениваем В матрицей В'и S —
матрицей 2 = A/N) B*Х ~ В^В), где D = 2 *а<- ПУСТЬ
v2 >-... ^ vp >. 0 — корни уравнения
|В/)В' — vNS| = 0, A)
а «A), ..., а(р) — векторы, удовлетворяющие условиям
(ЪОВ— VVS)?(/) = 0, B)
?(l)f2S(<) = i. C)
Если все корни Vj различны, то B) и C) определяют а(/)
однозначно и
?«>2?(У) = 0, 1ф]. D)
440 ОБЗОР РАБОТ ПО МНОГОМЕРНОМУ АНАЛИЗУ ГГЛ. 14
Если некоторые из v^ равны нулю, то мы можем наложить
условие D), но в этом случае сохраняется еще некоторая
свобода в определении а(/). Показано, что v^, a(/) являются
оценками наибольшего правдоподобия для v/f a(/). Если
наложено ограничение, состоящее в том, что В имеет ранг q*t
то это будет также верно, но тогда матрица (а(<7*+1), ..., а(р)),
связанная с наименьшим v, (а также матрица (а(<7*+1) а(/?)))»
может умножаться справа на произвольную ортогональную
матрицу. В случае, когда наложены ограничения, этот вывод
нельзя. получить непосредственно. При нахождении оценок
наибольшего правдоподобия для В и 2 ограничения также
должны приниматься во внимание.
Пусть нулевая гипотеза состоит в том, что ранг В
равен q*, а конкурирующая — в том, что этот ранг больше q*.
Интуитивно кажется разумным отвергать нулевую гипотезу,
если р — q* наименьших характеристических корней не
являются достаточно малыми. В самом деле, отношение
правдоподобия равно Х = JJ A -f- vi) 2 • Могут быть
использованы также и другие функции этих
характеристических корней. Если нулевая гипотеза верна, то — 2 In X.
р
(и /V 2 v/) асимптотически стремится к x2mPacnPtJiejleHVL]O
q*+T
с (р— q*)(q — q*) степенями свободы.
Во многих ситуациях приходится иметь дело с
многошаговой проблемой отыскания ранга В. Возможен
следующий метод решения такой задачи: сначала нужно проверить
гипотезу о том, что ранг равен 0 при конкурирующей
гипотезе, что он равен 1; затем проверить гипотезу о том, что
ранг равен 1 при конкурирующей гипотезе, что он равен 2,
и так далее. Первый шаг будет состоять в решении вопроса
о том, является ли vx достаточно большим, и т. д.
Представленная здесь теория распределений является
сложной. При фиксированном объеме выборки распределения
будут рассмотрены в § 14.4, а асимптотическая теория —
в'§ 14.5. Проверка гипотез относительно а(/),
соответствующих корню Vj = 0, может быть основана на точной теории.
Эти рассмотрения можно провести и на основе теории
14.3] НЕЦЕНТРАЛЬНОЕ РАСПРЕДЕЛЕНИЕ УИШАРТА 441
дискриминантных функций (см. задачу 4 главы 12).
Получены методы для проверки гипотез относительно
канонических величин, соответствующих ненулевым
характеристическим корням.
14.3. Нецентральное распределение Уишарта
В главе 13 мы получили распределение корней
уравнения
|В/)В — vNS| = 0 A)
в случае, когда В = 0. Этот вывод был основан на том,
что fi/)B' и N2 независимы и имеют распределения Уишарта.
Для получения выводов, описанных в предшествующем
параграфе, необходимо знать распределение корней уравнения A)
и соответствующих им характеристических векторов в случае,
когда В Ф 0. В принципе, если В Ф 0, то для получения этих
распределений из распределений В/)В' и NIL можно
использовать методы главы 13. Распределение матрицы В/)В' есть
нецентральное распределение Уишарта.
п
Пусть А=2 YaY&* где ^а — наблюдение над генераль-
а = \ ¦ '
п
ной совокупностью N(\*,a, S), T=2ltatta и * — Ранг ма<!
а~1
трицы Т. Тогда плотность распределения вероятностей
матрицы А равна произведению ге>(Л|21, п) на функцию,
зависящую от корней уравнения |Т — А2|=0 и1)
|Т —XSA'^^O. . B)
Если / = 1, то эта функция содержит функцию Бесселя;
если * = 2, то она содержит бесконечный ряд функций
Бесселя; при / = 3 она может быть представлена в виде
тройного бесконечного ряда. Для больших значений t она
может быть представлена в виде многомерного интеграла.
К сожалению, нецентральное распределение.Уишарта
настолько сложно, что использование его весьма ограничено.
1) Уравнение D) у Андерсона и Гиршика [1], а
(8) у Андерсона [2] следует записать в том ,^е виде, что и
приведенное здесь уравнение B).
442 ОБЗОР РАБОТ ПО МНОГОМЕРНОМУ АНАЛИЗУ [ГЛ. 14
14.4. Распределение некоторых характеристических
корней и векторов, зависящих от параметров
Для того чтобы вычислить мощность различных
критериев и сделать какие-либо выводы из результатов § 14.2,
желательно знать распределения характеристических корней
и векторов некоторых матриц при различных условиях.
Некоторые из этих распределений получены, но являются,
вообще говоря, довольно сложными. Распределение корней
vi^> • • • ^>vp уравнения |BZ)B'— vNS| =0 зависит от
корней Vj ^ ... ^ vp уравнения | ВСВ' — vS | =0. Предложен
формальный метод для получения этого распределения в виде
произведения распределения всех v, равных нулю, на
некоторый сложный множитель. Этот множитель может быть
получен явно в случае, когда ранг В равен единице *).
Другой случай, подлежащий исследованию, — это случай,
когда характеристические корни являются корнями
уравнения | Sl2S221S2i—vSn | = 0, где S имеет распределение Уишарта
и 212 Ф 0.
Еще один случай: \А — v/?| =0, где А и В имеют
распределения Уишарта с разными ковариационными матрицами.
Оценка функции мощности инвариантного критерия для
проверки гипотезы 21 = 22 (глава 10) получается в терминах
таких распределений.
14.5. Асимптотическое распределение
некоторых характеристических корней и векторов
Поскольку распределения, о которых шла речь в § 14.4,
чрезвычайно сложны, особый интерес представляют
асимптотические распределения. Рассмотрим сначала корни
уравнения |&ОВ' — vNS| = 0. Так как plim(l/^)tfz>B/ =
= Blim(l/A0/>B/ и plimS = 2, то plim(v,—v,) = 0 (если
только l\m(lIN)D существует). Если vt > ... > v^ > 0
[и lim Y~N(vt — vy) Ф О], то есть если все характеристические
корни различны, то YW (v, — v^) и YW (а{П — a{i)) имеют в
¦) Утверждение Роя {$] о том, что он рассматривает более
общий случай, неверно.
14.6] ГЛАВНЫЕ КОМПОНЕНТЫ 443
пределе совместное нормальное распределение.
Асимптотические распределения будут гораздо более сложными, если
некоторые из характеристических корней будут равны между собой
[или если HmYN (vt — Vy) = O]. Наиболее важным случаем
является тот случай, когда некоторые из корней vf равны
нулю, в частности, когда ранг В меньше р (но q^p).
Предположим, что первые q* корней, соответствующих
генеральной совокупности, отличны от нуля (и остаются такими
при Af->oo), а последние р — q* корней равны нулю. Тогда
величины У77 (vx — Vj), ..., Ум (vg*—v^*) будут
асимптотически независимыми и нормально распределенными.
Предельное распределение величин ЛЛ^*_ц, ,,., Nvp является
распределением характеристических корней матрицы А
порядка (p—q*) X (p—q*)> распределенной по закону W(f, q—q*)*
т. е. имеющей плотность распределения вероятностей A1)
§ 13.3 при /г, равном q — q*t и р, равном р — q*. Отсюда
р _
следует, что распределение TV 2 v/ асимптотически стре-
мится к ^-распределению с (р — q*)(q — q*) степенями
свободы (как spA), хотя каждый корень в отдельности не
распределен асимптотически как х2»
14.6. Главные компоненты
В главе 11 мы определили главные компоненты как
характеристические векторы ковариационной матрицы S,
а в главе 13 получили распределение характеристических
корней и векторов выборочной ковариационной матрицы S
в случае, когда S = /. Нас интересуют некоторые гипотезы
относительно характеристических корней и векторов матрицы I!
в случае, когда 2 =?/. Допустим, что X=Y-\-Z. Для
удобства предположим, 4ToMK = MZ = 0. Пусть МКК/ = Ф
и MZZ/ = 4r. Тогда 2 = Ф-^^. Мы рассматриваем Y как
действительный эффект в пространстве меньшей размерности,
скажем q. Тогда Ф будет иметь ранг q. Компоненты
вектора Z представляют собой ошибки измерения. По-видимому,
разумно положить ЧГ = а2/. Тогда матрица 2 = Ф + о2/
будет иметь р — q характеристических корней, равных о2,
Э такой ситуации нам может потребоваться проверить
444 ОБЗОР РАБОТ ПО МНОГОМЕРНОМУ АНАЛИЗУ [ГЛ 14
гипотезу о том, равно ли q заданному числу q* при
конкурирующей гипотезе q > q*. Было бы разумно принять эту
гипотезу, если бы р— q* наименьших характеристических
корней матрицы S были приближенно одинаковыми.
Разработана асимптотическая теория. Если q = q*, то основной
интерес представляют первые q* собственных векторов
матрицы 2, которые характеризуют Ф; разработана
асимптотическая теория.
Все это тесно связано с факторным анализом (см. § 14.7).
Иногда S заменяется корреляционной матрицей. Однако
в этом случае даже асимптотическая теория довольно сложна.
14.7. Факторный анализ
Предположим, что Ar=A/+ji + t/, где/—/я-мерный
вектор (ненаблюдаемых) факторных множеств, fi—
фиксированный вектор среднего значения и U—вектор
(ненаблюдаемых) ошибок (или сумм ошибок и специфических
факторов). Матрица А порядка рУ^т (т < р) состоит из
факторных весовых множителей. В случае, когда /—случайный
вектор, предположим, что М/=0, Mi/ = 0, №ff' = Q>
№UU' = W, матрица ЧГ диагональная и JftfU' — O. Тогда
МЛГ=ц, а ковариационная матрица наблюдаемого вектора X
будет равна
М(ДГ—ц)(*—jO^AQA' + V. A)
С этой моделью связан ряд проблем, например такая
проблема: какие ковариационные матрицы 2 могут быть
представлены в виде A) при данном аи? Если такое
представление существует, то какие ограничения, нужно наложить на
матрицы А и Q, чтобы это представление было
единственным? Одной, из проблем теории статистических выводов
является проблема оценки :А, Q и W по множеству
наблюдений X. Простейшим является центроидный метод. Может
быть использовано также понятие главных компонент,
возможно применение метода наибольшего правдоподобия.
Другая проблема относится к проверке того, равно ли т
заданному числу; очень важно решить, чему равно т. С каждым
наблюдением ха связана ненаблюдаемая величина /а. В неко-
?орых случаях желательно уметь оценивать это fr
14 8] СТОХАСТИЧЕСКИЕ УРАВНЕНИЯ " 445
Достаточно полное изложение этих проблем и их
решений дано Андерсоном и Рубином [3J. Этим вопросам
посвящены работы Кендалла и Смита [1], а также
Бартлетта [15]. Предложенный нами список литературы
включает лишь стандартные учебники и некоторые статьи
по теории статистических выводов.
Другой путь может дать модель факторного анализа.
Существуют р — г линейно независимых векторов а таких,
что а'А = 0, т. е. А/= Z удовлетворяет р — г линейным
уравнениям. Проблема оценки таких векторов а часто
называется проблемой оценки линейных структурных отношений.
В случае, когда р — г мало, нужно сделать некоторые
предположения о ненормальности (или сильные предположения
о распределении U).
14.8. Стохастические уравнения
С вопросами, рассмотренными в главе 14.2, тесно
связано изучение стохастических уравнений. Предположим, что
вектор Ха имеет многомерное нормальное распределение,
причем МАХа = Tza, а ковариационная матрица вектора АХа
равна 2, где А — невырожденная матрица порядка рУ^р*
Это можно представить в виде
АХа-Тга = иа, A)
где (ненаблюдаемый) вектор Ua распределен Af(O, 2). A)
представляет собой систему линейных уравнений относительно
компонент вектора Ха, которая может быть решена в виде
Х^А-Ъ. + А-Ъ.. ' • . B)
Эти уравнения являются стохастическими вследствие того,
что правая часть A) представляет собой случайный вектор.
Такая модель, записанная в форме B), является просто
регрессионной моделью, т. е. вектор X распределен N(Bzat 2*)f
где В = 4-1Г и 2* = Л 2(Л~!) . Форма A) представляет
существенный интерес. Если, например, A) представляет
собою модель образования некоторой экономической
величины Ха, то каждое отдельное уравнение этой системы
может отражать поведение данной последовательности
446 ОБЗОР РАБОТ ПО МНОГОМЕРНОМУ АНАЛИЗУ [ГЛ. 14
От регрессионной модели N(Bza, 2*) мы приходим к A)
посредством уравнений ЛВ = Г и 2 = 42*Л'. Теперь, чтобы
однозначно определить Л, Г и 2 (т. е. идентифицировать
эти параметры), необходимо наложить на них некоторые
ограничения. Это должны быть линейные ограничения на А
и Г (например, можно потребовать, чтобы некоторые
коэффициенты были равны нулю) или же ограничения на 2
(например, матрицу 2 можно считать диагональной). Если эти
ограничения состоят в том, что одна из строк матрицы Г
равна 0, то мы оказываемся точно в условиях § 14.2.
Другие виды ограничений приводят к более сложным проблемам.
Получены оценки наибольшего правдоподобия,
сформулированы вычислительные методы и разработана асимптотическая
теория.
Список литературы к этому параграфу является далеко
не полным. Читатель отсылается к библиографии,
содержащейся в книге Худа и Купменса [1]. Некоторое
количество работ указано как в этой библиографии, так и в той,
что приведена в книге Купменса [1].
14.9. Анализ временных рядов
Одна из моделей анализа временных рядов определяет
вектор Xt как сумму zt-f-U(t где zt (неслучайный) вектор
систематических частей, a Ut — (случайный) вектор ошибок.
Относительно zt можно делать различные предположения,
как, например, предположение о том, что это вектор
тригонометрических функций времени или вектор многочленов
времени. Векторы Ut рассматриваются идентично и
предполагаются независимыми и одинаково распределенными. Эта
модель во многих случаях рассматривается так, как это
делается в главе 8 и § 14.2.
Другой моделью временных рядов является модель
стохастических разностных уравнений. Пусть ..., U_v Uo,
Uv i.. — последовательность независимых случайных
величин, распределенных N@, 2). Предположим, что величины
.,,, У-1» ^о» ^1» ••• удовлетворяют условию
- ЛИТЕРАТУРА 447
В этом случае мы будем говорить, что последовательность
величин Yt удовлетворяет стохастическому разностному
уравнению. Чтобы определить величины К, нужно знать
последовательность /У, т. е. Uv U2, ..., и задать Ко, Y_v ...
• •¦» Y-(r-D как фиксированные величины. В A) можно также
вставить выражение Tzr Один из методов вывода состоит
в том, чтобы рассматривать Tzt-\- 2l\K/w так же, как
если бы это было Bzt. Могут быть использованы методы
регрессионного анализа, и асимптотическая теория будет
такой же. Эту модель можно видоизменить, если в левой
части A) вместо Yt написать AYt.
Рассматривая Хг как стационарный гауссовский
(нормальный) случайный процесс, получим модель в некотором смысле
более общую, чем та, которая описана выше. Пусть ЖХг = [i,
M(Xt— |ь)(ЛГ,— {i/ = S/«5. Предположим, что любое
множество случайных величин Xt , ¦.., Xt имеет совместное
1 п
нормальное распределение. Если Xt — комплексный вектор,
то
Случай действительного вектора несколько более сложен
(см. Крамер [1]). В этой модели нам нужно оценить 2^
и множество спектральных функций Ftj(l). В этой области
сделано не много.
Литература к первой модели та же, что к § 14,2, ко
второй модели та же, что к § 14.8.
ЛИТЕРАТУРА
§14.2. Т. Андерсон [5]; Т. Андерсон и Рубин [11;
Бартлетт [6], [8], ПО], Г12], 13], [14]; Джири [1], [2]; Кох-
рен [2]; К. Р. Рао [91, [10], [11], [15], стр. 370—378; С. Рой [31;
Тинтнер [1], [4], [5]; Уильяме [1], [2]; Фишер [6], [8J;
X с у [6], [7].
§ 14.3. Т. Андерсон [2]; Т. А н дерсон и Гиршик [1];
Герц [1]; А. Джеймс [2], [31; Уэйбулл [1].
„ г§ 14;1\ Т«АгЛд?лРЯйЯ ffl; Бартлетт [9]; Гиршик [4];
448 ОБЗОР РАБОТ ПО МНОГОМЕРНОМУ АНАЛИЗУ [ГЛ. 14
§ 14.5. Т. Андерсон [3], [6]; Т. Андерсон и Рубин [2];
Гйршик [2], [3]; Н а н д а [1], [2]; Хотеллинг [4], [5]; X с у [6],
[7], [8].
~ 14.6. Т. Андерсон [8]; Бартлетт [11], [13], [14], [16];
Гйршик [2]; Л о л е й [4], [5].
§ 14.7. Т. Андерсон и Рубин [3]; Бартлетт [4], [15];
Кендалл и Смит [1]; Лолей [2], [3], [4]; К. Р. Рао[20];
Кендалл и Смит [1]; Лолей [2], [3], [<
Раш'[3]; Терстоун [1]; Том с он [1]; У и-
гер и Хармон [1].
§ 14.8. См. литературу к § 14.2 и в книге Худ и Купменс
[1]; Купменс [1]; Уолд [2].
§ 14.9. Крамер Щ. См. также литературу к § 14.2 и 14.8.
ПРИЛОЖЕНИЕ
ТЕОРИЯ МАТРИЦ
1. Определение матрицы. Действия над матрицами
В этом приложении мы кратко остановимся на хорошо
известных определениях и теоремах матричной алгебры.
Некоторые результаты, которые редко встречаются в литературе
по матричной алгебре, будут здесь доказаны.
Матрица А порядка ту^п— это прямоугольная таблица
действительных чисел
A)
которая сокращенно может быть записана как (atj)t / =
= 1,2, с.., т, 7=1,2,..., п. Заглавными жирными
буквами мы будем обозначать матрицы, элементы которых
обозначаются такими же, но маленькими буквами с
соответствующими индексами. Сумма двух матриц А и В,
имеющих одинаковое количество строк и столбцов, определяется
посредством
А + В = {аф + фф = (alf + bif). B)
Произведение матрицы на действительное число X
определяется как
КА = Ак = (\аи). C)
15 Т. Андерсон
450 ПРИЛОЖЕНИЕ
Можно показать, что эти операции обладают следующими
алгебраическими свойствами:
D)
E)
F)
G)
(8)
* (9)
Матрица @), все элементы которой равны нулю, может
быть обозначена 0.
Если число столбцов матрицы А равно числу строк
матрицы В, т. е. если Д = (а/у), /=1, ..., /, у = 1, ...,
т, В = (bJk), у=1, ..., т, к = 1, ..., п, то Ли В могут
быть перемножены по следующему правилу:
= (alj)(bJk) = ( 2 atjbJk ),/= 1. ...,/; ft = 1 ,..., п;
A0)
следовательно, А В есть матрица с / строками и п столбцами,
причем элемент, стоящий в ней на пересечении /-й строки
т
и &-го столбца, равен 2 aii^ik- Произведение матриц об-
ладает следующими свойствами:
(АВ)С=А(ВС), (И)
A2)
С=АС+ВС A3)
Соотношения (И), A2) и A3) оказываются справедливыми,
если имеет смысл хотя бы одна из частей этих соотношений
(число строк и столбцов у матриц должно быть таково, чтобы
указанные операции можно было производить), так как в этом
случае другая часть также должна иметь смысл. Вследствие
A1) можно записать
(АВ) С=А{ВС) = АВС. A4)
ПРИЛОЖЕНИЕ
451
Произведение ВА может не иметь смысла даже тогда, когда
А В имеет смысл; но и тогда, когда как АВ, так и ВА
имеют смысл, нельзя утверждать, вообще говоря, что
Матрица, транспонированная по отношению к матрице
А — (пц) порядка / X т* определяется как матрица А'
порядка т X Л Для которой элемент, стоящий на пересечении
/-й строки и /-го столбца, совпадает с элементом матрицы Л,
стоящим на пересечении /-й строки и /-го столбца. Операция
транспонирования обладает следующими свойствами:
(А')' = А, A5)
(А + ВУ = А' + В'9 A6)
{АВ)'=В'АГ. A7)
При этом опять следует указать на то, что для
справедливости каждого из этих равенств нужно, чтобы хотя бы одна
из его частей имела смысл.
Вектор хеш компонентами можно рассматривать как
матрицу, имеющую т строк и один столбец. Следовательно,
введенные выше операции справедливы и для векторов.
Теперь мы обратимся к изучению квадратных матриц
одного и того же порядка. Эти матрицы можно складывать
и умножать друг на друга. Число строк и столбцов положим
равным р. Матрица А называется симметрической, если
А = А'. Значительный интерес представляет особая матрица
1 =
fl 0 0 ... О
О 1 0 ... О
О 0 1 ... О
О 0 0 ... 1
=(»«,)¦
A8)
называемая единичной матрицей.
определяемый как
{1, если / =
0, если 1 +
есть символ Кронекера,
A9)
J.
Единичная матрица удовлетворяет условию
B0)
15*
452 ПРИЛОЖЕНИЕ
Связанный с любой квадратной матрицей Л
определитель | Л |1) определяется как
~*~ щ, B1)
где суммирование производится по всем перестановкам
C/i» • • •• Jp) множества целых чисел A, ..., р)У a f(Jv • • •
•••• Jp) — число транспозиций, необходимых для того, чтобы
перестановку A, ...,/?) перевести в перестановку (Jl% ...
..., jp). Транспозиция состоит в перестановке двух чисел.
Можно показать, что хотя перестановку A, ..., р) можно
перевести в перестановку (Jv ..., jp) многими различными
способами, число необходимых для этого транспозиций всегда
четно или же всегда нечетно, так что (—l/G"' "' *р) не
зависит от способа перевода A, .... р) в (J\> •••» Jp)- Можно
показать, что
|де| = |Д|.|Д|. B2)
а также
\А\ = \А'\. B3)
Подматрица матрицы Л — это прямоугольная таблица,
получаемая из Л посредством вычеркивания строк и столбцов.
Определитель любой квадратной подматрицы матрицы Л
называется минором. Минор элемента а,ц есть определитель
подматрицы матрицы Л, получаемой посредством
вычеркивания /-й строки и у'-го столбца. Алгебраическим дополнением
элемента а^, которое мы обозначим через Л^, называется
произведение (—l)i+^ на минор элемента пц.
Можно показать, что
И1 = 2«уЛ; = 2«у*^*. B4)
Если | Л | Ф 0, то существует единственная матрица В
такая, что А В = /. В называется матрицей, обратной по
отношению к Л, и обозначается Л"*1. Пусть ahk — элемент
матрицы Л", стоящий на пересечении Л-й строки и &-го
1) Определитель квадратной матрицы порядка г X г называется
определителем r-го порядка. {Прим ред.)
ПРИЛОЖЕНИЕ 453
столбца. Тогда
a** = -j^*-. B5)
Операция обращения матриц обладает следующим свойством:
(ЛС)"*1 = С1 Л. B6)
так как
(AQ(C~l A~l) = A(CC~l)A~l =AIA~l = АА~1 =/. B7)
Кроме того, Гх —I и Л~14=:/, и поскольку в силу B7)
(Л^1/Д' = /, мы получаем (А~1)'= (А')~К
Матрица с не равным нулю определителем называется
невырожденной. Если | Л | Ф О, то единственным решением
уравнения
А* = 0 B8)
является тривиальное решение z = 0 [получается посредством
умножения B8) слева на А'1]. Если |Л| = 0, то существует
по крайней мере одно нетривиальное решение уравнения B8)
(т. е. решение г Ф 0). Таким образом, можно дать
определение невырожденной матрицы, эквивалентное тому,
которое дано выше: матрица А называется невырожденной, если
уравнение B8) имеет только тривиальное решение.
Совокупность векторов zv...,zr называется линейно
независимой, если не существует скалярных величин cv ...
.. ., сп не всех равных нулю, таких, что 2 Cizi — Q*
Матрица D порядка q X Р называется матрицей ранга г, если
максимальное число линейно независимых столбцов этой матрицы
равно г. В таком случае любой минор порядка г -f-1 должен
быть равен нулю (это получается применением изложенных
ранее замечаний к соответствующей квадратной матрице
r-f 1-го порядка) и хотя бы один минор r-го порядка должен
быть отличным от нуля. Наоборот, если существует хотя бы
один отличный от нуля минор порядка г, то существует
по крайней мере одна линейно независимая совокупность
г столбцов (или строк). Если все миноры порядка r-J- 1 равны
нулю, то не может быть никакой совокупности г -f-1 столбцов
(или строк), которая была бы линейно независимой. Такая
линейная независимость влекла бы за -собой неравенство
нулю минора порядка r-f-1, а это противоречило бы нашему
предположению. Таким образом, ранг г определяется как
454 ПРИЛОЖЕНИЕ
максимальное число линейно независимых строк или как
максимальное число линейно независимых столбцов, или как
максимальный порядок отличных от нуля миноров, причем
все эти определения эквивалентны друг другу.
Теперь рассмотрим квадратичную форму
x'Ax= Z ачх{х)% B9)
где x' = (xv ..., хр) и А = (ац). Матрица А является
симметрической. Эта матрица А и квадратичная форма называются
неотрицательно определенными, если для всех х х'Ах^
>> 0. Если для всех х Ф 0 х'Ах > 0, то матрица А и
квадратичная форма называются положительно определенными.
Теорема 1. Если матрица С, имеющая р строк
и р столбцов, положительно определенная, а матрица
В, имеющая р строк и q столбцов (q < /?), имеет ранг q%
то матрица В'СВ положительно определенная.
Доказательство. Пусть х = Ву, причем у Ф 0.
Так как ранг В равен q, то Ву = х Ф 0. Поэтому
у' (В' СВ)у = (By)'С (By) = х'Сх>0. C0)
Завершается доказательство указанием на то, что матрица
В'СВ симметрическая. Обратно, мы видим, что В'СВ
является положительно определенной только тогда, когда
ранг В равен q, ибо в противном случае существует
вектор уФО такой, что Ву = 0.
Следствие 1. Если С—положительно определен*
ная, а В—-невырожденная матрица, то матрица
В'СВ — положительно определенная.
Следствие 2. Если матрица С положительно
определена, то матрица С также положительно
определена.
Доказательство. Матрица С должна быть
невырожденной, ибо если Сх = 0 для х Ф 0, то для этого вектора х
х'Сх = 0, что противоречит предположению о том, что
матрица С положительно определена. Обозначим через С"
матрицу В в теореме 1. Тогда В'СВ — (С~1уСС~1=(С'1у.
Транспонируя тождество СС1 = /, получаем (С)' С =
= (С~1У С = /. Таким образом. С =(С/, что и
требовалось доказать.
ПРИЛОЖЕНИЕ 455
Следствие 3. Пусть D — матрица порядка qXq>
образованная из положительно определенной матрицы С
путем вычеркивания р — q строк и соответствующих
р — q столбцов. Тогда D — положительно определенная.
Доказательство. Это утверждение следует из
теоремы 1, если взять в качестве матрицы В единичную матрицу
р-го порядка и вычеркнуть из нее столбцы, соответствующие
тем столбцам, которые вычеркиваются из С.
След квадратной матрицы А определяется как sp A =
р
= 2 аи* Непосредственно проверяются свойства:
sp (A -f- В) = sp A -\- sp B% C1)
sp АВ = sp В А. C2)
Квадратная матрица А называется диагональной, если
р
atj = 0 при / Ф у. В этом случае | А | = JJ[ аи% так как
в силу B4) | А | = anAlv а Ап в свою очередь оценивается
аналогично.
Квадратная матрица А называется треугольной, если Ям==
= 0 для / > у или для / < у. В любом из этих двух случаев
произведение двух таких матриц является треугольной матрицей
того же вида, ибо (/, у)-й член матрицы АВ при / > у равен
2 alk bkj = 0, если aik = 0 для k < / и bkj = 0 для k > у
при у</.
2. Характеристические корни и векторы
Характеристические корни квадратной матрицы В
определяются как корни характеристического уравнения
\В — Х/|=0. C3)
/б 2\
Например, для матрицы В= ( 1
5 —X 2
о^ 4 1П>_1_>2
^ с "\ ~~~ """""* — —— *^ ^:^
= Х2— 10Х-+21. C4)
Степень этого уравнения равна числу строк (или столбцов)
матрицы В, а свободный член есть |fi|.
456
ПРИЛОЖЕНИЕ
Матрица С называется ортогональной, если СС=1\
отсюда следует, что СС' = 1. Пусть векторы х' =(хх, ...
.... хр) и у1 = (У1» • • •¦ Ур) представляют собой две точки
в /^-мерном евклидовом пространстве. Квадрат расстояния
между ними равен D(x,y) = (X—у)'(X—у).
Преобразование z — Cx можно истолковать как изменение осей
координат в /7-мерном пространстве. Если матрица С
ортогональна, то такое преобразование сохраняет неизменным
расстояние между точками, так как
D (С*, Су) = (Су — СхУ (Су — Сх) =
= (у — хУ С С (у — х) = (у — x)f (y — x) = D (ж, у). C5)
Поскольку углы треугольника полностью определяются
длиной его сторон, то преобразование z = Cx сохраняет
неизменными и углы. Оно состоит из вращения и, возможно,
зеркального отражения относительно одной или нескольких
осей координат.
Теорема 2. Для любой симметрической матрицы В
существует ортогональная матрица С такая, что
C'BC = D = \
'dx 0 ... О
d2... О
О 0 ...dn
C6)
Если при этом В — положительно определенная •
матрица, то все d{ > 0.
Доказательство этой теоремы для случая, когда В —
неотрицательно определенная матрица, приведено в § 11.2,
посвященном рассмотрению главных компонент.
Характеристическое уравнение C3) при преобразовании с помощью
матрицы С переходит в следующее:
= \C'BC—U\ = \D — \r\
d1 — X 0 ... О
О tf „ — X ... О
О
О
...<*„-*
г —X). C7)
ПРИЛОЖЕНИЕ
457
Таким образом, характеристические корни матрицы В
совпадают просто с диагональными элементами преобразованной
матрицы D.
Следствие 4. Если матрица В положительно
определена, то существует невырожденная матрица Е
такая, что Е'ВЕ=1.
Доказательство. Пусть
Vdx 0 ... О
... О
о ... у*.
р)
C8)
Из C6) следует, что CD 2 равна матрице Е.
Следствие 5. Если матрица В положительно
определена, то |/?|>0.
Доказательство. Это получается из следствия 4,
поскольку \В\ = \Е'\~1- |/| • \Е\~1=\Е\~2.
Следствие 6. Если матрица В положительно
определена, то все ее главные миноры положительны.
Доказательство. Главный минор — это определитель
матрицы, образованной из матрицы В путем вычеркивания
некоторых строк и соответствующих столбцов. Следствие 6
получается из следствий 3 и 5.
Если X, — характеристический корень матрицы В, то
вектор xt, не равный 0 тождественно и удовлетворяющий
уравнению
(В — \i/)xi = 09 C9)
называется характеристическим вектором матрицы Bt
соответствующим характеристическому корню \. Произведение xt
на любое число также является, очевидно,
характеристическим вектором. Если матрица В симметрическая, то
Если \ = dx есть первый характеристический корень
преобразованной матрицы D, то соответствующий ему
458
ПРИЛОЖЕНИЕ
характеристический вектор равен
О
О
, так как
= 0. D0)
Если ни одно из остальных d{ не равно Хр то существует
единственный характеристический вектор, соответствующий \v
Подставляя D = С ВС, получаем
(CBC—IJ)
О
О
= 0.
D1)
Умножая D1) слева на матрицу С, получаем
= {В-\1)С
D2)
так что С
, т. е. первый столбец матрицы С, есть
характеристический вектор матрицы В, соответствующий корню \.
Из D0) и D2) видно, что характеристический вектор лежит
в направлении главной оси (см. главу И).
Характеристические корни матрицы В обратно пропорциональны квадратам
ПРИЛОЖЕНИЕ 459
длин главных осей эллипсоида
*'Я*=1. D3)
поскольку при вращении у = Сх
Если два или более характеристических корня равны между
собой, то главные оси не определены.
Для пары матриц А (невырожденная) и В (любая) можно
рассмотреть уравнения вида
\В — \А\=0. D5)
Корни таких уравнений представляют интерес в том
отношении, что они инвариантны относительно некоторых
преобразований. В самом деле, для невырожденной матрицы С корни
уравнения
\СВС—1(С'АС)\=0 D6)
совпадают с корнями уравнения D5), так как
\C'\-\B — \A\-\C\ D7)
и
Из следствия 4 получается, что если матрица А является
положительно определенной, то существует матрица Е
т?кая, что
Е'АЕ = 1. D8)
Пусть Е'ВЕ = В*. Из теоремы 2 следует, что существует
ортогональная матрица С такая, что C'B*C=D, где D —
диагональная. Полагая EC=F, получаем следующую теорему.
Теорема 3. Если В неотрицательно, а А —
положительно определенная матрица, то существует не-
вырожденная матрица F такая, что
О ... О
F'BF=\ \ т\'\'°т |. D9)
,0 0
FAF=I, E0)
где Xt >. ... ;> \р (;> 0) — корни уравнения D5). Если
матрица В положительно определенная, то \ > 0.
460 ПРИЛОЖЕНИЕ
3. Разбиение векторов и матриц на блоки
Рассмотрим матрицу Л, определенную по формуле A).
Пусть
Д22 = (а/;), i = p-+ 1, ..., т\ / = 0+1, ..., л.
Тогда можно написать
А\\ А\2
E1)
E2)
Можно сказать, что матрица А разбита на подматрицы Ац.
Пусть матрица В порядка т\п разбита аналогично на
подматрицы Вц (/, / = 1, 2). Легко проверить, что
A
Разобьем матрицу С порядка п X г следующим образом:
Сп С12\
где Си и С12 имеют по 0 строк, а Си и С21 по 5 столбцов.
Тогда
/ Ап Ап \ ( С\\ С12 \
/ Al^ll + A2Q1 Al^l2 " ^12^22\ --.
\ ^21С11 + ^22С21 ^21С12 + А<ПС<п)
Чтобы проверить это соотношение, рассмотрим элементы,
стоящие в первых р строках и первых 5 столбцах
произведения АС. Элемент /-й строки и /-го столбца будет
ПРИЛОЖЕНИЕ
461
равен
E6)
Эта сумма может быть записана в виде
^
aikckj*
E7)
Первая сумма есть элемент /-й строки и у'-го столбца
произведения AnClv вторая — элемент /-й строки и у-го столбца
произведения AnC2v а следовательно вся сумма E6) является
элементом /-й строки и у-го столбца суммы АпСп-\~ А12С21.
Аналогичным образом можно показать, что и остальные
подматрицы произведения АС могут быть представлены так, как
это сделано в E5).
Заметим, между прочим, что если матрица А разбита на
блоки по формуле E2), то транспонированная к А матрица
может быть записана следующим образом:
А' =
E8)
Если А12 = О и A2i = 0, то для положительно определен*
А А
12 2i
ной матрицы А и квадратной матрицы А
п
О
О
E9)
Матрицы в правой части E9) существуют, так как Ап и Ад
невырождены. То, что правая часть E9) дает действительно
матрицу, обратную к А, проверяется посредством умножения
О
F0)
в результате чего получается разбитая на блоки матрица /
порядка р X Р*
Заметим еще, что
О
л22
0
462
ПРИЛОЖЕНИЕ
Вычисление определителя
о
о
производится посредством
его разложения по минорам последней строки. Единственным
ненулевым элементом в сумме будет последний элемент,
равный произведению единицы на определитель такого же
вида, как и исходный, но с определителем / порядка на
единицу меньше, чем порядок первоначального определителя /.
Эта процедура повторяется до тех пор, пока в качестве
минора не получится \Ап\ 1). Аналогично
Аи
О
л
An
О
F2)
Полезным является следующий факт: если ранг матрицы Ах%
состоящей из q строк и р столбцов, равен q, то существует
матрица Л2, имеющая р — q строк и р столбцов такая, что
матрица
1 ' F3)
будет невырожденной. Это утверждение можно доказать,
перенумеровав сначала столбцы матрицы А так, что
матрица Alv состоящая из первых q столбцов Ах, будет
невырожденной (по крайней мере один из миноров q-то порядка
матрицы Ах отличен от нуля), а затем взяв в качестве А%
матрицу (О Г). В таком случае
Ал-% Ал<
\А\ =
*12
О
F4)
что не равно нулю.
Теорема 4. Пусть положительно определенная
матрица А разбита на блоки, как в E2), так что
матрица Ап квадратная, и пусть
Б
A
\0
F5)
]) В таких случаях удобно пользоваться теоремой Лапласа
о разложении определителя по минорам, составленным из элементов
нескольких строк, откуда F1) и F2) следуют немедленно. См.,
например, К у р о ш, Курс высшей алгебры, М. — Л., 1960. (Прим
перев.)
ПРИЛОЖЕНИЕ
463
Тогда
BAB' =
Лп ~
F6)
о л22У
Эта теорема доказана в § 2.4. Мы можем использовать
этот результат для доказательства того, что если А —
положительно определенная матрица, то существует треугольная
матрица Т
с А22 = а
рр.
такая, что
Тогда
Т'АТ — I. Пусть Вр— матрица F5)
0
а№
0
арр
F7)
Пусть Вр_х определена аналогично для Ац.р. Тогда
О
V
а, г
Up-1, p-1-p
Аналогично этому последовательно определяются
j = p — 2, ..., 2), так что
В,
Положим
и В = Я^з^» • • • • ^/?« Тогда матрица В будет треугольной
(так как она является произведением треугольных матриц) и
'«11.2,...,р 0 ... О
О
0
Обозначим эту матрицу Д*. Наконец, положим 7 = (Л*) 2 в.
Заметим, что по существу это — метод, рассмотренный
в § 5 этого приложения.
Теорема 5. Пусть матрица А разбита на блоки,
как в E2), причем матрица А22 квадратная.
Предположим, что А22 невырожденная. Тогда
\А\ = | Ап -
|Л
22|
G2)
464 ПРИЛОЖЕНИЕ
Доказательство. Это следует из F6), если взять
определители обеих частей. Определитель матрицы, стоящей
в левой части, равен |Л|, потому что определитель матрицы В
равен единице. Определитель матрицы, стоящей в правой
части F6), равен произведению в правой части G2),
4. Некоторые результаты
Теорема 6. Пусть С—неотрицательно
определенная матрица порядка рХр ранга г (<^/?)- Тогда
существует невырожденная матрица А такая, что
о/' G3)
где единичная матрица имеет порядок г X г*
Доказательство. Так как С—матрица ранга г, то
существует матрица Л2 порядка (р — г)Хр такая, что
Afi=Q. G4)
Выберем матрицу В (порядка г X р) так, чтобы матрица
G5)
была невырожденной. Тогда
В \ , , .,ч (ВС\, , ,ч (ВСВ' . .
о)'
Эта матрица имеет ранг г, и, следовательно, матрица ВСВ1
невырожденная. По следствию 4 существует невырожденная
матрица D такая, что D(BCBf)D' = /. Поэтому
DB\ (D 0\/В \
А / U /ДЛ/ G7)
является такой невырожденной матрицей, что условие G3)
выполняется.
Лемма 1. Если матрица Е порядка рХР является
симметрической и невырожденной, то существует
невырожденная матрица F такая, что
7
о —
'ПРИЛОЖЕНИЕ
'465
где число строк матрицы I равно числу
положительных, а число строк матрицы —/—числу отрицатель-
ных характеристических корней матрицы Е.
Доказательство. По теореме 2 существует
ортогональная матрица О такая, что
О ... О
... О
о о
где
0
"д -"" w ^ nq+l <?
ческие корни матрицы ?. Пусть
G9)
h — характеристик
• (80)
Тогда
KGEG'K' = (KG) E (KG)' =
/ О
О —/
(81)
Следствие 7. Пусть С—симметрическая матрица
порядка рХР ранга г «^/?). Тогда существует невы-^
рожденная матрица А такая, что
АСА =
/
0
0
0
J
0
0
0
0
(82)
где число строк матрицы I равно числу
положительных, а число строк матрицы —/—числу отрицатель-
ных характеристических корней матрицы С (сумма
этих чисел равна г).
Доказательство такое же, как и доказательство теоремы 6,
только вместо следствия 4 нужно использовать лемму 1.
^415 Т. Андерсон
466 ПРИЛОЖЕНИЕ
Лемма 2. Пусть матрица А порядка пХ *п (п > т)
такова, что
А'А = /. (83)
Существует матрица В порядка п X (# — м>) такая,
что матрица (А В) является ортогональной.
Доказательство. Поскольку ранг матрицы А равен т,
то существует матрица С порядка пХ(п — т) такая, что
матрица (А С) невырождена. Положим D = С— АА'С\ тогда
D'A = 0. Пусть матрица Е порядка (п — т)Х(п — т)
такова, что E'D'DE = f. Тогда в качестве В можно взять DE.
Лемма 3. Пусть х — п-мерный вектор. Тогда
существует ортогональная матрица О такая, что
(84)
0
где с = у
Доказательство. В качестве первой строки О
возьмем (\jc)Xf. Остальные строки можно выбирать любым
способом, лишь бы получить ортогональную матрицу.
Лемма 4. Пусть B = {btj) — матрица порядка
Тогда
д\В\ _ о
В
Доказательство. Разложим |5| по элементам
/-й строки: р
^ih, (86)
^
откуда и следует лемма, так как Bih не содержит Ъц,
Лемма 5. Пусть btj = $ц(сг, ..., сп) — элемент
1-й строки и j-го столбца матрицы В порядка
Тогда
д\В\ _ у д\В\ afa(clt...t сп) =
дс* ~~ lh-1 dbih ' дс*
= > в
ПРИЛОЖЕНИЕ 467
Теорема 7. Если A = A't то
<88)
1 + J. (89)
Доказательство. (88) следует из разложения \А\ по
элементам /-й строки. Чтобы доказать (89), положим
bijz=bji^=aij1 i, /=1 р; /<у\ Тогда по лемме 5
(90)
Так как \А\ = |В| и Вц = ?р = Ац= AJlt то (89)
доказано.
Теорема 8.
? (91)
где -j- обозначает частные производные по каждой из
координат вектора х, записанные в виде столбца.
Доказательство. Пусть А — вектор-столбец,
имеющий одинаковое с х число компонент. Тогда
(х -f *)' А (х -f А) = х1 Ах + Л' Ах -Ь x'Ah -f AM* =
= xfAx -+ 2AM* + h'Ah. (92)
Вектор частных производных, очевидно, равен вектору,
который умножается на А' во втором члене правой части.
Определение 1. Пусть A = {atj) и В = фа^) —
матрицы порядков /? X Р и q Xq соответственно. Матрица
порядка pqXpq* в которой элемент, стоящий на
пересечении (/, а)-й строки и (/, §)-го столбца, равен #/Д?,
называется кронекеровским или прямым произведением
матриц А и В и обозначается А®В, т. е.
апВ апВ ... а1рВу
(93)
Теорема 9. Пусть 1-й характеристический корень
матрицы А равен \it а соответствующий ему характе-
V415*
468 "ПРИЛОЖЕНИЕ
ристический вектор равен | • |; а-# характеристик
ческий корень матрицы В равен vu, а соответствующий
ему характеристический вектор равен уа. Тогда (/, а)-й
характеристический корень матрицы А® В будет
равен Х^а, а соответствующий ему характеристический
ХиУа
вектор будет
Доказательство.
(ХиУЛ (апВ...а1рВ
{А®В)\ ; 1 =
\xPiyJ
У
У
(94)
Теорема 10.
(95)
Доказательство. Определитель любой матрицы равен
произведению ее характеристических корней. Следовательно,
ПРИЛОЖЕНИЕ
469
Теорема И. Определитель преобразования E=Y
(от Е к Y) равен |К|р, где рХр — порядок Е и Y.
Доказательство. Из EY — F следует
= 0, (96)
где
Поэтому
деп
дЬ
де1р
"Ж"
де
р1
де
-рр
(97)
Если 6 = уар, то
1(ж1'I'-1- (98)
*^- (99)
где еар — матрица порядка /?ХР» все элементы которой
равны нулю, за исключением элемента, стоящего на
пересечении а-й строки и р-го столбца, который равен единице.
е.а — а-й столбец, а е$. —C-я строка матрицы Е. Таким обра-
зом> -д^=~'
Следовательно, определитель Остро-
градского — Якоби равен определителю матрицы порядка
Р2ХР2
mod
= \Е\Р \Е'\Р == \Е\2р = | Y\
A00)
б. Метод сокращения Дулиттла и метод сгущения
по оси для решения систем линейных уравнений
В этом параграфе мы хотим доказать некоторые
результаты, приведенные в § 8.2.2.
Сначала нам хотелось бы показать, что метод сгущения
по оси и метод сокращения Дулиттла являются одним и
тем же методом в том смысле, что операции, которые
16 Т. Андерсон
470 ПРИЛОЖЕНИЕ
приходится выполнять при использовании этих методов, одни и
те же, но выполняются они в разном порядке. Мы хотим
проверить соотношение C5) § 8.2, которое может быть
переписано в виде
%Z *• h = J q. A01)
Чтобы доказать A01) по индукции, заметим, что это
соотношение верно для /= 1 и 2. Предположим, что A01) верно
для j — k—1, и покажем, что из этого следует
справедливость этого соотношения для j = k. При j = k правая часть
A01) равна
4
По предположению индукции это равно
Сравнение с формулой C1) § 8.2 показывает, что эта
величина равна а^г* вследствие того, что a(^-1) = a0'-1),
gt h — j q. Это последнее свойство симметрии следует
из того, что элемент а№ является симметрическим, и
операции, с помощью которых получен элемент я^"*,
симметричны.
Вычисления по этим двум методам можно представить
в матричной форме. Операции C1) § 8.2, а именно
можно считать выполнимыми как для /г=1, ..., у—1
(g- = у —|— 1, ..., q), так и для h = j, .... q. Покажем, что
эти элементы тождественно равны нулю. Раньше мы видели,
что аИ = Ф для g = j-\-l, ..., q. Так, в частности,
а?] = 0 (g-> 1). Чтобы доказать наше утверждение по индук-
ПРИЛОЖЕНИЕ 471
ции, предположим, что а^ = 0 для h<; у\ h^g и J = k — 1.
Тогда
agh agh гй-1) -и-
Теперь определим метод сгущения по оси в матричной
терминологии. Пусть А^ — матрица, элементы 1-й строки
которой (/=1 у) равны аЦьХ) и элементы остальных
строк aSty (g > у). Тогда А^ — результат первых у шагов
вычисления, если ни на каком шаге мы не выполняли
действия а$ = ^(Д"'1)/2(//"). Рекурсивное определение 4(</)
таково:
Пусть E(i, у) — матрица порядка q X <7» элемент /-й строки
и у-го столбца которой равен единице, а остальные равны
нулю. Положим
Л(/-1)
G(i, у) = / tfZT)E(*> Л *>./• A05)
Каждая строка матрицы 0A, у), за исключением /-й, будет
такой же, как и соответствующая строка единичной матрицы /.
Следовательно, умножение любой матрицы слева на 0A, у)
изменяет лишь /-ю строку этой матрицы; в результате
элемент /-й строки равен исходному элементу минус
произведение aQfxyMTl) на элемент в у-й строке и том же столбце.
Поэтому в результате элемент в 0A, ])А^~Х) равен A04)
при # = /.
Пусть
Тогда
У> ^> A07)
^^ *FA. (Ю8)
16*
472 ПРИЛОЖЕНИЕ
где F= Fq_x ... Fx. Так как каждая из матриц Ft является
треугольной, то такой же будет и F. Мы видим, что, как
определено в § 8.2.2, А{9'1) = А*.
Метод сокращения Дулиттла также равнозначен
умножению А на матрицы О(/, у), но в другом порядке. Пусть
HtA^l\ A09)
где
#, = G(/+1. /)G(/+1. '—О ••• 0A+1. 1) (ПО)
и 1<°>=А
(/-j- 1).я строка A09) для g-=y=/+ 1 эквивалентна A01).
Матрица //) изменяет лишь (/+1)-ю строку Л(/-1). Поэтому
, q-l) ... Q(q% 1)] ... [0C, 3HC,
... [G(q, 1)... 0B, l)M = /v.i ... ^ = ^ (HI)
Это другое доказательство того, что метод сокращения
Дулиттла включает те же самые операции, что и метод
сгущения по оси, но в другом порядке.
Преимущество метода сокращения Дулиттла состоит
в том, что выражение 2 ^/""^аЙ может быть вычислено
/Ti ig ih
сразу без определения отдельных произведений. Все, что
требуется вычислить, — это а*А, ?<А, и а**А, g < h.
В § 8.2.3 было показано, что матрица FAFr
диагональная. Этот метод сведения А к диагональной матрице
эквивалентен методу, приведенному в § 4 этого приложения.
Так как F—треугольная матрица, диагональные элементы
которой равны единице, то из FA = A* следует, что
|4| = \А*\ =гЦа*г Следовательно, любой из
вычислительных методов дает способ вычисления величины определителя.
ЛИТЕРАТУРА
Абруцци (Abruzzi, Adams)
[1] Experimental Procedures and Criteria for Estimating and
Evaluating Industrial Productivity, doctoral dissertation, Columbia
University Library, 1950.
Адриан (Adrian, Robert)
[1] Research concerning the probabilities of the errors which happen
in making observations, etc. The Analyst of Mathematical Museum,
1 A808).
Андерсон Р, Л. и Бэнкрофт (Anderson R. L. and Bane-
г о f t T. A.)
[1] Statistical Theory in Research, New York, McGraw-Hill Book Co.
1962.
А н д e p с о н T. B. (A n d e г s о n T. W.|
[1] The Non-central Wishart Distribution and Its Application to
Problems in Multivariate Statistics, doctoral dissertation, Princeton
University Library, 1945.
[2] The non-central Wishart Distribution and certain problems of
multivariate statistics. Ann. Math. Stat. 17 A946), стр. 409—431.
[3] The asymptotic distibutions of the roots of certain determinantaf
equations. /. Roy. Stat. Soc. B. 10 A948), стр. 132—139.
[4] Classification by multivariate analysis. Psychometrika 16 A951),
стр. 31—50.
[5] Estimating linear restrictions on regression coefficients for
multivariate normal distributions. Ann. Math. Stat. 22 A951), стр. 327—
351. '
[6] The asymptotic distribution of certain characteristic roots and
vectors. Proceedings of the Second Berkeley Symposium on
Mathematical Statistics and Probability, University of California Press,
Berkeley and Los Angeles, 1951, стр. 103—130.
[7] Some statistical problems in relating experimental data to
predicting performance of a production process. /. Amer. Stat. Assoc. 50
A955), стр. 163—177.
[8] Asymptotic theory for principal component analysis, 1956.
Андерсон Т. В. и Гиршик (Anderson Т. W. and G i r.
shick M. A.).
[1] Some extensions of the Wishart distribution. Ann. Math. Stat. 15
A944), стр. 345-357.
Андерсон Т. В. и Рубин (Anderson T. W. and Rubin,
Herman}.
474 ЛИТЕРАТУРА
[1] Estimation of the parameters of a single equation in a complete
system of stochastic equations. Ann. Math. Stat. 20 A949),
стр. 46—63.
[2] The asymptotic properties of estimates of the parameters of a
single equation in a complete system of stochastic equations. Ann. Math.
Stat. 21 A950), стр. 570—582.
[3] Statistical inference in factor analysis. Proceedings of the Third
Berkeley Symposium on Mathematical Statistics and Probability,
vol. V., University of California Press, Berkeley and Los Angeles,
1956, стр. 111—150.
Армитедж (Arm it age P.)
[I] Sequential analysis with more than two alternative hypotheses and
its relation to discriminant function analysis. /. Roy. Stat Soc. B.
12 A950), стр. 137—144.
Банерджи (Banerjee D. P.)
[1] On the moments of the multiple correlation coefficient in samples
from normal populations. /. Indian Soc. Agric. Stat. 4 A952),
стр. 88—90.
Баранкин (Barankin Edward W.)
[1] Extension of the Romanovsky — Bartlett — Scheffe test. Proceedings
of the Berkeley Symposium on the Mathematical Statistics and
Probability, University of California Press, Berkeley and Los
Angeles, 1949, стр. 433—450.
Барнард (Barnard M. M.)
[1] The secular variations of skull characters in four series of
Egyptian skulls. Ann. Eugen. 6 A935), стр. 352—371.
Барнес (Barnes E. W.)
[1] The theory of Gamma function. Messeng. Math. 29 A899);
стр. 64—129.
Б а ртлетт (Bartlett M. S.)}
[ 1] On the theory of statistical regression. Proc. Roy. Soc. Edinb. 53
A933), стр. 260—283.
[ 2] The vector representation of a sample. Proc. Camb. Phil. Soc. 30
A934), стр. 327—340.
[ 3] Properties of sufficiency and statistical tests. Proc. Roy. Soc.
A160 A937), стр. 268—282.
[ 4] The statistical conception of mental factors. Brit. J. Psych. 28
A937), стр. 97—104.
[ 5] Further aspects of the theory of multiple regression. Proc. Camb.
Phil. Soc. 34 A938), стр. 33—40.
[ 6] A note on tests of significance in multivariate analysis. Proc.
Camb. Phil. Soc. 35 A939), стр. 180—185.
[ 7] The standard errors of discriminant function coefficients. /. Roy.
Stat. Soc. Supple 6 A939), стр. 169—173.
[ 8] Multivariate analysis. /. Roy. Stat. Soc. Supple 9 A947),
стр. 176—197.
[ 9] The general canonical correlation distribution. Ann. Math. Stat.
18 A947), стр. 1—17.
[10] A note on the statistical estimation of demand and supply
relations from time series. Econometrica 16 A948), стр. 323—
329.
ЛИТЕРАТУРА 475
[И] Test of significance in factor analysis. Brit. J. Psych. (Stat. Sec.)
3 A950), стр. 77—85.
[12] The goodness of fit of a single hypothetical discriminant function
in the case of several groups. Ann. Eugen. 16 A951), стр. 199—214.
[13] The effect of standardization on а х2-аРРгох*таМоп in factor
analysis. Biometrika 38 A951), стр. 337—344.
[14] A further note on tests of significance in factor analysis. Brit. J.
Psych. (Stat. Sec), 4 A951), стр. 1—2.
[15] Factor analysis in psychology as a statistician sees it. Uppsala
Symposium on Psychological Factor Analysis, 17—19 March 1953,
Uppsala, Almqvist and Wiksell, 1953, стр. 23—34.
[16] A note on the multiplying factors for various ^-approximations.
/. Roy. Stat. Soc. B. 16 A954), стр. 296—298.
Беннетт (Bennett В. М.)
[1] Note on a solution of the generalized Behrens-Fisher problem. Ann.
Inst. Stat. Math. 2 A951), стр. 87—90.
[2] On the cumulants of the logarithmic generalized variance and
variance ratio. Skand. Aktuarietidskr 38 A955), стр. 17—21.
Берксон (Berkson Joseph)
[1] Cost-utility as a measure of the efficiency of a test. /. Amer. Stat.
Assoc. 42 A947), стр. 246—255.
Берт (Burt, Cyril)
[1] Statistical problems in the estimation of army tests. Psychometrika
9 A944), стр. 219—236.
Билл (В е а 11 Geoffrey),
[1] Approximate methods in calculating discriminant functions. Psy*
chometrika 10 A945), стр. 205—218.
Бирнбаум A. (Birnbaum Allan)
[1] Characterization of complete classes of tests of some multipara-
metric hypotheses with applications to likelihood ratio tests. Ann.
Math. Stat. 26 A955), стр. 21—36.
Бирнбаум 3. (Birnbaum Z. W.)
[1] Effect of linear truncation on a multinormal population. Ann. Math.
Stat. 2! A950), стр. 272—279.
Бирнбаум 3. и Мейер (Birnbaum Z. W. and Meyer, Paul).
[1] On the effect of truncation in some or all coordinates of a multi-
normal population. /. Indian Soc. Agric. Stat. 5 A953), стр. 17-Г-28.
Бишоп (Bishop D. J.)
[1] On a comprehensive test of the homogeneity of variances and cova-
riances in multivariate problems. Biometrika 31 A939), стр.31—55.
Блекуэл и Гиршик (Blackwell David and G i r-
shick M. A.)
[1] Theory of Games and Statistical Decisions. New York. John Wiley
and Sons, 1954. [Русский перевод: Теория игр и
статистических решений, ИЛ, 1958].
Б о з е П. К. (В о s e Р. К.)
[1] Parametric relations in multivariatte distributions. Sankhya 8
A947), стр. 167—171.
[2] On recursion formulae, tables and Bessel function populations
associated with the distribution of classical ?>2-statisticf Sankhya 8
A947), стр. 235-248,
476 ЛИТЕРАТУРА
[3] Remarks on computing the incomplete probability integral in multi-
variate distribution functions. Bull. Inst. Internat. Stat. 33 A951),
Part II, стр. 55—64.
[4] Corrigenda on the construction of incomplete probability integral
tables of the classical D2-statistic. Sankhya 11 A951), стр. 96.
БозеРД. (BoseR.C)
[1] On the exact distribution of D2-statistic. Sankhya 2 A936),
стр. 143—154.
[2] A note on the distribution of differences in mean values of two
samples drawn from two multivariate normally distributed
populations and the definition of the D2-statistic. Sankhya 2 A936),
стр. 379-384.
Бозе Р. К. и Рой С. H. (Bose R. С. and Roy S. N.)
[1] The exact distribution of the studentized D2-statistic. Sankhya 4
A938), стр. 19—38.
[2] The use and distribution of the studentized D2-statistic, when the
variances and covariances are based on К samples. Sankhya 4
A938), стр. 535—542.
Бозе С. Н. (Bose S. N.)
[1] On the complete moment-coefficients of the ZJ-statistic. Sankhya 2
A936), стр. 385—396.
[2] On the moment-coefficients of the ZJ-statistic and certain integral
and differential equations connected with the multivariate normal
population. Sankhya 3 A937), стр. 105—124.
Бозе С. С. (Bose S. S.)
[1] On the distribution of the ratio of variances of two samples
drawn from a given normal bivariate correlated population.
Sankhya 2 A936), стр. 65—72.
Бокс (Box G. E. P.)
[1] A general distribution theory for a class of likelihood criteria.
Biometrika 36 A949), стр. 317—346.
Браве (Bravais Auguste)
[1] Analyse mathematique sur les probabilites des erreurs de situation d'un
point. Memoriales de Vlnstitut de France 9 A846), стр. 255—332.
Браун (Brown G. W.)
[1] On the power of the Lptest for equality of several, variances. Ann.
Math. Stat. 10 A939), стр. 119—128.
Discriminant functions. Ann. Math. Stat. 18 A947), стр. 514—528.
Basic principles for construction and application of discriminators.
/. Clin. Psych. 6 A950), стр. 58—61.
Бхаскара (Bhaskara Varma K.)
[1] On the exact distribution of Wilks' Lmve and Loe criteria. Bull.
Inst. Internat. Stat. 33 A951), Part II, стр, 181—214.
БхаттачарьяА. (В h a 11 а с h a r у а А.)
[1] On the uses of the /-distribution in multivariate analysis. Sankhya
12 A952), стр. 89—104.
Бхаттачарья Д. П. и Нараиан (Bhattacharya D. Р.
and N а г а у a n R. D.)
[1] Moments of the D2-statistic for populations with unequal
dispersions. Sankhya 5 A939), стр. 401—412.
ЛИТЕРАТУРА 477
Бэкон (Bacon H. MJ
[1] A matrix arising in correlation theory. Ann. Math. Stat 19 A948),
стр. 422—424.
Вальд (Wald A.),
[1] Tests of statistical hypotheses concerning several parameters when
the number of observations is large. Trans. Amer. Math. Soc. 54
A943), стр. 426—482.
[2] On a statistical problem arising in the classification of an
individual in one of two groups. Ann. Math. Stat. 15 A944),
стр. 145—163.
[3] Statistical Decision Functions. New York, John Wiley and Sons, 1950.
Вальд и Брукнер (Wald A. and Brookner R. J.)
[1] On the distribution of Wilks' statistic for testing independence of
several groups of variates. Ann. Math. Stat. 12 A941), стр. 137—152.
Вальд и Вольфовиц (Wald A. and Wolfowitz J.)
[1] Statistical tests based on permutations of the observations. Ann.
Math. Stat. 13 A944), стр. 358—372.
Варма (VarmaR. S.)
[1] On the probability function in a normal multivariate distribution.
Quart. J. Mech. Appl. Math. 5 A952), стр. 361—362.
Вашвани (Vasvani Sundri)
[1] Assumptions underlying the use of the tetrachoric correlation
coefficient. Sankhyd 10 A950), стр. 269—276.
Виногрейд (Vinograde Bernard)
[1] Canonical positive definite matrices under internal linear
transformations, Proa. Amer. Math. Soc. 1 A950), стр. 159—161.
В о т о (V о t a w D. F. Jr.);
[1] Testing compound symmetry in a multivariate normal distribution.
Ann. Math. Stat. 19 A948), стр. 447—473.
Вот о, Рэфферти и Димер (Votaw D. F., Jr., R a f f e r-
t у J. A. and D e e m e r W. L.)
[1] Estimation of parameters in a truncated trivariate normal
distribution. Psychometrika 15 A950), стр. 339—347.
Галликсен и Уилкс (Gulliksen Harold and Wilks S. S.)
[1] Regression tests for several samples. Psychometrika 15 A950),
стр. 91—114.
Гальтон (GaltonF.)
[1] Natural Inheritance. London, MacMillan and Co., 1889.
Гамбел и Литтауэр (GumbelE. J. and L i 11 a u e r S. B.)
[1] On the independence of elements of a manufacturing operation.
Columbia Engng Quart 5 A952), стр. 10—13.
Гамильтон (Hamilton Max)
[1] The personality of dyspeptics with special reference to gastric and
duodenal ulcers. Brit J. Med. Psych. 23 A950), стр. 182—198.
Г а р в у д (Garwood F.)
[1] The probability integral of the correlation coefficient in samples
from a normal bivariate population. Biometrika, 25 A933),
стр. 71—78.
Гарретт (Garrett Henry EJ
[1] The discriminant function and its use in psychology. Psychometrika
8 A943), стр. 65—79.
478 ЛИТЕРАТУРА
Га vcc (Gauss С. F.)
[1] Theory of the Combination of Observations. Gottingen, 1823.
Герц (Herz C. S.) .
[1] Bessel functions of matrix argument. Ann. Math., Princeton, 61
A955), стр. 474—523.
Г и р ш и к (G i r s h i с k M. A.)
[1] Principal components. /. А тег. Stat A ssoc. 31 A936), стр. 519—528.
[2] On the sampling theory of roots of determinantal equations. Ann.
Math. Stat 10 A939), стр. 203—224.
[3] A scientific preview for standard sizes for children's garments and
patterns. /. Amer. Stat. Assoc. 34 A939), стр. 362—364.
[4] The distribution of the ellipticity statistic Le when the hypothesis
is false. Terr. Magn. Atmos. Elect. 46 A941), стр. 455—457.
Гиршик и Хаавелмо (Girshick M. A. and Haavelmo T.)
[1] Statistical analysis of the demand for food; example of
simultaneous estimation of structural equations. Econometrica 15 A947),
стр. 79—110.
Гнеденко Б. В.
[1] О теореме С. Н. Бернштейна. Известия Академии наук СССР,
серия мат., 12 A948), стр. 97—100.
Голдстайн и Нейман (Goldstine H. H. and von
Neumann J.)
[1] Numerical inverting of matrices of high order. Proc. Amer. Math.
Soc.2 A951), стр. 188—202.
Граббс (Grubbs Frank E.)
[1] On the distribution of the radial standard deviation. Ann. Math.
Stat. 15 A944), стр. 75—81.
Гэйен (Gayen A. K.J
[1] The frequency distribution of the product moment correlation
coefficient in random samples of any size drawn from non-normal
universes. Biometrika 38 A951), стр. 219—247.
Даннетт и Собел (Dunnett С. W. and Sob el M.)
{1] A bivariate generalization of Student's ^-distribution with tables
for special cases. Biometrika 41 A954), стр. 153—169.
12] Approximations to the probability integral and certain percentage
points of a multivariate analogue of Student's ^-distribution.
Biometrika 42 A955), стр. 258—260.
Даттон (D u 11 о n A. M.)
[1] Application of some multivariate analysis techniques to some data
from radiation experiments Statistics and Mathematics in Biology.
O. Kempthorne, T. A. Bancroft, J. W. Gowen and J. L. Lusk
(eds.), Ames, Iowa State College Press, 1954, стр. 81—92.
Даш (D a s А. С.)
[1] A note on the D2-statistic when the variances and covariances are
known. Sankhya 8 A948), стр. 372—374.
Двайер (Dwyer P. S.)
[1] Pearsonian correlation coefficients associated with least squares
theory. Ann. Math. Stat. 20 A949), стр. 404—416.
Двайер и Макфейл (Dwyer P. S. and MacPhail M. S.)
[1] Symbolic matrix derivatives. Ann. Math. Stat. 19 A948),
стр. 517-534.
ЛИТЕРАТУРА 479
Де Л ури (De L u г у D. В.)
[1] Note on correlations. Ann. Math. Stat. 9 A938), стр. 149—151.
Деш Рай (Des Raj)
[1] On estimating the parameters of bivariate normal populations from
doubly and singly linearly truncated samples. Sankhya 12 A953),
стр. 277—290.
[2] On estimating the parameters of binormal populations from
linearly truncated samples. Ganita 4 A953), стр. 147—154.
[3] On optimum selections from multivariate populations. Sankhya 14
A955), стр. 363—366.
Джамбунатан (JambunathanM. V.)
[1] Some properties of Beta and Gamma distributions. Ann. Math.
Stat. 25 A954), стр. 401—405.
Джеймс A. (J a m e s A. T.)
[1] Normal multivariate analysis and the orthogonal group. Ann.
Math. Stat. 25 A954), стр. 40—75.
[2] The non-central Wishart distribution, Proc. Roy. Soc. (London),
Л229 A955), стр. 364—366.
[3] A generating function for averages over the orthogonal group*
Proc. Roy. Soc. (London), Л229 A955), стр. 367—375.
Джеймс Дж. (James G. S.)
[1] Note on a theorem of Cochran. Proc. Camb. Phil. Soc. 48 A952).
стр. 443—446.
[2] Tests of linear hypotheses in univariate and multivariate analysis
when the ratios of the population variances are unknown. Biomet-
rika 41 A954), стр. 19—43.
Джири (GearyR.C.)
[1] Studies in relations between economic time series. /. Roy Stat.
Soc. В 10 A948), стр. 140—158.
[2] Determination of linear relations between economic time series.
Econometrica, 17 A949), стр. 30—58.
Джонсон (Johnson N. L.)
[1] Bivariate distributions based on simple translation systems. Bio-
metrika 36 A949), стр. 297—304.
Димер и Олкин (Deemer Walter L. and 01 kin
Ingram)
[1] The Jacobians of certain matrix transformations useful in
multivariate analysis. Based on lectures of P. L. Hsu at the University
of North Carolina, 1947, Biometrika 38 A951), стр. 345—
367:
Дэвид (David F. N.)
[1] A note on unbiased limits for the correlation coefficient. Biometrika
29 A937), стр. 157—160.
[2] Tables of the Ordinates and Probability Integral of the Distrubution
of the Correlation Coefficient in Small Samples. Cambridge
University Press, 1938.
[3] A note on the evaluation of the multivariate normal integral.
Biometrika 40 A953) стр. 458—459.
Дэйли (Daly J. F.)
[1] On the unbiased character of likelihood ratio tests for independence
in normal systems. Ann. Math. Stat. 11 A940), стр. 1—32.
480 ЛИТЕРАТУРА
Дюранд (Durand, David)
[1] Risk Elements in Consumer Installment Financing (technical ed.|
New York, National Bureau of Economic Research, Appendices A,
В, С, 1941.
Езекиль (EzekielM.)
[1] Methods of Correlation Analysis, New York. John Wiley and
Sons, 1941.
Ейтс и Кохрен (Yates F. and Cochran W. G.)
[1] The analysis of groups of experiments. /. Agric. Sci. 28 A938),
стр. 556.
Им (Ihm Peter)
[1] Ein Kriterium fur zwei Typen zweidimensionaler Normalveiterlun-
gen, Mitt. Math. Stat. 7 A955), стр. 46—52.
Иммер, Хейес и Пауэре (Immer F. R., Hayes H. D.
and Powers, Le Roy)
[1] Statistical determination of barley varietal adaptation. /. Amert
Soc. Agron. 26 A934), стр. 403—407.
И н г е м (I n g h a m A. Е.)
[1] An integral that occurs in statistics. Proc. Camb. Phil. Soc, 29
A933), стр. 271—276.
Иссерлис (lsserlisL.)
[1] On the partial correlation ratio. Part I. Theoretical. Biometrika
10 A914), стр. 391—420.
[2] On the partial correlation ratio. Part II. Numerical. Biometrika 11
A916), стр. 50—66.
[3] The variation of the multiple correlation coefficient in samples
drawn from an infinite population with normal distribution. Phil.
Mag. 34 (sixth series) A917) стр. 205—220.
Каллбек (Kullback Solomon)
[1] An application of characteristic functions to the distribution
problem of statistics. Ann. Math. Stat 5 A934), стр. 263—307.
[2] On samples from a multivariate normal population. Ann, Math.
Stat. 6 A935), стр. 202—213.
[3] An application of information theory to multivariate analysis. Ann,
Math. Stat. 23 A952), стр. 88—102.
[4] An application of information theory to multivariate analysis II,
Ann, Math. Stat, 27 A956), стр. 122—146.
Кансадо (Cansado Enrique)
[1] A study of bivariate distributions. Trabajos de Estadistica 2
A951), стр. 149—178.
К а р т е р (С а г t e г А. Н.)
[1] The estimation and comparison of resijiual regressions where there
are two or more related sets of observations. Biometrika 36 A949),
стр. 26—46.
К в e н а у и л (Q и е п о и i 11 е М. Н.)
[1] Note on the elimination of insignificant variates in discriminatory
analysis. Ann. Eugen. 14 A947), стр. 305—308.
[2] Multivariate experimentation. Biometrics 6 A950), стр. 303—316.
Келли (Kelley Т. L.)
[1] Tables to facilitate the calculation of partial coefficients of
correlation and regression equations. Bull, univ, Tex. 127 A916).
8
ЛИТЕРАТУРА 481
[2] Crossroads in the Mind of Man. Stanford, Stanford University
Press, 1928.
Кендалл (Kendall M. G.)
[1] The derivation of multivariate sampling formulae from univariate
formulae by symbolic operation. Ann. Eugen. 10 A940),
стр. 392—402.
[2] Proof of relation connected with the tetrachoric series and its
generalization. Biometrika 32 A941), стр. 196—198.
[3] The Advanced Theory of Statistics, I. London, Charles Griffin
and Co., 1943.
[4] The Advanced Theory of Statistics, II, London, Charles Griffin and
Co., 1946.
Кендалл и Бэбингтон Смит (Kendall M. G. and В a-
bington Smith B.)
[1] Factor analysis. J. Roy. Stat. Soc. В 12 A950), стр. 60—94.
Колмогоров А. Н.
] Основные понятия теории вероятностей. ОНТИ, 1936.
(оно (К о п о Kasumasa);
[1] On inefficient statistics for measurement of dependoncy of normal
bivariates. Mem. Fac. ScL, Kyusyu Univ. Al A952), стр. 1—12.
Коссек (Kossak Carl F.\
[1] On the mechanics of classification. Ann, Math. Stat. 16 A945),
стр. 95—97.
Кохрен (CochranW.G.)
[1] The distribution of quadratic forms in a normal system, with
application to the analysis of variance. Proc. Camb. Phil. Soc. 30
A934), стр. 178—191.
[2] The comparison of different scales of measurement for experimental
results. Ann. Math. Stat. 14 A943), стр. 205—216.
Кохрен и Блисс (Cochran W. G. and Bliss C. I.)
[1] Discriminant functions with covariance. Ann. Math. Stat. 19 A948),
стр. 151—176.
Крамер (CramerH.)
[1] On the theory of stationary random processes. Ann. Math.
Princeton 41 A940), стр. 215—230.
[2] Mathematical Methods of Statistics. Princeton. Princeton University
Press, 1946. [Русский • перевод: Математические методы
статистики, ИЛ, 1948.]
Крулль (К г u 11 Wolfgang)
[1] Korrelations Theorie zweidimensionaler Merkmale. Mitt, Math, Stat.
3 A951), стр. 15—29.
[2] Korrelations , Theorie mehrdimensionaler Merkmale. Mitt Math*
Stat. 3 A951), стр. 185—200.
К р э й г (С г a i g A. T.)
[1] Bilinear forms in normally correlated variables. Ann. Math, Stat
18 A947), стр. 565—573.
Кук (Cook M. В.)
[1] Bivariate ^-statistics and cumulants of their joint sampling
distribution. Biometrika 38 A951), стр. 179—195.
[2] Two applications of bivariate ^-statistics. Biometrika 38 A951),
стр. 368—376,
482 ЛИТЕРАТУРА
Купменс (Koopmans Т. С, ed )
[1] Statistical Inference in Dynamic Economic Models — Cowles
Commission Monograph 10, New York, John Wiley and Sons, 1950.
Кэдуел (CadwellJ. H)
[1] The bivariate normal integral. Biometrika 38 A951), стр. 475—479.
Кэймет (Kamat A. R.)
[1] Incomplete and absolute moments of the multivariate normal
distribution with some applications. Biometrika 40 A953), стр. 20—34.
Лаплас (L a p 1 а с e P. S.)
[1] Memoire sur les integrates definies et leur application aux
probabilites. Memoires de I'Institut Imperial de France, Annee 1810,
стр. 279—347.
Л a x a (L a h a R. G.)
[1] On some problems in canonical correlation. Sankhya 14 A954),
стр. 61—66.
[2] On a characterization of the multivariate normal distribution.
Sankhya 14 A955), стр. 367—368.
Л ев и (Levi Paul)
[1] The arithmetics 1 character of the Wishart distribution. Proc. Camb.
Phil. Soc. 44 A948), стр. 295—297.
Л е м а н (LehmanE. L)
[1] Theory of Testing Hypotheses. Associated Students Store, Berkley
(mimeo).
Лемер (Lehmer Emma)
[1] Inverse tables of probabilities of errors of the second kind. Ann,
Math. Stat. 15 A944), стр. 388—398.
Лолей (Lawley D. N.J
[1] A generalization of Fisher's z-test. Biometrika 30 A938),.
стр. 180—187.
[2] The estimation of factor loadings by the method of maximum
likelihood. Proc. Roy. Soc. Edinb. 60 A940), стр. 64—82.
[3] Further investigations in factor estimation. Proc. Roy. Soc. Edinb.
61 A942), стр. 176—185.
[4] A modified method of estimation in factor analysis and some large
sample results. Uppsala Symposium on Psychological Factor Ana-
lysis, 17—19 March 1953, Uppsala, Almqvist and Wirksell, 1953,
стр. 35—42.
[5] Tests of significance for the latent roots of covariance and
correlation matrices. Biometrika 43 A956), стр. 128—136.
Л о р д (L о r d R. D.)
[1] The use of the Hankel transform in statistics. Biometrika 41 A954),
стр. 44—55.
Лордж (Lorge Irving)
[1] Two groups comparisons by multivariate analysis. Ann. Educ.
Research Assoc. Official Report, 1940.
Лордж и Моррисон (Lorge Irving and Morrison N.)
[1] The reliability of principal components. Science 87 A938),
стр. 491—492.
Любин (L u b i n A.)
[1] Linear and non-linear discriminating functions. Brit. J< Psych.
(Stat. Sec.) 3 A950), стр. 90—104.
ЛИТЕРАТУРА 483
М а й н е р (М i n e r J. R.)
[1] Tables of \—r2 and V\—r2 for use in Partial Correlations,
etc., Baltimore, Johns Hopkins Press, 1922.
Мак Фадден (McFaddenJ. A)
[1] Urn models of correlation and a comparison with the multi-
variate normal integral. Ann. Math. Stat. 26 {1955), стр. 478—
489.
M a p и ц (M a r i t z J. S.)
[1] Estimation of the correlation coefficient in the case of a bivariate
normal population when one of the variables is dichotomized.
Psychometrika 18 A953), стр. 97—110.
M a p p и о т т (M a r r i о 11 F. H. С J
[1] Tests of significance in canonical analysis. Biometrika 39 A956),
стр. 58—64.
Мартин (М a r t i n E. A.)
[1] A study of the Egyptian series of mandibles with special reference
to mathematical methods of sexing. Biometrika 28 A936),
стр. 149—178.
Масуяма (MasuyamaM.)
[1] Correlation between tensor quantities. Proc. Phys.-Math. Soc. Japan
21 A939), стр. 638—646.
[2] Tensor characteristic of vector set. Proc. Phys.-Math. Soc. Japan
21 A939), стр. 648.
[3] On the meaning of the symmetric correlation coefficient. Proc.
Phys.-Math. Soc. Japan 22 A940), стр. 579.
[4] On the subdependency. Proc. Phys.-Math. Soc. Japan 22 A940),
стр. 855—858.
[5] The variance tensor of a vector set and a nature of the symmetric
correlation coefficient. „Proc. Phys.-Math. Soc. Japan 22 A940),
стр. 858.
Матусита (Matusita Kameo)
[1] Note on the independence of certain statistics. Ann. Inst. Stat.
Math. Tokyo 1 A949), стр. 79—82.
Махаланобис (Mahalanobis P. C.)
[1] On tests and measures of group divergence. /. Asiat. Soc. Beng.
26 A930), стр. 541—588.
[2] On the generalized distance in statistics. Proceedings of the
'National Institute of Sciences of India 12 A936), стр. 49—
55.
Махаланобис, Бозе Р. К. и Рой С. Н.
(Mahalanobis Р. С, В ose R. С. and R о у S. N.)
[1] Normalization of variance and the use of rectangular coordinates
in the theory of sampling ditsributions. Sankhya 3 A937),
стр. 1—40.
Мизес (Mieses R. von)
[1] On the classification of observation data into distinct groups.
Ann. Math. Stat. 16 A945), стр. 68—73.
M о л д о н (М a u I d о n J. G.)
[1] Pivotal quantities for Whishart's and related distributions and
a paradox in fiducial theory. /. Roy. Stat. Soc. B\7 A955),
стр. 79—85.
484 ЛИТЕРАТУРА
Морган (М о г g a n W. А.)
[1] A test for the significance of the difference between the variances
in a sample from a normal bivariate population. Biometrika 31
A939), стр. 13—19.
Морен (МогапР. А. Р.)
[1] The distribution of the multiple correlation coefficient. Proc. Camb.
Phil. Soc. 46 A950), стр. 521—522.
[2] The numerical evaluation of a class of integrals. Proc. Camb. Phil.
Soc. 52 A956), стр. 230—233.
Moppoy (Morrow Dorothy J.)
[1] On the distribution of the sums of the characteristic roots of a de-
terminantal equation. Abstract. Bull. Amer. Math. Soc. 54 A948),
стр. 75.
Мочли (Mauchly J. W.)
[1] A significant test for ellipticity in the harmonic dial. Terr. Magn.
Atmos. Elekt. 45 A940), стр. 145—148.
[2] Significance test for sphericity of a normal /i-variate distribution.
Ann. Math. Stat 11 A940), стр. 204—209.
Муд (Mood A.M.L
[1] On the joint distributions of the medians in samples from a multi-
variate population. Ann. Math. Stat. 12 A941), стр. 268—278.
[2] Introduction to the Theory of Statistics. New York, McGraw-Hill
Book Co. 1960.
[3] On the distribution of the characteristic roots of normal second-
moment matrices. Ann. Math. Stat. 22 A951), стр. 266—273.
M э й д о у (MadowW.G.)
[1] Contributions to the theory of multivariate statistical analysis.
Trans. Amer. Math. Soc. 44 A938), стр. 454—495.
Набейя (Nabeya S.)
[1] Absolute moments in 2-dimensional normal distribution. Ann. Inst.
Stat Math. 3 A951), стр. 2—6.
Нандаi (N and a D. N.)
[1] Distribution of a root of a determinantal equation. Ann. Math.
Stat., 19 A948), стр. 47—57.
[2] Limiting distribution of a root of a determinantal equation. Ann.
Math. Stat. 19 A948), стр. 340—350.
[3] The standard errors of discriminant function coefficients in plant-
breeding experiments. /. Roy. Stat. Soc.f Bit A949), стр.283—290.
[4] Distribution of the sum of roots of a determinantal equation under
a sertain condition. Ann. Math. Stat, 21 A950), стр. 432—439.
[5] Probability distribution tables of the larger root of a determinantal
equation with two roots. /. Indian Soc. Agric. Stat. 3 A951),
стр. 175—177.
Нанди (Nandi H. К.)
[1] On the power function of studentized D2-statistic« Bull. Calcutta
Math. Soc. 38 A946), стр. 79—84.
Нараин (NarainR.D.)
[1] A new approach to sampling distributions of the multivariate nor-
mal theory I. I. Indian Soc. Agric. Stat. 1 A948), стр. 59—69.
[2] A new approach to sampling distributions of the multivariate
normal theory II. /. Indian Soc. Agric. Stat. 1 A948), стр. 137-146.
ЛИТЕРАТУРА 485
[3] Some results on discriminant functions /. Indian Soc. Agric. Stat.
2 A949), стр. 49—59.
[4] On the completely unbiased character of tests of independence in
multivariate normal systems, Ann. Math. Stat. 21 A950),
стр. 293—298.
Нейман и Э. С. Пирсон (Neyman J. and Pearson E. S.)
[1] Contributions to the theory of testing statistical hypotheses. Stat.
Res. Mem. 1 A936), стр. 1—37.
Никвист, Райе и Риордан (Nyquist H., Rice S. О.
and R i о г d a n J.)
[1] The distribution of random determinants. Quart. Appl. Math. 12
A954), стр. 97—104.
Нэйр (Nair U. S.)
[1] The application of the moment function in the study of distribution
laws in statistics. Biometrika 30 A939), стр. 274—294.
О б ер г (О berg E. N.)
[1] Approximate formulas for the radii of circles which include a
specified fraction of a normal bivariate distribution. Ann. Math. Stat.
18 A947), стр. 442—446.
Огава (OgawaJ.)
[1] On the independence of bilinear and quadratic forms of a random
sample from a normal population. Ann. Inst. Stat. Math. 1 A949),
стр. 83—108.
[2] On the independence of quadratic forms in a non-central normal
system. Ann. Inst. Math. Stat. 2 A950), стр. 151—159.
[3] On the sampling distributions of classical statistics in multivariate
analysis. Osaka Math. J. 5 A953), стр. 13—52.
Огасаваре и Такахаши (Ogasaware Toziro and T a k a-
h a s h i Masayaki)
[1] Independence of quadratic quantities in a normal system. J. Sci.
Hiroshima Univ. A 15 A951), стр. 1—9.
О л к и н @1 k i n Ingram)
[1] Note on the Jacobians of certain matrix transformations useful in
multivariate analysis. Biometrika 40 A952), стр. 43—46.
Олкин и Рой (Olkin Ingram and Roy S. N.)
[1] On multivariate distribution theory. Ann. Math. Stat. 25 A954),
стр. 329—339.
Пенроуз (PenroseL S.)
[1] Some notes on discrimination. Ann. Eugen. 13 A947), стр. 228—237.
Пиллаи (Pillai К. С. S )
[1] Some new test criteria in multivariate analysis. Ann. Math. Stat.
26 A955), стр. 117-121.
Пирсон К. (Pearson К.}
[1] Mathematical contributions to the theory of evolution—III.
Regression, heredity and panmixia. Phil. Trans. A187 A896),
стр. 253—318.
[2] On the criterion that a given system of deviations from the
probable in the case of a correlated system of variables is such that
it can reasonably be supposed to have arisen from random
sampling. Phil. Mag. 50 A900), стр. 157-175.
486 ЛИТЕРАТУРА
[3] On lines and planes of closest fit to systems of points in space.
Phil. Mag. 2 A901) (sixth series), стр. 559—572.
[4] On the coefficients of racial likeness Biometrika 18 A926),
стр. 105—117.
[5] Note on standardization of method using the coefficients of racial
likeness. Biometrika 20B A928), стр 376—378.
[6] Tables for Statisticians and Biometricians Part I Crd ed.).
Cambridge, Cambridge University Press, 1930.
[7] Tables for Statisticians and Biometricians, Part II. Cambridge,
Cambridge University Press, 1931.
[8] Tables of the Incomplete Beta-Function. Cambridge, Cambridge
UniveTsity Press, 1932.
Пирсон К., Джеффри и Элдертон (Pearson K-, J e f-
f г у G. В. and Е 1 d е г t о п Е. М.)
[1] On the distribution of the first product moment coefficient in
samples drawn from an indefinitely large normal population. Bio-
metrika 21 A929), стр. 164—201.
Э. С. Пирсон и Уилкс (Pearson E. S. and Wi Iks S. S.J
[1] Methods of analysis appropriate for k samples of two variables.
Biometrika 25 A933), стр. 353—378.
Питман (PitmanJ.C.)
[1] A note on normal correlation. Biometrika 31 A939), стр. 9—12.
Плана (Р 1 a na G. A. A.)
[1] Memoire sur divers problemes de probabilite. Mem. Acad. Impe-
dale de Turin, pour les Annees 1811—1812,20 A813), стр. 355—498.
Плэкетт (Plackett R. L)
[1] An exact test for the equality of variances. Biometrika 34 A947),
стр. 311—319.
[2] A reduction formula for normal multivariate integrals. Biometrika
41 A954), стр. 351—360.
П о й а (Р о 1 у a G.)
[1] Remarks on computing the probability integral in one and two
dimensions. Proceedings of the Berkeley Symposium on
Mathematical Statistics and Probability. University of California Press,
Berkeley and Los Angeles, 1949, стр. 63—78.
К. P. Pao (Rao С R.)
[1] Generalized variance of populations. Proc. Indian Sci. Cong.,
1944.
{2] Studentized tests of linear hypotheses. Science and Culture 11
A945), стр. 202—203.
[3] Tests with discriminant functions in multivariate analysis. Sankhya
7 A946), стр. 407—413.
[4] On the problem of К samples and К multivariate populations
with unequal variaces and covariances. Proc. Indian. Sci. Cong.t
1946.
[5] A statistical criterion to determine the group to which an
individual belongs. Nature 160 A947), стр. 835—836.
[6] The utilization of multiple measurements in problems of biological
classification. /. Roy. Stat. Soc. Д10 A948), стр. 159—193.
[7] Tests of significance in multivariate analysis. Biometrika 35
A948), стр. 58—79.
ЛИТЕРАТУРА 487
[ 8] On the distance between two populations. Sankhya 9 A949),
стр. 246—248.
[ 9] On some problems arising out of discrimination with multiple
characters Sankhya 9 A949), стр. 343—366.
[10] Tests with discriminant functions in multivariate analysis, Sari'
khya 9 A949), стр. 407.
[11] Representation of p-dimensional data in lower dimensions.
Sankhya 9 A949) стр. 248—251.
[12] On a transformation useful in multivariate computations.
Sankhya 9 A949), стр. 251—253.
[13] Statistical inference applied to classificalory problems. II. The
problem of selecting individuals for various duties in a specified
ratio. Sankhya 11 A951), стр. 107—116.
[14] An asymptotic expansion of the distribution of Wilks' A-criterion.
Bull. Inst. Internat. Stat 33 A951), Part II, стр. 177—180.
[15] Advanced Statistical Methods in Biometric Research. New York,
John Wiley and Sons, 1952.
[16] Discriminant functions for genetic differentiation and selection.
(Part IV of «Statistical inference applied to classificatory
problems»). Sankhya 12 A953), стр. 229—246.
[17] A general theory of discrimination when the information about
alternative population distributions is based on samples. 'Ann,
Math. Stat. 25 A954), стр. 651—670.
[18] On the use and interpretation of distance functions in statistics.
Bull. Inst. Internat. Stat. 34 A954), стр. 90—97.
[19] Analysis of dispersion for multiply classified data with unequal
numbers in cells. Sankhya 15 A955), стр. 253—280.
[20] Estimation and tests of significance in factor analysis. Psycho-
metrika 20 A955), стр. 93—111.
Pao К. Р. и Слэйтер (Rao С. R. and S 1 a t er P.),
[1] Multivariate analysis applied to differences between neurotic
groups. Bull. J. Psych. (Stat. Sec.) 2 A949), стр. 17—29.
К. С. Р а о (R а о К. S.),
[1] On the mutual independence of a set of Hotelling's T2 derivable
from a sample of size n from a &-variate normal population. Bull,
Inst. Internat. Stat. 33 A951), Part И, стр. 171—176.
[2] Testing for serial correlation in a stationary multidimensional
discrete stochastic process. Bull. Inst. Internat. Stat. 34 A954),
стр. 185—194.
P а ш (R a s с h G.)
[1] A functional equation for Wishart's distribution. Ann. Math. Stat
19 A948), стр. 262—266.
[2] A vectorial /-test in the theory of multivariate normal distributions.
Mat. Tidskr. В A950), стр. 76—81.
[3] On simultaneous factor analysis in several populations. Uppsala
Symposium on Psychological Factor Analysis, 17—19 March 1953.
Upsala, Almqvist and Wicksell, 1953, стр. 65—71.
Дж. Рой (Roy J.)
[1] The distribution of certain likelihood criteria useful in multivariate
analysis. Bull. Inst. Internat. Stat. 33 A951), Part II, стр. 219—
230.
488 ЛИТЕРАТУРА
Р о й С. Н. (R о у S. N.)
[I] Qeometrical note on the use of rectangular coordinates in the
theory of sampling distributions connected with a multivariate
normal population. Sankhya 3 A938), стр. 273—384.
[ 2] A note on the distribution of the studentized D2-statistic. Sankhya
4 A939), стр. 373—380.
[ 3] p-statistics or some generalizations in analysis of variance
appropriate to multivariate problems. Sankhya 4 A939), стр. 381—
396.
[ 4] The sampling distribution of p-statistics and certain allied
statistics on the non-null hypothesis Sankhya 6 A942),
стр. 15—34
[ 5] Analysis of variance for multivariate normal populations. The
sampling distribution of the requisite p-statistics on the null and
non-null hypothesis. Sankhya 6 A942), стр. 35—50.
[ 6] The individual sampling distribution of the maximum, minimum
and any intermediate of the p-statistics on the null hypothesis.
Sankhya 7 A945), стр. 133—158.
[ 7] On a certain class of multiple integrals. Bull. Calcutta Math. Soc.
37 A945), стр. 69—77.
[ 8] Multivariate analysis of variance: the sampling distribution of
the numerically largest of the p-statistics on the non-null
hypothesis. Sankhya 8 A946), стр. 15—52.
[ 9] On the individual sampling distribution of p-statistics for testing
equality of the dispersion matrices for two multivariate normal
populations. Proc. Indian Sci. Cong., 1946.
[10] On the power function of the different p-statistics for multivariate
analysis of variance. Proc. Indian Sci. Cong., 1946.
[II] Further studies in multivariate analysis of variance. Proc. Indian
Sci. Cong., 1946.
[12] A note on multivariate analysis of variance when the number of
variates is greater than the number of linear hypotheses. Sankhya
8 A946), стр. 53—66.
A3] A note on critical angles between two flats in hyperspace
with certain statistical applications. Sankhya 8 A947), стр. 177—
191.
[14] Univariate and multivariate analysis as problem in testing of
composite hypotheses. Sankhya 10 A950), стр. 29—80.
[15] On some aspects of statistical inference. Proceedings
International Congress of Mathematicians I, Providence, American
Mathematical Society A950), стр. 555—564.
[16] Some useful results in Jacobians. Calcutta Stat. Assoc. Bull 4
A952), стр. 117—122.
[17] On a heuristic method of test construction and its use in
multivariate analysis. Ann. Math. Stat. 24 A953), стр. 220—238.
[18] Some further results in simultaneous confidence interval
estimation. Ann. Math. Stat 25 A954), стр. 752—761.
С. Н. Рой и П. Бозе (Roy S. N. and В ose P.)
[1] The distribution of the root-mean-square of the second type of the
multiple correlation coefficient.. Science and Culture 6 A940),
стр. 59.
ЛИТЕРАТУРА 489
С. Н. Рой и Р. К. Бозе (Roy S. N. and В о s e R. С)
[1] Simultaneous confidence interval estimation. Ann. Math. Stat. 24
A953), стр. 513—536.
Сакамото (Sakamoto Heihachi)
[1] On the criteria of the independence and degrees of freedom of
statistics and their applications to the analysis of variance. Ann.
Inst. Stat. Math. 1 A949), стр. 109—122.
Састри (SastryK.V. Krishna)
[1] On a Bessel function of the second kind and Wilts' Z-distribution.
Proc. Indian Acad. ScL, Sect. A 28 A948), стр. 532—536.
С а то (Sato R.)
[1] /--distributions and r-tests. Ann. Inst. Stat. Math. 2 A951),
стр. 91—124.
Свердруп (Sverdrup Erling)
[1] Derivation of the Wishart distribution of the second order sample
moments by straightforward intergation of a multiple integral.
Skand. Aktuarietidskr. 30 A947), стр. 151—166.
С и м а и к a (S i m a i k a J. В.)
[1] On an optimum property of two important statistical tests. Bio-
metrika 32 A941), стр. 70—80.
Симонсен (Simonsen W.)y
[1] On distributions of functions of samples from a normally
distributed infinite population. Skand. Aktuarietidskr. 27 A944), стр. 235^
261; 28 A945), стр. 20—43
Ситгривес (Sitgreaves Rosedith)
[1] On the distribution of two random matrices used in classification
procedures. Ann. Math. Stat. 23 A952), стр. 263—270.
Скитович В. П.
[1] О свойствах нормального распределения. Доклады Академии
Наук СССР (новая серия) 89 A953), стр. 217—219.
Г. Смит (Smith H. Farfield)
[1] A discriminant function for plant selection. Ann. Eugen. 7 A936),
стр. 240—250.
К. Смит (Smith С. А. В.)
[1] Some examples of discrimination. Ann. Eugen. 13 A947), стр. 272—
282.
Соломон (Solomon Herbert),
[1] Distribution of the measure of a random two-dimensional set. Ann.
Math. Stat. 24 A953), стр. 650—656.
Con ер, Ян г, Кэйв, Ли и К. Пирсон (So per Н. Ем
Young A. W, Cave В. М., Lee A. and Pearson К.)
[1] On the distribution of the correlation coefficient in small samples.
Appendix II to the papers of «Student» and R. A. Fisher. A
cooperative study. Biometrika 11 A916), стр. 328—413.
Стил (Steel R. G. D.)
[1] Minimum generalized variance for a set of linear functions. Ann,
Math. Stat. 22 A951), стр. 456—460.
[2] Analysis of perennial crop data. Biometrics 11 A955), стр. 201— 212.
Стоун (Stone Richard)
[1] On interdependence of blocks of transactions. Jt Roy. Stat. Soc,
Supple, 9 A947), стр. 1—32.
490 ЛИТЕРАТУРА
Стьюдент (Student [GossethW. SJ)
[1] The probable error of a mean. Biometrika 6 A908), стр. 1—25.
Стэйн (Steyn H. S.)
[1] The Wishart distribution derived by solving simultaneous linear
differential equations. Biometrika 38 A951), стр. 470—472.
Сэйсюли (SasulyM.)
[1] Generalized multiple correlation analysis of economic statistical
series. / Amer Stat. Assoc. 25 A930), стр. 146—152.
Терстоун (Thurstone L. L.)
[1] Multiple-Factor Analysis. Chicago, University of Chicago Press,
1947.
Тинтнер (TintnerG.)
[1] A note of rank, multicollinearity and multiple regression. Ann.
Math. Stat. 16 A945), стр. 304—308
[2] Some applications of multivariate analysis to economic data. /.
Amer. Stat. Assoc. 41 A946), стр. 472—500.
[3] Some formal relations in multivariate analysis. /. Roy. Stat. Soc.
В 12 A950), стр. 95—101.
[4] A test for linear relations between weighted regression coefficients
/. Roy. Stat. Soc. В 12 A950), стр. 273—277.
[5] Die Anwendung der variate Differenz Methode auf die Probleme
der gewogenen Regression und der Multikollinearitat. Mitt. Math.
Stat. 4 A952), стр. 159—162.
T о м с о н (Thomson G. H.)
[1] The Factorial Analysis of Human Ability Eth. ed.). London,
University of London Press, 1951.
T э ft л (T h e i 1 H.)
[1] Estimation of parameters of econometric models. Bull. Inst. Inter-
nat. Stat. 34 A954), стр. 122—129.
Тэнг (Та ng P С.)
[1] The power function of the analysis of variance tests with tables
and illustrations of their use. Stat. Res. Mem. 2 A938), стр. 126—
157.
T ю к е Й (T u k e у J. W J
[1] Dyadic anova, an analysis of variance for vectors. Hum. Biol. 21
A949), стр. 65—110.
T ю к e и и У и л к е (Т u k е у J. W. and W i 1 к s S. S.)
[1] Approximation of the distribution of the product of Beta variables
by a single Beta variable. Ann. Math. Stat. 17 A946), стр. 318—
324.
Уилкс (Wilks S. S.)
[1] Certain generalizations in the analysis of variance. Biometrika 24
A932), стр. 471—494.
[2] Moments and distribution of estimates of population parameters
from fragmentary samples Ann. Math. Stat. 3 A932), стр. 163—
195.
[3] On the sampling distribution of the multiple correlation coefficient.
Ann. Math. Stat. 3 A932), стр. 196—203.
[4] On the distribution of statistics in samples from a normal
population of two variables with matched sampling of one variable. Me-
tron9 A932), стр. 87—126.
ЛИТЕРАТУРА 491
[ 5] Moment generating operators for determinations of product
moments in samples from a normal system. Ann. Math. Princeton,
35 A934), стр. 312—340.
[ 6] On the independence of k sets of normally distributed statistical
variables. Econometrica 3 A935), стр. 309—326.
[ 7] Test criteria for statistical hypotheses involving several variables.
/. Amer. Stat. Assoc. 30 A935), стр. 549—560.
[ 8] The sampling theory of systems of variances, covariances and
intraclass covariances. Amer. J. Math. 58 A936), стр. 426—432.
[ 9] Weighting systems for linear functions of correlated variables
when there is no dependent variable. Psychometrika 3 A938),
стр. 23—40.
[10] Mathematical Statistics. Princeton, Princeton University Press,
1943.
[11] Sample criteria for testing equality of means, equality of
variances, and equality of covariances in a normal multivariate
distribution, Ann. Math. Stat. 17 A946), стр. 257—281.
У и л ь я м с (W i I li a m s E. J )
[1] Some exact tests in multivariate analysis. Biometrika 39 A952),
стр. 17—31.
[2] Significance tests for discriminant functions and linear functional
relationships. Biometrika 42 A955), стр. 360—381.
УиттекериВатсон (WhittakerE. Т. and Watson G. N.)
[1] A Course of Modern Analysis, Cambridge University Press, Amer.
Ed. (MacMillan Co.), 1943 [Русский перевод: Курс современного
анализа, ч. I, ГТТИ, 1933; ч. II, ГТТИ, 1934.]
Уиттл (Whittle P.)
[1] On principal components and least square methods of factor
analysis. Skand. Aktuarietidskr. 36 A953), стр. 223—239.
Уишарт (W i s h а г t, John)
[1] The generalized product moment distribution in samples from a
normal multivariate population. Biometrika 20A A928),
стр. 32—52.
[2] The mean and second moment coefficient of the multiple
correlation coefficient from a normal population. Biometrika 22 A931),
стр. 353—361.
[3] Proofs of the distribution law of the second order moment
statistics. Biometrika 39 A948), стр. 55—57.
[4] Test of homogeneity of regression coefficient, and its application
in the analysis of covariance. Presented to the Colloque
International de Calcul des Probabilites et de Statistique Mathematique,
Lyon, 1948.
[5] Multivariate analysis. Appl. Stat. 4 A955), стр. 103—116.
Уишарт и Бартлетт (Wishart, John and BartlettM S.)
[1] The distribution of second order moment statictics in a normal
system. Proc. Camb. Phil. Soc. 28 A932), стр. 455—459.
[2] The generalized product moment distribution. Proc. Camb. Phil.
Soc. 29 A933), стр. 260—270.
У о (Waugh V.)
[1] Regressions between sets of variates. Econometrica 10 A942),
стр. 290—310.
492 ЛИТЕРАТУРА
Уокер (Walker Helen M.)
[1] Studies in the History of Statistical Method Baltimore, Williams
and Wilkins Co., 1931.
Уолд (Wold H. O. A.)
[1] Statistical estimation of economic relationship. Econometrica 17
A949), Supple, стр. 1—22.
[2] Demand Analysis, A Study in Econometrics (with L. Jureen)\ New
York, John Wiley and Sons, 1953.
Уоллес и Трэверс (Wallace Noel and Tr avers R.M.W.)
[1] A psychometric sociological study of a group of speciality
salesmen. Ann. Eugen. 8 A938), стр. 266—302.
Уолц, Рэйд и Ко л у элл (Woltz W. G., Reid W. A. and
Colwel 1 W. E.)
[1] Sugar and nicotine in cured bright tobacco as related to mineral
element composition. Proc. Soil Sci. Soc. Amer. 13 A948), стр.
385-387.
Уэйбулл (Weibull Martin)
[1] The distribution of t- and F-statistics and of correlation and
regression coefficients in stratified samples from normal populations with
different means. Skand. Aktuarietidskr. 36 A953), Supple, стр. 1—
106.
Уэлч (Welch В. L.)
[1] Note on discriminant functions. Biometrika 31 A939), стр. 218—220.
У э p p и (W h e г г у R. J.)
[1] An approximation method for obtaining a maximized multiple
criterion. Psychometrika 5 A940), стр. 109—116.
Феррис, Граббс и Уивер (Ferris С. D., Grubbs Т. Е. and
Weaver С. L.)'
[1] Operating characteristics for the common statistical tests of
significance, Ann. Math. Stat 17 A946), стр. 178—197.
Филлер, Льюис и Э. Пирсон (Fieller E. С, Lewis Т.
and Pearson E. S.)
[1] Correlated Random Normal Deviates. Cambridge, Cambridge
University Press, 1955.
Финней (Fi n n eу D. J.)
[1] The distribution of the ratio of the.two variances in a sample from
a normal bi-variate population. Bhmetrika 30 A938), стр. 190—
192.
[2] The frequency distribution of deviates from means and regression
lines in samples from a multivariate normal population. Ann. Math.
Stat. 17 A946), стр. 344—349.
[3] Multivariate analysis and agricultural experiments. Biometrics 12
A956), стр. 67—71.
Фишер (F i s h e г R. A.)
[1] Frequency distribution of the values of the correlation coefficient
in samples from an indefinitely large population. Biometrika 10
П915), стр. 507—521.
[2] On the probable error of a coefficient of correlation deduced from
a small sample. Metron 1 A921), Part 4, стр. 3—32.
[3] The distribution of the partial correlation coefficient. Metron 3
A924), стр. 329—332.
ЛИТЕРАТУРА 493
f 4] The general sampling distribution of the multiple correlation
coefficient. Proc. Roy. Soc. A\2\ A928), стр. 654—673.
[ 5] The use of multiple measurements in taxonomic problems. Ann.
Eugen,! A936), стр. 179—188.
[ 6] The statistical utilization of multiple measurements. Ann. Eugen.
8 A938), стр. 376—386.
[ 7] The sampling distribution of some statistics obtained from
nonlinear equations. Ann. Eugen. 9 A939), стр. 238—249.
[ 8] The precision of discriminant functions. Ann. Eugen, 10 A940),
стр. 422—429.
[ 9] The Design of Experiments Dth ed.). Edinburgh, Oliver and
Boyd, 1947.
[10] The analysis of covariance methods for the relation between a
part and the whole. Biomet. Bull. 3 A947), стр. 65—68.
Фишер и Ейтс (Fisher R. A. and Y a t e s F.)
[1] Statistical Tables for the Use in Biological, Agricultural and
Medical Research Bnd ed.). Edinburgh, Oliver and Boud,
1942.
Фог (Fog David)
[1] The geometric method in the theory of sampling. Biometrika 39
A948), стр. 1—9.
Фретс (Frets G. P.)
[1] Heredity of head form in man. Genetica 3 A921), стр. 193—384.
Фриш (Fr isch R.)
[1] Correlation and scatter in statistical variables. Nordic Stat. J. 8
A929), стр. 36—102.
Фрэйзер (Fraser D. A. SO
[1] Generalized hit probabilities with a Gaussian target. Ann. Math.
Stat. 22 A951), стр. 248—255.
[2] Generalized hit probabilities with a Gaussian target. II. Ann.
Math. Stat. 24 A953), стр. 288—294.
Хаавелмо (HaavelmoT.)
[1] The statistical implications of a system of simultaneous equations.
Econometrica 11 A943), стр. 1—12.
[2] The probability approach in econometrics. Econometrica 12 A944),
Supple.
Xa лмош (Halm os P. R.)
[1] Measure Theory, New York. D. van Nostrand, 1950. [Русский
перевод: Теория меры, ИЛ, 1953.]
Харлей (Наг ley В. I.)
[1] A note on the probability integral of the correlation coefficient.
Biometrika 41 A954), стр. 278—280.
Хартлей и Фитч (Hartley H. О. and Fitch E. R.)
[1] A chart for the incomplete beta-function and the cumulative bino-
•• mial distribution. Biometrika 38 A951), стр. 423—425.
Хикмен (Hickman W. Braddock)
[1] The Volume of Corporate Bond Financing Since 1900. Princeton,
Princeton University Press, 1963, стр, 82—90.
Холзингер и Хармон (Holzinger К. J. and
Harmon H. H.)
[1] Factor Analysis. Chicago, University of Chicago Press, 1941.
494 литература
Холл (Н а 11 Р.?
ГЦ Multiple and partial correlation coefficients in the case of an m-fold
variate system. Biometrika, 19 A927), стр. 100—109.
ХорстиСмит (Horst Paul and Smith Stevenson)
fl] The discrimination of two racial samples. Psychometrika 15 A950),
стр. 271—290.
Хотеллинг (Hotelling Harold)
[1] The generalization of Student's ratio. Ann. Math. Stat. 2 A931),
стр. 360—378.
[2] Analysis of a complex of statistical variables into principal
components. /. Educ. Psych. 24 A933), стр. 417—441, 498—520.
[3] The most predictable criterion. /. Educ. Psych. 26 A935),стр. 139—
142.
[4] Simplified calculation of principal components. Psychometrika, 1
A936), стр. 27—35.
[5] Relations between two sets of variates. Biometrika 28 A936),
стр. 321—377.
[6] Multivariate quality control, illustrated by the air testing of sample
bombsights. Techniques of statistical Analysis, New York,
McGraw-Hill Book Co., 1947, стр. 11—184.
[7] Fitting truncated normal distributions. Abstract. Ann. Math. StaL
19 A948), стр. 596.
[8] A generalized Г-test and measure of multivariate dispersion.
Proceedings of the Second Berkeley Symposium on Mathematical
Statistics and Probability. University of California Press, Los Angeles
and Berkeley, 1951, стр. 23—42.
[9] New light on the correlation coefficient and its transforms. /. Roy.
Stat. Soc. В 15 A953), стр. 193—225.
Хоул (Hoel Paul G.)
[1] A significance test for component analysis. Ann. Math. Stat. 8
A937), стр. 149—158.
Хоул и Петерсон (Hoel Paul G and Peterson R. P.)
[1] A solution of the problem of optimum classification. Ann. Math.
StaL 20 A949), стр. 433—438.
X су (Hsu P. L.)
[1] Notes on Hotteling's generalized Г2. Ann. Math. Stat. 9 A938),
стр. 231—243.
[ 2] On the distribution of the roots of certain determinantal equations.
Ann. Eugen. 9 A939), стр. 250—258.
[ 3] A new proof of the joint product moment distribution. Proc. Camb.
Phil. Soc. 35 A939), стр. 336—338.
[ 4] On generalized analysis of variance (/)'. Biometrika 31 A940),
стр. 221—237.
[ 5] An algebraic derivation of the distribution of rectangular
coordinates. Proc. Edinb. Math. Soc. 6 A940), стр. 185—189.
[ 6] On the limiting distribution of roots of a determinantal equation.
/. London Math. Soc. 16 A941), стр. 183—194.
[ 7] On the problem of rank and limiting distribution of Fisher's test
function. Ann. Eugen. 11 A941), стр 39—41.
[ 8] On the limiting distribution of the canonical correlations.
Biometrika 32 A941), стр. 38—45.
ЛИТЕРАТУРА 495
[ 91 Canonical reduction of the general regression problem. Ann. Eu-
gen. 11 A941), стр. 42—46.
[10] On the power functions of the ?2-test and the T2-test. Ann. Math.
Stat. 16 A945), стр. 278—286.
[11] The limiting distribution of functions of sample means and
applications to testing hypotheses. Proceedings of the Berkeley
Symposium on Mathematical Statistics and Probability,
University of California Press, Berkeley and Los Angeles, 1949,
стр. 359—402.
ХсуЧун-ци (HsuChung-tsi)
[1] Samples from two bivariate normal populations. Ann. Math Stat.
12 A941), стр. 279—292.
Худ и Купменс (Hood W. С- ind Koopmans Т. С.)
[1] Studies in Econometric Method — Cowles Commission Monograph.
14. New York, John Wiley and Sons, 1953.
Хукер (Hooker R. H.)
[1] The correlation of the weather and crops. /. Roy. Stat. Soc. 70
A907), стр. 1—42.
Хьюз (Hughes H. M.)
[1] Estimation of the variance of a bivariate normal distribution. Univ.
Calif. Publ. Stat. 1 A949), стр. 37—51.
Чернов (Chernoff Herman)
[1] Large sample theory: parametric case. Ann. Math. Stat. 27 A956),
стр. 1—22.
ЧоуниМорен (ChownL. N. and M о r a n P. A. P.)
• [1] Rapid method for estimating correlation coefficients. Biometrika 38
A951), стр. 464—468.
Шеффе (Scheffe Henry)
[1] On the ratio of variances of two normal populations. Ann. Math.
Stat 13 A942), стр. 371—388.
[2] On solutions of the Behrens-Fisher problem based on the
/-distribution. Ann. Math. Stat. 14 A943), стр. 35—44.
Шохат и Тамаркин (Shohat J. A. and Tamarkin J. D.)
[1] The Problem of Moments. New York, American Mathematical
Society, 1943.
Шривастава (ShrivastavaM. P.)
[1] Bivariate correlation surfaces. Science and Culture 6 A941),
стр. 615—616.
Эйткен (A it ken A. C.)
[1] Studies in practical mathematics II. The evaluation of the latent
roots and latent vectors of a matrix. Proc. Roy. Soc. Edinb. 57
A937), стр. 269—305.
[2] On a problem in correlated errors. Proc. Roy. Soc. Edinb. A 62
A948), стр. 273—277.
[3] On the estimation of many statistical parameters. Proc. Roy. Soc.
Edinb. A 62 A948), стр. 369—377.
[4] On the Wishart distribution in statistics. Biometrika 36 A949),
стр. 59—62.
[5] On the statistical independence of quadratic forms in normal varia-
tes. Biometrika 37 A950), стр. 93—96.
496 ЛИТЕРАТУРА
9Ab<|>Bi!Hr(ElfvingG.)
[1] A simple method of deducing certain distributions connected with
multivariate sampling. Skana. Aktuarietidskr. 30 A947), стр. 56—
Юл (Yule G. U.)
[1] On the significance of Bravais' Formulae for regression in the
case of skew correlation. Proc. Roy. Soc. 60 A897), стр. 477—
489.
[2] On the theory of correlation. J. Roy. Stat. Soc. 50 A897),
стр. 812—854.
[3] On the theory of correlation for any numbers of variables treated
by a new system of notation. Proc. Roy. Soc. A 79 A907),стр. 182—
193.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ *)
Асимптотическое разложение гамма-
функции 280—281
— — распределения отношения прав-
доподобия 278—288
— распределение 107—108
Беренса—Фишера проблема 165—170
Бернулли полиномы 280—281
Вырожденное нормальное
распределение 39—40
Гипергеометрическая функция 98
Главные компоненты 369—370
— — выборочные 427
, распределение 433
, вычисление 381—384
— —, оценка наибольшего
правдоподобия 379—380
, применение для проверки
гипотез о ковариационных матрицах
443—444
— оси эллипсоидов постоянной
плотности 377
Дисперсия 28
—, оценка наибольшего
правдоподобия 70
Достаточность выборочного среднего
значения и ковариационной
матрицы 80
Канонические коэффициенты
корреляции и канонические величины
~ выборочные 405
/^ —, асимптотическое
распределение 442-443
/^ —, распределение 435—436
,*, . вычисление 407—409
•^ генеральной совокупности 390—403
~, оценка наибольшего
правдоподобия 404
~, применение для проверки
гипотезы о ранге 438—441
Карлемана теорема 238
Квадратичная форма 454
Классификация наблюдений в
нормальные совокупности 185—190,
204-208
Классификация наблюдений в
нормальные совокупности, дискрими-
нантная функция 186
~, выборочная 190—197
~, инвариантный метод 211
/>•, минимаксное решение 188
^J, отношение правдоподобия 195—197
/•w, распределение величины, дающей
критерий классификации 192—193
Ковариационная матрица 281
выборочная 76
, асимптотическое
распределение 106
, вычисление 70
, геометрическая
интерпретация 71-73
, распределение 221
, —, характеристика 76
, состоятельность для оценки
ковариационной матрицы
совокупности 84
вырожденная 40
нормального распределения 29
, оценка наибольшего
правдоподобия 70
, проверка гипотез 336, 353—354,
359-365
Ковариация 28
Косинус угла между двумя
векторами 71, 72
Кохрена теорема 227—230
Коэффициент корреляции 29, 30
выборочный (Пирсона) 70, 71
, геометрическая
интерпретация 72-73
, инвариантность 82
, распределение
асимптотическое 109
, —, когда коэффициент
корреляции генеральной совокупности
не равен нулю 97
, —, когда коэффициент
корреляции генеральной совокупности
равен нулю 91
, доверительные интервалы 100
, , использование г-величины
Фишера ПО—111
, инвариантность 62
, критерий отношения
правдоподобия 102
*) Тире заменяет слово, тильда ~ — группу слов.
498
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Коэффициент корреляции, оценка
наибольшего правдоподобия 70
— —, проверка гипотезы о равенстве
двух коэффициентов корреляции
, данному числу 98
, /«w, использование 2-распреде-
ления Фишера 110—111
, ~, мощность критерия 99
— —, нулю 92
, распределение множества
выборочных коэффициентов корреляции
240-242
— регрессии 44
выборочный 250—251
, геометрическая
интерпретация 113-114
, распределение 253—254
, вычисление 254—258
— —, инвариантный критерий 302—
304
, критерии для проверки гипотез
302—307
, отношение правдоподобия 259—
260
» , геометрическая
интерпретация 261—262
. , распределение 267—278
w —» . —. асимптотическое
разложение 284—286
, , —, моменты 265—266
, оценка линейных ограничений
—-' —t — наибольшего правдоподобия
112, 250—251
, проверка гипотезы о равенстве
нулю в случае одной зависимой
величины 129—130
~ —, о ранге 438—441
Критерий отношения правдоподобия
Критическая функция 161
Кронекера символ 75
Кронекеровское произведение матриц
467
Линейная комбинация нормальных
случайных величин, распределение
— независимость векторов 453
Линейные уравнения, решение
методом сгущения по оси 255—258, 469—
472
, сокращения Дулиттла
254-258, 469-472
Максимум дисперсий линейных
комбинаций 375
Математическое ожидание комплекс-
нозначной случайной функции 52
Матрица 449
—, алгебраическое дополнение 452
— единичная 451
—, минор 452
— невырожденная 453
— неотрицательно определенная 454
— обратная 452—453
Матрица операции 449—450
— положительно определенная 454
—, разбиение на блоки 460
—, ранг 453
— симметрическая 451
— транспонированная 451
»- треугольная 455
Метод классификации
, априорные вероятности 177—
178
бейесов 179, 199
бейесов и допустимый 183—185,
201-203
, вероятность неправильной
классификации 178
допустимый 179, 200
, математическое ожидание по*
терь при неправильной
классификации 179
минимаксный 180
, минимальный полный класс 180
, полный класс 179—180, 200—201
, почти полный класс 180
, цена неправильной
классификации 177
Многомерное нормальное
распределение 29
, вычисление 31, 32
Множественный коэффициент
корреляции 49
выборочный 121
1 геометрическая
интерпретация 122—124
, инвариантность 130
, моменты 134
— , распределение в случае,
когда множественный коэффициент
корреляции генеральной
совокупности равен нулю 125—126
, распределение в случае,
когда множественный коэффициент
корреляции генеральной
совокупности не равен нулю 133—134
, инвариантность 61
как максимум корреляции
между одной случайной величиной
и линейной комбинацией других 49
, критерий отношения
правдоподобия для проверки гипотезы о
равенстве множественного
коэффициента корреляции нулю 128
, оценка наибольшего
правдоподобия 121
Моменты 16
— нормального распределения 57
— суммы квадратов и взаимных
произведений 223—224
— частного распределения 18
Наилучшее линейное предсказание
401-402
Наименее отклоняющиеся плоскости
377
Независимость 18
— взаимная 19
— выборочного среднего значения и
выборочной ковариационной мат*
рицы 76
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
499
Независимость нормально
распределенных случайных величин 34—36
Нецентральное распределение Уишар-
та 441
— ^-распределение 158—159
, табулирование 159
— ^-распределение 158
— Х2*распределение 157
Обобщенная дисперсия 231
выборочная 231
— , асимптотическое
распределение 239—240
— , геометрическая
интерпретация 231-232
— , моменты 237
, распределение 236
, инвариантность 376
Обобщенный дисперсионный анализ
294-302
— , обобщение f-критерия 300
— с помощью таблиц с двумя
входами 295—297
Общая линейная гипотеза 247
, каноническая форма 307—309
Определитель 452
—, вычисление 289—290, 472
— Остроградского — Якоби 22
, функции параметров 69
Перестановка 452
Плотность 15
— многомерного нормального
распределения 23—25, 29—31
— условная 20, 21
нормальная 44
— частного распределения 17
Площадь поверхности сферы
единичного радиуса 243
Поверхности постоянной плотности
31
Почти инвариантный критерий 163
Преобразование переменных 21, 22
Проверка гипотезы о независимости
множеств случайных величин 314
отношение правдоподобия 317
, , инвариантность 319
j 1 моменты 320—321
, , распределение 323—326
, , —, асимптотическое
разложение 326—328
Проверка гипотезы о
пропорциональности ковариационной матрицы
данной матрице 353—354
/х,, отношение правдоподобия 355
^, , асимптотическое
разложение распределения 358
~, , моменты 356—358
Проверка гипотезы о равенстве
вектора среднего значения и
ковариационной матрицы данному вектору
и данной матрице 363—365
~ , отношение правдоподобия 364—
365
/¦w » , асимптотическое
распределение 365
/>/, , моменты 364
Проверка гипотезы о равенстве кова«
риационыой матрицы данной мат*
рице 359—363
~, отношение правдоподобия 360
~ , , асимптотическое
распределение 363
~, , моменты 361—362
Проверка гипотезы о равенстве
нескольких ковариационных матриц
336
~, отношение правдоподобия 337—
338
~, , асимптотическое
разложение распределения 346—350
~, , инвариантность 352
~, , моменты 342—346
Проверка гипотезы о эквивалентности
нескольких нормальных
распределений 340
/^, отношение правдоподобия 341—
342
~, , асимптотическое
разложение распределения 346—349
~, , моменты 342—346
Равномерное распределение в
эллипсоиде 63
Рандомизированный критерий 161—
162
Расстояние между двумя
генеральными совокупностями 80
Семиинварианты 57
— многомерного нормального рао
пределения 57, 58
След матрицы 455
Случайная матрица 26
, математическое ожидание 26
Спектральная функция 447
Среднего значения вектор 26—28
/-W выборочный 65
/-w —, полнота для оценки
параметров совокупности 84
/^ —, распределение 76
г*~ —, состоятельность для оценки
параметров совокупности 84
~, доверительные области для
разности двух векторов среднего
значения, когда общая
ковариационная матрица известна 79
~, , когда ковариационная
матрица известна 77—79
~, , когда ковариационная
матрица неизвестна 150—151
— , оценка наибольшего
правдоподобия 70
~, проверка гипотезы, когда
ковариационная матрица известна 78
~, , когда' ковариационная
матрица неизвестна, см. Г2-критерий
•>•, о равенстве двух векторов
среднего значения, когда общая
ковариационная матрица известна
79
/^, нескольких векторов
среднего значения нескольких
генеральных совокупностей 290—294
500
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ
Стационарный гауссовский случайный
процесс 447
Стохастические уравнения 445—446
разностные 446—447
Сходимость по вероятности 83
последовательности
случайных матриц 83
Уишарта распределение 95, 213—221
нецентральное 441
, характеристическая функция
221-223
, частные распределения 225—227
Условное распределение 19—21
нормальное 43—47
Факторный анализ 444—445
Формула удвоения для
гамма-функции 97
Функция правдоподобия для выборки
из многомерной нормальной
совокупности 65
— распределения 14—16
— регрессии 44
Характеристическая функция 52
— — многомерного нормального рас^
пределения 54—55
— —, обращение 56
, теорема непрерывности 56—57
Характеристические корни и векторы
455-460
/^ , асимптотическое распределение
442-443
~ ковариационной матрицы в
метрике другой ковариационной мат*
рицы 414
/^, распределение корней
ковариационной матрицы 430
г^>, одной ковариационной
матрицы в метрике другой
ковариационной- матрицы 423, 426-427, 441
Центральная предельная теорема 105
Частная ковариация 44
. оценка 112
Частное распределение 17. 18
нормальное 38
Частный коэффициент корреляции 45
~ выборочный 113
/^ —, геометрическая интерпретация
113-114
~ —, распределение 116—119
~, доверительные интервалы 119—
120
^, оценка наибольшего
правдоподобия 113
~, проверка гипотез 119—120
~, рекуррентное соотношение 52
Четырехклеточные (т етрахорические)
функции 32
Элемент вероятности 15, 16
Эллипсоид рассеяния для оценки
вектора 80, 81
Эффективность оценки вектора 81
N(\x, 2) 29
п(х1ц, 2) 29
Р-величина 144
—, геометрическая интерпретация
145-146
—, распределение 149
—, — нецентральное 158—159
Р-критерий 144
—, инвариантность 145
— как критерий отношения
правдоподобия для построения оценки
вектора среднего значения 144
— как равномерно наиболее мощный
инвариантный критерий 162
—, оптимальные свойства 160—165
-—, проверка гипотезы о равенстве
векторов средних значений, когда
ковариационные матрицы различны
165—16C
—, двух векторов средних
значений, когда ковариационная
матрица неизвестна 151—152
—, о симметрии вектора
среднего значения 153—154
г-величина Фишера 109—110
, асимптотическое распределение
ПО
, моменты ПО
^-распределение 157