/
Автор: Себер Дж.
Теги: теория вероятностей и математическая статистика математическая статистика
Год: 1980
Текст
< линейным
’* РЕНТ П^ОННЫ
WILEY SERIES IN PROBABILITY AND
MATHEMATICAL STATISTICS
LINEAR REGRESSION ANALYSIS
G. A. F. SEBER
Professor of Statistics
University of Auckland
Auckland, New Zealand
JOHN WILEY AND SONS
NEW YORK LONDON • SYDNEY • TORONTO
1977
Дж. Себер
ЛИНЕЙНЫЙ
РЕГРЕССИОННЫЙ
АНАЛИЗ
Перевод с английского
В. П. НОСКО
под редакцией
М. Б. МАЛЮТОВА
ИЗДАТЕЛЬСТВО «МИР»
МОСКВА
1980
УДК. 519.24 6 Л'Х
Доступное, но достаточно полное и современное введение
в методы регрессионного анализа—одного из разделов математи-
ческой статистики. Книга содержит обзор современных теоретиче-
ских исследований в данной области и описание вычислительных
приемов и алгоритмов регрессионного анализа. Приводятся ориги-
нальные задачи с набросками их решения, а также сведения
по численным методам — об алгоритмах и пакетах программ.
Книга представляет большой интерес для научных работников,
имеющих дело с обработкой статистических данных. Ее можно
•• . рекомендовать как пособие студентам, специализирующимся по
математической статистике.
Редакция литературы по математическим наукам
1702060000
20203-008
С 041 (01)-80
© 1977 by John Wiley & Sons, Inc.
All Right Reserved
Authorized translation from English language
edition published by John Wiley & Sons, Inc,
© Перевод на русский язык, «Мир», 1980
ПРЕДИСЛОВИЕ РЕДАКТОРА
ПЕРЕВОДА
В наше время благодаря расширению возможностей ЭВМ ста-
новится все проще анализировать большие массивы данных. Это ,
приводит к бурному росту приложений многомерной статистики,
что вызывает в свою очередь развитие соответствующей теории,
причем статистическая теория меняется в сторону ее „компью-
теризации".
Книга Дж. Себера вполне отражает эту тенденцию развития
регрессионного анализа. Она занимает особое место среди имею-
щихся у нас книг по данному предмету ~и располагается где-то
посредине между трудно читаемыми научными монографиями и
практическими руководствами рецептурного плана. По стилю из-
ложения она, пожалуй, примыкает к соответствующим разделам
тома 2 недавно переведенной и быстро разошедшейся извест-
ной монографии М. Кендалла и А. Стьюарта „Статистические вы-
воды и связи" и к ранее вышедшей книге Г. Шеффе „Диспер-
сионный анализ", но отличается большей элементарностью и пол-
нотой вводной части. Книга Дж. Себера современна (она основана
на работах до 1975 г. включительно) и почти наполовину состоит
из описания вычислительных аспектов регрессионного анализа,
многие из которых у нас раньше не освещались. К тому же в
книге много полезных задач с набросками их решения.
Благодаря этим особенностям, книга послужит, по нашему
мнению, хорошим пособием как для студентов-математиков (осо-
бенно вычислительной специализации), так и для специалистов-
экспериментаторов, а также окажется полезной для самообразо-
вания.
Изложение основано на курсах разного уровня, читавшихся
автором на протяжении многих лет. Это, с одной стороны, спо-
собствует большей легкости усвоения, но с другой—приводит к
трудностям при „сшивании" материала различной сложности и
к некоторой непоследовательности изложения. Например, такие
понятия, как условные математические ожидания, распределения
%2 и т. д., используются без строгого определения, хотя долго
обсуждается элементарное понятие независимости (кстати, после
6
Предисловие редактора перевода
того, как оно уже было использовано ранее без определения),
на протяжении книги часто фигурирует в качестве примера пол-
ностью рандо.мизованный план, хотя нигде не определяются по-
нятие рандомизации и его смысл, и т. д.
По этим причинам книга не может рассматриваться как введе-
ние в математическую статистику: она предполагает понимание
ее некоторых фундаментальных понятий, и внимание автора сосре-
доточено в основном на вычислительных аспектах. Прежде всего
выделим содержательные главы И и 12, которые полностью новы
для советского читателя. В первой из них изложены алгоритмы,
лежащие в основе различных программ регрессионного анализа
для ЭВМ. На этой основе в главе 12, по-видимому, впервые в
мировой литературе систематически излагаются различные эври-
стические методы выбора наилучшего подмножества регрессоров —
трудной проблемы, имеющей огромное прикладное значение. От-
метим также изложение пересчета результатов при добавлении
или пропуске регрессоров, введение в альтернативные к класси-
ческим методы оценивания (гл. 3), упрощение анализа при нали-
чии пропущенных наблюдений (гл. 10), работы с ортогональными
полиномами, сплайнами (гл. 8) и эмпирическими остатками (гл. 6).
Модному сейчас использованию обобщенных обратных матриц при
анализе вырожденных моделей уделяется сравнительно скромное
место, что способствует большей наглядности изложения (хотя и
делает его более пространным).
Полезно также, что дисперсионный и ковариационный анализ
излагается в главах 9 и 10 на основе уже разобранного регрес-
сионного анализа, что способствует унификации и ясности изло-
жения. К сожалению, в книге нет упоминания о смешанных мо-
делях дисперсионного анализа [см. Rao (1973), Searle (1971),
Kendall, Stewart (1968)].
Интерес представляют и разделы, где на элементарных приме-
рах обсуждаются сравнительно тонкие и малоизвестные вопросы
теории. Среди них выделим:
1) Обстоятельное обсуждение различных аспектов проблемы
построения доверительных интервалов, в частности, для совокуп-
ности оцениваемых параметров (гл. 5), для всех точек оценивае-
мой поверхности отклика над некоторой областью аргумента (гл.
5 и 7), для обратной задачи предсказания аргумента по измере-
ниям зависимой переменной (гл. 7) и т. д.
2) Влияние сбалансированности плана эксперимента на устой-
чивость F-критерия при нарушении нормальности ошибок.
3) Проверка предположений регрессионного анализа на основе
изучения эмпирических остатков.
Стоит отметать, что вопросам планирования эксперимента в
книге уделено малое место, а имеющиеся подходы несовершенны.
По этому поводу читатель может обратиться к имеющимся
Предисловие редактора перевода
7
у нас руководствам, например к книге В. В. Федорова
(1971*) *)-
В заключение следует сказать, что чтение книги оставляет
впечатление полезной и обстоятельной беседы с человеком, мастер-
ски владеющим вычислительными и статистическими аспектами
регрессионного анализа. Полагаю, что книга Дж. Себера при-
влечет внимание к изложенным в ней вопросам регрессионного
анализа и послужит повышению уровня прикладных и теорети-
ческих работ в этой области.
М. Б. Малютов
г) Звездочкой помечены работы, добавленные при переводе. Среди них со-
ветские источники, на которые автор не сослался, а также работы, появив-
шиеся после издания книги Себера.
ПРЕДИСЛОВИЕ
Регрессионный анализ— это одно из средств, имеющихся в
арсенале каждого статистика, причем довольно часто используе-
мое. Теория его весьма элегантна, а вычислительные задачи доста-
точно увлекательны, так что и „чистые", и „прикладные" статистики
могут чувствовать себя здесь в своей стихии. Так, среди теоре-
тиков все еще не остыл интерес к методу наименьших квадратов
со всеми его обобщениями и частными случаями, тогда как практи-
ки продолжают развивать широкий спектр графических методов
для проверки моделей и основных предположений, лежащих в их
основе. Численный анализ и статистика сплетались довольно мед-
ленно, и поэтому статистики имели- возможность трезво оценить
трудности, связанные с некоторыми уже признанными вычисли-
тельными процедурами. Разработка таких вычислительных про-
грамм для регрессионного анализа, которые были бы эффектив-
ными и в то же время обеспечивали необходимую точность, рас-
сматривается сейчас как важная составная часть любого статисти-
ческого исследования.
Однако постоянный интерес исследователей к регрессионному
анализу и в теоретическом,. и в прикладном отношении создает
определенные трудности для авторов учебников. Как показывают
имеющиеся на эту тему книги, изложение материала можно
вести на самых различных уровнях математической строгости, от
весьма общих исследований, таких, например, как Seber (1966),
Searle (1971) и Rao (1973), и до более вольного изложения —
Williams (1959) и Sprent (1969). Конечно, такое разнообразие
книг необходимо, ибо оно отвечает неоднородности читательской
аудитории. Однако на протяжении последних десяти лет моей
преподавательской деятельности я все больше и больше убеждался
в том, что необходим учебник, в котором был бы найден ком-
промисс между двумя крайностями: совсем не приводить доказате-
льств и приводить исчерпывающие доказательства всех резуль-
татов. Регрессионный анализ и большая часть дисперсионного ана-
лиза оперируют с моделями полного ранга, поэтому ясно, что
преувеличенное внимание к случаю неполного ранга объясняется
желанием достичь большей общности. Можно, в частности, отме-
тить и чрезмерное увлечение использованием обобщенных обратных
матриц в ущерб простым геометрическим идеям, лежащим в осно-
ве метода наименьших квадратов. Конечно, в обобщенных обрат-
ных матрицах есть свой толк, но их роль надо отодвигать в пер
спективу.
Регрессионный анализ является прикладной дисциплиной,
описывающей методы обработки наблюдений. Поэтому в идеале
всякий теоретический курс следовало бы подкреплять практи-
ческими занятиями. В связи с этим возникает вопрос о том,
Предисловие
9
следует ли стремиться подробно рассматривать в одной книге и
теоретические, и вычислительные аспекты предмета. Решить этот
вопрос явно не просто, и при современном положении дел с паке-
тами /статистических программ, вероятно, лучше излагать эти
два аспекта отдельно. Например, процедура, для которой раз-
вита изящная теория, может оказаться совершенно неудовлетво-
рительной в вычислительном отношении, и, напротив, какой-нибудь
запутанный и сложный алгоритм может быть эффективным и точным.
В зависимости от реально имеющихся вычислительных средств
в разных местах используются различные пакеты программ, так
что конечным решением нашего вопроса можно было бы считать
теоретический учебник, содержащий описание вычислительных
аспектов лишь в самых общих чертах, и практическое руководство,
содержащее численные примеры и подробное изложение пакетов
программ. Прообразом последнего может служить книга Daniel,
Wood (1971).
Вот с такими намерениями я и взялся написать теоретическую
книгу, которая удовлетворяла бы читателя со строгим мате-
матическим мышлением и в то же время не заводила бы в дебри
излишних обобщений.ХЯ также попытался дать современное пред-
ставление об используемых в настоящее время вычислительных
методах и алгоритмах, не нагромождая при этом второстепенных
вычислительных деталей. Поскольку число работ, посвященных
исследованию регрессий, продолжает быстро расти, я просмотрел
наиболее известные статистические журналы и теперь надеюсь,
что данную книгу можно использовать и как источник ссылок на
литературу. Для чтения книги требуется в основном хорошее
знание алгебры матриц, а также некоторое знакомство с линейной
одномерной регрессией и простыми моделями дисперсионного ана-
лиза.
Первые четыре главы представляют собой достаточно стандарт-
ное изложение метода наименьших квадратов и проверки гипотез
для многомерных моделей линейной регрессии. В главе 1-для
случайных векторов вводятся оператор взятия математического
ожидания и ковариационный оператор. В главе 2 рассматриваются
многомерное нормальное распределение и некоторые теоремы, каса-
ющиеся квадратичных форм. Глава 3 содержит оценивание по
методу наименьших квадратов, включая обобщенный метод наи-
меньших квадратов, случай неполного ранга и оценивание при
наличии ограничений. В главе 4 подробно изучается К-критерий
для линейной гипотезы, а в главе 5 обсуждаются доверительные
интервалы и задачи совместных выводов в приложении к моде-
лям регрессии. Кроме того, рассмотрены доверительные интервалы
для отклика в прямой и обратной (дискриминация) задачах.
В главе 6 исследуются предположения, лежащие в основе метода
наименьших квадратов, и приводятся различные методы проверки
г,—a.___м* *-
Предисловие
выполнения этих предположений. Ввиду важности методов под-
бора одномерной линейной и полиномиальной регрессий этим
двум вопросам посвящены соответственно главы 7 и 8. В главе 9
используется тесная связь между моделями “регрессии и диспер-
сионного анализа и приводятся простые процедуры для проведе-
ния дисперсионного анализа. Основное внимание уделяется здесь
сбалансированным (ортогональным) планам. В главе 10 с точки
зрения регрессии рассматривается ковариационный анализ. Здесь
же подробно обсуждены тесно связанные с ковариационным ана-
лизом вопросы, относящиеся к пропущенным наблюдениям. Главы
11 и 12 посвящены вычислительным аспектам регрессионного ана-
лиза. В главе 11 приводятся алгоритмы метода наименьших квад-
ратов, а в главе 12—задача выбора наилучшего подмножества
из множества вероятных регрессоров (независимых переменных).
Приложения А и В содержат ряд результатов из алгебры
матриц, доказательства которых не всегда легко найти, а в при-
ложений Сописывается использование вероятностной бумаги. В при-
ложениях D и Е приведены статистические таблицы, полезные
для совместных статистических выводов. Наконец, отдельно по-
мещены наброски решений упражнений.
Было весьма не просто найти или составить такие теорети-
ческие задачи, которые пришлись бы к месту и в то же время
не оказались чересчур трудными. Хочется надеяться, что раз-
бросанные по книге задачи (их около двухсот) не только помогут
студентам, но и пригодятся преподавателям.
В основу этой книги положено несколько курсов, прочитан-
ных мной в течение последних 10 лет в Оклендском университете
(Новая Зеландия). Мне хотелось бы поблагодарить многих студен-
тов, стимулировавших мой преподавательский интерес к этому
предмету. Кроме того, я выражаю благодарность Хитер Лукас,
прочитавшей черновик, и Пегги Хейворт, отпечатавшей большую
часть рукописи.
Благодарности
За разрешение воспроизвести некоторые опубликованные ранее
таблицы и рисунки приношу благодарность авторам и редакторам
журналов Biometrika (приложение Е), Journal of the American
Statistical Association (табл. 5.1, 5.2 и приложение D), Journal of
the Royal Statistical Society, Ser. В (приложение F) и Techno-
metrics (табл. 5.3).
.....
Окленд, Новая Зеландия
VBJlCn/l, А
Июль 1976
Дж. А. Ф. Себер
Глава 1
СЛУЧАЙНЫЕ ВЕКТОРЫ
1.1. Обозначения
Матрицы и векторы обозначаются в книге жирными буквами А
и а соответственно, а скалярные величины—курсивом. Случай-
ные величины представлены прописными, а их значения—строч-
ными буквами (например, Y и у соответственно). Употребление
прописных букв для обозначения случайных величин, явля-
ющееся, по-видимому, достаточно широко принятым, оказывается
особенно полезным в регрессионном анализе, обеспечивая возмож-
ность различать фиксированные и случайные регрессоры (неза-
висимые переменные). Однако оно же порождает и некоторые
проблемы, поскольку вектор, образованный случайными величи-
нами1), скажем Y, можно принять за матрицу. Из-за ограни-
ченности алфавита в гл. И для обозначения случайных векторов
иногда используются не прописные, а строчные буквы.
Если X и Y —две случайные величины, то символами Е [У],
var[y], covfX, У] и Е [X | У = t/j (или, короче, Е[Х|У]) обозна-
чаются соответственно математическое ожидание, дисперсия, кова-
риация и условное математическое ожидание.
Матрица размера пхп, диагональные элементы которой равны
dlt d2, ..., dn соответственно, а остальные элементы нулевые,
обозначается символом diag(dj> da, ..., dn). В частности, при
dx = d2 = ... —dn получаем единичную матрицу 1„.
Вектор-столбец а размера nxl с элементами ait а2........ап
записывается в виде а = [(с,)]. Длина (норма) такого вектора
обозначается через ||а||. Таким образом, имеем
||а||=/а7а=;(а?+а1+... +а’)1/а.
Вектор, у которого а,, — а2 — ... — ап = 1, обозначается симво-
лом 1„.
Матрица А размера туп с элементами atj записывается
в виде А = [(о,у)], а ее след (т. е. сумма ее диагональных эле-
В дальнейшем мы всюду будем использовать вместо термина „вектор,
образованный случайными величинами11 общепринятый термин „случайный
вектор",— Прим, перев.
12 Гл. 1. Случайные векторы.
ментов) обозначается через trA. (Таким образом, trA = o1i +
+ а22 + .. . + akk, где k—меньшее из чисел т и п.) Матрица,
получаемая из А транспонированием, обозначается А' = [(«£/)]•
где a'ij=aji. Если А—квадратная матрица, то |А|—ее детерми-
нант, и если она не вырождена, то А-1—обратная к ней мат-
рица. Пространство, натянутое на столбцы матрицы А, называется
образом матрицы А и обозначается символом 5? [А]. Нуль-про-
странство, или ядро матрицы А (т. е. совокупность тех значе-
ний х, для которых Ах=0), обозначается символом <ЛГ[А].
Мы используем запись Y ~ N (0, о2), если случайная величина
Y имеет нормальное распределение со средним 0 и дисперсией о2.
Если при этом 0 = 0, а о2 — 1, то Y имеет стандартное нормальное
распределение. Символами tk и х* обозначаются соответственно
распределения t и хи-квадрат с k степенями свободы. Символом
обозначается /•’-распределение с т и п степенями свободы.
Наконец, упомянем об использовании точки и черты для
сокращенного представления соответственно сумм и средних
значений:
j
at. = 5 ап,
i = \
Если суммируются величины, обозначаемые буквами с одним ин-
дексом, то соответствующее среднее значение записывается в
виде а, без употребления точки.
Предполагается, что читатель знаком с элементами линейной
алгебры. Чтобы освежить в памяти основные ее положения,
можно обратиться, например, к книгам Scheffe (1959, приложе-
ние), Graybill (1961, 1969), Rao (1973, гл. 1). Тем не менее мы
включили ряд результатов, относящихся к алгебре матриц,
в приложения А и В в конце настоящей кнйги. Ссылки на ре-
зультаты, содержащиеся в этих приложениях, имеют, например,
вид А2.3.
1.2. Линейные модели регрессии
Одна из наиболее общих задач статистики состоит в оцени-
вании степени связи между двумя случайными величинами (если
такая связь существует). Такими парами случайных величин
могут быть, например, рост и вес, зарплата и уровень интеллекта,
возраст мужа и жены в момент вступления в брак, длина и
ширина листьев, температура и давление некоторого объема газа,
длина металлического стержня и его температура. Если имеется
п пар наблюдений (х,, у/), i=l,2, над такими случай-
1.2, Линейные модели регрессии
13
ними величинами, то наблюдения можно представить точками
на плоскости, получая так называемую диаграмму рассеяния.
Затем можно попытаться подобрать по этим точкам некоторую
гладкую кривую таким образом, чтобы они располагались как
можно „ближе" к этой кривой *)-. Ясно, что нам не следует ожи-
дать того, что все точки диаграммы лягут на соответствующую
кривую, поскольку каждая из случайных величин в рассмотрен-
ных выше примерах подвержена случайным флуктуациям в ре-
зультате воздействия факторов, которыми мы не в состоянии
управлять. Даже если между какими-то двумя величинами, как,
например, между температурой и давлением, существует совер-
шенно определенная связь, то па диаграмме рассеяния все же
будут наблюдаться флуктуации, вызванные ошибками измерений.
Весьма часто тип эмпирической кривой определяется экспе-
риментальными или теоретическими соображениями, как в при-
водимых ниже примерах.
Пример 1-1. Закон Ома утверждает, что если X—ток (в ам-
перах), протекающий через сопротивление г (в омах), a Y —
напряжение (в вольтах) на этом сопротивлении, то три эТи вели-
чины связаны соотношением У — гХ. В прямоугольных коорди-
натах (X, Y) закон Ома выражается прямой линией, проходящей
через начало координат, так что подтверждением закона будет
линейный характер диаграммы рассеяния. Величину г можно
оценить по наклону эмпирической прямой.
Пример 1-2. Согласно законам механики, для удержания от
соскальзывания по наклонной плоскости с углом наклона 0 тела,
имеющего вес ®г, необходимо приложить силу Y = w sin 0. Пола-
гая X = sin0, мы опять получаем прямую линию, проходящую
через начало координат. В этом случае наблюдаемые значения
(х;, У{) будут несколько отклоняться от прямой линии из-за
ошибок в измерении У и 0 и из-за наличия трения между рас-
сматриваемым телом и плоскостью.
Пример 1-3. Теоретическая химия предсказывает, что при
сохранении постоянной температуры данного количества газа его
объем V и давление Р приблизительно удовлетворяют соотноше-
нию PV = c. Обозначая Y — P и X = 1/V, получаем У/Х = с.
Пример 1-4. При более тщательном проведении экспериментов
оказывается, что уравнение, связывающее давление и объем,
имеет вид PVy = с, где ?=/=!. Однако и здесь можно добиться
*) Такого рода кривую мы в дальнейшем будем называть эмпирической
или аппроксимирующей кривой.— Прим, перев.
14 Гл. 1. Случайные векторы
линейности уравнения связи, переходя к логарифмам в обеих
частях указанного равенства:
log Р = log с—у log V,
или в соответствующих обозначениях
Y = a + bX.
Поэтому значения log с и —у можно оценить по положению
эмпирической прямой, выравнивающей экспериментальные данные.
Пример 1-5. Закон обратного квадрата утверждает, что сила,
с которой притягиваются друг к другу два тела, расстояние
между которыми равно D, задается формулой
где (3 = 2. Переходя к логарифмам, получаем соотношение
logF= log с—р log О.
По экспериментальным данным можно оценить значение Р и про-
верить гипотезу о том, что р=2.
Пример 1-6. Эксперименты показывают, что металлический
стержень при нагревании удлиняется и это удлинение пропор-
ционально повышению температуры. Если взять пару идентичных
стержней и приложить их концами друг к другу, то приращение
их суммарной длины ровно в два раза превысит приращение
длины одного стержня, так что удлинение стержня пропорцио-
нально его исходной длине. Мы приходим к рассмотрению модели
прямой линии УГ = УО (1 Ч-аТ), где YT—длина стержня при тем-
пературе Т (измеренной от соответствующего начала координат),
а а—так называемый коэффициент линейного температурного
расширения. Для более точных расчетов предлагается квадра-
тичная модель
Уг=У0(Ц-аТ+РТ8).
Если в нашем распоряжении нет никаких теоретических или
экспериментальных соображений, которые могли бы помочь в
выборе типа эмпирической кривой, то такой выбор иногда бывает
осуществить довольно трудно, как это показывает рис. 1.1. Здесь
прямая линия представляется не менее удобной, для использова-
ния, чем любая другая, поскольку она описывается малым числом
параметров, хотя очевидна необходимость иметь какую-то меру,
характеризующую качество подбора кривой, чтобы можно было
сравнивать различные эмпирические кривые. Иногда точки на
диаграмме рассеяния располагаются таким образом, что не наблю-
дается никакого их группирования, и соответственно нет никаких
1.2. Линейные модели регрессии
15
оснований предполагать наличие в наблюдениях какого бы то
ни было тренда. Например, на основании диаграммы рассеяния,
представленной на рис. 1.2, можно говорить либо о полном от-
сутствии связи между величинами X и Y, либо о весьма незна-
чительной связи между ними.
Рис. 1.1. Аппроксимация одних и тех
же данных двумя различными кри-
выми.
Рис. 1.2. Диаграмма рассеяния: от-
сутствие связи между переменными
X и у.
Во многих случаях одна из переменных, скажем X, не слу-
чайна, а фиксирована или управляема. Например, X может
обозначать год выпуска, a Y—количество товаров, выпущенных
некоторой фирмой в том же году. Примером, в котором X является
управляемой величиной, служит эксперимент, в котором произ-
водится измерение урожая Y, получаемого с единицы площади
при использовании фиксированных количеств X некоторого удоб-
рения. В том и другом случае для каждого значения Х = х мы
имеем случайную величину Y со средним значением <р( х), т. е.
У = <р(х)4-е, где Е[е] = 0. Функция <р(х) называется при этом
функцией регрессии случайной величины К на X, а график этой
функции—кривой регрессии Y на X.
Для. описания того, каким образом функцию <р можно оценить
по имеющимся парам наблюдений (х,-, «/,-), рассмотрим простой
случай1), когда <р—прямая <р (х) = ро+р1х. Наша модель имеет
в этом случае вид
(i = l, 2, .... п).
Весьма элегантным методом оценивания параметров ро и яв-
ляется так называемый метод наименьших квадратов. Этот метод
__-------
х) Такую модель мы будем называть далее одномерной линейной регрес-
сией.— Прим, перев.
ДМ11ЙА||М*11|11ГГ1 ....li*. A. ДПА-
16
Гл. 1. Случайные векторы
оценивания, приводящий к оценкам, обладающим определенными
оптимальными сройствами, основывается на привлекательной
идее выбора таких значений Р„ и Pf, которые минимизируют
еумму квадратов вертикальных уклонений! точек (х,, у{) от ап-
Рис. 1.3. Метод наименьших квадратов заключается в минимизации Vet.
мы минимизируем при этом сумму e? = 2L(Vr--₽o--£W
по отношению к параметрам ро и Ясно, что указанный прин-
цип наименьших квадратов может быть применен к любой кривой
регрессии <р(х). Однако выполнение минимизации может оказаться
довольно затруднительным, если только функция <р (х) не является
линейной относительно неизвестных параметров. Например, функ-
ция <p(x) = P0e~-vPi нелинейна, а функция <jp(x)==P04-P1x+Pi!xs
линейна по параметрам Ру.
Из предыдущих примеров мы видели, что обе переменные X
и Y могут быть случайными. При этом пара случайных вели-
чин X и Y имеет некоторое совместное распределение, и мы можем
определить две функции регрессии: £[У|Х==х] и Е [X | Y = у\.
Например, предполагая линейный характер связи, получаем
соотношение
E[Y | Х = х] = ро+Рух,
и далее можем эффективно действовать таким образом, как если
бы величина X вовсе не была случайной. Конечно, любые полу-
чаемые при этом выводы являются условными по отношению
к наблюдаемым значениям X.
Пример 1.7. Предположим, что имеется популяция, состоящая
из N животных, и что последовательно производится п отловов
животных из этой популяции. Будем считать, что вероятность
отлова каждого животного в каждом случае постоянна и равна р.
Пусть У, обозначает количество животных, пойманных при
1.2. Линейные модели регрессии 17
t-м отлове, a Xz = 2/11У у (t = 2, .n; Хх = 0) — количество
животных, пойманных перед t-м отловом. Используя биномиаль-
ную модель, получаем соотношение
£ [У, | х/] = (N — xt) р = Np—рх(,
опять выражающее линейную зависимость.
Важным применением моделей регрессии является употребле-
ние их в прогнозировании. В этом случае подбирается модель,
позволяющая предсказывать значения У для будущих значений х.
Ясно, что мы должны быть весьма уверенными в модели, если
хотим чтобы наши прогнозы были достаточно надежными. Пред-
положим, например, что истинной является модель, приведенная
на рис. 1.4. Хотя мы в состоянии хорошо аппроксимировать по
Рис. 1.4. Истинная модель, состоящая из двух прямых линий.
имеющимся данным левую часть графика, тем не менее было бы
опрометчиво делать прогнозы о значениях У для х > х0, имея
в распоряжении только значения У для х < х0. Мы меньше
рискуем ошибиться, если станем предсказывать значения У лишь
для значений х, лежащих в пределах интервала наблюдений.
Часто случайная величина У зависит не от одной, а от не-
скольких переменных, скажем Xit Х2, .... Хк, так что здесь
можно говорить уже о поверхности регрессии
£'[У|Х1 = х1, Х2 = х2, ..., Xk —хЛ] = <р(х^, х2, ..., xkJ.
В этой книге мы концентрируем внимание на важном классе
линейных моделей, в которых функция регрессии имеет вид
<р(хп х2, ..., Хл) = ₽о+Рл + ...
18
Гл. 1. Случайные векторы
т. е. линейна по параметрам Ру. Выбор для рассмотрения только
линейных моделей вовсе не столь ограничителен, как это может
показаться. Например, многие функции нескольких переменных
являются приблизительно линейными в достаточно малых областях
или могут быть приведены к линейным с помощью надлежащего
преобразования, как мы уже видели выше. Кроме того, сами х,
могут быть функциями от каких-то других переменных z, w
и т. д., например x^sinz, x2=l°gw, x3 = zw или xi — xi (послед-
нее соотношение приводит к полиномиальной регрессии). Можно
включить в наше рассмотрение также и „категдризованные" мо-
дели, используя фиктивные переменные х. Предположим, напри-
мер, что мы хотим сравнить средние двух популяций, скажем
Pz = £[f7/], t=l, 2. Можно объединить при этом данные в одну
модель
£[И=₽л+Рл. (Ы)
где х,= 1, если Y является наблюдением переменной Uh и х(- = 0
в противном случае (/=1,2). Приблизительно описав природу
линейных моделей, приведем теперь краткую сводку вопросов,
рассмотренных в этой книге.
После того как произведен выбор модели, ее неизвестные
параметры 0у можно оценить, используя метод наименьших квад-
ратов. Этот метод лучше всего описывается геометрически, с ис-
пользованием теории матриц. Теоретические аспекты метода при-
ведены в гл. 3, а вычислительные алгоритмы описаны в гл. 11.
Имея совместное распределение величин У;, можно исследовать
статистические свойства соответствующих оценок наименьших
квадратов.
Следующей задачей, рассмотренной в книге, является задача
проверки гипотез. Например, нас могли бы заинтересовать задачи
проверки гипотез р=2 в примере 1.5, р = 0 в примере 1.6 или
Р2—р2 = 0 в (1.1). Все эти задачи являются частными случаями
задачи проверки гипотезы а'0 = с, где а'р—некоторая линейная
комбинация параметров ру. В общем случае нас интересует про-
верка значений целой совокупности линейных комбинаций, а
именно проверка гипотезы Ар = с. Эта задача обсуждается в гл. 4,
а приложения ее к моделям типа (1.1) описаны в гл. 9 и 10.
Помимо проверки гипотез, мы можем пожелать построить
доверительные интервалы для тех или иных параметров или для
линейных комбинаций параметров либо получить доверительные
интервалы для значений будущих наблюдений. Такие построения
проводятся в гл. 5. В весьма важной’ гл. 6 рассматриваются
предположения о характере распределений случайных составля-
ющих е,-, лежащие в основе развитой к этому моменту теории.
Описаны критерии и графики, позволяющие проверять выполне-
ние соответствующих предположений.
1.3. Оператор взятия математического ожидания
19
В связи с важностью одномерной линейной регрессии, она
подробно обсуждается в гл. 7. В гл. 8 рассмотрена полиноми-
альная регрессия, в которой возникают свои собственные про-
блемы.
До сих пор мы обычно предполагали, что подлежащая изу-
чению модель уже выбрана. Однако во многих практических
ситуациях возникает необходимость решить, какие из возможных
переменных xf следует включать в модель. Этому важному воп-
росу посвящена гл. 12.
Остаток настоящей главы и гл. 2, в которой рассматривается
многомерное нормальное распределение, призваны снабдить чита-
теля некоторыми теоретическими сведениями, необходимыми для
чтения остального материала.
1.3. Оператор взятия математического ожидания
и ковариационный оператор
Пусть Zij (i=l, 2, ..., m; /=1, 2, ..., п)—совокупность
случайных величин, имеющих математические ожидания E[Zty].
Представляя совокупность этих случайных величин и их матема-
тических ожиданий в матричной форме, можно определить общий
оператор S взятия математического ожидания матрицы Z = [(Zl7)].
Определение.
<£[Z] = [(£[Z,7])].-
В частности, если т = п=1, то S [Z] = Е [ZltJ.
Теорема 1.1. Если A = [(az/)], В = [(fc>,-7)] и С = [(cz/)]—мат-
рицы размеров Ixm, nxpulxp соответственно, элементы которых
суть некоторые постоянные, то
^[AZB + C]=i A<£[Z] В-ЬС.
Доказательство. Пусть W = AZB-{-C. Тогда имеем W if=
~ 2r=i 2s=l Pir^'r/’s/ Л-dij И
S [AZB +С] = [(£ [Ц7/7])] = [(22 airE [Zrs] bs/ + с^ j
= [((AS [Z] В),,)] + [(Qy)] = AS [Z] В + C.
В этой теореме I, т, п и р—произвольные положительные
целые числа, а элементы матриц А, В, С могут принимать любые
значения1). Поэтому, например, справедливо
Следствие- Если X—случайный вектор размера mxl, то
<£[АХ] = А<£[Х].
Любые действительные значения.— Прим, перев.
20
Гл. 1. Случайные векторы
Теорема 1-2. Если А и В — матрицы размера mxn с посто-
янными элементами, а X и Y—случайные векторы размера nxl,
то
S [АХ + В Y] = [X] + В<£ [У].
Доказательство. Доказательство проводится непосредственно
и предлагается читателю в качестве упражнения.
Следствие-
£ [дХ 4- b Y] = aS [X] + bS [ Y].
Аналогичным образом можно обобщить понятия дисперсии и
ковариации для векторов. Если X и Y—случайные векторы
размеров mxl и nxl, то обобщенный ковариационный опера-
тор 'ё определяется следующим образом.
Определение.
tf[X, Y] = [(cov[Xz, У,])].
Теорема 1-3.
g[X, Y] = ^[(X-<§>[X])(Y-^[Y])'].
Доказательство. Пусть <£[Х] = а и <£[Y] = ₽. Тогда
^[Х, Y]=[(cov[X„ У/])]=[(£[(Хг-а,)(У/-Р/)])]
= <§’[((Х, — az)(yy—₽,))] (по теореме 1.1)
= S [(X -а)( Y -Р)'] = S [(X-S [X]) (Y-S [ Y])'].
Определение. Если X==Y, то 4S [Y, Y] записывается в виде
®[Y] и называется дисперсионной (дисперсионно-ковариационной)
матрицей вектора Y. Таким образом,
6D[Y] = [(cov[yi,^.]J]
var[y,], cov[y„r2], cov[y„ У„]
cov[ Y2, Y} ], var[ У2]......cov[ Y2, У„]
cov[yn,y,], cov[y„,y2], var[y„]
(1.2)
Поскольку cov[yz, Уу] = со¥[Уу, yj, указанная матрица симмет-
рична. Заметим, что если Y = Уп то S) [Y] = var [У,].
Пример 1-8. Если а—постоянный вектор размера nxl, то
®[Y-a] = ®[Y].
Решение. Из соотношения
Е \Yr-at-E [Yr-aft^E [Yt-E [У,]]
получаем cov[yz—ah Yj—Oy]==cov[yz, Yj] и т. д.
1.3. Оператор взятия математического ожидания
21
Пример 1-9. Докажем, что
<£[(Y-a)(Y-a)'] = ®(Y]-H<^Y]-a)(<£[Y]-a)'.
Решение. Раскрывая скобки в выражении (X—<£[Х])(Х—<£[Х])'
и используя теорему 1.1, легко показать, что
® [X] =£ [ХХ']-(^ [X]) (S [X])'. (1.3)
Замена X=Y—а и использование примера 1.8 приводят к иско-
мому результату.
Теорема 1-4. Если X и Y—случайные векторы размеров
mxl и nx 1 соответственно, а А и В — постоянные матрицы раз-
меров 1ут и руп соответственно, то
£[АХ, BY] = A#[X, Y]B'.
Доказательство. Пусть U = AX и V = BY. Тогда в силу тео-
рем 1.3 и 1.1 имеем
g[AX, BY]=tf[U, V] = <£t(U—<£[U])(V—<£[V])']
=<£[(AX-A<£[X])(BY - B<£[Y])><£[A(X-<£[X])(Y-<£[Y])'B']
=A<£[(X—<£[X])(Y-<£lf])']B' = A£[X, Y]B'.
Следствие 1 •
tf[AX, Y] = A£[X, Y]; £[X, BY] = £[X, Y]B'.
Следствие 2.
^[AX]=£[AX, АХ] = А£[Х, X] A' = A.® [X] A'. (1.4)
Теорема 1-5. Пусть X, Y, U и V—произвольные (не обяза-
тельно различные) случайные векторы размера nxl. Тогда для
всех действительных чисел а, Ь, с и d (включая и нулевые зна-
чения) имеет место соотношение
%[aX+bY, cU+dV] = flc^[X, U]+ad^[X, V]
> +bc%[N, U]+bd#[Y, V].
Доказательство. В силу теорем 1.3 и 1.2 (следствие) имеем
^[аХ+ЬУ, cU+^V]
- S [(аХ PbY -aS [X]—bS [YJ) (cU +dV-c<£ [U]-d<£[V])']
= S [(a (X-<£ [X]) +b (Y-S [Y])) (c (U-S [U])+d (V-& [V]))']
= £[®(X-£[X])(.IJ-£[IJ])' + ... +M(Y-^[Y])(V-^[V])']
= ac%[X, U]4-ad#[X, V]+M?[YU]+Mtf[Y, V].
Следствие- Полагая X = U, Y = V, a = c и b—d, получаем
®[aX+bY]=^[aX+bY, tzX+bY]
= a2S)[X]+2ab$[X, Y] + b2.®[Y]. (1.5)
22
Гл. 1. Случайные векторы
Теорема 1.6. Если ни один из элементов случайного век-
тора X не является линейной комбинацией остальных элементов
этого вектора (т. е. не существует таких а#=0 и Ь, что а'Х = Ь
для всех Х = х), то матрица ®[Х] положительно определена
(см. А4).
Доказательство. Для любого постоянного вектора с имеем
0<var [с'Х] = ®[с'Х] = с'®[Х]с.
(Здесь мы использовали следствие 2 из теоремы 1.4.) Равенство
имеет место тогда и только тогда, когда с'Х—константа, т. е.
тогда и только тогда, когда с'Х = d (с 0) или с = 0. Поскольку
первая из этих двух возможностей исключена по условию, то
с = 0 и матрица ®[Х] положительно определена.
Пример 1-Ю. Пусть X и Y—случайные векторы размеров
/их 1 и nxl соответственно, причем ни один из элементов век-
тора X не является линейной комбинацией остальных его эле-
ментов. Докажем, что существует nx/n-матрица М, для которой
[X, Y—МХ] = 0.
Решение. Полагая а— 1, b = 0, с = 1, d= — 1, U = Y и V — MX
в теореме 1.5 и используя теорему 1.4, имеем
[X, Y—MX] = tf [X, Y] — %[Х, MX]
= tf[X, Y] — %[Х, Х]М' = £[Х, Y] —®[Х]М'. (1.6)
В силу предыдущей теоремы матрица ®[Х] положительно опре-
делена, а значит, не вырождена (А4.1). Поэтому приведенное
выражение обращается в нуль, если М' = (S> [X])-1 Чё [X, Y], т. е.
при M = tf[Y, Х](^>[Х]Н.
Упражнения 1а
1. Пусть X и Y—случайные векторы размеров /пХ1 и nxl, а а и Ь —
постоянные векторы размеров /пХ1 и пХ1. Докажите, что
g [X—a, Y —b] = g[X, YJ.
2. Докажите, что ^[Х, Y] = <£ [XY'J —[X]) (<£ [Y])'.
3. Пусть Х=(Х(, Х2 Х„)'— некоторый случайный вектор и Fj = Xi,
Yi=Xi—X/_j (i=2, 3, ..., n). Найдите <Z)[X], предполагая, что случайные
величины Y( взаимно независимы и каждая из них имеет единичную дисперсию.
4. Пусть Xi, Х2, ..., Х„—случайные величины, имеющие одинаковую
дисперсию о2, и Х/+1=рХ/+а (» = 1> 2, ..., п—1), где а и р—постоянные
величины. Найдите £0[Х].
1.4. Средние и дисперсии квадратичных форм
Теорема 1-7. Пусть Х = [(Х,)]—случайный вектор размера
nxl, а А—симметричная рхр-матрица. Если ^[Х] = 0 и ®[Х] =
₽=Е = [(о,./)], то
£ [X'АХ] = tr [АХ] + 0 А0.
1.4. Средние и дисперсии квадратичных форм
23
. Доказательство. Прежде всего, £[Х'АХ] = £[(Х—0)'х
хА(х—е)+е'АХ+х'А0—е'Аб]. Но х'А0=(Х'А0)'=0'а'х =
= 0'АХ, а
£ [6'АХ] = s [0'АХ] = 0'А<£ [X] = 0'А0.
Поэтому
£ [X'АХ] = £ [(X—0)'А (X—0)] + 0'А0
=22 %.Е [(X z—0() (X,—еу.)]+е'ло
= 22 «,• А,- + 6'А0 = tr [АХ] + 0'А0.
i i
Следствие 1- Полагая Y = X — b и замечая, что ®[Y] = ®[X]
(см. пример 1.8), получаем
£ [(X — b)'А (X — b)] = tr [АХ] + (0—Ь)'А (0—Ь).
Следствие 2. Если Х = о21„, то tr[AX] = o2tr А. Таким обра-
зом, в этом случае имеем следующее простое правило:
£ [Х'АХ] = о2 (сумма коэффициентов при Х2) + (Х'АХ)Хж,е1)-
Пример 1-Н. Пусть Xj, Х2, . ..,Х„—взаимно независимые и
одинаково распределенные случайные величины, каждая из кото-
рых имеет среднее 0 и дисперсию о2. Найдем математическое
ожидание случайной величины Q = (Хх—Х2)г + (Х2—Х3)2-|-
...+(х„_—х„г
Решение. При сделанных предположениях cov [X,-, Ху] = О
(i=jt/), так что ®[Х] = о21„. Поэтому можно применить следст-
вие 2, взяв Q = X'AX. Полагая X,- в Q равным 0, мы тем самым
обращаем в нуль второе слагаемое в выражении для £[Х'АХ].
Учитывая, что
Q=2 2 XJ-XJ-X2 - 2 2 XiXi+i,
i=l i=l
получаем соотношение trA = 2n—2, и окончательно £[Q] =
= о2 (2п —2).
Пример 1-12. Пусть случайные величины Хх,^2, ..Хп имеют
одинаковое среднее 0, а ®_[Х] = Х, где ==о2 и о,7 = р<г2 (г =£/).
Покажем, что <2 = 2(Х<—X)2 является несмещенной оценкой для
<т2 (1—р) («—!)-
') Короче это равенство можно доказать так: Е [Х'АХ] ~=Е tr [ХХ'А] =
= tr Е [X Х'А] = tr [00'А] + tr ]SA]; tr ]AB] = tr [ВА]. — Прим.''ped.
24
Гл. 1. Случайные векторы
Решение. В этом случае Q = X'АХ, где А =[(«// —zi-l)L и
1-i -1 -1.’
AS = a2 n n n 1-1 . n n -1 n 1 p p 1 p • p
_ b _ f . 1-1 ,p p 1
n n n
= a2( l-p)A. (1-7)
И опять второе слагаемое в Е [Q] обращается в нуль, так что
£ [Q] = tr [AS] = о2 (1 —р) tr А = о2 (1 —р) (п—1).
Теорема 1.8. Пусть имеется п независимых случайных величин
Xit Xt, Х„ со средними 0f, 02, ..., 0„, одинаковыми диспер-
сиями р2 и одинаковыми третьими и четвертыми центральными
моментами р, и р4 соответственно (т. е. pr = £[(Xz—в,/]). Если
А—симметричная матрица размера пхп и а—вектор-столбец,
образованный ее диагональными элементами, то
var [Х'АХ] = (р4—Зр|) а'а + 2pf tr А2 4- 4рг©'А20 4- 4pg0'Aa.
(Этот результат приведен без доказательства в работе Atiqullah
(1962).)
Доказательство. Заметим, что в векторно-матричной записи
мы имеем здесь <£[Х] = 0, б5(Х) = р2|„ и что
var (Х'АХ] = Е [(Х'АХ)2] —(£[Х'АХ])2. (1.8)
Далее, х> Ах = (Х _ е)/д (Х _ + 20r А (X—0) 4- 0'АО,
так что возведение в квадрат обеих частей дает
(Xz АХ)2 = [(X—0)'А (X—0)]2 4- 4 [0Z А (X—0)]2 4- (0'А0)2
4- 20'А0 [(X — 0)'А (X—0) 4- 20' А (X—0)]
4-40'А (X—0)(Х—0)'А(Х—0).
Полагая Y = X—0, имеем <£[Y] = 0, и с использованием теоре-
мы 1.7 (следствие 1) получаем
Е [(X'АХ)2] = £ [(¥'A Y)2] 4- 4£ [(0' A Y)2] 4- (О' А0)2
4- 20'АО (р2 tr А) 4- 4£ [О'А Y Y'A Y].
В качестве первого шага в преобразовании последнего выра-
жения мы заметим, что
(Y' A Y)2 = 2 2 2 2
» / k i
1.4. Средние и дисперсии квадратичных форм
25
Так как случайные величины Yt взаимно независимы и их на-
чальные моменты до четвертого порядка включительно совпадают,
то
Отсюда имеем
Р4 (i = / = * = /),
pl (i = j, k = l\ i = k, j = l; i — l, j — k),
О (в остальных случаях).
E [(Y' A Y)2] = p4 2 a}, + pl (2 2 “iflkk +-2 2 4 +2 2 auarf
i i =hI i^f=i
= (p4 - 3pl) a'a + pl [(tr A)2 + 2 tr A2], (1.9)
поскольку ац = ац и 22о0==^гАа. Далее>
* i
(О'A Y)2 = (b' Y)2 = 2 2 W^Y,
t i
и
(O'A Y) (Y'A Y) =222M/*y/rA-
i i k
так что
E [(O'A Y)2] = p2 2b?=p2b'b = p2O'A20
I
и
E [(0'A Y) (Y'A Y)] = p3 2 Ь:ан = p3b'a = p30'Aa.
Объединяя полученные результаты, используя соотношение
Е [Х'АХ] = р2 tr А + 0' А0
и подставляя все это в соотношение (1.8), приходим к желаемому
результату.
Следствие 1- Если случайные величины Хь Х2, Хп, упо-
мянутые в теореме, сверх того нормально распределены, то
Рз = 0, р4 = 3р| и
var [Х'АХ] = 2pl tr А2 + 4р20'А20.
Следствие 2. Если в условиях следствия 1 0 = 0 и р2 = а2, то
var [Х'АХ] = 2о4 tr А2.
Упражнения 1Ь
1. Пусть А — любая симметричная матрица, а X — произвольный случай-
ный вектор. Докажите, что
E|X'AX] = tr [А<£ [X X']].
Выведите отсюда утверждение теоремы 1.7.
26
Гл. I. Случайные векторы
2. Пусть Xi, Х2....Х„— взаимно независимые случайные величины
Л 2 2 2
с одним и тем же средним 0 и дисперсиями аг, а2, оп соответственно.
Докажите, что 2/(Х,—Х)* 2 */[« («-!)] является несмещенной оценкой для
var [X].
3. Пусть случайные величины Хъ Х2....Х„ имеют одно и то же сред-
нее 0, общую дисперсию о2, и пусть корреляция между любой парой этих
величин равна одной и той же известной константе р.
а) Найдите var [X] и выведите отсюда, что —1/(п—
Ь) Пусть известно, что
П / П \ 2
<2=о J}xl+fr 2 */)
i=i \i=1 /
является несмещенной оценкой для о2. Найдите, каковы при этом а и Ь, По-
кажите, что в этом случае
Д (X,—X)2
2-<i-р) (п-1) •
i=i
4. Пусть X ~ X (О, о2). Найдите производящую функцию моментов дляХ
и на этой основе докажите, что pl3=0 и =3р|.
5. Пусть Xf, Х2, ..., Х„—независимые, одинаково распределенные слу-
чайные величины, имеющие распределение N (0, о2). Положим по определению
S2=^rZ<x'-^2
1=1
И J
Q = 2(il)L^-X«-)2-
1=1
а) Докажите, что var [S2] =2и4/(п— I).
Ь) Покажите, что Q — несмещенная оценка параметра о2.
с) Найдите дисперсию Q и покажите отсюда, что при п—»-со эффектив-
ность х) оценки Q по отношению к оценке S2 приближается к 2/3.
1.5. Независимость случайных величин
Два случайных вектора X и Y называют (статистически) не-
зависимыми, если их совместная плотность f(x, у) представима
в виде произведения
f(x. У) = Мх)Му).
где ft и f2—соответствующие маргинальные функции плотности
распределения.
Теорема 1-9. Если случайные векторы X и Y независимы, а
функции а и b измеримы2), так что а(Х) и b(Y)—случайные
величины, то о(Х) и b(Y) независимы.
‘J За эффективность здесь принимается отношение дисперсий оценок, —
Прим, ред,
2) Все непрерывные функции и большинство „хорошо ведущих себя" функ-
ций измеримы.
1.5. Независимость случайных величин
27
Доказательство. Указанный результат непосредственно выте-
кает из факторизуемости характеристической функции совместного
распределения X и Y, т. е. из соотношения
Е [gisa w + itb (Y)J _ £ p-Sfl (X)J £ [ei№(Y)J. H
Хорошо известно, что соотношение cov[X, К] = 0 еще не оз-
начает, что X и У независимы. Однако в одном важном случае,
а именно когда пара (X, У) имеет двумерное нормальное распре-
деление, случайные величины X и У независимы тогда и только
тогда, когда cov[X, К] = 0. Обобщение этого результата на слу-
чай многомерного нормального распределения приведено в теоре-
ме 2.6 (§ 2.3).
Если случайных величин больше двух, т. е., скажем, если
рассматриваются случайные величины Xt, Х2 и Х3, часто при-
ходится сталкиваться с необходимостью доказательства их взаим-
ной независимости—доказательства соотношения
f (хй xsit хз) ~ Fi (xi) fs (хг) fa (хз)> (1-Ю)
где ft — плотность распределения случайной величины Хг. Здесь
возникает соблазн попытаться решить эту задачу путем доказа-
тельства независимости каждой пары случайных величин (X,-, Ху).
Однако, хотя из взаимной независимости случайных величин и
вытекает их попарная независимость (это можно показать, про-
изводя интегрирование по какому-нибудь одному из переменных
X; в соотношении (1.10)), обратное в общем случае не верно.
Возьмем, напримерх),
f (хп х2, х3) = (2л)-3/2ехр [—y(xf + xl + x|)j
X j 1 + х,хгха exp —i- (xf + xj + xl) j |,
— оо < Х( < оо, i = 1, 2, 3.
Второе слагаемое в фигурных скобках является нечетной функ-
цией по переменной х3, так что соответствующий этому слагаемому
интеграл при интегрировании f (xlt х2, х3) по х3 в пределах от —оо
до —оо равен нулю (см. также упр. 1 в конце этого параграфа).
Поэтому
Hxt, х2)
f,(X.)= * е i=l,2,
" V " /2л
*) Функция f(Xi, х2, х3) положительна (см. упр. 1 вконце главы).—Прим,
ред.
28
Гл. 1. Случайные векторы
так что Хх и Х2— независимые стандартные нормальные величины.
Отсюда мы можем заключить, что случайные величины Х2 и
Х3 попарно независимы и имеют одинаковые маргинальные рас-
пределения, а именно стандартное нормальное распределение.
Однако эти случайные величины не являются взаимно независи-
мыми, так как
х2, х3)^(2л)-з/гexp + =/'1(x1)f2(x2)f3(x3).
Тем не менее в том частном случае, когда случайные величины
имеют совместное многомерное нормальное распределение, из по-
парной независимости случайных величин вытекает и их взаим-
ная независимость (ср. со следствием из теоремы 2.6 из § 2.3).
Ввиду той центральной роли, которую играет многомерное
нормальное распределение в регрессионном анализе, мы детально
обсудим свойства этого распределения в следующей главе.
Упрояснения 1с
1. Покажите, что для всех Х{, х2, х3 справедливо неравенство 1-|-Х]Х2х3Х
X ехр [—у(*1 + х8-|-хз)] > 0.
2. Пусть случайные величины X и У имеют одну и ту же дисперсию.
Докажите, что при этом cov[X-|-K, X —К] =0. Приведите контрпример, кото-
рый показывал бы, что из равенства нулю ковариации не обязательно вытекает
независимость соответствующих случайных величин.
3. Пусть каждая из случайных величин X и У принимает только два зна-
чения 0 и 1, причем
pr[X = «, y = /]=pz/ (i = 0, 1; / = 1, 0).
Докажите, что эти случайные величины независимы тогда и только тогда, когда
cov[X, Г]=0.
4. Пусть случайная величина X имеет симметричную плотность (т. е.
/(х)=/(—х)) и нулевое среднее. Докажите, что cov[X, Х2]=0.
5, Пусть совместная плотность случайных величин X, У и Z имеет вид
/(х, у, г) = ~(1 + хуг), — \<х, у, z-Cl.
Докажите, что эти случайные величины попарно независимы, но не явля-
ются взаимно независимыми.
1.6. Распределение хи-квадратг)
В теореме 1.10 мы докажем основной результат, касающийся
разности двух случайных величин, имеющих распределения хи-
квадрат. Этот результат можно использовать для доказательства
0 Распределение хи-квадрат с k степенями свободы есть распределение
суммыгде XZ(i=l, 2, .... ft)—независимые стандартные нормальные
случайные величины.—Прим, ред.
Упражнения к гл. 1
29
того факта, что некоторые квадратичные формы имеют распреде-
ление хи-квадрат. Сначала будет доказана
Лемма. Если У ~ xl, то производящая функция моментов слу-
чайной величины Y имеет вид
/И(/) = (1—2/)-(1/2’k.
Доказательство.
со
М (/) = Е [ехр (/У)] = f-4-j—г у<1/2) ydy
J 2*r (-i-й)
о \2 /
CO
= (1_2/)-(1/2)й Г---_L-- г(1/2)*-1е-(1/2)г^г
J2*r(-b)
0 \ 2 /
= (1—20"(г/а)*.
(Здесь мы используем подстановку г = (1—2f)y и предполагаем,
что 111 < 1/2.)
Если производящая функция моментов определена в некотором
интервале, содержащем начало координат t — 0, то она однозначно
определяет распределение. Таким образом, распределение хи-
квадрат и по той же причине большинство стандартных распре-
делений (включая нормальное распределение) однозначно опреде-
ляются их производящими функциями моментов. Мы используем
этот факт для доказательства следующей теоремы.
Теорема 1-10. Если Qz ~ £. для i = 1, 2, г, > г2, й Q = Q1—Q2
статистически не зависит от Q2, то где г = г1—г2.
Доказательство.
(1 -2/)-<1/2) Г, = Е [ехр = Е [ехр (/Q +
= Е [exp (/Q)] Е [exp («?2)]
= £[exp(/Q)](l — 2/)_(1/2)г».
Поэтому
Е [exp (/Q)] = (l —20-(1/2)(r«-rs),
а это есть производящая функция моментов для распределения
Хг,-т3-
Упражнения к гл. 1
1. Пусть случайные величины Xj, Х2, ..., Хп имеют одно и то же сред-
нее 0. Предположим, что cov [X/, Ху] = 0 для всех пар i, j, таких, что / > »ф- 1,
Обозначим
=£(*«— *)а
30
Гл. 1. Случайные векторы
<22= (Х1-*2)а+ (Ха-*з)2+.. • + (*»-! - *„)2+ (Х„- XJ2.
Докажите, что
2. Докажите, что для любых двух случайных величин X и Y
var [Х] = £ {var [X | У]} +var {£ [X | К]}.
Y У
Обобщите этот результат на случайные векторы X и Y.
3. Пусть X—случайный вектор размера 3X1, для которого
(к 9 Q\
2 3 0).
3 0 2/
а) Найдите дисперсию Xj—2Х2-|-Х3.
Ь) Найдите дисперсионно-ковариационную матрицу вектора Y=(yt, У2)',
где Ki = X14-X2 и ^а=-^1_Ь2С2+Х3.
4. Пусть Xj, Х2, Х3—случайная выборка из распределения, имеющего
плотность
/W=y, —
Найдите дисперсию величины (Хг—X2)2-f-(X2—Х3)2+(ХЯ—XJ2.
5. Пусть Хх, Х2..Хп—независимые случайные величины, имеющие
одинаковое распределение N (О, о2), а А и В — произвольные симметричные
матрицы размера пХп. Докажите, что
cov[X'AX, Х'ВХ] =2о4 tr [АВ].
Глава 2
МНОГОМЕРНОЕ НОРМАЛЬНОЕ
РАСПРЕДЕЛЕНИЕ
2.1. Определение
По аналогии с одномерной нормальной плотностью
/0/) = (2ло2)-1/2ехр [-^(у- 6)2] (— «> <У<
т. е.
Н'/) = (2то)-1/2ехР [—(о==о2>0),
мы можем определить многомерную плотность
НУь Уг, 4/п) = ^-1ехр [—у(у —ОУ^-Чу—0)] , (2.1)
где —сю < yi < оо (i= 1, 2, ..., п), а 2—положительно опреде-
ленная матрица размера яхп.
Теорема 2.1. Если Y = (FX, Уг, У „)'—случайный вектор
с плотностью распределения (2.1), то
(1) & = (2л)(1/2)" 12 11/2.
(ii) <£[Y] = 0, ®[Y] = 2.
(iii) Q = (Y-0)'2-4Y-0)~X^
Доказательство, (i) Поскольку матрица 2 положительно опре-
делена, то существует вещественная ортогональная матрица Т,
для которой
T'2T = diag(Xit Ч ..., Х„) = А,
где Хп Xj, ..., Хп—собственные значения матрицы 2, являющиеся
положительными (А4.1). Пусть (у—0) = Тх. Якобиан J этого пре-
образования равен
а его абсолютная величина | J\ равна 1, поскольку определитель
любой ортогональной матрицы равен ±1 (1=| Т'Т |=| Т' || Т|=|Т |2).
Учитывая еще, что T“1 = V, имеем
diag(Xr‘, V....ХИ-,) = (Г2Т)-* = Г2-*Т
32
Г л. 2. Многомерное нормальное распределение
И
СО 05
У ... J ехр [ — ± (у—0)' 2“* (у—0)] dy,dy2 ...dyn
~~ CD —СО
=ii fexp[-4(4)]dx'=n(2nMi/2- (2.2)
Функция f(yit у2, ..., у„) будет плотностью, если п-кратный ин-
теграл от выражения, стоящего в правой части (2.1), взятый по
всему пространству — оо < у,- < сю, t=l, 2.....п, равен еди-
нице. Отсюда мы получаем
(Л \1/2
п ) =(2л)(«/»>п|2|1/\
i = 1 /
поскольку
П^=|Л| = |Т,2Т| = |Т'Т||2| = |2|. (2.3)
(ii) Если Y—0 = ТХ, то плотность распределения случайной
величины X имеет вид
Л / । 2 \
g(^i. х2....^n) = /(y(x))|J| = n (2лХ;)-1/2ехр^—y-g-j.
Такая факторизация совместной плотности указывает на то, что
случайные величины Xz взаимно независимы и XZ~A(O, Xz).
В частности, <£ГХ] = О и f3[X]=A. Поэтому <£TY — 01=*О, т. е.
<£[Y]=2 0, и
® [ Y] = £ [(Y—0) (Y—0)'] = £ [ТХХ'Т'] = [XX'] Т' =
= W [X] Г = ТАГ = Т (Г2Т) Г = 2.
(iii)
Q = X'T'2-iTX = X'A-*X = У = У Zj,
(2-4)
где Zt — независимые случайные величины, каждая из которых
имеет стандартное нормальное распределение N (О, 1). Таким об-
разом, Zz~x? и Q~x„, так как сумма независимых случайных
величин, имеющих распределение %2, также имеет распределе-
ние х2.
2.1. Определение 33
е<)2
2g2
Определение. Если функция плотности случайного вектора Y
имеет вид (2.1), то мы говорим, что Y имеет многомерное нор-
мальное распределение, и записываем это в виде У ~ Nn (О, X).
При п = 1 подстрочный индекс в этой записи опускаем.
Следствие 1. Если Y~/V„(O, 2), то \-G~Nn(O, X).
Следствие 2. Если Ef, Уг, .. , Yn—взаимно независимые нор-
мально распределенные случайные величины со средними 0П 02,.0„
соответственно и одинаковой дисперсией о2, то Y ~ Nn (0, о21„).
Доказательство.
НУ1, У......yn)=llfi(yt)= (2no2)-<V2) «exp
= (2л)-а/2)«|аЧп |-i/2 ехр 1 (у-0)' (а21п)~» (у-0)} .
Следствие 3.
J ... J ехр — 4 (у—0)' Х“* (у—0) }dytdyt ... dyn =
= 2л<‘/2)П|2|1/2 (2.5)
= 2n<1/2)n|S~*|-l/2. (2.6)
Пример 2.1 (двумерное нормальное распределение). Пусть век-
тор Y = (Ёп У2)' имеет совместную плотность
1(У1, У2) = {2ло1о2(1 — р2)1/2}~1
vpvnf 1 / (У1~ 61)2 2р(У1—61) (У2 —6г) , (Уг~ 62)2\~
Х Р[ 2(1 -р*Ц аго2 + У]’
где > 0, —оо < yt < оо (i=l,2) и |р|< 1. Докажем, что
Y~/V2(0, X), и найдем корреляцию между Уг и К2.
Решение._
f (f/i. У2) = ехр [ — ± (у—0)' V (у — 0)] ,
где
J______Р_\
О? 01^2 \
Р 1 /
о1а2 Ог '
Пусть
О2 ро№
Р01О2 о?2
(1-р2)
s=v-» =
2 №571
34
Гл. 2. Многомерное нормальное распределение
Матрица 2 положительно определена в силу того, что ее главные
миноры положительны (Л4.7)\о?>0 и |S|==o2o|(l—р2) > 0.
Поскольку к тому же ^ = (2л)1/2 | 2I1/2, то тем самым показано,
что распределение вектора Y можно записать в виде М2(0, 2).
Наконец, заметим, что о12 = соу[У1, У2] = огсг2р и о2,= о?
(i=l, 2), так что р—искомый коэффициент корреляции.
Пример 2.2 (Graybill (1961, стр. 60—61)). Пусть вектор Y имеет
двумерное нормальное распределение f (ух, y2) = k~l exp (—4^) ’
где
Q = Ух + 2у$—У1У г—tyt—2^ + 4.
•Найдем соответствующие 0 и 2.
Решение. Прежде всего заметим, что
Q = (у—0)' 2~* (у—0) = у'2-*у—2y'S-*0 + 0'2-4).
В соответствии с А6 имеем dQ/dy = 22-1у — 22-10, а0—решение
уравнения dQ/dy = 0. Это уравнение равносильно паре уравнений
—Л+"Ч/.—2=0.
Решая их, получаем + = 2, уг= 1, т. е.0' = (2, 1). Далее, Y'2~1Y —
~ yl + tyl—УхУы и не трудно показать, что
v 1/8 2\
7 \2 4/
Замечание. Для случая, когда Y~7Vn(0, 2) и Y' = (Y(, Y2),
Miller (1975) получил плотности вероятности следующих случай-
ных величин: (1) ||Y|| (так называемое рэлеевское распределение);
(2) Yj Y2; (3) угла между векторами Y] и Y2, когда последние
имеют одинаковые размерности; (4) || Yt 11*11 Y2||; (5) ||YiMY2||;
(6) || Yj ||2 +|| Yg (I2 и (7) || Yt ||2 —1| Y2 И2. Вид соответствующих плотно-
стей существенно упрощается, если Yf и Ya независимы.
Упражнения 2а
1. Вычислите интеграл
СО _
$ ехр [— (у?+2уху2 + 4^)] dyxdy2.
— а>
2. Пусть f(yx, у2)=Л“1ехр ^—~(2у'1+уг+2уху2~22ух — 14у2-1-65)^ —
двумерная нормальная плотность. Докажите, что в этом случае А=2я,
3. Пусть Y — N2(0, 2), где £ = [(о//)]. Докажите, что
/ V2 \
\ °11 /
2.2. Производящая функция моментов 35
2.2. Производящая функция моментов
Если Y ~ Nn (в, 2), то производящая функция моментов М (t)
для Y находится следующим образом. Пусть X=Y — 0. Тогда,
согласно следствию 1 из теоремы 2.1, случайный вектор X имеет
распределение Nn(0, 2), и
Л1 (t) = Е ^ехр (2 =£[ехр (t'Y)] = Е [exp {t' (X + 0)}]
= J ... J k~l exp £—у х'2-1х-j-1' (х 4-0)j dxtdx2 ... dxn
- 00 — 00
= J--- J^_1exp^—~-(x—2t)'2~x(x—2t)J dxtdx2. ..dxn
— oo —co
X exp j\'0 + у t'2t j
= exp[t'0+yt'2t] . (2.7)
Последнее равенство следует из того, что подынтегральная функ-
ция представляет собой плотность распределения М„(х—2t, 2),
так что соответствующий кратный интеграл равен единице. Заме-
тим, что выражение (2.7) является очевидным обобщением выра-
жения для производящей функции моментов одномерного нормаль-
ного распределения N (6, о2), имеющей вид
М (/) =ехр о2/2) . , (2.8)
Можно показать, что если матрица 2 положительно опреде-
лена, то функция М (t) однозначно определяет плотность распре-
деления вектора Y. Мы используем этот факт для доказательства
следующей теоремы.
Теорема 2.2. Если Y ~ Nn (0, 2), а С—матрица размера рхп,
имеющая ранг р, то CY ~ NДС0, С2С').
Доказательство. Положим X = CY. Тогда для каждого веще-
ственного t
Е [exp (t'X)]= Е [exp (t'C Y)] = Е [exp (s'Y)]
= exp (s'0+у s'2s) = exp jV (C0) + у t' (C2C')t j .
(2-9)
Здесь мы обозначили s' —t'C и использовали соотношение (2.7).
Поскольку матрица С2С' положительно определена (А4.5), то
полученное выражение представляет собой производящую функ-
2*.
36
Гл. 2. Многомерное нормальное распределение
цию моментов распределения Np(CQ, CSC'), что и доказывает
теорему.
Теорема 2.3. Взаимно независимые одномерные нормальные слу-
чайные величины остаются таковыми при любых ортогональных
преобразованиях’).
Доказательство. Пусть Y2, Yn— взаимно независимые
случайные величины, имеющие нормальные распределения со сред-
ними 0П 62, ...., 6„ соответственно и одинаковыми дисперсиями о2.
Тогда, согласно теореме 2.1 (следствие 2), Y = (Уп Y2, ..., Y„)' ~
~Nn(0, о21„). Положим X = TY, где Т —ортогональная матрица
размера пхп. Тогда ®[X] = T.®[Y]T' = o2TT'=o2I(i, и по тео-
реме 2.2 мы имеем X~/V„(T0, о21„). Значит, Х{— взаимно не-
зависимые нормально распределенные случайные величины с оди-
наковыми дисперсиями о2.
Пример 2.3. Пусть Yit У2, ..., Yn—независимые случайные
величины,_каждая из которых имеет распределение X (6, о2). Дока-
жем, что Y статистически не зависит от Q = V/(1Z/—V)2/o2 и что
Решение. Положим
U ~ Nn (О, 1п). Пусть
Тогда Ut~N(O, 1) и
U^^Yi-9)/о.
Х- — •••№
V п
_ U^U2
К2 ’
8 ’
(2.10).
Кп (И — 1)
т. е. X = TU, где Т—ортогональная матрица размера пхп. (Это
преобразование известно как преобразование Хельмерта.) Согласно
теореме 2.3, получаем отсюда, что X ~ Nn (0, 1„), так что слу-
чайные величины Х{ взаимно независимы и каждая из них имеет
В Указанное свойство инвариантности является исключительным (характе-
ристическим) свойством нормального распределения (см. Lancaster (1954,
стр. 251)). Другие характеризации одномерного и многомерного нормальных
распределений приведены в работах Lukacs (1956); Laha (1957); Rao (1969,
1972а, 1973); Kingman, Graybill (1970); Patil, Boswell (1970); Anderson M. R,
(1971).
2.2. Производящая функция моментов
37
стандартное нормальное распределение. Далее,
2 Х/ = Х'Х = U'T'TU = U'U = 2^/
i=i f=i
= nt72 + 2 (i/z—i7)a = X1a + 2(i/,—{/)® (2.11)
1=1 Т=1
и Q = 2i — 2”°9^- Поскольку X, не зависит от
(Х2, Х3, .... Х„), тол( не зависит и от <2 (теорема 1.9, § 1.5).
Поэтому Y не зависит от Q. Кроме того, Xj — Xi> так что Q~ %®_i-
(Следует отметить, что в качестве матрицы Т можно взять любую
ортогональную матрицу с той же первой строкой, что и у использо-
ванной выше матрицы.)
Теорема 2.4. Если Y ~ Nn (6, S), то маргинальное распре-
деление любого подмножества элементов вектора Y также имеет
многомерное нормальное распределение.
Доказательство. Без ограничения общности в качестве ука-
занного подмножества можно взять вектор Х'^Уц Yit ...,Yp).
Тогда
Х = (1р, 0) Y = CY,
где С—некоторая рхп-матрица ранга р. Отсюда, согласно теоре-
ме 2.2, получаем, что Х~ /УДС0, CSC'), где С0 = (0,, 02, ..., 0р)',
a CSC' — верхняя левая угловая рхр-подматрица матрицы S.
Теорема 2.5. Случайный вектор Y имеет многомерное нор-
мальное распределение тогда и только тогда, когда для любых
вещественных векторов а (а=#0) случайная величина a'Y имеет
одномерное нормальное распределение.
Доказательство. Пусть <£[YI = 0 и £Z)[Y] = S, где S — матрица
размера и хи. Если случайная величина X = a'Y имеет одномер-
ное нормальное распределение, то Е [X] = а'0, var [X] = S) [a' Y] =
= a'Sa (следствие 2 из теоремы 1.4) и Х~ N (а'0, a'Sa). Поэтому
производящая функция моментов для X имеет вид (соотноше-
ние (2.8))
Е[ехр(Х/)] = ехр [(а'0)a'Sa/2] , (2.12)
причем это соотношение выполняется для всех t. Полагая <=sl,
мы получаем, что для каждого а
Е [exp (a' Y)] = ехр (а'0 + у a'Sa) = М (а),
а это есть производящая функция моментов для Мп(0, S). Посколь-
ку var [X] > 0 при а=/=0, то a'Sa > 0 и матрица S положительно
38 Гл. 2. Многомерное нормальное распределение
определена. Поэтому Y ~ Л/„(0, S). Обратно, если Y ~ (6, S),
то случайная величина a'Y имеет одномерное нормальное распре-
деление (теорема 2.2: ранг вектора а' равен единице).
Следствие- Если Y' = (Ki, /2) и при этом обе случайные вели-
чины Yt и Й2 имеют маргинальные стандартные нормальные рас-
пределения, то вектор Y имеет двумерное нормальное распреде-
ление в том и только том случае, когда случайная величина
a1Y1 + a2Y2 имеет одномерное нормальное распределение при лю-
бых вещественных аЛ и а2.
Мы показали, что многомерное нормальное распределение яв-
ляется единственным многомерным распределением,, для которого
любая комбинация a'Y имеет одномерное нормальное распреде-
ление. Это свойство единственности можно, по существу, использо-
вать для самого определения многомерного нормального распре-
деления. Заметим также, что если оба маргинальных распределе-
ния случайных величин Yt и У2 нормальны, то отсюда еще не
следует, что их совместное двумерное. распределение является
нормальным. Это видно из такого контрпримера:
f {У 1. 4/г)=(2п)-1 ехр [ — j (yl + 4/!)]{ 1 + У1У2 ехр [— у (yl +г/22)] j-.
Имеется и целый ряд других контрпримеров (см. Pierce, Dykstra
(1969)). Их можно строить, используя, например, методы Joshi
(1970) и Kowalski (1973). Еще раз подчеркнем, что в соответст-
вии с доказанной теоремой случайная величина должна
быть нормальной для всех вещественных и а2, а не только
для о, = 1, а2 = 0 и at = 0, о2 — 1.
Упражнения 2Ь
1. Найдите производящую функцию моментов двумерного нормального
распределения, приведенного в примере 2.1.
2. Пусть Y — Nn (0, S). Докажите, что Y; — N (0, о,-/).
3. Пусть Y=(K1> Y2, Y3)' ~ W3 (О, S), где
Найдите совместное распределение случайных величии Х1 = У1-|-У2-|-У8
и 22=У1—Y 2.
4. Пусть Y— Nn (0, 1„). Найдите совместное распределение случайных
величин Z. = a'Y и M = b'Y, где а'Ь=0, и покажите отсюда, что L и М ста-
тистически независимы.
5. Докажите утверждение (Hi) теоремы 2.1, используя соответствующие
производящие функции моментов.
6. Используя теорему 2.5, докажите теорему 2.4.
7. Пусть (Xlt Уг)', (Х2, У2)', ..., (Х„, Y„)' —случайная выборка из рас-
пределения /V2(0, Z). Найдите совместную плотность выборочных средних X
и У.
2.3. Независимость нормальных случайных величин
39
й. Пусть случайные величины Yt и У2 таковы, что случайные величины
и Yi — У2 независимы и каждая из них имеет стандартное нормальное
распределение. Докажите, что Yt и Й2 имеют совместное нормальное распре-
деление.
9 . Пусть совместная плотность случайных величин Л и У имеет вид
/(х, У) = еХр [~ ^ (*2+^] (*~ О + ^(Г+?)) ’ ~со<х- У<°°-
Докажите, что маргинальные распределения этих случайных величин нор-
мальны. [Joshi (1970)].
10 Пусть случайные величины Уи Y2, ..., Уп независимы и каждая из
них имеет стандартное нормальное распределение. Найдите совместную произ-
водящую функцию моментов случайных величин У, Yt— У, У2—У, ..., Уп—У
и выведите отсюда, что случайные величины У и — И2 статистически
независимы |Hogg, Craig (1970)].
2.3. Независимость нормальных случайных величин
Хорошо известно, что из независимости случайных величин
вытекает их некоррелированность. В этом параграфе мь! приве-
дем две теоремы, которые показывают, что иногда справедливо
и обратное.
Теорема 2.6. Пусть Y ~ Nn (0, S). Предположим, что вектор Y
разбит на два подмножества
/ Y«’\
Y = ( v <2> ) ,
первое из которых YU), состоит из р элементов, р < п. Тогда
для статистической независимости случайных векторов Yll) и Y12’
необходимо и достаточно, чтобы Чё [Ya), Y<2,] = 0.
Доказательство. Если Ya‘ и Yt2) независимы, то независимой
будет и любая пара элементов У)1’, У)2». Поэтому
cov ГУ)1», У)2»] = Е Г(Уа> — Ор) (У)2» — в)2»)]
= е [ур —ер»] е [ур» —ер]=о,
И
t?[Y(1>, Yt2»] = 0.
(2.13)
Обратно,' если
то
S^SqY’1», Y<2’] = 0,
у
0 X
2g2/ \0 2as/1
|2| = |2И||2М|,
О
0 2
и
2
(Y—0)' 2-i(Y —6)= 2 (Y«> —е«>)' e''>) = Qj + Qt.
1 = 1
40
Гл. 2. Многомерное нормальное распределение
(Правую часть для краткости мы обозначили в виде суммы
Qi + Qs.) Отсюда получаем
f (у) = (2n)-<V2)«121- V2 ехр [-Д (Q, + Q2)]
= (2л)-<1/2) р 12U 1/2 ехр (—4 Q,)
X (2л)-<1/2) («-₽> | s221-1/2 ехр (- 4 <?2) =Л (у(1,)/2 (У12)).
что и завершает доказательство теоремы.
Следствие- Доказанная теорема легко обобщается следующим
образом. Если Y'=(YU»', Y12»', ..., Ytft»') и £[Y‘'», Y</»] = 0 для
всех i, / (i =#/’), то случайные векторы Y(/) (i=l, 2.......k)
взаимно независимы (а не только попарно независимы).
Теорема 2.7. Предположим, что Y~Nn(8, о21„). Пусть U=AY,
V = BY, -матрица Ах составлена из линейно независимых строк
матрицы А и U1 = A1Y. Если при этом t?[U, V] = 0, то
(i) случайный вектор U1 не зависит от V'V;
(ii) случайные величины U'U и V'V независимы.
Доказательство. Пусть матрица Вх составлена из линейно
независимых строк матрицы В. Поскольку в силу теоремы . 1.4
имеет место соотношение
0=£[U, V] = A^)[Y]B'=o2AB', (2.14)
то каждый столбец матрицы А ортогонален каждой строке мат-
рицы В. Поэтому, если
то строки матрицы Сх линейно независимы и вектор CjY имеет
многомерное нормальное распределение (теорема 2.2). Положим
V1 = B1Y. Тогда из соотношения АВ' = 0 вытекает, что АхВ{ = 0,
is [Uj, Vj = 0, так что векторы Ux и Vf статистически независимы
(теорема 2.6).
Без ограничения общности можно предположить, что
в=('в‘\
где строки матрицы В2 линейно зависят от строк матрицы В*,
т. е. существует такая матрица Н, что Bs = BJH' или Ва = НВх.
Тогда
/В, \ /1 \
V==BY== hr Y= н B»Y-
2.3. Независимость нормальных случайных величин
41
Обозначим правую часть последнего равенства через MVt. Тогда
по теореме 1.9 вектор Uj не зависит от случайной величины V'V,
равной VJM'MV,. Аналогично доказывается, что U = LUlt и слу-
чайная величина V'V не зависит от U'U = UJL'LUf.
Следствие 1. Обобщая приведенное выше доказательство и
используя следствие из теоремы 2.6, можем доказать следующее
утверждение. Если U = AY, V = BY, W = CY, .... и ковариация
любой пары этих случайных векторов равна нулю, то случайные
величины U'U, V'V, W'W, ... взаимно независимы.
Следствие 2. Утверждение теоремы остается в силе и в слу-
чае, когда Y ~ Nn (6, S).
Доказательство. Поскольку матрица S положительно опреде-
лена, то существует такая невырожденная матрица R, что
S = RR' (А4.2). Положим Y = RX. Тогда U = ARX и V = BRX и
U^AjRX. Строки матрицы AtR линейно независимы, так как
ранг матрицы не изменяется от умножения ее на невырожденную
матрицу (А2.2). Кроме того, X = R-1Y, так что
[X] = R-*^>[Y] R-1' = R-1RR'R'-1 = I„ (2.15)
и (теорема 2.2) X ~ A„(R-10, 1„). Для завершения доказатель-
ства достаточно применить теорему 2.7 к вектору X.
Следствие 3. Если Y~7Vn(6, о21п), то для независимости
линейных комбинаций a'Y и b'Y необходимо и достаточно, чтобы
а'Ь = 0.
Доказательство. Положим U =a'Y и 17 = b'Y. Тогда
cov((7, l/) = jqa'Y, b'Y] = a'£)[Y] b = o2a'b
и сформулированный результат вытекает из рассуждений, сле-
дующих за соотношением (2.14).
С точки зрения преподавания приведенная теорема и след-
ствия из нее представляются мне гораздо более полезными, не-
жели огромное разнообразие цитируемых в литературе теорем,
относящихся к независимости квадратичных и линейных форм.
Тем не менее в интересах полноты изложения мы приведем не-
которые из этих теорем в § 2.4.
Пример 2.4. Пусть Yit У2, .... У„—независимые случайные
величины, каждая из которых имеет распределение N (0, о2).
Докажем, что случайные величины Y и Q — ^i(Y( — Y)2 неза-
рисимы.
42 Гл. 2. Многомерное нормальное распределение
Решение. В нашем случае Y~7V„(0, о21„\ U = Y — ъ'\ и
Q = V'V, где
что можно представить в виде BY1). Для i=l, 2........п имеем
cov[(7, Vt-] = cov[P, Y;—У] = соу[У, У,]—cov[P, Y]
=— var [У,]—var [У] = -—— = 0.
n 1 '•* 1 1 n n
(Здесь мы использовали теорему 1.5.) Отсюда по теореме 2.7
получаем, что U не зависит от V'V.
Упражнения 2с
1. Пусть случайные величины Yj, Уг......Yn имеют совместное много-
мерное нормальное распределение и каждая пара Y,, Yj (I £ j) независима.
Докажите, что эти случайные величины взаимно независимы.
2. Предположим, что Y Nn (в, S), и рассмотрим разбиения
\xJ’ UJ’ \S21 sj’
где Xf и a,—векторы размера pxl, a Sn—матрица размера pXp (p < n).
Докажите, что если W= Xj —S122^*X2, to &[W, X2] = 0, и выведите отсюда,
что W и Х2 независимы. Используя это, докажите, что условное распределе-
ние вектора X! при-заданном значении Х2 = х2 имеет вид
Мр («1 -|- 2S22 (х2—к2), Sji — Sj2S22 S21).
3. Пусть случайные величины и Y2 имеют совместное двумерное нор-
мальное распределение с плотностью
/(У1. f/2)=|2n0jO2(l— р2)]"1
v рхп Г_1 /(j/i-ep2 2р(Pl-Pl) (у2-е2) (у2-е2у\1
2 \ о? °i°2 о2 /
Используя предыдущее упражнение, найдите условное распределение вектора Yt
при заданном Y2=y2.
4. Пусть Y~JVn(01n, S), где о,7=о2 для всех i и о,у = о2 (1 — р) для
всех I, /, i j. Докажите, что Y статистически не зависит от У„- (Г,—У)2.
5. Пусть Y ~ N3 (0, S), где
/J р 0\
S=( Р 1 р).
\0 р 1/
При каком значении р случайные величины Y^ + У2+ Y3 и Fi — Y2—Y3
статистически независимы?
Чтобы получить ситуацию, указанную в теореме 2.7.— Прим, перев.
2.4. Квадратичные формы от нормальных случайных величин
43
2.4. Квадратичные формы от нормальных случайных
величин
Весьма трудно удержаться от того, чтобы не привести в этом
параграфе большого количества „популярных" теорем о квадра-
тичных формах, доказанных в течение последних 20—30 лет.
Однако, хотя эти теоремы сами по себе и интересны, они не
являются необходимыми для дальнейшего изложения, поскольку
теоремы 2.7 (§2.3) и 1.10 (§ 1.5) достаточно общие. Мы приведем
только два весьма элегантных результата относительно идемпо-
тентных матриц, которые очень легко использовать.
Теорема 2.8. Пусть Y ~ А„(0, о21„) и Р — некоторая симмет-
ричная матрица размера пХп, имеющая ранг г. Тогда для того,
чтобы квадратичная форма Q = (Y—0)'P(Y — 0)/о2 имела распре-
деление %2, необходимо и достаточно, чтобы Р2 = Р (т. е. матрица Р
была идемпотентной).
Доказательство. Пусть Р2 = Р. Тогда г собственных значений
матрицы Р равны единице, а остальные (п—г) ее собственных
значений равны нулю (А5.1). Поэтому существует такая ортого-
нальная матрица Т, для которой Т'РТ = Л, где А определяется
в доказательстве А5.1. Если Z = T'(Y — 0), то Z ~ (0, о21и),
поскольку Y—0~JVJ|(O, о21„) (теорема 2.3), так что случайные
величины Zf независимы и каждая из них имеет распределение
N (0, о2). Поэтому
Q==rr₽TZ = zMi^> (2.1б)
и
Обратно, пусть Тогда Е[ехр (/Q)] = (l —
Поскольку матрица Р симметрична, то существует ортогональная
матрица S, для которой S'PS = diag (Xt, Х2, ..., Л„) = Л, где
X., —собственные значения матрицы Р. Положим Y—0 = SZ. Тогда
Е [exp (/Q)] = Е j ехр
ZZ'S'PSZ^ ]
а2 ) J
= Е ехр
Однако Z = S'(Y—0)~7V„(O, А), так что случайные величины Zt
независимы и каждая из них распределена как N (0, Xz). Следо-
вательно,
Е 1еХр =J (2ло*)~1/а expy р*------------— Jdz^
о
«(I—2М)’1/г.
44
Гл. 2. Многомерное нормальное распределение
Поэтому
(1—2/)- u/а) г = £ [ехр (/Q)] = ft (1 — 2/\)~ V2
/=1
и
(1-2/Г = П(1-2/\.) (2.17)
1=1
тождественно по t для достаточно малых 11|. В силу единствен-
ности системы корней многочлена отсюда вытекает, что г зна-
чений X,- должны равняться единице и п—г значений —нулю.
Таким образом, Р2==Р и rankP = r (А5.1).
Пример 2.5. Пусть Y~1V„(O, !„), Y'Y = Y AY + Y'BY и
Y'AY ~ %2. Докажите, что Y'BY ~ %2_r.
Решение. В соответствии с доказанной теоремой матрица А
является симметричной идемпотентной матрицей ранга г. Матрица
В = 1„-А также может быть выбрана симметричной, и при этом
В2 = (1„—А)2=1„—2А + А2 = 1„—А = В.
Еще раз применяя указанную теорему, получаем, что Y'BY ~ %2,
где в силу А5.2
p = rank В = tr B = n—tr A = n—rank А = и—г.
Пример 2.6. Пусть Y ~ Л’„(0, 1„), Q, = Y'P,V (i = 1, 2) причем
каждая из квадратичных форм Qt и Q2 имеет распределение
хи-квадрат. Покажите, что эти квадратичные формы независимы
тогда и только тогда, когда Р1Р2 = 0.
Решение. Поскольку Q(- имеет распределение хи-квадрат, то
матрица Pz симметрична и идемпотентна. Если Р1Р2 = 0, то
^[PjY, P2Y] = Pj®[Y]P; = PjP2 = 0 и Qj (равная Y'PjY =
= Y'P?Y = (PjY)'(РД)) не зависит от Q2(cp. с теоремой 2.7).
Обратно, пусть и Q2 — независимые случайные величины,
каждая из которых имеет распределение хи-квадрат. Тогда их
сумма Qj + Qz также имеет распределение хи-квадрат, т. е.
₽1 + Р2 = (Рх + Р2)2 = Р1+ Р1Р2 + Р2Р1 + Р1= Рх + Р1Р2 + Р2Р, + Р2,
или
PxP2 + P2Pi = 0. (2.18)
Умножая соотношение (2.18) слева (справа) на Р1( получаем пару
уравнений
Р1Р2 + Р1РЛ = 0; Р1Р2Р1 + Р2Р, = 0.
Отсюда PxP^PgPx, и из уравнения (2.18) имеем
РЛ=о.
2.4. Квадрйтичные формы от нормальных случайных величин
45
(Заметим, что предположение о том, что и Q2 имеют распре-
деление хи-квадрат, в действительности не является необходимым.
Доказательство этого можно найти у Lancaster (1969).)
Пример 2.7. Пусть Y~A„(0, 1п). Докажите, что
2(Kz-k)2~z2_v
1=1
Решение. Как и в примере 1.12 из § 1.4, мы находим, что
У (У,.—K)2=Y'AY, где матрица Д = [(6/7—п-1)] идемпотентна.
Поэтому rankA = trA = n—1, и искомый результат вытекает из
теоремы 2.8.
Теорема 2.9. (Hogg, Craig (1958, 1970)). Пусть Y ~ А„(6, о21„)
и Q. = (Y-6)'P;(Y— 6)/о2 (i=l, 2). Если и Qx—Q2>0,
то Qj—Q2 и Q2 независимы и имеют распределения %^-г2 и 7-г,
соответственно.
Доказательство. Если Qi~72r, то Р2= Р (теорема 2.8). Кроме
того, из Qj—Q2^0 вытекает, что матрица Рх—Р2 положительно
полуопределена. Поэтому она идемпотентна (Д5.5). Отсюда в со-
ответствии с теоремой 2.8 получаем, что — Q2~ Хг. где
г = rank [Pj—Р2] = tr [Pi—Р2] = tr Pi—tr P2
= rank Pi—rankP2 = rj—r2. (2Д9)
В силу A5.5 имеем также PjP2 = P2Pi = P2, так что (Рх—Р2)Р2=0.
Поскольку к тому же Z = (Y—6)/о2~ А„(0, 1„), то используя
пример 2.6, мы приходим к выводу о том, что квадратичная
форма —Q2 (равная Z'(PX—P2)Z) не зависит от квадратичной
формы Q2 (равной (Z'P2Z).
Вопросам независимости квадратичных форм от нормальных
случайных величин посвящена весьма обширная литература.
За соответствующими ссылками читатель может обратиться
к статье Styan (1970). Ряд существенно более коротких доказа-
тельств хорошо известных результатов привел Searle (1971, § 2.5,
теоремы 3 и 4). Однако эти доказательства, использующие тео-
рему 2.6 из настоящей главы, требуют и более тщательного раз-
бора, поскольку они содержат комплекснозначные линейные
комбинации нормальных случайных величин (так, например,
L в теореме 3 книги Searle (1971) может принимать комплексные
значения).
Имеются и более общие варианты теорем 2.8 и 2.9 Интере-
сующийся ими читатель может также обратиться к Searle
(1971, § 2.5).
Гл. 2. Многомерное нормальное распределение
46
М (0 = | I„—2/А2 Г1/2 .
независимы и что
гл. 2
интеграл
(х2+х#+3у2) ехр [— (х2+2х^+ 2г/2)].
A/„(0, X), а А—заданная симметричная матрица размера
производящая функция моментов квадратичной формы
в случае, когда 2=1„ и А —идемпотентная матрица
Упражнения к
1. Вычислите
<£ ^riE(Y/“Y)(Y‘“Y)' =S’
Выведите отсюда, что
ранга г, указанная производящая функция моментов принимает вид
Л4 (/) = (!—20~<1/2)'-
Упражнения 2d
1. Пусть ¥ ~ Г’„
пХп. Покажите, что
Q=Y'AY имеет вид
2. Пусть Y ~ Л„ (0, 1„). Найдите производящие функции моментов ква-
дратичных форм Q1=Y'AY и Q2=Y'BY. Докажите, что при АВ = 0 эти
квадратичные формы независимы. Рассматривая дисперсию суммы Qi+Q2,
покажите, что если Qi и Q2 независимы и положительно полуопределены, то
верно и обратное, т. е. АВ=0.
3. Пусть Y~/V„ (0, 1П) и квадратичные формы Q;-= Y'A,-Y (t = l,.2,
положительно полуопределены. Покажите, что если эти квадратичные формы
попарно независимы, то они и взаимно независимы.
4. Пусть Y ~ N„ (0, 2). Докажите, что третьи моменты элементов век-
тора Y — 0 равны нулю, и выведите отсюда, что
g[Y, Y'AY] = 22A0.
5. Пусть Y ~ Nn (0, 2) и А — симметричная матрица размера пуп ранга г.
Докажите, что Y'AY ~%2 3 4 тогда и только тогда, когда А2А = А.
6. Пусть Y~JV„(O, 1„) и Q = Qi+Q2+Q3, где Qf=Y'AzY (1=1, 2, 3).
Покажите, что если Q~%2, Qf—%2. (1=1,2) и Qg^O, то Qj, Q2 и Qs взаимно
<2з~Хга. где г3=г—г, —r2. (Hogg, Craig (1970).J
2. Пусть Y ~ Nn (0, X), где 2 = о2 [(1—р) 1„-|-р1Г] (0<р < 1). Исполь-
зуя преобразование Хельмерта, приведенное в примере 2.3 (§ 2.2), докажите,
что Y не зависит от Q = (Yj—Y)2/c2 (1—р) и что Q ~ Хп-1-
3. Докажите, что если X и Y—два независимых n-мерных вектора, каж-
дый из которых имеет многомерное нормальное распределение, то случайный
вектор aX-j-tY также имеет многомерное нормальное распределение.
4. Пусть_¥и Y2, .... Y„ — случайная выборка объема п из распределения
Nn(G, 2) и Y = 2"-i Vi/n-
а) Найдите распределение Y.
Ь)'Докажите, что tg JY, Y/—Y]=0.
с) Покажите, что
Упражнения к гл. 2
47
5. Пусть Yi, Y2, ..., Yn—случайная выборка из N (0, о2). Докажите,
что Y не зависит от 2"=‘ <Уi
6. Пусть У = (У1( Y .... Yn)'—случайный вектор («S=s3), плотность
вероятности которого имеет вид
/(У)=(2л)-(1/2)п
— 00 < Щ < 00 .
Докажите, что любые я—1 компонент этого вектора являются взаимно неза-
висимыми случайными величинами, имеющими распределение N (0, 1). [Pierce,
Dykstra (1969).]
7. Пусть Y — Nn (О, 1П). Найдите дисперсию суммы
(У1-К2)2+(У2-У3)2+ ... + (У„-1 —У„)2.
8. Пусть Y~/V„(O, 1„), X=AY, U = BY и V = CY, где А, В и С —
матрицы размера гХп ранга г (г < п). Докажите, что если g [X, U] = 0 и
£[Х, VJ = О, то вектор X не зависит от U -J- V.
9. Пусть Y = (Y„ Y2, Ys, YJ ~ N, (0, I4) и Q=YlYi-YsYi.
а) Докажите, что Q имеет распределение, отличное от распределения
хи-квадрат.
Ь) Найдите производящую функцию моментов для Q.
10. Пусть Y — N„(0, 1„). Докажите, что условное распределение случай-
ной величины Y'Y при условии a'Y является распределением
11. Пусть Y ~ Nn (01„, 2), где 2=[(<ty)], oZ/=l (* = 1, 2, ..., п),
Сц—р (i j). Найдите производящую функцию моментов для Q =
= 21 (Yi— У)2/(1— р) и выведите отсюда, что Q ~ %n-i-
Д2. Пусть Y ~ Nn (0, 2). Докажите, что
var [ Y' A Y ] = 2 tr [ A 2AS ] + 40' ASA0.
(Указание: положите X = R-1Y, где 2 = RR' (А4.2).)
Г лава 3
ЛИНЕЙНАЯ РЕГРЕССИЯ:
ОЦЕНИВАНИЕ
И РАСПРЕДЕЛЕНИЯ
3.1. Оценивание по методу наименьших квадратов
Пусть Y — некоторая случайная величина, флюктуирующая
вокруг некоторого неизвестного параметра т], т. е. У = т]4-е, где
е—флюктуация или „ошибка". Например, е может быть „естест-
венной" флюктуацией, присущей самому эксперименту, приводя-
щему к значению ц, или может представлять собой ошибку в
измерении значения т], так что т] является истинным откликом,
а У— наблюдаемым откликом.
Предположим теперь, что ц можно представить в виде
Л = Ро + РЛ + • • • + Pp-ixp-i» Л
где xit х2, ...,хр^1—известные постоянные (например, величины,
которые в процессе опыта находятся под контролем эксперимен-
татора и измеряются с пренебрежимо малой ошибкой), а (j=0,
1, ..., р— 1) — неизвестные параметры, подлежащие оцениванию.
Если значения Xj изменяются и при этом наблюдается п значе-
ний У,, У2, ..., Уп переменной У, то
И, = Р0 + Р1хн+...+Рр_Л,/,_1+е/ (i=l, 2, ..., п), (3.1)
где. xt/ представляет собой t-е значение для xf. Записывая эти
п уравнений в матричной форме, получаем
Х12
Х22
хп2
х1.р-1
X2.p-t
Хп,р-1
00
02
0Р-2
£1
«2
или
Y = Xp+e, (3.2)
где xi0 = x20= ... =хп0= 1. Матрица X размера пхр называется
регрессионной матрицей. При этом значения Хц обычно выби-
3.1. Оценивание по методу наименьших квадратов 49
раются таким образом, чтобы столбцы этой матрицы были линейно
независимы, т. е. чтобы ранг матрицы X был равен р. Однако
в некоторых случаях при планировании эксперимента элементы
матрицы X выбираются равными только нулю и единице, и ее
столбцы могут оказаться линейно зависимыми. В такой ситуации
матрицу X обычно называют матрицей плана.
Раньше об Xj обычно говорили как о независимых перемен-
ных, a Y называли зависимой переменной. Однако такая терми-
нология приводит к путанице. Поэтому мы будем следовать более
современной терминологии и говорить об ху- как о регрессоре или
предикторной переменной, а У будем называть откликом.
Отметим, что модель (3.1) является весьма общей. Например,
полагая х,у=х{ и k = p — 1, -получаем полиномиальную модель
У/ — Ро + Р1*/ +Р2*1+ • ' • +6f-
Модель
У/ = Ро + Pi^’ + P2V/2 + Рз sin wi9 4- ez
также является частным случаем модели (3.1). Существенная черта
модели (3.1) состоит в том, что эта модель линейна по отноше-
нию к неизвестным параметрам Ру-. По этой причине ее называют
линейной моделью. Напротив, модель
У/ = Ро + Р1е~Р**'+е/ (3.3)
является нелинейной, так как она нелинейна по параметру Р2.
Прежде чем заняться рассмотрением задачи оценивания век-
тора Р, заметим, что вся теория в этой и последующих главах
строится для модели (3.2), в которой x,-0 не обязательно равняется
единице. При этом в случае х/0У=1 у читателя может возникнуть
сомнение в целесообразности использования для индекса i зна-
чений от 0 до р — 1 вместо значений от 1 до р. Поскольку, однако,
построенная теория в основном применяется для случая Х/о=1,
то удобно „отделить" ₽0 от других Ру. сразу.
Одним из методов получения оценки вектора р является так
называемый метод наименьших квадратов. Этот метод заключается
в минимизации суммы 2/8* по отношению к вектору р. Точнее
говоря, полагая 0 = Хр, мы минимизируем величину е е=|| Y—0||2
по отношению к 0£31[Х] = П, где П—образ оператора X, т. е.
Q = (у; у = Хх) для какого-нибудь х. Если изменять значения векто-
ра 0 в пределах Q, то || Y — 01|2 (квадрат длины вектора Y — 0) достиг-
нет минимума при том значении 0 = 0, для которого (Y — 0) J_Q
(ср. с рис. 3.1). Поэтому
X'(Y—0) = О,
или
X'0 = X'Y, (3.4)
50
Гл. 3. Линейная регрессия: оценивание и распределения
Вектор 0 определяется однозначно, поскольку он является орто-
гональной проекцией вектора Y на й (см. приложение В). Если
теперь столбцы матрицы X линейно независимы, то существует
Рис. 3.1. Метод наименьших квадратов состоит в нахождении такой точки А,
для которой расстояние АВ минимально.
единственный вектор р, для которого б = Хр. Производя соответ-
ствующую подстановку в (3.4), получаем так называемое нор-
мальное уравнение (нормальные уравнения)
X'Xp = X'Y. (3.5)
Поскольку мы предполагаем, что матрица X имеет ранг р, то
матрица Х'Х положительно определена (А4.6) и, следовательно,
не вырождена. Поэтому уравнение (3.5) имеет единственное ре-
шение, а именно
$ = (X'X)_1X'Y.
Это решение называется (обычной) оценкой наименьших квадра-
тов вектора р. Вычислительные методы для практического отыска-
ния такой оценки приведены в гл. 11.
Отметим, что р можно получить также, представляя е'е в виде
е'е= (Y —ХР)'(Y —ХР)= Y'Y —2p'X'Y-f-P'X'XP
(используя тот факт, что р'Х' Y = (Р'Х' Y)' — Y'XP) и дифферен-
цируя ее по р. Приравнивая полученную производную дс'е/др
нулю, приходим к уравнению
—2X'Y + 2X'Xp = 0, (3.6)
или
3.1. Оценивание по методу наименьших квадратов
51
Решение 0 этого уравнения (относительно 0) дает стационарное
значение функции е'е, а одно простое алгебраическое тождество
(см. 1-е из упражнений За) показывает, что 0 является минимумом.
Кроме метода наименьших квадратов, имеется и ряд других
методов, используемых для оценивания 0. Эти методы описаны
в § 3.10.
Эмпирическая аппроксимирующая регрессия Х0 обозначается
символом Y = f(Yz)]. Элементы вектора
e = Y — Y = Y —X0 = (l„ — X(X'X)"1X')Y = (I„ — P)Y (3.7)
называются остатками (мы обозначили здесь для краткости
Х(Х'Х)-1Х' через Р). Минимальное значение е'е называется ос-
таточной суммой квадратов (RSS)1). Оно равно
e'e = (Y—X0)'(Y—Х0)= Y'Y —20'X'Y + 0'X'X0
= Y'Y —0'X'Y + 0' [X'X0—X'Y]
= Y'Y —0'X'Y (3.8)
(здесь мы использовали (3.5)), или
е'е = Y'Y—0'X'X0.
Отметим, что и Y и е единственны.
(3-9) _
Пример 3.1. Пусть К, и У2—независимые случайные величины
со средними 0 и 20 соответственно. Найдем оценку наименьших
квадратов для 0 и остаточную сумму квадратов.
Решение. В данном случае
так что Y = X0 + e, где Х = ^) и 0 = 0. Используя
в этом параграфе результаты, имеем
0 = (X'X)-*X'Y = {(1, 2)(2)}-1(1. 2)Y
=1<1-2>(у:)=4<1'-+2гл
полученные
и
е'е = Y'Y—0'X'Y = Y' Y— 6 (Yt + 2У2) = У? + Yl — 1 (У, + 2У2)».
*) RSS—аббревиатура от „residual sum of squares". Мы используем это
сокращение и в русском тексте, так как оно является общеупотребительным.—
Прим, перев.
52 Гл. 3. Линейная регрессия: оценивание и распределения
Ту же задачу можно решить и другим способом, отмеченным
выше. Поскольку здесь е'е=(У,—0)24-(У2—20)2, то из уравне-
ния де'е/д0 = 0 получаем, что 0 = (У1 + 2У2)/5. Поэтому
е'е = (Ут-0)2 + (Уг-20)2 = К? + У2-0 (2УХ + 4У2) + 502
= И+У|—|-(Уг + 2У2Л
О
На практике используются оба указанных способа.
Поскольку 6=Хр = Х(Х'Х)~1 X'Y = PY, то Р является матри-
цей линейного преобразования, представляющего собой ортого-
нальное проектирование n-мерного евклидова пространства Еп
на Я. Подобным же образом 1„ — Р представляет собой матрицу
ортогонального проектирования Еп на Ях—ортогональное допол-
нение к Я в Еп. Поэтому выражение Y = PY4-(In— Р)¥ пред-
ставляет собой единственное ортогональное разложение вектора Y
на две составляющие, одна из которых лежит в Я, а другая —
в Я-1-. Некоторые основные свойства матриц Р и (1„—Р) доказаны
в теореме 3.1, хотя эти свойства и вытекают непосредственно из
более общих результатов относительно матриц ортогонального
проектирования, сформулированных в приложении В.
Теорема 3.1.
(1) Матрицы Р и 1„ — Р симметричны и ид^мпотентны.
(ii) rank[I„ — P] = tr[I„ — P] = /i—p.
(iii) (I„—P)X = 0.
Доказательство, (i) Матрица P очевидно является симметрич-
ной и (I„ — P)' = I„ —Р' = 1П—P. Кроме того,
Р2 = X (Х'Х)-1 Х'Х (Х'Х)-1 X' = Х1р (Х'Х)-1 X' = Р,
и (1„ —Р)2= 1„ —2Рф-Р2= I„ —Р.
(ii) Поскольку матрица 1„ —Р симметрична и идемпотентна,
то (Л5.2)
rank [1„ —Р] = tr [1„—Р] = п—tr Р,
где (А 1.2)
tr Р = tr [X (Х'Х)"1 X'] = tr [Х'Х (Х'Х)-1] = tr Ip = р.
(ii i) (1„ — Р)Х = Х—Х(Х'Х)-1Х'Х = Х — Х = 0.
Если матрица X имеет ранг г < р, то соотношение 0 = PYx)
все еще определяет единственную проекционную матрицу Р (при-
ложение В). Чтобы найти явный вид этой матрицы, возьмем
матрицу Xj размера пХг, составленную из г линейно независи-
’) Где §—любое решение уравнения (3.5).— Прим. ред.
3.2. Свойства оценок наименьших квадратов
53
мых столбцов матрицы X. Тогда из (3.4) получаем, что X[(Y—0)=О,
0=Х1«для некоторого а, и P = X1(Xi'X1)-1X(. Теорема 3.1 ос-
тается справедливой с заменой р на г. Отметим, что матрицу Р
можно представить также в виде Х(Х'Х)~Х', где (Х'Х)-—обоб-
щенная обратная матрица для матрицы Х'Х (ср. с В 1.8).
Рассмотренный геометрический подход можно развить раз-
личными путями. В этой связи укажем работы Seber (1966),
Drygas (1970), Seely, Zyskind (1971), Watson (1972). Rao (1974)
приводит общую теорию, основанную на косоугольных, а не на
ортогональных проекциях. В этой теории допускаются неполнота
ранга матрицы X и возможная вырожденность матрицы £Z)[Y].
Упражнения За
I. Покажите, что
(Y—Х0)' (Y-X₽) = (Y-Xp)' (Y — ХР)+ (0-р)' Х'Х (₽—Р),
и выведите отсюда, что левая часть достигает минимума при Р = р.
2. Докажите, что (У,-—У/) = 0.
3. Пусть
У , = 6-|-ei,
У 2 = 26 — ф 62,
У з = 6+2Ф + е3,
где £[б,-]=0 (/=1, 2, 3). Найдите оценки наименьших квадратов для 6 и ф.
4. Рассмотрим модель регрессии
Е[У1| = ₽о+₽1Х/+ра(Зх?-2) (/ = 1,2,3),
где %1 =—1, х2=0, х3 = +1. Найдите оценки наименьших квадратов для па-
раметров р0, Pi, р2- Покажите, что оценки наименьших квадратов для р0 и Pi
в модели с р2 = 0 имеют тот же вид.
5. Наблюдаемая реакция Т нерастяжимой нити, требующаяся для удер-
жания в равновесии тела неизвестного веса ш на гладкой наклонной плоскости,
расположенной под углом 6 (0 < 6 < л/2) к горизонтальной плоскости, яв-
ляется случайной величиной со средним £[7] = шз1п0. Пусть для 6 = 6/
(/=1, 2, ..., п) соответствующие значения Т равны 7,- (/=1, 2, .... п).
Найдите оценку наименьших квадратов для ш.
6. Пусть Р = X (Х'Х)-1 X'. Покажите, что 51 (Р]=5? [X].
7. Покажите, что в общей модели регрессии полного ранга
2 у.(у.-у1)=о.
i=i
8. Пусть масштаб для регрессоров выбран таким, что Xjj=kjWij для всех
/, /. Выражая матрицу X с помощью новой матрицы W, докажите, что оценка Y
не изменяется при таком изменении масштаба.
3.2. Свойства оценок наименьших квадратов
Если предположить, что „ошибки" являются несмещенными,
т. е. <£[е] = 0, то
S [₽] = (Х'Х)-* X’S [Y] = (Х'Х)-* Х'Х0 = 0 (3.10)
54
Гл. 3. Линейная регрессия: оценивание и распределения
и р есть несмещенная оценка вектора р. Если, кроме того, пред-
положить, что все в; некоррелированы и имеют одинаковую дис-
персию, т. е. cov[e/t бу] = 6,7о2, то ®[е] = о21п и
S>[Y] = ®[Y — ХР] = <2>[е].
Отсюда по теореме 1.4 (следствие 2) получаем
S> [р] = S) [(Х'Х)-1 X'Y] = (Х'Х)-1 Х'<2) [ Y] X (Х'Х)-1
= о2 (Х'Х)-1 (Х'Х) (Х'Х)-1 = о2(Х'Х)-1. (3.11)
Здесь возникает такой вопрос: почему в качестве оценки век-
тора Р мы выбираем именно р (оценку наименьших квадратов),
а не какую-нибудь другую оценку? Мы покажем ниже, что в
достаточно разумном классе оценок Ру- является оценкой пара-
метра ру, обладающей наименьшей дисперсией. Эта оценка Ру- легко
„выделяется" из вектора Р = (Р0, Pv . ••, P^-i)' простым умноже-
нием слева на вектор-строку с', у которой (/4-1)-й элемент
равен единице, а все остальные элементы равны нулю. Оказы-
вается, что такое специфическое свойство оценки Ру- можно обоб-
щить на случай произвольной линейной комбинации ар. Для
этого используем следующую теорему.
Теорема 3.2. Пусть 0—оценка наименьших квадратов век-
тора 0 = хр. Тогда в классе всех линейных несмещенных оценок
линейной комбинации с'0 оценка с'0 является единственной оцен-
кой, обладающей минимальной дисперсией. (Мы говорим при
этом, что с'0 является на и лучшей линейной несмещенной оценкой
(НЛНО) для с'0.)
Доказательство. В соответствии с § 3.1 оценка 0 имеет вид
0=pY, где РХ=Х. Поэтому Е [с'0]=с'Р0=с'0 для всех 0 С Q=5i[X]
и c'0 = (Pc)'Y является линейной несмещенной оценкой для с'0.
Тогда c'0 = £[d'Y] = d'0, или (с—d)'0 = O, так что (с—d)J_Q.
Таким образом, Р(с—d) = 0 и Pc = Pd.
Далее,
var [(Pd)' Y] = S) [(Pd)' Y] = o2d'P'Pd = o2d'P2d = o2d'Pd
(последнее равенство справедливо в силу теоремы 3.1), так что
varfd'YJ—var[c'0] = var [d'YJ—var[(Pd)' Y]
= o2(d'd — d'Pd) =o2d'(I„ —P)d
= o2d'(l„—P)'(In—P)d
₽o2[(l„-P)d]'[(l„-P)d]>0.
3.2. Свойства оценок наименьших квадратов 55
Равенство здесь достигается только в том случае, когда
(1п—P)d = 0, т. е. d = Pd = Pc. Это и означает, что с'0 имеет ми-
нимальную дисперсию и является единственной оценкой с таким
свойством в рассматриваемом классе.
В этом параграфе мы предполагали, что матрица X имеет
полный ранг, так что Р = X (Х'Х)-1 X', и из О = Х0 вытекает,
что 0 = (Х'Х)-1Х'0. Полагая с' = а'(Х'Х)-1Х', мы получаем
отсюда, что а'0 = с'0 является НЛНО для а'0 при каждом а.
Отметим, что доказанная теорема остается в силе и тогда,
когда матрица X неполного ранга. При этом матрица Р становится
проекционной матрицей, имеющей свойства, описанные в В1.
До сих пор мы не делали никаких предположений о распре-
делении ez. Однако в том случае, когда ошибки ef независимы
и одинаково распределены по закону N (0, о2), т. е. (0, о21„)
или в эквивалентной форме Y-~A/n(X0, о21„), то а'0 имеет мини-
мальную дисперсию среди всех несмещенных оценок, а не только
в классе линейных несмещенных оценок [по поводу доказатель-
ства этого факта см. Rao (1973, с. 319)]. В частности, оценка 0,-,
являющаяся при этом также и оценкой максимального правдо-
подобия для 0; (разд. 4.1.2), является эффективной1) оценкой 0,.
Когда общее для всех st распределение не является нормаль-
ным, оценка наименьших квадратов для 0,- не совпадает с асимп-
тотически эффективной оценкой максимального правдоподобия.
Асимптотическая эффективность оценки наименьших квадратов
для этого случая доказана в книге Сох, Hinkley (1968).
Eicker (1963) рассматривал вопрос о состоятельности и асимп-
тотической нормальности оценки 0 при п —>оо. При слабых огра-
ничениях он показал, что 0 является состоятельной оценкой век-
тора 0 тогда и только тогда, когда наименьшее собственное
значение матрицы Х'Х стремится к бесконечности. Такое ограни-
чение на наименьшее собственное значение является весьма
слабым, и поэтому указанный результат имеет широкое примене-
ние. Eicker (1963) также доказал теорему, содержащую необходи-
мые и достаточные условия для асимптотической нормальности
каждой. 0у (см. Anderson М. R. (1971, с. 23—27)).
Упражнения ЗЬ
1. Пусть У1 = Ро+Рг*/+е;- (i==l, 2, п), где <^[e] = 0 и £Z>[s] = o2I„.
Найдите оценки наименьших квадратов для р0 и 0V Докажите, что они не-
коррелированы в том и только том случае, когда х=0.
х) См. Крамер Г. Математические методы статистики.— М.: Мир, 1975,—?
Прим, перев.
56
Гл. 3. Линейная регрессия: оценивание и распределения
2. Для оценивания параметров 0 и Ф можно провести наблюдения трех
Типов:
а) математическое ожидание наблюдаемой величины равно 0,
Ь) математическое ожидание наблюдаемой величины равно 0-фф,
с) математическое ожидание наблюдаемой величины равно 0—2Ф.
Пусть все наблюдения подвержены некоррелированным случайным ошиб-
кам, имеющим нулевые средние и постоянную дисперсию.
Найдите оценки наименьших квадратов 0 и Ф для случая, когда имеется
т наблюдений типа (а), т наблюдений типа (Ь) и п наблюдений типа (с).
Докажите, что эти оценки некоррелированы при т=2п.
3. Пусть Кх, Y2.Уп—случайная выборка из N (0, о2). Найдите ли-
нейную несмещенную оценку для 0, имеющую наименьшую дисперсию.
4. Пусть
^1 = Ро+01 (*11—*1)+Р«(*/г—(* = Ь 2, .... п),
где = xijln, $ [е]=0 и <2>1е] = оа1„. Покажите, что если ^—оценка
наименьших квадратов для 0t, то
- о2
i
где г12—коэффициент корреляции для пар (хц, х,-2).
3.3. Оценивание а2
Обратим теперь внимание на оценивание параметра о2, пред-
ставляющего собой var ef. Несмещенная оценка для о2 указывается
следующей теоремой.
Теорема 3.3. Если <£[Y] = X0, где X—матрица размера пхр
ранга р, и £2>[Y] = cr2I„, то
S2 = (Y—Х0)'(Y —Х0) = RSS
п—р п—р
является несмещенной оценкой для о2.
Доказательство. Согласно соотношению (3.7),
Y—Х0 = (1„—Р) Y,
и из теоремы 3.1 получаем
(и—p)S2= Y'(ln —P)'(ln —Р) Y = Y'(I„—P)2Y=Y'(l„—P)Y. (3.12)
Отсюда в силу теорем 1.7 (следствие 2) и 3.1(iii) имеем
£[Y'(ln-P)Y] = o2tr(I„-P) + ₽'X'(l„-P)X₽ = o2(n-p)
и E[S2] = a2.
Оказывается, что S2, подобно 0, обладает определенными свой-
ствами оптимальности, которые частично приведены в следующей
теореме.
3.3. Оценивание сг
57
Теорема 3.4. (Atiqullah (1962)). Пусть Уlt У2, ..., У„ —неза-
висимые случайные величины, имеющие одинаковые дисперсии и
одинаковые третьи и четвертые центральные моменты р3 и р4.
Если S [Y] = xp, где матрица X размера пхр имеет ранг р, то
(и—p)S2 является единственной неотрицательной квадратичной
несмещенной оценкой для (n-v-p)o2, имеющей минимальную дис-
персию при р4 = 3о4 или при равенстве всех диагональных эле-
ментов матрицы Р.
Доказательство. Поскольку о2^0, то не лишено смысла,
следуя Rao (1952), рассматривать только неотрицательные оценки.
Пусть Y'AY принадлежит классу неотрицательных квадратич-
ных несмещенных оценок для (п—р)о2. Тогда в силу теоремы 1.7
(п—р) о2 = ЕIY' A Y] = о2 tr А + Р'Х'АХр
для всех р, так что trA = n—р (полагаем 0 = 0) и Р'Х'АХР = 0
для всех 0. Таким образом, X'AX = 0 (А9.2), или, поскольку
матрица положительно полуопределена, АХ = 0 (АЗ.5). Поэтому,
если вектор а образован диагональными элементами матрицы А
и у2 = (р4 —Зо4)/о4, то, согласно теореме 1.8,
var [Y'AY] = о‘у2а'а + 2о4 tr А2 + 4и2Р'Х'А2Хр + 4рзр'Х'Аа
= о4у2а'а + 2о4 tr А2. (3.13)
Далее, оценка (п — pjS2, равная Y' (1„—P)Y=Y'RY (где
для краткости введено обозначение 1п—P=R), по теореме-3.3
принадлежит классу Кроме того, по теореме 3.1
trR2=tr R = n—р;
подставляя это выражение в (3.13), получаем
var [ Y'RY ] = o4yilr'r + 2о4 (п—р). (3.14)
Чтобы найти достаточные условия для минимальности дисперсии
оценки Y'RY в классе %, положим A = R-(-D. Тогда матрица D
симметрична и tr A = tr R H-tr D. Таким образом, trD = O. По-
скольку AX = 0, то AP = AX(X'X)“4 X' = 0, и использование
этого уравнения совместно с соотношением Р2 = Р, т. е. RP = 0,
приводит к равенствам
0 = AR = RP4-DP = DP
И DR = D
(последнее равно также D' = RD). Поэтому
A2=R2 + DR + RD + D2=R4-2D + D2
и
tr A"=tr R + 2trD + tr D2 = (n—p) + trD2.
Подставляя это выражение в (3.13), полагая a = r-|-d и исполь-
58
Гл. 3. Линейная регрессия: оценивание и распределения
зуя (3.14), получаем
var [Y'AY] = о4у2а'а4- 2о4 [(n—р) 4- tr D2]
= о*?2 (г*г + 2r'd + d'd) 4- 2о4 [(и — р) 4- tr D2]
= o4ysr'r 4-2о4 (п—р)4-2о4 ^y2^r'd 4-у d'd + tr D2j
= var [Y'R Y] 4- 2o4 [ y2 (E riidu + J Ed«) +
+EE^,]«
Чтобы найти оценку с минимальной дисперсией, нужно миними-
зировать var[Y'AY] при условиях trD = O и DR = D. В общем
случае выполнить такую минимизацию довольно трудно (см.,
например, Hsu (1938)). Однако в двух важных частных слу-
чаях эта минимизация выполняется без труда. Первый случай —
это ситуация, когда у2 = 0. При этом
var [Y'AY] = var [Y'RY]4-2o4 ЕЕ^Л
i !
Последняя же величина достигает минимума, когда О
для всех i, /, т. е. когда D=0 и A=R. Второй случай—это
случай равенства всех диагональных элементов матрицы Р. При
этом все они равны р/п (так как по теореме 3.1 (ii) имеем
trP = p). Поэтому ги — (п—р)/п для каждого i и
var [Y'AY] = var [Y'R Y] 4- 2o4 |\2 (o + y Erf«) + EE^/]
= var [Y'R Y] 4- 2o4 [ (-i- y2 4-1) E4- EL^1,
L i i =# / J
поскольку 2irzA’/ = [(n—p)/n]trD = 0. Далее, y2 > —2 (All.l),
так что var[Y'AY] достигает минимума, когда df/. = 0 для всех
i, j. Таким образом, в обоих случаях дисперсия оказывается
минимальной тогда и только тогда, когда A=R.
Эта теорема проливает свет на тот факт, что несмещенная
квадратичная оценка для о2, обладающая равномерно минималь-
ной дисперсией, существует только при определенных ограниче-
ниях, подобных тем, которые указаны в теореме. В предположе-
нии нормальности, т. е. при у2 = 0 [Rao (1973, с. 319)], S2 ока-
зывается несмещенной оценкой для о2, обладающей минимальной
дисперсией во всем классе несмещенных оценок (а не только
в классе квадратичных несмещенных оценок).
Rao (1970, 1972b) предложил также другой критерий выбора
оценки для о2, состоящий в выборе так называемой квадратич-
3.4. Теория распределений
59
ной несмещенной оценки с минимальной нормой (НОМН). Вне
зависимости от того, предполагаем мы нормальность или нет,
этот критерий опять приводит к S2 [ср. с Rao (1970, 1974,
с. 448)].
Упражнения Зс
1. Пусть Y ~ Nn(Xfi, a2In), где X —матрица размера пХр ранга р.
а) Найдите var [S2].
Ь) Вычислите Е [(Y'Aj Y —о2)2] для
Ai=ra_p+2(I"~X (Х,Х)"1Х').
с) Докажите, что оценка Y'A,Y для о2 имеет меньшую среднеквадра-
тичную ошибку, чем S2. [Theil, Schweitzer (1961).]
2. Пусть Fi, У2, .... Уп—независимые и одинаково распределенные слу-
чайные величины со средним 6 и дисперсией о2. Найдите для а2 неотрица-
тельную квадратичную несмещенную оценку с минимальной дисперсией.
3.4. Теория распределений
До сих пор единственные предположения относительно ef со-
стояли в том, что <£[е] = 0 и Й>[е] = о21„. Если дополнительно
предположить нормальность ошибок 8;, то £~ Nn (0, о21„) и
поэтому Y ~ Nn (Х₽, о21„). При этом получается целый ряд
результатов, связанных с распределениями.
Теорема 3.5. Если Y ~ Nn (Х₽, о21„), где X —матрица раз-
мера пХр ранга р, то
(i) ₽~Л^(₽, о2 (Х'Х)-1);
(ii) (P-0)'X'X(0-P)/o2~yJ;
(iii) р не зависит от S2;
(iv) RSS/o2 = (п- р) 52/о2~ Хп-Р-
Доказательство. (i) Поскольку ^(X'X^X'Y, то p = CY,
где С = (Х'Х)~ХХ'—матрица размера рхп, для которой rank С =
= rank X = р (в силу А2.4), и р имеет многомерное нормальное
распределение (теорема 2.2, § 2.2). В частности, из соотноше-
ний (3.10) и (3.11) мы имеем p~./Vp(P, о2(Х'Х)“х).
(ii) (Р-Р)'Х'Х(Р-Р)/о2=(Р-Р)'(®[Й)-1(₽-Р). а послед-
няя величина, согласно пункту (i) и теореме 2.1 (iii), имеет рас-
пределение Хр-
(iii) В соответствии с теоремой 3.1 (iii) имеем
£[Р, Y--Xp] = ^[(X'X)-*X'Y, (1„—Р) Y]
« (Х'Х)-* X'S>[Y](I„—Р)' =о2(Х,Х)_* X'(I„— Р) = 0.
60 Гл. 3. Линейная регрессия: оценивание и распределения
Если в теореме 2.7, § 2.3, положить 1^ = 0 и V=Y— Х0, то
непосредственно из нее получаем, что 0 не зависит от (Y—Х0)'х
X (Y-X0), а значит, и от S2.
(iv) Это утверждение можно доказать различными способами
в зависимости от того, какую из теорем гл. 2 мы собираемся
использовать. Полезно рассмотреть следующие три способа дока-
зательства.
Способ 1
Q1 = (Y-X0)'(Y-X0) = (Y-X0 + X(0-0))'(Y-X0 + X(0-0))
= (Y-Х0)' (Y —Х0)+2 (0—0)' X' (Y — Х0)+(0 —0)' Х'Х(0—0)
= (Y -Х0)' (Y -Х0) + (0 -0)' Х'Х (0 -0) = Q + Q2. (3.15)
Здесь мы обозначили (Y—X0)'(Y—X0) = Q, (0—0)'Х'Х X
X (0—0) = Q2 и воспользовались тем, что
(0-0)' X' (Y-X0) = (0-0)' (X'Y—Х'Х0) = О. (3.16)
При этом отношение Qjo2 (равное ^fij/o2) имеет распределение
Xnt a (в силу п. (И)]. Кроме того, Q2 является непре-
рывной функцией от 0, так что в силу теоремы 1.9, § 1.5,
и п. (iii) квадратичная форма Q не зависит от Qz. Поэтому
Q/oa~Xn-p (теорема 1.10, § 1.6).
Способ 2
Используя теоремы 3.3 и 3.1 (iii), получаем
RSS=Y'(I„-P)Y = (Y-X0)'(l„-P)(Y-X0) = £'(l„-P)e,
(3-17)
где (1„—Р)—симметричная идемпотентная матрица ранга п—р.
Поскольку е~ (V„(0, о21„), то RSS/o2~%2_p (теорема 2.8, § 2.4).
Способ 3
Используя разложение (3.15), получаем, что О^/а2 ~
QJo2~'Xp (согласно п. (и)) и Q==Q1—Q2>0. Поэтому в силу
теоремы 2.9 из § 2.4 Q/o2 ~ %2п_р.
Упражнения 3d
1. Пусть случайные величины Yt, Y 2, .... Y„ независимы и каждая имеет
распределение N (0. о2). Используя теорему 3.5, докажите, что
a) Y статистически не зависит от = О',—Г)2,
b) Q/o2 — Хп—р.
2. Используя теорему 2.7, докажите, что в общей модели регрессии RSS
не зависит от (₽-₽)' Х'Х $-Р),
3.5. Ортогональная структура матрицы плана
61
3.5. Ортогональная структура матрицы плана
Предположим, что в модели ^[Y] = Xp мы можем разбить
матрицу X на £-|-1 совокупностей столбцов, составляющих &+1
матриц Хо, Хп • • •, Xft.
Х=(ХО, Xit ..., ХА).
Соответствующим образом разобьем и вектор р:
₽ =
.Рл7
Здесь число элементов вектора р, равно числу столбцов в Х;
(i = 0, 1.k). Тогда исходная модель запишется в виде
^[YbX^ + XiPi + .-.+XA-
i,
i
Предположим далее, что столбцы
столбцам матрицы Ху для всех
/3=(Х'Х)-'X'Y
матрицы X/ ортогональны
(i =/=/), т. е. Х^Ху = 0. Тогда
XiX„
О
о
Х'.Х,
(W'XJY
(XiXJ-'XIY
(xix*)-x;Y
О
о
Иначе говоря, р,- является оценкой наименьших квадратов для
Р,- в модели ^?[Y] = Х/Р/. А это означает, что оценка наимень-
ших квадратов для pf не изменится, если положить какие-то
другие Ру (/=/=*) равными нулю. Далее, из соотношения (3.8)
следует, что остаточная сумма квадратов имеет вид
k
RSS= Y'Y—p'X'Y = Y'Y—2P;x;Y,
r=0
так что если мы положим в указанной модели Р,- = 0, то един-
ственное изменение остаточной_ суммы квадратов будет состоять
62
Гл. 3. Линейная регрессия: оценивание и распределения
в добавлении слагаемого PJXJY, т. е. в этом случае сумма будет
равна
k
y'y—Sp;x;y. (з.18)
r=0
r =A i
В том простейшем случае, когда каждая матрица X,- состоит из
единственного столбца, скажем х;
Р/ — —— ♦
XfX,-
и
k k
RSS-Y'Y — SPXY-Y'Y —2Й(хХ). (3.19)
r=0 r=0
Два возможных применения этой модели обсуждаются
в разд. 8.2.1 и 8.5.2.
Hotelling (см. упр. 3 ниже) доказал следующее интересное
свойство моделей регрессии. Если матрица плана X такова, что
XjXy — cJ, то
var[P,.l>4,
ci
причем равенство достигается здесь в том случае, когда х'£Ху —О
(для всех /, j^i). Отсюда вытекает, что при заданных величи-
нах х^Ху = с? (t = 0, 1, ..k) «оптимальный» выбор X состоит
в выборе матрицы плана с взаимно ортогональными столбцами.
Поучительно следующее доказательство этого результата.
Лемма. Рассмотрим модель
= Ро + Р1х/1 + • • • + Рл* + е/ О= 1. 2, ..., п),
в которой переменные стандартизованы таким образом, что
для всех / = 1, 2, k выполняются соотношения = ® и
£хц=с. Величина
var [PJ (3.20)
,=о
достигает минимума в том случае, когда столбцы матрицы X
взаимно ортогональны.
Доказательство. Согласно сделанным предположениям,
X'X = (J с) (3.21)
и
k k
£ var [Ру] = tr S) [₽] = oa (tr C-1 + £V), (3.21)
/=0 4 ' /=0
3.5. Ортогональная структура матрицы плана 63
где Х0 = и и Ау (/= 1, 2, ..., k)—собственные значения матри-
цы С (А1.5). Минимум правой части (3.21) при условии tr[X'X]=
==п + ^с, т. е. trC=kc, достигается, когда все Ау равны, т. е.
= c (/=1, 2, ..., k). Поэтому существует такая ортогональ-
ная матрица Т, для которой T'CT = clfc, т. е. C = clft, так что
столбцы матрицы X взаимно ортогональны.
\
Упражнения Зе
1. Докажите использованное выше утверждение о том, что минимум пра-
вой части (3.21) достигается при Kj=c (j—l, 2, ..., k).
2. Пусть требуется подобрать модель регрессии вида
Е^/] = ₽0+₽1Х/ + ₽2Ф(х<). (=1, 2, 3,
где Ф (х)—многочлен второй степени. Найдите такой многочлен Ф (х), для
которого при Xi = —1, ха = 0, х2=1 матрица плана X имеет взаимно ортого-
нальные столбцы.
3. Предположим, что столбцы матрицы Х=(х0, xj.xA_t, xA] = [W, x*J
линейно независимы.
а) Используя А7, докажите, что
| Х'Х |=| W'W | (xw*—xfeW (W'W)-» W'xft).
b) Покажите, что
| W'W | 1
| X'X | " ХдхА ’
и выведите отсюда, что var о2 (ха, xft)-» и что равенство в последнем
соотношении достигается тогда и только тогда, когда хах,=0 (/' = 0, 1, ...
.... k—1). [Rao (1973, с. 236).]
4. Какие изменения в формулировку доказанной выше леммы необходимо
внести, если опустить составляющую р0?
5, Покажите, что модель полного ранга
i — Ро+ Pi*ii + • • + ₽**i*+eZ
всегда можно путем соответствующей перепараметризации представить в виде
уI:=То+ Т12/1 + - • + У*?,* + е,,
где матрица плана имеет уже взаимно ортогональные столбцы и уг = уг+1==...
...=уА = 0 тогда и только тогда, когда рг = рг+1 = ... =pft = 0 (r = 0, 1,...
.... k).
6. Предположим, что мы хотим найти веса р(- (1 = 1,2, ..., k) k объектов.
Один из методов решения этой задачи состоит в r-кратном взвешивании каж-
дого объекта и определении соответствующих средних значений. Это требует
проведения kr взвешиваний, причем дисперсия каждого среднего значения
оказывается равной о2/г (здесь о2—дисперсия ошибки взвешивания). Другой
метод состоит во взвешивании различных наборов объектов. Выбранные для
каждого взвешивания объекты помещаются на обе чашки весов, и на одну из
чашек помещаются гири, приводящие весы в равновесие. Модель регрессии
для такой схемы взвешивания имеет вид
1/ = ₽Л + ₽2х2+ •• - + ₽АЛг + е-
Здесь х(- = 0, 1 или —1 в зависимости от того, участвовал ли i-й объект во
взвешивании, и если участвовал,. то на какой из чашек он располагался (на
64
Гл. 3. Линейная регрессия: оценивание и распределения
левой или- на правой), е — ошибка взвешивания (одна и та же для всех взве-
шиваний), a У—вес гирь, необходимый для достижения равновесия (У счи-
тается отрицательной величиной, если гири помещаются на левую чашку).
После выполнения п таких взвешиваний мы можем найти оценки наименьших
квадратов (3(- для искомых весов.
а) Покажите, что оценки весов оказываются наиболее точными (т. е.
имеют минимальную дисперсию) тогда, когда каждый элемент матрицы X
равен ±1 и столбцы этой матрицы взаимно ортогональны.
Ь) Покажите, что для того, чтобы получить при взвешивании каж-дого
объекта в отдельности ту же точность, что и при оптимальном плане с п взве-
шиваниями, необходимо произвести kn взвешиваний1). (Rao (1973, с. 309).]
3.6. Обобщенный метод наименьших квадратов
После того как мы построили теорию метода наименьших квад-
ратов для модели Y=X04-e в предположениях <£[в]=0 и
= о21„, перейдем теперь к случаю, когда допускается коррели-
рованность ошибок ее, и выясним, какие при этом необходимо
сделать изменения. Мы будем предполагать теперь, что £Z)[s] =
= o2V, где V —известная положительно определенная матрица
размера пхп.
Поскольку матрица V положительно определена, то сущест-
вует такая невырожденная матрица К размера и х и, для кото-
рой V = KK' (А4.2). Поэтому, полагая Z=K_1Y, В = К-1Х
и т)=К-18, приходим к модели Z=B04-t], в которой матрица В
размера пхр имеет ранг р (А2.2), $[т|] — 0 и ®[т]]= о21„ (в силу
соотношения (2.15), § 2.3). Минимизируя величину т]'1) относи-
тельно 0 и используя теорию § 3.1, находим, что оценка на-
именьших квадратов для вектора 0 в преобразованной модели
равна
0*= (B'B)"*B'Z = (X' (КК')-1 X)"1 X' (КК')"1 Y
= (X'V-1X)-*X'V-1Y.
Ее математическое ожидание есть
S [0*] = (X'V-1X)-1 X'V-*X0 = 0,
дисперсионная матрица выражается как
© [0*] = о2 (В'В)-1 = а2 (X' V-1X)-i, (3.22)
а остаточная сумма квадратов—как
f'f = (Z —В0*)' (Z—В0‘)
= (Y —Х0*)' (КК')-1 (Y—Х0*) = (Y -Х0’)' V-» (Y -Х0*).
х) Конечно, при условии, что матрица X со свойствами, указанными
в п. (а), существует (это известная проблема Адамара).— Прим. ред.
3.6. Обобщенный метод наименьших квадратов
65
Оценку р* можно получить и другим путем. Именно, можно
продифференцировать величину ц'ц как функцию от р, равную
1)'1) = e'V-1£= (Y —ХР)' V"x (Y —ХР)
= Y'Y —2p'X'V"1Y ф-р'Х'У-^Хр,
по переменной р. В силу Аб соответствующая производная равна
^? = — 2X'V-J Y + гх'У-’Хр. (3.23)
Приравнивая полученное выражение нулю, снова приходим к той
же оценке р*. Матрица X'V-1X имеет обратную, поскольку она
положительно определена согласно А4.5. Отметим, что коэффи-
циент при 2р в (3.23) является величиной, обратной <2>[р*]/о2.
В различных книгах, посвященных рассмотрению указанной
выше модели, оценка р* называется по-разному. Иногда ее назы-
вают взвешенной оценкой наименьших квадратов. Однако мы
будем говорить о ней как об обобщенной оценке наименьших
квадратов, зарезервировав выражение взвешенная оценка наимень-
ших квадратов для случая, когда матрица V является диагональ-
ной. Такой случай обсуждается многократно в различных частях
этой книги (см. предметный указатель).
Пример 3.2. Пусть Y = xp + e, где Y =[(/,)] и х= [(%,•)] —
векторы размера nxl, <£>[ej=O и <2>[e] = o2V, а V = diag (о^1,
W21, ..., чУп1) (w{ > 0). Найдем взвешенную оценку наименьших
квадратов для вектора р и дисперсию этой оценки.
Решение. В данном случае проще сразу продифференцировать
tj't], не прибегая к общей матричной теории. Поскольку V-x =
= diag(wit wit имеем
i
И
^> = -2£х/(Г/-х/р)^. (3.24)
Приравнивая правую часть (3.24) нулю, получаем
у w/Y [Xi
Коэффициент при 2р дает значение дисперсии
var [р*] = о2 т,-х'( 'j-1.
Это значение можно найти и непосредственно, учитывая, что
(X'V-1X)-i = (x'V-xx)-x = f2z0ixlV1.
3 Nt 571
66 Гл. 3. Линейная регрессия: оценивание и распределения
Поскольку обобщенная оценка наименьших квадратов является
обычной оценкой наименьших квадратов для преобразованной
модели, то естественно ожидать, что оценка р* имеет такие же
оптимальные свойства, как и р, а именно что а'р* является
наилучшей линейной несмещенной оценкой (НЛНО) для а'р.
Чтобы убедиться в этом, заметим прежде всего, что оценка а'р*
имеет вид
а'р* = а' (X'V-1X)~l X'V-!Y = b'Y,
т. е. является линейной несмещенной оценкой. Пусть bi'Y—какая-
нибудь другая линейная несмещенная оценка для а'р. Используя
преобразованную модель, получаем а'Р* = а'(В'В)-1 B'Z и b[Y =*
= b[KK-1Y= (K'bj)'Z. Применяя те же рассуждения, что и при
доказательстве теоремы 3.2 (§ 3.2), приходим к неравенству
var [а'р*] < var [(K'bJ' Z]= var [b(Y].
Равенство здесь достигается тогда и только тогда, когда (K'bf)'=
= а'(В'В)-1 В', т. е.
b; = a' (В'В)~* В'К-* = а' (X'V^X)"1 X'V"1 = b'.
Таким образом, а'р* является единственной НЛНО для а'р.
При рассмотрении оценки р* естественно возникает вопрос
о том, при каких условиях она совпадает с оценкой р =
= (X'X)~1X'Y. Иначе говоря, в каких случаях можно игнори-
ровать тот факт, что дисперсионная матрица [е] может быть
равной o2V, а не о21„? Ответ на этот вопрос дается следующей
теоремой (взятой с некоторыми изменениями из McElroy (1967)).
Теорема 3.6. Оценки р* и р совпадают в том и только том
случае, когда 5?[¥-1Х] = 5?[Х].
Доказательство. Оценки р* и Р совпадают тогда и только
тогда, когда для каждого Y выполнено соотношение
X'¥“lY = (X'V-‘X) (X'X)-i X'Y. (3.25)
Пусть Y = Yj + Y2—единственное представление вектора Y, в кото-
ром YjC^tX], a Y2j_54[X] (В1.1). Поскольку Yx £ 91 [X], имеем
Y, =Xa для некоторого а, так что Yx удовлетворяет соотношению
(3.25) для любой матрицы V-1. Далее, X'Y2 = 0, так что и Y2
удовлетворяет соотношению (3.25), если X'V“1Y2 = 0. Поэтому
соотношение (3.25) будет выполняться для каждого Y в том и
только в том случае, когда из Х'х = 0 вытекает, что Х'¥“1х = 0,
т. е. когда 3i[V_1X]c3i[X]. Поскольку же оба указанных про-
странства имеют одинаковую размерность (А2.2), это означает, что
5J[V-1X] = ^[X].
3.6. Обобщенный метод наименьших квадратов
67
Следствие 1- Оценки 0* и 0 совпадают тогда и только тогда,
когда
3?[¥Х] = 5?[Х]. (3.26)
Доказательство. Пусть 3?[¥-1Х] = 3?[Х]. Возьмем произволь-
ный вектор z£5Z[VX]. Тогда найдется такой вектор с, что z =
= ¥ХЬ = ¥ (¥-1Хс) = Хс £3? [X]. Таким образом, 91 [¥Х]сЗ?[Х],
и по той же причине, что и в теореме, 91 [¥Х] = 91 [X]. Обратно,
пусть выполняется последнее равенство. Возьмем произвольный
вектор z£9l[V-1X]. Тогда z = ¥~xXd = ¥~x(¥Xf) = Xf для соот-
ветствующим образом выбранных d и f, и 91 [¥-хХ]<=3?[X].
Отсюда опять 91 [¥-хХ] = 91 [X]. Таким образом, 3?[¥Х] = 3?[Х]
тогда и только тогда, когда 91 [¥-хХ] = 3? [X], и искомый резуль-
тат вытекает из доказанной теоремы. (Доказательство этого след-
ствия в общем виде см. в работе Kruskal (1968).)
Следствие 2. Если Y = x0 + e, то оценки 0* и 0 совпадают при
каждом х тогда и только тогда, когда матрица V имеет вид
¥ = cl„ [Watson (1967, с. 1685)].
Доказательство. Если Х = х, то 3?[Х] = {хс}, где с пробегает
все возможные значения. Используя следствие 1, видим, что соот-
ношение 91 [х] = 91 [Vx] выполняется для всех х тогда и только
тогда, когда ¥х = схк для каждого х. Полагая х = ос; (i= 1, 2, ..., п)
и х=1п соответственно, где In = («j, а2, ..., о„), находим, что
матрица V диагональна и сх — с. Таким образом, V = cl„ (А9.1).
Если первый столбец матрицы X состоит из единиц, т. е. равен
1„, и tr ¥ = по2, то в этом случае для совпадения 0* и 0 необхо-
димой достаточно, чтобы ¥ = (1—р) 1„+р1„1^, О^р < 1 [McErloy
(1967)].
Обсуждение рассмотренного вопроса можно найти также в
работах Bloomfield, Watson (1975) и Haberman (1975)х).
Упражнения 3f
1. Пусть У, = 0х(-Ц-е,- (1 = 1. 2), где щ ~N (0, <т2), е2 ~ N (0, 2а2), причем
Sj и е2 статистически независимы. Пусть х1 = -|-1 и х2 =—1. Найдите взве-
шенную оценку наименьших квадратов для 0 и ее дисперсию.
2. Пусть Yi (1=1, 2, ..., п) — независимые случайные величины с одина-
ковым средним 6 и дисперсиями о2/ш, (1=1, 2, ..., п). Найдите линейную
несмещенную оценку для 6, обладающую минимальной дисперсией. Укажите,
чему равна эта минимальная дисперсия.
3. Пусть Ylt Y2. ..., Yn—независимые случайные величины, причем
(16, 12о2) для 1 = 1, 2, ..., п. Найдите взвешенную оценку наименьших
квадратов для 6 и покажите, что ее дисперсия равна а2/п.
4. Пусть У1, У2, ..., Уп—случайные величины содинаковымцсредними6
х) См. также Mitra, Moore (1973*).—Прим. ред.
68
Гл. 3. Линейная регрессия: оценивание и распределения
и дисперсионной матрицей o2V, где с>й=1 (£==!, 2, ..л), о,/=р (0 < р < 1;
I, / = 1, 2, ..., п; i тй j). Найдите обобщенную оценку наименьших квадратов
для 6 и покажите, что она совпадает с оценкой наименьших квадратов, полу-
чаемой обычным образом. (Указание: матрица V-1 имеет ту же форму, что и
матрица V.) [McElroy (1967).]
5. Пусть Y ~ Nn (ХР, o2V), где X — матрица размера пХр ранга р, а V —
известная положительно определенная «X «-матрица. Докажите, что если 0*—
обобщенная оценка наименьших квадратов для 0, то
a) Q = (Y— Х0*)' V-i (Y— Хр*)/о2 ~ Х2_р;
b) Q является квадратичной неотрицательной несмещенной оценкой для
(л—р) о2 с минимальной дисперсией;
с) если Y*=X0* = PY, то матрица Р идемпотентна, но не обязательно сим-
метрична.
6. Пусть [Y] = 0, А0 = О и <Z>[Y]=o2V, где А —матрица размера qXn
ранга q, а V—известная положительно определенная лХл-матрица. Пусть 0* —
обобщенная оценка наименьших квадратов для 0, т. е. значение 0 = 0*, мини-
мизирующее величину (Y—0)'V-1(Y—0) при условии А0 = О. Покажите, что
Y—0*=VA'y*.
где у*—обобщенная оценка наименьших квадратов для у в модели £ [ Y] = VA'v,
g) [Y] =o2V. [Wedderburn (1974).]
J
3.7. Введение дополнительных регрессоров
3.7.1. Общая теория
Предположим, что уже после того, как подобрана модель рег-
рессии
<^[Y] = XP, ®[Y] = o2I„,
мы хотим Включить в нее дополнительные регрессоры х,, чтобы
модель с введением этих регрессоров приняла вид
G: <£ [Y] = Хр +ZV = (X, Z)(₽) = W6 (3.27)
(здесь мы обозйачили (X, Z) = W и (Р, у)' = 6), где X—матрица
размера пхр ранга р, L—матрица размера nxt ранга t и столбцы
матрицы Z линейно не зависят от столбцов матрицы X, т. е.
матрица W размера nx(i + p) имеет ранг t-\-p. Тогда имеются
две возможности отыскания оценки наименьших квадратов 6С век-
тора 6. Во-первых, можно найти оценку 60 и ее дисперсионную
матрицу непосредственно из соотношений
6G = (W'W)-1 W'Y, ®[fi0]=a«(W,W)-*.
Во-вторых, можно уменьшить количество необходимых выкладок,
используя те вычисления, которые были проведены в процессе
подбора модели. Соответствующие результаты приведены в тео-
реме 3.7. Геометрическое доказательство этой теоремы, допуска-
ющее неполноту ранга матрицы X, приведено в разд. 3.8.3.
3.7. Введение дополнительных регрессоров
69
Лемма- Если R = 1„—Х(Х'Х)-1Х', то матрица Z'RZ не вырож-
дена.
Доказательство. Пусть Z'RZa = O. Тогда по теореме 3.1 (i)
a'Z'R' RZa = a'Z'RZa = О,
т. е. RZa = 0. Поэтому Za = X(X'X)-1X'Za, т. е. имеет вид Za =
= Xb, откуда при сделанном предположении о линейной незави-
симости столбцов матрицы Z от столбцов матрицы X имеем а = 0.
Следовательно, столбцы матрицы Z'RZ линейно независимы, и эта
матрица является невырожденной.
Теорема 3.7. Пусть Rc = I„-W (W'W)-1 W', L = (X'X)-1 X'Z,
M = [Z'RZ]-1 и
Тогда
(i) pG=(X'x)-ix'(Y—zyG)=p—Lyo.
(ii) yG = (Z'RZ)-1 Z'RY.
(iii) Y'RGY = (Y-ZyG)'R(Y-ZvG).
(iv) Y'RGY= Y'RY—VoZ'RY.
(v)®[6o] = o2((X'X^XLML'’ “Г)- С3-28*
Доказательство, (i) Пусть Y = xp + Zy + e. Тогда
e'e = (Y—Xp—Zy)'(Y— Xp—Zy)
= Y'Y—2₽'X'Y —2y'Z'Y +2₽'X'Zt + P'X'XP +v'Z'Zy,
поскольку p'X'Zy = (P'X'Zy)' и т. д. Чтобы найти PG и у0, разо-
бьем систему нормальных уравнений де'е/д6 = 0 на две части и
решим отдельно уравнения дв'Е/др = 0 и дг'г/ду=0. Используя
А6, получаем следующие уравнения:
—2X'Y4-2X'ZvG-b2X'XpG = 0, (3.29)
—2Z'Y+2Z'XpG4-2Z'ZyG = 0. (3.30)
Из (3.29) вытекает, что
Р0=(Х'Х)-1Х'(Y—Z?G). (3.31)
(ii) Подставляя (3.31) в (3.30), получаем
Z'ZY"G = Z'Y —Z'X (X'X)-1 X' (Y —ZvG),
так что
Zf [1„—X (X'X)-* X'] Zyo=Z' [I„ -X (X'XHX'] Y.
70 Гл. 3. Линейная регрессия: оценивание и распределения
т. е. Z'RZYg = Z'RY. (3.32)
Отсюда Yg = (Z'RZ)-1 Z'R Y.
(iii) Имеем
Y —Xpo—ZYo= Y—X (X'X)-iX' (Y —ZYo)—ZYc
= (I„—X(X'X)-1X')(Y—ZYg)=R(Y—ZYo),
так что
Y'R0Y = (Y — W6G)'(Y —W6G)= (Y—X$G—ZYo)'(Y—Xpo—ZYo)
= (Y—ZYg)' R'R(Y—ZYg) = (Y-ZYo)' R(Y—ZYc). (3.33)
в силу симметричности и идемпотентности матрицы R (теорема
3-1 (<))•
(iv) Из (iii) имеем
Y'RgY = (Y-ZYo)' R(Y—ZYg)= Y'R Y —2YgZ'RY + Y^Z'RZYg
= Y'R Y —-fcZ'R Y -y'o(Z'R Y- Z'RZyG)Y'R Y -ybZ'RY
(в последнем равенстве мы использовали (3.32)).
(v) Прежде всего
= (Z'RZ)-1 Z'R®[Y]RZ(Z'RZ)-1
= o2 (Z'RZ)-1 (Z'RZ) (Z'RZ)-1 = o2 (Z'RZ)-1 = o2M.
Далее, в силу теоремы 1.4
£[Р. TC] = ^[(X'X)-1X'Y, (Z'RZ)-1 Z'RY]
= o2(X'X)-1X'RZ(Z'RZ)"1 = 0, ' '
поскольку X'R = 0 (теорема 3.1 (iii)). Поэтому, используя n. (i),
в соответствии с теоремами 1.5 и 1.4 имеем
[₽с> Тс] — % [Р — LyG, yG]
= *НР> Tc]-L£>[yg]==-o2LM
(последнее—в силу (3.34)) и
®[PcJ = ®[P-L^o] = S>[P]-2^[p, LYg] +®[Ly0]
= S> [P]-2^ [₽, Yg] L' + LfZ> [Yg] L'
= o2[(X'X)-1 + LML']
(здесь мы опять использовали (3.34)).
Из доказанной теоремы вытекает, что, обратив однажды (при
подборе первоначальной модели) матрицу Х'Х, можно найти оцен-
ку 6G (в расширенной модели) и ее дисперсионную матрицу, обра-
щая только матрицу Z'RZ размера /xt При таком подходе уже
3.7. Введение дополнительных регрессоров
71
не требуется обращать матрицу W'W размера (t +р)Х (t + р).
Ниже рассматривается случай /=1.
3.7.2. Одна дополнительная переменная
Обозначим столбцы матрицы X символами Ху (J = 0, 1, 2, ...
..., р—1), так что
<£[Y] = (Xo. ....*F-i)₽ = *e₽o + xi₽i + --- + xF-i₽F-i-
Предположим теперь, что мы намерены включить в подобранную
модель еще один регрессор, скажем хр, так что в результате полу-
чится (в указанных выше обозначениях) модель с ZY = x/J[3/J. В со-
ответствии с теоремой 3.7 оценки наименьших квадратов для этой
расширенной модели вычисляются без затруднений, поскольку на
сей раз матрица Z'RZ, равная XpRx^,, состоит всего лишь из одного
элемента, т. е. является скалярной величиной. Поэтому
о = То = (Z'RZ)-1 Z'R Y = ,
(XpRxp
Ро = (₽о, о..₽F-i. о)' =₽-(Х'Х)-1Х'хХ. G, (3.35)
Y'RCY = Y'R Y -gx'pRY,
и матрица £2)[6О] легко находится с использованием матрицы
(Х'Х)-1. Простота, с которой производится „коррекция" оценок
при переходе к модели с одной дополнительной переменной, на-
водит на мысль, что при необходимости включения в модель боль-
шего числа дополнительных переменных следует включать их в
модель поочередно. Мы обратимся к такой ступенчатой процеду-
ре в гл. 12.
Указанный метод включения одной дополнительной переменной
впервые подробно рассмотрел Cochran (1938); на случай несколь-
ких переменных его обобщил Quenouille (1950).
3.7.3. Двухшаговый метод наименьших квадратов
Утверждения, содержащиеся в теореме 3.7, предполагают сле-
дующую последовательность шагов при намерении „расширить"
матрицу плана:
(1) Вычисляем J = Q['X)-lX'Y и Y'RY = Y'Y —₽'X'Y.
(2) Для получения Yo вектор Y заменяем в квадратичной
форме Y'RY на Y—Zy и минимизируем соответствующую форму
по отношению к у. После выполнения указанной подстановки
приходим к квадратичной форме
r = (Y —Zy)'R(Y—Zv)= Y'RY—2/Z'RY + v'Z'RZy.
Приравнивая производную дг/ду нулю, получаем
— 2Z' R Y -h 2Z'RZy = 0, (3.36)
72 Гл. 3. Линейная регрессия: оценивание и распределения
откуда находим искомую оценку наименьших квадратов для
yG = (Z'RZ)*1 Z'RY.
(3) Остаточную сумму квадратов Y'RGY для расширенной
модели находим как минимальное значение квадратичной формы г,
по теореме 3.7 (iii) равное (Y—ZyG)'R (Y —Zyo).
(4) Для получения рс заменяем Y на Y—ZyG в выражении
для р, т. е.
fo = (X'X)-iX'(Y-Zyo).
(5) Коэффициент при 2у в уравнении дг/ду = О (соотношение
(3.36)), равный Z'RZ, дает возможность легко вычислить диспер-
сионную матрицу S) [Yc] = o2(Z'RZ)-\
Мы называем приведенную процедуру двухшаговым, методом,
наименьших квадратов. Этод метод широко используется в гл. 10
при рассмотрении моделей дисперсионного анализа.
Интересно отметить, что указанный двухшаговый метод наи-
меньших квадратов для подбора расширенной модели эквивален-
тен подбору „ортогонализованной" модели <£[Y] = [X, RZ] к, име-
ющей ортогональную структуру, описанную в § 3-5 (поскольку
X'R = 0). Чтобы убедиться в этом, используем теорему 3.7 (i) и
получим
Yo = W6G = XpG + ZyG = X (0—(Х'Х)*1 X'ZVg) + ZyG = Хр + RZVg
(3.37)
или (обозначив (Р, ус)' = ХО)
Yg=(X, RZ)1g. (3.38)
Здесь уо—решение уравнения Z'RZy = Z'RY, т. е. уравнения
(RZ)' (RZ) у — (RZ)' Y (матрица R симметрична и идемпотентна), так
что 1G является оценкой наименьших квадратов для 1. Эта идея
снова появляется в разд. 3.8.3 (формула (3.53)).
3.7.4. Остатки в двухшаговой процедуре
Остатки для расширенной модели имеют (с учетом (3.37)) вид
Ro Y = Y — W6G = Y —Хр — RZVg = R Y — RZyG
= R (RY —ZyG) = R (R Y —Z (Z'RZ)*1 Z'RY)
= RSRY, (3.39)
где S = lf—Z(Z'RZ)*1Z'.
Проведенные только что преобразования лежат в основе рекур-
рентного алгоритма для подбора моделей дисперсионного анализа
3.7. Введение дополнительных регрессоров 73
регрессионный методами. Этот алгоритм разработал Wilkinson G. N.
(1970) (см. также James, Wilkinson (1971), Rogers, Wilkinson
(1974); Pearce и др. (1974)). Основные этапы алгоритма таковы:
(1) Вычисление остатков RY.
(2) Использование оператора S, который Уилкинсон называет
„выметающим** (не смешивать с методом „выметания** в разд. 12.2.2),
для получения вектора „кажущихся остатков** RY—Zyo = SRY.
(3) Повторное применение оператора R с целью получения
значений истинных остатков RSRY.
Если столбцы матрицы Z ортогональны столбцам матрицы X,
то тогда RZ = Z, RSR = SR (в силу (3.39)), и этап (3) оказыва-
ется ненужным. В дальнейшем мы увидим (разд. 3.8.3), что рас-
смотренную процедуру можно использовать и в том случае, когда
матрица X имеет неполный ранг.
Полагая, что матрица X образована первыми k столбцами
некоторой исходной Матрицы X, а матрица Z — (k 4-1 )-м столбцом
исходной матрицы (k=\, 2, .... р—I), указанный алгоритм
можно использовать для такого подбора регрессии, при котором
подбор производится поочередно для каждого столбца исходной
матрицы. Такая ступенчатая процедура вполне уместна при пла-
нировании эксперимента, поскольку в этом случае столбцы исход-
ной матрицы X соответствуют различным компонентам модели,
таким, как общее среднее значение, главные эффекты, блочные
эффекты, взаимодействия, причем обычно некоторые из ее столб-
цов бывают ортогональными. Кроме того, элементы матрицы плана
равны 0 или 1, так что для многих стандартных планов вымета-
ющий оператор S сводится к простой операции вычитания сред-
них или некоторого кратного средних из остатков.
Упражнения 3g
1. Докажите, что
Y'RY —Y'RGY =o«yg (S> [YgD^Vo-
2. Пусть Ро=[(₽о, /)] и 0=[(&)J- Докажите, что
var [₽Oi J^varlPz).
3. Пусть случайные величины Kf, Y2, ..., Yn независимы и каждая из
них имеет распределение N (6, а2). Найдите оценку наименьших квадратов для
параметра 0. Используйте двухшагов^ю процедуру наименьших квадратов для
отыскания оценок наименьших квадратов и остаточной суммы квадратов в рас-
ширенной модели
kz=6 + yx/-f-eI- (i=l, 2..и),
где е(-—независимые случайные величины с распределением N (0, о2).
74 Гл. 3. Линейная регрессия: оценивание и распределения
3.8. Случай, когда матрица плана имеет неполный ранг
3.8.1. Оценивание по методу наименьших квадратов
Когда методы регрессионного анализа используются для ана-
лиза данных, полученных в результате осуществления тех или
иных планов эксперимента (гл. 10), то элементы матрицы X ока-
зываются равными 0 или 1, а ее столбцы, как правило, линейно
зависимы. Рассмотрим, например, план с рандомизированными
блоками х)
— И + ai + Ту + eij (1• — 1, 2, ..., /; / — 1, 2, ... J),
где представляет собой отклик на i-e воздействие в j-м блоке.
В этом случае
Гц
Г,2
X,
Г21
Гй
rv
Хп
1 о
0 1
1
1
1 о
1 о
о
. о
о
о
1 1 0 • • 0 0 0 • 1
1 0 1 • • 0 1 0 • 0
1 .01 • • 0 0 1 • 0
1 0 1 •• - 0 0 0 •• 1
1 0 0 • • 1 10 • 0
1 0 0 1 0 1 • 0
1 00 1 00 1
(
«11
«12
«V
«21
«22
«27
(3.40)
Xi
т. е. Y = Xp + e, и у матрицы X, например, первый столбец линей-
но зависит от остальных ее столбцов.
В § 3.1 мы построили теорию наименьших квадратов, которая
применима независимо от того, имеет матрица X полный ранг
или нет. В приводимой ниже теореме мы формулируем соответст-
вующие результаты для случая, когда матрица X имеет неполный
ранг.
Теорема 3.8. Пусть Y = 0-f-e, где 0 = Xf и X—матрица раз-
мера пхр ранга г (г < р). Тогда
(i) величина е'е достигает минимума относительно 0£5ЦХ]
«) План с рандомизированными блоками, широко используемый в этой книге
(и в приложениях), состоит в случайном размещении в каждом блоке / спосо-
бов обработки между / объектами. Обсуждение целесообразности рандомизации
можно найти, например, в книге Кендалла и Стьюарта (Кендалл М., Стьюарт А.
Многомерный статистический анализ и временные ряды. Перев. с англ. —М.:
Наука, 1976). — Прим. ред.
3.8. Случай, когда матрица плана имеет неполный ранг
75
при Р = р. где Р — любое из решений нормальных уравнений
X'XP = X'Y;
(ii) для каждого ненулевого вектора Y значение Y'Y—pX'Y
единственно.
Доказательство, (i) Нормальные уравнения всегда разрешимы
относительно р, поскольку SJ[X'] = 3£[X'X] (Д2.5). Однако реше-
ние в данном случае не будет единственным, так как матрица
Х'Х имеет ранг г и, следовательно, вырождена. Если Р—произ-
вольное решение нормальных уравнений, то полагая 0 = Хр, полу-
чаем соотношение X' (Y —0) = О. Поэтому в силу соотношения (3.4)
из § 3.1 0 является единственной ортогональной проекцией век-
тора Y на Й, и минимальное значение величины е'е есть RSS =
= П-0|Г
(ii) Из соотношения 0'(Y—0) = О имеем
Y'Y— P'X'Y — Y'Y— 0'Y = (Y — 0)'(Y —0) = RSS,
а это значение единственно, в
Из замечаний, следующих за теоремой 3.1, вытекает, что
0 = PY, где Р—симметричная идемпотентная матрица ранга г.
Поэтому, повторяя доказательство теоремы 3.3, § 3.3, получаем,
что величина RSS=Y'(I.—Р) Y является несмещенной оценкой
для (и — г) о2. Если , при этом Y — нормальный вектор, то, как
следует из теоремы 3.5 (iv) § 3.4, RSS/o2~
Отметим, что р следует рассматривать здесь как решение нор-
мальных уравнений, а не как оценку вектора р. Интуитивно ясно,
что если матрица X имеет неполный ранг, то значение вектора р
оценить попросту невозможно, так как для заданного 0£5?[Х]
представление 0=Хр уже не будет единственным. Тем не менее,
как мы увидим в разд. 3.8.2, линейные комбинации а'Р подда-
ются оцениванию даже и в этом случае.
Рассмотрим теперь три метода отыскания решения р нормаль-
ных уравнений или непосредственного отыскания RSS.
(а) Приведение исходной модели к модели полного ранга
Очевидный метод отыскания RSS состоит в приведении исход-
ной модели регрессии к модели полного ранга. Если Хг —матри-
ца размера пХг, образованная линейно независимыми столбцами
матрицы X, то P=Xt (Xi'X1)~1XJ и
RSS= Y'Y—0'Y= Y'Y—cc'XIY,
где a = (X(X1)-lX;Y.
Без ограничения общности мы можем предполагать, что ма-
трица Xj образована первыми г столбцами матрицы X, так что
76 Гл. 3. Линейная регрессия: оценивание и распределения
Х = (Х1, Х2). При этом X2 = X1F, поскольку столбцы матрицы Х2
линейно зависят от столбцов матрицы ХП и X = XJ(I/., F). Это
частный случай более общей факторизации
X=KL, (3.41)
где К—матрица размера пхг ранга г, a L—матрица размера
гхр ранга г. Используя эту факторизацию, хр можно запи-
сать в виде XP=KLP = Ka и работать уже с вектором а.
Такая перепараметризация исходной модели служит основой
программы ANOVA, служащей для вычислений, связанных с дис-
персионным анализом [Воск (1963, 1965)]. Эту перепараметриза-
цию использовал также Fowlkes (1969) (соответствующая про-
грамма в его статье носит название CODE). Bock одним из пер-
вых стал применять регрессионные методы для дисперсионного
анализа с использованием мощных вычислительных машин.
Другие преимущества перепараметризации продемонстрированы
в работе Johnson (1971).
(b) Введение идентифицирующих ограничений
Этот метод заключается в введении совокупности ограниче-
ний вида Н₽ = 0, которая позволяет избежать неопределенности
при отыскании решения нормальных уравнений. Мы, в частно-
сти, требуем выполнения таких ограничений (называемых здесь
идентифицирующими ограничениями), чтобы для каждого 0 [X]
существовало единственное значение 0, для которого одновременно
0 = ХР и 0=Н₽, т. е.
/X \
o) = (h)₽=g₽- (3-42)
Решается эта задача просто. Выберем в качестве строк матрицы
Н какую-нибудь совокупность р— г линейно независимых pxl-
векторов, не зависящих линейно от строк матрицы X. Тогда
(п-\-р—г) X р-матрица G имеет ранг р, так что матрица G'G =
=Х'Х + Н'Н имеет размер рхр и ранг р (А2.4), а потому обра-
тима. Таким образом, введением Н'Н мы компенсировали непол-
ноту ранга матрицы Х'Х. Добавление к нормальным уравнениям
уравнения Н'НР = 0 приводит к соотношению G'Gp = X'Y, откуда
f} = (G'G)_JX'Y. Заметим, что соотношение 0 = xp = PY влечет
за собой P=X(G'G)-1X' (так как матрица Р единственна).
Дадим теперь доказательства приведенных утверждений. Чи-
татель может при первом чтении опустить детали.
Теорема 3.9. (Scheffe (1959, с. 17).) Если Н—матрица раз-
мера sxp, то ограничения нр=о являются идентифицирующими
ограничениями тогда и только тогда, когда
(1) 91 [X'] Г) 31 [Н'] — 0 (т. е. строки матрицы X линейно не за-
висят от строк матрицы Н) и
3.8. Случай, когда матрица плана имеет неполный ранг
77
(ii) столбцы матрицы G линейно независимы.
Доказательство. Покажем, что условие (i) необходимо и до-
статочно для существования 0, удовлетворяющего соотношению
(3.42) при каждом 0£5£[Х], и что условие (ii) необходимо и
достаточно для единственности такого 0.
Обращаясь к условию (i), видим, что указанное 0 существует
тогда и только тогда, когда
(0\
ojC.5$(G) для каждого 0£5?[Х].
Это равносильно тому, что каждый вектор, ортогональный 91 [G],
ортогонален и ф при каждом 0£5?[Х]. Пусть u' = (u*, и') —
произвольный вектор размерности s-j-n. Тогда справедливы сле-
дующие эквивалентные утверждения. Из соотношения G'u = 0
вытекает, что ф'и = 0 для каждого 0£5i[X]. Из соотношения
X'lix + H ur=0 вытекает, что 0'их = О для каждого 0 £SJ[X].
Из соотношения X'ux4-H'ur=0 вытекает, что X'ux = 0 (а потому
и H'ur=0). Таким образом, соответствующее 0 существует в том
и только том случае, когда не существует такой нетривиальной
(отличной от нуля) линейной комбинации строк матрицы X, ко-
торая являлась бы линейной комбинацией строк мадрицы Н,
т. е. тогда и только тогда, когда 5?[Х']П5?[Н'] = 0.
Обратимся теперь к условию (ii). Предположим, что для каж-
дого Ф существует 0, удовлетворяющее соотношению <f> = G0.
Тогда для единственности этого 0 необходимо и достаточно, чтобы
столбцы матрицы G были линейно независимыми. (Если столбцы
матрицы G связаны линейной зависимостью, то Gy = 0 для неко-
торого у =/= 0, ф = О(0—у), так что соотношению Gz=4 удовлет-
воряют и 0, и 0—у.)
Следствие. Из доказанной теоремы видно, что если X—мат-
рица размера ихр ранга г, а Н—матрица размера sxp, то усло-
вия (i) и (ii) в совокупности равносильны условиям: (1) rank G=p
и (2) rank Н = р—г (поскольку в силу (i) р независимых строк
матрицы G должны быть образованы г строками матрицы X и
р—г строками матрицы Н). Если в системе уравнений Н0 = О
нет дублирующих друг друга уравнений, т. е. если строки
матрицы Н линейно независимы,то s~p—г.
Если 0 С 91 [X], то в силу доказанной теоремы при надлежа-
щим образом выбранной матрице Н существует единственное 0,
удовлетворяющее (3.42), т. е. Н0 = О и 0=Х$ (или из (3.4)
X'X0 = X'Y). Поэтому 0 = (G'G)-XX'Y, как и утверждалось выше.
Интересно отметить, что при условии Н0 = О
<£ [0] = (G'G)“iX'X0==(G'G)“1 (Х'Х + Н'Н) 0 = 0,
78
Гл. 3. Линейная регрессия: оценивание и распределения
так что р является несмещенной оценкой для р. Кроме того,
если мы минимизируем величину || Y—Хр||2 при условии Нр=О,
то из уравнения (3.57), разд. 3.9.1, видно, что слагаемое Н'1,
содержащее множитель Лагранжа, обращается в нуль. Поэтому,
если s = p—г, так что столбцы матрицы Н'линейно независимы,
то 1=0.
Рассмотренный метод, использующий идентифицирующие огра-
ничения, особенно употребителен в моделях дисперсионного анализа
(гл. 9), поскольку матрица Н для них находится без труда.
Весьма полезными теоретическими свойствами этого метода яв-
ляются несмещенность р и равенство 1 = 0. В разд. 11.5.4 при-
веден алгоритм для проведения необходимых, вычислений.
(с) Вычисление обобщенной обратной матрицы
Если С—произвольная обобщенная обратная матрица для
матрицы (Х'Х), то P = CX'Y является решением нормальных
уравнений и Р = ХСХ'.
Обобщенная обратная матрица для произвольной шхп-мат-
рицы В определяется как любая матрица В-, удовлетворяющая
условию /
(а) ВВ~В=В.
Такая матрица существует всегда (Searle (1971, гл. 1)). Термин
„обобщенная обратная" для матрицы В-, определяемой условием
(а), не является общеупотребительным, хотя и используется весьма
широко [см., например, Rao (1973), Rao, Mitra (1971а, 1971b),
Pringle, Rayner (1971), Searle (1971), Kruskal (1975)]. В литера-
туре матрицу В" называют также условно обратной, псевдообратной,
g-обратной и р-обратной, причем эти же названия иногда упот-
ребляются и для различных вариантов матрицы В~. Так, напри-
мер, Graybill (1969) называет матрицу В~ условно обратной
(conditional inverse), а обобщенной обратной называет матрицу
В+, определяемую ниже.
Следует отметить, что матрица В", определяемая условием (а),
не единственна. Переходя в (а) к транспонированным матрицам,
имеем
В'(В-)'В = В', (3.43)
так что (В~)—обобщенная обратная матрица для В'. Поэтому
для некоторой матрицы (В')~ можно утверждать, что
(В-)' = (В')~. (3.44)
Если матрица В~ удовлетворяет, кроме (а), еще трем усло-
виям, а именно:
(Ь) В ВВ = В-;
(с) (ВВ~)' = ВВ-;
(d) (В-В)'= В-В,
3.8. Случай, когда матрица плана имеет неполный ранг
79
и
в
в
то она единственна и называется обратной матрицей Мура — Пен-
роуза [Albert (1972)]. Некоторые авторы называют ее псевдо-
обратной или р-обратной. Такую матрицу будем обозначать сим-
волом В+.
Полагая теперь В = Х'Х и c = X'Y, мы получаем
с = Вр = ВВ"Вр = В (В-с), (3.45)
В~с является решением уравнения ВР = с. (В действительности
силу А8 каждое решение уравнения Вр = с можно представить
виде В~с для некоторой матрицы В-.) Существует несколько
способов вычисления матрицы В~ для симметричной матрицы
В = Х'Х. Один из них состоит в следующем.
(1) Из матрицы В = Х'Х выбрасывают р — г строк и столько
же столбцов с соответствующими номерами и получают невырож-
денную матрицу размера гХг. Это всегда можно сделать, по-
скольку rank [Х'Х] = rank Х = г.
(2) Обращают полученную гХг-матрицу.
(3) Получают матрицу В~ путем добавления к обращенной
rxr-матрице нулевых строк и столбцов, располагая их на
удаленных из матрицы В строк и столбцов. Например,
/Вц В12\
в==кв21 B2J
и BXi—невырожденная матрица размера гХг, то
месте
если
иден-
Другой метод отыскания В- состоит в использовании
тифицирующих ограничений. Если ограничения Н0 = О доста-
точны для идентификации и s = p—г, то можно показать (см.
упр. 7 и 8 из упражнений 3h), что матрицы Си в представлении
/Х'Х Н
(Н О
С12
с22=о
'll
'21
и (G'G)-X = (X'X + H'H)-1 также будут обобщенными обратными
для матрицы В.
Мы видели выше, что вектор
P = B-c = (X'X)-X'Y = X*Y
является решением нормальных уравнений. Поскольку (в силу
условий (с) и (а))
(Х+)' Х'Х = (ХХ+)' X = ХХ+Х = X,
можно умножить обе части равенства (Х'Х) (Х'Х)-(Х'Х) = Х'Х
слева на (Х+)' и получить соотношение
Х[(Х'Х)- Х']Х = Х.
(3.46)
(3.47)
80 Гл. 3. Линейная регрессия: оценивание и распределения
Таким образом, матрица Х* = (Х'Х)-X'—обобщенная обратная
для X в силу условия (а). Используя аналогичные соображения,
мы найдем, что то же верно в силу условий (Ь) и (с). Оказывается,
что матрица, являющаяся обобщенной обратной для X удовлет-
воряет условиям (а), (Ь) и (с) тогда и только тогда, когда ее
можно представить в виде (Х'Х)-X' (Pringle, Rayner (1971,
с. 26)). В то же время любая матрица X-, удовлетворяющая
только условиям (а) и (с), приводит к следующему соотношению
(второе равенство —следствие (с), а последнее получается из
транспонирования условия (а)):
Х'Х (X- Y) = X' (XX-) Y = X' (XX-)' Y = X' (X-)' X'Y = X'Y,
так что X~Y является решением нормальных уравнений. В част-
ности, X+Y—единственное решение нормальных уравнений, ми-
нимизирующее р'р (Peters, Wilkinson (1970)). Численные методы
отыскания матриц (Х'Х)-, X* и Х+ описаны в гл. 11. (разд.
11.5.1, 11.5.3 и 11.5.5 соответственно).
Заметим, наконец, что 0 = X0 = X (Х'Х)“ X'Y, так что в силу
В1.8 Р=Х(Х'Х)~Х'—единственная матрица, проектирующая Еп
на Й. Единственность, симметричность и идемпотентность матри-
цы Р можно доказать и непосредственно, как в у пр. 6. из
упражнений 3h.
Упражнения 3h
1. Пусть P/(i=l, 2)—два произвольных решения нормальных уравнений.
’Покажите непосредственно, что
II Y-X₽t ||2=|| V —Х02||2.
2. Докажите, что если столбцы матрицы X линейно зависимы, то не су-
ществует матрицы С, для которой CV — несмещенная оценка для 0.
3. Докажите, что для выполнимости факторизации (3.41) необходимо и
достаточно, чтобы
rank (X)=rank L=rankX.
4. Пусть ВВ-=Р. Докажите, что
а) Р2 = Р;
Ь) РВ = В и rankB = trP.
(Rao (1973, с. 25).]
5. Докажите следующие утверждения:
а) из В'В = 0 вытекает, что В=0;
Ь) из.ЬВ'В = МВ'В вытекает, что LB' = MB'.
(Указание: покажите, что (LB'B—MB'B)(L—M)' = (LB'—MB')(LB'—MB')'.)
[Searle (1971, c. 16).]
6. Пусть матрица С является обобщенной обратной для Х'Х. Докажите
следующее:
а) матрица С также является обобщенной обратной для Х'Х;
Ь) существует симметричная обобщенная обратная матрица для Х'Х}
3.8. Случай, когда матрица плана имеет неполный ранг
81
с) матрица СХ' является обобщенной обратной для X;
d) матрица ХСХ' инвариантна относительно С;
е) матрица ХСХ' симметрична и идемпотентна,
f) 5? [XCX']=S4[X],
(Указание', утверждения (с) и (d) следуют из упр. 5, утверждение (е) — из
(а) и (d); Для доказательства (f) используйте равенство (I—ХСХ')Х=Ои по-
кажите, что 91 (X] С 91 [ХСХ'].) (Searle (1971, с. 20).)
7. Пусть Н—матрица размера (р—г)Хр ранга р—г, удовлетворяю-
щая условиям теоремы 3.9, т. е. 91 [H'j f]9l [Х']=0.
а) Рассматривая соотношение G'G (G'G)-1 Н' = Н', покажите, что
(1) Н (G'G)-i X' =0;
(2)
Ь) Покажите, что (G'G)-i—обобщенная обратная матрица для Х'Х.
8. Докажите, что обратная матрица в левой части формулы (3.46) суще-
ствует, и выведите отсюда, что матрица Си—обобщенная обратная для Х'Х.
(Указание: обозначьте левую часть (3.46) через А-1 и, используя теорему 3.9,
покажите, что из Аа=0 следует а =0; затем рассмотрите уравнения АА~1 = 1
и покажите, что С22 — 0.)
3.8.2. Оцениваемые функции (функции, допускающие оценку)
Установив, что нормальные уравнения можно использовать
для отыскания остаточной суммы квадратов и в случае неполноты
ранга матрицы плана, обратимся теперь к задаче оценивания
линейных комбинаций вида а'р при неполноте ранга матрицы X.
Определение. Говорят^ что функция а'Р от параметра р
оцениваема, если для нее. существует линейная несмещенная оценка
вида b'Y.
Если функция а'Р оцениваема, то a'P = E[b'Y]==b'XP есть
тождество относительно р, так что имеем а' = Ь'Х, или а = Х'Ь
(А9.1). Поэтому функция а'Р оцениваема тогда и только тогда,
когда а £51 [Xх] (5?[X']=5i[X'X] в силу А2.5). Применяя тео-
рему 3.2 из § 3.2 к случаю, когда X имеет неполный ранг, по-
лучаем, что функция а'Р оцениваема.
Теорема 3.12. Если функция а'Р оцениваема и р—произволь-
ное решение нормальных уравнений, то
(i ) оценка а'Р единственна;
(ii ) а'Р является НЛНО для а'р.
Доказательство. Если функция а'р оцениваема, то а'Р =
= Ь'ХР = Ь'0 и а'р = Ь'0. Но правая часть последнего равен-
ства определена однозначно, так как 0 является единственной
проекцией Y на £2. Кроме того, по теореме 3.2 Ь'0 является
НЛНО для Ь'0.
Критерий Для проверки оцениваемости приведен в упражне-
ниях 31 (см. упр. 6). Именно, функция а'р оцениваема в том
82
Г л. 3. Линейная регрессия: оценивание и распределения
и только том случае, когда
a' (Х'Х)- Х'Х = а'.
Процедура вычислений для такой проверки описана в разд.
„Упражнения к гл. 11“ (упр. 11).
Предположим теперь, что матрица Х'Х имеет положительные
собственные значения Х2, .... (необязательно различные),
и пусть а±, а2, ...,аг—соответствующие им ортойормированные
собственные векторы (А2.7), т. е. X'Xal = Xiar(i= 1, 2, ..., г)
и ajay = 6l7. Если функция а'р оцениваема, то а £ 5? [Х'Х], и
поскольку 5i|X'X] является пространством, натянутым на эти
собственные векторы, то вектор а можно представить в виде
а= У сл. (3.48)
1=1
Отсюда [Silvey (1969)]
var[a'P] = var ^c,.a<pj = var [a$] = o2 У c2V, (3.49)
поскольку
cov [a$, oc'P] = cov [oc^X'Xp, aJX'Xp]
— (X,.X.y)~l cov [a^X'Y, aj-X'Y]
— (X/X/)-1o2ajX'Xay
= (%/A,/)-1 o2Xya^a/ = o26,./Xf1. (3.50)
Silvey (1969) заключает из (3.49), что относительно точное
оценивание возможно только в направлении тех собственных векто-
ров матрицы Х'Х, которые соответствуют большим собственным
значениям. В направлении же тех собственных векторов, которые
соответствуют малым собственным значениям, оценивание оказы-
вается довольно неточным.
Предположим, что матрица X имеет полный ранг, но ее столбцы
„почти" линейно зависимы. Тогда матрица Х'Х близка к вырож-
денной, одно или более ее собственных значений очень малы и
оценивание в соответствующих направлениях оказывается весьма
неточным. Если рассмотреть какой-нибудь предельный переход,
в котором матрица Х'Х приближается к вырожденной, то оцени-
вание в этих направлениях становится в процессе такого пере-
хода все более и более неточным и в пределе оказывается вовсе
невозможным в направлении тех собственных векторов, которые
соответствуют нулевым собственным значениям. При этом оцени-
ваемые функции имеют представление (3.48).
Наличие линейных связей между регрессорами или наличие
связей, „близких" к линейным, в эконометрических исследованиях
Описывается термином мультиколлинеарность. Крайней формой
3.8. Случай, когда матрица плана имеет неполный ранг
83
мультиколлинеарности является случай, когда матрица X имеет
неполный ранг. Silvey (1969) показывает, что влияние мультиколли-
неарности можно уменьшить (или даже совсем исключить), про-
изводя дополнительные наблюдения в направлении тех собственных
векторов, которые соответствуют малым (или нулевым) собствен-
ным значениям (см. упр. 8 ниже). Вопрос о выборе направления,
в котором следует производить дополнительные наблюдения
с целью повышения точности оценивания некоторой линейной
комбинации а'р, также подробно обсуждается в работе Silvey
(1969).
В заключение упомянем статью Webster и др. (1974), в ко-
торой регрессионный анализ основывается на вычислении собст-
венных значений некоторых матриц.
Упражнения 3i
1. Докажите, что все линейные функции а'0 оцениваемы тогда и только
тогда, когда столбцы матрицы X линейно независимы.
2. Докажите, что a'<£J [01—оцениваемая функция параметра а'0.
3. Покажите, что если оцениваемы линейные комбинации ai0, аг0,..,
..., а*0, то оцениваема и любая линейная комбинация а'0.
4. Пусть 0—произвольное решение нормальных уравнений. Покажите,
что его можно представить в виде 0 = Ь-|-с, где b—однозначно определенный
вектор из 5?[Х'], ас_]_54[Х']. Докажите единственность оценки Y=X0.
Выведите отсюда п. (i) теоремы 3.12.
5. Докажите теорему, обратную теореме 3.12 (i): если оценка а'0 инва-
риантна относительно 0, то функция а'0 оцениваема.
6. Докажите, что функция а'0 оцениваема тогда и только тогда, когда
а' (Х'Х)" Х'Х=а'.
7. Докажите, что если функция а'0 оцениваема, то
® [а'р] = о2а' (Х'Х)- а.
8. Предположим, что к модели Y = X0-(-e добавляется новое наблюдение,
так что получается модель
где хп+1=с«, а а—единичный собственный вектор матрицы Х'Х, которому
соответствует некоторое собственное значение X. Покажите, что а является
собственным вектором матрицы Х,Х,, соответствующим собственному значению
X-J-c2. [Silvey (1969, с. 544).]
3.8.3. Введение дополнительных регрессоров
Рассмотрим расширенную модель G, приведенную в разд. 3.7.1,
но только с одним отличием: матрица X имеет теперь ранг
84
Гл. 3. Линейная регрессия: оценивание и распределения
г (r < Р) > и поскольку столбцы матрицы Z линейно независимы
и 5? [X] р 3? [Z] = 0, то W является п х (/ + р)-матрицей ранга
t + r. Если Р—единственная идемпотентная матрица, проектирую-
щая Еп на 5? [X] (В1.2), и R = I„—Р, то матрица Z'RZ остается
невырожденной (см. упр. 1 из упражнений 3j). Кроме того, оста-
ются справедливыми утверждения (ii), (iii) и (iv) теоремы 3.7.
Нам представляется полезным наметить соответствующие доказа-
тельства.
Доказательство (а). Модель G можно редуцировать к модели
полного ранга, а именно к модели ^>[Y] = X1a-|-Z,y, где Xj—ма-
трица размера пхг ранга г. Поскольку матрица R единственна,
то R = I„—Х1(Х(Х1)~1Хь и, повторяя этапы доказательства тео-
ремы 3.7 с заменой X на Xj и р на а, получаем
$g = (Z'.RZ)-*Z'RY,
RSS0 =(Y-X1ao-Zvo)' (Y-X,ao-Z$o)
= (Y-Z^)'R(Y-Zyc)
и
RSSO = RSS — TfiZ'RY. (З.Б1)
• Если нормальные уравнения (3.29) переписать в виде.
X'X0o = X'(Y-Ztc), (3.52)
то видно, что произвольные их решения 0С можно получать заме-
ной Y на Y—Z-yc в решениях 0 уравнения Х'Х0 —X'Y. Поэтому
двухшаговая процедура наименьших квадратов, описанная в разд.
3.7.3, применима, даже если матрица X имеет неполный ранг.
Доказательство (Ь). Пусть 0c = PcY, где Рс—ортогональный
проектор на 3i[W]. При этом
#[W] = #[X, Z] = 3i[X, RZ], (3.53)
поскольку Z = PZ 4- RZ и 91 [PZ] a: 91 [P] = 91 [X]. Далее,
(Y—0g)_L^[W], так что
X'(Y-0o) = O (3,54)
и
Z'R(Y— 0C) = O. (3.55)
Из (3.55) получаем теперь
Z'RY = Z'R6O=Z'R (X0o4-Z7o) = Z'RZvc,
и TO = (Z'RZ)-XZ,RY. Кроме того, из (3.54) имеем
X'X0o = X'(0o—Zyo)==X' (Y—Zy0).
3.9. Оценивание при наличии линейных ограничений 85
Наконец, снова используя (3.54), получаем
Y —0О = R (Y—0С) = R (Y —Хро—Z?o) = R (Y-Z?c)
и
RSSg = (Y - eG)' (Y — eG) = (Y -Z?o)' R (Y -Z?g).
Доказательство (с). Все этапы доказательства n. (i)—(iv) тео-
ремы 3.7 и теория разд. 3.7.3 и 3.7.4 остаются в силе, если обрат-
ные матрицы заменить обобщенными обратными. Этот метод имеет
некоторое преимущество. Если допустить линейную зависимость
столбцов матрицы Z, а также (или) линейную зависимость
столбцов матрицы Z от столбцов матрицы X, то соответствующие
равенства сохраняют силу при использовании обобщенной обрат-
ной матрицы для Z'RZ.
Упражнения 3j
1. Пусть Р — проектор на 5? [X]. Покажите, что матрица Z'(I„ —P)Z не
вырождена.
2. Пусть ограничения нр = О являются идентифицирующими для модели
8 = хр. Докажите, что они будут идентифицирующими и для модели 0=X0-|-Zy.
Выведите отсюда, что
BG = (G'G)-iX' (Y-Zyc).
3.9. Оценивание при наличии линейных ограничений
3.9.1. Метод множителей Лагранжа
Пусть Y = xp + e, где X—матрица размера «Хр ранга р.
Предположим, что мы хотим найти минимум г'г при совместных
линейных ограничениях А0=с, где А—известная <?хр-матрица
ранга q, а с—известный «у х 1-вектор. Один из методов решения
этой задачи состоит в использовании множителей Лагранжа, по
одному на каждое линейное ограничение а$ = с, (i= 1, 2, ...,<?),
где г.\ есть i-я строка матрицы А. Таким образом, нас интересует
выражение
2 к (а;₽ — ct) = К (АР—с) = (Р'А' —с?) 1
1=1
(транспонирование матрицы размера 1x1 не изменяет этой ма-
трицы). Для того чтобы применить здесь метод множителей Ла-
гранжа, рассмотрим выражение г = 8'е + (Р'А'—с')1и решим урав-
нения
Ар = с (3.56)
и дг/д$ — 0, т. е. (из А6)
—2Х' Y + 2Х'Хр + А'Х = 0. (3.57)
86 Гл. 3. Линейная регрессия: оценивание и распределения
Для последующих ссылок решения этих уравнений обозначим
через рн и соответственно. Тогда из (3.57) получаем
Р„ = (Х'Х)"1 X' Y-1 (Х'Х)-1 А'1„= р-1 (Х'Х)-1 А1„, (3.58)
а из (3.56)—
с= АР„ = АР-1а(Х'Х)-1Д1„.
Поскольку матрица (Х'Х)-1 положительно определена (как об-
ратная к положительно определенной матрице), то матрица
А (Х'Х)"1 А' также положительно определена (А4) и, следова-
тельно, не вырождена. Поэтому
-1Ь„= [А (Х'Х)-1 А']’1 (с-АР),
и, подставляя это в (3.58), получаем
Рн = Р + (Х'Х)~1 А' [А (Х'Х)"1 А']-1 (с - АР). (3.59)
Чтобы доказать, что рн действительно минимизирует с'е при
ограничениях Ар = с, заметим прежде всего, что
ЦХ(Р-Р)||2 = (₽-Р)'Х'Х(Р-Р)
= (₽ -₽Н +₽-₽)'Х'Х (р_р„ + р„_р)
= (₽-£//)'Х'Х (Р-р„) +(Р„-Р)'Х'Х(Р„-Р), (3.60)
||Х(0-Р)1М|Х (Р-Р„)1ЖХ(Р„-Р)||2, (3.61)
поскольку, согласно (3.58),
2(Р-Рн)'Х'Х(Рн-Р) = £нА(Рн-Р) = ХМс-с) = 0. (3.62)
Из (3.15) и (3.61) заключаем поэтому, что
е'е = || Y — Хр||21|X(р — Р)Р
= 11 Y-ХРЦ2 +||Х(Р-ря)||2 + ||Х(Рн-р)||2 (3.63)
является минимумом, когда || X (Рн—р)||2 = 0, т. е. когда
X (Рн-₽) = 0, или Р = Рн (так как столбцы матрицы X линейно
независимы).
Полагая P = PW, получаем полезное тождество
IIY -ХР„||2 = || Y -ХР ||2 +||X (Р-р„) ||2, (3.64)
или, обозначая Y — Хр и Уя=Хрн,
||Y-Y„||2-||Y^Y||2 = (|Y-YH||2. (3.65)
3.9. Оценивание при наличии линейных ограничений 87
Это тождество можно получить и непосредственно (см. упр. 1 из
упражнений Зк).
3.9.2. Метод ортогональных проекций
Выражение (3.59) можно получить конструктивным образом,
используя теорию, приведенную в ВЗ. Для того чтобы сделать
это, мы сначала „удалим" с.
Пусть ро—произвольное решение уравнения Ар = с. Тогда
Y— Хр0 = Х (Р-рй)4-в, (3.66)
или Y = Xy4-e, и Ау=АР—Аро = О. Таким образом, имеем мо-
дель Y = 04-e, в которой 0^5?[Х] = Й и, поскольку матрица X
имеет полный ранг, выполняется равенство А (Х'Х)'1 Х'0 = Ау = О.
Тогда, полагая Ах = А (Х'Х)-1Х' и to = с№ [Аг] Г) Q, из ВЗ.З полу-
чаем to-L Г) Q — 91 [РвА(], где
Рв а; = X (Х'Х)-1 Х'Х (Х'Х)-1 А' = X (Х'Х)-1 А'
есть пх^-матрица ранга q (см. упр. 5 ниже). Поэтому в силу
В3.2 и В1.9
Рв- Pc, = pw± п Е=(Рв Ai) | а^а;]-1 (РвА()'
= X (X'X)-‘A' [А (Х'Х)-1 А']-1 А (Х'Х)-1 X'.
Отсюда вытекает, что
Хря-Хр0 = Хун = PBY = Рй Y-PfflX n о Y
= Рв Y -Хр0 — X (Х'Х)"1 А' [А (Х'Х)-1 А']-1 (Ар—с),
(3.67)
так как РвХро = Хро и Аро = с. Опуская в обеих частях (3.67)
составляющие Хр„ и умножая оба получающихся при этом выра-
жения на (Х'Х)-1Х’> приходим к выражению (3.59) для Рн. Это
значение очевидным образом дает минимум, поскольку || Y —Хрн||2=
= П-хй,||2-
Преимущество указанного подхода состоит в том, что его легко
приспособить к случаю, когда матрица X имеет ранг г (г < р).
Поскольку мы в состоянии оценивать только оцениваемые функции,
то предположим, что оцениваемая функция а'гр (t=l, 2, ..., q),
где aj есть i-я строка матрицы А, т. е. что aJ = mJX (разд. 3.8.2)
и А = МХ, где матрица М имеет размер qxn. Поскольку А—ма-
трица размера qxp ранга q, должно выполняться соотношение
и так как rank А rank М (А2.1), тогапкМ = </. Рассуждая,
как и в (3.66), опять приводим модель к виду Y = 0-J-e, где
б£5?[Х] и М0=МХу=Ау = О. Поэтому со £ <№ [М] П Q и ой- f) S2 ==
88
Гл. 3. Линейная регрессия: оценивание и распределения
= 5? [PaM'J, где РаМ' = X (Х'Х)" Х'М' = X (Х'Х)- Д'—матрица раз-
мера nxq ранга q (см. упр. 4 ниже). И опять, используя В1.9,
’получаем
Рй -Рв = (Рй М') [МР0 М']-* (Ра М')'
= X (Х'Х)- Д' [А (Х'Х)- А']-1 А (Х'Х)- X'. (3.68)
Наконец, используя те же доводы, которые привели к (3.67),
приходим к уравнению
Х'ХР„ = Х'Ра Y—Х'РаМ' [МРаМ']-* MPa(Y — Х0О)
= X' Y — Х'М' [МРаМ']-1 (А (Х'Х)" X' Y — МХ₽0)
= X'Y — А' [А (Х'Х)- А']-1 (Ар-с),
так что любое решение 0Н имеет вид (А8)
0 —(Х'Х)- А' [А (Х'Х)-А']-1 (Ар—с),
где p = (X'X)-X'Y.
Упражнения 3k
1. Рассматривая тождество Y-Y„=Y — Y + Y — Y ff, докажите, что
IIY — Y#||2 = || Y — Y||2-|-|| Y — Y//1|2.
2. Докажите, что
1₽н] = а2 {(Х'Х)-*-(Х'Х)-* А' [А (Х'Х)-* А']-,* А (Х'Х)-*}.
Выведите отсюда, что
var [₽w/] «S var [₽;],
где Р/у, и р,- суть i-е элементы векторов Рн и р соответственно.
3. Покажите, что
II Y - II -II Y - V ||2 = и^н (S) [Хн|) -1 U
4. Используя обозначения разд. 3.9.2, докажите, что rank [₽й «'] = <?-
(Указание: используйте В3.4.)
5. Покажите, что если матрица X имеет размер лХр и ранг р, а матрица
В имеет размер pxq и ранг q, то гапк[ХВ]=1).
3.10. Другие методы оценивания
3.10.1. Смещенное оценивание
Рассмотрим линейную модель Y = Х0 + е, в которой [«] — 0
и й5[е] = о21п. Если вектор е имеет нормальное распределение,
то несмещенная оценка а'р вектора а'р имеет минимальную дис-
персию в классе всех несмещенных оценок этого вектора. Если
же предположение о нормальности вектора г отсутствует, то эта
3.10. Другие методы оценивания
89
оценка имеет минимальную дисперсию в классе линейных несме-
щенных оценок (теорема 3.2.) Хотя отсюда и вытекает, что оценка
параметра ру обладает минимальной дисперсией в соответствую-
щем классе оценок, тем не менее это еще никак не гарантирует
того, что эта дисперсия будет на самом деле мала. В частности,
если матрица Х'Х близка к вырожденной, так что ее наименьшее
собственное значение, скажем близко к нулю, то в силу
А 1.5 „полная дисперсия"
р-i р-1
2 var[P,] = tJatr[(X'X)-4 = <т2 2 Ip1 >о21Д
/=0
может оказаться слишком большой для практических целей. Чтобы
обойти эту трудность, связанную с „плохой обусловленностью”
матрицы X, Hoerl, Kennard (1970а, b) ввели класс оценок вида
- —(X'X + ^ln)-1X'Y (0<£<оо),
известных под названием гребневых оценок (ridge estimators)1).
Поскольку
₽<*> = (Х'Х + k\n)^ Х'Хр = [1„ + k (Х'Х)-1]-1 ₽ = КР (3.69)
(мы обозначили для краткости К = [1„-^(Х'Х)-1]-1), то р(А) —
смещенная оценка вектора р, если k > 0. Основанием для исполь-
зования гребневых оценок могут служить следующие два факта.
1) Если вычертить графики компонент вектора p(ft) и соответ-
ствующих остаточных сумм квадратов как функций от k, то
можно составить определенное представление относительно степени
обусловленности матрицы X. При этом можно выбрать такое
значение k, при котором а) система становится устойчивой,
Ь) коэффициенты регрессии имеют разумные значения, с) оста-
точная сумма квадратов RSS не слишком велика.
2) Всегда существует такое значение k > 0, при котором пол-
ная среднеквадратичная ошибка оценки р(А, оказывается меньше
полной среднеквадратичной ошибки оценки р. Здесь полная сред-
неквадратичная ошибка определяется следующим образом (теоре-
ма 1.7, следствие 1):
2 Е [(Р, w-pz)a]= Е [(Рш-Р)' (Р<й -₽)]
= tr®[P<ft)] + (KP-P)'(KP-P) = полная дисперсия
-{-полный квадрат смещения. (3.70)
Hoerl показал, что для заданной матрицы X всегда можно
*) Отметим аналогию этих оценок с методом регуляризации Тихонова —
Прим, ред,
90
Гл. 3. Линейная регрессия: оценивание и распределения
подобрать такое значение k > 0, при котором выписанное выра-
жение оказывается меньшим, чем tr£Z)[0], Таким образом, допу-
ская небольшое смещение, мы можем уменьшить полную диспер-
сию в (3.70) настолько, что при этом уменьшится и полная
среднеквадратичная ошибка.
Используя для формы смещенной оценки другое представле-
ние, Banerjee, Carr (1971) сравнили с другой несмещенной
оценкой для 0, отличной от р. При этом они также доказали,
что при некотором k > 0 полная среднеквадратичная ошибка
оценки оказывается меньше, чем у указанной несмещенной
оценки. Однако использование для характеризации качества оце-
нок полной среднеквадратичной ошибки Nelder (1972) подверг
критике за то, что при этом в качестве расстояния между 0(ft) и
Р используется евклидово расстояние. В связи с этой критикой
Theobald (1974) получил результат, аналогичный (2), используя
взвешенную сумму квадратов вида
£[(₽<*»- ₽)' В (₽<„- Р)],
где В—положительно определенная матрица. Полностью же воз-
ражения Nelder (1972) сняли Goldstein, Smith (1974), а также
Lowerre (1974), которые независимо друг от друга показали, что
для любого вектора р существует значение k > 0, при котором
каждый элемент вектора р(Л) имеет меньшую среднеквадратичную
ошибку, нежели соответствующий ему элемент вектора р.
Другим классом смещенных оценок, рассматриваемых в ли-
тературе, является класс так называемых сжатых оценок, имею-
щих вид Хр (0 < 1). Такие оценки используют, например, Stein
(1960), James, Stein (1961), Sclove (1968), Thompson J.R. (1968),
Mayer, Willke (1973) и Narula (1974). Mayer, Willke (1973) срав-
нивают один из типов „сжатых** оценок с гребневыми оценками,
а также с довольно сложными оценками, которые предложил
Sclove (1968). Оказывается [Goldstein, Smith (1974)], что греб-
невые оценки можно получить как частный случай сжатых оце-
нок для канонической формы модели регрессии. Авторы исполь-
зуют этот подход для получения более общего класса гребневых
оценок.
Отметим, что гребневые оценки принадлежат классу смещенных
оценок вида
P* = (X'X+CHX'Y, (3.71)
где С—положительно определенная матрица и матрицы С и Х'Х
перестановочны. Lowerre (1974) показал, что если собственные
значения матрицы С достаточно малы, то тогда каждый элемент
вектора Р* имеет меньшую среднеквадратичную ошибку, нежели
3.10. Другие методы оценивания 91
соответствующий ему элемент вектора 0. Полагая С — k\n, мы на-
ходим, что гребневые оценки обладают этим свойством, если k
достаточно мало. Полагая С = (Х-1—1)Х'Х, мы заключаем, что
сжатые оценки имеют это свойство, если X достаточно близко
к единице. Allen (1974) рассматривал оценки р* с точки зрения
прогнозирования.
Интересно отметить, что для некоторого значения k (Л = п2/Ор,
где о|—дисперсия априорного распределения каждого из 0у)
гребневая оценка 0(W является также и байесовской оценкой
вектора 0 [Lindley, Smith (1972, с. 11), Goldstein, Smith (1974,
с. 291), Успенский, Федоров (1977*)].
3.10.2. Неотрицательные оценки
Задачу оценивания по методу наименьших квадратов при
ограничениях 07>О (j = 0, 1, ...,р— 1) рассмотрел Waterman
(1974). Ой показал, что эту задачу можно решить путем перехода
к 2р задачам оценивания без ограничений.
3.10.3. Цензурированные данные
В ряде регрессионных задач данные о наблюдавшихся значе-
ниях отклика Y являются цензурированными. Иначе говоря, о зна-
чениях некоторых наблюдений известно только то, что они были
больше или меньше некоторой известной величины. Такого рода
данные часто встречаются при ускоренных испытаниях продукции
на долговечность, когда время безотказной работы элемента
является откликом, а в качестве регрессоров выступают, скажем,
температура или давление. При таких испытаниях данные о дли-
тельности работы до отказа элементов, не отказавших за период
испытаний, оказываются цензурированными справа. В подобных
ситуациях стандартный метод наименьших квадратов использовать
уже невозможно, поскольку точные значения цензурированных
наблюдений не известны. Теория и методы обработки цензуриро-
ванных данных приведены в работах Nelson, Hahn (1972, 1973).
Случай одномерной линейной регрессии рассматривали, в частно-
сти, Chen, Dixon (1972). Методы анализа остатков (ср. с § 6.6)
от цензурированных данных описаны в работе Nelson (1973).
3.10.4. Устойчивое оценивание
Мы уже видели в этой главе, что в том случае, когда от-
клик У имеет нормальное распределение, оценка наименьших
квадратов вектора 0 обладает целым рядом весьма желательных
свойств. Однако, как показали Andrews и др. (1972, гл. 7), метод
92 Гл. 3. Линейная регрессия: оценивание и распределения
наименьших квадратов может оказаться весьма далеким от опти-
мального, если распределение отклика Y не является нормальным,
а имеет более длинный хвост. Проведенное этими авторами иссле-
дование ясно показывает, например, что для широкого класса
распределений оценка наименьших квадратов параметра сдвига
является неэффективной по сравнению с большинством более
устойчивых оценок этого параметра (см. также Moussa-Hamouda,
Leone (1974)). Заметим, что хотя графики остатков (§ 6.6) и могут
указывать на дефекты модели, интерпретация этих графиков часто
требует мастерства, недоступного рядовому пользователю, дале-
кому от математики. В то же время при устойчивом оценивании
некоторые из остатков могут оказаться существенно больше ;
остальных, что более ясно указывает на наличие неувязок в модели.
Пример устойчивого оценивания в полиномиальной регрессии
см. в работе Beaton, Tukey (1974). >
Определенное внимание привлек к себе метод, состоящий
в минимизации 2/1 е/ I относительно 0. Выполнение такой мини-
мизации в норме пространства может быть сведено к решению
общей задачи линейного программирования. Соответствующую ’
процедуру, аналогичную симплексному методу, указал Davies I
(1967). К сожалению, решение здесь не всегда единственно, и
некоторые из общих алгоритмов линейного программирования (ЛП) j
могут приводить к смещенным оценкам вектора 0 [Kiountouzis j
(1973), Sielken, Hartley (1973)]. Однако Sielken, Hartley (1973)
затем предложили эффективный ЯП-метод отыскания несмещен- ;
ного решения. Итерационная процедура, основанная на методе
наименьших квадратов и, следовательно, требующая меньшей
памяти, описана в работе Schlossmacher (1973). Однако вопросы
сходимости и несмещенности этой процедуры не решены. Даль-
нейшие ссылки, а также алгоритм, относящийся к случаю одно-
мерной линейной регрессии, можно найти в работе Sadovski (1974).
Интересно отметить, что в случае, когда е имеет двойное
экспоненциальное распределение, указанный выше метод, основан-
ный на норме пространства Lt, эквивалентен методу максималь-
ного правдоподобия. Если е имеет равномерное распределение
с неизвестным размахом, то применение метода максимального
правдоподобия связано с минимизацией величины шах 18, |. Алго-
ритм отыскания несмещенной оценки для этого случая приводят
Sielken, Hartley (1973).
Естественное обобщение указанного метода состоит в миними-
зации суммы S.-KI' (1 ^2). Значение р= 1.5 может явиться
здесь приемлемым компромиссом (относительно ссылок см. Hogg
(1974, с. 915 и далее)). Другие методы устойчивого оценивания
регрессионных моделей описаны в работах Andrews (1974) ц
Bickel (1975) [см. также Ершов (1978*), Huber (1972*), Jurei-
kova (1977*) и Puri, Sen (1975*)].
3.11. Оптимальное планирование
93
3.11. Оптимальное планирование
Каким образом экспериментатор выбирает матрицу X? На этот
счет имеется целый ряд различных критериев. Наиболее попу-
лярны два из них. Первый состоит в минимизации значения'
|*Z>[P]|, или, что равносильно, максимизации значения |Х'Х|.
Такой выбор матрицы X называется D-оптимальным. Второй метод
состоит в минимизации полной или средней дисперсии, т. е. ми-
нимизации величины tr|(X'X)-i|. Понятие D-оптимальности,
предложенное Kiefer (1959), весьма широко исследовано (по по-
воду обзора результатов и библиографии см. St. John, Draper
(1975)). Многие из результатов первоначально были получены
для частного случая полиномиальной регрессии (§ 8.4). Принцип
D-оптимальности еще более укрепился благодаря так называемой
теореме эквивалентности [Kiefer, Wolfowitz (1960); см. также
Whittle (1973), Silvey, Titterington (1974), Карлин, Стадден
(1976*), Новые идеи в планировании эксперимента (1969*), Kiefer
(1974*)], согласно которой максимизация определителя [Х'Х| по не-
которой области % равносильна минимизации максимальной диспер-
сии оценки ¥ = х'р для . План, обладающий этим последним
свойством, называется G-оптимальным или минимаксным. В настоя-
щее время имеется целый ряд алгоритмов для построения D-опти-
мальных планов. Обзор их можно найти в работах St. John,
Draper (1975). Фёдоров’ (1971*), Фёдоров, Успенский (1975*).
Хотя критерий, основанный на следе матрицы (Х'Х)-1, при-
водит к матрице X, имеющей ортогональные столбцы (§ 3.5, лемма)х),
у него имеется ряд недостатков (например, зависимость от мас-
штаба регрессоров), так что общее предпочтение отдается D-опти-
мальности (см., например, Box М. J, Draper (1971)). Однако
иногда экспериментальные планы удовлетворяют обоим критериям.
Таков, например, 22-план с х1,ха = ±1 (по поводу доказательства,
см. Box М. J,. Draper (1971, приложение)).
Иногда D-оптимальные планы предусматривают проведение
эксперимента при числе последовательно создаваемых различных
условий, равном числу оцениваемых параметров, как, например,
в случае полиномиальной регрессии (§ 8.4), так что такой план
может оказаться бесполезным с точки зрения проверки адекват-
ности модели или сравнения конкурирующих моделей. Один из
возможных подходов состоит здесь в том (Atkinson (1972), Atkin-
son, Сох (1974)), что рассматриваемая модель (или модели) вкла-
дывается в более общую модель и план для оценки добавочных
параметров выбирается каким-то оптимальным образом. При этом
нас интересует только оптимальный критерий для подмножества
*) Лемма из § 3.5 относится к весьма специальному случаю. Вообще го-
воря, планы с минимальным следом не ортогональны.—Прим. ред.
94
Гл. 3. Линейная регрессия: оценивание и распределения
более общей модели. Подробные комментарии к этой проблеме
читатель найдет в работах Atkinson (1972) и St. John, Draper
(1975) и в § 8.4. С этой задачей связана и задача различения
двух конкурирующих моделей [Atkinson, Сох (1974), Фёдоров
(1978*), Fedorov, Malyutov (1972*)].
Упражнения к гл. 3
1. Пусть И|=а1₽14-6(Р24-е/ (1=1, 2....п), где а/, Ь, — известные ве-
личины, а е,-—независимые случайные величины, каждая из которых имеет
распределение N (0, о2). Найдите необходимые и достаточные условия незави-
симости оценок наименьших квадратов для и р2.
2. Пусть Y = 0-|-e, где <§>[е]=0. Докажите, что значение 0, при котором
величина || Y—0|j2 минимизируется при ограничении А0 = О, где А — известная
^Хи-матрица ранга q, равно
0 = (1„—А' (АА')-1 A)Y.
3. Пусть У = ХРД-е, где ^[е|=0, ®[е] = о21„, а X—матрица размера
пУр ранга р. Докажите, что если X и Р разбиты на блоки в форме
Х0 = (Х,Х2)(|М,
\Р2/
то оценка наименьших квадратов р2 для р2 равна
р2=[х2х2-х2х1 (xix,)-1 х;х2]~1 [XjY—X2Xj (Х]Х,)-1 Xi'Y].
Найдите S) [g2J.
4. Предположим, что [Y] = Xp и S)[Y] = o2I„. Докажите, что a'Y
является линейной несмещенной оценкой для Е [a'Y] с минимальной дисперсией
в том и только в том случае, когда covfa'Y, b'Y] = 0 для всех Ь, для кото-
рых £[b'Y]=O (т. е. Ь'Х=0). [Rao (1973).]
5. Докажите, что если матрица X имеет полный ранг и Y = Xp, то
У var |Р(] =о2р.
г=1
6. Оцените веса р,- (1=1, 2, 3, 4) четырех объектов по приведенным
в таблице результатам взвешиваний (по поводу обозначений см. упр. 6 из
упражнений Зе).
*1 Х2 *з Х4 Bec(Y)
1 1 1 1 20.2
1 -1 1 -1 8.0
1 1 -1 -1 9.7
1 -1 -1 1 1.9
7. Три посылки взвешены в почтовом отделении порознь, парами и все
вместе. Результатами этих взвешиваний явились величины Y ijk (1, j, k—0, j).
Здесь индекс 1 указывает на участие, а индекс 0—на неучастие соответствую-
Упражнения к гл. 3
95
щей посылки во взвешивании. Найдите оценки наименьших квадратов для
весов посылок. [Rahman (1967).J
8. Экспериментатор собирается оценить плотность d жидкости путем взве-
шивания известных ее объемов. Пусть Y,—вес объема х, (1=1, 2.......п),
Е'[У1-] = йх/ и var [У,-] = а2/(х/). Найдите оценку наименьших квадратов для d
в следующих случаях:
a) f(x/)al; b) f(xi}=xi\ с) f(xt)=xl.
9. Докажите, что при наличии факторизации X = KL в соотношении (3.41)
элементы вектора Lp оцениваемы.
10. Пусть Y (=Po+PiXi + ei (‘=1. 2, 3), где £ [е| = 0, £2>[e]=(J2V,
/1 ра р \
V = I pa a2 pa I,
\р pa 1 /
а, р не известны;
0 < р < 1,
и xf=—1, *2=0, х3=1. Покажите, что обобщенные оценки наименьших
квадратов для р0 и р1 имеют вид
/7 {(а2—СР) П+(1— 2яр+р) Y2 + (a2—ap) Ys}
где г = 1 + р+2я2—4ар. Докажите также следующее.
а) Если о = 1, то эмпирическая регрессия У1 = Ро + Р1Х; не может лежать
всюду выше или всюду ниже наблюдавшихся значений У/ (т. е. все разности
Y(—Y*i не могут иметь одинаковый знак).
Ь) Если 0 < о < р < 1, то эмпирическая линия регрессии может лежать
целиком выше или целиком ниже наблюдавшихся значений. [Саппег (1969).]
11. Докажите, что если заданы линейно независимые ограничения НР = О,
а матрицы С] и С2 таковы, что
(с;, c2')(xHx)=i,
то Cj—обобщенная обратная матрица для X'X. [Rao (1973).]
12. Покажите, что если ранг матрицы X меньше полного, то всякое ре-
шение р уравнения X'V_1Xp = X'V“*Y минимизирует квадратичную форму
(Y —Хр)' V-i(Y-xp).
13. Пусть
^1—61+62+81,
Y 2 = 0j——202+ё2,
Ys = 261-62+Вд,
где E[eZ] = 0 (1 = 1, 2, 3). Найдите оценки наименьших квадратов для в/ и 02.
Используя двухшаговый метод наименьших квадратов, найдите оценку наимень-
ших квадратов для 03 в случае, когда указанные выше уравнения дополня-
ются следующим образом:
У1 — 6) + 0 2 + 63 + 81>
У 2 = 6j—2624-6з+е2,
У3 = 20)—62+ 08+ е3.
14. Докажите, что в обычной модели регрессии полного ранга У и
21 (У/—Уi)2 статистически независимы.
15, Пусть У| = Рх(-(-«1, Х( > 0 (1 = 1,2, .... п), где uz=pu/_14-ez,
96 Гл. 3. Линейная регрессия: оценивание и распределения
а случайные величины е/ независимы и каждая из них имеет распределение
N (0, о2). Докажите., что если —обычная оценка наименьших квадратов
для р, то var [Р] при р > О велика.
16. Предположим, что Е [У/] =Po+Pi cos (2nAt//n)+p2sin (2nk2t/ri), где
1 = 1, 2, .... n, a k-t и k2—положительные постоянные. Найдите оценки
наименьших квадратов для р0, Pj и р2.
17. Предположим, что Е |У(] = а0+ Pi (*й~ *>1)+Рг х,2), 1=1,
2.....п. Покажите, что оценки наименьших квадратов для а0, Pi и р2 можно
получить посредством следующей двухшаговой процедуры:
а) Подбирается модель Е |K/] = ao+₽i —*-1).
b) Берется регрессия остатков из а) на (х,2—х>2).
Глава 4
ЛИНЕЙНАЯ РЕГРЕССИЯ:
ПРОВЕРКА ГИПОТЕЗ
4.1. F-критерий
4.1.1. Вывод
Рассмотрим линейную модель Y = XP4-e, в которой матрица X
имеет размер пхр и ранг р и e~Nn(0, о21„). Пусть мы хотим
проверить гипотезу Н: А0 = с, где А—известная ^Хр-матрица
ранга q, а с—известный qx 1-вектор (относительно мотивировки
выбора такой гипотезы Н см. § 1.2). Обозначим
RSS = (Y—Хр)' (Y—Хр) = (п—р) S2
и
RSS„=(Y-XpH)'(Y-XpH),
где Р/у—то же, что и в (3.59), т. е.
Ря=0 + (Х'ХН А' [А (Х'Х)-’ А']"’ (с —АР), (4.1)
и RSSH—минимальное значение е'е при ограничениях Ар = с.
В приводимой ниже теореме описывается F-статистика для про-
верки указанной гипотезы Н.
Теорема 4.1.
(i) RSS„—RSS = (Ар—с)' [А (Х'Х)-’А']~* (Ар— с).
(ii) Е [RSS„- RSS] = tfq + (Ар—с)' [А (Х'Х)-* А']-* (Ар—с).
(iii) Если гипотеза Н верна, то статистика
р (RSSh-RSS)^ (Ар—с)' [А (Х'Х)-1 А']-* (Ар-с)
Г ~ RSS/(n—р) qS2
имеет распределение Fqtn_p (F-распределение с q и п—р степе-
нями свободы соответственно).
(iv) Если с=;0, то статистика F принимает вид
Р _n-pY'(P-P„)Y
<7 Y' (I„—Р) Y ’
где Рн—симметричная и идемпотентная матрица и РНР=РРН—Ря.
4 № 671
98
Гл. 4. Линейная регрессия: проверка гипотез
Доказательство, (i) В соответствии с соотношением (3.64) из
разд. 3.9.1 имеем RSSH— RSS = (P—$н)' Х'Х (Р—Рн). Подставляя
сюда выражение для разности р—pw, получаемое из (4.1), при-
ходим к искомому результату.
(ii) Поскольку строки матрицы А линейно независимы и
Р~ Np (Р, а* (Х'Х)-1), то из теоремы 2.2 (§ 2.2) вытекает, что
Ар~ Ng (Ар, о2А (Х'Х)’1 А'). Положим Z=Ap—с и В=А(Х'Х)~*А'.
Тогда <£[Z] = Ap—с и
®[Z] = S>[Ap] = o2B.
Поэтому, используя теорему 1.7 (следствие 1) из § 1.4, имеем
(с учетом (i))
Е [RSS,y —RSS] = Е [Z'B^Z] = tr [сг2В-*В] 4- (Ар—с)' В-1 (АР—с)
= tr[o2lJ-b(Ap-c)'В-ЧАР-с)
= о2? + (Ар— с)'В-1(Ар—с). (4.2)
(iii) Из (i) вытекает, что разность RSS^—RSS является не-
прерывной функцией от р и поэтому не зависит от RSS (см. тео-
рему 3.5 (iii) в § 3.4 и теорему 1.9 в § 1.5). Если гипотеза Н
верна, то Ар~Л^(с, <т2А (Х'Х)-1 А'), так что в силу теоремы 2.1 (iii)
RSS^RSS = (А0_с), (й) [А£]И (Ар_с)>
т. е. это отношение имеет распределение Наконец, поскольку
RSS/o2~yJ_p (теорема 3.5 (iv)), то отношение
р (RSSH- RSS)/o2</
RSS/a2(n — р)
при выполнении гипотезы Н имеет форму [х«/<7]/[%п-Р/(«—р)]-
Значит, если гипотеза Н верна, то F ~ I Qyn^p.
(iv) Полагая в выражении (4.1) с=0, имеем
Y„=XpH
« {X (Х'Х)-1 X» — X (Х'Х)-» A' [A (Х'Х)-» А']-‘ A (Х'Х)~»Х'} Y
= (P-Pi)Y, (4.3)
т. е.
YW = P//Y, (4.4)
где Рн—симметричная матрица. Упрощая выражение для ма-
трицы Р(, находим, что эта матрица симметрична и идемпотентна
и что PjP==PPf = pf. Отсюда получаем, что
Р)/ = Р2_Р1Р_РР1 + Р2 = Р-2Р1 + Р1^Р-Р1==Р//, (4.5)
РНР = (Р-Р1)Р = Р-Р1 = РН (4.6)
4.1. F-критерий
99
и РРН= Рн (последнее получаем транспонированием). Для завер-
шения доказательства напомним, что RSS=Y'(I„—Р) Y, и ана-
логичным образом получаем
RSS„=|i Y- Х₽„||2= Y' (1„-Ря)2 Y = Y' (1„-Ря) Y. (4.7)
Таким образом, RSSH—RSS=Y'(P—Ря) Y.
Заметим, что если гипотеза Н верна, то оценка А0 (НЛНО
для Ар) близка к с и разность RSSH—RSS „мала". Если же Ар
значительно отличается от с, то разность RSSH—RSS имеет тен-
денцию принимать большие значения. Таким образом, наш Е-кри-
терий является односторонним. Мы отвергаем гипотезу Н, если
значение статистики F оказывается значимо большим.
Если q > 2, то обычно более удобно находить RSS и RSSH
непосредственно, отыскивая минимальные значения е'е при нали-
чии ограничений и без таковых. Однако если q^2, то значение
статистики F проще находить, используя общую матричную теорию,
изложенную выше. В этом случае требующая обращения матрица
[А (Х'Х)-1 А'] имеет порядок не выше второго. Соответствующие
примеры даны в разд. 4.1.3.
Следует отметить, что поскольку величина RSSH определена
однозначно, то поэтому не имеет значения, какой метод мы исполь-
зуем для отыскания RSSH. Мы могли бы, например, используя
ограничения Ар = с, сначала исключить некоторые Ру, а затем
минимизировать е'г по отношению к остальным параметрам Ру.
Часть (iv) доказанной теоремы поясняет геометрическую сто-
рону Е-критерия, которая будет описана в разд. 4.5.1.
Упражнения 4а
1. Покажите, что если гипотеза Н: А0 —с верна, то статистику F можно
представить в виде
п—р _ е' (Р — Рн) е
4 ‘е'(1„-Р)е’
2. Покажите, что если оценка „наименьших квадратов" для множи-
теля Лагранжа, связанного с ограничениями АР = с (см. § 3.9), то
RSSh-RSS = o2£h(® [£н])-1
4.1.2. Основания для использования F-критерия
Чтобы ответить на вопрос, почему мы в первую очередь стали
рассматривать статистику F, приведем два возможных обоснова-
ния такого выбора.
Рассмотрим статистику Sh = (RSSh—RSS)/<?- По теореме 4.1 (ii)
Е [S?y] = О2 + (АР~С)'[А (Х'Х)-1 М1-1 (Ар-с) .
4*
100
Гл. 4. Линейная регрессия: проверка гипотез
Таким образом, Е [Ед] представляется в виде Е [Е|/] = о2 + 6,
где б 0 (поскольку матрица [А (Х'Х)-1 А']-1 = ® [Ар]/о2 положи-
тельно определена). В то же время (теорема 3.3 из § 3.3)
Е[Е2] = о2.
Если гипотеза Н верна, то 6 = 0, так что и S2H, и Е2 являются
несмещенными оценками для о2, т. е. F = Sh/S2 т 1. Если же
гипотеза Н не верна, то б > 0 и Е [S«] > Е [S2], так что
Е [Е] = Е [Sfc] Е Щ > Е [ЭДЕ [Е2]> 1
(в силу независимости SJ/ и Е2 и в силу А11.2). Таким образом,
значение Е несколько проясняет „истинное положение дел“.
Гипотеза Н отвергается, если значение F оказывается значимо
большим.
Обосновать употребление статистики Е можно и путем рас-
смотрения критерия отношения правдоподобия для проверки
гипотезы Н. Функцией правдоподобия L (0, о2) в рассматривае-
мой модели является плотность вероятностей вектора Y, а именно
L (₽, о2) = (2ло2)-<1/2) п ехр _L_ (Y -Х₽)' (Y -Х₽) }.
Решая уравнения д log L/d$ — 0 и dlogL/do2 = 0, получаем оценки
максимального правдоподобия
P = (X'X)"*X'Y, 32 = ^, (4.8)
причем максимум функции правдоподобия равен L (Р, о2) =
=(2ло2)_(1/2> «е—(1/2) «. (То, что оценка максимального правдопо-
добия для Р совпадает с оценкой наименьших квадратов для
этого параметра, не должно вызывать удивления, поскольку,
несмотря на наличие мешающего параметра о2, максимизация L
равносильна минимизации квадратичной формы, стоящей в пока-
зателе экспоненты.)
Используя метод, практически идентичный применявшемуся
в разд. 3.9.1, найдем, что оценками максимального правдопо-
добия для р и а2 при ограничениях Ар = с будут Р« и о« = RSS^/n.
Максимальное значение L равно в этом случае
L (Рн, <?н) = (2ло2н)-^ «е-амп.
Статистика отношения правдоподобия равна
z L фи, Ун) Пу "/2
L (р, У) к2НJ ’
и в соответствии с принципом отношения правдоподобия мы от-
вергаем гипотезу Н, если значение I слишком мало.
4.1. F-критерий
101
Поскольку статистика
£ = Г^(/-(1/2)л_1) (4.9)
зависит от I монотонным образом, то это означает, что мы от-
вергаем гипотезу Н, если значение F слишком велико.
4.1.3. Некоторые примеры
Пример 4-1. Пусть
У1 = а1 + е2,
Уа = 2ах—а2 + е2,
У3 = “1+2а2 + е3,
где е~М,(0, о213). Найдем F-статистику для проверки гипотезы
Н: а^+а*.
Решение. В матричной форме эта модель имеет вид
или Y = Xp + в, где X—матрица размера 3x2 ранга 2. Гипо-
теза Н имеет вид
<> -')(«:) “°-
или А0 = О, где А—матрица размера 1x2 и ранга 1. Поэтому
рассмотренная выше теория применима в указанной ситуации,
и при этом и = 3, р = 2, <7=1.
На первом шаге мы находим
X'X-(J -I 1)
Далее,
P = (X'X)"'X'Y = | \
1о
матрицу X X:
0|/У,+2У2+У3\
'Д -У,+ У,Г
/«Л
\®2/
£(У,+2У2+У3)
1(-Г2+У3)
и из соотношения (3.9)
RSS = Y' Y—₽'Х'Х₽ = Yl + YI + У2—М—5а?.
Саму Г-статистику можно найти по крайней мере двумя методами»
102
Гл. 4. Линейная регрессия: проверка гипотез
Метод 1. Последовательно находим
А|3“а1 —d2,
А(Х'Х)-'А'-(1, -1)( ’ ?)(_!) = I +1 = &
\ и 5 / * * '
с (А₽)' [А (X'X)-i А'] Ар _
~ Ц ’
30
где S2=RSS/(n—p)=RSS. Если гипотеза Н верна, то
F Fц,п-р==^й !•
Метод 2. Пусть aj — a^—a. Если гипотеза Н верна, то
8,е = (У1 —а)2 + (У2—а)2 + (У8—За)2
и уравнение де'е/да=0 приводит к оценке ан=(1/11)х
х(У14-У2+ЗУ3). Отсюда находим
RSSH=(yi-a„)2 + (y,-a„)2 + (ys -3i„)2 (4.10)
и
г RSS;/-RSS
Л “ RSS
Пример 4.2. Пусть Ult U2, ..., Uni—независимая выборка
из N (щ, о2), а Уц У2, ..., V„a—независимая выборка из W (р2, о2).
Найдем статистику критерия для проверки гипотезы Н: pt = p2.
Решение. В соответствии со сделанными предположениями мы
можем написать
= + (i=l, 2, .... и,)
и
Vz = p2 + eni+y (/ = 1, 2, .... п2), .
или в матричных обозначениях
- у/ с/2 «4. ж 1 0 1 0 1 0 (ЙЬ «1 е2 e"i (4.11) J
У1 V 0 1 0 1 . 0 1 ®л1+1 . е-
4.Г. F-кршперий
103
где п — п±-\-п^. Таким образом, наша модель имеет вид Y = XP4-e,
где X—матрица размера их 2 ранга 2 и Л/п(0, о21„). Как и
в примере 4.1, гипотеза Н имеет вид А0=О, так что применима
общая теория с р = 2 и q — I.
Поскольку здесь
то
Ар=д,-£2=1/-К
RSS = Y' Y —р'Х'Х^ = S i/j + 2 W—«if/2 - n2V4
Кроме того,
A(X'X)-A'=-J-+i,
так что статистика критерия для проверки гипотезы Н имеет вид
(Ag)4A(X'X)->A'l-*AiC (U—V)2 (4 12х
Г qS2 “S2(l/n1-bl/n2)’ ,
где S2 = RSS/(n—p) = RSS/(nf + n2—2). Если гипотеза Н верна,
то F Fr> п,+я,-а-
Заметим, что поскольку справедливо тождество гг< k — tk
(в смысле совпадения распределений), то указанная F-статистика
является квадратом обычной /-статистики, используемой для про-
верки гипотез о значении разности средних двух нормальных
совокупностей (в предположении равенства дисперсий этих сово-
купностей).
Пример 4.3. Пусть задана общая линейная модель
G: У/=Ро+ • • •+ Ег (i= 1, 2, ..., п).
Найдем статистику критерия для проверки гипотезы Н: Р7 = с.
104
Гл. 4. Линейная регрессия: проверка гипотез
Решение. Предположим, что мы произвели разбиение
5'),
где I—матрица размера 1x1. Гипотеза Н имеет вид а'р = с,
где а'—вектор-строка, в которой на (/+1)-м месте стоит еди-
ница, а на всех остальных—нули. Используя общую матричную
теорию, получаем а'(Х'Х)->а = (/-й диагональный элемент
матрицы D) и а'Р—с=ру-—с, так что F-статистика равна
и имеет при гипотезе Н распределение Fi<n_p. Как и в при-
мере 4.2, найденная F-статистика опять оказывается квадратом
обычной /-статистики.
Необходимую здесь матрицу D можно найти, используя указан-
ный в А7 метод обращения блочных симметричных матриц. Пусть
1„—состоящий из единиц вектор-столбец размера nxl и х'=
=(х.1, х.2, .... х.р-1). Тогда X = (l„, XJ,
Х'Х — ( п_ пх>
\nx x;xj*
и в соответствии с А7
(Х'ХН = (п' + хУ"Хх’ — Х'У’Л (4.14)
V~xx, V-1 /
где V — [(v/ft)] = XJXj—пхх' и
VJk= 2 XijXib — nX.jX.k = £ (Xtj — X.i) (xik —X.k).
Таким образом, искомая матрица D является обратной к мат-
рице V, представляющей собой матрицу скорректированных сумм
квадратов и произведений регрессоров.
Более подробно этот пример рассматривается в разд. 11.7.1.
4.1.4. Линейная одномерная регрессия
Пусть Vf = po + ₽iX/-|-e, (i=l,2, ...,п) и мы хотим про-
верить гипотезу Н: Р< = 0. Тогда Х = (1„, х),
4.1. F-критерий
105
Х'Х =
и,
пх.
пх \
X'Y= 2 Y‘ .
Подставляя эти выражения в формулу ^(X'XJ^X'Y, после не-
которых упрощений получаем
Ро = У-₽1*.
0 2 Yi (Х‘—~Х) 2 (У/—У) х)
2 (*i—*)2 2 (*<—*)2
и
У.— Ро+Рл—У + Mxz-x).
(В действительности выражения для р0 и pt можно найти и проще,
дифференцируя в'е по ро и Рх.) Наконец, используя пример 4.3
с р = 2, находим выражение для F-статистики искомого критерия:
q2 л 2
р __ Р1 _ _________Р1_____
5adn S2/2 (*« — х)2 ’
(4-15)
где
(П-2) S2 = 2 (V,—У,)2 = 2 [У,— У-Pt (х,—<
- =2(У/-П2-Р?2(^-х)2 (4.16)
= 2(Ъ-У)г-2 (К,—У)2- (4.17)
Заметим, что из (4-17) вытекает
2(г,—П2=2(^— У .У 4-2 (Yt-уу (4.18)
= 2 (Yi-Yi)2 + '2 2 (Yi-У)2, (4.19)
где
= Р)2 = Р122(Х.—X)2 = X)]2 2())
2(у<— у)2 2 (у*--у)2 2(у«—у)22<х<—гр
является квадратом выборочного коэффициента корреляции между
У и х. Отношение г также является мерой степени линейности
связи между У и х, поскольку, согласно (4.19),
RSS = 2(yi-y,)2 = (l-'2)2(*z/-y)2. (4-21)
так что, чем больше значение, г2, тем меньше RSS и, следова-
тельно, тем лучше подобранная прямая соответствует наблюдениям.
106
Гл. 4. Линейная регрессия: проверка гипотез
Однако, в то время как величина 1 — г2 является употреби-
тельной мерой согласия подобранной прямой данным наблюдений,
использование самого выборочного коэффициента корреляции г
для статистических выводов представляется довольно сомнитель-
ным. Tukey (1954) принадлежит смелое, но не лишенное смысла
утверждение о том, что „использование коэффициентов корреля-
ции обоснованно в двух и только в двух случаях, а именно либо
когда они являются коэффициентами регрессии, либо когда из-
мерение одной или обеих переменных в каком-нибудь опреде-
ленном масштабе является безнадежным делом". Первая часть
этого утверждения относится к случаю, когда X и Y имеют сов-
местное двумерное нормальное распределение. В соответствии
с упр. 2 из упражнений 2с имеем
Е [У | X = х] = 4- р (х—рх) = + Ррс,
и когда о5с = оу, то Pi = p. Что касается его второй части, то
можно указать одну из областей приложений, в которой коэф-
фициенты корреляций используются широко, а использование
детерминированных шкал измерений не представляется возмож-
ным,— это общественные науки. Шкалы измерений здесь часто
совершенно произвольны, так что наблюдения, по существу,
указывают только на принадлежность тому или иному классу.
Полезное обсуждение вопроса о связи коэффициентов корреля-
ции и регрессии имеется у Warren (1971).
Отметим, наконец, что F-статистику (4.15) можно выразить
через г2. Именно, из соотношения (4.21) следует
(п—2) S2 = (1 — г2) 2 (У/—У)2,
так что
f Pl (Х1~ХУ (”—2) г2 (n—2)
(1-г2)2(Уг— 7)2
Обычная t-статистика для проверки гипотезы — 0 выражается
соответственно в виде
Т = -. - .
К(1-г2)/(п-2)
4.1.5. Случай отклонения F-критерием гипотезы Н
Если гипотеза Н: А0 = с отклонена F-критерием, то необхо-
димо выяснить, почему это произошло. С этой целью можно,
например, проверить каждую из гипотез а'£р = с,- (i= 1, 2, ..q)
отдельно, используя некоторый /-критерий, и выявить те из них,
которые приводят к отклонению гипотезы Н. Соответствующий
/-критерий устроен следующим образом.
4.1. F-критерий
107
В соответствии с теоремой 2.2 at'₽~ /V (аф, о2а^(Х'Х)~1а1),
так что
ui = т а^~а<Р ~ N (0 !).
‘ о{алх'Х)-М1/2
В силу теоремы 3.5 (§ 3.4) V = (n—p)S'2/a2 ~ х£_р, и поскольку S2
статистически не зависит от 0, тоУне зависит от UПоэтому
статистика
'Г _ U i _______ affl а<Р (Л ооч
' ~ rv/(n-p) ~ S { а.-Х'Ха,} V2 '
имеет распределение /п_р. Для проверки гипотезы Нр. а$ = <?;
положим а'/Р = cf в Т{ и гипотезу Н{ будем отклонять с уровнем
значимости а при Здесь t(nL2pa—верхняя 100(а/2)-
процентная точка распределения 1„_р, т. е. рг (Т,->/^“) = а/2.
С другой стороны, можно построить 100(1—а)-процентный
доверительный интервал для а,-0, а именно интервал с крайними
точками
а,'Р ± t™ а S {aj (Х'Х)’1 а,} V», (4.24)
и проверить, содержит ли этот интервал точку с{. Интервалу
(4.24) можно придать вид
<4.25)
замечая, что Ss{aJ(X'X)~1af}—несмещенная оценка для
о2а; (Х'Х)-1 а(- (дисперсия а'0). В любом случае соответствующие
процедуры можно выполнить для любого i=l,2, ..., q. Скажем,
если F-критерием отвергается гипотеза Н: 0f = 02= ... =09 = О,
то, учитывая (4.13), мы можем гипотезу Нр. 0Z = O проверить,
используя статистику
Т -
1 S^df
Приведенная двухшаговая процедура проверки гипотез с целый
изучения гипотезы Н, состоящая в применении F-критерия к са-
мой Н и последующем применении (в случае отклонения гипо-
тезы Н этим F-критерием) ряда /-критериев, обычно называется
критерием минимальной значимой разности (least significant dif-
ference), или сокращенно МЗР (LSD). Термин минимальная зна-
чимая разность происходит от критического значения
которое является тем минимумом, при превышении которого
величина статистики Tt становится значимой, т. е. приводит
к отклонению гипотезы Ht. Употребление же в этом термине
слова „разность** связано с тем, что МЗР-критерий обычно исполь-
108
Гл. 4. Линейная регрессия: проверка гипотез
зуется для сравнения параметров, например для сравнения
средних значений совокупностей методом парных сравнений. Как
указал Miller R. G. (1966, с. 92), к основным достоинствам МЗР-
критерия следует отнести удобство его применения, простоту и
гибкость. Однако у этого метода имеются и слабые места. Так,
например, вполне возможны ситуации, в которых гипотеза Н
отвергается, а все частные гипотезы /7, принимаются. Другие
трудности, связанные с МЗР-процедурой и относящиеся к проблеме
одновременного (совместного) оценивания в целом, рассмотрены
в гл. 5.
Упражнение 4Ь
1. Имеем У/=Ро+₽1Х|1+(» = 1, 2...................и), слу-
чайные величины в, независимы и каждая из них распределена по закону
N (0, о2). Докажите, что F-статистика для проверки гипотезы Н: ₽9 = Pj+i =• •
... =Рр_1 = О (0 < —1) не изменяется, если из каждого наблюдения
Yj вычесть одну и ту же постоянную, скажем с.
2. Имеем У7=Ро+₽1*/4'®| (« = 1, 2, ..., п), случайные величины в;
независимы и каждая из них имеет распределение N (0, о2). Найдите F-ста-
тистику для проверки гипотезы Н: Ро = О.
3. Пусть х=0. Найдите F-статистику для проверки гипотезы Н: P0 = Pi
прн соблюдении условий упр. 2.
4. Пусть
У1=е1+е2+е1,
У2=202-р е2,
Уз —— 0i + 624-e3,
Случайные величины в; (i = l, 2, 3) независимы и каждая из них имеет рас-
пределение N (0, о2). Найдите F-статистику для проверки гипотезы Н: 61=202.
5. Пусть Y=0-|-e, е— ТУ4(0, о214) и 01 + 02-|-6з~Ьб4=0. Покажите,
что F-статистика для проверки гипотезы Н: 0i = 03 имеет вид
2(Г!-Г3)2
(Г14-У24-ГзЧ-Г4)* ’
4.2. Множественный коэффициент корреляции
Пусть задана линейная модель Kl=₽0+Pixii+• • -+Pp-ixi. p-i+
-f-ez(i = l, 2, ..., и), и мы хотим установить, является ли регрес-
сия с заданными регрессорами значимой. Иными словами, мы хо-
тим проверить гипотезу Н: р,=§2 = ... = 0^ = 0. Гипотеза Н
имеет вид А0 = О, где А = [0, lf_r]—матрица размера (р—1)хр
и ранга р — 1, так что применима общая теория регрессии с
q = p— 1, RSS= Y'Y—p'X'Y, и
RSSw = min2(V,—Pe)s = 2(rz-r)8=Y'Y-nYa.
P« i i
4.2. Множественный коэффициент корреляции
109
Поэтому
Р _ (RSS„-RSS)/(p-l) _ (p'X'Y-riY2) . (п—р) .
RSS/(n —р) (Y'Y —0'X'Y) (Р—О ' ’ '
и F ~ Fр_и п_р, если гипотеза Н верна.
Статистика F приводит к критерию для „всей" регрессии в це-
лом, и мы отвергаем гипотезу Н, если F > Fp_lt „_р. (Здесь
Fp-i, п-р — верхняя ЮОа-процентная точка распределения
Если гипотеза Н отвергается, то мы говорим, что
регрессия значима и переменными xtj нельзя, вообще говоря,
пренебрегать. В то же время отклонение гипотезы Н вовсе не
означает того, что аппроксимирующая регрессия Y = xp дейст-
вительно адекватна. Это замечание особенно существенно, когда
мы имеем дело с прогнозированием. Исходя из приведенных вы-
ше соображений, Draper, Smith (1966, с. 64) предлагают в ка-
честве рабочего правила считать, что аппроксимирующая поверх-
ность может быть удовлетворительной для целей прогнозиро-
вания, только если F > 4/?“_11П_р.
Полезной мерой степени соответствия аппроксимирующей рег-
рессии имеющимся данным Y{ является выборочный множествен-
ный коэффициент корреляции Д. Он определяется как коэф-
фициент корреляции между Уг и Y{, т. е.
п . 2(у.—П(Р,—Р)
{2(^-F2)2(P,—Р)2}1/2 ’
(4.27)
Величину 7?2 обычно называют коэффициентом детерминации.
Докажем сейчас одну полезную теорему, обобщающую соотно-
шения (4.18) и (4.20).
Теорема 4.2-.
(i) 20z<-Fr=2(rl—?,)2+2(^-г)2.
i i i
П2 2 У,-
2(Т,—Г)2’
(ii)
Доказательство, (i) Поскольку Y = PY, то
Y'Y = Y'P2Y = Y'PY = Y'Y.
(4.28)
Кроме того, дифференцируя сумму (X i—₽о—Р1*п~ •••
... —Р,,-!*/, p-i)2 по Ро, получаем одно из нормальных уравнений
для Р, именно
2(^1 Ро • • • Рр-1*/, j₽-i)= о
no
Гл. 4. Линейная регрессия: проверка гипотез
ИЛИ
^(Yt-Y^O. (4.29)
i
Используя это соотношение, находим
2 (у,—у)2=2 а,- Yi+у i—У)2=2 (Xi - Y^2+S(h - Й%
поскольку
2 (Yi-Yi) (Yi-Y) = 2 (Yi-Yi) yz = (Y - Y)' Y = 0
(первое равенство следует из (4.29), а последнее—из (4.28)).
(ii) Из соотношения (4.29) вытекает, что У = У, так что
2(У/-у)(у/-?/)=2(у,—П(У/-Y)
S(Yi-Й+Й-Й(Й—У)=2(Л-П2.
и требуемое выражение для 7?2 немедленно следует из (4.27).
Отметим, что коэффициент R2 есть простое обобщение коэф-
фициента г2, который появлялся у нас в случае одномерной линей-
ной регрессии. В частности, равенству (4.21) здесь соответствует
равенство
RSS—(1 —Я2)2(У,—Й*. (4.30)
из которого видно, что, чем больше значение /?2, тем лучше ап-
проксимирующая поверхность соответствует данным наблюдений.
Если У/ = У1-, то имеем полное соответствие и 7?2=1. Если мо-
дель содержит единственный х-регрессор, то /?2 = г2.
Взяв Р = Х(Х'Х)~Х', где (Х'Х)- — обобщенная обратная мат-
рица для Х'Х, находим, что доказанная теорема остается в силе
и в случае неполноты ранга матрицы X. Можно также взять
Р = Х£ (Х{Х!)-1Х{, где матрица X! образована линейно независи-
мыми столбцами матрицы X.
Покажем теперь, что критерий для проверки произвольной
гипотезы вида Ар = 0, не затрагивающей значения ро (а боль-
шинство критериев относится именно к такой категории), можно
рассматривать как критерий для проверки значимости умень-
шения величины
Теорема 4.3.
ляется в (4.1) и
Пусть YH = [(У,//)] = Хр„, величина опреде-
02 2(р<н-^)2
*Н~ ^(Xi-YY •
Пусть линейные ограничения Н: Ар = О не затрагивают значе-
ния ро, т. е. А = [0, AJ. Тогда F-статистика для проверки гипо-
4.2. Множественный коэффициент корреляции
111
тезы Н имеет вид
Р _ (R2—Rh) (п—р)
(1-R2) * <? •
Доказательство. Согласно соотношению (4.4), Y// = P//Y, где
Ря—симметричная идемпотентная матрица. Поэтому
YhYh=Y'PAY=Y'P„Y = Y'Yh.
Ограничения А₽ = 0 не содержат Ро, так что если г = е'8+
4- 1'Ар, то равенство <3г/3ро=0 приводит к де'в/дро=0, т. е.
=0. Таким образом, соотношения (4.28) и (4.29)
остаются в силе и при гипотезе Н. Следовательно, теорема 4.2,
связанная только с этими двумя соотношениями, также сохраняет
силу при гипотезе Н. Дважды применяя обе части теоремы, по-
лучаем
RSS„-RSS .So'z-W-Sa't-Fz)2
RSS
_ S(F<-F)2-S(Ffz/-F)2 _ R2-R„ - m ЧП
“ 2>/-Т)2-2Л-П« ~
Вероятно, наиболее важным является применение этой тео-
ремы к гипотезам вида Н: Ру = О (/У=0). В этом случае при
введении дополнительного регрессора, скажем xJt остаточная сумма
квадратов не может увеличиваться, а, следовательно, коэффициент
детерминации — уменьшаться, поскольку RSSH—RSS^O (а по-
этому и R2—Rh^Q).
Пример 4.4 (Goldberger (1964, с. 186)). Докажем, что в об-
щей линейной модели регрессии полного ранга статистика R2 и
F-статистика для проверки гипотезы Н: Ру = О (/5^0) не зависят
от единиц измерений, в которых выражены Yt и xif.
Решение. Для i=l, 2, ..., п\ /=1, 2, .... р — 1 положим
Zi = kYt и Wij=kjXtl. Пусть у—оценка наименьших квадратов
вектора Р в новых единицах измерения. Тогда если К =
= diag(l, kt, .... kp-.i), то
W = [(o»/z)] = хк, (W'W)-1 = К-1 (X'XHK-1,
Y = (W'W)-XW'Z = K~J (X'X)-xK -XKX' Yk = kK -XP,
Z = W Y=kXK К -xp = fcxfi=k Y,
™ = 2(Z. -p = k2 2 (Ff-F)2 = Ri
Z ^(Z,—Z)2 k^(Y,—Y)2
И
RSS^ = Z'Z—y'W'Z^Y'Y-^P'K-^KX'Y^RSS,
112
Гл. 4. Линейная регрессия: проверка гипотез
В соответствии с примером 4.3 F-статистикой для проверки ги-
потезы Н является
р Р/(»~Р)
dyyRSS ’
где djf есть (/ + 1)-й диагональный элемент матрицы (Х'Х)-Ч
Если^/у—соответствующий ему элемент в (W'W)-1, то d*n = kj2d/j- и .
F yj(n—p)_(kkl/%y(n—P)
Z ~ сГП RSSZ — kJ2d7/k2RSS ~
Упражнения 4c
1. Докажите, что (4.26) можно записать в виде
Р R2(n-p)
2. Предположим, что Pi = P2= ... = 0/>-i = O. Найдите распределение
коффициента R2 и докажите, что
р
4.3. Каноническая форма модели при гипотезе Н
Предположим, что наша задача состоит в проверке гипотезы
Н: А0 = О, где А—матрица размера ^хр ранга q, для модели
полного ранга Y = X0-|-e. Поскольку матрица А имеет q линейно
независимых столбцов, можно без потери общности предполагать
(изменяя в случае необходимости нумерацию параметров 0у),
что этими столбцами являются последние ее q столбцов. Таким
образом, A = [Aj, А2], где Ая — невырожденная рхр-матрица. Раз-
бивая соответствующим образом вектор 0, получаем
О = А0 = А101 + А202
и, умножая обе части последнего равенства слева на А2 х, находим
03 = А21А101. (4.32)
Это означает, что при выполнении гипотезы Н модель регрессии
имеет „канонический" вид
Х0 = (Х1, Х2)0 = Х10х + Х202 = (Х1-Х2А2-1А1)01 = Хл?, (4.33)
где Хл = (Хх—Х2А21А1)—матрица размера их(р—<?)—имеет ранг
р—q и Т = 0! Столбцы матрицы Хл линейно независимы, так как
Хд01 = 0 « Х0 = 0^0 = О^0| = О.
4.3. Каноническая форма модели при гипотезе Н
113
Представляя гипотетическую модель Н: <£[У] = Хлу в том же
виде, какой имеет исходная модель <£[Y] = X0, видим, что для
вычисления RSS и RSSH можно использовать один и тот же пакет
программ, конечно, при условии, что отыскать матрицу Хл в точ-
ном виде довольно просто. В том случае, когда матрицу Хл
отыскать трудно, числитель F-статистики для проверки Н можно
найти непосредственно, используя метод § 11.10.
Указанную теорию очень легко применить к гипотезе Н: ₽2=0.
В этом случае матрица Хл образована попросту первыми р—q
столбцами матрицы X. (См. также разд. 3.7.1, в котором эта за-
дача решается в обратном порядке: сначала подбирается Хлу, а
затем Хл дополняется до X.) Другие ее применения указаны в
гл. 9 и в следующем примере.
Пример 4.5 (Graybill (1961, с. 136)). Предположим, что у
нас имеется пА наблюдений величин wlt w2, ..., и U, при-
водящих к модели
Ut = То1’ + Т?Ч1 + - • • + TpliK’z. р-t + (t = 1, 2, ..., nJ,
или Uj = где 1)1~1УП1(0, <j2I„J. Пусть теперь мы по-
лучили еще п2 > р дополнительных наблюдений, которые пред-
ставляются моделью
U. = То2’ + Т12Ч-1 + • • • + Tp-i®/, p-i + П/
(1 = ^ + 1, П14-2, .... ttj + nj,
или U2 = W2y2 +i]2, где ч]2~У«а(0, o2I„J. Найдите F-статистику
для проверки гипотезы Н о том, что дополнительные наблюдения
описываются первой моделью.
Решение. Предполагая, что столбцы матрицы (Wo W2) линейно
независимы, мы приходим к модели
\ ° ^2/\Уг1 \Ч1/
I
или Y=X₽+£, где X—матрица размера пх2р ранга 2р, п=П1+п2
и е~У„(0, о2!„). Поскольку гипотеза Н означает, что Ti = Ts>
или, что равносильно, АР=(1Г - 1,)0=О, то применима общая
теория регрессии. Каноническая форма модели при гипотезе Н
имеет вид
ZW \
y=(^wJt+e=x^t+8,
где Хл есть (пхр)-матрица ранга р (она содержит р линейно не-
зависимых строк матрицы WJ, а 7=7Х=72- Соответствующая
114
Гл. 4, Линейная регрессия: проверка гипотез
F-статистика равна
F_ (RSSH-RSS)/p
RSS/(n —2р)
где
RSS= Y'Y - 2
RSS„ = Y'Y -tf, (WjU, 4- W'U2),
Tr = (W;W,)-»W;Uz
^ = (ХЛХЛ)-*ХЛУ.
Упражнения 4d
1. Представьте гипотезы из примеров 4.1 и 4.2 (разд. 4.1.3) в форме (4.33).
2. Покажите, что обычную модель регрессии полного ранга и гипотезу Я:
А0=О для этой модели можно преобразовать к модели Z=n4-i), где р/)+1 =
= Нр+2=«--=Мп = 0 и »)~Я„(0, а2!п), и гипотезе Н: Ц1=р2= • • • =ц9=0.
(Указание. В пространстве [Хл] выберите ортонормнрованный базис из
р—q векторов {«9+i> «9+2. «р}. Дополните его до ортонормированного
базиса {alt a2, ...,a_) пространства 5? [X], а затем до ортонормированного
базиса {«!, а2, ..., а„} пространства Еп. Рассмотрите преобразование Z=T'Y,
где Т = (а1( а2, .... й„)— ортогональная матрица.)
3. Из нормальной совокупности с неизвестной дисперсией о2 берется n-|* 1
наблюдений F/ (/ = 1, 2,;.., п-|-1). При этом имеется- подозрение, что после
проведения п наблюдений произошло скачкообразное изменение среднего
значения распределения. Найдите статистику критерия для проверки гипотезы
о том, что при проведении («4* 1)‘го наблюдения среднее значение распреде-
ления остается тем же, что л в предшествующих наблюдениях.
4.4. Критерий согласия
Предположим, что для каждого набора значений регрессоров
в модели
Y = р0 4- Рл + Рл + • • • + PP-iXr-i + е (4.34)
производится несколько повторных наблюдений Y, а именно
‘ ^fr = Po + Pi^i + p2^+---+PF-ix.-./>-i + 6fr. (4.36)
где £[ez,] = 0, var[eZr] = о2, r=l, 2, .... t = l, 2, ..., n.
Мы подразумеваем здесь, что R; повторных наблюдений для
набора (xilt .... xz, „-J действительно являются повторными
наблюдениями, а не’ сводятся к повторениям измерений одного
и того же значения Yh полученного в одном эксперименте. На-
пример, если р=2, У —выход материала, а хг—температура, то
повторные наблюдения Y 1г (г = 1, 2, ..., Rt) получаются путем
действительного проведения Rz экспериментов со значениями
х1 = х(1 в каждом эксперименте, а не путем проведения един-
ственного эксперимента с х1 = х)-1 и -кратного измерения ве-
4.4. Критерий согласия
115
личины выхода, достигнутого в этом эксперименте. Draper, Smith
(1966) указали, что вторым методом можно получить информа-
цию только о дисперсии показаний самого прибора, измеряющего
выход, а эта дисперсия составляет лишь часть дисперсии о2.
В нашем определении р2 включает в себя также составляющую,
связанную с изменением выхода материала при заданной темпе-
ратуре от эксперимента к эксперименту. Как бы то ни было, при
наличии действительных повторений эксперимента адекватность
модели (4.34) можно проверить, используя F-статистику, при-
веденную ниже.
Положим для краткости в (4.35) Yir—8ir=<h- Тогда, выра-
жая все в векторной форме:
¥' = (Уц. .........У1^, • • ' » Уп1> УП2, •••. УпК„) и Т.Д., (4.36)
имеем Y = W4> + 8, где
1*1 0 ... 0 ф|
УУф= 0 ’«2 ... 0 ф2 (4.37)
• • * • • • « • • • • • • •
0 0 •..
Обозначим /V = Тогда W есть (А/ х и)-матрица ранга п.
Мы предполагаем также, что e.~NN(0, o2Iw). Теперь проверка
гипотезы (4.34) оказывается равносильной проверке гипотезы
Я: ФХ = РО + РЛ1 + • • • + р-i 0 = 1» 2, п),
или Н: Ф = Хр, где X есть nxp-матрица ранга р. Эту гипо-
тезу можно выразить и в более привычной форме „уравнения
линейных ограничений**, используя следующую теорему.
Теорема 4.4. Включение Ф £ 91 [X] имеет место тогда и только
тогда, когда для некоторой (п—р)хп-матрицы А ранга п—р
выполняется соотношение Аф = 0.
Доказательство. Пусть Р = Х (Х'Х)-ХХ'. Если Ф£5ЦХ], т. е.
Ф=ХРдля некоторого р, то (1„—Р)Ф=(1„—Р)Хр=О (теорема 3.1
(iii)). Обратно, если (1„—Р)Ф = О, то ф = Рф = X (Х'Х)-1Х'Ф =
= Ху € Si [X]. Поэтому Ф € Si [X] в том и только в том случае,
когда (1„-Р)Ф=О. В силу теоремы 3.1 (ii), (ихп)-матрица (1„—Р)
имеет рацг п—р, и потому в ней имеется п—р линейно незави-
симых строк, из которых можно образовать требуемую матрицу
А.
Используя доказанную теорему, мы видим, что общая тео-
рия регрессии применима к рассматриваемой в этом параграфе ги-
116
Гл. 4. Линейная регрессия: проверка гипотез
потезеЯ; только п, р и q следует заменить при этом на N, п и
п—р соответственно. Поэтому
р___(RSS/y— RSS)/(/z— р) .
~ V.SSI(N—n)
величина RSS находится непосредственной минимизацией суммы
S/S, (Yir—Ф;)2. Беря производную по получаем
%Yir
Ф.у*-, RSS=22 (У.г-У^2-
Чтобы найти RSSZ/, минимизируем сумму (Yir—ро —
— РЛт—•••—₽p-ixi,/>-1)3- Используя равенства dd/d[io — O и
dd/dfy = 0 (/ =/= 0), получаем
? (Уь -Ро-РЛч- • • • ,-i) = 0 (4.38)
и
^I^JXij (Уir Ро РЛ1 ••• Pp-lXi, р-1)~0 ...,р — 1),
i г
т. е.
S xtj (У*- Ро Pi-^/i • • • Рр-Л', р-i) == 0- (4.39)
Поскольку уравнения (4.38) и (4.39) суть обычные нормальные
уравнения, если пренебречь заменой Yt на Zt = Yi., то имеем
P„ = (X'X)-»X'Z
и
RSSH = 2 S (Yir РоЯ — Pl/Ail — • • • Pp-i, HXi, p-1)2-
i r
4.5. Случай, когда матрица плана имеет неполный ранг
4.5.1. F-критерий и проекционные матрицы
Прежде чем рассматривать случай, когда (пхр)-матрица X
имеет ранг г < р, полезно, как мы убедимся в дальнейшем, при-
вести более общую (по сравнению с уже представленной) теорию
F-критерия.
Предположим, что имеется модель Y = 0 + 8, где 0 £ £2 (г-мер-
ное подпространство пространства £„), и нужно проверить ги-
потезу Н: 0(E% где со—некоторое (г—д)-мерное подпространство
пространства £2. При этом справедлива
Теорема 4.5. Если гипотеза Н верна и 8~Я„(0, о21„), то
„_(RSSw-RSS)/<7_ «'(Ре-Р^е/? „
RSS/(n—г) ~ в' (1„-Рй) е/(л-г) ~ "-°
4.5. Случай, когда матрица плана имеет неполный ранг
117
где Рц и Рш—симметричные идемпотентные матрицы, проектирую-
щие Е„ на й и й соответственно (приложение В).
Доказательство. Статистики 0 = PKY и 0/y = P„>Y являются
оценками наименьших квадратов для 0 при предположениях
0£Q и Ogco соответственно. Поэтому
RSS==|| Y —ё||2= Y' (1„-Рй) Y
и
RSSH=Y'(I„-PG))Y.
Поскольку 0£й, имеем (1„—Ра)0=О, так что
RSS = (Y—6)' (I„-PO)(Y-0) = 8'(I„-PO)8.
Подобным же образом, если гипотеза Н верна, то 0£<о и
RSSH = e' (1„—Ри)е.
Далее, матрицы (1„—Ps) и (Ра—Р«) являются проекторами на
S2-L и й-^ПЙ (см. В1.6 и В3.2), так что они симметричны и идем-
потентны (В 1.4) и имеют ранги п—г и г—(г—q) = q соответст-
венно (В1.5). Поэтому, согласно теореме 2.8 и примеру 2.6 (или
теореме 2.9) из§2.4, статистики e'(Pa — Ри)е/о2 и е'(1„—Рй)е/о2
имеют распределения и %2_г соответственно. Таким образом,
F~FQ,n_r.
Нетрудно заметить, что утверждение (iv) теоремы 4.1 является
частным случаем доказанной теоремы: здесь Й = 5ЦХ] и
со = off [А (Х'Х)"1 X'] Г) когда с=0. В следующем разделе мы
обобщим и остальные утверждения теоремы 4.1.
4.5.2. Гипотезы, допускающие проверку
Пусть Y=04-8, где 0 = Хр и матрица X имеет размер пхр
и ранг г (г < р). Предположим, что мы хотим проверить гипо-
тезу Н: Ар=О, где А—известная </х р-матрица ранга q. Поскольку
матрица X теперь имеет неполный ранг, возникает новая про-
блема. Может оказаться, что гипотезу Н вообще нельзя прове-
рить. Например, если строки матрицы А не зависят линейно от
строк матрицы X (и, следовательно, —г), то, согласно тео-
реме 3.9 из § 3.8.1, для каждого 0£5i[X] существует некоторое р,
удовлетворяющее уравнениям 0 = Хр и Ар = О. Такое р опреде-
ляется однозначно, если q = p—г. В последнем случае уравнения
Ар = О являются просто идентифицирующими ограничениями для
определения р, так что значения вёктора 0 не ограничиваются
каким-либо подмножеством пространства 3J[X]. Поэтому, если
a't обозначает i-ю строку матрицы А, мы можем игнорировать
любое уравнение а$ = 0, для которого а,- не зависит линейно от
118
Гл. 4. Линейная регрессия: проверка гипотез
строк матрицы X, и наша допускающая проверку гипотеза опи-
сывается оставшимися уравнениями. Приходим к следующему
определению.
Определение. Говорят, что гипотеза Н: А0 = О допускает
проверку (testable), если строки матрицы А линейно выражаются
через строки матрицы X, т. е. если существует такая qxn-ма-
трица М, для которой
А = МХ. (4.40)
Это определение применяется, когда строки матрицы А не
являются линейно независимыми. Однако если <?хр-матрица А
имеет ранг q, то и матрица М должна иметь ранг q (поскольку
rankA^rankM; см. А2.1).
Указанное определение применимо и к более общему случаю
А0 = с, где с#;0 и с£.СЯ[А]. Чтобы показать это, сдвинем начало
координат (как в разд. 3.9.2) и редуцируем модель и гипотезу
к виду
Y==Xy-]-£, Ау = 0. (4.41)
Здесь у=р—ро, где ро— решение уравнения Ар = с, и Y=Y—Хро.
Ясно, что исходная модель допускает проверку тогда и только
тогда, когда проверку допускает преобразованная гипотеза.
Заметим, наконец, исходя из разд. 3.8.2, что гипотеза Н
допускает проверку тогда и только тогда, когда каждая линей-
ная комбинация ajp оцениваема.
Теорема 4.6. Пусть гипотеза Н: Ар = с, где А—матрица
размера kxn ранга q (q^.r), допускает проверку, и пусть RSS
и RSSW—минимальные значения £Z£ = ||Y— 0||2 без указанных
линейных ограничений и при наличии таковых соответственно.
Тогда
(i) если гипотеза Н верна, то
/7_(RSSH-RSS)/^
RSS/(n—г) ~r<hn-r>
(ii) RSSH—RSS=(Ap—с)'[А (Х'Х)“А']_ (Ар—с), где р—лю-
бое решение уравнения X'Xp=X'Y.
Доказательство, (i) Приведем сначала модель и гипотезу к
виду (4.41). При этом модель принимает вид Y = 0-|-e, где
0£5i[X]=Q, и, поскольку М0 = МХу = Ау — 0, гипотеза Н обра-
щается в 0£(о = о№[М]лП. На основании разд. 3.9.2 замечаем,
что пространство w-1-ПЙ = 5^[Р£гМ'] имеет размерность q. Кроме
того, поскольку (1„—Ру)Х = 0, то
(1„-Р0) Y = (1„ -Ро) (Y -Хр + X (Р—Ро)) = (!„ -Ра) 8.
4.5. Случай, когда матрица плана имеет неполный ранг
119
При выполнении гипотезы Н справедливо равенство
(Pfi-PJY = P , (Y-X₽ + XV) = P . е
Ору G) П
в силу (РйМ')'Ху = МХу = Ау = 0. Искомый результат получаем
теперь, вспоминая теорему 4.5.
(ii) Из соотношения (3.68) (разд. 3.9.2) вытекает
RSS„—RSS = Y'Pj.n£2Y
= Y' X (Х'Х)- А' [А (Х'Х)~ А']" А (Х'Х)- X'Y
= (А₽-с)' [А (Х'Х)- А']- (А₽—с)
(см. В1.8), поскольку
А (Х'Х)" X'Y = MPQ (Y — ХР0) = МРЙY —МХ₽0
= МХ₽—Ар0 = А₽—с. я
К приведенным результатам можно прийти и другим, правда,
довольно унылым путем, опираясь только на свойства обобщен-
ных обратных матриц (см. John, Smith (1974)). Часть (i) доказанной
теоремы более важна в практическом отношении, поскольку RSS
и RSSH часто можно получать простым дифференцированием или
даже, как во многих ситуациях дисперсионного анализа (гл. 9),
из вида самих формул.
Упражнения 4е
1. Пусть гипотеза Н-. А0 = с допускает проверку. Докажите, что
Й)(А₽] = о2А(Х'Х)-А',
и покажите, что эта матрица будет невырожденной, если строки матрицы А
линейно независимы.
2. Используя обозначения теоремы 4.6, докажите, что
ElRSS/j — RSS] = oag + (Ар — с)' [А(Х'Х)- А']- (АР—с).
4.6. Проверка гипотез при дополнительных ограничениях
Рассмотрим сначала модель полного ранга Y = X04-s, где
X—матрица размера ихр ранга р, но только с дополнительными
ограничениями С0 = О, где С—матрица размера kxp ранга k. Мы
хотим проверить гипотезу И: А0 = О, где А есть (q х р)-матрица
ранга q и строки матрицы А не выражаются линейно через строки
матрицы С (так что q + k^p). Используя обозначения разд. 4.5.1,
имеем Q=5?[X]n JV’[C(X'X)-tX'] (так как Ср = С(Х'Х)-1Х'0) и
со = off [А (Х'Х)-1 X'] Л Q. Интерпретируя й и (А', С')' как со и А
соответственно (разд. 3.9.2), находим, что й и со имеют размер-
120
Гл. 4. Линейная регрессия: проверка гипотез
ности р—k и q. Поэтому, согласно теореме 4.5 из разд. 4.5.1,
если гипотеза Н верна, то
р__(RSSh RSS)/g р . .
RSS/[«—(р—/г)] ro.n-p+k-
Этот результат остается в силе и для случая гипотезы Н: Ар=с
(с=/=0). Здесь просто находим такое ро, для которого
А\„ (с>
С/Ро = \оЛ
и, как и в предыдущем разделе, берем Y = Y—Хро.
В изложенном выше материале о проверке гипотез способ,
которым отыскиваются в действительности RSS и RSSZ/, не имеет
никакого значения, поскольку эти величины определены одно-
значно. Тем не менее обычно надо проявлять известную осто-
рожность при определении степеней свободы числителя и знаме-
нателя F-статистики.
Что изменится, если предположить, чрэ матрица X имеет
неполный ранг, а полная совокупность ограничений Ср = О и
Ар = с допускает проверку? Оказывается, что в этом случае надо
просто заменить р в (4.42) на действительный ранг матрицы X.
Это можно доказать, повторяя ход рассуждений в теореме 4.6
из предыдущего раздела.
Упражнения к гл.4
1. Пусть Fj, F2, F3, F4—результаты воздушных наблюдений соответст-
венно углов ©j, 02, Оз. 04 расположенного на земной поверхности четырех-
угольника. Считая, что наблюдения имеют независимые нормальные ошибки
с нулевыми средними и одинаковой дисперсией с2, найдите статистику крите-
рия для проверки гипотезы о том, что наблюдавшийся четырехугольник — па-
раллелограмм с 0!=0з и ()2 = 04 (взято с изменениями из Silvey (1970)).
2. Пусть Y—А„(Хр, о21„), где X—матрица размера пХр ранга р, И
пусть хр=(хь х2)(р!, р2)', где матрица Х4 состоит из первых р, столбцов
матрицы X (pi < р), а вектор р, образован первыми р4 элементами вектора р.
Докажите, что если Р2 = Х2(Х2Х2)-1Х2, а гипотеза Н имеет вид Р, =0, то
E[RSSH-RSS]=a2Pi-bp;x; (I„-P2) XjPj.
3. Пусть Pi, р2, ..., р9 — некоторое подмножество элементов вектора р
в модели S I Y] = xp. Докажите, что гипотеза Н: Pi = P2= ... =Р9 допускает
проверку тогда и только тогда, когда линейные комбинации 2f=i С'Р' оцени-
ваемы для всех наборов1сд удовлетворяющих соотношению
4. Пусть р—любое решение нормальных уравнений и гипотеза Н: Ар = с
допускает проверку. Докажите, что если А—матрица размера qXp ранга q,
то
(а) Ар имеет многомерное нормальное распределение.
(Ь) Если гипотеза Н верна, то (Ар— с)' (А (Х'Х)- А']’ (Ар — с)/о2 — )$.
Упражнения к гл. 4
121
(с) АД статистически не зависит от II Y — Х₽ ||а.
5. Пусть имеются две линии регрессии
Yki = ^kXi+«'ki (k = \, 2; /=1, 2, .... п).
Покажите, что F-статистику для проверки гипотезы Н: р1 = р2 можно
представить в виде
р (fc-fls)2
Найдите RSS и RSSh и проверьте, что
RSSh - RSS = —-------н-------,
Глава 5
ДОВЕРИТЕЛЬНЫЕ
ИНТЕРВАЛЫ И ОБЛАСТИ
5.1. Совместное интервальное оценивание
5.1.1. Проблема совместных выводов
Одной из типичных статистических проблем является задача
отыскания двусторонних доверительных интервалов для k линей-
ных комбинаций ajp (1 = 1,2, Ее решением могла бы
являться система k доверительных 1-интервалов вида (4.25) из
разд. 4.1.5, а именно
(5-1)
Однако если даже мы сможем придать вероятность 1—а каж-
дому отдельному интервалу, то общая вероятность того, что ука-
занные доверительные утверждения будут выполняться одновре-
менно, не будет равна 1—а. Чтобы убедиться в этом, предпо-
ложим, что Et (1=1, 2, ..., Л)—событие, состоящее в том, что
i-е доверительное утверждение верно, и положим рг[Е,]=1—at.
Если Et—событие, дополнительное к Et, то
[л 1 ----- г
£/1 = 1 —рг[ п рг Гу £/]
k k
>l-2pr[^]=l-Sa,. (5.2)
i=l i=l
Для случая at = a (1=1, 2, ..., k) получаем неравенство
[л 1
П Et > 1 — ka, (5.3)
i=l J
так что вероятность правильности всех доверительных утвержде-
ний не равна 1 —а, а является величиной, большей 1 —ka.
Например, если а = 0.05 и k= 10, то 1—&а = 0.5. Впрочем, как
указал Miller R. G. (1966, с. 8), неравенство (5.3) является
в действительности не столь грубым, как это можно было бы
ожидать, если k не слишком велико (скажем, k ^5), а а мало
(скажем, а=0.01).
5.1. Совместное интервальное оценивание
123
Стоит также отметить, что если зависимость между событи-
ями Е,- мала, то
рг [ п £,] = рг d рг [^21 • • •рг J .......£*-1]
= pr [EJ pr [Е J. pr [Eft] = (1 -aj (1 -а2)... (1 -aft).
(5.4)
Последняя ситуация характерна для многих задач дисперсион-
ного анализа, в которых доверительные интервалы часто осно-
вываются на статистиках, числители которых (здесь а(р, ...
..., либо взаимно независимы, либо близки к таковым, а зна-
менатели содержат общую для всех случайную величину, подоб-
ную S2. Во многих случаях правая часть (5.4) дает нижнюю
оценку для prj’nE'zJ (см. Sidak (1968, с. 1428) и Dykstra и
др. (1973)).
С событиями Е, связана и другая проблема. Если а, = 0.05
(£=1,2, .... Л), то существует один шанс из 20, что будет сделано
неправильное доверительное утверждение относительно а#. Таким
образом, можно ожидать, что при 20 сделанных доверительных
утверждениях одно из них окажется неверным. Иными словами,
5% наших доверительных интервалов окажутся ненадежными.
Можно говорить также об „интенсивности- ошибок**, равной в этом
случае 1/20.
Для общего случая, когда ctz не обязательно равны, Miller R. G.
(1966, с. 8) показал, что ожидаемая интенсивность ошибок
равна ^iailk^ylk (т=2«а«)- Spjotvoll (1972а) предложил
основывать совместные статистические выводы на заданном зна-
чении у, а не на заданном значении 6 = 1 — рг П Е,j = рг|" П Ez J—
вероятности ошибочности хотя бы одного из доверительных утверж-
дений (обычно называемой вероятностью отличия от нуля интен-
сивности ошибок семейства; Miller R. G. (1966)). Во всяком слу-
чае, как видно из неравенства (5.2), 6<Су.
Рассмотрим теперь несколько путей, которые позволяют обойти
указанные выше трудности.
(а) /-интервалы Бонферрони
Если для каждого из k доверительных интервалов вместо
уровня значимости а взять уровень значимости a/k, то из (5.3)
получаем
1—а,
(5-5)
124
Гл. 5. Доверительные интервалы и области
так что общая вероятность накрытия будет не меньше 1 —ос.
Сделаем, однако, одно предостережение. Если значение k велико,
то этот метод может привести к столь широким доверительным
интервалам, что от них не будет никакой практической пользы.
Это означает, что разумного компромисса можно достичь, лишь
увеличивая а, скажем беря а=0.10.
При использовании указанного метода часто возникает необ-
ходимость определения процентных точек /-распределения, не
встречающихся в обычных таблицах /-распределения. В этой связи
полезна следующая приближенная формула (Scott, Smith (1970)):
Здесь za—верхняя ЮОа-процентная точка распределения N (0, 1).
Значения га можно найти путем интерполирования обычных нор-
мальных таблиц или используя, например, обширную таблицу 1
из статистических таблиц Келли (Kelley (1948, с. 37)). Значе-
ния /“ можно получать и на некоторых современных настольных
калькуляторах. В приложении D приведена таблица значений
/“/(2Й) (взятая из работы Dunn (1961)) для значений а=0.05, 0.01;
6=2(1) 10(5)50, 100, 250; v=5, 7, 10, 12, 15, 20, 24, 30, 40,
60, 120, оо. Связанные с ней таблицы, содержащие и другие
значения а,-, имеются в Dayton, Schafer (1973).
Доверительные интервалы, основанные на указанном методе
замены а на a/k, называются /-интервалами Бонферрони, поскольку
соотношение (5.2) есть не что иное, как известное неравенство
Бонферрони (Feller (1968)).
(b) /-интервалы, основанные на максимуме модулей
Пусть u“iV,p—верхняя ЮОа-процентная точка распределения
максимума абсолютных значений k стьюдентовских /-статистик,
каждая из которых основана на v степенях свободы и которые
имеют одинаковый коэффициент корреляции р внутри каждой
пары. Если р = 0, мы опускаем индекс р: Wfe,v.o=wfe.v Далее,
если линейные комбинации аф (t = l, 2, ..., 6) взаимно незави-
симы, то условные коэффициенты корреляции между парами
/-статистик
Т аф—аф
при заданном S2 равны нулю. Поскольку S2 не зависит от каж-
дой из аф, то безусловные коэффициенты корреляции также равны
5.1. Совместное интервальное оценивание
125
нулю И
1—a=pr[’jmaxJTJ<u£„_pJ = pr[|T;|^H£„_p для всех «].
Поэтому для совокупности k интервалов
a'i₽±<n-poa^ (5.6)
общая доверительная вероятность в точности равна 1—а, так
что 6 = а. Если, однако, линейные комбинации аф линейно за-
висимы, что является более частой ситуацией, то доверительные
интервалы (5.6) можно использовать по-прежнему, но они будут
иметь некоторый запас: общая доверительная вероятность будет
не меньше 1—а,- (Этот результат вытекает из теоремы, доказан-
ной Sidak (1968); см. Hahn, Hendrickson (1971) и Hahn (1972).)
Hahn (1972) показал, что при k = 2 доверительные интервалы
zt Wfc, п-р, р°а'р (г ~ 1 > 2),
где р—коэффициент корреляции между ajjj и а2р, равный
р_________________________ах(Х'Х)~1а2_____ .5 у.
Н {ai (Х'Х)-1 (Х'Х)-1а2}1/2 ’ V ’
обеспечивают полную доверительную вероятность, в точности рав-
ную 1 —а. Этот результат полезен при рассмотрении одномерной
линейной регрессии (гл. 7).
В приложении Е воспроизведены таблицы для ngViP из Hahn,
Hendrickson (1971) для значений а=0.1,0.05, 0.01; &= 1(1)6,
8, 10, 12, 15, 20; v = 3(l)12, 15, 20, 25, 30, 40, 60; р = 0.0, 0.2,
0.4, 0.5. В статье Tong (1970) предложена процедура, которую
можно применять для получения завышенных значений м“>чр при
k > 20, используя табулированные значения для &=20.
(с) S-метод Шеффе
Без ограничения общности можно предполагать, что первые d
векторов совокупности {ап а2, ..., aj линейно независимы, а
остальные векторы этой совокупности (если таковые имеются)
линейно зависят от первых d векторов, так что d^min(£, р).
Рассмотрим dxp-матрицу А, для которой А' = [а1, а2, ..., ad],
и пусть Ф = Ар. Матрица А имеет размер dxp и ранг d, так что
используя те же соображения, что и при доказательстве тео-
ремы 4.1 (iii), и полагая Ф = Ар, получаем
(Ф — Ф}' [А (Х'Х)-1 А'] (ф— ф) р /К оч
----------552----------
126
Гл. 5. Доверительные интервалы и области
Поэтому, используя обозначение L = A(X'X)~1 А', имеем
1 -а = pr [Fd.„< F%= рг [(< - ф)' L-i (Ф-Ф) < dS2Fdt „_,]
— рг [(Ф—Ф)' L-1 (ф—Ф) sg т] — pr [b'L Jb т]
==Рг[5“р{таг}</п]=Рг[таг<"г для всех h=^0]
= рг < (dFd.n-PY/2 для всех h| (5.9)
(пятое равенство—следствие A4.ll). Таким образом, для любой
линейной функции Ь'ф мы можем построить такой доверитель-
ный интервал, а именно
Ь'Ф ± {dFln_p)^ S (h'Lh)!/\ (5.10)
что полная вероятность накрытия для всего класса этих интер-
валов в точности равна 1—а. Заметим, что входящая в (5.10)
величина Sah'Lh является попросту несмещенной оценкой для
var [Ь'Ф]. Ее часто можно найти, не прибегая к обращению ма-
триц (см., например, разд. 9.1.7). Поэтому интервал (5.10) можно
записать в более компактном виде
(5.П)
Поскольку для любого ф(- при некотором h выполняется равен-
ство Ь'ф = ф1-, то доверительный интервал для каждого а$ = ф{
(i = l, 2, ..., d) входит в совокупность интервалов (5.11). Кроме
того, в эту совокупность входят и интервалы для Фу (j = d-)-l,
d-4-2, ..., k), так как векторы (j =d+l, .... k) линейно за-
висят от остальных а,. Например, если ad+i = /i1ay + ... -\-hdad,
то Ф4+1 = а^+1р = 2/=1/1(Ф; = Ь'ф. Поэтому если событие состоит
в том, что значение а'|) лежит в интервале
(5.12)
то, поскольку полная совокупность интервалов (5.11) шире, чем
та, которая нам требуется,
1
•С*! I 1-----“•
Заметим, что класс параметрических функций Ь'ф образует
линейное пространство £' с базисом Фу, Ф2, ..., Фй. Оно является
наименьшим линейным пространством, содержащим Фу, Ф2, ..., фк.
Указанный метод принадлежит Шеффе [Scheffe (1953)] и на-
зывается в его книге (Scheffe (1959, § 3.5)) S-методом множест-
венного сравнения. Другие методы построения совместных дове-
рительных интервалов для специальных подмножеств простран-
ства J27 обсуждаются в разд. 9.1.7. По поводу ссылок на работы,
5.1. Совместное интервальное оценивание
127
посвященные вопросам множественного сравнения, читатель может
обратиться к книге Miller R.G. (1966), а также к статьям O’Neill,
Wetherill (1971), Hahn (1972), Miller (1977*).
Класс 3 линейных функций вида Ь'Ф(Ь'Ф = Ь'АР) является
только подклассом класса всех возможных линейных функций а'0,
где а—теперь произвольный рх 1-вектор. Однако, полагая d=
— k = p и A=lJtJ, получаем Ф = Р, так что соответствующие дове-
рительные интервалы для класса всех функций h'0 принимают
вид (ср. с (5.11))
h'B±(P^.n-P)1,2M- (5.13)
Существует интересная связь между совокупностью довери-
тельных интервалов (5.10) и F-статистикой для проверки гипо-
тезы Н: ф — с. Из (5.8) и (5.9) видно, что эта F-статистика не
является значимой для уровня а тогда и только тогда, когда
выполняется неравенство
г (Ф—с)' L-1($—с)^_ Ра
г — ' d.n-p,
а оно справедливо тогда и только тогда, когда ф = с содержится
в области (ф—Ф)' Ь~1(ф— ф)^т, т. е. тогда и только тогда,
когда h'c содержится в (5.10) при каждом h. Таким образом,
статистика F значима, если хотя бы один из интервалов (5.10)
не накрывает h'c, и может возникнуть ситуация, когда каждый
интервал для Ф1 накрывает ct- (i=l, 2, ...» k), но гипотеза Н
отвергается. Например, если k = 2, то раздельные интервалы для
Фi и Ф2 образуют прямоугольник, изображенный на рис. 5.1,
а область (ф—Ф)'Ь~*(Ф—ф)^.т представляет собой изображен-
ный на том же рисунке эллипс. Если какая-то точка с лежит
Рис, 5.1. Сравнение отдельных доверительных интервалов для (Jo и 01 с совместной
доверительной областью.
128 Гл. 5. Доверительные интервалы и области
в пределах прямоугольника, то она не обязательно будет лежать
в пределах эллипса.
5.1.2. Сравнение методов
Если рассматривается k доверительных интервалов, то и /-ин-
тервалы Бонферрони, и /-интервалы (5.6), основанные на макси-
муме моделей, и F-интервалы Шеффе (5.12) приводят к оценке
снизу для pr j” П E,J, равной 1—а. Сравнивая табл. 5.1 и 5.2
(взятые в Dunn (1959)), мы видим, что для а = 0.05, k и зна-
чений k, не слишком превышающих d,
t^2k>^(dFlvyf^. (5.14)
Если k намного больше d, то выполняется обратное неравенство.
Можно также показать теоретически (ср., например, табл. 5.1
с приложением Е), что
(5.15)
так что для обычной ситуации, когда d — k, интервалы, основан-
ные на максимуме модулей, являются наиболее узкими, а F-ин-
тервалы—наиболее широкими. Например, если а = 0.05, d=k = 5,
р=6 и /г= 26, то
v = 20, (AiF^v)i/2 =3.68, /“'«*> = 2.85, u£v=2.82.
Если бы нас интересовал только один /-интервал, то мы бы
использовали значение /£/2>“=2.09, которое намного меньше пре-
дыдущих трех чисел.
Таблица 5.1
Значения для а = 0.05
1 2 3 4 5 6 7 8 9 10 15 20 50
5 2.57 3.16 3.54 3,81 4.04 4,22 4.38 4.53 4.66 4.78 5,25 5,60 6,87
10 2,23 2.64 2.87 3.04 3,17 3,28 3,37 3,45 3.52 3,58 3.83 4.01 4.59
15 2.13 2.49 2.70 2.84 2.95 3.04 3.11 3.18 3.24 3.29 3.48 3.62 4.08
20 2,09 2.42 2.61 2.75 2.85 2.93 3.00 3.06 3.11 3.16 3,33 3.46 3.85
24 2.07 2.39 2.58 2.70 2.80 2.88 2.94 3,00 3.05 3.09 3.26 3.38 3.75
30 2.04 2.36 2.54 2.66 2.75 2.83 2.89 2.94 2.99 3.03 3.19 3,30 3.65
40 2.02 2.33 2.50 2,62 2.70 2.78 2.84 2.89 2,93 2.97 3.12 3.23 3.55
60 2.00 2.30 2.47 2.58 2.66 2.73 2,79 2.84 2.88 2.92 3.06 3.16 3.46
120 1.98 2.27 2.43 2,54 2.62 2.68 2.74 2.79 2.83 2.86 3.00 3.09 3.38
оо 1.96 2.24 2.40 2.50 2.58 2.64 2.69 2.74 2.78 2.81 2.94 3.03 329
Источник| Dunn (1959).
5. 1. Совместное интервальное оценивание
129
Значения (dF“v)1/2 Для а = 0.05
Таблица 5.2
V г\ 1 2 3 4 5 6 7 8
5 2.57 3.40 4.03 4.56 5.02 5.45 5.84 6.21
10 2.23 2.86 3.34 3.73 4.08 4.40 4.69 4.96
15 2.13 2.71 3.14 3.50 3.81 4.09 4.36 4.60
20 2.09 2.64 3.05 3.39 3.68 3.95 4.19 4.43
24 2.06 2,61 3.00 3.34 3.62 3.88 4.12 4.34
30 2.04 2.58 2.96 3.28 3.56 3.81 4.04 4.26
40 2.02 2.54 2.92 3.23 3.50 3.75 3.97 4.18
60 2.00 2.51 2.88 3.18 3.44 3.67 3.90 4.10
120 1.98 2.48 2.84 3.13 3.38 3.62 3.83 4.02
ОС 1.96 2.45 2,79 3.08 3.32 3.55 3.75 3,94’
Источник: Dunn (1959).
Anderson D. А. (1972) указал способ сравнения метода Шеффе
с простым подходом, использующим /-интервалы.’ В некоторых
ситуациях /-интервалы Бонферрони можно использовать для про-
верки гипотез (Christensen (1973)).
*
5.1.3. Проверка гипотез и доверительные интервалы
Как правило, интервальному оцениванию предшествует про-
верка гипотезы вида Н: Ар = с с помощью F-критерия. При этом
построение доверительных интервалов и использование их для
статистических выводов производятся только в том случае, когда
соответствующее /’-отношение оказывается значимым (разд. 4.1.5).
Два примера подобных ситуаций мы приводим ниже.
Пример 5.1. Предположим, что проверяется гипотеза Н:
= (32 = ... = pd = 0. Если эта гипотеза отклоняется, можно исследо-
вать каждое из Р/ (/' = 1, 2, ..., d) отдельно, используя для этой
цели доверительные интервалы Р, ± ссгру> строящиеся по любому
из трех указанных выше методов. (Если интервалы, основанные
на максимуме модулей, являются наиболее узкими, то предпочти-
тельнее использовать именно их.) При этом мы рассчитываем на
то, что те из построенных интервалов, которые не содержат нуля,
указывают на те р/, которые значимо отличаются от нуля, и на
величину соответствующих отклонений. Используя метод Шеффе,
5 № 571
130
Гл. 5. Доверительные интервалы и области
можно получить доверительные интервалы для всех линейных
комбинаций
Пример 5.2. Пусть проверяется гипотеза Н: Pi — Рг — • • — 0<f+i*
Если эта гипотеза отвергается, то нас интересуют значения всех
£ = d(d+l)/2 разностей р,—р,. Например, если d = 4, п—р =
= v = 20 и а=0.05, то £=10, (dFJ = 3.39, /“/^> = 3.16
и и?, v = 3.114, так что интервалы, основанные на максимуме мо-
дулей, являются наиболее узкими. Гипотезу Н можно записать
также в виде Ф* = Pt-—pd+J: = 0 (t=l, 2, ..., d), и метод Шеффе
приводит к доверительным интервалам для всех линейных комби-
наций
d d f d \ d+1
2 hfii = 2 h&i—( 2 hi )Рй+1= 2 (5.16)
где У,2/ cf = 0. Таким образом, каждая линейная комбинация
разностей Ф,- является сравнением1) (contrast) параметров pz. Обра-
щая эти рассуждения, мы получаем также, что каждое сравне-
ние параметров р; является некоторой линейной комбинацией раз-
ностей ф£. Поэтому метод Шеффе дает нам совместные доверитель-
ные интервалы для всех сравнений параметров pz (i=?l, 2, ...
.... d+l).
Следует отметить, что при выполнении предварительной про-
верки гипотезы Н с помощью F-критерия вероятность накрытия
для построенных затем доверительных интервалов надо рассматри-
вать как условную вероятность pr Q Et J | F-статистика значима).
Последняя же может оказаться как больше, так и меньше без-
условной вероятности рг^ Г) (Olshen (1973)).
5.1.4. Доверительные области
Предположим, что d=sk. Из (5.9) тогда получаем
1—а=рг[(ф—ф)' Ь-1(Ф—ф) <т].
Это есть вероятность попадания ф в эллипсоид (Ф—Ф)' L-1 (Ф—Ф)^т
(заметим, что матрица L, а следовательно, и матрица L-1 поло-
жительно определены) с центром в точке ф. Этот эллипсоид яв-
ляется, таким образом, 100(1—ос)-процентной доверительной об-
ластью для ф. Однако если значение k не мало (не равно, ска-
*) Сравнением параметров 0/, 4=1, ..., п, называется всякая линейная
комбинация 2”=1с/₽/ этих параметров, для которой У"д1 Cj—O. Иногда вместо
Термина „сравнение" используют термин „контраст",— Прим. ред.
5.2. Доверительные полосы для поверхности регрессии
131
жем, 2 или 3), то такую область нелегко построить и довольно
трудно интерпретировать. Поэтому бывает достаточно разумного
описания доверительной области посредством изолиний или изо-
поверхностей. Например, если & = 3, то доверительную область
можно изобразить в двух измерениях в виде контурной карты,
как это сделано на рис. 5.2, где представлены графики зависи-
мости <t>i от Ф2 при трех различных значениях Ф3.
Рис. 5.2. Контурная карта доверительной области для Ф" = (</>!, Ф?, Фз)-
Если k > 3, то и тогда еще можно представить себе в общих
чертах вид доверительной области, используя для этой цели сово-
купность койтурных карт. Однако такой подход имеет, вообще
говоря, небольшую ценность.
5.2. Доверительные полосы для поверхности регрессии
Если мы уже оценили вектор р по п наблюдениям Y, то можно
использовать предиктор
= + = х'р
для исследования формы поверхности регрессии
f (Xit Х2, . . ., Xp-i) = ₽о +₽Л + . » +P^-iXp-i = х'р
при различных значениях регрессоров Ху. В частности, можно
построить двусторонний 100(1—а)-процентный доверительный ин-
тервал для значения f при фиксированном значении вектора х',
скажем при x' = xi-(l, хш1, х«2, ..., хФ1/,_^), используя оценку
5*
132 Гл. 5. Доверительные интервалы и области
У,=Х$. В соответствии с (4.24) получим интервал
Y,±t™aSVv., (5.17)
где ».=х! (Х'Х)-1 х«.
Если нас интересуют k различных значений вектора х, ска-
жем x = az (i—1, 2, k), то можно использовать любой из
трех методов, обсуждавшихся в § 5.1, и получить k двусторон-
них доверительных интервалов, для которых совместная вероят-
ность накрытия будет не меньше 1—а. (Использование в этой
задаче интервалов Бонферрони и Шеффе восходит, по-видимому,
к Lieberman (1961).)
Если нас интересуют все возможные значения вектора х, то,
используя метод Шеффе, мы заключаем из (5.13), что х'Р попа-
дает в области
х'Р ± « „_Р)1/2 S {х' (Х'Х)-1 х}1^ (5.18)
сразу для всех х' = (1, х2, .... xp_t) с вероятностью, в точ-
ности равной 1 —а. (Хотя на первый элемент вектора х у нас и на-
ложено ограничение, а именно он равен единице, это вовсе не озна-
чает того, что в (5.18) должна стоять константа [(р—1)F “_lt „_р]1/а.
Дело в том, что этот интервал инвариантен относительно изме-
нения масштаба любого из элементов вектора х. См. Miller R. G
(1966, с. ПО—114).) Выражение (5.18) приводит к паре поверхно-
стей, определяемых функциями f* и f„ где
РГ [f Х2, . . ., Хр^) > f (Хи Х2, . . ., Xp-i)
> f* (Xlt х3,..., Xp-i) для всехxif х2,..., хр^]=
= 1—<х.
Область, заключенная между f* и f„ обычно называется довери-
тельной полосой. Как указал Miller R. G (1966), частью полосы,
соответствующей тем участкам поверхности регрессии, которые
не представляют интереса или не имеют физического смысла, пре-
небрегают. Это означает, что вероятность, относящаяся к дове-
рительной полосе для поверхности регрессии, соответствующей
ограниченной области значений вектора х, превосходит величину
1—а, и интервалы, задаваемые соотношением (5.18), являются
более широкими, чем это необходимо. Задачу построения для
поверхности регрессии доверительной полосы, имеющей довери-
тельную вероятность, в точности равную 1 —а при ограниченной
области изменения вектора х, рассмотрели Wynn, Bloomfield
(1971). Halperin, Gurian (1968) приводят решение этой задачи
5.3. Доверительные интервалы для отклика
133
для случая эллипсоидальной области, центр которой совпадает
с вектором средних (хп х2, ..., xp_t). Различные решения, отно-
сящиеся к случаю одномерной линейной регрессии, детально рас-
сматриваются в разд. 7.2.3.
Метод Шеффе, приводящий к интервалам (5.18), является
частным случаем более общего метода, который разработал Bow-
den (1970). Пусть
max|az |,
1 < оо,
т = оо.
Тогда, как показал Bowden (1970),
pr [|х'₽-x'PKS||x||mz“ для всех х]=1 — а. (5.19)
Здесь г„—верхняя 100а-процентная точка распределения вели-
чины || (Р—P)/S||„. Полагая т — 1, 2 или оо и меняя значение х,
можно получать различные типы доверительных полос. Если р = 2
(случай одномерной линейной регрессии), то доверительная полоса
либо имеет постоянную ширину или является трапециевидной
(т—1), либо является гиперболической (т = 2), либо ограничена
отрезками прямых (/и = оо). Для р>2 метод Шеффе (т = 2)
и его односторонний аналог обладают некоторыми оптимальными
свойствами (Bohrer (1973)).
Если k велико, то естественно выяснить, будут ли и в этом
случае f-интервалы (5.6), основанные на максимуме модулей,
оставаться более узкими по сравнению с интервалами, опреде-
ляемыми доверительной полосой (5.18), в частности когда k^> р.
Hahn (1972) вычислил отношение
r Uk, п—р
~(pF^,n-P)^
(5.20)
длин этих интервалов для значений а = 0.1, 0.05, 0.01 и для раз-
личных значений k, р и п—р. В табл. 5.3, взятой из Hahn
(1972, табл. 3), указаны максимальные значения k (для а—0.05,
р = 2, 3, 5 и п—р = 5, 10, 20, 40, 60), для которых г < 1. Hahn
установил также, что для указанных значений а отношение г
с уменьшением а несколько возрастает.
5.3. Доверительные интервалы для отклика
В предшествующем параграфе мы рассмотрели задачу пред-
сказания для заданного значения х=х, значения поверхности
134
Гл. 5. Доверительные интервалы и области
Таблица 5.3
Максимальное значение k, для которого г < 1 (значение г определяется
формулой (5.20))
а = 0.05
п-р^ 2 3 5
5 3 6 20+
ю, 3 8 20+
20 3 8 20+
40 3 9 20+
60 3 9 20+
Источник: Hahn (1972).
регрессии х'0. На практике, однако, нас обычно больше интере-
сует предсказание значения Yt самого отклика У:.
У. = х;₽4-еш.
Если предположить, что е* ~ N (0, о2) и что не зависит от
е' = (ер е2, ..., е„), то
£(У.-У*] = х'.₽-х'.0 = О,
var [У.—У*] = var [У* ] + var [Уj
= а2х'. (Х'Х)~Х X.+о2 = О2 (V,+1), (5.21)
и (У,—У») ~ N (0, о2 (о*+ 1)). Это дает нам возможность построе-
ния (-статистики и получения следующего 100(1—а)-процентного
доверительного интервала для У»:
Y,±t^aS(vt+\)^, (5.22)
который можно сравнить с доверительным интервалом (5.17).
Если мы хотим предсказать значения У для k различных зна-
чений х, скажем x = a,-(i=l, 2, ..., k), то для этой цели можно
использовать любой из трех описанных в разд. 5.1.1 методов
и получить с их помощью k доверительных интервалов, для кото-
рых вероятность одновременного накрытия будет не меньше 1 —а.
Hahn (1972) показал, что при k — 2 для всех интервалов
y<.ft±«?.„_P1pS(v?> + l)1/2 (i=l, 2),
где y*'₽az'0, v(J) = a-(X'X)-xaz и
_ a{(X'X)~xa2
p «e+i)(e+i)}i/s ’
вероятность в точности равна 1—а.
5.4. Расширение регрессионной матрицы
135
Подобранные (эмпирические) регрессии используются для двух
типов предсказания [Box (1966)]. (1) Для предсказания будущих
значений отклика У при пассивном наблюдении значений регрес-
соров Xj. Мы предполагаем при этом отсутствие какого бы то ни
было вмешательства в систему, так что предложенная модель
регрессии остается в силе и при последующих наблюдениях.
(2) Для выяснения того, каким образом те или иные умышлен-
ные изменения значений регрессоров х} влияют на значения Y.
В этом случае цель состоит в реальной модификации системы
для получения лучшего значения отклика Y. Необходимость раз-
личения этих двух ситуаций подтверждается следующим приме-
ром, заимствованным с некоторыми изменениями из книги Box
(1966).
Обнаружено, что при некотором химическом процессе нежела-
тельное пенообразование может быть уменьшено путем увеличения
давления (хх). В то же время известно, что производительность (У)
не связана непосредственно с изменением давления. Стандартная
процедура управления процессом состоит при этом в увеличении
давления при появлении пены. Предположим, однако, что дей-
ствительной причиной пенообразования является наличие некото-
рой не вызывающей подозрения примеси (х2) и что (это не из-
вестно экспериментатору) возрастание концентрации этой примеси
приводит к увеличению пенообразования и уменьшению У. Если -
переменные xt и х2 положительно коррелированы, так что увели-
чение давления приводит к увеличению количества примеси, то
хотя величина У и не определяется непосредственно изменения-
ми тем не менее между У и хг имеется паразитная отрица-
тельная корреляция, обусловленная тем, что х2 влияет и на
и на У, но в противоположных направлениях. Это означает, что
существует значимая регрессия У на хх, й подобранную регрес-
сию можно использовать для адекватного предсказания значе-
ний У, если, конечно, система продолжает и в будущем вести
себя так же, как и при записи выполненных наблюдений. Однако
эта регрессия не указывает на истинную причинную связь собы-
тий. Мы впадаем в ошибку, полагая что можем увеличить У
путем уменьшения х{.
5.4. Расширение регрессионной матрицы
Предположим, что наша исходная модель регрессии расши-
ряется путем добавления еще одного регрессора, скажем хр, так
что она принимает вид
G: ^ = ₽о + Рл-1 + ••• +PpXip+tii (i=l, 2,..., n).
Как это повлияет на ширину доверительных интервалов, приве-
денных в § 5.2 и 5.3? Ответ оказывается весьма неожиданным; .
136
Гд. 5. Доверительные интервалы и области
эти интервалы будут не менее широкими, чем прежде, а в дей-
ствительности почти всегда будут более широкими! Чтобы убе-
диться в этом, используем общую теорию § 3.7 и покажем, что о®и
(дисперсия оценки Y) не может уменьшаться при включении в мо-
дель дополнительных регрессоров. Полагая
₽/, = ?. 1(-Ч>)1 = хг = z, и W = [X, z],
мы можем представить модель С в виде
Y = Xp+zy-|-e = W6+e.
Оценкой наименьших квадратов для б является
6О= (W'W)-1 W'Y.
В модели G новая оценка для значения Y при заданном наборе
значений регрессоров (х', х*р) равна
У*О ~ (Х» ’ %*р) ®с»
из теоремы 3,7 (v) (разд. 3.7.1) получаем
var [У,0] = й) [У tG]=(x', х,р) ®[бс](х'„ xtp)'
=о2(х;, x^>(W'W)-i(x;, X,PY
Z(X'X)-1 + mkk', —/nk’\Zx, \
= o2(x' %«_)( ,, 11 I,
где m = (z'Rz)-lH k = (X'X)~xX'z.
Производя в правой части умножение и выделяя полный квад-
рат, имеем
var [y,0J = о2х' (Х'Х)-1 х, + mo2 (к'х.—хФ/г)2
о2х' (Х'Х)-1 х. — о2о« = var [У.]. (5.23)
Равенство в (5.23) достигается в том и только том случае, когда
x./,= k'x« = z'X (Х'Х)-1Х'х«. Поскольку дисперсии и ковариации
не изменяются при изменении начала отсчета, указанный резуль-
тат сохраняет силу, даже если <^[Y] и не равняется Хр или W6.
При .этом обе оценки УtC и У. являются смещенными оценками
для <£[Y]. Таким образом, мы приходим к следующему заклю-
чению. Хотя, расширяя модель, иногда можно добиться умень-
шения смещения и улучшения согласия с экспериментальными
данными, дисперсию оценки отклика уменьшить таким способом
невозможно. Walls, Weeks (1969) приводят пример, в котором
переход от одномерной линейной к квадратичной модели дает
десятикратное увеличение дисперсии прогноза в некоторой точке.
Если в качестве оценки качества предсказания используется
среднеквадратичная ошибка, то с включением в модель дополни-
Упражнения к гл. б
137
тельных регрессоров эта ошибка может как возрастать, так и
убывать. Используемая для сравнения различных моделей ре-
грессии С^-статистика Мэлоуса (см. разд. 12.2.3с) основывается
на „средней" среднеквадратичной ошибке.
Полагая х,р — 0 и полагая вектор х* равным вектору-столбцу,
у которого на (/-|-1)-м месте стоит единица, а на всех осталь-
ных—нули, мы, используя указанную выше теорию, приходим
к неравенству var [руо];> var [j-jj. Равенство достигается здесь
тогда и только тогда, когда z'X (Х'Х)-1 Х'х. = 0. Оно выполняется,
ебли вектор z ортогонален столбцам матрицы X. В общем случае
дисперсия оценки наименьших квадратов для (3, при расширении
модели возрастает.
Из всего сказанного надо извлечь следующий урок: необхо-
димо избегать „переусложнения" модели регрессии.
Упражнения к гл. 5
1. Пусть P = f5o+fSixi+-'« + P/>-p7?-i- Покажите, что дисперсия У до-
стигает минимального значения, равного а2 In, в точке х, для которой X] =
= x.j (/ = 1,2, ...,р—1). (Указание', рассмотрите модель Г(=а0+р1(хд—
— xi)4--.. + ₽/?-i(*Z,/>-i—*p-i)+e/.) [Киррег (1972,с.52).]
2. Обобщите доказательство, приведенное в § 5.4. Именно, покажите, что
добавление к модели регрессии нескольких дополнительных регрессоров не
может уменьшить дисперсию предсказания Р. (Разумеется, это можно и не
доказывать, так как мы имеем возможность добавлять регрессоры поочередно
и обращаться к неравенству (5.23).)
3. Пусть К/ = р0-|-р1х(--|-е,- (1 = 1, 2, ..., п), где е/— независимые случай-
ные величины, имеющие распределение N (0, о2). Постройте совокупность сов-
местных доверительных интервалов для всех линейных комбинаций aoPo+^iPi
(ao4-oiО), для которой доверительная вероятность одновременного накрытия
равна 1—а.
Глава 6
НАРУШЕНИЯ ОСНОВНЫХ
ПРЕДПОЛОЖЕНИЙ
Основной моделью многомерной регрессии у нас до сих пор была
модель Y = X0 + e, где X—матрица размера пхр ранга р. Мы
предполагали при этом, что элементы вектора е
(1) не смещены,
(2) имеют одинаковые дисперсии,
(3) некоррелированы,
(4) нормально распределены.
Предположение (1) означает, что <£[е] = 0, предположения (2)
и (3)—что S) [е] = о21„, а предположения (3) и (4)—что элемен-
ты е,- вектора в статистически независимы. Кроме того, неявно
предполагалось, что (5) регрессоры xf не являются случайными
величинами, а представляют собой заранее определяемые постоян-
ные. Если значения регрессоров случайны и измеряются без оши-
бок, то регрессию можно рассматривать как условную относительно
наблюдаемых значений регрессоров (этот вопрос изучается в разд.
6.1.3 и § 6.5). В данной главе мы детально исследуем каждое
из пяти указанных предположений.
Следует заметить, что ошибки, встречающиеся во многих ре-
альных ситуациях, часто бывают нормально распределенными
в силу центральной предельной теоремы. Если е является сум-
мой п возникающих по различным причинам ошибок, то при
возрастании п распределение величины е стремится к нормаль-
ному вне зависимости от того, каковы распределения вероятно-
стей каждой'из этих п ошибок. Это соображение применимо и
к малым ошибкам 6(- в нелинейной системе, поскольку
£ = + ...+8n^L,
и снова е—(взвешенная) сумма ошибок.
6.1. Смещение
139
6.1, Смещение
6.1.1. Смещение, вызванное неполнотой модели
Если S [е] = 0, то имеем <£[Y] = Xp, и оценка наименьших
квадратов p = (X'X)~xX'Y параметра р не смещена. Однако если
аппроксимирующая модель является неполной, т. е. если истин-
ная модель имеет вид
<£[Y] = Xp + Zy, (6.1)
где столбцы матрицы Z не зависят линейно от столбцов матрицы
X, то ошибка е оказывается смещенной и
<£[P] = (X'X)-xX'(Xp + ZV)
= P + (X'X)-xX'Zy = p+Cy, (6.2)
где C='(X'X)_1X'Z. Таким образом,р теперь представляет собой
смещенную оценку вектора р, и ее смещение равно Су. Это сме-
щение зависит и от модели, которую мы постулируем, и от истин-
ной модели. При этом матрицу С можно интерпретировать как
матрицу коэффициентов регрессии переменных, не включенных
в модель, на переменных х, действительно включенных в мо-
дель. При хорошем выборе плана смещение должно сохра-
няться минимальным даже в тех случаях, когда мы работаем
с неправильной моделью. Например, если столбцы матрицы Z
ортогональны столбцам матрицы X, toX'Z = 0, С=0 и оценка р
не смещена. В ряде ситуаций ортогональность столбцов матриц X
и Z может быть описана как нулевая корреляция между двумя
регрессорами х и г [Malinvaud (1970)]. В таком случае неумыш-
ленное игнорирование некоррелированного с х регрессора г может
и не вызвать сколь-нибудь серьезных последствий.
Если истинная модель имеет вид (6.1), то при условии £й[с] —
= о21п мы по-прежнему имеем ® [Р] = о2(Х'Х)~х. Однако если
Р = Х(Х'Х)~1Х' и S2 = Y'(I„-P) Y/(n—р), то
Е [S2] =о2 + Y'Z' (lfl~P)Zv > а2,
поскольку матрица (1„—Р) идемпотентна, а следовательно, поло-
жительно полуопределена, и (1„ — P)Zy=#0 (так как Zy(£5£[X]).
Поэтому S2 является смещенной оценкой для о2.
Чтобы выяснить, как влияет неполнота модели на качество
предсказания, заметим, что
Y = Хр = X (Х'Х)~ХХ' (Хр + Zy 4-е) = ХР + Zy гт], (6.3)
где § [!]] = (£ [(Х'Х)-хХ'е] = 0 и Z = XC. Таким образом, то, что
мы пренебрегли вкладом в регрессию составляющей Zy, привело
140
Гл. 6. Нарушения основных предположений
к использованию в оценке Y вместо матрицы Z ее „оценки" Z.
Что касается остатков, то
<£ [е] = £ [ Y] - S [Хр] = Хр + Zy-(XP + ХСу) = (1„-Р) Zy (6.4)
(последнее равенство справедливо в силу (6.2)) и
® [е] = S) [(I„-P) Y] =о2 (1„ -Р)2 = о2 (1„-Р),
так что неполнота модели проявляется здесь только в смещении
остатков: дисперсионная матрица S>[e] не изменяется. Ramsey
(1969) использовал этот факт для построения критериев для про-
верки гипотезы о неполноте модели.
Другой подход к вопросу о пропущенных или „скрытых" ре-
грессорах приведен в разд. 6.1.3.
Пример 6.1 (Draper, Smith (1966, с. 91)). Предположим, что
модель имеет вид Е [К] = Р„ + Р,х,- тогда как истинная модель
имеет вид Е[У] = Р0 + Р1х + Р2х2. Какие мы получим смещения,
если будем оценивать р0 и 0! в первой модели по наблюдениям Y
в точках х1 = —1, х2 = 0, х3 = +1?
Решение. Представим истинную модель в матричной форме:
б
1 Х1 Х1 Ро 1 -1 г Но
У2 = 1 х2 *2 /?. = 1 0 0 А
Уз 1 Ху хз. А 1 1 1 Р2
1 -1 / Л. 1
= 1 0 1 1 О Y 0 1 A2=xp + Zj82.
Далее,
Х'Ч-!
(Х'Х)-' =
о
1
2
и, согласно формуле (6.2), смещение оценки 0 есть
я 2
Таким образом, смещение оценки ро равно —р„, а оценка р, не
О
смещена.
6.1. Смещение
141
6.1.2. Смещение, вызванное избыточностью модели
Предположим, что истинная модель имеет вид ^)[Y] = X10£,
где Хх—матрица, образованная первыми k столбцами матрицы X,
так что Х = (Х£, Х2). Тогда
/в, \ /ВЛ
S [₽]=(х'хнх'х^=(x'x)-ix'x )=( 0 ). (6-5)
и оценка 01( образованная первыми k элементами вектора 0, яв-
ляется несмещенной оценкой вектора 0,. Кроме того,
<£[Y] = <£[X0] =Х
= Х101
(6-6)
так что аппроксимирующая модель несмещенно оценивает истин-
ную модель. Однако знакомое нам выражение о2 (Х'Х)-* для
дисперсии оценки вектора 0 приводит к завышению значений
дисперсий элементов вектора 0Х. Действительно, полагая X = Х£
и Z = X2 в выражении (3.28) из § 3.7, получаем
(Х'Х)-1 =
(X;X1)-1-|-LML',
—ML',
— LM\
м)
где LML' — положительно определенная матрица. Отсюда в силу
А4.8 имеем
„кажущаяся" var [0,] = „истинная" var [0,.]-|-(LML')„
> „истинная" var [0£].
Поскольку (1„—Р)(Х£, Xg) = 0 (теорема 3.1(iii)), справедливо
равенство
Е [Y' (I„—Р) Y] = (Л-р)о2 + ₽;х; (1„-Р) Х£0£ = (п-р.) о2,
и S2 является несмещенной оценкой для о2.
6.1.3. Смещение и случайные регрессоры
Рассмотрим модель
Y = 0О + 0Ля + • • • 4- 0л, = 00+0Л + •. • + 0лг + 6 (Г < S),
где Xj (/=1, 2, ..s)—случайные величины с Е[Ху] = 0у, а
„ошибка" S связана с наличием „скрытых" переменных Xr+i, ...
.., Xs. Пусть случайная величина Ху в i-м (случайном) повто-
рении эксперимента обозначается символом Хц, а принимаемое
142 Гл. 6. Нарушения основных предположений
ею при этом значение обозначается символом xtJ. Тогда
+_• • • 4-₽Лг+₽,+Д-и + • • • +РД)
+Р1-(Х1.1-Х.1) +... +мх„-х.г)
Ш+1(Х/.г+£-0г+1) + . • • +Р.(Х±-е,)]
— «О +Р1 (Х^—Х.г) +... +Рг (Х/г—X.r) -f- е,
где а0—случайная величина и Е [е] = 0 (поскольку Е[Х/у] = 0у).
Если теперь будем рассматривать регрессию как условную отно-
сительно значений Х,у = х17для / = 1, 2, .... г, то получим модель
Е[У,| {xtJ\, j = \, 2..r] = a0+P1(x/1—х.х) + .. .+рг(х/г—х.г),
(6-7)
где а0—уже постоянная величина (при указанных условиях).
Поскольку значение г произвольно, мы всегда будем иметь Е [е] = О
независимо от того, какое число регрессоров включается в мо-
дель. Это означает, что, когда мы не контролируем переменные
Ху, вопрос об отыскании „правильности" модели не возникает.
Все, что мы ищем здесь,—это адекватная модель, т. е. модель,
уменьшающая ошибку е до разумного уровня. Таким образом,
для этого типа модели вопроса о смещении из-за неполноты или
избыточности модели не возникает.
6,2. Неправильные предположения о дисперсионной матрице
6.2.1. Общий случай
Если мы предполагаем, что *2>[е] = сг21й, а в действительности
®[s] = o2V, то р все же остается несмещенной оценкой для ₽.
Однако дисперсия этой оценки
S) [₽] = 3) [(Х'Х)-^'Y] (X'X)-X'VX (Х'Х)-*
в общем случае не равна о2 (Х'Х)-1, и так как
Е(S’) = [V(In-Р) Y] = Д tr [V(1я-Р)] (6.8)
(ср. с теоремой 3.3 из § 3.3), то S’ обычно будет смещенной
оценкой для а2. Поэтому оценка
ti = S2a'(Х'Х)-1а (6.9)
будет, как правило, смещенной оценкой для
var[a'₽] = и2а' (X'X)"*X'VX (Х'Х)’1 а. (6.10)
6. 2. Неправильные предположения о дисперсионной матрице
143
В действительности, как показал Swindel (1968), если
Е [v] = var [а'р] + b,
то
meann_jt,l. е. V—g. е. V < mean„_j,g.e. V—l.e. V
g- е- V var[ а»р] 1. е. V ’ _
где g. е. V (l.e. V)—наибольшее (наименьшее) собственное значе-
ние матрицы V, a mean^^g. е. V (mean„_r 1. е. V)—среднее из
п—р наибольших (наименьших) собственных значений матрицы V.
«Граничные значения здесь достигаются. Watson (1955) рассмотрел
случай Х'Х = \р.
Представляет также интерес вопрос о том, при каких усло-
виях оценка v оказывается несмещенной при всех а. Следующий
пример отчасти отвечает на этот вопрос.
Пример 6.2. Покажем, что для несмещенности оценки v при
всех а достаточно, чтобы для всех Y выполнялось соотношение
(? = Р, где p* = (X'V-xX)“xX'V-1Y — оценка вектора р, получае-
мая по обобщенному методу наименьших квадратов.
Решение. Пусть j) = p* для всех Y. Тогда
(X'X)-)X' = (X'V-1X)-1X'V-X
или
X'VX = (Х'Х) (X'V-1X)-1X'X.
Кроме того, согласно формуле (3.22) из § 3.6,
(Х'Х)-1 = S) [р] = S) [р*] = о2 (X'V^X)-1,
и комбинация двух предыдущих соотношений дает
X'VX = (Х'Х) (Х'Х)-1 (Х'Х) = Х'Х. (6.11)
Поэтому
(Х'Х)-1Х' VX (Х'Х)-1 = (Х'Х)-1, (6.12)
и, сравнивая (6.9) и (6.10), заключаем, что v—несмещенная оценка
для var [а'р] при всех а, если £[S2] = o2.
Поскольку в выражении S)[e]=o2V величина о2 является
всего-навсего произвольным масштабным множителем, мы без
ограничения общности можем предполагать, что trV = n. Тогда
trVP = tr[VX(X'X)-1X'] = tr [X'VX (Х'Х)-1] (в силу А1.2)
= tr [Х'Х (Х'Х)-1] (в соответствии с (6.11))
=Р.
и в силу (6.8)
Е [sal=^{trV—trVP} = o2. (6.13)
144
Гл. 6. Нарушения основных предположений
Необходимые и достаточные условия совпадения НЛНО р* и
Р приведены в теореме 3.6 из § 3.6. Однако эти условия не мо-
гут помочь, если матрица V совсем не известна, хотя в ряде
случаев может быть известной структура этой матрицы.
6.2.2. Диагональная дисперсионная матрица
Предположим, что истинная дисперсионная матрица вектора е
диагональна:
S) [е] = 2 = diag (ou, о22, .... о„„).
Тогда оценки максимального правдоподобия для р и он можно
получить методами, предложенными Hartley, Jayatillake (1973).
Максимизация производится по строго положительным значениям
a{i. Некоторые процедуры, предназначенные для проверки пред-
положения о том, что все е,- являются независимыми нормальными
случайными величинами с одинаковыми дисперсиями, упомянуты
в разд. 6.6.5. Однако для общей модели регрессии более инфор-
мативными оказываются графические методы, описанные в § 6.6.
Довольно распространенным является частный случай пост-
роенной теории, в котором считается известным, что дисперсии
ошибок е, внутри определенных групп равны. Предположим,
например, что все дисперсии в /г-й группе равны, скажем, о|(/г = 1,
2, ...,/<) и что мы хотим проверить гипотезу Н: с^ = о|= ... =
Тогда, если имеется К взаимно независимых статистик 5|,где*)
fk$k № ~ Xf » то можно проверить гипотезу Н, используя следу-
ющие методы.
(а) Критерий Бартлетта
Этот критерий, восходящий к Bartlett (1937а), требует вычис-
ления статистики
lOgS’-SfokgSl)
= V*—L------ *---------, (6.14)
где
k___
2/й
и
1) Д—число степеней свободы S* ,—Прим. ред.
6. 2. Неправильные предположения о дисперсионной матрице
145
Если гипотеза Н верна, то статистика 7\ распределена прибли-
зительно как Хх-1> причем такая аппроксимация оказывается
удовлетворительной и при довольно малых выборках (/Л 3).
К сожалению, этот критерий слишком чувствителен к любому
отклонению от нормальности величин, составляющих каждое Si.
Значимость статистики Т\ может указывать не на отсутствие одно-
родности дисперсии, а просто на отклонение от нормальности.
(6.15)
(Ь) Критерий Кокрэна
Если все fk равны, то для проверки гипотезы Н можно исполь-
зовать предложенную Cochran (1941) статистику
гр _ max (Sj, Sj, ..., 5д)
2 si+«!+...+«к
Этот критерий особенно чувствителен к случаю, когда ожидается,
что все дисперсии равны, за исключением, быть может, только
одной, которая может оказаться больше остальных [Gartside (1972)].
Процентные точки распределения статистики Т2 можно найти
в Dixon, Massey (1969, с. 536) или в Pearson, Hartley (1970,
с. 203). Значения, отсутствующие в таблицах, можно получить
квадратурой из приведенной в Cochran (1941) аппроксимации
указанной функции распределения.
(с) Критерий Хартли
Если все fk равны (скажем, равны v), то гипотезу Н можно
проверить также, используя статистику Хартли [Hartley (1950)]
р _____max(Si, si, .... 5д) _ 5мдх
•МАХ~ min (Si, Si....SD ” Smin
(6.16)
Критические точки для этой процедуры приведены в работах
David (1952) и Pearson, Hartley (1970, с. 202). David (1956)
использовал указанное отношение также в следующей процедуре,
аналогичной критерию множественных рангов Дункана и пред-
назначенной для упорядочения дисперсий, относящихся к раз-
личным группам. Пусть путем перенумерации мы получаем
... ^s'f, где sf—наблюдавшееся значение Si. После-
довательность критериев состоит в сравнении наибольшего si со
всеми остальными, начиная с наименьшего, после чего следующий
наибольший si сравнивается с каждым из оставшихся, начиная
с наименьшего, и т. д. Более точно это выглядит следующим
образом [Tietjen, Beckman (1972)]. Определим Rjj — Si/s*; и пусть
Са(К, v)—верхние 100 [1—(1—а)к-1]-процентные точки распре-
деления статистики Емах- Проверку начинаем с RK1. Если Rpi>
146
Гл. 6. Нарушения основных предположений
> Ca(R, v), то объявляется, что <т‘л>ст(. Затем проверяются RK2,
RKS, ..., Rftj', пока для некоторого /f не окажется, что
^Са(/С—/14-1, v). При этом объявляется, что для всех
1=1,2, ..., /j — 1. Затем подобная процедура повторяется для
RK-i, f, R/c-t, 2 и т. д. вплоть до получения при некотором RK~t,j2
неравенства Са(К—ja, v^Rk-i,;, и принятия утверждения о том,
что > о2 для всех i= 1, 2, ..., /2— 1. Весь этот процесс про-
должается до получения при некотором т неравенства RK-m, i=C
^Са(Л—tn, v). В работе Tietjen, Beckman (1972) приведены
значения Са(К, v) для а=0.10, 0.05, 0.01; /<=1(1)15, 20, 30,
40(20) 100 и v = 2(l)15, 20, 30, 40, 50, 60, 100.
Если конкурирующая гипотеза не известна и можно пола-
гаться на нормальность распределений, то из трех приведенных
выше критериев критерий Бартлетта оказывается наиболее мощ-
ным. В то же время все эти три критерия чувствительны к от-
клонению от нормальности.
Полезным применением описанных методов является случай
повторения опытов (§ 4.4). Пусть Y 1г представляет собой г-е
наблюдение (г = 1,2, ..., /?(),при t-м наборе значений регрессо-
ров, так что
Yir~ Н/ + Е»г
= 0о 4“0Ix/f + • • • p-r + etr» (6-17)
(i=l,2, ...,n; r=l,2......R{)
где случайные величины elr (r=l, 2, ..., Rt) независимы и
каждая из них имеет распределение N (0, о2). Положим S2 =
= 1) и f{=Rt — 1. Тогда и можно
использовать приведенные выше критерии для проверки гипотезы
Н: Oi = O2= ... =о^. В частности, если /?|^4, можно исполь-
зовать критерий Бартлетта с К=п и S2= Yi. )®/(2Л—«)•
Если распределения величин е1г не являются нормальными, но
при гипотезе Н все эти распределения имеют одинаковый эксцесс у
(равный Е[(У—р)4/о4]—3), то, как показал Бокс, для больших
Ri статистика 7\ сходится по распределению к ^1 Xn-i-
Если у > 0 (например, у = 3 для двойного экспоненциального
распределения), то предположение о том, что 7\ имеет распре-
деление хи-квадрат, дает значимые результаты слишком часто.
Если же у < 0 (например, у — —1.2 для равномерного распре-
деления), то же самое предположение приводит к значимым
результатам слишком редко (Layard (1973, табл. 1)). Из таблиц
распределения хи-квадрат видно, что расхождение в уровнях
значимости возрастает с ростом п.
Хотя приведенный выше пример рассматривался в рамках
изучения регрессии, из соотношения (6.17) видно, что это есть
6. 3. Устойчивость F-критерия к отклонениям от нормальности 147
по существу задача сравнения дисперсий п совокупностей на
основании наблюдений над объектами i-й совокупности—за-
дача, возникающая в однофакторном дисперсионном анализе
(§ 9.1). Если значения 7?z велики (скажем, больше чем 10), что
более свойственно однофакторному анализу, нежели регрессии,
то для такого случая имеется ряд устойчивых процедур, а именно:
приближенный F-критерий Шеффе [Scheffe (1963, с. 126—130)],
восходящий к работе Box (1953), в которой предполагалось, что
все R{ равны и эксцесс у одинаков для всех совокупностей;
приближенный F-критерий, основанный на абсолютных уклоне-
ниях (Levene (1960), Draper, Hunter (1969)); критерий хи-квадрат
Лейярда (Layard (1973)), а также критерий „складного ножа"
(Layard (1973)). Некоторые модификации этих процедур, основан-
ные на более устойчивых оценках параметра положения, таких,
как медиана, приводят Brown, Forsythe (1974).
6.3. Устойчивость F-критерия к отклонениям
от нормальности
6.3.1. Влияние значений регрессоров
Как показали Box, Watson (1962), чувствительность F-критерия
к 'отклонениям от нормальности в значительной степени зависит
от численных значений, принимаемых регрессорами. В рамках
планирования эксперимента, когда все элементы матрицы X плана
равны либо нулю, либо единице, это означает, что для некото-
рых планов связанные с ними критерии будут более устойчивыми.
Box, Watson (1962) показали, например, что при надлежащем
выборе матрицы X чуть ли не одну и ту же модель регрессии
можно использовать и для получения критерия для сравнения
средних, на который отклонение от нормальности воздействует
незначительно, и для получения критерия для сравнения диспер-
сий, заведомо чувствительного к отклонению от нормальности.
Пусть У,• Ро + РхХ,ех.. Рассмотрим гипотезу
Н: = . =0fc = O. Если эта гипотеза верна и выполнены
обычные предположения о характере регрессии, то
Р п—k—1 RSSp—RSS р
Г k RSS Г*' n-k-i-
Если, однако, отойти от обычных предположений и считать, что
е,-—независимые случайные величины с одинаковым, но уже не
обязательно нормальным распределением, то, как показали Box,
Watson (1962, с. 101), при выполнении гипотезы Н статистика F
распределена приблизительно как Fv„ (^=6/г, v2=6 (п—/г—1)), и
6-х^Г+
148
Гл. 6. Нарушения основных предположений
где
а __ ” 3 f г
а2“2п(п-1) С*Г.
или (с точностью до величин порядка и-1)
6-*=1
t схГу
Ф (2п) •
(6.18)
Здесь Гк=Е[/?4/^], где k2 и — выборочные семиинварианты,
построенные по п значениям Y, а Сх—многомерный аналог от-
ношения kjkl для регрессорных переменных. Если е, а следо-
вательно, и Y имеет нормальное распределение, то Гу=0, 6=1
и v2 = Fk, n-k-l-
Мы видим, таким образом, что степень влияния любого от-
клонения распределения Y от нормального зависит от входящей
в состав 6 величины Сх. Box, Watson показывают, что
-2<^Сх<п-1, (6.19)
Watson,
С п(п2—1)
х k(n—k—\)(n—3)
причем нижняя граница здесь достижима, а верхняя граница,
хотя к ней и можно подойти сколь угодно близко, тем не менее
не достигается при конечном объеме выборки. Если регрессоры
„приблизительно нормальны", то Сх« 0 и F-критерий не чувст-
вителен к отклонениям от нормальности. Иначе говоря, Сх ха-
рактеризует „степень отклонения от нормальности" регрессоров,
которая и определяет чувствительность F-критерия к отклоне-
ниям от нормальности наблюдений Y.
Пусть —х}- (i = 1, 2, ..., n; /=1, 2, ..., k) и Х=[(х/?-)].
Л
Если M=[(mrs)] Х(Х'Х)“1Х' ит = ^ т2гг, то как показали Box,
r=i,
/п———2Л(”~^~1)1. (6.20)
п n(«+l) ) ' '
Применяя теперь теорему 3.1(ii) к (пхп)-матрице М, получаем
trM = /e. Если все диагональные элементы матрицы М равны, то
mrr — kin (г =1,2, ...,n), m=k2/n и
_ п(«2—1) ( 2/г(п—k—1)1 . 2(n—1)
k(n—k— 1)(л—3) I я (п+0 I п—3 ‘
Следовательно, в этом случае нижняя граница в (6.19) дости-
гается, 6-1=1—(Гу/п)«1 и F-критерий при больших п стано-
вится нечувствительным к отклонениям от нормальности. Из ус-
ловий симметрии нетрудно вывести, что любая перекрестная
классификация с равным числом наблюдений в каждой клетке
(например, модели гл. 9), а также любая иерархическая клас-
сификация с равным числом наблюдений на каждом уровне
6. 3. Устойчивость F-критерия к отклонениям от нормальности 149
иерархии (§ 9.5) представляют собой как раз планы с равными
значениями тгг.
Указанная выше теория относится только к случаю Н: = ...
...=pfe = 0. Однако другой подход, предложенный Атикуллой
[Atiqullah (1962)], допускает и более общие гипотезы. К деталь-
ному рассмотрению этого подхода мы сейчас и переходим.
6.3.2. Квадратично сбалансированные F-критерии
Пусть случайные величины Yt, Y2, ..., Yn независимы, имеют
математические ожидания 0Х, 62 ..., 0„ соответственно, общую
дисперсию о2, а также общие третий и четвертый центральные
моменты. Пусть у2 — (р4—Зо4)/о4—их общий эксцесс. Тогда спра-
ведливы следующие теоремы (Atiqullah (1962)).
Теорема 6.1. Пусть Р,- (i=l, 2)—такая симметричная идемпо-
тентная матрица ранга что Е [Y'P/Y] = o8f/, и пусть Р1Р2 = 0.
Если р(-—вектор, образованный диагональными элементами мат-
рицы Pf, то
(i) var [Y'P.,Y] = 2о4 + у у^'р,) .
z(ii) cov[Y'PjY, Y'P2Y] = o4y2p[p2.
Доказательство, (i) Поскольку матрица Pf симметрична и идем-
потентна, то trP,= rank Pi = fi (А5.2). Кроме того, E’[Y'P/Y] =
= о2 tr Pt- 4-0'Р,-0 = a2fi (теорема 1.7 из § 1.4), так что 0'Р20 =
==e'Pz0 = O для всех 0, т. е. для всех 0 мы имеем Pt-0 = O.
Поэтому, полагая А = РХ в теореме 1.8, получаем
var [ Y'PZ Y] = 2а4 tr Р? + (ц4-За4) p;pz
= 2о4 (tr Р, + у y2p[pz) = 2о4 (/,• + у у2р;р,) -
(ii) В силу условия РхР2 = 0 имеем
(Pi + Р2)2 = Р? + РЛ + P2Pi + р2
= ₽1+Р1Ра+(Р1Р.Г+р2=Р1 + р2-
Поэтому матрица Рх + Р2 идемпотентна, и, согласно (i),
var [Y'P, Y + Y'P2 Y] = var [Y' (Px + Pa) Y]
= 2o4 tr (Pj + P2)4-1 ?2 (P1 +p2)' (Pl +₽2)j
= 2a4 tr Pj + tr P2 4- y у 2 (plpj + 2p[p2 + Pip2) ]
= var [Y'P, Y] + var [ Y'P2 Y] + 2o4y2p;pa.
Отсюда вытекает, что cov[Y'P1Y, Y'P2Y] = <r4y2p(p2.
150 Гл. 6. Нарушения основных предположений
Теорема 6.2. Пусть матрицы и Р2 удовлетворяют условиям
теоремы 6.1. Положим Z = log F, где
р Y'W/fi
Y'P2y//2 •
Тогда при бесконечном увеличении ft и /2 справедливы соотно-
шения
Е [z]~ 4 (/т1-А"1)[1 + Т
И (6.21
var[Z]-4(A"4fr1)[ । +4 Ts(fiP2-fsPi),(f1Pa-f1!Pi){fxf1!(f1+f2)rx]-
(6.22)
Доказательство. Обозначим через Sf и S2 числитель и зна-
менатель статистики F, упомянутой в условии теоремы, т. е.
S^ — Y'PjYlfi (i = 1, 2). Тогда, используя разложение Тейлора для
логарифмической функции, получаем
logS^logo‘ + <^-<^. ‘ (6.23)
Переходя к математическим ожиданиям и учитывая, что E[S2] = o2,
имеем
Е [log S?] ~ logo2—var [S|],
где в соответствии с теоремой 6.1
var [Sf] = ™.ipY1 = 2о‘ (fr* +| W-p;p,) .
Подстановка этого выражения в правую часть равенства
E[Z]=4ff [logS[]-E[logS0[
приводит к (6.21).
Чтобы найти асимптотическое представление для varZ, заме-
тим прежде всего, что
var[Z] =4(var[l°g5’1] +var[logS2] — 2 co v [log S], logSf]}. (6.24)
Далее, отбрасывая третий член в правой части (6.23), получаем
Е [log S|]~ logo2 и
var [log SI] ~ E [(log S2—log o2)2] ~ g .
6. 3. Устойчивость F-критерия к отклонениям от нормальности 151
Аналогично имеем
cov[logS2, logS|]~ £ [(logS[—logo2) (logS?—logo2)]
E [(5?—g2) (Si-o2)] cov[s?,S?]
o4 o4
Наконец, подставляя полученные асимптотические выражения в
правую часть (6.24), получаем соотношение
var[Z]~ ^-(var[S?] + var[Sg-2cov[Sf, S2])
и, используя теорему 6.1, приходим к (6.22).
Мы можем применить теперь полученные выше результаты
к обычной F-статистике, используемой для проверки гипотезы
//: АР = О. Из теоремы 4.1 (iv) имеем
Y'(P-Ph)Y/9 _ Y'PjY/q _S? ч
" Y- (I„—Р) Y/(n—p) ~ Y'P2Y/(n—p) ' S2 ’
где PjP2 = (P—PW)(I„ —P) = P7/—Pz/P = 0. Предположим теперь,
что мы отбрасываем условия, касающиеся конкретного вида рас-
пределений участвующих в определении F величин, а лишь счи-
таем, что 8, независимы и одинаково распределены и <£[е] = 0,
£Э[е]== о21„. Тогда Е [S|] = Е [S2] = о2 (теорема 3.3 из § 3.3), и
если гипотеза Н верна, то £[52]=<т2 (в силу теоремы 4.1 (ii)
при Ар = с = 0; предположение о нормальности при ее доказа-
тельстве не используется). Кроме того, Y{ удовлетворяет усло-
виям, сформулированным в начале этого раздела (с [(6,)] = 0 =
= х₽), так что, когда гипотеза Н верна, то к F-статистике (6.25)
можно непосредственно применить теорему 6.2 при fr — q и
А = Р-
В том случае, когда е;, а следовательно, и граспределены
нормально, распределение случайной величины Z = -^-logF при
гипотезе Н является, как известно, приближенно нормальным
со средним и дисперсией, задаваемыми правыми частями выра-
жений (6.21) и (6.22), в которых следует положить у2=0.
Поскольку, как очевидно, эта аппроксимация достаточно хороша
даже при малых и /2 (порядка четырех), то не лишено смысла
согласиться с утверждением Атикуллы о том, что при умеренном
отклонении от условий нормальности распределение случайной
величины Z все еще можно считать приблизительно нормальным
со средним и дисперсией, задаваемыми выражениями (6.21) и
(6.22). При таком предположении случайная величина Z, а по-
этому и статистика F будут приблизительно независимыми от у2,
если коэффициент при у2 в (6.21) и (6.22) равен нулю, т. е. если
fxP2 = /2Pf (6.26)
152
Гл. 6. Нарушения основных предположений
Используя терминологию Атикуллы, будем говорить, что критерий,
построенный по статистике F, квадратично сбалансирован, если
все диагональные элементы матрицы Pz- (i=l, 2) равны. Боль-
шинство обычных F-критериев для сбалансированных планов
эксперимента принадлежит к этой категории. Поскольку в этом
случае trP, =/z, имеем
Р/ = (4) ’« И = (т2) = /2Р1-
Таким образом, условие квадратичной сбалансированности F-кри-
терия достаточно для выполнения (6.26).
Атикулла [Atiqullah (1962, с. 88)] утверждает также, что
условие квадратичной сбалансированности остается достаточным
для того, чтобы Е [Z] и var [Z] не зависели от эксцесса (с точ-
ностью до величин, имеющих порядок, используемый в (6.21) и
(6.22)), и в том случае, когда у2 изменяется от наблюдения
к наблюдению.
Наконец, заметим, что если эксцесс у2 можно оценить, то
соотношения (6.21) и (6.22) можно использовать для изменения
числа степеней свободы и улучшения соответствия между рас-
пределением указанного F-отношения и F-распределением [Pren-
tice (1974)].
6.4. Значения регрессоров, измеренные с ошибкой
6.4.1. Случайные ошибки
Пусть истинная модель регрессии имеет вид
Y i = Ро +Р1И11 + • • • +0/>-lMZ,p-l + ei=:UiP+eZ»
т. е.
Y = Up + e, (6.27)
где u2, .... и„]. Предположим, однако, что значения и,
измерены с несмещенными ошибками 6(-, так что в действитель-
ности мы наблюдаем вместо значений uz значения X/== ut-+ 6Z,
т.е. X = U+A, где Х' = [Хи Х2, ...» Х„], A' = [6lt62, ...,6„] и
£[Д] = 0. Мы будем предполагать, что ошибки б( некоррелиро-
ваны и имеют одну и ту же дисперсионную матрицу, т. е.
ID, i = /,
Поскольку первые элементы каждого из векторов и,- и X, равны
единице, то первый элемент вектора равен нулю, так что пер-
вая строка и первый столбец матрицы D состоят из нулей. Мы
будем также предполагать, что Д не зависит от 8.
6.4. Значения регрессоров, измеренные с ошибкой
153
Обычная оценка наименьших квадратов вектора ₽ будет иметь
теперь вид
₽a = (X'X)-*X'Y,
а не ^(U'U)-1 U'Y, так что она уже не будет несмещенной.
Свойства оценки рд детально рассмотрели Hodges, Moore (1972)
для обычного частного случая D = diag(0, о?, о|, . ...oj^). Ис-
пользуя более точную аппроксимацию, Davies, Hutton (1975)
распространили эти результаты на случай произвольной матрицы
D (в их обозначениях U—*Х', X—>W', D—»S и А—>-Д').
(а) Смещение
Поскольку д не зависит от 8 (и от Y), то
$ [₽а] = М [Рд | А] = <£д [(Х'Х)-1 X'Up] (в, силу (6.27))
= <£д [(Х'Х)~1Х'(Х—А)р]
= ₽- ^дКХ'Х)-1 Х'Ар] = р- Ь, (6.28)
где мы обозначили Ь = <£Д[(Х'Х)-1 X' Ар]. Если п велико, то,
как показали Davies, Hutton (1975, теорема 4.1),
b« (Iu'U + d)-1 Dp = n(U'U + nD)-1Dp. (6.29)
(В действительности, если р lim {(1/п)Х'Х[ = А, то рд является
Zl-> со
состоятельной оценкой для (A-f-D)-1 Ар==р —(A-f-D)-1 Dp.) По-
скольку
<£[X'X] = <£[U'U +A'U + U'А + А'А] = U'U + <£[А'А]
2 м;
i = l
= U'U + <£
= U'U-f-nD,
(6.30)
то, очевидно, оценкой для смещения b будет
b = n(X'X)-1 Dp,
где D—грубая оценка для D, получаемая, как мы полагаем,
из каких-то других экспериментов. Если D — diag (0, oj, ...
..., Op-i), то аппроксимация Hodges, Moore (1972) приводит
к аналогичной оценке для b (с п—р—1 вместо п).
Davies, Hutton (1975) показывают, что величина смещения b
зависит от того, насколько матрица Х'Х близка к вырожденной.
Если ошибки таковы, что матрица Х'Х может оказаться близкой
к вырожденной, то смещение может стать весьма большим. Исполь-
зуя центральную предельную теорему, они показывают также,
что случайная величина V п рд асимптотически нормальна.
154
Гл. 6. Нарушения основных предположений
(Ь) Стандартные отклонения
Davies, Hutton (1975, соотношение (4.2)) показывают, что,
когда матрица D близка к нулевой, то
® [₽д]ъ 4 { (4- U'U + d) -1 (о2 + Р' ДР) + О (D2) j..
Обычной оценкой этой дисперсионной матрицы является V =
= S2(X'X)-\ где
(n—p)S2 = (Y—Х^д)'(Y —Х^д)
= Y' (I„-X (Х'Х)-* X') Y = Y' (I„-Px) Y.
Будет ли V несмещенной оценкой для ®[рд]?
Поскольку Д не зависит от е, Х'(1п—Рх) = 0 и tr[I„ — Рх] =
= п—р, то
Е [(п-р) S21Д] = Е [(п—р)о2 + P'U' (I„-Рх) Up | Д]
= Е [(п-р)а* + Р' (X' - Д') (I„ -Рх) (X -Л) р | Д]
= Е (п-р)о2 + р'Д' (1п-Рх) Др| Д], (6.31)
Далее, для любой матрицы С
<£д [д'сд]=22 [6,-6)]=2 Q/D = d tr с,
i i i
так что из (6.31) получаем
<£[V] = <^[S2(X'X)-*|A]
= ^[{а2+^Р'Л,(,"~₽х)ЛР}{(Х/ХИ}]
«(о2 +P'DP) (U'U 4-nD)-*« в> [Рд]. (6.32)
Поэтому, если п велико, а матрица D близка к нулевой, то
оценка V является приблизительно несмещенной.
6.4.2. Ошибки округления
Используя указанные выше обозначения, предположим опять,
что U—матрица истинных значений регрессоров (т. е. <^[Y] = UP)
и что наблюдаем мы вместо U матрицу Х=и + Д. Однако те-
перь, следуя работе Swindel, Bower (1972), будем предполагать,
что измерения выполняются точно, но округляются по некото-
рому общему правилу, так что в результате мы фиксируем
значения х// = ы//4-Дг/. В этом случае ошибку округления Д/у
можно рассматривать как некоторую (неизвестную) постоянную,
а не случайную величину. Эта величина однозначно определяется
6.4. Значения регрессоров, измеренные с ошибкой
155
по ии при заданном правиле округления. Поэтому матрица X
будет теперь состоять из постоянных величин и не будет слу-
чайной, как в предыдущем разделе.
Смещение оценки рд = (X'X)“*X'Y равно
S —₽] = (Х'Х)-1 X' (U — X) Р = — (Х'Х)-* X' Д₽. (6.33)
Представляя Дрввиде Др = 2/=о ДуРу, где Ду—столбцы матрицы Д,
мы видим, что это смещение не зависит от Ру, если Ду = 0. Таким
образом, смещение зависит здесь только от тех регрессоров, зна-
чения которых действительно округляются. Из соотношения
£[$*]= О2
P'U'(I„-PX)UP
п—р
, Р'(Х-Д)'(1„-РЛ)(Х-Д)₽
+ ^=7
.2 р'У(1п-Рх)ДР >tT2
"Г п—р
(6.34)
(матрица 1„—Рх положительно полуопределена) мы видим, что,
как правило, оценка S2 дает завышенное значение для о2. В то же
время о2 (Х'Х)-1—истинная дисперсионная матрица для рд.
Используя собственные значения, Swindel, Bower (1972) дока-
зывают, что при любом а оценка а'Рд для а'р обладает тем
свойством, что
0<RB(a'pA)<4<₽'A'A₽)1/2’
где RB—относительное смещение, т. е. | смещение ^(стандартное
отклонение).
6.4.3. Некоторые рабочие приемы
Davies, Hutton (1975) рассматривали как случайные ошибки,
так и ошибки округления и предложили следующие рабочие
приемы.
Пусть в случае, когда мы имеем дело с ошибками округле-'
ния, Гу обозначает квадратный корень из /-го диагонального
элемента матрицы Д'Д/n, и пусть гщ из этих гу отличны от нуля.
Прежде всего вычислим
Pi = {S^[(X'X)-4yy|-1/a. (6.35)
Если Ру несущественно превышает (mxn)1/2 или, возможно, п1/2,
когда п велико, то по крайней мере некоторые из элементов Рд
156
Гл. 6. Нарушения основных предположений
скорее всего будут несущественными. (На практике значение г}-
бывает неизвестным и заменяется его оценкой сверху.) Если эта
проверка дает положительный результат, то следует вычислить
величину
rj I ₽/, д!
S ’
Если эта величина заметно меньше единицы, то ошибками в опре-
делении U можно пренебречь. Если же указанная выше проверка
приводит к отрицательному результату и преобладающее значе-
ние имеет ситуация разд. 6.4.1 (со случайными Д,у), то сле-
дующий шаг состоит в вычислении отношения
<P1S>
причем теперь уже г}, входящее в данное отношение и в пра-
вую часть (6.35), является квадратным корнем из /-го диагональ-
ного элемента матрицы D. Если последнее отношение оказывается
заметно меньшим единицы, то это означает, что влиянием оши-
бок можно, по-видимому, пренебречь, особенно если п велико.
С другой стороны, если это отношение больше единицы, то сме-
щение будет, вероятно, составлять основную часть ошибки, по
крайней мере для некоторых из оценок.
Чтобы узнать, не оказывает ли какой-нибудь из регрессоров
чрезмерного влияния на оценку, указанные авторы предлагают
также вычислять диагональные элементы матрицы Рх. В частности,
если какой-нибудь диагональный элемент будет больше величины
порядка 0.2, то существует возможность того, что умеренная
ошибка в соответствующем регрессоре весьма существенно по-
влияет на значения оценок и в то же время окажется невыяв-
ленной при анализе остатков (§ 6.6).
6.5. Модели со случайными регрессорами
В § 6.4 (формула'(6.27)) мы использовали модель вида
У = Ро + Р1Ы1 + • • • + Pp-l^p-l + е
= Ро+Р1£['Хх]+ • • • +₽p-i£ (6.36)
и предполагали, что е не зависит от Xj и Е[е] = 0. В терминах
математических ожиданий соотношение (6.36) можно представить
в виде
Е [У] = Ро + р1«< + ... + Pp-^p-i- (6.37)
Такая имеющая характер закона связь между математическими
ожиданиями часто называется функциональной.
6.5. Модели со случайными регрессорами 157
Иногда соответствующая связь определяется тем или иным
физическим законом (преобразованным таким образом, чтобы до-
стичь линейности связи), а случайный фактор связан с ошибками
измерений значений v и {«у). По этой причине указанную модель
иногда называют „моделью с ошибками в переменны х“ или (в слу-
чае одномерной линейной регрессии) „моделью регрессии, в ко-
торой обе переменные подвержены ошибкам". Эту модель следует
отличать от модели
V=₽o + P1t/1-+...+₽p-Ii/p_i,
в которой имеющая характер закона связь существует между
самими случайными величинами V и а не между их мате-
матическими ожиданиями. Sprent (1969) и другие называют та-
кую связь „структурной". На практике Ut—наблюдаемые вели-
чины, но V не известно (например, из-за ошибок эксперимента),
так что в действительности наблюдается значение У = У-|-е. Таким
образом, модель принимает здесь вид
Г=р0-Ь₽1(/1+.. +Рр_11/р_1 + в (6.38)
или
E[Y |{(/7}] = po+P1l/1+ ... +Pp_iHp_I.
Если и величины Uj измерены с (несмещенной) ошибкой, так
что вместо Uj наблюдается Ху, то модель принимает вид
(6-39)
Эта модель аналогична (6.36), и поэтому ее можно исследовать
тем же самым способом, т. е. обращаться с {(/,•} так, как если бы
эти величины были (условно) постоянными.
Заметим также, что (6.38) можно записать в виде
Г = Р0 + Р1Е[^Л- .. • +PP-I£[t/p-I] + e-2 Ру {1//-Е[(7у]|
= Ро+₽^[^]+ • • • +W + (6.40)
где Е[е'] = 0. Это соотношение похоже на (6.36), но только в нем
е' уже зависит от С7у.
Методам анализа моделей (6.37), (6.38) и (6.39) посвящена
обширная литература. Читатель может обратиться за ссылками,
например, к работам Sprent (1969), Hodges, Moore (1972) и Narula
(1974). Другие ссылки имеются в § 7.7, где детально разобран
случай одномерной линейной регрессии. Однако все эти методы,
как правило, более сложны, чем обычный метод наименьших
квадратов, и большинство из них требует дополнительной инфор-
мации либо в виде дополнительных данных (например, метод
158
Гл. 6. Нарушения основных предположений
„инструментальных переменных"), либо оценок дисперсий ошибок
(или их отношений), как в случае оценивания b в § 6.4. По
этим причинам указанным методам обычно предпочитают более
популярную технику условной регрессии Y при фиксированных
значениях наблюдений, соответствующую истинному положению
дел только в модели (6.38). Однако и в случае моделей (6.37)
и (6.38) можно скорректировать смещение оценки наименьших
квадратов, используя метод, описанный в разд. 6.4.1. Поэтому
обычный метод наименьших квадратов можно, по-видимому, ис-
пользовать во всех трех случаях, конечно, при условии прояв-
ления известной осторожности в выборе модели.
Имеются еще две модели, заслуживающие упоминания. Это
так называемая модель „компонент дисперсии" и модель „контро-
лируемых переменных" Берксона [Berkson, (1950)]. В первой
модели (называемой еще моделью регрессии второго рода) вектор 0
рассматривается как случайная величина. (См. Sprent (1969,
с. 54, 82). Ссылки на другие работы можно найти в Searle (1971),
Федоров (1978*), Кендалл, Стьюарт (1973*). В модели Берксона
регрессоры случайны, но средние значения этих регрессоров
контролируются. Подобная ситуация является общей при иссле-
довании имеющих характер закона связей в физических науках.
Пусть, например, мы собираемся исследовать закон Ома v—fiu,
где v—напряжение в вольтах, и—ток в амперах, а 0—сопро-
тивление в омах. Тогда при заданном сопротивлении естественная
процедура проведения эксперимента состоит в следующем. Ток,
протекающий в цепи, регулируется таким образом, чтобы ампер-
метр показывал некоторое предписанное заранее („целевое") зна-
чение х{, например 1 А, и при этом значении тока вольтметром
измеряется соответствующее напряжение Уг. Поскольку при изме-
рении тока амперметром возникает та или иная случайная ошибка,
то значение тока, действительно протекающего в цепи, является
неизвестной случайной величиной UПодобным же образом и
истинное напряжение представляет собой неизвестную случайную
величину так что модель эксперимента принимает вид
У^У. + б. = 0[/. + е.,
т. е. является частным случаем (6.38). В то же время указанная
модель приводится к „стандартной" модели наименьших квадратов
У i = 0Х,- + Е; + 0 ((/ i — X,) = 0XZ + е'£,
где в качестве ошибки (флюктуационной составляющей) высту-
пает уже е'{, а не е;. Из приведенного рассмотрения вытекает,
что если значения регрессоров контролируются, то модель можно
исследовать таким же образом, как и в ситуации, когда регрес-
соры не случайны и не содержат ошибок.
6. 6. Анализ остатков
159
6.6. Анализ остатков
6.6.Г. Определение и свойства
Электронные вычислительные машины дают нам прекрасную
возможность вычисления отклонений каждого из наблюдавшихся
значений Yt от аппроксимирующей регрессии У(-. Эти разности
называются остатками и обозначаются символами
е. = у._у. (1=1, 2, .... п)
или
e=Y — Y= Y—XP = (I„ — P) Y,
где P = X(X<X)_,-X' = [(p/y)]. (Если матрица X имеет неполный
ранг, то мы можем использовать в определении Р обобщенную
обратную матрицу (Х'Х)~.) Остатки связаны математической за-
висимостью, определяемой соотношением (4.29) из § 4.2, а именно
2*7 = 0. (6.41)
i
Если <£[е] = 0 и ®[е]==о21„ (= S)[Y]), то <£[е] = 0 и ®[е] =
= о2(1„—Р)2 = о2(1„—Р). Напомним, что 52 = 2»е?/(п—Р)—не-
смещенная оценка для о2, и поскольку (1„—Р)Х = О, то е =
= (I„-P)s-
Если е~А„(0, о21„), то вектор е имеет вырожденное много-
мерное нормальное распределение (вырожденность возникает из-за
того, что матрица 1и — Р положительно полуопределена), и мар-
гинальным распределением et является 7V(0, о2(1 —рг,)). Поскольку
Р'Р = Р, то Ра > 0, и поэтому 0^1—р/7<1. Равенство дости-
гается здесь (это соответствует var[ef] = 0) только для некоторых
специально подобранных планов [Behnken, Draper (1972, с. 102)].
Заметим, наконец, что (теорема 3.5(iii) из § 3.4)
#[Y, e] = Xis[P, Y—ХР] = 0, (6.42)
и для j=l, 2, ..., р—1
2 (е,—е.) (хх/—х7) = 2 *7 (х,7—х7) = 2 е,хх7
i I I
= Ро filXii • •• ^p-iXi, jo —1) Xij~ 0.
(6.43)
Второе равенство здесь—следствие соотношения (6.41). Последнее
равенство в (6.43) вытекает из нормальных уравнений, что можно
увидеть, дифференцируя (У,—₽0—РЛт—----------Рр-Л.^ч)2 П0Р/.
а также из соотношения (1„—Р)Х=0.
160
Гл. 6. Нарушения основных предположений
Рассмотрим теперь некоторые графические методы, основанные
на остатках и дающие возможность исследовать отклонения от
основной модели и от сделанных предположений относительно
распределений. Смысл использования этих графиков состоит в том,
что всякое отклонение от сделанных предположений относительно
распределения е отражается на векторе е. При этом различные
графики отражают разные типы отклонений.
6.6.2. Графики остатков
Первый шаг состоит в таком выборе масштаба остатков, при i
котором они будут иметь дисперсии, приблизительно равные еди- 1
нице. Достичь этого можно, используя, например, понятие сред- «
ней дисперсии |
j£var[e,]-l-tr2>H=4a4r[l,-PJ-^fc^.. (6.44)
i = i *
Оценивая о2 с помощью S2, мы приходим к шкалированным
остаткам
С‘ = {S2(n-p)/n}1/2 = {(l/n)e'e}V^ J
(см. Daniel, Wood (1971, с. 28), Behnken, Draper (1972, с. 102)). -j
В то же время, поскольку var [е,] = о2(1—рп), естественнее
использовать „стьюдентизированные" остатки
(6-46)
Хотя сами остатки и их шкалированные варианты с( и dt
и коррелированы, эта корреляция, по-видимому, мало влияет
на характер графиков, описанных ниже. Поэтому мы можем
обращаться с d{ и (до некоторой степени) с с,-, как с приблизи-
тельно независимыми и одинаково распределенными случайными
величинами, имеющими распределение N (0, 1).
Практика показывает, что во многих случаях величины pit
можно не учитывать, и при этом можно использовать либо ez/S,
либо, если pin не мало, с,- [Behnken, Draper (1972, 1.3 и 2.5)]. .
(а) Нормальная вероятностная бумага
Пусть d(1) <dU) < ... < d(„,—стьюдентизированные остатки,
расположенные в порядке возрастания. Для умеренно больших
значений п (см. приложение С) построенный на вероятностной
бумаге график зависимости d(f) от (i—у) А2 будет выявлять
6. 6. Анализ остатков
161
любые заметные отклонения от нормальности, поскольку при на-
личии нормальности точки графика должны располагаться при-
близительно вдоль прямой у = х. Такой график полезен также
для обнаружения „выделяющихся", или „сомнительных", наблю-
дений. Они выглядят на графике как точки, значительно уда-
ленные от прямой, соответствующей линейному тренду, на кото-
рый указывают остальные точки. Однако к таким точкам надо
относиться с достаточной осторожностью. Считается, что отбра-
сывать их как выделяющиеся наблюдения следует только в слу-
чае, когда их аномалия достаточно очевидна из каких-то сообра-
жений нестатистического характера. Так, возможны поломка
измерительного устройства при проведении отдельного измере-
ния, неправильная запись наблюдения или неправильное занесе-
ние его на перфокарту. Иногда наличие „странной" точки может
иметь даже большее значение, чем весь остальной график, по-
скольку оно может указывать на серьезные недостатки в модели.
Например, если такая точка соответствует экстремальному зна-
чению одного из Xj, это может означать такое изменение в мо-
дели, которое приводит к выходу за обычные рамки эксперимента.
Следует отметить, что при малых п практически невозможно
определить, является данное наблюдение выделяющимся или нет.
(Ь) График зависимости остатков от подобранных
значений
Построение графика зависимости dt от Y( помогает выявлять
три довольно распространенных дефекта.
(1) Выделяющиеся наблюдения: некоторые из остатков могут
по абсолютной величине существенно превосходить все остальные
остатки. Одна из возможных процедур проверки такова: остаток,
имеющий экстремальное значение, скажем dmax, исключается из
рассмотрения, если |dmax|>C> гДе С—некоторое заранее вы-
бранное число. Если п > 20, то можно использовать простое
приближенное правило, согласно которому из рассмотрения исклю-
чаются все те остатки dh для которых | dt | > 3. Совместное
распределение остатков известно (Ellenberg (1973)), так что, по
крайней мере теоретически, можно найти распределение | dmaK |
и определить соответствующее значение С. Эмпирическое решение
этой задачи для случая одномерной линейной регрессии приве-
дено в работе Tietjen и др. (1973). Маргинальное распределение
величины d{ также известно (Beckman, Trussell (1974)).В то же
время имеется и приближенный критерий, основанный на мак-
симуме нормированных остатков | |/(е'е)1/2 [см. Stefansky (1971.
1972), Goldsmith, Boddy (1973), а также Williams (1973)].
6 №571
162
Гл. 6. Нарушения основных предположений
(2) Прогрессирующее изменение дисперсии: если все е,- имеют
одинаковую дисперсию, то следует ожидать, что вариабельность
остатков будет достаточно постоянной. Такое положение отобра-
жает рис. 6.1, а, где соответствующий график представляет со-
бой, грубо говоря, „полосу" постоянной ширины. В то же время,
если график имеет клинообразный вид, как на рис. 6.1, Ь, это
Аппроксимация У(¥)
(Ы
Рис. 6.1. Возможные дефекты модели, выявляемые на графиках остатков: а —
удовлетворительный график; Ь—дисперсия возрастает с ростом У; с—имею-
щаяся кривизна указывает на неадекватность модели; d— наличие линейного
тренда указывает на ошибки в вычислениях.
служит^ весьма серьезным указанием на то, что дисперсия е(-
возрастает с ростом i. Примером может служить ситуация, когда
наблюдения упорядочены во времени, а дисперсия наблюдений
с течением времени возрастает. Другая ситуация подобного рода
возникает, если ошибка является мультипликативной, а не ад-
дитивной, т. е. если
У = е(1+е') = е + 8, (6.47)
где £[е'] = 0 и var[e'] = o2- В этом случае дисперсия 8, рав-
ная а202, изменяется вместе с 0—средним значением Y.
Иногда дисперсию удается стабилизировать с помощью под-
ходящего преобразования (см. § 6.7 и 7.1). Другим методом
6. 6. Анализ остатков
163
может являться использование взвешенной процедуры наимень-
ших квадратов. Итерационную процедуру оценивания весов
в случае, когда var [е] является функцией от Е [У], приводят
Box, Hill (1974). Устойчивый метод взвешивания, основанный
на использовании остатков, описан в работе Beaton, Tukey (1974).
(3) Неадекватность модели: криволинейный характер графика,
подобный характеру графика, приведенного на рис. 6.1, с, ука-
зывает на неадекватность модели. Пусть, например, подобрана
модель У / = р0 + РЛч + е<, а истинная модель имеет вид Е[У,] =
= Ро +РЛЧ+ РЛ‘2- Тогда нетрудно показать, что
£Ы = £[У/-Уа = £[У/-Ро-РгХп] = Р2(х/2 + ^и+Л). (6.48)
где g и h—функции от xlf. Поскольку и Yи £[е,-] системати-
чески изменяются с'изменением хп, то систематическое изменение
наблюдается и в графике зависимости е{ или dt от У(-.
Заметим, наконец, что наличие в графике линейного тренда,
подобного изображенному на рис. 6.1, d, указывает на ошибки,
имеющиеся в вычислениях, поскольку, как показали Draper, Smith
(1966), cov [eh У,] = 0 (см. (6.42)).
(с) График зависимости остатков от пропущенных
факторов
На практике любой фактор, который может влиять на отклик
У, следует включать в регрессионную модель в качестве регрес-
сора. Однако если какой-либо из вероятных факторов был про-
пущен^. то это может быть выявлено по графику зависимости
остатков от этого фактора (такой график, конечно, можно по-
строить, только если известны уровни этого фактора). Например,
график зависимости d{ от времени, который часто, является и
графиком зависимости d{ от i, может показывать наличие корре-
ляции между последовательными (по времени) значениями е;
(на рис. 6.2 показаны соответственно случаи положительной и
Рис. 6.2. Графики остатков, указывающие на наличие корреляции между по-
следовательными по времени значениями е/: а—положительная корреляция;
6—отрицательная корреляция.
6*
164
Гл. 6. Нарушения основных предположений
отрицательной корреляции) или указывать на изменение дисперсии
с течением времени (как, например, на рис. 6.1, если по оси х
откладывается время). Если график выглядит как полоса постоян-
ной ширины, но при этом обнаруживается линейный или криво-
линейный тренд, как на рис. 6.3, то это говорит о необходимости
Время Время
(а) (Ъ)
Рис: 6.3. Графики остатков, указывающие на наличие в модели временного
тренда: а—линейный тренд; Ь—криволинейный тренд.
включения в модель составляющих, линейным или нелинейным
образом зависящих от времени. В подобной ситуации полезно
также построить график зависимости от времени самих Yt или Y t.
Это дает возможность непосредственно увидеть, насколько хорошо
аппроксимирующая регрессия соответствует наблюдаемым значе-
ниям отклика. Полезно также разбить упорядоченные во времени
остатки на последовательные пары и вычертить график зависимо-
сти одного члена пары от другого.
Для проверки наличия корреляции между членами временного
ряда имеется целый ряд критериев. Простейшим из них является
так называемый знаковый критерий (в оригинале „runs test”),
основанный на рассмотрении последовательности знаков упорядо-
ченной во времени последовательности остатков (этот критерий
очень хорошо освещен в Brunk (1965 с. 354)). Правда, этот кри-
терий является только приближенным, так как остатки слабо
коррелированы. Однако наиболее популярным критерием для про-
верки корреляции внутри ряда является d-критерий, который
предложили Durbin, Watson (1950, 1951, 1971). Этот критерий
описан ниже.
Предположим, что значения е следуют модели авторегрессии
первого порядка, т. е. 81- = ре(-_14-6,-, где 6Z—независимые случай-
ные величины с распределением N (0, а2). Пусть
2 (е,— e,-iY
D = ^—п------------ . - (6.49)
6. 6. Анализ остатков
165
Тогда, как показали Durbin, Watson (1971), критическая
область D <_da для проверки нулевой гипотезы Но: р = 0 против
односторонней альтернативы Н±. р > 0 обладает определенными
свойствами оптимальности. Например, она является локально
наиболее мощной инвариантной критической областью. К сожале-
нию, распределение статистики D при гипотезе Но зависит си-
матрицы данных X, так что da надо вычислять для каждой матрицы
X отдельно. Тем не менее Durbin, Watson предложили несколько
приближенных методов, которые как будто весьма хорошо рабо-
тают на практике. Прежде всего они доказали [Durbin, Watson
(1950)], что DL^ZD где DL и Dv—случайные величины,
распределения которых уже не зависят от X. Процентные точки
для распределений DL и табулированы для различных п и
k' — p—1 в их статье за 1951 г., а также в работе Koerts,
Abrahamse (1969, с. 176—178). Они также показали, что рас-
пределение статистики R = D/4 при гипотезе Нь можно удов-
летворительно аппроксимировать бета-распределением, имеющим
такие же среднее и дисперсию. Иначе говоря, плотность распре-
деления статистики R при нулевой гипотезе аппроксимируется
плотностью
°<r<1- <6“>
р.+^Е1Д',^[О|,-ь
Ро = 1-(Ро+<7о)£р].
а выражения для E[D] и var[D] приведены в статье Durbin,
Watson (1971, соотношения (3.1) — (3.4)). На основе такой аппрок-
симации они предлагают следующую процедуру. Пусты! — наблю-
даемое значение статистики D, а—размер критерия, a dLa и dua —
нижние 100а-процентные точки распределений DL nDv соответ-
ственно. Если d < dLa, то гипотеза /70 отвергается; если d > dUa,
то гипотеза Но принимается; если dLa^.d^.dUa, то вычисляется
(численными методами) интеграл
а
$ f (г) dr
о
и гипотеза Но принимается или отвергается в зависимости от того,
будет ли этот интеграл больше или меньше а. (Здесь можно вос-
пользоваться имеющимися пакетами программ для вычисления
функции бета-распределения.)
Если в качестве альтернативы выступает гипотеза о наличии
отрицательной корреляции, т. е. Нг-. р < 0, то надо попросту
использовать статистику 4— D. При этом с величиной 4—d можно
166
Гл. 6. Нарушения основных предположений
обращаться так, как если бы она была наблюдаемым значением
статистики D, используемой для проверки наличия положитель-
ной корреляции. Двусторонние критерии для альтернативы
р^=0 получаются путем комбинации пары указанных выше одно-
сторонних критериев, для каждого из’ которых берется уровень
значимости а/2.
Durbin, Watson (1971, с. 18) предложили и другой прибли-
женный критерий, основанный на критическом значении da — а +
+bdUa, где а и b подбираются таким образом, чтобы статистики D и
a-\-bD(j имели одинаковые средние и одинаковые дисперсии. В этой
же статье кратко описаны и другие тестовые статистики, распреде-
ления которых при нулевой гипотезе не зависят функционально от
матрицы X. К этой категории принадлежит и так называемый
НЛНШ-критерий *) [см. Koerts, Abrahamse 1969)]. Он является
точным критерием и основывается на другом типе остатков—так
называемых НЛНШ-остатках. К сожалению, последние требуют
проведения большого количества вычислений.
Другой точный критерий, основанный на остатках рекуррент-
ного типа, предложили Phillips, Harvey (1974). Этот критерий,
по-видимому, лучше НЛНШ-критерия, хотя оба эти критерия
являются менее мощными, чем взятая в целом процедура Durbin,
Watson (1971), описанная выше.
Полезный графический метод обнаружения корреляции членов
ряда, использующий накопленную периодограмму, построенную
по остаткам е{, предложил Durbin (1969). Предлагаем обратиться
читателю к его работе, в которой можно найти детали этой и
других процедур, использующих периодограммы.
(d) Графики зависимостей остатков от каждого
из регрессоров
Эти графики полезны для обнаружения нелинейной зависимо-
сти от переменной ху. При этом может оказаться уместным вклю-
чить в исходную модель слагаемое xf, (или перейти, например, от
х17 к logx;/). Для иллюстрации предположим, что в (6.48) ха = х£
и xi2 = xj. Тогда Е [е(] = ₽2 (х< + Sxi + л)- Отсюда видно, что в обыч-
ной ситуации, когда х, < хг <... < хп, остатки е{ от модели,
выражаемой прямой линией, будут располагаться на графике
вокруг параболы y = f>2 (x2 + gx-j-/i). При ₽2 > 0 соответствующий
график зависимости е; (или d,) от xf- будет иметь вид, подобный
указанному на рис. 6.1, с. Отметим, что линейный тренд здесь
наблюдаться не должен, так как выборочная ковариация пар
(d;, х/у) равна нулю (соотношение 6.43)).
*) В оригинале „BLUS-test"—наилучший линейный несмещенный шкали-
рованный (НЛНШ) критерий:—Прим, перев.
6. 6. Анализ остатков
167
Наша линейная модель предполагает, что сами регрессоры не
взаимодействуют друг с другом, так что изменение значений одного
из них не оказывает никакого влияния на то, какими будут зна-
чения других регрессоров. Чтобы убедиться в том, что это пред-
положение правильно, можно построить график зависимости от
произведения х(-fxik. Если такое произведение необходимо в модели
по существу, то будет наблюдаться тенденция к коррелированное™
остатков с этим произведением, выражающаяся в виде тренда,
наблюдаемого на графике.
Указанные графики дают возможность обнаруживать также и
любые заметные изменения дисперсии.
В заключение сделаем одно предостережение. Графики зависи-
мости У от каждого из хг редко оказываются полезными и, более
того, могут даже вводить в заблуждение (см., например, Daniel
Wood (1971, с. 53)).
(е) Графики зависимости xt от хк
Если какие-нибудь два регрессора Ху и хк сильно коррелиро-
ваны между собой, то, вообще говоря, нет никакой необходимости
включать в исходную модель регрессии обе эти переменные.
В этом случае включение в модель одной из этих переменных
означает в то же самое время, что в расчет, по существу, при-
нимается и вторая переменная.
Другие типы графиков зависимостей между регрессорами вме-
сте с некоторыми полезными ссылками можно найти в Anscombe
(1973).
6.6.3. Статистические критерии, основанные
на остатках
Всем указанным выше графикам соответствуют статистические
критерии, описанные в работах Anscombe, Tukey (1963), Anscombe
(1961, 1967), Shapiro, Wilk (1965), Andrews (1971a). Другие кри-
терии, основанные на преобразованных остатках, кратко описаны
в разд. 6.6.5.
Как указал Сох (1968), хотя для проверки адекватности модели
формальные статистические критерии и имеются, тем не менее
важно правильно их интерпретировать. Например, весьма значи-
мое отсутствие согласия означает очевидное наличие систематиче-
ских отклонений от модели, хотя модель может объяснять доста-
точное количество имеющихся изменений и уже поэтому полезна
[Nelder (1968)]. Наоборот, незначимое™ по соответствующему
критерию того или иного аспекта модели говорит о том, что эта
сторона модели хорошо согласуется с имеющимися данными. В то
же время могут иметься какие-то другие причины, по которым
168 Гл. 6. Нарушения основных предположений
эту модель следует считать неадекватной. Представляется, однако,
что графики являются более информативными, нежели соответ-
ствующие им критерии, так что построение критериев после по-
строения графиков может оказаться и не нужным. С другой сто-
роны, требуется достаточное мастерство в интерпретации графиков.
Графики, построенные по малым выборкам, могут вводить в заб-
луждение (приложение С). Статья Feder (1974) представляет
интересный пример взаимосвязи графика и критерия.
6.6.4. Графики частичных остатков
Предположим, что мы хотим более внимательно исследовать
связь между остатками и регрессором лу. Один из способов сде-
лать это состоит в построении графика зависимости от xf „частич-
ных остатков**
— Y i ₽о РЛ1 • • • Р/~ 1 Р/+Л',у + 1 • • • Pp-i-^Z,j9-i
= e,+PyX,7 (6.51)
для i= 1, 2, ..., п [(см. Ezekiel, Fox (1959) и в особенности
Larsen, McCleary (1972)]. Такой График, по существу, дает воз-
можность исследовать зависимость между V и Xj при устранении
влияния на Y остальных регрессоров.
Интересно следующее свойство этого графика. Если мы рас-
сматриваем линейную регрессию e't на х17, имеющую вид прямой,
проходящей через начало координат, то оценкой наименьших
квадратов для углового коэффициента этой прямой будет fy. Иначе
говоря, сумма 2/(е»‘—Р/х*/)2 достигает минимума при Р/ = Ру-
Отличие оценки Ру углового коэффициента от нуля, как и в слу-
чае обычного графика зависимости d,- от х,у, позволяет экспери-
ментатору объяснить наблюдающийся характер связи, ее величину
и направление соответствующей прямой наличием выделяющихся
наблюдений, а также нелинейностью. Кроме того, график частич-
ных остатков обычно более точно показывает, как следует преоб-
разовать Y для достижения линейности графика. Хорошая иллюст-
рация этого имеется в Larsen, McCleary (1972, с. 787).
Довольно естественным является следующий вопрос. Нужно ли
проводить стандартизацию частичных остатков е\, в результате
которой они имели бы дисперсии, близкие к единице? Поскольку
—P/xr/)2 = 2i е?> то несмещенной оценкой для var [PJ, полу-
чаемой путем подбора прямой линии по графику частичных остат-
ков (ср. с. (4.15) из разд. 4.1.4), будет
V,/— -------------——.
7 (n-2)^(Xii-4Y
I
6. 6. Анализ остатков
169
В то же время действительной несмещенной оценкой с наимень-
шей дисперсией, получаемой при подборе полной модели, является
(ср. с (11.48) из разд. 11.7.1)
Vz/ = |(n-p) 0 - Я/) £ (Xij-I/)*J ’
где —множественный коэффициент корреляции между х, и
остальными регрессорами. Поскольку Vy < v2/, то эксперимента-
тор, как правило, переоценивает по графику частичных остатков
(визуально) как устойчивость f^, так и важность регрессора х,
с точки зрения предсказания значений Y. Эта переоценка не вызы-
вает серьезных последствий, если значение R* не велико. Если же
мы шкалируем частичные остатки с целью устранения указанного
недостатка, то полученный в результате график будет преувеличи-
вать любую имеющуюся нелинейность. Ввиду этого, следуя Larsen,
McCleary (1972), кажется, предпочтительнее пользоваться нешка-
лированными частичными остатками.
Поскольку значение 0О в регрессионной модели обычно прихо-
дится подбирать, можно построить также график зависимости от
xif модифицированных остатков
ei = Yi—Y— 2 ₽r(x/r—x-r) = e/+P/(xl7—х./) = е1-4-С,/ (6.52)
для i=l, 2, ..., п. Слагаемое Cif называется влиянием компо-
ненты Xj на Yi [Daniel, Wood (1971, разд. 7.4)]. Соответствующий
график Wood (1973) называет графиком „компонента плюс оста-
ток"; в этой же статье приведены примеры таких графиков.
Заметим, что указанные выше графики частичных остатков (или
графики ,,компонента-плюс-остаток“) следует рассматривать в каче-
стве дополнения к графикам обычных остатков, а не как замену
последних.
6.6.5. Преобразованные остатки
Поскольку е = (1„—Р) е и матрица 55[е] = о2(1п—Р) имеет
ранг п — р, то мы можем, по крайней мере теоретически, преобра-
зовать п не связанных математической зависимостью остатков е,-
в п—р ортогональных функций от ez. Иначе говоря, существует
такая (и—р)Хп-матрица С ранга п—р, для которой f = Ce~
о21„_г). Эта матрица удовлетворяет уравнениям
CC' = I„_r, СХ = 0 (6.53)
[Putter (1967)], так что Се = Се. Один из методов отыскания ма-
трицы С, привлекший к себе определенное внимание в литературе,—
170
Гл. 6. Нарушения основных предположений
это так называемый НЛНШ-метод [Theil (1965, 1968), Koerts
(1967), Abrahamse, Koerts (1969, гл. 3)]. Величины fh определяе-
мые с помощью матрицы С, получаемой этим методом, называются
наилучшими линейными несмещенными шкалированными (НЛНШ)
остатками и обладают некоторыми свойствами оптимальности
[Grossman, Styan (1972)]. Другой метод получения f, близкий
к НЛНШ [Golub, Styan (1974)], описан в разд. 11.2.4 (см. соот-
ношения (11.20) и (11.22)), где f = t, C = QA_P.
После того как совокупность п—р преобразованных остатков
которые теперь уже независимы и одинаково распределены по
закону N (0, о2), найдена, можно использовать эти новые остатки
для косвенного исследования любых отклонений от исходных пред-
положений о распределении вектора е. Так, например, мы можем
применить различные стандартные критерии для проверки нор-
мальности, такие, как семь критериев, перечисленных в Dyer
(1974): критерий Колмогорова—Смирнова (К„ или О„), критерий
Крамера—Смирнова (U7*), критерий Андерсона—Дарлинга А„,
критерии Ватсона (I/2) и Купера (К„), модифицированный крите-
рий Колмогорова (£„), критерий Уилка — Шапиро (W). Критерий
Купера (Kuiper (I960)) довольно подробно рассматривают Koerts,
Abrahamse (1969), которые предпочитают его критерию Dn. Однако
критерий W, принадлежащий Шапиро и Уилку [Shapiro, Wilk
(1965), см., в частности, Hahn, Shapiro (1967, с. 295)], является,
по-видимому, наиболее мощным для некоторого разумного класса
альтернатив [Dyer (1974), Shapiro и др. (1968), а также Huang,
Bolch (1974)]. Вариант этого критерия для случая больших выбо-
рок приведен в Shapiro,- Francia (1972). Относительно других
заслуживающих интереса работ, посвященных рассмотренной за-
даче, см. Putter (1967) и Kowalski (1970). Другой подход к этой
задаче состоит в таком преобразовании остатков fh которое исклю-
чает из рассмотрения о2. Например, Csorgo и др. (1973) предло-
жили несколько точных критериев для проверки нормальности,
основанных на преобразовании указанных остатков к независимым
/-величинам.
НЛНШ-остатки можно использовать и для проверки гипотез
об ошибках спецификации [Ramsey 1969)] и о наличии сериаль-
ной корреляции [Koerts, Abrahamse (1969)]. Однако в последнем
случае критерий Дёрбина — Ватсона из разд. 6.6.2 является более
мощным [Durbin, Watson (1971)].
Хотя к необходимым нам остаткам приводит любое преобразо-
вание С, удовлетворяющее (6.53), большинство подобных преобра-
зований не имеет смысла, поскольку подробные выводы относи-
тельно fi довольно трудно интерпретировать. Представим, напри-
мер, что один из остатков выглядит-как выделяющийся. Что
это означает по отношению к исходной модели? Из-за какого
6. 7. Преобразование данных 171
наблюдения Yt это происходит? Одно частное преобразование,
с помощью которого можно пытаться связать каждый выделяю-
щийся остаток fi с некоторой точкой плана, описано в Hedayat,
Robson (1970), а также в Brown и др. (1975). Последние авторы
приводят методы проверки постоянства вектора 0 по отношению
к данным наблюдений.
6.7. Преобразование данных
Если обычные предположения нормальности представляются
невыполненными, то делу может помочь нелинейное преобразова-
ние данных. Например, если теория предполагает наличие связи,
приблизительно имеющей вид у — ае^х, то log у = log a -f- и
можно ожидать, что связь между log г/ и х приблизительно линей-
ная. Однако .при выполнении подобных преобразований необхо-
димо уделять^рсобое внимание „ошибке". Например, если ошибка
мультипликативна, так что
У=аеРх(1 4-е0) —ае₽х-|-8,
где £[8о] = О и var[ec] = Oo, то var [е] — о„ {£ [У]}8 изменяется
вместе с £[У]. В то же время при переходе к логарифмам мы
получаем
logF = loga+0x + log(l 4-8o) = (loga + ao)4-0x + e,
где £[log(l 4-80)] = а0, Е [е] = 0 и var [в] равна некоторому а2.
Если ошибка е0 распределена нормально, то распределение 8 уже
не будет нормальным, и наоборот.
- С другой стороны, если ошибка в наблюдениях Y аддитивна,
так что
У==ае₽х4-е0=яае₽х-! 1 (1 4~Ч0},
I с t* 1 }
ТО
log Y = log а -|- 0х + log (1 + г%)
и дисперсия log (14-1%) изменяется вместе с £[У]. Таким обра-
зом, если в первом случае переход к логарифмам стабилизирует
дисперсию ошибки, то во втором случае такой переход приводит
к тому, что дисперсия ошибки становится зависящей от х через
Е[П- Влияние всякого преобразования можно исследовать путем
повторного построения графиков остатков.
Полезным является следующее семейство преобразований:
<л I УК' Ь=Э*=О,
у<Л, _ I
( logy, у > 0. (6.54)
172
Гл. 6. Нарушения основных предположений
Оно подробно рассмотрено в Тикеу (1957) для |Х|^1 и охваты-
вает такие хорошо известные преобразования, как переход к лога-
рифмам, переход к квадратным корням, обратное преобразование.
Чтобы избежать разрыва при Х=0, Box, Сох (1964) рассмотрели
модифицированное семейство
logy, Х = 0, (6.55)
по существу идентичное (6.54), если модель регрессии содержит
постоянную составляющую ро [Schlesselman (1971)]. Они предпо-
лагают, что для некоторого к преобразованные наблюдения Y<z> =
= удовлетворяют предположениям нормальной теории, т. е.
Y<*>~2Vn(X0, о21„). При этом функция правдоподобия для исход-
ных наблюдений имеет вид
(2ло2)_(1/2)”ехр
- 2^ (У<М - ХР)' (у‘Х) - Х₽)} J, (6.56)
где
есть абсолютная величина якобиана преобразования. При фикси-
рованном значении X функция правдоподобия (6.56) с точностью
до постоянного множителя J соответствует стандартной задаче
наименьших квадратов. В соответствии с разд. 4.1.2 максимальное
значение этой функции правдоподобия равно (2ло2)_(1/2) ne~(xl2'1 nJ,
где
по2 = у<<>' (1„—X (Х'Х)'1 X') у,Л> = RSS (X; у).
Поэтому с точностью до константы отношение максимального
правдоподобия равно
^axW = ~4«log{RSS(X; у)} +log J = --1 п log (RSS (X; z)},
где
,а>_ У?' _
г‘
у^
у*-1'
ук>ёУ,
Х^О,
Х = 0,
а у—среднее геометрическое величин yh т. е. у — (Пл)1'”.
Box, Сох (1964) предлагают определять значение X, максимизи-
рующее это отношение правдоподобия, непосредственно по гра-
фику зависимости Lmax(X) от X. Более точно значение X можно
найти, решая уравнения dLmax (X)/rfX = 0 (см. уравнение (12) в Box,
Сох (1964) или уравнение (9) в Schlesselman (1971)). Некоторые
Упражнения к гл. 6
173
свойства оценки рассматриваются в Draper, Сох (1969). В ра-
боте Box, Сох (1964) рассматривается также байесовское оцени-
вание параметра X.
Для проверки пригодности преобразования, соответствующего
некоторому значению Х = Х0, указанные авторы предлагают
использовать статистику критерия отношения правдоподобия
— 2 {Amax (Хо)—Lmax (X)}, асимптотическим распределением которой
при гипотезе Н: К = \ является xt Andrews (1971b) предложил
„точный" критерий для проверки гипотезы Н. Однако исследо-
вание, предпринятое в Atkinson (1973), показывает, что мощность
этого критерия, по-видимому, меньше, чем у критерия отноше-
ния правдоподобия.
Приближенная 100(1—а)-процентная доверительная область
для истинного значения X состоит из всех тех К, для которых
Amax(X)-Z.max(X)<lxU.
где рг[х1>Х?,а] = «-
На практике может возникнуть желание преобразовать не
только значения у, как в рассмотренной выше модели у = ае₽х,
но и значения х. В таком случае можно выполнить это желае-
мое преобразование и, используя развитую выше теорию, вклю-
чающую только значения у, решить, нужны ли какие-нибудь
дополнительные изменения модели. Указанный метод можно со-
четать с процедурой Box, Tidwell (1962), в которой преобра-
зуются как раз регрессоры. Если значения у могут быть отри-
цательными, то следует работать с величинами у + Х2, где Х2
подбирается таким образом, чтобы у-|-Х2>0.
В статье Box, Сох (1964) можно найти два интересных при-
ложения приведенной теории, а также справиться относительно
дальнейших подробностей. Еще один пример, содержащий кри-
терий для проверки гипотезы Х = 0 (т. е. гипотезы о линейной
зависимости log У от х), имеется в Sclove (1972). Вопрос о под-
боре необходимого преобразования в случае единственного регрес-
сора обсуждается в § 7.1.
Иногда полезно иметь какое-нибудь простое преобразование,
приводящее к нормальности и однородности дисперсии, но не
обязательно приводящее к линейности. Метод получения такого
преобразования описал Wood (1974).
Упражнения к гл. 6
I. Пусть мы предполагаем, что модель регрессии имеет вид
Е[У] = ₽о+₽1Х,
тогда как в действительности истинная модель имеет вид
Е [V] =р0 Ь₽1х4-р2х24-рах?.
174
Гл. 6. Нарушения основных предположений
Если для оценивания параметров р0 и f}j в гипотетической модели исполь-
зуются наблюдения значений Y при значениях х=—3, —2, —1, 0, 1, 2, 3,
то каким будет смещение соответствующих оценок? [Draper, Smith (1966,
с. 92).]
2. Дайте более подробное доказательство теоремы 6.2.
3. Покажите, что теорию разд. 6.3.2 можно применять и в случае гипо-
тезы Н: АР=с, где с Ф 0.
4. Убедитесь в справедливости соотношения (6.48).
5. Рассмотрим модель регрессии полного ранга
^i=₽o+Prxii+ • • • (*’=1.2. .--.я).
Пусть мы хотим проверить гипотезу Н-. pt = p2= ... =pft=0. Предполагая,
что эта гипотеза верна, найдите приближенное выражение для Е [Z], где
Z=-k- logF, используя диагональные элементы матрицы Х(Х'Х)-1Х'.
6. Пусть мы хотим проверить гипотезу Н о равенстве средних двух сово-
купностей, используя для этой цели по я/ наблюдений от i-й совокупности
(i=l 2) Предполагая, что эти совокупности имеют одинаковые дисперсии и
одинаковый эксцесс (у2), найдите приближенные выражения для E[Z] и
var [Z] при гипотезе И. Покажите, что с точностью до используемого уровня
приближения эти выражения не зависят от у2 при Я1=я2.
Глава 7
ЛИНЕЙНАЯ ОДНОМЕРНАЯ
РЕГРЕССИЯ
7.1. Введение
Простейшей моделью регрессии является модель одномерной ли-
нейной регрессии
+ (» = 1, 2, .... п),
в которой ошибки е,- предполагаются независимыми случайными
величинами, каждая из которых имеет распределение 2V(0, о2).
Если и регрессор X является случайной величиной, то можно
изучать модель как условную относительно действительно на-
блюдавшихся значений регрессора, конечно, при условии, что
сами x.i не содержат какой-либо информации о параметре 0. При
этом модель, по существу, принимает вид
Е[У,.|Х1. = х,-] = Р0 + рЛ.
Если случайны и X, и У, то имеем также модель
। У/—
и именно ее мы использовали бы для предсказания значений X
по значениям У. Вопросы, связанные со случайностью регрессора,
рассмотрены далее в § 7.7.
Хотя в качестве средства „сжатия" двумерных данных полез-
ной может являться любая подобранная регрессия, все же было
бы желательно, чтобы соответствующая связь была устойчивой
и воспроизводимой [Сох (1968)]. Под устойчивостью мы здесь
понимаем сохранение линейности „формы" при повторении экспе-
римента в различных условиях, выражающееся в том, что либо (1)
уравнение регрессии остается без изменений, даже когда изме-
няются другие аспекты данных, либо (2) получаемые в различ-
ных условиях линии регрессии параллельны, либо (3) линии
регрессии всегда получаются удовлетворительными, но их наклоны
и расположение различны. В § 7.5 описаны критерии для про-
верки выполнения (1) и (2).
Часто регрессия У на х бывает нелинейной, и мы тогда ищем
такое преобразование для У, а возможно, и для х, чтобы „пре-
образованное У“ удовлетворяло обычным предположениям, а
176 Гл. 7. Линейная одномерная регрессия
регрессия „преобразованного Y“ на „преобразованном х" была
линейной (ср. с. § 6.7). Предварительное графическое представ-
ление данных (х,-, у,-), называемое диаграммой рассеяния, обычно
приводит к некоторым соображениям относительно возможного
типа модели, соответствующей этим данным. В этой связи поле-
зен набор графиков теоретических кривых, имеющийся в книге
Daniel, Wood (1971, с. 20—24). При выборе модели естественно
принимать во внимание результаты теоретического анализа системы,
включая анализ размерности, а также предельное поведение си-
стемы (например, 0—*0 при х —>0 или у—при х —* оо и т. д.).
Целый ряд соответствующих примеров из биологии приведен
в книге Seber (1973, с. 128, 141, 145, 150—151, 254, 260—266,
276 и далее, 297, 325 и далее). Следующий пример из работы
Сох (1968) иллюстрирует ситуацию.
Предположим, что изучается связь между разрывающим уси-
лием Y и диаметром х нити, имеющим относительно небольшую
вариацию. Тогда, поскольку большинство кривых будут прибли-
зительно линейными в узком интервале изменения значений х,
нас не должно удивлять, что линейная регрессия Y на х дает
разумное согласие с данными (модель I). В то же время столь
же хорошее согласие с данными может давать и линейная регрес-
сия logF на logx (модель II). Какую из этих моделей следует
выбрать? Ясно, что у—>-0 при х—>0. Кроме того, разумно пред-
положить, что разрывающее усилие пропорционально площади
сечения нити. Это означает, что здесь следует выбрать модель II.
Действительно, (1) она допускает более простое сравнение с тео-
ретической моделью у = (5х2 (или logy = log & +2 logx), (2) в ней
заведомо у —>-0 при х—>0 (в модели I для выполнения этого
условия мы должны подобрать прямую у = ptx, проходящую через
начало координат, что является довольно сильным ограничением
на модель), (3) угловой коэффициент линии регрессии в модели II
является величиной безразмерной (следовательно, он будет одним
и тем же независимо от того, в каких единицах измерены усилие
и диаметр). При желании для проверки модели II при конкури-
рующей модели 1 можно применить критерий значимости,-исполь-
зуя методы работ Сох (1961, 1962). Можно также рассмотреть и
более общую модель, включающую в себя в качестве частных
случаев как модель I, так и модель II. Например, можно пред-
полагать существование таких А, и Х2, при которых регрессия
У ^2_ 1 __ 1
У<Х=> =----- на х(Х1) =----г---
линейна и У|Л,> удовлетворяют обычным предположениям нор-
мальной теории; при Х = 0 степенное преобразование переходит
в логарифмическое (ср. с соотношением (6.55)). Тогда значения
всех параметров, включая Хх- и можно оценить и проверить,
7.1. Введение 177
используя метод максимального правдоподобия [Box, Tidwell
(1962), Box, Сох (1964)].
На практике подобная пара преобразований может и не су-
ществовать. Однако при выборе между линеаризацией регрессии
и стабилизацией дисперсии обычно предпочитают первое. Напри-
мер, в § 6.7 было показано, что переход к логарифмам в мо-
дели Y = ае&х + е с аддитивной ошибкой-приводит к линейной
модели, в которой дисперсия ошибки зависит от E[F]. В этом
случае можно применить взвешенный метод наименьших квадра-
тов (см. § 7.4). Однако, для того, чтобы оценки наименьших
квадратов давали заметный выигрыш в точности, изменения дис-
персии должны быть весьма значительными (Сох (1968)).
При поиске подходящего преобразования можно использовать
различные типы масштабной бумаги. Например, если мы срав-
ниваем различные логарифмические преобразования, скажем берем '
logy, logx или и logy и logx, то можно использовать специаль-
ным образом разграфленную бумагу с одной или двумя логариф-
мическими шкалами. Мы можем сначала вычертить график зави-
симости у от х, провести от руки сглаживающую этот график
кривую, а затем выбрать нужное преобразование, попросту на-
нося на масштабную бумагу по нескольку хорошо отобранных
точек этой кривой [Smith (1972)]. Иногда бывает известно рас-
пределение Y, и это может помочь в выборе соответствующего
преобразования. Так, например, при пуассоновском распределе-
нии данных обычно используется логарифмическое преобразование.
Адекватность какой-нибудь частной модели можно проверить,
используя графики остатков, описанные в § 6.6. Резюмируя,
отметим следующие основные типы отклонений от основных
предположений и способы их обнаружения:
(1) наличие выделяющихся наблюдений (приближенная про-
цедура проверки, основанная на максимальном стьюдентизиро-
ванном остатке описана в работе Tietjen и др. (1973));
(2) нелинейность регрессии, обнаруживаемая с помощью гра-
фика зависимости стьюдентизированного остатка d,- от х(- по кри-
волинейному характеру зависимости;
(3) непостоянство дисперсии, обнаруживаемое при помощи
графиков зависимости df от х,- или dt от
(4) наличие корреляции между различными обнаруживае-
мое с помощью критерия Дербина—Ватсона для сериального
коэффициента корреляции или с помощью графика зависимости
двух следующих друг за другом (по времени) остатков;
(5) отличие распределения ошибок е(- от нормального, обна-
руживаемое по графику зависимости п(/) от O-1((i— 1/2)/п), т. е.
зависимости i-ro по, величине (в порядке возрастания) остатка
(приложение С) от математического ожидания i-й порядковой
статистики стандартного нормального распределения,
Гл. 7. Линейная одномерная регрессия
178
7.2. Доверительные интервалы и полосы
7.2.1. Доверительные интервалы для углового
коэффициента и свободного члена
В соответствии с разд. 4.1.4 имеем
(х-х)-1— -—— (^XL ~пх\
п2^(х1—х)г \—пх nJ
Д=у-В17,_
Р _ S(*'| — K) (*!—*) _ —х)
S(*z— ху 2(*<—ху
и
(7-1)
s2=<2 (yz-И2-Р1 2 (х/ - х)2}.
Применяя метод максимального модуля из разд. 5.1.1 (соотно-
шение (5.6)) с aj = (l, 0) и аг = (0, 1), мы достигаем вероятности
одновременного накрытия, в точности равной 1—а, используя
для Ро и Pi доверительные интервалы
Во -Е ^2, П — 2,р‘
1/2
п2(х,—хУ
И
Pi±«?.„-2.pS{^-^}
где
—пх
Р~(«£х?)1/2*
Более широкие, чем следует, интервалы получаются, если поло-
жить р = 0.
Указанные интервалы можно также использовать для проверки
гипотез, касающихся значений обоих параметров ро и рх. Если
же нас интересует гипотеза, о значении только одного из этих
параметров, скажем гипотеза Н: Р^с, то в этом случае мы исполь-
зуем обычную f-статистику
Pi—с
«/{£(*/-х)2Р/2
(7-2)
и отвергаем гипотезу Н с уровнем значимости а при | Т | > /А-22,“.
Эту статистику можно получить непосредственно из того факта,
что рг~ A4PV о72(х4 —х)2) и S2 не зависит от Д,
7.2. Доверительные интервалы и полосы
179
7.2.2. Доверительный интервал для — р0/Р1
Построим доверительный интервал для отношения Ф =
используя метод, восходящий к Fieller (1940). Пусть
6=s^JZL==&1±₽^==_0 + £
£[₽il Pt
Тогда Е[У—60i] = O. Кроме того,
cov[r, PiI = cov[a'Y, b'Y] = a'S>[Y] b
2 (*«—*)
= a2a' b = о2 --=— = 0,
£(*/- x)2n
i
-₽Л,
(7-3)
гак что
var [(У—6₽£)J = var [У] 4-6s var [PJ
= о2
1 «
—----=— I —G2W.
Разность Y—6pf имеет вид c'Y. Поэтому она имеет нормальное
распределение, а именно N (0, и2и>). Статистика S2 не зависит от
(Ро, PJ (теорема 3.5) (iii) из § 3.4), а следовательно, и от Y—
— 6Pj = P0 + Pi(x—6). Поэтому, используя обычные рассуждения,
приводящие к 7-статистикам (разд. 4.1.5), получаем:
т у
S/7Z In"2’
и 100(1—а)-процентное доверительное множество для 6 задается
неравенством
T2^(/^)a)2 = F?,„_2.
Оказывается, это множество сводится к интервалу dt 6 d2,
где di и d2—корни квадратного уравнения
d2<[p2-^_n_221—2dypf + jУ2-7 S*F£ „_2|. = 0, (7.4)
тогда и только тогда, когда коэффициент при d2 в уравнении (7.4)
положителен (т. е. линия не слишком уплощена). В этом случае,
как следует из уравнения (7.3), соответствующим интервалом
для Ф будет (х—d2, х—df), и оценка ф = — р0/р, лежит в этом
интервале.
Если Е[У] = 0, то O = po4-pfx, и указанный метод приводит
к доверительному интервалу для длины отрезка х ——Ро/Pi» от-
секаемого линией регрессии на оси абсцисс. Это частный случай
обратного предсказания, рассматриваемого в разд. 7.2.6 (с У, = 0).
180
Гл. 7. Линейная одномерная регрессия
При изучении популяций животных часто возникает модель
Е [И = У (Ф—х) = — Vх = ₽о + М
(см. Seber (1973, с. 11, 128, 145—148, 150, 298—299, 325)).
В подобных приложениях нас интересуют доверительные интер-
валы именно для отношения Ф =— P0/₽i, так что приведенная
выше теория оказывается здесь полезной.
Отметим, что Ф является отношением двух коррелированных
нормальных случайных величин. Точное распределение такого
отношения указано Hinkley (1969 а).
7.2.3. Интервалы и полосы предсказания
Аппроксимирующая прямая регрессии имеет вид
Р = Ро+М = Г + ₽1(х-х)
и, следовательно, проходит через точку (х, Y). Из общей теории
§ 5.2 видно, что с помощью прогноза У. = Хр0 = (1, х«)0 можно
получить 100 (1 —а)-процентный доверительный интервал для
Е[У.] = (1, х.)₽ —математического ожидания значения наблюде-
ния в точке х=х„. Этот интервал имеет вид
У,±№°3^„ (7.5)
где
. {V Xi ~ 2Х,ПХ + пх*}
р^х:(х-хгх.=^ ; -1
И У J \Xt X)
_ X2i — nx2 + n (Х* — Х)2} _ 2 (Л,—7)2
” 2(х/~ х)г
(7-6)
(Выражение для и» можно получить и непосредственно—см._упр. 1
в конце главы). Заметим, что и» минимально при х, — х. Чем
дальше мы удаляемся от х, тем шире становится доверительный
интервал.
Когда нам нужны k доверительных интервалов, критическое
значение /„4’“ в (7.5) следует заменить на /“LT4, (2F?>n_2)1/2 или
н“>п_2, если мы используем соответственно метод Бонферрони,
метод Шеффе или метод максимального модуля. Если, однако,
значение k не известно или настолько велико, что интервалы
получаются слишком широкими, то можно построить доверитель-
ную полосу для всей линии регрессии и тем самым получить нео-
граниченное число доверительных интервалов, для которых вероят-
ность одновременного накрытия будет не меньше 1—а В соот-
7.2. Доверительные интервалы и полом
181
ветствии с (5.18) такая доверительная полоса представляет собой
область, заключенную между парой кривых (рис. 7.1)
у = У +pr (х—х) ± Хз/ 1 + Г’, (7.7)
I" I
где X = (2F®, „_2)1/2. Эта полоса, обычно называемая доверительной
полосой Уоркинга — Хотеллинга (Working, Hotelling (1929)), имеет
переменную ширину (в вертикальном направлении) d, причем
минимальное d соответствует точке (х, Y). Интервалы, получае-
мые на основании этой полосы, являются попросту F-интерва-
Лами Шеффе.
Другая доверительная полоса с прямолинейными границами
(рис. 7.2) предложена Грейбиллом и Боуденом [Graybill, Bowden
(1967)] и имеет вид
Рис. 7.1. Доверительная полоса Уор-
кинга— Хотеллинга.
Рис. 7.2. Доверительная полоса Грей-
би лла — Боудена.
!/ = y + pi.(x-x)±ugB_2S-7L{l+-LL-2U.l, (7.8)
у п ' ьх )
где s2 = 2(xz—х)2/п. У этой полосы два преимущества по срав-
нению с полосой (7.7): 1) ее проще вычертить, 2) она имеет мень-
шую среднюю ширину, хотя это в общем является заблуждением,
поскольку усреднение производится по всей полосе, включая
экстремальные значения х. В то же время Dunn (1968), а также
Halperin, Gurian (1968, с. 1027) показали, что при а = 0.05 дове-
рительная полоса (7.7) дает более узкие доверительные интервалы,
чем (7.8), если х удовлетворяет (приблизительно) соотношению
0.1 <9.
Поскольку же считается, что значения |х—х| на практике не
могут превосходить 5sx, то полоса Уоркинга—Хотеллинга ока-
зывается здесь предпочтительнее. Подобное положение сохраня-
ется и для 90-процентных доверительных уровней (а = 0.1). Обе
182
Гл. 7, Линейная одномерная регрессия
рассмотренные полосы можно получить как частные случаи про-
цедуры, предложенной в Bowden (1970) (ср. с формулой (5.19) и
последующим обсуждением).
Задачу построения точной доверительной полосы для линии
регрессии в случае, когда значения х, сосредоточены на конечном
отрезке [а, Ь], впервые решил Gafarian (1964). Он показал, как
можно построить полосу, имеющую постоянную ширину 26, и при-
вел соответствующие таблицы для случая х=у (а + Ь) и четных п.
Miller (1966, с. 121) провел полезное обсуждение этого метода и
указал, что сделанные Gafarian (1964) ограничения при построе-
нии таблиц несущественны. Дело в том, что интервал [а, 6], на
котором сосредоточены значения х„ обычно плохо определен, так
что его границы можно скорректировать и считать, что х—сред-
няя точка этого интервала. Кроме того, путем интерполяции таб-
личных значений можно получить приближенные значения и для
нечетных п. Однако Bowden, Graybill (1966) позже получили таб-
лицы для любого конечного интервала [а, 6] и четных п. Эти
таблицы можно использовать и для построения точных довери-
тельных полос трапецеидальной формы, которые могут оказаться
более пригодными, чем полосы постоянной ширины, если х лежит
вне интервала [а, Ь].
Dunn (1968) предложила урезанную модификацию полосы (7.8),
которая приводит к более широким доверительным интервалам.
Halperin и др. (1967), а также Halperin, Gurian (1968) получили
точную полосу, имеющую вид (7.7), но с другим X и урезанную
при х = а и х=Ь. Однако их таблицы можно использовать только
при х = у(а4-6). Значения А табулированы в работе Halperin и
др. (1967) для различных значений Q-1, где
Ч + 4S2 •
Wynn, Bloomfield (1971) подошли к этой задаче с другой сторо-
ны и получили таблицы (воспроизведенные в приложении F) для
произвольного интервала [с, 6]. При этом просто вычисляется
„стандартизированный" вариант ширины интервала
с_____________________(fe—с) _ (7 9)
[{s^(a-7)2} {s|+(ft-x)})1/2+ 4+(а-х) (b-x)
и по таблицам в приложении F отыскивается соответствующее
ему значение А. Если х =-^(а +6), тос — (Ь — a)/2sx и Q== 1 4-с2.
Последнее соотношение связывает таблицы, приведенные в при
ложении F, с таблицами, имеющимися в Halperin и др. (1967).
При а—*—оо и Ь—»-оо получаем с—*оо и А = (2Fg „_а)1/2, как
7.2. Доверительные интервалы и полосы
183
и следовало ожидать. Вычисления, проведенные Halperin, Gurian
(1968), показывают, что эта модификация полосы Уоркинга—Хотел-
линга, по-видимому, вообще приводит к доверительным интерва-
лам более узким, чем интервалы, получаемые из полос постоян-
ной ширины и трапецеидальной формы. Поэтому мы рекомендуем
как итог использовать полосу (7.7), но значение X в случае [а, Ь]
определять по таблицам, приведенным в приложении F.
Наконец, следует упомянуть об односторонних доверительных
интервалах. Bohrer, Francis (1972) приводят- (верхний) односто-
ронний аналог полосы (7.7). Он имеет следующий вид (мы нес-
колько видоизменили их модель, так чтобы х £ [а, Ь], а не х—х£
€[«, *]):
1—а=рг
<#+₽! (х— x) + KS
х-х
— х)2 |
для всех х£[а, 6]
Величина X (с* в их обозначениях) табулирована для различных
значений п, ц>* (<р* = arctg[(b—x)/sj—arctg [(а—x)/sj и а(1—а
в их обозначениях). Нижние односторонние интервалы получаются
заменой знаков неравенств на противоположные и заменой А на
— X.
7.2.4. Доверительные интервалы для отклика
В соответствии с общей теорией § 5.3 мы можем, используя
предиктор У„ получить 100(1—а)-процентный доверительный
интервал для случайной величины У,. Это интервал
У. ± S (1 4-v.)1'2,
где о,—величина, указанная в (7.6). Если требуется получить
сразу k доверительных интервалов для значений У£‘’ при х—хУ
(i = l, 2, .... k), 'то можно использовать интервалы
У’° ± XS (1 + п‘й)1/2 (i=l,2, ..., k),
где X равно tn-W (kF%,n-2)1/2 или Uk, п-2, если мы используем
соответственно метод Бонферрони, метод Шеффе или метод макси-
мального модуля. Если, однако, значение k столь велико, что эти
интервалы оказываются чересчур широкими, или значение k просто
неизвестно, то можно использовать совместные толерантные интер-
валы из работы Lieberman, Miller (1963). Описание метода можно
найти также в Miller (1966, с. 123).
184
Гл. 7. Линейная одномерная регрессия
7.2.5. Оптимальное расположение наблюдений
Чтобы получить хороший доверительный интервал, необходимо
выбрать значения х, таким образом, чтобы величина
*
была по возможности меньшей. Если интересующие нас значения
х шкалированы таким образом, что они сосредоточены на отрезке
[—1, 1] и n-четное число, то в этом случае, как известно, макси-
мальное значение vt по всем значениям х« из отрезка [—1, 1]
будет минимальным, если половину наблюдений взять при х — —1,
а другую половину—при х= + 1. Этот результат вытекает из
§ 8.4, поскольку такое расположение наблюдений приводит к
минимаксному (D-оптимальному) плану (см. также Gaylor, Swee-
ny (1965), Herzberg, Сох (1972, с. 533)). Однако этот план (назо-
вем его, скажем, DL) оптимален только, если мы совершенно
уверены в том, что модель одномерной линейной регрессии верна
и дисперсии е, равны. Очевидно, что этот план был бы наихуд-
шим из возможных, если регрессия в действительности квадра-
тичная. Поскольку на практике мы можем захотеть проверить
такое предположение, то наиболее уместно для этой цели выбрать
план, который дал бы возможность исследовать коэффициент (32
в выражении Е [У] = р0+Р1Х + ргх2 „оптимальным" образом. Напри-
мер, план (назовем его £>а),_ минимизирующий var[P2], соответст-
вует проведению по и/4 наблюдений при х = ± 1 и и/2 наблюдений
при х = 0. Однако этот план может привести к весьма неэффек-
тивной оценке рп если коэффициент Р2 в действительности равен
нулю, так что разумный компромисс состоит в выборе плана D,
минимизирующего var [Р2] при заданной эффективности оценива-
ния коэффициента р1( которую можно определить как
г __ var [р! | OL]
varfjjJD]
где pf —оценка наименьших квадратов коэффициента рх в предпо-
ложении Р2 = 0. В условиях симметричности планов Atkinson
(1972) показал, что для заданного f значение var [р2] достигает
минимума, если брать по ^fn наблюдений при х=± 1 и (1—f)n
наблюдений при х = 0. Если/=1/2, что в действительности явля-
ется минимальным значением /, то D = D2. При возрастании f
имеем f—► 1, D—
Есть и другие решения указанной задачи. Stigler (1971) нашел
D-оптимальный план при условии var [[J>2] о2 С/п для заранее
выбраного С, a Atwood (1971) использовал соответствующую „ли-
нейную комбинацию" планов D} и £)а.
7. 2. Доверительные интервалы и полосы
185
7.2.6. Предсказание для обратной задачи (дискриминация)
Пусть мы хотим произвести калибровку какого-либо прибора,
скажем манометра (датчика давления), и при этом нам известно,
что показания манометра являются линейной функцией от давле-
ния, а именцо
(показание манометра) = Ро+₽i * (давление) + (ошибка),
или
У = P0+PiX-|-e.
Для калибровки манометра мы подаем на него два или более
(скажем, п) контролируемых давления х,- (i = l, 2, ..., п) и счи-
тываем соответствующие показания манометра У,-. По этим дан-
ным мы подбираем уравнение Y = ро + Р1х, которое можно исполь-
зовать для оценивания (предсказания) неизвестного давления х,
при заданном показании манометра У». Эта задача обратна рас-
смотренной в разд. -7.2.4 задаче предсказания значения У, при
заданном значении х = х».
Естественной оценкой для х« (являющейся также оценкой
максимального правдоподобия) является оценка, получаемая как
решение подобранного уравнения У» = ро + Р1х, а именно
х,
(7.Ю)
Правда, эта оценка оказывается смещенной, поскольку в общем
случае
Е [Г»— Ро!
£[₽il
==х..
В то же время для х» можно построить доверительный интервал,
используя метод разд. 7.2.2. Из (5.21) имеем
К.-У.^У.-ро-вх.-ЛЦО, о2(1 -|-ц.)),
так что
Т - ~ f
sKi+v, sKi-H. "~s‘
Поскольку
1 —a = pr [ ITI < = pr [T2 < (ZO?2)“)8],
то совокупность всех значений x, удовлетворяющих неравенству
(у.-у-₽;(х-х)рс
(Х — Х)2 I
^(х,—х)2 J
(7.П)
186
Гл. 7. Линейная одномерная регрессия
где X = и Ла = F“ ч 2, образует 100 (1 —^-процентную довери-
тельную область для х*. Это множество, обычно называемое интерва-
лом дискриминации, может образовывать конечный интервал, пару
полупрямых и даже всю действительную прямую (см. Miller (1966,
с. 118—119, рис. 2,3 и 4), Hoadley (1970)). Конечный интервал
получается тогда и только тогда, когда 02 > ZAS2/2 (*,•—х)2(т. е.
когда F-критерий для Р, = 0 оказывается значимым). При этом
указанный интервал содержит оценку х* и имеет вид [d^-j-x,
d2-f-x], где dind2—(действительные, несовпадающие) корни урав-
нения
+{(Г.-Р)2-Ха$2(1 +4)1 = 0-
I f j \xi I ' ' • )
(7.12)
(Это уравнение получается из (7.11), если положить d = x—х.)
Если х, не попадает в интервал [dt-|-x, d2 + x], то доверитель-
рая область для х. состоит из двух полупрямых. В то же время,
если уравнение (7.12) не имеет действительных корней, то дове-
рительная область совпадает со всей действительной прямой.
Указанная теория легко обобщается на случай отыскания k
совместных интервалов дискриминации, соответствующих k раз-
личным значениям К», скажем У»=У(? (t= 1, 2, ..., k). При
этом следует просто подставить Y1,1' в (7.12) и взять X равным
или uk п-2’ в зависимости от того, используем
ли мы соответственно интервалы Бонферрони, Шеффе или интер-
валы максимального модуля.
К сожалению, этот метод не применим, если значение k не
известно. Так получается, например, в случае задачи калибровки,
в которой'подобранная калибровочная линия используется для
коррекции неограниченного числа считываемых затем показаний
прибора. Так, при проведении биологических испытаний строится
стандартная кривая, используемая при последующих испытаниях
(дискриминациях). Если k велико, то X может оказаться столь
большим, что пользоваться указанными интервалами дискрими-
нации будет бессмысленно. Однако если k велико или просто не
известно, то можно воспользоваться двумя методами, описанными
Lieberman и др. (1967). Первый метод, предложенный, по-види-
мому, в Miller (1966, с. 125—128), использует неравенство Бон-
феррони (5.5) (при k = 2) и сочетает при заданном У, доверитель-
ный интервал для Е[У»] с доверительной полосой Уоркинга-Хо-
теллинга для прямой ₽0+₽ix- Второй метод, по существу, использует
соображения, аналогичные использованным Шеффе, и называется
усиленным F-методом. Оба метода приводят к завышению ширины
интервалов дискриминации. Lieberman и др. (1967) считают, что
7.2. Доверительные интервалы и полосы
187
в большинстве задач, в которых эти методы могут оказаться по-
лезными, метод Бонферрони дает более короткие интервалы, осо-
бенно если ожидается, что последующие значения У, не будут
значительно отличаться от P0+₽ix- Модификация метода Бонфер-
рони принадлежит Oden (1973), который уточнил одно из исполь-
зованных Миллером неравенств и получил более короткие интер-
валы.
(а) Альтернативные оценки
Мы видели уже, что оценка х„ указанная в (7.10), является
смещенной. Кроме того, она имеет неограниченную среднеквадра-
тичную ошибку £[(х»—х„)]2. В то же время Williams (1969) пока-
зал, что несмещенной оценки с конечной дисперсией для х, не
существует, и поэтому он рекомендует все-таки использовать
оценку х„ учитывая, что она строится по совокупности достаточных
статистик для неизвестных параметров. Альтернативный метод,
основанный на использовании регрессии х на Y (даже если вели-
чина х не случайна), был возрожден в работах Krutchoff (1967,
1969). При этом было произведено сравнение обычного прогноза
для х, получаемого по этой „обратной" модели (обозначим его
х„), 'со значением х„ получаемым с использованием статистичес-
кого моделирования. Однако Williams (1969) и Halperin (1970)
показали, что критерий, использованный Krutchoff для срав-
нения указанных оценок, был неудовлетворительным. Halperin
(1970) провел теоретический анализ, показывающий предпочти-
тельность использования х* вместо х». Hoadley (1970) также рас-
смотрел эту задачу, но с точки зрения байесовского подхода. Он
отметил следующее неудовлетворительное свойство оценки х,.
Коэффициент при d2 в (7.12) равен
___*)*_£?. „_21 ,
2(Х/-Х)2[ S’ j
где уменьшаемое в, квадратных скобках есть просто обычное
F-отношение для проверки гипотезы ₽j = 0. Поэтому, если значе-
ние F много больше, чем F“n-2» то интервал дискриминации
узок, и х» оценивается довольно точно. Если же К-отношение
оказывается лишь едва значимым (соответствующая прямая почти
горизонтальна), то оценивание становится неточным. Другими
словами, информация о точности х, содержится в самих данных,
так что представляется разумным придавать оценке х, меньший
вес, если известно, что она ненадежна. А это именно то, что
188
Гл. 7. Линейная одномерная регрессия
делает байесовская оценка. Hoadley (1970, с. 365) доказал, что
х* = [f+(n—2)] *• (7 •13)
и что х, является байесовской оценкой по отношению к некото-
рому априорному распределению х,. Им указан также довери-
тельный интервал, основанный на х», для случая, когда это част-
ное априорное предположение может быть подтверждено.
Если данные близки к некоторой прямой, то особенной раз-
ницы в оценках х» и х„ нет; S2 при этом мало, a F в (7.13)
велико (см. упр. 4 в конце главы).
(Ь) Повторные наблюдения
Пусть мы имеем т повторных наблюдений У^- (j = 1,2, .. .,т ;
т> 1) с выборочным средним У*, произведенных при неизвестном
значении х —х». В такой ситуации мы располагаем двумя оцен-
ками для о2, а именно S2 и 2/ (У*/— У«)2/(т— 1)> которые можно
использовать в сочетании для построения доверительного интер-
вала для х«.
Следуя Graybill (1961, с. 125 —127), положим U — У,—У —
— —*)• Тогда £[(/] = 0,
var [£/] = o2j —+ ~ +\=°и
L J । пг ‘ л ~ 2 (X('—x)a f
и UlGu~ N (0, 1). Если
Vi = 2 [Y' - F-Pi (x, -X)]2 = RSS
i
И
v2 = S(yv-r.)2,
/
то случайные величины U, и V2 взаимно независимы и
(n+m— 3) о2 Vf+V2_ лг2
------------------^2 Лп-2+m-i-
Поэтому
т _U !аи _ t
о/о "И 1 , 1 Г/2 n+a~s’
\ 2(х< — X)2 I
и уравнение (7.12) принимает вид
7.3. Прямая, проходящая через немало координат
189
где [ii = (tn+m-s)i = Fi. п+т-з- Заметим, что оценка о2, основан-
ная на n-f-m—3 степенях свободы, имеет меньшую выборочную
дисперсию по сравнению с оценкой S2 с п—2 степенями свободы;
кроме того, р2 < А2. Эти два факта приводят к тому, что [Сох
(1971)] (1) интервалы, даваемые (7.13), будут в среднем уже ин-
тервалов, даваемых (7.12), (2) коэффициент при d2 в (7.14) будет
обычно большим, чем соответствующий коэффициент в (7.12), так
что вероятность получения конечного доверительного интервала
для х» увеличивается, если используются повторные наблюдения Y*.
В заключение упомянем еще о двух методах. Kalotay (1971)
предложил структурное решение рассмотренной задачи, a Perng,
Tong (1974) привели последовательную процедуру, в которой т—
случайная величина. Эта процедура дает правило остановки при
построении для х, доверительного интервала фиксированной
ширины.
7.3. Прямая, проходящая через начало координат
Часто бывает известно, что Е[У] = 0 при х = 0, так Что соот-
ветствующая линия регрессии имеет вид Yt = Р1х1- + е;. Оценка
наименьших квадратов для 0* принимает в этом случае вид
и несмещенной оценкой для о2 будет
(7-15)
Поскольку 01 ~ Л/ (0j, о2/2*i), то /-доверительный интервал для
01- имеет вид
01 ± S (Sx?) • (7.16)
Оценку У» = x»0i можно использовать для построения довери-
тельного интервала для значения Е[У.] = х,01 при х = х». Этот
интервал имеет вид
Y,±t^LTsVv„ (7.17)
где o»=x2/S*o и становится тем шире, чем дальше мы удаля-
емся от начала координат. Поскольку 0Х попадает в интервал
(7.16) тогда и только тогда, когда x.pj попадает в интервал (7.17)
для каждого х„ то 100(1—а)-процентной доверительной полосой
для всей линии регрессии является область, заключенная между
двумя линиями
У = р> ± №>а SI х 1 (2X?)-V2. -
190
Гл. 7. Линейная одномерная регрессия
Доверительные интервалы для одного значения У, или для k
значений Y, приведены в разд. 7.2.4. Однако о. определяется,
как указано выше, а соответствующее число степеней свободы
равно теперь п—1 вместо п—2.
Обратное предсказание также производится непосредственно.
Следуя методу разд. 7.2.6, мы находим, что значение х, оцени-
вается величиной х* = y./Pj, и соответствующий доверительный
интервал для х* задается корнями квадратного уравнения
Xs/+ = 0, (7.18)
\. 2X1 J
где Х= a S2 определяется формулой (7.15). Если при х = х,
имеется т повторных наблюдений Y,j, то соответствующее квад-
ратное уравнение имеет вид [Сох (1971)]
*s(p? ^=0,
\ <>xi /
ГДе И
I « i
7.4. Взвешенный метод наименьших квадратов
7.4.1. Известные веса
Пусть K/ = ₽0+PiX/ + e/(i== 1, 2, .п), где вг—независи-
мые случайные величины с распределением N (0, о2гх>}“), a w{ —
известные положительные числа. Тогда в соответствии с § 3.6
взвешенные оценки наименьших квадратов PJ и К параметров ро
и получаются путем минимизации суммы 2 wi(Yi~М2.
Дифференцируя эту сумму по ро и pt, получаем
Ро* 2 wi+К 2 wixi=^wiY i
2
'(7.19)
и
р; 2 wixi+2 wixt 2 wiY ixi-
(7.20)
Деля обе части (7.19) на 2ЬУ1 и определяя средние Yw —
= 2 wt и т. д., получаем
К=К,-рГхда. (7.21)
Подставляя (7.21) в (7.20), приходим к оценке
р» __ 2Iхi 2 wixiYw 2ЦУ ।—Yw) (х, —хи,)
2 2 w» 2 w> (*«—
7. 4. Взвешенный метод наименьших квадратов
191
(7.22)
var [РГ] =
Из альтернативного выражения
р. *то)
легко следует, что
ZjU!i(Xi— xwy
Используя общую теорию § 3.6, можно показать, что
Д 2wi \Yt-yw-^ (х/-£)]2}
=-^2 (h-rj2-(Pr)2S^ -*>}
(7.23)
(7.24)
является несмещенной оценкой для о2 и 100(1—а)-процентный
доверительный интервал для р4 имеет вид
( С*2 Ъ 1/2
РГ ± №2 “ j - _ I . (7.25)
Ijj X)‘2I
Если ро = О и Pi — Р, то в соответствии с примером 3.2 из § 3.6
(7.26)
и доверительный интервал для р принимает вид
P’i^
где
^“7ГТ{2^П-(Р*)22^. (7.27)
(Заметим, что эти формулы вытекают из формул (7.22)—(7.25),
в которых надо положить Yw = xw = 0 и заменить п—2 на п—1.)
При выполнении условий нормальности оценка р* является оцен-
кой максимального правдоподобия для р. В то же время Turner
(1960) показал, что при некоторых оценка р* может оставаться
оценкой максимального правдоподобия для р, даже если распре-
деление У и не является нормальным (ср. с упр. 5 в конце главы).
Обратное предсказание (дискриминацию) для этой модели рас-
смотрел Сох (1971).
7.4.2. Неизвестные веса
Пусть
— ^z + ez — Ро+Pixz + е/ (Г = 1» 2, ..., п),
192 Гл. 7. Линейная одномерная регрессия
где 8f—независимые случайные величины с распределением
IV (0> v=oi 2 * *, g—известная положительная функция,
а веса = 1 /g (0,) не известны. Для оценки 0О и Pj можно ис--
пользовать следующие два метода.
(а) Метод максимального правдоподобия
Если gj = g (О,-), то логарифм функции правдоподобия имеет
вид
1 j
L = — у n log 2л—у 21оё (^<)
Далее,
vgi
д logg _ 1 dg__.
dQ ~gdQ
(обозначение h используем для краткости), так чт<
= h
И
dg dg дв .
d^J~'dQdfii~ghx-
Оценки максимального правдоподобия ро, р£ и v получаются ре-
шением уравнений dL/d$0 = dL/d{\ = dL/do = 0, имеющих вид
4(г-<5):
2*1
(^-4)
= 0,
i « , i v (У/-ё,р
2 J "* 2 2- v^gi ’
где ht, gt и 0f—функции от р0 и pv Умножая обе части каждого
из этих уравнений на v и полагая У/ = 0/ = Ро+Р1л:1- и wi— 1/g,,
мы можем свести эти уравнения к уравнениям
До2 йз +Д S ^,Л= S *,Г<+1 i/)2-5 * *)» (7.28)
Л2 Wixi+Pi2S’ix?~ ^)2_‘5} (7.29)
7. 4. Взвешенный метод наименьших квадратов
193
И
р«)2- (7-30)
Уравнения (7.28) и (7.29) можно сопоставить с (7.19) и (7.20).
Поэтому, имея исходную аппроксимацию для р„ и р, (получаемую,
скажем, невзвешенным методом наименьших квадратов), мы мо-
жем вычислить соответствующие значения wit ht и v, решить
(7.28) и (7.29) и получить новые приближения для Ро и ро а за-
тем повторить этот процесс.
Если п велико, то дисперсионная матрица оценок максималь-
ного правдоподобия имеет приближенное выражение
32L
02L
Э/Wi
02£
0/3o0v
02£
02£
Э2Д, Г_
02£
0V
з2£
0/?()0V
02£
013,0V
02£
02t>
1
V S хл i
i
5 S \xi
i
где
°'=^,+тЛ51’=г{, + Й;®’}-
В последнем выражении второе слагаемое часто бывает мало.Напри-
мер, если gz==G|, то второе слагаемое в фигурных скобках равно 2v,
и им можно пренебречь, если v много меньше.чем 1/2. В этом
случае дисперсионная матрица для р0 и р, приблизительно равна
матрице
2*7
i
S-w
i
(7.31)
которая является дисперсионной матрицей для PJ и р{ цр§зд. 7.4.1.
7 № 571
194
Гл. 7. Линейная одномерная регрессия
Приведенный анализ основан на работе Williams (1959,
е. 67—70), но только со следующим различием: мы использовали о2
вместо о и gt вместо g2 (в указанной работе g{ может прини-
мать отрицательные значения).
(Ь) Метод наименьших квадратов
Этот метод состоит в оценке весов w~ 1/£(₽0+₽Л) с по-
мощью некоторых исходных оценок для ро и скажем невзве-
шенных оценок наименьших квадратов (являющихся несмещен-
ными), и решения уравнений (7.19) и (7.20) с целью получения
для р0 и Pi новых оценок. Эти новые оценки можно использовать
для пересчета wh а затем повторить этот процесс. Williams (1959)
считает, что здесь достаточно двух циклов итерации, поскольку
для получения точных оценок параметров ро и вовсе не обя-
зательно иметь слишком точные оценки весов.
Игнорируя тот факт, что оцененные веса w( являются слу-
чайными величинами, можно считать, что дисперсионная матрица
оценок наименьших квадратов приблизительно равна (7.31). Ис-
пользуя теорию разд. 7.4.1, с помощью тех же рассуждений
можно получить такие же приближенные критерии и доверитель-
ные интервалы, только в качестве w{ берутся оценки весов, а не
сами веса. По этой причине, а также для упрощения вычислений
метод наименьших квадратов предпочитают методу максимального
правдоподобия.
7,5. Сравнение прямых
7.5.1. Общая модем
Пусть мы хотим сравнить К линий регрессий
У = ак PAxft е (k=l, 2, ..., К),
где £[е] = 0 и дисперсии var[e] = o2 одинаковы для всех К ли-
ний. Если для k-м линии имеется nk пар наблюдений (xki, Yki)
(i=l, 2, ..., nk), то модель принимает вид
^н=а»+РЛ|+е« (г = 1» 2, . nk), (7.32)
Где —независимые случайные величины с распределением
N (0, о2). Вводя обозначения
.... У1И1...rftl, гКа, .... Гд„А)
7. 5. Сравнение прямых
195
и т. п., мы записываем
модель в виде Y = Ху ф- е, где
1 0 • 0 *11 0- 0
1 0 0 *12 o' 0
1 0 0 0 0 «1
0 1 0 0 *21 0
0 1 0 0 *22 0
Xy= 0 1 0 0 *2л, 0 Pi Pl • (7.33)
• • • • • • • • • • • • 1
0 0 • 1 0 0 • •• *K1 Pk
0 0 • 1 0 0 ’ ' ’ *K2
0 0 • • 1 0 0 XXnK
Здесь X—матрица размера й/х2/( ранга 2К, a N = ^!$=ink, так
что, используя общую теорию гл. 4, можно проверить любую
гипотезу вида /7:Ау = с. Три гипотезы такого рода рассматри-
ваются ниже. Соответствующие задачи можно решать также, ис-
пользуя метод ковариационного анализа.
7.5.2. Критерий параллельности
Если рассматривается задача проверки параллельности всех К
линий, то соответствующая гипотеза имеет вид Нг: Pi = Р2 = • • • = Рх
(обозначим это общее значение через р), или Рх—рА-=р2—Рк = • • •
••• = Px-i—РА=0. В матричной форме она принимает вид
1 О
О 1
О О
О ••• 0 -1
°. ::: .°. .:!(?)-
О О 1 -1J
или Ау = О, где А—матрица размера (К—1)х2Л ранга К—1.
Используя общую теорию регрессии с q = K—n = N и р = 2К,
получаем, что статистика критерия для проверки гипотезы Hi
имеет вид
(RSS^-RSS)/^-!)
RSS/(A' — 2Л) • y.&i)
Минимизируя е'е, находим, что RSS является просто суммой
остаточных сумм квадратов для каждой из регрессий, а именно
к ( nk _ nk i
RSS = 2 i 2 (Yki-2 (xki-xh.y\, (7.35)
fe=l I 1=1 i=l J
7*
196
Гл. 7. Линейная одномерная регрессия
где
2. О'ki Yk.) (xki— xk-)
p»= ' - „---- <7-36)
2j(xki~ xk.)
Кроме того,
ak = Yk.— fak. (7.37)
Для отыскания RSSh, минимизируем сумму
— ₽х*г) относительно ak и fk Переходя к частным производным,
получаем уравнения
S(Vftf-aA-Kz) = 0 (Ы, 2, .... К) (7.38)
i
И
SSx«(K«-aft-₽xft/) = 0. (7.39)
k i
Из соотношения (7.38) вытекает
^k — Yk-—Рх*.. (7.40)
Подставляя это выражение в (7.39), имеем
JL ’ (Уki ^fe.) 2 2 (Yki—^fc.)(xft/ — Xfe.)
о k I _ k i______________________________
22x«(xw- ~xk.) ~xk.y
k i T i
Это есть „групповая" оценка для общего для всех линий угло-
вого коэффициента. Наконец,
Rssk=22(4-«a-^)1
к i
“S S “ Yk— ft (xA,~XA.)J
к i
_ 2 (7.41)
к i к i
RSSW1-RSS=2 4^(хй-хА.)2-Д22 S(xAf-V-
к i к I
7.5.3. Критерий совпадения
Для решения вопроса о совпадении всех К линий регрессии
рассмотрим гипотезу Н2: а1 = а2= ... =аК и = Р2 = . • =рА-
(обозначйм эти общие значения параметров прямых символами а
7, 5. Сравнение прямых
197
н р соответственно). Рассуждая таким же образом, как и в разд.
7.5.2, мы легко обнаруживаем, что гипотеза имеет вид Ау = 0,
где А—матрица размера (2/(—2)х2Л (ранга 2Л—2). Миними-
зируя е'е по а и р, получаем
RSSh, = 22
Л i
~ZZ{Ykl-
к i
=22 (Ykl-Y.. Г- (₽•)« 2 2 (xkl-x..)%
k i k i
где
22(^- •)(xki— X..)
Р» _ k i_________________
p “ 22^m-*-)’
k i
и
22'r«
у/ __
и т. д. При этом F-статистика для проверки /7S имеет вид
_ (RSS„-RSS)/(2K-2)
RSS/(/V —2А) *
На практике сначала следует применять критерий параллель-
ности прямых, а затем уже, если гипотеза Ht не отвергнута,
проверять гипотезу Н3 (считая, что гипотеза Ht верна), исполь-
зуя статистику
(RSSHt-RSSHi)/(A-l)
RSSHi/(W-A-l) *
Если величина этой статистики также оказывается незначимой,
то мы можем проконтролировать указанную процедуру, исполь-
зуя статистику (7-42).
7.5.4. Критерий пересечения прямых е одной точке
(а) Случай известной абсциссы
Пусть мы хотим проверить гипотезу Н3 о том, что все К
линий регрессии пересекаются в какой-то одной точке оси орди-
нат (% = 0), т. е. Н3: а1 = а2== . .. =аЛ. Опять обозначим это
общее значение параметров а,, ..., ак через а. Переходя к част-
ным производным суммы 22^*'—а—РЛ«)2 по а и полу-
198
Гл. 7. Линейная одномерная регрессия
чим, что оценки наименьших квадратов а' и К параметров а и
являются решениями уравнений
22(^z-a'-fe)==0 (7.43)
k i
И
2 ХМ (Y ki~ -a'—PfeXftI-) = O (Л=1, 2, ..., К). (7-44)
Последнюю систему щим образом: можно записать в матричной форме следую-
' N. %1. x2- ’*• хк- X. ’
• xi- x2- 2x?/ i 0 О о • о Лв «5 «5 = 2^*н 2 ^2iX2i э (7-45)
• • • XK- ♦ • • 0 ° ". 2 KkiXKI I
У • • = Sa 2/ Ум- Вычитая
где = и
матрицы в (7.45)
множители, что все элементы первой строки, кроме
обращаются в нуль, получим соотношения
из первой строки
все- остальные строки, умноженные
на такие
первого,
N_____—
1V VI 2
2jw
2 XKi
I
И
*K-2 Y Ki xKi
I
(7.46)
Наконец,
2 A i a ) Xft,"
Zj XM,
I
(А>=1, 2, ...,К).
RSSH = 2 2 (Yki-a-^xkly,
k i
(7.47)
и F-статистика для проверки гипотезы Н3 имеет вид
(RSSH,-RSS)/(K-1)
Г RSS/(W—2/Q
7. 5. Сравнение прямых
190
Ордината точки пересечения прямых (на оси ординат) оцени-
вается величиной а'.
Если в качестве х берутся одни и те же значения для всех
/< линий, так что пк — п и xki — x-L (k=; 1, 2, ..., /С), то (7.46)
принимает вид
После некоторых преобразований отсюда находим
а' = У _х^Ук1(х:-х) (7.48)
K^txi-x)* - К
Здесь j3A—оценка наименьших квадратов углового коэффициента
/г-й прямой, так что а' можно рассматривать просто как свобод-
ный член уравнения „средней прямой регрессии" [Williams (1959,
с. 139), Sprent (1969, с. 104)]. Можно показать, что в рассмат-
риваемом случае
RSSHa = 22 Пг_(11Д^_(а')^п . (7.49)
k i 2jXi xt
В силу некоррелированности и 0А, из (7.48) вытекает, что
var [а'] = var [У..] +Кх* =
“К | « + £ (х,—х)2 J nK^(xi-xy ’ <
и доверительный интервал для а можно получить, используя
тот факт, что
Т — (а' —а)
inK^(xt-х)211/2
I Г
где S2=RSS/(n/< — 2/Q.
Если проверяется гипотеза о том, что точка пересечения линий
регрессии лежит на прямой х — с, то надо просто заменить в полу-
ченных выше результатах хк1 на xki —с. При этом мы переносим
начало координат из точки (0, 0) в точку (с, 0). Оценка орди-
наты точки пересечения остается той же: а'.
(Ь) Абсцисса точки пересечения прямых не известна
Гипотеза о том, что все прямые пересекаются в некоторой
точке с неизвестной абсциссой х — Ф, имеет вид Нк: аА+рАФ = const
200
Гл. 7. Линейная одномерная регрессия
для k=l, 2, К• Если исключить Ф, она принимает вид
уу. gj—а __ад-—а
' 31-₽= ₽№₽'
Поскольку гипотеза Н уже не является линейной, то общую
теорию регрессии использовать для построения критерия невоз-
можно. Приближенный критерий для проверки этой гипотезы
получил Saw (1966).
7.5.5. Использование фиктивных категоризованных
регрессоров
Предположим, что мы намерены сравнить только две линии
регрессии
J>at+₽A4-ew (^==1. 2; i=l, 2, .... пй).
Вводя фиктивную переменную d, равную 1, если наблюдение
соответствует второй линии регрессии, и 0 в противном случае,
можно объединить эти обе линии в одну модель
У; = af+Рл- 4- (а2 — «0 dt 4- (р2—pr) (d 4- е,-
= То 4- YiZ/i 4- Т2г,-В 4- T3z/3 4- ez, (7.50)
где
z. П = ( f==1’2’
1 I (xaZ, Y2i), i= Г44-1, ...» «14-n,,
и
i o, t = i,2,....щ,
d __ J 1
' ( 1» t = n14-l, ...,ni4-n2.
Отметим, что модель (7.50) является попросту перепараметриза-
цией модели (7.33) (с /<=2). При этом вместо параметров ап
а2, Pi и р2 используются параметры y0 = ai, y1 = pi, у2 = а2—ai
и Тз = Р2—Pi- Для этой новой модели рассмотренные выше гипо-
тезы сводятся к следующим: у8 = 0 (параллельность), у2 = 0
(точка пересечения прямых лежит на оси ординат), у2 = уа = О
(совпадение прямых).
В случае трех прямых вводим две фиктивные переменные:
{1, если наблюдение соответствует второй Прямой,
0 в противном случае;
| 1, если наблюдение соответствует третьей прямой,
(0 в противном случае.
7. 6. Двухфазная линейная регрессия
201
При этом мы получаем объединенную модель
Yi=«г 4- + («2 ~а1) du 4- (а3 — at) dl2 4- (ра —pj (dlx)/
4-ф8~-₽1Ж*)/ + ег-
Дальнейшее обобщение проводится непосредственно (см., напри-
мер, Gujarati (1970)).
7.5.6. Проверка гипотезы о равенстве дисперсий
Используя методы разд. 6.2.2, можно проверить гипотезу
о равенстве дисперсий ошибок oi(£=l, 2, ..., К) для Д рас-
сматриваемых прямых регрессии. Для каждой прямой мы вычис-
ляем остаточную сумму квадратов
Уь -Ш-Ь)8}
где |3ft дается выражением (7.36). В предположении нормальности
имеем гДе fk — nk—так что мы можем проверить
гипотезу Н: oj=...o$ используя методы разд. 6.2.2.
7.6. Двухфазная линейная регрессия
Иногда регрессию У на х бывает разумно представлять в виде
пары пересекающихся прямых, одна из которых соответствует
значениям х < у, а другая—значениям х>у, т. е.
Е [У] = щ -f- ptx, х У,
£[У]=а2 + Рах, х>у,
и
«г4-₽1Т = аа+рау (=6). (7.51)
Например, х может быть возрастающей функцией времени, и
в некоторый момент времени tc производится воздействие, кото-
рое может повлиять на наклон линии регрессии либо сразу же,
либо через какое-то время. Следуя Sprent (1961), мы называем
х = у точкой переключения, а 0—переключающим значением.
7.6.1. Оценивание методом наименьших квадратов
при неизвестной точке переключения
Пусть мы хотим подобрать двухфазную модель
^H = ai4-PiX1/4-Si/ (t = l, 2, .... mJ,
У 2/ ^2 4~ Рг-^2/ 4~ &2( (i= 11 2, . •., па)
202
Гл. 7. Линейная одномерная регрессия
методом наименьших квадратов, и при этом известно значение -у и
^11 < ^12 %1п, < 7 < ^21 < ^22 < • • • < ^2па‘
Тогда мы должны минимизировать сумму в'е = 2*2<е« ПРИ
линейных ограничениях (7.51) следующим образом (Sprent (1961,
с. 637—638)). Рассмотрим выражение
Г= 2 ^'(П/-^-₽Л,-)а + 2^[а2-а1 + т(Р2-Р1)]>
ft=i i=i
где (—2Х)—множитель Лагранжа, соответствующий (7.51). При-
равнивая нулю частные производные г по ак и |3fc (k= 1, 2), полу-
чаем уравнения наименьших квадратов
—2(2у17—«Л——2Х=0, (7.52)
-2 (2 - «2«2 —2 ** А) + 2Х=0, (7.53)
2 ^2^1/ (Хи —at—2Ху = 0 (7.54)
и
-2(2*2/(Л,— а8-Р2^)) 4~2Ау = 0. (7.55)
Из (7.52) и (7.53) имеем
aft=yft.-p^.4-(-l)*-i Ink1 &=1,2). (7.56)
Подстановкой в
ai-a2 + T(0~₽2) = 0 (7-67)
получаем
Z=to{F2.— Yt. +Pi(Xi.— у) —₽2(х2.— у)}, (7.58)
где 10= «!«./(«! 4-п2). Наконец, подставляя (7.56) и (7.58) в (7.54)
и (7.55), находим
cuPi “Ь^хгРг — схз»
^21Р1 ^22р2 ~ С23>
где
ckk— 2(^1— Xfe.)2+to(x*. — у)2 (6=1, 2),
i
CI2 = == — ^(*1 • — Т) (*2 • — у)
.И
Ck3 = ki—Уk.) (xki—x*.) + (— 1)*jo(F2. — Yr.)(x,k. —y)
(6=1, 2).
7. 6. Двухфазная линейная регрессия
203
Решая полученные уравнения относительно и 02, можем найти
затем X из (7.58) и ак из (7.56).
Заметим, что минимальное значение суммы е'е равно
2j xLO^feZ —ай P*zxfez)8
=22 {ykt-yk- -₽* (xftZ-№.)+(-1)* ад2 _
=S21(^-n.r-222₽ft(yw-n.)(xftI.-xft.)
+ L£lW*z- + (7.59)
Мы обозначим его RSS//.
7.6.2. Проверка гипотезы о том, что точка переключения
соответствует заданному значению
Если мы считаем приемлемой двухфазную модель, то может
возникнуть потребность в проверке гипотезы Н-. у = с, где с
заключено между какими-то двумя значениями х, скажем х1п <
<с<%21. Проверка этой гипотезы равносильна проверке гипо-
тезы о том, что две прямые пересекаются при х=с, а это можно
сделать, используя метод разд. 7.5.4а. Однако, поскольку сейчас
рассматриваются только две прямые, возникают некоторые алгеб-
раические упрощения. Например, значение RSS//s, выражающееся
формулой (7.47) (где xkl заменяется на (xki—с)), совпадает со
значением RSS//, задаваемым формулой (7.59) (с у = с), так что
критерий для проверки гипотезы Н строится по статистике
F RSS//—RSS
Г ~ RSS/(W—4) ’
где N-n(-}-n2 и RSS задается выражением (7.35). Можно также
показать (Sprent (1961, формула (7)), что
2
RSS//-RSS =» 2 &-&) 2 (Хм-?*.) (Xkl-xk.) + X (Уа. —Гх.).
k=s 1 i
Там же рассмотрены и другие связанные с этой задачи,
с которыми читатель более подробно может ознакомиться самостоя-
тельно.
7.6.3. Точка переключения не известна
Если известно, что х1П) < у < x2i, то в качестве оценки у
можно использовать (ср. с (7.51))
204
Гл, 7, Линейная одномерная регрессия
где ак и —обычные оценки наименьших квадратов для пара-
метров k-it прямой {k—\, 2). Поскольку у—отношение двух
коррелированных нормальных случайных величин, то для отыска-
ния доверительного интервала для у можно использовать метод
Филлера, состоящий в следующем.
Рассмотрим случайную величину (7 = (а1—а2) + у(₽1—Р2).
Тогда E[f/] = O, и, используя формулу (7.6) из разд. 7.2.3
с х» = у, получаем
var[t7] = o®
1 . (*!—т)2
"f Xj.)2
1 . (*2 —Т)2 )
”2 + 2(X2Z-Xa.)2J
Обозначим правую часть для краткости cfw. Тогда, как и
в разд. 7.7.2, 100(1—а)-процентный доверительный интервал
для у определяется корнями уравнения
[«i —a2 -ф у — ₽2)]а—Fi, = 0,
т. е. квадратного трехчлена
где S2 = RSS/(W—4) и Л/ = п1-}-п2.
Если значение у оказывается вйе интервала (xin, х31), то
экспериментатор должен решить, связано ли это со случайным
характером данных (здесь ему окажет помощь указанный выше
доверительный интервал для у), или это является следствием
неправильного предположения о расположении точки переклю-
чения. Если расположение точки у не известно, то задача стано-
вится существенно более сложной из-за возникающей нелиней-
ности. В таком случае двухфазная модель принимает вид [Hinkley
(1971)]
Г/ = е+р1(х/-у)+81- (i=l, 2, ..., п),
= 0— у)~1“8/ (i = n4-1, ..., N),
7. 7, Случайные регрессоры.
205
где Xi <... < у < xn+i <.. .< Ху, 6—переключающее зна-
чение, а п—теперь уже неизвестное целое число, значение кото-
рого надо оценить. Hinkley (1971) кратко описывает метод макси-
мального правдоподобия для оценки параметров у, 6, 02 и п.
Детально соответствующая процедура разобрана в работах Hud-
son (1966), Hinkley (1969b). Hinkley указывает также прибли-
женные доверительные интервалы для этих параметров, которые
можно использовать при больших выборках. Для случая боль-
ших выборок он приводит также критерии для проверки гипотез
Pi — ₽2 (наклон прямой не изменяется) и Р2 = 0. Другой подход
к проверке гипотезы Р1 = Р2 указали Farley, Hinich (1970).
Отметим, наконец, что метод Хадсона обобщил Williams (1970)
на случай трехфазной линейной регрессии. Интересный вариант
этой частной модели, в которой первая и третья линии предпо-
лагаются горизонтальными, описал Curnow (1973). Задачу оце-
нивания кусочно-линейной регрессии в общем случае рассматри-
вали Hudson (1966), Bellman, Roth (1969), McGee, Carleton (1970)
(см. также Feder (1975), где обсуждаются некоторые теоретичес-
кие проблемы).
7.7. Случайные регрессоры
Модели со, случайными регрессорами уже рассматривались
в общих чертах в § 6.5. Поскольку, однако, одномерной линей-
ной регрессии в литературе уделено большое внимание, следует
более детально указать на возникающие здесь трудности. Этот
краткий обзор частично основан на работе Moran (1970). За даль-
нейшими комментариями и ссылками читатель может обратиться
к работе Sprent (1969)х).
Предположим, что (Uif Vj), ..., (t/„, V„) — ненаблюдаемые
случайные величины, связанные структурным соотношением V =
= Ро + Р1^- Эти случайные величины наблюдаются с независи-
мыми случайными ошибками 6Z и ez, имеющими нормальные рас-
пределения с • нулевыми средними и неизвестными дисперсиями
ое и of соответственно. Таким образом, мы наблюдаем значения
(Xz, Y{) (i=l, 2, ..., п), где Хг = £7/-|-6/ и У’/=у.-|-е/. Отно-
сительно U делаются обычно два типа предположений:
(1) Величины U{ случайны и имеют нормальное распределе-
ние с неизвестными средним ту и дисперсией ву.
(2) Величины U { фиксированы (но не известны), так что вели-
чины V{ также фиксированы: при этом мы имеем функциональ-
ную связь и = ро + р1ц.
Случай 1. В этой ситуации модель содержит шесть-.неизвест-
ных параметров: nty, Оу, ро, |\, of и of. Однако вряд ли все
J) См. также Moran (1971), J. Multivariate Anal., 1, 232—255.
206
Гл. 7. Линейная одномерная регрессия
эти параметры удастся оценить. Это связано с тем, что наблю-
даемые величины (Xz, У;) имеют совместное двумерное нормаль-
ное распределение, а оно содержит только пять параметров.
В действительности здесь удается оценить лишь ти. Остальные
параметры не идентифицируемы, и поэтому структурную связь
V = a-j-Pt/ оценить невозможно. Если распределение случайной
величины U отлично от нормального и это нам известно, то
можно предложить методы, позволяющие идентифицировать все
указанные параметры. Однако на практике мы никогда не знаем
распределения случайной величины U, а чем ближе это распре-
деление к нормальному, тем хуже оценки.
Один естественный подход к решению рассматриваемой задачи
состоит в том, что на параметры накладываются некоторые огра-
ничения, приводящие, по существу, к уменьшению числа пара-
метров на единицу. Изучены следующие три типа таких ограни-
чений:
(1) Известен либо параметр ol, либо параметр иными сло-
вами, все параметры идентифицируемы и могут быть оценены.
(2) Известно отношение Пб/ое, т. е. последовательно можно
оценить все параметры.
(3) Известны и о|, и в этом случае модель „сверхиденти-
фицируема".
В заключение можно было бы задаться следующим вопросом:
что получится, если использовать обычные оценки наименьших
квадратов, например —^)а» 11 игнори-
ровать влияние ошибок в значениях регрессоров (иначе говоря,
использовать вместо истинных значений {Ut} значения {Xz})?
В книге Richardson, Wu (1970, с. 732) мы находим
Г Гй 1 Р ( ° и /°б)
и
1 г 2 2 2 п
Г R 1 1 I ft2 I
var[M-n_2 [аЬ+4 +Р1(^+аВ)2]*
Случай 2. Имеем модель
Е,= + +ег> Х/== U; ф-6/,
уже рассмотренную в § 6.4. Теория, относящаяся к случаю 2,
весьма близка к теории, относящейся к случаю 1. Проблема
неидентифицируемости возникает и здесь, поскольку вместо ти и
Оу имеется уже п неизвестных „параметров".
При больших значениях п в соответствии с результатами
разд. 6.4.1 для D = diag(0, al) имеем
Л (“i—ы) +
Упражнения к гл. 7
207
И
Wlaw,__^w
Точные значения Е[р1Д] и Е[(р1Д—Pi)2], а также более точные
асимптотические выражения для них при больших выборках
приведены в Richardson, Wu (1970), Эти результаты обобщили
Halperin, Gurian (1971) на случай коррелированных б, и ez (их
модель следует читать так: у^а+РВ/Ч-е,, х,-= б,).
Для оценивания (J, предложено несколько методов „группи-
рования". Эти методы описаны в книге Richardson, Wu (1970).
Упражнения к гл. 7
1. Пусть ищется аппроксимирующая прямая Vz=P0-J-PjX/4-8/(Z=l,2....и).
Докажите независимость Y и Покажите, что если Р* =P0+₽tx*> т0
var [Р,]=о2
(х*—х)2
2(х/—х)2
2, Используя обозначения разд. 7.2,2, докажите, что $=— P0/Pf—оценка
максимального правдоподобия для Ф.
3. Покажите, как в общей линейной модели регрессии найти доверитель-
ный интервал для отношения aip/ajp двух линейных функций от параметров.
4, Используя обозначения разд. 7,2,6, покажите, что при х = 0
где г—коэффициент корреляции пар (х/, У,-).
5. Пусть Yi, У2...Yn—независимые случайные величины, для кото-
рых при t = l, 2, .... п
Е[У,-|Х=х,]=р1х/
и
var [Yj | X = xd =о2од"'1 (te>i > 0).
(а) Пусть условное распределение случайной величины У при заданном
значении х относится к типу III (шкалированное гамма-распределение) и
имеет вид
1(у\ = yp~le~v,ax, о^у < со, р > о,
л* Г (р)
где ах—функция переменной х, a w^—xl. Докажите, что оценка максималь-
ного правдоподобия для параметра ff является в этом случае и взвешенной
оценкой наименьших квадратов.
(Ь) Пусть условное распределение случайной величины Y при заданном
* является пуассоновским, a шГ1=хр Покажите, что и в этом случае преды-
дущее утверждение сохраняет силу [Turner (I960].
6. Рассмотрим модель (1=1, 2, ..., п), где е,-—независимые
случайные величины, имеющие распределение N (0, о2^1), > 0, Покажите,
208
Гл. 7. Линейная одномерная регрессия
каким образом можно предсказать значение х* для заданного значения Е„
переменной Y. Опишите кратко метод построения доверительного интервала
ДЛЯ X*.
7. Убедитесь в справедливости соотношений (7.48) и (7.49).
8. Найдите F-статистику для проверки гипотезы о том, что две прямые *
пересекаются в точке (а, 6).
9. Найдите оценку и постройте доверительный интервал для расстояния
по горизонтали между двумя параллельными прямыми.
10. Покажите, как преобразовать следующее уравнение в линейное, с тем
чтобы параметры а и Р можно было оценить методом наименьших квадратов:
4 a sin2 6-f-р cos2 0 *
[Williams (1959, с. 19)].
И. Покажите, что использование взвешенного метода наименьших квад-
ратов для оценки параметров модели
^,/=Ро_ЬР1х1“Ье1 (< = 1>2, .... и),
где величины et- независимы, £[е1]=0 и var [е/] =o2Xf, равносильно исполь-
зованию обычного метода наименьших квадратов для оценивания параметров
модели
Глава 8
ПОЛИНОМИАЛЬНАЯ
РЕГРЕССИЯ
8.1. Полиномы от одной переменной
8.1.1. Проблема плохой обусловленности
Если в общей многомерной линейной модели регрессии мы поло-
жим и k=p — 1<п—1, то получим полиномиальную
модель Л-го порядка (k-н степени)
Г\==Ро +0гх?4* • (i= 1» 2, ...» n). (8.1)
Хотя подбор по п наблюдениям полинома степени до п—1 вклю-
чительно принципиально возможен всегда, при больших значе-
ниях k возникают трудности с практической реализацией такого
подбора. Во-первых, при зйачениях k порядка шести и более
регрессионная матрица X, соответствующая (8.1), становится
плохо обусловленной (§ 11.4). Например, если предположить, что
значение xt распределено приблизительно равномерно на [0, 1],
то при больших п [Forsythe (1957)]
" 1 с
(Х'Х)„ = п х'^ • — ж п \ xrxsdx
«=1 о
1
= п J xr^sdx — nl(r +«+ 1). (8.2)
о
Поэтому матрица Х'Х похожа на умноженную на п матрицу
[l/(r-|-s4-1)] (г, s = 0, 1, ...,£), которая является верхней левой
угловой подматрицей размера (k-j- 1)х(^ +1) матрицы Гильберта
Хорошо известно, что матрица Н весьма плохо обусловлена
[Todd (1954, 1961)]. Например, при k = 9 элементы матрицы,
обратной к матрице Н10 (верхней левой угловой подматрице
размера 10x10 в матрице Н), имеют величину порядка 3-1010
210
Гл. 8. Полиномиальная регрессия
[Savage, Lukacs (1954)]. Таким образом, даже весьма малая
ошибка 10~10 в определении одного элемента вектора X'Y при-
водит к ошибке порядка 3 в определении элементов вектора
Р= (Х'Х)-1Х'Y. Степень плохой обусловленности матрицы XX'
измеряется ее числом обусловленности, определенным в § 11.4,
которое для Нт имеет порядок e3-6m [Marcus (1964, с. 23)]. Инте-
ресно отметить, что |H~1|~2-2m‘ [Todd (1954)].
Одним из способов уменьшения влияния плохой обусловлен-
ности матрицы Х'Х является использование полиномов Чебышева
и подбор модели вида
£ [Y] = у у0Т0 (х) 4- (х) . 4-TjTfc(x), (8.3)
где Тг(х)— полином Чебышева первого рода степени г. (Обычно
множитель 1/2 включают при использовании разложения по
полиномам Чебышева в Т0(х), но в данном контексте это не
обязательно.) Эти полиномы можно получать с помощью рекур-
рентного соотношения
Л+1И = 2^г(х) ^r-i (х) (^=1»2, ...), (8.4)
начиная с полиномов 7’п(х)=1 и 71(х) = х:
Т2(х)=2х2—1,- '
Т8 (х) = 4х3—Зх,
7\(х) = 8х4—8х24-1,
7\(х)=16х§—20х3-}-5х и т. д.
В вычислительном плане соотношение (8.4) почти не отличается
по сложности от обычного рекуррентного соотношения xJ+1=x-xJ'
для одночленов. Одночлены х7 разлагаются по полиномам Чебы-
шева следующим образом:
1 = Тв(х),
x=Tt (х),
х2 = 1(Т2(х) + 70(х)},
х3 = 1{Т8(х) + ЗТ1(х)},
х4 = | (Л (х) + 47\ (х) + ЗТ0 (х)},
x- = ^{'T6(x)+57s (х)4-1°Л(х)} и т. д.
На практике с целью получения большей устойчивости числен-
ных процедур значения xz „нормируются*1 таким образом, что
рни принимают значения от —1 до 4-1. Нормированное значе-
8.1. Полиномы от одной переменной
211
ние для х имеет вид
,_2х—max (х;) — min (х,)
max (X|) — min (x,) ’
При этом х' можно представить в виде x'=cos0, где0—некоторое
число из отрезка [0, л], так что Tr (х') = cos (гО), г = 0, 1,2, ... .
Полиномы Чебышева обладают целым рядом интересных свойств.
При r^=s справедливы, например, соотношения
1
J Тг (х) Ts (х) (1 —х2)- ^2 dx = О
-1
и
^7,^)7,^)-О,
где Z/ = cos[(i —1/2)(л/н)]—нули многочлена Тп(х). Эти свойства
говорят о том, что при разумно расположенных значениях х
матрица X для модели (8.3) (представленной в виде ^>[Y] = X'y)
имеет приблизительно ортогональные столбцы. При этом у мат-
рицы Х'Х недиагональные элементы будут относительно малы,
а такие матрицы обычно хорошо обусловлены. Таким образом,
при подборе полиномиальной модели можно рекомендовать ис-
пользовать полиномы Чебышева вместе с каким-нибудь из точных
методов ортогонального разложенйя из разд. 11.2.4. В этой связи
наиболее часто используют модифицированный алгоритм Г рама —
Шмидта, являющийся, по-видимому, наиболее точным.
Кроме упомянутой проблемы плохой обусловленности, в рас-
сматриваемой ситуации возникает также и вопрос об интерпре-
тации вида подобранного аппроксимирующего полинома при ис-
пользовании полиномов Чебышева и при больших значениях k.
Там, где существенную роль играет именно физическая интерпре-
тация, может оказаться более уместным выразить аппроксими-
рующий полином в виде линейной комбинации одночленов, а не
полиномов Чебышева. В то же время в некоторых программах,
имеющих двойную точность, выигрыш, получаемый при исполь-
зовании полиномов Чебышева и последующем переходе к одно-
членам, вместо постоянной работы с одночленами, может быть и
невелик [Beaton, Tukey (1974, с. 150)]. Однако при использова-
нии только одночленов значения х(- следует, конечно, нормиро-
вать. Hayes (1970а, разд. 8, примеры В и С) иллюстрирует
некоторые трудности, возникающие при ненормированных данных.
8.1.2. Выбор порядка модели
Один из возможных способов выбора значения k состоит
в изучении при увеличении г поведения значений RSSr+1 —
212
Гл. 8. Полиномиальная регрессия
остаточной суммы квадратов при подборе полинома степени г.
(При подборе полинома степени г оцениваются г-f-l параметров.)
В идеальном представлении значения RSSr+I сначала постепенно
убывают, а затем устанавливаются на каком-то почти постоян-
ном уровне. При этом довольно ясно, когда надо прекратить
дальнейшее исследование значений RSSr+i (см., например, Hayes
(1970а, разд. 8, пример А)). В сомнительных случаях можно
проверить значимость коэффициента последнего добавленного
к модели одночлена. Такая процедура называется процедурой
прямого отбора с предопределенным заранее порядком регрессо-
ров (хотя она и используется лишь на определенном этапе под-
бора и не обязательно с самого начала). Эту процедуру следует,
однако, использовать весьма осторожно, поскольку она может
привести к преждевременному прекращению отбора. Например,
при подборе полинома, приближающего почти симметричную
функцию, коэффициенты при нечетных степенях будут малы, и
может возникнуть такая ситуация, в которой члены с нечетной
степенью оказываются незначимыми и вычисляются только
лишь составляющие с четными степенями. Существует также
возможность того, что значения RSSr+J временно устанавлива-
ются на каком-то уровне, а затем опять уменьшаются. Чтобы
обезопасить себя от этих случайностей, после обнаружения пер-
вого незначимого слагаемого стоит проделать еще несколько
шагов и затем внимательно посмотреть на поведение RSS.
Помимо указанной выше процедуры прямого отбора, можно
использовать также и процедуру обратного исключения. В этом
случае сначала устанавливается максимально возможный порядок
модели, а затем составляющие с наиболее высокими степенями
отбрасываются поочередно с использованием F-критерия. Про-
цесс отбрасывания прекращается, когда F-статистика становится
значимой. Такая процедура более эффективна, нежели процедура
прямого отбора. При этом наилучший уровень значимости, ис-
пользуемый на каждом шаге, равен приблизительно 0.10 [Ken-
nedy, Bancroft (1971, с. 1281)]. Однако при использовании про-
цедуры обратного исключения остается открытым вопрос о выборе
максимально возможной степени. К сожалению, прямая и обрат-
ная процедуры не обязательно приводят к одинаковому ответу.
Еще одну процедуру, в которой отбор начинается с максималь-
ной степени, приводит Hoel (1968).
Адекватность некоторой модели можно проверить, строя раз-
личные графики остатков, такие, как график зависимости Yt от
Yj и в особенности график зависимости е( (или какого-нибудь
шкалированного варианта е{\ разд. 6.6.2) от xf. Предположим,
например, что мы подобрали полином степени тогда как
в действительности модель имеет порядок kt. Если < k2, то
8.2. Ортогональные полиномы
213
из (6.2) получаем
е к-]=е [у,—р0—(Vz— • • • —(М**1
Л2 kt
= 2 М- S (0,4ЛМ,
г=0 г=0
где 8Г, как правило» мало. В этом случае график зависимости
et от х,- будет показывать скорее систематическое, а не случай-
ное изменение и будет обладать свойствами графика многочлена
(более высокой степени). В то же время, если kx > k2, то в соот-
ветствии с соотношением (6.6) из разд. 6.1.2 Е[е/] = 0, и тренд
на аналогичном графике проявляться не будет. Однако избы-
точность подобранной модели может быть обнаружена на гра-
фике зависимости Yt от Y{, где она проявляется в виде „бол-
танки“ графика в промежутках между точками наблюдений.
Согласие должно быть удовлетворительным не только в точках
наблюдений, но и между соседними точками1)
8.2, Ортогональные полиномы
8.2.1. Общие статистические свойства
Некоторые из упомянутых в предыдущем параграфе вычис-
лительных трудностей можно преодолеть, используя ортогональ-
ные полиномы. Рассмотрим, например, модель
у i = ТоФо (*<)+тА (*/) + • • • + т A (xi)+е/»
где Фг(х,)—полином r-й степени от xz (r = 0, 1, ..., k) и все эти
полиномы ортогональны на множестве значений переменной х, т. е.
2 = 0 (для всех r,s; r=£s). (8.5)
i = i
Тогда У=:Ху + 8, где
Фо(л1) Ф1(*1) •••
х= Фо^г) <2>|(лт) Ф*(Л2)
,Фо(*л) Ф|(\,) •" Фк(Хп\
*) О выборе степени полинома см, также Винник (1979*), Akaike 71978) —
Прим. ред.
214
Гл. 8. Полиномиальная регрессия
столбцы матрицы X взаимно ортогональны и
S<>oU) i 0 0
Х'Х = 0 ••• i 0
0 0 5ф*(^) L
Поэтому из соотношения y = (X'X)~1X<Y мы получаем равенство
(f=0’1.....k)' (ад
i
справедливое для всех k. Ортогональная структура матрицы X
приводит к тому, что оценка наименьших квадратов для yr (r^k)
не зависит от степени полинома (ср. с § 3.5), а это—весьма
желательное свойство.
Поскольку Ф0(Х() — полином нулевой степени, мы, положив
Фв (%) = 1, получим
2^
i
Остаточная сумма квадратов равна
RSSft+I=(Y -Ху)' (Y —Ху) = Y'Y -?Х'ХуА
=^r?-2o[2tf(xz)]tf
=2(^-уг-2 [2<№)] Ъ- (8.7)
Если мы хотим проверить гипотезу Н: yft = 0 (что равносильно
проверке того, что pfc = 0 в (8.1)), то остаточная сумма квадра-
тов для модели Н равна
Rssft= 2 (Vi-yy- 2 [2#(*z)] й
= RSS*+f 4* [2 Ф1 Ть
и соответствующая F-статистика имеет вид
RSSft—RSSfc+i У ф1 (xt) yl
р -------------------£---------
Г RSSft+1/(n-^l) RSSft+i/(n—Л—1) *
8.2. Ортогональные полиномы
215
Как уже говорилось в. предыдущем параграфе, для определения
степени полинома можно использовать либо процедуру прямого
отбора, либо процедуру обратного исключения. Если степень
полинома, которую мы должны принять за максимально воз-
можную, определить легко, то обратная процедура оказывается
более эффективной. Кроме того, с ее помощью мы обходим труд-
ность, связанную с возможностью преждевременной остановки
в прямой процедуре. Обратную процедуру с точки зрения тео-
рии решений изучал Anderson (1962) (см. также Anderson (1971,
разд. 3.2.2)).
8.2.2. Получение ортогональных полиномов
Ортогональные полиномы можно получать различными спо-
собами. Следуя Forsythe (1957), который был пионером в этой
области, Hayes (1974) предлагает использовать рекуррентное
соотношение
Фг+1 (х) - 2 (х—аг+1) Фг (х)—Ьгфг^ (х) (8.8)
с
Ф(1(х)=1, Ф1(х)==2(х—ах).
Здесь переменная х нормирована так, что —1 х + 1, а коэф-
фициенты ar+i и Ьг выбираются таким образом, чтобы выполня-
лись соотношения ортогональности (8.5), т. е.
2 xi<t>2r(xi)
' а,+1 = ^---------- (8.9)
2 Ф* (xf)
i = 1
И
2 ф2г (х,)
br = ~----------. (8.10)
2 Фг-1(х1)
где r = 0, 1, 2, ..., k—1, feo = 0 и af = x. (Forsythe (1957) исполь-
зовал значения от —2 до -р2 и множитель 1 вместо 2 в (8.8).
Эти два отличия в деталях, по существу, компенсируют друг
друга, поскольку множитель, соответствующий каждому ортого-
нальному полиному, является произвольным; см. например, Hayes
(1969).) Отметим, что указанная процедура отыскания фг анало-
гична процедуре ортогонализации Грама—Шмидта с тем лишь
отличием, что на каждом шаге используются два предыдущих
216
Гл. 8. Полиномиальная регрессия
полинома. Программа для ЭВМ, основанная на методе Форсайта,
приведена в работах Cooper (1968, 1971а, Ь).
Каждый полином Фг(х) можно представить в вычислительной
машине посредством его значений в (нормированных) точках xs
или посредством соответствующих ему значений коэффициентов а
и Ь. В то же время в статье Clenshaw (1960) приведена полез-
ная модификация изложенного выше метода, в которой каждый
многочлен Фг(х) представляется совокупностью {с\п} коэффици-
ентов его разложения по полиномам Чебышева
Фг (х) == ~с^Ти (х) 4- сГ 7\ (х)+... + С?ТГ (х). (8.11)
При этом в рекуррентном соотношении (8.8) используются уже
коэффициенты cj, и аппроксимирующий полином можно предста-
вить с помощью полиномов Чебышева в виде
у == h (X) = (X) +d[*>Tf (х) + ... +d^Tk (X). (8.12)
Подстановкой (8.11) в (8.8) получаем рекуррентные соотношения
(813)
а подстановка (8.11) и (8.12) в соотношение
/л+1 (х)=^*(х) 4-Т*+1Фй+1 (х)
приводит к соотношению
= (8.14)
в котором / = 0, 1...г 4-1 HCjT’ = d^ = O для j>r.
Хотя приведённая модификация требует вдвое или втрое
большего машинного времени, чем метод Форсайта, в обоих этих
случаях затраты машинного времени обычно малы. Таким обра-
зом, затраты времени не являются здесь решающим фактором',
и Clenshaw, Hayes (1965, с. 180) рекомендуют в связи с этим
использовать модифицированную процедуру, поскольку она дает
удобное представление результатов вычислений в сжатой форме.
Например, коэффициент несет в себе больше информации,
нежели коэффициенты аг и br. Hayes (1969) показал также, что
рекуррентное соотношение (8.8) можно реализовать с . помощью
одних только коэффициентов с)п и некоторых из сумм 2/ Фг(х,)7\(х,).
При запоминании этих величин отпадает необходимость в запо-
минании и х( и Фг(х/). Другое полезное свойство модификации
Кленшоу, на которое указал Hayes (1970а, с. 52), состоит в том,
что поведение коэффициентов с(*’ (при увеличении / и фиксиро-
ванном k) очень напоминает поведение RSSft (при возрастании k).
Обе эти величины убывают, за исключением, быть может, самого
начала, а затем их значения устанавливаются на каком-то фикси-
8.2. Ортогональные полиномы
217
рованном уровне. Это свойство, проиллюстрированное в работе
Hayes (1970а, разд. 8, примеры А и В), дает нам еще один
„признак", с помощью которого можно определять степень под-
бираемого полинома.
После того как коэффициенты в (8.12) уже вычислены,
вычислить f для любого желаемого значения х можно с помощью
процедуры, указанной Clenshaw (1955). В этой процедуре сначала
находятся некоторые вспомогательные числа gk, gk-t, .... gB,
получаемые по рекуррентной формуле
gz = 2xg/+r—gi+i+d^,
в которой gk+i — gk+2 — ®‘ После этого требуемое значение f вы-
числяется по формуле
(&>-&)• (8.15)
Погрешности модификации Кленшоу анализируются в работе
Clenshaw, Hayes (1965, с. 169). В частности, там дан метод оценки
численной погрешности в определении каждой из величин у,.
Эту оценку можно использовать затем для оценки погрешности
в определении значений d)r) в формуле (8.12), используя для
этой цели соотношение (8.14) и вычисленные значения с)п.
8.2.3. Взвешенный метод наименьших квадратов
Иногда желательно производить подбор кривой с помощью
взвешенного метода наименьших квадратов, особенно если график
остатков при использовании невзвешенного метода говорит о том,
что дисперсия, по-видимому, изменяется. Мы можем, например,
как-то преобразовать Y (скажем, перейти к log У), чтобы полу-
чить полином, дающий лучшее согласие. Однако такое преобра-
зование повлияет на дисперсию. Взведгенный метод наименьших
квадратов при подборе полинома состоит в минимизации суммы
2 Wi (У/—Ро - • • • .
£=1
где wt > 0 (i==l, 2, ..., п). Эту задачу можно решить, опять
используя ортогональные полиномы, скажет^ Фг (х), удовлетворяю-
щие условию
2 wi$r (*z) (xi) = °. г ¥= s.
Аппроксимирующий полином при этом будет иметь вид
fk W = К + V J1 (*) + • • • + Т Л И,
218
Гл. 8. Полиномиальная регрессия
где
^WiYiir (х{)
U ; (r=0’ ’’ •••’*)• <8-16)
2^Ю(Фг(Х1)
t
a дисперсионная матрица вектора (y0, <ух, .yft)' диагональна,
и ее r-й диагональный элемент равен о2 (х,-))-1. Полиномы
Фг(х) можно получать по рекуррентной формуле, аналогичной
(8.8), а именно
Фг+1 (х) = 2 (х—— ar+i) фг (х)—Ьг Фг-1 (х),
в которой ф0 (х) =s 1, Ф, (х) = 2 (х—aj и
2^х,Фг(х,)
^Wii^Xi) ’
i
^Wii^xi)
^^iif-i(xi)'
i
Остальная часть теории в отношении использования полиномов
Чебышева аналогична невзвешенному случаю, только изменяются
коэффициенты ar, Ьг и уг.
8.2.4. Использование ограничений
Весьма часто при подборе кривой требуется, чтобы подбирае-
мая функция f (х), а возможно, и ее производные принимали при
некоторых значениях х вполне определенные значения. Например,
может требоваться, чтобы эта функция проходила через начало
координат или гладким образом переходила в определенной точке
в некоторую прямую. Мы можем также пожелать подбирать аппрок-
симирующие кривые на двух соседних участках отдельно, требуя
в общей для этих участков точке непрерывности функции и ее
производных до некоторого порядка включительно. Чтобы удов-
летворить такого рода требованиям, Clenshaw, Hayes (1965) рас-
сматривают представление
/(x) = p(x)4-v(x)g(x), (8.17)
В котором р(х)—какая-нибудь простая функция (обычно поли-
ном), удовлетворяющая требуемым ограничениям, v(x)—„зану-
ляющий" полином, выбранный таким образом, чтобы гарантиро-
вать, что функция f(x) удовлетворяет указанным условиям, а
g(x)— полином, который должен быть подобран методом наимень-
8.2. Ортогональные полиномы 219
ших квадратов. Например, если мы требуем, чтобы /(0)=1,
[ (1) = Г (1) = 0, то можем положить
ц(х) = (1-х)2 (8.18)
и
v (х) = х (1 —х)2.
Выбрав р(х) и v(x), подбираем полином G(x) вида v(x)g(x)
к модифицированным данным У(- = У(-—p(xz). Это можно легко
сделать, используя метод Форсайта (соотношение (8.8)), но начи-
ная не с Ф0(х)=1, а с 4>0(x) = v(x). Тогда v(x) будет входить,
множителем в каждый полином Фг(х), а поэтому и в аппрокси-
мирующую кривую f (х) = ц(х) -}-G(x).
Если вообще мы хотим для х х0 подобрать некоторый поли-
ном, удовлетворяющий в точке х = х0 условиям f(x0) = m0,
— ....(xo) — ms-i> т0 можно взять
S — 1
В (*) = £. тУ(х~х«У t V (х) = (х—х0)\
1=0 1
Дальнейшие детали приведены в работе Cadwell, Williams (1961).
Clenshaw, Hayes (1965) заметили, что при надлежащем вы-
боре р(х) аппроксимирующей кривой можно придать и неполи-
номиальный характер поведения. Например, если требуется,
чтобы [(0)=1, /(1) = 0 и /'(!)= оо, то они предлагают
Н(х) = т(1-хГ + (1-Т)(1-х) (0<ц<1)
и
v(x)==x(l—х).
(Предполагается, что удовлетворительные значения для у и о
можно получить, построив график зависимости log У,- от log (1 —xf)
для значений xz, близких к единице. При значениях х, близких
к единице, главным членом в р(х) является слагаемое у (1—х)®.)
Вообще, если фиксируемые значения конечны, то в качестве
р(х) и v(x) можно выбрать полиномы.
При использовании в процессе подбора модификации Кленшоу
необходимо, чтобы полином v (х) был сначала представлен в виде
разложения по полиномам Чебышева. Если р(х)—полином, как
в (8.18), то лучше всего и его разложить по полиномам Чебы-
шева, так что и окончательно подобранный полином f(x) можно
при этом представить как разложение по полиномам Чебышева
[Hayes (1974)].
Правую часть (8.17) можно оценить, подбирая полином g(x)
не по самим У,-, а по „шкалированным" их значениям
^^^(^-’^-^(xj].
Гл. 8. Полиномиальная регрессия
220
X
х равноотстоящие, так что их
(8.19)
и т. д.
В заключение упомянем еще об одном типе ограничений. Если
требуется, чтобы аппроксимирующий полином был неотрицатель-
ным, неубывающим или выпуклым, то для подбора такого по-
линома можно использовать метод типа квадратичного програм-
мирования, изложенный в статье Hudson (1969).
(l=;l, 2, .... tl).
Здесь мы минимизируем сумму
п
2 v2(xz)[P’—g (x,)]2,
8.2.5. Равноотстоящие значения
Предположим, что значения
можно преобразовать к виду
xz==i—i-(n-f-l)
Тогда мы получаем следующую систему ортогональных полиномов
(обычно приписываемую Чебышеву):
ф0(х)=1,
_Ф1(х) = Л1х,
Ф2 (х) = (х*—± (п*— 1)) ,
Фз (*)“*» (*s—^(Зп2—7)х) ,
Ф4 (х) = Ха fx4—^(Зп2—13)х4-
что эквивалентно использованию взвешенного метода наименьших
квадратов с весами u>z = v2(xz). Поэтому применимы методы пре-
дыдущего раздела, и если g(x)—подобранный соответствующим
образом полином, то
f(x) = p,(x) + v(x)g(x).
Здесь множители выбираются таким образом, чтобы все зна<
чения Фг(%/) были положительными и отрицательными целыми
числами. Эти полиномы весьма подробно табулированы в работе
Pearson, Hartley (1970) для п — 1(1)52 и г= 1(1)6 (г ^.п — 1).
Часть этих результатов приведена в табл. 8.1. Чтобы проиллю-
стрировать пользу таблицы, предположим, что п = 3. Тогда
Х( =—1,0, 1; Ф0(х) = 1; Ф1(х) = 11х = х; Ф2(х)=\(х—2/3)== Зх2—2,
и аппроксимирующий полином имеет вид
fW-₽o-h^+fe(3xs-2),
8.2. Ортогональные полиномы
221
Таблица 8.1
Значения ортогональных полиномов Фг (х) для равноотстоящих
значений х, определяемых формулой (8.19)
п = 3 п = 4 п = 5
Ф1 Фг Фг Фз ф| Фг Фз Фл
-1 1 -3 1 -1 -2 2 -1 1
0 —2 -1. -1 3 -1 -1 2 —4
1 1 1 -1 -3 0 -2 0 6
3 1 1 •1 -1 -2 — 4
2 2 1 1
2 6 20 4 20 10 14 10 70
Лг 1 3 2 1 10 3 Г 1 5 6 35 п
где
₽о==Г.
^=-ЧгУ7-Г=тК-1)Л+(°)^+(1)Г8}^4(У8-У1)
S i \xi) *
Й = |^-2У2+Г3}.
Остаточная сумма квадратов равна (см. (8.7))
з
RSS3 = 2 (Yi - уу -Й 2 Ф1 (^) -₽12 Ф! (%/)
1= 1 I i
= 2(^--П2-2Й-6Й.
Полезный численный пример см. в Draper, Smith (1966, с. 161).
Теорию этого параграфа можно использовать для подбора
вручную полиномов до шестой степени включительно. Однако
основные применения этой теории связаны с планированием
эксперимента, где различные суммы квадратов иногда расщепля-
ются на линейные, квадратичные и т. д. компоненты.
Простой метод рекуррентного вычисления ортогональных по-
линомов в ситуации, когда х = 0, 1, .... п — 1, предложили
Fisher, Yates (1957); он описан в Jennrich, Sampson (1971).
222
Гл. 8. Полиномиальная регрессия
8.3. Кусочно-полиномиальная аппроксимация
8.3.1. Неудовлетворительное согласие
Иногда полиномиальная аппроксимация оказывается неудов-
летворительной даже при использовании ортогональных полино-
мов вплоть до порядка двадцатой степени. Отсутствие необходи-
мого согласия обнаруживается обычно различными путями. Одним
из симптомов этого может быть отсутствие стабилизации значе-
чений RSSft. Остаточная сумма квадратов может, например, про-
должать медленно уменьшаться. Характерно также поведение
остатков: график зависимости е, (или d,) от xt может показывать
систематическую, а не случайную картину [см., например, Hayes
(1970а, разд. 8, пример Е)]. В наихудших случаях в подобран-
ной кривой будут наблюдаться волны, в конечном счете перехо-
дящие в осцилляции в промежутках между соседними точками
наблюдений, особенно ближе к концам отрезка, на котором рас-
полагаются наблюдения. Такие трудности наиболее часто возни-
кают в тех случаях, когда поведение изучаемой функции ока-
зывается весьма различным на разных частях отрезка наблюдений.
Функция может, например, быстро изменяться в одной области
и медленно—в другой. В подобных ситуациях Hayes (1970а)
предлагает использовать следующие два метода.
Первый из них состоит в следующем: если „неправильное
поведение** отмечается на одном конце отрезка наблюдений, то
с этим часто можно справиться путем применения надлежащего
преобразования, помещая начало координат ближе к участку „непра-
вильного поведения". Хотя этот подход есть, в сущности, метод
проб и ошибок, Hayes (1970а) указывает, что с накоплением
опыта результаты здесь улучшаются. Если мы хотим растянуть
ту часть оси х, где функция меняется быстро, и сжать ту часть
оси х, где функция меняется медленно, то следует преобразовать
переменную х. Например, переход к логарифму часто пригоден
в случаях, когда подозревается наличие вертикальной асимптоты,'
а использование дробной степени помогает в ситуациях, в кото-
рых подозревается наличие бесконечной производной при конечном
значении функции. Иногда с такой задачей удается справиться, вво-
дя в аппроксимирующую функцию неполиномиальные составляю-
щие, как в разд. 8.2.4. Иногда бывает полезно преобразовать пере-
менную Y, хотя это может и вызвать необходимость использования
для анализа взвешенного метода наименьших квадратов из-за
непостоянства дисперсии. Полезный набор графиков, отражающих
различные типы поведения функций, приводят Daniel, Wood
(1971, с. 20—24).
Другая возможность действий в трудных случаях состоит
в делении всего отрезка значений х на более мелкие отрезки и.
8.3. Кусочно-полиномиальная аппроксимация 223
в подборе на каждом из них разных кривых. Задача выбора
подходящих точек разбиения отнюдь не проста и опять походит,
на метод проб и ошибок. Тем не менее, выбрав некоторое част-
ное подразбиение, мы можем сначала подобрать полином на одном
из двух крайних отрезков, используя данные, принадлежащие
этому отрезку, и еще несколько точек вне его (чтобы гаранти-
ровать лучшие значения для производных в общей точке этого
и соседнего с ним отрезков разбиения). Затем в точке, общей для
выбранного и соседнего с ним отрезков, мы подсчитываем значе-
ния самого полинома и нескольких его первых производных, на
которые мы накладываем требования непрерывности (обычно до-
статочно непрерывности первой производной). Следующий шаг
состоит в использовании метода разд. 8.2.4, благодаря которому
эти значения фиксируются при подборе-полинома на следующем
отрезке разбиения, в процессе которого опять привлекаются зна-
чения из последующего отрезка. Например, "если общей для
соседних отрезков является точка х — 1.4 и мы получили значения
/(1.4) = 2.3 и Г(1.4) = 1.6, можно использовать
р (х) = 2.3 4-1.6 (х— 1.4), v (х) == (х— 1.4)2.
Действуя и далее подобным образом, мы продвигаемся от отрезка
к отрезку, от одного конца кривой к другому ее концу. Затем
исследуем согласие в целом и вводим дополнительные точки
разбиения на тех участках, на которых согласие оказывается
неудовлетворительным. Пример использования указанной проце-
дуры см. в работе Hayes (1970а, разд. 8, пример F).
8.3.2. Использование сплайн-функций t
Основным дефектом метода кусочного Подбора, описанного
выше, является приписывание чрезмерного веса начальным отрез-
кам. Это означает, что ошибки округления и влияние плохого
согласия накапливаются в процессе перехода от одной точки
разбиения (называемой узлом) к другой, так что последний участок
кривой может оказаться искаженным из-за ошибочности приня-
тых на другом конце ограничений (см., например, Payne (1970,
рис. 3 и 4)). Поэтому мы нуждаемся в таком методе наименьших
квадратов, который позволял бы осуществлять подбор сразу на
всех отрезках разбиения только при условии непрерывности
функции и некоторых ее производных в узлах. Эта частная за-
дача кусочной аппроксимации привела к развитию целой теории
сплайн-функций, основы которой заложил Schoenberg (1946).
Сплайн-функцией s(x) порядка k (степени k—1) с узлами
в точках Л2, ..., Хй (где < Х2 < ... < Лй) и областью
определения [а, й] (— оо^а<Хп Хй < b оо) называется функ-
ция, обладающая следующими свойствами.
224
Гл. 8. Полиномиальная регрессия
(1) В каждом из интервалов
(/ = 2, 3, ХЛ^х<Ь,
функция s(x) является полиномом степени не выше/:—1.
(2) Функция s(x) и все ее производные вплоть до (k—2)-го
порядка непрерывны. (Если а и b конечны, что обычно и
бывает на практике, то некоторые авторы называют узлами
также и эти точки: \ — а, kA+J = b.)
Кубический сплайн (& —4) можно считать вполне удовлетво-
рительной функцией для подбора, а свойство непрерывности
вторых производных—адекватным в большинстве практических
задач. ’ Процедуру подбора кубических сплайнов методом наимень-
ших квадратов при известных узлах подробно разобрал Poirier
(1973). Он также рассмотрел вопрос проверки гипотез при исполь-
зовании в промежутках между узлами линейных и квадратичных
функций и гипотез относительно возможных изменений структуры.
Дальнейшие сведения о свойствах кубических сплайнов имеются
в работах Hayes (1970b, гл. 4, 6, 8, 9; 1974). В последней обсу-
ждается вопрос выбора узлов в случае, когда они не известны
(некоторые полезные соображения по этому поводу см. также
в Wold (1974, с 2—3).
Всякий кубический сплайн с узлами можно единственным
образом представить в виде
з л
S W = X 2 ₽, (*-*$» (8.20)
/а=0 1=1
где
, ( А, А>0,
0, А<0.
Данное представление содержит h 4-4 базисных функций (четыре
степенных и h односторонних кубических). Это наименьшее число
функций, посредством которого можно представить произвольный
кубический сплайн с k узлами. Однако с вычислительной точки
зрения гораздо лучшее представление достигается посредством так
называемых В-сплайнов, или фундаментальных сплайнов. Куби-
ческим В-сплайном называется кубический сплайн, характеризую-
щийся тем, что он отличен от нуля только на четырех смежных
интервалах между узлами. Точнее, мы определяем В-сплайн
7И,-(х) как такой кубический сплайн с узлами X,, Х2,..., Хл, кото-
рый обращается в нуль вне интервала л(-^4 < х < (некоторые
авторы используют интервал Х;_2 < х < Х|+2). Оказывается, что
Л4,-(х)(см. (8.21)) сохраняет знак на всем интервале X(_4<x<Xz
(условимся брать его положительным) и имеет единственный ло-
8.3. Кусочно-полиномиальная аппроксимация
225
кальный максимум. (Сводку свойств В-сплайнов приводят Curry,
Schoenberg (1966).)
Чтобы определить всю совокупность В-сплайнов, введем восемь
дополнительных узлов: К_8, Х_2, Х_„, ?.о, Хй+1, Хй+2, &й+8, Хй+4,
удовлетворяющих неравенствам
Х_2 <С. < А.о
^^й + i < ^Л + 2 < ^Л+3 < ^Л + 4»
а в остальном произвольных. Обычно используют Х0 = аи Х.й+1 =Ь.
Остальные произвольны, и их можно выбирать, исходя из
удобства вычислений. С точностью до возможных отличий в ошиб-
ках округления они никак не влияют на получаемый методом
наименьших квадратов сплайн на [a, Ь]. С учетом указанных
дополнительных узлов мы можем определить /i-f-4 фундаменталь-
ных сплайнов
£ -/* К/)+ 1, (t = 1,2, ...,/14-4). (8.21)
m—i—4 I
k m=£j J
Тогда произвольный кубический сплайн с узлами X,, Х2, .... кй
представляется на отрезке [a,bj единственным образом в виде
Л + 4
«(*) = 2
i-i
Приведенные рассмотрения, относящиеся к фундаментальным
сплайнам, взяты из работы Hayes (1974). К его статье можно
обратиться за справками и деталями, относящимися к подбору
методом наименьших квадратов. Относительно дальнейших при-
менений сплайн-функций к анализу данных см. Wold (1974).
8.3.3. Многофазная полиномиальная регрессия
В §7.6 мы рассматривали двухфазную линейную регрессию, т. е.
линейную модель, в которой допускалась возможность изменения
наклона прямой. Обобщением ее может служить многофазная
полиномиальная регрессия, в которой мы имеем полином, изме-
няющий свою форму в одной или более точках в силу (возможных)
физических изменений в процессе, лежащем в основе модели.
Robison (1964) рассматривал случай двух полиномов с известной
точкой смены формы, что является обобщением теории разд. 7.6.1
[Sprent (1961)]. Используя кубические сплайны, Poirier (1973) обоб-
8 № 571
226
Гл. 8. Полиномиальная регрессия
щил результаты работы Robison (1964) на случай произвольного
числа (кубических) полиномов с известными точками изменений.
Если точки смены формы не известны, то задача становится
гораздо более сложной. Когда предположение о наличии одного
или более изменений структуры достаточно обосновано, можно
использовать методы Hudson (1966), McGee, Carleton (1970),
Gallant, Fuller (1973). Однако если задача заключается только
в подборе наилучшего кусочно-полиномиального приближения с
неизвестным числом кусков, то годятся методы предыдущих раз-
делов. Вопрос выбора узлов при подборе кубического сплайна
рассматривал Hayes (1974).
8.4. Оптимальное расположение точек
При планировании эксперимента с целью подбора полинома
k-и степени экспериментатор сталкивается с проблемой располо-
жения точек наблюдений. Если переменная х шкалирована таким
образом, что все ее возможные значения заполняют отрезок [—1, 1 ],
то возникает вопрос, при каких п значениях х следует произвести
наблюдения переменной Y. Ясно, что ответ на этот вопрос зависит
от того, какую цель мы преследуем при подборе полинома. На-
пример, состоит ли наша цель в оценивании (всех или только
части коэффициентов полинома), интерполяции (например, построе-
нии калибровочных кривых) или экстраполяции (прогнозирова-
нии)? Для решения подобного рода вопросов предложен ряд
критериев оптимальности. Наиболее изучена D-оптимальность
(§3 11). Hoel (1958, с. 1137 — 1138) обнаружил, что D-оптималь-
ный план одновременно минимизирует величину
[л т
2ргхг|. (8.22)
r=0 J
План с таким свойством называется минимаксным (или G-опти-
мальным). Эквивалентность D-оптимальных и минимаксных планов
для общей линейной регрессии доказали Kiefer, Wolfowitz (1960)
(так называемая теорема эквивалентности; в работе St. John,
Draper (1975) имеется полезный обзор на эту тему).
Первый шаг в направлении отыскания D-оптимального плана
сделал De La Garza (1954). Он показал, что для любого располо-
жения п значений х существует другое расположение и наблю-
дений по &-J-l точкам (i = 0, !,...,&), приводящее к той же
матрице Х'Х. Проблему D-оптимальности затем решили Hoel
(1958) и Guest (1958) (см. также Kiefer, Wolfowitz (1959), где
исследование проводится в более общем виде), показавшие, что
для получения D-оптимальности следует провести по пр; наблю-
8.4. Оптимальное’ расположение точек 227 .
дений в точках xt (i = 0, где р(— 1/(1 ±k) (т. е. наблюде-
ния распределены между точками xt поровну), а хв, xlt...,xk суть
k + \ нулей полинома (1— х2) Р'к (х). Здесь Pft(x) — полином
Лежандра степени k. В этом случае v (xi)=ai (k+ 1)/п, что можно
использовать для проверки оптимальности. В работе Kuss-
maul (1969) приведены соответствующие значения х,- для
/г=1(1)5.
Иногда исследователя интересует лишь часть коэффициентов
Ро, Pi,..., Рй- Понятие D-оптимальности определено и для этого
частного случая (см., например, St. John, Draper (1975), где
имеется общий обзор). Если мы интересуемся лишь коэффициен-
том. pft, то наиболее разумным является выбор плана, минимизи-
рующего var [PJ. Эту задачу решили Kiefer, Wolfowitz (1959),
получив оптимальное решение
Ji-
Р‘ 1, ‘“*-2.........k—l,
К
и точки xz в виде
X/ = — cos (у) , (i = О, 1,..., k). (8.23)
(Они называются чебышевскими точками, потому что Th (х1)=1.)
При теоретическом исследовании оптимальности удобно допускать
и нецелые значения пр;. Такие планы называются приближенными
пли непрерывными. Если числа npt оказываются нецелыми, то
реальный план является целочисленной аппроксимацией опти-
мального непрерывного плана. Случаи k = 1,2 детально разобраны
в работе Atkinson (1972).
Если нас интересует любая из оценок рг, то можно опреде-
лить оптимальный план как план, минимизирующий величину
max var[PJ.
о < г < Л
Elfving (1959) назвал план с таким свойством минимаксным по
здному параметру, a Studden (1968) нашел оптимальное решение
в этом случае. Murty (1971) указал полезное достаточное условие
для проверки оптимальности в указанном выше смысле и привел
несколько примеров.
Значительное внимание в литературе уделено также задаче
экстраполяции. Если нас интересует такой план, который мини-
мизирует дисперсию прогноза var в точке х, где | х | > 1,
то соответствующим решением будет опять (8.23), но только
8*
228 Гл. 8. Полиномиальная регрессия
распределение наблюдений по точкам х; будет уже другим [Hoel,
Levine (1964)]:
Р/ = 4£'(Х)1- ....
1=0
где
Г 7..Х (х—Xg).. .(х—Xj-1) (х—Х{+]). ..(x—xh)
1 ' ' (Х| — Хо) . . . (х,- — Xj _ j) (Х,- — Xf+1) . . . (X/ — jiftj
является полиномом Лагранжа. Эту работу обобщили Kiefer,
Wolfowitz (1965) (см. Karlin, Stridden (1966), Studden (1968), a
также Herzberg, Cox (1972)).
Указанные решения задачи выбора плана имеют один серьез-
ный недостаток. Мы предполагаем, что k известно и что Y на-
блюдается только при k + 1 различных значениях х, так что подбор
с помощью (взвешенного) метода наименьших квадратов, исполь-
зующий средние значения Y при каждом является точным, и
мы не имеем в своем распоряжении остатков, с помощью которых
можно было бы проверить выполнение предположений, лежащих
в основе исследования. Ввиду того что на практике значение k
обычно не известно, оптимальное решение может оказаться и не-
удовлетворительным, поскольку оно не дает возможности иссле-
довать адекватность подобранной кривой. Чтобы обойти это за-
труднение, Box, Draper (1959, 1963) [см. также Kupper (1973),
Kupper, Meydrech (1973), Kiefer (1973*) и Thompson (1973)] оп-
ределили оптимальность посредством минимизации интегральной
среднеквадратичной ошибки прогноза. Они обратили основное
внимание на квадрат смещения, поскольку представляется, что
именно это слагаемое вносит основной вклад в ошибку. Karson
и др. (1969) и Cote и др. (1973), приняв такую же точку зрения,
рассмотрели планы, минимизирующие интегральный квадрат сме-
щения. Однако Stigler (1971) подверг такой критерий оптималь-
ности критике и предложил модификации обычных D-оптимальных
и минимаксных планов. Он называл свою модификацию С-огра-
ниченным планом, поскольку в случае подбора дополнительного
слагаемого P*+iXft+1 требуется выполнение условия
var[Pft+iJ<-^. (8-24)
где С—заранее выбранное число. Выбор С выражает компромисс
между двумя противоречивыми целями: точными выводами о зна-
чении и точными выводами о полиноме степени k. С одной
стороны, значение С следует выбирать достаточно малым, чтобы
можно было выявлять практически значимые отклонения от мо-
8.5. Многомерная полиномиальная регрессия
229
дели с предписанной точностью (например, задав мощность кри-
терия для проверки гипотезы Н: рй+1 = 0). С другой стороны,
большие значения С приводят к более эффективным планам для
подбора полинома степени k. К сожалению, найти С-ограниченный
оптимальный план вовсе не просто, и Стиглером было приведено
решение этой задачи только для k = 1.
В случае, когда значение k не известно, имеется ряд других
подходов к задаче построения оптимального плана. Например,
Ное! (1968) и Kussmaul (1969) рекомендовали использовать D-
оптимальный план для максимальной степени, которую экспери-
ментатор готов принять. Atwood (1971), однако, считает, что сле-
дует' подбирать полином некоторой заданной степени (скажем, s)
и вдобавок к нему „малый" полином заданной достаточно высокой
степени k, и предлагает использовать взвешенную комбинацию
D-оптимальных планов для степеней s и k. Он делает упор скорее
на устойчивость, а не на оптимальность плана.
Задачу отыскания оптимальных планов для оценки наклона
линии (полиномиальной) регрессии рассматривали Murty, Studden
(1972). Случай полиномов второго порядка был исследован в ра-
боте Ott, Mendenhall (1972).
8.5. Многомерная полиномиальная регрессия
8.5.1. Подбор аппроксимирующей поверхности
Значительное внимание в литературе уделено задаче подбора
полинома второй степени от нескольких переменных
f х8) = ₽0 4- Рл + Р2х2 4-Puxf 4-PijXiXs 4-Рмх|. (8.25)
Как оказывается, вся теория ортогональных полиномов может
быть обобщена и для использования ее в двумерном случае. И
здесь фундаментальную роль играют полиномы Чебышева. За
подробностями мы отсылаем читателя к работе Hayes (1974).
. 8.5.2. Поверхности отклика
Одним из наиболее важных применений полиномиальной ре-
грессии от нескольких переменных является изучение поверхно-
стей отклика. Мы проиллюстрируем некоторые основные черты
этой методологии, рассматривая случай, когда имеются только
два регрессора.
Предположим, что „отклик" (выход) т) в заданном экспери-
менте является неизвестной функцией T)=g(x1, xs) от двух пере-
менных: х, (температуры) и х2 (концентрации). Предположим также,
что поверхность в трехмерном пространстве, реализующая эту
функцию, „ведет себя достаточно хорошо". В "частности, пусть
230
Гл. 8. Полиномиальная регрессия
она является гладкой и имеет единственный хорошо выраженный
пик. Значение т] отклика измеряется с ошибкой, так что в дей-
ствительности мы наблюдаем величину У = т]4-е, где Е[е] = 0 и
var[e]=o2. Основная задача теории откликов состоит в оценке
координат (х01, х02, т]0) вершины указанного пика.
Один из способов решения этой задачи заключается в исполь-
зовании последовательности экспериментов и метода быстрейшего
восхождения для „подъема на вершину" поверхности. Для точек,
удаленных от точки максимума, поверхность является относительно
линейной, так что ее можно приблизить в окрестности такой точки
некоторой плоскостью
£[Г] = ₽о+₽Л+₽2х,- (8.26)
Для оценки коэффициентов 0,- можно использовать, например,
так называемый 22-план, в котором наблюдаются значения У
в четырех вершинах малого прямоугольника с центром РА на
плоскости (хп х2) (рис. 8.1). Предположим, что мы наблюдаем
Рис. 8.1. Поверхность отклика.
при этом значения Yrs величины У в точках (xri, xi2), где хг1
(r= 1, 2)—два выбранных значения переменной xlr a xi2 (s= 1, 2)—
два выбранных значения переменной х2. Тогда мы можем подби-
рать к этим данным модель
Yrs = Ро + ₽1ХГ1 + ₽2X«S + Ers' (8.27)
где г =1,2 и §=1, 2, и получить аппроксимирующую плоскость
в виде
У = Ф (Xit х2) = 0„ + 0Л + 02х2. (8.28)
Если —точка этой плоскости, расположенная по вертикали
над точкой Pi, то плоскость, аппроксимирующая поверхность
8.5. Многомерная полиномиальная регрессия
231
в окрестности точки Qlt может помочь нам переместиться в сто-
рону более высокой точки Q2 поверхности и соответственно
получить большее значение Y. Например, если в (8.28) и0„ и$2 по-
ложительны, то следует увеличить xt и х2. Однако наиболее эф-
фективный способ подъема состоит в перемещении по направле-
нию наибольшей крутизны. Для отыскания этого так называемого
пути быстрейшего подъема рассмотрим следующую задачу. Пред-
положим, что нам нужно максимизировать разность Ф (dn d2) —
— Ф(0, 0) при условии df+df — г2. Используя множитель Лагран-
жа к, имеем
^ + 2^ = 0 (i=l,2).
Приравнивая ф правой части (8.28), находим, что значения dh
соответствующие максимальному значению указанной разности,
должны быть пропорциональны значениям 0f: df = ^p/t i = l, 2.
Поэтому, рассматривая Q2 как начало координат, следует выбрать
координаты (хп х2) точки следующего наблюдения в виде (fepv /ф2),
где k > 0— какое-нибудь положительное число. Постепенно уве-
личивая значения k, мы можем проводить измерения соответст-
вующих значений Y до тех пор, пока не достигнем такой точки Р2
на плоскости (хг, х2), в которой изменение Y при изменении k
становится или очень малым, или даже отрицательным. После
этого мы реализуем новый 22-план на малом прямоугольнике
с центром в точке Р2 и подбираем новую плоскость (8.28). За-
тем опять определяем направление быстрейшего подъема и дви-
жемся в этом направлении, пока не достигнем малых изменений
в значениях Y, скажем в точке Р9. На этом пути мы продви-
гаемся в сторону вершины поверхности.
При приближении к вершине значения и 02 становятся все
более малыми и продвигаться, используя метод быстрейшего подъ-
ема, становится все труднее. Здесь уже существенное влияние
на значения Y оказывает кривизна поверхности. Поэтому в не-
посредственной близости к вершине можно подбирать не плоскость,
а квадратичный полином вида (8.25), используя для этой цели,
скажем, 32-план. Этот план состоит в использовании трех значе-
ний Xi и трех значений х2 и в наблюдении значений Y в соот-
ветствующих 9 точках. Посредством переноса начала и поворота
осей аппроксимирующую поверхность
У = Ро + 01*1 + 02*2 + ^11*1 + Р 12*1*2 + 022*1 (8-29)
можно представить в каноническом виде
z/-cs = (х2 —q)2 + %2 (х2 -с2)2 (Xj, Х2 > 0), (8.30)
здесь сг, с2, с3 — оценки координат вершины (х01, х32, т]0) поверх-
ности. Тройку чисел с1, с2, с3 проще всего найти, беря частные
№
i ‘
232 Гл. 8. Полиномиальная регрессия
производные (8.29) по хх и х2 и решая получающуюся пару урав-
нений относительно и х2. При этом мы получаем значения с,
и с2, а значение с3 есть просто значение у в (8.29) при х1 = с1,
х2 = с2.
Приведенное нами довольно беглое описание методологии,
связанной с поверхностями отклика, оставляет открытыми целый
ряд вопросов. Укажем, например, такие из них:
(1) В указанном рассмотрении мы использовали для подбора
плоскости в качестве плана первого порядка 22-план, а
для подбора квадратичного полинома (в качестве плана
второго порядка)—32-план (план второго порядка). При
этом возникает вопрос: какие планы лучше использовать
в каждом из этих случаев?
(2) Как мы можем узнать, когда надо переходить от плана
первого порядка к плану второго порядка?
(3) Как следует выбирать значения k в (й[\, Л02)?
(4) Что будет, если в процессе подъема мы попадем в стацио-
нарную точку, не являющуюся максимумом, или на мед-
ленно повышающийся гребень? (Подобная ситуация соот-
ветствует случаю, когда в (8.30) то или иное значение Xz
оказывается отрицательным.)
Хотя у нас и нет возможности рассматривать здесь эти и дру-
гие важные в практическом отношении вопросы, некоторые ком-
ментарии относительно планов первого порядка все же уместно
сделать. Мы видели в § 3.5 (лемма), что планы с ортогональной
структурой обладают некоторыми свойствами оптимальности.
В частности, 22-план относится к этой категории и является D-опти-
мальным [Box, Draper (1971)], если шкалировать значения х1их2так,
чтобы они принимали значения ±1. Для изучения этой ортого-
нальной структуры удобно представить символически два уровня '
значений переменной xt в виде 1 и а, а два уровня значений ;
переменной х2—в виде 1 и Ь. Тогда все четыре возможных ком- ।
бинации (1, 1) (1, а) (1, Ь), (а, Ь) можно представить символически |
(перемножая значения уровней в каждой паре) как 1, a, bnab, '
а значения Y в этих точках—как Yit Ya, Yb и Yab соответственно. .
В такой записи модель (8.27) принимает вид
Упражнения к гл. 8
233
или Y = Хр + £, где столбцы матрицы X взаимно ортогональны
и удовлетворяют условиям леммы из § 3.5. Поэтому
jB = (X'X)-'X'Y=i
1
-1
-I
1
1
-I
1
-1
1
Yb
так что
0>^.
Р1=|(-Л + Гв-У6 + УоЬ)
=4[4(r«+^b)-4(^+v6)]
= |х [(средний эффект первого фактора на верхнем уровне) —
— (средний эффект первого фактора на нижнем уровне)]
и
I.=4 (- У1-уа+уь+уаЬ)=4 [I +^)-4 (л+vj].
Если использовать терминологию факторного анализа и именовать
и х2 „факторами" А и В, то 0^ и ра—суть оценки величин, ко-
торые можно было бы назвать главными эффектами факторов А
и В соответственно.
Дальнейшее рассмотрение общей теории выбора оптимальных
планов для анализа поверхностей отклика можно найти в рабо-
тах Box, Draper (1971, 1975), Atkinson (1972), Thompson (1973)
и Mitchel (1974b). Описание методов анализа поверхности откли-
ка имеется в работах Davies (1960), Hill, Hunter (1966, обзор-
ная статья), John (1971, гл. 10), Guttman и др. (1971, с. 435 и
далее), а также в работах Myers (1971), Налимов, Чернова (1965*).
В дополнение к методу быстрейшего подъема Box (1957) и
Box, Draper (1969) предложили другой метод, известный под
названием эволюционного планирования, который можно реко-
мендовать для использования в промышленности. Этот метод,
однако, не используется столь широко, как это могло бы быть,
и мы отсылаем читателя за полезными комментариями по этому
поводу к работам Hahn, Dershowitz (1974) и Lowe (1974).
Упражнения к гл. 8
1. Используя описанный в разд. 8.2.5 метод ортогональных полиномов,
подберите полином третьей степени для следующих данных:
у (индекс): 9.8 11.0 13.2 15.1 16.0
х (год) 1950 1951 1952 1953 1954
Проверьте гипотезу об адекватности модели полинома второй степени.
234
Гл. 8. Полиномиальная регрессия
2. Убедитесь в справедливости соотношений (8.13) и (8.14) из разд. 8.2.2.
3. Покажите, что оценки наименьших квадратов для параметров 01 и 02
модели (8.31) из разд. 8.5.2 остаются несмещенными, даже если истинная мо-
дель содержит составляющую, учитывающую взаимодействие, т. е. если
Е [У] =₽о+ Р1*1 + 02*г+ Р12*1*2-
Найдите оценку наименьших квадратов для 012-
4. Предположим, что кривая регрессии
Е[И = ₽о+₽1*+₽2*а
имеет локальный максимум вточкех=хи, расположенной вблизи начала коор-
динат. Пусть выполнены обычные предположения нормальности и значения У
наблюдаются в п точках х,- (1 = 1, 2, .... я), расположенных на отрезке [—а.
+ а| и таких, что х = 0. Опишите метод построения доверительного интервала
для хт. (Указание: используйте метод разд. 7.2.2.) [Williams (1959, с. 110).]
Глава 9
ДИСПЕРСИОННЫЙ АНАЛИЗ
9.1. Классификация по одному признаку
9.1.1. Представление в виде регрессионной модели
В примере 4.2 из разд. 4.1.3 мы показали, как общую теорию
регрессии можно применить к задаче сравнения средних двух
нормальных совокупностей, когда дисперсии этих совокупностей
равны. Теперь мы распространим эту теорию на случай сравне-
ния / нормальных совокупностей (/ 2).
Пусть Y{J—значение /-го наблюдения (/—1,2,...,/) над
i-й нормальной совокупностью N(р.,-, о2) (i= 1, 2, ...,/). При
этом имеем следующий массив данных:
Выборочное среднее
Совокупность 1: Уп, Yi2, ..., Ух.
Совокупность 2: Уа1, У22, ...,Y2j Y3.
Совокупность/: Ул, Yr2, ..., YtJ У/.
Для того чтобы использовать общую теорию регрессии, объеди-
ним имеющуюся информацию в модель
^// = Н + ег/ = 1> 2, ..., /; /= 1, 2, ..., J),
где б/у—независимые и одинаково распределенные случайные ве-
личины, имеющие распределение N (0, о2). Используя векторную
запись, эту модель можно представить в виде
Тц Т12 Yu = 1 0 0 ••• 0 1 0 0 ••• 0 1 0 0 0 Ml + . М/. «II «12 «V (9-1)
Y2i Y22 Y2j> 0 1 0 ••• 0 0 I 0 ••• 0 0 1 0 ••• 0 «21 «22 «2/ «Л «/2 «//
• • •
У/1 1/2 Yu » • 0 0 0 ••• 1 0 0 0 ••• 1 0 0 0 * ••• 1
236
Гл. 9. Дисперсионный анализ
Ml
М2
(9.3)
=о,
М/
или
Y = Xp-|-e, (9.2)
где р = [(р7/)], е~М„(О, о21„) и ti—IJ. Поскольку столбцы ма-
трицы X линейно независимы, то (9.2) представляет собой част-
ный случай линейной модели регрессии (полного ранга) из §3.1
с р—1 и 0 = р (р„ сюда не включается).
Интересующая нас нулевая гипотеза имеет вид Я: pi = p2=...
... = р7 (обозначим это общее значение символом р) или pt —
— р7 = р2—р/== .. .pz_, —pz. В матричной форме она записывается
так:
1 0 0 ••• О — Г
О 1 0 ••• 0 -1
О 0-0 ••• 1 -1
или Ар=0. Строки входящей сюда матрицы А очевидным обра-
зом линейно независимы. Поэтому матрица А имеет размер qxp
и ранг q, где q = I — 1. Таким образом, Н—линейная гипотеза,
и применима теория гл. 4; F-критерий для гипотезы Н задается
с помощью статистики
р__(RSSh—RSS)/y
RSS/(n-p) •
Для-отыскания RSS надо минимизировать
по отношению к pz. Переходя к частным производным по пере-
менным pz, получаем
— 22(Уу—Р/) = °» или
/
и
RSS=2 2 (У Z/-P/)4=2 S (Г£/-Уь)а.
I i i I
Для отыскания RSS^ минимизация е'е производится при ограни-
чениях, задаваемых гипотезой Н. Простейший путь состоит здесь
в использовании гипотезы Н для уменьшения числа свободных
параметров до одного, скажемр. Минимизируя сумму22(^/—р)2
по отношению к р, получаем ря=У.., где Y.. = ^^У ij/IJ („об-
щее среднее"), и
RSSH=2 2 (^//-ph)2=2 2 (Л,— F-)2-
Последнее выражение легко преобразуется к виду
12(У//-у-)2=22(у17-n+n.-P.j2
= 22(Г/У-^)г+22(У/—у-У
9.1. Классификация по одному признаку
237
(сумма со смешанными произведениями равна нулю), и поэтому
1
RSS„—RSS =2£(Уг,—r..)2=J 2 (П —Г..)8.
< i i= I
Таким образом, (9.4) принимает вид
р e -У-)7(/-1) sli
(9.5)
Если гипотеза Н верна, то эта статистика имеет распределение
и-i-
Заметим, наконец, что модель (9.1) можно представить также
в виде
= + иЛ2 + • •. 4-p/drf + e, (г = 1, 2, ..., и),
где Z=Y, a dri является r-м наблюдением над г-м фиктивным
категоризованным регрессором d{(i— 1, 2, ..., /). Здесь dt= + 1,
если Zr—наблюдение, соответствующее i-й совокупности, и dt = 0
в противном случае.
9.1.2. Вычисления
На практике различные суммы квадратов принято распола-
гать в виде таблицы (табл. 9.1). При этом строки, расположеи-
Таблица 9.1
Таблица дисперсионного анализа для классификации по одному признаку
Источник Сумма квадратов (SS) Число степеней свободы «ю SS аг
Между совокупностями /S(n-FJ)2 i Г-1 S’2
Ошибка SS(^-n)a ' J 1J-I S2
Скорректированная полная Среднее SS(W-)2 I J UY2 IJ-1 1
Полная i J и
ные ниже строки „скорректированная полная" (имеется в виду
„полная сумма квадратов, скорректированная относительно сред-
него"), часто опускаются. Терминология для сумм, используемых
238
Гл. 9. Дисперсионный анализ
в столбце „источник" (т. е. источник дисперсии, изменчивости.—
Перев.), в различных работах бывает разной. Так, вместо тер-
мина „между совокупностями" употребляется термин „между груп-
пами", а также термин „между способами обработки". Сумма
квадратов, расположенная в строке „ошибки", иногда называется
суммой квадратов „внутри групп", „внутри совокупностей" или
„остаточной" суммой квадратов. Эта сумма дает оценку для о2,
построенную fno всем наблюдениям.
Если вычисления производятся на настольном калькуляторе,
то полезно использовать соотношения
2 2 (Уь - у )2 = J 2 (Xi-—у )2
= J = ^-2, (9.6)
где Yi. = 2/ Уij и У• = 2/2/YU' и
<9-7>
i i i I i
Формулы (9.6) и (9.7) требуют вычисления только полных сумм
и их квадратов. При этом ошибки округления, связанные с де-
лением, сводятся к минимуму. В то же время необходимо про-
являть достаточную осторожность, вычисляя разность двух ве-
личин (особенно приблизительно равных). Если при подобных
вычислениях использовать слишком мало десятичных знаков, то
полученное значение разности может оказаться весьма далеким
(в смысле относительной погрешности.—Персе.) от действительного.
По этой причине в программах для ЭВМ предпочтительнее не-
посредственно использовать разности У,-.—У.. и У—У/, (или
использовать методы Youngs, Cramer (1971) и Ling (1974)), а не
пользоваться соотношениями (9.6) и (9.7).
Стоит, наверное, отметить простой способ запоминания при-
веденных двух формул. Рассмотрим первую из них. Вид сумми-
руемых квадратов (У/.—У..)2 указывает на то, что сумма
2<2/— У -)2 составляется из элементов (Уо)2 и (У ..)2. Перед
первым надо поставить знак суммы 2/ (на это „указывает"
индекс i у У,-. .—Персе.), а перед вторым—-знак минус. Кроме
того, первую из этих составляющих надо разделить на число
наблюдений J, участвующих в построении элемента (У/.)2, а
вторую—на число наблюдений IJ, участвующих в построении
элемента (У )2. С помощью подобных „правил" можно легко
выписывать выражения типа (9.6) и (9.7) и для других
9.1. Классификация по одному признаку
239
сумм. Например, сумму Sz2/(^«7—~Y iг 4-У..)2 можносразу
записать в виде1)
v1 V1 v2_Vя (Yt )2_v* i (y -)2
2-2- ° j 2- /+/j •
• i i i
Эксперименты, используемые для проведения классификации
по одному признаку, обычно называются однофакторными экспе-
риментами. Так, например, может возникнуть задача сравнения
эффективности шести различных лекарств или эффективности одного
и того же лекарства, но даваемого в шести различных дозах.
При этом данное лекарство является фактором, и имеется шесть
различных уровней этого фактора.
9.1.3. Математические ожидания
Из общей теории (теорема 4.1) нам известно, что
Е Е22 П = Е ERSS] = (п -Р) о2 = (/J - /) о2
и -
£[22(?b-^-)2]=£[RssH-Rss]
= go2 4- (АР—с)' [А (Х'Х)-’А']-1 (Ар -с)
= QO2 4- (RSSh — RSS)y=1? [yj =
= (/-1)024-22(Н—Й)2- (9.8)
При выводе этих выражений мы воспользовались тем, что необ-
ходимые нам степени свободы известны из анализа рангов мат-
риц, связанных с исходной моделью регрессии из разд. 9.1.1.
С другой стороны, в ряде планов эксперимента найти степени
свободы непосредственно на основании рангов довольно трудно.
В таких случаях эти степени свободы можно найти, используя
общую формулу
£ [Y'AY] = o2tr А 4-0'А0,
в которой 0 = <£’[Y], a trA—сумма коэффициентов при квадра-
тах составляющих вектора Y. Эти коэффициенты можно опре-
делить из соотношений (9.6) и (9.7). Например, из (9.6) имеем
trA-£-j-(Jxl)—jj(/Jxl)=/ —1.
4 Наличие обоих индексов i, j у Yy „указывает11 на то, что суммировать
квадраты (Y у)2 надо и по i, и по р^-Прим. перев.
240 Гл. 9. Дисперсионный анализ
9.1.4. Перепараметризация модели
Установив возможность использования для проверки интере-
сующей нас линейной гипотезы общей теории регрессии, мы за-
тем отыскиваем выражения для RSS и RSSH— RSS. Рассмотрим
теперь отличный от предыдущего метод отыскания этих сумм,
использующий перепараметризацию модели. Пусть
Р/=Р-4-(н— p.) = p+<xz, (9.9)
где а. — ai = 9. Тогда гипотеза Н принимает вида1 = а2=...
... =cc/_t = O (ограничение а. = 0 влечет за собой и равенство
ctz= 0). Рассмотрим далее аналогичное разложение для у, а именно
Ef. = Е.. -J-Ej.— 8..,
так что
е// = Ё;. + (££,—ё..) + (е,/—Ef.). (9.10)
Возведем обе части последнего равенства в квадрат и просумми-
руем полученные выражения по i и по j. При этом -
е..)(ег/—еь) = 2(е(.—e..)2(ej7—et.) = 0 (9.11)
ii < i
И
22 «?/ = 22 ?. + 22 (?• -ё..)« + 22 (е„ —Ё,.)’. (9.12)
Учитывая теперь, что eti — Yif—р—ah получаем
22 X if -И —«/)2 = 22 (У -Р)Д+ 22 (Xi - Y..-аа,)2
+22(^//-^Л (9.13)
Из этого разложения для е'е мы и находим RSS, RSSH и
RSSH—RSS. Например, при условии а. ?= 0 правая часть (9.13)
достигает минимума, если р и а{ равны р=У.. и at = Yi.—Y..
соответственно. При этом
rss=22 (X1, - А-««•)’=22 (ун -уо Л
Если верна гипотеза Н, то (9.13) принимает вид
22 (vf/-p)a=22 (й_. -р)ч- 22 ( у о - у-)’
+22(ЛУ-Гь)\-
и его правая часть достигает минимума при р=р. Поэтому
Rss„=22(r,7-p)2=22 (П- -Р..)*+22(^/ -Кг
и
rss^-rss=22(K—у..)*= ^2«2- (9.14)
9.1. Классификация по одному признаку
241
Хотя указанная перепараметризация и не приводит здесь
к реальному упрощению вычисления F-статистики, используемой
для проверки гипотезы Н, мы увидим в дальнейшем, что она
приводит к значительным упрощениям в задачах классифика-
ции по двум и большему числу признаков.
9.1.5. Геометрический анализ
Представляется интересным более внимательно рассмотреть
геометрическую сущность разложения (9.12). Соответственно
структуре вектора в, образованного элементами е£/ (см. (9.1).—
Перев.), введем векторы (J = [(L/£/)J, V = [(V£/)]ji W = [(lT/y)],
у которых t717=e... —£.. и IFi7 = e/7—е£.. Тогда, учи-
тывая (9.10), имеем
e = U + V + W. (9.15)
Векторы (J, V, W взаимно ортогональны. Например, из (9.11)
вытекает, что V'W = 0. Поэтому
е'е = (U 4- V + W)' (U 4- V 4-W) = U'U 4- V'V 4-W'W, (9.16)
а это и есть соотношение (9.12). Если U = Ae, V = Beh W = Ce,
то можно показать, что матрицы А, В и С будут при этом сим-
метричны и идемпотентны, причем АВ = ВС = СА = 0. Поэтому
в силу теорем 2.7 (следствие -1) и 2.8 случайные величины
U'U/oa = e'AzAe/o* = e'Aae/o2 = 8,AE/aa, V'V/oa и W'W/oa взаимно
независимы и имеют ^-распределения с числами степеней сво-
боды, задаваемыми следами матриц А, В и С соответственно.
Таким образом, если гипотеза Н верна, то
V'V = 22(ё/. -ё.•)* = 22(К£. - Г.—az)a = 22 (Ус -у..у
и
Р 'V'V/trB
Г = W'W/tr С ’
Это показывает, что при справедливости гипотезы Н статистика
(9.5) имеет F-распределение.
Интересно отметить, что взаимную независимость указанных
квадратичных форм можно доказать и непосредственно следую-
щим образом. Повторным применением теоремы 1.5 (для одно-
мерных векторов, т. е. для скалярных величин) находим
cov[V(/, U7,J=cov[e£.—е... ег ]
= cov[s£., ers]—cov[e£., er.]—cov[e.., erj4-cov[e.., er.]
= 7 var [e,-,] —6(> var [ez.J—-jj var[e„J 4- -J- var [sr.J
=76^-64-77°8+7-7
242
Гл. 9. Дисперсионный анализ
так что is [V, W] = 0. Подобным же образом показываем, что
is[U, V] = 0 и if [U, W] = 0, а тогда по следствию 1 из тео-
ремы 2.7 (§ 2.3) случайные величины U'U, V'V и W'W взаимно
независимы.
$.1.6. Идентифицирующие ограничения
Заметим, что перепараметризованная модель
V у = р 4* + zij (9.17)
имеет неполный ранг, поскольку первый столбец 1„ соответ-
ствующей матрицы плана X равен сумме остальных ее столбцов
(ср. с (3.40) из разд. 3.8.1). Ограничение 2za<==9> участвовав-
шее в определении а, (соотношение (9.9)), является необходимым
и достаточным для идентификации а;. В то же время мы могли
бы отправляться непосредственно от модели (9.17) и ввести
идентифицирующее ограничение вида 2/^«а/ ~ 9- Дополним
матрицу X в (9.1) строкой (0, du d2, ..., dr), не зависящей
линейно от остальных строк этой матрицы. Если 2«^/ У=0, то
столбцы расширенной матрицы также линейно независимы.
Поэтому для идентификации можно использовать любую линей-
ную комбинацию 2,-параметров af, для которой 2г
(см. теорему 3.9 из разд. 3.8.1). При выбранных значениях d,-
оценки наименьших квадратов для р и а{ можно найти непос-
редственно из соотношения р4-а; = р,= Yr.. Так, мы получаем
p = 2id(-i7» /^^i и т. д. В то же время, как мы уже видели,
выбор значений dz = l (i==l, 2, .... I) приводит к более прос-
тому анализу.
9.1.7. Доверительные интервалы
Если в результате применения F-критерия гипотеза Н отверга-
ется, то следующий шаг состоит в выяснении того, в какой
степени параметры р,- отличаются друг от друга. В частности,
нас обычно интересуют такие разности, как pr—р4, рх—-i-x
Х(р2 + р3). 4(91 + 9-2)—у (Из + Р-4 + Нб) и т. п. Эти линейные
комбинации называются сравнениями (contrasts) параметров pz,
так как все они имеют вид 2ic/11i» гДе 2,Q = 0- Поскольку линей-
ная комбинация ==2c/P-i = c P имеет дисперсию 2C«°W>
то, используя рассуждения из разд. 4.1.5, можно легко пока-
зать, что интервал
, <9J8>
9.1. Классификация по одному признаку 243
где S2 — 22(^z/— Yi-YKIJ — /), является 100(1—сх)-процентным
двусторонним доверительным интервалом для 0 = 2С/Рт- Заметим,
что 0 значимо отличается от нуля, если этот интервал не содер-
жит нуля.
Если нас интересуют сразу несколько сравнений, выбранных
априори, до обращения к данным, мы сталкиваемся с задачей
одновременного (совместного) интервального оценивания, обсуж-
давшейся в гл. 5. Там были описаны три метода построения
доверительных интервалов, причем наиболее узкими оказываются
^-интервалы максимального модуля. Если, однако, нас интере-
суют все возможные сравнения, то следует использовать метод
Шеффе. Положим, Ф = Ар., где А—матрица, указанная в (9.3).
Тогда множество всех линейных комбинаций h'</> = 2ti hi*i
совпадает с множеством всех сравнений 2/=iczlJlz (см. (5.16)).
Поэтому, как явствует из последнего пункта разд. 5.1.1 (с с = 0),
Е-статистика для гипотезы Н будет значимой в том и только
том случае, когда хотя бы один из интервалов Шеффе
±[(7-
не содержит нуля (т. е. ненулевым оказывается хотя бы одно
из сравнений 2<C/Ez)- Таким образом, если Е-статистика оказы-
вается значимой, можно попытаться найти те сравнения, кото-
рые являются тому причиной (хотя такой поиск может быть и
непростым ввиду потенциально бесконечного числа сравнений).
Если интерес для нас представляют только разности вида
щ.—то для этих разностей можно построить совокупность
доверительных интервалов с вероятностью одновременного накры-
тия, в точности равной (1 —а). Эти интервалы имеют вид
или
Yr.-Ys.±d,
где v—верхняя 100а-процентная точка распределения стью-
дентизированного размаха с параметрами k и v (т. е. распре-
деления размаха k независимых N (0, 1)-случайных величин,
деленного на (V/v)1/2, где V—независимая от них случайная
величина, имеющая распределение /2). Данный метод, предло-
женный Тьюки, подробно описан в работах Scheffe (1959, с. 111—
112) и Miller (1966, с. 37). Соответствующие таблицы можно
найти, например, в работе Pearson, Hartley (1970, с. 191—193).
Поскольку во всяком отклонении разности Yr. — Ys. от нуля
более, чем на d, усматривают связь с тем, что рг—ps=,fc0, то
можно рассортировать средние р,- по группам, внутри которых
244
Гл. 9. Дисперсионный анализ
средние не будут значимо отличаться друг от друга. Например,
если d== 10.4 и упорядоченные (по возрастанию) значения выбо-
рочных средних равны
/: 5 1 3 2 4
У;.: 25.4 32.6 39.2 40.8 52.1
то р5 < р3, р2, р4; Pj < р4; ря < р4; к < р4; и соответствующими
группами средних будут (рБ, р4), (рп р3, р2) и р4 (обычно при-
нято подчеркивать выделенные группы, как это сделано в нашей
табличке).
Другим методом разбиения средних р; по группам является
критерий множественного ранжирования Дункана [Miller (1966,
с. 81)]. Хотя эта процедура весьма популярна среди исследо-
вателей, тем не менее она не стала общепринятой среди стати-
стиков. Особенно много споров вызвал непостоянный уровень
значимости этой процедуры [O’Neill, Wetherill (1971, с. 226—
227)].
Имеются еще два подхода к задаче сортировки средних,
представляющихся весьма многообещающими. Поскольку мы,
по существу, имеем дело с вопросом принятия решений, то есте-
ственно поставить задачу именно в контексте теории принятия
решений. Подобную-формулировку задачи дали Waller, Duncan
(1969). С другой стороны, задачу сортировки средних можно
рассматривать как задачу отнесения точек выборки (представ-
ляющих. выборочные средние) к одному из нескольких класте-
ров. Относительно техники кластер-анализа, которая может
оказаться полезной в этом смысле, см. Scott, Knott (1974).
Различные процедуры попарных сравнений, подобные упомя-
нутым выше, сопоставляются в статье Carrner, Swanson (1973)
с помощью численного моделирования. При этом наилучшими
для выполненных экспериментов оказались так называемый метод
минимальной значимой разности, основанный на простых попар-
ных /-сравнениях
Yr. -7,. ± S (4)1/2 (9.20)
(которые производятся только в случае, когда величина F-ста-
тистики оказывается значимой), и байесовская процедура
Waller, Duncan (1969).
9.1.8. Исходные предположения
В разд. 6.3.2 мы видели, что квадратично сбалансированные
F-критерии устойчивы к отклонениям от предположения нормаль-
ности. Теперь мы в состоянии, получив F-статистику, сразу
______’9.1. Классификация по одному признаку 245
проверить ее на квадратичную сбалансированность. Надо просто,
взяв числитель и знаменатель этой статистики, посмотреть, будет
ли в каждом случае коэффициент при Y2rs одним и тем же для
всех г и s. Поскольку для статистики (9.5) это так, то класси-
фикация по одному признаку с равными числами наблюдений
на каждое среднее, обладает указанной устойчивостью.
Вопрос устойчивости рассмотрен довольно подробно также
в книге Scheffe (1959, гл. 10). Там показано, что F-статистика
устойчива и по отношению к возможному неравенству дисперсий
совокупностей, но не является устойчивой по отношению к нали-
чию корреляций между членами совокупностей. Bhargava, Sriva-
stava (1973) показали, как в последнем случае следует модифи-
цировать совместные доверительные интервалы Шеффе, чтобы
допустить возможность наличия постоянной корреляции. Их метод,
по существу, сводится к замене S2 на
SS (Уц-У(-У1+У-)2
(Z-1)(J-1)
и соответствующему изменению числа степеней свободы.
Для проверки равенства дисперсий совокупностей имеется
целый ряд процедур. Среди них можно отметить, в частности,
приближенный F-критерий [Box (1953)], описанный Scheffe (1959,
с. 128), служащий хорошим примером использования метода
наименьших квадратов; приближенный F-критерий, основанный
на абсолютных уклонениях [Levene (1960), Draper, Hunter (1969)],
а также два других критерия [Layard (1973)], носящих назва-
ния хи-квадрат критерия и критерия „складного ножа“ (эти
критерии незначительно модифицировали Brown, Forsythe (1974)).
Используя моделирование, Layard (1973) показал, что оба его
критерия вполне удовлетворительны, когда упор делается на
устойчивость и на мощность критерия. С другой стороны, кри-
терий Бокса является не столь мощным, зато он более устойчив
в отношении уровня значимости. При наличии корреляции полез-
ными могут оказаться процедуры, предложенные Нап (1968).
При неравенстве дисперсий совокупностей можно использо-
вать модификацию совместных доверительных интервалов Шеффе
[Spjotvoll (1972b)]. Если нас интересует лишь один доверитель-
ный интервал, скажем для 2aiP-/» можно применить устойчивую
процедуру Scott, Smith (1971) (см. конец разд. 9.1.9).
9.1.9. Неравные числа наблюдений на каждое среднее
Если мы имеем J { наблюдений над Z-й нормальной совокуп-
ностью, то единственное изменение в теории разд. 9.1.1 состоит
в том, что здесь п = Соответствующей F-статистикой для
246
Гл. 9. Дисперсионный анализ
гипотезы Н будет
2 2 (г,—r..p/(/-i)
. (9.21)
2 2(rv-r.p/(27;-/)
i = l/=1 \ J
В разд. 9.1.2 в соотношениях (9.6) и (9.7) величины J и IJ
заменяются соответственно на Jt и 2<А- Правила" для запоми-
нания этих соотношений остаются в силе. В то же время при
использовании предложенной в разд. 9.1.4 перепараметризации
возникают некоторые трудности. Разложение (9.10) остается
ортогональным, если положить е.. = 2t2/ez//2/А’» поскольку,
например, (9.11) все еще выполняется, и
22®-- (8«- —е-) = 6- 2 Л (е4, — е..)
/
= е. (2 2 ър—2 2м=о,
tl i i
так что имеет место (9.12). Однако соотношение (9.13) уже не
будет справедливым, потому, например, что
Однако последнее можно обойти. Для этого надо просто выбрать
другое идентифицирующее ограничение, а именно 2f7,q, = 0.
Тогда (9.13) сохраняет силу. (Напомним, что в соответствии
с разд. 9'. 1.6 для идентификации можно использовать любое
ограничение 2^iaI = 0> в котором левая часть не является
сравнением.)
Хотя при классификации по одному признаку перепараметри-
зация модели имеет в основном лишь теоретический интерес, она,
как мы увидим позднее, дает по крайней мере подходящую про-
цедуру для проведения классификации по большому числу при-
знаков. Трудности, с которыми мы встретились в случае нерав-
ных чисел наблюдений, оказываются на практике типичными и
при классификации по двум и более признакам при неравных
числах наблюдений на каждое среднее.
Заметим, что и здесь можно использовать совместные дове-
рительные интервалы Шеффе и Тьюки [Spjotvoll, Stoline (1973)].
Последние рекомендуются, если основной интерес заключается
в попарном сравнении средних и если значения Jt не слишком
отличаются друг от друга. Однако F-статистика для проверки
9.2. Классификация по двум признакам
247
гипотезы Н более не является устойчивой относительно откло-
нений от нормальности (так как она уже не является квадра-
тично сбалансированной) и относительно возможного неравенства
дисперсии .совокупностей. Если дисперсии совокупностей раз-
личны, то можно использовать модификацию Spjotvoll (1972b)
совместных доверительных интервалов Шеффе. Если нас инте-
ресует только один доверительный интервал, скажем для Уа/р,-,
то можно использовать приблизительно распределенную по Л/(0, 1)
статистику [Scott, Smith (1971)]
Z (каждое ./,• > 3),
где S? = 2
1
9.2. Классификация по двум признакам
9.2.1. Представление регрессионной моделью
Рассмотрим эксперимент, в котором могут изменяться два
фактора А и В. Предположим, что имеется / уровней фактора А
и J уровней фактора В, и пусть есть k-e наблюдение (k = 1,
2, ..., К; К > 1) комбинации i-ro уровня фактора А и j-ro
уровня фактора В. Мы будем предполагать, что случайные вели-
чины Yifh независимы и имеют распределения N (pf/, о2), так что
Уць-Рц + ^ь (<«1.2........../;/=1,2, ..../;А=1,2, ...,К),
(9.23)
где е,уА—независимые случайные величины, каждая из которых
имеет распределение N (0, о2). Вводя обозначения
¥' = (Уи1, Рц2> •••» Рик)» Р121» Р122« •••> У IJ\, УIJ2,-, Yик),
Ц = (рп, р121 • • • > PlJi Р-21> Нгг» • • • • P2J> • • ч Р/Ь Р/2> • • •, P/j)
и т. д. и используя тот же подход, который привел к (9.1), мы
находим, что модель (9.23) можно представить в регрессионной
форме •
Y = Xp + e,
где 8 имеет распределение М„(0, o2I„), n = IJK, а X—матрица
размера nyJJ ранга 1J. Минимизируя сумму УУУ (У»А—р,7)2
относительно р;/-, получаем RSS = УУУ (Уцк—Уtj)2 с п—р =
— UK— IJ степенями свободы.
Следующий вопрос, который надо рассмотреть,—это вопрос
о том, какие гипотезы заслуживают здесь внимания. Прежде
248
Гл. 9. Дисперсионный анализ
всего хотелось бы знать, не взаимодействуют ли факторы каким-
либо образом друг с другом, т. е. не зависит ли, скажем, эффект
фактора А на уровне i от уровня фактора В. Если такого взаи-
модействия нет, то следует ожидать, что разность средних р,у—
— I1/,/ будет зависеть только от и i2, но не от /. Математи-
чески это означает, что (для всех iit is)
j
^/—^,/=*(4. Q = S — R,-,
/=i
т. е.
Ь-,/ — Й/,- = Мта/—й,-
Последнее соотношение показывает, что разность р,у—р,,-. не
зависит от I, так что
I
Рт/—й- =Ф(/)=Х -р-==й/ — Й-.
(= 1
т. е. для всех i, j
Р<7—Й-—Й/+Й--О- (9-24)
Заметим, что в это выражение индексы i и j входят сим-
метричным образом, так что надо ожидать того же самого резуль-
тата и в предположении, что разность p,f/i—зависит только
от ji и /а, но не от i.
Линейная комбинация
(“Р)// = 14/—Й- —Й / +Й-- = aj/g
называется взаимодействием i-го уровня фактора А и /-го уровня
фактора В. Гипотеза об отсутствии взаимодействия имеет вид
НАВ. (аР),/ = 0 (7 = 1, 2..7; / = 1, 2, ..., J).
Если взаимодействие отсутствует, то исследовать оба фактора
можно порознь и можно, например, проверить гипотезу о том,
что все уровни фактора А дают один и тот же эффект, т. е.
что при заданном / среднее не изменяется с изменением i, т. е.
14 = е(/)в1Ч- (9-25)
Объединяя это соотношение с соотношением (ар)(у = 0, получаем
гипотезу Нд: сс, = О (7=1, 2, ..., /), где
а,= |4.—Н-- - (9.26)
Аналогичным образом проверка отсутствия различия эффектов
уровней фактора В состоит в проверке гипотезы Нв: Ру = О (/=1,
2, ...» J), где
Р/ = H-Z — И— • (9,27)
9.2. Классификация rio двум признакам
249
Здесь а,- называется i-м главным эффектом фактора А, а р,-—
/-м главным эффектом фактора В. Отметим, что при отклонении
гипотезы ВАв проверка гипотез НА и Нв не имеет особого смысла.
В этом случае гипотеза НА, например, уже не равносильна
гипотезе —р../ = 0 (для всех I, j).
9.2.2. Статистики критериев
Все три указанные выше гипотезы НА, Нв и НАВ можно
представить в виде С|п = 0, так что к каждой из них можно
применить общую теорию регрессии. Однако при этом остаются
еще две задачи: мы должны найти в каждом из указанных слу-
чаев ранг матрицы С и должны минимизировать || Y — Хр||2 при
условии Ср = 0, чтобы найти RSSH.
Ранги матрицы можно найти эвристически следующим обра-
зом. Поскольку (аР)./ = 0 (/ = 1, 2, ..., 7) и (аР)(-.=0 (i=l,
2, ..., 7), то число математически независимых, уравнений
вида (аР)(/ = 0 равно IJ—(7 — 1) — (7— 1)—\ = IJ—1—7 + 1.
Если Ср = 0 представляет редуцированную совокупность из
IJ—7—J + 1 — (7 —1)(7— 1) уравнений, то матрица С имеет
размер (7 — 1)(7— 1)х77 и ранг (7 —1)(7— 1). Аналогично,
поскольку а. = 0 и р. =0, то гипотеза 77 л представляется (7 — 1)
линейно независимыми уравнениями, а гипотеза 77 в—соответст-
венно (J— 1) независимыми уравнениями.
Чтобы отыскать RSSH для каждой гипотезы, рассмотрим сле-
дующую перепараметризацию:
Р// = Й-+ (н«- —Р- ) + (Н/ — Й -) + (Иг/ — +<- — Й-/ + Й-) (9.28)
= р+а,- + Р/ + (®Р)//
с соответствующим разложением e.ijk, именно
Eijk~ е” + (е(- ~Е ) + (е/- —е ")
+ ( е 9' • — Е‘ • — е •/ + е • • •) + (е(/й — Eij •)•
Беря квадраты от обеих частей и суммируя по i, j и k, мы
находим, как и.в разд. 9.1.4, что составляющие со смешанными
произведениями обращаются в нуль и
8-)2+- • +SSS(e/?A— »</•)’•
(9.29)
250
Гл. 9. Дисперсионный анализ
Полагая е1/А = У/уА—р—а1—ру—(сф)Гу и используя соотоше*
ния а. = 0 и т. д., мы получаем
222 (У lfk - и -а/ -₽/ -(«₽)//)’
=222(у—н)2+222^*—
+УУУ(У-,-.-у-—P/)’_+222(yo-rz..-y./.+y...
-НМ2+222(у//*-уо-)2- (Э.зо)
Правая часть (9.30) достигает минимума (при условиях а. = 0
:и т. д.), когда неизвестные параметры принимают значения
р = У..„ a^Yt.-Y..., ^ = Y.t.-Y...
зд
(ар)0- = У0.-^..-У./. + У....
Поэтому
RSS«2SS(y(/ft-yz/.r,
как и ранее.
Чтобы найти RSSh/b, надо минимизировать (9.30) при усло-
вии, что (аР)/у = 0 для всех i, j. Минимальное значение соответ-
ствует указанным выше р, а(. и Ру, так что
RssHxB=2SS(Ff/.-n.-y./.+y...)2+2S2(y//fe-yy.)2
и
rs4b - Rss=2 22 (У1{. - Yi-.-Y.,.+У ...Г
=к22(<Ш.
I /
Поэтому F-статистика для проверки гипотезы НАв равна
К 2 2 (аР)о7(/-1)П-1) „2
Г— 1 i Ав
RSS/(1JK—IJ) S2 •
(9.31)
Если гипотеза НАВ верна, то эта статистика имеет F-распреде-
ление с (/ —1)(/—1) и ПК—IJ степенями свободы.
Статистики критериев для гипотез НА и Нв получаются ана-
логичным образом. Полагая а( = 0 в (9.30), мы находим, напри-
мер, что минимальное значение суммы в (9.30) соответствует
указанным выше значениям р, ру и («Р)/у. Таким образом,
RSs^==222(yt..-y.-)2+2_22(y^-vl7.)2.
RSS„ Л - RSS = 2 2 2 У I- .-Y...y = JK^ а?,
Л i
9.2. Классификация по двум признакам
251
и F-статистика для НА имеет вид
F = RSS/(/J/C— /J) = 'S5“ ’ (9.32)
Соответствующей статистикой для Нв является
F = RSS/(/JK—//) =’S8"' <9,33)
Хотя число степеней свободы для каждого RSSW было най-
дено эвристически, его можно получить и как коэффициент при
о2 в Е [RSSH] (эти математические ожидания приведены в сле-
дующем разделе).
9.2.3. Таблицы дисперсионного анализа
Как и при классификации по одному признаку, различные
суммы квадратов, используемые в дисперсионном анализе, обычно
выписывают в виде таблицы (табл. 9.2). Четыре первых суммы,
входящие в эту таблицу, и шестая сумма из этой таблицы в
сумме дают „полную сумму" 2/2/2kY2ijk. Это вытекает из того,
что (9.29) является тождеством относительно и поэтому
соотношение (9.29) выполняется и для Yijk. Поскольку
/
то эта сумма квадратов называется „суммой квадратов, обуслов-
ленной главными эффектами фактора А“. Впрочем, в ряде книг
используется термин „сумма квадратов, обусловленная эффектами
строки". Подобные же указания применимы и к следующим двум
суммам квадратов в табл. 9.2, равным /К2/Р/ и К 2‘ 2/ (аР)Ь
соответственно. Сумма квадратов, находящаяся в строке „ошибка",
дает объединенную оценку для о2,- основанную на всех /J нормаль-
ных совокупностях. Эта составляющая называется также суммой
квадратов „внутри совокупностей" или „остаточной суммой квад-
ратов". Несмотря на принятое расположение сумм в таблице,
первой подвергается проверке гипотеза Длв. Делается это по той
причине, что в случае, когда взаимодействия факторов Л и В
равны нулю, определения главных эффектов факторов А и В
становятся более осмысленными. Если эти взаимодействия равны
нулю, то двухфакторный эксперимент, по существу, равносилен
паре однофакторных экспериментов—одному для фактора А и
одному для фактора В,
252
Гл. 9. Дисперсионный анализ
Используя метод разложения квадратичных форм, предложен-
ный в разд. 9.1.2, получаем
Y,- Y„- Y,.+ r_)‘_ 2 s 2
(M1 (r..)>
7 IK UK ’
— 2 (XV
ZSSjr^-r^) -SSSr^- S S
Таблица 9.2
Дисперсионный анализ для классификации по двум признакам
с К (К > 1) наблюдениями на каждое среднее
Источник Сумма квадратов (SS) Число степеней свободы (df)
Главные эффекты Фактора А м2 «7 Z-l •si
Главные эффекты фактора В Р/ J J-l Si
АВ ~ взаимодействия C2
Ошибка i j к ZJ(K-l) S2
Скорректированная полная Ш(Ъ-^ i j к UK-1
Среднее IJKY2. 1
Полная < J к UK
Путем суммирования коэффициентов при Y]jk во всех слагаемых
можно непосредственно отыскать следы матриц каждой из. квад-
9.2. Классификация по двум признакам
253
ратичных форм. Сделав это, мы получаем (разд. 9.1.3)
£[(J-1)5*1 = a2(J-l) + ZK£ ft,
J
£[</- 1)(J- 1)5Л] =O\I- 1XJ- D+KS S («/?)*,
' J
E[S2]^.
9.2.4. Доверительные интервалы
При рассмотрении классификации по одному признаку с рав-
ными числами наблюдений на каждое среднее были указаны
методы (разд. 9.1.7) построения доверительных интервалов для
сравнений 2/ОРт-Поскольку 2 ciaz = 2 е/(Мт—Р) = 2С«Р/’ те же
методы применимы и для сравнений параметров ос(-. Подобным
же образом можно строить доверительные интервалы для срав-
нений главных эффектов (aj, ЦЗД и взаимодействий {(a₽)f/} при
классификации по двум признакам. Например, если отклоняется
гипотеза Н А: ф = А|и = 0 (Ф' = (ай a2, . ...a/.J), то с помощью
метода Шеффе, приводимого ниже, можно выяснить, из-за каких
сравнений это происходит.
Следуя разд. 9.1.7, заметим, что
7-1 7-1
2 hfti = 2 л,(р(.—ц.)
7 = 1 1=1
7-1 / 7-1 , , 1-1 v
= 52 ( hi~~дИ hi W +(— тИ hi )й/-
7 = 1 \ 7 = 1 / \ 7 = 1 /
1 _ 7
= 2 С/Р-7 ” 2 (9.34)
7=1 7=1
где 2е/ —9. Обратно, подставляя в правую часть (9.34) вместо
az его выражение az= — 2/=*аь мы представляем эту правую
часть в виде 2fcMiaz- ^та паРа утверждений показывает, что
совокупность всех линейных комбинаций И'Ф совпадает с сово-
купностью всех сравнений переменных ait a2, ...,az. Далее,
2^7=2с,-(р7..-у...)=2Л..
I
так что
var(2 W] =-уКГ
254
Гл. 9. Дисперсионный анализ
и
[I Vc2 И/2
2 ciai G ь. ± {(/—1) ^“-1. vl1/2 51 Тмг । .
для всех сравнений^,
где
S2 = 2 2 2 (Уцк ~ У а№ v = IJK-IJ.
I i k
Если отвергается гипотеза Нв, то ту же самую процедуру можно
выполнить для сравнений У/-190/’ Отметим,_что для исследо-
вания разностей аг—as=p,r.—щ. и р,—Р^ = |л.г—р.., для всех
г и s можно использовать метод Тьюки.
Если отвергается гипотеза НАВ, то проверять гипотезы НА
и Нв не имеет особого смысла. В этом случае можно проанали-
зировать все сравнения 2,'2/G7(aP),7 = 22c//lxo’ где 2/сц~Ъ
(для всех /) и 2/Q/=0 (для всех i), используя для этого метод
Шеффе. Метод Тьюки здесь уже не применим, поскольку кова-
риации оценок (оф)1у- не равны (ср. с Scheffe (1959, с. 163)).
Случай Cy^djbj детально рассмотрен в работе Gabriel и др.,
(1973). Три метода одновременных выводов описывают Bradu,
Gabriel (1974).
9.2.5. Неравные числа наблюдений для разных средних
В разд. 9.2.3 мы видели, что суммы квадратов в таблице
дисперсионного анализа в сумме дают 2/2/2*^*/* и соответ-
ствуют ортогональному разложению вектора Y = [(rv>)]. Кроме
того, из (9.30) легко вытекает, что сумма квадратов, стоящая
в числителе /•'-статистики для проверки гипотезы НА по отноше- ;
нию к полной модели, совпадает с суммой квадратов, стоящей,
в числителе F-статистики для проверки гипотезы НА при условии,
что гипотеза НАВ верна. Действительно, если мы используем
для сумм квадратов, стоящих в числителях, выражение
(Y — Ун)' (Y — YH) ((3.65), разд. 3.9.1), то этот результат по-
лучается непосредственно: эти суммы квадратов равны 22{1Х +
+ + Р/ + (“Ph/ — (И+₽/ + (аР)//)}2 и 22lix+cx« +Р/—(н + Р/)}2
соответственно и обе равны 22
Предположим, однако, что над совокупностью N (p.z/, о2) про-
изводится Kij наблюдений. Если здесь использовать ту же мо-
дель, что и для сбалансированного случая из разд. 9.2.1 (равные
числа наблюдений), а именно модель
Yy*=н+аг+Р/+(“₽)//(А = 1» 2, .. ., К/у)
9.2. Классификация по двум признакам 255
с идентифицирующими ограничениями а.'=р. = 0 и т. д., то мы
уже не получим простого разложения, подобного (9.30). Различ-
ные суммы квадратов теперь не будут аддитивно входить в состав
полной суммы квадратов, а сумма квадратов в числителе ста-
тистики для проверки гипотезы НА будет зависеть от того,
истинной или ложной мы можем считать гипотезу НАВ. Эта
ситуация обычно описывается как „неортогональный" дисперсион-
ный анализ, поскольку суммы квадратов происходят здесь не от
ортогональных векторов, как в сбалансированном случае. К со-
жалению, в отношении метода анализа такой модели в литера-
туре, кажется, имеется некоторая путаница (см. Francis (1973)
и в особенности Nelder (1974)). Поэтому здесь, вероятно, следует
дать небольшой комментарий.
Первый шаг состоит в проверке гипотезы НАВ по отношению
к полной модели. За деталями этой проверки мы отсылаем
читателя к Scheffe (1959, разд. 4.4). Если гипотеза НАВ прини-
мается, то следующим шагом является проверка гипотез НА и
Нв в модели
^«7л=:и+а1+Р/ + е//й> (9.35)
соответствующей предположению об истинности гипотезы НАВ-
Как уже отмечалось, при проверке гипотезы НА По отношению
к модели (9.35) сумма квадратов в числителе соответствующей
статистики отличается от суммы квадратов, используемой при
проверке гипотезы НА по отношению к полной модели, ввиду потери
свойства ортогональности. В противоположность мнению Scheffe
(1959, с. 172—176) последняя процедура здесь вряд ли уместна.
Если взаимодействия (оф)^ отличны от нуля, то гипотеза
НА: az=:p.t.—р.. = 0 (для всех t) не эквивалентна первоначально
имевшейся в виду (ср. с разд. 9.2.1) гипотезе p.z/—р-п = 0 (для
всех /)• Если же какие-то из индивидуальных эффектов
Р/у-—pi. не равны нулю, то проверка равенства нулю средних
эффектов фактора А не имеет особого смысла.
Ввиду того что разложение (9.30) более не выполняется,
суммы квадратов, используемые в статистиках критериев, ста-
новится уже не так просто вычислять. Однако здесь можно
частично использовать метод разд. 11.5.4. При применении этого
алгоритма можно использовать и другие идентифицирующие
ограничения. Так, в частном случае, когда Ki}=Ki.K.jlK.. (для
всех t, /), можно получить простое ортогональное разложение,
подобное (9.30), если выбрать в качестве идентифицирующих
ограничений соотношения
S viai = 2 = S v. = S («Р),7 = °>
iii i
rfle^z = /fi., Wj = K.i [Scheffe (1959, c. 176—177), Seber (1966,
256
Гл. 9. Дисперсионный анализ
9.3. Классификация по нескольким признакам
при равных числах наблюдений для каждого среднего
9.3.1. Определение взаимодействий и главных эффектов
Обобщение построенной теории на случай классификаций по
нескольким признакам при равных числах наблюдений для каж-
дого среднего проводится непосредственно. Мы продемонстрируем,
как это делается, на примере классификации по трем признакам:
— (9.36)
где i=l, 2, ..., 7; 7=1, 2, ..., J; /г=1, 2, .... К\ т=Л, 2, .... М,
a — независимые случайные величины, каждая из которых
имеет распределение М(0, о2). Здесь мы имеем три фактора:
фактор А с 7 уровнями, фактор В с J уровнями и фактор С
с К уровнями. На каждое из средних имеющихся IJK
совокупностей приходится по М (М > 0) наблюдений. В допол-
нение к взаимодействиям (первого порядка) между факторами
А п В, В и С, А и С здесь имеется возможность наличия вза-
имодействия (второго порядка) между всеми тремя факторами.
Однако если факторы взаимодействуют только попарно, так что,
например, на взаимодействие АВ фактор С никак не влияет, то
взаимодействие АВ будет одним и тем же для всех уровней
фактора С. Математически это означает, что
_ к
V-ijk—р-л+р..& = Ф(в /)=2Ш i)/K
Л = 1
или
(°$?)//л — Р7/&—Ну-—Н-й—Вм + Нь- +Н-/- +В--л—В--- — 0.
(Иллюстрирующий это численный пример приведен в упр. 8
в конце главы.) Поскольку выражение для (сфу)/у-й симметрично
относительно индексов входящих в него величин, то того же
результата следует ожидать, если рассматривать и взаимодейст-
вие ВС при различных уровнях фактора А, и взаимодействие
АС при различных уровнях фактора В. Представляется естест-
венным определить (сфу),-уй как взаимодействие второго порядка
между i-м уровнем фактора А, j-м уровнем фактора В и k-м
уровнем фактора С. Далее мы будем говорить о таких взаимо-
действиях просто как о взаимодействиях АВС.
Идеи двухфакторного анализа из § 9.2 можно перенести и на
Изучаемую ситуацию, рассматривая для каждого уровня фактора С
соответствующие таблицы двухфакторного дисперсионного ана-
лиза. Так, взаимодействие i-ro уровня фактора А с j-м уровнем
9.3. Классификация по нескольким признакам
257
фактора В при условии, что фактор С находится на уровне k,
равно
~ ~ (9.37)
Среднее этих величин по всем значениям фактора С
(“Р)// = 1Ч/- — Р-г— Й-/. +Й--
мы называем взаимодействием t-ro уровня фактора А с j-м уровнем
фактора В. Аналогично определяются взаимодействия ВС и АС:
ОТ)/* = И-/*—F4-—И--k + И- ••
и
(«T)z* ==Йг.*—'Йг.—P..fe+Й....
По аналогии с разд. 9.2.1 мы определим также следующие глав-
ные эффекты:
главные эффекты фактора A: а(- =ру..—р,...,
главные эффекты фактора В: р/=р./.—р.._,
главные эффекты фактора С: yft = p..ft—р...,
9.3.2. Проверка гипотез
Используя данные выше определения и обозначая р. = р. мы
приходим к следующей перепараметризации модели:
Рт/л = И+at + Р/ + Тл + (аР)// + (Рт)/л + (ат)/* + (аРт)//*, (9.38)
где
а.==р. =у.— О,
(«Р)г- = («Р)-/ = (Рт)/ • = (Рт)-* = (aT)i- = («?)•* = О
и
(ар?)//. = («Рт)./* = (a₽T)t-.ft = 0, (9.39)
причем эти условия выполняются для всех значений индексов
i, j и k.
Гипотезы следует проверять в таком порядке: взаимодействия
второго порядка равны нулю (НАВС: (аР?)/у* = 0 для всех i, j, k);
взаимодействия первого порядка равны нулю (НАВ: (aP)l7 = 0
для всех i, j, Нвс: (₽y)/fc = 0 для всех j, k, НАС: (ay)ZA = 0 для
всех i, k), главные эффекты равны нулю (НА: а, = 0 для всех i,
Нв. Р/ = 0 для всех j, Нс: уА = 0 для всех k). Если гипотеза
НАвс верна, то соответствующий трехфакторный эксперимент
равносилен трем назависимым двухфакторным экспериментам,
каждый из которых относится к одной из трех.пар факторов; при
9 № 571
258
Гл. 9. Дисперсионный анализ
этом взаимодействия первого порядка допускают простую
интерпретацию. Например, в таком случае величина (9.37)
остается одной и той же для всех k, так что она равна среднему
по всем k (равному (сф),7). Подобным же образом, если верна еще
и гипотеза НАВ, то соответствующий трехфакторный эксперимент
равносилен двум независимым однофакторным экспериментам
для факторов А и В соответственно, и можно легко интерпре-
тировать^ главные эффекты at и fy, например о^—р/..—р... ==
= Р«7- Р1-/- = Рт/Л Р-Р-
Как и при классификации по двум признакам, здесь можно
применить общую теорию регрессии. Например, полагая
у, = (Лш» Ли»» Уикм),
соотношение (9.36) можно представить в виде Y = Xp4-e, где
X—матрица размера пхр ранга р, n = lJKM и p — IJK,. Мини-
мизируя сумму — Рт/л)2 относительно pf/ft, мы
находим, что
RSS=2 2 2 2 {У lfttm-Уцк.У (9.40)
с п—р степенями свободы. Чтобы найти для каждой из гипотез
сумму RSSH, разложим efyfem способом, подобным использо-
ванному в (9.38), именно
+еь-.—е....) + (в.у.. —е....)4-(е..*. —е..„)
+ (еи-.—fy...—E.j. -f-е....) (8j.k-—&i...—&-.k. 4-е....)
+ (е./л.—8./-—e..fe. 4-8....)
+ (8ул.—8//.. —E.jk.—&l.k. 4*8(... 4-8./.. 4-8..ft.—8....)
+ --et/ft.).
Переходя к квадратам и суммируя их по i, j, k и tn, находим,
что суммы, включающие смешанные произведения, обращаются
в нуль, так что
+ • • • +2222(е//*»>—8и*-)2
Учитывая, что ^ньт^Уи используя соотношения
(9.38) и (9.39), находим
и at—• ’ • —(аРт)//л)2
=2222(^..-^+2222(^...-Г..-а,)24-...
-•+2222(^.«(9.41)
9.3. Классификация по нескольким признакам
259
Левая часть (9.41) достигает минимума, если неизвестные зна-
чения параметров равны
Н = У....,
а,«У,...-У...., ^ = У.,..-У Тй = У .«.-У....,
^)l, = Yll..-Yl...-Y.l. -J-У.... ит.д.,
(<%,/* = Уцк. -Yu..-Y.lk.-Y^. + Yt... + У.,,.. + Y..k.-Y.
Соответствующее минимальное значение равно, конечно, остаточ-
ной сумме квадратов, указанной в (9.40). -Проверка каждой из
частных гипотез производится теперь весьма просто. Например,
если мы хотим проверить гипотезу НА, то положим af = 0
в (9.41) и минимизируем полученную сумму относительно осталь-
ных параметров. При этом минимум последней суммы достигается
при тех же самых значениях оставшихся параметров, так что
RSS^=222(P{...-y....)«+222S(y^-n/*.)‘.
Поэтому
RSS„4-RSS==£22E(yi...--y =
последняя сумма имеет I — 1 степеней свободы, и соответствующая
F-статистика равна
JKM^&ZU-V)
Р_______I__________
- RSS/(IJK(M — I)) ” S2 •
Если гипотеза HA верна, то эта статистика имеет F-распреде-
ление с / — 1 и IJK(M-l) степенями свободы.
Различные квадратичные формы вместе с их степенями свободы
приведены в табл. 9.3. Число степеней свободы каждой из этих
квадратичных форм можно определить эвристически, как указано
в разд. 9.2.2, или найти прямо из следа квадратичной формы.
Например, используя эмпирическое правило разложения квад-
ратичных форм из разд. 9.1.2, получаем
2222(Уй,--У(.,.-У./..+У...)а
yyh-)a у(г/-)а уГ/-)8, Г-)а
км JKM 1КМ "* и км ’
ii I i
След симметричной матрицы, соответствующей ’Этой квадратичной
форме, равен сумме коэффициентов при слагаемых У^т, т. е.
равен
9*
260
Гл. 9. Дисперсионныйанализ
КМ JKM IKM ^IKM + IJKM • и км
i i i i
= 1J _/ —J ф-! = (/ — !) (J —1).
Таблица 9.3
Дисперсионный анализ для классификации по трем признакам
с М наблюдениями на каждое среднее
Источник Сумма квадратов (SS) Число степеней сводилы (df) SS df
Главные эффекты фактора А JKM^a2 Z-l Si
Главные эффекты фактора В 1КМ^ J-l S2B
Главные эффекты фактора С к K-l sa
АВ - взаимодействия км^ (z-D(j-i) c2 ^AB
ВС твзаимодействия АС - взаимодействия АВС- взаимодействия Ошибка j к i к М^ЪЪ^Ък i J к SSSS(n*m- w i j к m (j-D(K-i) (i- 1)(*-1) IJKM-UK ЛВС К2 ЛАС ^ABC S2
Скорректированная полная Среднее S S 2 S(^-F....)2 i j к m IJKMYl. IJKM- 1 1
Полная i j к m IJKM
9.4. Классификация с одним наблюдением
на каждое среднее
9.4.1. Получение статистик критериев
Предположим, что в классификации по двум признакам мы
имеем только по одному наблюдению на каждое среднее, так что
модель принимает вид
Уц = р,7 + е(7 (*=1,2..../} / = 1, 2..J), (9.42)
9.4. Классификация с одним наблюдением на каждое среднее
261
где случайные величины е17 независимы и каждая из них рас-
пределена по закону N (0, ст2). Мы имеем в такой ситуации
IJ наблюдений и IJ J-1 неизвестных параметров ({р,7} и а2), так
что мы не можем оценить все эти параметры, не введя по край-
ней мере одного дополнительного ограничения, уменьшающего
число „'свободных" параметров. Однако, как правило, подобные
данные возникают при использовании планов с рандомизирован-
ными блоками, с / способами обработки и J блоками. Поскольку
же способы обработки внутри каждого блока рандомизированы,
то следует ожидать, что взаимодействие между способом обра-
ботки и блоком мало. Таким образом, разумным является сле-
дующее предположение:
(aP)17 = pf/—рг. —р.; -|-р.. = 0 для всех i, j (9.43)
или Ср = 0, где С является Ux/J-матрицей с (/—1)(/—1) ли-
нейно независимыми строками (ср. с разд. 9.2.2). Записывая
(9.42) в виде Y = Xp-|-8, где X=I„ (n = /J), мы можем проверить
гипотезы НА: а; = р£.—р.. = 0 (или Ар = 0) и Нв: ₽7 = р./—р..=0
(или Вр = 0) при линейных ограничениях Cpi = O, используя
общую теорию § 4.6. Например, для проверки гипотезы НА можно
использовать статистику
. (RS4~
r RSS/[n—(п—Л)] ’
где <7 = rankA = / —1 и Л = гапкС = (/ —1)(/ — 1). Остаточные
суммы квадратов RSShz и RSS можно найти непосредственно,
используя метод разд. 9.2.2. Поэтому по аналогии с разложением
p//=p+aI.-}-₽y + (ocP)l7 мы имеем разложение
е/7 = £.. -f-(s£. —е..) + (е./—6..) -|-(еху—ех. —е.у -Re..),
которое приводит к
224=22 22 -ё..)2 + 2s (ё./ +ё..)
+SS(e//—е'-—e-/+e-)i-
Применяя к рассматриваемой модели ограничения (9.43), получаем
6z/ = YtJ—Р- ~~ ai Р/
и отсюда
22(^/-R-a~P/)s=S2<F---H)2+22(p-^-a/),!
+22 (Y.,—у.. -₽,)2+22 -у‘- ~Y> +/-)2- <9-44)
Минимум левой части (9.44) достигается при р = У.. (= р),
n(=Yi. — У.. (=ах) и р7 = У./— У.. (=_Р7), так что
Rss=22(r</ -у(. -^-+г..)2=22 Й)<
262
Гл. 9. Дисперсионный анализ
(мы обозначаем Y tJ — Y — Y.j, + Y.. = (c$)Z/). Поскольку взаимо-
действия равны нулю, то, как видно из приведенного соотно-
шения, „сумма квадратов взаимодействий" SS(aP)tf игРает Роль
суммы квадратов ошибок, и несмещенная оценка для о2 равна
RSS/(/— 1)(J— 1). В. то же время стоит заметить, что оценку
для о2 можно получить при существенно более слабых предполо-
жениях: вовсе не обязательно требовать, чтобы все взаимодействия
были равны нулю [Johnson, Graybill (1972а, b)].
Полагая az = 0 и рассматривая соотношение (9.44), видим, что
его левая часть достигает минимума при р = р и 0у= Ру, так что
Rss„4=SS (У,. -F..F+S2 (У,7 -Y{. -Y.i+Y..y
и
RSSy,-RSS = SS(^- -F-У-
Поэтому F-статистика для проверки гипотезы НА имеет вид
F 22Ж-Й-)а/(/-1)
SS(r.7-Fi.-F/4-r..)2/(7-l)(J-l)
/£а?/(/-1)
= SS(W(7-1)(7-1)' (9,45)
Статистика критерия для проверки гипотезы Нп получается заме-
ной индекса i на /:
F ~ £2 <“₽)«/('-’) (7-i) ’ (9‘46)
Всю эту процедуру можно отразить в таблице, как это сделано
в табл. 9.4.
Распространение изложенной теории на классификации по
нескольким признакам производится непосредственно. Так, на-
пример, при трехфакторном дисперсионном анализе, описанном
в табл. 9.3, мы просто полагаем М — 1 и в качестве суммы квад-
ратов ошибок используем сумму квадратов, соответствующую
взаимодействию всех трех факторов (ЛВС-взаимодействие).
9.4.2. Предположения, лежащие в основе модели
Влияние нарушения предположения об отсутствии взаимодей-
ствий на статистику (9.45) рассматривал Scheffe (1959, с. 197—
200). Это предположение часто называют также предположением
аддитивности, поскольку при этом р(у = p-|-ai-|-Pj и главные
9.4, Классификация с одним наблюдением на каждое среднее
263
Таблица 9.4
Дисперсионный анализ для классификации по двум признакам
с одним наблюдением на каждое среднее
Источник Сумма квадратов (SS) • Число степеней свободы (df) if"
Главные Эффекты Фактора Л (способы обработки) Главные эффекты фактора В (блоки) Ошибка i IS# J s s («д)1 < J Z-l J-l (2-!)(/-!) I Co >2
Скорректированная полная Среднее Wau-Y-)1 i j UY1. IJ-l 1
Полная i J IJ
эффекты а{ и Ру „аддитивны". Поскольку в (9.42) нельзя оценить
все параметры, то мы не можем проверить и гипотезу (9.43) против
общего класса альтернатив (aP)fy^0 (хотя бы для одной пары
(i, /)). В то же время можно проверить гипотезу (9.43) против
выбранного надлежащим образом более узкого класса альтерна-
тив. Рассмотрено несколько таких случаев. Например, если пред-
положить, что (aP)f/ — Cafij, то, известный критерий Тьюки для
проверки аддитивности равносилен проверке нулевой гипотезы
Но: G = 0 против альтернативы G=/=0 [Scheffe (1959, с. 191—201)].
Статистика критерия Тьюки имеет вид
F = (RSS—SSq)/[(/ —1) (J-l)-l] > (9Л7>
где
V1 Д2 V о2
2jai
и
rss=22(c$)?/.
i i
Если модель в действительности имеет вид
V ij — Н + ai+Р/ + ez/»
264 Гл. 9. Дисперсионный анализ
то эта статистика F имеет F-распределение с 1 и (/J—/—J) сте-
пенями свободы соответственно. Представляется полезным полу-
чить (9.47) с помощью следующей леммы, принадлежащей Scheffe
(1959, с. 212, упр. 4.19).
Лемма- Предположим, что Y ~ AZ„(X₽, a2In), где матрица X
имеет размер пхр и ранг р, и пусть 0 = Х0, где 0— оценка
наименьших квадратов вектора 0. Пусть Z = f(0)—произвольная
непрерывная функция от 0 (выбираемая до рассмотрения резуль-
татов наблюдения вектора Y), а Ф—такая же линейная функция
от Z, как 0 от Y. Пусть далее R = || Y—01|2 и
Г (Y-0)
1 {Z-Ф)' (Z-0)}1/2
Тогда
р_________________________51_______~ р
° (R-Rl)/(n-P-l)
Доказательство. Прежде всего, 0=Х (X'X)-1X'Y =PY, так
что Ф— PZ и
р Z'(I„-P) Y Z'(lw —Р) Y
1 {Z'(I,~P)Z}1/2 сг
Рассмотрим условные распределения случайных величин R и
при фиксированном Z = z. Поскольку R не зависит от 0 (теорема
3.5 (iii) из § 3.4), а следовательно, и от Z, то условное распре-
деление R/o2 совпадает с соответствующим безусловным распре-
делением, а именно с %2_р (теорема 3.5 (iv)). Кроме того, из
(1„—Р)Х = 0 имеем /?1 = z' (I„—P)(Y—X0)/cz, где Y—Х0 не
зависит от 0, а следовательно, и от Z. Поэтому
E[Z?1|Z=z] = z' (I„-P)<£[Y-X0] = O
и
cz
так что Rx~ N(0, о2). Полагая теперь и = (1П—P)Y, v = (I^—P)z
и привлекая неравенство Коши—Шварца (A4.ll), получаем
Л-И= V'
, (u'v)2 (u'u) (v'v)—(u'v)2 ^g
— «M v'v - v'v V.
9.4. Классификация с одним наблюдением на каждое среднее
265
Поскольку R/o2 ~ Хп-Р и т0 в соответствии с теоре-
мой 2.9 (§ 2.4) случайные величины (R —/??)/<*2 и 7??/а2 независимы
и имеют распределения Хп-p-i и у? соответственно. Таким обра-
зом, Fo ~ Flt n_p_t, и поскольку это F-распределение не зависит
от z, то оно является безусловным распределением Fo.
Чтобы применить эту лемму к статистике (9.47), определим
функцию Z = f(0) соотношениями Zz/ = 0?y, где Of/ = p.-|-az +ру.
Тогда
IIY -е||2=Rss==22(r«7 -У-i +У-У
и
R2 = {[(»„-Р)Zf Yf 122(fr/-Zi.-Z.j+Z..) Yi,}*
Z'(In-P)Z 22(ZI7-Zi.-Z./+Z..)2
Используя лучаем равенство а. = |3. = 0, после ряда преобразований по- Z/y — Zt. —= 2а^Ру,
так что (9-48) ZjZj а‘₽/
и мы приходим к статистике (9.47). Аналогичным методом можно
получать статистики критериев для взаимодействий и при других
планах экспериментов, предполагающих наличие аддитивности,
например для латинского квадрата.
Критерий Тьюки (в котором первоначально ничего не пред-
полагалось о виде взаимодействий (сф)^), по-видимому, имеет
достаточно хорошую мощность при альтернативах G=#0 [Ghosh,
Sharma (1963)]. Влияние на этот критерий отсутствия нормально-
сти изучено эмпирическим путем в работе Yates (1972). Было
предложено также несколько обобщений указанной процедуры
(ссылки можно найти в работе- Johnson, Graybill (1972а, b)). Все
эти критерии, по-видимому, имеют достаточно хорошую мощность,
если (сфХ-у является функцией от at или р,-. Johnson, Graybill
(1972b) предложили также критерий1) для взаимодействия, кото-
рый имеет достаточную мощность, если рассматриваемая модель
имеет вид
^// = И+аг+₽/ + М’АН~е//’ (9.49)
где а. = р. = у. = 6. = 0 и
I I
1) Обобщение этого критерия на k компонент взаимодействия уц = 2
см. в работе Мирвалиев [1979*].— Прим, ред,
266 Гл. 9. Дисперсионный анализ
Графики остатков, основанные на остатках (а0),у, следует ин- |
терпретировать весьма осторожно. Нерегулярности в этих графиках j
могут возникать либо вследствие нарушения обычных предположе- j
ний нормальности, либо из-за наличия ненулевых взаимодействий j
(т. е. Е (сф),-7 =# 0 для некоторых i, j). Поскольку F-критерии, !
основанные на статистиках (9.45) и (9.46), квадратично сбаланси-' j
рованы, то следует ожидать того, что эти статистики будут устой- i
чивы по отношению к уклонениям от нормальности. Гипотезы об :
однородности дисперсии или о корреляции ошибок внутри блоков
можно проверить, используя, например, методы Нал (1969).
9.4.3. Альтернативный подход j
Если мы предполагаем аддитивность в плане с рандомизиро- ]
ванными блоками, то получаем модель
Y ij = И + «f + 0/ + Чр
Она имеет неполный ранг и поэтому может быть исследована
любым из указанных в § 3.8 методов. Например, можно ввести
идентифицирующие ограничения вида а. = 0. = 0 и использовать
указанный в разд. 11.5.4 алгоритм образования остаточных сумм
квадратов. Такой способ может быть полезен при анализе планов
с неполными блоками, где каждый блок не включает в себя всех
способов обработки.
9.5. Планы, имеющие структуру простых блоков
Помимо рассмотренных выше планов с перекрестной класси-
фикацией, используются также так называемые иерархические, или
гнездовые, планы. Предположим, например, что рассматривается
>; I городов, в каждом из которых имеется по J фабрик, и что
с каждой из этих фабрик берется выборка объема К, так что
имеется модель YiJk = (i=l, 2, ..., /; /=1,2....../;
k=\, 2, Тогда подходящей перепараметризацией этой
модели будет
= °- + • “в- • •) + .) + (6zyft —0у.) (9.50)
ИЛИ, поскольку 0yyft = Руу (& = 1, 2, ..., К),
; Р7/ = Н+“/ + &7 (9.51)
с идентифицирующими ограничениями а. — 0 и 0/. = 0 (для всех i).
Интерес здесь представляют гипотезы Н^. 0(-у = 0 (нет изменчиво-
сти внутри каждого города) и Н2: сс(- = О (нет изменчивости между
городами). Соответствующее разложение для eZyft имеет вид
Чр = ё... + (ё/.. —в...) + (ёу. —ё{..) + (е,у* — ёу.). (9.52)
9.5. Планы, имеющие структуру простых блоков
267
Здесь мы опять имеем ортогональное разложение вектора е, и
F-статистики для проверки гипотез Нх и Н2 получить поэтому
легко. Подробности этого мы оставляем в качестве упражнения
(см. упр. 3 в конце главы).
Многие из используемых в настоящее время планов соответ-
ствуют смесям перекрестной и гнездовой классификации. Если
в каждой гнездовой классификации используется одинаковое число
более мелких ячеек внутри каждой более крупной, то говорят,
что такой план имеет структуру простых блоков, и в этом случае
имеется следующая элегантная теория работы с такими планами,
принадлежащая Nelder [Nelder (1965а, b)].
Любую структуру с простыми блоками можно получить, исполь-
зуя две основные операции: построение гнездовой классификации
(обозначается символом —>) и построение перекрестной классифи-
кации (обозначается символом х). Две простейшие структуры
имеют вид Вх—>В.г (классификация по одному признаку с рав-
ными числами наблюдений на каждое среднее) и ВгхВ2 (класси-
фикация по двум признакам с одним наблюдением на каждое
среднее). Каждый из элементов в этих выражениях сам может
являться выражением такого же типа, так что из указанных
простейших структур мы получаем, например, такие структуры:
Вг—»(В2—>В3) (иерархический план, описанный выше), В^-*-
—>-(В2хВ3), (ВХХВ2)—*В3 (классификация по двум признакам
с равными числами наблюдений для каждого среднего) и (ВххВ2)Х
X В3 (классификация по трем признакам с одним наблюдением на
каждое среднее). Заметим, что
Вх > (В2 » В,) — (Вх ♦ В2) ♦ В3,
Bt X (В2X В3) = (Вх X в2) X В3.
Изменим теперь несколько наши обозначения, и пусть теперь
У*,(,..лг—наблюдение, соответствующее такого типа плану с г
„блоками" Вх, В2, ..., Вг, так что, например, У,-Jk обозначается
при этом как Y 1,1,1,. Пусть nk—число ячеек в Bh, так что ik —
= 1, 2, ..., nk (&=1, 2, ..., г). Первый этап дисперсионного
анализа для подобного плана состоит в установлении тождеств
для чисел степеней свободы. Например, для плана Вх —» В2 имеем
(ср. с табл. 9.1 из разд. 9.1.2)
ПХП2 =3 1 + (пх — 1) + (пхп2 —пх)
= 1 + Vx -4- nxv2,
где = — 1. План ВххВ2 приводит к тождеству
п1П2=1+(пх —1) + (п2—1) + (пх —1)(п2—1)
^l+Vj + Vg-f-VjVj.
268
Гл. 9. Дисперсионный анализ
Тождества для более сложных структур можно получить, исполь-
зуя следующие две функции, соответствующие построению гнездо-
вой и перекрестной классификаций:
JV(nn n2)=l+v1 + n1vs
и
C(nit п2) = 1 + Vj + v2 + VjV2.
Правила использования этих функций заключаются в следующем:
(I) Если при подстановке некоторого значения п,- в выраже-
ния этих функций какое-то из слагаемых (например, vf) обра-
щается в нуль, то им пренебрегают; появляющиеся в качестве
сомножителей единицы отбрасывают. Например,
N (1, ле) = 1+ 0+1-v2= 1+v8
и
C(n1F na) = A/(l, л2)ЛГ(1, n2). (9-53)
(2) Аргументы функций N и С сами могут являться такими
функциями. В этом случае v опять равно п — 1, где п теперь
является выражением вида W или С. Однако иг, входящее в пред-
ставление N (nlt п2), надо понимать уже как алгебраическую
сумму всех составляющих, входящих в представление п2, и для
него используется обозначение N или С.
Пример 9.1. (Вх—> В2)—> В3.
л^Лз^ЛЦЛЧлрлДлз)
«1 + [Я(л,,л2)-1]+ #(«!,
+ n}V2)+nln2v3
» 1 + (л, - I) + (л (л2 - л,) + (л, л2л3 - п, п2).
Пример 9.2. (В2хВ2)—» В3.
%
= 1 + [ С (Л), л2) -1 ] + С (л„ л2>3
= 1 + (у, + P2+PiV2) + л,л2у3
= 1 + (Л| -1) + (л2—1) + (л/лц- л2 - л2+1)
+ (л1л2и3-л1л2).
(9.54)
(9.55)
9.5. Планы, имеющие структуру простых блоков 269
Пример 9.3. В1у.{В2—>В8).
nxn2n3^C(nx,N{n2,n3))
= l+p1 + [N(n2>^)-l] + r)[/V(n21„3)-l]
= 1 + г, + (р2 + и2»>3) + Р] (р2 + и2р3)
= 1 + Pj + + n2P3+
= 1 + (Л1 - 1) + (л2 ~ 1) + («!л2 ~ Л, - Л2 + 1)
+ (и2п3 - п2) + (л,л2л3 - л,и2 - п2п3 + п2).
Альтернативным образом, используя (9.53), получаем
n1«2w3sN(l,w1)7V(l,7V(«2,W3))
= (1 + к>){1 + [^л2,и3)-1]}
(У. bo)
= (1 + »'|)(1 + р2 + л2р3)
= 1 + P| + р2+ PjP2 +л2р3 + Pjn2P3.
После того как тождество установлено, уже не представляет
труда получить подходящую перепараметризацию для 0ц>,..лг =
— -<г] и соответствующее ортогональное разложение для
Е=[(е‘Л-..<г)1- Например, соответственно соотношению (9.54) мы
имеем перепараметризацию (9.50), (9.51) и разложение (9.52): мы
сопоставляем каждой части каждого из слагаемых в (9.54) среднее
значение вектора 0 с тем же знаком и с усреднением по всем
отсутствующим индексам. В случае, соответствующем примеру
9.3, приведенному выше, имеем
0/л=ё...+(ёь.-ё...) +^.h -6...)
= (6f/. —0<-- — б./- 4-0...) 4- (0./л —О.,.) 4-
4-(eOft-0v.-0.M4-O.;.) (9.57)
т. е.
®ifk = И + ai 4- Р/ 4- (аР)// 4- Р/s 4~ («?)/ jk (9.58)
с обычными идентифицирующими ограничениями а. = р. = (ар),. =
= (аР).; = Р;. = (ау).у/; = (ccy)iy. = 0 (для всех i, /, k). Все параметры
в (9.58), за исключением, быть может, р, соответствуют гипотезам,
заслуживающим интереса. Оценки наименьших квадратов этих
параметров являются просто соответствующими членами в таком
же разложении для Yi/lt. Например, Ру* = И,1к—У.,.. В справед-
ливости этого простого метода отыскания оценок наименьших
квадратов можно убедиться, используя аналогичное разложение
270 Гл. 9. Дисперсионный анализ
для е w Такое разложение приводит к соотношению
2224* =222^- +222-е...)2_
+ 222 («•/ — е...)2 + 222 (By. — —ej. + e.„)2
+222 <е-м—e-/-)2+222 (е«7л—e«- —е-л+e/-)2-
(9.59)
Подстановка eI-/A=lz/yft—p—...—(“?)//* и использование иден-
тифицирующих ограничений приводят к указанным оценкам наи-
меньших квадратов. Если предположить, что (ау),у* = 0 (для_всех
i, j, k), то, используя F-статистику с суммой 222 —
—У./* + У./.)2 в знаменателе, можно проверить гипотезы о равен-
стве нулю элементов множеств параметров {a,}, {Pz}, {(«Р)//} и
Суммы квадратов, которые должны стоять в числителях
соответствующих статистик, находятся с помощью соотношения
(9.59), выраженного как тождество относительно YiJk. Соответ-
ствующие степени свободы задаются тождеством (9.56). Таблица
дисперсионного анализа получается из разложения 222Пь
Указанные простые правила служат основой общей компью-
терной системы GENSTAT, позволяющей работать с широким
классом линейных моделей. Ссылки и дальнейшие подробности
относительно этой системы имеются в работе Wilkinson, Rogers
(1973).
Упражнения к гл. 9
1. Докажите, что если случайные величины е(у (I = 1, 2. ..., Г, j = 1,2, .... 7)
независимы и имеют распределение N (0, о2), то суммы квадратов
22 (ёг—ё..)2 и 22<е'7—ёг—ё./4-ё..)2
i I II
статистически независимы.
2. Пусть Ку=ц4-а/4-е/у ((=1,2, ...,/; /==1,2 J), где = °
(2/^/5^О) и Е[е,у]=0 для всех I, j. Используя метод множителей Лаг-
ранжа, найдите оценки наименьших квадратов для р и. а/. (Указание: покажите,
что соответствующий множитель Лагранжа равен нулю.)
3. Пусть Yi/k = ^if+eijk. где
Pi/ =Й- • + (Й<- ~ Й- •)+ (щу —Щ •) = р+а; + ₽ I/,
1—1, 2...../; / = 1, 2...J; k—1, 2.....К, а случайные величины eiyft
независимы и имеют распределение N (0, о2).
(а) Найдите оценки наименьших квадратов для р, а, и и покажите,
что они являются статистически взаимно независимыми.
(Ь) Постройте статистику для проверки гипотез ₽//=0 (для всех
i, j) и Н2: а,=0 (для всех i).
4. Пусть У7/ = рН-в/у (»=1, 2./; / = 1, 2, .... J), где все е/у неза-
висимы и имеют распределение N (0, о2),
Упражнения к гл. 9
271
(а) При 1 — 4 получите F-статистику для проверки гипотезы р| =2р2 =
= Зщ-
(Ь) Покажите, что при / = 2 F-статистика для проверки гипотезы gi = p.a
является квадратом обычной /-статистики. используемой для проверки гипотезы
о равенстве средних двух нормальных совокупностей, имеющих равные дисперсии,
5. Пусть имеется модель
у l/k = в+«/+ ₽/+ ?л+ еуу*,
где /= 1,2..../; /= 1,2....J; *=1,2, К; 2/а/ = 2/₽< = 2/?<=0’
а случайные величины е/уй независимы и имеют распределение N (0, о2).
(а) Выразите параметры ц, а/, Ру и yk через параметры p,-yft = £ [y,-yft].
(b) Постройте статистику для проверки гипотезы Н: а,=0 (для всех /).
(с) Докажите, что
222 (8i/ —ё/..—ё./.4-ё...)®
* / * — v2
--------------^5-------------- *(/-1) (J-1)-
(Указание: расщепите сумму 2/2/2* (Ё//-—е/-'-)2 на две суммы квадратов.)
6. Пусть заданы средние совокупностей ц/у (/=1,2...../; / = 1,2, .... J),
и пусть
>*z=2t’/w/ (2t7=1)-
8/=2“/и// (?“z=1)
и
и=2 и‘А12 *7в/== 2 2 uivlW].
i i i i
Определим а/=Л/—p, Py=Sz—ц и
(«Р)//= g//—A i— В,+ д.
(а) Покажите, что 2у “«“/= 2t’/P/=°I 2/“‘<а₽)«У=° (для всех/)
I
и 2/-/(“₽>«/= ° <для всех о*
(Ь) Обратно, пусть
Ц//=м+а/+₽/+(“₽)//•
Покажите, что параметры этого соотношения однозначно определяются огра-
ничениями, перечисленными в (а).
(с) Докажите, что если все взаимодействия {(оф)/у} равны нулю для
некоторой системы весов {и,} и {оу}, то они равны нулю и для любой системы
весов. Покажите, что в этом случае значение любого сравнения главных эффек-
тов {а,} или {Ру} не зависит от выбора системы весов. (Scheffe (1959, §4.1)].
7. Пусть г//fc=|i+ai+Py+(ot₽)/y+e/y*, где/ = L 2..Z; / = 1,2.J-,
/г=1, 2, ..., Кif, случайные величины е/у* независимы и имеют распределе-
ние N (0, о2). При заданных для всех /, j значениях Kij=Ki.K-jlK-- найдите
статистику критерия для проверки гипотезы Н: (ар),у=0 (для всех /, /).
(Указание. В соответствии с результатом упр. 6, решение вопроса о справед-
ливости гипотезы Н не зависит от выбора весов, используемых в идентифици-
рующих ограничениях 2i Mig/=2/ ОуРу = 0. Поэтому можно использовать
Ui=Ki./К., и Vj=K.jlK.. и найти оценки наименьших квадратов для а,- и Ру
₽ предположении, что гипотеза И верна.) [Scheffe (1959, с, 167—171)].
272
Гл. 9. Дисперсионный анализ
8. Для некоторого трехфакторного эксперимента средние совокупностей
(i=l, 2, 3; / = 1, 2, 3; Л=1, 2) задаются следующими таблицами:
Ct JB, *2 в3 Среднее С2 ?' в2 В3 Среднее
4, 5 6 10 7 9 7 14 10
А 7 7 1 5 9 6 3 6
А3 6 5 7 6 А3 9 5 10 8
Среднее 6 6 6 6 Среднее 9 6 9 8
Покажите, что ЛВС-взаимодействия равны нулю.
9. Рассмотрим линейную модель где «=1, 2.....1;
/ = 1, 2, ...,/; й=1, 2, а случайные величины независимы и
имеют распределение N (0, о2). Пусть
W/ft=P—+ fan-— + н...)+Д,7*
= И + ai + ₽i/ +
где A</ft = 0 для всех i, j, k.
(а) Найдите оценки наименьших квадратов параметров р, а/, Р/у и у^.
(Ь) Постройте f-статистику для проверки гипотезы Н: а,- = 0 (для всех I).
10. Используя метод Нельдера из § 9,5, постройте таблицу дисперсион-
ного анализа для следующих планов:
(а) В2Х(В2ХВз);
(b) (Bf—> BJxBg.
Глава 10
КОВАРИАЦИОННЫЙ АНАЛИЗ
И ПРОПУЩЕННЫЕ НАБЛЮДЕНИЯ
10.1. Ковариационный анализ
10.1.1 Оценивание методом наименьших квадратов
В экспериментальных ситуациях некоторые „факторы" могут
быть количественными, а другие—качественными. Предположим,
например, что мы исследуем влияние температуры t и концентра-
ции с некоторого реактива на выход Y процесса и подбираем
модель регрессии
Е [К/] = Ро + + Ргс/ + Pii^l + P12^ZC1 + Рг2С1
= То + Т12(.1 + т2г4.2 + т8г|.8 + т4г/4 + увг1.5 (i= 1, 2, ..., n).
Температура и концентрация представлены здесь количественно,
и наша модель имеет вид $[Y] = Zy, где Z—матрица данных
размера пхб. В то же время в планах экспериментов мы часто
имеем факторы, являющиеся чисто качественными. К таким фак-
торам относятся, например, географическое положение, тип удоб-
рения, сорт зерна, способ обработки, тип лекарства и др. Мы,
скажем, можем пожелать сравнить действие на людей трех раз-
личных лекарств, измеряя некоторую реакцию Y. Если YtJ
обозначает реакцию /-го пациента, принявшего лекарство i-готипа,
то можно произвести однофакторный анализ (один фактор на трех
уровнях), используя модель Е [УZ/] = (i = 1, 2, 3; / = 1, 2,..., J)
или (£[Y] = X0. Качественный характер фактора проявляется
здесь в том, что элементы матрицы плана могут быть равны
только единице или нулю (уравнение (9.1)). Конечно, количест-
венные факторы, подобные температуре и концентрации, можно
трактовать и как качественные. Так, в приведенной однофактор-
ной модели можно говорить, скажем, о трех различных темпера-
турах или группах температур.
Вообще говоря, мы используем термин дисперсионный анализ,
когда все факторы трактуются как качественные, и говорим о рег-
рессионном анализе, если все факторы трактуются как количест-
венные. Если же мы имеем смешанную модель, скажем <£[Y] =
= Xp+Zy, в которой одни факторы являются количественными,
а другие—качественными, то мы используем термин «ковариа-
ционный анализ» [Scheffe (1959)]. Например, мы можем обнару-
274
Гл, 10. Ковариационный анализ и пропущенные наблюдения
жить, что действие некоторого лекарства зависит от возраста
пациента, так что одной из возможных моделей может быть модель
Е [у /у] = + у,,z‘,h
где 2ц—возраст /-го пациента, принимающего лекарство i-ro типа.
Эту модель можно представить в виде
<£[ Y] = X0 + Zy,
где
2И 0 0 *и 0 0
*12 0 0 *12 0 0
*1/ 0 0 2и 0 0 . Ун'
0 *21 0 0 *21 0 Ya
z7= 0 *22 0 0 *22 0 Y31 Y12
0 2и 0 0 *Ь 0 Y22
Y32
0 0 *31 0 0 *31
0 0 *32 0 0 *32
0 0 *3/ 0 0 *3/
Если взаимодействие между возрастом больного и типом лекар-
ства отсутствует, т. е. влияние возраста оказывается одинаковым
для каждого из типов лекарств, то модель можно привести
к более простому виду:
Е[у ul = N+
или
Действие лекарства может зависеть, кроме возраста, и от веса
пациента, также не взаимодействующего с типом лекарства. При
этом подходящей может быть модель
Е [у .у] = Н + TiZl7 + уа4 + y3wif, (10.1)
где Шу—вес /-го пациента, принимающего i-e лекарство. Если
лекарства изменяют вес пациентов, то можно трактовать как
рачальный вес. Входящие в модель (10.1) три величины—возраст,
10.1. Ковариационный анализ
275
(возраст)2 и вес—обычно называют сопутствующими перемен-
ными. Они часто бывают случайными величинами и не управ-
ляются экспериментатором. Это означает, что методы, рассмотрен-
ные в настоящей главе, относятся непосредственно к условным
моделям. Например, левая часть (10.1) должна иметь вид
E[Yij\Zij = Zip ^',y=wly], а предположения об обычной состав-
ляющей е,у, характеризующей ошибку, будут условными относи-
тельно наблюдающихся значений Zz/ и Wlj.
Если в упомянутом выше эксперименте возраст и вес, по всей
вероятности, существенно влияют на действие лекарства и нас
особенно интересует как раз это влияние, то более подходящим
может оказаться трехфакторный план с тремя факторами, трактуе-
мыми как качественные: лекарство, возраст и вес. Поскольку
модели ковариационного анализа обычно не имеют тех свойств
устойчивости, которыми обладают модели дисперсионного анализа
(разд. 10.1.3), то их следует использовать с осторожностью. Некото-
рые полезные замечания по поводу выбора подходящих моделей
имеются в работах Cochran (1957, 1969).
Рассмотрим общую модель ковариационного анализа
G: <£[Y] = X04-ZT = (X, Z) (P) = w«, - (10.2)
где X — матрица размера пхр, Z—матрица размера nxt ранга t
и столбцы матрицы Z не зависят линейно от столбцов матрицы X.
Хотя эту модель можно исследовать и как одну большую модель
регрессии, тем не менее общий метод состоит здесь в том, чтобы
использовать наши знания о модели дисперсионного анализа
<£[Y] = Xp и использовать двухшаговый метод наименьших квад-
ратов, описанный в разд. 3.7.3. Этот метод применим даже тогда,
когда матрица X имеет неполный ранг или когда имеются огра-
ничения на вектор р (разд. 3.8.3). Прежде чем привести два
примера, мы хотим выделить предположение об отсутствии влия-
ния на Z „способов обработки" в X. Например, как было ука-
зано выше, если некоторое лекарство вызывает изменение веса,
то о wif следует говорить как об исходном весе, на который
данное лекарство, конечно, не влияет.
Пример 10.1 (план с рандомизированными блоками). Рассмот-
рим модель
G: Е[Е,7] = р+а/ + Р/ + тгг/ ((=1, 2, ...» /; / = 1, 2, ...» J),
где ~ 0- Такой моделью может описываться, напри-
мер, сельскохозяйственный эксперимент, проводимый на песчаной
почве, в котором / способов обработки могут соответствовать
различным удобрениям, J блоков—различным полоскам земли,
а гц может быть мерой содержания песка на (i, /)-м участке.
276
Гл. 10. Ковариационный анализ и пропущенные наблюдения
Даже хотя модель дисперсионного анализа £[У//] = р.4-а/ + р/
и не имеет полного ранга, с помощью двухшаговой процедуры
наименьших квадратов все же можно найти оценки наименьших
квадратов неизвестных параметров и остаточную сумму квадра-
тов для G. Шаги этой процедуры состоят в следующем (ср.
с разд. 3.7.3).
(1) Находим оценки наименьших квадратов ц = У._, az =
= Yi.—У.., р/ = У./—У., и остаточную сумму квадратов
RSS = 2 £ (Уу —У,- —У., + У--)г (= Y'R Y)
для модели Е [Угу] = р+
(2) Заменяем Ylf на Yt/—yz^ в RSS и минимизируем полу-
ченное выражение относительно у. После замены имеем
= 2v^+v2^««
где
и т. п. Уравнение dr/dy = 0 дает
-2Ry, + 2yR„ = 0, (10.3)
откуда и получаем оценку наименьших квадратов для у в модели
G- yO = RVzlRzz-
(3) Остаточная сумма квадратов для модели G равна
<mln = Rw— ^aR,lz + y2aRzz = Rvv- VgRzz> (10.4)
или
’mln = Rvv-^. (10.5)
(4) Заменяя Yц на Ylf—Yozz/ в a{ и т. д., получаем
“£.о = ул—У- —То^.—г..) и т. д. '(10.6)
(5) Коэффициент при 2у в (10.3) равен #гг, так что
var[yG] = -^-. (10.7)
Последний результат можно получить и непосредственно (ср. с
упр. 1 в конце главы).
Пример 10.2 (классификация по одному признаку). Для ана-
лиза модели
С- В[Уц] = ^1 + Уги (»~1. 2..../; /==1, 2, ...» J)
10.1. Ковариационный анализ
277
мы применим двухшаговый метод наименьших квадратов к модели
Д[У//]==р/. Для последней модели р,-=У f. и RSS=220z«/—)2>
причем эта процедура, как оказывается, совпадает с процедурой,
приведенной в примере 10.1, с той лишь разницей, что Rvz =
= и т- А- 11
10.1.2. Проверка гипотез
Теперь мы на нескольких примерах продемонстрируем основ-
ные идеи проверки гипотез в моделях ковариационного анализа.
Пример Ю-З (проверка гипотезы о параллельности линий рег-
рессии). Пусть модель
G: Уtj = pz4-ytz{J + ef/ (i=l, 2, ..., /; /=1, 2, J),
в которой случайные величины независимы и имеют одно
и то же распределение N (0, о2), описывает / линий регрессии
с J наблюдениями на каждую линию, и пусть мы хотим прове-
рить гипотезу Н: yt — у2 = ... = уг. Для модели Е [У(/] = р,
остаточная сумма квадратов равна RSS=22(^/7~"^z-)2- Заме-
няя в этом выражении Ylf на Y{j-—у fa,, получаем
r = 2S[^/-yz.-YT(2,7-zz.)]2
i i
— 2 Ryyi — 2 2 ytRyzi + 2 Tz Rzzb
iii
где
Я„/=2(^/-Ур)(г//-гр)
i
и т. д. Уравнение дг/ду{ = 0 приводит к оценке
При этом
RSSO=rmin = SRvyi-s (vl aRzzi) = Rw-S (-^4) .
i j i ' zzl'
Число степеней свободы, соответствующее RSSG, равно IJ—21,
поскольку матрица (X, Z), лежащая в основе модели G, является,
очевидйо, матрицей размера IJy.21 ранга 21.
Если гипотеза Н верна, то модель G редуцируется к модели,
рассмотренной в примере 10.2, так что из соотношения (10.5)
имеем
278
Гл. 10. Ковариационный анализ и пропущенные наблюдения
Поскольку гипотеза Н имеет вид
или А6 = 0, где А—матрица размера (/ — 1)х2/ ранга./ —1, то
F-статистика для проверки гипотезы Н имеет вид
f_(RSS„-RSS0)/(/-1)
RSSg/(/J—21)
J f У RyzilRzzi—Ryz!Rzz\.I(i—i)
I \ i ) fl
J R?yzilRzzi\{(lJ-il)
I * 1 I'
Несмотря на различия в обозначениях, этот результат совпадает
с результатом, приведенным в разд. 7.5.2.
Пример Ю.4 (план с рандомизированными блоками). Сейчас
мы рассмотрим проверку двух различных гипотез для модели
с рандомизированными блоками из примера 10.1.
(i) Проверка гипотезы 17 v: у = 0.
Из примера 10.1 (выражение (10.5)) имеем
р сс __n Ryz
с (J-1)(J-1)-1 степенями свободы (поскольку мы добавили
еще один параметр у к обычной модели; разд. 9.4.1). Если у = 0,
то возвращаемся к обычной модели без сопутствующих перемен-
ных, так что RSShv = Rvv- Те же рассуждения, что и в при-
мере 10.3, показывают, что. гипотезе Hv соответствует одна степень
свободы, так что F-статистика для проверки этой гипотезы имеет
вид
RSShv—RSSo
“ RSS0/{(/-l)(J-l)-l}
=_____________Rlz/Rzz____________
UTO-(R^/Rj}/{(/-l)(/-D-l} ‘
Если это отношение оказывается значимым, т. е. сопутствую-
щей переменной г пренебрегать нельзя, то может возникнуть
желание построить для у доверительный интервал. Применяя
к модели (10.2) общую теорию регрессии, находим, что
o2(W'W)_1) и 6 не зависит от RSS0 (равной [(/—1)х
X(J— 1)—1JS2). Поскольку в рассмотренном примере var [у0] =
10.1. Ковариационный анализ
279
= о2/А?22 (см. (10.7)), тоуо~М(у, о2/Д„) (будучи элементом
вектора 6) и
То—V
s/гт^
имеет /-распределение с (/ — 1)(J — 1)—1 степенями свободы.
(ii) Проверка гипотезы Н\ az = 0 для всех I.
Для отыскания RSSH, где
опять применим двухшаговый метод наименьших квадратов к мо-
дели £'[УЛ17] = р4-Ру. Мы отправляемся от суммы
22(Л/-н-^Г=22[^/-у..-(у./-у..)]2=
=2S(vz/-y7r,
производим замену Уна Yt] — уг/у и получаем выражение
г = 22[У//-У./-Т(г//-г./)]2 = 5|/!/-2тХ,г + Т25м,
где
5&г = 22(Уij—Y j) (zif— z-j)
и т. д. Из уравнения dr/dy = Q получаем ун=8уХ/8гг и
Л Л
RSS„= rraln = Svy-2yHSyz + Y2hS„_= Svv-^ .
Окончательно F-статистика для проверки гипотезы Н имеет вид
р _ (RSS„-RSSc)/(/-1)
RSSc/{(/-l)(J-l)-l)
__{Spy—Syz!Szz—(Ryy—Ryz/Rzz)}/(1— 1)
{Ro-R2^/R„}/{(/-1)(J-1)-1)
Число степеней свободы для числителя можно получить из сообра-
жений, аналогичных приведенным в разд. 9.2.2.
Если отношение F оказывается значимым, то можно прове-
рить все сравнения ф= с/х,- (2zcz = 0) параметров а,, исполь-
зуя метод множественного сравнения Шеффе (разд. 9.2.4). При
этом следует применить оценку (ср. с (10.6))
^о = 2 с,«/. о = S Q {(У—У-)—Vo (zi. — z..)}
i i
= £сД.— VoScfZz-.
Действительно, из того, что для всех г, i, /
Cov[y,.-y.., У7-У,.._У./ + У..] = О,
280 Гл. 10. Ковариационный анализ и пропущенные наблюдения
вытекает (см. также (3.34))
cov[a„ fo] = 0 (r = l, 2, ...» /),
и
var [%] = var [S сД ] + (5 var [y0]
-varlSQV.-.J+SS^
JS4 , ,
= О 1 —r--h ^=75--- I = ° V.
I J '<zz I
Поэтому совокупность совместных доверительных интервалов
дается соотношением
1—a = pr[%€%±{(/ — (/-i)(j-i)-iSM1/a Для всех
сравнений].
Требующиеся в ковариационном анализе суммы квадратов и
попарных произведений обычно размещают в виде таблицы, по-
добной табл. 10.1. Здесь
Таблица 10.1
Суммы квадратов и смешанных произведений для ковариационного
анализа плана с рандомизированными блоками
Источник (У. У) (У, z) (z. Z)
Главные эффекты фактора А (способы А У У Ayz Azz
обработки) Главные эффекты фактора В (блоки) Вуу Byz BZ1
Ошибка К у у Ryz Rzz
Скорректированная полная Tvv "Ууг TZZ
^Z=S2(y//-^.-y-/ + y-) ^j-Zi—Z.i+Z..)
и
Отметим также, что определенная выше сумма SvZ дается фор-
мулой
•V=SS(r'/ -~г-^=+Rr-
10.1. Ковариационный анализ
281
Правила, аналогичные тем, которые использовались для разло-
жения сумм квадратов, можно легко получить и для разложения
сумм попарных произведений. Например,
. v (Yi.zi.) (У..2..)
2-^1 U
i
И
р -УУу , у(Г< г‘) у(Г/г/) (Y..z..)
azi/~7 Z- j “т и •
i i i i
10.1.3. Основные предположения
Общие замечания гл. 6 применимы и к моделям ковариацион-
ного анализа, поскольку они являются частными случаями мо-
дели регрессии. Например, в свете разд. 6.3,1 можно ожидать,
что в моделях со сбалансированными планами (которые в отсут-
ствие сопутствующих -переменных устойчивы к отклонениям от
нормальности) именно степень „ненормальности" сопутствующих
переменных определяет чувствительность произвольного F-кри-
терия к ненормальности наблюдений Y. Этот факт иллюстрирует,
например, Atiqullah (1964), который исследует влияние ненор-
мальности на F-статистику для проверки гипотезы Н: р(=р
(t= 1, 2, ..., /) в следующем однофакторном плане с г сопут-
ствующими переменными:
Ep'z/Wz + Tito/f—Z..J+... +yr(z//r—~z..r), (10.8)
где i = 1, 2, ..., I и / = 1, 2, ..., J. Используя метод разд. 6.3.2,
он находит приближенные выражения для среднего и дисперсии
статистики Z = ylogF. Эти выражения выписаны подробно для
частного случая г—1
£[^/] = Pz + t(zi7—г..). (10.9)
Atiqullah (1964), кроме того, выяснял также, что будет со
статистикой -^-logF для указанной модели, когда случайные
величины ztj независимы и нормально распределены с одной и
той же дисперсией и^, но действительная модель имеет вид
Е [^z/] = Hz + Yz(2z/ —г..) (10.10)
или
£^i/] = Hz+y(2z/-?-) + 6(2z/-Z.)s. (10.11)
282 Гл. 10. Ковариационный анализ и пропущенные наблюдения
Он показал, что в случае (10.10) при больших / влияние пере-
менной у,, по-видимому, не слишком существенно, если
о 2 2
2^v=O(/-2)(
где
I
2 (т/—у)2
2 1 = 1
В то же время влияние квадратичной составляющей в (10.11)
уже значительно более существенно, хотя оно и ослабляется при
6 = О(/-х).
Адекватность каждой конкретной модели можно проверить,
используя общие методы графиков остатков, указанные в § 6.6.
В то же время имеются и другие графики, позволяющие про-
верять предположения, относящиеся к сопутствующим перемен-
ным. Например, в модели (10.9) предположение о том, что ре-
грессия Y на z линейная и не зависит от „способов обработки"
(т. е. от i), можно проверить, вычерчивая для каждого I график
зависимости Y tj от zi{ (J^s3). Если все эти графики линейны
и имеют почти одинаковый наклон, то такое предположение
разумно. Можно применить также критерий для проверки равен-
ства углов наклона (разд. 10.1.2, пример 10.3). Однако указанный
метод не применим, если J < 3, что как раз и свойственно планам
эксперимента без повторений, таким, как планы с рандомизиро-
ванными блоками и латинские квадраты. В этом случае Snee
(1971) рекомендует для каждого способа обработки строить обыч-
ный график зависимости остатков Y от остатков г (вычисляемых
точно таким же образом) для проверки равенства наклонов.
Комбинированный график зависимости У-остатков от 2-остатков
дает возможность проверки линейности. Например, в плане
с рандомизированными блоками £[У(у] = р4-сс/+Ру упомянутые
У-остатки и z-остатки равны Y—Y{.—Y.t + У., и г,у—2,-.—z.j-Yz..
соответственно. Этот метод иллюстрируется в работе Snee (1971)
на примере греко-латинского квадрата.
В моделях ковариационного анализа более'трудно определить
значения сопутствующих переменных заранее, поскольку более
важными обычно являются другие черты плана (например, сба-
лансированность плана, равные числа наблюдений на каждое
среднее). Это означает, что сопутствующими переменными обычно
служат случайные величины, так что любой анализ является
условным относительно принимаемых ими значений. Если вдо-
бавок сопутствующие переменные измерены с ошибкой, следует
использовать метод DeGracie, Fuller (1972).
10.2. Пропущенные наблюдения
283
10.2. Пропущенные наблюдения
10.2.1. Теория оценивания
При реализации планов эксперимента иногда возникает такое
положение, когда одно или большее число наблюдений оказы-
вается пропущенным. Например, в ходе эксперимента какое-то
растение может погибнуть, пробирка — разбиться, а пациент —
отказаться от обследования. В таких случаях нарушается сим-
метрия (сбалансированность) плана, и обычные вычисления диспер-
сионного анализа к оставшимся данным непосредственно не при-
менимы. Один общий способ действий в подобной ситуации состоит
в отыскании таких оценок пропущенных наблюдений, чтобы ди-
сперсионный анализ полученного таким образом „полного" мно-
жества данных был равносилен анализу данных, действительно
имеющихся в наличии. Матрица плана при работе с этим полным
множеством данных определяется без труда, и при вычислениях
можно уже полностью использовать симметрию плана.
Предположим, что в общей модели Y = Xp+e, в которой
матрица X имеет размер пхр, пропущено т из п наблюдений.
Тогда, переобозначая, если требуется, переменные Yt, модель
можно записать в виде
где только и—т наблюдений Yf из п имеются в распоряжении,
т. е. получены. Пусть
|| Y -Хр ||2 = || Yj -XJJ ||2 +1| Y2- Х2р ||2 = С, (Р) + Q2(Ys, р)
и р—оценка наименьших квадратов для р, т. е. Qt (Р) достигает
минимума при Р = Р, где р — решение нормальных уравнений
X(Xip = XJY1. Тогда величина || Y—Хр||2 достигает минимума
относительно пары Y2 и р, если Р = Р и Y2=Y2 = X2p (т. е.
Q2 = 0). Из равенства Q2(Y2, Р) = 0 получаем полезное соотно-
шение
<?!(₽) = min || Y-ХРЦ2 (10.12)
Р» Yz
= пнп (minjj Y —xpii2) . (10.13)
Определенное выше Y2 называют оценкой наименьших квадра-
тов для Y2.
Заметим, что приведенные соображения, представленные в раз-
личном виде многими авторами (см., например, Wilkinson (1958а, Ь,
1960) и „Letters to the Editor" в журнале. The American Statis-
tical! (1972 (4))), сохраняют силу независимо от того, имеет
284
Гл. 10. Ковариационный анализ и пропущенные наблюдения
j' матрица X полный ранг р или нет. Более общие, „бескоординат-
« ные“ соображения, допускающие другие представления для 0=(£[Y]
(например, А0 = О вместо 0 = Х₽), приводят Kruskal (1960) и
1 Seber (1966, гл. 8).
Предположим теперь, что матрица Xf размера пхр имеет
i ранг р. Тогда
i y2=x2p=x2(xjx1)^x;yi,
, и это есть просто то значение, которое мы могли бы „предска-
i зать“ для Y2, основываясь на совокупности значений х, заданной
матрицей Х2. В то же время можно получить и более удобную
формулу, использующую полноту ранга матрицы X (которая также
имеет ранг р, поскольку она содержит р линейно независимых
к строк матрицы XJ. Для этой цели сложим уравнения X2Y2 =
J =х:х2р и XJY1 = X(X1p. Получим уравнение
! X'Y = X'Xp. (10.14)
Умножая обе его части на Х2(Х'Х)~1, получаем
) ХДХ'ХНХ'^У1 Vx2₽ = Y8 (10.15)
\ * 2 /
или
'( (Im—X2(XzX)~1X2)Y8 = X2(X,X)~1X'Yi. (10.16)
Соотношения (10.14) и Y2 = X₽ показывают, что
J, Q1(P) = minfmin||Y-Xp||8A, (10.17)
V; Ys к е J
j: так что для отыскания Y2 можно сначала минимизировать
*' |] Y—хр||2 относительно р, а затем минимизировать остаточную
• сумму квадратов относительно пропущенных наблюдений Y2. Этот
{ результат принадлежит Yates (1933). Польза уравнения (10.14)
1 станет ясна из следующего примерах).
*) Предложенную процедуру можно резюмировать следующим образом.
Шаг 1: находим „затравочные** МНК-оценки Р (0), формально подставив в (10.14)
вместо ур I > п—р, нулевые значения. При этом получаем оценку У2(0) =
-=Л2Р(0), являющуюся правой частью (10.16). Шаг 2: решая систему (10.16),
находим Y 2. Шаг 3: подставляя Р2 вместо отсутствующего вектора У2, нахо-
ДйМ ф. Смысл замены подгонки одной системы из п—р данных тремя систе-
мами йз п, р и п данных соответственно состоит в том, что р обычно не-
велико, так что решить систему (10.16) не представляет труда, а системы, ре-
шаемые на первом и третьем шаге, при соответствующем подборе плана
также оказываются проще исходной системы.— Прим, ред.
10.2. Пропущенные наблюдения
285
Пример 10.5 (план с рандомизированными блоками). Пусть
модель
£[У//] = е// = И+а/+р/ (1 = 1,2,...,/; /=1,2./)
представляет собой план с рандомизированными блоками. Пред-
положим, что последнее наблюдение У/7 пропущено. Тогда из
соотношений 0 = хр и Ya = Xap = 02 вытекает, что
У и = 0/j = Н + 4- Ру
= y..+(y/._y..)+(y.J_y..)=yz.+y.J_y„
у (Г/. + (У. У + У (У.. + Y.j),
где
у,. = 2 Уф у^= 2 Уи, у**=(2 2 У.^-Уи.
I з= 1 I as 1 \ i= 1 jхе ] /
Разрешая это уравнение относительно Уи, получаем
YiJ~ • (10.18)
В соответствии с (10.17) остаточная сумма квадратов для имею-
щихся в наличии данных равна 22(^7-^—где
У и заменяется на Yи. Заметим, что остаток Уи—У,.—y.j-f-У..
(равный Yи—6и) равен нулю.
Пример 10.6 (классификация по одному признаку). Пусть
£[^/]=Ь- (»=1. 2, ...» /; / = 1,2...J),
и предположим, что наблюдение Уи пропущено. Тогда
^=Pz=F/.=l(y/,+y„)
т. е. равно среднему из оставшихся J — 1 наблюдений, соответ-
ствующих (Л/.
Приложение указанной техники к латинским квадратам и
квадратам Юдена можно найти в работе Jaech (1966). Другие
формулы оценивания единственного наблюдения приведены для
большинства стандартных планов в книге Cochran, Сох (1957).
286 Гл. 10. Ковариационный анализ и пропущенные наблюдения
10.2.2. Проверка гипотез
Пусть задана общая модель Y — Х₽ 4- ®. где матрица X имеет
размер пхр и ранг Предположим, что мы хотим прове-
рить (допускающую проверку) гипотезу Н: Ар=О, где матрица А
имеет размер qxp и ранг q. Если бы пропущенных наблюдений
не было, то F-статистика для проверки гипотезы Н имела бы вид
р = (RSSH-RSS)/q = CI Y-ХРн и Y —хВ |p)/g
RSS/(n — г) (|| Y — Хр ||2)/(и—г)
Однако если пропущен вектор Y2, то в качестве его оценки можно
взять u = Y2, где и получается минимизацией RSS относительно Yg
(или, что равносильно, решением уравнения Y2—Х2Р = 0, как
в приведенных выше примерах 10.5 и 10.6). Минимальное зна-
чение RSS, обозначаемое здесь символом RSS„, является в точ-
ности остаточной суммой квадратов для исходной модели. С другой
стороны, значение RSSHn0 суммы RSSW при Y2 = u уже не
является остаточной суммой квадратов при гипотезе Н, так что
разность RSSHiO — RSSH не будет соответствующей гипотезе сум-
мой квадратов, используемой при проверке гипотезы Н. Нам
нужна здесь такая оценка вектора Yg, которая была бы совме-
стима с моделью Н. Решая уравнение Y2iH—Х2РН=О относи-
тельно v=Y2tH, получим значение RSSW(Z„ которое уже можно
использовать для построения F-статистики для проверки гипо-
тезы Н:
р___(RSS^, j,—RSSB)/q
RSS„/(n—г—m) ’
Здесь т степеней свободы оказываются „потерянными*" в знаме-
нателе F-статистики из-за того, что приходится оценивать т про-
пущенных наблюдений Y2 (предполагается, что матрица Хх раз-
мера (п—т)хр имеет тот же ранг, что и матрица X, т. е. г).
Поскольку RSSH1 о можно также получить минимизацией RSSH
относительно Y2, мы должны иметь
R$Sh, v RSSHi 0,
причем вероятность равенства (т. е. pr(u = v)) равна здесь нулю.
Поэтому, если мы используем статистику
(RSSH,n-RSSn)/q
с RSSul(n—г—т)
и обращаемся с ней как со случайной величиной, имеющей
F-распределение eq и п—г—т степенями свободы, то получаем
слишком осторожный критерий, так как числитель оказывается
чересчур большим [Yates (1933)].
10.2. Пропущенные наблюдения 287
Вместо вычисления RSSHiC обычно просто корректируют чи-
слитель статистики Fc, вычитая поправку
6 = R SS„, о RSSHi „
и используя следующую лемму. (Заметим, что значение b надо
вычислять, только если Fc значимо.)
Лемма- Записывая v = Xsp//= AjYj-|-Asv, имеем
Ь = (u — v)' (1и—А2) (и — v).
(Этот результат доказал Wilkinson (1958b); более общее доказа-
тельство дал Seber (1966, стр. 70).)
Доказательство. Если X₽H = P„Y, то из (4.5) имеем
Рн = ₽н. (1П-Рн)8=1„-Ря
и
IIY — X0H||a= Y' (1„-Р„)' (1„-Р„) Y = Y' (1Я-Р„) Y.
Пусть = u'), YD=(Yi, v') и матрица Рн разбита следую-
щим образом:
= ₽l2Vn—/n
" \P2f p2J}™
Из соотношения
v=XjH = (0, 1и)Х₽„=(0, Im)PHYp
= (Р«. Pes)Y„ = PalY1+PMv (10.19)
вытекает, что Aj = P2i и А2 — Ра2. Кроме того,
(Y„- Y,)' (l„-P„)Yv=(0', (u-v)') (У1)
\ *21» / \v /
= (u-v)fl-P21Yf + (lm-P22)v] = 0
(последнее верно в силу (10.19)), так что
RSSWiO—RSSHit,= Y' (I„—P«)Yn —Yp(I„—PH)YV
~ (Y„-Ypf (I„ -P„) (Y„ - YJ + 2 (Yo- YJ' (In-P„) Y„
= (u— v)'(Im—P22)(u — v).
Пример 10.7. Предположим, что мы хотим проверить гипотезу
Н: af = 0 (для всех i) для плана с рандомизированными блоками
из примера 10.5. Применяя технику, которую мы там использо-
вали, к гипотезе Н: £[У//] = р+₽/, получаем
v —= = +(^-J — ••)
(10.20)
Гл. 10. Ковариационный анализ и пропущенные наблюдения
288
так что
или
—а
Применяя теперь доказанную лемму (уравнение (10.19)) к (10.20),
имеем 1т—Р22=1—1//, так что
b — (u — и)2(1 — у)
и
RSS„.V-RSS„ = RSSW)B-RSS„—b
F..H -b.
I i i 1*1.1=“
Таким образом, F-статистика для проверки гипотезы Н имеет
вид
F j [S2(fr.-Fj*--fr]/(/-l) )
1 ^(Уц-Уо-Уч+У .)2/|(7-l)(J-l)-l]
Другой, несколько более сложный способ отыскания значения b
в указанном примере предложил Kshirsagar (1971).
10.2.3. Метод ковариационного анализа
В случаях, когда пропущено более одного наблюдения, Yates
(1933) предложил применять повторное использование формулы
для. одного пропущенного наблюдения, начиная этот процесс с
предположительных значений для всех пропущенных наблюдений,
кроме одного. Итерации производятся до тех пор, пока все ос-
татки, соответствующие пропущенным наблюдениям, не станут
пренебрежимо малыми. Однако такой метод не пригоден, напри-
мер, для программ для универсальных ЭВМ, поскольку каждому
плану соответствуют свои собственные формулы для и, v и Ь.
Более общая итерационная процедура описана Hartley (1956).
Если пропущено только одно наблюдение, то для него можно
найти приемлемую оценку, трижды анализируя имеющиеся дан-
. ные и придавая при этом пропущенному наблюдению три раз-
личных равноотстоящих значения (например, —1, 0, 1). Соответ-
ствующая оценка задается простой формулой, включающей лишь
эти три выбранных значения и полученные при этом остаточные
суммы квадратов. Если пропущено более одного наблюдения,
то этот метод применяется итеративным образом.
10.2. Пропущенные наблюдения
289
Другая общая итерационная процедура, описанная Healey,
Westmacott (1956), требует только использования подпрограммы
для отыскания остатков в индивидуальных ячейках. Начиная
с предположенных значений для пропущенных наблюдений (на-
пример, со средних по имеющимся данным значений ячейки,
строки или столбца), мы производим анализ полной модели и
затем вычитаем полученный остаток из каждого из предполо-
женных значений пропущенных наблюдений. Полученные разности
образуют новые оценки для пропущенных наблюдений, и мы про-
должаем этот процесс до тех пор, пока Все остатки для пропу-
щенных наблюдений не станут пренебрежимо малыми: Хотя эта
процедура является итерационной даже при одном пропущенном
наблюдении, она весьма быстро сходится к решению, получае-
мому методом наименьших квадратов. Модификация этой про-
цедуры [Pearce (1965, § 7.3); Pearce, Jeffers (1971); Preece (1971)]
увеличивает скорость сходимости, так что при пропуске только
одного наблюдения требуется не более двух итераций. Эту моди-
фикацию можно применять и в случае перепутанных значений
[Preece, Gower (1974)]. Другую итерационную процедуру для
факторных планов, которая при единственном пропущенном наблю-
дении становится неитеративной, предложил Shearer (1973).
Не являющуюся итерационной процедуру обработки пропу-
щенных наблюдений предложил Bartlett (1937b, с. 151). Имею-
щиеся данные дополняются произвольными значениями (например,
нулями) для т пропущенных наблюдений, и влияние выбора этих
значений на анализ пополненной совокупности данных ликвиди-
руется путем проведения ковариационного анализа над т фи-
ктивными сопутствующими переменными. При этом i-я фиктивная
переменная равна 1 в позиции, соответствующей i-му пропущен-
ному наблюдению, а во всех остальных случаях равна 0. Мы
увидим ниже, что, когда все пропущенные наблюдения полага-
ются равными нулю, оценка наименьших квадратов для i-го про-
пущенного наблюдения отличается лишь знаком от коэффициента
регрессии t-й фиктивной переменной. Этот метод описан в ряде
работ (например, Tocher (1952), Wilkinson (1960) и Seber (1966))
и иллюстрируется примером 10.8. Неитерационная процедура
обработки пропущенных наблюдений в перекрестных классифи-
кациях описана Haseman, Gaylor (1973).
Пример 10.8. Предположим, что в плане с рандомизирован-
ными блоками, описанном в примере 10.5, пропущено наблюде-
ние Yи- Тогда мы предполагаем модель
£ IVi/J= И + + Pj(10.21)
где Yjj—c (произвольная постоянная) и з//=6я6у/. Оценку наи-
меньших квадратов у для у легко найти методом наименьших
Ю № 571
290 Гл. 10. Ковариационный анализ и пропущенные наблюдения
квадратов, описанным в примере 10.1 (разд. 10.1.1). Таким об-
разом,
l'zz
где
= SS Vif-Yi - Y-i + Y ) -z.i + z..)
= ^Yi/-Yl.-Y.l + Y..)zi,
и
Rzz = 22 (z,7 — Zi. —z.j + z..y
Если c = 0, to из (10.18) видно, что
- 1Yi*-\-JY*j —Y
V“ (Z — l)(7 —1)
= Yu.
Полученный результат следовало ожидать, поскольку двух-
шаговый метод наименьших квадратов в применении к (10.21)
сводится просто к замене Yt/ на Y{/—yztf, т. е. к замене YrJ
на —у и минимизации остаточной суммы квадратов относительно у.
Это равносильно методу Иэйтса минимизации Ryy относительно Y и.
Попутно отметим, что [ср. с (10.4)]
^yy^Y IJ = Y и ^УУ V*Rzz
= {Rvv}yij=o
P/j (7-1) (J-1)
и
Продемонстрировав суть метода ковариационного анализа на
простом примере, приведем теперь общую теорию и процедуру
вычислений для случая т пропущенных наблюдений. Рассмотрим
модель ковариационного анализа
G: Y0 = X₽ + Zy+e,
где Y0 = (Y\ 0')' и
(О \}п-т
I Am ”(Z1’ Z2’
• • > zm).
10.2. Пропущенные наблюдения
291
Если матрица X имеет полный ранг и Р= X (Х'Х)~ХХ', то оценка
наименьших квадратов для у является решением (ср. с (3.22)
в § 3.7) уравнения
(In-P)Z)yG = Z' (1„-Р) Y0 = -Z'PY0 (10.22)
(Z'Yo = O), т. е. уравнения
.(!»- х2 (Х'Х)-1 Х2) ---Х2 (Х'Х)“Х X[Yf. (10.23)
Из уравнения (10.16) замечаем, что Ya=s—ус; этого опять-таки
следовало ожидать ввиду эквивалентности двухшагового метода
наименьших квадратов и метода Иэйтса. Метод ковариационного
анализа используется при пропущенных наблюдениях, по-види-
мому, не очень широко, поскольку на первый взгляд он требует
компьютерной программы для общего ковариационного анализа
с т сопутствующими переменными. Однако Rubin (1972) указал,
что в действительности это не так. Все, что здесь требуется,—
это программа для отыскания остатков и подпрограмма для об-
ращения матрицы размера mxm. Чтобы убедиться в этом, заме-
тим прежде всего, что (1п—P)Zy является вектором остатков,
который получился бы, если бы мы использовали Zy в качестве век-
тора наблюдений Y. Поскольку (п—т + j) элементов вектора Zy
равны единице, а остальные его элементы равны нулю, то
(Z/(I„-P)Z)„ = z'I(I„-P)z/
является (и—m-f-i)"M элементом вектора (1„—P)Zy, т е. остат-
ком., соответствующим i-му пропущенному наблюдению, когда все
наблюдения, включая и пропущенные, полагаются равными нулю,
за исключением /-го пропущенного наблюдения, которому при-
писывается значение 1. Аналогично
(Z'(I„-P)Ye),. = zi(In-P)Y0
можно рассматривать как остаток, соответствующий f-му пропу-
щенному наблюдению, когда все пропущенные наблюдения (но
не элементы вектора YJ полагаются равными нулю. Таким об-
разом, из уравнения (10.22) находим
Y2 = Че = - [z' (I„- Р) Z]-1 Z' (1„-Р) Yo
или в обозначениях Рубина (с векторами-столбцами вместо век-
торов-строк) Х = —R-1p. Если матрица Z'(In—P)Z вырождена, то
нужно использовать ее обобщенную обратную [Wilkinson (1958а)].
Из общей теории разд. 10.2.1 вытекает, что таковой будет всякое
решение уравнения (10.16), т. е. Y2 = X2p. На практике выро-
жденность возникает, когда пропущены такие части плана, как
блоки.
10*
292
Гл. 10. Ковариационный анализ и пропущенные наблюдения
10.2.4. Пропущенные наблюдения в моделях
ковариационного анализа
Предположим, что требуется произвести ковариационный ана-
лиз совокупности наблюдений Y и соответствующих измерений г
сопутствующих переменных щ2, .... wr. Если некоторые из
наблюдений Y пропущены, то Wilkinson (1957, 1958а) предла-
гает использовать следующую простую процедуру:
(1) Отбрасываем все измерения переменных wt, щ2, ..., wr,
соответствующие пропущенным значениям У.
(2) Подбираем совокупность пропущенных значений наблюде-
ний У, игнорируя присутствие сопутствующих переменных.
(3) Посредством параллельных вычислений подбираем значе-
ния переменных w2, ..., wr вместо тех из них, которые были
отброшены как соответствующие пропущенным значениям У.
(4) Производим ковариационный анализ полной совокупности
данных для У и w2, ..., wr.
В заключение заметим, что описанный выше метод Рубина
также можно использовать для оценивания пропущенных значе-
ний У и W[.
Упражнения к гл. 10
1. Выведите выражение (10.7) непосредственно.
2. Пусть yiy—Hi+TiZiy + yaW/y+e/y, где « = 1, 2..../; /=1, 2.....J;
и случайные величины е,у независимы и имеют распределение N (0, а2).
а) Найдите оценку наименьших квадратов для у, и покажите, что она
является несмещенной.
Ь) Найдите дисперсионную матрицу оценок 7/ (1 = 1, 2) параметров у/.
с) При каких условиях оценки ух и у2 независимы?
3. Пусть y/yft = p,y+T,yz17ft+ef/ft, где 1 = 1, 2. /; / = 1, 2, ..., J;
k = l, 2, .... К, а случайные величины независимы и имеют распределение
(0, о2).
а) Найдите статистику критерия для проверки гипотезы
Н: Yif — У (Для всех *• /)•
Ь) Предполагая, что гипотеза И верна, постройте 100 (1 —^-процент-
ный доверительный интервал для у.
4. Пусть У/у*=ц4-а/+₽,у+уг/уЛ4-е//й, где случайные величины е/у*
такие же, как в примере 3, а. = 0 и р/.=0 (« = 1, 2, ..., /). Найдите ста-
тистики критериев для гипотез
а) у=0,
Ь) а,-=0 (для всех «).
5. Рассмотрим модель KIy=p1--J-7(xy-J-ely, где г = 1, 2; /=1, 2..J,
а случайные величины е,у независимы и имеют распределение N (б, а2). Исполь-
зуя метод ковариационного анализа, найдите F-статистику для проверки гипо-
тезы о том, что 71 = 72. Покажите, что эта статистика равна квадрату обыч-
ной /-статистики для проверки гипотезы о параллельности двух линий.
6. Пусть задана классификация по одному признаку
Yi/~[4'i~ey (* = !» 2, /; / = 1, 2, J Ц
Упражнения к гл. 10
293
и наблюдение Кп пропущено. Найдите такие и и Ь, при которых обычную
/•-статистику для проверки гипотезы И: р., =р2= ... = р/ можно представить
в виде
f ( (SS(Fi.-F..)8-»)/(/-l) ]
1/-111
\ ' \ / / ) У 11=4
7. Покажите, каким образом можно получить совокупность доверитель-
ных интервалов для всех сравнений У/с,-»,- в модели классифика-
ции по одному признаку Ку = Н+а/+Тг//+®// О’=1. 2, .... /; /=1, 2,
J/), где 2jiJ/ai=0, с вероятностью одновременного накрытия 1—а.
8. Покажите, что если в примере 10.8 (разд. 10.2.3) с 0, то Ри~с—у-
9. Убедитесь в том, что в примерах 10.5 и 10.6 (разд. 10.2.1) оценку про-
пущенного наблюдения можно найти, минимизируя остаточную сумму квад-
ратов относительно пропущенного наблюдения
10. Найдите оценку пропущенного наблюдения К$?3 в модели, приведен-
ной в упр. 5 и 9 в конце гл. 9.
Глава II
МЕТОДЫ ВЫЧИСЛЕНИЙ,
ИСПОЛЬЗУЕМЫЕ
В РЕГРЕССИОННОМ АНАЛИЗЕ
11.1. Введение
Пусть задана модель регрессии Y = Хр, в которой матрица X
имеет размер пхр. Мы рассмотрим сейчас алгоритмы для вы-
полнения следующих этапов процесса подбора:
(1) Решение нормальных уравнений X'X0=X'Y.
(2) Вычисление 33 [0].
(3) Вычисление остатка e=Y—Хр.
(4) Вычисление остаточной суммы квадратов RSS = e'e.
При этом будут даны алгоритмы и для случая неполного ранга
матрицы X. Затем мы рассмотрим следующие процедуры:
. (5) Обновление матрицы данных (т. е. добавление или отбра-
сывание строки матрицы X).
(6) Добавление или отбрасывание регрессора (т. е. добавление
или отбрасывание столбца матрицы X).
(7) Вычисление F-статистики для общей линейной гипотезы.
В следующем параграфе рассмотрены только первые четыре
этапа. Для сокращения записи положим В = Х'Х,. c=X'Y и
х = р (последнее обозначение мы вводим для того, чтобы избежать
использования обозначения (30 для первого элемента вектора р).
Тогда нормальные уравнения записываются в виде
Вх=с.
(П.1)
Если матрица X имеет ранг р, то матрица В не вырождена (и в
действительности положительно определена), и уравнение (11.1)
имеет единственное решение В~хс, т. е. p = (X'X)-1X,Y. Ниже
описано несколько более общих алгоритмов отыскания этого
решения. Все они заключаются в приведении системы нормаль-
ных уравнений к треугольному виду, при котором система может
быть решена с большой точностью [Wilkinson (1965, 1967)]. Эти
алгоритмы сравниваются между собой в § 11.4.
и!
11.2. Случай полного ранга
295
11.2. Случай полного ранга
11.2.1, - Метод исключения Гаусса
Этот метод состоит в преобразовании матрицы В к верхней
треугольной матрице
«и «12 «и • «1р
V» 0 «22 «23 ’ •• «2, . • ". * .. (П.2)
0 0 0 ^ро
с положительными диагональными элементами (положительными
в силу положительной определенности матрицы В). Последнее
достигается при помощи цепочки невырожденных элементарных
преобразований строк, при которых из каждой строки матрицы В
вычитаются некоторые кратные ее выше расположенных строк,
так что в результате обращаются в нуль все элементы, располо-
женные ниже диагонали [Fox (1964, гл. 3), Wilkinson (1965,
1967)]. Поскольку произведение невырожденных преобразований
также не вырождено, мы, по существу, находим такую невырож-
денную матрицу К размера рхр (которая оказывается нижней
треугольной матрицей), что
KB = V, (11.3)
и при этом наши нормальные уравнения равносильны уравнению
Vx = KBx—Kc = d.
Если произвести эти преобразования над расширенной матрицей
(В:с), то в результате мы получим расширенную матрицу (V:d),
и элементы вектора х легко получаются обратной подстановкой,
именно
dp
х = —,
р vpp
dp—i xpVp—i, р
р 1 vp-i,p-i ’
dp —2 хр^р—2, р—xp — lvp—2,p—i
Хр~* = Vp-2,p-l
и т. д. Такое решение уравнения Vx=d по понятным причинам
называют обычно обратным решением (обратным ходом) метода
исключения Гаусса.
Для того чтобы можно было привести матрицу В к матрице V
последовательно, строка за строкой, начиная первой и кончая
р-й строкой, необходимо, чтобы все главные миноры матрицы В
порядков от 1 до (р — 1) включительно были отличными от нуля.
296
Гл. 11. Методы вычислений для регрессионного анализа
Но это условие выполняется, поскольку матрица В положительно
определена (А4.7).
Если продолжить элементарные преобразования строк и при-
вести матрицу В к единичной матрице \р, то те же преобразо-
вания, примененные к матрице (I^zc), приведут к матрице (В-1:х),
из которой мы получим р и Й>[Р] = о2В-1. Подобную процедуру
часто называют методом исключения Жордана.
Если нужно построить графики остатков, то для этого нет
более короткого пути, чем просто вычислить Y — Х0 и получить
RSS. В то же время, если нас интересует только RSS (равная
Y'Y—Y'X(X'X)-:lX'Y), томы можем найти ее и непосредственно,
расширяя надлежащим образом матрицу В. При этом мы просто
применяем метод исключения Гаусса к первым р столбцам рас-
ширенной (р-Ь 1)х(/?+1)-матрицы
/Х'Х, X'YX /В с \
\Y'X, Y'Yj = Vc' Y'Yj
и получаем (см. упр. 2 в
конце главы)
/V d \
VO' RSS/
(11.4)
Эта процедура иногда называется методом Дулитла [см. Dwyer
(1941)] по имени ее популяризатора [Doolittle (1878)].
11.2.2. Метод разложения Холецкого
(метод квадратного корня)
Поскольку матрица В положительно определена, ее можно,
и притом единственным образом, представить в виде (А4.10)
В=и'1Д (11.5)
где U —вещественная верхняя треугольная матрица с положи-
тельными диагональными элементами. Такая факторизация матри-
цы В называется разложением Холецкого. Ее применение к рег-
рессии (под названием метода квадратного корня) стало популяр-
ным, по-видимому, благодаря работе Dwyer (1945). Некоторые
авторы предпочитают использовать нижнюю треугольную матрицу.
При этом матрица В записывается в виде LL', где L=U'.
Приравнивая соответственные элементы правой и левой частей
(11.5), мы находим, что матрицу U можно вычислять строка за
строкой, используя выражения
ип — bit , “у—(/ — 2,3, ...,р), (11.6)
11.2. Случай полного ранга
297
и для i = 2, 3, ..р
(1-1 \1/2
, (11.7)
*=1 /
i-1
bij 2 Ukiukj
U4^--------------O'=l'+1’ •••’₽)• О1-7)
Данный алгоритм обладает тем преимуществом, что для вычисле-
ния i-й строки матрицы U требуется иметь в распоряжении
только i-ю строку матрицы В и (i — 1) предварительно вычислен-
ных строк матрицы U. Преимущество оказывается весьма зна-
чительным, если матрица В столь велика, что ее приходится
хранить во внешней памяти, и заранее неизвестно, в каком по-
рядке надо вызывать строки.
Если матрица U вычислена, то решение уравнения U'Ux=c
уже не составляет труда, поскольку дело сводится к решению
треугольных систем: U'z = c относительно z и Ux = z относи-
тельно х. Кроме того,
z'z = x'UfUx = 0'X'X0, (11.8)
так что из (3.9) имеем
RSS= Y'Y—z'z.
Если вместо матрицы X работать с расширенной матрицей (X: Y),
то одновременно с U можно получить также вектор z и б = /RSS
(см. упр. 4 в конце главы).
Матрицу, обратную к В, можно получить, решая р уравне-
ний Вх = а,- (i=l, 2, .... р), где а,—единичный вектор, у кото-
рого равны нулю все элементы, кроме i-ro, равного 1. Решение,
соответствующее az, будет t-м столбцом матрицы В-1. В то же
время, поскольку U — верхняя треугольная матрица, найти обрат-
ную к ней матрицу Т (также являющуюся верхней треугольной)
не составляет труда. При этом
В-^и-Чи^-^ТГ. (11.-9)
Элементы матрицы Т вычисляются для 1=1, 2, .р по фор-
мулам
хх иа *
/
2 uiktkJ
..............................р}
и
р р
(В-1)„= ^jtrkt'ks— (s==r> r+l« р)г
k—s k=s
298 Гл. 11. Методы вычислений для регрессионного анализа
т. е. это равно произведению r-го и s-ro столбцов матрицы Т.
Поскольку матрица В'1 симметрична, достаточно найти только
элементы, составляющие ее верхнюю треугольную часть. Как
указывают Martin и др. (1965), после того как вычислен эле-
мент (B-X)rs, элемент trs больше уже не требуется. Этот факт
может быть полезен для сокращения объема занимаемой памяти.
Обратную к В матрицу можно найти и непосредственно из
матрицы U, решая уравнение
UB-* = (U')"X (11.10)
относительно столбцов матрицы В**, начиная с последнего ее
столбца (Fox, Hayes (1951), Plackett (1960, с. 4)]; см. упр. 5
в конце главы. Комментируя этот метод, Golub (1969, с. 378)
утверждает, что число операций, требующихся для его реализа-
ции, оказывается приблизительно тем же, что и для предшест-
вующего метода, использующего ТТ'.
Другую факторизацию матрицы В предложили Martin и др.
(1965); она не требует большего числа умножения и позволяет
при этом избежать вычисления квадратных корней в (11.6) и
(11.7). Пусть D = diag(«li, н12.ирр) и
1 «12 «13
L = D’L = 0 1 «23
• • • • • • • • •
. 0 0 0
и\р
игр
1
где б — верхняя треугольная
ными элементами. Тогда
матрица с единичными диагональ-
B = U'U = 0,D2U = U'D10,
(Н.П)
где Dl=D2—диагональная матрица, все диагональные элементы
которой положительны. Нормальные уравнения принимают вид
b'DjlJx^c и их решение сводится к последовательному реше-
нию уравнений
О'ф — с относительно Ф и Ох = Dp*<f> относительно х (11.12)
Martin и др. (1965) показали, что такой метод отыскания х тре-
бует того же числа умножений, что и метод Холецкого, но вдвое
меньшего числа делений. Кроме того, В-1 можно найти по фор-
муле
В-х = 0-хо^(0')-\ (11.13)
11.2. Случай полного ранга
299
11.2.3. Разложение в произведение треугольных матриц
Из представления (11.11) мы получаем также однозначно
определенную факторизацию
В = О' (DjU) = LV, (11.14)
в которой L = 0' — нижняя треугольная матрица, все диагональ-
ные элементы которой равны единице, а V—верхняя треуголь-
ная матрица. Элементы матриц L и V можно определить за
р шагов, на r-ом из которых мы сначала определяем r-ую строку
матрицы V, а затем r-й столбец матрицы L [Wilkinson (1967,
1974)]. Таким образом,
г-1
vrj=brJ— 2 hiPtf (/ = G г+ 1, ..., р)
1
и
г—1
Ь(г 2 ^kvkr
hr--------V2------- (t = r + l. ..., Р).
vrr
Решения нормальных уравнений LVx = c получаем последова-
тельным решением уравнений Ld = c относительно d и Vx = d
относительно х (эти этапы называют соответственно, прямым и
обратным ходом решения).
Представление (11.14) служит основой метода вычислений,
называемого сокращенным методом Дулитла. Подробности выпол-
нения этой процедуры на настольных калькуляторах можно найти,
например, в работах Dwyer (1941, 1944), Anderson, Bancroft
(1952) и Graybill (1961, с. 151). Отправляясь от расширенной
матрицы (В:с), мы вычисляем массив (для примера берем р = 3)
9П ©12 с13 dj
1 “12 “13 <h
V21 ®23. ^2
1 «23 <*2
«33 ^3
1 d3
где Uif^VylVii и di—di/VH. При этом вектор х находится
обратной подстановкой из уравнения Ux = d или Vx = d. Этот
метод, по существу, является вариантом метода исключения
Гаусса. Из (П.З) вытекает, что B=K“XV и = L [Fox (1964),
Wilkinson (1973)].
300 Гл. II. Методы вычислений для регрессионного анализа
Исходя из представления (11.11), мы можем получить и дру-
гую факторизацию:
B = (D1U)'U = LLi,
которая служит основой метода вычислений, известного под
названием метода Кроута [Fox (1964)]. Детали соответствующей
процедуры вычислений на настольных калькуляторах приводит
Graybill (1969, с. 290—294). Правда, последний связывает свою
процедуру с сокращенным методом Дулитла. Однако, по суще-
ству, оба эти метода совпадают, различаясь только форматом.
Wilkinson (1967, 1974) подробно рассматривает указанные выше
методы факторизации матрицы В и приводит анализ ошибок полу-
чаемого решения х.
11.2.4. Ортогонально-треугольное разложение
Используя процесс ортогонализации Грама—Шмидта, можно
отыскать совокупность ортонормированных векторов q,- (i=l,
2, ..., р), образующих базис пространства, натянутого на столбцы
х,- матрицы X. С алгебраической точки зрения это означает суще-
ствование таких чисел иц, для которых
1 и^о
q,=—х2—— -Qi.
42 U22 2 «22 Н
1 Ulp Up~l. Р , .
Чр= — -*р——-41—...--------------(ЫЙ>°)»
ирр r UPP Upp г
xi= ыиЧ1»
х2 = 4"
*р ы1/>41 4* игрЯг 4~ • • • 4" иррЧр'
Таким образом,
Х = (х1, х2...х,) = (Ч1, q2...q,) 11 = 0,11, (11.15)
где U = [(«Zy)]—верхняя треугольная матрица размера рхр,
a Q,—матрица размера пхр с ортонормированными столбцами
(т. е. Q^Q, = I,). Поскольку
В = Х'Х = 11'0,0,11 = U'U,
a U'U — разложение Холецкого матрицы В, то такая матрица U
будет однозначно определена, если ее диагональные элементы
выбирать положительными; В этом случае однозначно определена
и матрица Q, = XU-1.
Нормальные уравнения принимают здесь вид
U'Ux = X'Y = U'QpY = U'z,
11.2. Случай полного ранга
301
или, поскольку матрица U невырождена,
Ux-z, (11.16)
После того как найдена матрица
Q'(X:Y) = (U:z),
решить треугольную систему уравнений (11.16) не составляет
труда. Вектор остатков равен
е= Y —X0=Y —Хх= Y—Q/,l)x=Y—Q^z, (11.17)
и из уравнения (11.8) вытекает, что
е'е = Y'Y— z'z.
Другое разложение мы получим, если рассмотрим ортого-
нальную матрицу
Q = (Qp-4/?+i» Ч/>+2» чп)=(Qp-
образуемую присоединением к матрице Qp дополнительных п—р
ортонормированных столбцов, в результате чего получается пол-
ная совокупность п ортонормированных векторов п-мерного
евклидова пространства. При этом
X = q(^)
к о /} (п-р)Хр
(иногда это соотношение записывают в виде X = QR, который и
дает этому методу название „QR-алгоритм**) и
Q'X = ^). (11.18)
Мы снова находим
Q'(X:Y)=(^ J(X:Y) = (U:tz) (11.19)
и решаем уравнение Ux = z. Используя выражение (11.17), полу-
чаем остатки в виде
e=Q(Z)-Qpz = Qn_pt = Q„_/,Q'_pY. (11.20)
Правда, как замечено Джентлменом, такой способ вычисления
остатков может оказаться неустойчивым в вычислительном отно-
шении. Если матрица X запоминается (как это делается в слу-
чае итерационного уточнения в § 11.6), то лучше всего получать
е по формуле е = Y — Хх. В то же время включение вектора t
в (11.9) оказывается полезным в двух отношениях. Во-первых,
e'e=t'Q;_pQ„_/,t=t't, (11.21)
302
Гл. 11. Методы вычислений для регрессионного анализа
и, во-вторых, поскольку ^[t] = Q^_pXP = O и ^>[t] = o2Q;_pQn_p==
= гт2[ , то
t~JV„_p(O, оЧ„_„). (11.22)
Величины th которые при обычных предположениях метода наи-
меньших квадратов независимы и имеют распределение N (О, а2),
можно использовать для проверки нарушения этих предположе-
ний (разд. 6.6.5).
Сущность процедуры, лежащей в основе соотношения (11.19),
заключается в ортогональном преобразовании (т. е. вращении)
матрицы (X: Y). Такое преобразование можно осуществить после-
довательно с помощью серии „элементарных" вращений, подобных
приведенным ниже преобразованиям Хаусхольдера и Гивенса.
При этом матрицу Q' можно найти, если необходимо, применяя
эти преобразования к единичной матрице 1„ или (в случае пре-
образований Хаусхольдера) с помощью запоминания и перемно-
жения элементарных вращений. Матрицу Qp проще всего найти
по формуле Qp=XU-x (в разд. 11.2.3 мы уже видели, что обра-
щение треугольной матрицы не составляет труда).
Теперь подробно рассмотрим численные методы отыскания
приведенных выше матриц U и Q (или Qp).
(а) Процесс ортогонализации Грамма — Шмидта
Вычисления квадратных корней можно избежать, если исполь-
зовать разложение
X = QpU = QpDU = R,,0, (11.23)
где D=diag(ufI, Ы22> • • ч L) = [(M —верхняя треугольная
матрица с единичными диагональными элементами, a Rp—матрица
размера пхр с ортогональными столбцами, так что
RpRp=D'QpQpD = D2 = D1.
Используя процесс ортогонализации, мы можем, таким образом,
преобразовать матрицу X к матрице Rp с ненормированными
- столбцами и решить нормальные уравнения, используя метод,
указанный в (11.12). Если вместо X использовать расширенную
матрицу (X:Y), то получаемый при этом дополнительный эле-
мент матрицы D, равен е'е (см. упр. 6 в конце главы).
Ту же самую, не требующую вычисления квадратных корней
процедуру можно применить вместо X к расширенной матрице
v — Y\
AAUG = I . n I-
\lp и /
В результате [Jordan (1968)] получается расширенная матрица
Raug I Гт-i „ )>
11.2. Случай полного ранга
303
так что при этом оценка наименьших квадратов для х и оста-
ток е вычисляются одновременно. Матрицу (Х'Х)-1 можно полу-
чить как (HD, (I)')-1 (ср. с (11.13)).
Для преобразования матрицы X к матрице Rp или матрицы
Xaug к Raug имеются два основных алгоритма: классический
алгоритм Грама—Шмидта (КАГШ) и модифицированный алго-
ритм Грама—Шмидта (МАГШ). Классический алгоритм для пре-
образования матрицы X с геометрической точки зрения пред-
ставляет следующее: на &-м шаге k-n столбец делают ортогональ-
ным каждому из k — 1 предварительно ортогонализованных столб-
цов, и такую процедуру выполняют последовательно для столбцов
с номерами k = 2, 3, .... р. В модифицированном алгоритме на
k-м шаге делают ортогональным (k—1)-му столбцу столбцы
с номерами k, (&4-1), •р, и эта процедура выполняется
последовательно для fe = 2, 3, ..., р. Для более подробного
ознакомления с этими алгоритмами можно рекомендовать работы
Bjorck (1967а, Ь, 1968), Jordan (1968), Golub (1969) и в осо-
бенности Clayton (1971) и Farebrother (1974). Экспериментальное
сравнение этих алгоритмов [Rice (1966), Jordan (1968), Wampler
(1970, с. 556—557)], а также теоретический анализ [Bjorck
(1967а)] указывают на то, что модифицированный алгоритм явля-
ется более точным и более устойчивым, чем классический. Если
матрица X совсем плохо обусловлена (§ 11.4), то при использо-
вании КАПП вычисляемые столбцы матриц R^ или Raug быстро
теряют ортогональность. Это означает, что КАГШ не следует
использовать без дополнительной переортогонализации; послед-
няя же приводит к значительному возрастанию объема вычисле-
ний. В то же время при использовании МАГШ никакой пере-
ортогонализации не требуется.
(Ь) Преобразования Хаусхольдера
Преобразованием Хаусхольдера называют всякую квадратную
матрицу Н вида H=I„ — 2vv', где v'v=l. Здесь Н = Н' и
Н'Н = !„, так что матрица Н симметрична и ортогональна. Осо-
бенно нас интересуют преобразования вида
H<n = I„—2v,',v<n', (11.24)
где v‘z’ = (0, 0, ..., 0, v^i, ..., vfi’Y и v<n'v<n = 1. Такое
преобразование можно записать также в форме
н<п = (о"“‘ К,.)’ . (U.25)
где К,-—преобразование Хаусхольдера размера ixi. Укажем
кратко, как матрицу Q' из (11.18) можно представит^ в виде
304
Гл. 11. Методы вычислений для регрессионного анализа
произведения р преобразований Хаусхольдера, имеющих вид
(11.24).
Пусть Х = (хг, ..., хр). Применяя соответствующее преобра-
зование НЦ) к первому столбцу Xj матрицы X, этот столбец можно
преобразовать в вектор, все элементы которого, за исключением
первого, равны нулю. При этом
Н11)ХНМ1. Н(1,х2, ..., Н<%), ыи=#0,
где af (/ = 1, 2, п)—вектор размера nXl, /-й элемент ко-
торого равен 1, а все остальные элементы равны нулю. Геомет-
рически' это представляет собой ортогональное преобразование,
состоящее во вращении столбцов матрицы X до совпадения х,
с „первой" координатной осью (представляемой вектором aj. Сле-
дующий шаг состоит во вращении путем использования соответ-
ствующего преобразования Н(2) остальных столбцов вокруг этой
первой оси до тех пор, пока х2 не попадет в плоскость, обра-
зуемую первой и второй осями. При этом х2 становится линейной
комбинацией ах и а2. Поскольку v(2>/a1 = 0, то H<2>a1 = a1, и по-
этому
Н(2>На)Х = («„«!, и1га2+и22а2, Н<2>Н“>х3.Н‘2’Н<%).
Этот процесс можно продолжить, и на /-м шаге мы будем иметь
. Н(1)ху = +и2/а2 + ну7ау.
Окончательно
Q.'X=HwH(z’-,)---H(l)X
= (“11«1,«12«1 + “22«2, + «4,02 + • • • + “рр°^)
“if “12 “1,
0 .и22 • • • и2р
О ...... и
ирр
о
Матрица Q', являясь произведением ортогональных матриц, также
ортогональна.
Детали этого алгоритма приводят Golub (1965) и Businger,
Golub (1965), которые представили также программу на языке
АЛГОЛ-60. Эти авторы привели также две небольшие модифи-
кации этого алгоритма, позволяющие повысить эффективность
вычислений. Дело в том, что, во-первых, каждое из преобразо-
ваний Хаусхольдера требует вычисления двух квадратных корней
(подробности см. в работе Golub, Styan (1973, с. 255)). Однако
если записать Н в виде Н = 1 — v(v'v)-iv' (это проекционная
11.2. Случай, полного ранга
305
матрица, так как Н2=Н), то для каждого преобразования до-
статочно вычислять только один квадратный корень. Во-вторых,
некоторого выигрыша в вычислениях можно достичь, выбирая
столбцы матрицы X в таком порядке: на /-м шаге (/=1,2, ..., р)
выбирается тот из остающихся (/?—/4-1) столбцов матрицы X,
у которого максимальна сумма квадратов его п — j 4-1 последних
элементов. Эта процедура, называемая выбором главных элемен-
тов, сводится к максимизации на каждом этапе следующего диа-
гонального элемента матрицы U. В алгебраическом отношении
она равносильна отысканию такой матрицы Q', для которой
(ГХП = (о), (11.26)
где П—матрица перестановок, переставляющая столбцы матрицы X
в соответствующем порядке. Поскольку П~1=П', то нормальные
уравнения после выполнения перестановки столбцов матрицы X
принимают вид
nU'Un'p = nu'Q'pY
или, поскольку матрица ШТ невырождена,
u(II'₽)=q;y=z.
Далее мы решаем уравнение Ux = z относительно х и получаем
р=Пх.
Что дает сравнение метода Хаусхольдера с процессом Грама —
Шмидта? Выше уже упоминалось о том, что при применении
КАГШ столбцы матрицы Qp могут оказаться далеко не ортого-
нальными, особенно если матрица X плохо обусловлена. Если
мы хотим получить матрицу, „сравнимую” в смысле „степени ор-
тогональности" с матрицей Q, получаемой преобразованием Хаус-
хольдера, то эти столбцы необходимо переортогонализовать [Wil-
kinson (1965, с. 244)]. Преимуществом МАГШ по отношению
к преобразованию Хаусхольдера является возможность относи-
тельно более простого программирования этого алгоритма. Кроме
того, как представляется из экспериментов [Jordan (1968), Wam-
peer (1970)], МАГШ является несколько более точной процедурой,
нежели преобразование Хаусхольдера. В то же время МАГШ
требует и несколько большего объема вычислений.
(с) Преобразования Гивенса
Еще одним типом ортогональных преобразований являются
преобразования Гивенса, задаваемые матрицей
Гл. 11. Методы вычислений для регрессионного анализа
306
1
1
столбец
}
сголКец
G =
1
cos#
sin 0
— sin#
1
1
COS#
1
1
где / й k произвольны, и все
менты матрицы G равны нулю,
сти, матрицей вращения на плоскости
/ cos0 sin0\
\—sin0 cos0y
и единицами на остальных позициях диагонали. Поэтому, когда
преобразование G применяется к матрице X, оно попросту озна-
чает поворот каждого из двумерных векторов-столбцов, образо-
ванных k-й и /-й строками, на угол 0, тогда как все остальные
строки никак не изменяются. В частности, мы можем
угол 0 таким образом, чтобы пара строк
строка /: 0, ..., 0, rz, rl+i, .... гт, .... гр,
строка k: 0, .... 0, sz, sl+1, ..., sm, sp
преобразовалась в пару
0, ..., 0, Г/, Г£+1, • • •, гт, • ••, гр,
0» • • •, 0, 0, $£+1, •.., sm, ..., Sp,
не указанные в явном виде эле-
Матрица G образована, в сущно-
выбрать
где
rt=V rt + s2i,
с=-Ц- (=cos0),
(11.27)
И
S=4- (=sin0),
ri
rm = crm+ssm, m>i.
(11.28)
11.2. Случай полного ранга
307
Если г, = 0 и 8,>0, то 0 = л/2, и преобразование G просто пе-
реставляет строки и изменяет знак:
Если s/<0, то изменяется и знак первой строки в (11.30). Если
rf=s/=0, то 8 = 0 и никаких изменений не происходит.
Таким образом, последовательным применением преобразова-
ний Гивенса мы можем аннулировать (обратить в нуль) все эле-
менты матрицы X, расположенные ниже диагонали, так что мат-
рицу Q' можно представить в виде
Q' = GfGf_f.. .G2Gt.
Такую редукцию можно выполнить двумя способами [Wilkinson
(1965, с. 239—240)].
(1) Преобразовать последовательно первую строку в парах со
второй, третьей, четвертой и т. д. строками таким образом, чтобы
аннулировать последние п—1 элементов первого столбца. Затем
преобразовать последовательно вторую строку в парах с третьей,
четвертой и т. д. строками, чтобы аннулировать последние п—2
элементов во втором столбце, и вообще преобразовать последо-
вательно /-ю строку в парах с (/4-1)-й, (/*4-2)-й, ..., n-й стро-
ками, чтобы аннулировать последние п—j элементов /-го столбца.
(2) На k-м шаге (£=1, 2, ...,п—1) преобразовать (&4-1)-ю
строку в парах с каждой из выше расположенных строк, начиная
с первой, так, чтобы первые k 4-1 строк матрицы X приняли вид
верхней треугольной матрицы.
Метод (1) требует запоминания в ЭВМ всей матрицы X, тогда
как в методе (2) каждая из строк матрицы X нужна только в мо-
мент ее использования.
Преобразования (11.28) и (11.29) можно применить также
и к матрице Y. При этом мы получим векторы z и t в (11.19).
Например, если преобразованы строки с номерами j и k, то
У] = cY, 4- sY k, Yk=- sY, 4- cYk.
После приведения матрицы (X:Y) к виду (11.19) мы можем при
желании продолжить вращения пар элементов вектора t и после-
довательно привести этот вектор к виду (6, 0, ..., 0)'. В этом
случае остаточная сумма квадратов е'е равна просто б2, и вектор е
получается умножением на б первого столбца матрицы Qn_p (СР-
с выражением (11.20)). Мы можем всегда обеспечить положитель-
ность значения б, изменяя в случае необходимости его знак до-
полнительным „поворотом", на угол 0 = п.
Редукция матрицы X к верхней треугольной форме требует
308
Гл. 11. Методы вычислений для регрессионного анализа
примерно пр2—-^-р3 умножений и р извлечений квадратного
корня в случае преобразования Хаусхольдера и примерно 2пр2
умножений и пр извлечений квадратного корня в случае преоб-
разования Гивенса. По этой причине предпочтение обычно отдают
методу Хаусхольдера. В то же время преобразование Гивенса
имеет два явных преимущества. Во-первых, редукцию матрицы X
можно производить строка за строкой (метод (2), указанный выше).
Во-вторых, уже имеющиеся в матрице X нули можно легко ис-
пользовать для уменьшения количества арифметических операций.
Как указывает Gentelman (1973) (его статья и служит основой
этого раздела), эти преимущества важны по трем соображениям.
Во-первых, в регрессионных и особенно в факторных планах
размеры матрицы X могут быть столь значительными, что ее
невозможно хранить в оперативной памяти, а значит, приходится
как-то генерировать ее или вызывать из внешней памяти. Поскольку
строк в матрице X обычно гораздо больше, чем столбцов, то по-
строчная обработка уменьшает требуемый объем оперативной
памяти и (или) количество обращений к внешним запоминающим
устройствам. Кроме того, часто оказывается более естественным
генерировать или вызывать матрицу X построчно. Например,
в задачах регрессии каждая строка соответствует наблюдению
над моделью и может возникнуть потребность в обновлении мат-
рицы (X: Y) путем добавления дополнительных наблюдений (строк).
В факторных планах также обычно оказывается более удобным
образовывать именно строки, а не столбцы [Fowlkes (1969)]. Во-
вторых, матрицы планов X часто содержат большое число нулей.
Джентлмен сообщает, что применение преобразований Гивенса
и простое использование этих нулей (не приспособленное специ-
ально к какой-нибудь специфической форме матрицы) приводили
при анализе соответствующих несбалансированных планов к умень-
шению вычислительных затрат вплоть до 70%. В-третьих, часто
даже уже после того, как произведен анализ модели и матрицы X
и Y редуцированы к матрицам U и Q'Y, бывает необходимо
привлечь дополнительные наблюдения или ввести те или иные
ограничения (разд. 11.5.4). И здесь независимо от того, каким
образом была произведена редукция—методом Хаусхольдера или
методом Гивенса, мы можем произвести перетриангуляцию новой
матрицы с помощью преобразований Гивенса, используя уже
отмеченные их преимущества (§ 11.8).
Джентлмен предложил также модификацию указанного метода,
подобную модификации, приведенной для метода Грама—Шмидта.
Эта модификация позволяет избежать извлечения квадратных
корней и сокращает на четверть необходимое число умножений.
Она весьма успешно конкурирует с методом Хаусхольдера [Gen-
tleman (1974а, Ь)[.
11.3. Взвешенный-метод наименьших квадратов
309
11.3. Взвешенный метод наименьших квадратов
11.3.1. Нормальные уравнения
Если использовать взвешенный метод наименьших квадратов
с (положительными) весами wit то нормальные уравнения имеют вид
X'WX0*=X'WY,
где W = diag[iWj, w2, ..., щ„] (эта матрица равна матрице V"1
из § 3.6). Записывая уравнения в виде
(W»'2 X)' (W‘/’X) 0* = (Wi/2 X)' (WV2 Y),
мы видим, что здесь можно использовать все методы § 11.2, если
работать с матрицами Wl/2X и W1/2Y, т. е. умножить t-ю строку
матрицы (X: Y) на Vwt. В то же время интересно отметить, что,
как мы увидим ниже, в методах Холецкого, Грама—Шмидта
и Гивенса извлечения квадратных корней можно и избежать.
11.3.2. Метод Холецкого
Из уравнения
W1/2X = W1/2Q/J
вытекает, что
X'WX = U'QpWQ^U = U'WU,
поскольку введение диагональной матрицы W влияет только на
нормы векторов-столбцов матрицы Q^, не изменяя их взаимной
ортогональности. Поэтому, действуя также, как и в (11.11), по-
лучаем разложение
X'WX = U'DWDU = U'D2U,
где
D2=DWD = WDa = WD1
есть диагональная матрица с положительными диагональными эле-
ментами. Чтобы найти 0*, поступаем следующим образом. Решаем
сначала уравнение
С'Ф = Х' (WY) относительно Ф
и затем уравнение (11.31)
U0* = Dr'<> относительно 0*.
Приведенные выкладки показывают, что процедуру квадрат-
ного корня [Martin и др. (1965)], кратко упомянутую в послед-
ней части разд. 11.2.2, можно легко приспособить и для взве-
шенного метода наименьших квадратов. Надо просто вместо Dx
и Y в (11.12) использовать WDX и WY,
310
Гл. 11. Методы вычислений для регрессионного анализа
11.3.3. Метод Грама—Шмидта
Алгоритм, описанный в разд. 11.2.4, легко видоизменить для
использования его во взвешенном методе наименьших квадратов.
В процессе преобразования матрицы X к матрице 0 можно за-
поминать элементы диагональной матрицы Dj = RpRp. Поэтому
можно применить метод разд. 11.3.2, в частности (11.31), если
использовать WX вместо X и запоминать D2 вместо Df.
11.3.4. Метод Джентлмена
Рассмотрим сначала задачу отыскания матриц U и Df, для
которых U ==Dj/2(j. Используя замечания, аналогичные сделанным
в разд. 11.2.4, рассмотрим преобразование строки произведения
Dj/2U и шкалированной строки матрицы X:
0, .... 0, Vd, Vduj+i, .... У~Ийт..Vdup, .
0," ..., О, У6vf, У..., /6vm, 6vp.
В результате перейдем к строкам [Gentleman (1973, 1974а)]
о.....О, /d7.....У^_и'т, ...,У^й'р,
О.....О, 0, ...,У&а’т, ....У&'ор,
где
d'=d + 6vf, c ——- = A
d+&? d'
d+6v? d' ’
6'=—— =с6,
(П-ЗЗ)
Vm==Vm — ViUm
и
Это означает, что преобразованные строки можно представить
как строку новой матрицы D}/2 0 и новую шкалированную строку
матрицы X, масштабный множитель которой может и измениться.
Запоминание матриц D( и L требует не большего объема памяти,
чем запоминание матрицы U, и указанные модернизированные
формулы не только позволяют избежать извлечения квадратных
корней, но и требуют вдвое меньшего числа операций [Gentleman
(1974а, с. 452)]. В невзвешенном случае мы всегда полагаем 6=1.
В случае же взвешенного метода наименьших квадратов мы по-
лагаем 6 равным весу w, придаваемому отдельной строке мат-
рицы X, и поэтому получаем Da=D,W вместо D<.
11.4. Сравнение методов
311
Если применить указанный метод к матрице (X:Y), то полу-
чаем матрицу
ZO:z\
\0:t/
где Up* = z и RSS = t't.
11.4. Сравнение методов
Система линейных уравнений Вх=с называется плохо обуслов-
ленной, если небольшие ошибки или изменения элементов мат-
рицы В и вектора с очень сильно изменяют точное решение х
этой системы. Разность бх между решением уравнения Вх=с
и решением уравнения
(В + бВ) (х + бх) = с + бс
можно представить в виде
бх = (В + 6В)-1 (бс—бВх),
так что ее величина существенно зависит от входящей сюда об-
ратной матрицы. Если матрица В близка к вырожденной, т. е.
небольшие изменения элементов этой матрицы могут привести
к ее вырождению, то разность бх может оказаться очень большой.
При составлении нормальных уравнений метода наименьших
квадратов матрицы В = Х'Х и вектор c = X'Y содержат ошибки
округления, поскольку они получаются путем выполнения опре-
деленных операций над X и Y. Но даже если бы матрицу В можно
было вычислить совершенно точно, при ее запоминании в вычис-
лительной машине эта точность может быть утеряна. Дело в том,
что все числа должны быть представлены в ЭВМ в двоичной
системе, и такое десятичное число, как, скажем, 0.1, образует
бесконечную двоичную дробь точно так же, как обыкновенная
дробь 1/7 является бесконечной десятичной дробью. Это означает,
что если матрица X плохо обусловлена (т. е. „небольшие** изме-
нения ее элементов могут приводить к „большим** изменениям мат-
рицы (Х'Х)-1’ и вектора f) = (X'X)-l(X'Y), то любые ошибки при
формировании матрицы Х'Х могут серьезно повлиять на устой-
чивость и точность решения. В действительности описанное по-
ложение усугубляется еще и тем, что само решение системы нор-
мальных уравнений нельзя получить в точном виде. В процессе
решения происходит накопление ошибок округления, и они в конце
концов могут нарушить равновесие и сделать задачу неустойчивой,
если матрица Х'Х близка к вырожденной. Проблема плохой обу-
словленности оказывается особенно серьезной в полиномиальной
регрессии (см. разд. 8.1.1).
312 Гл. 11. Методы вычислений для регрессионного анализа
Степень плохой обусловленности матрицы X измеряется числом
обусловленности 'Х [X], которое мы определяем как отношение
наибольшего сингулярного значения матрицы X к ее наименьшему
ненулевому сингулярному значению (используются и другие опре-
деления). Сингулярные значения матрицы X—это положительные
квадратные корни из собственных значений матрицы Х'Х. Отме-
тим следующие факты, относящиеся к числам 3^ [X]:
(1) 9Г[Х'Х] = (3^[Х])2.
(2) Поскольку X'X = U'U, имеем Ж [Uj = 9^ [X].
Так как 91® > 1,то из свойства (1) вытекает, что матрица Х'Х ]
обусловлена еще хуже, чем матрица X, поэтому, за исключением •
тех случаев, когда [X] имеет умеренное значение и матрица Х'Х ;
может быть построена точно, лучше вообще не строить матрицу Х'Х. j
Учитывая свойство (2) и тот факт, что число 9^[Х] до начала 1
вычислений не известно, безопаснее работать с самой матрицей X
и получать матрицу U непосредственно, используя методы орто- ;
тонального разложения из разд. 11.2.4. Однако все же и это не j
столь просто, поскольку влияние .Т2[Х] полностью исключить J
невозможно [Golub (1969, с. 385), Wilkinson (1974)]. Из рассмот- ’
ренных трех методов метод Хаусхольдера является в настоящее 1
время (1974 г.), по-видимому, наиболее популярным среди спе- 1
циалистов в области численных методов. Он работает несколько ]
более быстро, чем МАГШ, приблизительно вдвое быстрее, чем i
метод Гивенса, и обладает примерно такой же точностью, как |
и каждый из этих двух методов. Однако модификация метода
Гивенса, в которой отсутствует извлечение квадратных корней, ।
успешно конкурирует с методом Хаусхольдера, поскольку она 1
требует примерно таких же вычислительных затрат, легко при- J
спосабливается к взвешенному методу наименьших квадратов ’]
и обладает всеми преимуществами, описанными в разд. 11.2.4с. ]
Ее легко приспособить также к случаю неполного ранга 1
(разд. 11.5.4). Анализ ошибок для всех этих методов см. в рабо- ]
тах Wilkinson (1967, 1974), Golub (1969, с. 382—385) и Gentle- 4
man (1973). I
В § 11.5 приведен ряд модификаций, допускающих вырож- 1
денность матрицы Х'Х. Например, используя метод выбора главных *
элементов, т. е. допуская перестановку столбцов матрицы X, при ‘
которой на каждом шаге максимизируется следующий диагональ- ]
ный элемент матрицы U, можно все указанные в § 11.2 методы 1
(за исключением метода Гивенса) обобщить таким образом, чтобы .]
они допускали вырожденность матрицы Х'Х. В то же время при j
введении идентифицирующих ограничений можно использовать
и метод Гивенса, не производя выбора главных элементов '
(разд. 11.5.4). Приведенное в разд. 11.5.4 разложение по сингу-
лярным значениям, которое, по-видимому, является не менее '
точным, чем другие методы, оказывается особенно полезным, когда
11.4. Сравнение методов
313
ранг матрицы X неизвестен или когда матрица имеет полный ранг,
но плохо обусловлена, причем непредсказуемым образом, как,
например, в гребневой регрессии [Chambers (1971)]. Однако оно
требует в два—четыре раза больших затрат, чем алгоритм Хаус-
хольдера, и не обладает присущей ему приспособляемостью.
Метод Хаусхольдера легко обобщить для использования его
в задаче вычисления F-статистики для проверки общей линейной
гипотезы (§ 11.10). К тому же его можно без труда видоизменить
таким образом, чтобы допустить возможность добавления строки
к матрице (X: Y) (§ 11.8) или добавления столбца к матрице X
(§ 11.9). Удалять строки и столбцы матрицы X лучше всего, ис-
пользуя преобразования Гивенса. Метод МАГШ также позволяет
простым способом добавлять столбцы к матрице X, однако добав-
лять строки при этом труднее. Что касается метода Гивенса, то
этим методом хорошо добавлять как раз строки, а не столбцы.
Ясно, что подходящей процедурой является комбинация методов
Хаусхольдера и Гивенса.
На практике не так уже редко бывает, что один из регрес-
соров весьма сильно коррелирован с линейной комбинацией дру-
гих регрессоров, так что столбцы матрицы X оказываются близ-
кими к линейно зависимым. Это означает, что матрица Х'Х близка
к вырожденной, наименьшее ее собственное значение мало, а 3^[Х]
велико. Так, для тестовых данных Longley (1967) 4.8-10!1,
а для полиномиальных моделей Wampler (1970) соответствующее
значение имеет порядок „106. На самом деле полиномиальные мо-
дели регрессии заведомо плохо обусловлены, если степень поли-
нома больше 5 или 6, особенно если значения х являются равно-
отстоящими (разд. 8.1.1). Поэтому следует исходить из того что
всякая разумная программа должна либо приводить к правильно
округленному решению 0, либо указывать йа то, что матрица Х'Х
слишком плохо обусловлена и не позволяет достичь этого без уве-
личения точности вычислений (или может быть даже вырождена).
При выборе главных элементов, когда на каждом шаге произво-
дится максимизация игг, неполнота ранга матрицы X, искаженной
ошибками округления, проявляется в том, что на некотором шаге
значение игг оказывается меньшим некоторого допустимого пре-
дела. Более высокую точность при вычислении 0 и е можно по-
лучить, используя итерационное уточнение решения (§ 11.6).
Правда, этот метод не пригоден, когда модель обусловлена слишком
плохо. Если после одной итерации заметного улучшения 0 не
наблюдается, это означает, что модель обусловлена в высшей сте-
пени плохо. В таком случае, если производить вычисления с бо-
лее высокой точностью невозможно, следует попробовать применить
более точный метод разложения по сингулярным значениям
(разд. 11.5.5) или обращаться с моделью так, как если бы она
314
Гл. 11. Методы вычислений для регрессионного анализа
была вырождена. Указанным требованиям удовлетворяет программа
[Bjorck, Golub (1967)], использующая преобразования Хаусхоль-
дера. В ней предусмотрен специальный выход „отказ", соответ-
ствующий тем ситуациям, когда в результате ошибок округления
ранг матрицы X оказывается неполным или когда процедура ите-
рационного уточнения не дает существенного улучшения.
Чтобы по возможности избежать трудностей с вычислениями,
рекомендуется перед расчетом регрессии производить, как
в разд. 11.7.1, вычитание средних из X и Y. Такое „центриро-
вание" данных может приводить к уменьшению числа обусловлен-
ности матрицы X [Golub, Styan (1974)]. Некоторые авторы реко-
мендуют также нормировать столбцы матриц X и Y, как
в разд. 11.7.2, особенно при использовании метода разложения
по сингулярным значениям.
В заключение этого сравнения алгоритмов, реализующих метод
наименьших квадратов, следует упомянуть еще об одном алго-
ритме [Bauer (1965)]. В этом алгоритме, использующем разложе-
ние матрицы X, подобное разложению (11.23) из разд. 11.2.4,
применяется схема исключения Гаусса, но только для исключения
используется не отдельная строка, а линейная комбинация строк
с надлежащим образом выбранными весами. Прекрасные программы
на языке АЛГОЛ для этого алгоритма и для большинства других
методов, описанных в § 11.2, приводят Wilkinson, Reinsch (1971).
Численное сравнение программ, использующих алгоритмы из
§ 11.2, дает Wampler (1970). Относительно общей библиографии
по вопросу применения ЭВМ для анализа данных можно реко-
мендовать работу Muller (1970).
11.5. Случай неполного ранга
Если матрица X имеет ранг г (г < р), то матрица В = Х'Х
вырождена (положительно полуопределена) й нормальные уравнения
Вх = с уже не имеют единственного решения. Ниже приводится
пять численных методов обработки данных в такой ситуации.
11.5.1. Метод Холецкого для обобщенной обратной матрицы
для Х'Х
Если матрица В положительно полуопределена, то и тогда
ее можно еще представить в виде B=U'U, где U—вещественная
верхняя треугольная матрица. Строки матрицы U опять можно
получить по формулам (11.6) и (11.7). Однако при этом р—г
диагональных элементов uit оказываются нулями, и все осталь-
ные элементы соответствующих строк матрицы U также надо
положить равными нулю. Если z—решение уравнения U'z = c,
то всякое решение уравнения Ux=z будет и решением уравне-
11.5. Случай неполного ранга
315
ния (J'Ux=c. Поэтому, если U —обобщенная обратная матрица
для U (см. разд. 3.8.1с), то
х= U-z= U- (U')-c= U- (U-)' с= В-с. (11.34)
Если, например, переставить столбцы матрицы В таким обра-
зом, чтобы первые г столбцов были линейно независимыми, то
для полученной матрицы В будем иметь
и= "11 "|2 Щ, 0 "22 • • • “2r "l.r+1 ••• "1/ "2,,+ l •" “r.,+ 1 •••
SS О [Ц. uI2\ , о О /’ О }p-rXr (11.35)
где u/7>0 (i=l, 2, .... г). Тогда матрица
и-=(и" °)
' \о о/
будет обобщенной обратной для матрицы U и матрица
\ о Го/
соответствующей перестановкой столбцов приводится к матрице,
обобщенной обратной к В.
Как указал Healey (1968а), из-за ошибок округления при фор-
мировании матрицы В построенная матрица В может оказаться
и невырожденной. Но даже если она и получится вырожденной,
то ошибки округления все же повлияют на значения элементов
строящейся затем матрицы U. А это означает, что элементы ин,
которые должны были бы теоретически обратиться в нуль, будут
в действительности отличны от нуля. Поэтому сигналом для
использования техники обобщенных обратных матриц должны
служить „чрезмерно малые" значения и2ц, скажем меньшие неко-
торой малой части uti. Два подобных алгоритма построения мат-
риц U и В- приведены в работе Healey (1968b) (см. также
Farebrother, Berry (1974)).
316 Гл. 11. Методы вычислений для регрессионного анализа
11.5.2. Сокращенный метод Дулитла
В разд. 11.2.3 было показано, что методы, использующие,
подобно сокращенной процедуре Дулитла, треугольное разложе-
ние, тесно связаны с методом Холецкого. Поэтому не удиви-
тельно, что с помощью метода, подобного описанному в разд. 11.5.1,
сокращенную процедуру Дулитла можно приспособить и к случаю
неполного ранга. Соответствующие подробности приводят Rohde,
Harvey (1965), которые дают алгебраическое обоснование своей
процедуры, используя QR-разложение матрицы X.
11.5.3. Построение обобщенной обратной матрицы для матрицы
X с использованием преобразований Хаусхольдера
I
Если матрица X имеет неполный ранг, то при этом разложение
Q'x = (o)
(см. (11.18)) сохраняется, только р—г диагональных элементов
матрицы U будут уже нулевыми (остальные диагональные эле-
менты положительны). В то же. время, если допустить такую
перестановку столбцов матрицы X, при которой на каждом этапе
максимизируется следующий диагональный элемент матрицы U
(т. е. использовать выбор главных элементов), то с помощью г -
преобразований Хаусхольдера матрицу X можно привести к ука-
занному выше треугольному виду, но только при этом матрица U ,
приобретает форму (11.35). Таким образом,
0'ХП = (ой J*i2)
для некоторой ортогональной матрицы Q и некоторой матрицы i
перестановок П размера рхр. Рассмотрим теперь матрицу [Golub, "
St van (1973)j
Х,= П(о“ o)Q’-
Поскольку матрица П ортогональна, то матрица
хх‘=® (о" о“)п'п (о“ o)Q’=Q(o o)Q'
симметрична, ХХ*Х = Х и Х*ХХ* = Х*. Таким образом, матрица X*
является обобщенной обратной матрицей для X, удовлетворяющей
условиям (а), (Ь), (с) разд. 3.8.1с. Поэтому X*Y — решение нор-
мальных уравнений.
11.5. Случай неполного ранга
317
Для отыскания остатков мы произведем разбиение Q = (Q„
Qn_j, где Q,—матрица размера пхг, и рассмотрим вектор
где вектор z имеет теперь размер rxl, а не pxl. Поскольку
в силу (11.36) XX* = Q/К» имеем
е= Y —Х₽ = Y—XX*Y = (I„—XX*) Y
= (1„-QA)Q (t)=’Q„-3 (так как Q;Q„_, = O)
= Q„_,.Qn_rY
и
e'e=t'Qn_rQn_rt = t't.
11.5.4. Ортогональное разложение с идентифицирующими
ограничениями
В разд. 3.8.1 мы видели, что если уравнения Нр = 0 (где
матрица Н имеет размер sxp и ранг р—г) являются идентифи-
цирующими ограничениями и
то нормальные уравнения принимают вид
G'G₽ = X'Y = G' (о) .
Поскольку (согласно теореме 3.9 из разд. 3.8.1) матрица G
имеет размер (п-М)хр и ранг р, можно применить метод орто-
гонального разложения к расширенной матрице (X:Y), допол-
ненной строками (Н:0).
Такой способ решения нормальных уравнений обладает целым
рядом преимуществ. Во-первых, s не обязательно должно быть
равным р—г\ всякие дублирующие ограничения при этом авто-
матически обнаруживаются (это свойство полезно для некоторых
задач дисперсионного анализа). Во-вторых, порядок, в котором
регрессоры входят в модель, фиксирован и определяется поряд-
ком расположения столбцов матрицы X. Это означает, что для
любой подмодели, определяемой, скажем, первыми pi столбцами
матрицы G, можно произвести проверку гипотезы о том, что
в действительности мы имеем дело именно с этой подмоделью,
а не с полной моделью. После того как первые pt столбцов
приведены к треугольному виду, сумма квадратов преобразован-
ных элементов вектора Y становится равной регрессионной сумме
318 Гл. 11. Методы вычисленцйдля регрессионного анализа
квадратов Y'Y — RSSP1 для подмодели, подобранной к этому
моменту. Поэтому можно проверить гипотезу об адекватности
подмодели, используя для этой цели F-статистику
р___ п~~' .
~ p—Pi RSSp
п—г (изменение регрессионной суммы квадратов)
“ Р—Pi ’ RSSp
Хорошей иллюстрацией этого является ковариационный анализ
(гл. 10); сопутствующие переменные упорядочиваются первыми.
Рассмотрим, например, классификацию по одному признаку
£Г^/]=н+а/+тгг/
с единственной сопутствующей переменной г и идентифицирую-
щим ограничением 2«а/=0- (Для простоты изложения мы пред-
полагаем i=l, 2 и /=1, 2.) Тогда Gp имеет вид
212
Z21
Z22
о
1 1 о
1 1 of'7
и
1 о 1
1 0 1 |а2
0 1 1J
и для проверки гипотезы Н: a.t = a2 — 0 можно использовать зна-
чение RSS2, получаемое после того, как пара первых столбцов
матрицы G приведена к верхнему треугольному виду.
При проверке гипотез о подмоделях может возникнуть одно
затруднение. Дело в том, что идентифицирующие ограничения
для полной модели могут не подходить для подмодели. Предпо-
ложим, например, что
где Xf—матрица плана для подмодели. Тогда, хотя уравнения
Н₽ = 0 могут являться идентифицирующими ограничениями для
Хр, вовсе не обязательно, что уравнения Н,р, = 0 будут иденти-
фицирующими ограничениями для XjPj. (Так, строки матрицы Hf
могут и не быть линейно независимыми, как того требует тео-
рема 3.9). К счастью, такая проблема обычно не возникает в ди-
сперсионном и ковариационном анализе, поскольку обычно
/Xi хд
G=i Н, 0 .
\° Н2/
11.5. Случай неполного ранга 319
В плане с рандомизированными блоками
£ [У//] = Н+ai+₽/»
например, можно использовать идентифицирующие ограничения
2, =2/ 0/= О-
Если идентифицирующие ограничения не описаны заранее, то
можно воспользоваться следующим методом [Gentleman (1974а, Ь)[.
При применении любого алгоритма ортогонального разложения
всякое уменьшение ранга проявляется теоретически в появлении
нулевой строки в матрице (U:z). Практически же в связи с ошиб-
ками округления оно проявляется в появлении строк с очень
малыми диагональными элементами. Вычисление расположенных
ниже строк хотя и производится, но является бессмысленным.
Предположим, что все элементы (i + 1)-й строки приблизительно
равны нулю, так что (i 4-1)-й столбец матрицы X приблизительно
линейно зависит от ее первых i столбцов. Мы можем преодолеть
эту трудность, полагая (i-|- 1)-й элемент вектора 0 равным нулю.
Иначе говоря, мы добавляем идентифицирующее ограничение
(h':0), где h—вектор, (i-J-l)-H элемент которого равен единице,
а все остальные элементы равны нулю. Перетриангуляция рас-
ширенной системы, производимая, начиная с (i-|-l)-ro столбца,
приводит к вполне удовлетворительному разложению (конечно, при
условии, что нет других линейных зависимостей; в противном
случае надо повторить этот процесс и добавить дополнительные
линейные ограничения). Можно определить также и природу ли-
нейной зависимости. Предположим, что х/+1, т. е. (i-|- 1)-й столбец
матрицы X, имеет вид х(-+1 = Х,а, где X!—матрица, образованная
первыми i столбцами матрицы X. Тогда, рассматривая столбец
элементов, расположенных над (теоретически) нулевым ({-|-1)-м
диагональным элементом, в качестве правой части системы урав-
нений, левая часть которой соответствует треугольнику, распо-
ложенному слева от этого столбца, мы можем решить эти урав-
нения и получить вектор а. (Законность такой процедуры вытекает
из того, что уравнение xf+i—Х1а = 0 соответствует модели, в ко-
торой остаточная сумма квадратов равна нулю; иначе говоря,
оно имеет вид Y—Х0 = О.)
11.5.5 . Разложение по сингулярным значениям.
В разд. 3.8.1с мы уже видели, что вектор X + Y, где Х+ —
обратная матрица Мура—Пенроуза для X, является решением
уравнений наименьших квадратов. Можно показать, что всякая
(пхр)-матрица X может быть представлена (Л. 10) ,в виде
X — P2Q', ’ (11.37)
320
Гл. 11. Методы вычислений для регрессионного анализа
где Р—матрица размера пхр, образованная р ортонормирован-
ными собственными векторами, соответствующими р наибольшим
собственным значениям матрицы XX' (так что P'P=I/?); Q —
ортогональная матрица размера рхр, образованная ортонорми-
рованными собственными векторами матрицы Х'Х; 2 = diag(a1,
о2, —диагональная матрица размера рхр. Здесь
^о2^.. .^Gp^Q, и эти диагональные элементы матрицы 2
(называемые сингулярными значениями матрицы X) равны квад-
ратным корням из собственных значений матрицы Х'Х. Поскольку
матрица Х'Х положительно полуопределена, эти собственные
значения неотрицательны. Кроме того, поскольку ранг матрицы X
равен г, то о,+1 = ог+2= ... =0^=0. Приведенное разложение
матрицы X называется разложением по сингулярным значениям.
Можно показать, что
X+ = Q2+P', (11.38)
где 2+ = diag(or1, оД ..., 071, 0, ..., 0).
Для отыскания 0 = Q2+P'Y надо вычислить только Q, 2
и P'Y. Детали соответствующего алгоритма приведены в рабо-
тах Golub (1969) и Golub, Reinsch (1970). Этот метод является
точным, если матрица X даже очень плохо обусловлена, но имеет
полный ранг. Он полезен также, если значение г не известно.
При этом, если некоторое ot оказывается по величине меньшим
определенного допустимого значения, то оно считается равным
нулю.
11.6. Уточнение решения методом итераций
Если е= Y—Хх есть точный вектор остатков, то e + Xx=Y
и Х'е=0. Поэтому
/1„ XVe\ /Y\
\Х' 0 Дх ) \0
или (вводя соответствующие обозначения)
Mv = m. (11.39)
Поскольку X'X=U'U, матрицу М можно представить в виде
/1„ 0 \/1„ Х\
w \х' и'до —
где и —соответственно нижняя и верхняя треугольные
матрицы.
Пусть х(0>—численное решение нормальных уравнений, е(0) —
вычисленный остаток и
/ е(0> \
v(0, = l I
\х(0> / '
11.6. Уточнение решения методом' итераций ___321
Из-за наличия ошибок округления при отыскании U, z и при
решении уравнения Ux = z полученный вектор Mv(0) не будет
в точности равен вектору m из (11.39), так что возникает нену-
левая разность
h‘*» = m —
Поэтому, если, скажем, v = v(0)-|-6, то 6 удовлетворяет соот-
ношению
M6 = Mv—Mv(0> = h«",
так что, используя ту же самую матрицу М (т. е. ту же самую
матрицу U), можно получить приближенное решение 610> для 6.
При разумных предположениях естественно ожидать, что новое
решение
v(l) — v<0) _j_ g(0>
уравнения (11.39) будет более точным, чем v‘0). Поскольку зна-
ченне 6,0) является лишь приближенным, то мы можем повторить
эту процедуру. Таким образом, при заданном v<0> соответствую-
щий алгоритм выглядит следующим образом:
(1) Вычисляется вектор h(ft, = m—с матрицей М, опре-
деленной в (11.39).
(2) Решается уравнение = путем решения двух тре-
угольных систем = h<A> и UM6<ft) = w(*’.
(3) Вычисляется вектор v(*+*’ = v’ft)
Этот процесс продолжается до тех пор, пока не реализуется
соотношение || 6tft) ||/|| v(A) || < е, где е—заранее заданное число, или
не выполнится какое-нибудь другое условие.
Описанный метод уточнения численного решения системы ли-
нейных уравнений (в данном случае (11.39)) называется итера-
ционным уточнением. В виде приспособления к задаче наимень-
ших квадратов, представленного выше [Bjorck, Golub (1967)],
этот метод кратко рассматривает Golub (1969, с. 385). Его можно
использовать для уточнения численного решения нормальных
уравнений, получаемого методом Холецкого или методами орто-
гонального разложения, причем нужна бывает только матрица U,
а матрица X хранится в памяти.
Итерационное уточнение подробно рассматривали многие ав-
торы, например Golub, Wilkinson (1966), Moler (1967), Wilkin-
son (1967) и Fletcher (1975). По-видимому, когда v(0) имеет не-
сколько правильных знаков (т. е. матрица X не слишком плохо
обусловлена), vlA) будет сходиться к точному решению v (в пре-
делах „принятой точности**), если значения h’*’ вычислять с двой-
ной точностью. Поскольку элементы вектора v<ft) вычисляются
с обычной точностью, такую двойную точность можно достичь
путем накопления скалярных произведений (без промежуточного
11 Ns 571
322
Гл. 11. Методы вычислений для регрессионного анализа
округления) при подсчете Если вычитание m—про-
изводится до округления, то остальные шаги можно выполнять
с обычной точностью. Некоторые ЭВМ имеют такую логическую
схему, что накопление скалярных произведений производится не
быстрее, чем выполнение чисто арифметических операций с двой-
ной точностью. В то же время на других ЭВМ накопление ска-
лярных произведений выполняется, по существу, с той же ско-
ростью, что и выполнение арифметических операций с обычной
точностью. Если возможности накапливать скалярные произве-
дения не имеется, то h(ft) необходимо вычислять, используя дейст-
вительно удвоенную точность выполнения арифметических опе-
раций.
Даже в тех случаях, когда более высокой точности решения
не требуется, имеет смысл попробовать произвести хотя бы одну
итерацию по методу итерационного уточнения решения, чтобы
проверить характер обусловленности матрицы X. Если заметного
уточнения оценки при этом не наблюдается, это означает, что
матрица X плохо обусловлена, и программа должна иметь соот-
ветствующий выход „отказ", подобный имеющемуся в программе
Bjorck; Golub (1967); такой выход использовал Wampler (1970).
11.7. Центрирование и шкалирование данных
11.7.1. Центрирование данных
Поскольку элементы первого столбца Матрицы X обычно вз-
бираются равными единице, нормальные уравнения при р = 4
Имеют вид
п Sx„ ^ха 2х/3 • & 2У;
2хд 24 ^xilxi2 2хпх/3 А 2х,-,У.
2хй ^хахп 24 ^xi2xi3 Л 2хи>;. ’
2xj3 ^Xi3Xil 24 .. А 2хйУ;
Где i = l, 2, ..., п. Деля первое уравнение на п и вычитая
соответствующие кратные первого уравнения из остальных урав-
нений, мы можем обратить последние три элемента первого
столбца матрицы Х'Х в нуль. Таким образом, получаем систему
1 *1 х2 хз 4 У
0 2хд 2х(1х/2 244 к 24 j; (Н.40)
0 244 24 244 Л 24^
0 244 244 24 Д 24^
11.7. Центрирование и шкалирование данных
323
где Xij — Xif—Xf, Xf—^iXt/lti и Y {—Y t—Y. Кроме
пользовались формулами
того, мы
(Н-41)
(11.42)
Поэтому, полагая b' = $f, (32, $3), Х = [(х/у)] и Y = [(¥,)], имеем
= ¥—Ь jXj b2x2 — Ь3х3,
а b является решением уравнения
X'Xb = X'Y.
(11.43)
Фактически это означает, что мы можем найти вектор Ь, вычи-
тая из всех данных соответствующие средние и работая уже
с „центрированными" данными Yt—Y и xif—xf. К такому под-
ходу интуитивно подводит аппроксимирующая модель
К/ = + ЬгХц + PjX/j b3xi3,
подстановка в которую выражения для j30. приводит ее к виду
Yl—Y = bi (хЛ —х^ +b2 (xl2 — x2) +b3 (xl3 —Хз)
= b^x^i +b2xl2 + b3xi3.
Отметим, что через центрированные данные можно выразить
также остатки, остаточную сумму квадратов и квадрат множест-
венного коэффициента корреляции R*. Именно,
= Yi—У —bi (хн—xj) —... —b3 (х;з—x3)
= Y [ Ь2Хц b2xt2 b3xt3,
RSS = e'e = (Y—Xb)' (Y—Xb) = Y'Y —b'X'Y (в силу (11.43))
(11.44)
= Y'Y— Y'X(X' X)-1 X'Y, (11.45)
а из соотношения (4.30) § 4.2 имеем
I_/?2== e'e_ -e>e/Y'Y (11.46)
2 (Yi-yy
и»
324
Гл. 11. Методы вычислений для регрессионного анализа
или (в силу (11.44))
7?2 =
b'X'Y
Y' Y
Хотя мы рассмотрели только случай р = 4, тем не менее ясно,
что соответствующая теория сохраняет силу и в общем случае.
Предположим, что мы хотим проверить гипотезу Н: ₽7=0.
Тогда соответствующая F-статистика (см. (4.13) в разд. 4.1.3)
равна
.2
01-47)
где S = RSS/(n—р) и osdz7 = var[bj. Чтобы найти d^, заметим
прежде всего, что
Х/у Y [ = Xl % 1/^1
i i '
для всех j. Тогда
X'Y = X'Y, b=(X'X)-*X'Y,
и поэтому
©[b] = os(X'X)-\
Это означает, что dyy является /-м диагональным элементом ука-
занной обратной матрицы, что было доказано непосредственно
в примере 4.3 из разд. 4.1.3; там V = X'X. Изменяя, если не-
обходимо, индексацию, мы можем предполагать, что/ = 1. Пусть
X' X _ а12 ]
\a2i Агг/
Тогда, согласно А7,
(X'X)-i — а12А221а21) *,
и . Сравнивая это с выражением (11.45), а именно с
е'е= Y'Y -(X'Y)' (Х'Х)-* (X'Y),
видим, что du равняется остаточной сумме квадратов, которую
мы получили бы, рассматривая регрессию х^ на х2, х3,
В частности, из (11.46), имеем
du1 = (1 -R?) 2 & = (1 - RD si,
i
где Rl—квадрат множественного коэффициента -корреляции, со-
ответствующего регрессии хг на остальных регрессорах. Таким
образом, вообще
dT/ = (l-R№ (И.48)
11.7. Центрирование и шкалирование данных
325
где — квадрат множественного коэффициента корреляции, со-
ответствующего регрессии Xj на остальных регрессорах, a s2=
=
Интересно отметить,. что редукция первого столбца матрицы
Х'Х к виду (1, 0, 0, 0,)' в (11.40) представляет собой попросту
первый шаг процедуры последовательного исключения Гаусса.
Поскольку же процедура исключения (в форме сокращенной
процедуры Дулитла) достаточно широко использовалась при
расчетах на настольных калькуляторах, то не удивительно, что
вычитание средних стало стандартным приемом в статистической
практике. В ранних программах для ЭВМ была заметна тенден-
ция вычислять матрицу Х'Х по формуле (11.42), которую вообще
считают более удобной для расчетов, на настольных калькулято-
рах, нежели формулу (11.41) [Longley (1967)]. В То же время
в работе Ling (1974, с. 866) можно найти некоторые интересные
результаты по этому поводу. Другие методы вычисления указан-
ных величин приводят Youngs, Grammer (1971, с. 664—665) й
Ling (1974) (см. упр. 13 в конце главы). Однако из современных
исследований по численному анализу следует, видимо, заключить,
что работать надо непосредственно с матрицей X, используя ме-
тоды ортогонального разложения разд. 11.2.4, и что стоит, быть
может, вовсе избегать вычисления матрицы Х'Х.
11.7.2; Шкалирование
Некоторые авторы предлагают шкалировать вектор Y и столбцы
матрицы X таким образом, чтобы они имели единичные нормы,
т. е. работать с вектором
Z- Y _
(¥'¥)1/2 \ «у )
и матрицей W = [(«>/7)], где
si J
Хотя для проведения такого шкалирования и нет особых теоре-
тических 'оснований, мы все же подробно изучим его влияние,
поскольку оно служит основой некоторых хорошо известных
процедур для пошаговой регрессии (гл. 12).
Заметим, что
<w,wb = -^r (=г^
326 Гл. 11. Методы вычислений для регрессионного анализа
представляет собой выборочную корреляцию регрессоров и
хА, а
2 *U?i
есть выборочная корреляция между Xj и У. Поэтому уравнения
W'Wa = W'Z принимают вид
Здесь rjk=rk/ и RXJ(. называется корреляционной матрицей. Если
применить методы разд. 11.2.4 вместо матрицы (X: Y) к матрице
(W:Z), то с их помощью получим решение
a=R;XI/.
Отметим, что Rj* можно найти также из получающейся в резуль-
тате верхней треугольной матрицы (см. (11.9), разд. 11.2.2) и что
остаточная сумма квадратов для этой модели равна
-$ = 1 —7?г. (11.49)
sy
Элементы вектора b находятся по формуле bj=ajSYlSj, а ди-
агональные элементы матрицы (Х.'Х)~*—по формуле
0,,=^- (11.60)
si
Выражение для F-статистики для проверки гипотезы//: Р7 = 0
имеет вид (ср. с (11.47))
ь1(п—р) _ д/(п—р)Л
е'ефу e'e (R^)//
Д/(»-р) _ д/(п-р)(1-^) ,п
(l-R8)(R7^/y“ 1—R8 ‘
поскольку, согласно (11.50) и (11.48), (R*x)y/ = (1—7?/)“*.
Основные аргументы р пользу применения шкалирования,
видимо, таковы. Во-первых, матрица RXJC может оказаться обу-
словленной лучше, чем матрица Х'Х, поскольку все диагональ-
ные элементы матрицы равны [Golub (1969, с. 371, 385),
11.8. Обновление регрессии 327
Но такой довод вряд ли можно считать существенным, так как
если обусловленность матриц принимать во внимание, то вообще
лучше работать с самой матрицей X. Во-вторых, значения всех
коэффициентов корреляции лежат между — 1 и + 1, а когда
числа расположены в таком интервале, вредное влияние ошибок
округления сводится к минимуму. Однако преимущества здесь
можно добиться только в том случае, если значения sy и Sj под-
считаны точно.
11.8. Обновление регрессии
Если данные поступают последовательно, то может оказаться
нежелательным или даже невозможным откладывать проведение
регрессионного анализа до поступления всех данных. Для таких
случаев нам нужен алгоритм, с помощью которого можно было бы
непосредственно добавлять дополнительные т строк, скажем
к матрице (X:Y) уже после того, как она приведена
к виду
/U z\
t)
Посредством ортогонального преобразования (У, использующего
преобразования Хаусхольдера или Гивенса. Записывая соотно-
шение
О
О 1 ГХт
Q'j[x
Yj [X„ Y„
Y ш U г
IO t
(11.52)
мы можем, применяя р преобразований Хаусхольдера порядка
fm-j-p) к первым (т-\-р) строкам правой части (11.52), получить
Golub, Styan (1973)]
где
О\
Q7
есть ортогональная матрица, а Р—произведение этих р преобра-
зований. Новая оценка 0 для обновленной модели является ре-
шением уравнения U,x = zit а новый остаток (ср. с (11.20)
328 Гл. 11. Методы вычислений для регрессионного анализа
в разд. 11.2.4) равен
е» — Qh, п+т— р( | ) >
где Qh,п+т-р.—матрица, образованная последними п-\-т—р
столбцами матрицы QH. Новая остаточная сумма квадратов равна
e*eK = Z2Z24-t't = z2z24-e'e, (11.53)
Так что „старую" остаточную сумму квадратов обновить довольно
легко.
Если для обновления используются преобразования Гивенса,
то в этом случае надо рассмотреть соотношение
о
Q'
о
X
Х„
и
о
Каждую из строк матрицы Хт путем ее преобразования в парах
с первой, второй, ..., р-й строками матрицы U можно обратить
в нулевую. Иначе говоря, найдется такая ортогональная (цД-т)х
Х(п + /п)-матрица QG, для которой
Матрица I), здесь та же самая, что и при применении преобра-
зований Хаусхольдера, поскольку разложение Холецкого опре-
делено однозначно. И опять мы имеем
—• Об, п+т—р ( п
\ло
И
eies = t't-|-z^z = e,e + zozo. (11.54)
Однако заметим, что, хотя ZoZo = z2z2 (ср. с (11.53) и (11.54)),
отсюда вовсе не следует, что z0 = z2. Программу добавления одной
строки на языке АЛГОЛ приводит Chambers (1971).
•Если вектор t приведен к виду (6, 0, ..., 0)' (6 > 0—см.
разд. 11.2.4 с), то дополнительные вращения вектора, образован-
ного этим 6 и тем, что осталось от каждого элемента вектора Yт,
обращают последний в нуль и приводят к новому корню из
остаточной суммы квадратов: 6, = (ei, е,)1/2. Последние т строк
данных теперь обращены в нуль, и их можно отбросить.
Если ранг матрицы X меньше р, для добавления дополнитель-
ных строк можно приспособить метод Хаусхольдера из разд.
11.5.3. При этом надо просто пройти тем же путем, которым мы
только что прошли. Если ввести, как и в разд. 11.5.4, иденти-
фицирующие ограничения, то можно использовать метод Гивенса.
11.9. Добавление или удаление определенного регрессора
329
Обновляющие процедуры имеются и для метода разложения по
сингулярным значениям из разд. 11.5.5. По этому вопросу чи-
татель может обратиться к Businger (1970). Влияние обновления
на остатки изучали Beckman, Trussell (1974).
Иногда возникает потребность в удалении некоторой строки
данных из матрицы (X:Y). Например, могут появиться более
точные наблюдения или какое-нибудь из наблюдений представ-
ляется сомнительным. Тогда мы можем просто обратить преоб-
разования Гивенса, которые использовались бы при добавлении
строки. Chambers (1971) приводит соответствующую программу
на АЛГОЛе. Того -же эффекта можно достичь путем добавления
некоторой строки, умноженной на ]/—1. В действительности
никаких операций с комплексными числами при этом не произ-
водится, поскольку такое добавление сводится просто к исполь-
зованию веса — 1 [Golub (1969, с. 378—380), Gentleman (1974а)].
Другие методы, предложенные Голабом, упомянуты в работе
Chambers (1971, с. 746) и, в частности, в Golub, Styan (1973,
с. 264). Однако надо отметить, что любой метод удаления строки
является потенциально неустойчивым и поэтому должен исполь-
зоваться с осторожностью [Gentleman (1973)].
11.9. Добавление или удаление определенного регрессора
11.9.1. Добавление регрессора
Предположим, что мы использовали модель регрессии <£[¥]=Х0,
где X — матрица размера пхр и ранга р, и получили матрицу
(Х'Х)’1, вектор р h:RSS=Y'Y—P'X'Y = Y'RY. Введение допол-
нительного регрессора, скажем xk, равносильно добавлению к X
еще одного столбца. Именно, мы приходим к расширенной мо-
дели
G:£[Y] = (X, xA)(₽J.
Если помечать оценки, получаемые методом наименьших квадра-
тов для расширенной модели, подстрочным индексом G, то в со-
ответствии с разд. 3.7.2 будем иметь
к о=4^-, (11.55)
x*:Rxft
= (Х'ХНХ'хД G (11.56)
и
£SSc = RSS-pft, cXfcRY, (11.57)
330
Гл. 11. Методы вычислений для регрессионного анализа
где R = In— Х(Х'Х)’‘ХХ'. Кроме того, из соотношения (3.28)
разд. 3.7.1 имеем
V««fX'X Х'хЛ-х_ /(X'X)-x + LL'm, - Lm\
Vfe.c/ \х*х W \ —L'm, т )'
где Ь = (Х'Х)~хХ'хА и tn == (xARxA)~x.
Если мы знаем матрицу (Х'Х)-х, то, используя приведенные
уравнения, можем по крайней мере теоретически получить 0,
RSS и (Х'Х)’1 для расширенной модели непосредственно. Однако
для увеличения точности и устойчивости численных расчетов
предпочтительнее использовать следующий метод.
Положим
/и
Q'(X,A) = ^o
q;** \ /и z*\
Q'„_pxJ*\О tj
(11.58)
При применении р преобразований Хаусхольдера, представляемых
матрицей Q', к хА нам достаточно всего, одного дополнительного
преобразования Хаусхольдера [Golub, Styan (1973, с. 264)],
скажем Н, порядка п—р, чтобы обратить в нуль все п—р — 1
последних элементов вектора Q'xA и привести матрицу (11.58)
к верхней треугольной матрице порядка р -j-1. Поскольку орто-
гональные преобразования не изменяют длины вектора, то
HQ;_pxft = ua1, где а[ = (1, 0, .... 0) й w = (x^Q„_pQ;_pxa)1/2 »
=(Wx/2> и
/1Р O\q(x,xa:Y)=: И
\О Н/ \° uai : Ht/
Если —первый элемент вектора Ht, то
(n (П-59)
\0 tl /\fik.G / \Л1/
и мы можем разрешить эти уравнения относительно 0G и 0
путем.обратной подстановки.
Заметим, что
RSSG = t'H'Ht—= h2 = RSS — hl, (11.60)
где /ij—-первый элемент вектора
Ht = (I„_p—2vv') t = t—2vv't.
Здесь v выбирается таким образом, что v'v=l и HtA = ua1, где
вектор tA = (/A<) определен в (11.58). При этом (см., например?
11.9. Добавление или удаление определенного регрессора
331
Golub, Styan (1973, с. 255))
2^=1 —
х г
И
^vivl — — (t = 2, 3, .... п—р),
где г = —sgn(/ftl)-||tft||, a sgn(/ftl) равно +1, если /н>0, и —1
в противном случае. Подставляя эти выражения в формулу для
Ht, получаем
= —2t\v't
= tt —2vlti —2t^2fs—... —2и;оп_р/„_р
_ • • • +tfc, n-ptn-p tfet
r 7*
И
(11.61)
Приведенную теорию интересно увязать с уравнениями (11.55),
(11.56) и (11.57). Например, ua=XfeQn_pQ;_pXft = XfcRxft и RSS =
= Y'RY = t't = Y'Qn_pQ^_pY. Из соотношений ufk с = и (11.55)
мы должны иметь
К = ^-.
1 и
Из
P=U-xz=U~* 1QpY (=(X'X)-1X'Y)
и (11.59) получаем
₽с=и-^-и-ча;хД, G=p_(x'x)-ix'x/fe, с.
Наконец, из (11.60) имеем
RSS0 = RSS —hi = RSS—
= RSS—x^RYpft. 0.
11.9.2. Отбрасывание регрессора
Покажем теперь, как преобразования Гивенса можно исполь-
зовать для удаления из модели некоторого регрессора. Мы будем
игнорировать ро (т. е. использовать X) и считать для простоты
изложения р = 5.
332 Гл. 11. Методы вычислений для регрессионного анализа
Для удаления регрессора хь из модели, представленной мат-
рицей
мы просто опускаем последний столбец матрицы (J. Получаемое
при этом увеличение остаточной суммы квадратов равно z2. Если
мы хотим удалить еще и х3, то, отбрасывая третий столбец мат-
рицы U, получаем
«11 «12 «14 «15
0 «22 «24 «25
0 0 «34 «35
0 0 «44 «45
0 0 0 «55.
Применяя преобразования Гивенса к указанной выше матрице
(дополненной векторами г и t), можно обратить в нуль элементы
ы44 и ыбб> расположенные под диагональю, и привести таким
образом матрицу U* к верхней треугольной матрице порядка 4.
Такое приведение можно сопроводить преобразованием третьей и
четвертой, а также четвертой и пятой строк матрицы А, так что
матрица А примет при этом вид
«II «12 «13 «14 «15 Zl 0 и22 * «23 «24 «25 Z2 0 0 ' «33 «34 «35 *3 0 0 <3 0 <5 0 0 и'^ о 0 z" О t •
Если теперь игнорировать третий столбец полученной матрицы,
то вектор t „приобретет" дополнительный элемент z"6, а увеличе-
ние остаточной суммы квадратов из-за отбрасывания регрессора х3
будет равно (г3)2.
11.10. Проверка гипотез.
Предположим, что матрица X имеет размер пхр и ранг р и
что мы хотим проверить гипотезу Н: Ар = с, где А—матрица
размера qxp и ранга q. Статистика для соответствующего кри-
терия равна
и п—р RSS//“-RSS
Г q RSS ’
где
RSS„—RSS = (Ар —с)' [А (Х'Х)-* А']-* (Ар—с).
11.10. Проверка гипотез
333
Мы приведем сейчас предложенный Golub, Styan (1973) метод
вычисления разности RSSH—RSS. Прежде всего,
А (Х'Х)-1 А' = A (U'U)-i А' = AU-* (U~x)' А' = G'G,
где G = (ll-1)' А' — матрица размера qxp и ранга q. Пусть
G==Q(J) <1L62)
есть ортогональное разложение матрицы G, в котором Q — про-
изведение q преобразований Хаусхольдера, a Y—верхняя тре-
угольная (<7Х</)-матрица. Тогда G'G = V'V и
RSSH —RSS = (Ар—с)' (V'V)"1 (Ар—с) =
(Ар—с)' V-* (V-*)' (Ар—с) = h'h,
где h = (V_x)'(Ap—c) = (V-1)'g, g = Ap— с. Хотя Golub, Styan
(1973) об этом специально и не упоминают, мы видим, что
₽// = ₽ + (Х'Х)"1 А' [А (Х'Х) А']“х (с—Ар)
= U~xz —((J'U)“X A' (G'G)-Xg
= U-l(z-G(G'G)-xg). (11.63)
Эти алгебраические преобразования приводят к следующей про-
цедуре вычислений:
(1) Вычисляется вектор g = Ap—с, где р— решение уравнения
Up = z.
(2) Вычисляется матрица G. Для этого решается уравнение
U'G = A', где U'—нижняя треугольная матрица.
(3) Матрица G с помощью преобразований Хаусхольдера при-
водится к матрице V.
(4) Вычисляется вектор h. Для этого решается уравнение
V'h = g, где V' —нижняя треугольная матрица.
(5) Вычисляется значение
С(п—р) h'h
где t—вектор, получаемый одновременно с U и z.
(6) Дели требуется найти рн, то берется Q = (Qlt Q2), где Q,—
матрица размера' pxq. Тогда G = Q1V и рн можно найти (см.
(11.63)) из уравнения
GpH = z—Q1V(V'V)-xg = z—Q1(V')-xg = z—Qxh.
Если с = 0, то
RSSH—RSS = р'A' (G' G)~x Ар
= (U-Xz)' A' (G'G)-1 A (U~xz)
= z'G(G'G)-xG'z = z'Q1Q;z = z«zH,
334
Гл. 11. Методы вычислений для регрессионного анализа
где zH = Q[z. В силу
/q:
(G:z) =
V
О к.
разность RSSH—RSS можно вычислить, применяя q преобразо-
ваний Хаусхольдера из (11.62) одновременно к z и G и сумми-
руя затем квадраты первых q элементов преобразованного век-
тора z.
В заключение отметим, что указанные процедуры можно вы-
полнить и с использованием преобразований Гивенса. Для случая,
когда ранг матрицы X оказывается меньшим р, Golub, Styan (1973)
приводят два метода, позволяющие решить вопрос о возможности
проверки той или иной гипотезы. Там же приведена аналогичная
описанной выше процедура вычисления F-статистики для гипо-
тез, допускающих проверку.
11.11. Проверка лрограмм
В статье Longley (1967) приведен ряд методов, с помощью
которых пользователь может проверить точность заданной про-
граммы, реализующей метод наименьших квадратов. Упомянем
Вкратце некоторые из них: (1) сравнение получаемых средних
со средними, вычисленными вручную; (2) проверка равенства
суммы остатков 2 е/ нулю в пределах ошибки округления; (3)
прогонка программы с малыми значениями переменных х и
у и повторная ее прогонка с добавлением к обеим частям
слагаемых вида 100, 1000, 10000 с целью выявления границ при-
менимости программы; (4) сравнение регрессий для YU), Yl2) и
Y‘i> _]_ Y‘2’ с целью проверки аддитивности результатов; (5) исполь-
зование линейных комбинаций регрессоров, сохраняющих линей-
ную независимость (например, замена х, и х2 на x[ = xi-]-x2 и
х' = х^ —х2 и проверка с использованием того же самого Y равенств
Pi=Pi+P2 и |32 —PQ; (6) перетасовка столбцов матрицы X
и повторная прогонка задачи; (7) проверка нескольких уравне-
ний вручную. К этому списку можно добавить также такие спо-
собы: (8) проверка соотношения Х'е = 0; (9) использование двой-
ной точности при выполнении арифметических операций [Freund
(1963)].
Наиболее очевидным способом проверки точности программы
является прогонка программы с такой совокупностью данных,
для которой коэффициенты регрессии и некоторые статистики
критериев известны точно. Longley (1967) приводит совокупность
экономических данных с рядом замечательных свойств. К сожа-
лению, подходящие совокупности тестовых данных получить
трудно. Поэтому обычно удобнее генерировать данные (ср. с Warn-
11.11. Проверка программ
335
pier (1970, тестовые данные, порожденные с помощью полиномов),
Hastings (1972, методы построения тестовых данных)). В то же
время точность программы существенно ухудшается, если матрица
данных плохо обусловлена. Поэтому, чтобы проверить точность
программы с помощью такого метода при плохой обусловленно-
сти матрицы данных, пользователь должен взять такую матрицу
данных, которая столь же плохо обусловлена, как и матрица,
которую он хочет прогнать. В связи с этим представляется более
приемлемым проверять точность решения каждой отдельной за-
дачи, а не прогонять тестовые данные. Для проверки влияния
ошибки округления полезна следующая процедура, предложенная
Mullet, Murray (1971):
(1) Ищется регрессия Y на xit х2, ..., хр_%.
(2) Ищется регрессия Y-\-aXj (fl=/=0) на том же множестве
регрессоров.
(3) Этап (2) повторяется с другими значениями а и (по же-
ланию) .С ДРУГИМИ X/.
Очевидно, что оценки наименьших квадратов в (2) для всех
₽/ (i = 0, 1, ...,р-1) будут инвариантны относительно а, за
исключением оценки Ру, которая возрастает с ростом а. Инва-
риантными будут также вектор остатков е и RSS. Mullet, Mur-
ray (1971) применили свой метод к совокупности данных, взятых
из Huang (1970), и получили результаты, приведенные в табл. 11.1.
Таблица 11.1
Метод Mullet, Murray (1971) для проверки точности аппроксимации
регрессии, примененный к данным из Huang (1970)
Зависимая переменная fio A A A
Y 0.89734 0.67571 • 0.38889 0.36295
Y-Xi 0.89734 -0.32429 0.38890 0.36294
Y-x2 0.89735 0.67571 -0.61109 0.36294
Y—x3 0.89739 0.6757.1 0.38889 -0.63704
Оценки для ро, Р2 и рз согласуются в пределах четырех, а оценки
для Pj и RSS—в пределах пяти значащих цифр. Хотя исходные
данные обусловлены и не особенно плохо, тем не менее они ука-
зывают на тот факт, что получаемые с ЭВМ распечатки резуль-
татов, содержащие по восемь или даже более „значащих" цифр,
совсем не обязательно обеспечивают наблюдаемую при этом точ-
ность.
В заключение этого параграфа приведем формальное доказа-
тельство указанного выше свойства инвариантности.
336
Гл. 11. Методы вычислений для регрессионного анализа
Теорема Ц.1. Пусть Z, = Y, -|-axijt &[Z] = Ху и y = (X'X)“*X'Z.
Тогда
(i) у=0-|-аау, где ау—единичный вектор, у которого равны
нулю все элементы, кроме (/ + 1)-го, равного единице.
(ii) Z,—Zt = Y t—Y t.
Доказательство, (i) Мы имеем
(X'X)-‘X,X = If,
или
(Х'Х)~* X'[х0, xi.xp_1] = [rz0, аь .... otp-J.
Поэтому
(Х'Х)-*Х'х, = а/
и ,
у= (Х'Х)-* X' (¥ +ах,) = (Х'Х)-* X' Y +а (Х'Х)"* Х'х, = 0 +оа,.
(ii) В силу (i)
Zy—Zf — Y—%/= Y—XjXaxij) — Y /—Yj.
Упражнения к гл. 11
1. Докажите, что матрица К в соотношении (11.3) является нижней тре-
угольной матрицей, все диагональные элементы которой равны единице.
2. Докажите соотношение (11.4). (Указание: используя упр. 1, покажите,
что для соответствующего к
(К OWB с \ /V d\
Ik' 1Лс' Y'Y/ \0' //’
где К—нижняя треугольная матрица с единицами на диагонали.)
3. Если U'U — разложение Холецкого матрицы Х'Х, то
р
| Х‘Х| = Ц uh.
i = l
4. Предположим, что Т'Т—разложение Холецкого для расширенной системы
(X:Y)'(X:Y)=(™
и пусть
где U—верхняя треугольная матрица.
а) Покажите, что ^ — решение уравнения Ux = z,
Ь) Докажите, что 6= У RSS,
Упражнения к гл. 11
337
5. Покажите, как в случае р = 3 решить уравнение (11.10) относительно
в-1.
6. Покажите, что при применении метода (11.23) из разд. 11.2.4 вместо
матрицы X к матрице (X:Y) дополнительный элемент матрицы Dj равен RSS.
7. Покажите, что при использовании в $ 11.3 матрицы (X-.Y) вместо мат-
рицы X дополнительный элемент матрицы Ь2 равен остаточной сумме квадра-
тов для модели взвешенного метода наименьших квадратов.
8. Найдите р и RSS для модели Y=Xp-|-e, где
(X:Y) =
1 2:1
1 1:2
1 0:3
1 1:4.
ирпользуя
а) преобразования Хаусхольдера,
Ь) формулы p = (X'X)~*X'Y и RSS=||Y—Хр||2.
9. Вычислите выборочную дисперсию значений 3001, 3002 и 3003, исполь-
зуя формулы
а) s24Z<x<-
I
ь)
п
I
Какой ответ вы бы дали, используя (Ь), если бы вычисления производились
на ЭВМ, работающей только с семью значащими цифрами?
10. Используя преобразования Гивенса, добавьте к матрице
1
1
0
[1 2:1].
1
2
1.
строку данных
11. Пусть а — некоторый вектор размера рХ1. Рассмотрим разбиение
а'П =(аь а2),
где aj—вектор размера 1Хг, а П—(ортогональная) матрица перестановок,
определенная в разд. 11.5.3. Докажите, что линейная комбинация а'₽ оцени-
ваема в том и только в том случае, когда
aiUn1Ui2 = a2.
(Указание: докажите, что а'₽ допускает оценку тогда и только тогда, когда
а'Х*Х=а'. Указанное соотношение служит основой вычислительного метода
проверки оцениваемости.) (Golub, Styan (1973, с. 269).]
12 Покажите, что вместо совокупности (11.33) в разд. 11.3.4 для вычис-
лений можно использовать следующую совокупность формул: выражения для
d', s и v'm остаются теми же, формула для с отбрасывается, 6' —db/d', ит=
— um-j-svm- (Такое выражение для ит, предложенное Голабом, может приве-
рти к неустойчивости вычислений.) [Gentleman (1973, с. 332].]
338 Гл. 11. Методы вычислений для регрессионного анализа
13. Пусть Sn=2"=i*i« тп—^п!п, vn=^1=1 (Xi—mn). Выведите следую-
щие формулы:
а) тп—{(п — l)m„_f+x„}/n,
оп=оп-1 + (я—l)fe—
b) S„ = Sn_i+*n,
oB=fn-i + (n*n—5„)2/[л(л—1)1,
где то = ив=О.
Обобщая (Ь), получите метод вычисления сумма 2"=i
[Youngs, Gramer (1971).]
14. Проверьте соотношение (11.38). (Указание: покажите, что матрица Х+
удовлетворяет четырем условиям разд. 3.8.1 с.)
Глава 12
ВЫБОР «НАИЛУЧШЕЙ»
РЕГРЕССИИ
12.1. Введение
Одна из основных задач регрессионного анализа состоит в ре-
шении вопроса о том, какие именно регрессоры или предиктор-
ные переменные следует включить в модель. Пусть xlt х2, ..., хк—
полный набор всех возможных регрессоров, содержащий такие
функции, как квадраты, смешанные произведения, а также все
другие функции, которые кажутся подходящими. Для выбора
некоторого подмножества из этой полной совокупности регрессо-
ров имеются два противоположных по характеру критерия. С одной
стороны, если мы хотим, пользуясь подобранной моделью, полу-
чать надежные прогнозы, то в модель следует включать по воз-
можности наибольшее число регрессоров. С другой стороны, имея
в виду затраты, связанные с получением информации при боль-
шом числе регрессоров, в уравнение желательно включать как
можно меньше регрессоров. Кроме того, с увеличением числа
регрессоров возрастает дисперсия прогноза (§ 5.4). Подходящим
компромиссом между этими двумя крайностями является про-
цедура, называемая обычно „выбором наилучшего подмножества"
или „выбором наилучшего уравнения регрессии". Однако термин
„наилучшее" здесь, конечно, субъективен. Нет никакой единой
статистической процедуры для выбора соответствующего подмно-
жества, и во всех статистических методах, описанных в этой главе,
предполагается, что необходимо субъективное решение. Например,
если какие-то два регрессора сильно коррелированы с К и друг
с другом, то часто бывает достаточно включения в модель только
одного из них. При этом дополнительным вкладом от включения
второго регрессора часто можно пренебречь. Выбор для включе-
ния в модель того или иного из двух регрессоров может опре-
деляться, например, тем, какую из этих переменных проще или
дешевле измерять.
12.2. Построение всех возможных регрессий
Если мы предположим для простоты изложения, что 0О вклю-
чается в модель всегда (хотя это и не обязательно), то очевидный
подход к получению „наилучшего подмножества" состоит в под-
340
Гл. 12. Выбор «наилучшей» регрессии
боре всех возможных уравнений регрессии, которые можно полу-
чить, выбирая по 0, 1, 2, ..., А регрессоров из совокупности
Xi, х2, ..., хк. Поскольку для каждого регрессора мы имеем
только две возможности: он либо включается в уравнение, либо
не включается в него, то всего имеется 2* возможных уравнений
регрессии. Если значение К велико, мы сталкиваемся с необхо-
димостью сравнения очень большого количества уравнений (на-
пример, при К— 10 имеем 210= 1024 уравнения). Поэтому, во-
первых, нам необходим - эффективный алгоритм для получения
всех возможных уравнений и, во-вторых, нужна достаточно просто
вычисляемая мера для сравнения прогностической пригодности
различных моделей. Описанные в разд. 12.2.2 алгоритмы обычно
оказываются удовлетворительными для значений К вплоть до 10,
а возможно, даже и до 15.
12.2.1. Порядок построения
Систематизированная процедура Построения всех возможных
регрессий приведена в работах Garside (1965, 1971) и Schatzoff
и др. (1968). В первой работе для простоты описания каждая
регрессия представлена Л-значным двоичным числом. Например,
если К = 4, то двоичное слово 1010 представляет модель Е [У] =
— ₽o + 0ixi + Psxs- Так как мы обычно переходим от модели к мо-
дели, добавляя или отбрасывая каждый раз только по одному
регрессору, то нужна такая последовательная процедура, которая,
начиная с 00.. .0 (т. е. с модели Е[Е] = ро), эффективно строила
бы все 2К—1 ненулевых Л-значных двоичных чисел и при этцм
на каждом шаге изменялся бы только один двоичный знак. Эффек-
тивной будет такая процедура, которая не порождает одну и ту
же модель регрессии дважды. Например, если К = 3, то такой
процедурой будет совокупность переходов 000—100—ПО—010—
——011 —111—101—001. Поскольку каждое К-значное двоичное
число можно интерпретировать как совокупность координат одной
из вершин /(-мерного единичного гиперкуба, то отыскание эффек-
тивной процедуры равносильно отысканию пути, проходящего по
ребрам этого гиперкуба и попадающего в каждую вершину ровно
по одному разу (такой путь называют гамильтоновым блужда-
нием). Ясно, что такой путь определяется не единственным обра-
зом. Например, в случае К = 3 мы можем начать с вершин 100,
010, 001 или, выбрав какой нибудь путь, изменить нумерацию
регрессоров. В то же время процесс получения искомого пути
может быть довольно легко описан: используя знаки -|- и — для
указания на включение или исключение регрессоров, мы прихо-
дим к следующим последовательностям:
12.2. Построение всех возможных регрессий
341
К Последовательность (^\)
1 +1
2 +1+2-1
3 +1 +2 -1 +3 +1 -2 -1
4 ^+1 +2-1 +3 +1—2—1^ +4^+1 +2 —1 -3 +1 —2 -1,
t S,-i, +t, T,-i
Здесь SK=(SK_i, A, 7^_t) (K = 2, 3, .... /; Si=l), где после-
довательность 7\ отличается, от знаком и обратным порядком
элементов. Для случая /( = 4 см. также табл. 12.4 в разд. 12.2.3 с.
Применяются, однако, и другие упорядочения. Например,
Furnival (1971), сосредоточивший внимание на эффективном по-
лучении остаточных сумм квадратов для каждого подмножества
регрессий (RSS служит основной статистикой при сравнении раз-
личных регрессий, см. разд. 12.2.3), использует двоичный поря-
док =
001—010—011 — 100—101 — 110—111,
т. е.
(1)—(2)—(12)—(3)—(13)—(23)—(123).
Такой ^<е порядок используется, например, при определении
главных эффектов и взаимодействий для факторных планов типа 2".
Furnival, Wilson (1974) приводят ряд других, соответствующих
их алгоритмам упорядочений.
12.2.2. Метод построения
(а) Выметание
Говорят, что (т х т)-матрица А = [(а,7)] выметена по Л-й строке
и &-му столбцу (или по ft-му ведущему элементу1)), если она
преобразована к матрице А*=[(«</)], у которой [Beaton (1964)]
a*kk = — > 0 #= ft)»
akk akk
, akj • aikak/
(/ =/= ^)» aU — aij (*»/¥= ^)-
д) В оригинале ,,A:th pivotal element". Как видно из приведенного опре-
деления, Cfefe не должно равняться нулю, так что —это Ai-й диагональный
элемент, и притом отличный от нуля, т. е. „ведущий" элемент в терминологии
метода исключения Гаусса. См. также пояснение к переводу некоторых терми-
нов в книге Бард (1979*, с. 337).— Прим, перев, и ред.
342
Гл. 12. Выбор «наилучшей» регрессии
Например, при k— 1 имеем
Schatzoff и др. (1968) указывают, что оператор выметания обла-
дает следующими полезными свойствами:
(1) Оператор выметания обратим, так что двукратное приме-
нение выметания по одному и тому же (конечно, в смысле но-
мера.— Перев.) ведущему элементу матрицы равносильно непри-
менению этого оператора1).
(2) Выметание коммутативно, так что выметание, производи-
мое сначала по fe-му, а затем по /-му ведущему элементу, равно-
сильно выполнению пары таких выметаний в обратном порядке.
Используем обозначения разд. 11.7.1, и пусть при этом X —
(центрированная) матрица данных для всей совокупности регрес-
соров. Если расширенную матрицу
A=fx'x ’X'y) (12Л)
\Y'X Y'Y/ )1
вымести по первым ее К ведущим элементам, то при условии,
что матрица (Х'Х)-1 существует, получим
f (Х'Х)"1 (Х'Х)~’х'¥
[ - Y'X(X'X)" ‘ Y'Y- Y'X(X'X)" ’x'Y
. _ -I i
(Х'Х) b ,
-b' RSS.
где b'= (!?,, p2, ..., $к). Вообще, производя выметание матрицы А
по любому подмножеству совокупности первых ее К ведущих
элементов, мы получаем матрицу (Х'Х)-1, вектор b и RSS,
соответствующие регрессии Р на этом подмножестве регрессоров
Обычно это свойство называется инволютивностью,— Прим. ред.
12.2. Построение всех, возможных регрессий
343
х (или, что равносильно, регрессии Y на соответствующем под-
множестве регрессоров х, допускающей наличие постоянной со-
ставляющей ро). Например, если производится выметание по
первым i ведущим элементам то эти матрица, вектор
и RSS находятся соответственно как главная (соответствующая
главному минору.— Перев.) матрица размера ixt, вектор, обра-
зованный первыми i элементами последнего столбца, и нижний
диагональный элемент полученной в результате выметания мат-
рицы. Кроме того, в силу обратимости и коммутативности выме-
тания выполнение выметания по некоторому ведущему элементу
матрицы А приводит либо к включению в модель соответствую-
щего этому ведущему элементу регрессора, либо к исключению
этого регрессора из модели, если он в ней уже присутствовал.
В этом случае мы можем не обращать внимания на знаки в опи-
сании гамильтонова блуждания из предыдущего раздела, так
что SA = (SA-_1, К, Sk-J (Si= 1).
Метод выметания можно применить также к матрице
a.==('R^ Y), (12.2)
\ГхУ 1 J
где Rxx—корреляционная матрица для К регрессоров, а гхУ-~
вектор корреляций этих К регрессоров с ¥ (см. разд. 11.7.2
с р=К-Ь !)• В этом случае соответствующей В матрицей будет
/ Rxx1 а \
1 = V-a' 1—RV’
где a=Rxx1rAF, a R—обычный множественный коэффициент кор-
реляции. И опять выметание матрицы Аг по произвольному под-
множеству ее первых /С ведущих элементов дает нам матрицу
R7X, вектор а и величину 1 —R2, соответствующие регрессии Y
на этом подмножестве регрессоров. Предположим, в частности,
что выметены первые i ведущих элементов матрицы Ах (t < К).
Тогда главная (i1) х (i-J- 1)-матрица имеет ту же форму, что
и Вх, только роль Y играет уже xi+i. Это означает, что (1-}-1)-й
ведущий элемент этой главной матрицы равен значению 1—R2,
соответствующему регрессии x/+i на xit х2, ..., xit которое мы
обозначим 1—2...........t- Аналогично, если мы рассмотрим
главную (1Х1)-матрицу, дополненную j-й строкой и j-м столбцом
(i<j=CA), то используя те же самые рассуждения, получим,
что j-й ведущий элемент при этом равен 1 — R/: 2,Таким
образом, если мы хотим добавить в модель еще одну переменную
Xj, которая сильно коррелирована с линейной комбинацией i
регрессоров, уже включенных в модель, то значение R]- i, 2,... £
будет близко к 1 и j-й ведущий элемент будет мал. Поскольку
344
Гл. 12. Выбор «наилучшей» регрессии
же нам нужна величина, обратная этому ведущему элементу, то
при его чрезмерной малости мы столкнемся с вычислительными
трудностями Поэтому регрессор xf рекомендуется не включать
в модель, если величина указанного /-го ведущего элемента ока-
зывается меньше некоторого допустимого значения.
Впервые метод выметания к пошаговой регрессии применил,
по-видимому, Efroymson (1960), правда, в несколько ином виде.
Garside (1965) предложил использовать его совместно со своим
алгоритмом для построения гамильтонова блуждания. Поскольку
с точностью до знаков матрица А* симметрична, достаточно ра-
ботать только с верхней треугольной матрицей, что сокращает
наполовину объем вычислений и требуемую память [Breaux (1968),
Schatzoff и др. (1968)]. Метод выметания, сохраняющий симмет-
рию, описан ниже. Несколько алгоритмов для уменьшения числа
выметаний указали Schatzoff и др. (1968), Furnival (1971), Mor-
gan, Tatar (1972). Schatzoff и др. (1968) использовали тот факт,
что выметания на каждом шаге всей матрицы А не требуется;
выметание применяется только к некоторой минимальной под-
матрице. Furnival (1971) производит дальнейшее сокращение
вычислений, предлагая запоминать К дополнительных подмат-
риц, так что при этом ни один из ведущих элементов в под-
матрице не выметается более одного раза. Как уже отмечалось
в разд. 12.2.1, в его алгоритме для определения последователь-
ности регрессий используется упорядочение, отличное от гамиль-
тонова блуждания. Morgan, Tatar (1972) используют метод в духе
первой из упомянутых работ; только выметание модифицируется
у них таким образом, что на каждом шаге подсчитывается лишь
остаточная сумма квадратов (а не коэффициенты регрессии) и,
кроме того, учитывается симметрия матрицы А. Основной опе-
ратор, используемый в этом методе „симметричного" выметания,
описан ниже.
Newton, Spurrell (1967а, b) предложили другой подход к этой
задаче. Они ввели некоторые величины, называемые элементами,
и с их помощью описывали совокупность всех 2К сумм квад-
ратов (Y'Y—RSS).
(b) Симметричное выметание
Метод выметания является, по существу, адаптацией метода
исключения Гаусса—Жордана для обращения матрицы на ее
месте. Однако, поскольку матрицы Х'Х и RXJC симметричны,
в действительности необходимо работать только с верхними тре-
угольными матрицами. Симметрию матрицы А можно сохранить,
изменяя знак ведущего элемента [Stiefel (1963, с. 65), Beale
и др. (1967, с. 359), Garside (1971), Beale (1974)], так что при
12.2. Построение всех возможных регрессий
345
включении регрессора хк имеем
&ik— ®ki— G
aii=a,ji = aiJ+aiha''kl (i,j=£k),
а при его исключении
&ik — G-ki— G =/= ^)>
«<7 = aP = a./ — aikaki (i, i^k).
Если мы применим этот алгоритм к М первым ведущим элемен-
там матрицы Ах (т. е. включим в модель все регрессоры) и будем
работать только с верхней треугольной матрицей в Ах, то полу-
чим верхнюю треугольную матрицу
СП с12 • • • С1К -«I '
♦ С22 « • • С2К ~а2
• • • • • •
* * СХК
* ♦ 1-Л?
где С=[(су|)] =— Rxx1, а а—наш обычный вектор шкалирован-
ных коэффициентов регрессии (разд. 11.7.2).
Другой метод симметричного выметания описывают Morgan,
Tatar (1972). Они прежде всего определяют (7(4- 1)х 1 -вектор
t = [(/,•)], элементы которого первоначально полагаются равными
-J- 1, а также определяют кубическую матрицу т = [(т,7Л)] раз-
мера (К 4- 1) X (К + 1) X (К +1). Элементы матрицы т находятся
следующим образом: T,/fc = — 1, если tt — tj = tk, и T(/ft==-|-l
в противном случае. (В памяти хранится не сама матрица т,
а правило вычисления ее элементов.) Теперь, если хк — ведущая
переменная, т. е. хк включается в регрессию или исключается
из нее, то мы сначала изменяем знак у tk и затем производим
следующие вычисления:
akk — ~— >
akk
O-lk~ 4kl~ t i^ik^kk
—W. A/Qw G. / ¥= k).
И опять в силу симметрии нам достаточно работать только
с верхней треугольной частью матрицы А. Вектор t фиксирует
положение каждого регрессора, т. е>. отмечает, включен или не
346
Гл. 12. Выбор «наилучшей» регрессии
включен соответствующий регрессор в уравнение регрессии.
Отрицательное значение tt указывает, что xt включен в регрессию.
В заключение отметим, что оба описанных в этом разделе
оператора (симметричного) выметания обладают теми же свойст-
вами обратимости, что и метод обычного (несимметричного) вы-
метания из предыдущего раздела.
(с) Метод Фёрнивала
Метод исключения Гаусса, приведенный Фёрнивалом [Furni-
val (1971); см. также Furnivall, Wilson (1974)], лучше всего
описывается с помощью .дерева регрессий" (рис. 12.1). Оператор
исключения Гаусса применяется к каждому ведущему элементу
в том порядке, который указан этим двоичным деревом. Корень
этого дерева (на рис. 12.1 он сверху) соответствует полной мат-
Рис. 12.1, Дерево регрессий.
рице (12.1), а каждый внутренний узел—подматрице, получае-
мой из родительской матрицы последовательным выбором веду-
щих элементов (сплошные линии) и вычеркиваниями (пунктирные
линии). Таким образом, начиная с корня дерева, матрица А
„расщепляется" на две новые подматрицы, одна из которых полу-
чается использованием в качестве ведущего первого регрессора,
а другая —вычеркиванием строки и столбца, соответствующих
этой переменной. Процесс „расщепления" продолжается до тех
пор, пока каждая из переменных не будет однажды сделана ве-
дущей или не будет вычеркнута. В итоге каждый концевой узел
будет представлять одну из 2К регрессий, включая и „нулевую"
(£[У] = Р0). Эту процедуру легко описать, используя для обо-
значений точки, как это делалось при рассмотрении частных
коэффициентов корреляции. Целые числа, предшествующие точке,
12.2. Построение всех возможных регрессий
347
являются индексами тех регрессоров в данной подматрице, кото-
рые еще не были ведущими, а индексы, расположенные после
точки, соответствуют тем регрессорам, которые уже были веду-
щими. Например, подматрица 3.1 получается из матрицы А вы-
делением регрессора хг в качестве ведущего и вычеркиванием х2.
Кратко говоря; процедура Фёрнивала состоит в применении
метода исключения Гаусса к верхней половине подматрицы,
причем только к определенным строкам и столбцам. После вы-
полнения выделения ведущего элемента (т. е. процедуры исклю-
чения Гаусса) нижний диагональный элемент дает соответствую-
щее значение RSS.
Дерево регрессий, изображенное на рис. 12.1, можно обхо-
дить в любом „биологически возможном" порядке. Единственное
ограничение состоит в том, что отец должен быть „рожден"
раньше своего сына. Используя для обхода дерева горизонталь-
ную, вертикальную и смешанную технику поиска, Фёрнивал
получает ряд различных последовательностей регрессий. Под-
робности читатель может найти в статьях Фёрнивала.
(d) Преобразования Хаусхольдера и Гивенса
Все .рассмотренные до сих пор методы требовали вычисления
матриц Х'Х или R^. В то же время из-за возможной плохой
обусловленности этих матриц лучше избегать их формирования
и работать непосредственно с матрицами X или W, где W'W — Rxx.
Это можно сделать, используя методы § 11.9. Введение регрес-
сора в модель производится с помощью преобразования Хаус-
хольдера, а выведение его из модели—с помощью преобразова-
ния Гивенса. Чтобы лучше уяснить эту процедуру, рассмотрим
следующую последовательность моделей: (xj, (xt, %2), (%2), (х2, ха).
Для введения в модель регрессора xt используем преобразо-
вание Хаусхольдера
«п ! «и •
Q'i(X:Y) =
О
2<*>
и\К 21
/<1)
и2К. *2
О •••
Для этой модели «нЬЦ’= г’/’ и
RSS= (/Н2+ ... +(/’1))2= Y' Y -(г"’)8.
348
Гл. 12. Выбор «наилучшей» регрессии
С помощью еще одного преобразования
в модель хг:
Хаусхольдера
введем
„(2) ип и® „(2) «13 ,,(2) и1К 4’
0 и® „(2) «23 „(2) и2К гР
QiQ',(X:Y)= 0 0 „(2) «33 „(2) «ЗК 'Р
• • -
0 0 ,.(2) «лЗ ... „(2) «лК 42).
(При этом некоторые из элементов остаются без изменений, на-
пример ыр = ыр для /=1,2, ...,/(.) Для этой модели
«pbp + «g»fep = zp,
,,<2)Д(г> _ ,<2>
И
RSS — Y Y —(гр)2—(гр)2.
Для выведения из модели х± используем преобразование Гивенса,
которое преобразует первую и вторую строки и обращает
в нуль, а именно
„(3) «п ,.(3) «12 „(3) «13 ... ,.(3) и1К *р
,,(3) «21 0 «р ... ,.<3) и2К /Р
Q1Q1Q',(X:Y) = 0 0 «р ... ,.(3) изк *Р
с •
0 0 «р ... ,/3) ипК
(игнорируя первый стол-
Для этой модели имеем == гР и
бен полученной матрицы)
RSS = Y Y —(гр)2.
Наконец, добавляя с помощью преобразования Хаусхольдера
регрессор ха, получаем модель
«и «Р „(4) «13 „(4) ... «14 «IX /4)
,.С4) «21 0 „(4) «23 „(4) «24 „(4) и2К zP
,,(4) «31 0 0 ./4> . . • «34 иЗК /Р
• • • •
„(4) «Л1 0 0 И(4) . . . **л4 «лК
12.2. Построение всех возможных регрессий
349
Коэффициенты регрессии в этой модели удовлетворяют уравнениям
«Ж’ = 44>
и
RSS= Y Y —(44’)4 — (44))8.
Вообще, если в модель введены k регрессоров, то регрессион-
ная сумма квадратов равна сумме квадратов первых k преобра-
зованных элементов вектора Y.
12.2.3. Сравнение разных уравнений
После того как все 2К уравнений регрессии получены, надо
выбрать те из них, которые являются достаточно хорошими
с точки зрения прогноза. При этом нам нужен метод, с помощью
которого можно было бы сравнивать не только уравнения с оди-
наковым числом регрессоров, но и уравнения, мало похожие
друг на друга как в отношении числа, так и в отношении вы-
бора регрессоров. Для этой цели употребляются различные методы
сравнения, и мы их сейчас подробно рассмотрим.
(а) Коэффициент детерминации R2
Раньше в качестве меры согласия модели регрессии с имею-
щимися данными широко использовался коэффициент детерми-
нации = i—^)4> т. е. квадрат множественного
коэффициента корреляции. Его использование иллюстрируют
Draper, Smith (1966, гл. 6) для К=4 на примере данных, взя-
тых из Hald (1952, с. 550). Соответствующая процедура такова:
(1) Все регрессии разбиваются на пять классов. Класс А
образован моделью Е [К] = ро. Класс В состоит из четырех моде-
лей с одной переменной
£[И = ₽о+0Л-
Класс С состоит из всех моделей с двумя переменными
Е [У] = р0 4- Р/Рх,- 4- руЛу;
класс D состоит из всех моделей с тремя переменными;
класс Е состоит из единственной модели со всеми четырьмя
переменными.
(2) Внутри каждого класса модели упорядочиваются в соот-
ветствии с величиной R2.
(3) В каждом классе берутся главные уравнения (т. е. урав-
нения с максимальным R2) и выясняется, нет ли в порядке
появления регрессоров какой-либо закономерности.
350
Гл. 12. Выбор «ноилучшей» регрессии
Результаты применения этой процедуры к данным, взятым из
Hald (1952), приводят к совокупности главных уравнений, пред-
ставленной в табл. 12.1. Draper, Smith (1966) считают, что воз-
Таблица 12.1
Подмножества регрессий с максимальными
значениями R2
Класс Подмножество 100Л2
В (х4) 67.5
(*2> 66.6
С (х„х2) 97.9
(Х|,Х4) 97.2
D (xj,x2,x4) 98.234
Е (х1,х2,хз,х4) 98.237
Источник: взято с изменениями из Draper, Smith
(1966, с. 174).
растание величины R2 при переходе от класса С к классу D
мало, и поэтому, если в модель уже включены и х2 или xt и
х4, то заметного выигрыша от дополнительного введения в модель
других регрессоров мы не получим. При этом, хотя значение R2
для модели (х,, х2) несколько выше, чем для (хп х4), вторую
модель можно рассматривать как более подходящую, поскольку
х4 дает наилучшее уравнение с одним переменным. Однако раз-
ница между этими двумя моделями невелика.
Рассматривая матрицу выборочных коэффициентов корреляции
1 Л
приведенную в табл. 12.2, мы видим, что изменения R2, наблю-
даемые в табл. 12.1, можно объяснить высокой корреляцией
регрессоров х4 и хй и особенно х2 и х4.
Таблица 12.2
Матрица выборочных коэффициентов корреляции для данных Хальда
Х1 хг х3 *4 Y
*1 1.0
0.23 1.0
х3 -0.82 -0.14 1.0
ха -0.24 -0.97 0.03 1.0
Y 0.73 0.82 -0.53 -0.82 1.0
Источник: Gorman, Toman (1966).
12.2. Построение всех возможных регрессий
351
Приведенное рассмотрение поднимает вопрос о том, когда то
или иное значение R2 следует считать удовлетворительным.
Например, какой из классов С и D следует выбрать, исходя из
данных табл. 12.1? Вполне возможно, что считать „удовлетвори-
тельными" следовало бы оба эти класса. Aitkin (1974) решает
эту задачу, строя процедуру одновременной проверки, посред-
ством которой можно одновременно определить все подмноже-
ства, для которых отличие R2 от значения R2 для полной мо-
дели (7?к+1) не является значимым. Сейчас мы кратко изложим
этот метод.
Предположим, что мы исследуем согласие с имеющимися дан-
ными некоторой подмодели регрессии <£[Y] — Xs₽s, получаемой
из полной модели Х0 приравниванием нулю произвольных (кроме 0О)
г элементов (г=1,2, ...,/<) вектора р, т. е. 0Г = О. Если мат-
рица X имеет размер их (ТС+1) и ранг /С +1, а матрица Xs
имеет размер пх(К+ 1 —г) и ранг s = /C4- 1 —г, то F-статистика
для проверки гипотезы ₽г = 0 удовлетворяет соотношению (тео-
рема 4.3 из § 4.2)
rF = Rk+i — Rs I] (хг \
Мы обеспечим доверительный уровень а. при одновременной про-
верке всех гипотез Рг = 0 при любых наборах 0Г, если не будем
отвергать эти гипотезы при
£/(Х,)<С“к,
гдеС“к — верхняя 100а-процентная точка распределения (при
нулевой гипотезе) статистики
V = max U (Х4);
Xi
здесь максимум берется по Всем (непустым) возможным набо-
рам Xs. Но этот максимум достигается при г = К, и тогда Xs
состоит только из первого столбца матрицы X. В таком случае
7?s = 0. Поэтому
U =________Rk+i______
(i-RK+iVin—K-l)'
И если все гипотезы 0Л = О верны одновременно, то 0j = p.,= ...'
...=0^=0, и U /К имеет распределение FA->n_K_1(§4.2 ср=/С-|-1).
Поэтому
и совместный критерий не отвергает конкретную гипотезу ₽,=0
при произвольном выборе 0Л, если
Rk+1 — RI к ра
(\-RK+i)/(n-K~l)< Кп-К-ь
352
Гл. 12. Выбор «наилучшей» регрессии
т. е. если
где
Rl > R$= 1 -(1 -R2K+l) (1 +< к).
(12.3)
ja КГк.п-K-i
ап.К— п—К_[
Эйткин (Aitkin) называет всякое подмножество регрессоров (пред-
ставляемое матрицей X,), удовлетворяющее неравенству (12.3),
R^-адекватным (а) набором. Снова обращаясь к данным Хальда,
имеем и=13, К = 4, R2K^ = 0.982376. Если взять а = 0.05, то
1—0.017624
(л р0.05 \
1 +^- j = 0.948538.
Подмножества, которые оказываются при этом /?2-адекватными,
помечены звездочками в табл. 12.3. Мы видим, таким образом,
Таблица 12.3
Значения 100 У?2 для различных подмножеств регрессий
(1) 53.4 (2) 66.6 (3) 28.6 (4) 67.5 (1,2) 97.9* (1,3) 54.8 (1,4) 97.2*
(2,3). (2,4) (3,4) (1,2,3) (1,2,4) (1,3,4) (2,3,4)
84.7 68.0 93.5 98.2* 98.2* 98.1* 97.3*
Источник: Aitkin (1974, с. 223).
8 — адекватные (0.05) множества.
что классы С и D из табл. 12.1 7?2-адекватны (0.05), так что
задача выбора только одного из них так и не решена. В то же
время мы теперь по крайней мере знаем, что в рамках указан-
ного критерия „адекватности" эти классы сравнимы. Идеи адек-
ватности также коснулись Сох, Snell (1974, с. 53), когда говорили
о „примитивных" подмножествах.
Если К велико, то перебор всех 2К значений коэффициента R2
(включая и 7?к+1) может оказаться затруднительным. Эйткин
указывает, что во многих случаях достаточно перебирать значе-
,ния коэффициента R2 только для минимальных адекватных на-
боров, т. е. для тех /?2-адекватных наборов, которые нельзя со-
кратить (отбрасывая из них те или иные регрессоры) так, чтобы
после сокращения опять получился /?2-адекватный набор регрес-
соров из Х^. Например, в табл. 12.3 минимальными адекватными
наборами являются (1, 2), (1,4) и (2, 3, 4).
Как и при любых процедурах одновременной проверки,
с уменьшением числа оставляемых в модели регрессоров указан-
ный критерий проверки подгипотез становится все более осторож-
12.2. Построение всех возможных регрессий
353
ным. Эйткин ссылается на то, что истинный размер каждого кон-
кретного критерия для некоторой подгипотезы можно найти путем
интерполяции таблиц /’-распределения или таблиц неполной бета-
функции.
Приведенная процедура сохраняется и при случайных регрес-
сорах. Рассматривая все величины как условные при наблюден-
ных значениях регрессоров, мы получаем тестовую статистику,
распределение которой при нулевой гипотезе (^-распределение)
не зависит от X. Поэтому и размер а совместного критерия не
зависит от X.
Другой метод множественного сравнения для сопоставления
регрессий приводит Spjotvoll (1972с).
(Ь) Скорректированный коэффициент детерминации
Поскольку 1—R2 = RSS/2(V,—Y)2, максймизация R2 равно-
сильна минимизации остаточной суммы квадратов RSS. В этом
смысле R2 можно рассматривать как меру согласия. Однако, как
отмечал Фёрнивал [Barrett (1974)], если значение RSS поддер-
живается постоянным, то с ростом крутизны поверхности регрес-
сии будет возрастать и сумма а значит, увеличится
и R2. Поэтому при анализе двух различных совокупностей дан-
ных может возникать такое положение, когда Одна из регрессий
имеет менЪшую RSS и в то же время имеет и меньшее значение R2
из-за того, что соответствующая поверхность регрессии не столь
крута. Однако в нашем случае мы используем для различных
моделей регрессии одну и ту же совокупность данных, так что
величина —^)2 одинакова для каждой из регрессий. Это
означает, что мы можем использовать коэффициент R2 в качестве
относительной (но не абсолютной) меры согласия.
Однако даже если R2 используется только как относительная
мера, то и тогда, как мы уже видели в табл. 12.3, возникают
определенные трудности при сравнении регрессий с различным
числом регрессоров. Поскольку введение дополнительного регрес-
сора приводит к увеличению R2 (см. комментарий после теоре-
мы 4.3), то вопрос скорее заключается не в отыскании подмно-
жества с максимальным R2 (которое в любом случае является
совокупностью всех /( регрессоров), а в отыскании подходящего
подмножества с большим значением R2.
Для преодоления некоторых из указанных трудностей была
предложена модификация коэффициента R2, называемая „выве-
ренной" или „скорректированной" статистикой R2 [Ezekiel (1930)].
Эта статистика имеет вид
^=1_[1_^][_Л_], (12.4)
12 №571
354
Гл. 12. Выбор «наилучшей» регрессии
где р—число параметров (т. е. число регрессоров плюс единица
из-за ро) уравнения. Заметим, что если р велико в сравнении
с п, то Rp может принять отрицательное значение. Чтобы понять,
как влияет на величину У?2 введение дополнительных регрессо-
ров, рассмотрим F-статистику (теорема 4.3, § 4.2)
р Rp+g—Rp п—Р—Q
Используя (12.4), получаем, что
«я.-i-n
в том и только том случае, когда F~^A. Это означает, что воз-
растание значения R2 при добавлении одного или более регрес-
соров будет наблюдаться, только если F > 1. Аналогичные резуль-
таты получили Haitovsky (1969) и Edwards (1969). На основании
изложенного имеем, что одним из критериев выбора наилучшей
регрессии является выбор подмножества, максимизирующего R2P
[Haitovsky (1969)]. В то же время статистика R2P связана с дру-
гой хорошо известной статистикой, которую мы сейчас и рассмот-
рим.
(с) Ср-статистика Мэлоуса
Как и прежде, будем использовать подстрочный индекс р для
обозначения того, что рассматривается модель с р параметрами
(т. е. модель, включающая 0О и р—1 других коэффициентов 0).
Таким образом, Хр обозначает пхр-матрицу данных ранга р, а
аппроксимирующая подмодель регрессии в точке х' = (1, хи х2,...
...,хд) представляется в виде
¥р =Ро +Рл “)•••. 4“ Pp-i^p-i= ^рРр>
где Хр=(1, х„ ...,хр_1). Если г]р = £[Ур], то Чр будет обычно
отличаться от хрРр из-за возможного смещения модели с р пара-
метрами. Поэтому, если мы используем Yp для предсказания
значения Е[У] = 6, где Y—(неизвестный) отклик в точке х, оп-
ределенной выше, то среднеквадратичная ошибка оценки Yр равна
Е [(Ур-6)2] = var [Ур] + (Пр-6)2
=о2Хр(х;х/,)-1хл,+(Пр—0)2. (12.5)
12.2. Построение всех возможных регрессий
355
Это наводит на мысль о том, что один из критериев выбора
наилучшего подмножества может состоять в отыскании такого
подмножества, которое минимизирует (12.5) для заданных буду-
щих значений х [Allen] (1971а)]. В то же время, если нас инте-
ресует не одно, а большее число будущих значений х, то при
этом для различных х следует скорее всего рекомендовать разные
подмножества. Как отмечал Hocking (1972), по-видимому, более
уместно использовать сумму или среднее (в том или ином смысле)
будущих наблюдений, заслуживающих интереса. Поскольку для
предсказания безопасна только область, определяемая исходным
экспериментом из п наблюдений, ряд авторов рекомендует исполь-
зовать нечто вроде суммирования или усреднения строк Х-матрицы
данных для полной модели с К +1 параметрами. Например, если
^р/=^о + ₽Л'1+• • • +^p-ixz,p-i (i=l, 2, ...,п),
то один из предложенных критериев [Mallows (1964, 1966, 1973),
Gorman, Toman (1966)] состоит в минимизации шкалированной
суммы квадратов
. Г п 1 1 Г п п *
Ар = Е [ 2(Ур1—б.-)2] = ± 2 var [УрJ + S(T^-6f)2J .(12.6)
Если ^=[(1^)] и Рр==хр(х;хр)-1х;, то
2 var [Ур/] = tr [£>[YJ]= tr [®[РрY]] = о2tr Рр = &р (12.7)
135 1
(последнее—в силу теоремы 3.1), так что
SSBP
= (12.8)
Здесь SSBp—„смещение" суммы квадратов, равное
п
ssBp= 2 (чя—б/)а=(ч,-вг (Чр-в).
где Чр = ^[Ур]-
Таким образом, нам нужна несмещенная оценка Ар суммы
квадратов Ар, с помощью которой мы могли бы отбирать под-
множества с малыми значениями Ъ.р. Кроме того, если составля-
ющая SSBp, отвечающая за смещение, в (12.8) пренебрежимо мала,
то А^ « р, так что график зависимости Ар от р будет указывать
на то, какая из моделей регрессии имеет малое смещение.
Мэлоус (Mallows) предложил использовать в качестве оценки
для А₽ статистику
12*
356
Гл. 12. Выбор «наилучшей» регрессии
где о2—подходящая оценка для о2. Полагая о2 «о2, имеем
Е [Ср] « Е [RSSJ + 2р- п, (12.9)
и, рассуждая, как в теореме 3.3 (§ 3.3), получаем
Е [RSSy| = Е [(Y - V (Y - V] = Е [Y' (1„-Рр) Y]
-о2 tr [I„ -PJ + О' (1„- Р„) 0 = о2 (п - р) + SSBr
(12.10)
Поэтому
_ , SSBC SSBC
£[CJ«(n— р) 4—^ + 2р—п = р-|--5/=Дг,
и Ср является приблизительно несмещенной оценкой для Ap. Ра-
венство 0'О„-рре = SSBj, в соотношении (12.10) вытекает из
того факта, что вторую составляющую в ffRSSp] можно полу-
чить, заменяя каждый случайный вектор в RSSJ его математи-
ческим ожиданием. Это можно доказать и следующим образом:
чР=<? [ [X Д]=Хр (x;Xp)-ix^ [Y] РрО,
так что "
в' (1„-Рр)О = 0'(1„-Рр)20
= (О-Рр0)' (0-РрО) = (0-V (0-Чр).
(Некоторые авторы, например Mallows (1973) и Hocking (1972),
предполагают, что 0 = Хр. Однако в приведенном доказательстве
этого делать не требуется.)
Помимо отыскания подмножеств с малым Ср, Mallows (1964)
предложил строить для каждой модели регрессии график зави-
симости Ср от р. Значения статистики Ср для моделей с малым
смещением в смысле SSB имеют тенденцию группироваться во-
круг прямой Ср = р (рис. 12.2, точка Д). Для моделей со зна-
чительным смещением соответствующие значения Ср лежат над
этой прямой (рис. 12.2, точка В). Как заметили Gorman, Toman
(1966), хотя точка В лежит здесь над прямой Ср=р, она в то
же время расположена ниже точки А и поэтому соответствует
уравнению с несколько меньшей полной среднеквадратичной
ошибкой о2Ар, Поэтому введение в модель дополнительных q ре-
грессоров может уменьшить составляющую SSB, соответствующую
смещению, но только за счет возрастания от ро2 до (р Ц-д) о2 со-
ставляющей, соответствующей дисперсии. На тенденцию возрас-
тания дисперсий прогноза уже указывалось в § 5.4. ЕЛяй аппрок-
симирующее уравнение предполагается использовать для интер-
поляции, то, отбросив несколько регрессоров, мы можем, допуская
некоторое смещение, получить взамен меньшее значение Ар и
более простое уравнение.
12.2. Построение всех возможных регрессий
357
Для вычисления Ср необходима подходящая оценка а2 для
а2. Ею часто служит средняя остаточная сумма квадратов
RSSk+i/(«—К—1) для полной модели. Однако при этом обяза-
тельно получаем Ср — р при /? = /< +1. При использовании такой
оценки величины о2 в формуле для Ср предполагается, что пол-
ная модель оценена столь тщательно, что имеется достаточная
уверенность в незначительности смещения. Если имеется такая
возможность, эту опенку для а2 следует сравнить с оценками, по-
лученными ранее, или с оценками, основанными на„квазиповтор-
ных наблюдениях" [Daniel, Wood (1971, с. 123)]. Квазиповторными
наблюдениями могут быть, например, пары наблюдений Y, взятых
в удаленные друг от друга моменты времени, но при почти сов-
падающих условиях на х. При этом, если какой-то регрессор
оказывает на Y незначительное воздействие, для него можно до-
пустить и большую разницу уровней.
Применяя графический метод Мэлоуса к данным Хальда,
Gorman, Toman (1966) получили табл. 12.4. Сравнивая значения
Ср и р, видим, что с точки зрения прогнозирования подходящими
являются четыре модели: (xlt х2), (xr, х2, х3), (xit ха, х4) и (х1г х2, хл).
При отсутствий информации о методе получения значений регрес-
соров, вероятно,' уместнее выбрать простейшую модель (х,, х2),
поскольку значение Ср для нее минимально, а именно равно 2.68.
Эта модель была рекомендована в числе других и по критерию R2.
Интересно отметить, что статистика С тесно связана со скор-
358 Гл. 12. Выбор енаилучшей» регрессии
Таблица 12.4
Значения Ср для всех подмножеств регрессий
(данные Хальда)
Регрессоры, уходящие в уравнение Р С?
Нет никаких 1 443.2
(1) 2 202.7
(1,2) 3 2.68
(2) 2 142.6’
(2.3) 3 62.5
(1,2,3) 4 3.04
(1,3) 3 198.2
(3) 2 315.3
(3,4) 3 22.4
(1,3,4) 4 349
(1,2.3,4) 5 5.0
(2,3.4) 4 7.34
(2,4) 3 138.3
(1,2,4) 4 3.03
(1.4) 3 5.51
(4) 2 138.8
Источник: Gorman, Toman (1066, табл. II), однако
упорядочение произведено по методу Гарсайда.
ректированным коэффициентом детерминации Rp [Kennard (1971)].
Замечая, что (см. (12.4))
и оценивая о2 величиной o2=RSSK+1/(n—К—1), получаем
RSSp(n-K~ 1)
СР~
и4-2р,
или
1 KSMrc-K-1) = 1-Вр
+ (п—р) RSSK+1(n—р) 1 —*
Если то, замечая, что 1—R2K+1 является просто масштаб-
ным множителем, видим, что статистика Ср—р, грубо говоря,
эквивалентна статистике 1 — R2P. В действительности обе эти ста-
тистики дают меру, характеризующую величину составляющей
SSB^, определяющей смещение,
12.2. Построение всех возможных регрессий
359
Дальнейшие примеры использования статистик Ср читатель
может найти в работах Gorman, Toman (1966), Daniel, Wood
(1971) и Mallows (1973).
(d) MSEP-критерий
Используя обозначения, введенные в начале предыдущего раз-
дела, будем рассматривать теперь Y р как оценку неизвестного
отклика Y (а не оценку параметра 0 = Е[У]) в точке х. Средне-
квадратичная ошибка предсказания (MSEP—mean square error
of prediction.—Перев.} в соответствии с (5.21) равна при этом
Е [(?„ -Г)2] = var [Г,-Т] + (£ [У,-У])2
= о2-|-var [Рр]Д-(т]р—G)2 (12.11)
=о2 [14-х; (x;xp)-iX/,]4-(nr-0)2
и отличается от (12.5) на о2. Allen (1971а) предложил для пред-
сказания значения Y, соответствующего заданному вектору-стро-
ке х' (первые р элементов которого образуют вектор х'р), исполь-
зовать такое подмножество, которое минимизирует (12.11). Aitkin
(1974) рассматривает задачу отыскания класса таких подмножеств,
которые лишь ненамного „хуже** полного уравнения, и использует
в качестве критерия среднеквадратичную ошибку предсказания —
MSEP (и различные ее усреднения по х-пространству). Например,
усреднением по п точкам в пространстве х-данных мы получаем
(прибавляя по2 к о2Др в соотношении (12.6) и производя деление
на ft) статистику
Г п
i=l
гт2
^^(n+p+SSBP,
п
которую можно использовать в качестве критерия. Предполагая,
что полная модель является несмещенной (т. е. 0 = т]к+1 и 0 = Х0),
Aitkin (1974) использует процедуру одновременной проверки,
если MSEP (или один из ее вариантов) для некоторого подмно-
жества существенно отличается от MSEP для полной модели.
Характер используемой процедуры проверки описан выше (см.
(12.3)). Aitkin (1974) и Narula (1974) рассматривают использова-
ние MSEP-критерия для выбора подмножества при случайных
регрессорах.
(е) Другие меры
Mallows (1967) и Rothman (1968) предложили другую меру
сравнения подмножеств, а именно
'f-SjRss,-
360
Гл. 12. Выбор «.наилучшей» регрессии
Если п^>р, то из соотношения (12.10) имеем
£ {°2 («-Р) + SSB/>} = п2 (« + Р) + (^) SSB„
« о2 (п + р) + SSBj, = о2п + o2Ap.
Это означает, что при п^>р свойства статистики Jp аналогичны
свойствам статистики Ср. В противном случае теоретические свой-
ства Jp весьма расплывчаты.
Помимо Jp, Hocking (1972) упоминает и другую меру, кото-
рую ввел Allen (1974), назвав ее PRESS,, (prediction sum of
squares—предсказанная сумма квадратов). К сожалению, в от-
личие от Ср мера PRESS,, уже не является простой функцией
от RSSp, и потому ее не так просто вычислить, тогда как RSSp
без труда получается попутно при применении алгоритмов, опи-
санных в разд. 12.2.2х).
Другой критерий, под названием AEV (average estimated va-
riance—средняя оцененная дисперсия), предложил Helms (1974).
В AEV включается усреднение дисперсии прогноза по всей пред-
ставляющей интерес области х-пространства, а не только по за-
данным точкам, и в нем используется весовая функция, придаю-
щая большие веса более „важным" точкам этой области. В рдном
весьма частном случае (когда в обозначениях Helms (1974) М =
= (Х'Х)/М)
AEV^^^-..
п (п—р)
Helms (1974, с. 269) подвергает сомнению практику обязатель-
ного включения в модель постоянной составляющей р0. Пользуясь
своим опытом, он утверждает, что „постоянные составляющие
зачастую вносят основной вклад в дисперсию, в то время как их
отсутствие часто вносит лишь весьма незначительный вклад
в смещение".
Из приведенного рассмотрения ясно, что выбор критерия во
многом зависит от того, каким образом модель собираются исполь-
зовать. Поскольку очевидно, что дальнейшее исследование тре-
бует определенных свойств различных мер, то при сравнении
моделей рекомендуется всегда вычислять не одну, а несколько мер.
12.3. Построение только наилучших регрессий
12.3.1. Поиск вдоль перспективных ветвей
При наличии современных ЭВМ исследование всех 2* регрес-
сий для К^12 оказывается не столь уж бессмысленным. Daniel,
Wood (1971, с. 85) утверждают, например, что при эффективном
х)См. также Hocking (1976), Biometrics, 32, 1—49,
12.3. Построение только наилучших регрессий 361
программировании 212 остаточных сумм квадратов могут быть
вычислены (что равносильно подбору 4096 уравнений) на машине
типа IBM 360-65 менее чем за 10 с. Поэтому здесь лимитирую-
щим фактором является, по существу, не время, а объем памяти.
В то же время с ростом К количество вычислений растет экспо-
ненциальным образом, и, поскольку использование регрессий с 20
и более переменными не является чем-то необычным, мы нуждаемся
в таком методе, который ограничивал бы процедуру поиска только
наиболее „полезными" регрессиями. Можно показать, что всякий
такой метод поиска по крайней мере должен для каждого зна-
чения /г=1,2, ...,К отыскивать среди всех ) возможных мо-
делей с k переменными (р0 включается в модель) тот набор k
регрессоров, который имеет минимальное значение RSSft+1 (или,
что равносильно, минимальное значение СА+1). Поскольку можно
ожидать, что лишь некоторые из остальных /г-наборов будут
иметь значения RSSft+1, близкие к этому минимальному, то сле-
дует надеяться, что поиск минимума попутно приведет и к по-
лучению конкурирующих моделей.
Два подобных метода, приводящие к большинству наиболее
полезных моделей и не требующие перебора всех подмножеств,
указаны в работе Beale и др. (1967) и в статье Hocking, Leslie
(1967). Они, по существу, используют метод поиска по деревьям,
избегающий'поиска вдоль бесперспективных ветвей. В приводи-
мом ниже рассмотрении, взятом из статьи Hocking, Leslie, удоб-
нее иметь дело с т переменными {г = К—k), не включаемыми
в модель, т, е. с переменными, исключенными из полной модели
с К регрессорами.
Пусть Ф(-—остаточная сумма квадратов, полученная при вклю-
чении в модель всех К регрессоров, кроме регрессора х^ Пред-
положим, что регрессоры перенумерованы в соответствии с ве-
личиной Ф;-, т. е.
Ф1 Фг =С • • • Фк-
После подсчета всех Ф,- для г = 2,3...К (г —К—k) выполня-
ются следующие этапы вычислений:
Этап 1. Вычисляется RSS для модели, в которой отсутствуют
регрессоры с номерами 1, 2, ..., г. Если полученная RSS не
превосходит Фг+1, то процесс останавливается. При этом регрес-
сия, образованная k регрессорами xr+j, xr+2,..., хк, будет соот-
ветствовать „наилучшему" набору k регрессоров в смысле минимума
RSS. Если же полученная RSS оказывается большей, чем Фг+Х,
то никакого решения не принимается, и мы переходим к
этапу 2.
362
Гл. 12. Выбор «наилучшей'» регрессии
Этап 2. Регрессор хг+1 включается теперь в число кандидатур
на исключение из модели, и подсчитываются значений RSS,
получаемых исключением из набора первых г +1 регрессоров
любого набора г регрессоров, обязательно содержащего (г + 1)-й
регрессор. Если после этого наименьшая из 14~^Q подсчитан-
ных к этому моменту остаточных сумм квадратов не превосходит
Фг+1, то процедура заканчивается, а соответствующая подобранная
регрессия является „наилучшей". В противном случае мы пере-
ходим к этапу 3.
Этап 3. Теперь в число кандидатур на исключение из модели
(г +1 \
2 } значений RSS,
полученных при исключении из набора первых г + 2 регрессоров
любого набора г регрессоров, содержащего хг+2. После этого
минимальное :из + значений RSS, подсчитанных
на первых трех этапах, сравнивается с Фг+3 и процедура либо
заканчивается, если это минимальное значение меньше, чем Фг+3,
либо происходит переход к следующему этапу. Вообще q-й этап
выглядит следующим образом:
Этап q. Подсчитывается значений RSS, получае-
мых при исключении из набора первых r-\-q—1 переменных лю-
бого набора г регрессоров, содержащего хг+д-г Если после этого
/Г -4- / — « т->сс
минимальное из подсчитанных > Д ]__[ J значении RSS не
превосходит Фг+д, то соответствующее подмножество является
,,наилучшим“. В противном случае мы переходим к этапу 9 4-1,
на котором перебираются наборы по г регрессоров, содержащие xr+q
Может получиться так, что придется реализовать все k 4-1
Vfc+1 fr + i—2\ /М
этапов, а следовательно, вычислить все* / 4 J ~ \k )
регрессий. Однако, как было замечено, это случается редко, если
только k не слишком мало. Последний же случай не требует
большого объема вычислений. Обычно для определения подмно-
жества размера k {k -= 1, 2, ..., К) с минимальной RSS требуется
рассмотреть лишь небольшую часть всех 2К регрессий.
В пределах каждого этапа вычислений подмножества размера г
удобно образовывать в таком порядке, чтобы каждое следующее
отличалось от предыдущего только одним элементом. Это можно
сделать, используя последовательность, построенную в разд. 12.2.1.
При этом о подмножествах, получаемых методом Гарсайда (Gar-
side), мы будем теперь говорить как об исключаемых наборах.
12.3. Построение только наилучших регрессий 363
Например, для К == 4 соответствующая последовательность исклю-
чаемых наборов представлена в табл. 12.4. Ее можно представить
также в виде ряда подпоследовательностей, как это сделано
в табл. 12.5.
Таблица 12.5
Порядок получения подмножеств регрессий с К—г
(К = 4) регрессорами, определяемый методом Гар-
сайда, в котором при переходе от одного подмноже-
ства к другому изменяется только один регрессор
Числе исключаемых регрессоров(г) Исключаемые > регрессоры Этап
1 (*1) (Ф1)
(*2> (ф2)
(*з) (Фз)
(*4) (ф4)
2 1
(х2,х3) 2
2
(х3,х4) 3
(х2,х4) .3
(ч.*4) 3
3 (Х1,Х2,Х3) 1
(Xj,Xj,X4) 2
(х2,Хз,Х4) 2
(х„х2,х4) 2
Чтобы показать, что этот метод действительно приводит к
минимальной RSS для заданного значения г, заметим прежде
всего, что при исключении регрессора из модели остаточная
сумма квадратов может только возрасти или остаться без изме-
нения. Это означает, что всякая оцененная подмодель регрессии,
не содержащая xh не может иметь RSS, меньшую Ф{-. Предполо-
жим теперь, что RSS, получаемая исключением любого набора г
регрессоров, в котором максимальный индекс регрессора равен /, Л*
не превосходит Ф/+1. Тогда, поскольку значение RSS для этой
частной модели не превосходит ф/+л, (т=1, 2, —j), мы
не можем уменьшить значение RSS, исключая xJ+m и заменяя
его каким-либо из регрессоров хи х2, ..., х}, уже не содержа-
щихся в модели. В противном случае мы смогли бы найти мо«
дель с исключенным Ху+га, для которой RSS была бы меньшей
дозволенного минимума Фу+т. Мы знаем, что при остановке про-
364
Гл. 12. Выбор «наилучшей» регрессии
цесса, скажем, на q-м этапе в наилучшую регрессию должны
включаться переменные xr+q, хк. В таком случае вопрос
состоит в отыскании наилучшего подмножества размера k, со-
держащего эти переменные, путем перебора всех подсчитанных
к этому времени значений RSS.
Описывая указанную процедуру, Hocking, Leslie (1967) пред-
почитают при исключении регрессоров следить за уменьшением
регрессионной суммы квадратов. Соответствующее уменьшение
подсчитывается непосредственно, путем обращения главного
(&х£)-минора матрицы (Х'Х), если или главного (гхг)-
минора матрицы (Х'Х)-1, если k > г. В пределах каждого этапа
последовательность этих обратных величин можно эффективно
вычислять, используя упорядочение, указанное в табл. 12.5.
Поскольку переменные вводятся в модель и выводятся из нее
поодиночке, то всякие две расположенные друг за, другом под-
матрицы различаются только одной строкой (и в силу симметрии
одним столбцом). Эти авторы, замечают также, что через умень-
шение регрессионной суммы квадратов легко выразить Cp—Ck+l.
В связи с этим они предлагают несколько методов сокращения
длины поиска, основанных на подсчитанных значениях Ср.
В более поздней статье La Motte, Hocking (1970) приводят мо-
дификацию указанного метода, позволяющую значительно сокра-
тить объем вычислений. При этом они считают, что их метод
достаточно эффективен для значений К вплоть до 30, а воз-
можно, даже и до 50. Аналогичный изложенному метод Beale и
др. (1967) удовлетворителен, по-видимому, для значений К, не
слишком превышающих 20 [Beale (1970, с. 913)].
При поочередном введении и выведении регрессоров можно
использовать эффективный метод Хаусхольдера—Гивенса
(разд. 12.2.2), с помощью которого одну переменную можно
ввести, а другую вывести из уравнения.
Совсем недавно Furnival, Wilson (1974) предложили другой
метод, который является, по-видимому, еще значительно более
быстрым, чем упомянутые.
12.3.2 . t-упорядоченный поиск
Критерий для проверки гипотезы Н: pz = 0 в полной модели
с /< регрессорами основан на статистике
или, что равносильно, на статистике
с /з _ RSS^+1
. ?к. i— lK. i-~ (S*du)~ S2
12.3. Построение только наилучших регрессий
365
где (остаточная сумма квадратов при подборе модели
со всеми К. регрессорами, кроме х,) и S2 = RSSK+1/(n —Л— 1). Как
явствует из предыдущего метода, рассмотренного в разд. 12.3.1,
регрессоры с малыми значениями Ф1 будут, как правило, исключать-
ся раньше, так что в „наилучшие** для каждого k наборы рег-
рессоров (лучшие в смысле минимума RSS или минимума Cft+1)
будут включаться регрессоры с большими значениями Ф,- или,
что равносильно, с большими значениями ] /Л<, |. В связи с этим
предположим, что регрессоры упорядочены в соответствии со
значениями \1К,,[ (i=l, 2, ..., /<) в порядке убывания этих
значений. Тогда, осуществляя ввод в модель регрессоров пооче-
редно и в заданном порядке, мы можем надеяться получить при
каждом k=\, 2, ..., К наилучшее или одно из близких к наи-
лучшему подмножество из k элементов. Такой так называемый
/-упорядоченный поиск предложили Daniel, Wood (1971). Мы
проиллюстрируем его на двух примерах.
Пример 12.1 (Л = 4: данные Хальда (Hald)). Значения |/Л> J
для данных Хальда приведены в табл. 12.6. Обращаясь к
табл. 12,4, мы находим, что /-упорядоченная процедура приво-
Таблица 12.6
Результаты применения /-направленного поиска к данным Хальда
Переменная (0 Накопленное подмножество Р Ср
1 2.08 (1) 2 202.7
2 0.70 (1,2) 3 2.68*
4 0.20 (1,2,4) 4 3.03
3 0.14 (1,2,3,4) 5 5.00
Источник: Daniel, Wood (1971, с. 89—90).
• Минимальное значение.
дит здесь к наилучшим подмножествам с двумя и тремя элемен-
тами—(1, 2) и (1,2,4) соответственно. В самом деле, набору
(1,2) соответствует минимальное среди всех значение Ср, а на-
бору (1, 2,4)—следующее за ним по величине значение. Из
табл. 12.6 можно заключить, что регрессоры хг и ха образуют
„базовую** совокупность, включаемую во все „наилучшие** модели,
и что поэтому можно ограничиться поиском только тех подмно-
жеств, которые содержат и х2, т. е. (1,2, 3) и (1, 2,4).
(В этом примере о2 оценивается величиной RSS6/(n—5); так что
мы имеем тождество С6 = 5.)
366
Гл: 12. Выбор шаилучшей» регрессии
Пример 12.2 (К = 6: данные из Gorman, Toman (1966)). Реа-
лизация /-упорядоченного поиска указана в табл. 12.7. Этот
Таблица 12.7
Результаты применения /-направленного поиска к данным
из Gorman, Toman (1966)
Переменная (0 Накопленное подмножество Р ср
1 7.0 (1) 2 20.4
2 4:3 (1,2) 3 14.0
6 2.9 (1,2,6) 4 5.7
4 2.1 (1,2,6,4) 5 4.3*
3 0.7 (1,2,6,4,3) 6 5.3
5 0.6 (1,2,6,4,3,5) 7 7.0
Источник: Daniel, Wood (1971, с. 96).
♦ Минимальное значение.
метод приводит здесь к действительно наилучшим наборам по
одной, двум, трем, четырем и пяти переменным. Модели
(1, 2,6, 4) соответствует наименьшее значение Ср, а моделям
(1, 2, 6) и (1, 2, 6, 4, 3)—близкие к нему значения. График за-
висимости Ср от р для ' всех 2е моделей показывает, что малые
значения имеют наборы [Gorman, Toman (1966, с. 39)] (1, 2, 6:
С4 = 5.7), (1, 2, 4, 6: С6 = 4.3), (1, 2, 3, 4, 6:С„ = 5.3)и(1, 2, 4, 5,6:
С« = 5.5). С помощью /-упорядоченного поиска находятся три из
них. В данном случае „базовая" совокупность состоит из регрес-
соров xit xa и хв. Она на один элемент беднее совокупности,
соответствующей точке перемены направления изменения значе-
ний Ср в последнем столбце табл. 12.7 (это значение Ср отмечено
звездочкой). f
Хотя приведенные примеры являются скорее искусственными,
поскольку применять /-упорядоченный поиск стоит только при
больших значениях К, скажем К > 20, тем не менее они доста-
точно хорошо покавывают, что обычно получается при исполь-
зовании этого метода. Если среди всех моделей выделяется ка-
кая-то одна и конкурирующие модели не очень близки к ней,
то точка перемены (отмеченная звездочками в табл. 12.6 и 12.7)
правильно указывает на те переменные, которые надо включить
в „базовую" совокупность. В менее ярко выраженных случаях,
как в примере 12.2, в базовую совокупность часто необходимо
включать на одну, реже—на две переменные меньше. Daniel,
Wood (1971) предлагают для подстраховки-при составлении про-
граммы машинного поиска предусматривать выбор „базовой"
12.4. Пошаговая регрессия
367
совокупности, содержащей на два элемента меньше, чем этого
требует помеченное звездочкой значение Ср. Некоторые сообра-
жения в отношении того, когда такая мера предосторожности
необходима, дает соотношение значений Ср и р. Если наимень-
шее из значений Ср1 задаваемых при перечислении значений
I ^к, 11> оказывается меньшим или равным р, то мы вполне можем
довериться указанию звездочки и включить в базовый набор
переменные, расположенные в этой строке. Если же помеченным
звездочкой значением является, скажем, С4 = 8, то, поскольку
уменьшение значения р на I может привести к уменьшению
значения Ср на 2 (Ср — RSS^/o2 4- 2р—п), в качестве базового
набора следует брать переменные, расположенные в строке, по-
мещающейся в таблице на две строки выше.
После того как мы определили базовый набор из Ki пере-
менных, нам нужно исследовать уже только 2К-К« моделей, со-
держащих этот набор. Такая редукция может приводить к зна-
чительной экономии памяти и машинного времени. Однако если
Д' очень велико, то и значение 2К-К1 может оказаться слишком
большим для полного перебора. В этом случае можно использо-
вать теорию дробных факторных планов типа 2х и найти осталь-
ные существенные переменные, рассматривая некоторые подмно-
жества, содержащие базовый набор переменных. Подробности
этого метода приводят Gorman, Toman (1966), а также Daniel,
Wood (1971), Дальнейшее исследование требует, однако, решения
вопроса о выборе подходящего подмножества.
12.4, Пошаговая регрессия
12.4.1. Описание метода
Метод пошаговой регрессии состоит в том, что на каждом
шаге производится либо включение в модель, либо исключение из
модели какого-то одного регрессора. В этой процедуре [Efroymson
(I960)] мы имеем два F-уровня—назовем их Fin и FOUt- На каждом
шаге один из регрессоров, скажем . xit исключается, если
при его удалении RSS увеличивается на величину, не боль-
шую, чем умноженное на FOU1 значение средней остаточной
суммы квадратов RSS/J/(n—р). Другими словами, регрессор х{
исключается на данном шаге, если F-отношение для про-
верки гипотезы Р/ = 0 в используемой в этот момент мо-
дели регрессии не превышает значения FOut- Если такому усло-
вию удовлетворяет несколько регрессоров, то выбирается
тот из них, для которого увеличение RSS оказывается наимень-
шим (это равносильно наименьшему F-отношению). Если указан-
ному условию не удовлетворяет ни один из регрессоров, то в
модель включают регрессор, скажем Xj, введение которого умень-
368 Гл. 12. Выбор «наилучшей» регрессии
шает RSS на величину, не меньшую, чем умноженное на Fin
значение средней остаточной суммы квадратов, подсчитанной
после включения лу в модель. Иначе говоря, регрессор xt вклю-
чается на данном шаге в модель, если F-отношение для проверки
гипотезы р7 = 0 в модели, полученной добавлением этого регрес-
сора к модели, рассматриваемой на данном шаге, оказывается не
меньшим, чем Fin- И опять, если такому условию удовлетворяет
несколько регрессоров, то в модель включается тот из них, ко-
торый обеспечивает наибольшее уменьшение RSS (или, что рав-
носильно, наибольшее F-отношение). Процедура начинается с
того, что мы подбираем ро, а затем пытаемся ввести в модель
какой-нибудь регрессор.
К сожалению, эта процедура приводит к единственному под-
множеству и не предлагает альтернативных хороших подмно-
жеств.
12.4.2. Использование выметания
Для введения в модель или выведения из нее какого-либо
регрессора можно использовать метод выметания, описанный в
разд. 12.4.2. Здесь выметание применяется к расширенной мат-
рице
А — / 'v \
где Rxx—корреляционная матрица для всех Д' регрессоров. Если
вымести Aj по произвольному подмножеству ее первых К веду-
щих элементов, то мы получим новую матрицу
м; /)•
где матрица В, вектор с и число f суть не что иное, как мат/
рица, обратная корреляционной матрице, шкалированный вектор'
коэффициентов регрессии а и значение 1 — А?2, соответствующие
регрессорам, входящим теперь в уравнение. После каждого шага
мы вычисляем Vk=ckdk/bkk для каждого bkk, большего нижнего
допустимого значения. Контролируя величину bkk, мы тем самым
избегаем включения в модель регрессора, почти линейно завися-
щего от регрессоров, уже включенных в модель. Элементы век-
тора d, соответствующие регрессорам, не содержащимся в урав-
нении, равны соответствующим элементам вектора с, а остальные
элементы векторов d и с суть соответственно —а и а. Таким
образом, если регрессор xk входит в уравнение регрессии, то
величина Vk равна —Oklbhk (или в обозначениях соотношения
12.4. Пошаговая регрессия
369
(11.51) из разд. 11.7.2 —а|(1—/?|)) и отрицательна, а если
регрессор хк не входит в уравнение, то величина Vk равна
и положительна. Для определения того, нужно ли исключать из
уравнения какой-нибудь из регрессоров, и если да, то какой
именно, мы находим минимальное значение | Vk | по всем Vk < О,
скажем Умич, и исключаем регрессор, соответствующий yM1N,
если (ср. с (11.51) при ф — п—р и f — \— R*)
Vmin# - Р
—j— гоит»
где
ф = п—(число регрессоров в модели +1).
Подобным же образом мы определяем, какой из регрессоров
следует включить в модель и нужно ли вообще это делать. Для
этого мы находим максимальное значение Vk по всем Vk > О,
скажем Умах. и если
Умах (Ф— 1)
Г
Умах (Ф—1)-^ г
/—Умах IN’
то вводим в модель регрессор, соответствующий Умах- На каж-
дом шаге мы стараемся не исключать переменную, которая была
только что введена в модель, и не включать переменную, кото-
рая только что была отброшена. Это будет обеспечиваться авто-
матически, если выбрать F[t^ Foot-
В оригинальном описании приведенного метода Efroymson
(1960) рассматривает выметание матрицы
Г/
О'
°*
где Од- есть (/< X/0-матрица, состоящая из нулей. На каждом
этапе выметания преобразованную матрицу А2 можно разбить
точно таким же образом, а именно
В с
AJ»= й' f
(G h
F
-g .
H
где с точностью до ошибок округления g = h. В его методе ве-
дущие элементы матриц В и Н выметаются только по одному
разу. Выметание i-ro ведущего элемента матрицы В включает в
модель переменную xf, а выметание ненулевого ведущего эле-
мента матрицы Н, скажем йу,-, исключает из модели переменную
Xj. На каждом шаге вектор h содержит шкалированные коэффи-
циенты регрессии а модели, оцененной к этому моменту, а осталь-
370
Гл. 12. Выбор чнаилучшей1> регрессии
ные его элементы равны нулю. Матрица Н также состоит из
нулей и из матрицы, обратной к блоку матрицы Rxx, соответст-
вующему регрессорам, находящимся в рассматриваемой в этот
момент модели. Таким образом, h и Н содержат просто „полез-
ные" части вектора с и матрицы В, незашумленные другими не-
нулевыми элементами.
Поскольку с точностью до знака матрица Аа симметрична,
нам достаточно работать только с верхней треугольной матри-
цей, что сокращает объем вычислений и требуемую память.
Breaux (1968) приводит соответствующий алгоритм, использую-
щий метод симметричного выметания, описанный в разд. 12.2.2.
По его утверждению, для этой модификации можно составить
программу, которая в состоянии работать примерно с /<=200
переменными и требует менее 21 000 слов памяти, тогда как
обычная процедура, использующая матрицу Аа, требовала бы
при этом более 40000 слов памяти.
12.4.3. Метод исключения Гаусса—Жордана
Вместо выметания можно использовать метод исключения
Жордана, описанный ближе к концу разд. 11.2.1, в котором ве-
дущий элемент нормируется (приводится шкалированием к еди-
нице), а остальные элементы этого столбца обращаются в нуль.
Этот метод можно применить к матрице А, в (12.12), так что
при этом некоторая заданная подматрица матрицы Rxx приве-
дется к единичной в матрице В (соотношение (12.13)), а обратная
к ней матрица появится в F (и в Н). В отличие от метода вы-
метания, который обращает подматрицу на своем месте, мат-
рица В уже не содержит ненулевой части матрицы Н. Вектор d
также не содержит уже вектора —а шкалированных коэффи-
циентов регрессии. Это означает, что Умах представляет теперь
максимальное значение отношения (?klbkk по всем хк, не включен-
ным в модель, в то время как Vmin является минимальным зна-
чением отношения ck/hkk по всем hkk > 0 (т. е. по всем хк, со-
держащимся в модели). Для включения в модель, скажем, рег-
рессора Х[ в качестве ведущего используют элемент bit, который
делают равным единице. Для исключения же из модели, напри-
мер, регрессора xf в качестве ведущего берется элемент f/7
(а не /г/7), поскольку мы в действительности хотим обратить
процедуру Жордана для этой переменной.
Указанная выше модификация метода Efroymson (1960) до-
вольно подробно описана в работе Draper, Smith (1966, разд. 6.8).
Используя данные Хальда (/( = 4), они приходят в результате к
модели (хг, х2), которая совпадает с моделью, полученной раз-
личными методами в разд. 12.2.3. Основные шаги их вычислений
таковы:
12.4. Пошаговая регрессия
371
(1) Проверка на исключение: исключать здесь нечего.
Проверка на включение новой переменной: minVft (fe=l, 2,
3, 4) равен Vt и значение превышено, так что в модель
включается переменная х4.
(2) Проверка на исключение: исключать нечего, так как те-
кущая модель содержит только одну переменную, а она только
что была введена в модель.
Проверка на включение новой переменной: min Vk (k= 1, '2, 3)
равен Vj и значение FjN превышено, так что в модель вклю-
чается переменная х4.
(3) Проверка на исключение: текущая модель (х4, х4); исклю-
чать можно только переменную х4, так как х, только что вклю-
чена в модель, однако значение FOut превышено, так что х4
остается в модели.
Проверка на включение: minVft (k =*2, 3) равен V2, значение
FIN превышено, и переменная х2 вводится в модель.
(4) Проверка на исключение: текущий набор (xt, х2, х4);
maxVft (А=1, 4) равен У4, значение FOut не будет превышено,
и х4 исключается из набора.
Проверка на включение: текущий набор (xt, х2); поскольку
х4 только что исключили из модели, то единственной кандида-
турой на включение в модель является переменная х3; однако
значение FIN здесь не превышено, и х3 не включается в модель.
Поскольку добавить к модели нечего, процесс останавливается.
Результирующим набором является (х4, х2).
12.4.4. Выбор значений F
При использовании метода пошаговой регрессии мы сталки-
ваемся с задачей выбора значений FIN и F0UT. Обычно пола-
гают FiN==F0UT = Fe, где Fo — некоторая произвольная постоян-
ная. Например, Efroymson (I960) использует F0 = 2.5, a Draper,
Smith (1966) для той же самой совокупности данных (Хальда)
берут FO = 3.29. Мы можем действовать и иначе, полагая
ф-1 и Fout=^F^ ф, где а = 0.05, а ф—число степеней
свободы, соответствующее текущей RSS. Однако такой выбор
значений F не является, строго говоря, корректным, поскольку
на каждом шаге мы ищем максимум или минимум совокупно-
сти коррелированных F-переменных. Например, чем больше
число переменных, из которых производится отбор, тем
больше Умах» и» следовательно, тем большим следует ожидать
значение F, при котором производится включение регрессора в
модель. Ряд авторов [например, Draper и др. (1971), Pope, Web-
ster (1972)] рассматривали этот вопрос об упорядоченных зави-
симых F-переменных, и кое-что здесь удалось сделать. Forsythe
372
Гл. 12. Выбор «наилучшей» регрессии
и др. (1973) рассматривали эту задачу, допуская только вклю-
чение переменных, и получили критерий перестановок для за-
мены Fjn.
12.4.5. Другие пошаговые методы
Имеются две, по-видимому, довольно распространенные раз-
новидности пошаговой процедуры. Одна из них—это так назы-
ваемый метод включения, в котором переменные не исключаются,
а только поочередно вводятся в модель с использованием, ска-
жем, Гщ-критерия. Вторая—это метод исключения, в котором
сначала подбирается полная модель с К регрессорами, а затем
производится поочередное исключение регрессоров с использо-
ванием, скажем, Four-критерия; в этой процедуре проверка
возможности включения регрессоров не производится. К сожа-
лению, эти два метода не обязательно приводят к одной и
той же модели. Например, Hamaker (1962), используя данные
Хальда, по методу включения получил подмножество (Xj, х2, х4),
а по методу исключения—(хп х2).
Некоторые аргументы за и против этих двух методов под-
робно рассматривают Mantel (1970) и Beale (1970). Большинство
авторе», по-видимому, предпочитает метод исключения (см., на-
пример, Draper, Smith (1966, с. 187)), и таное предпочтение
подкрепляется анализом, произведенным Kennedy, Bancroft (1971),
хотя в их сравнении порядок выбора регрессоров предопределен
заранее (как в полиномиальной регрессии). Метод исключения,
кроме того, подходит тем статистикам, которые предпочитают
видеть в уравнении все регрессоры сразу, дабы „чего-нибудь не
пропустить**!
Другие вариации на эту тему описаны в Mantel (1970) и
Draper, Smith (1966). Однако предпочитать следует, по-види-
мому, все же пошаговую процедуру с одним очевидным исклю-
чением — полиномиальной регрессией.
В заключение стоит отметить, что использовать пошаговую
регрессию уместно, когда значение К очень велико (приблизи-
тельно когда К > 40, хотя это зависит от ЭВМ). В противном
случае следует использовать методы § 12.2 и 12.3.
12.5. Другие методы
12.5.1. Факторный анализ и анализ главных компонент
Выбрать подмножество регрессоров можно также при помощи
факторного анализа. После применения факторного анализа
к регрессорам выделяется несколько факторов, а остальная
часть дисперсии относится на счет приблизительных муль-
12.5. Другие методы
373
тиколлинеарностей, которые можно игнорировать. После этого
факторы вращают, чтобы получить простую структуру, в ко-
торой каждый фактор отождествляется с некоторым мини-
мальным набором регрессоров. Регрессия Y на этих факто-
рах может помочь в определении подходящих наборов регрессо-
ров. Такой метод использован в Massy (1965), Daling, Tamura
(1970) и в ряде практических исследований. Однако некоторые
возражения против него выдвигает Hawkins (1973). Во-первых,
нет никакой гарантии в том, что Y зависит именно от факторов,
а не от тех мультиколлинеарностей, которыми пренебрегли.
Соответствующий пример приводит Hotelling (1957). Во-вторых,
этот метод предлагает одну или более возможных регрессий, но,
подобно пошаговому методу, не дает ясной информации о числе
или составе альтернативных хороших наборов. Поэтому необхо-
дим такой метод, который бы выделял мультиколлинеарности и
предлагал целый ряд подходящих наборов.
Hawkins (1973) полагает, что таким требованиям удовлетво-
ряет анализ главных компонент. Подробности читатель может
найти в указанной статье. Идею использования анализа главных
компонент для отыскания разумного набора регрессоров выдви-
гали также Jeffers (1967) и Сох (1968, с. 272). Об использова-
нии анализа главных компонент в задачах регрессии кратко
упомянули также Seber (1966, с. 56) и Greenberg (1975).
12.5.2. Байесовский метод
В заключение стоит несколько упомянуть о байесовском ме-
тоде Lindley (1968). В случае, когда модель регрессии соби-
раются использовать для предсказания, он предлагает находить
набор, минимизирующий величину
(RSSft+1—RSSX+1) л~х-|-сА,
где (RSSfe+i—RSS^+i) — увеличение остаточной суммы квадратов
при исключении К—k регрессоров, a ck — издержки, связанные
с данным конкретным набором k регрессоров. Минимизация
осуществляется по всем наборам для всех значений k. При этом
автор предполагает, что
£[Y|p, х] = 0'х,
где х' = (1, Xi, х8, ..., хк), т. е. что полная модель с К рег-
рессором является несмещенной.
Если издержки для всех регрессоров одинаковы и равны
с=2.с?1п и если они аддитивны (т. е. ck~kc), то критерий, пред-
ложенный Lindley (1968, с. 43), равносилен минимизации
С „-статистики Мэлоуса.
374
Гл. 12. Выбор шшлучшей» регрессии
12,6. Общие замечания
Краткий обзор проблемы выбора подходящего набора приве-
ден в работах Сох, Snell (1974), Hocking (1976*), Малолеткин
и др. (1977*). Читатель может найти в первой статье полезные
практические замечания. В частности, там рекомендуется умень-
шать количество регрессоров примерно до 10, используя, на-
пример, методы, аналогичные методам § 12.3 и 12.5. Тогда все
2х® наборов этих 10 регрессоров можно получить и сравнить,
используя методы § 12.2. Автоматические процедуры, подобные,
скажем, пошаговым методам § 12.4, следует использовать (если
использовать вообще) с осторожностью. Эти процедуры более
уместны, когда выбор конкретных регрессоров не является пред-
метом основного внимания или когда требуется некоторое пред-
варительное сокращение числа регрессоров.
Упражнения к гл. 12
1. Покажите, что использование в качестве ведущих обоих диагональных
элементов симметричной матрицы
А _ f аи аи \
\Я12 Й22/
приводит к обращению этой матрицы.
2. Пусть мы хотим исключить из модели регрессии с р параметрами
регрессор х/. Покажите, что если F]— это F-статистика для проверки гипо-
тезы Н: Р/ = 0, то
F, RSS„
--------+Ср-2.
р а2(п—р) р
[Gorman, Toman (1906, с. 50).]
3. Покажите, что Ср^р в том и только том случае, когда F^X, где
F—это F-статистика для проверки гипотезы о том, что K-f-1—р коэффици-
ентов регрессии ₽/ равны нулю. [Hocking (1974).]
Приложение А
НЕКОТОРЫЕ РЕЗУЛЬТАТЫ
ИЗ АЛГЕБРЫ МАТРИЦ
А1. След
Если соответствующие пары матриц согласованы1), то
1. tr[A + B]-tr АН-tr В,
2. tr [АС] = tr [СА].
Доказательства этих результатов получаются непосредствен-
ной проверкой. Если А—симметричная матрица размера пхп
и (t=l, 2, п)—ее собственные числа, то
3. trA= 2 Ч
4 = 1
4. tr[Aq = 2M,
1 = 1
5. tr[A“1] = 2?=i^r1 (матрица А не вырождена).
Доказательство. Поскольку матрица А симметрична, то суще-
ствует такая вещественная ортогональная матрица Т, что Т'АТ =
= diag(Z,j, %2, ..., ХП) = А. Поэтому A = tr [T'ATJ =
= tr [ATT'] = tr А. Тогда (4) вытекает из соотношения A®«= (Т'АТ) X
Х(Т'АТ)Х ... х(Т'АТ) = Т'А*Т, а (5) вытекает из соотношения
А-1 = (Т'АТ)-1 — Т'А-1Т. (Заметим, что (3) выполняется для
любой квадратной матрицы. В этом мы можем убедиться, рас-
сматривая коэффициент при X"-1 в уравнении |11„—А|==0.)
А2. Ранг
1. Если матрицы А и В согласованы, то
rank [АВ] min (rank A, rank В).
Доказательство. Строки матрицы АВ являются линейными
комбинациями строк матрицы В, так что число линейно неза-
1) То есть соответствующие операции над ними определены.—Прим, перев.
376
Приложение А. Некоторые результаты из алгебры матриц
висимых строк в матрице АВ не больше, чем в матрице В, и
rank [АВ] rank В. Подобным же образом, столбцы матрицы АВ
являются линейными комбинациями столбцов матрицы А. Следо-
вательно, rank [АВ] rank А.
2. Если А—произвольная, а Р и Q—любые две согласован-
ные с А невырожденные матрицы, то rank[PAQ] = rank А.
Доказательство. Поскольку rank A«^rank[AQ]^rank[AQQ_1]=
= rank А, то rank А = rank [AQ] и т. д.
3. Пусть А—произвольная (т х п)-матрица, г = rank A, s —
размерность'с№ (А) (нулевого пространства, или ядра матрицы А),
т. е. размерность пространства ]х: Ах = 0[. Тогда
г + s = n.
Доказательство. Пусть ait a2, as—базис простран-
ства J\P(A). Дополним эту совокупность векторов до базиса
ait а2, .... ae, р1( §2, ..., pf n-мерного евклидова простран-
ства Еп. Всякий вектор из 34 [А]—образа матрицы А—можно
представить в виде
s t \ t I t
atat + ,2 ^/Р/ J — А S ^/Р/ = .2 fyVy
Предположим теперь, что
t
2^/=°-
Тогда
а(2/,Р/)= 2/Л/=°
и 2 с/Р/ С<№(А). А это возможно, только если с1 = сг = ... =с4 = 0,
так что векторы уп у2, ..., yt линейно зависимы. Поскольку
каждый вектор Ах из 54 [А] можно выразить с помощью векто-
ров у,, то эти ту образуют базис 54 [А]. Поэтому t=r. Поскольку
s-(-Z = n, наше доказательство завершено.
4. rank А = rank А' = rank [А'А] = rank [AA'J.
Доказательство. Ах = 0 => А' Ах = 0 и А' Ах = 0 => х' А' Ах =
— О => Ах = 0. Поэтому ядра матриц А и А'А совпадают. Поскольку
же матрицы А и А'А имеют одинаковое число столбцов, то,
согласно А2.3, rank А = rank [А'А]. Аналогично получаем, что
rank А'= rank [АА'], откуда и вытекает искомый результат.
5. Если 34 [А]—образ матрицы А (пространство, порожден-
ное столбцами матрицы А), то 54 [А'А] = 34 [А'].
Ах = А
Приложение А. Некоторые результаты из алгебры матриц
377
Доказательство. Для Ь = Аа имеем А'Аа = А'Ь, так что
5i[A'AJc:5i[A']. В то же время, согласно А2.4, эти два прост-
ранства должны совпадать, так как они имеют одинаковые раз-
мерности.
6. Если матрица А симметрична, то rank А равняется числу
ненулевых собственных значений.
Доказательство. В соответствии с' А2.2 rank А = rank [Т' АТ] =
= rank Л.
7. Всякая симметричная матрица А имеет п ортонормиро-
ванных собственных векторов, и пространство 91 [А] порожда-
ется теми из них, которые соответствуют ненулевым собственным
значениям.
Доказательство. Из соотношения Т'АТ = Л вытекает, что
АТ = ТЛ, т. е. Atz = Xftz-, где T = (tu t„). Векторы tz- орто-
гональны, поскольку Т—ортогональная матрица. Предположим,
что \=0 (i = r-|-l, г 4-2, ..., п) и x=2?_1a,-t/. Тогда
Ах= А S o.-t, = У, azAt,= 2
1=1 1 = 1 i=l 1 = 1
и пространство 91 [А] порождается векторами tlf t2, ..., tr.
АЗ. Положительно полуопределенные матрицы
Симметричная матрица А называется положительно полу-
определенной1) (п.п.о.), если для всех х выполняется неравен-
ство х'Ах^О.
1. Собственные значения п.п.о. матрицы неотрицательны.
Доказательство. Если Т'АТ = Л, то подстановкой х = Ту мы
получим х'Ах = у'Т' АТ у = \yl + КгУп 0- Полагая yf = 6Z/,
приходим к неравенству 0^х'Ах = А/.
2. Если матрица А п.п.о., то trA^O. Это вытекает из АЗ. 1
и А1.3.
3. Матрица А является п.п.о. матрицей ранга г в том и только
том случае, когда существует такая (п х п)-матрица R ранга г,
что А= RR'.
Доказательство. Если А—п.п.о. матрица ранга г, то, согласно
А2.6 и А3.1, A=diag(%n Х2, .... Лг, 0........0), где Xz->0
х) Некоторые авторы называют такие матрицы неотрицательно опреде-
ленными.
378
Приложение А. Некоторые результаты из алгебры матриц
(4 = 1,2, ..., г). Пусть AV2 = diag(М/2, Ь21/а, .... V/a, 0, ..., 0).
Тогда из соотношения Т'АТ = Л вытекает, что А = ТЛ1/2 3 4Л1/2Т'=
= RR', где rankR = гапкЛ1/2 =г. Обратно, если A = RR', то
rank А = rank R = г (А2.4) и x'Ax = x'RR'x = y'y^ 0, где y=R'x.
4. Если А—п.п.о. (ихп)-матрица ранга г, то существует
такая (n X г)-матрица S ранга г, что S'AS = If.
Доказательство. Из соотношения
т'ДТ — 0^
1 “ДО о)
вытекает, что Т[АТ1-=Л„ где Tf—матрица, образованная пер-
выми г столбцами матрицы Т. Полагая теперь S = T1Arl/2, мы
приходим к искомому результату.
5. Если А—п.п.о. матрица, то X'АХ = 0 => АХ = 0.
Доказательство. Согласно АЗ.З, 0 = Х'АХ = X'RR'X = В'В
(B = R'X), а отсюда следует, что b[bz = O, т. е, Ь,- = 0 для каж-
дого столбца bz матрицы В. Поэтому AX = RB = 0.
А4. Положительно определенные матрицы
Симметричная матрица А называется положительно опреде-
ленной (п. о.), если х'Ах>0 для всех х, х^О. Отметим, что
всякая п. о. матрица является также и п. п. о. матрицей.
1. Все собственные значения п. о. матрицы А положительны
(доказательство аналогично А3.1)\ поэтому такая матрица А
является невырожденной (А2.6).
2. Матрица А является п. о. тогда и только тогда, когда
существует такая невырожденная матрица R, что A = RR'.
Доказательство. Этот результат вытекает из АЗ.З при г = п.
3. Если матрица А положительно определена, то такова же
и матрица А-1.
Доказательство. A_l = (RR')_1 = (R')_1R_;t = (R_1)' R-1 = SS',
где S—невырожденная матрица. Искомый результат следует
теперь из А4.2.
4. Если матрица А положительно определена, то rankfCAC'] =
= rank С.
Доказательство.
rank [САС' ] = rank [CR R 'С']
= rank[CR] (в силу А2.4)
= rank С (в силу А2.2).
Приложение А. Некоторые результаты из алгебры матриц 379
5. Если А—п. о. (n х п)-матрица, а С — матрица размера
(рхп) и ранга р, то САС'—п. о. матрица.
Доказательство. Прежде всего, х'САС'х = у'Лу 2^ О, причем
равенство здесь достигается тогда и только тогда, когда у=0,
т. е. С'х = 0 и х=0 (столбцы матрицы С' линейно независимы).
Отсюда получаем, что х'САС'х > 0 для всех х 0.
6. Если матрица X размера пу.р имеет ранг р, то матрица
Х'Х положительно определена.
Доказательство. Мы имеем неравенство х'Х'Хх = у'у 0, в
котором равенство достигается тогда и только тогда, когда
Хх=0, т. е. х = 0 (столбцы матрицы X линейно независимы).
7. Матрица А положительно определена в том и только том
случае, когда все ее главные миноры (включая и | А |) положи-
тельны.
Доказательство. Если матрица А положительно определена,
то в силу А4.1
|АН|ГТ||А| = |Т'АТ| = |Л| = Ш/>0.
I
Положим
Тогда
xJA,x, = (х’, 0z) A > 0 для х, 0
и матрица А, положительно определена. Поэтому, если матрица А
имеет размер ихп.Т то из приведенного выше вытекает, что
|АГ| > 0 (г=1, 2, ..., п). Обратно, предположим, что все глав-
ные миноры матрицы А положительны. Покажем, что при этом
матрица А положительно определена. Пусть
д (&n-i> р
А“\с', aj' КЛо', -М’
где a = A„LiC. Тогда
R'AR»),
где
A = |R'AR |/| A„_s| = | R®|| Aj/| AB_f| > 0
(матрица R не вырождена). Далее действуем по индукции. При
п=1 результат очевиден, Предположим, что он верен для мат-
380
Приложение А. Некоторые результаты из алгебры матриц
риц порядка до п—1 включительно. Если положить y=R-1x
(х#=0), то получим x'Ax = y'R'ARy=y;_1A„_1yn_1 + ^,21 > 0, по-
скольку матрица An_j положительно определена по предполо-
жению индукции и у=й=О. Следовательно, указанный результат
справедлив и для матриц порядка п.
8. Все диагональные элементы п. о. матрицы положительны.
Доказательство. Полагая (j = I, 2, .... п), имеем
0 < х'Ах — аи.
9. Если А—п. о. (пхп)-матрица, а В—симметричная (пХп)-
матрица, то матрица А—/В положительно определена для всех
достаточно малых по абсолютной величине значений t.
Доказательство. Если Z = 0, то i-й главный минор мат-
рицы А—/В, являющийся функцией от /, положителен (А4.7).
Но поскольку эта функция непрерывна, он будет положитель-
ным и для 111 < 6г, где достаточно мало. Возьмем теперь
6 = min(6j, б8, ..., 6„). Тогда при |/|<6 все главные миноры
будут положительны, и искомый результат вытекает из А4.7.
10. (Разложение Холецкого.) Если матрица А положительно
определена, то существует единственная верхняя треугольная
матрица U с положительными диагональными элементами, для
которой A = U'U.
Доказательство. Мы используем здесь метод индукции и
предположим, что указанная однозначно определенная фактори-
зация имеет место для матриц порядка до п—1 включительно.
Таким образом.
где U„_j—однозначно определенная верхняя треугольная мат-
рица с положительными диагональными элементами. Поскольку
определитель треугольной матрицы равен произведению ее диа-
гональных элементов, то матрица Ь„_г не вырождена, и мы
можем определить матрицу
где d = (Un_1)-xc и k=ann—d'd. Поскольку матрица U опреде-
лена однозначно и A = U'U, то при k > 0 мы получаем требуе-
мое разложение матрицы А. Но ч
| А| = | U'U | = | U |2=|1)„_х|%
Приложение А. Некоторые результаты из алгебры матриц
381
так что &>0, поскольку | А| > О (А4.7) и | U„_t 1=^=0. Таким
образом, указанная факторизация существует и для положи-
тельно определенных матриц порядка п.
11. Если матрица L положительно определена, то для любого b
sup
h:h=#o
<т=ьг-ч>.
h Lh I
Доказательство. Для всех а имеем
0 ^ || (v—au) ||2 = й2 || u ||2—2au'v +1| v ||2
/ 11* V 2
12 (U'V)2
Отсюда при u#=0 мы получаем неравенство Коши — Шварца
||v||2||u||2Xu'v)2. Равенство достигается здесь тогда и только
тогда, когда v = au для некоторого а. Таким образом,
(u'v)2| ,
—7^-> = U U.
V V I
sup
v: v=A0
Поскольку матрица L положительно определена, существует такая
невырожденная матрица R, что L=RR' (А4.2). Полагая v—R'h
и u=R-1b, приходим к требуемому результату.
А5. Идемпотентные матрицы
Матрица Р называется идемпотентной, если Р2 = Р. Симметрич-
ная .идемпотентная матрица называется проекционной.
1. Симметричная матрица Р является идемпотентной матри-
цей ранга г тогда и только тогда, когда г ее собственных зна-
чений равны 1 и п—г собственных значений равны 0.
Доказательство. Если Р2 = Р, то из Рх = Лх вытекает, что
Хх'х = х'Рх=х'Р2х = (Рх)' (Рх) == 12х'х и Х(Х — 1) == 0. Поэтому
собственные значения матрицы Р равны либо 1, либо 0, и в силу
А2.6 г ее собственных значений равны 1 и (и—г) — нулю. Обратно,
если собственные значения равны 0 или 1, то мы можем без
ограничения общности полагать, что единице равны первые г
собственных значении матрицы. Поэтому существует такая орто-
гональная матрица Т, что
T'PT=(J' °) = Л, или Р = ТЛГ.
Следовательно, Р2 = ТЛТ'ТЛТ'= ТЛ2Т'= ТЛТ' = Р, и rankP = r
(А2.2).
2. Если Р—проекционная матрица, то trP = rankP.
382 Приложение А. Некоторые результаты ив алгебры матриц
Доказательство. Если гапкР = г, то в силу А5.1 г собствен-
ных значений матрицы Р равны единице и (п—г) — нулю.
Отсюда trP = r (Л 1.3).
3. Если матрица Р идемпотентна, то такова же и матрица I—Р.
Доказательство. (I—Р)2 = I —2Р + Р2= 1 —2Р 4- Р = I —Р.
4. Проекционные матрицы положительно пол'уопределены.
Доказательство. х'Рх = х' Р2х = (Рх)' (Рх) 0.
5. Если Pz (i=l, 2)—проекционные матрицы и разность
Pj—Р2 положительно полуопределена, то
(a) PiP2 = P2P1 = P2,
(b) Pf—Р2— проекционная матрица.
Доказательство, (а) Если Р(Х =0, то 0 x'(Pf —Р2)х =
= —х Р2х. Поскольку матрица Р2 положительно полуопределена
(А5.4), то х'Р2х = 0 и Р2х = 0. Поэтому для любого у мы имеем
Р2(1—Р1)у = 0, так как Pf(I—Р])у = О. Таким образом, P2Pty =
= Р2у, откуда вытекает, что РаРх = Р2 (А9.1). Производя транс-
понирование, получаем PtP2 — Р2, и (а) доказано.
(Ь) (Рг - р2)2=и -Р1Ра -P2Pf+Pl=Pi -р2-р2+р2 « Pt-P2.
А6. Дифференцирование векторов
Если
1 = [Ш]
dp LUpJJ’
то
1.
rf(P'a)
dp
= а,
о d(P'AP) ОАЙ .. .
2. г = 2Ар (А—симметричная матрица).
Доказательство. Утверждение (1) тривиально. Что каса-
ется (2), то
=2о,А+2 2 <i,A-2Sa„p,=2(AB,.
/ /
Приложение А. Некоторые результаты из алгебры матриц 383
А7. Разбиение матриц на блоки
Если матрицы А и D симметричны и существуют все встре-
чающиеся ниже обратные матрицы, то
/А В\"х /A~l + FE-*F' — FE-»\
\В' D/ =V —E-1F' Е~х )'
где E = D —В'А-ХВ и F = A~1B.
Доказательство. Поскольку матрица, обратная для заданной,
определена однозначно, то достаточно проверить, что в резуль-
тате умножения исходной матрицы на указанную получается
единичная.
А8. Решение линейных уравнений
Всякое решение совместной системы уравнений Вх = с можно
представить в виде В~с, где В”—некоторая обобщенная обрат-
ная для В матрица.
Доказательство. Прежде всего покажем, что все решения
уравнений Вх = с для любой конкретной матрицы В~ = С можно
получить по формуле
x=Cc-f-(CB—I)z, (1)
где вектор z произволен.
Для х, заданного формулой (1), имеем
Вх = ВСс 4- (ВСВ—В) z = ВСс = с
(в силу соотношения (3.45) из разд. 3.8.1с), так что х — решение
системы. Обратно, если х — какое-нибудь решение этой системы,
то, полагая z== — х, получаем
х = Сс—(СВ—I) х = Сс—Cc-f-x= х,
так что х можно получить по формуле (1). Это доказывает экви-
валентность этих двух решений.
Далее, если х—решение системы, то в силу доказанного х
можно представить в виде (1) для некоторого z. Если мы выбе-
рем матрицу М таким образом, что z = —Мс (выберем cft^=0 и
положим М=[(/«,,)], где mf/== — б^г^1), то
£ Сс—(СВ — I) Мс (С—СВМ+М) с == De,
где
BDB = ВСВ —ВСВМВ + ВМВ В —ВМВ + вмв в.
384 Приложение А. Некоторые результаты из алгебры матриц
Таким образом, матрица D является обобщенной обратной для
В и х имеет вид В~с. (Приведенное доказательство основыва-
ется на книге Searle (1971, гл. 1).)
А9. Два соотношения
1. Если Ах = 0 для всех х, то А = 0.
Доказательство. Полагая xk = 8lk (Л=1, 2........п), имеем
Ax = af = 0, где af есть i-й столбец матрицы А.
2. Если матрица А симметрична и х#Ах = 0 для всех х,
то А = 0.
Доказательство. Положим xk = blk (&=1, 2, ..., п); тогда
ап=0. Если положить хй = 6(fe=l, 2, ..., п), то х'Ах =
= 0 z> ац = 0 a^ = Q.
A tO. Разложение по сингулярным значениям
Пусть X—матрица размера пхр. Тогда ее можно предста-
вить в виде X = PSQ'
где Р—матрица размера п~хр, образованная р ортонормирован-
ными собственными векторами, соответствующими р наибольшим
собственным значениям матрицы XX'; Q—ортогональная матрица
размера р~Хр, образованная ортонормированнымн векторами
матрицы Х'Х, a 2 = diag(o1, а2, ..., ир)—диагональная рхр-
матрица. Здесь —сингулярные значения
матрицы X, равные квадратным корням из (неотрицательных)
собственных значений матрицы Х'Х.
Доказательство1). Предположим, что rank [Х'Х] = rank X — г
(А2.5). Тогда найдется такая ортогональная (р х р)-матрица Т, что
Х'ХТ = ТА,
где Л — diag(oi, of, ..., о®, 0, ..., 0), сг‘/> 0 . Положим
s^cr^Xt, (i—1, 2, ..., г).
Тогда X'sf = or1X't/ = azt; и XX's, = ozXtf = crfs,-. Таким образом,
эти sz (i=l, 2, ..., г) являются собственными векторами мат-
рицы XX', соответствующими собственным значениям о,- (i=l,
2, ..., г). Далее, s[sz=l, и, поскольку собственные векторы,
соответствующие различным собственным значениям симметричной
Ч Доказательство проводится автором только для случая о( > о2 > • • • >
> аг.—Прим, перев.
Приложение А. Некоторые результаты из алгебры матриц 385
матрицы, ортогональны, векторы sz ортонормированье В силу А2.3
и А2.4существует ортонормированный базис {sr+f, sr+2, ..., s„)про-
странства 0№[XX/J = 0V>[X']. Но сЛГ[Х'] J_5?[X] и sz£5?[xj (i =
= 1, 2, ..., г), так что S = (slt s2, ..., s„) — ортогональная
матрица размера пхп. Поэтому
{azszs„ i=l, 2, .... г,
0,1 = г + 1, ...,п,
и S'XT = . Наконец,
X = S0j) T' = PSQ\
где Р—матрица, образованная первыми р столбцами матрицы S,
и Q = Т.
АП. Некоторые результаты из математической
статистики
1. Для всякой случайной величины X выполняется неравен-
ство у2^—2.
Доказательство. Пусть p = £[XJ; тогда
О < var [(X—р)«] = Е [(X —р)<]—{£ [(X -р)2]}2
= р4—Р'2 = РгГ"^ 3-{-2^ = pl (Тг 4* 2)
\JL42 /
и у24-2>0.
2. Пусть X—неотрицательная невырожденная (т. е. не равная
тождественно постоянной) случайная величина. Если соответст-
вующие математические ожидания существуют, то
£[Х-Ч>(£[Х])-Ч
Доказательство. Пусть f (х) = х~1 и р = £ [X] (р > 0, так как
X не равняется тождественно нулю). Используя формулу Тей-
лора, получаем
f (X) = f (р) 4- (X -р) Г (р) 4- - (X -р)2 Г (Хо),
где Хо лежит между X и р. Далее, f" (Хо) = 2Хо3 > 0, так что
£[(Х—р)2/"(Х0)]>0. Поэтому
£ [X-»] = £ [f (X)] > f (р) = (£ [X])-i.
1/213 Зак. 571
Приложение В
ОРТОГОНАЛЬНЫЕ ПРОЕКЦИИ
В1. Ортогональное разложение векторов
1. Если О—векторное подпространство пространства Еп («-мер-
ного евклидова пространства), то каждый (пх 1)-вектор у можно
единственным образом представить в виде y = u + v, где и£Й и
v £ О-1-.
Доказательство. Предположим, что существуют два таких
разложения y = uf4-v,- (i=l, 2). Тогда (ux — u2) + (vx— v2) = 0.
Поскольку же (ux—и2)£й и (vx— то мы должны иметь
при этом ux = u2 и vx = v2.
2. Матрица Ро определяется соотношением и = Рау однозначно.
Доказательство. Если существуют две такие матрицы Pz
(i=l, 2), то, поскольку для каждого у вектор и определен одно-
значно, имеем (Р1-Ра)У=0 для всех у. Отсюда вытекает, что
Рх—Р2 = 0 (А9.1).
3. Матрицу Ра можно представить в виде Рй = ТГ, где столбцы
матрицы Т образуют ортонормированный базис подпространства Q.
Доказательство. Пусть Т=(ах, а2, ...,аГ), где г—размер-
ность й. Дополним совокупность ах, ос2, ..., аг до ортонорми-
рованного базиса в пространстве Еп, именно, ах, ..., аГ, аг+1, ...
.... ап. Тогда
п г п
У = S Ciai = 2 + 2 ciai = u + V,
i = l i = l f=r+l
где и £й и v^Q-1-. Ho aflij — dij, так что a'iy = ci. Поэтому
/«1у\
u = (ax, .... ar) ••• l = TT'y.
\®гУ/
В силу (2) Ра = ТТ'.
4. Матрица Pq симметрична и идемпотентна.
Приложение В. Ортогональные проекции
387
Доказательство. уже показали, что Ра = ТТ', а эта мат-
рица, очевидно, симметрична. Кроме того,
Ра = ТТ' ТТ' = Т1,Т' = ТТ' =, Ра.
5. 5?[Ра] = Й.
Доказательство. Очевидно, что 5? [Ра]ей, так как Ро проек-
тирует на Q. Обратно, если х£й, то x = Paxg5?[P]. Таким обра-
зом, эти два пространства совпадают.
6. Матрица 1„—Ра является матрицей ортогонального проек-
тирования на Ш-.
Доказательство. Из тождества у — Рау + (1„—Ра) У мы заклю-
чаем, что v=(In—Ра) У- Теперь можно применить полученные
выше результаты, поменяв ролями Q и QJ-.
7. Если Р—симметричная идемпотентная (п х п)-матрица, то
она является матрицей ортогонального проектирования на 5?[Р]
Доказательство. Представим вектор у в виде у = Ру + (1п— Р)у.
Тогда (Ру)'(1„-Р)У = У'(Р-Р2) у = 0, так что это есть разло-
жение вектора у на ортогональные компоненты. Сформулирован-
ный результат вытекает теперь из (5).
8. Если Я=Я[Х], то Рй = X (Х'Х)" X', где (Х'Х)-—произволь-
ная обобщенная обратная матрица для Х'Х (т. е. если В = Х'Х,
то В“ = В).
Доказательство. Пусть c = X'Y. Тогда В (В-с)= ВВ-ВР = Вр и
Р = В-с—решение уравнения Вр = с, т. е уравнения X'XP = X'Y.
Поэтому для 0 = ХР мы имеем Y = 0-f-(Y—0), где
0' (Y—0) = ft'X' (Y — Х'Хр) = р' (X'Y —Х'ХР) = 0.
Таким образом, мы получили ортогональное разложение век-
тора у, в котором 0 91 [X] и (Y —0) [X]. Поскольку же 0=
= Хр = X (Х'Х)-X'Y, то РВ = Х(Х'Х)-Х' (в силу (2)).
9. Если в (8) столбцы матрицы X линейно независимы, то
РЙ = Х(Х'Х)-1Х'.
Доказательство. Соотношение (9) вытекает из (8), но этот
результат можно доказать и непосредственно. Действительно,
Х = ТС, где С—невырожденная матрица (в силу (3)), и
Ра = ХС-1 (С-1)' X' = Х (С'С)-1 X' = X (Х'Х)-1 X*.
»/«ТЗ*
388 Приложение В. Ортогональные проекции
В2. Ортогональные дополнения
1. Если <№ [С]—нуль-пространство (ядро) матрицы С, то
Х[С] = (ЗЦС']Н.
Доказательство. Если х £<АР[С], то Сх = 0, и вектор х орто-
гонален каждой строке матрицы С. Поэтому х | 5? [С']. Обратно,
если xJ_3&[C']. то Сх = 0 и х£о№[С].
2. (Q1nQ2)-L = Q1± + ^1).
Доказательство. Пусть матрица С/ такова, что QZ = ^[CZ]
(i = 1, 2). Тогда
(й, П й2)1 = [с* |’L = 5i[C;, с;] (в силу В2.Г)
=5?[с;]+5г[Сг]=й1х+£2^.
ВЗ. Проекции на подпространства
1. Если соей, то РоРы = РаРй = Рш.
Доказательство. Поскольку <йсй и со=5?[Рш] (согласно В1.5),
имеем РнРш = Рш. Искомый результат вытекает из симметрии мат-
риц Рю и РЕ.
2. Ро—Р<о = Рихп£). если шей.
Доказательство. Рассмотрим представление Рау = Риу-Ь
-Е (PQ—Рю)у. Векторы Рйу и Риу принадлежат й, так что
(Ра—Ри) у£Й. Поэтому это представление является ортогональ-
ным разложением Й на со и co-i-лй, так как Ри(Рй—Рю) = 0
(в силу В3.1).
3. ЕслиА1—произвольная матрица, для которой со = [AJ П Й,
то со-1- П й = 5? [PqAJ.
Доказательство. В силу В2.1 и В2.2 имеем
о-*- Л й = (Й Л <№ [At]}-1- Л й = {Й-L 4-5J [А(]} Л й.
Если х принадлежит правой части, то
х =» рах =s рй {(!„—рй) а+а;₽ }=РйА;₽ е si [рйа;].
Обратно, если x£5i[PZiA[], то х£51[Рй]=й. Кроме того, если
zgco, то x'z = ₽'A1PfiZ = P'A1z = O, т. е. xgco-L. Таким образом,
х £ со-L л й.
Символ+обозначает здесь прямую сумму подпространств,— Прим. ред.
Приложение В. Ортогональные проекции
389
4. Если Aj—какая-нибудь матрица размера ?хп и ранга q,
то rank [РЙА;] = q тогда и только тогда, когда 91 [А,'] А £2' — 0.
Доказательство. В силу А2.1 имеем rank [РаА'] rank AP
Пусть a'i (i=l, 2, .... q)—строки матрицы Av Предположим,
что rank [РпА;] < q. Тогда столбцы матрицы РаА( линейно зави-
симы, и 0, т- е- существует вектор Х-с.-а.-С^ГА;],
который перпендикулярен £2. Поэтому 91 [А{] А СИ =# 0, что про-
тиворечит предположению. (Выбирая линейно независимые строки
матрицы Af, мы найдем, что указанный результат остается верным
и в том случае, если матрица Aj имеет размер kxn (k^q).)
13 № 571
Приложение С
НОРМАЛЬНАЯ ВЕРОЯТНОСТНАЯ
БУМАГА
Если Z ~ N (0, 1),то график функции распределения г/ = Ф(г)=
= pr (Z г) представляет собой S-образную кривую, изображен-
ную на рис. 1. В то же время, применяя нелинейное преобразо-
вание масштаба по оси у, можно преобразовать эту кривую в не-
которую прямую. Вид этого преобразования можно сделать
наглядным, если представить себе, что указанная кривая начерчена
на упругом листе и этот лист растягивается таким образом, чтобы
обратить эту кривую в прямую. Направления и величины соот-
ветствующих усилий показаны на рис. 1. Существует специальным
образом разграфленная бумага (см. рис. 2), в которой масштаб
по вертикали (выраженный в процентах) соответствует указанному
нелинейному преобразованию. Такую бумагу называют нормаль-
ной вероятностной бумагой или просто вероятностной бумагой.
График зависимости у — 100Ф(г) от г выражается на такой бумаге
прямой линией у = г.
Если Z ~ N (0, о2), то на рис. 2 соответствующий график также
будет изображаться прямой линией # = (г—6)/о2, но с другим
наклоном и другим параметром положения.
Основой для построения вероятностной бумаги служит сле-
дующая лемма.
Лемма. Если Z(i) < Z(2) < ... < Z(„, — упорядоченная выборка
из распределения N (0, 1), то
Е[Ф(2(/))] = ^р- (*=1,2.......п).
Доказательство (набросок). Рассмотрим преобразование U =
= Ф(г). Поскольку Ф—монотонно возрастающая функция, суще-
ствует обратная функция Z = Ф_1 (t/) = Z(t7). Если Ф— плотность
распределения вероятности случайной величины Z, то плотность
распределения вероятности случайной величины U равна
£(«) = ф(г(н))|^-| (0<«<1)
= ф(г (U)\ I Г1 = * (г («)> = ф = 1
— V’tzW/|dz| Ф'(г) ф.(г.(и)) ’
Приложение С. Нормальная вероятностная бумага
391
Рис. 1. Преобразование, переводящее график функции нормального распреде-
ления в прямую линию.
Рис. 2. График нормальной функции распределения на нормальной вероят-
ностной бумаге.
13*
392
Приложение С. Нормальная вероятностная бумага
т. е. U имеет равномерное на [0, 1] распределение. Поэтому, если
(7(/)=0(Zu)),toI7(1) < D(2) < ... < L/<n) —упорядоченная случай-
ная выборка из этого равномерного распределения. Из сообра-
жений симметрии можно ожидать, что значения делят интервал
[О, 1] на пЦ-1 приблизительно равных частей. Таким образом,
£[ф(ад=£[^о]=^т. (о
(Более точно, можно показать, что Uu> имеет бета-распределение;
см., например, David (1970).)
Можно также
что
показать [David (1970, с. 64—67, 161—163)],
ВДзФ-‘
(2)
или
1
1 о
Ф(Е[г(П])-—
(3)
Таким образом, в силу (2) предположение о том, что Z~ N (0, 1),
можно проверять, сравнивая Е с Z(n. Можно поступать и
иначе и, используя выражения (3) и (1), сравнивать с O(Z(l))
либо O(E[Z(/)]), либо E[<D(Z<n)]. Если использовать вероятност-
ную бумагу, то надо начертить график зависимости (j—или
i/(n-J-l) от Z(I). При достаточно больших п (когда наблюдения
Z(/) достаточно близки к их математическим ожиданиям) нормаль-
ность случайной величины Z будет выражаться в приблизительно
линейном характере этого графика.
По причинам главным образом практического характера пред-
почитают иметь дело с —^1п’ а не с 17(п + 0- Кроме того,
обычно вероятностную бумагу ориентируют таким образом, что
нелинейная шкала располагается на оси х, и вычерчивают график
зависимости ZU) от (i—Несколько примеров подобных
графиков с размерами выборок от 8 до 384 приводят Daniel, Wood
(1971, с. 34—43), и читателю стоит обратиться к ним. Эти авторы
заключают, что выборки объема 8 почти ничего не говорят о нор-
мальности; выборки объема 16 очень неустойчивы; выборки объема
32 ведут себя явно лучше; выборки объема 64 почти всегда в цен-
тральной области графика похожи на прямую, но флюктуируют
на краях графика; выборки объема 384 выглядят очень устойчи-
выми, за исключением нескольких наименьших и наибольших
точек. Значение п рекомендуется брать не меньшим 20, предпо-
Приложение С. Нормальная вероятностная бумага
393
чтительнее большим 50. Дальнейшие подробности относительно
графиков вероятностей и ссылки на соответствующую литературу
можно найти в Wilk, Gnanadesikan (1968). Некоторые интерес-
ные графики для распределений, отличных от нормального, пред-
ставлены в книге Hahn, Shapiro (1967, гл. 8).
Если построение графика производится автоматически, то
вычерчивают график зависимости Z(f) от Ф-1 (СР*
с выражением (2)). Для Ф-1 имеется целый ряд эффективных
численных аппроксимаций. Andrews, Tukey (1973) описывают
грубый, но в то же время полезный метод построения графиков,
использующий шестистрочную печать телетайпа.
Вычерчивание графиков вероятностей не только приносит
пользу при исследовании остатков (§ 6.6), но также используется
при рассмотрении различных гипотез в некоторых ситуациях дис-
персионного анализа. Например, Daniel (1959) использовал так
называемую „полунормальную“ бумагу1) в анализе факторных
планов типа 2". При нулевой гипотезе о том, что способ обра-
ботки не оказывает реального влияния ни на один из факторов,
абсолютные величины различных сравнений (главные эффекты,
взаимодействия первого порядка, взаимодействия второго порядка
и т. д.) ведут себя подобно случайной выборке из полунормаль-
ного распределения. Поэтому, если вычертить график зависимо-
сти абсолютных значений этих сравнений от репрезентативных
(представительных) значений стандартного полунормального рас-
пределения, то при отсутствии реальных эффектов или взаимо-
действий график должен вести себя как прямая, проходящая
через начало координат. Наличие же эффектов и взаимодействий
выражается в больших уклонениях значений соответствующих
сравнений ОТ линейной конфигурации.
В то же время применить такой метод в общем дисперсион-
ном анализе гораздо труднее, поскольку даже при нулевой гипо-
тезе об отсутствии эффектов, взаимодействий и т. д. средние
квадраты (SS/df) в обычной таблице дисперсионного анализа
имеют разные распределения из-за различного числа степеней
свободы. Один из подходов к этой задаче предлагают Gnanade-
sikan, Wilk (1970).
1) В полунормалнной бумаге по оси у откладываются значения функции
распределения (Ф (г)4-Ф (—г))/2, г > 0.— Прим, ред.
Приложение D
ПРОЦЕНТНЫЕ ТОЧКИ
t-СТАТИСТИКИ БОНФЕРРОНИ
Таблица значений для различных значений a, k и v.
[Здесь определяется из соотношения
pr[7>Z“,(afc>]=§.
где Т—случайная величина, имеющая ^-распределение с v сте-
пенями свободы (см. разд. 5.1.1а настоящей книги).]
g=0-05
jA" 5 7 10 12 15 20 24 30 40 60 120 оо
2 3.17 2.84 2.64 2.56 2.49 2.42 2.39 2.36 2,33 2.30 2.27 2.24
3 3.54 3.13 2.87 2.78 2.69 2.61 2.58 2.54 2.50 2.47 2.43 2.39
4 3.81 3.34 3.04 2.94 2.84 2.75 2.70 2.66 2.62 2.58 2.54 2.50
5 4.04 3.50 3.17 3.06 2.95 2.85 2.80 2.75 2.71 2.66 2.62 2.58
6 4.22 3.64 3.28 3.15 3.04 2.93 2.88 2.83 2.78 2.73 2.68 2.64
7 4.38 3.76 3.37 3.24 3.11 3.00 2.94 2.89 2.84 2.79 2.74 2.69
8 4.53 3.86 3.45 3.31 3.18 3.06 3.00 2.94 2.89 2.84 2.79 2.74
9 4.66 3.95 3.52 3.37 3.24 3.11 3.05 2.99 2.93 2.88 2.83 2.77
10 4.78 4.03 3.58 3.43 3.29 3.16 3.09 3.03 2.97 2.92 2.86 2.81
15 5.25 4.36 3.83 3.65 3.48 3.33 3.26 3.19 3.12 3.06 2.99 2.94
20 5.60 4.59 4.01 3.80 3.62 3.46 3.38 3.30 3.23 3.16 3.09 3.02
25 5.89 4.78 4.15 3.93 3.74 3.55 3.47 3.39 3.31 3.24 3.16 3.09
30 6.15 4.95 4.27 4.04 3.82 3.63 3.54 3.46 3.38 3.30 3.22 3.15
35 6.36 5.09 4.37 4.13 3.90 3.70 3.61 3.52 3.43 3.34 3.27 3.19
40 6.56 5.21 4.45 4.20 3.97 3.76 3.66 3.57 3.48 3.39 3.31 3.23
45 6.70 5.31 4.53 4.26 4.02 3.80 3.70 3.61 3.51 3.42 3.34 3.26
50 6.86 5.40 4.59 4.32 4.07 3.85 3.74 3.65 3.55 3.46 3.37 3.29
100 8.00 6.08 5.06 4.73 4.42 4.15 4.04 3.90 3.79 3.69 3.58 3.48
250 9.68 7.06 5.70 5.27 4.90 4.56 4.4* * 4.2* 4.1* 3.97 3.83 3.72
Источник: Dunn (1961, табл, I и 2).
• Значение получено графической интерполяцией.
Приложение D. Процентные точки t-статистики Бонферрони 395
а = 0.01
5 7 . 10 12 15 20 24 30 40 60 120 00
2 4.78 4.03 3.58 3.43 3.29 3.16 3.09 3.03 2.97 2.92 2.86 2.81
3 5.25 4.36 3.83 3.65 3.48 3.33 3.26 3.19 3.12 3.06 2.99 2.94
4 5.60 4.59 4.01 3.80 3.62 3.46 3.38 3.30 3.23 3.16 3.09. 3.02
5 5.89 4.78 4.15 3.93 3.74 3.55 3.47 3.39 3.31 3-24 3.16 3.09
6 6.15 4.95 4.27 4.04 3.82 3.63 3.54 3.46 3.38 3.30 3.22 3.15
7 6.36 5.09 4.37 4.13 3.90 3.70 3.61 3.52 3.43 3.34 3.27 3.19
8 6.56 5.21 4.45 4.20 3.97 3.76 3.66 3.57 3.48 3.39 3.31 3.23
9 6.70 5.31 4.53 4.26 4.02 3.80 3.70 3.61 3.51 3.42 3.34 3.26
10 6.86 5.40 4.59 4.32 4.07 3.85 3.74 3.65 3.55 3.46 3.37 3.29
15 7.51 5.79 4.86 4.56 4.29 4.03 3.91 3.80 3.70 3.59 3.50 3.40
20 8.00 6,08 5,06 4.73 4.42 4.15 4.04 3.90 3.79 3.69 3.58 3.48
25 8.37 6.30 5.20 4.86 4.53 4.25 4.1* 3.98 3.88 3.76 3.64 3.54
30 8.68 6.49 .5.33 4.95 4.61 4.33 4.2* 4.13 3.93 3.81 3.69 3.59
35 8.95 6.67 5.44 5.04 4.71 4.39 4.3* 4.26 3.97 3.84 3.73 3.63
40 9.19 6.83 5.52 5.12 4.78 4.46 4.3* 4.1* 4.01 3.89 3.77 3.66
45 9.41 6.93 5.60 5.20 4.84 4.52 4.3* 4.2* 4.1* 3.93 3.80 3.69
50 9.68 7.06 5.70 5.27 4.90 4.56 4.4* 4.2* 4.1* 3.97 3.83 3.72
100 11.04 7.80 6.20 5.70 5.20 4.80 4.7* 4.4* 4.5* 4.00 3.89
250 13.26 8.83 6:9* 6.3* 5.8* 5.2* 5.0* 4.9* 4.8* 4.11
Приложение Е
РАСПРЕДЕЛЕНИЕ МАКСИМУМА
АБСОЛЮТНЫХ ВЕЛИЧИН к
СЛУЧАЙНЫХ ВЕЛИЧИН, ИМЕЮЩИХ
«-РАСПРЕДЕЛЕНИЕ СТЬЮДЕНТА
Таблица значений ug>vp для различных значений р, a, k и v.
[Здесь v> р определяется из соотношения
рг[{/>н£чр] = а,
a U —максимум абсолютных величин k случайных величин, каж-
дая из которых имеет /-распределение Стьюдента с v степенями
свободы и корреляция между любыми двумя из которых равна р
(см. разд. 5.1.1b настоящей книги).]
р=0.0
v\k 1 2 3 4 5 6 8 10 12 15 20
а = 0.10 3 2.353 2.989 3.369 3.637 3.844 4.011 4.272 4.471 4.631 4.823 5.066
4 2.132 2.662 2.976 3.197 3.368 3.506 3.722 3.887 4.020 4.180 4.383
5 2.015 2.491 2.769 2.965 3.116 3.239 3.430 3.576 3.694 3.837 4.018
6 1.943 2.385 2.642 2.822 2.961 3.074 3.249 3.384 3.493 3.624 3.790
7 1.895 2.314 2.556 2.725 2.856 2.962 3.127 3.253 3.355 3.478 3.635
8 1.860 2.262 2.494 2.656 2.780 2.881 3.038 3.158 3.255 3.373 3.522
9 1.833 2.224 2.447 2.603 2.723 2.819 2.970 3.086 3.179 3.292 3.436
10 1.813 2.193 2.410 2.562 2.678 2.771 2.918 3.029 3.120 3.229 3.368
11 1.796 2.169 2.381 2.529 2.642 2.733 2.875 2.984 3.072 3.178 3.313
12 1.782 2.149 2.357 2.501 2.612 2.701 2.840 2.946 3.032 3.136 3268
15 1.753 2.107 2.305 2.443 2.548 2.633 2.765 2.865 2.947 3.045 3.170
20 1.725 2.065 2255 2.386 2.486 2.567 2.691 2.786 2.863 2.956 3.073
25 1.708 2.041 2.226 2.353 2.450 2.528 2.648 2.740 2.814 2.903 3.016
30 1.697 2.025 2 207 2.331 2.426 2.502 2.620 2.709 2.781 2.868 2.978
40 1.684 2.006 2.183 2.305 2.397 2.470 2.585 2.671 2.741 2.825 2.931
60 1.671 1.986 2.160 2,278 2.368 2.439 2.550 2.634 2.701 2.782 2.884
Источник: Hahn, Hendrickson (1971).
Приложение Е. Распределение максимума k случайных величин
397
р=0.0
«л* 1 2 3 4 5 6 8 10 12 15 20
а = 0.05
3 3.183 3.960 4.430 4.764 5.023 5.233 5.562 5.812 6.015 6.259 6567
4 2.777 3.382 3.745 4.003 4.203 4.366 4.621 4.817 4.975 5.166 5.409
5 2.571 3.091 3.399 3.619 3.789 3.928 4.145 4.312 4.447 4.611 4.819
6 2.447 2.916 3.193 3.389 3.541 3.664-3.858 4.008 4.129 4.275 4.462
7 2.365 2.800 3.056 3.236 3.376 3.489 3.668 3.805 3.916 4.051 4.223
8 2.306 2.718 2.958 3.128 3.258 3365 3.532 3.660 3.764 3.891 4.052
9 2.262 2.657 2.885 3.046 3.171 3.272 3.430 3.552 3.651 3.770 3.923
10 2.228 2.609 2.829 2.984 3.103 3.199 3.351 3.468 3.562 3.677 3.823
11 2.201 2.571 2.784 2.933 3.048 3.142 3.288 3.400 3.491 3.602 3.743
12 2.179 2.540 2.747 2.892 3.004 3.095 3.236 3.345 3.433 3.541 3.677
15 2.132 2.474 2.669 2.805 2.910 2.994 3.126 3.227 3.309 3.409 3.536
20 2.086 2.411 2.594 2.722 2.819 2.898 3.020 3.114 3.190 3.282 3.399
25 2.060 2.374 2.551 2,673 2.766 2.842 2.959 3.048 3.121 3.208 3.320
30 2.042 2.350 2.522 2.641 2.732 2.805 2.918 3.005 3.075 3.160 3.267
40 2.021 2.321 2.488 2.603 2.690 2.760 2.869 2.952 3.019 3.100 3.203
60 2.000 2.292 2.454 2.564 2.649 2.716 2.821 2.900 2.964 3.041 3.139
а = 0.01
3 5.841 7.127 7.914 8.479 8.919 9.277 9.838 10.269 10.616 11.034 11.559
4 4?604 5.462 5.985 6.362 6.656 6.897 7.274 7.565 7.801 8.087 8.451
5 4.032 4.700 5.106 5.398 5.625 5.812 6.106 6.333 6.519 6.744 7.050
6 3.707 4.271 4.611 4.855 5.046 5.202 5.449 5.640 5.796 5.985 6.250
7 3.500 3.998 4.296 4.510 4.677 4.814 5.031 5.198 5.335 5.502 5.716
8 3.355 3.809 4.080 4.273 4.424 4.547 4.742 4.894 5.017 5.168 5.361
9 3.250 3.672 3.922 4.100 4.239 4.353 4.532 4.672 4.785 4.924 5.103
10 3.169 3.567 3,801 3.969 4.098 4.205 4.373 4.503 4.609 4.739 4.905
11 3.106 3.485 3.707 3.865 3.988 4.087 4.247 4.370 4.470 4.593 4.750
12 3.055 3.418 3.631 3.782 3.899 3.995 4.146 4.263 4.359 4.475 4.625
15 2.947 3.279 3.472 3.608 3.714 3.800 3.935 4.040 4.125 4.229 4.363
20 2.845 3.149 3.323 3.446 3.541 3.617 3.738 3.831 3.907 3.999 4.117
25 2.788 3.075 3.239 3.354 3.442 3.514 3.626 3.713 3.783 3.869 3.978
30 2.750 3.027 3.185 3.295 3.379 3.448 3.555 3.637 3.704 3.785 3.889
40 2.705 2.969 3.119 3.223 3.303 3.367 3.468 3.545 3.607 3.683 3.780
60 2,660 2.913 3.055 3.154 3,229 3.290 3.384 3.456 3.515 3,586 3.676
398 Приложение Е. Распределение максимума k случайных величин
р=0.2
«Л* 1 2 3 4 5 6 8 10 12 15 20
а=0,10
3 2.353 2.978 3.347 3.607 3.806 3.967 4.216'4.405 4,557 4.739 4.969
4 2.132 2.653 2,958 3.172 3.337 3.470 3.676 3.833 3.960 4.112 4.303
5 2.015 2,482 2.753 2.943 3,089 3.207 3,390 3.530 3.642 3.778 3.948
6 1.943 2.377 2.627 2.802 -2.937 3.045 3.213 3.342 3.446 3.570 3.728
7 1.895 2,306 2.542 2.707 2.833 2.935 3.093 3.214 3.312 3.429 3.577
8 1.860 2.255 2.481 2.638 2.759 2.856 3.007 3.122 3.214 3.326 3.468
9 1.833 2.217 2.435 2.586 2,702 2.796 2.941 3.052 3.141 3.248 3.384
10 1,813 2.187 2.399 2,546 2.658 2.749'2.889 2.997 3.083 3.187 3.319
11 1.796 2.163 2.370 2.513 2,623 2.711 2.848 2.952 3.036 3.138 3.266
12 1.782 2.143 2.346 2.487 2,594 2.680 2.814 2.916 2,998 3.097 3.222
15 1.753 2.101 2.295 2.429 2.531 2.613 2.741 2.837 2.915 3.009 3.128
20 1.725 2.060 2.245 2.373 2.470 2.548 2.669 2,761 2.835 2.923 3.036
25 1.708 2.036 2.217 2.341 2.435 2.510 2.627 2.716 2.787 2.873 2.981
30 1.697 2.020 2.198 2.319 2.412 2.485 2.600 2.686 2.756 2.839 2.945
40 1.684 2.000 2.174 2,293 2.383 2.455 2.566 2.649 2,717 2.798 2,900
60 1,671 1.981 2.151 2.267 2,354 2.424 2.532 2.613 2.679 2.757 2.856
а=0.05
3 3.183 3.946 4.403 4.727 4.976 5.178 5.492 5.731 5.923 6.154 6.445
4 2.777 3.371 3.725 3.975 4.168 4,325 4.569 4.755 4.906 5.087 5,316
5 2.571,3.082 3.383 3.596 3.760 3.893 4.102 4.261 4.390 4.545 4.742
6 2.447 2.908 3.178 3.369 3.516 3.635 3.821 3.964 4.079 4.218 4.395
7 2.365 2.793 3.042 3.218 3.353 3.463 3,634 3.766 3.872 4.000 4.163
8 2.306 2,711 2.946 3.111 3.238 3.340 3.501 3.624 3.724 3.844 3.997
9'2.262 2.650 2.874 3.031 3.151 3.249 3.402 3.518 3.613 3.727 3.873
10 2.228 2.603 2.818 2.969 3.084 3.178 3.324 3.436 3.527 3.637 3.776
11 2.201 2.565 2,774 2*919 3.031 3.122 3.263 3371 3.458 3.564 3.698
12 2.179 2,535 2.738 2.879 2.988 3.075 3.212 3.317 3.402 3.504 3.635
15 2.132 2.469 2.660 2.793 2.895 2.977 3.105 3.203 3,282 3.377 3.499
20 2.086 2.406 2.586 2.711 2.806 2.883 3.002 3.093 3.166 3.255 3.367
25 2.060 2.370 2.543 2.663 2.754 2.828 2.942 3.029 3.099 3;183 3.291
30 2.042 2.346 2.515 2.632 2.721 2.792 2.903 2.987'3.055 3.137 3.241
40 2,021 2.317 2.481 2.594 2.679 2.748 2.855 2.936 3.001 3.097 3.179
60 2.000 2.288 2,447 2.556 2,639 2.705 2.808 2.886 2.948 3.023 3.119
Приложение Е. Распределение максимума k случайных величин 399
а = 0.01
3 5.841 7.104 7.871 8.418 8.841 9.184 9.721 10.132 10.462 10,860 11.360
4 4.604 5.447 5.958 6.323 6.607 6.838 7200 7.477 7.702 7.973 8.316
5 4.032 4.690 5.085 5.369 5.589 5.769 6.051 6.268 6.444 6.658 6.930
6 3.707 4.263 4.595 4.832 5.017 5.168 5.405 5.588 5.736 5,917 6,147
7 3.500 3.991 4.283 4.491 4.653 4.786 4.994 5,155 5.286 5.445 5.648
8 3.355 3.803 4.068 4.257 4.403 4.523 4.711 4.857 4.975 5.119 5303
9 3.250 3.666 3.911 4.086 4.221 4.331 4.505 4.639 4,748 4.881 5.051
10 3.169 3.562 3.792 3.956 4.082 4.186 4.348 4.474 4.576 4.700 4.859
11 3.106 3.480 3.699 3.854 3,974 4.071 4,225 4.344 4.440 4,558 •4.708
12 3.055 3.414 3.623 3.771 3,886 3.979 4.126 4,239 4.331 4.443 4.587
15 2.947 3.276 3.466 3.599 3.703 3.787 3.919 4.020 4.103 4.204 4.332
20 2.845 3.146 3.318 3.439 3.532 3.607 3.725 3.816 3.890 3.980 4.094
25 2.788 3.072 3.235 3.348 3.435 3.506 3.616 3,701 3.769 3.853 3.959
30 2.750 3.025 3.181 3,289 3.373 3.440 3.545 3.626 3.692 3.771 3.872
40 2.705 2.967 3.115 3,218 3.297 3.361 3.460 3.536 3.598 3.672 3.767
60 2.660 2.911 3.052 3.150 3.224 3.285 3,378 3.449 3.507 3.577 3.666.
р=0.4
«Л* 1 2 3 4 5 6 8 10 12 15 20
а=0.10
3 2.353 2.941 3.282 3.519 3.700 3.845 4.069 4.237 4.373 4.534 4.737
*2.132 2.623 2.905 3.101 3.250 3.370 3.556 3.696 3.809 3.943 4.113
5 2,015 2.455 2.706 2380 3.013 3.120 3.284 3.410 3.510 3.630 3,781
6 1.943 2,352 2.584 2.745 2.867 2.965 3.117 3.233 3.325 3,436 3.575
7 1.895 2.283 2.502 2.653 2.768 2.861 3.004 3.112 3.199 3.304 3.435
8 1.860 2.233 2.442 2.587 2,697 2.786 2.922 3.026 3.109 3.208 3.334
9 1.833 2.195 2.398 2.538 2.644 2.729 2.860 2.960 3.040 3.136 3.257
10 1.813 2.166 2.363 2.499 2.602 2.684 2,812 2.909 2,986 3.079 3,196
11 1.796 2,142 2.335 2.468 2,568 2.649 2.773 2.867 2.943 3.034 3.148
12 1.782 2.123 2.312 2.442 2.541 2.620 2.742 2.834 2,908 2.996 3.108
15 1.753 2.081 2.263 2,387 2.481 2.556 2.673 2.760 2,831 2.916 3,022
20 1.725 2.041 2.216 2.334 2.424 2.496 2.606 2.690 2.757 2.837 2.938
25 1.708 2.018 2.188 2.303 2.390 2.460 2,567 2.649 2.713 2.791 2.888
30 1.697 2.003 2.169 2.283 2,368 2.437 2.542 2.621 2.684 2.760 2.856
40 1,684 1.984 2.146 2.257 2.341 2.408 2.510 2.587 2.650 2.723 2.816
60 1,671 1.965 2.124 2,233 2.315 2.379 2.479 2.554 2,615 2.686 2,776
400
Приложение Е. Распределение максимума k случайных величин
а =0.05
3 3.183 3.902 4.324 4,620 4.846 5.028 5,309 5.522 5,693 5.898 6.155
4 2.777 .3.337 3.665 3.894 4.069 4.210 4.430 4.596 4.730 4.891 5.093
5 2,571 3.053 3.333 3.528 3.677 3.798 3.986 4.128 4.243 4,381 4.555
6 2.447 2.883 3,134 3.309 3.443 3.552 3.719 3.847 3.950 4.074 4.230
7 2.365 2.770 3.002 3.164 3.288 3.388 3.543 3.661 3.756 3.870 4.014
8 2.306 2.690 2.909 3,061 3.177 3.271 3.417 3.528 3.617 3.725 3.860
9 2.262 2.630 2.839 2.984 3,095 3.184 3.323 3.429 3.513 3.616 3.745
10 2.228 2.584 2.785 2.925 3.032 3.117 3.250 3.352 3.433 3.531 3.655
11 2.201 2.547 2.742 2.877 2.980 3.063 3.192 3.290 3.369 3.464 3.583
12 2.179 2.517 2.707 2.838 2.939.3.020 3.145 3.240 3.317 3.409 3.525
15 2.132 2.452 2.632 2,756 2.850 2.927 3.043 3.133 3.205 3.291 3.400
20 2.086 2,391 2.560 2.677 2.766 2.837 2.947 3.031 3.098 3.178 3.280
25 2.060 2.355 2.520 2.631 2.718 2.786 2.891 2.971 3.036 3.113 3211
30 2.042 2.332 2.492 2.602 2.685 2.751 2.854 2.933 2.995 3.070 3.165
40 2,021 2,304 2.459 2.565 2.646 2.711 2.810 2.885 2.945 3,018 3.110
60 2.000 2.275 2,426 2.530 2.608 2.670 2.766 2.838 2.897 2.966 3.05.4
а = 0.01
3 5.841 7.033 7.740 8.240 8.623 8.932 9.414 9.780 10.074 10.428 10,874
4 4.604 5.401 5.874 6.209 6.467 6.675 7,000 7.249 7.448 7.688 7.991
5 4.032 4.655 5.024 5.284 5.485 5.648 5.902 6.096 6.253 6.442 6.682
6 3.707 4.235 4,545 4.764 4.934 5.071 5.285 5.449 5.582 5.742 5:946
7 3.500 3.967 4.241 4.435 4.583 4.704 4.893 5.038 5,155 5.297 5.477
8 3.355 3.783 4.031 4.207 4.343 4.452 4.624 4.755 4.861 4.990 5,154
9 3,250 3.648 3,879 4.041 4.167 4.268 4.427 4.549 4.647 4.766 4.918
10 3.169 3.545 3.763 3.916 4.034 4.12? 4.277 4.392 4.484 4Й96 4.739
11 ЗЛ06 3.464 3.671 3.817 3.929 4.019 4.160 4.269 4.357 4.463 4.598
12 3.055 3.400 3.598 3.737 3.844 3.931 4.066 4.170 4,254 4.356 4.484
15 2.947 3.263 3.444 3.571 3.668 3.746 3.869 3.962 4.039 4,131 4,247
20 2,845 3.135 3,301 3.415 3.504 3.574 3.685 3.769 3,837 3.921 4.026
25 2.788 3.063 3,219 3.327 3.410 3.477 3,581 3.660 3.725 3.802 3.900
30 2.750 3.016 3.166 3.270 3.349 3,415 3.514 3.590 3.650 3.726 3.820
40 2.705 2.959 3.103 3,202 3.277 3.337 3.432 3.505 3,562 3.632 3.722
60 2.660 2.904 3,040 3.134 3.207 3.264 3.353 3.421 3.477 3,542 3,628
Приложение Е. Распределение максимума k случайных, величин 401
р=0.5
1 2 3 4 5 6 8 10 12 15 20
а =0.10
3 2.353 2.912 3.232 3.453 3.621 3.755 3.962 4.117 4.242 4.390 4.576
4 2.132 2.598 2.863 3.046 3.185 3.296 3.468 3.597 3.701 3.825 3.980
5 2.015 2.434 2.669 2.832 2.956 3.055 3.207 3.323 3.415 3.525 3.664
6 1,943 2.332 2.551 2.701 2.815 2.906 3.047 3.153 3.238 3.340 3.469
7 1.895 2.264 2,471 2,612 2.720 2.806 2.938 3.038 3.119 3.215 3.336
8 1.860 2.215 2.413 2.548 2.651 2.733 2.860 2.956 3.032 3.124 3.239
9 1.833 2.178 2.369 2.500 2.599 2.679 2.801 2.893 2.967 3.055 3.167
10 1.813 2.149 2.335 2.463 2.559 2.636 2.755 2.844 2.916 3.002 3.110
11 1.796 2.126 2.308 2.433 2.527 2.602 2.718 2.805 2.875 2.959 3.064
12 1.782 2.107 2.286 2.408 2.500 2.574 2.687 2.773 2.841 2.923 3.026
15 1.753 2.066 2.238 2.355 2.443 2.514 2.622 2.704 2.769 2.847 2.945
20 1,725 2.027 2.192 2.304 2,388 2.455 2.559 2,637 2.699 2.773 2.867
25 1.708 2.004 2.165 2.274 2.356 2.421 2.522 2.597 2.658 2.730 2.820
30 1.697 1.989 2.147 2.254 2.335 2.399 2.498 2.572 2.631 2.701 2.790
40 1.687 1.970 2.125 2.230 2.309 2.372 2.468 2.540 2.598 2.667 2.753
60 1.671 1.952 2.104 2.207 2.284 2.345 2.439 2.509 2.565 2.632 2.716
а =0.05
3 3.183 3.867 4.263 4,538 4.748 4.916 5.176 5.372 5.529 5.718 5.953
4 27777 3.310 3.618 3.832 3.995 4.126 4.328 4.482 4.605 4.752 4.938
5 2.57 3.03 3.29 3.48 3.62 3,73 3.90 4.03 4.14 4.26 4,42
6 2.45 2.86 3.10 3.26 3.39 3.49 3.64 3.76 3.86 3.97 4.11
7 2.36 2.75 2.97 3.12 3.24 3.33 3.47 3.58 3.67 3.78 3.91
8 2.31 2,67 2.88 3.02 3.13 3.22 3.35 3.46 3.54 3.64 3,76
9 2.26 2.61 2.81 2,95 3.05 3.14 3.26 3.36 3.44 3.53 3.65
10 2.23 2,57 2,76 2,89 2,99 3.07 3.19 3.29 3.36 3,45 3.57
11 2.20 2.53 2.72 2.84 2.94 3.02 3.14 3.23 3.30 3.39 3.50
12 2,18 2.50 2.68 2.81 2.90 2.98 3.09 ЗЛ8 3.25 3.34 3.45
15 2.13 2,44 2.61 2.73 2.82 2,89 3.00 3.08 3.15 3.23 3.33
20 2.09 2.38 2.54 2.65 2.73 2.80 2.90 2.98 3.05 3.12 3.22
25 2.060 2.344 2.500 2.607 2.688 2.752 2.852 2.927 2.987 3.059 3.150
30 2.04 2,32 2.47 2.58 2.66 2.72 2.82 2.89 2.95 3.02 3.11
40 2.02 2.29 2.44 2.54 2.62 2.68 2,77 2.85 2,90 2,97 3.06
60 2.00 2.27 2.41 2,51 2.58 2,64 2.73 2.80 2.86 2,92 3.00
402 Приложение Е. Распределение максимума k случайных величин
а = 0.01
3 5.841 6.974 7.639 8.104 8.459 8.746 9.189 9.527 9.797 10.123 10.532
4 4.604 5.364 5.809 6.121 6.361 6.554 6.855 7.083 7.267 7.488 7.766
5 4.03 4.63 4.98 5.22 5.41 5.56 5.80 5.98 6.12 6.30 6.52
6 3.71 4.21 4.51 4.71 4.87 5.00 5.20 5.35 5.47 5.62 5.81
7 3.50 3.95 4.21 4.39 4.53 4.64 4.82 4.95 5.06 5.19 5.36
8 3.36 3.77 4.00 4.17 4.29 4.40 4.56 4.68 4.78 4.90 5.05
9 3.25 3.63 3.85 4.01 4.12 4.22 4.37 4.48 4.57 4.68 4.82
10 3.17 3.53 3.74 3.88 3.99 4.08 4.22 4.33 4.42 4.52 4.65
11 3.11 3.45 3.65 3.79 3.89 3,98 4.11 4.21 4.29 4.39 4.52
12 3.05 3.39 3.58 3.71 3.81 3.89 4.02 4.12 4.19 4.29 4.41
15 2.95 3.25 3.43 3.55 3.64 3.71 3.83 3.92 3.99 4.07 4.18
20 2.85 3.13 3.29 3.40 3.48 3.55 3.65 3.73 3.80 3.87 3.97
25 2.788 3.055 3.205 3.309 3.388 3.452 3.551 3.626 3.687 3.759 3.852
30 2.75 3.01 3.15 3.25 3.33 3.39 3.49 3.56 3.62 3.69 3,78
40 2.70 2.95 3.09 3.19 3.26 3.32 3.41 3.48 3.53 3.60 3.68
60 2.66 2.90 3.03 3.12 3.19 3.25 3.33 3.40 3.45 3.51 3.59
Приложение F
ДОВЕРИТЕЛЬНЫЕ ПОЛОСЫ
УОРКИНГА-ХОТЕЛЛИНГА
ДЛЯ КОНЕЧНЫХ ИНТЕРВАЛОВ
Доверительная полоса Уоркинга—Хотеллинга для прямой
линии в пределах интервала а ^.х^. b—это область, заключенная
между двумя кривыми, определяемыми соотношением (7.7) из
разд. 7.2.3.
Таблица значений 1 для различных значений п—2 и с, где с
определяется формулой (7.9).
« = 0.01
с \” -2 5' 10 15 20 30 40 60 120 СО
Одна 0.0 4.03 3.16 2.95 2.84 2.75 2.70 2.66 2.62 2.58
точка 0 05 4.10 3.22 2.99 2.88 2.79 2.74' 2.69 2.65 2.61
0.1 4.18 3.27 3.03 2.93 2.83 2.78 2.73 2.69 2.64
0.15 4.26 3.32 3.07 2.96 2.86 2.81 2.76 2.72 2.67
0.2 4.33 3.36 3.11 3.00 2.89 2.84 2.80 2.75 2.70
0.3 4.45 3.44 3.18 3.06 2.95 2.90 2.85 2.80 2.75
0.4 4.56 3.50 3.24 3.11 3.00 2.95 2.89 2.84 2.79
0.6 4.73 3.61 3.32 3.20 3.07 3.02 2.96 2.91 2.86
0.8 4.85 3.68 3.39 3.25 3.13 3.07 3.01 2.95 2.90
1.0 4.94 3.74 3.43 3.30 3.17 3.1.1 3.05 2.99 2.94
1.5 5.05 3.81 3.50 3.36 3.22 3.16 3.10 3.04 2.98
2.0 5.10 3.85 3.53 3.38 3.25 3.19 3.15 3.06 3.01
ОС 5.15 3.89 3.57 3.42 3.28 3.22 3.15 3.10 3.04
Источник; Wynn, Bloomfield (1971, приложение А).
I
404
Приложение F. Доверительные полосы Уоркинга — Хотеллинга
а=0.05
К 1 ' с\п~2 5 10 15 20 30 40 60 120 00
ОВна о.О 2.57 2.23 2.13 2.08 2.04 2.02 2.00 1.98 1.96
точка_ ., 0.05 2.62 2.27 2.17 2.12 2.08 2.06 2.03 2.02 1.99
0.1 2.68 2.31 2.21 2.16 2.12 2.10 2.07 2.05 2.03
0.15 2.74 2.36 2.25 2.20 2.15 2.13 2,11 2.08 2.06
f 0.2 2.79 2.40 2.29 2.23 2.18 2.16 2.14 2.11 2.09
0.3 2.88 2.47 2.35 2.30 2.42 2.22 2,19 2.17 2.15
0.4 2.97 2.53 2.41 2.35 2.29 2.27 2.24 2.21 2.19
0.6 3.10 2.62 2.49 2.43 2.37 2.34 2.31 2.29 2.26
0.8 3.19 2.69 2.55 2.49 2.43 2.38 2.37 2.34 2.31
г 1.0 3.25 .2.74 2.60 2.53 2.47 2.44 2.41 2.38 2.35
1.5 3.33 2.81 2.67 2.59 2.52 2.49 2.46 2-43 2.40
j 2,0 3.36 2.83 2.68 2.61 2.55 2.51 2.48 2.45 2.42
5 в 00 3.40 2.86 2.71 2.64 2.58 2.54 2.51 2.48 2.45
а=0.10
? г"-2 5 10 15 20 30 40 60 120 00
ii Овна 0.0 2.01 1.81 1.75 1.72 1.68 1.68 1.67 1.66 1.65
й 0.05 2.06 1.85 1.79 1.76 1.73 1.72 1.70 1.69 1.68
0.1 2.11 1.89 1.83 1.80 1.77 1.85 1,74 1.73 1.71
? 0.15 2.16 1.93 1.87 1.84 1.81 1.79 1.77 1.76 1.75
0.2 2.21 1.97 1.90 1.87 1.84 1.82 1.81 1.79 1.78
0.3 2.30 2.04 1.97 1.93 1.90 1.88 1.87 1.85 1.84
0.4 2.37 2.10 2.02 1.99 1.95 1.93 1,92 1.90 1.88
h 0.6 2.49 2.19 2.12 2.07 2.03 2.01 1.99 1.98 1.96
0.8 2.57 2.26 2.17 2.13 2.09 2.07 2.05 2.03 2.01
1.0 2.62 2.31 2.22 2.17 2.13 2.11 2.09 2.07 *2.05
1.5 2.69 2.37 2.27 2,23 2.18 2.16 2.15 2.12 2.10
2.0 2.72 2.39 2.29 2.25 2.20 2.18 2.16 2.14 2.12
оо 2.75 2.42 2.32 2.27 2.23 2.21 2.19 2.17 2.14
НАБРОСКИ РЕШЕНИЙ УПРАЖНЕНИЙ
Упражнения 1а
4. cov [Х£, X/]=o2pli~'1
Упражнения 1Ь
1. Е [Х'АХ] = Е [tr [Х'АХ]] = Е [tr [ АХХ' ] ] = tr [А<£ [ХХ'[].
Кроме того, (ХХ'[ = Й) [X 14-60'.
3. a) var [Х]=-^-{1+(л—1) р} Э=0.
b) Е [Q] = о2 {ап-}-Ьп (1-Нп— 1) р)} + 02 (ал-|-6л2)шо24-0.
Поэтому Ь = —1/{п(п—1)(1—р)}, а ——Ьп.
4. ехр ^6<4--^-a2/2J.
5. Используйте следствие 1 с А0 = 0А1П=О.
(a), tr A2=tr А — п—1.
(с) tr А2 = У]У|all=6n—8. Поэтому var [Q]=2o4(6n—8)/4 (n—I)2.
Упражнения 1c
3. Из соотношения cov[X, Y]=pu—p.tp.f = O вытекает, что Pij—Pi-p.j
для всех i, i (например, p,o = Pi. —Pi P.i = Pi-(1—P-i) = Pi-P o)
4. Поскольку f (x)—четная функция, имеем E[X2r+1]=0. Поэтому
cov[X, X2] = E[X8J —£[X]-£[X2]=0.
5- f (x, y) = =/i (x) /2 (y).
Упражнения к гл. 1
3. (a) 17; (b) J5) .
4. Подставляя в теорему 1.8c0=O значения tr A218,а'а=12,
p4=l/5, p2=l/3, получаем значение 2.4.
406
Наброски решений упражнений
5. Рассуждения здесь такие же, как в теоремах 1.8 и 1.7. При этом по-
лучаем
cov [Х'АХ, Х'ВХ] = Е [Х'АХХ'ВХ]—(Е (Х’АХ] Е [Х'ВХ])
= На У ацЬц+ р.г ( 22 aabkk + 2 22 alkb ik \ — pi tr A tr В
I \i*=k t^k )
= (p4-3pi) a'b + 2phr [АВ].
Кроме того, можно рассмотреть var [Хг (А-|-В) X].
Упражнения 2а
1. 2л| =л/)<3 (в силу (2.6)).
3. Пусть <уц = о1, О12=о1а2р. Выписывая указанную величину в явном
виде, получаем
1 fpKj K2V_ I „2
(1-р2Д Oi oj (1-р2) ”
где У3~Л/(0, 1-р2).
Упражнения 2Ь
1. ехр [0j/j4-О^аЧ-"g" (°1^1 Ч” 2рО£О2/1/24_ .
3. Многомерное нормальное со средним и дисперсионной матрицей
(“ ?)•
4. Положим Z=CY, где матрица имеет независимые строки.
Тогда Z имеет двумерное нормальное распределение с диагональной диспер-
сионной матрицей СС'.
5.
Е [ехр (ZQ)] = Л-1 J ... $exp{(y-e)'[(l-2/)-*S]-i(y-0)}dy
= (2л)(1/2) " (1 — 2Z) "(1/2)" | S |1/2 /Л = (1 —2/) "(1/2)".
7. Н2 ^0, — . Используйте производящие функции моментов, т. е.
Е[ехр{0Х + /2У}]=|Е [ехр (1+1 f2/) ] и т. д.
10.
-п “р |4 (''-.'+ЧУ] =“>> (4s+£)
а последнее выражение факторизуется.
Наброски решений упражнений
407
Упражнения 2с.
2. Используйте преобразование
С*\-У'Р’ -2122^ Vх* \
о. AxJ
или Y=CX. Это нормальный вектор. Тогда
» <х, I _«(» ;> । с । wi.w w
12 \Х2/ /2 (Х2> /2 \х2/
(| С I = 1). Поскольку <2)[W] = Stf — Sf2S22X22l = Slv2, то W~JVF(af —
— 212E72a2, 2ц.2). Искомый результат получается теперь выписыванием
функции плотности вектора W с использованием xj и х2.
3- Л'[01 + (ро1/О2)(</2—02). Oi(l— Р2)]-
4. Используйте теорему 2.7, следствие 2 и пример 2.4.
5. р=—i-i- (используйте теорему 2.7),
Упражнения 2d
1. Используя (2.5) и А4.9, найдите М (/). Затем выберите такую ортого-
нальную матрицу Т, для которой | In —2/А | = | Т'Т 11 In —2/А | =| 1П—2/Т'АТ],
где T'AT = diag (1,, О, Г.0) (поскольку матрица А идемпотентна и г ее соб-
ственных значений равны единице, а остальные п—г—нулю).
2. М(1Ъ /2) = |1„—2^А—2/2В|-1/2. Если АВ=О, то М (tit tt) =
= М (tt, 0) М (0, /2), и Qi и Q2 независимы. Обратно, из равенства var [Qi+ Q2] =
= var [Ci]-}-var [<22] мы получаем (теорема 1.8, следствие 2), чтоО = 1г[АВ] =
= tr [RR'SS'] = tr [S'RR'S] = tr [KK'J = 22f/A^, откуда K=0 и АВ=0. (Ус-
ловие положительной определенности можно опустить; см., например, Lancaster
(1969). Таким образом, квадратичные формы Qi и <?2 независимы тогда и только
тогда, когда АВ=0.)
3. A/Az=0 для всех i ф j, и поэтому
M(G, t2, .... t„) = M(ti, 0, ...» 0)М(0, 12, 0, .... 0) М (О, О.О, („).
4. Производящая функция моментов вектора Z = Y — 6 равна ехр t'2t
Разлагая ее по степеням tp получаем нулевые коэффициенты при f®, tjtj
и tttjtk- Тогда
4? [Y, Y'AY]=<£[(Y — 0) Y'AY]
=^[(*-6){(V-0)'A(Y-0) + 20'A(Y-0)+0'A0}]
= S [ZZ'AZ+2Z0'AZ] = 2<£ [ZZ'A6] =22A0,
поскольку
E Г 5 2 arsZrZsZt] =22 а''Е = 0.
L r s J r s
5. E = RR' и Z=R-1Y — N (0, I„). Поэтому Y'AY =Z'R'ARZ ~ %2, если
R'ARR'AR = R'AR. или ASA = A.
6. Положим A= Aj4-A2+A3=A1 + B1. Поскольку Q2—' Xr>> имеем A2^0
(т. e. A2 положительно полуопределена), и поэтому Bf^-O. Таким образом.
408
Наброски решений упражнений
согласно теореме 2.9, А]В = 0 и = Аналогично Bf = A2+A3, так что из
А3^ 0 вытекает, что А2А3=0 и А3=А3. Если теперь записать A = A2+(Aj-}-A3),
то мы получим А1А3=0, и поэтому AjA2=0. Таким образом, квадратичные
формы Qf попарно, а следовательно (см. упр. 3), и взаимно независимы.
Упражнения к гл. 2
1. л tr [А2] = 2л.
2. Положим X=TY, где Т—преобразование Хельмерта. Тогда var [Xi] =
= (l + (n-l)p)a2, var [Xz] = (1 —р) о2, i = (2, 3.n), cov[Xz, X7] = 0.
Поэтому матрица ®[X] диагональна, и случайные величины X/ независимы.
Используя то же доказательство, что и в примере 2,3, получаем
2*?
- i=2 2
Q~ о2(1—р)
3. Используйте производящую функцию моментов.
4. а) Используя производящую функцию моментов, получаем Y —
b) «?[¥, Y/-V] = g[V, YI-]-S>[T]=l®[Y,]-12=0.
с)
S [2 <Y«—Y> <Y*~ Y)'J =2 s [Y,—e-(Y-e) (Yz-e-(V-6))']
=2^1у^-2^1у> Y«l+® lYl}11 т- д-
5. Используйте теорему 2.7 и то, что cov [Y, У;—Kz+i]=0.
6- / (у) является нечетной функцией от каждого У[, так что при интегри-
ровании по любому из у; выражение в квадратных скобках дает нуль.
7. Из теоремы 1.8 имеем var [Y'AY] =2 tr А2 = 2 У rfj= 12п—16.
8. W = U-|-V = (B-|-C) Y=DY. t?[X, W] = 0. Пусть матрица D, образо-
вана линейно независимыми строками матрицу D. Тогда те же рассуждения,
что и в теореме 2.7, показывают, что вектор X не зависит от вектора W, =
= D|Y, а следовательно, и от вектора W (являющегося функцией от Wj).
9. а) Квадратичная форма Q может принимать отрицательные значения.
Ь) 114-ИА|’^2 =(1 —(2)-i.
10. Выберем ортогональную матрицу Т с первой строкой а'/|| а ||. Положим
Z=TY. Тогда Z,=0 и Y'Y = ZzZ = Zf-J- .. .-J-Z«. Поскольку случайные ве-
личины Z; независимы и имеют распределение N (0, 1), то условное распре-
деление Zj (i # 1) совпадает с безусловным.
11. Пусть Xi = Yi—0. Тогда Х~А„(0, 2) и Q= Х'АХ/(1—р). Произ-
водящая функция моментов равна 11„—2/А2/(1—р)|~1^2=|1п—2(А|-1^2
(в силу А4.9, (2.6) и (1.7)) и не зависит от р. Поэтому Q имеет то же рас-
пределение, что и при р = 0.
i
Наброски решений упражнений 409
Упражнения За
2. а|| Y—х₽ ||2/ар0=0=^ 2 О'-Ро-^й- • • -РР-л-, Р-.)=о.
з. ё=1(Е1 + 2У2+Уз), $=±-(2Ya-YJ).
О о
4. Ро=Е Р1 = ^-(К8-У1), р2 = | (У1-2У2+ Y3).
. 5. Пусть x=sin0; тогда 2; ТiXjl^i xt-
6. Р« = X (Х'Х)~Х Х'« = хр, так что 91 [Р] с91 [X]. Обратно, если
у=Ху, то Ру=у и 5?[Х]с5?.1Р].
7. Y' (Y — Y) = Y'P (I„ — Р) Y = Y' (Р—Р2) Y = 0.
8. См. пример 4.4 в § 4.2 (/г=1).
Упражнения ЗЬ
1. p0=F—pjX, Bi=Sz Yi(xi—~x)l^(xi—xj2. Из (Х'Х)-1 находим, что
cov[p0, Pd=—х/2с*7~*)2-
2. Полезно представить модель в виде
U1
V = Im
W 1„
Тогда
^,„^ + 13») 1 <«+ 2 ^+6n 2 ^/+ 3/п 2^1
I 1 i k I
* = m(m + l£i)j(2«-m) 2 ui+ (m+3n) 2 v/~5m 2
3. Y = 01„-|-e. Несмещенной оценкой 0 с минимальной дисперсией яв-
ляется Y.
4. Положим
(х/, — Xj)2 2 (ХЛ — *1) (*12—*2)
(x,-l — X,) (Х/2—*2) 2(Х/2 —^)2
Дисперсионная матрица вектора (Pi, р2)' равна о2А-1. Поэтому var [Pi] =
= о22(х/2—хг)2/| А|.
Упражнения Зс
1. а) Из теоремы 3.4 вытекает, что var[S2] = var [Y'RY]/(n—р)2 =
= 2о4/(и—р).
b) Е [(Y'RY/(n-p+2)-o2)2] = 2o4/(a-p+2).
2. Поскольку все диагональные элементы присоединенной матрицы для А
равны нулю, соответствующей оценкой будет 2« (Y^—Y)2/(n — 1).
410
Наброски решений упражнений
Упражнения 3d
1. K/ = 04-ez, а это есть модель регрессии с [}о=О.
U = (Y -X₽) = (I„-P) Y=(I„-P) (Y-Xp)
= (I„^.P)Z (Z-Y-XP),
V = X (P—P) = X {(X‘X)-1 X' Y—(X£X)-i XХР)} = P (Y — Xp) = PZ.
Упражнения Зе
2. Ф(х) = х2—2/3.
? 3. (a) |W’W|/|X*X| равняется нижнему диагональному элементу матрицы
(b) xftXfc—xkPwXk<xkXk. Равенство имеет место в том и только том
случае, когда Puzx/I=0 или W'x^=0.
4. Опустить условие хц — 0.
5. Положим Y = XP4-e. Применяя процесс Грама—Шмидта к матрице X
(см. (11.15)), получим ортонормпрованный базис Zf, ...,гр для 5J[X]. Таким
образом, X=ZU, где U — верхняя треугольная матрица и Z = (zi, z2.z„).
Кроме того, у = ир, так что yr = urr₽r+ur,r+i₽r+i + •• -+urpf>p.
6. а) Согласно упр. 3, минимум дисперсии достигается при взаимной ор-
тогональности столбцов матрицы X. Эта минимальная дисперсия о2^х^) до-
стигает минимума, когда каждый элемент вектора х^ отличен от нуля.
Ь) Для оптимального плана var [р^] =о2/п.
Упражнения 3f
1 2
1. ±(2У1-1'2), 4 о2.
О о
2- ^ii^iYil^t wt, o2/Sf W{.
4. V-lX=V-4„==cl„=cX и т. д.
5. Произведите редукцию модели, как это сделано в § 3.6.
6. Используя множители Лагранжа, покажите, что 0* ==(!„ —
— VA' (AVA')-lA) Y.
г
Упражнения 3g
1. Y'RY — Y'RcY = vgZ'RY = ygZ'RZyg.
2. В соответствии с теоремой 3.7 (v) var [f}Gi J—var [pI-]=o2(LML')t-z^0,
поскольку матрица LML- положительно определена (или равна нулю, если
X'Z=0).
3. 0 = К—ух, T=SfFz(xf— х)/21(^~*)2-
Упражнения 3h
2, Из соотношения СХ = 1 вытекает, что X имеет полный ранг.
Наброски решений упражнений
411
3. rank £XJ = rank L тогда и только тогда, когда строки матрицы X ли-
нейно зависят от строк матрицы L, т. е. X' = L'K?. Ранг матрицы К равен г
тогда и только тогда, когда rank X = rank L.
4. b) Из соотношения Р = ВВ- вытекает, что rank Р< rank В, а из соот-
ношения РВ = В—что rank В < rank Р.
5. a) O=tr [В'В] = 2260-
6. а) Транспонируйте Х'ХСХ'Х = Х'Х.
Ь) Используйте матрицу (С-|-С')/2. г
с) Применение упр. 5 (Ь) к приведенному выше равенству дает ХСХ'Х = X.
d) X'XCiX'X = Х'ХС2Х'Х =Ф XCjX'=^=ХС2Х' (применяем упр. 5 дважды).
е) Из (d) и (а) получаем ХСХ' = ХС'Х' = (ХСХ')'. В соответствии с (с)
ХСХ' = ХХ-, а эта матрица идемпотентна в силу упр. 4.
f) Используйте указание и соотношение ХСХ'а = ХР (т. е. 54 [XCX'Jc
а 541X1).
7. (а) Х'Х (G'G)-1 Н'у-}- H'H (G'G)-1 Н'у = Н'у для всех у. Поэтому
Х'Х (G'G)-1 Н'у = Н'(1р_г — Н (G'G)-1 Н')у или Х'а = Н'Р (что равно нулю
ввиду идентифицируемости).
(1) Х'Х (G'G)-1 Н'у=0 для всех у=>54. [Х]Г)54|Х (G'G)-1H']_L
J_54 [X]. Поэтому X (G'G)-1 Н'=0.
(2) Н'Р=0=ф р=0=> Н (G'G)-1 Н'=1/;_Л.
Ь) Х'Х (G'G)-1 Х'Х = (Х'Х+ H'H) (G'G)-1 Х'Х = Х'Х.
8. Аа = (Х„Х =0 => Х'Ха,+ Н'а2=0 и На, =0 => X'X«j=O,
Н'«2 = 0 и Нах=0=4>а2 = 0 и G'Ga^O (т. е. ai = 0). Таким образом, столбцы
матрицы А линейно независимы. Из АА-1;;::! мы получаем соотношение
X'XCi2-|~ Н'С22=0, откуда Н С22 —0, т. е. С22 —0. Тогда X ХСхх-|-Н С22=1^х^
=> Х'ХСД1= 1р =?> Х'ХСх1Х'Х= Х'Х.
Упражнения 31
2. а'^[Р] = а'(Х'Х)-Х'ХР = с'Р, где с=Х'Х (Х'Х)-'а 54 [X'].
4. Пусть Pi = b/+c(- (1=1, 2)—какие-то два решения. Тогда Ьх—Ь2 £
е54[Х']. Поэтому Х'Хр'1 = Х'Хр''2 (= X'Y) => Х'Х (Ь,—-Ь2) = 0 =£> (Ь, —b2) J_
_L5J[X'X] (=5? [X'D =4> bx—b2=0. Y=Xb. Часть (i) вытекает из соотно-
шения a'P=oc'X'Xp=a'X'Xb.
5. Используем упр. 4. Если X'Xb = X'Y, то b-f-c—решение при всех
c_L5?-fX'J. Таким образом, для всех таких с, включая и с=0, линейная
комбинация а'с инвариантна. Поэтому а'с = 0 и а g 54 [X'].
6. Пусть линейная комбинация а'Р оцениваема. Тогда а' можно предста-
вить в виде а'=а'Х'Х, и указанное соотношение выполняется. Обратно, пусть
это соотношение выполнено. Тогда \
Е[а'Р1 = Е[а' (Х'Х)- XY] = a'(X'X)- Х'хр = а'р,
и линейная комбинация а'Р оцениваема.
7. Используйте выражение Р = (Х'Х)~ X'Y и упр. 6.
8. Xi Х»а = (X' X + хп+1х^+1) а = Ла с2аа'а.
412
Наброски решений упражнений
Упражнения 3j
1. Пусть (I„—P)Za = O. Тогда Za £ 5? [Р] =5? [X]. Но 5?. [X]f)3?. [Z] = 0,
так что «=0, Поэтому матрица (1п — P)Z имеет полный ранг. Тогда
Z' (I„-P)' (1„—P)Z = Z' (I„-P)Z.
2. Ясно, что строки матрицы (Н, 0) не зависят линейно от строк мат-
рицы (X, Z). Поскольку 5? [X] П 5?, [Z] = 0 и столбцы матрицы Z линейно
. /X Z\ . „
независимы, то и столбцы матрицы 1 q 1 линейно независимы. Поэтому
X'XflG=X'(Y — Zvg) и Н'Н₽с = 0.
Упражнения 3k
1. Y' (In—Р) X (р—рн)=0 в силу теоремы 3.1 (iii).
2. Второе выражение в S) (Ря) положительно полуопределено, так что
диагональные элементы соответствующей матрицы неотрицательны. .
3. Y-f„=Xfl-Xp„ = lx(X'X)-*A'£„. ||Y-f„||2 =
= 11нА (Х*Х)-* и т. д.
" 4. Предположим, что 3? [ М] П О"*" 0. Тогда существует такой вектор
а^О, что М'а = (1п—Р) Р, т. е. А'а = Х'М'а=0, откуда вытекает, что а = 0.
5. ХВа=0=фВа=0=^>а=0, т. е. столбцы матрицы ХВ линейно неза-
висимы.
Упражнения к гл. 3
1. 5,^=0.
2. Используйте множители Лагранжа или покажите, что 1п—Рц =
= А' (АА')-1 А'.
3. Используйте разд. 3.7.1 с Х = Х, и Z=X2.
^IPd^xH^-XiCxlx!)-1 ХО Х2.
4. Пусть c'Y = (a+b)'Y—какая-нибудь другая несмещенная линейная
оценка для а'Хр, т. е. Ь'Х=О'. Тогда
var [a'Y] +var [b' Y] + 2cov Ja'Y, b'Y] var [a'Y],
и равенство достигается в том и только в том случае, когда Ь=0.
5. tr ® [ Y] = tr S) [Р YJ=a2 tr P = oz rank P = ozp.
6. 9.95, 5.0, 4.15, 1.1.
7- 1(3^..-^.-^), |(_rx„+3P.1~r..1),
— ^а.+ ЗК..!), где У^, =2/ и т- Л
_ 8. (а) (2/ YtM **); (Ь) (2r^/(S/^); w 4 (У^д-
9. Xp = KLp=Ka, и вектор a оценивается посредством (K'K)“*K'Y.
Наброски решений упражнений
413
11. С1Х'Х+С1Н = 1. Транспонируя и умножая обе части справа на Х'у,
получаем Х'а-|-Н'Ь = 0, т. е. Н'Ь = 0 и С2Х'=0 (поскольку 5?, [Х']П5?, (Н']=0).
Поэтому Х'ХС;Х'Х = Х'Х.
12. Используем тождество Y — Хр= Y —Xp*-j-X (Р* —0). Тогда
(Х0« —Х0)'V-1(Y —Х0*) = (0* —0)' (X'V-1Y — X'V~iXp*) = 0.
13.
е1=у(У1+И8), б2 = |(^-уг).
61=1(-У1-2У2+ЗУ8), 62=1(У1-У2), Q3^Yt+Y2-Ya.
14. У=~М и Y-V = (I„-P) Y. Поскольку (1„-Р) 1„ = 0 (1п£Я [X]),
то g BAY, (1„-Р) Y]=0. Искомый результат вытекает из теоремы 3.7.
15.
z 1 р р2 ... р"-1\
®[и]=а2/ Р 1 Р Р” 2 j = o2V.
УрП-i рП-2 ... 1 /
var[Pl=o2(x'x)-1x'Vx(x'x)-i = ^^(x'x+/(p))> ,
16. Матрица Х'Х диагональная. Поэтому ро==У, Рх=(2/и) 5?=1У*Х
х COS (ink^t/n), 02 = (2/и) 2"=1уisin (2nk2t/n).
Упражнения 4а
1. Действуйте так же, как в теореме 4.1 (iv), только A0— A (Х'Х)-1 X'Y
замените на А0—с= А (Х'Х)-1 X'(Y— Х0), когда А0 = с.
2. k//=2[A(X'X)-1 A'j'HAP-c) и т. д.
Упражнения 4Ь
1. Поскольку 1„ £ 3? [X], имеем (1„ — Р) 1„ = 0, так что
(Y—с1„)'(1„—Р)'(Y—cl„)= Y'(1„—Р) Y. Это же верно и для гипотезы Н.
2. Н: (1, 0)р = 0. Используя общую матричную теорию, находим
F = х)2), где ^0=У—РтХ и т. д.
3.
(fci-F)2
S2 {(!/«)+[1/2(х,—%)2]} ’
4. F=(01-262)2^^-S2) , гдеО1=1(У1-У3), ё2=|(^+2У2+К8) и
S2 = Yl+ Yl—261—661-
414
Наброски решений упражнений
Упражнения 4с
1. RSS#—RSS (?,—W = 2, (Pi-YY и т. д.
2. Согласно упр. ТГстатистика F имеет распределение F„_j„_p, Отсюда
выведете, что /?2 имеет бета-распределение, ' ’ '
Упражнение 4d
1. Хл = (1 1 3)'; Хл = 1„ (и = пг4-п2).
2. Х=ТрС. где Tp=(at, a2, .... ap) и матрица С невырожденная. Тогда
Т'Хр=Т'ТрСр=(^р. где ц = Ср и т. д,
3.
F. ,_(*« + ( — Х)2П(П— 1)
г 1, п-1-„------------•
2 (Х1-х)*(п + \)
1=1
Упражнения 4е
1. А$ = МХ (Х'Х)- X'Y = MPnY и ® [Ap] = a2MPnM‘ = o®MPQM'=
= о2А(Х'Х)- А', Согласно теореме 4,6, матрица МРЯМ’ имеет ранг q,
2.
E[RSS//-RSS] = E[Y (Р,,-Ри) Y]
=°2 tr (PQ—Р<0] + (ХР — Хроу (Ря-Рм) (Хр-Хро).
Далее действуем, как в теореме 4,6 (ii),
Упражнения к гл. 4
1. Минимизируя || Y — 01|2 при 1'6 = 2л, используя множитель Лагранжа,
получаем б/=У/—Y-f-g-n, Тогда RSS=20'/—б/)2=4 (y—. При
гипотезе Н имеем6г =6я = Фь О2=04=л — Ф, и 0j=y(У<—Y2-|-Ys— Е4-]-2я),
Поэтому RSSW=(/1 —0!)24-(y2—л4-Ф1)24-(Ея—Ф!)2+(У1—л-)-^)2. Окон-
чательно F=-g-(RSSH— RSS)/RSS,
2. Из теоремы 4.1 (iv) с q = pt и Р// = Р2 получаем E[RSSW—RSS] =
= osPt + P'X' (Р-Р2) Хр. (Р-Р2)Хр = (1„-Р2)Хр = (1„-Р2)(Х,р1+Х2р2) =
= (!»-Рг) Xjpj.
3. Положим Ф/ = Р/—Р? (( = 1, 2, q—1), Тогда справедливость ги-
потезы Л О Ф/=0 Для всех {И/} <=> ciPi = 0 (см- пример
5.2 в разд. 5.1.3). Используйте тот факт, что линейная комбинация функций,
допускающих оценку, также оцениваема.
4 .а) Распределение вектора Ар является многомерным нормальным, по-
скольку Ар = А (Х'Х)- X'Y=CY и дисперсионная матрица не вырождена
(упр. 1 из упражнений 4е).
Ь) Это вытекает из (а) и теоремы 2,1 (iii).
Наброски решений упражнений
415
с) Р = Х(Х'Х)- X' иРХ = Х. Поэтому % [A>, (I„—P)Y3 = 0.
5. Используйте гипотезу Н: (1, —1)Р=0 и Е = А0 [А (Х'Х)-1 А']-1 X
X fi&qS*.
Упражнения к гл. 5
1. а0=У, а оценки наименьших квадратов для 0, те же самые. Положим
₽'=(а0, 01, Pp-i) и v/ = (xl—х.1..Xp-i—x.p-i). Тогда
а (— оА
®$] = о2 п
\0 С /
И
var [?']=(!, v’)® [>] (1, v')'=o2(-l+vCv)^,
поскольку матрица С положительно определена. Равенство достигается при
v=0.
2. Пусть P,q=(x’, zt)8a. Тогда, используя такие же рассуждения, на-
ходим, что
var [P,G] = о2х» (Х'Х)-1 х,+о2 (L'xt—z,)e М (1/х,—z*)
>оах;(Х'Х)-1х.,
поскольку матрица М положительно определена.
3, В силу (5.13) a0₽0-|-a$i ± где
g S2 { ар xf/n )—2aoaiX-|-Д1}
2 (Xi-X)2
Упражнения-к гл. 6
1. Е [0в] = 0з+40г, Е (011 = 01+703.
3. Используйте упр, 1 в конце разд. 4.1.1,
5, В соответствии с (6.22) Е [Z] ~-g-(/-1+/-1) ^l+-g-у2А^ , Здесь
h = k, f2=n—k—l, Р, = Р—~ 1П1; (ср. с (4.26) в § 4,2) и P2=I„—Р, где
Р==Х (Х'Х)-1 Х' = [(ру)]. Поэтому
А2 ^(1-рп)8-(«-А-1)2^(1-рп)8
А= k(n—k—l)(2k—n+\) ’
6. В соответствии с примером 4.2 (разд. 4.1.3) RSSW—RSS = «j/i2 X
X(t7-V)2/(ni + n2) = Y'P1Y и RSS = 2((/,—t7)2+2d7-H2 = Y'P2Y.
Теперь мы можем использовать (6.21) и (6.22) с /1 = 1 и /2=«1+«2—2.
В результате получаем
р'=..П1”2-
1 «1+ «2
I' , — 1'
«’ «2 ",
При и1 = л8 критерий F квадратично сбалансирован,
416
Наброски решений упражнений
Упражнения к гл. 7
1. Это вытекает из Yt = ¥ Pi(х*—х) и (Х'Х)~1.
2. Логарифм функции правдоподобия равен
НФ. Pi) = -f 1о8О2-^£(У/-Фр1 + р№-)2.
i
^!g^=o =?> г-ФР1+Вх7=о.
~^~'=0=> S*z(yi— у~х)) = 0и т. д.
3. Примените метод разд. 7.2.2 к (7 = а[р—фа2р, где Ф = а[р/а2р. Поло-
жите о|/=(ах—Фа^' S) [Р] (Я1—Фа2) и покажите, что
U/о и .
V~S2I&~ п~р’
Затем рассмотрите T2 = Fitn-p как квадратичную функцию от Ф.
4. х./х, = Р1Р1 = /-2.
Ы И* —2
6. Надо использовать такое же уравнение, как и (7.18), только У,х2 надо
заменить на 2 a^zxl, а р и S2—на Р* и Suz, задаваемые выражениями (7.26)
и (7.27) соответственно.
8. При гипотезе Н имеем £'[VzAi] = ^+Pfe(xM—о). Получите RSSW,
минимизируя сумму 2.2/[yw—P.(«w—я)2] относительно pL и р2.
Можно также, что равносильно, перенести начало координат в точку (а, Ь) и
проверять гипотезу о том, что обе линии проходят через (новое) начало коор-
динат.
9. Оценкой этого расстояния 6 является (в обозначениях разд. 7.5.2) ста-
тистика d=(a2—ai)/~p. Используем метод разд. 7.2.2 и рассмотрим случайную
величину U = (а2—aj—6p = (F2. —Fi.)+P (Xi. —х%. — б). Мы имеем Е [C7J—О,
и поскольку cov[Yk-, ¥м—Ffe.] = 0, то
оу =var [17] = о2
(Xj. —Х2. —б)2 )
22 (ХЫ—х*>2)
Пусть S2 = RSS//1/(rti+ п2—3). Тогда доверительные границы являются кор-
нями квадратного уравнения относительно 6, 7’2=/7“ П1+Па-з, где Т~
10. —=—4-sin20 (4----- ). Положим x = sin20 и т. д.
У « \Р «/
Наброски решений упражнений
417
Упражнения к гл. 8
1. и=5, х=—2, —1, О, 1, 2.
ft = -^ (- 2У t - Г2+ У4+ 2У5) = 1.65,
ft (2Г1-Г2-2У3-Г4+2Г6) = -0.064,
ft =-^(-У1+2У2-2Г4 + У6) =0.167.
P = F+ftx+ft(x®-2)+ft А (*з_|8х)
= 13.02+ 1.65х—0.064 (х2—2)—0.167 (х3—3.4х).
RSS = 2 (Гг—Г)2— loft— 1402— 10рз=0.00514.
Fi.i
10ft*
RSS“78-
Гипотеза Н6: 03 = О не отвергается.
3. Смещение равно нулю, так как дополнительный столбец ортогонален
исходной матрице X (ср. с разд. 6.1.1), 0г2=у(У1 — Yа~yb+yab)-
4. Дифференцированием получаем хт =—01/(202). Положим хт =
— — ft/(2ft) и рассмотрим t/=ft+xra2ft. Тогда E[t/]=O,
<4/ = var [£7] = var [ft] + 4хт cov [ft, ft] + 4x« var [ft],
где ® [0]=O'2(X'X)_1, и T = (Ulcu)l V S2/o2 ~ tn_s. Доверительные границы
являются корнями уравнения 72 = F“ „_3, квадратного относительно хт.
Упражнения к гл. 9
1. Покажите, что cov[ег.— е.., еу—еу—е./ + е..]=0, и привлеките тео-
рему 2.7 из § 2.3.
2. Дифференцируя сумму 22 еу+Л У,- fta; по р и а,, получаем урав-
нения
22^V М о/)=0 и Ц «/)+^/=0.
i
Суммируя второе из них по I, получаем X У, d,-=Q или . Х=0. Тогда
р=2 dj u а, = У(-.—р. _ _ _
3. (а) еуй=е.. . + (е(-.. —е. ..)+(et;.—ef..)+eyfe—еу.. При возведении в
квадрат и суммировании по i, /, k смешанные произведения обраща-
ются в нуль. Поэтому подстановкой выражения для еу^ мы получаем
р=У..., ai=Yi.. — Y..., ^ij = Yij.—Yt... Из равенства нулю ковариации
и из теоремы 2.7 вытекает независимость.
Ь) Статистика критерия для проверки гипотезы Н± равна
с УУ2(Гч--Ь..)2//(7-1)
jT ф
222 Ун* -Yij.y/IJtK-l)'
418
Наброски решений упражнений
4*а) н- (J 1 _3o)g==o- f=l(<?w-<2)/2J/t<?/(4J-4),> гда <? =
= 22^//"—-)8’ Qh=j {(^ь—Зр3//)2+^У2.— уРзн) + (У+—рш)2} и
р3„= (1/49) (12У|. + 6У2. + 4У3-).
Ь) Покажите, что Ji-iSjLi (Ул —У..)2=(Рь—F2.)®/(2/J).
5. а) р=р..., а;=рт.. *-ц..., Р/=р./. — рт..» yft=g..fe—ц....
Ь) Испольвуем разложение
еу*»«-..+(ч- — е...)+(ё./. —ё...)+(ё..й—ё...) +
+(Ч/*“«--«-/- —е..*4-2е...).
Отсюда непосредственно находим RSS и RSS# и получаем
F=_________________222 (Ул. —У. ,.)2/(/—I)_________________
522 (Ytfk-Yi.. -У./.-У..А+2У. ..)^/(/«-/-^-^^-2)
(с)
222 (et7. —ел.)®=222{^-^- “f-/- + »—}+(«•/• —e.-J}®
=222 («/♦ —ег..—e.j. + е...)2 +222 («•/• —е. )’
или Qj = (Qi—<?2)+<?2- Здесь Qi/o2 ~ yjj.p Qi—<Э2Э*0,
так что в силу теоремы 2,9 (Qj—Q2)/°2 ~ j+i«
6. См. Scheffe (1959, с. 93, теорема 1),
7. Используя приведенные в указании веса, находим, что разложение
(9.29) из разд. 6,2.2 остается ортогональным, если определить ел. =
= 2/t'/eV- =2А-7е0- Ki/Bij. /Ki. = ^i/^k4fk/Ki., е... =2/ X
х 2/2* и/+ео = 2/2/2* к^ч- =^S/2 k eub/K" и т._д.
Оценки наименьших квадратов равны р=У..., а,- = Ур.— У..., р/ =
= Y.j.—У... и (аР)// = У«7-—У»-. — Y.j. 4-У.... Соответствующей /’-статис-
тикой является
22к//(“₽)М/-1)(7-1)
г=—— -----------=-------------.
222Vi/k -Ya.y/(K..-lJ)'
9. а) Разложим e/yft таким же образом, как и р,/Л.. Получим ортогональ-
ное разложение. Поэтому р= У..., а,- = Ул- — У..., рт/ = У1/-—У(--, 4k —
= Y..k-Y... .
b)
F 2/2/2* (yz..-r...)2/(/-l)
2/2/2* (Yijk-Yij. -Y..k+Y ...)2/(lJK-U-K+ 1)
10.
а) пгп2п3 s C (nlt C(nlt n3))
— 1 + Vj +Vg + 'Vg-l-'Vj'Vg+'Va'Vg + 'Vi'Va-f-'Vi'Vg'Vg.
b) п^Па^С (N («j, n2), n3)
= 1 + V1+ v3 + «I'Vj-f- vxv3+ «jVjv3.
Наброски решений упражнений
419
Упражнения к гл. 10
Yi === (.^ww^yz
b) о2 (р2г R™ Г‘-
c) RZw = 0-
3. a) Yii = RVzijlRzzij> где Ryzi/ = ^k (Yijk — Уц) (zljk~ zip).
RSS = Ryy—2* ^ikRyzijlRzzi/)> RSS#= Ryy—(RyzlRzz)>
(RSSW—RSS)/(7J —1)
' RSS/(1JK—21J)
b) y= RyzlRzZ’ var [y]=o2/Rzz. Используйте следующие результаты:
(V“Y) ( RSSw/(/M—/J —1) ) ~
4, a) RSS = Ryy — (Ryz/Rzzl где Ryz = 2^j^L(^ijk Уч-}(г1]к
p _______________________Ryzl Rzz______
(Ryy- RlzlRzz)KUK-lJ -1)'
b) RSS= Ryy-(RlJRzzY RSSH=Tyy-(T^/Tzz), где
^г = 222(^-^/- +У1--У.. ) (гик-~гц.
(RSSH-RSS)/(/-l)
' RSS/(IJK—1J — 1) ‘
6. u=Zi./(J —1), v=Y„J(lJ — 1) и b = (u—t')2 (1 —,
7. Из упр. 2 (упражнения к гл. 9) получаем р = Y.. и а; = /,. — Y.., где
Г..= Jp Следуя примеру 10.4 (разд. 10.1.2), имеем ipc =
= Xc^-—YoSc^‘-> гДе Rvz=22i<YU — yiY(zij—zi ) и 4g=^rvzIRzz-
Поэтому var [ifo]=o2 {2ci^i+(2cfz‘ )2//??z}- Наконец, 1— a=pr[ij)O£
€ ipo ± ((/-i) f“-i. £ Jr/«M1/2 для всех сравнений].
10, Используя обозначения со „звездочками" из разд. 10.2, имеем
упп 5. р. /Г1„+/У,2е + КУм3-2Г,м
Vnn 9- У - l^Yl2tYRYtt3—
Упр. 9. У128 - 1Л<_и_к + 1
Упражнения к гл. 11
1. Покажите, что каждое преобразование представляется нижней треуголь-
ной матрицей с единицами на диагонали и что произведение таких преобразо-
ваний обладает тем же свойством.
420
Наброски решений упражнений
2. К'=с'В-1 и K = VB-1, т. е. это та же самая совокупность преобразо-
ваний, применяемая к V и с'.
3. | Х*Х | = | U'U | = | U |2.
4.
/U'U U'z \_/В с \
\z'U г'г + &)~\с' Y'Y/*
a) U'U = B и U'z=c=> Ux=z.
b) 62 = Y'Y—z'z= RSS
(см. (11.8) и последующие замечания).
5. Положите В-1=С и (U')~*=V. Решите систему
МП м12 м13 С11 С12 Г13 ин‘ 0 0
0 «22 «23 С21 С22 С23 = 1>21 «22* 0
0 0 и}3 ,С31 С32 С33. °31 г32 «331
решая уравнения (Jc(- = V; для « = 3, 2, 1.
6. В соответствии с упр. 4, приведенным выше, (X: Y) = RP+lT, так что
в силу единственности разложения Холецкого дополнительный элемент Dj
(равный 62) равен RSS.
7. Используем упр, 4 и заменим X и Y на W1/2X и W’/2Y. Тогда
/W1/2U z.\
Т=( )
\ О' 6,/
и = Y' WY— Y'WX (X'WX)~ *Х'WY = (Y — хр,)' V -1 (Y — хр„).
8. а) Положим X = (xj, х2); тогда иц — || xj || = 2. Используем теорию
разд. 11.9.1 с 1/г = х1 и t = x2 или Y. Имеем 2vi = l-|-|_x1] |/|| xj || и 2vtVi =
= JC1//II хх ||, так что |/~3/2 и vz—v3= v4= 1/2 /3. Тогда Нх2=х2 —
— 2vv'x2 и т. д.
Ь) ^=(т- -1)’ RSS = 3‘
9. 1.
10.
V~2 3/К2
0 К(3?2) 2 К(273)
0 0 V (7/3)
И. а'Р допускает оценку =^>а'=а'Х'Х и а'Х*Х=а'Х'ХХ*Х=«'Х'Х=а.
Из этого условия вытекает, что Е [a'X*Y] = a'X*xp = a'P =Ф а'Р допускает
оценку.
а'П =а'Х*ХП =а'П U“U12) и т. д.
13. vn=vn_i-\-(nxn Sx„) (пуп Syn)/\n (п 01-
Упражнения к гл. 12
3.
(RSSp-RSSK+1)(n.-K-l)
Ср —
2р—п + п—К — 1=(К + 1— p)F 4-р +
RSS/f+1
-J- (р—— 0> так что Ср < р <i==> f < 1,
?..
СПИСОК ЛИТЕРАТУРЫ"
Abrahatnse А. Р. J., Koerts J.
(1971) New estimates of disturbances in regression analysis.
J. Am. Stat. Assoc., 66, 71—74,
Aitkin M. A.
(1974) Simultaneous inference and the choice of variable subsets. Technomet-
rics, 16, 221—227.
Albert A.
(1972) Regression and the Moore—Penrose Pseudoinverse. Academic Press;
New York.
Allen D. M.
(1971a) Mean square error of prediction as a criterion for selecting variables.
Technometrics, 13, 469—475.
(1971b) The prediction sum of squares as a criterion for selecting prediction
variables. Tech, Rep. 23. Department of Statistics, University of Ken-
tucky.
(1974) The relationship between variable selection and data augmentation and
a method for prediction. Technometrics, 16, 125—127.
Anderson D. A.
(1972) Overall confidence levels of the least significant difference procedure.
Am. Stat., 26 (4), 30—32.
Anderson M. R.
(1971) A characterization of the multivariate normal distribution. Ann. Math,
Stat., 42, 824—827.
Anderson R. L., Bancroft T. A.
(1952) Statistical Theory in Research. McGraw-Hill: New York.
Anderson T. W.
(1958) An Introduction to Multivariate Statistical Analysis. Wiley: New York.
[Русский перевод: Андерсон T. У. Введение в многомерный статисти-
ческий анализ—М.: Физматгиз, 1963.]
(1962) The choice of the degree of a polynomial regression as a multiple de-
cision problem. Ann. Math. Stat., 33, 255—265.
(1971) The Statistical Analysis of Time Series. Wiley: New York. [Русский
перевод: Андерсон T. Статистический анализ временных рядов.— М.:
Мир, 1976.]
Andrews D. F.
(1971а) Significance tests based on residuals. Biometrika, 58, 139—148.
и При наличии перевода на русский язык номера страниц в ссылках ука-
заны по русскому изданию.— Прим, перев.
422
Список литературы
(1971b) A note on the selection of data transformations. Biometrika, 58, 249—254.
(1974) A robust method for multiple linear regression. Technometrics, 16,
523—531.
Andrews D. F„ Bickel P. J„ Hampel F, R„ Huber P, J., Rogers W. H,,
Tukey J. W.
(1972) Robust Estimates of Location: Survey and Advances, Princeton Univer-
sity Press: Princeton, N. J.
Andrews D. F„ Tukey J. W.
(1973) Teletypewriter plots for data analysis can be fast: 6-line plots. Appl.
Stat., 22, 192—202.
Anscombe F. J.
(1961) Examination of residuals. Proc. Fourth Berkeley Symp. Math. Stat.
Probab., 1, 1—36.
(1967) Topics in the investigation of linear relations fitted by the method of
least squares. J. R. Stat. Soc. B, 29, 1—52.
(1973) Graphs in statistical analysis. Am. Stat., 27 (2), 17—21,
Anscombe F. J., Tukey J. W.
(1963) The examination and analysis of residuals, Technometrtcs, 5, 141—160.
Atiqullah M.
(1962) The estimation of residual variance in quadratically balanced least
squares problems and the robustness of the F-test, Biometrika, 49,
83—91.
(1964) The robustness of the analysis of covariance analysis of a one-way clas-
sification. Biometrika, 51, 365—372,
Atkinson A. C.
(1972) Planning experiments to detect inadequate regression models. Biomet-
rika, 59, 275—293.
(.1973) Testing transformations to normality. J, R. Stat. Soc. B, 35, 473—479,
Atkinson A. C., Cox D. R.
(1974) Planning experiments for discriminating between models. J. R. Stat.
Soc. B, 36, 321—334.
Atwood C. L.
(1971) Robust procedures for estimating polynomial regression. J. Am. Stat.
Assoc., 66, 855—860,
Banerjee K. S., Carr R. N.
(1971) A comment on fridge regression. Biased estimation for nonorthogonal
problems. Technometrics, 13, 895—898.
Barrett J. P.
(.1974) The coefficient of determination—some limitations. Am. Stat., 28 (1),
19—20.
Bartlett M. S.
(1937a) Properties of sufficiency and statistical tests. Proc. R. Soc. A, 160,
268—282.
(1937b) Some examples of statistical methods of research in agriculture and
applied jjiology. J. R. Soc. Suppl., 4, 137—170.
Bauer F. L.
(1965) Elimination with weighted row combinations for solving linear equa-
tions and least squares problems. Nutner. Math., 7, 338—352.
Список литературы
423
Beale Е. М. L.
(1970) Note on procedures for variable selection iri multiple regression. Techno-
metrics., 12, 909—914.
(1974) The scope of Jordan elimination in statistical computing. J. Inst. Math.
Appt., 10, 138—140.
Beale E. M. L., Kendall M. G., Mann D. W.
(1967) The discarding of variables in multivariate analysis. Biometrika, 54,
357—366.
Beaton A. E,
(1964) The Use of Special Matrix Operators in Statistical Calculus. Research
Bulletin R B-64-51. Education Testing Service: Princeton, N. J.
Beaton A. E., Tukey J. W.
(1974) The fitting of power series, meaning polynomials, illustrated on band-
spectroscopic data. Technometrics, 16, 147—185.
Beckman R. J., Trussell H. J.
(1974) The distribution of an arbitrary studentized residual and the effects of
updating in multiple regression. J. Am. Stat. Assoc., 69, 199—201.
Behnken D. W., Draper N. R.
(1972) Residuals and their variance patterns. Technometrics, 14, 101—111.
Bellman R., Roth R.
(1969) Curve fitting by segmented straight lines. J. Am. Stat. Assoc., 64,
1079—1084.
Berkson J.
(1950) Are there two regressions? J. Am. Stat. Assoc., 45, 164—180.
Bhargava R. P., Srivastava M. S.
(1973) On Tukey’s confidence intervals for the contrasts in the means of the
intraclass correlation model. J. R. Stat. Soc. B, 35, 147—152.
Bickel P. J.
(1975) One-step Huber estimates in the linear model. J. Am. Stat. Assoc., 70,
428—434.
Bjorck A.
(1967a) Solving linear least squares problems by Gram —Schmidt orthonorma-
lization. BIT (Nord. Tidskr. Informations—Behandl.), 7, 1—21.
(1967b) Iterative refinement of linear least square solutions I. BIT (Nord.
Tidskr. Informations—Behandl.), 7, 257—278.
(1968) Iterative refinement of linear least squares solutions II. BIT (Nord,
Tidskr. Informations—Behandl.), 8, 8—30.
Bjorck A., Golub G. H.
(1967) Iterative refinement of linear least square solutions by Householder
transformation. BIT (Nord. Tidskr. Informations—Behandl.), 7, 322—
337.
Bloomfield P., Watson G. S.
(1975) The inefficiency of least squares. Biometrika, 62, 121—128.
Bock R. D.
(1963) Programming univariate and multivariate analysis of variance. Techno-
metrics, 5, 95—117.
(1965) A computer program for univariate and multivariate analysis of variance.
In Proceedings of the IBM Scientific Computing Symposium on Sta-
tistics, October 21—23, 1963, 69—111. IBM Data Processing Division:
White Plains, N. Y.
424
Список литературы
Bohrer R.
(1973) Ап optimality property of Scheffd bounds. Ann. Stat,, 1, 766—772.
Bohrer R., Francis G. K.
(1972) Sharp one-sided confidence bounds for linear regression over intervals.
Biometrika, 59, 99—107.
Bouillon T. L., Odell P. L.
(1971) Generalized Inverse Matrices. Wiley! New York.
Bowden D. C.
(1970) Simultaneous confidence bands for linear regression models. J, Am. Stat.
Assoc., 65, 413—421.
Bowden D. C., Graybill F. A.
(1966) Confidence bands of uniform and proportional width for linear models.
J. Am. Stat. Assoc, 61, 182—198.
Box. G. E. P.
(1953) Non-normality and tests on variances. Biometrika, 40, 318—335.
(1957) Evolutionary operation: a method for increasing industrial productivity.
Appl. Stat., 6, 3—23.
(1966) Use and abuse of regression. Technometrics, 8, 625—629.
Box G. E. P., Cox D. R.
(1964) An analysis of tranformations J. R, Stat. Soc. B., 26, 211—252.
Box G. E. P., Draper N. R.
(1959) A basis for the selection of a response surface design. J. Am. Stat,
Assoc., 54, 622—654.
(1963) The choice of a second order rotatable design. Biometrika, 50, 335—352.
(1969) Evolutionary Operation. Wiley: New York.
(1975) Robust designs. Biometrika, 62, 347—352.
Box G. E. P., Hill W. J. .
(1974) Correcting inhomogeneity of variance with power transformation weigh-
ting. Technometrics, 16, 385—389.
Box G. E. P., Tidwell P. W.
(1962) Transformation of the independent variables. Technometrics, 4, 531—550.
Box G. E. P., Watson G. S.
(1962) Robustness to non-normality of regression tests. Biometrika, 49, 93—106.
Box M. J., Draper N. R.
(1971) Factorial designs, the |X'X| criterion, and some related matters. Te-
chnometrics, 13, 731—742.
Bradu D., Gabriel K. R.
(1974) Simultaneous statistical inference on interactions in two-way analysis of
variance. J. Am. Stat. Assoc., 69, 428—439.
Breaux H. J.
(1968) A modification of Efroymson’s technique for stepwise regression analy-
sis. Commun. Assoc. Comp. Mach., 8, 556—557.
Brown M. B., Forsythe A. B.
(1974) Robust tests for the equality of variances. J. Am. Stat. Assoc., 69,
364—367.
Brown R. L„ Durbin J., Evans J. M.
(1975) Techniques for testing the constancy of regression relationships over
time. J, R. Stat. Soc. B, 37, 149—163.
Список литературы
425
Brunk Н. D.
(1965) An Introduction to Mathematical Statistics, 2nd ed. Blaisdell: Waltham,
Mass.
Businger P. A.
(1970) Updating a singular value decomposition. BIT (Nord. Tidskr. Infor-
mations—Behandl.), 10, 376—385.
Businger P., Golub G. H.
(1965) Linear least squares solutions by Householder transformations. Numer,
Math., 7, 269—276.
Cadwell J. H., Williams D. E.
(1961) Some orthogonal methods of curve and surface fitting. Comput. J., 4,
260—264.
Canner P. L.
(1969) Some curious results using minimum variance linear unbiased estima-
tors. Am. Stat., 23 (5), 39—40.
Cartner S. G., Swanson M. R.
(1973) Evaluation of ten pairwise multiple comparison procedures by Monte
Carlo methods. J. Am. Stat. Assoc., 68, 66—74.
Chambers J. M.
(1971) Regression updating. J, Am. Stat. Assos., 66, 744—748.
Chen E. H., Dixon W. J.
(1972) Estimates of parameters of a censored regression sample, J, Am. Stat.,
67, 664—675.
Christensen L. R.
(1973) Simultaneous statistical inference in the normal multiple linear regres-
• sion model. J, Am. Stat, Assoc., 68, 457—461.
Clayton D. G.
(1971) Algorithm AS 46: Gram—Schmidt orthbgonalisation. Appt. Stat., 20,
335—338,
Clenshaw C. W.
(1955) A note on the summation of Chebyshev series. Math. Tables Aids Corn-
put., 9, 118.
(1960) Curve fitting with a digital computer. Coniput. J., 2, 170.
Clenshaw C. W., Hayes J. G.
(1965) Curve and surface fitting. J, Inst, Math. Appt., 1, 164—183.
Cochran W, G.
(1934) The distribution of quadratic forms in a normal system, with applica-
tions to the analysis of covariance. Prob. Catnb. Phil. Soc., 30, 178 —
191.
(1938) The omission or addition of an independent variate in multiple li-
near regression. J. R. Stat. Soc. Suppl., 5, 171—176.
(1941) The distribution of the largest of a set of estimated variances as a frac-
tion of their total. Ann. Eugenics bond., 11, 47—52.
(1957) Analysis of covariance: its nature and uses, Biometrics, 13, 261—281.
(1969) The use of covariance in observational studies. Appl, Stat,, 18, 270—275.
Cochran W. G., Cox G. M.
(1957) Experimental Designs, 2nd, Wiley: New York,
14 Ns !571
426
Список литературы
Cooper В. Е.
(1968) The use of orthogonal polynomials: Algorithm AS 10. Appl. Stat., 17,
283—287.
(1971a) The use of orthogonal polynomials with equal x-values: Algorithm
AS 42. Appl. Stat., 20, 208—213.
(19714) A remark on algorithm AS 10, Appl, Stat,, 20, 216,
Cote R., Manson A. R,, Hader R. J,
(1973) Minimum bias approximation of a general regression model, J. Am.
Stat. Assoc., 68, 633—638.
Сох С. P.
(1971) Interval estimating for X-predictions from linear Y—on—X regression
lines through the origin, J. Am, Stat, Assoc,, 66, 749—751,
Cox D. R.
(1961) Tests of separate families of hypotheses. Proc, 4th Berkeley Symp., 1,
105—123.
(1962) Further results on tests of separate families of hypotheses. J. R. Stat.
Soc. B, 24, 406—424.
(1968) Notes on some aspects of regression analysis. J. R. Stat. Soc. B, 30,
265—279.
Cox D. R,, Hinkley D, V.
(1968) A note on the efficiency of least squares estimates, J, R. Stat. Soc. B,
30, 284—289,
Cox D. R„ Snell E. J.
(1968) A general definition of residuals. J, R, Stat, Soc. B, 30, 248—275.
(1974) The choice of variables in observational studies. Appl. Stat., 23, 51—59,
Cramer E. M,
(1972) Missing values in experimental design models. Am Stat,, 26 (4), 58.
Csorgo M,, Seshadri V,, Yalovsky M,
(1973) Some exact tests for normality in the presence of unknown parameters.
J. R. Stat, Soc. B, 35, 507—522,
Curnow R. N.
(1973) A smooth population response curve based on an abrupt threshold and
plateau model for individuals, Biometrics, 29, 1—10.
Curry H, B., Schoenberg I, J,
(1966) On P61ya frequency functions IV: the fundamental spline functions
and their limits, J. Anal. Math., 17, 71—107,
Daling J, R,, Tamura H. Use of orthogonal factors for selection of variables
(1970) in a regression equation—an illustration. Appl. Stat., 19, 260—268,
Daniel C,
(1959) Use of half-normal plots in interpreting factorial two-level experiments.
Technometrics., 1, 311—342,
Daniel C., Wood F. S.
(1971) Fitting Equations to Data. Wiley—Interscience: New York.
David H. A.
(1952) Upper 5 and 1% points of the maximum F ratio. Biometrika, 39,
422—424.
(1956) The ranking of variances in normal populations. J. Am. Stat. Assoc.,
51, 621—626.
(1970) Order Statistics, Wiley; New York,
Список литературы 427
Davies М.
(1967) Linear approximation using the criterion of least total deviations. J. R,
Stat. Soc. B, 29, 101—109.
Davies O. L. (Ed).
(1960) The design and analysis of industrial experiments. 2nd ed. Oliver and
Boyd: London.
Davids R. B., Hutton B.
(1975) The effects of errors in the independent variables in linear regression.
Biometrika, 62, 383—391.
Dayton С. M., Schafer W. D.
(1973) Extended tables of t and chi-square for Bonferroni tests with unequal
error allocation. J. Am. Stat. Assoc., 68, 78—83.
DeGracie J. S., Fuller W. A.
(1972) Estimation of the slope and analysis of covariance when the concomi-
tant variable is measured with error. J. Am. Stat. Assoc., 67, 930—
937.
De La Garza A.
(1954) Spacing of information in polynomial regression. Ann. Math. Stat., 25,
123—130.
Dixon W. J., Massey F. J., Jr.
(1969) Introduction to Statistical Analysis, 3nd ed. McGraw-Hill: New York.
Doolittle M. H.
(1878) Method employed in the solution of normal equations and'the adjust-
ment of a triangulation. U. S. Coast Geod. Surv. Rep., 115—120.
Draper N. R., Cox D. R.
(1969) On distributions and their transformation to normality. J, R. Stat.
Soc. B, 31, 472—476.
Draper N. R., Guttman I., Kanemasu H.
(1971^ The distribution of certain regression statistics. Biometrika, 58, 295—298.
Draper N. R., Hunter W. G.
(1969) Transformations: some examples revisited. Technometrics, llr 23—40.
Draper N., Smith H.
(1966) Applied Regression Analysis. Wiley: New York. [Русский перевод:
Дрейпер H., Смит Г. Прикладной регрессионный анализ,—М.: Ста-
тистика, 1973.]
Drygas Н.
(1970) The coordinate-free approach to Gauss—Markov estimation. Lecture
Notes in Operations Research and Mathematical System No. 40. Sprin-
ger-Verlag: New York.
Dunn O. J.
(1959) Confidence intervals for the means of dependent, normally distributed
variables. J. Am. Stat. Assoc., 54, 613—621.
(1961) Multiple comparisons among means. J. Am. Stat. Assoc., 56, 52—64.
(1968) A' note on confidence bands for a regression line over finite range.
J. Am. Stat. Assoc., 63, 1028—1033.
Durbin J.
(1969) Tests for serial correlation in regression analysis based on the periodo-
gram of least-squares residuals. Biometrika. 56, 1—15.
Durbin J., Watson G. S.
(1950) Testing for serial correlation in least squares regression. I, Biometrika,
37, 409—428.
14*
428
Список литературы
(1951) Testing for serial correlation in least squares regression. II. Biometrika,
38, 159—178.
(1971) Testing for serial correlation in least squares regression. III. Biomet-
rika, 58, 1—19.
Dwyer P. S.
(1941) The Doolittle technique. Ann. Math. Stat., 12, 449—458.
(1944) A matrix presentation of least squares and correlation theory with mat-
rix justification of improved methods of solution. Ann. Math. Stat.,
15, 82-89.
(1945) The square root method and its use in correlation and regression. J, Am.
Stat. Assoc., 40, 493—503.
Dyer A. R.
(1974) Comparison of tests for normality with a cautionary note. Biometrika,
61, 185—189.
Dykstra R. L., Hewett J. E., Thompson W. A., Jr.
(1973) Events which are almost independent. Ann. Stat., 1, 674—681.
Edwards J. B.
(1969) The relation between the F-test and R2. Am. Stat., 2.3 (5), 28.
Efroymson M. A.
(I960) Multiple regression analysis. In A. Ralston and H. S. Wilf (Eds.),
Mathematical Methods for Digital Computers, Vol. 1, pp. 191—203.
Eicker F.
(1963) Asymptotic normality and consistency of the least squares estimators
for families of linear regressions. Ann. Math. Stat., 34, 447—456.
Elfving G.
(1959) Design of linear experiments. In Ulf Grenander (Ed.), Probability and
statistics, Harold Cramdr Volume, pp. 58—74. Wiley: New York.
Ellenberg J. H.
(1973) The joint distribution of standardized least squares residuals from a ge-
neral linear regression. J. Am, Stat. Assoc., 68, 941—943.
Ezekiel M.
(1930) Methods of Correlation Analysis. Wiley: New York.
Ezekiel M., Fox K. A.
(1959) Methods of Correlation a d Regression Analysis. 3rd ed. Willey: New
York.
Farebrother R. W.
(1974) Algorithm AS 79: Cram —Schmidt regression. Appl. Stat., 23, 470 — 476.
Farebrother R. W., Berry G.
(1974) Remark AS R12. A remark on algorithm AS 6: Triangular decomposi-
tion of a symmetric matrix. Appl. Stat., 23, 477—478.
Farley J. U., Hinich M. J.
(1970) A test for a shifting slope coefficient in a linear model. J. Am. Stat.
Assoc., 65, 1320—1329.
Feder P. I.
(1974) Graphical techniques in statistical data analysis—tools for extracting
information from data. Technometrics, 16, 287—299.
(1975) On asymptotic distribution theory in segmented regression problems —
identified case, Ann, Stat., 3, 49—83.
Список литературы
429
Feller W.
(1968) Ап introduction to Probability Theory and its Applications, 3rd ed,
Wiley: New York. [Русский перевод: Феллер В. Введение в теорию ве-
роятностей и ее приложения., т. I.— М.: Мир, 1964.]
Fieller Е. С.
(1940) The biological standartization of insulin. J. R. Stat. Soc. Suppl., 7,
1—64.
Fisher R. A., Yates F.
(1957) Statistical Tables for Biological, Agricultural and Medical Research,
5th ed. Oliver and Boyd: London and Edinburgh.
Fletcher R. H.
(1975) On the iterative refinement of least squares solutions. J. Am. Stat,
Assoc., 70, 109—112.
Forsythe A. B., Engleman L., Jennrich R., May P. R. A.
(1973) A stopping rule for variable selection in multiple regression. J. Am,
Stat. .Assoc., 68, 75—77.
Forsythe G. E.
(1957) Generation and use of orthogonal polynomials for data-fitting with a
digital computer. J. Soc. Indust. Appl. Math., 5, 74—87.
Fowlkes E. B.
(1969) Some operators for ANOVA calculations. Technometrics, II, 511—526.
Fox L.
(1964) An Introduction to Numerical Linear Algebra. Oxford University Press:
London.
Fox L., Hayes J. G.
(1951) Practical methods for the inversion of matrices. J. R. Stat. Soc. B, 13,
8 J—91.
Francis I.
(1973) A comparison of several analysis of variance programs. J, Am. Stat.
Assoc., 68, 860—865.
Freeman G. H., Jeffers J. N. R.
(1962) Estimation of means and standard errors in the analysis of non-orthogo-
nal experiments by electronic computers. J. R. Stat. Soc. B, 24, 435—446,
Freund R. J.
(1963) A warning of roundoff errors in regression. Am. Stat., 17, 13—15.
Furnival G. M.
(1971) All possible regressions with less computation. Technometrics, 13, 403—408.
Furnival G. M., Wilson R. W. M., Jr.
(1974) Regressions by leaps and bounds. Technometrics, 16, 499—511.
Gabriel K. R., Putter J., Wax Y.
(1973) Simultaneous confidence intervals for product-type interaction contrasts.
J. R. Stat. Soc. B, 35, 234—244.
Gafarian A. V.
(1964) Confidence bands in straight line regression. J. Am. Stat. Assoc., 59,
182—213.
Gallant A. R., Fuller W. A.
(1973) Fitting segmented polynomial regression models whose joins pointshave
to be estimated, J. Am. Stat. Assoc., 68, 144—147,
430
Список литературы
Garside М. J.
(1965) The best sub-set in multiple regressionanalysis. Appl. Stat., 14, 196—200.
(1971) Some computational procedures for the best subset problem. Appl. Stat.,
20, 8—15.
Garside P. S.
(1972) A study of methods for comparing several variances. J. Am. Stat. Assoc.
67, 342—346.
Gaylor D. W., Sweeny H. C.
(1965) Design for optimal prediction in simple linear regression. J. Am. Stat.
Assoc., 60, 205—216.
Gentleman W. M.
(1974a) Algorithm AS 75: Basic procedures for large, sparse or weighted linear
least squares problems. Appl. Stat., 23, 448—454.
(1974b) Regression problems and the QR decomposition. J. Inst. Math, and
Appl., 10, 195—197.
Ghosh M. N., Sharma D.
(1963) Power of Tukey’s tests for non-additivity. J. R. Stat. Soc, B. 25, 213—219.
Gnanadesikan R., Wilk M. B.
(1970) A probability plotting procedure for general analysis of variance.
J. R. Stat. Soc. B, 32, 88—101.
Goldberger A. S.
(1964) Econometric Theory. Wiley: New York.
Goldsmith P. L., Boddy R.
(1973) Critical analysis of factorial experiments and orthogonal fractions. Appl.
Stat., 22, 141—160.
Goldstein M., Smith A. F. M.
(1974) Ridge-type estimators for regression analysis. J. R. Stat. Soc. B, 36,
284—291.
Golub G. H.
(1965) Numerical methods for solving linear least squares problems. Numer.
Math., 7, 206—216.
(1969) Matrix decompositions and statistical calculations. In R. C. Milton and,
J. A. Nelder (Eds.), Statistical Computation, pp. 365—397. Academic
Press: New York.
Golub G. H., Reinsch C.
(1970) Singular value decomposition and least squares solutions. Numer. Math.,
14, 403—420.
Golub G. H., Styan G. P.
(1973) Numerical computations for univariate linear models. J. Stat. Comput.
Sitnul., 2, 253—274.
(1974) Some aspects of numerical computations for linear models. Interface —
Proceedings of Computer Science and Statistics, 7th Annual Symposium
on the Interface (August 1973), pp. 189—192. Statistical Computing La-
boratory: Iowa State University.
Golub G. H„ Wilkinson J. H.
(1966) Note on the iterative refinement of least squares solutions. Numer. Math., 9,
139—148,
Список литературы
431
Good I. J.
(1963) On the independence of quadratic expressions. Л R. Stat. Soc. B, 25,
377—382.
Gorman J. W., Toman R. J.
(1966) Selection of variables for fitting equations to data. Technometrics, 8,
27—51.
Graybill F. A.
(1961) An Introduction to Linear Statistical Models, Vol. I. McGraw-Hill: New
York.
(1969) Introduction to Matrices with Applications in Statistics. Wadsworth:
Belmont, California.
Graybill F. A., Bowden D. C.
(1967), Linear segment confidence bands for simple linear models. J. Am. Stat.
Assoc., 62, 403—408.
Greenberg E.
(1975) Minimum variance properties of principal component regression. J. Am.
Stat. Assoc., 70, 194—197.
Grether D. M.
(1972) Missing values in experimental design models. Am. Stat., 26, (4), 57—58.
Grossman S. 1., Styan G. P. H.
(1972) Optimal Properties of Theil’s BLUS residuals. J. Am. Stat. Assoc., 67,
672—673.
Guest P. G.
(1958) The spacing of observations in polynomial regression. Ann. Math. Stat.,
29, 294—299.
Gujarati D.
(197Q) Use of dummy variables in testing for equality between sets of coeffi-
cients in linear regressions: a generalization. Am. Stat., 24 (5), 18—22.
Guttman I., Wilks S. S., Hunter J. S.
(1971) Introductory Engineering Statistics, 2nd. ed. Wiley: New York.
Haberman S. J.
(1975) How much do Gauss—Markov and least square estimates differ? A coor-
dinate-free approach. Ann. Stat., 3, 982—990.
Hahn G. J.
(1972) Simultaneous prediction intervals for a regression model. Technometrics,
14, 203—214.
Hahn G. J., Dershowiz A. F.
(1974) Evolutionary operation today-some survey resultsand observations. Appl.
Stat., 23, 214—218.
Hahn G. J., Hendrickson R. W.
(1971) A table of precentage points of the distribution of the largest absolute
of k Student t variates and its applications. Biometrika, 58, 323—332.
Hahn G. J., Shapiro S. S.
(1967) Statistical Models in Engineering. Wiley: New York. [Русский перевод:
Хан. Г., Шапиро С. Статистические модели в инженерных задачах. —
М.: Мир, 1969.]
Haitovsky Y.
(1969) A note on the maximization of Ra. Am. Stat., 23 (1), 20—21.
432
Список литературы
Hald А.
(1952) Statistical Theory with Engineering Applications. Wiley: New York.
(Русский перевод: Хальд А. Математическая статистика с техническими
приложениями. — М.: ИЛ, 1956.]
Halperin Е. F.
(1973) Polynomial regression from a Bayesian approach. J. Am. Stat. Assoc.,
68, 137—143.
Halperin M.
(1970) On inverse estimation in linear regression. Technometrics, 12, 727—736.
Halperin M., Gurian J.
(1968) Confidence bands in linear regression with constraints on the indepen-
dent variables. J. Am. Stat. Assoc., 63, 1020—1027.
(1971) A note on estimation in straight line regression when both varibles are
subject to error. J. Am. Stat. Assoc., 66, 587—589.
Halperin M., Rastogi S. C., Ho 1., Yang Y. Y.
(1967) Shorter confidence bands in linear regression. J. Am. Stat. Assoc., 62,
1050—1067.
Hamaker H. C.
(1962) On multiple regression analysis. Stat. Neerl., 16, 31—56.
Han С. P.
(1968) Testing the homogeneity of a set of correlated variances. Biometrika, 55,
317—326.
(1969) Testing the homogeneity of variances in a two-way classification. Bio-
metrics, 25, 153—158.
Harter H. L.
(1970) Multiple comparison procedures for interactions. Am. Stat., 24 (5), 30—32.
Hartley H. O.
(1950) The maximum f-ratio as a short cut test for heterogeneity of variance.
Biometrika, 37, 308—312.
(1956) Programming analysis of variance for general purpose computers. Bio-
metrics, 12, 110—122.
Hartley H. O., Jayatillake K. S. E.
(1973) Estimation for linear models with unequal variances. J. Am. Slat. Assoc.,
68, 189—192.
Haseman J. K-, Gaylor D. W.
(1973) An algorithm for non-iterative estimation of multiple missing values for
crossed classifications. Technometrics., 15, 631—636.
Hastings W. K.
(1972) Test data for statistical algorithms: least squares and ANOVA. J. Am.
Stat. Assoc., 67, 874—879.
Hawkins D. M.
(1973) On the investigations of alternative regressions by principal component
analysis. Appl. Stat., 22, 275—286.
Hayes D. G.
(1969) A method of storing the orthogonal polynomials used for curve and sur-
face fitting. Comput. J., 12, 148—150.
Hayes J. G.
(1970a) Curve fitting by polynomials in one variable. In J. G. Hayes (Ed.),
Numerical Approximation to Functions and Data, pp. 43—64. Athlone
Press: London.
Список литературы
433
(1970b) Numerical Approximation to Functionsand Data. Athlone Press: London.
(1974) Numerical methods for curve and surface fitting. J. Inst. Math. Appl.,
JO, 144—152.
Healey M. J. R.
(1968a) Multiple regression with a singular matrix. Appl. Stat., 17, 110—117.
(1968b) Algorithm AS6: Triangular decomposition of a symmetric matrix; Algo-
rithm AS7: Inversion of a positive semi-definite symmetric matrix.
Appl. Stat., 17, 195—199.
Healey M. J. R., Westmacott M.
(1956) Missing values in experiments analyzed on automatic computers. Appl.
Stat., 5, 203—206.
Hedayat A., Robson D. S.
(1970) Independent stepwise residuals for testing homoscedasticity. J. Am.
Stat., Assoc., 65, 1573—1581.
Helms R. W.
(1974) The average estimated variance criterion for the selection—of—variables
problem in general linear models. Technometrics, 16, 261—273.
Hemmerle W. J.
(1974) Nonorthogorial analysis of variance using iterative improvement and ba-
lanced residuals. J. Am. Stat. Assoc., 69, 772—778.
Herzberg A. M., Cox D. R.
(1972; Some optimal designs for interpolation and extrapolation. Biometrika,
59, 551—561.
Hill W. J., Hunter W. G.
(1966) A review of response surface methodology: a literature survey. Techno-
metrics, 8, 571—590.
Hinkley D. V.
(1969a) On the ratio of two correlated normal random variables. Biometrika,
56, 635-639.
(1969b) Inference about the intersection in two-phase regression. Biometrika,
56, 495—504.
(1971) Inference in two-phase regression. J. Am. Stat. Assoc., 66, 736—743.
Hoadley B.
(1970) A bayesian look at inverse linear regression. Л Am. Stat. Assoc., 65,
356—369.
Hocking R. R.
(1972) Criteria for selection of a subset regression: which one should be used?
Technometrics, 14, 967—970.
(1974) Misspecification in regression. Am. Stat., 28 (1), 39—40.
Hocking R. R., Leslie R. N.
(1967) Selection of the best subset in regression analysis. Technometrics, 9,
531—540.
Hodges S. D., Moore P. G.
(1972) Data uncertainties and least squares regression. Appl. Stat., 21, 185—195.
Hoel P. G.
(1958) Efficiency problems in polynomial estimation. Ann. Math. Stat., 29,
1134—1145,
434
Список литературы
(1968) On testing for the degree of a polynomial. Technometrics, 10, 757—767.
Hoel P. G., Levine A.
(1964) Optimal spacing and weighting in polynomial prediction. Ann. Math.
Stat., 35, 1553—1560.
Hoerl A. E., Kennard R. W.
(1970a) Ridge regression. Biased estimation for non-orthogonal problems. Tech-
nometrics, 12, 55—67.
(1970b) Ridge regression. Applications to non-orthogonal problems. Techno-
metrics, 12, 69—82.
Hogg R. V.
(1974) Adaptive robust procedures: a partial review and some suggestions for
future applications and theory. J. Am. Stat. Assoc., 69, 909—925.
Hogg R. V„ Craig A. T.
(1958) On the decomposition of certain chi-square variables. Ann. Math. Stat.,
29, 608-610.
(1970) Introduction to Mathematical Statistics, 3rd ed. Macmillan: New York.
Hotelling H.
(1943) Some new methods in matrix calculation. Ann. Math. Stat., 14, 1—34.
(1957) The relations of the newer multivariate statistical methods to factor
analysis. Brit. J. Stat. Psychol., 10, 69—79.
Hsu P. L.
(1938) On the best unbiased quadratic estimate of the variance. Stat. Res.
Mem., 2, 91—104.
Huang C. J., Bolch B. W.
(1974) On the testing of regression disturbances for normality. J. Am. Stat.
Assoc., 69, 330—335.
Huang D. S.
(1970) Regression and Econometric Methods. Wiley: New York.
Hudson D. J.
(1966) Fitting segmented curves whose join points have to be estimated. J. Am.
Stat. Assoc., 61, 1097—1129.
(1969) Least squares fitting of a polynomial constrained to be either non-ne-
gative, non-decreasing or convex; J. R. Stat. Soc. B, 31, 113—118.
I. B. M.
(1968) System 360 Scientific Sub-routines Package, 360A-CM-03X Version III.
Jaech J. L.
(1966) An alternative approach to missing value estimation. Am. Stat., 20 (5),
27—29.
James A. T., Wilkinson G. N.
(1971) Factorization of the residual operator and canonical decomposition of
non-orthogonal factors in analysis of variance. Biometrika, 58, 279—294.
James W., Stein C.
(1961) Estimation with quadratic loss. Proc. Fourth Berkeley Symp. Math.
Stat. Probab., 1, 361—379.
Jeffers J. N. R.
(1967) Two case studies in the application of principal component analysis,
Appl. Stat., 16, 225—236.
Список литературы
435
Jennrich R. I., Sampson P. I.
(1971)-A remark on algorithm AS 10, Appl. Stat., 20, 117—118.
John J. A., Smith T. M. F.
(1974) Sum of squares in non-full rank genera] linear hypothesis. J. R. Stat.
Soc. B, 36, 107—109.
John P. W. M.
(1971) Statistical Design and Analysis of Experiments. Macmillan: New York,
Johnson A. F.
(1971) Linear combinations in designing experiments. Technometrics, 13, 575—587,
Johnson D. E., Graybill F. A.
(1972a) Estimation of o2 in a two-way classification model with interaction.
J. Am. Stat. Assoc., 67, 388—394.
(1972b) An analysis of a two-way model with interaction and no replication.
J. Am. Stat. Assoc., 67, 862—868.
Jordan T. L.
(1968) Experiments on error growth associated with some linear least squares
procedures. Math. Comp., 22, 579—588.
Joshi S. W.
(1970) Construction of certain bivariate distributions. Am. Stat., 24 (2), 32.
Kalotay A. J.
(1971) Structural solution to the linear calibration problem. Technometrics, 13,
761—769.
Karlin S., Studden W. J.
(1966) Optimal experimental designs. Ann. Math, Stat,, 37, 783—815.
Karson M. J., Manson A. R., Hader R. J.
(1969) Minimum bias estimation and experimental design for response surfaces.
Technometrics, 11, 461—475.
Kelley T. L.
(1948) The Kelley Statistical Tables. (Revised 1948.) Harvard University Press:
Cambridge, Mass.
Kendall M. G., Stuart A.
(1968) The Advanced Theory of Statistics, 3. Griffin: London. [Русский пере-
вод: Кендалл M., Стьюарт А. Многомерный статистический анализ
и временные ряды.— М.: Наука, 1976.]
Kennard R. W.
(1971) A note on the Ср statistic. Technometrics, 13, 899—900.
Kennedy W. J., Bancroft T. A.
(1971) Model building for prediction in regression based upon repeated signifi-
cance test. Ann. Math. Stat., 42, 1273—1284.
Kiefer J.
(1959) Optimum experimental designs J. R. Stat. Soc. B, 21, 273—319.
Kiefer J., Wolfowitz J.
(1959) Optimum designs in regression problems. Ann. Math. Stat., 30, 271—294.
(1960) The equivalence of two extremum problems. Can. J. Math., 12, 363—366.
(1965) On a theorem of Hoel and Levine on extrapolation designs. Ann. Math,
Stat., 36, 1627—1655.
436
Список литературы
Kingman A., Graybill F. А.
(1970) A non-linear characterization of the normal distribution. Ann. Math.
Stat., 41, 1889—1895.
Kiontouzis E. A.
(1973) Linear programming techniques in regression analysis. Appl. Stat., 22,
69—73.
Koerts J,
(1967) Some further notes on disturbance estimates in regression analysis.
J. Am. Stat. Assoc., 62, 169—183.
Koerts J., Abrahamse A. P. J.
(1969) On the Theory and Application of the General Linear Model. Rotterdam
University Press: Rotterdam.
Kowalski C. J.
(1970) The performance of some rough tests for bivariate normality before and
after coordinate transformations to normality. Thechnometrics, 12, 517—544.
(1973) Non-normal bivariate distributions with normal marginals. Am. Stat.,
27 (3), 103—106.
Kruskal W.
(I960) The coordinate free approach to Gauss—Markov estimation and its appli-
cation to missing and extra observations. Proc. Fourth Berkeley Symp.
Math. Stat. Probab., 1, 435—451.
(1968) When are Gauss—Markov and least squares estimators identical? A coor-
dinate-free approach. Ann. Math. Stat., 39, 70—75.
(1975) The geometry of generalized inverses. J. R. Stat. Soc. B, 37, 272—283.
Krutchoff R. G.
(1967) Classical and inverse regression methods of calibration. Technometrics,
9, 425—439.
(1969) Classical and inverse regression methods of calibration in extrapolation.
Technometrics, 11, 605—608.
Kshirsagar A. M-.
(1971) Bias due to missing plots. Am. Stat., 25 (1), 47—50.
Kuiper N. H.
(1960) Tests concerning random points on a circle. Proc. K. Ned. Acad.
Wet., Ser. A, 63, 38—47.
Kupper L. L.
(1972) Letter to the editor. Am. Stat., 26 (1), 52.
(1973) A note on the admissibility of a response surface. J. R. Stat Soc. B,
35, 28—32.
Kupper L. L., Meydrech E. F.
(1973) A new approach to mean squared error estimation of response surfaces.
Biometrika, 60, 573—579.
Kussmaul K.
(1966) Protection against assuming the wrong degree in polynomial regression.
Technometrics, 11, 677—682.
Laha R. G.
(1957) On a characterization of the normal distribution from properties of sui-
table linear statistics. Ann. Math. Stat., 28, 126—139.
Список литературы
437
La Motte L.' R., Hocking R. R.
(1970) Computational efficiency in the selection of regression variables. Techno-
metrics, 12, 83—93.
Lancaster H. O.
(1954) Traces and cumulants of quadratic forms in normal* variables. J. R.
Stat. Soc. B, 16 247—254.
(1969) The Chi-Squared Distribution. Wiley: New York.
Larsen W. A., McCleary S. J.
(1972) The use of partial residual plots in regression analysis. Technometr ics,
14. 781—790.
Layard M. W. J.
(1973) Robust large-sample tests for homogeneity of variances. J. Am. Stat.
Assoc., 68, 195—198.
Levene H.
(1960) Robust tests for equality of variances. In I. Olkin (Ed.), Contributions
to Probability and Statistics, pp. 278—292. Stanford University Press:
Palo Alto, Calif.
Lieberman G. J.
(1961) Prediction region for several predictions from a single regression line.
Technometrics, 3, 21—27.
Lieberman G. J., Miller R. G„ Jr.
(1963) Simultaneous tolerance intervals in regression. Biometrika, 50, 155—168.
Lieberman G. J., Miller R. G., Jr., Hamilton M. A.
(1967) Unlimited simultaneous discrimination intervals in regression. Biomet-
rika, 54, 133—145.
Lindley D. V. '
(1968) The choice of variables in multiple regression. J. R. Stat. Soc. B, 30,
31—53.
Lindley D. V., Smith A. F. M.
(1972) Bayes estimates for the linear model. J. R. Stat. Soc. B, 34, 1—18.
Ling R. F.
(1974) Comparison of several algorithms for computing sample means and va-
riances. J. Am. Stat. Assoc., 69, 859—866,
Longley J. W,
(1967) An appraisal of least squares programs for the electronic computer from
the point of view of use. J. Am. Stat. Assoc., 62, 819—841.
Lowe C. W.
(1974) Evolutionary operation in action. Appl. Stat,, 23, 218—226.
Lowerre J. M.
(1974) On the mean square error of parameter estimates for some biased esti-
mators. Technometrics, 16, 461—464.
Lukacs E.
(1959) Characterization of populations by properties of suitable statistics. Proc.
3rd Berkeley Symp., 2, 195—214.
McElroy F. W.
(1967) A necessary and sufficient condition that ordinary least-squares estima-
tors be best linear unbiased. J Am. Stat. Assoc., 62. 1302—1304,
McGee V. E., Carleton W. T.
(1970) Piecewise regression. J, Am. Stat. Assoc., 65, 1109—1124,
438
Список литературы
Marcus М.
(1964) Basic Theorem in Matrix Theory. National Bureau of Standards Applied
Mathematics Series, No. 57. U. S. Government Printing Office: Washing-
ton, D. C.
Malinvaud E.
(1970) Statistical Methods of Econometrics (translated by A. Silvey). Amsterdam.
Mallows C. L.
(1964) Chosing Variables in a Linear Regression: a Graphical Aid. Presented at
the Cental Regional Meeting.of the Institute of Mathematical Statistics,
Manhattan, Kansas.
(1966) Choosing a Subset Regression. Presented at the Joint Statistical Meeting,
Los Angeles, Calif.
(1967 approx.) Choosing a Subset Regression. Unpublished report, Bell Telep-
hone Laboratories.
(1973) Some comments on Cp. Technometrics, 15, 661—675.
Mantel N.
(1970) Why stepdown procedures in variable selection. Technometrics, 12,
621—625.
Marcus M.
(1964) Basic Theorems in Matrix Theory. National Bureau of Standards. Applied
Mathematics Series, No 57, U. S. Government Printing Office: Washing-
ton, D. C.
Marsaglia G.
(1964) Conditional means and covariances of normal variables with singular
covariance matrix. J. Am. Stat, Assoc., 59, 1203—1204.
Martin R. S., Peters G., Wilkinson J. H.
(1965) Symmetric decomposition of a positive definite matrix. Nutner. Math.,
7, 362—383.
Massy W. F.
(1965) Principal component regression in exploratory statistical research. J, Am,
Stat. Assoc,, 60, 234—256.
Mayer. L. S, Willke T. A.
(1973) On biased estimation in linear models. Technometrics, 15, 497—508,
Miller K. S.
(1975) Multivariate Distributions, R, E, Krieger: New York,
Miller R. G., Jr.
(1966) Simultaneous Statistical Inference, McGraw-Hill; New York.
Mitchell T, J.
(1974a) An algorithm for the construction of ,,D-optimal“ experimental desings.
Technometrics, 16, 203—210.
(1974b) Computer construction of ,,D-optimal“ first-order designs. Technomet-
rics, 16, 211—220.
Moler С. E.
(1976) Iterative refinement in floating point. J. Assoc. Comput. Mach., 14,
316—321.
Moran P. A. P.
(1970) Fitting a straight line when both variables are subject to error. In
R. S. Anderssen and M. R. Osborne (Eds.), Data Presentation, pp. 25—28.
University of Queensland Press.
Список литературы
439
Morgan L. A., Tatar J. F.
(1972) Calcillation of the residual sum of squares for all possible regressions.
Technometrics, 14, 317—325.
Moussa-Hamouda E. A., Leone F. C.
(1974) The 0-BLUE estimators for complete and censored samples. Technomet-
rics, 16, 441—446.
Muller M. E.
(1970) Computers as an instrument for data analysis. Technometrtcs, 12,
259—294.
Mullet G. M., Murray T. W.
(1971) A new method for examining rounding error in least squares regression
computer programs. J. Am. Stat. Assoc., 66, 496—498.
Murty V. N.
(1971) Minimax designs. J. Am. Stat. Assoc., 66, 319—320.
Murty V. N., Studden W. J.
(1972) Optimal designs for estimating the slope of a polynomial regression.
J. Am. Stat. Assoc., 67, 869—873.
Myers R. H.
(1971) Response Surface Methodology. Allyn and Bacon: Boston.
Narula S. G.
(1974) Predictive mean square error and stochastic regressor variables. Appl.
Stat., 23, 11—16.
Nelder J. A.
(1965a) The analysis of randomized experiments with orthogonal block stucture.
I. Block structure and the null analysis of variance. Proc. R. Soc., A,
283, 147—162.
(1965b) The analysis of randomized experiments with orthogonal block struc-
ture. II. Treatment structure and the general analysis of variance
Proc. R. Soc. A., 283, 163—178.
(1968) Regression, Model-building and invariance. J. R. Stat. Soc. A, 131-
303—315.
(1972) Discussion of a paper by D. V. Lindley and A. F. M. Smith. J. R. Stat.
Soc. B. 34, 18—20.
(1974) Analysis of variance programs, least squares and two-way tables. Appl.
Stat., 23, 232.
Nelson W.
(1973) Analysis of residuals from censored data. Technometrics, 15, 697—715.
Nelson W., Hahn G. J. _
(1972) Linear estimation of a regression relationship from censored data—Part
I. Simple methods and their application Technometrics, 14, 247—269.
(1973) Linear estimation of a regression relationship from censored data—PartII.
Best linear undiased estimation and theory. Technometrics, 15, 133^-150.
Newton R. G., Spurrell D. J.
(1967a) A development of multiple regression for the analysis of routine data.
Appl. Stat., 16, 51—64.
(1967b) Examples of the use of elements for clarifying regression analysis. Appl-
Stat., 16, 165—172.
440
Список литературы
Oden А.
(1973) Simultaneous confidence intervals in inverse linear regression. Biomet-
rika, 60, 339—343.
Olshen R. A.
(1973) The conditional level of the F-test. J. Am. Stat. Assoc., 68, 692—698.
O’Neill R„ Wetherill G. B.
(1971) The present state of multiple comparison methods. J. R. Stat. Soc. B.
33, 218—250.
Ott L„ Mendenhall W.
(1972) Designs for estimating the slope of a second order linear model. Techno-
metrics, 14, 341—353.
Ott R. L., Myers R. H.
(1968) Optimal experimental designs for estimating the independent variable
in regression. Technometrics, 10, 811—823.
Patil G. P., Boswell M. T.
(1970) A characteristic property of the multivariate normal density function
and some of its applications. Ann. Math. Stat., 41, 1970—1977.
Payne J. A.
(1970) An automatic curve-fitiing package. In. J. G. Hayes (Ed.), Numerical
Approximation of Functions and Data, pp. 98—106. Athlone Press:
London.
Pearce'S. C.
(1965) Biological Statistics: an Introduction. McGraw-Hill: New York.
Pearce S. C., Calinski T., Marshall T. F. de C.
(1974) The basic contrasts of an experimental design with special reference to
the analysis of data. Biometrika, 61, 449—460.
Pearce S. C., Jeffers J. R. N.
(1971) Block designs and missing data. J. R. Stat. Soc. B, 33, 131—136.
Pearson E. S., Hartley H. O.
(1970) Biometrika tables fpr statisticians, Vol. 1, 3rd ed. Cambridge University
Press.
Pejng S. K., Tong Y. L.
(1974) A sequential solution to the inverse linear regression problem. Ann.
Stat., 2, 535—539.
Peters G., Wilkinson J. H.
(1970) The least squares problem and pseudoinverses. Comput. J., 13, 309—316.
Phillips G. D. A., Harvey A. C.
(1974) A simple test for serial correlation in regression analysis. J. Am. Stat.
Assoc., 69. 935—939.
Pierce D. A., Dykstra R. L.
(1969) Independence and the normal distribution. Am. Stat., 23 (4), 39.
Plackett R. L.
(1950) Spme theorems in least squares. Biometrika, 37, 149—157.
(1960) Regression Analysis. Clarendon Press: Oxford.
Poirier D. J.
(1973) Piecewise regression using cubic splines. J. Am. Stat. Assoc, 68, 515—524.
Pope P. T., Webster J. T.
(1972) The use of an F-statistic in stepwise regression procedures. Technometrics,
14, 327—340.
Список литературы
441
Preece D. А.
(1971) Iterative procedures for missing values in experiments. Technometrics,
13, 743—753.
Preece D. A., Gower J. C.
(1974) An iterative computer procedure for mixed-up values in experiments.
Appl. Stat., 23, 73—74.
Prentice R. L.
(1974) Degrees-of-freedom modifications for F tests based on nonnormal errors.
Biometrika, 61, 559—563.
Pringle R. M., Rayner A. A.
(1971) Generalized Inverse Matrices with Applications to Statistics. Griffin:
London.
Putter J.
(1967) Orthonormal bases of error spaces and their use for investigating the
normality and variance of residuals. J. Am. Stat. Assoc.,-62, 1022—1036.
Quenouille M. H.
(1950) An application of least squares to family diet surveys. Econometrica, 18,
27—44.
Rahman N. A.
(1967) Exercises in Probability and Statistics. Griffin: London.
Ramsey J. B.
(1969) Tests for specification errors in classical linear least-squares regression
analysis. J. R. Stat. Soc. B, 31, 350—371.
Rao C. R.
(1952) Some theorems on minimum variance estimation. Sankhya, 12, 27—42.
(1969) Some characterizations of the multivariate normal distribution. In
P. R. Krishnaiah (Ed.), Multivariate Analysis. Vol IL pp. 321—328.
' Academic Press: New York.
(1970) Estimation of heteroscedastic variances in linear models. J. Am. Stat.
Assoc., 65, 161—172.
(1972a) Recent trends of research work in multivariate analysis. Biometrics,
28, 3—22.
(1972b) Estimation of variance and covariance components in linear models.
J. Am. Stat. Assoc., 67, 112—115.
(1973) Linear Statistical Inference and its Applications, 2nd ed. Wiley: New
York. [Русский перевод: Рао С. P. Линейные статистические методы
и их применения.— М.: Наука, 1968.]
(1974) Projectors, generalized inverses and BLUE’s. J. R. Stat. Soc. B. 36.
442—448.
Rao C. R., Mitra S. K.
(1971a) Generalized Inverse of Matrices and its Applications. Wiley: New York.
(1971b) Further contributions to the theory of generalized inverse of matrices
and its applications. Sankhya. Series A, 33, 289—300.
Rice J. R.
(1966) Experiments on Gram—Schmidt orthogonalization. Math. Comp., 20,
325—328.
Richardson D. H., Wu De-Min
(1970) Alternative estimators in the error in variables model. J. Am. Staf.
flssos., 65, 724—748.
442
Список литературы
Robison D. Е<
(1964) Estimates for the point of intersection of two polynomial regressions. J.
Am. Stat. Assoc, 59, 214—224.
Rogers С. E., Wilkinson G. N.
(1974) Regression, curve fitting and smoothing numerical problems in recursive
analysis of variance algorithms. J. Inst. Math. Appl., 10, 141—143,
Rohde C. A., Harvey J, R.
(1965) Unified least squares analysis. J. Am. Stat. Assos,, 60, 523—527.
Rothman D.
(1968) Letter to the editor. Technometrics, 10, 432.
Rubin D. B. —
(1972) A non-iterative algorithm for least squares estimation of missing values
in any analysis of variance design. Appl. Stat,, 21, 136—141.
Ssdovski A N
(1974) Ll-norm fit of a straight line: algorithm AS 74. Appl. Stat., 23, 244—248.
St. John R. C., Draper N. R.
(1975) D-optimality for regression designs: a review, Technometrics, 17, 15—23.
Savage I. R., Lukacs E.
(1954) Tables of inverses of finite segments of the Hilbert matrix. In O, Taussky
(Ed.), Contributions to the Solution of Systems of Linear Equations and
the Determination of Eigenvalues, National Bureau of Standards Applied
Mathematics Series 39, pp. 105—108, U.S, Govt. Printing Office: Washing-
ton, D. C.
Saw J. G.
(1966) A conservative test for the concurrence of several regression lines and
related problems, Biometrika, 53, 272—275,
Schatzoff M., Tsao R„ Fienberg S,
(1968) Efficient calculation of all possible regressions. Technometrics, 10,
769—779.
Scheffe H.
(1953) A method of judging all contrasts in the analysis of variance, Ann, Math.
Stat., 40, 87—104.
(1959) The analysis of Variance, Wiley: New York, [Русский перевод: Шеффе Г.
Дисперсионный анализ.—М.: Физматгиз, 1963.]
Schlesselman J.
(1971) Power families: a note on the Box and Cox transformation. J. R. Stat.
Soc. B, 33, 307—311.
Schlossmacher E. J.
(1973) An iterative technique for absolute deviations curve fitting. J, Am. Stat.
Assoc., 68, 857—859.
Schoenberg I. J.
(1946) Contributions to the problem of approximation of equidistant data by
analytic functions. Q. J. Appl. Math., 4, 45—99; 112—141.
Sclove S. L.
(1968) Improved estimators for coefficients in linear regression, J. Am. Stat.
Assoc., 63, 597—606.
(1972) (Y vs. X) or (logY vs. X)? Technometrics, 14, 391—403.
Scott A. J., Knott M.
(1974) A cluster analysis method for grouping means in the analysis of variance.
Biometrics, 30, 507—512,
Список литературы
’ 443
Scott A., Smith Т. М. F.
(1970) A note on Moran’s approximation to Student's t, Biometrika, 57, 681—682.
(1971) Interval estimates for linear combinations of means. Appl. Stat., 20,
276—285.
Searle S. R.
(1971) Linear Models. Wiley: New York,
Seber G. A. F.
(1966) The Linear Hypothesis: a General Theory. Griffin’s Statistical Monographs
No. 19. Griffin: London.
(1973) The Estimation of Animal Abundance and Related Parameters. Griffin:
London.
Seely J., Zyskind G.
(1971) Linear spaces and minimum variance unbiased estimation. Ann. Math.
Stat., 42, 691—703.
Shapiro S. S., Francia R. S.
(1972) An approximate analysis of variance test for normality, J. Am. Stat.
Assoc., 67, 215—216.
Shapiro S. S., Wilk M. B.
(1965) An analysis-of-variance test for normality (complete samples). Biometrika,
52 , 591—611.
Shapiro S. S., Wilk M. B., Chen H. J.
(1968) A comparative study of various tests for normality. J. Am. Stat. Assoc,,
63, 1343—1372,
Shearer P. R,
(1973) Missing data in quantitative designs. Appl, Stats., 22, 135—140.
Sidak Z.
(1968) On multivariate normal probabilities of rectangles, Ann. Math. Stat.,
39, 1425—1434.
Sielken R. L., Jr,, Hartley H. О
(1973) Two linear programming algorithms for unbiased estimation of linear
models. J. Am. Stat. Assoc., 68, 639—641.
Silvey S. D.
(1969) Multicollinearity and imprecise estimation. J. R.Stat.^ Soc., B, 31,
539-552.
(1970) Statistical Inference. Penguin Books.
Silvey S. D., Titterington D. M.
(1974) A Langrangian approach to optimal design. Biometrika, 61, 299—302.
Smith J. H.
(1972) Families of transformations for use in regression analysis. Am. Stat,,
26 (3), 59-61.
Snee R. D.
(1971) A note on the use of residuals for examining the assumptions of cova-
riance analysis. Technometrics, 13, 430—437.
Spj0tvoll E.
(1972a) On the optimality of some multiple comparison procedures. Ann. Math.
Stat., 43, 398—411.
(1972b) Joint confidence intervals for all linear functions of means in the one
way layout with unknown group variances, Biometrika, 59, 683—685,
444
Список литературы
(1972с) Multiple comparison of regression functions. Ann. Math, Stat., 43,
1076—1088.
Spjetvoll E., Stoline M. R.
(1973) An extension of the T method of multiple comparison to include the
cases with unequal sample sizes, J. Am, Stat. Assoc., 68, 975—978.
Sprent P.
(1961) Some hypotheses concerning two phase regression lines. Biometrics, 17,
634—645.
(1969) Models in Regression and Related Topics. Methuen: London.
(1971) Parallelism and concurrence in linear regression. Biometrics, 27,440—444.
Stefansky W.
(1971) Rejecting outliers by maximum normed residual. Ann. Math. Stat., 42,
35—45.
(1972) Rejecting outliers in factorial designs. Technometrics, 14, 469—479.
Stein C.
(1960) Multiple regression. In Contributions to Probability and Statistics,
“Essays in honor of Harold Hotelling”, pp. 424—443. Stanford University
Press: Palo Alto, Calif.
Stiefel E. L.
(1963) An Introduction to Numerical Mathematics. Academic Press: New York
and London.
Stigler S. M.
(1971) Optimal experimental design for polynomial regression. J. Am. Stat.
Assoc., 66, 311—318.
Studden W. J.
(1968) Optimal designs on Tchebycheff points. Ann, Math. Stat., 5, 1435—1447.
Styan G. P.
(1970) Notes on the distribution of quadratic forms in singular normal variab-
' les. Biometrika, 57, 567—572.
Swindel B. F.
(1968) On the bias of some least-squares estimators of variance in a general
linear model. Biometrika, 55, 313—316.
Swindel B. F., Bower D. R.
(1972) Rounding errors in the independent variables in a general linear model.
Technometrics, 14, 215—218.
Theil H.
(1965) The analysis of disturbances in regression analysis. J. Am, Stat. Assoc.,
60, 1067—1079.
(1968) A simplification of BLUS procedure for analyzing regression disturbances.
J. Am. Stat. Assoc., 63, 242—251.
Theil H., Schweitzer A.
(1961) The best quadratic estimator of the residual variance in regression ana-
lysis. Stat. Neerl., 15, 19—23.
Theobald С. M.
(1974) Generalizations of mean square error applied to ridge regression. J. R.
Stat. Soc. B, 36, 103—106.
Thompson J. R.
(1968) Some shrinkage techniques for estimating the mean. J. Am. Stat. Assoc.,
63, 113—122,
Список литературы
445
Thompson W. О.
(1973) Secondary criteria in the selection of minimum bias designs in two
variables. Technometrics, 15, 319—328.
Tietjen G. L., Beckman R. J.
(1972) Tables for use of the maximum F-ratio in multiple comparison procedu-
res. J. Am. Stat. Assoc., 67, 581—583.
Tietjen G. L., Moore R. H„ Beckman R. J.
(1973) Testing for a single outlier in simple linear regression. Technometrics, 15,
717—721.
Tocher K. D.
(1952) The design and analysis of block experiments. J. R. Stat, Soc, B, 14,
45-91.
Todd J.
(1954) The Condition of the finite segments of the Hilbert matrix. In O. Taussley
(Ed.), Contributions to the Solution of Systems of Linear Equationsand
the Determination of Eigenvalues, National Bureau of Standards Applied
Mathematics Series 39, pp. 109—116. U. S. Govt. Printing Office: Washing-
ton, D. C.
(1961) Computational problems concerning the Hilbert matrix. J. Res. Nat.
Bur. St., 65, 19—22.
Tong Y. L.
(1970) Some probability inequalities of multivariate normal and multivari-
ate t. J. Am. Stat. Assoc,, 65, 1243—1247.
Tukey J. W.
(1949) One degree of freedom for non-additivity. Biometrics, 5, 232—242.
(1954) Causation, regression and path analysis. In O. Kempthorne (Ed.), Stati-
stics and Mathematics in Biology, pp. 35—66. Iowa State College Press:
'Ames.
(1957) On the comparative anatomy of transformations. Ann, Math. Stat., 28,
602-632.
Turner M. E.
(1960) Straight line regression through the origin. Biometrics, 16, 483—485.
Waller R. A. and Duncan D. B.
(1969) A Bayes rule for the symmetric multiple comparisons problem. J. Am.
Stat. Assoc., 64, 1484—1503.
Walls R. S. and Weeks D. L.
(1969) A note on the variance of a predicted response in regression. Am. Stat.,
23 (3), 24—25.
Wampler R. H.
(1970) A report on the accuracy of some widely least squares computer programs.
J. Am. Stat. Assoc., 65, 549—565.
Warren W. G.
(1971) Correlation or regression: bias or precision. Appl. Slats. 20, 148—164.
Waterman M. S.
(1974) A restricted least squares problem. Technometrics, 16, 135—136.
Watson G. S.
(1955) Serial correlation in regression analysis. 1. Biometrika, 42, 327—341.
(1967) Linear least squares regression. Ann. Math. Stat, 38, 1679—1699.
446
Список литературы
(1972) Prediction and efficiency of least squares. Biometrika, 59, 91—98.
Webster J. T„ Gunst R. F., Mason R. L.
(1974) Latent root regression analysis. Technometrics, 16, 513—522,
Wedderburn R. W, M.
(1974) Generalized linear models specified in terms of constraints. J, R. Stat.
Soc. B, 36, 449—454.
Whittle P.
(1973) Some general points in the theory of optimal experimental design.
J. R. Stat. Soc. B, 35, 123—130.
Wilk M. B., Gnanadesikan R.
(1968) Probability plotting methods for analysis of data, Biometrika, 55, 1—17.
Wilkinson G. N.
(1957) The analysis of covariance with incomplete data. Biometrics, 13,
363—372.
(1958a) Estimation of missing values for the analysis of incomplete data. Bio-
metrics, 14, 257—286.
(1958b) The analysis of variance and derivation of standard errors for incom-
plete data. Biometrics, 14, 360—384.
(1960) Comparison of missing value procedures. Aust. J. Stat., 2, 53—65.
(1970) A general recursive procedure for analysis of variance. Biometrika,
57, 19—46.
Wilkinson G. N., Rogers С. E.
(1973) Symbolic description of factorial models for analysis of variance. Appl,
Stat., 22, 392—399,
Wilkinson J. H.
(1965) The Algebraic Eigenvalue Problem. Oxford University Press: London.
(1967) The solution of ill-conditioned linear equations. In A. Ralston and
H. S. Wilf (Eds.), Mathematical Methods for Digital Computers, Vol. 2,
pp. 65—93.
(1974) The classical error analysis for the solution of linear systems. J. Inst.
Math. Appl., 10, 175—180.
Wilkinson J. H„ Reinsch J.
(1971) Handbook for Automatic Computation, Vol. Ill, Linear Algebra. Sprin-
ger—Verlag: Berlin.
Williams D. A.
(1970) Discrimination between regression models to determine the pattern of
enzyme synthesis in synchronous cell cultures. Biometrics, 26, 23—32,
(1973) Letter to the editors. Appl. Stat., 22, 407—408.
Williams E. J.
(1959) Regression Analysis. Wiley: New York.
(1969) A note on regression methods in calibration. Technometrics, 11, 189—192,
-Wold S.
(1974) Spline functions in data analysis. Technometrics, 16, 1—11.
Wood F. S.
(1973) The use of individual effects and residuals in fitting equations to data.
Technometrics, 15, 677—695.
Wood J. T.
(1974) An extension of the analysis of transformations of Box and Cox, Appl,
Stat., 23, 278—283,
.Литература, добавленная при переводе
447
Working Н., Hotelling Н.
(1929) Application of the theory of error to the interpretation of trends,
J. Am. Stat. Assoc., Suppl. (Proc.), 24, 73—85.
Wynn H. P., Bloomfield P.
(1971) Simultaneous confidence bands in regression analysis. J. R. Stat. Soc.
B, 33, 202—217.
Yates F.
(1933) The analysis of replicated experiments when the field results are incom-
plete. Emp. J. Exp. Agr., 1, 129—142.
(1972) A Monte-Carlo trial on the behavior of the non-additivity test with non
normal data. Biometrika, 59, 253—261.
Youngs E. A., Gramer E. M.
(1971) Some results relevant to choice of sum and sum-of-product algorithms.
Technometrics, 13, 657—665.
ЛИТЕРАТУРА, ДОБАВЛЕННАЯ ПРИ ПЕРЕВОДЕ
Вапник В. Н.
(1979)' Восстановление зависимостей по эмпирическим данным.— М.: Наука.
Ершов А. А.
(1978) Стабильные методы оценки параметров.— Автоматика и телемеха-
ника, 8, 66—100.
Карлин С., Стадден В.
(1976) Чебышевские системы и их применение в анализе и статистике.— М.:
Наука.
Кендал Дж. М., Стьюарт А.
(1973) Статистические выводы и связи, т. 2.— М.: Наука.
Малолеткин Г. Н., Мельников Н. Н., Ханин В. М.
(1977) „Об алгоритмах выбора наилучшего подмножества признаков в регрес-
сионном анализе". В сб. „Вопросы кибернетики", № 35. Теоретические
проблемы планирования эксперимента.— М.: Советское радио, с. НО—
148.
Мирвалиев М.
(1979) Некоторые статистические задачи дисперсионного и регрессионного
анализа. Диссертация, МИАН им. Стеклова.
Налимов В. В., Чернова Н. А.
(1965) Статистические методы планирования экстремальных экспериментов.—
М.: Наука.
Новые идеи в планировании эксперимента.
(1973) Сб. (ред. В. В. Налимов).— М.: Наука.
Успенский А. Б., Федоров В. В.
(1975) Вычислительные аспекты метода наименьших квадратов при анализе и
планировании регрессионных экспериментов.— М.: Изд-во МГУ.
(1977) Линейное оценивание в обратных задачах термического зондирования.
В сб. „Регрессионные эксперименты" под ред. В. В. Налимова.— М.:
Изд-во МГУ.
Федоров В. В.
(1971) Теория оптимального эксперимента.— М.: Наука.
(1978а) Дискриминирующие планы и их связь с экстремальными чебышев-
скими базисами. В сб. „Вопросы кибернетики", № 47 (ред. В. В. На-
448
Литература, добавленная при переводе
(1978b)
лимов). Математико-статистические методы анализа и планирования
эксперимента.— М.: с. 30—33.
Регрессионный анализ при наличии погрешностей в определении пре-
диктора. См. тот же сборник, с. 69—75.
Akaike Н.
(1978) A bayesian analysis of the minimum AIC procedure. Ann. Inst. Statist.
Math. A, 30, 9—14.
Fedorov V. V., Malyutov M. B.
(1972) Optimal designs in regression problems. Math. Operations forsch. u.
Stat., 3, 281—308.
Hocking R. R.
(1976) The analysis and selection of variables in linear regression. Biometrics,
32, № 1, 1—49.
Huber P. J.
(1972) Robust Statistics: A Review, Ann. Math. Stat., 43, № 4, 1041—1067.
Jureckova J.
(1977) Asymtotic relations of Af-estimates and R-estimates in linear regression
model. Ann. Stat, 5, № 3, 464—472.
Kiefer J.
(1973) Optimum designs for fitting biased multiresponse Surfaces. Multivariate
Analysis III, Academic Press.
(1974) General equivalence theory for optimum designs. Ann. Stat., 2, 849—879.
Miller R. G. Jr.
(1977) Developments in multiple comparisons. J. Am. Stat. Assoc., 72, № 360,
779—788.
Mitra S. K-, Moore B. J.
(1973) Gauss—Markov estimation with an incorrect dispersion matrix. Sankhya,
Ser. A, 35, 139—152.
Puri M. L., Sen P. K.
(1975) Distribution-free approaches to general linear models. In a Survey of
Statistical Design and Linear Models (J. N. Srivastava, ed.), pp. 459—
473.— North Holland: Amsterdam.
Rao C. R.
(1970) Estimation of heteroscedastic variances in linear models. J. Amer. Sta-
tist. Assoc., 65, 161—172.
Zyskind G.
(1975) Error structures, projections and conditional inverses in linear model
theory. In A Survey of Statistical Design and Linear Models (J. N. Sri-
vastava, Ed.), pp. 647—663.— North Holland, Amsterdam.
i
I
t
Для дальнейшего изучения можно рекомендовать следующие работы:
Бард. Й.
(1979) Нелинейное оценивание параметров.— М.: Статистика.
Бродский В. 3.
(1976) Введение в факторное планирование эксперимента. —М.: Наука.
Воеводин В. В.
(1977) Вычислительные методы линейной алгебры. М.: Наука.
Денисов В. И.
(1977) Математическое обеспечение системы ЭВМ—экспериментатор.— М.:
Наука.
Литература, добавленная при переводе
449
Линник Ю. В.
(1962) Метод наименьших квадратов и основы математико-статистической тео-
рии обработки наблюдений, 2-е изд.— М.: Физматгиз.
Планирование оптимальных экспериментов.
(1975) Сб. под ред. М. Б. Малютова. М.: Изд-во МГУ.
Финни Д.
(1970) Введение в теорию планирования экспериментов.— М;: Наука.
Хикс Ч.
(1967) Основные принципы планирования эксперимента.— М.: Мир.
Kailath Т.
(1976) Lectures on linear least-squares estimation, Springer Verlag, Wien —New
York.
Krafft O.
(1978) Lineare statistische Modelie und optimale Versuchspl3ne, Vandenhoeck
und Ruprecht, Gottingen.
A Survey of Statistical Design and Linear Models.
(1975) (J. N. Srivastava ed.), North Holland Publ Co, Amsterdam.
ПРЕДМЕТНЫЙ
Алгоритм Грамма — Шмидта класси-
ческий (КАГШ) 303
-------модифицированный (МАГШ)
303
— Уилкинсона 72
Анализ геометрический 241
— главных компонент 373
— дисперсионный 273
— ковариационный 273
— факторный 372
Вектора норма 11
Векторы статистически независимые 26
Взаимная независимость случайных
величин 27
Влияние компонент 169
Выбор порядка модели 211
Выметание 341, 368
— симметричное 345
АВС-взаимодействие 262
Гипотеза, допускающая проверку
Главный эффект фактора А 249
Г рафик «компонента-плюс-остаток»
Графики зависимостей остатков
каждого из регрессоров 166
-----------подобранных значений 161
-----------пропущенных факторов
163
----X/ от Xk 167
— остатков 160
----частичных 168
118
169
от
Данные цензурированные 91
Диаграмма рассеяния 13
Дисперсионная (дисперсионно-кова-
риационная) матрица 20
— матрица диагональная 144
Дисперсионный анализ 273
Дифференцирование векторов 382
Доверительная область 131
— полоса 132
----Грейбилла — Боудена 181
----Уоркинга — Хотеллинга
403
Доверительные интервалы 178,
183, 253
181,
179,
Идентифицирующие ограничения
242
Инволютивность 342
Интенсивность ошибок 123
Интервал дискриминации 186
Интервалы предсказания 180
/-интервалы Бонферрони 124
76,
УКАЗАТЕЛЬ
/-интервалы, основанные на максиму-
ме модулей 124
Квадратичная несмещенная оценка с
минимальной дисперсией 57—59
-------------нормой (НОМН) 58—
59
Классификация по двум признакам,
представление регрессионной мо-
делью 247
---одному признаку, представление
регрессионной моделью 235
Ковариационный анализ 273
— оператор обобщенный 20
Коэффициент детерминации 109, 349
---скорректированный 353
— корреляции выборочный множест-
венный 109
---условный 124
Критерии, основанные на остатках 167
Критерий Андерсона — Дарлинга 170
— Бартлетта 144
— Ватсона 170
— Кокрэна 145
— Колмогорова модифицированный
170
— Колмогорова — Смирнова 170
— Крамера — Смирнова 170
— Купера 170
— минимальной значимой разности
(МЗР) 107
— множественного ранжирования ,
Дункана 244
— параллельности 195
— пересечения прямых в одной точ-
ке 197, 199
— складного ножа 245
— совпадения 196
— Уилка — Шапиро 170
— Хартли 145
— хи-квадрат 245
AEV-критерий 360
F-критерий 99, 116
— квадратично сбалансированный 149
MSEP-критерий 359
ЛП-метод отыскания несмещенного ре-
шения 92
Математические ожидания 239
Матрица корреляционная 326
— обратная обобщенная 78
---Мура — Пенроуза 79
— g-обратная 78
— р-обратная 78, 79
П редметный указатель
451
Матрица плана 49
— псевдообратная 78, 79
— регрессии 48
— транспонированная 12
Матрицы идемпотентные 381
— образ 12
— проекционные 116
— ранг 375
— след 375
Мера PRESSj, 360
Метод байесовский 373
— Боудена 133
— включения 372
— Грамма — Шмидта 310
— Джентлмена 310 •
— Дулитла 296
----сокращенный 290, 316
— исключения Гаусса 295
----Гаусса — Жордана 370
— Иэйтса 290
— ковариационного анализа 288
— максимального правдоподобия 192
— множителей Лагранжа 85
— наименьших квадратов 49—50,
194
-------взвешенный 217
----------известные веса 190
----------неизвестные веса 191
-------двухшаговый 71—72
----------остатки 72
,------обобщенный 64—67
— ортогональных проекций 87
— регуляризации Тихонова 89
— Рубина 291
— симплексный 92
— Фёрнивала 346
— Филлера 204
— Холецкого 296, 309
----для обобщенной обратной мат-
рицы 314
— эволюционного планирования 233
Методы «группирования» 207
Минимальный адекватный набор 352
Многофазная полиномиальная регрес-
сия 225
Модель компонент дисперсии 158
— контролируемых переменных 158
— линейная 17, 49
Мультиколлинеарность 82
S-метод Шеффе (множественного срав-
нения) 125—126
Набор адекватный минимальный 352
— /?2-адекватный 352
Наилучшая линейная несмещенная
оценка 54, 55
НЛНШ-критерий 166
НЛНШ-метод 170
НЛНШ-остатки 166
Нормальная вероятностная бумага
160, 390
Нормальное распределение многомер-
ное 33
Нормальные уравнения 50, 309
Нуль-пространство (ядро матрицы) 12
Ограничения идентифицирующие 76,
242
Оператор взятия математического ожи-
дания 19
— выметающий 73
Оптимальное расположение наблюде-
ний 184
Ортогональное разложение векторов
386
---с идентифицирующими огра-
ничениями 317
Ортогонально-треугольное разложе-
ние 300
Ортогональные дополнения 388
— полиномы 215
Остатки 51
Остаточная сумма квадратов (RSS) 51
Отклик 49
Оценка асимптотически нормальная 55
— максимального правдоподобия 55,
100
--------асимптотически эффектив-
ная 55
— наименьших квадратов 50, 54, 273
--------взвешенная 65
--------обобщенная 65
--------при неизвестной точке пе-
реключения 201
— несмещенная 54
— смещенная 88
— состоятельная 55
— эффективная 55
Оценки альтернативные 187
— гребневые 89
— неотрицательные 91
— сжатые 90
О-оптимальность 93
б-оптимальность 93
Переключающее значение 201
Перепараметризация модели 240
План минимаксный (б-оптимальный)
93, 226
---по одному параметру 227
— С-огра ничейный 228
— О-оптимальный 93, 226
Плотность многомерная 31
— одномерная 31
452
Предметный указатель
Поверхности отклика 229
Повторные наблюдения 188
Подбор аппроксимирующей поверх-
ности 229
Подобранные (эмпирические) регрес-
сии 135
Поиск вдоль перспективных ветвей 360
— /-упорядоченный 364
Полином Чебышева 210
Положительно определенные матрицы
378
— полуопределенные матрицы 377
Полосы предсказания 180
Попарная независимость случайных
величин 27
Предикторная переменная 49
Предсказание для обратной задачи
(дискриминация) 185
Преобразования Гивенса 305, 347
— Хаусхольдера 303, 316, 347
Преобразованные остатки 169
Проблема плохой обусловленности 209
Проверка гипотез 257, 277, 286
— гипотезы о равенстве дисперсий 201
—-------соответствии точки переклю-
чения заданному значению 203
Программа ANOVA 76
— CODE 76
Проекции на подпространства 388
Производящая функция моментов 29,
35
Процедура Кленшоу 217
— обратного исключения 212
— построения регрессии 340
— прямого отбора 21-2
Процентные точки /-статистики Бон-
феррони 394
Процесс ортогонализации Грамма —
Шмидта 302
Разбиение матриц на блоки 383
Разложение в произведение треуголь-
ных матриц 299
— по сингулярным значениям 319, 384
— Холецкого 380
Распределение нормальное 12
— X2 с fe степенями свободы 28
Регрессии обновление 327
Регрессионный анализ 273
Регрессия одномерная линейная 15, 104
Регрессия пошаговая 367
— условная 158
Регрессор 49
Регрессора отбрасывание 331
Регрессоры фиктивные категоризован-
ные 200
Решение линейных уравнений 383
/-распределение Стьюдента
Система плохо обусловленная 311
Смещение 153
— вызванное избыточностью модели
141
----- неполнотой модели 139
— относительное 155
— случайные регрессоры 141
Совместные толерантные интервалы
183
Сплайн-функций 223
Сравнение (конраст) параметров 130
— прямых 194
Стандартные отклонения 154
Статистика Р2 выверенная (скоррек-
тированная) 353
Статистики критериев 249, 260
Структура простых блоков 267
-статистика Мэлоуса 137, 354
F-статистика 97
/-статистика 103
Таблицы дисперсионного анализа 251
Теорема эквивалентности 93
Теория оценивания 283
Точка переключения 201
Точки чебышевские 227
Уравнения нормальные 50, 309
Условно обратная матрица 78
Уточнение решения методом итераций
320
Функции оцениваемые 81
Функциональная связь между мате-
матическими ожиданиями 157
Функция регрессии 15
Цензурированные данные 91
Центрирование данных 322
Число обусловленности 312
Шкалирование 325
GENSTAT 270
ОГЛАВЛЕНИЕ
Предисловие редактора перевода ................................... 5
Предисловие ...................................................... 8
Глава 1. Случайные векторы........................................ И
1.1. Обозначения......................................... 11
1.2. Линейные модели регрессии............................. 12
1.3. Оператор взятия математического ожидания и ковариацион-
ный оператор ......................................• . . . 19
Упражнения 1а.............................-............ 22
1.4. Средние и дисперсии квадратичных форм ......... 22
Упражнения 1Ь.......................................... 25
1.5. Независимость случайных величин....................... 26
Упражнения 1с.......................................... 28
, 1.6. Распределение хи-квадрат.............................. 28
Упражнения к гл. 1 . ...................................... 29
Глава 2. Многомерное нормальное распределение.................... 31
2.1. Определение........................................... 31
Упражнения 2а................................ . . . 34
2.2. Производящая функция моментов......................... 35
Упражнения 2Ь.......................................... 38
2.3. Независимость нормальных случайных величин............ 39
Упражнения 2с.......................................... 42
2.4. Квадратичные формы от нормальных случайных величин . . 43
Упражнения 2d...........-.............................. 46
Упражнения к гл. 2....................................... 46
Глава 3. Линейная регрессия: оценивание и распределения .... 48
3.1. Оценивание по методу наименьших квадратов....... 48
Упражнения За.......................................... 53
3.2. Свойства оценок наименьших квадратов.................. 53
Упражнения ЗЬ.......................................... 55
3.3. Оценивание о2......................................... 56
Упражнения Зс.......................................... 59
3.4. Теория распределений.................................. 59
Упражнения 3d.......................................... 60
3.5. Ортогональная структура матрицы плана......... 61
Упражнения &..................... ................... 63
454
Оглавление
3.6. Обобщенный метод наименьших квадратов................. 64
Упражнения 3f.......................................... 67
3.7. Введение дополнительных регрессоров................... 68
Упражнения 3g.......................................... 73
3.8. Случай, когда матрица плана имеет неполный ранг .... 74
Упражнения 3h.......................................... 80
Упражнения 3i.......................................... 83
Упражнения 3j.......................................... 85
3.9. Оценивание при наличии линейных ограничении........... 85
Упражнения 3k.......................................... 88
3.10. Другие методы оценивания............................. 88
3.11. Оптимальное планирование............................. 93
Упражнения к гл. 3......................................... 94
Глава 4. Линейная регрессия: проверка гипотез.................... 97
4.1. F-критерий ........................................... 97
Упражнения 4а.......................................... 99
Упражнения 4Ь......................................... 108
4.2. Множественный коэффициент корреляции................. 108
Упражнения-4с......................................... 112
4.3. Каноническая форма модели при гипотезе Н . .......... 112
Упражнения 4d......................................... 114
4.4. Критерий согласия.................................... 114
4.5. Случай, когда матрица плана имеет неполный ранг..... 116
Упражнения 4е............—. ...................• . . . 119
4.6. Проверка гипотез при дополнительных ограничениях .... 119
Упражнения к гл. 4........................................ 120
Глава 5. Доверительные интервалы и области...................... 122
5.1. Совместное интервальное.оценивание................... 122
5.2. Доверительные полосы для, поверхности регрессии...... 131
5.3. Доверительные интервалы для отклика.................. 133
5.4. Расширение регрессионной матрицы..................... 135
Упражнения к гл. 5........................................ 137
Глава 6. Нарушения основных предположений....................... 138
6.1. Смещение............................................. 139
6.2. Неправильные предположения о дисперсионной матрице . . 142
6.3. Устойчивость F-критерия к отклонениям от нормальности 147
6.4. Значения регрессоров, измеренные с ошибкой........... 152
6.5. Модели со случайными, регрессорами................... 156
6.6. Анализ остатков . . .....................'........... 159
6.7. Преобразование данных................................ 171
Упражнения к гл. 6 .... ,................................. 173
Глава 7. Линейная одномерная регрессия.......................... 175
7.1. Введение............................................. 175
7.2. Доверительные интервалы и полосы..................... 178
7.3. Прямая, проходящая через начало координат............ 189
’ 7.4. Взвешенный метод наименьших квадратов............ 190
7.5. Сравнение прямых..................................... 194
7.6. Двухфазная линейная регрессия........................ 201
7.7. Случайные регрессоры................................. 205
Упражнения к гл. 7 ....................................... 207
Оглавление
455
Глава 8, Полиномиальная регрессия.............................
8.1. Полиномы от одной переменной.................... .
8.2. Ортогональные полиномы ...................
8.3. Кусочно-полиномиальная аппроксимация...............
8.4. Оптимальное расположение точек.....................
8.5. Многомерная полиномиальная регрессия...............
Упражнения к гл. 8......................................
Глава 9. Дисперсионный анализ......................... . . . .
9.1. Классификация по одному признаку...................
9.2. Классификация по двум признакам....................
9.3. Классификация по нескольким признакам при равных числах
наблюдений для каждого среднего.........................
9.4. Классификации с одним наблюдением на каждое среднее . .
9.5. Планы, имеющие структуру простых блоков...........
Упражнения к гл. 9......................................
Глава 10. Ковариационный анализ и пропущенные наблюдения . . .
10.1. Ковариационный анализ.............................
10.2. Пропущенные наблюдения............................
Упражнения к гл. 10....................................
Глава 11. Методы вычислений, используемые в регрессионном ана-
лизе ..........................................................
11.1. Введение .........................................
11.2. Случай полного ранга..............................
11.3. Взвешенный метод наименьших квадратов.............
11.4. Сравнение методов.................................
11.5. Случай неполного ранга............................
11.6. Уточнение решения методом итераций................
11.7. Центрирование и шкалирование данных ..............
11.8. Обновление регрессии..............................
11.9. Добавление или удаление определенного регрессора ....
11.10. Проверка гипотез.............’...................
11.11. Проверка программ................................
Упражнения к гл. 11.....................................
Глава 12. Выбор «наилучшей» регрессии.........................
12.1. Введение..........................................
12.2, Построение всех возможных регрессий...............
12.3. Построение только наилучших регрессий.............
12.4. Пошаговая регрессия...............................
12.5. Другие методы.....................................
12.6. Общие замечания...................................
Упражнения к гл. 12.....................................
Приложение А. Некоторые результаты из алгебры матриц ....
Приложение В. Ортогональные проекции ..............
Приложение С. Нормальная вероятностная бумага
Приложение D. Процентные точки ^-статистики Бонферрони • »•
209
209
213
222
226
229
233
235
235
247
256
260
266
270
273
273
283
292
294
294
295
309
311
314
320
322
327
329
332
334
336
339
339
339
360
367
372
374
374
375
386
390
394
456
Оглавление
Приложение Е. Распределение максимума абсолютных величин k слу-
чайных величин, имеющих ^-распределение Стьюдента......... 396
Приложение F. Доверительные полосы Уоркинга — Хотеллинга для
конечных интервалов................................... 403
Наброски решений упражнений............................... 405
Список литературы......................................... 421
Литература, добавленная при переводе...................... 447
Предметный указатель...................................... 450
Дж. Себер
ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ
АНАЛИЗ
Научи, ред. И. А. Маховая
Младш. научи, ред. Э. Г. Иванова
Художник Н. А. Фильчагина
Художественный редактор В. И. Шаповалов
Технический редактор Т. А. Максимова
Корректор М. А. Смирнов
ИБ № 1955
Сдано в набор 25.09.79. Подписано к печати 25.01.80. Формат 60Х90‘/и.
Бумага типографская № 2. Латинская гарнитура. Высокая печать.
14,25 бум. л., 28,50 усл. печ. л., 26,48 уч.-над. л. Тираж 13700 экз.
Цена 2 р. 10 к. Заказ № 571.
Издательство «Мир»
Москва, I-й Рижский пер., 2
Отпечатано в Ленинградской типографии № 2 головном предприятии
ордена Трудового Красного Знамени Ленинградского объединения
«Техническая книга» им. Евгении Соколовой Союзполиграфпром а
при Государственном комитете СССР по делам издательств, поли-
графии и книжной торговли'. 198052, г. Ленинград, Л-52, Измайлов-
ский проспект, 29 с матриц ордена Октябрьской Революции н ордена
Трудового Красного Знамени Первой Образцовой типографии имени
А. А. Жданова СоюзполиграфПрОма прн Государственном комитете
СССР по делам издательств, полиграфии и книжной торговли.
Москва, М-54, Валовая, 28