Текст
                    S.A.Aivazyan
I.S.Yenyukov
L.D.Meshalkin
APPLIED
STATISTICS
STUDY
OF RELATIONSHIPS
Reference
edition
Edited by
prof. S.A.Aivazyan
Finansy i statistika
Moscow
1985


С.А.Айвазян И.С.Енюков Л.Д.Мешалкин ПРИКЛАДНАЯ СТАТИСТИКА ИССЛЕДОВАНИЕ ЗАВИСИМОСТЕЙ Справочное издание Под редакцией проф. С.А.Айвазяна Москва Финансы и статистика 1985
БI 22Л 72 All Рецензенты Е. Г. Ясин, А. И. Орлов Айвазян С. А. и др. АН Прикладная статистика: Исследование зависи- зависимостей: Справ, изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна. — М.: Финансы и статистика, 1985. — 487 с, ил. В пер. I p. 70 к. 13 000 экз. Данная книга является логическим продолжением справочного издания «Прикладная статистика: Основы моделирования и первич* пая обработка данных», вышедшего в 1983 г. В ней рассматривают- рассматриваются методы корреляционного, регрессионного и дисперсионного ана- анализа. Приводятся их алгоритмы и обзор программного обеспечения. Для статистиков, экономистов, социологов, программистов. 1702060000-017 ББК 22.172 010@1)—85 66~~84 5173 © Издательство «Финансы и статистика», 1985
ПРЕДИСЛОВИЕ Вниманию читателя предлагается книга, продолжающая1 ре- реализацию замысла авторов: создать многотомное справочно- пособие по современным математическим методам статистиче- статистической обработки данных, включающее в себя одновременное ос- освещение необходимого математического аппарата, соответст- соответствующего программного обеспечения ЭВМ и рекомендаций по преодолению вычислительных трудностей, связанных с ис- использованием описываемых методов и алгоритмов. Книга адресована специалистам различных сфер человеческой дея- деятельности, использующим методы математической статистики и анализа данных в своей работе. Для понимания материала книги читателю достаточно об- обладать математической подготовкой в объеме программ эко- экономического или технического вуза либо ознакомиться с ба- базовыми понятиями теории вероятностей и математической ста- статистики, описанными в первом томе справочного издания [141. В свою очередь освоение материала предлагаемой книги мо- может служить надежной и удобной базой для более глубокого проникновения в предмет исследования, основанного на изу- изучении специальных монографий и журнальных статей. Тема книги, бесспорно, центральная во всем справочном издании. Она является таковой как по глубине и разнообра- разнообразию разработанного к настоящему времени математического аппарата, так и по удельному бесу использования описывае- описываемых методов и моделей в практических разработках разнооб- разнообразного профиля. ХВ 1983 г. вышла в свет книга: А й в а з я н С. А., Е н ю к о в И.С, Мешалки н Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: Финансы и статистика. В ней, в частности, определена прикладная статистика как самостоятельная научная дисциплина, разрабатывающая и систематизирующая поня- понятия, приемы, математические методы и модели, предназначенные для организации и обработки статистических данных с целью их удобно- удобного представления, интерпретации и получения научных и практических выводов (см. с. 19).
Главная цель, которую ставили перед собой авторы, оснастить исследователя, использующего в своей работе ста- статистические методы, инструментарием, необходимым для реше- решения ключевой проблемы всякого исследования: как на осно- основании частных результатов статистического наблюдения за анализируемыми событиями или показателями выявить и опи- описать существующие между ними взаимосвязи. Именно эта проблема, проблема статистического исследования зависимо- зависимостей, оказывается главной в решении таких типовых задач практики, как нормирование, прогноз, планирование, диаг- диагностика, оценка труднодоступных для непосредственного на- наблюдения и измерения характеристик анализируемой систе- системы, оценка эффективности функционирования или качества объекта, регулирование параметров процесса или системы. Авторы стремились к объективно сбалансированному пред- представлению материала как по структуре книги, так и по ее со- содержанию. Однако широта и разноплановость затронутой проблемы не позволяют им претендовать на всеобъемлющий охват темы. Так, например, относительно узко представлена в данном томе тематика статистического анализа динамиче- динамических зависимостей', не дано описания весьма полезного, в оп- определенных типах задач, аппарата логических решающих правил1; не вошел в книгу материал, посвященный актуальной в прикладном плане (особенно в задачах управления техноло- технологическими процессами) тематике планирования регрессионных экспериментов. Книга состоит из введения и четырех разделов. Введение играет особую роль в понимании описываемых в дальнейшем методов и логики всей книги в целом. Можно ска- сказать, что в нем в доступной для неискушенного читателя фор- форме представлены содержание и логические связи всех частей книги. Приводятся основные постановки задач и «адреса» (в книге) их решения. Изложение проиллюстрировано про- простыми примерами. Поэтому сравнительно слабо подготовлен- подготовленному читателю рекомендуем не пожалеть времени на чтение введения. Раздел I посвящен методам и приемам, позволяющим от- ответить на вопросы, имеется ли вообще какая-либо связь между исследуемыми переменными, как измерить их тесноту и ка- какова структура связей между показателями исследуемого на- набора? При этом под структурой понимается характер всевоз- всевозможных попарных двоичных взаимоотношений рассматривае- 1 Читатель может познакомиться с этим аппаратом статистического исследования зависимостей, например, по книге [76}.
мых признаков (по типу «связь есть» или «связи нет»), но не форма зависимости одного от другого. Методы, описанные в данном разделе, составляют содержание корреляционного ана- анализа. Раздел II содержит описание методов и моделей, позволяю- позволяющих исследовать вид зависимости интересующего нас «вы- «выходного» (или «результирующего») количественного показате- показателя от набора объясняющих переменных количественной при- природы (регрессионный анализ). В отдельной главе (гл. 12) рас- рассмотрен случай, когда роль объясняющей переменной играет «время». В разделе III решаются те же задачи, что и в разделе II, но в ситуации, когда в качестве объясняющих переменных вы- выступают неколичественные или одновременно неколичественные и количественные признаки {дисперсионный и ковариационный анализ). И наконец, в раздел IV включены глава, посвященная описанию методов статистического анализа так называемых систем одновременных эконометрических уравнений (т. е. на- набора одновременно выполняющихся соотношений, в которых одни и те же переменные могут участвовать в разных соотно- соотношениях: и в роли результирующего показателя, и в роли пред- предсказывающей переменной), и глава, в которой дается обзор наиболее интересного отечественного и зарубежного програм- программного обеспечения методов статистического исследования за- зависимостей. Научная и педагогическая деятельность авторов, послу- послужившая основой реализации предлагаемого издания, про- проводилась в Центральном экономико-математическом институ- институте АН СССР, в Московском государственном университете им. М. В. Ломоносова и в Центральной научно-исследователь- научно-исследовательской лаборатории 4-го Главного управления при Министерст- Министерстве здравоохранения СССР. Книга написана: С. А. Айвазяном — предисловие, введе- введение, гл. 1,2, 5, 6, 11, выводы к гл. 9, введение и выводы к гл. 12, § 13.5 и приложение; Л. Д. Мешалкиным — гл. 3, 4, 7 (без § 7.5, 7.6 и п. 7.2.5), 10, 13 (без § 13.5); И. С. Енюковым — гл. 8, 15; В. В. Федоровым — гл. 9 (без § 9.6, 9.7 и п. 9.5.4), 12 (без введения и выводов), § 7.5 и 7.6; Ю. М. Кабановым — гл. 14 (без §14.6); Е. 3. Демиденко — п. 9.5.4; § 9.6, 9.7, 14.6; А. М. Шурыгиным — п. 7.2.5. Авторы выражают глубокую благодарность А. И. Орло- Орлову и Е. Г. Ясину, взявшим на себя труд отрецензировать ру- рукопись книги. Их критические замечания, бесспорно, способ- способствовали повышению качества данного издания. Авторы при-
знательны также В. Н. Вапнику, предоставившему им мате- материалы для написания п. 6.3.1, а также А. Б. Успенскому, Е, 3. Демиденко, А. М. Шурыгину, Арк. И. Верескову и О. В. Лепскому, участвовавшим в обсуждении отдельных ча- частей рукописи, а также и Л. Ю. Метт, вложившей большой труд в оформление рукописи. Положительную роль в замысле и содержании книги сы- сыграли постоянные контакты авторов со своими коллегами по научному семинару «Многомерный статистический анализ и вероятностное моделирование реальных процессов» (действую- (действующему в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управление народ- народным хозяйством» и Совета по автоматизации научных иссле- исследований при Президиуме АН СССР), а также по Всесоюзному научно-методическому семинару «Вычислительные вопросы математической статистики», действующему в Московском го- государственном университете им. М. В. Ломоносова под руко- руководством Ю. В. Прохорова. С. А. Айвазян
Введение. статистическое исследование ЗАВИСИМОСТЕЙ СОДЕРЖАНИЕ, ЗАДАЧИ, ОБЛАСТИ ПРИМЕНЕНИЯ В.1. Предварительное обсуждение задач Любой закон природы или общественного развития может быть выражен в конечном счете в виде описания характера или струк- структуры взаимосвязей (зависимостей), существующих между изу- изучаемыми явлениями или показателями (переменными величи- величинами или просто переменными). Если эти зависимости: а) сто- хаотичны по своей природе, т. е. позволяют устанавливать лишь вероятностные логические соотношения между изучае- изучаемыми событиями А и 5, а именно соотношения типа «из факта осуществления события А следует, что событие В должно произойти, но не обязательно, а лишь с некоторой (как пра- правило, близкой к единице) вероятностью Р»; б) выявляются на основании статистического наблюдения за анализируемыми событиями или переменными, осуществляемого по выборке из интересующей нас генеральной совокупности [14, п. 5.4.2), то мы оказываемся в рамках проблемы статистического ис- исследования зависимостей. Соответствующий математический аппарат, будучи таким образом нацеленным в первую очередь на решение основной проблемы естествознания: как по отдель- отдельным, частным наблюдениям выявить и описать интересующую нас общую закономерность? — занимает, бесспорно, централь- центральное место во всем прикладном математическом анализе. Перед тем как перейти к формулировке общей и частных задач статистического исследования зависимостей, условим- условимся описывать функционирование изучаемого реального объек- объекта (системы, процесса, явления) набором переменных (рис. В.1), среди которых: jcA), xB), ..., х(р) —так называемые «входные» переменные, описывающие условия функционирования (часть из них, как правило, поддается регулированию или частичному управле- управлению); в соответствующих математических моделях их назы- называют независимыми, факторами-аргументами, экзогенными, предикторными (или просто предикторами, т. е. предсказателя- предсказателями), объясняющими (в книге мы будем использовать в основ- основном два последних термина);
y{l), t/2\ ..., //<m>—выходные переменные, характери- характеризующие поведение или результат (эффективность) функцио- функционирования', в математических моделях их называют зависи- зависимыми, откликами, эндогенными, результирующими или объяс- объясняемыми (в книге используются в основном два последних термина); еA>, еB>, ..., е<т> —латентные (т. е. скрытые, не под- поддающиеся непосредственному измерению) случайные юстаточ- нысу> компоненты, отражающие влияние (соответственно на случайные г? факторы, L не под да- у. Ю Щ11 ЕС Я (тА учету I объясняю- объясняющие пере- переменные (предик- торные) Анализируемая реальная система (объект) Механизм преобразования вход- входных переменных 6 результирую- результирующие показатели резуль- щие пе- у >щие ~~-~,(т)\ реме Рис. В.1. Общая схема взаимодействия переменных при статистиче- статистическом исследовании зависимостей У{1\ У{2)> ••-, У{т)) неучтенных «на входе» факторов, а также случайные ошибки в измерении анализируемых показателей (в математических .моделях мы их, как правило, будем имено- именовать просто «остатками»). Тогда общая задача статистического исследования зависи- зависимостей (в терминах изучаемых показателей) может быть сфор- сформулирована следующим образом: по результатам п измерений исследуемых переменных на объектах (системах, процессах) анализируемой совокупности построить такую {вектор по- позначную) функцию (B.2) 10
которая позволила бы наилучшим (в определенном смысле) об- образом восстанавливать значения результирующих (прогнози- (прогнозируемых) переменных У = (у{1), #<2), ..., */(т))' по заданным зна- значениям объясняющих (предикторных) переменных X = A 2 Ю'1 х\ ..., х). Данная формулировка задачи нуждается в уточнениях. В частности, прежде всего мы должны ответить на следующие вопросы: 120* 100 80 60 20 /и. в,'? •/ V /* О 40 М 120 160 200 х,ру§. Рис. В.2. Графическое представление результатов обследования 40 семей по их среднедушевому до- доходу (Xi) и среднедушевым денежным сбереже- сбережениям (//,-) а) каково математическое выражение (или структура мо- модели [14, с. 68—73]) искомой зависимости между Y и Х> запи- записанное в терминах У, X,f(X) И? = (еA),.еB), .... е<т>)? б) в соответствии с каким именно критерием качества ап- аппроксимации значений У с помощью функции f (X) мы будем 1Здесь и далее штрих при векторе или матрице означает операцию их транспонирования. В данном случае это означает, что Y и X — соот- соответственно т- и р-мерные вектор-столбцы. 11
определять наилучший способ восстановления значений ре- результирующих показателей по заданным значениям объясняю- объясняющих переменных? в) с какой именно прикладной целью мы проводим все на- наше исследование, т. е. для решения каких конкретных задач мы собираемся использовать построенную в результате ис- исследования функцию f (X)? Прежде чем обсуждать эти вопросы, рассмотрим пример. Пример В.1. Анализируется «поведение» двумерной случайной величины (?, ц), где I (руб.) — среднедушевой до- доход и ц (руб.) — среднедушевые денежные сбережения в се- семье, случайно извлеченной из рассматриваемой совокупности семей, однородной по своему потребительскому поведению (см., например, [128]). В табл. В.1 и на рис. В.2 представлены исходные статистические данные вида (В.1), характеризующие среднедушевые величины дохода (xit руб.) и денежных сбе- сбережений (yh руб.) за определенный отрезок времени, а именно за месяц, в каждой (/-и, / = 1,2, ..., п) обследованной семье рас- рассматриваемой совокупности семей (в данном условном примере объем п статистически обследованной совокупности семей рав- равнялся 40). В этом примере имелась возможность при отборе исходных данных (выборки) контролировать значения предик- торной переменной Н (условия активного эксперимента [14, с. 121]), что позволило, в частности, разбить статистически об- обследованные семьи на четыре равные по объему группы по доходам. Мы видим, что даже в пределах каждой из этих групп ве- величины среднедушевых сбережений семей подвержены неко- некоторому неконтролируемому разбросу, обусловленному влия- влиянием множества не поддающихся строгому учету и контролю факторов (т. е. налицо упомянутый выше стохастический ха- характер зависимости между х и у). Однако это еще не значит, что расположение точек (х(, //,), являющихся геометрическим изображением результатов обследования семей по доходу и сбережениям, должно быть совершенно хаотичным и не долж- должно обнаруживать некоторой вполне определенной тенденции, характеризующей зависимость денежных сбережений в се- семье (ц) от ее среднедушевого дохода (?). При исследовании по- подобных зависимостей встают следующие основные вопросы (в скобках после вопроса указываются главы, параграфы или пункты настоящей книги, ему посвященные). 1. Как исходя из конкретных прикладных целей исследо- исследования определить смысл, в котором понимается исследуемая зависимость? (В.2, § 5.3.) 2. Имеется ли вообще какая-либо связь между исследуе-- 12
мыми переменными (а в случае многих переменных — какова структура этих связей?) и как измерить тесноту этой связи? (Гл. 1-4.) 3. Каков общий математический вид искомой связи между г| и ?, т. е. как определяется общая структура соответствую- соответствующей математической модели? (Гл. 6.) 4. Как, отправляясь от принятой общей структуры моде- модели, провести необходимую вычислительную обработку исход- исходных данных (В.1) с целью получения конкретного вида зависимости ц от ?, что позволит в данном случае производить количественную оценку неизвестных денежных сбережений семьи по заданной величине ее среднедушевого дохода? (Гл. 7—10, 13, 14.) 5. Поскольку наши выводы основаны на обработке огра- ограниченного ряда наблюдений, то их количественные характери- характеристики, естественно, подвержены (при повторениях соответст- соответствующих выборочных обследований) некоторому случайному разбросу. Как оценить степень точности наших выводов? (Гл. 11.) 6. Как решать все вопросы в ситуациях, когда среди объяс- объясняющих (предикторных) переменных могут быть и неколиче- неколичественные? (Гл. 13.) 7. И наконец, если при сборе исходной статистической информации мы находимся в условиях активного эксперимента [14, с. 12], то как, при заданных затратах на наблюдения, оптимально выбрать матрицу плана [14, с. 26, 68], т. е. как определить те значения объясняющих (предикторных) пере- переменных и то распределение заданного общего числа наблюде- наблюдений между этими значениями, которые являются в некотором смысле наиболее выгодными с точки зрения достижения наи- наивысшей точности наших статистических выводов? Вернемся к нашему примеру и попробуем ответить на не- некоторые из поставленных здесь вопросов, в том числе на прин- принципиальные вопросы а), б) и в), ответы на которые позволяют уточнить общую формулировку задачи статистического ис- исследования зависимостей, данную выше. Начнем «с конца», т. е. с уточнения конечных прикладных целей исследования (см. вопросы 1, а также а) и в)). Известно, что из двух анализируемых характеристик материальной со- состоятельности семьи характеристика денежных сбережений (ц) относится к категории статистически труднодоступных: содержащиеся в ежегодных и единовременных выборочных семейных бюджетных обследованиях ЦСУ [85] сведения о сбе- сбережениях, как правило, непредставительны. Поэтому главной конечной целью нашего исследования (опирающегося, как мы 13
Среднедуше- Среднедушевой доход, руб. Среднеду- Среднедушевые сбе- сбережения Т) Средние сбе- сбережения для семеГ{ дан- данной гр\ ппы ратпческое отклонение s и коэффи- коэффициент вари- вариации I7 сбе- сбережен и ii для семе Л дан- данной ггл лпы по доходам Ух =15,2 1/з =18^5 1/4 =14,9 Уъ =24,1 1/6 =10,3 1/7 =14,2 1/8 =31,0 1/э =20,4 10 -6,4 . j/us=70,l у« = 4з'.О у" = 18',9 /=11 / 20 г 9 .-«— ~ l ' 2 = 16,0 будем всегда предполагать, на достоверную и репрезентатив- репрезентативную выборку исходных данных) является возможность вос- восстановления (прогноза): удельной (т. е. в расчете на одного члена семьи за опре- определенный отрезок времени) величины денежных сбережений в конкретной семье (у (л:)) по заданному значению ее среднеду- среднедушевого дохода х\ удельной величины средних денежных сбережений (#ср (х)) в семьях данной группы х по доходам. 14
Таблица B.I Среднедуше- Среднедушевой доход, руб. Среднеду- Среднедушевые сбе- сбережения г\ Средние сбе- сбережения для семей дан- данной группы Среднеквад- ратическое отклонение s и коэффи- коэффициент вариа- вариации V сбе- сбережений для семей дан- данной группы по доходам у21 =49,6 1/22^69,4 !/2з = 77,8 1/24=43,0 </25 = 31,8 ^/26^62,6 I/27=l00,2 1/28 = 68,8 у29 г~г78,0 i/:{Oac29,6 1 30 «isS^61-1 /—21 / 1 3° A/ Y^yi-yiA)J- «=21 s:22,6 F(x3°)^37% *3i ~ хгг = • • ¦ — r/^L-= 125,5 l/;.2= 88,3 ^..= 62,0 //34= 58,8 //35= 84,0 Узв= 79,0 </з7= 95,5 Узв = 120,8 Узв= 98,1 1Ао= 29,7 1 40 /=31 s(xj)ss / 1 40 -у -г2(у|~Ид:|))|° /=31 ==28,9 7D)=^34 % Этой цели мы сможем достигнуть, если сумеем математи- математически описать закономерность изменения условных теоретиче- сжих средних значений ус9 (х) = Е (т] | ? = хУ в зависимости 1Здесь и далее используются терминология и обозначения [14]. В частности, знаком Е обозначается операция теоретического осред- осреднения, а знаком D — операция вычисления дисперсии случайных ве- величин, стоящих за ними. Вертикальная черта разделяет случайную величину, над которой производится операция осреднения или вычис- вычисления дисперсии, и условие, при котором эта операция производится. 15
от х, а также изучить характер случайного разброса денеж- денежных сбережений у (х) отдельных семей данной группы х по доходам относительно своего среднего значения уср (х) (при любом интересующем нас значении среднедушевого дохода х). Это естественным образом приводит нас к необходимости рас- рассмотрения математической модели вида т, = /(*) + е, (В.З) в которой остаточная компонента е отражает случайное от- отклонение денежных сбережений наугад выбранной отдельной семьи с доходом ? = х от среднего значения уср (х) = = Е (т] 11 = х) этих сбережений, подсчитанного по всем се- семьям данной группы по доходам, а функция / (х) описывает характер изменения условного среднего уср (х) (при g = x) в за- зависимости от изменения х, если дополнительно прийти к со- соглашению, что характер случайного разброса величин у (х) = ^ (Л I 5 ~ х) относительно своих средних #ср (л;) таков, что Е (е | g = х) = 0 при всех х. Таким образом, из (В.З) мы непосредственно получаем уср(х) = Е(т,|?-**)«/(*). (В.4) Чтобы покончить с вопросами 1, а) ив), остается уточнить общую структуру модели, т. е. определить, в каком классе F функций f (x) мы будем производить аппроксимацию искомой зависимости уср (х). В нашем случае, учитывая однородный (по характеру по- потребительского поведения) состав исследуемой совокупности семей, естественно исходить из гипотезы об одинаковой (в среднем) склонности семей к сбережениям, выражающейся, в частности, в том, что все семьи начиная с некоторого «по- «порогового» уровня дохода, склонны отделять в сбережения в среднем одинаковую долю дохода. Математически, как легко понять, это выразится в виде Уср (х) = е0 + е^, (в.5) где Во и 0t — некоторые константы (неизвестные параметры модели). Так что F = {60 + В^}, (В.6) где под {/(л:; В)} понимается семейство всех тех функций / (лс; 6), которые могут быть получены при подстановке вме- вместо в ее различных конкретных значений (в — векторный па- параметр). Такой выбор «класса допустимых решений» F= {/ (х)} подтверждается и характером расположения совокупности то- 16
чеКг являющихся геометрическим изображением исходных данных в наймем примере (см. на рис. В.2 расположение «кре- «крестиков», ординаты которых определяются экспериментально подсчитанными, т. е. вычисленными на основании имеющихся выборочных данных, условными средними у (xf), i = 1, 2, 3, 4I. И наконец, следует уточнить, в соотяртствии с каким имен- именно критерием качества аппроксимации неизвестных величин среднедушевых семейных денежных сбережений у (х) и t/cp (x) с помощью функции Во + 0i* мы будем определять наилуч- наилучший способ прогноза */ср (х) по х. Наиболее обоснованное и точное решение этого вопроса опирается на знание вероятност- вероятностной природы (а именно типа закона распределения вероятно- вероятностей) остатков е в модели (В.З). Так, например, известно [14, с. 281], что если предположить, что при любых значениях х распределение вероятностей остатков г описывается @, а2)- нормальным законом (т. е. нормальным законом со средним значением, равным нулю, и с некоторой, вообще говоря, не- неизвестной, но постоянной, т. е. не зависящей от х дисперсией а2) и что остатки г (хг), i = 1, 2, ..., я, характеризующие различные наблюдения, статистически независимы, то наи- наименьшая ошибка прогноза */ср (х) с помощью модели / (х) ? F (т. е. функция / (х) подбирается из класса F) обеспечивается требованием метода наименьших квадратов АЛ/) = S (»,-/(*i))f-*min. (B.7) В нашем примере явно нарушено условие постоянства дисперсии остатков (см. табл. В.1), т. е. условная дис- дисперсия D (в| I = х) = D (л — Во — er6| I = х) = a2 (jc) су- существенно зависит от значения х. Можно устранить это нарушение, поделив все анализируемые величины, откла- откладываемые по оси т}, а ^.ледовательно, и остатки в (х)г на значения s (x) (являющиеся статистическими оценками для а (#)), т. е. перейдя к анализу остатков Г(дс) = в (x)/s (x). Тогда можно показать (с помощью методов, описанных, Юбращаем внимание читателя на разницу в смысле и обозначениях экспериментальных (выборочных) и теоретических условных средних соответственно у (х) и #ср (х). Строго говоря, на практике теоретичес- теоретических средних мы никогда знать не можем, однако мы опираемся в своем исследовании^на тот факт, что в соответствии с законом большие чисел 114, с. 231] f(x) -*• уср (х) (по вероятности), когда число наблюдений, по которым подсчитано у (х)и стремится к бесконечности. 17
например, в [14, § 11.1]), что гипотеза о @; а2)-нормальном характере распределения остатков е (х) не противоречит имею* щимся в нашем распоряжении данным (представленным в табл. В.1) и, следовательно, требование (В.7) приводит к не- необходимости решения экстремальной задачи вида Дп (f) = Ап (90, 9,) = У »'-"•-**' -> min , (B.7') ~* \ S(X) / в в 2 .= 1 ч s(xt) ) e..et т. е. к системе из двух линейных уравнений с двумя неизвест- неизвестными (90 и Эх): 1 = 1 (В.7") Решение системы (В.7") дает нам в качестве оценок 0О и 8Х для неизвестных параметров соответственно 90 и Qt выраже- выражения: ) ( х f 2 B 2 2 «-2(л:«-)-Уг 2 Расчет по этим формулам с использованием данных табл. В.1 дает нам решение задачи 4: ei = 0,685; (Го = —40,360, 18
так что статистическая оценка искомой зависимости средней величины среднедушевых семейных сбережений ycv (х) от зна- значения среднедушевого дохода семей данной доходной группы х имеет в этом случае вид ?р(*) = —40,36 + 0,685- х. При другой статистической природе остатков 8 или при от- отсутствии достаточной информации о типе их вероятностного распределения возможен иной, чем по (В.7), выбор критерия качества аппроксимации Ап (см. гл. 7). Отметим, однако, что наиболее широкое распространение в статистической прак- практике именно критерия наименьших квадратов (В.7) подкрепле- подкреплено рядом исследований [15, 196]. В них обосновываются хоро- хорошие прогностические свойства моделей, полученных в соот- соответствии с (В.7) и в ситуациях, характеризующихся различ- различными отклонениями от нормальности и взаимной независимо- независимости остатков е (л:). Заканчивая обсуждение примера В.1 и возвращаясь к об- общему описанию задач статистического исследования зависи- зависимостей,.отметим, что функции f (X) = Е (rj 11 = X), описываю- описывающие поведение условных средних результирующего показате- показателя г| (вычисленных при значениях предикторных переменных ?, зафиксированных на уровне I = X) в зависимости от изме- изменения X, принято называть функциями регрессии (подробнее о различных определениях функции регрессии см. в гл. 5). В.2. Какова конечная прикладная цель статистического исследования зависимостей? С этого вопроса должно начинаться любое статистическое исследование зависимостей1. Ведь от ответа на этот вопрос существенно зависят план исследования, выбор общей струк- структуры математической модели, интерпретация получаемых ста- статистических характеристик и выводов и т. д. 1Опыт вынуждает констатировать наличие большого числа при- прикладных исследовательских работ (статей, диссертаций, научных отче- отчетов и т. д.), в которых этот тезис, казалось бы, тривиальный и очевидно справедливый, предается забвению. В подобных работах строятся раз- различные модели, проводится большое число вычислений, анализируются статистические свойства полученных характеристик и т. п., но все это в конечном счете как бы «повисает в воздухе», вызывает у компетент- компетентного читателя вопросы: «ну и что?» или «зачем это нужно?», поскольку остается неясным, как и для решения каких именно конкретных приклад- прикладных задач предполагается использовать результаты проделанных мате- математических упражнений 19
Итак, для чего же строятся математические модели типа (В.З), описывающие статистические зависимости между ис- исследуемыми переменными: результирующими показателями Y = (у{1\уB\ ...,#(w)) , с одной стороны, и соответствующими объясняющими (предикторными) переменными X = (хA), хB), ..., *(р))» с другой стороны? Выделим три основных типа конечных прикладных целей подобных исследований, расположив их как бы по нараста- нарастанию глубины проникновения в содержательную сущность анализируемой конкретной задачи. Тип 1: Установление самого факта наличия (или отсутст- отсутствия) статистически значимой связи между Y и X. При такой постановке задачи статистический вывод имеет двоичную (аль- (альтернативную) природу — «связь есть» или «связи нет» — и со- сопровождается обычно лишь численной характеристикой (из- (измерителем) степени тесноты исследуемой зависимости. Выбор формы связи (т. е. класса допустимых решений F и конкрет- конкретного вида функции f (X) в модели (В.З)) и состава предикто- предикторов X играет подчиненную роль и нацелен исключительно на максимизацию величины этого измерителя степени тесноты связи: исследователю часто не приходится даже «добираться» до конкретного вида функции f (X) и тем более он не претен- претендует на анализ причинных влияний переменных X на резуль- результирующие показатели. Тип 2: прогноз (восстановление) неизвестных значений ин- интересующих нас индивидуальных (Y (X) = (г\ | ? = X)) или средних (Уср (X) = Е (rj | ? = X) значений исследуемых ре- результирующих показателей по заданным значениям X соот- соответствующих (предикторных) переменных. При такой поста- постановке задачи статистический вывод включает в себя описание интервала (области) Ар (X) вероятных значений прогнози- прогнозируемого показателя Уср (X) или Y (X) и сопровождается вели- величиной доверительной вероятности Р, с которой гарантируется справедливость нашего прогноза, формализуемого с помощью утверждения вида {Y (X) g Ар (X)} или {Уср (X) g Лр (X)}. Как и в предыдущем случае, выбор формы связи (т. е. класса допустимых решений F и конкретного вида функции f (X) в модели (В.З)) и состава предикторов X играет подчиненную роль и нацелен исключительно на минимизацию ошибки по- получаемого прогноза. Однако в данном случае (в отличие от предыдущего) исследователь существенно использует значе- значения функции f (Х)у которые являются отправной точкой при построении прогнозных интервалов (областей) АР(Х). Послед- Последние обычно определяются в форме множества всех тех значе- значений Yy которые удовлетворяют неравенствам 20
f (X) - ep(X, n) ^ Y < f (X) + ep(X, n), (B.8) где ep(X, л) — гарантируемая (с вероятностью не меньшей заданного значения Р) максимальная величина ошибки прог- прогноза1. Таким образом, исследователя интересуют в данном слу- случае лишь значения функции f (X), но не ее структура, опре- определяющая, в частности, соотношение удельных весов влия- влияния объясняющих переменных jcA\ x{2\ ..., х(р) на каждый из результирующих показателей y{k) (k = 1, 2, ..., m). Так, например, если при статистическом оценивании неизвестной истинной зависимости /(X)-f/cP(x<1), *<2>)=1+3*<1> + 5;с<2> (В.9) исследователю удалось получить оценку функции f (X) в виде и при этом было установлено, что объясняющие переменные A и хB> связаны между собой «почти функциональной» 2 линейной зависимостью2 2x<2\ (В. 10) то функция / (X) будет обладать хорошими прогностическими свойствами, несмотря на существенное отличие ее коэффици- коэффициентов при x(I> и х{2) от соответствующих коэффициентов истинной функции / (X). (Обращаем внимание читателя на тот факт, что коэффициенты при х{2) в функциях / (X) и / (X) отличаются даже по знаку!) При подстановке заданных значений объясняющих переменных л:A) и *B> в правые ча- части (В.9) и (В.9'), при условии, что эти значения связаны при- приближенным соотношением (В. 10), мы будем получать совпа- совпадающие (или приближенно совпадающие) результаты / (X) и / (X), характеризующие усредненную величину уср (X) ис- исследуемого результирующего показателя. Тип 3: выявление причинных связей между объясняющими переменными X и результирующими показателями Y, частичт 1Напоминаем читателю, что (, е и К являются m-мерными векто- векторами (см. (В.2)), так что запись (В.8) означает справедливость т соот- соответствующих покомпонентных неравенств. гГоворя о «почти функциональной» линейной зависимости между *О> и х<2>, мы имеем в виду близость к единице (по абсолютной величи- величине) коэффициента корреляции между этими переменными [14, с. 155]. 21
нов управление значениями Y путем регулирования величин объясняющих переменных X. Такая постановка задачи претен- претендует на проникновение в «физический механизм» изучаемых статистических связей, т. е. в тот самый механизм преобразо- преобразования «входных» переменных X и в в результирующие пока- показатели Y (см. рис. В.1), который в большинстве случаев ис- исследователь, не будучи в состоянии его конструктивно опи- описать, вынужден именовать (следуя сложившейся кибернети- кибернетической терминологии) «черным ящиком». И при выявлении причинных связей, и при намерении ис- исследователя использовать модели типа (В.З) или (В.4) для уп- управления значениями результирующих показателей Ycp (X) или Y (X) путем регулирования величин объясняющих пере- переменных X на первый план выходит задача правильного оп- определения структуры модели (т. е. выбора общего вида функ- функции f (X)), решение которой обеспечивает возможность количе- количественного измерения эффекта воздействия на Y (X) каждой из объясняющих переменных *A), *B>, ..., х^р) в отдельности. Однако как раз это место (правильный выбор общего вида функции f (X)) и является самым слабым во всей технике ста- статистического исследования зависимостей: к сожалению, не существует стандартных приемов и методов, которые образовы- образовывали бы строгую теоретическую базу для решения этой важ- важнейшей задачи (некоторые рекомендации по проведению этого этапа исследования содержатся в гл. 6). Заметим, что исследователи, пожалуй, чаще других ста- ставят перед собой именно цели типа 3. И в таких прикладных задачах, как управление качеством продукции с помощью ре- регулирования хода технологических процессов [95, 47], прог- прогноз и анализ объемов произведенной продукции по затратам на трудовые ресурсы и капитальные вложения [31, 152], построе- построение интегральных целевых функций, описывающих эффектив- эффективность функционирования экономических единиц (предприятий, семей) по набору частных характеристик [9, 11, 128] и др., это вполне оправдано. Однако, к сожалению, далеко не всег- всегда целевые установки исследователей подкреплены объектив- объективными возможностями их реализации. В.З. Математический инструментарий Методы статистического исследования зависимостей состав- составляют содержание отдельных частей многомерного статистиче- статистического анализа, который можно определить [8, с. 731] как раз- 22
дел математической статистики, посвященный построению оптимальных планов сбора, систематизации и обработки мно- многомерных статистических данных типа (В.1), нацеленных в первую очередь на выявление характера и структуры взаимо- взаимосвязей между компонентами исследуемого многомерного при- признака (X, Y) и предназначенных для получения научных и практических выводов. При этом среди р + т компонент ис- исследуемого многомерного признака (X, Y) могут быть: ко- количественные, т. е. скалярно измеряющие в определенной шка- шкале степень проявления изучаемого свойства объекта (денеж- (денежный доход и сбережения семьи, объем валовой продукции, численность работников на предприятии и т. п.); порядковые (или ординальные), т. е. позволяющие упорядочивать анализи- анализируемые объекты по степени проявления в них изучаемого свойства (уровень жилищных условий семьи, квалификацион- квалификационный разряд рабочего, уровень образования работника и т. п.); классификационные (или номинальные), т. е. позволяющие раз- разбивать обследованную совокупность объектов на не поддаю- поддающиеся упорядочиванию однородные (по анализируемому свой- свойству) классы (профессия работника, мотив миграции семьи, отрасль промышленности и т. п.). Разделы многомерного ста- статистического анализа, составляющие математический аппарат статистического исследования зависимостей, формировались и развивались с учетом специфики анализируемых моделей, обусловленной природой изучаемых переменных. Соответст- Соответствующая специализация этих разделов отражена в табл. В.2. В ней же указаны главы данной книги и другие литературные источники, посвященные описанию указанных разделов. Из табл. В.2 видно, что данная книга не охватывает мето- методов исследования зависимостей неколичественного или сме- смешанного (разнотипного) результирующего показателя ОТ ко- количественных или смешанных объясняющих переменных: объемность и специфичность указанной темы обусловливают целесообразность посвящения ей специального издания. Кроме того, принцип систематизации различных схем, при- принятый в табл. В.2, не приспособлен для выделения одного важ- важного (особенно в области социально-экономических приложе- приложений) случая, когда связи между количественными перемен- переменными X и У описываются системой одновременных уравнений, в которых одни и те же переменные могут играть одновремен- одновременно (в различных уравнениях системы) и роль результирующих, и роль объясняющих. Этому посвящена теория одновременных эконометрических уравнений, основные результаты которой представлены в гл. 14. 23
Таблица В.2 п/п 1 2 3 4 5 6 7 Природа результирующих показателей Количественная Количественная Количественная Количественная Неколичественная (по- (порядковые, или ординаль- ординальные, переменные) Неколичественная (клас- (классификационные, или но- номинальные, переменные) Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Природа объясняющих пе- переменных (предикторов) Количественная Единственная количест- количественная переменная, ин- интерпретируемая как «время* Неколичественная (орди- (ординальные или номиналь- номинальные переменные) Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Неколичественная (орди- (ординальные и номинальные переменные) Количественная Смешанная (количест- (количественные и неколичествен- неколичественные переменные) Название обслуживающих разделов многомерного статистического анализа Регрессионный и корреляци- корреляционный анализ Анализ временных рядов Дисперсионный анализ Ковариационный анализ, модели типологической рег- регрессии Анализ ранговых корреля- корреляций и таблиц сопряженно- сопряженности Дискриминантный анализ, кластер-анализ, таксоно- таксономия, расщепление смесей ПЯРППРПРЛИНИИ Аппарат логических решаю- решающих функций Главы книги, посвященные данным разделам 1, 4, 5, 6, 7, 8, 9, 10, 11, 14 12 13 13 2,3 — — Другая литература, посвященная данным разделам [10, 17, 20, 25, 34, 43, 44, 46, 47, 50, 65, 77, 93, 103, 106, 119] [18, 21, 28, 41, 66, 80, 144] [66, 148] [4, 6, 19, 82] [23, 65, 67] [11, 19,20, 48, 58, 66] [76]
B.4. Некоторые типовые задачи практики Накопленный опыт практического использования аппарата ста- статистического исследования зависимостей позволяет выделить те типы основных прикладных направлений исследований, в которых этот аппарат работает особенно часто и плодотво- плодотворно. Если попытаться расщепить общую проблему оптималь- оптимального управления сложной системой (т. е. центральную проб- проблему кибернетики) на основные составляющие (рис. В.З), то Проблема оптимального упрабления сложной системой Нормиро- Нормирование Прогноз, планиро- Вание, диагнос- диагностика Оценка трудно- труднодоступных для непосредствен- непосредственного наблюде- наблюдения и из мер е- ния парамет- параметров системы Оценка эффектив- эффективности функцио- функционирования (или каче- качества) системы Оптималь- Оптимальное регу- регулирование парамет- параметров функ- ционирова- ционирования систе- системы Исходные статистические данные (информационная база) Рис. В.З. Основные направления практического использования аппа- аппарата статистического исследования зависимостей и центральная проблема кибернетики в качестве этих составляющих как раз и фигурируют именно те направления прикладных исследований, в разработке ко- которых существенную роль играет математический аппарат статистического исследования зависимостей. Естественность предложенного здесь расщепления общей проблемы оптимального управления сложной системой легко пояснить практически на любом примере принятия управлен- управленческого решения. Остановимся, скажем, на примере принятия управленческого решения руководителем производственного или учрежденческого подразделения при зачислении в штат нового сотрудника. Основываясь на знании необходимой ин- информационной базы (в данном случае это целевые установки и возможности подразделения и основные сведения о прини- принимаемом сотруднике), лицо, принимающее решение (ЛПР), 25
должно последовательно проанализировать и решить следую- следующие задачи: а) определить нормативные требования к деятельности сотрудников, т. е. пронормировать их труд (направление I на рис. В.З); б) спрогнозировать возможности сотрудника и, сопоста- сопоставив их с основными целевыми установками подразделения, спланировать его деятельность, включив ее в план общего фронта работ, выполняемых подразделением (направление И); в) при прогнозировании потенциальных возможностей но- нового сотрудника (а в ряде случаев — и при последующей оценке эффективности его деятельности) весьма существен- существенным оказывается умение оценить ряд таких не поддаю- поддающихся непосредственному измерению его качеств, как инициа- инициативность, творческая активность, дисциплинированность, тру- трудолюбие, обязательность, «контактность» с другими членами коллектива и т. п. (направление III); г) в некоторых (особенно непроизводственных) областях деятельности человека оценка эффективности его работы (без которой невозможно оптимальное управление) сводится к весьма трудной задаче построения агрегированного показате- показателя (латентного, т. е. скрытого, непосредственно не измеряе- измеряемого) ее качества (направление IV); д) и наконец, опираясь на решение задач а)—г) и на воз- возможность регулирования параметров (в данном случае стиму- стимулирующего и «штрафного» характера), от которых в определен- определенной мере и в соответствии с некоторой, как правило, статисти- статистической закономерностью зависит уровень эффективности ра- работы сотрудника, ЛПР осуществляет такую «настройку» зна- значений этих параметров, которая обеспечивает, по возможности, оптимальный режим функционирования всей системы, т. е. вверенного ему подразделения (направление V). Остановимся кратко на роли методов статистического ис- исследования зависимостей в разработке каждого из упомяну- упомянутых направлений. S. Нормирование. Общая схема формирования нормативов с использованием методов статистического исследования за- зависимостей может быть представлена следующим образом. Нормативный показатель играет в моделях типа (В.З)—(В.4) роль результирующей (объясняемой) переменной у, а факто- факторы, участвующие в расчете нормативного показателя, — роль объясняющих (предикторных) переменных хA>, л:B), ..., х{р). Предполагается, что привлечение для расчета норматива у полной системы определяющих его факторов, т. е. такой си- 26
стемы, с помощью которой возможно детерминированное (однозначное) определение величины */, либо принципиально невозможно, либо нецелесообразно из-за чрезмерного услож- усложнения расчетных формул. Поэтому анализируется связь между у и (xA>, хB\ ..., х{р>) вида у = f (х<гК х<2\ ..., *0»; в) + е, (В.11) где 8 — остаточная случайная компонента, обусловливающая возможную погрешность в определении норматива у по из- известным значениям факторов хA\ х<2), ..., х{р\ а / (X; G) — функция из некоторого известного параметрического семейст- семейства F ={/ (X; 6)}, в?Л, однако численное значение входя- входящего в ее уравнение параметра Э (вообще говоря, векторно- векторного) неизвестно. С целью подбора «подходящего» значения в проводится контрольный эксперимент (наблюдение), в резуль- результате которого исследователь получает исходные статистиче- статистические данные вида (В.1). Далее на основании этих данных проводится необходимый статистический анализ модели (В. И) с целью получения оценки в неизвестного параметра в и анализа точности полученной расчетной формулы КСр (X) = = / (X; в), в которой величина условной (экспериментальной) средней Кср (X) интерпретируется как средний нормативный показатель при значениях определяющих факторов, равных X. Данный подход использовался, в частности, при разработ- разработке методик расчета численности служащих (по различным их функциям) на промышленном предприятии отрасли по набору технико-экономических показателей, характеризующих пред- предприятие, при построении автоматизированных систем норми- нормирования ремонтных работ [82] и в других областях (см., на- например, ГОСТ 22015—76 «Качество продукции. Нормирова- Нормирование и статистическая оценка качества металлических мате- материалов и изделий по механическим характеристикам»). II. Прогноз, планирование, диагностика. Отправляясь от общей формулировки задачи статистического исследования зависимостей (см. § В. 1) и от ее модельной записи (В. И), определим в качестве результирующей переменной у интере- интересующий нас прогнозируемый (планируемый, диагностируе- диагностируемый) показатель, а в качестве объясняющих (предикторных) переменных хA), х{2\ ..., х(р) — сопутствующие факторы, значения которых содержат основную информацию о величине этого показателя1. Наличие остаточной случайной компоненты ХВ моделях прогноза и планирования в качестве одного из объяс- объясняющих факторов *(*) вводится в явном виде «длина прогноза», или «горизонт планирования», / (в единицах времени). 27
8, как и прежде, отражает тот факт, что переменные л*A\ х{2\ .., х{р) содержат не всю информацию об //, и обусловливает неизбежность погрешности в определении прогнозируемого (планируемого, диагностируемого) показателя по известным значениям объясняющих факторов х{1\ хB), ..., х{р). Исход- Исходные статистические данные вида (В.1) исследователь получа- получает, регистрируя одновременно значения у и (хA), ..., х{р)) на анализируемых объектах в прошлом (в базовом периоде) или на других объектах, но однородных с анализируемыми. Имеется обширная литература по решению задач прогно- прогноза, планирования и диагностики с использованием аппарата статистического исследования зависимостей [4, 29, 31, 47, 80, 93, 128, 144, 152, 1631. В табл. В.З приведены примеры не- некоторых типичных задач этого направления прикладных ис- исследований. Можно было бы продолжить перечень примеров табл. В.З, заполнив их аналогичными, задачами из энергетики (задача оперативного и долгосрочного прогноза потребления электро- электроэнергии), гидрологии, социологии, физики и других областей деятельности человека. III. Оценка труднодоступных для непосредственного на- наблюдения и измерения параметров системы. Восстановление возраста археологической находки по ряду косвенных призна- признаков; прочности бетона с помощью косвенных (неразрушающих) методов контроля (например, по отношению диаметров отпе- отпечатков на поверхности испытуемого образца бетона и на воз- воздействующем на него эталонном молотке [161); денежных сбе- сбережений семьи по ее доходу (в среднедушевом исчислении) — во всех этих ситуациях исследователь вынужден иметь дело с показателями, труднодоступными для непосредственного из- измерения (они выделены в тексте курсивом). Очевидно, для того чтобы иметь принципиальную возможность статистически вы- выявить связь, существующую между труднодоступным показа- показателем у и косвенно связанными с ним, но легко поддающими- поддающимися наблюдению и измерению признаками Л'A), хB>, ..., х(р\ ис- исследователю необходимо располагать исходными статистиче- статистическими данными вида (В.1), которые получают с помощью спе- специально организованного контрольного эксперимента или на- наблюдения [16]. После того как эта связь выявлена (и оценена степень ее точности), она используется для косвенного опре- определения значений труднодоступных показателей лишь по зна- значениям объясняющих переменных х{1\ х{2\ ..., х{рК IV. Оценка эффективности функционирования (или каче- качества) анализируемой системы. Пытаясь оценить (в целом) эффективность деятельности отдельного специалиста, подраз- 28
деления или предприятия, проранжировать страны по неко- некоторому интегральному качеству (например, по степени про- прогрессивности структуры их фондов потребления или всего национального дохода [111), наконец, проставить балльные оценки спортсмену — участнику командных соревнований в игровых видах спорта за качество его игры в определенном цикле [11], мы каждый раз, по существу, решаем (на интуи- интуитивном уровне) одну и ту же задачу: отправляясь в своем ана- анализе от набора частных показателей хA>, х{2\ ..., х<р\ каж- каждый из которых может быть измерен и характеризует какую- нибудь одну частную сторону понятия «эффективность», мы их как бы взвешиваем (т. е. внутренне оцениваем удельный вес их влияния на общее, агрегированное, понятие эффектив- эффективности) и выходим на некоторый скалярный агрегированный показатель эффективности у. Этот показатель — латентный (скрытый), так как он принципиально не поддается непосредст- непосредственному измерению (не существует или нам не известна объек- объективная шкала, в которой он мог бы быть измерен). Но он с некоторой точностью восстанавливается по значениям частных показателей эффективности х{1\ л'B), ..., xipK Это значит, что между латентным агрегированным показателем у и набором частных критериев эффективности хA), хB), ..., х{р) сущест- существует статистическая связь типа (В.И). Главная особенность (и трудность) описываемой ситуации заключается в том, что при получении (сборе) исходной ста- статистической информации вида (В.1) значения результирую- результирующего показателя у могут быть получены только с помощью спе- специально организованного экспертного опроса (значения ча- частных критериев эффективности х{1\ хB>, ..., х{р\ как пра- правило, поддаются непосредственному измерению). Форма экс- экспертной информации о значениях у может быть различной (балльные оценки, упорядочения, парные сравнения [11]). Но только располагая наряду со статистической информацией об X = (хA\ хB), ..., х(рУ>У одной из форм соответствующей экспертной информации об у, мы можем статистически по- построить некоторую аппроксимацию */ср (X) = / (X; в) для агрегированного критерия эффективности функционирования системы и использовать ее затем в качестве формализованно- формализованного метода оценки интегрального понятия эффективности (т. е. уже без привлечения экспертов, а лишь по частным критериям хA\ х{2\ ..., х^). Такая модифицированная форма исполь- использования аппарата статистического исследования зависимостей предложена в [91, развита в [68] и носит название эксперты- статистического метода построения неизвестной целевой функции. 2$
со о Таблица В.З с с '< I 1 2 3 Содержание задачи 2 Прогноз и планирование объема выпускаемой про- продукции по факторам про- производства (построение производственных функ- функций) Прогноз урожайности сельскохозяйственных культур по климатиче- климатическим факторам и факто- факторам сельскохозяйствен- сельскохозяйственного производства Прогноз производитель- производительности труда, анализ ее динамики Прогнозируемый (планируемый, диагностируемый) показатель У 3 Объем валовой продукции Урожайность Производитель- Производительность труда Предсказывающие (объясняющие) переменные *<»>,*<'> дг(Р) 4 л:A) — затраты на труд; *B) — затраты на капи- капитальные вложения; *C) — время (номер го- года) .vA)— сумма весенних «активных температур»; *B) — количество весен- весенних осадков; хC) — механовооружен- ность; *D) — затраты на удобре- удобрения х<1) — фондовооружен- фондовооруженность; хB) — энерговооружен- энерговооруженность; л'C) — время (могут при- привлекаться и другие фак- факторы с учетом специали- специализации производства) Аналитическая запись общего вида исследуемой зависимости (один из вариантов) 5 Уср(*)-0о(А:A)H1 X X (*(*>)*. ев-*C) Уср(*) = 00- П (*(Л)Л или Та же, что и в п. 1 Литература, посвященном данной задаче 6 [31, 47, 80 126, 152] [65] [144]
4 5 6 7 Прогноз объемов потреб- потребления продукции или ус- услуг определенного вида (построение кривых Эн- геля) Анализ динамики нацио- национального дохода и взаи- взаимосвязей его основных составных частей Техническая диагностика Медицинская диагности- диагностика Удельная величина спроса (потребле- (потребления) товаров или услуг определен- определенного вида yt1) — доход в го- году /; yt2) — фонд пот- потребления в году / Показатель техни- технического состояния системы или про- процесса Наличие («тя- («тяжесть») заболева- заболевания х — среднедушевой до- доход Xt — капиталовложения (инвестиции) в году t Значения параметров си- системы или процесса, кос- косвенно характеризующих различные частные ас- аспекты ее технического состояния Результаты медико-био- медико-биологических анализов и тестирование пациентов логистическая кривая F2 > 0) «//B>-б0+е1г/,A>-г-е( (е* — остаточная случайная компонента) Зависит от специфики задачи Зависит от специфики задачи [128] [29, 31, 80] [5, 1451 [163]
Продолжение табл. ?.3 с с 1 8 9 10 Содержание задачи 2 Геологический прогноз (месторождений) Прогноз и планирование конструкционных и тех- технико-экономических ха- характеристик проектиру- проектируемого сооружения Прогноз и планирование надежностных характе- характеристик отдельных узлов и элементов сложного из- изделия Прогнозируемый (планируемый, диагностируемый) показатель у 3 Наличие (уровень) рудоносности вг ис- исследуемом месте Конструкционные и технико-эконо- технико-экономические характе- характеристики проекти- проектируемого сооруже ния Долговечность (продолжитель- (продолжительность жизни до разрушения) эле- элемента Предсказывающие (объясняющие) переменные *(!), *B) $х{р) 4 Процентное содержание эяда сопутствующих элементов в исследуемом месте, их динамика в «геологическом» времени Исходные параметры ме- места и условий строитель- строительства, нормативные зада- задания по основным резуль- результирующим показателям проектируемого соору- сооружения х — величина эксплуата- эксплуатационного напряжения Аналитическая запись общего вида исследуемой зависимости (один из вариантов) 5 Зависит от специфики задачи Зависит от специфики задачи j/cPW = e0+elv*-e' (в, > 0) Литература, посвященная данной задаче 6 [4] [10, 125]
В описанную схему вкладывается широкий класс задач теории и практики измерения комплексного понятия «каче- «качество» сложного'изделия (т. е. квалиметрии [5]): в этих задачах у интерпретируется как агрегированный (комплексный) пока- показатель качества изделия, а *A>, х{2\ ..., *(р> — как отдельные частные характеристики его качества (надежность, экономич- экономичность, удобство пользования, эстетический вид и т. п.). В ка- качестве параметрических семейств F = {/ (X; в)}, привлекае- привлекаемых при статистическом анализе задач данного типа, чаще дру- других используются функции линейные f(X; в)-ео + е1%п> + ...+ер;с«» (ВЛ2) и степенные /(X; Q) = %{xi»f*{xW)**...(xM)*p (B.13) последняя особенно характерна для задач квалиметрии). Остается отметить, что и традиционные подходы аппарата статистического исследования зависимостей (классический ре- регрессионный анализ, метод наименьших квадратов и т. п.) широко используются в практике оценки технического уров- уровня и качества продукции. Это, в частности, отражено и в со- соответствующей официальной документации (см., например, РД 50—149—79: Методические указания по оценке техниче- технического уровня и качества промышленной продукции. Основные положения; ГОСТ 22732—77: Методы оценки уровня каче- качества промышленной продукции и др.). V. Оптимальное регулирование параметров функциониро- функционирования анализируемой системы. Рассмотрим пример [10]. При анализе производительности мартеновских печей на одном из заводов исследовалась, в частности, зависимость между про- производительностью в тонно/часах (для исключения влияния за- задержек и простоев часовая производительность мартеновской печи определялась как частное от деления массы плавки на продолжительность периода от начала завалки до выпуска) и процентным содержанием углерода в металле по расплавле- расплавлении ванны (пробу брали через час после первого скачивания шлака). Результаты замеров по 130 плавкам (т. е. объем п обрабатываемой статистической выборки вида (В.1) равен 130) приведены на рис. В.4. Очевидно, величины производительнос- производительности (yt) и процентного содержания углерода (xt) подвержены не- некоторому неконтролируемому разбросу, обусловленному влия- влиянием множества не поддающихся строгому учету и контролю факторов. Другими словами, последовательность пар чисел ?*ь Уд> i• = 1» 2, ..., 130, представляет в данном случае ре- Зак. 24* 33'
У,т/ч 18 f 17 Iff 15 зультаты 130 независимых наблюдений двумерной случайной величины (?, г)). Однако сквозь кажущуюся хаотичность рас- расположения точек (xi, iji) на рис. В.4 просматривается вполне определенная закономерность зависимости условного средне- среднего значения производительности уСр (х) = Е (г)|? = х) от величины процентного содержания углерода х. Поэтому, рас- располагая статистической зависимостью уСХ) (х), мы можем дать рекомендации технологу по оптимальному (с точки зрения мак- максимизации производительности) управлению процессом выплав- выплавки: поддерживать процентное содержание углерода в пределах 0,6—1,0%. Мы не случайно начали с этого примера. Использование методов статистического иссле- исследования зависимостей в задачах оптимального регулирования хо- хода технологического процесса и построения соответствующих ав- автоматизированных систем управ- управления технологическими процес- процессами (АСУТП) можно отнести к примерам грамотных и относи- относительно распространенных акту- актуальных приложений этого аппа- аппарата [47, 145]. Общая схема таких приложений предусматривает (в дополнение к приве- приведенному выше частному примеру ): а) одновременное рассмот- рассмотрение . нескольких результирующих показателей у^г\ #B\..., у(т> (производительность, качество продукции, расход сырья и энергии и т. п.) и многих регулируемых параметров техно- технологического процесса хA), х{2\ ..., х(р>; б) возможность сбора исходной статистической информации вида (В. 1) в условиях активного эксперимента (см. § В.1, задача 7). Менее освоенным (но не менее правомерным и актуальным) является этот подход в задачах оптимального регулирования: характеристик социально-экономического поведения лю- людей и целых коллективов в ситуациях, когда существует прин ципиальная возможность выявления статистических связей между этими характеристиками и набором объясняющих (и хотя бы частично регулируемых) факторов [40, 128]; характеристик курса медицинского лечения; структуры и объемов нагрузок и видов заданий в процес- процессе профессиональной подготовки специалистов. 0,2 0,4 0}6 0,8 1,0 1,2 1,4 х,% Рис. В.4. Зависимость про- производительности ( г/, т/ч) от процентного содержания углерода (х, %) в металле до расплавления 34
В.5. Основные типы зависимостей между количественными переменными При изучении взаимосвязей между анализируемыми количест- количественными показателями следует установить, к какому именно типу зависимостей относится исследуемая схема. Под типом зависимости мы подразумеваем в данном случае не аналитиче- аналитический вид функции Кср (X) — / (X; 0) в моделях вида (В. 11) (о выборе общего аналитического вида функции / (X; в) см. гл. 6), а природу анализируемых переменных (X, у) и соот- соответственно интерпретацию функции / (X; в) в каждом конкрет- конкретном случае. Зависимость между неслучайными переменными (схема А). В этом случае результирующий показатель */детермипированно (т. е. вполне определенно, однозначно) восстанавливается по значениям неслучайных объясняющих переменных X = = (хA\ х{2\ ..., х(р)), т. е. значения у зависят только от со- соответствующих значений X и полностью ими определяются. Это — обычная схема чисто функциональной зависимости между неслучайными переменными, когда у является некото- некоторой функцией от р переменных X (т.е. у — f (X)), что является вырожденным случаем зависимостей вида (В. 11), когда оста- остаточная случайная компонента е равна нулю (с вероятностью единица). Известно, например, что возраст дерева у (в годах) можно однозначно восстановить по числу колец х на срезе его ство- ствола, а именно у = х. Примеры адекватного описания реальных зависимостей с помощью чисто функциональных (нестохастиче- (нестохастических) связей, к сожалению, крайне редки в практике исследо- исследований. Кроме того, при проведении их анализа нет необхо- необходимости использовать методы вероятностно-статистической теории. Поэтому в дальнейшем изложении мы не будем больше возвращаться к этому типу зависимостей. Регрессионная зависимость случайного результирующего показателя г) от неслучайных предсказывающих переменных X (схема В). Природа такой связи может носить двойственный характер: а) регистрация результирующего показателя г| не- неизбежно связана с некоторыми случайными ошибками измере- измерения е, в то время как предикторные (объясняющие) перемен- переменные X = (хA), хB\ ..., х(р))' измеряются без ошибок (или ве- величины этих ошибок пренебрежимо малы по сравнению с со- соответствующими ошибками измерения результирующего по- показателя); б) значения результирующего показателя г) за- зависят не только от соответствующих значений X, но и еще от 2* 35
ряда неконтролируемых факторов, поэтому при каждом фик- фиксированном значении X* соответствующие значения резуль- результирующего показателя г) (X*) = (г\\Х = X*) неизбежно под- подвержены некоторому случайному разбросу. В этом случае предикторные переменные X играют роль не- неслучайного (векторного при р > 1) параметра, от которого за- зависит закон распределения вероятностей (в частности, сред- среднее значение и дисперсия) исследуемого результирующего по- показателя т]. Удобной математической моделью такого рода за- зависимостей является разложение вида ц(Х) = /(Х) + е(Х), (В. 14) в котором неслучайная составляющая правой части (функция / (X)) описывает поведение условного среднего уСр (X) — = Erj (X) = / (X) в зависимости от X, а остаточная случай- случайная компонента 8 (X) отражает случайную природу rj (X). В широком классе исследуемых схем модель (В. 14) строится таким образом, что математическое ожидание случайного ос- остатка е (X) равно нулю (Ее (X) = 0) тождественно по X; пред- предполагается обычно, что при всех X существует конечная дис- дисперсия е (X) (т. е. De (X) < оо), причем величина этой дис- дисперсии, вообще говоря, может зависеть от X (т. е. De (X) = = а2 (X)). Подчеркнем то обстоятельство, что в описанной модели (В. 14) ни природа случайной компоненты е (X), ни соответственно характеристики ее вероятностного распреде- распределения никак не связаны со структурой функции / (X) и, в частности, не зависят от значений ее параметра в в парамет- параметрической записи модели (т. е. когда вместо всех возможных функций / (X) рассматривают какое-либо параметрическое семейство /(X; G), см., например, (В.12), (В.13)). Если вернуться к примеру В.1, то можно убедиться, что он хорошо укладывается в рамки модели (В. 14). Для этого сле- следует л ишь заметить, что имевшаяся в этом примере возможность контролировать значения предикторной переменной ?, по существу, переводит эту переменную из категории случайных величин в категорию неслучайных (контролируемых) парамет- параметров модели. Дальнейший анализ примера В.1 (см. табл. В.1, формулу (В.5) и рис. В.2) подсказал нам следующую конкре- конкретизацию допущений о природе составных частей модели (В. 14): Ус» (х) = Ел (*) = / (х) = 60 + Q, х\ j 5 — константа, не зависящая от х.
Пример В.2. В табл. В.4 и на рис. В.5 представлены результаты усталостных испытаний алюминиевых сплавов 1125], т. е. набор сорока пар (xit t/i)y i = 1,2, ..., 40, экспери- экспериментальных значений величин х и г\ соответственно. Если при сборе выборочных данных, составляющих дву- двумерную систему наблюдений, производится по нескольку на- наблюдений при каждом фиксированном значении аргумента, а также в случае разбиения диапазона переменной — аргу- аргумента на интервалы группирования Л/А>), в общую схему обо- обозначений двумерной системы наблю- наблюдений (В.1) целесообразно внести некоторые изменения. Так, если к — число различных фиксированных значений предиктор- ной переменной (или количество ин- интервалов группирования Д(^, на ко- которые разбит весь обследованный диа- диапазон этой переменной), а /л,- (/ = 1, 2, ..., к) — количество наблюдений, произведенных при /-м фиксирован- фиксированном значении аргумента (или количе- количество наблюдений, попавших в /-и ин- интервал разбиения Д(*-*), то результаты наблюдений удобнее снабдить двумя индексами, т. е. записать в виде (jcfy, уи), где i ¦=; 1, 2, ..., ft, a /=* 1, 2,.., mf. Здесь первый индекс (/) обозначает порядковый номер фиксированного значения независимой переменной (или порядковый номер интервала группирования), а второй индекс (/•)— порядковый номер наблюдения, про- произведенного приданном 1-мфиксированном значении аргумен- аргумента (или порядковый номер наблюдения, попадающего в /-й ин- интервал группирования). Так, например, под (x:ib, y:ib) пони- понимается результат пятого по порядку наблюдения, произведен- произведенного при третьем фиксированном значении аргумента (или по- попадающего в третий интервал группирования Д^). В наших рассмотрениях будут фигурировать также величины х°\у х\, ..., х°, представляющие собой последовательность различных фиксированных значений аргумента, при которых производи- производились наблюдения (или средние точки интервалов группирова- группирования Д^), а также условные средние зависимой переменной 7 1 7,0 В, 5 6,0 5,0 5,0 Ь,5 • t | - i 1 • • • i • 1 • г 1 1 • 1Л 1,5 X Рис. В.5. Графиче- Графическое представление результатов устало- усталостных испытаний алюминиевых спла- сплавов 37
I 1 2 3 4 i 1 2 3 4 1,28 1,30 1,40 1,48 6,85 6,52 5,52 4,73 mi 10 10 10 10 Уц 6,91 6,60 5,52 4,78 УЦ 6,34 5,95 5,23 4,55 У(8 6,91 6,62 5,53 4,78 G,34 6,04 5,27 4,65 у* 7,02 6,64 6,60 4,84 6,41 6,11 5,32 4,65 7,12 ' 6,71 5,78 4,86 Табл Уи 6,42 6,31 5,39 4,68 Уг 6,71 6,39 5,46 4,72 и да В.4 У'гь 6,80 6,36 5,40 4,72 0,091 0,076 0,020 0,009 = У> = [У и +yi2 +... + yim.Y mi характеризующие средние значения результирующего показа- показателя при каждом фиксированном значении аргумента jc? (или средние значения в каждом отдельном интервале группирова- группирования Д(*;). Очевидно, что в ситуациях, когда производится по несколь- нескольку наблюдений при каждом фиксированном значении аргу- аргумента, мы будем иметь Л11 — Л12 — •'• — ^Irrti — Л1, X2i = Х22 =-=... = Х2т2 = -^2 И Т. Д. В качестве результирующего показателя — случайной пе- переменной г] в нашем примере рассматривается характеристика долговечности образца — нормированная величина лога- логарифма числа циклов N до разрушения образца, а в качестве неслучайной предикторной переменной х — логарифм со- соответствующей величины эксплуатационного напряжения V, Н/мм2 (кг/мм2). Очевидно, долговечность^ образца зависит также от целого ряда неконтролируемых факторов (случайное варьирование условий эксперимента, свойств самих образцов и т. п.), поэтому при каждом уровне напряжения характери- характеристики долговечности будут подвержены некоторому случайно- случайному разбросу около своего среднего. 38
Расположение экспериментальных точек (xit у{) на рис. В.5 указывает на систематическую закономерность в поведении условных средних yt =?- v уи в зависимости от номера /, i j— I т. е. от величины х\ их расположение близко к прямолинейно- прямолинейному. Это приводит к гипотезе о целесообразности представле- представления исследуемой случайной величины выражением (В. 15). Первыми шагами исследователя может быть приближенная оценка прямой уСр (х) — 0о -}- 02Л', а также меры случай- случайного разброса индивидуальных значений г\ вокруг этой прямой, характеризующейся в первом приближении только- эмпирическими дисперсиями s2 (xf). Однако при проведении более точного количественного анализа возникают следующие- вопросы: как наиболее точно провести прямую //ср (х) =00+ + 0i*; как оценить степень точности построенной зависимости; нельзя ли строить математически обоснованные зоны (так на- называемые доверительные интервалы и границы) около иссле- исследуемой прямой, попадание в которые эмпирических индивиду- индивидуальных или средних значений г| при каждом фиксированном х гарантировалось бы с заранее заданной вероятностью? От- Ответы на все эти вопросы и дает регрессионный анализ (см. гл. 5—11). Корреляционно-регрессионная зависимость между случай- случайными векторами г\ — результирующим показателем и I — предикторной переменной (схема С). В данном типе моделей и компоненты вектора результирующего показателя г|, и ком- компоненты вектора объясняющих переменных ? зависят от мно- множества неконтролируемых факторов, так что являются слу- случайными по своей физической сущности. Мы уже сталкивались с такой ситуацией в примере, в котором исследовалась связь между производительностью мартеновских печей и процент- процентным содержанием углерода в металле (см. рис. В.4). Зависи- Зависимости такого типа вообще характерны для описания хода тех- технологических процессов, реальные значения параметров ко- которых ? = (?A), ?B), ..., lip))', равно как и характеризующие их результирующие показатели ц — (ц{1)у ц{2\ ..., r)(m))'» как правило, флюктуируют случайным (но взаимосвязанным) образом около установленных номиналов. В подобных ситуациях оказывается полезным рассмотреть разложение исследуемого результирующего показателя г| на две случайные составляющие по формуле типа (В.З). Первая из них определяется некоторой (векторнозначной) функцией f от объясняющей переменной ?, а вторая отражает остаточные влияния неучтенных случайных факторов на анализируемый 39
результирующий показатель tj. Итак 4«f Ш + e. (В. 16) При этом разложение (В. 16) строится таким образом, что- чтобы для компонент векторов f (?) и е выполнялись соотношения Ее<*> = 0, De<*> = о% < оо, cov (/<*> (?), е<*>) - Е [(/<*> (Н) . е<*>]— — Е/<*> (|)-Е е<*> = 0. В частном случае единственного результирующего показа- показателя (т = 1) и линейного вида функции / (?) имеем: Подразумевая, как и прежде, под #ср (X) = Е (х\\\ = X) условное математическое ожидание результирующего показа- показателя г] (при условии, что объясняющая переменная ? приняла значение, равное X), мы от (В. 17) приходим к линейному урав- уравнению регрессии (В. 18) к= 1 Возможны случаи, когда вторая (остаточная) компонента в разложении (В. 16) с полной мерой достоверности (т. е. с ве- вероятностью единица) равна нулю. При этом исследуемые слу- случайные величины Y] и I оказываются связанными чисто функ- функциональной зависимостью г\ = / (|), но ее следует отличать от функциональной зависимости неслучайных переменных (см. выше, схема А). Пример В.З. Рис. В.6 иллюстрирует связь между вакуумом в печи для отжига стекла ? и процентом брака т| в стекольном производстве [101. Случайные изменения свойств сырья, а также ряда неконт- неконтролируемых факторов приводят к случайным колебаниям обе- обеих исследуемых переменных. Однако расположение точек на рис. В.6 свидетельствует о том, что эти колебания взаимосвя- взаимосвязаны, подчинены вполне определенной закономерности: «об- «облако» рассеяния вытянуто вдоль некоторой прямой, не парал- параллельной ни одной из координатных осей. Все это подтверждает , целесообразность разложения случайной величины г\ по фор- формуле (В. 16) и исследования связи между г| и 5, которая в этом случае носит название корреляционной. К перечисленным во- вопросам регрессионного анализа (построение конкретного вида зависимости между переменными, различные оценки ее точ- точности) в этом случае присоединяется круг вопросов, связанных 40
г: с исследованием степени тесноты связи между этими перемен- переменными. Совокупность методов, позволяющих решать эти во- вопросы, принято называть корреляционным анализом (см. гл. 1—3). Зависимости структурного типа, или зависимости по схеме конфлюэнтного анализа (схемы Dx и D2). В обеих описы- описываемых ниже схемах речь идет о восстановлении искомых за- зависимостей по искаженным наблюдениям анализируемых пе- переменных, причем, в отличие от регрессионной схемы ?, ис- искаженными оказываются при наблюдении не только значения результирующего показателя, но и значения объясняющих (предик- - о/ торных) переменных хA), хB), ..., х(р). В зависимости оттого, между какими именно переменными — неслучайными или случайными — исследуются связи, мы будем иметь соответственно тип связи по схеме Dt или D2. Оба эти типа связей упоминаются в специальной лите- литературе как структурные зависимо- зависимости [65, с. 500—557] или как за- зависимости по схеме конфлюэнтного анализа [7, 10]. Таким образом, конфлюэнтный анализ предоставля- предоставляет исследователю совокупность ме- методов математико-статистической обработки данных, относя- относящихся к анализу априори постулируемых функциональных связей между количественными (случайными или неслучайны- неслучайными) переменными Г = (у^ у™)' и X = (х<>>, *<2\ ... *<">)' в условиях, когда наблюдаются не сами переменные, а слу- случайные величины СУ," су; •• • • •• • *>< • • • • • • X°Z15 Х°3 ? xlfl Рис. В.6. Графическое представление данных по связи вакуума в печи для обжига стекла (?) и процента брака в сте- стекольном производстве (ч) », ?=1,2 р; «/>, /=1,2, ...,т; /=1,2, .... я, (В. 19) (l\ где е *; и еу — случайные ошибки измерений соответственно переменных х(*> и t/» в i-u наблюдении, а п — общее число наблюдений. При этом общий вид исследуемых функциональ- функциональных (структурных)- связей V ' * (В.20) КУ *) /С»)(л;('), .... х(р); в) 41
между ненаблюдаемыми, а точнее, наблюдаемыми с ошибками переменными считается заданным (неизвестным является лишь значение векторного параметра 6 — @lf ..., Qw)t участвую- участвующего в уравнениях искомых зависимостей (В.20)). Схема Dx: исследуемые переменные X = (дгA), ..., xip))f и у = (f/<1), .., f/(m>)' не случайны. Для упрощения обозначе- обозначений проанализируем зависимости (В. 19)—(В.20) в рамках данной схемы лишь для одного результирующего показателя и одной объясняющей переменной (случай т — 1, р = 1): обобщение этого анализа на случай т ;> 1 и р >1 не пред- представляет принципиальных трудностей. Учитывая формулы (В. 19) и (В.20) и воспользовавшись формальным разложением функции / (? — гх) в ряд Тейлора около точки ?, получаем соотношение между г| и ?: Здесь под fW (g) подразумевается k-я производная функции / (/) по /, взятая в точке / = ?. В частности, при линейном ви- виде имеем П = (80 + ОЛ) + (су - в1Ся). (В.22) Из (В.21) непосредственно следует, что уравнение регрес- регрессии г| по с, (т. е. вид зависимости условного математического ожидания f/cp (х) = Е (tj|? = х) от л:) совпадает со структур- структурным соотношением (В.20I. Однако в схеме Dlt в отличие от схем В и С, остаточная случайная компонента в разложениях (В.21) и (В.22) (т. е. соответственно гу + 2) ~?,xJ /c*3 F)" и еу — Ofix) зависит от неизвестных параметров, участвую- участвующих в описании функции / (х) и оцениваемых на основании имеющихся у нас.выборочных данных. Эта специфичность природы зависимости, присущая схе- схеме Dlt сильно усложняет задачу построения хороших оценок для неизвестных параметров, входящих в соотношение (В.20). Дело в том, что достаточно хорошо разработанная теория по- построения таких оценок для схем В и С, в частности оценок мак- максимального правдоподобия, оценок наименьших квадратов, 1Чтобы убедиться в этом, надо при вычислении условного мате- математического ожидания от обеих частей соотношения (В.21) лишь учесть, что условие I = к равносильно условию ех = 0, и, кроме того, восполь- воспользоваться естественным допущением: Ееу = Е (еу|? = х) = 0. 42
оказывается неприменимой к задачам схемы Dx. Так, напри- например, оценки, используемые в регрессионном и корреляционном анализах, при обращении к задачам схемы Dx теряют свои «хорошие» свойства — несмещенность, эффективность и даже состоятельность. Поэтому исследователь должен проявить особую аккуратность на самой первой стадии анализа — при постановке задачи и определении, к какому из известных ти- типов зависимостей следует отнести данный конкретный слу- случай. Соответственно при описании рекомендаций и приемов 135 130 125 120 115 110 105 100 95 90 85 250 270 290 330 350 370 Рис. В.7. Зависимость между пределом прочно- прочности (Тб (кг/мм2) и твердостью по Бринелю Яв (кг/мм2) для 75 образцов одной из плавок стали обработки выборочных данных с целью статистического ис- исследования зависимостей приходится отделять регрессионный и корреляционный анализы (схемы В wC) от так называемо- называемого конфлюэнтного анализа (схемы Dx и D2). Пример В.4. [90] На рис. В.7 и в табл. В.5 приведены результаты испытаний образцов (изготовленных из стали 30XICA) на твердость по Бринелю (Нв) и предел прочности (оь)' в Н/мм2 (кг/мм2). Известно, что при существующих условиях производства и конструирования возможность взаимного перевода показате- показателей прочности и твердости для конструкционных сталей (т. е. возможность взаимного сопоставления этих характеристик типа Нв ^ оь) зачастую является необходимой. Такой пере- 43
вод осуществляется с помощью специальных таблиц, общей основой которых является предположение, что между зна- значениями Нв, оь и Hrc (твердость по Роквеллу) существует чисто функциональная взаимно-однозначная зависимость (т. е. зависимость по схеме А в нашей классификации). Однако при практическом использовании переводных таблиц и формул было обнаружено, что фактические значения механических характеристик часто существенно отличаются от полученных переводом (даже в тех случаях, когда эти таблицы носят узко- узкоспециализированный характер, т. е. когда они составляются и используются лишь для какого-то одного типа полуфабри- полуфабриката и для одной и той же марки стали). Причина же подобной рассогласованности, неточности этих таблиц кроется на самом деле в том, что сама природа связи, существующей между различными механическими ха- характеристиками материалов, например между Нв и obi но- 44 2 262 90,0 275 95,5 335 111,5 356 117,0 383 127,0 3 262 90,5 278 94,0 331 109,5 350 118,5 385 128,0 4 262 87,5 278 93,5 331 109,5 352 117,5 390 129,0 5 263 88,5 277 97,0 341 114,0 354 119,0 383 128,0 6 260 90,0 290 93,5 331 113,0 352 122,0 388 132,0 7 263 87,5 277 94,5 331 110,5 350 116,0 383 128,0 8 262 88,0 275 92,5 339 107,5 352 117,0 380 128,0 9 265 90,5 277 93,5 333 114,5 352 118,0 380 128,0 10 262 88,5 277 94,5 331 112,0 350 120,5 385 130,0 11 257 87,5 275 93,5 331 110,0 352 118,5 388 130,0 12 265 90,0 278 96,5 331 115,0 354 118,0 383 128 0 13 265 87,5 278 92,5 337 110,0 350 118 5 380 129',0 14 265 89,5 275 92,5 341 110,5 352 120' 0 383 129,0 15 263 90,0 277 93,5 327 109,5 354 119,0 384 128,5 Средние значения 262,5 88,9 277,6 94,0 333,4 111,1 352,9 118,6 383,9 128,6 Нв и аь Таблица В.5 Значения И и а. при разной термической обработке ((%'')
сит не функциональный (детерминированный), а стохастиче- стохастический характер. Так, например, на рис. В.7 видно, что при каждом фиксированном значении твердости соответствующие значения предела прочности оь подвержены некоторому не- неконтролируемому разбросу. Более детальный профессионально-статистический анализ [90] приводит нас в данном случае к следующей схеме. На значения Нв и оь, так же как и на вид связи, сущест- существующей между ними, влияют следующие факторы: 1) химический состав плавки тх\ 2) термическая обработка со2; 3) особенности исследуемого образца — локальный хим- химсостав, размеры зерна в зоне отпечатка, локальная термиче- термическая обработка и т. п. со3; 4) погрешности измерения, связанные с приборами, уста- установкой образца и т. п. со4. Если величину твердости по Бринелю (Нв) обозначим ?, а соответствующую величину предела прочности (оь) л> то можно воспользоваться выражением, где роль неслучайных (структурных) компонент хну играют значения ? и г|, взятые для некоторой фиксированной плавки (сох) при некотором фиксированном режиме термической обработки (со2) и усред- усредненные по всевозможным комбинациям факторов со3 и со4 (их «наблюденные значения», полученные усреднением по пятнад- пятнадцати однородным плавкам, изображены на рис. В.7). Что касается остаточных случайных компонент гх и еу, то наличие каждой из них обусловлено в данном случае различиями в особенностях исследуемых образцов (фактор оK). При этом из наших определений следует, что Ее^. = Ееу = 0. Кроме того, специфика данной конкретной задачи такова, что мы вправе принять в качестве исходных предпосылок для даль- дальнейшего исследования следующие допущения: а) между структурными компонентами у и х имеется ли- линейная зависимость вида В. 15, причем коэффициенты 60 и 9lf вообще говоря, зависят от химического состава (от фактора coj), т. е. могут меняться при переходе от одной плавки к другой; б) пары случайных величин (ех, еу) не зависят друг от друга; в) при любых фиксированных сох и оJ (т. е. для любой фик- фиксированной плавки и при любом фиксированном режиме ее термической обработки) существуют дисперсии De^ и Dey; г) «общая» остаточная случайная компонента е = гу — — Э^я подчинена нормальному распределению, параметры которого не зависят от характера термической обработки (т. е. от фактора со2); 45
д) диапазоны изменения структурных компонент х и у во много раз превосходят практические диапазоны остаточных случайных компонент гх и еу (см. рис. В.7). Схема D2: исследуемые переменные I = (?<*>, ..., ?(р>)' и г| = (т]A), ..., rj(m))' случайны. Этот тип зависимости, неред- нередко встречающийся в практике статистических исследований, является в некотором смысле обобщением схемы Dx. Итак, под схемой D2 мы будем понимать такую схему за- зависимости, в которой исследуемые случайные переменные 5 и г| связаны соотношением (В.20), однако наблюдать мы их можем лишь с некоторыми случайными ошибками — соот- соответственно в? и гц. Поэтому экспериментальными данными (*ь Уд в действительности представлены выборочные значения случайных величин (е', г|'), где Б' = Е + <ч, V = л + ?л. (В.23) Обычно предполагают, что ошибки е^ и ел взаимно независи- независимы, но зависят от ? и ц и имеют нулевые математические ожи- ожидания (Ее^ = Еел = 0) и конечные дисперсии (Des <С оо De4 < оо). При этом оказывается, что корреляционные и регрессион- регрессионные характеристики схемы (Н\ ц') могут существенно отли- отличаться от соответствующих характеристик исходной (неис- (неискаженной) схемы (I, г\). Так, например, ниже (см. п. 1.1.4) показано, что наложение случайных нормальных ошибок на исходную двумерную нормальную схему (?, г|) всегда умень- уменьшает абсолютную величину коэффициента регрессии 6Х в соотношении (В. 15), а также ослабляет степень тесноты связи между ? иг| (т. е. уменьшает абсолютную величину коэффициен- коэффициента корреляции г"). Зависимости по схеме D2 имеют место, в частности, в за- задачах исследования хода технологических процессов, когда взаимосвязанные флюктуирующие значения параметров про- процесса (I и г\) могут быть измерены лишь с некоторыми случай- случайными ошибками. В.6. Основные этапы статистического исследования зависимостей Весь процесс статистического исследования интересующих нас зависимостей удобно разложить на основные этапы. Эти этапы ниже описаны в соответствии с хронологией их реали- реализации, однако некоторые из них находятся, в плане хроноло- хронологическом, в соотношении итерационного взаимодействия: ре- 46
зультаты реализации более поздних этапов могут содержать выводы о необходимости повторной «прогонки» (с учетом добы- добытой на предыдущих этапах новой информации) уже пройден- пройденных этапов (см., например, схему взаимодействия этапов 3,4, 5 и 6 на рис. В.8). Излагаемая ниже схема приспособлена в основном для исследования зависимостей между количествен- количественными переменными, однако с минимальными (и очевидными) модификациями она «работает» и при статистическом анализе связей между неколичественными и разнотипными перемен- переменными. Рис. В.8. Схема хронологически-итерационных взаимосвязей ос- основных этапов статистического исследования зависимостей Этап 1 (постановочный). Прежде всего исследователь дол- должен определить: 1) элементарную единицу статистического обследования, или элементарный объект исследования О (это может быть страна, город, отрасль, предприятие, семья, индивидуум, па- пациент, технологический процесс, сложное техническое "изде- "изделие и т. д.); 2) набор показателей (х{1\ х{2\ ..., х^р)\ у{1\ ..., у{т)), регистрируемых на каждом из статистически обследованных объектов, с подразделением их на «входные» (объясняющие) и «выходные» (результирующие) и, если это необходимо, с четким определением способа их измерения; таким образом, на этом этапе каждому элементарному объекту исследования ставится в соответствие перечень анализируемых показате- показателей, т. е. О «_ 3) конечные прикладные цели исследования (см. § В.2), тип исследуемых зависимостей (см. § В.5) и желательную фор- форму статистических выводов (а иногда и степень их точности); 4) совокупность элементарных объектов исследования, на которую мы хотим распространить справедливость действия вы- 47
явленных в результате анализа статистических зависимостей (если, например, элементарная единица — семья, то анализи- анализируемой совокупностью могут быть семьи определенной соци- социальной группы населения или семьи определенной республи- республики и т. д.); 5) общее время и трудозатраты, отведенные на планируе- планируемое исследование и коррелированные с ними временная про- протяженность и объем необходимого статистического обследова- обследования (какую часть анализируемой совокупности подвергнуть статистическому обследованию, производить статистическое обследование в статическом или динамическом режиме и т. д.). Заметим, что именно на этом этапе решаются задачи в) и 1, описанные в § В.1. В решении всех перечисленных вопросов первого этапа ис- исследования главную роль, бесспорно, должен играть «заказ- «заказчик», т. е. специалист той предметной области, для которой планируется проведение этого исследования. Этап 2 {информационный). Он состоит в проведении сбора необходимой статистической информации вида (В.1). При этом возможны две принципиально различные ситуации: 1) исследователь имеет возможность заранее спланировать выборочное обследование части анализируемой совокупно- совокупности — выбрать способ отбора элементарных единиц стати- статистического обследования (случайный, пропорциональный, рас- расслоенный и т. д., см., например, [14, п. 5.4.3]), хотя бы по ча- части объясняющих переменных х{1\ хB>, ..., х^р) назначить уровни их значений, при которых желательно произвести экс- эксперимент или наблюдения (условия активного эксперимента); 2) исследователь получает исходные данные такими, какими они были собраны без его участия (условия пассивного экспе- эксперимента). В любом случае «на выходе» этого этапа исследова- исследователь располагает исходными статистическими данными вида (В.1), т. е. каждому (i-му) из статистически обследованных элементарных объектов исследования О, поставлен в соответст- соответствие конкретный вектор характеризующих его «входных» и «выходных» показателей: О, ч—> (xll\ х\2\ .... *<*>; yll\ уГ, ..., */<">), i = 1,2, ... п. (здесь п — общее число статистически обследованных элемен- элементарных объектов, т. е. объем выборки). Таким образом, на этом этапе решается, в частности, задача 7 из § В 1. Говоря о проведении сбора статистических данных, мы не включаем сюда разработку методологии и системы показа- показателей отображаемого объекта: эта работа предполагает про- 48
фессионально-предметное (экономическое, техническое, ме- медицинское и т. д.) изучение сущности решаемых задач стати- статистического исследования зависимостей, поэтому относится к компетенции соответствующей предметной статистики (эко- (экономической и т. д.) и входит в задачи 1-го этапа исследований. Этап 3 (корреляционный анализ). Этот этап нацелен на решение задачи 2 (см. §В.1), он позволяет ответить на во- вопросы, имеется ли вообще какая-либо связь между исследуе- исследуемыми переменными, какова структура этих связей и как из- измерить их тесноту? Описанию методов, с помощью которых проводится такой статистический анализ, посвящены гл. 1—4. Поскольку перечисленные выше вопросы решаются с помощью вычисления и анализа соответствующих корреляционных характеристик, содержание этапа можно определить как про- проведение корреляционного анализа. Этап достаточно полно ос- оснащён необходимым математическим аппаратом и программным обеспечением, поэтому может быть почти полностью автомати- автоматизирован. Этап 4 (определение класса допустимых решений). Главной целью исследователя на этом этапе является определение об- общего вида, структуры искомой связи между Y и X, или, дру- другими словами, описание класса функций F, в рамках которо- которого он будет производить дальнейший поиск конкретного вида интересующей его зависимости (см. задачи а) и 3 в § В. 1). Чаще всего это описание дается в форме некоторого параметри- параметрического семейства функций / (X; 6), поэтому и этап этот назы- называют также этапом параметризации модели. Так, определив в примере В.1, что поиск зависимости среднедушевых семей- семейных сбережений уср от величины их среднедушевого дохода х мы будем производить в классе F = {60 + Qi*} линейных функций, мы тем самым завершили четвертый этап исследо- исследования (но конкретных числовых значений параметров 0О и 0Х мы к этому моменту еще не знаем). Следует отметить, что, являясь узловым, в определенной мере решающим звеном во всем процессе статистического ис- иследования зависимостей, этот этап в то же время находит- находится в наименее выгодном положении по сравнению с другими этапами (с позиций наличия строгих и законченных математи- математических рекомендаций по его реализации). Поэтому его реализа- реализация требует совместной работы специалиста соответствующей предметной области (экономики, техники, медицины и т. д.) и математика-статистика, направленной на как можно более глубокое проникновение в «физический механизм» исследуе- исследуемой связи. Подходам и методам проведения этого этапа ис- исследований посвящена гл. 6 данного издания. 49
Существует подход к исследованию моделей регрессии, не требующий предварительного выбора параметрического се- семейства функций F в рамках которого проводится дальней- дальнейший анализ. Речь идет о так называемых непараметрических (или частично-параметрических) методах исследования ре- регрессионных зависимостей, которым посвящена гл. 10. Одна- Однако возникающие при их реализации проблемы (необходимость иметь очень большие объемы исходных статистических дан- данных, выбор сглаживающих функций — «окон» и параметров масштаба, .выбор порядка сплайна, числа и положения «уз- «узлов» и т. п.) сопоставимы по своей сложности с проблемами, возникающими при реализации этапа 4. Следующие два этапа — 5-й и 6-й — связаны с проведе- проведением определенного объема вычислений на ЭВМ и реализуют- реализуются, по существу, параллельно. Этап 5 (анализ мульпгиколлинеарности предсказывающих переменных и отбор наиболее информативных из них.) Под яв- явлением мультиколлинеарности в регрессионном анализе по- понимается наличие тесных статистических связей между пред- предсказывающими переменными л;*1), х<2\ ..., х^р\ что, в част- частности, проявляется в близости к нулю (слабой обусловленно- обусловленности) определителя их корреляционной матрицы, т. е. матрицы размера р X р, составленной из парных коэффициентов кор- корреляции ги = г (х^\ jt('">) ([14, с. 155], а также гл. 1—3 дан- данного издания). Поскольку этот определитель входит в знаме- знаменатель выражений для ряда важных характеристик анализи- анализируемых моделей (см. гл. 7—11), то мультиколлинеарность со- создает трудности и неудобства при статистическом исследова- исследовании зависимостей по меньшей мере в двух направлениях: а) в реализации на ЭВМ необходимых вычислительных процедур и, в частности, в крайней неустойчивости получае- получаемых при этом числовых характеристик анализируемых моде- моделей (так, коэффициенты при объясняющих переменных в мо- моделях типа (В. 12), (В. 13) и др. могут изменяться в несколько раз и даже менять знак при добавлении (или исключении) к массиву исходных статистических данных одногб-двух объек- объектов или одной-двух объясняющих переменных); б) в содержательной интерпретации параметров анализи- анализируемой модели, что играет решающую роль в ситуациях, когда конечной целью исследования является цель типа 3 («выявле- («выявление причинных связей» и т. д., см. § В.2, соотношения (В.9) и (В.9')). Поэтому исследователь старается перейти к такой новой системе предсказывающих переменных (отобранных из числа исходных переменных л;A\ х{2\ ..., х{р) или представленных 50
в виде некоторых их комбинаций), в которой эффект мульти- коллинеарности уже не имел бы места. Этап проводится в ос- основном силами математиков-статистиков с подключением (в самом его конце) специалистов соответствующей предметной области для выбора из нескольких предложенных вариантов набора объясняющих переменных, наиболее легко и естест- естественно интерпретируемого. Рекомендации по проведению этого этапа даны в гл. 8. Этап 6 (вычисление оценок неизвестных параметров, вхо- входящих в исследуемое уравнение статистической связи). Итак, в результате проведения предыдущих этапов были решены, в частности, следующие задачи: а) определены результирующие и объясняющие перемен- переменные и тип исследуемой зависимости (В, С или D, см. § В.5); б) собрана и подготовлена к счету па ЭВхМ исходная ста- статистическая информация вида (В.1); в) изучены характер и теснота статистических (корреля- (корреляционных) связей между исследуемыми переменными; г) выбран класс допустимых решений F, т. е. класс (или параметрическое семейство) функций f (X), в рамках которо- которого будет подбираться наилучшая (в определенном смысле) аппроксимация f (X) искомой зависимости типа (В. 14), (В. 16) или (В.20). Теперь можно приступать к определению этой наилучшей аппроксимации f (X), которая является решением оптимиза- оптимизационной задачи вида T(X)=-argextrAn(f), (B.24) f(TF где функционал Дп (f) задает критерий качества аппроксима- аппроксимации результирующего показателя rj (или Y) с помощью функ- функции f (X) из класса F. Выбор конкретного вида этого функцио- функционала опирается на знание вероятностной природы остатков е в моделях типа (В. 14), (В. 16) и (В.21), причем он строится, как правило, в виде некоторой функции от невязок е(*\ ?<?>, ...,7W (k = 1, 2, ..., m), где 7^ = y(ki>-fW(Xi) (один из распространенных вариантов такого функционала, а именно функционал метода наименьших квадратов, упоминается в примере В.1, см. соотношение (В.7')). Если в качестве класса F задаются некоторым параметрическим семейством функций {.! (X; 6)}, то задача (В.24) сводится к подбору (статистиче- (статистическому оцениванию) значений параметров в, на которых до- достигается экстремум по в функционала An (f (X; G)), а со- 51
ответствующие модели называют параметрическими. Эта часть исследования хорошо оснащена необходимым математическим аппаратом и соответствующим программным обеспечением (см. гл. 7—10). Этап 7 (анализ точности полученных уравнений связи). Исследователь должен отдавать себе отчет в том, что найден- найденная им в соответствии с (В.24) аппроксимация f (X) неизвест- неизвестной теоретической функции fT (X) из соотношений типа (В. 14), (В. 16) или (В.21) (называемая эмпирической функцией регрес- регрессии, см. гл. 5) является лишь некоторым приближением ис- истинной зависимости fT (XI. При этом погрешность б в описа- описании неизвестной истинной функции fT (X) с помощью f (X) в общем случае состоит из двух составляющих: а) ошибки ап- аппроксимации бр и б) ошибки выборки б (/г). Величина пер- первой зависит от успеха в реализации этапа 4, т. е. от правиль- правильности выбора класса допустимых решений F. В частности, если класс F выбран таким образом, что включает в себя и не- неизвестную истинную функцию f (т. е. fT (X) ? F), то ошибка аппроксимации 6F = 0. Но даже в этом случае остается слу- случайная составляющая (ошибка выборки) б (/г), обусловлен- обусловленная ограниченностью выборочных данных вида (В.1), на ос- основании которых мы подбираем функцию f (X) (оцениваем ее параметры). Очевидно, уменьшить ошибку выборки мы мо- можем за счет увеличения объема п обрабатываемых выбороч- выборочных данных, так как при fT (X) ? F (т. е. при 6F = 0) и пра- правильно выбранных методах статистического оценивания (т. е. при правильном выборе оптимизируемого функционала каче- качества модели Дп (/)) ошибка выборки б (/г) -> 0 (по вероятно- вероятности) при п -> оо (свойство состоятельности используемой процедуры статистического оценивания неизвестной функции Соответственно на данном этапе приходится решать сле- следующие основные задачи анализа точности полученной ре- регрессионной зависимости: 1) в случае F = {/ (X; в)} и fT (X) ? F, т. е. когда класс допустимых решений задается параметрическим семейством функций и включает в себя неизвестную теоретическую функ- функцию регрессии fT (X), при заданных доверительной вероят- вероятности Р и объеме выборки п указать такую предельную *В дальнейшем, говоря о вектор-функции fT (X), вектор-погрешног сти 6 и векторе результирующих показателей Y (X), мы будем иметь в виду каждую из их компонент в отдельности. 52
(гарантированную) величину погрешности 8Р^п (9Л) для лю- любой компоненты неизвестного векторного параметра 0, что с вероятностью, не меньшей, чем Р (здесь 9,t — истинное значение k-\\ компоненты неизвестного параметра 9, а 0/с — его статистическая оценка); 2) при заданных доверительной вероятности Р, объеме выборки п и значениях объясняющих переменных X указать такую предельную (гарантированную) величину погрешности бр,„ (Гср (X)), что с вероятностью, не меньшей, чем Р (здесь Уср (X) — Е (т]|Х) — неизвестное условное среднее значение исследуемого резуль- результирующего показателя при значениях объясняющих пере- переменных, равных X, a f (X) — построенная в соответствии с (В.24) эмпирическая функция регрессии); 3) при заданных доверительной вероятности Я, объеме выборки п и значениях объясняющих переменных X указать такую предельную (гарантированную) величину погрешности бр.п (У (X)), что У (Х)~Г(Х)|<6/,.Л (/(*)) с вероятностью, не меньшей, чем Р (здесь У (X) — прогно- прогнозируемое индивидуальное значение исследуемого резуль- результирующего показателя при значениях объясняющих перемен- переменных, равных X). Описанию методов анализа точности исследуемых регрес- регрессионных моделей посвящена гл. 11 настоящего издания. Заметим в заключение, что часть исследования, объеди- объединяющая этапы 4, 5, 6 и 7, принято называть регрессионным анализом. ВЫВОДЫ I. Аппарат статистического исследования зависимостей — со- составная часть многомерного статистического анализа — наце- нацелен на решение основной проблемы естествознания: как на основании частных результатов статистического наблюдения за анализируемыми событиями или показателями выявить и описать существующие между ними стохастические взаимо- взаимосвязи. 53
2. Анализируемые переменные величины по своей роли в ис- исследовании подразделяются на результирующие (прогнози- (прогнозируемые) У и объясняющие (предсказывающие, или предиктор- ные) X. Среди компонент векторов У и X могут быть и коли- количественные, и порядковые (ординальные), и классификацион- классификационные (номинальные). 3. Центральным математическим объектом в процессе стати- статистического исследования зависимостей является функция f (Л"), называемая функцией регрессии У по X и описываю- описывающая, как правило1, изменение условного среднего значения Fcp(X) результирующего показателя У (вычисленного при фиксированных на уровне X значениях объясняющих пере- переменных) в зависимости от изменения значений объясняющих переменных X. 4. Конечные прикладные цели статистического исследования зависимостей могут быть в основном трех типов: 1) установ- установление самого факта наличия (или отсутствия) статистически значимой связи между Ки X, исследование структуры этих связей; 2) прогноз (восстановление) неизвестных значений индивидуальных или средних значений результирующего показателя по заданным значениям соответствующих объяс- объясняющих (предикторных) переменных; 3) выявление причин- причинных связей между объясняющими переменными X и резуль- результирующими показателями У, частичное управление значения- значениями У путем регулирования величин объясняющих перемен- переменных X. 5. Разделы многомерного статистического анализа, состав- составляющие математический аппарат статистического исследова- исследования зависимостей, формировались и развивались с учетом специфики анализируемых моделей, обусловленной в первую очередь природой исследуемых переменных. Так, изучение зависимостей между количественными переменными обслужи- обслуживается регрессионным и корреляционным анализами и анали- анализом временных рядов (гл. 1 —12, 14), изучение зависимостей количественного результирующего показателя от неколичест- неколичественных или разнотипных объясняющих переменных — диспер- дисперсионным и ковариационным анализами, моделями типологи- типологической регрессии (гл. 13); для исследования зависимостей в условиях активного эксперимента служит теория оптималь- оптимального планирования экспериментов [2, 3, 136]; наконец, для исследования системы зависимостей, в которых одни и те же *В общей постановке задачи функция f (X) может описывать пове- поведение и других условных характеристик места группирования наблю- наблюдений результирующего признака т] (X), например условной медианы. 54
переменные в разных уравнениях этой системы могут одно- одновременно выполнять и роль результирующих, и роль объяс- объясняющих, служит теория систем одновременных эконометри- ческих уравнений (гл. 14). Аппарат исследования зависимо- зависимостей неколичественных или разнотипных результирующих показателей от количественных или разнотипных объясняю- объясняющих переменных в книге не рассматривается. 6. К основным типовым задачам практики, в которых исполь- использование аппарата статистического исследования зависимостей оказывается наиболее уместным и эффективным, следует от- отнести задачи: 1) нормирования; 2) прогноза, планирования и диагностики; 3) оценки труднодоступных (для непосредст- непосредственного наблюдения и измерения) характеристик исследуемой системы; 4) оценки эффективности функционирования (или качества) анализируемой системы; 5) регулирования пара- параметров функционирования анализируемой системы. Все эти задачи являются основными составными частями центральной проблемы кибернетики — проблемы «управления, связи и пе- переработки информации» (см.: Математическая энциклопе- энциклопедия. Т. 2— М.: Советская энциклопедия, 1979, с. 850). 7. По своей природе исследуемые зависимости могут быть разделены на: 1) детерминированные (тип А), когда исследу- исследуется функциональная зависимость между неслучайными пере- переменными; 2) регрессионные (тип Б), когда исследуется за- зависимость случайного результирующего показателя от не- неслучайных объясняющих переменных — параметров систе- системы; 3) корреляционные (тип С), когда исследуется зависимость между случайными переменными, причем объясняющие пе- переменные могут быть измерены без искажений; 4) конфлюэнт- ные (типы Dt и D2), когда исследуется функциональная за- зависимость между случайными или неслучайными переменны- переменными в ситуации, когда те и другие могут быть измерены только с некоторой случайной ошибкой. 8. Весь процесс статистического исследования зависимостей может быть разбит на семь последовательно реализуемых ос- основных этапов, хронологический характер связей кото- которых дополняется связями итерационного взаимодействия (см. рис. В.8): этап ! (постановочный); этап 2 (информацион- (информационный); этап 3 (корреляционный анализ); этап 4 (определение класса допустимых решений); этап 5 (анализ мультиколлине- арности предсказывающих переменных и отбор наиболее ин- информативных из них); этап 6 (вычисление оценок неизвестных параметров, входящих в исследуемое уравнение статистиче- статистической связи); этап 7 (анализ точности полученных уравнений связи). 55
Раздел I. АНАЛИЗ СТРУКТУРЫ И ТЕСНОТЫ СТАТИСТИЧЕСКОЙ СВЯЗИ МЕЖДУ ИССЛЕДУЕМЫМИ ПЕРЕМЕННЫМИ (корреляционный анализ) Имеется ли вообще какаях-либо связь между исследуемыми пе- переменными, какова структура этих связей и как измерить их тесноту? — эти вопросы исследователь ставит перед собой уже на ранней стадии статистического исследования зависимостей (см. описание этапа 3 в § В.6). В частности, исследователь должен уметь: а) выбрать (с учетом специфики и природы анализируемых переменных) подходящий измеритель статистической связи (индекс или ко- коэффициент корреляции, корреляционное отношение, какую- либо информационную характеристику связи, ранговый ко- коэффициент корреляции и т. п.); б) оценить (с помощью точеч- точечной и интервальной оценок) его числовое значение по имею- имеющимся выборочным данным; в) проверить гипотезу о том, что полученное числовое значение анализируемого измерителя связи действительно свидетельствует о наличии статистиче- статистической связи (или, как говорят, проверить исследуемую корре- корреляционную характеристику на статистически значимое ее отличие от нуля); г) проанализировать структуру связей между компонентами исследуемого многомерного признака, снабдив проведенный анализ специальным плоским геометри- геометрическим представлением исследуемой структуры, в котором компоненты (переменные) изображаются точками, а связи ме- между ними — соединяющими их отрезками (см. рис. 4.1 и 4.2). Описанию методов и моделей, цривлекаемых для решения всех тих вопросов, и посвящен данный раздел. Глава 1. анализ тесноты связи МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ 1.1. Анализ парных связей 1.1.1. Понятие индекса корреляции. Прежде чем приступать к исследованию конкретного вида связей между рассматривае- рассматриваемыми переменными, т. е. к оценке неизвестных параметров В в соотношениях типа Е(т]|Х)=-/(Х; В), A.1) 50
следует выяснить, существует ли вообще эта связь, и, в слу- случае положительного ответа, попытаться установить степень тесноты этой связи. Во введении (§ В.5) описаны различные типы зависимо- зависимостей, которые могут наблюдаться между исследуемыми пере- переменными. Умение правильно классифицировать каждую кон- конкретную многомерную систему наблюдений играет решающую роль при выборе соответствующих математико-статистических методов поиска изучаемой зависимости и при ее неформаль- неформальной, физически содержательной интерпретации. Однако в данном пункте в целях унификации подхода к ре- решению исследуемой в этой главе задачи мы временно прибег- прибегнем к некоторому формальному обобщению рассмотренных ранее схем В, С и D. В частности, будет предложен подход, при котором во всех вышеупомянутых схемах зависимостей исследуемая независимая переменная интерпретируется как случайная переменная (параметр) ?, от которой зависит за- закон условного распределения зависимой переменной к\. Итак, при каждом фиксированном значении ? *=? X рас- распределение зависимой переменной rj (X) задается плотно- плотностью1 ср (К|Х), зависящей от X. Соответственно будут зависеть от X и математическое ожидание Ег\ (X) == Е (т]|Х) = / (X), и дисперсия Dt] (X) = D (ц\Х) =. o2h2 (X). Природа же ис- исследуемой многомерной схемы, т. е. тип искомой зависимости, будет определяться спецификой частного закона распределе- распределения наблюдаемой независимой переменной ?. Очевидно, в схеме В (наблюдения производятся в фикси- фиксированных точках Xlt ..., Хп без случайных ошибок в регистра- регистрации независимой переменной) случайную величину | следует рассматривать как дискретную с областью мыслимых значе- значений В — {Х1у Х2, ...» Хп} (не исключается возможность пов- повторения одинаковых значений ? в этом ряду) и с частным за- законом распределения г|) (X), задаваемым вероятностями 4>(*i) = M>(*2)=*... «*(*«)= 1/я. В схеме Dx плотность г|> (X) частного распределения опре- определяется, помимо набора наблюдаемых абсцисс Хь Х2, ..., Хп, законами распределения ошибок измерения е*. Если k (k ^ п) — число различных уровней X?, Х5,..., XI струк- структурной компоненты X, при которых снимались эксперимен- хВсе наши рассуждения остаются в силе и для дискретных случай- случайных величин т] (X); при этом лишь надо заменить условные плотности Ф (V| X) на соответствующие условные вероятности ф (У^|Х), где Yo( — возможные значения исследуемого результирующего показателя. 57
тальные данные (Хи ух), (Х2,у2), ..., (Хп,//Г1), а% (X) — плот- плотность распределения ошибки е^о, то где //,- — число наблюдений, произведенных «на уровне» = Л/ . В схемах С и D2 объясняющие наблюдаемые переменные соответственно ? и ?' по своей природе случайны, следователь- следовательно, им также соответствует некоторая плотность частного распределения \р (X). Если рассмотреть случай единственного результирующего показателя ц и мысленно спроектировать все точки исследуе- исследуемой многомерной системы на ось его возможных значений Оу, то получим выборку из одномерного закона с плотностью Ф (//), характеризующего вероятностную природу безусловной случайной величины г\. При такой интерпретации очевидно, что плотность частного (безусловного) распределения ср (у) получается как смесь соответствующих условных плотностей Ф (у\ X), а именно: ср (у) = { ср (у \ X) \р (X) (IX (в схеме В п ф (у) ™ 2ф (У I Xi) У (^i)l B Дальнейшем при усреднении по г() (X) мы не будем специально оговаривать случай схемы В, подразумевая переход от интегрирования по X к суммиро- суммированию по Xi). Соответственно в нашем дальнейшем изложе- изложении будут участвовать характеристики of == D/ (|) = j (f (X) - E/ (?)J г|. (X) dX; В - f a2 Л2 (X) if (X) dX. В j В E [a2 Рассмотрим, например, частный случай схемы С, когда вектор исследуемых показателей )=--AA) ?(р>; п(|)..... л""»)' A.2) 58
— (p + т)-мерная нормальная случайная величина [14, с. 173], и пусть М^ = Е?, Мл = Ет] — соответственно векторы средних значений объясняющих переменных | = (?A\ ?(р))' и результирующих показателей г| = (г|A>, ..., r|(m))', a 2gS, 26л и 2ЧТ1 — ковариационные матрицы [14, с. 138] соответственно векторов ?, ? и т], т]1. Тогда можно показать (см., например, [20, с. 451), что условное распределе- распределение вектора результирующих показателей ц = (т]A>, ..., r}(m))' при условии, что значения объясняющих перемен- переменных зафиксированы на уровне X = (хA), ..., xip))' (т. е. при условии ? = X), также нормально с условным средним зна- значением E(t||g=X) = MT|+STl6S6V(^-M6) A.3) и ковариационной матрицей Е {ft- Щ) (л-М,,)' U = X} = 2ЛТ| - Ел| 2Бу 26т|. A.4) Из A.3) и A.4), в частности, следует: а) функция f (X) = Е (tj | ? = X) регрессии г] по | при совместном нормальном законе распределения исследуемых показателей линейна по X; б) ковариационная матрица условного распределения век- вектора результирующих показателей ц (X) = (tj | ? = X) не за- зависит от X; в) если рассматривается парная регрессионная зависимость, т. е. зависимость единственного результирующего показате- показателя т] от единственной объясняющей переменной 1- в схеме С, причем распределение случайной величины (?, ц) подчиняет- подчиняется двумерному нормальному закону, то условное распределе- распределение случайной величины tj (а:) = (т\ | g == x) тоже нормально с условным средним значением (функцией регрессии) = mt|+ г^(х-тг) A.3') и с дисперсией -ra) A.4') ковариационные матрицы 2^, 2^, 2^ и 2^ получаются из общей ковариационной матрицы 2 вектора (|) ее разбиением на блоки B 2 \ U Si | Соответственно размерности ма- триц 2IV SgTJ, 2n& и 2лл будут: рХр,рХтутХрнтХт. 59
(здесь mi и тц — средние значения соответственно объяс- объясняющей переменной | и результирующего показателя г|, а| и а^ — их дисперсии, а г — коэффициент корреляции между ними, см., например, [14, гл. 5]). Будем рассматривать в дальнейшем (если специально не оговорено противное) случай единственного результирующего показателя, т. е. случай т = 1. Итак, величина о^ = Dx\ характеризует полную вариа- вариацию (дисперсию) исследуемого результирующего показателя х\ч в то время как of = D/ (|) определяет дисперсию функции регрессии уср = / (х), о{](х) — усредненную (по различным значениям ?*) величину условной дисперсии D (ц\% = х), т. е. среднюю величину дисперсии неконтролируемой оста- остаточной случайной компоненты е (см. соотношения (В. 14), (В.16), (В.21)). Воспользовавшись соотношением Bв.3.6) из 1117, с. 94), получим следующее полезное соотношение, связывающее три вышеупомянутые меры случайного разброса: о$= of +<J^ <*)• С1-5) Это означает, что полная вариация исследуемой зависимой переменной складывается из контролируемой нами вариации функции регрессии и из не поддающейся нашему контролю вариации остаточной случайной компоненты. Очевидно, связь между т] и 5 в соотношениях (В. 14), (В. 16), (В.21) и т. п. бу- будет тем теснее, тем определеннее, чем менее «размазанными» окажутся участвующие в них остаточные неконтролируемые оо случайные компоненты е (X), г и е;/ + 2 Ц—e.r)v/v!] /M (?). v=i Можно, в частности, задаться вопросом: какая доля степени изменчивости интересующего нас зависимого признака (т. е. какая доля дисперсии а?) обусловливается изменчивостью описывающей его функции независимой переменной / (?) (т. е. ее дисперсией of)? Так мы приходим к понятию наиболее об- общей характеристики степени тесноты связи между ц и ? — индекса корреляции /п.?, где Из A.5) и A.6) непосредственно следует, что 0 ^ /n.? ^ 1. При этом минимальное значение индекса корреляции (/л.? == = 0) соответствует полному отсутствию варьирования / (?) 60
с изменением ? (af =• 0), а это означает полное отсутствие ка- какого-либо влияния | на г), т. е., как говорят, отсутствие кор- корреляционной связи между результирующим показателем ц и объясняющими переменными ?. В то же время максимальное значение индекса корреляции (/^.g =1) соответствует полному отсутствию варьирования остаточной случайной компоненты (о^х) = 0). А поскольку среднее значение остаточной случайной компоненты равно нулю, то она практически исчезает из разложений (В. 14), (В. 16), (В.21). Это означает наличие чисто функциональной связи между г\ и ? и, следовательно, возможность детермини- детерминированного восстановления значений ц по соответствующим зна- значениям объясняющих переменных i. Таким образом, введенный с помощью A.6) индекс корре- корреляции /л.? между результи-рующим показателем ц и объяс- объясняющими переменными ? формально определен для любой дву- двумерной системы наблюдений. Квадрат его величины (I^.i) показывает, какая доля дисперсии исследуемого результирую- результирующего показателя rj определяется (детерминируется) изменчи- изменчивостью (дисперсией) соответствующей функции регрессии / от аргумента ?, поэтому часто называется коэффициентом де- детерминации. Соответственно оставшаяся доля дисперсии г\ (т. е. 1 — 1ч\-ъ) объясняется воздействием неконтролируемой случайной остаточной компоненты («помехи»), а следователь- следовательно, определяет ту верхнюю границу точности, с которой мы сможем восстанавливать (предсказывать) значения rj по за- заданным значениям объясняющих переменных ?. Наилучшие методы построения статистической оценки /^.t для неизвестного теоретического значения индекса кор- корреляции 1ц.1У так же как и различные варианты его интер- интерпретации, зависят от ряда исходных предпосылок каждой кон- конкретной двумерной схемы (общий вид функции / (?), вид рас- распределения многомерной случайной величины (?, г\) и т. п.). Описание их поэтому дается ниже отдельно для каждого из некоторых специальных частных случаев. 1.1.2. Коэффициент корреляции как измеритель степени тес- тесноты связи в двумерных нормальных схемах. Пусть исследует- исследуется парная зависимость между случайными переменными t] и ? типа С (или между г\ и ?' типа D), см. § В.5. Предполо- Предположим, что имеющиеся в нашем распоряжении результаты на- наблюдения (xlt ух), (х2, у2), ..., (хп, уп) представляют собой вы- выборку из двумерной нормальной генеральной совокупности (см. [14, с. 171]) В этом случае введенный ранее A.6) индекс Корреляции просто выражается через коэффициент корреля- 631
ции г, участвующий в записи уравнения соответствующей дву- двумерной нормальной плотности. Воспользовавшись соотноше- соотношением A.6) с учетом A.4'), получаем /л.8 = г. A-7) С помощью непосредственных вычислений, опирающихся на формулу для плотности двумерного нормального закона, можно показать, что Е[(?-ЕЕ)(тт- Ел)] ^ соу(?, л) (J8) где ковариация cov (?, rj) — второй центральный смешанный момент двумерной случайной величины (?, т\), а ог и оц — среднеквадратические (безусловные) отклонения соответст- соответственно компонент ? и г\. Величина г, определенная соотноше- соотношением A.8), называется коэффициентом корреляции1 и характе- характеризует (в силу A.7)) степень тесноты связи между случайны- случайными компонентами ? и rj. При этом лишь в данном частном слу- случае характеристика степени тесноты связи симметрична от- относительно переменных ? и rj (т. е. r^ = r^t) и имеет под- поддающийся содержательной интерпретации знак «плюс» или «минус». Положительность коэффициента корреляции г оз- означает одинаковый характер тенденции взаимосвязанного изменения случайных компонент ? и ц: с увеличением I мы наблюдаем тенденцию увеличения соответствующих индиви- индивидуальных значений ц и, следовательно, увеличивается услов- условное математическое ожидание Е (г\\1 = х). Отрицательное значение г говорит о противоположной тенденции взаимосвя- взаимосвязанного изменения компонент ? и г| (с увеличением ? умень- уменьшается Е (ц 11 = А'). Выборочное значение г коэффициента корреляции (т. е. статистическая оценка г неизвестного значения г) подсчиты- вается по исходным статистическим данным (х1у ух)у (х2У у2)> ..., (*п, Уп) по формуле 2 U-*)(</*-!/) Т '^ , A.8') 1 *П аВ ситуациях, когда наряду с г рассматриваются частные (см. п. 1.2.2) и мноокхственные (см. п. 1.3.2) коэффициенты корреляции, его называют парным коэффициентом корреляции. 62
где*- -^2ХгИ *"т2 /- 1 /=---1 Определенные соотношениями A.8) и A.8') соответствен- соответственно теоретический и выборочный коэффициенты корреляции могут быть формально вычислены для любой двумерной систе- системы наблюдений; они являются измерителями степени тесно-* ты линейной статистической связи между анализируемыми при- признаками. Однако только в случае совместной нормальной рас- пределенности исследуемых случайных величин \ и г\ коэффи- коэффициент корреляции г имеет четкий смысл как характеристика степени тесноты связи между ними. В частности, в этом, слу- случае соотношение |г| — 1 подтверждает чисто функциональ- функциональную линейную зависимость между исследуемыми величинами, а уравнение г = О свидетельствует об их полной взаимной не- независимости. Кроме того, коэффициент корреляции вместе со средними и дисперсиями случайных величин | и rj составляет те пять параметров, которые дают исчерпывающие сведения о стохастической зависимости исследуемых величин, так как однозначно определяют их двумерный закон распределения (см. [14, с. 171, формула F.9)]). Во всех же остальных случаях (распределения ? и ц от- отклоняются от нормального, одна из исследуемых величин не является случайной и т. п.) коэффициент корреляции можно использовать лишь в качестве одной из возможных характе- характеристик степени тесноты связи. При этом, несмотря на то, что в общем случае пока не предложено характеристики линей- линейкой связи, которая обладала бы очевидными преимущества- преимуществами по сравнению с г, его интерпретация часто оказывается весьма ненадежной. Если же априори допускается возможность отклонения от линейного вида зависимости, то можно постро- построить примеры, когда, несмотря на г = 0, исследуемые пере- переменные оказываются связанными чисто функциональным соот- соотношением (следовательно, /2 = 1). Поэтому о величинах, для которых г = 0; обычно говорят, что они некоррелированы, и только после дополнительного статистического и профессио- профессионального анализа (исследование степени отклонения распре- распределения рассматриваемых величин от нормального и т. п.) можно сказать, следует ли отсюда их независимость. И, на- наоборот, из высокой степени коррелированности величин при сильных отклонениях распределения \ и г) от нормального еще не следует их столь же тесная зависимость. Приведем пример. На рис. 1.1, а представлены данные, характеризующие численность населения | и соответствую- 63
щее число телевизионных точек г\ в девяти городах США— Денвере, Сан-Антонио, Канзас-Сити, Сиэтле, Цинциннати, Буффало, Нью-Орлеане, Милуоки, Хьюстоне1. По формуле A.8') получаем, что коэффициент корреляции г = 0,403; это при п = 9 свидетельствует о весьма малой сте- степени коррелированности ? и ц. Если же к этим данным при- присовокупить соответствующие сведения о Нью-Йорке (х10 = 802; у10 = 345, см. рис. 1.1,6), то объем выборки увеличивается 7], dec.ты с. 7}}дес.тыс. \ 30 10 - - S « а • у'. » • 300 200 то 30 50 70S;, dec. ты С. 400 600 800$,дес.гпыс. Рис. 1.1. Корреляционное поле, характеризующее связь между численностью населения ? и числом установленных телевизи- телевизионных точек т) в США в 1953 г.: а) в девяти городах; б) в десяти городах на единицу (п = 10), а соответственно пересчитанный коэф- коэффициент корреляции г = 0,995. Дело здесь в том, что послед- последнее (десятое) наблюдение является «аномальным», резко вы- выделяющимся, так что всю совокупность наблюдений мы уже не можем считать выборкой из одной и той же нормальной ге- генеральной совокупности (в чем читатель сможет без труда убедиться, воспользовавшись одним из приемов, описанных в [14, § 11.5]). И наконец, даже если удалось установить тесную зависи- зависимость между двумя исследуемыми величинами, отсюда еще не- непосредственно не следует их причинная взаимообусловленность. Например, при анализе большого числа наблюдений, относя- относящихся к отливке труб на сталелитейных заводах, была уста- установлена положительная корреляционная связь между време- временем плавки и процентом забракованных труб [101. Дать какое- либо причинное истолкование этой стохастической связи бы- было невозможно, а поэтому рекомендации ограничить продол- продолжительность плавки для снижения процента забракованных труб выглядели малосостоятельными. Действительно, спустя несколько лет обнаружили, что большая продолжительность 1См.: Мил л с Ф. Статистические методы. —М.: Госстатиздат, 1958. — 799 с. 64
плавки всегда была связана с использованием сырья специ- специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба эти фактора взаимно независимы. Таким образом, высокий коэффициент корреляции между продолжительностью плавки и процентом забракованных труб полностью обусловливался влиянием третьего, не учтен- учтенного при исследовании фактора — характеристики качества сырья. Если же этот фактор был бы с самого начала учтен, то никакой значимой корреляционной связи между временем плавки и процентом забракованных труб мы бы не обнаружи- обнаружили. За счет подобных эффектов (одновременного влияния не- неучтенных факторов на исследуемые переменные) может ис кажаться и смысл истинной связи между переменными, т. е., например, подсчеты приводят к положительному значению парного коэффициента корреляции, в то время как истинная связь между ними имеет отрицательный смысл. Такую кор- корреляцию между двумя переменными часто называют «ложной». Более детально подобные ситуации — обнаружение и исклю- исключение «общих причинных факторов», расчет «очищенных», или частных, коэффициентов корреляции и т. п. — исследуют методами многомерного корреляционного анализа (см. § 1.2). Такого рода недоразумения с причинным толкованием ста- статистических связей наиболее вероятны в ситуациях, когда ис- исходными статистическими данными являются показатели ра- работы действующего предприятия. Их обычно удается свести к минимуму при получении данных из искусственно постав- поставленного эксперимента. Выборочное значение коэффициента корреляции в приме- примере В.З между процентом забракованного стекла и соответст- соответствующей величиной вакуума в печи для его отжига г — —0,6551. Оно, по-видимому, свидетельствует о наличии определенной зависимости между исследуемыми переменными. Однако ут- утверждать, что повышение вакуума в печи причинно обусловли- обусловливает понижение процента брака, преждевременно: предвари- предварительно следует провести дополнительный профессионально- 1г1ри подсчетах, связанных с примером В.З, здесь и в дальнейшем пользуемся данными, соответствующими рис. В.6. При этом диапазон независимой переменной (т . е. диапазон значений вакуума в печи) раз- разбиваем на шесть равных интервалов шириной 0,5: п = 43; k — 6; т1 = = 3; т2 = 4; т3 = 8; т4 = 13; тъ = 11; те — 4. Далее воспользу- воспользуемся и разбиением диапазона зависимой переменной ц (процента за- забракованного стекла): от 1,5 через 0,5 до 4,5%, так что и число интер- интервалов группирования по вертикальной оси (ky) в данном случае также ршно шести. 3 Зак. 244 65
статистический анализ, в частности выяснить, нет ли в тех- технологических условиях данного эксперимента неучтенного фактора, изменения которого одновременно приводили бы к повышению вакуума и понижению брака производства. Замечания о необходимости известной осторожности при толковании корреляционной связи никоим образом не обесце- обесценивают желательность проверки значимости любого кажуще- кажущегося соотношения. При этом следует использовать характери- характеристики степени тесноты связи: коэффициента корреляции г и корреляционного отношения р (см. ниже). Но не всегда зна- знание этих характеристик оказывается достаточным для получе- получения информации о степени тесноты физической связи между исследуемыми переменными и тем более об их причинной вза- взаимообусловленности. 1.1.3. Распределение выборочного коэффициента корреляции и проверка гипотезы о статистической значимости линейной связи. Какую величину выборочного коэффициента корреля- корреляции следует считать достаточной для статистически обосно- обоснованного вывода о наличии корреляционной связи между ис- исследуемыми переменными? Ведь надежность статистических характеристик, в том числе и л, ослабевает с уменьшением объема соответствующей выборки, а потому принципиально возможны случаи, когда отклонение от нуля полученной вели- величины выборочного коэффициента корреляции г оказывается статистически незначимым, т. е. целиком обусловленным не- неизбежным случайным колебанием выборки, на основании ко- которой он вычислен. Ответить на этот вопрос помогает знание закона вероятностного распределения г. В случае совместной нормальной распределенности исследуемых переменных и при достаточно большом объеме выборки п распределение г мож- можно считать приближенно нормальным со средним, равным „ О—'2J своему теоретическому значению г и дисперсией агг = - - [10, с. 104]. Однако следует учитывать, что при малых значе- значениях п и г, близких к ± 1, это приближение оказывается очень грубым. Кроме того, при малых п следует принимать во вни- внимание, что величина г является смещенной оценкой своего теоретического значения г, в частности Ег = г — [г A — г2)]/2л. Относительно хорошая степень приближения нормально- нормального распределения при малых значениях \г\ позволяет полу- получить простой критерий проверки гипотезы г = 0, т. е. гипо- гипотезы об отсутствии корреляционной связи между исследуе- 66
мыми переменными. Используется тот факт, что величина /(О (п — 2) == . при условии г = 0 распределена по закону Стьюдента сд-2 степенями свободы (см., например, [117, с. 181]. Поэтому если окажется, что — г2 A.9) (здесь /0|05 (п — 2) — 5%-ная точка распределения Стьюден- Стьюдента с п — 2 степенями свободы), то гипотеза об отсутствии кор- корреляционной связи принимается. Используем этот критерий для исследования значимости корреляционной связи в приме- примере В.З: /<о = 7,3; /о.об D1) = 1,68; так что гипотеза об от- отсутствии корреляционной связи между процентом забрако- забракованного стекла и вакуумом в печи для его отжига должна быть отвергнута. Доверительные интервалы для истинного значения коэф- коэффициента корреляции г можно построить из нормальной рас- пределенности г. Концы интервала \г1у г2\ можно вычислять по приближенной формуле f Здесь иа/2> в соответствии с ранее введенными обозначе- обозначениями, — ЮОх- %-ная точка стандартного @, 1)-нормального распределения, так что истинное значение коэффициента кор- корреляции г с доверительной вероятностью 1 — а принадлежит интервалу [гь г2\. Однако использование формулы A.10) со- сопряжено со следующими оговорками: истинное значение ко- коэффициента корреляции не должно быть близким к ± 1; об- общее число наблюдений п должно быть достаточно велико; ве- личина г в поправке к «смещению» г (т. е. в выражении — ) и в дисперсии а2г заменена ее приближенным (выборочным) значением г. Избавиться от этих ограничений позволяет сле- следующее преобразование, предложенное Р. Фишером (см., на- например, [117, с. 3831: « = J-ln J-±2L. A.11) 2 i -? 67
Он показал, что величина z, определенная соотношением A.11), уже при небольших п с хорошим приближением следует нормальному закону со средним Ez ^ - In- + ^ г-. и дисперсией Dz — -^rr- Это позволяет построить довери- доверительный интервал [zlf z2] для Ez по формуле ¦In 1 + Г -r- ~ _7 у^Гз 2 («-I) - arcth ?=F—H , у;ггз 2(n-i) откуда следует, что истинное значение коэффициента корреля- корреляции г с той же доверительной вероятностью 1 — а заключено в пределах thz, <r <thz2. A.12) Здесь th z — это тангенс гиперболический от аргумента z (определяется с помощью соотношения th z — (ez — е—z)! /(ez + e~2)). Соответственно функция, определяющая величи- величину z с помощью соотношения A.11), это есть функция, обрат- обратная к тангенсу гиперболическому; так что часто вместо z — ^ In —— пишут z — arcth г (или z = th-1 г). Нахожде- ние z по данному значению г и, наоборот, определение г по заданной величине z производится с помощью табл. П. 7, в которой в крайних столбцах (левом и правом) приведены зна- значения |г|, а между ними — соответствующие значения |z| — =^ arcth \r\ (знаки у аргумента и функции совпадают, так что если, например, г отрицателен, то и соответствующее значе- значение z = arcth r также отрицательно). Так, задавшись 95%-ной доверительной вероятностью в примере В.З, находим z.s= arcth (—0,655)- —— ¦ = — 1,07; 1 V ; 40 2,42 68
С помощью табл. П.7 находим: th zx = —0,79; th z2 == = —0,44, так что с вероятностью 0,95 имеем — 0,79 <С г <; < —0,44. Использование z — преобразованной величины г — ока- оказывается более предпочтительным и при проверке значимое!и корреляционной связи, когда число наблюдений п мало. При построении доверительных интервалов для коэффи- коэффициента корреляции, так же как и при проверке статистической значимости корреляционной связи, можно пользоваться спе- специальными таблицами и графиками, в частности номограммой, изображенной на рис. 1.2. Так, для построения доверительного интервала с помощью приведенных на рис. 1.2 номограмм следует отложить значе- значение выборочного коэффициента корреляции г на горизонталь- горизонтальной оси и провести через эту точку вертикальную прямую. Ординаты г, и г2 (^ < г2) пересечения этой вертикальной прямой с двумя кривыми, над которыми надписан объем ис- используемой выборки, и являются граничными точками иско- искомого доверительного интервала, т. е. гх < г <г2. Рис. 1.2, а дает решение поставленной задачи с доверительной вероят- вероятностью Р = 0,95, а рис. 1.2, б — с доверительной вероят- вероятностью Р = 0,99 Критерий однородности двух или нескольких выборочных коэффициентов корреляции. Пусть по выборкам объемов пг и п2 из каких-то двух нормальных генеральных совокупно- совокупностей получены выборочные значения коэффициентов корре- корреляции г<1> и лB). Можно ли признать различие в значениях лA> и г<2> статистически значимым или же это различие обуслов- обусловлено случайными колебаниями выборок, следовательно, по- полученные величины гA> и гB) не противоречат гипотезе о том, что две рассмотренные генеральные совокупности имеют один и тот же теоретический коэффициент корреляции? Для статистической проверки этих предположений исполь- используется факт приближенной @, 1)-нормальной распределенно- сти статистики (справедливый лишь в предположении истин- ноет и гипотезы об однородности г^1) и г<2)) 7==B<П ~21*>I л/ —Ц / Г п\~': о — 3 где z(/> (i = 1, 2) подсчитываются по формуле A.11) соот- соответственно отдельно по первой (i = 1) и по второй (/ ~ 2) выборкам. 69
цо ,7 -,& -,5 -f4 -}3 -,2 -,1 0 +,1 +,2 +,3 *,» +,5 +,6 +,7 +,8 +,9 1,0 +,9 ««. +; -1,0 1 ¦1,0 -,9 -,S -,7 -,6 -j5-,4 -гЗ -Л2 -, Шкала Отборочного коэффициента корреляции р Рис. 1.2. Номограмма для построения доверительных интервалов для выборок с доверительной вероятностью: а) Р = 0,95; б) Р = 0,99 В частности, если оказалось, что |у| > иа, то различие  между гA> и гB> признается статистически значимым (с уров- уровнем значимости а). Пусть теперь г(|), г{2\ ..., /•<''*> — /г коэффициентов корре- корреляции, полученных по выборкам объемов пь п2, .... п^ из k каких-то нормальных генеральных совокупностей. Можно ли считать, что, несмотря на видимые различия в значениях выборочных коэффициентов корреляции гA), лB), ..., г(*\ значение теоретического коэффициента корреляции г остается одним и тем же во всех обследованных генеральных совокуп- совокупностях? Если допустить справедливость утвердительного от- ответа на поставленный вопрос, то статистика 70
-1.0 -9 -В -.7 -,В -5 -4 -3 -,2 -,/ -1,0 -10 -Т3 -,В -,7 -,В -,5 -,4 -,3 -,2 -J О +,/ +,2 +,3 +,4 Шкала Выборочного коэффициента корреляции г истинного значения коэффициента корреляции при различных объемах A.13) должна приближенно подчиняться ^-распределению с k — I степенью свободы (здесь г('">, как и прежде, подсчитываются отдельно по каждой отдельной выборке по формуле (l.ll)). Поэтому если окажется, что подсчитанное по формуле A.13) значение х2 >%а {k — I), где Ха (k — 1)--величина 100а %- ной точки х2"Распределения с k — 1 степенью свободы (см. табл. П.4), то гипотеза об однородности выборочных коэффи- 71
циентсв корреляции г<х\ г<2>, ..., г<Л> отвергается (с уровнем значимости а). В табл. 1.1 приводится пример вычислений по схеме опи- описанной процедуры (заимствован из [117, с. 386]). "— (\ 8 231 J Значение %2 - 4,4995 — ( '^ J = 1,0009 в данном при- мере оказалось существенно ^меньше 5%-ной точки ^-распре- ^-распределения с пятью степенями свободы (Хо,о5 E) = 11,07), так что следует признать непротиворечивость полученных выбо- выборочных значений коэффициентов корреляции @,318; 0,106; 0,253; 0,340; 0,116 и 0,112) с гипотезой об их однородности. Номер выборки @ 1 2 3 4 5 6 Сумма Объем вы- выборки ми- минус три (л.-З) 7 И 13 17 22 25 95 Выборочный коэффициент корреляции 0,318 0,106 0,253 0,340 0,116 0,112 0,3294 0,1064 0,2586 0,3541 0,1164 0,1125 Та (П-3J{1) 2,3058 1,1704 3,3618 6,0197 2,5608 2,8125 18,2310 блица 1.1 IS \ 2 (п-3)г{1) 0,7595 0,1245 0,8694 2,1316 0,2981 0,3164 4,4995 1.1*4. Влияние ошибок измерения на величину коэффициента корреляции. Пусть мы хотим оценить степень тесноты корре- корреляционной связи между компонентами двумерной нормаль- нормальной случайной величины (?, г|), однако наблюдать мы их можем лишь с некоторыми случайными «ошибками измерения» соответственно е& и е^ (см. схему зависимости D2 во введе- введении). Поэтому экспериментальные данные (xiy yt)y i = 1, 2, ..., л, — это практически выборочные значения искажен- искаженной двумерной случайной величины (?', г)'), где ?' = ? + + Ц ит] =т| -f en. Если предположить, что е^ и еп взаимно независимы, не зависят от | и rj, нормальны, имеют нулевые математические ожидания и конечные дисперсии соответствен- соответственно а? и а|, то двумерная случайная величина (?', г)') будет также подчиняться двумерному нормальному распределению. Однако, как легко подсчитать, параметры этого распределе- распределения и, в частнпгти коэффициент корреляции т' между ?' 72
и г)' будут соответственно отличаться от параметров исход- исходной двумерной схемы (?, т|). Действительно, в соответствии с основными правилами вычисления первых и вторых момен- моментов [14, гл. 5] получаем: A.14) Г =2 Из A.14), в частности, следует, что коэффициент корреля- корреляции признаков, на которые наложены ошибки измерения, всегда меньше по абсолютной величине, чем коэффициент корреляции исходных признаков. Другими словами, ошибки измерения всегда ослабляют исследуемую корреляционную связь между исходными переменными, и это искажение тем меньше, чем меньше отношения дисперсий ошибок к диспер- дисперсиям самих исходных переменных. Формула A.14) позволяет скорректировать искаженное значение коэффициента корреля- корреляции: для этого нужно либо знать «разрешающие» характери- характеристики измерительных приборов (и, следовательно, величины дисперсий ошибок о\ и о\), либо провести дополнительное исследование по их выявлению. 1.1.5. Измерение степени тесноты связи при нелинейной за- зависимости. При отклонениях исследуемой зависимости от линейного вида, как уже отмечалось, коэффициент корреля- корреляции г теряет свой смысл как характеристика степени тесноты связи. В этих случаях исследователь должен воспользоваться имеющимися у него двумерными выборочными данными (xi> #i)> (*2> #г)> •••» (хп> Уп) с целью построения оценок для определенной выше, в некотором смысле универсальной те- теоретической характеристики степени тесноты связи — индек- индекса корреляции /л.? (см. формулу A.6)). Способ построения таких оценок выбирается в зависимости от природы имеющих- имеющихся у нас выборочных данных и от характера некоторых до- дополнительных допущений. Корреляционное отношение. Наиболее привлекательной в этом смысле является ситуация, в которой характер выбо- выборочных данных (их количество, «плотность» расположения на плоскости) допускает их группировку по оси объясняющей 73
переменной и возможность подсчета так называемых «част- «частных» средних ординат уг внутри каждого (/-го) интервала груп- группирования. Пусть такое группирование данных произведено. При этом, как обычно, k — число интервалов группирования по оси абсцисс; m,- (i = 1, 2, ..., k) — число выборочных то- Щ чек, попавших в/-и интервал группирования; #/ = B УиIт1 — среднее значение ординат точек, попавших в i-и интервал группирования. Тогда, как легко понять, выборочным анало- аналогом (оценкой) введенной ранее дисперсии of будет величина где общее среднее y = Соответственно получаем оценку для /^.g в виде где выборочная дисперсия s? индивидуальных результатов наблюдения уи около общего среднего у вычисляется по фор- формуле ,• 1 • I Величину рл.? принято называть корреляционным от- отношением зависимой переменной ч\ по независимой перемен- переменной ?. Его вычисление не обременено никакими дополнитель- дополнительными допущениями относительно общего вида регрессионной зависимости A.1). Однако, в отличие от коэффициента корре- корреляции, корреляционное отношение несимметрично по отно- отношению к исследуемым переменным, т. е., вообще говоря, рл.? ф р|.л. Кроме того, корреляционное отношение, по определению, является величиной неотрицательной1, так как под ним подразумевается результат извлечения арифметиче- арифметического значения корня квадратного из р2. В остальном свойства корреляционного отношения во мно- многом похожи на свойства коэффициента корреляции. Из A.5) 1Иногда, в частности при монотонном характере регрессионной функции A.1), корреляционному отношению приписывают знак, сов- совпадающий со знаком первой производной этой функции. 74
и A.6), в частности, немедленно следует, что подобно коэффи- коэффициенту корреляции корреляционное отношение не может быть больше единицы. Из |р| = 1 следует наличие однозначной функциональной связи между г\ и ?, и, наоборот, однозначная функциональная связь между т| и ? свидетельствует о том, что |р| = 1. Далее, отсутствие корреляционной связи между к\ и ? означает, что условные средние yt сохраняют постоянное значение, равное общему среднему */, а потому рлд = 0. Наоборот, если Ря/? ^ 0» т0 У'1 = У* и» следовательно, частные средние yt не зависят от л;, т. е. соответствующая -линия регрессии па- параллельна горизонтальной оси. Отметим, что между рл/? и р|/л нет какой-либо простой зависимости. Некоррелированность т| с ? (т. е. равенство ну- нулю величины рч/$) не влечет за собой непосредственно некор- некоррелированности ? с т]. Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Допустим, например, что т| = ?2 и I принимает значения: —1, Ь и +1 с вероятностями 1/3 каждое. В этом случае рл/^ = 1, р6/л = 0 (в силу симмет- симметрии параболы относительно оси т| и симметричности распре- распределения I). Можно показать, что корреляционное отношение р не мо- может быть меньше абсолютной величины коэффициента корре- корреляции г, характеризующего зависимость между теми же пе- переменными. В случае линейной зависимости эти две характери- характеристики связи совпадают. Это позволяет использовать величину разности рл/? — г2 в качестве меры отклонения регрессион- регрессионной зависимости от линейного вида (см. п. 6.3.3). И наконец, все замечания относительно смысловой интер- интерпретации коэффициента корреляции г (в частности, о логиче- логическом соотношении понятий «корреляционная зависимость, связь между переменными, их причинная взаимообусловлен- взаимообусловленность») остаются в силе и для корреляционного отношения. Проверка гипотезы об отсутствии корреляционной связи* Какую величину корреляционного отношения можно при- признать статистически значимо отличающейся от нуля, т. е- достаточной для статистически обоснованного вывода о нали- наличии корреляционной связи между исследуемыми переменными? Ведь так же, как и в случае прямолинейного типа зависимости, принципиально возможны ситуации, когда отклонение от ну- ля полученной величины корреляционного отношения р яв- является статистически незначимым, т. е. обусловленным лишь 75
неизбежными случайными колебаниями выборки. Для по- построения соответствующего критерия воспользуемся фактом приближенной F (k — 1, п — &)-распределенности случайной величины k~] справедливым в предположении, что /71 .^ = 0 (или, что то же, рл.? = 0) и что условные распределения зависимой пе- переменной ц (х) при любом фиксированном х описываются нор- нормальным законом с постоянной дисперсией а2 (см., например, [65, с. 4011). Поэтому, если окажется, что n-k то гипотеза об отсутствии корреляционной связи между г) и 5 отвергается с уровнем значимости а (здесь, как и ранее, Va (k — 1, п — k)— 100а %-ная точка /'-распределения с чи- числом степеней свободы числителя k — 1 и знаменателя п — ky находится из табл. П.5). При выполнении обратного нера- неравенства значение корреляционного отношения рл.| призна- признается статистически незначимым, т. е. делается вывод об от- отсутствии корреляционной связи между т| и ?. Доверительные интервалы для истинного значения корреля- корреляционного отношения p4.s можно построить, опираясь на тот факт, что статистика приближенно подчиняется так называемому «нецентральному /'-распределению», который оказывается справедливым в пред- предположении (/ (х), а2)-нормальности случайных величин т| (х) и при любом отличном от нуля истинном значении корреля- корреляционного отношения рл.? = р. 76
Действительно, как известно (см., например, [14, гл. 6]), случайная величина F(vl9 v2; d)^ — у подчиняется нецентральному F-распределению с числами сте- степеней свободы числителя и знаменателя соответственно vx и v2 параметром нецентральности а, если ?1э ?2> ..., tVl, Yb 72» •••» 7v2 суть взаимно независимые нормальные случайные величины, обладающие одинаковыми дисперсиями, причем EYi = EY2 = ••• r^ Eyv8 = 0, a (El^ + (E^ + ...+(F^f = a. A.18) Намечая доказательство сформулированного выше утвер- ждения о статистике F (р) определенной формулой A.17), заметим, что в нашем случае в роли случайных величин ?г, грубо говоря, выступают значения }^тг (уг—у), а в роли случайных величин Yy = У и — значения уи — yt. Отметим также следующие соотношения, в справедливости (в некото- некоторых случаях приближенной) которых нетрудно убедиться: l 1 k—\ 1 n — k к Jam k 2 2 Gi- yf Уг) »1 — (здесь / (x) — неизвестная нам функция регрессии ц по Е; л:? — средняя точка /-го интервала группирования по оси асб- цисс, а / — среднее значение функции регрессии): 77
И наконец, параметр нецентральности в соответствии с A 18) и с учетом A.6) в нашем случае имеет вид Далее воспользуемся тем (см., например, [30, с. 99]), что распределение статистики v* F (vlt v2; а) при vx ^ 8 достаточно хорошо аппроксимируется обычным (центральным) /•"-распределением с числом степеней свободы числителя, при- приблизительно равным vt = /V|]To )» и числом степеней сво- свободы знаменателя, равным v2. Поэтому в нашем случае рас- распределение статистики (k \)\\ — p^.g/ ' 'I*5 приближенно описывается /^-распределением с числом степе- степеней свободы числителя Vf= J 1^L1L_ A.19) и числом степеней свободы знаменателя v2 — п — k. Таким образом, получаем следующее правило построения приближенных доверительных интервалов для истинного значения корреляционного отношения рл.|1 1) пользуясь формулой( 1.16), вычисляем точечную оценку Для истинного значения корреляционного отношения р| Рп?; 2) по формуле A.19) подсчитываем вспомогательное число степеней свободы v* числителя для аппроксимирующего цент- центрального /^-распределения; 3) задавшись уровнем доверия Р = 1 — 2а, с помощью табл. П.5 находим 100 A — а)%-ную точку i>?_a (vf, n — k) и 100a %-ную точку и^ (v[, n -- к) F-распределения с числом степеней свободы числителя v| и знаменателя п — к\ 4) утверждаем, что приблизительно с вероятностью Р — 78
= 1—2а истинное значение корреляционного отношения рл.? удовлетворяет неравенствам (л —*)Тч.? k— 1 —, A.20) Проиллюстрируем работоспособность описанного метода на следующем примере. Пусть в результате обработки 132 экс- экспериментальных точек (xiy yt) (i — 1,2, ..., 132) получено вы- выборочное значение корреляционного отношения р == 0,60. При этом мы воспользовались разбиением диапазона изменения независимой переменной на k = 12 равных интервалов груп- группирования. Соответственно получаем в качестве вспомога- вспомогательного числа степеней свободы числителя величину v* =• 02—1 + 132-о,зб/2 О7 . = \2_i 4-2-132-0 36 ^ (частное округляем до целого чи- числа). Задавшись доверительной вероятностью Р =¦ 0,90, из табл. П.5 находим (полагая a ~ 0,05): ^§,05B7,120) «.1,58; «8.95 B7,120) ^ ! ^—— » 0,58. o8.eeA20,27) 1,73 И наконец, в соответствии с формулой A.20) находим ле- вый (pmin) и правый (ртах) концы доверительного интервала для истинного значения p^.g: р^ 12°'°-36^—0,24; 132 132-0,64.1,58 132 120-°'36 Я-0,87. 132 V 132-0,64.0,58 132 Таким образом, при точечной оценке р^ ^0,6 истин- истинное значение заключено в пределах от ]/0,24 до ]/0,87 с ве- вероятностью, приблизительно равной 0,9, т. е. 0,49 < рл.| < < 0,93. В этом примере хорошо видна существенная несимметрич- несимметричность концов интервальной оценки относительно точечной оценки (правый конец интервальной оценки отстоит от то- точечной оценки на 0,33, в то время как левый конец — всего лишь на 0,П). 79
Для значений точечных оценок р2, близких к нулю или к единице, левый или правый конец интервальной оценки мо- может терять содержательный смысл, выходя за пределы отрез- отрезка [0, 1]. В этом случае в качестве левого или правого конца интервальной оценки следует брать соответствующее гранич- граничное значение — нуль или единицу (причина подобных нежела- нежелательных ситуаций — в аппроксимационном подходе к реше- решению данной задачи). Однако описанный прием все-таки сле- следует признать гораздо более точным, чем применяемый иног- иногда метод построения интервальных оценок для рл.?, необос- нованно использующий приблизительную (р, —з~)-нормаль- ^ Vn ность статистики p^.g. Оценка индекса корреляции по несгруппированным дан- данным. Если характер имеющихся у нас выборочных данных (*ь Уд, i ~ 1» 2, ..., п, таков, что не допускает их сколько- нибудь удовлетворительной группировки по оси объясняющей переменной (недостаточно велико пу точки (хи уь) слишком «разрежены» на плоскости), то построению оценок для 1\.% мы вынуждены предпослать принятие той или иной гипотезы об общем виде регрессионной функции A.1). О статистических методах проверки подобного рода гипотез см. ниже, гл. 6. Пусть, например, в результате анализа, описанного в гл. 6, нами принята гипотеза о том, что интересующая нас регрес- регрессионная зависимость уср = / (х) имеет вид алгебраического полинома второго порядка, т. е. уср = Е (т]|| = х) = 0О + + Qxx + Q2x2. Тогда для оценки введенной ранее характери- характеристики степени тесноты связи между исследуемыми перемен- переменными т] и ^ — коэффициента детерминации 1\.% (или индекса корреляции 1^.%) исследователю приходится вначале вычис- лить оценки 80, 0Х и 02 для неизвестных параметров — ко- коэффициентов 90, 0J и 02, входящих в уравнение регрессии (см. гл. 7). И лишь после этого, ориентируясь на правую часть формулы A.6), мы получим в качестве оценки для /^.^ величину: / = 1
так как нетрудно показать [65], что величина П — О *¦* / = 1 является в данном случае^выборочным аналогом (оценкой) теоретической дисперсии о^х)у участвующей в A.6). Пусть в общем случае нами принята гипотеза об общем ви- виде интересующей нас зависимости уср = Е (ц\1 = х) = / (х; 0О, 8Ь ..., 0Р), где / — некоторая известная функция аргумен- аргумента ху зависящая от (р + 1)-го неизвестного параметра 90, 0Ь ..., Qp. Тогда, пользуясь рекомендациями гл. 7, строим оценки 0О, 0lf ..., 0Р неизвестных параметров, входящих в описание функции регрессии, после чего вычисляем оценку /^.g коэф- коэффициента детерминации /?,.? по формуле A.21) Замечание. Можно показать, что, как и следовало ожидать, в частном случае f (х\ 0О, 0Х, ..., 0Р) = 0О + 0i^ оценка, определяемая соотношением A.21), совпадает с квад- ратом выборочного коэффициента корреляции (г2). Следует отметить, что вычисление и использование выбо- выборочных характеристик степени тесноты связи типа A.21) за- затруднено по меньшей мере тремя обстоятельствами: 1) необ- необходимостью предварительного выбора общего вида регресси- регрессионной зависимости; 2) необходимостью предварительного вы- вычисления оценок для входящих в уравнение регрессии неиз- неизвестных параметров; 3) отсутствием строгих рекомендаций по их проверке на статистическую значимость и по построе- построению соответствующих интервальных оценок. 1.2. Анализ частных («очищенных») связей 1.2.1. Трудности в интерпретации парных корреляционных характеристик, связанные с опосредованным одновременным влиянием других переменных. Выше (см. п. 1.1.2) приведен пример ситуации, в которой специалисты (технологи) некото- 81
рое время не могли дать содержательного объяснения стати- статистически выявленной положительной парной корреляционной связи между исследуемыми показателями: процентом брака в трубном производстве и продолжительностью плавки стали, из которой эти трубы делались. Вытекающая отсюда практи- практическая рекомендация — снижать, по возможности, продолжи- продолжительность плавки с целью понижения процента брака — вы- выглядела явно несостоятельной. И лишь позже выяснилось, что объяснение следует искать в одновременном опосредованном влиянии на эти два показателя третьего фактора—типа ис- используемого сырья: использование сырья определенного типа приводило к тенденции одновременного увеличения обоих ис- исследуемых показателей — и длительности плавки, и процента брака. Аналогичные трудности в интерпретации получаемых в результате статистического анализа парных корреляционных характеристик испытывают часто специалисты и в других областях деятельности (см. примеры в п. 1.2.4), причем роль опосредованно влияющего на оба изучаемых показателя фак- фактора может играть и целое множество неучтенных переменных. Это обстоятельство делает необходимым введение таких измерителей статистической связи, которые были бы «очи- «очищены» от опосредованного влияния других переменных, да- давали бы оценку степени тесноты интересующей нас связи меж- между переменными у и *</> (или x{i) и *</>) при условии, что зна- значения остальных переменных зафиксированы на некотором постоянном уровне. В этом случае говорят о статистическом анализе частных (или «очищенных») связей и используют со- соответственно частные («очищенные») коэффициенты корреля- корреляции или другие корреляционные характеристики. 1.2.2. Частные коэффициенты корреляции и их выборочные значения. Поставим в соответствие каждой из ранее введенных парных характеристик статистической связи между перемен- переменными *<*> и *</> (/, / = 0, 1, ..., р; *@> S3 у) частную («очищен- («очищенную») характеристику, определяемую по той же формуле, но только для условного распределения [14, гл. 51 <р (*(*>, х(/) | |Х(/|/) = х). Здесь ф — это функция плотности вероятности (если x{i\ x{ti непрерывны) или полигон вероятностей (если х^\ хМ дискретны); Х(/''> — множество переменных, до- дополняющих пару (х^\ х^>) до полного набора рассматривае- рассматриваемых (наблюдаемых) переменных X = (х@>, хA>, ..., *(р))> ах — (р — 1)-мерный вектор, определяющий заданные уров- уровни, на которых фиксируются значения «мешающих» перемен- переменных ХМ). Есть два взаимосвязанных обстоятельства, кото- которые препятствуют широкому практическому использованию частных характеристик статистической связи в общем случае: 82
частные характеристики статистической связи, вообще го- говоря, зависят от заданных уровней х мешающих переменных (как их выбирать в каждом конкретном случае?); для подсчета выборочных значений частных характери- характеристик статистической связи необходимо иметь выборку спе- специальной структуры, обеспечивающей наличие хотя бы не- нескольких наблюдений при каждом из заданного ряда фикси- фиксированных значений х мешающих переменных. Можно, однако, показать (см., например, [20, 65]), что если исследуемые случайные переменные (х@), х{1\ ..., х(р)) подчиняются многомерному нормальному закону (см. [14, п. 6.1.51), то указанные неудобства автоматически исчезают, так как в этом случае частные коэффициенты корреляции не зависят от уровней мешающих переменных х, определяющих условие в соответствующем условном распределении. В ча- частности, имеет место следующая формула (при условии невы- невырожденности (р + 1)-мерного нормального закона): г//.х ('• /> A.22) где rijX{i4) — частный коэффициент корреляции между пе- переменными x{i) и хМ при фиксированных значениях всех ос- остальных переменных Х(Л'\ a Rkt — алгебраическое допол- дополнение для элемента rhl в определителе корреляционной ма- матрицы R анализируемых признаков х{0) == у, х{1\ xB), ..., х{р\ т. е. в определителе det R - 1 10 г12 ' Ор Г1Р Гро Г pi ' р2 1 Формула A.22), примененная к трехмерному признаку > = у, х<1\ х<2>), при i = о, / = 1 и Х<Л/> = *<2> дает: 01.л: B) = /1 B) — 2) A.23) Последовательно присоединяя к мешающим переменным все новые признаки из рассматриваемого набора, можно по- получить рекуррентные соотношения для подсчета частных ко- коэффициентов корреляции rol<2.../t+1) порядка k (т. е. при ис- исключении опосредованного влияния k мешающих переменных) 83
по частным коэффициентам корреляции порядка к —Uk = - 1, 2, ..., р- 1): — Г0М 2 ... А;)~~ГОАН-1 B . /г)'Г1/г +1 B ... /Q V ([~~rOk±l B ... /г)) A ~ri^-l B ... /г)) A.23') Выборочные (эмпирические) значения частных коэффициен- коэффициентов корреляции вычисляются по тем же формулам A.22)— A.23') с заменой теоретических значений парных коэффициен- коэффициентов корреляции rtj их выборочными аналогами rtj (см. форму- формулу A.8')). Если исследователь имеет дело лишь с тремя-четырьмя переменными (р = 2, .3), то удобно пользоваться рекуррент- рекуррентными соотношениями A.23'). При больших размерностях ана- анализируемого многомерного признака удобнее опираться на формулу A.22), использующую расчет соответствующих оп- определителей. Вернемся к общему (негауссовскому) случаю. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции, определенные соотношениями A.22)—A.23'), являются, как правило, удовлетворительными измерителями очищенной линейной связи между x{i) и х</> при фиксированных значениях остальных переменных X{it^ и в случае, когда распределение анализируемых показателей (х@), х{1), ..., х(р)) отличается от нормального. Определив с помощью формулы A.22) частный коэффициент корреляции в случае любого исходного распределения признаков (х{0\ хA\ ..., х(р)), включим его в общий математический инстру- инструментарий корреляционного анализа линейных моделей. При этом их можно интерпретировать как показатели тесноты очи- очищенной связи, усредненные по всевозможным значениям фик- фиксируемых на определенных уровнях «мешающих» переменных. 1.2.3. Статистические свойства выборочных частных коэффи- коэффициентов корреляции (проверка на статистическую значимость их отличия от нуля, доверительные интервалы). При иссле- исследовании статистических свойств выборочного частного коэф- коэффициента корреляции порядка к (т. е. при исключении опо- опосредованного влияния к мешающих переменных) следует вос- воспользоваться тем (см., например, [20, теорема 4.3.4]), что он распределен точно так же, как и обычный (парный) выбороч- выборочный коэффициент корреляции между теми же переменными с единственной поправкой: объем выборки надо уменьшить на k единиц, т. е. полагать его равным п — к, а не я. Поэтому
при проверке статистически значимого отличия от нуля выбо- выборочного частного коэффициента корреляции и при построе- построении для него доверительных интервалов следует пользоваться рекомендациями п. 1.1.3 для парного коэффициента корреля- корреляции с заменой п на п — k. 1.2.4. Примеры. Рассмотрим некоторые конкретные чис- числовые примеры, демонстрирующие возможный характер ис- искажающего опосредованного влияния «третьих факторов» на корреляцию между двумя анализируемыми переменными. Пример 1.1. По итогам года 37 однородных пред- предприятий легкой промышленности были зарегистрированы сле- следующие показатели их работы: х@) =s у — среднемесячная ха- характеристика качества ткани (в баллах); х^ — среднемесяч- среднемесячное количество профилактических наладок автоматической линии; х{2) — среднемесячное число обрывов нити. По матрице исходных данных (х{?\ х{}\ x{V)i = Tw были подсчитаны (с помощью A.8')) выборочные парные коэффи- коэффициенты корреляции ru (i, j ^- 0, 1, 2): г01 = 0,105; г02 = 0,024; 712 =-- 0,996. Проверка «на статистическую значимость», проведенная в соответствии с рекомендациями п. 1.1.3, свидетельствует об отсутствии статистически значимой парной корреляционной связи между качеством ткани, с одной стороны, и числом про- профилактических наладок и обрывов нити — с другой, что не согласуется с профессиональными представлениями техноло- технолога. Однако расчет частных коэффициентов корреляции по формуле A.23) дает значения г01B) = 0,907; г02A) = —0,906, которые вполне соответствуют нашим представлениям о есте- естественном характере связей между изучаемыми показателями. Построение доверительных интервалов для истинных зна- значений го1B) и гО2A) в соответствии с рекомендациями п. 1.1.3 (в частности, с использованием z-преобразования Фишера, поскольку наш случай характеризуется значениями коэффи- коэффициентов корреляции, близкими по абсолютной величине к еди- единице) дает: th zx < г < th z2 с доверительной вероятностью р = 1 _ а, где th z — тангенс гиперболический угла z, (л—1)—1 a ug — это ^-квантиль стандартного нормального распределе- распределения (см. табл. П.З). 85
В нашем примере п = 37, а = 0,05. Подставляя пооче- поочередно в эту формулу значения го1B> = 0,907 и г02A) = = —0,906 и пользуясь табл. П.7 значений arcth г = - In —— , ! — Т получаем: 0,821<г0, B)<0,950; — 0,950<г02A)< —0,819. Пример 1.2. С целью исследования влияния погод- погодных условий на урожайность кормовых трав Хукер (Journ. Roy. Stat. Soc, 1907, v. 65, p. 1) рассмотрел данные Мини- Министерства земледелия Англии за 20 лет, характеризующие урожайность х{0) (в ц/акр), весеннее количество осадков хA> (в дюймах) и накопленную за весну сумму «активных» (т. е. выше +5,5° С) температур xB) (в градусах по Фаренгейту) од- однородной в метеорологическом отношении области Англии, включающей в себя группу восточных графств. По выборке (jc(?), x{}\ x(V)i = T^Q были подсчитаны основные статистиче- статистические характеристики изучаемой трехмерной случайной вели- величины: '- 28,02; -Е*<1> = 4,91; Е*<2> - 594,0; = 19,54; Di<1>= 1,21; Dx<2>-7225; foi = °>80; ^2 = — 0,40; /72 = — 0,56. Действительно ли высокая температура в период созрева- созревания трав отрицательно влияет на их урожайность (ведь г02 = —0,40) или здесь сказывается опосредованное влияние «мешающего» фактора — количества осадков л^1*? Вычисление частных коэффициентов корреляции по рекур- рекуррентной формуле A.23) дает: 7oi B) =- 0,759; ?02 с D = 0,097; ?! 2 @) = — 0,436. Как видим, если исключить одновременное влияние коли- количества осадков х^Х) на урожайность (с ростом хA> она повыша- повышается) и на сумму активных температур (с ростом *A) она пони- понижается), то мы уже не обнаружим отрицательной корреляции между температурой и урожайностью (го2а) = 0,097, в то время как го2 = —0,40). вб
Построение доверительных интервалов для г01B) и rO2<i) {С уровнем доверия Р = 0,95) с использованием е-преобразо- вания Фишера дает в данном случае: 0,448<г<I <2) <0,890; —-0,419< г02 <п <0,525. Последнее неравенство свидетельствует о том, что у нас нет оснований считать положительную очищенную корреляци- корреляционную связь между урожайностью и температурой (ro2(i) = = 0,097) статистически значимой. 1.3. Анализ множественных связей 1.3.1. Степень тесноты множественной статистической связи и среднеквадратическая ошибка прогноза (аппроксимации) одной переменной по совокупности других. Интуитивно и из смысла рассмотренных выше характеристик степени тесноты статистической связи ясно, что чем теснее эта связь,тем больше информации содержит одна переменная относительно другой, тем точнее можно восстановить (спрогнозировать, аппрокси- аппроксимировать) неизвестное значение одной переменной по заданной величине другой. При решении практических задач чаще других рассматри- рассматривается схема, в которой поведение какого-то одного (результи- (результирующего) признака х\ стараются «объяснить» поведением сово- совокупности других (предикторных) переменных ? = (?A), ?B), ..., ?>{р)). Если зафиксировать «значение» ? = X, то из всех возможных способов определения прогнозного (аппроксими- (аппроксимирующего) значения у (X) для неизвестного значения ц (X) наи- наилучшим (в смысле минимума среднего квадрата ошибки прог- прогноза), как оказалось, является условное среднее значение анализируемого результирующего показателя т], т. е. величи- величина / (X) = Е (т]|| = X), где усреднение производится при ус- условии, что объясняющие переменные зафиксированы на уров- уровне X1. Действительно, легко видеть, что для любой другой функции / (X) щк f (X) будем иметь: = Е(Л- /(X) + /(X) - + Е(/(Х)-7(Х)J. 2Если объясняющие переменные д^1), *B), ..., *(/;) не случайны по своей природе, то они играют роль обычных параметров, от которых зависит закон распределения случайной величины т). 87
А поскольку E [ft — / (X)) (f (X) - f (X))} = Ex {En [A1 - - / (X)) (/ (X) - / (X))\X]} = Ex {(/(X) - / (X)) X X |En (r\\X) - Е„ (/ (X)|X)]} = Ex {(/ (X) - J (X)) [/ (X) _ - / (X)!} = 0 и E (/ (X) -/ (X)Y >0, то всегда E(n-f (*))»> Eft-/(*))«• В этих выкладках использовался способ вычисления ма- математического ожидания в два этапа: на первом фиксируют- фиксируются значения X и усреднение производится по значениям г) (при фиксированном X), т. е. берется условное математическое ожидание при условии, наложенном на ?; на втором этапе ре- результат усредняется по всевозможным значениям X (нижний индекс у знака математического ожидания показывает, по ка- каким именно значениям производится усреднение). Таким образом, мы снова (как и в п. В.5 и 1.1.1) пришли к функции регрессии f (X) = Е (т]|? = X), на этот раз как к функции от р переменных х{1\ х^2\ ..., х(р\ наиболее точ- точно (в смысле среднеквадратической ошибки) воспроизводящей условное значение исследуемого результирующего показате- показателя г] (X) по заданной величине X объясняющих переменных ?. Вернемся теперь к соотношению A.5), связывающему меж- между собой общую вариацию результирующего показателя (Оц = Dr|), вариацию функции регрессии (of = D/ (?)) и ус- усредненную (по различным возможным значениям X объясняю- объясняющих переменных) величину условной дисперсии «регрессион- «регрессионных остатков» (о^ {Х) = EXD [r)|g = X]). Оно остается спра- справедливым и в случае многомерной предикторной переменной I - (ЪA\ ?B\ .... 1{р)) (или X = (хA\ х<2>, ..., *<*>)). Следовательно, так же как и в случае парной зависимости, вариация (случайный разброс) результирующего показателя т] складывается из контролируемой нами (по значению предик- предикторной переменной X) вариации функции регрессии / (X) и из не поддающегося нашему контролю случайного разброса значений г| (X) (при фиксированном X) относительно функции регрессии / (X). Именно этот неконтролируемый разброс (ха- (характеризуемый величиной а-п(Х)) и определяет одновременно и среднеквадратическую ошибку прогноза (или аппроксимации) величины результирующего показателя г| по значениям пре- дикторных переменных X, и степень тесноты связи, сущест- существующей между величиной г|, с одной стороны, и значениями X — с другой: чем меньше значение (т^хь т^м точнее прог- 88
ноз и тем теснее связь между г\ и ?. Эти соображения приводят нас к следующему способу измерения множественной стати- статистической связи. 1.3.2. Множественный коэффициент корреляции и его свойст- свойства (общий случай). Опираясь на формулу A.5), введем измери- измеритель множественной корреляционной связи между г\ и (?<х>, ?B), •••> ?(р)) — множественный коэффициент корреляции Rr).t — аналогично тому, как мы определяли в п. 1.1.1 из- измеритель парной связи — индекс корреляции /^ (см. фор- формулу A.6)): ^ A.24) % (квадрат множественного коэффициента корреляции принято называть коэффициентом детерминации). Из соотношения A.5) немедленно вытекают следующие свойства множественного коэффициента корреляции: б) минимальное значение множественного коэффициента корреляции (Rti-i = 0) соответствует случаю полного от- отсутствия корреляционной связи между г| и (?A\ ..., ?(р*), так как это может быть только при of — D/ (?) = 0, т. е. при независимости значений функции регрессии / от величины ее аргументов ? (/ (?) = const); это соответствует ситуации, когда усредненная дисперсия «регрессионных остатков» в точ- точности равна общей вариации результирующего показателя; в) максимальное значение множественного коэффициента корреляции (Rr).t =1) соответствует полному отсутствию варьирования «регрессионных остатков» (оц(Х) = 0), что оз- означает наличие чисто функциональной связи между г\ и (?A), ..., ?(р)): г| = / (?A), ..., ?(р)). Следовательно, в этом случае мы имеем возможность точно (детерминированно) восстанавли- восстанавливать условные значения г| (X) = {г\\?, = X) по значениям пре- дикторных переменных X, и соответственно общая вариация результирующего показателя г| полностью объясняется конт- контролируемой вариацией функции регрессии; г) выборочное значение /?л.| множественного коэффициен- коэффициента корреляции R^.i определяется на базе системы наблюде- наблюдений {(х(\\ х(]\ ...,л:^; yi}i=s~n по формуле, получающейся из A.24) заменой участвующих в правой части теоретических характеристик о^(Х) и о\ их выборочными аналогами, т. е. 89
n — k 1=1 где / (XW, *<»>, ..., *«»; 6lf ..., Qh) = E (t||? = X) - функция регрессии (г\ по ?) известного общего вида, зависящая от k параметров 81э 62, .., 8^, значения которых неизвестны (оце- (оцениваются по выборке, см. гл. 6—9I, at/ — выборочное сред- нее значение результирующего показателя (т. е. у = 2 * =i д) введенные с помощью A.24) и A.24') теоретический и вы- выборочный множественные коэффициенты корреляции фор- формально определены для любой (р + 1)-мерной системы наблю- дений. Квадрат их величины R^.% и R^.% показывает, какая доля дисперсии исследуемого результирующего показателя ц определяется (детерминируется) контролируемой нами ва- вариацией соответствующей функции регрессии /(X). Соот- Соответственно оставшаяся доля дисперсии показателя г) (т. е. величина 1 — Rr\-t или 1 — Ri\-t) объясняется воздействи- воздействием неконтролируемой случайной остаточной компоненты («ре- («регрессионных остатков», «помехи») и определяет ту верхнюю Ючевидно, такое определение R^.% предусматривает априорное знание общего вида функции регрессии / (X; 0) и проведение предва- предварительных расчетов по статистическому оцениванию неизвестных зна- значений участвующих в ее записи параметров в = @lt ..., Qk). Ниже (см. п. 1.3.3) мы увидим, что последнее неудобство автоматически устра- устраняется при работе с данными из нормальных генеральных совокупно- совокупностей, причем получаемые в этом случае удобные формулы и рекоменда- рекомендации могут быть использованы как приближенные и в общем случае. Что касается неудобства, связанного с необходимостью априорного знания общего вида функции регрессии / (X, в), то в зависимости от конкретизации задачи и условий сбора исходных данных могут быть использованы следующие альтернативные подходы: а) предваритель- предварительное разбиение области значений предикторных переменных X на ги- гиперпараллелепипеды группирования Ау, вычисление условных средних yj результирующего показателя по наблюдениям, попавшим в А7-, и за- замена дисперсии <Х*(Х) в формуле A.24) ее оценкой, построенной по раз- разбросу значений г\ внутри каждого гиперпараллелепипеда группирова- группирования относительно своих условных средних yj (что приводит нас к обоб- обобщению понятия корреляционного отношения на многомерный случай, ср. с п. 1.1.5); б) использование непараметрической и частично-па- частично-параметрической техники оценивания функции регрессии / (X) (см. гл. 10). 90
границу точности, которой мы можем добиться при восстанов- восстановлении (прогнозировании, аппроксимации) значения резуль- результирующего показателя г) по заданным значениям X объясняю- объясняющих переменных ?. 1.3.3. Вычисление и свойства множественного коэффициента корреляции в рамках линейных нормальных моделей. Если предположить, что исходные статистические данные {(*4\ *(?\ ..-, х*Р\ */i}i = T7^ могут интерпретироваться как выборка объема п из (р + 1)-мерной нормальной генеральной совокуп- совокупности с вектором средних значений и ковариационной матрицей (см. сноску перед формулой A.3)) Е = f (X) = Е (г] | ? = X) - /я») + @01 а02 ... аОр) X 12 ... о1р\ - а то из A.3)—A.4) сразу следует: а) функция /(X) регрессии г) по ? = (?A\ ..., ?(^>) ли- линейна по аргументам, а именно: A.25) где ац = Е [(^> — m(i>) (?(/) — т^'>)] — ковариации анали- анализируемых переменных (мы полагаем, для единообразия запи- записи, ?<°> = Т]), а а1"' — элементы матрицы 2ц1; б) условная (остаточная) дисперсия Оц{Х) — D (г||^ = X) результирующего показателя т| не зависит от того, на каких уровнях X фиксируются знячения объясняющих переменных ?, в частности А^=о5-A-^-б). A.26) Условимся относить подобные ситуации к первому типу линейных нормальных моделей. 9)
Разрешая выражение A.26) относительно /?^.|, мы прихо- приходим (с учетом постоянства по X величины а^т в данном слу- случае) к ранее введенному определению множественного коэф- коэффициента корреляции A.24). Отнесем ко второму типу линейных нормальных моделей тот частный случай «схемы В» (т. е. зависимости случайного результирующего показателя г\ от неслучайных объясняющих переменных X, см. § В.5), в котором функция регрессии / (X) линейна по X, а остаточная случайная компонента е (X) под- подчиняется нормальному закону с постоянной (не зависящей от X) дисперсией а*. В этом случае линейность регрессии, гомо- скедастичность (постоянство условной дисперсии о^т = ol) и формула A.26) следуют непосредственно из определения мо- модели и из A.24). Можно показать (см. например, [65, гл. 27]), что при ста- статистической обработке выборок, извлеченных из линейно- нормальных генеральных совокупностей, множественный ко- коэффициент корреляции Rn.% и его выборочное значение Rr\-i обладают рядом дополнительных свойств (приведенные ниже формулы и свойства теоретического множественного коэффи- коэффициента корреляции R^.% автоматически переносятся на выбо- выборочный R^.i заменой участвующих в них теоретических ха- характеристик соответствующими выборочными значениями). 1. Вычисление /?л-? по матрице парных коэффициентов корреляции. Обозначая, как и прежде, (р + 1) X (р + 1)- корреляционную матрицу (ги) г-7 = 0,1..., Р через R, а алгебра- алгебраическое дополнение элемента rkl в ее определителе через \R\hh имеем RU=i-^r~. A-27) 2. Вычисление R^.^ no частным коэффициентам корреля- корреляции ... A-г5рA2...р-1)). A.28) 3. Множественный коэффициент корреляции мажорирует любой парный или частный коэффициент корреляции, харак- характеризующий статистическую связь результирующего показа- показателя, т. е. Ял-«>|'«/(/,) |, A-29) 92
где / = 1, 2, ..., р, a lj — любое подмножество множества индексов /0 = {1, 2, ..., р}, не содержащее индекса / (соот- (соотношение A.29) следует из A.28)). Напоминаем, что g(°>=3T). 4. Присоединение каждой новой предсказывающей перемен- ной не может уменьшить величины R (независимо от порядка присоединения), т. е. 5. Множественный коэффициент корреляции К^^ быть определен как максимальное значение обычного парного коэффициента корреляции между х\ и линейной комбинацией ?A\ 1B), •••> &р) (максимум — по всевозможным линейным ком- комбинациям) либо как обычный парный коэффициент корреля- корреляции между ц и условным математическим ожиданием Е (ц\Х). 6. Статистические свойства выборочного множественно- множественного коэффициента корреляции R^-i (распределение, моменты, доверительные интервалы) состоят в следующем. Для проверки гипотезы Яо: R^.^ = 0, т. е. для выяс- выяснения вопроса, можно ли считать выборочное значение мно- жественного коэффициента корреляции 7?л ,| статистически значимо отличающимся от нуля, пользуются фактом F (р, п—р—1)-распределенности случайной величины справедливым в рамках обоих рассмотренных выше типов ли- линейно-нормальных моделей при условии, что истинное значение множественного коэффициента корреляции R^.^ равно нулю. Если окажется, что F (/?) > у« (р, п — Р — 1)> то гипотеза об отсутствии множественной корреляционной связи между ц и (?A), ?B\ ..., 1(р)) отвергается при уровне значимости кри- критерия, равном а (здесь, как и ранее, v%, (р, п —р—1) — 100а%-ная точка F-распределения с числом степеней свободы числителя р и знаменателя п — р — 1 находится из табл. П.5). Можно показать (см. [65, гл. 27]), что в условиях второго типа линейно-нормальных моделей (объясняющие перемен- переменные X неслучайны) описанный критерий является равномерно наиболее мощным. Это вытекает из того, что при R^.t ф 0 величина F (R) подчинена нецентральному F (р, п — р — 93
— 1; nR^.i) -распределению с параметром нецентральности, равным п/?^.|. Последним обстоятельством можно воспользоваться и при приближенном построении доверительных интервалов для не- неизвестного истинного значения &%.%. В точности повторяя рас- рассуждения п. 1.1.5, относящиеся к построению доверительных интервалов для неизвестной величины квадрата корреляцион- корреляционного отношения р^.? (см. формулы A.17)—A.20)), мы придем к следующей рекомендации по построению интервальной оценки для /?^.?*, справедливой, правда, лишь при р ^ 8: с доверительной вероятностью, приблизительно равной 1 — 2а (величина а задана), выполняется неравенство х " „ , -А A.31) п в котором Vg (vlt v2) — 100^7%-ная точка центрального F- распределения с числом степеней свободы числителя Г^*Ш A.32) L \ J и знаменателя v2 = п — р — 1 (в A.32) символ [а] обознача- обозначает ближайшее целое число к а). Однако в условиях первого типа линейно-нормальных мо- моделей (наблюдения {х(\\ x(V, ..., x(fl\ Уг) извлечены из (р + 1)-мерной нормальной генеральной совокупности; со- соответственно объясняющие переменные ?A), ?B), ..., ?(р) — случайные величины) распределение величины Rr\-i при #л.? =^0 и конечных объемах выборки (п) существенно от- отличается от того распределения R^.i, которое мы имели при неслучайных объясняющих переменных (можно, правда, по- показать, что при п -> оо распределение случайной величины nR^.i сходится в линейно-нормальных моделях и первого и *Для построения доверительных интервалов для неизвестного ис- истинного значения множественного коэффициента корреляции R^.% читатель может воспользоваться также специальными номограммами, приведенными в [50] для случаев р = 3, 5, 7. 94
второго типа к нецентральному х2-распределению с числом сте- степеней свободы, равным р, и с параметром нецентральности, равным nR2). P. Фишер [183] и ряд других исследователей за- занимались изучением распределения величины /?„.? в усло- условиях первого типа линейно-нормальных моделей (различные представления соответствующей функции плотности вероят- вероятности можно найти, например, в [65, гл. 27]). Приведем здесь лишь выражения для первых двух момен- моментов интересующей нас величины. Случай /^.? = 0. (L34) Случай Rti-i -Z—(l-R*.& A.33') (n —l)(na- Скорректированная (на несмещенность) оценка R^-i- По формулам A.33), A.33') мы видим, что при вычислении выбо- рочных значений R^.i в соответствии с рекомендациями A.27), A.28), относящимися к условиям линейно-нормальных моде- моделей, получаются смещенные (а при ограниченных объемах вы- выборок п и большом числе р предсказывающих переменных — существенно смещенные) оценки для неизвестного истинного значения /?^.|. Поэтому желательно попытаться перейти к некоторой другой оценке R%\.% неизвестного теоретического значения R^.^ путем такой коррекции оценки /?^.?, которая позволила бы устранить это смещение. 95
В [233] показано, что несмещенной оценкой коэффициента -l служит статистика (i?.6) A-35) где 2 ^ р </г — 1, a F (а\ Ь\ с\ d) — гипергеометрическая функция (см., например, [1, с. 370]). Простая аппроксимация правой части A.35) дает: п — р— 1 Из последней формулы видно, что «подправленная» оцен- ^v. 2 х>» ка Rfft всегда меньше смещенной оценки Щ.ъ. Отметим, что при малых истинных значениях jR^.| и при «не слишком малых» величинах отношения pin подправлен- подправленные оценки, подсчитанные по формулам A.35) и A.35'), могут принимать отрицательные значения. Можно устранить абсурд- абсурдность отрицательных значений оценки, используя в качестве «еще раз подправленной» оценки величину %!=;max (*>*%, 0) -^ч 2 (правда, Яц*% уже не будет несмещенной оценкой). 1.3.4. Примеры. Вернемся к ранее рассмотренным примерам и оценим в них степень тесноты множественной связи между результирующим показателем, с одной стороны, и набором объясняющих переменных — с другой. Будем пользоваться рекомендациями (а именно формулами A.27), A.28)). право- правомерность которых строго обоснована лишь в рамках линейно- нормальных моделей. Пример 1.1. Оценка Яу.C.AK.B)} коэффициента мно- множественной корреляции между характеристикой качества ткани у и совокупностью двух факторов: количеством профи- профилактических наладок лгA> и числом обрывов нити х{2\ под- подсчитанная с помощью формулы A.28), дает: #?.(*A> *B)) = 1 — A — Г%х) A —Г§2 A)) = = 1 —[1—@,Ю5J] [1—@,906J1 = = 1—0,989.0,179=1—0,177 = 0,823. Отсюда Ry.(xd) *<2>) 96
В данном примере мы не можем воспользоваться формулами A.31)—A.32) для построения доверительного интервала для Ry./Xii)x<;*h9 поскольку они дают удовлетворительную точ- точность лишь при р ^ 8. Пример 1.2. Оценка Ry.x(i)x(Z) коэффициента мно- множественной корреляции между урожайностью кормовых трав (у = х<°)) и природными факторами — весенним количеством осадков (хA)) и накопленной суммой «активных» температур (л:B)), подсчитанная по формуле A.28), дает: RJ.(jcd) *B>)= 1 —A = 1 _ [ 1 _ @,80J] [ 1 — A,097J] - -1—0,36.0,99 = 0,6436. Отсюда ^ ВЫВОДЫ 1. Приступая к статистическому исследованию зависимостей между анализируемыми переменными, исследователь должен в первую очередь установить сам факт наличия статистиче- статистических связей и попытаться измерить степень их тесноты. В качестве основных измерителей степени-тесноты связей меж- между количественными переменными в практике статистических исследований используются: индекс корреляции, корреля- корреляционное отношение, парные, частные и множественные ко- коэффициенты корреляции, коэффициент детерминации. 2. Парные корреляционные характеристики позволяют изме- измерять степень тесноты статистической связи между парой пе- переменных без учета опосредованного или совместного влияния других показателей. Вычисляются (оцениваются) они по ре- результатам наблюдений только анализируемой пары показате- показателей. 3. Факт установления тесной статистической связи между переменными не является, вообще говоря, достаточным осно- основанием для доказательства существования причинно-следст- причинно-следственной связи между этими переменными. 4. Парные и частные коэффициенты корреляции являются из- измерителями степени тесноты линейной связи между перемен- переменными. В этом случае корреляционные характеристики могут оказаться как положительными, так и отрицательными в за- 4 Зак. 244 97
висимости от одинаковой или противоположной тенденции взаимосвязанного изменения анализируемых переменных. При положительных значениях коэффициента корреляции говорят о наличии положительной линейной статистической связи, при отрицательных — об отрицательной. 5. При наложении случайных ошибок на значения исследуе- исследуемой пары переменных (например, ошибок измерения) оценка статистической связи между исходными переменными, по- построенная по наблюдениям, оказывается искаженной. В ча- частности, получаемые при этом оценки коэффициентов корреля- корреляции будут заниженными. Существуют методы, позволяющие учесть это искажение. 6. Измерителем степени тесноты связи любой формы являет- является корреляционное отношение, для вычисления которого необ- необходимо разбить область значений предсказывающей перемен- переменной X на интервалы (гиперпараллелепипеды) группирова- группирования. Возможна параметрическая модификация корреляцион- корреляционного отношения, при которой вычисление соответствующих выборочных значений не требует предварительного разбиения на интервалы группирования. 7. Частный коэффициент корреляции позволяет оценить сте- степень тесноты линейной связи между двумя переменными, очищенной от опосредованного влияния других факторов. Для его расчета необходима исходная информация как по анали- анализируемой паре переменных, так и по всем тем переменным, опосредованное («мешающее») влияние которых мы хотим эли- элиминировать. 8. Множественный (совокупный) коэффициент корреляции из- измеряет степень тесноты статистической связи (любой формы) между некоторым (результирующим) показателем, с одной стороны, и совокупностью других (объясняющих) перемен- переменных — с другой. Формально он определен для любой много- многомерной системы наблюдений. Квадрат его величины (называе- (называемый коэффициентом детерминации) показывает, какая доля дисперсии исследуемого результирующего показателя опреде- определяется (детерминируется) совокупным влиянием контроли- контролируемых нами (в виде функции регрессии) объясняющих пере- переменных. Оставшаяся «необъясненной» доля дисперсии ре- результирующего показателя определяет ту верхнюю границу точности, которой мы можем добиться при восстановлении (прогнозировании, аппроксимации) значения результирую- результирующего показателя по заданным значениям объясняющих пере- переменных. 9. Наиболее удобные свойства (рекомендации по вычислению, по интерпретации, статистические свойства) выборочный ко- 98
эффициент корреляции имеет в рамках линейно-нормальных моделей, т. е. в одном из двух типов ситуаций: а) обрабатываемые статистические данные {(х(-х\ x{f\ ... , л:^*; yi}i==zT7Hl образуют выборку из (р + 1)-мернои нор- нормальной генеральной совокупности; б) результирующий показатель т] связан с объясняющими переменными (хA), ..., х(р)) линейной регрессионной зависи- зависимостью типа В (см. § В.5), причем остаточная случайная ком- компонента подчиняется нормальному закону с постоянной (не. зависящей от х{1\ *B), ..., л:(р)) дисперсией. В* этом случае разработаны рекомендации по проверке выборочного множе- множественного коэффициента корреляции на его статистически зна- значимое отличие от нуля, по построению доверительных интер- интервалов для неизвестного истинного значения множественного коэффициента корреляции. Глава 2. АНАЛИЗ СТАТИСТИЧЕСКОЙ СВЯЗИ МЕЖДУ ПОРЯДКОВЫМИ (ОРДИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ Напомним (см. [14, §5.3, 10.2]), что порядковая (ординаль- (ординальная) переменная позволяет упорядочивать статистически об- обследованные объекты по степени проявления в них анализи- анализируемого свойства. Исследователь обращается к порядковым переменным в ситуациях, когда шкала непосредственного количественного измерения степени проявления этого свойст- свойства в объекте ему не известна (в том числе по причине объектив- объективного отсутствия таковой) или имеет условный смысл и интере- интересует его только как вспомогательное средство для последующего ранжирования рассматриваемых объектов. К подобным ситу- ситуациям относится рассмотрение таких переменных, как «ин- «интегральный (сводный) показатель эффективности функциони- функционирования социально-экономической системы» (специалиста, предприятия, научно-производственного объединения и т. п.), «качество (мера оптимальности) структуры потребительского бюджета семьи», «качество жилищных условий семьи», «сте- «степень прогрессивности предлагаемого проекта решения соци- социально-экономической, технической или другой проблемы» и т. п. Таким образом, в отличие от статистического анализа fe-го (k = 0, 1, 2, ..., р) количественного признака x{k\ когда в результате его измерения (наблюдения) на объектах мы мог- могли каждому статистически обследованному объекту Ог- по- 4* 99
ставить в соответствие некоторую, измеренную в физически (k) интерпретируемой шкале числовую характеристику ху, ре- результатом измередия порядковой переменной является при- приписывание каждому из обследованных объектов некоторой ус- условной числовой метки, обозначающей место этого объекта в ряду из всех п анализируемых объектов, упорядоченном по убыванию степени проявления в них fe-го изучаемого свойст- свойства. В этом случае х / называют рангом i-ro объекта по &-му признаку. В зависимости от типа изучаемой ситуации A) шкала из- измерения признака x{k) не известна исследователю или от- отсутствует вовсе; 2) существуют косвенные или частные коли- количественные показатели, в соответствии со значениями которых можно определять место каждого объекта 0t в ряду, упоря- упорядоченном по анализируемому свойству x{k)) сам процесс упо- упорядочения объектов 0ь 02t ..., Оп производится либо с исполь- использованием экспертной информации, т. е. с привлечением экс- экспертов, либо формализованно — путем перехода от исходно- исходного ряда наблюдений вспомогательного (косвенного, частного) количественного признака к соответствующему вариацион- вариационному ряду [14, п. 5.6.4]. 2.1. Ранговая корреляция 2.1.1. Исходные статистические данные (таблица или матрица рангов типа «объект—свойство»). Итак, в результате измере- измерения р + 1 порядковых переменных х@) = у, х{1\ ..., х(р) на каждом из п анализируемых объектов 01у О2, ..., 0п мы полу- получаем таблицу (матрицу) исходных данных следующего вида (табл. 2.1). В этой таблице элемент х(/1} задает порядковое место (ранг), которое занимает объект 0t в ряду всех статистически обследованных объектов, упорядоченном по убыванию сте- степени проявления &-го анализируемого свойства (т. е. по пере- переменной x{k)). Очевидно, если рассмотреть столбец с номером k этой таблицы (k = О, 1, ..., р), то он будет представлять переста- перестановку из п элементов, а именно перестановку из п натуральных чисел 1, 2, ,.., л, определяющую порядковые места объектов 01» 02» •••» 0/г в РЯДУ» упорядоченном по свойству *<*>. Замечание о случаях неразличимости рангов («объединенные ранги»). При упорядочении объектов по какому-либо свойст- свойству *<*> (k =-0, 1, ..., р) могут встретиться ситуации, когда двл объекта или целая группа их оказываются неразличимы- 100
Порядко- Порядковый номер объекта («объект») 1 2 i п Порядковый номер исследуемой переменной 0 xlp v@) X i @) Xn ' 1 х^) Xi U) Хп 3 х 1 4*> Таб/ [и да 2.1 (ссвойство») ... *i г(р) (р) хп ми с точки зрения степени проявления в них этого свойства. Тогда каждому из объектов этой однородной группы припи- приписывается ранг, равный среднему арифметическому значению тех мест, которые они делят, а полученные таким образом ран- ранги принято называть «объединенными» (или «связными»). Так, например, упорядочивая семь альтернативных проектов Л, В, С, D> Ey F, G перспективного развития некоторой под- подотрасли с точки зрения их народнохозяйственной эффектив- эффективности, эксперт поставил на 1-е место проект С, на 2-е — про- проект Л, далее располагал проекты В, D и Е, которые считал неразличимыми (равноценными) по эффективности, а послед- последнее место отвел проектам F и G. Тогда соответствующий стол- столбец таблицы «объект—свойство» будет состоять из следующих компонент: З-Н + 5 6 + 7 а г xG - —т—= 6,5. 3 + 4 + 5 = 4; Мы видим, что появление объединенных рангов может при- привести к дробным значениям рангов, составляющих массив ис- исходных статистических данных (значения рангов, соответст- соответствующие 6-му и 7-му проектам). При отсутствии объединенных рангов область возможных значений переменных #<*>, очевид- очевидно, ограничивается множеством первых п чисел натурального ряда, где п — число сравниваемых объектов. 101
Мы увидим далее, что наличие объединенных рангов не- несколько усложняет вычислительные процедуры, связанные со статистическим анализом соответствующих корреляционных характеристик. 2.1.2. Понятие ранговой корреляции. Под ранговой корреля- корреляцией понимается статистическая связь между порядковыми переменными. В статистической практике эта связь анализи- анализируется на основании исходных статистических данных, пред- представленных упорядочениями (ранжировками) п рассматри- рассматриваемых объектов по разным свойствам (см. столбцы табл. 2.1). Есть ли хоть какая-то согласованность (или связь) между упорядочением анализируемых объектов по свойству *<*> и упорядочением тех же объектов по другому свойству jc(/>? Можно ли измерить и проанализировать совокупную статисти- статистическую связь, существующую между ранжировками одних и тех же объектов Оь 02, ..., 0nt полученными в соответст- соответствии со степенью проявления в них сначала свойства *(*1}A-й способ упорядочения), затем-—свойства x{ki) B-й способ упо- упорядочения)? Таким образом, речь идет о системе понятий и методов, позволяющих измерять и анализировать статистиче- статистическую связь, существующую между двумя или несколькими ранжировками одного и того же конечного множества объек- объектов Olt О2, ..., 0п. Система этих понятий и методов и составляет раздел ма- математической статистики, который принято называть анализом ранговых корреляций. Методы ранговой корреляции широко используются, в частности, при организации и статистической обработке различного рода систем экспертных обследований (см., например, [126, 1311). 2.1.3. Основные задачи статистического анализа связей между ранжировками. Предположим, мы ввели измерители парной и множественной ранговой статистической связи (см. ниже п. 2.2—2.3). Тогда, опираясь на эти характеристики, иссле- исследователь чаще всего пытается решить следующие три основ- основные задачи статистического анализа структуры и характера связей, существующих между изучаемыми порядковыми переменными. Задача А: анализ структуры имеющейся совокупно- совокупности упорядочений X{k) = {х{\\ x{k2\ ..., х{кп})\ k = О, 1, ..., р. Интерпретируя каждое упорядочение Х(*> как точ- точку в л-мерном пространстве, можно представить, например, три наиболее характерных типа такой структуры: 1) анали- анализируемые точки равномерно разбросаны по всей области своих возможных значений (определяемой неравенствами 1 < х*Р ^ Ю2
^ n, i — 1, 2, ..., n)y что означает отсутствие какой-либо свя- связи или согласованности в представляемых ими ранжировках; 2) расположение р + 1 точек таково, что часть из них обра- образует ядро из близко лежащих друг от друга точек («сгусток»), а остальные произвольно разбросаны относительно этого яд- ядра. В этом случае существование ядра обеспечивает наличие подмножества согласованных переменных; 3) анализируемые точки — ранжировки располагаются в пространстве несколь- несколькими относительно далеко отстоящими друг от друга ядрами («сгустками»), что означает наличие нескольких подмножеств переменных таких, что переменные внутри одного подмноже- подмножества обнаруживают высокую статистическую взаимосвязь, тогда как согласованности между переменными, взятыми из разных таких подсовокупностей, практически не существует. Задача В: анализ интегральной (совокупной) согла: сованности рассматриваемых переменных и их условная ран" жировка по критерию степени тесноты связи каждой из них с остальными переменными. Подобные задачи возникают, на- например, при исследовании степени согласованности мнений группы экспертов и при попытках условного упорядочения по- последних по их компетентности. В основе этого анализа лежит расчет коэффициента совокупной согласованности — ко- коэффициента конкордации для различных комбинаций иссле- исследуемых переменных (см. п. 2.3). Задача С: построение единого группового упорядоче' ния объектов на основе совокупности согласованных упорядоче- упорядочений «ядра» (или нескольких групповых упорядочений — при наличии нескольких «ядер»). Решение этой задачи сводится к построению такого упорядочения, которое было бы, в оп- определенном смысле, наиболее близким к каждому из упоря- упорядочений заданной совокупности — «ядра». Именно с такой задачей сталкивается, например, исследователь, желающий установить неизвестное истинное упорядочение заданной со- совокупности объектов по имеющемуся в его распоряжении на- набору экспертных ранжировок тех же объектов, Для построе- построения единого (группового) варианта упорядочения Х(.ед) ча- часто используют в качестве ранга х(Т] объекта 0t среднее арифметическое или медиану имеющихся базовых рангов х(\\ x(V, ..., х(Р) этого объекта. Обоснование способа построе- построения единого варианта упорядочения может быть получено, на- например, в рамках подхода, предложенного Дж. Кемени и Дж. Снеллом [63] (и распространенного затем Б. Г. Миркиным на случай номинальных признаков [92]), который опирается на введенную ими меру близости между ранжировками (определя- 103
ется ранжировка Х( Л\ наименее удаленная , в смысле введен- введенной меры близости, от всех ранжировок Х(]\ ХBа>, •••, Х(р> базовой совокупности). Задача С может быть сформулирована и как задача наилучшего (в определенном смысле) восстанов- восстановления ранжировки Х(Ош\ связанной с результирующей перемен- переменной у гз х(С), по ранжировкам Х(]>, ХB.>, ..., Х(р.>, индуци- индуцируемым соответственно объясняющими переменными лсA>, x{2\ ..., х(рК В такой формулировке ее называют также задачей регрессии на порядковых {ординальных) переменных. 2.1.4. Вероятностные пространства ранжировок, генерируе- генерируемые порядковыми переменными [14, гл. 4, 51. Вытекающая из определения порядковой случайной величины специфика за- заключается в первую очередь в том, что ее «возможные значе- значения» определены в пространстве ранжировок, причем длина этих ранжировок (п) определяется числом статистически об- обследованных объектов (т. е. объемом выборки!). В то же вре- время множество возможных значений количественной случай- случайной переменной, а следовательно, и ее закон распределения вероятностей никак не зависят от объема обрабатываемой ста- статистической выборки 114, гл. 51. Для приведения «к общему знаменателю» этих двух схем можно воспользоваться одним из двух подходов* а) формализованным описанием (с помощью той или иной математической модели) самого механизма генерирования ран- ранжировок, основанным на допущении, что решение о предпо- предпочтении объекта О; объекту О,- принимается на базе сравнения восстанавливаемых каким-либо способом со случайной ошиб- ошибкой значений латентных (т. е. не поддающихся непосредствен- непосредственному измерению) числовых характеристик vt = v @t) и vj = -•= v (Oj) «ценности» или «предпочтительности» этих объектов (см., например, о моделях Терстоуна—Мостеллера, Льюса и др. в кн.: Статистические методы анализа экспертных оце- оценок.— М,: Наука, 1977); в этом случае параметр п (число сравниваемых объектов) сохраняет за собой роль объема вы- выборки, а закон распределения вероятностей ранжировок рас- рассматривается как распределение в выборочном пространстве, генерируемое вероятностным пространством случайной вели- величины v\ б) определением в качестве t-ro случайного эксперимента [14, п. 4.1.11 результата «наблюдения» Х((> ранжировки по i-му свойству (/ = 0, 1, 2, ..., р)\ тогда число сравниваемых объектов п будет играть роль размерности нашего наблюде- наблюдения, а объем выборки будет определяться числом рассматри- рассматриваемых свойств (т. е. р + 1), 104
Остановимся на последнем подходе к построению и интер- интерпретации вероятностных пространств ранжировок. В этом случае мы приходим к следующей модели вероятностного про- пространства ранжировок длины /г, генерируемого порядковой переменной х^1 Пространство элементарных исходов Q = {со,} 1==уъ со- состоит из М = п\ всевозможных перестановок и не зависит от номера переменной k. Распределение вероятностей зада- задается последовательностью Р<*> = {р(^} Гм> элементы которой, вообще говоря, зависят от номера «генерирующей» переменной k. Поскольку множество элементарных исходов Й дискретно (и конечно!), любое его подмножество измеримо и, следова- следовательно, может быть интерпретировано как случайное событие. Далее (см. § 2.2—2.3) будут предложены рекомендации по вычислению выборочных характеристик парной и множест- множественной ранговой статистической связи. Однако исследование их важных статистических свойств (и в частности, конструи- конструирование на их основе статистических критериев и доверитель- доверительных интервалов для неизвестных теоретических значений анализируемых характеристик) возможно лишь при некото- некоторых дополнительных допущениях (гипотезах) относительно характера последовательностей Р<*> и статистических свя- связей между jc@), xA), ..., лс(р). Наиболее исследованным является случай, когда постули- постулируется справедливость следующей гипотезы #0: (а) случайные переменные {xk}kz=zQ-i статистически #о: независимы (см. [14, §5.5]); (в) все элементарные исходы равновероятны, т. е. B.1) P<*) = Pw = ...=pW=-L,^ = 0, 1,...,р. /21 Содержательно допущения гипотезы Яо означают, что ран- ранжирования заданного множества объектов по различным свой- свойствам х@\ хA\ ..., xw никак друг с другом не связаны (допу- (допущение (а)) и что ни одно из этих свойств не определяет ника- никаких предпочтений в задаче сравнения «качества» анализируе- *Для упрощения обозначений здесь рассматривается лишь случай строгих упорядочений, т. е.* ситуации, когда принципиально невозмож- невозможна неразличимость рангов (объединение рангов). Общий случай имеет лишь технические отличия, связанные с увеличением общего числа М элементарных исходов. 10о
мых объектов, так как в результате случайного эксперимента с одинаковой вероятностью может появиться любое из п\ воз- возможных упорядочений (допущение (в)). К сожалению, стати- статистический анализ, проведенный в рамках допущений B.1), дает возможность лишь принять или отклонить гипотезу Но. А поскольку на практике выборочные ранговые корреляцион- корреляционные характеристики оказываются, как правило, весьма вы- высокими по абсолютной величине (что свидетельствует о том, что мы находимся вне условий нулевой гипотезы), то их рас- распределение в реальной ситуации оказывается неизвестным и на их основе не удается делать дальнейшие выводы (аналогич- (аналогичные, например, тем, которые следуют из п. 1.1.3, 1.1.5, 1.2.3, 1.3.3 относительно парных, частных и множественных корре- корреляционных связей между количественными переменными). Более интересными в прикладном плане нам представляют- представляются условия, постулируемые в рамках гипотезы Нх\ (а) случайные переменные {x{k)}k==— статистически независимы; (в') случайные переменные {#(А)}Л = б— одинаково распределены, т. е. Р<°> = Р(П = ... ='. Р&) = Р; (с) распределение вероятностей Р обладает свойст- свойством монотонности относительно некоторого истинного упорядочения со/о. B.2) Под свойством монотонности понимается выполнение сле- следующего условия: если введенное некоторым образом «рас- «расстояние» d (со/, (oio) между любым упорядочением со, и неко- некоторым «истинным» упорядочением coio не превосходит d (сог, o)io), то pi ~^pv\ другими словами, чем «ближе» ранжиров- ранжировка к истинной, тем с большей вероятностью мы ее получим в результате случайного эксперимента над переменной х^ (k = 0, 1, ..., р), и, следовательно, истинная ранжировка G)j0 является наиболее вероятным исходом случайного экспе- эксперимента. Некоторые результаты, связанные со статистическим ана- анализом ранжировок в рамках условий B.2), можно найти в [105, 131]. 2.2. Анализ и измерение парных ранговых статистических связей 2.2.1. Ранговый коэффициент корреляции Спирмэна. Для измерения степени тесноты связи между ранжировками Л. 106 р _ /Jk) Jk) Y(k)y u v</> __ /Ji) YU) Y(h — (X i y X 2 , ..., X n) И Л. — (X i , X 2 , ..», X n
К. Спирмэн еще в 1904 г. предложил показатель а п i названный впоследствии ранговым коэффициентом корреляции Спирмэна. Прямым подсчетом нетрудно убедиться, что для совпадающих ранжировок (т. е. при x(k) = х(Р для всех i = 1, 2, ..., п) Xkj = 1, а для противоположных (т. е. при х(к) = п — х(Р + 1, i = 1, 2, ..., п) Iff = — 1. Можно показать (см., например, [67]), что во всех остальных случа- случаях ?#| <1. Формула B.3) пригодна лишь в случае отсутствия объеди- объединенных рангов в обеих исследуемых ранжировках. Для ее распространения на общий случай определим для каждой (ft-й) ранжировки Х<*> (к = 0, 1, ..., р) величину где /п(*> — число групп неразличимых рангов у переменной x(k\ a n(t} — число элементов (рангов), входящих в ^-ю груп- группу неразличимых рангов (в частном случае отсутствия объеди- объединенных рангов имеем m(k) = м, п(к\ = п(кг = ... = п(п} = р = 1 и соответственно Tw = 0; кроме того, группы нераз- неразличимых рангов, состоящие из единственного элемента, по существу, не участвуют в расчете величины 7<Л>). Тогда ранговый коэффициент корреляции Спирмэна меж- между ранжировками X(k) и Х<{> следует вычислять по формуле 2 7[? = B.5) у [у(/1»-п)][^] Если Г^> и ТМ являются небольшими относительно g- (л3 — п) величинами, то можно воспользоваться прибли- приближенным соотношением (а при Т(к* = ТМ оно точное) Ю7
B.5') Правда, при этом же условии (относительная малость _|_ ju) по сравнению с ^ (п3 — п)) и приближенная формула B.3) дает хорошую точность. Пример 2.1. Два эксперта проранжировали 10 пред- предложенных им проектов реорганизации научно-производствен- научно-производственного объединения (НПО) с точки зрения их эффективности (при заданных ресурсных ограничениях). Занумеровав про- проекты в порядке ранжировки 1-го эксперта, получаем в каче- качестве исходных данных: Х<!>' = A; 2; 3; 4; 5; 6; 7; 8; 9; 10); Х<2>' = B; 3; 1; 4; 6; 5; 9;'7; 8; 10). Вычисления по формуле B.3) дают: т^ 1 1000-ю A + 1 + 2 + 0+1+1 + 2+1 + + 1+0) = 1 _|_.14 = 0,915, что свидетельствует о существенной положительной ранговой связи между исследуемыми переменными. Пример 2.2. Десять однородных предприятий под- подотрасли были проранжированы вначале по степени прогрес- прогрессивности их оргструктур (признак хA)), а затем — по эффек- эффективности их функционирования в отчетном году (признак jcB)). В результате были получены следующие две ранжировки: Х<*>' - A; 2,5; 2,5; 4,5; 4,5; 6,5; 6,5; 8; 9,5; 9,5); Х<2>' = = A; 2; 4,5; 4,5; 4,5; 4,5; 8; 8; 8; 10). В первой ранжировке имеем четыре группы неразличимых рангов, число элементов в которых больше единицы, а во вто- второй ранжировке — две такие группы. В соответствии с форму- формулой B.4) получаем: Т*1*^ — [B3—1) + B3 —1) + B3—1) + B3— 1)]^=~г=2,33; 7B> = — [D3—1) + C3— 1)] = 7,42. Точная формула B.5) дает т$ = 0,917. Вычисление этого же коэффициента корреляции по приближенным фор- 108
мулам B.3) и B.5') дает соответственно значения 0,921 и 0,917. Все эти результаты оказываются совпадающими при округлении до второго десятичного -знака. 2.2.2. Ранговый коэффициент корреляции Кендалла. Другой широко используемой характеристикой тесноты статистиче- статистической связи между двумя упорядочениями является ранговый коэффициент корреляции Кендалла, определяемый соотно- соотношением [67] B.6) где v (Х(*>, Х<{>) — минимальное число обменов соседних элементов последовательности Х({>, необходимое для при- приведения ее к упорядочению Х(^. Очевидно, величина v (Х(?\ Хф) симметрична относительно своих аргументов, так что с равным правом можно говорить о минимальном числе «со- «соседских обменов» элементов последовательности Х^-\ не- необходимом для приведения ее к виду Хф. Из B.6) сразу следует, что при совпадающих ранжировках Х<*> и Х</>?<?> = 1 (так как v (Х<*\ Х<>> -0), а при противоположных (т. е. при х{]р = п — х{0 +1, i = 1, 2, ..., п, так что v (Х<*>, хф) - \ п (п — 1) )?$> =—1. Нетрудно показать (см., например, [67]), что во всех осталь- остальных случаях |TJtfP|<l. Вычисление т^) связано с необходимостью подсчета ве- личины v (Х(?>, Х@) и, следовательно, является более трудоемким, чем вычисление т(|.). Однако, во-первых, коэффициент Кендалла обладает некоторыми преимущест- преимуществами по сравнению с коэффициентом Спирмэна, главные из них: а) относительно большая продвинутость в исследовании его статистических свойств и, в частности, его выборочного распределения (см. ниже, п. 2.2.4); б) возможность его ис- использования и в частной («очищенной») корреляции рангов [67, гл. 8]); в) большие удобства его пересчета при добавле- добавлении к п статистически обследованным объектам новых, т. е. при удлинении анализируемых ранжировок: для вычисления нового значения рангового коэффициента корреляции прихо- приходится переранжировать значительную часть объектов, что в случае тФ означает необходимость пересчета разностей x{k) — дЧ/). ПрИ вычислении же т|?> значения рангов не играют никакой роли, важно лишь число необходимых «сосед- 109
ских обменов», которое при добавлении новых объектов под- считывается рекуррентным способом (к старому значению v (Х(*}, Хф) может быть лишь дополнен некоторый «доба- «добавок»). Во-вторых, можно воспользоваться рекомендациями, уп- упрощающими подсчет числа v (Х{к)у Хф) как при ручном, так и при машинном счете. Так, при ручном счете полезным оказывается известный факт тождественного совпадения величин v (Х(;\ Хф) и / (Х(?\ Хф), где число инверсий I (Х{к\ Хф) —-это про- просто число расположенных в неодинаковом порядке пар эле- элементов последовательностей Х^ и Хф, являющееся ес- естественной мерой нарушения порядка объектов в одной по- последовательности относительно другой. Для удобства подсчета / (Х(^, ХФ) перенумеруем объекты в порядке, определяе- определяемом рангами последовательности Х(*>. Тогда анализируемые ранжировки Х{к\ Хф соответствующим образом видоиз- видоизменяются, т. е. преобразуются к виду соответственно Х^\ Хф, где Х<?>' - A, 2, ..., п)\ Хф'-^ф,*ф, ..., *<{>), а число инверсий / (Х<*>, Хф) = / (Х<*>, Хф), а следо- следовательно, и величина v (X(^, Хф) определятся по формуле где 1, если x(^> л:/(/) (т. е. нарушен порядок последо- последовательности О — в противоположном случае. Легко подсчитать, что число инверсий / (Х{1:\ Хф) мо- может меняться от 0 (что соответствует случаю совпадающих ранжировок) до ^ п (п — 1) (что соответствует случаю про- противоположных ранжировок). Формулы B.6)—B.7) пригодны для подсчета т<?> лишь в случае отсутствия объединенных рангов в обеих исследуе- исследуемых ранжировках. Соответствующее «подправленное» значе- ние 1^*{3) при наличии объединенных рангов в анализируемых упорядочениях будет определяться соотношением ПО
n?1- К] у . . . ... \ / в котором коэффициент т<*> вычисляется по формуле B.6)— B.7), а «поправочные» величины ?/(/> определяются соотно- соотношением 2 iffi (смысл величин m<;> и n(j> определен в п. 2.2.1, см. B.4)). Для пояснения работоспособности формул B.6)—B.8) вер- вернемся к примерам 2.1, 2.2. Анализ степени согласованности ранжировок двумя экс- экспертами десяти проектов реорганизации НПО (пример 2.1), осуществленный с использованием формул B.6), B.7), дает: Vi2 — 0; v13 = 1, v14 - v15 = vle = v17 = v18 = v19 = v1#10 = 0; v23 = 1; v24 = v25 = v26 = v27 = v28 = v29 = v2#10 = 0; V34 = 1 i V35 = V36 = V37 = V38 = V39 = V3.10 == 0j V45 == V46 = V4? = V48 = V49 s= V4.10 = 0; V56 = 1; V57 = V58 = V59 = V5.lo = 0; V6? = V68 = v69 = v6 ло = 0; V9.10-0. Таким образом, v (X<!>, X<?>) =1 + 1 + 1 + 0+1 + 0 + + 2 + 0 + 0 = 6. Соответственно ^)=1 ^-=1-0,267 = 0,733 (напомним, что коэффициент Спирмэна в этом примере был равным 0,915). hi
При вычислении рангового коэффициента корреляции Кен- далла в примере 2.2 следует воспользоваться формулой B.6'), так как исследуемые ранжировки содержат объединенные ран- ранги. Используя результаты расчета величин тA) = 4, т<2> = 2t „A) „A) „(,1) ~<1) О „B) Л „<«> О /П1и1 п О О П получаем (в соответствии с B.8)): (/A)^^B + 2 + 2 + 2) = 4; [/<2>= — D-3 +3-2) =9. Обращаясь теперь к формуле B.6'), имеем: _ 26 (напомним, что соответствующий коэффициент Спирмэна был равен 0,917). 2.2.3. Обобщенная формула для парного коэффициента кор- корреляции и связь между коэффициентами Спирмэна и Кендал- ла. Для удобства стандартной реализации системы алгоритмов корреляционного анализа на ЭВМ полезно ввести некоторый обобщенный прием вычисления парных корреляционных ха- характеристик, определенный для любой двумерной системы п наблюдений \4Л. ^>, - С этой целью определим некоторое правило, в соответствии с которым каждой паре (x\l\ xW) компонент вектора Х({> (/ = k, j) ставится в соответствие число («метка») а\1}, при- причем это правило должно обладать свойством отрицательной симметричности (т. е. aS1) = — а\1\) и центрированности (т. е. аФ=0 при всех l=k,j и всех 1 = 1,2, ..., п). Тогда обобщенный коэффициент корреляции г(об> переменных х№ и xW определяется формулой п п Н/б) = г „ ';°'f'=1 "V"'n —. B.10) Легко видеть (см., например, [67]), что практически все введенные нами характеристики парной корреляционной свя- 112
зи могут быть получены как частные случаи формулы B.10) при соответствующем выборе правила приписывания числовых «меток» а/,/2. Действительно: а) положив а\[)% = xj[> — *{/>, I = k, /, получаем фор- формулу для обычного парного коэффициента корреляции rhj, если *<'> — значение 1-й количественной переменной в /-м наблюдении (см. п. 1.1.2, формулу A.8')), н формулу для ран- рангового коэффициента корреляции Спирмэна т^>, если х\1) — ранг /-го объекта в ряду, упорядоченном по порядко- порядковой переменной *(/> (см. формулу B.3)); б) положив + 1, если 0, если *?> = *< <>; -1, если *! получаем формулы B.6) и B.6') для рангового коэффициента корреляции Кендаллат^), если под х\1) понимать ранг 1-го объекта в 1-й упорядочении. Заметим, что значения ранговых корреляционных характе- ристик т^> и т??> довольно тесно связаны одно с другим. Это следовало ожидать, так как обе характеристики являются линейными функциями от числа инверсий, имеющихся в срав- сравнении последовательностей Х(^> и Xty- различие этих функций состоит в том, что при подсчете коэффициента Спирмэна ин- инверсиям более отдаленных (по величине) друг от друга эле- элементов приписываются большие веса (см., например, [67, п. 1.17 и 2.121). Между масштабами шкал, в которых измеряют корреляцию коэффициенты t<s> и т<к> нет простого соот- соотношения. Однако уже при умеренно больших значениях п (п ^ 10) и при условии, что абсолютные величины значений этих коэффициентов не слишком близки к единице, их связы- связывает следующее простое приближенное соотношение 2.2.4. Статистические свойства выборочных характеристик парной ранговой связи. До сих пор речь шла о выборочных характеристиках ранговой связи. Попробуем ответить на во- вопрос: как точно эти выборочные характеристики (определен- (определенные, в частности, формулами B.3)—B.8)) оценивают соот- соответствующие истинные (теоретические) значения? пз
Для этого в первую очередь следует пояснить, что в дан- данном случае понимается под теоретическими характеристика- характеристиками. Представим себе сначала конечную генеральную совокуп- совокупность, состоящую из N объектов Ои О2,..., On* каждый из ко- которых снабжен двумя порядковыми номерами: Ог <-> (*<*>, **/>), i — 1, 2, ..., N, где х\1) означает место объекта 0ь в общем ря- ряду всех N объектов, упорядоченном по степени выраженности свойства х{1) (l=k, /). Будем полагать, что статистически об- следованное множество объектов О/1? О/2, ..., О,- образуется как случайная выборка объема /г, взятая из совокупности О1э О2, ..., О* (п « N). Определим теоретические (истинные) значения коэффи- коэффициентов т??>, т^ и г<,°.б> соответственно теми же соотноше- соотношениями B.3)' (или B.5))' B.6) (или 2.6')) и B.10), что и вы- выборочные с заменой объема выборки п объемом генеральной совокупности N. При работе с выборкой производится есте- естественная перенумерация объектов и их рангов, не меняющая их упорядоченности в генеральной совокупности ни по одной из переменных. В дальнейшем нас будет интересовать, как сильно могут отличаться выборочные значения t<s> и т<*> от соответст- соответствующих теоретических, в том числе в так называемых асимп- асимптотических ситуациях, т. е. при Л^->оо и n (N) -*¦ оо. Проверка статистически значимого отличия от нуля ран- ранговых корреляционных характеристик (т. е. проверка гипоте- гипотезы #0, см. соотношения B.1)) осуществляется при «не слиш- слишком малых» п (т. е. при п > 10) при заданном уровне значи- значимости критерия а с помощью проверки неравенств a_(n-2).y l яЦ ; ; B.11) B.12) -f у 9/1 (я-1) в которых tq (v) и uq, как и прежде, 100</%-ные точки соот- соответственно t (v)- и нормального распределения (см. табл. П.6 и П.З). Выполнение неравенств B.11) и B.12) сигнализирует о необходимости отвергнуть гипотезу Яо, т. е. о наличии стати- статистически значимой ранговой корреляционной связи. В слу- случае небольших объемов выборок D ^ п <Л0) статистическая проверка гипотезы об отсутствии ранговой корреляционной связи производится с помощью табл. П.9 и П. 10. 114
Таблица П.9 позволяет при малых п (п = 4,5, ..., 10) по- построить то пороговое значение т?ра>х, при превышении которо- го (по абсолютной величине) коэффициентом Спирмэна тл5> следует признать наличие статистически значимой связи меж- между анализируемыми переменными. Задавшись уровнем зна- значимости критерия а и числом сравниваемых объектов п, оп- определяем из таблицы величину Sc = Sc (n, Q), соответствую- соответствующую нашему п и значению Q = а/2 (или приблизительно равному а/2). Тогда 2Sr(n Q) *??« = I ~1' BЛЗ) где Кп = -ч (^3 — п) (значения этой вспомогательной кон- о станты приведены в последней строке таблицы). Так, в примере 2.1 для уровня значимости а — 0,06 име- имеем: я = 10; Q = 0,03; Sc = Sc A0; 0,3) = 268; /Clo == 330, так что в соответствии с B.13) max 330 Поскольку выборочное значение рангового коэффициента корреляции Спирмэна тE> в этом примере значительно пре- превосходит пороговое значение (т<5> = 0,915 > 0,624), то ги- гипотеза об отсутствии корреляционной связи отвергается. И наконец, в табл. П. 10 приведены значения вспомогатель- вспомогательных величин Sx, позволяющих вычислить (при малых п = 4, 5, ..., 10) то пороговое значение т^, при превышении которо- которого (по абсолютной величине) коэффициентом Кендалла сле- следует признать наличие статистически значимой связи между анализируемыми переменными. Для этого поступают следую- следующим образом: задавшись объемом выборки п и уровнем зна- значимости критерия а, находят в столбце, соответствующем дан- данному /z, величину, равную (или приблизительно равную) а/2; затем находят значение S/< = Sx(n, а) в левом столбце той же самой строки и вычисляют т^^ по формуле 25^) lmax (!) \<^) lmax Если окажется, что т(/С) > т^х» то гипотеза об отсутствии ранговой корреляционной связи отвергается (связь статисти- статистически значима). 115
Так, в примере 2.1 при уровне значимости а = 0,06 име- имеем: п = 10; 0,23 <С о" < 0,36; следовательно, S/c — 22 (оно лежит между 21 и 23), так что т<*> =-2^2-= — =--0,489. тах 10-9 90 Поскольку т(К) = 0,733 > 0,489, делается вывод о на- наличии статистически значимой корреляционной связи между исследуемыми переменными в данном примере. Построение доверительных интервалов для неизвестных истинных значений ранговых коэффициентов корреляции воз- возможно лишь приближенно и только при измерении ранговой корреляции с помощью коэффициента Кендалла. При этом испбльзуют (при п > 10 и значениях т(/с>, не слишком близ- близких по абсолютной величине к единице) приближенный факт нормальности распределения величины т<к> со средним зна- значением Ет(/<) « t<k> и с дисперсией Dx(K>, не пр.евышаю- щей величины ~[1 — (т(К>J]. Можно утверждать, что с до- доверительной вероятностью, не меньшей заданного уровня Р, истинное значение коэффициента Кендалла т(К> заключено в пределах |/l-[l_(^/c))a]f B.15) V П где wg — ^/-квантиль стандартного нормального распределе- распределения (см. табл. П.З). 2.3. Анализ множественных ранговых связей 2.3.1. Коэффициент конкордации (согласованности) как изме- измеритель статистической связи между несколькими порядко- порядковыми переменными. До сих пор мы рассматривали корреля- корреляцию между двумя порядковыми переменными. Однако при ре- решении основных задач А—С статистического анализа ранго- ранговых связей (см. п. 2.1.3) возникает необходимость уметь из- измерить статистическую связь между несколькими (более чем двумя) переменными. С этой целью Кендаллом [67] был пред- предложен показатель W (га), названный коэффициентом кон. 116
кордации (или согласованности), вычисляемый па формуле1 W (т) = ^ У f V *<*>>-- i!i!l±iiY, B.16) где m — число анализируемых порядковых переменных (срав- (сравниваемых упорядочений); п — число статистически обследован- обследованных объектов или длина ранжировки (объем выборки); ku &2> •••» km — номера отобранных для анализа порядковых пе- переменных (из исходной совокупности jc@), хA), хB), ..., х^р\ так что, очевидно, т <! р + 1). Нетрудно устанавливаются следующие свойства коэффи- коэффициента конкордации (см., например, [67, гл. 61): а) 0 <%< 1; б) W = 1 тогда и только тогда, когда все т анализируе- анализируемых упорядочений совпадают; в) если т>3 и анализируемые ранжировки генерируют- генерируются подобно случайному независимому га-кратному извлече- извлечению из множества всех п\ возможных упорядочений п объек- объектов (условия гипотезы Яо, см. и. 2.1.4), то связи между ними нет и W - _0; г) пусть т<5)(т) — среднее значение коэффициента Спир- мэна, подсчитанное по значениям т(т — 1)/2 коэффициен- коэффициентов т^ (i'f j = 1, 2, ..., m; i Ф /), характеризующих ранго- ранговую связь между всеми возможными парами переменных (x{k'l\ x{kj]) из анализируемого набора (x{kl>, x{k*\ ..., x{hm))\ тогда T-s)(ffl)= m?^~' ; B.17) в частности, из B.17) следует для случая т = 2, что B.17') т. е. коэффициент конкордации, исчисленный для двух пере- переменных, пропорционален введенному ранее парному ранго- ранговому коэффициенту корреляции Спирмэна. 1Мы приводим здесь формулу для подсчета выборочного значения W коэффициента конкордации W. Интерпретация и вычисление тео- теоретического значения W непосредственно следуют из рассуждений, приведенных в п. 2.2.4 в связи с анализом статистических свойств аы- борочных парных ранговых коэффициентов корреляции. 117
То, что шкала измерения W (т) не включает в себя отрица- отрицательных значений, объясняется следующим обстоятельством. В отличие от случая парных связей при анализе т (т ^ 3) порядковых переменных противоположные понятия согласо- согласованности и несогласованности утрачивают прежнюю симмет- симметричность (относительно нуля); упорядочения, произведенные в соответствии с переменными x{ki), x(k*\ ..., x(kfn\ могут полностью совпадать, но не могут полностью не совпадать в том смысле, который мы вкладывали в это понятие при т = 2. Формула B.16) получена (и справедлива) в предположе- предположении отсутствия объединенных рангов в каждом из анализи- анализируемых упорядочений. Если же таковые имеются, то формула должна быть модифицирована: (Л.) т(я+1)\Я ¦г ' - —5—1 L, B.16') V Tikj) 1 \2 K /== 1 где поправочный коэффициент T{kJ} (соответствующий пере- переменной jc(V) подсчитывается по формуле B.4). 2.3.2. Проверка статистической значимости выборочного значения коэффициента конкордации. Как ведут себя выбороч- ные значения W (т) коэффициента конкордации при повто- повторении выборок заданного объема п (из одной и той же генераль- генеральной совокупности) при отсутствии какой-либо связи между анализируемыми т переменными? Другими словами, нас ин- интересует ответ на следующий вопрос. Предположим, что каж- каждому объекту конечной генеральной совокупности (состоящей из N элементов) приписан какой-то определенный ранг по каждой из т рассматриваемых переменных. Так, например, если т = 3 и объекту Ог приписана тройка (**A> = jV; х\2) = 1; х\3) = 2), то это означает, что по переменной х^1) он стоит на последнем (jV-m) месте в упорядоченном ряду всех объектов генеральной совокупности, по переменной л:B) — на первом и по переменной хC) — на втором. Тогда по исходным данным {{х\х\ х\*\ ..., *Jm))}<=fjv с помощью формулы B.16) может быть вычислен теоретический (генеральный) коэффициент кон- конкордации W (m), характеризующий степень тесноты ранго- ранговой связи между переменными л;*1), хB), ..., л:(т). Однако ис- исследователю известны значения (x\l), xj2) х}т))лишь для на- ста объектов генеральной совокупности, а именно для слу- 118
чайной выборки объектов объема n(n<iN). После естест- естественной перенумерации рангов, сохраняющей правило упоря- упорядочения объектов, но переводящей масштаб измерения ран- рангов в шкалу A, 2, ..., п) (для этого минимальный из оказав- оказавшихся в выборке рангов по каждой переменной объявляется рангом, равным 1, следующий по величине— рангом, равным 2, и т. д.), может быть вычислен (по той же формуле B.16)) выборочный коэффициент конкордации W (т). Извлекая дру- другую выборку объема п из той же самой генеральной совокуп- совокупности, мы получим, вообще говоря, другое значение выбороч- выборочного коэффициента W (т) и т. д. Спрашивается, как сильно могут отклоняться от нуля вы- выборочные значения коэффициента конкордации W (т) в ситу- ситуации, когда значение теоретического коэффициента конкорда- конкордации W (т) свидетельствует о полном отсутствии ранговой свя- связи между анализируемыми переменными хA), хB), ..., х(т) ? Для малых значений т и п B ^С га ^20, З^См^ 7) ответ на этот вопрос может быть получен с помощью табл. П. 11а. Обозначенная в ней величина S есть не что иное, как B.18) «Входами» в табл. П. 11а является тройка чисел (т, п, S). «Выходом» — вероятность того, что величина S может быть такой, какой она является в нашей выборке, или большей в условиях отсутствия связи переменных в генеральной совокуп- совокупности. Если окажется, что эта вероятность меньше принятой нами величины уровня значимости критерия а (например, а = 0,05), то гипотезу об отсутствии связи следует отвергнуть, т. е. признать статистическую значимость анализируемой свя- связи. Табл. П.116 построена несколько иначе. В ней при уровне значимости а = 0,05 и в соответствии с «входами» (т, п) даны «критические» значения величины S, т. е. такие значе- значения, при превышении которых следует отвергать гипотезу об отсутствии связей (признавать их статистическую значи- значимость). При л >7 для проверки статистической значимости ана- анализируемой связи следует воспользоваться фактом прибли- приближенной х2 (я — 1)-распределенности величины т (п — 1) X X W (m), справедливым в условиях отсутствия связи в гене- генеральной совокупности (W (m), как и прежде, подсчитывается 119
по формуле B.16) или B.16')). Поэтому, если окажется, что т(л —1) W {т)>%Ъ{п — 1), B.18) то гипотеза об отсутствии ранговой связи между переменными x<*i), x{ki), ...,x{km> должна быть отвергнута (с уровнем зна- значимости критерия, равным а); в B.18) величина х& (п — 1)— это 100а%-ная точка х2-распределения с (п — 1)-й степенью свободы (см. табл. П.4). Можно использовать и другой способ проверки статисти- статистической значимости исследуемой ранговой связи между не- несколькими переменными, основанный на том, что в условиях отсутствия таковой в генеральной совокупности распределение 1 t (m— \)-Щт) . случайной величины -^ In __ приближенно описы- вается Z-распределением Фишера с числом степеней свободы 2 числителя vx = п — 1 и знаменателя v2 = (т — 1) vx (при большом числе объединенных рангов или значительной их протяженности в расчет vx и v2 следует ввести поправку, см. [67, гл. 61). Строгих рекомендаций по построению доверительных ин- интервалов для истинного значения W в условиях наличия ран- ранговых связей в исследуемой генеральной совокупности к на- настоящему времени не имеется. 2.3.3. Использование коэффициента конкордации в решении основных задач статистического анализа ранговых связей. Наметим некоторые подходы к решению описанных в п. 2.1.3 задач А, В и С, опирающиеся на понятие коэффициента кон- конкордации. Задача А. При анализе структуры имеющейся сово- совокупности упорядочений (или структуры связей между иссле- исследуемыми порядковыми переменными) существенную пользу может принести решение следующей задачи: найти разбиение анализируемого набора порядковых переменных х<°>, х<г\ ..., ..., х^Р) на заданное число / непересекающихся групп, опти- мольное в смысле максимизации критерия W (t) = -т [W\ + + W2 + ... + WJt где Wj — коэффициент конкордации, под- подсчитанный по переменным, входящим в /-ю группу. Задаваясь различными значениями t = 2, 3, ..., t0 (t0 < р) и прослеживая характер изменения U7^n>T в зависимости от /, можно добить- добиться успеха в выявлении групп высококоррелированных пере- переменных 120
Задача В. В приложениях, особенно при статистиче- статистическом анализе совокупности экспертных мнений (представ- (представленных в виде ранжировок), существенным оказывается вопрос упорядочения самих переменных (интерпретируе- (интерпретируемых, например, в качестве экспертов) по степени их корре- лированности со всеми остальными переменными или с какой-то их частью (представляющей, например, основ- основное ядро высококоррелированных переменных). Для ре- решения этой задачи может быть предложена следующая процедура. Пусть W (р + 1 — k\x{i'i) xi}'z) ... xiIh)) — коэффициент кон- кордации, подсчитанный по всем рассматриваемым перемен- переменным х@), л;*1), ...,х(р) за исключением переменных х^'1\ ..., xilh\ Варьируя состав группы исключенных переменных, мы полу- получим Скл_{ различных значений W (р + 1 —к). Последова- Последовательно вычислим значения всех этих коэффициентов для к — 0, 1, 2,..., k0 и упорядочим их (при каждом фиксирован- фиксированном к) в соответствии с убыванием их значений. Получим: W W(p~ 1 | *<»«>, *<'•>) > W (p— 1 | *(»•>, *<'«>) > ¦ > W {p - Эти упорядочения (на каждом «этаже») и дают нам одно- одновременно ранжировки самих переменных (по одной, по паре, по тройке и т. д.) по степени их согласованности с остальными переменными: очевидно, ту переменную (или ту пару, трой- тройку и т. д. переменных), выбрасывание которой приводит к максимальному значению меры согласованности по осталь- остальным переменным, естественно объявить наименее связанной (согласующейся) с остальными переменными. Это правило, в частности, было с успехом использовано при обработке экс- экспертных мнений в работе, описанной в [11, §5.1]. Задача С. Если коэффициент W (т) свидетельству- свидетельствует о наличии статистически значимой связи между анализи- анализируемыми показателями x{kt\ x^ki)y ..., x(km\ то представляет интерес задача построения оценки неизвестной «истинной» упорядоченности Хнст рассматриваемых объектов. Эта оцен- оценка должна быть, по-видимому, результатом некоторого агре- 121
гирования имеющихся ранжировок Х{к\\ Х{к*), ..., Х{к™К Для формирования Х^ист) чаще других используют один из трех следующих приемов: а) компоненты Х(ист) определяются в результате сравне- сравнения сумм рангов, приписываемых каждому объекту упорядо- упорядочениями Х<*«>, Х<*«>, ..., Х{к™\ б) компоненты Х(ист) определяются в результате сравне- сравнения выборочных медиан рангов, приписываемых каждому объекту анализируемыми упорядочениями; в) «присуждение» мест объектам в упорядочении Х(ист) основано на «большинстве голосов», поданных за данный объект в ранжировках Х^\ ..., X .ш> за то или иное место; на- например, больше других первых мест в анализируемых ранжи- ранжировках получил объект 05, тогда ему и присуждается ранг 1 в ранжировке Х(ист) и т. д. 2.3.4. Примеры. Рассмотрим примеры, в которых реализуют- реализуются приведенные выше рекомендации по статистическому ана- анализу множественных ранговых связей. Пример 2.3. Рассмотрим три порядковые перемен- переменные (л'A), л:B), хC)) и соответствующие им упорядочения де- десяти объектов: Х(>)' Х<>>' Сумма 1 2, 2 5, 5 5 4, 1 1 6, 5 5 2 2,5 4,5 9 4, 4, 4, 13 5 5 5 ,5 3 4,5 4,5 12 7 1 4 5 5 20 6 9 8 23 9 6,5 8 23,5 7, 10 8 25 5 ,5 10 6,5 10 26,5 В соответствии с формулами B.18), B.4) имеем: 10/3 \ 2 = _i—Bs —2)-2 = l; 12 = _L.B3 —2K=1,5; 122 = i_.D3 —4 —3) = 7.
Следовательно, в соответствии с B.16') ЩЗ) = — — -0,828. v ' 1 742,5 — 28,5 —_32.(Ю2_10)—3A + 1,5 +7) Пример 2.4. Требуется проверить статистическую зна- значимость множественной ранговой связи 28 переменных (т = = 28), характеризуемой величиной выборочного коэффициен- коэффициента конкордации W B8) = 0,08, подсчитанного по 13 объек- объектам (п = 13). Воспользуемся фактом %2 A2)-распределенности случай- случайной величины т (п — 1) W (т), который имеет место при- приближенно) в случае, если в исследуемой генеральной совокуп- совокупности множественная ранговая связь отсутствует. Тогда кри- критерий сводится к проверке неравенства B.18). Задавшись уров- уровнем значимости критерия а = 0,05, находим из табл. П.4 значение 5%-ной точки х2-распределения с 12 степенями сво- свободы Х§ 05 A2) = 21,026. В то же время т (п — 1) W (т) = = 28-12.0,08 - 27. Поскольку т (п — 1) W (m) >Xo,os A2), то оказалось, что даже такого маленького числа, как 0fi8, «хватило» для того, чтобы объявить связь между 28 исследуемыми перемен- переменными статистически значимой. ВЫВОДЫ 1. Анализ статистических связей между порядковыми пере- переменными сводится к статистическому анализу различных упо- упорядочений (ранжировок) одного и того же конечного множест- множества объектов и осуществляется с помощью методов ранговой корреляции. В зависимости от типа изучаемой ситуации (шка- (шкала измерения анализируемого свойства не известна исследо- исследователю или отсутствует вовсе; существуют косвенные или ча- частные количественные показатели, в соответствии со значе- значениями которых можно определять место каждого объекта в общем ряду всех объектов, упорядоченных по анализируемому основному свойству) процесс упорядочения объектов произво- производится либо с привлечением экспертов, либо формализованно — с помощью перехода от исходного ряда наблюдений косвен- косвенного количественного признака к соответствующему вариа- вариационному ряду. 2. Исходные статистические данные для проведения ранго- рангового корреляционного анализа представлены таблицей (ма- (матрицей) рангов статистически обследованных объектов разме- 123
pa я X (p + 1) (число объектов на число анализируемых пе- переменных). При формировании матрицы рангов допускаются случаи неразличимости двух или нескольких объектов по изу- изучаемому свойству («объединенные» ранги). 3. К основным задачам теории и практики ранговой корреля- корреляции относятся: анализ структуры исследуемой совокупности упорядочений (задача А); анализ интегральной (совокупной) согласованности рассматриваемых переменных и их условная ранжировка по критерию степени тесноты связи каждой из них со всеми остальными переменными (задача В); построение единого группового упорядочения объектов на основе имею- имеющейся совокупности согласованных упорядочений (задача С). 4. Статистический анализ взаимосвязей порядковых перемен- переменных строится на базе различных вариантов моделей вероятност- вероятностного пространства, в котором роль пространства элементар- элементарных исходов играет множество всех возможных перестановок из п элементов (п — число статистически обследованных объектов). 5. В качестве основных характеристик парной статистической связи между упорядочениями используются ранговые коэф- коэффициенты корреляции Спирмэна т<5> и Кендалла т(к> (см. формулы B.3)—B.8)). Значения этих коэффициентов меняют- меняются в диапазоне от —1 до +1, причем экстремальные значения характеризуют связь соответственно пары прямо противопо- противоположных и пары совпадающих упорядочений, а нулевое зна- значение рангового коэффициента корреляции получается при полном отсутствии статистической связи между анализируе- анализируемыми порядковыми переменными. 6. В качестве основной характеристики статистической свя- связи между несколькими (т) порядковыми переменными исполь- используется так называемый коэффициент конкордации (согласо- (согласованности) Кендалла W (т), определяемый формулами B.16)— B.16'). Между значением этого коэффициента и значениями парных ранговых коэффициентов Спирмэна, построенных для каждой пары анализируемых переменных, существуют про- простые соотношения (см. B.17), B.17')). 7. Если представить себе, что каждому объекту некоторой до- достаточно большой гипотетической совокупности (будем назы- называть ее генеральной совокупностью) приписан какой-то ранг по каждой из рассматриваемых переменных и что статистическому обследованию подлежит лишь часть этих объектов (выборка объема я), то достоверность и практическая ценность выводов, основанных на анализе ранговой корреляции, существенно за- зависят от следующего вопроса: как ведут себя выборочные зна- значения интересующих нас ранговых корреляционных характе. 124
ристик при повторениях выборок заданного объема, извлечен- извлеченных из этой генеральной совокупности. Это и составляет предмет исследования статистических свойств выборочных ранговых характеристик связи. Результаты этого исследова- исследования относятся прежде всего к построению правил проверки статистической значимости анализируемой связи и к построе- построению доверительных интервалов для неизвестных значений ко- коэффициентов связи, характеризующих всю генеральную сово- совокупность (см. п. 2.2.4, 2.3.2). 8. Парные и множественные характеристики ранговой кор- корреляции являются удобным инструментом решения основных задач (см. задачи А, В и С в п. 2.1.3) статистического анализа связей между порядковыми переменными (см. п. 2.3.3 и при- примеры 2.1—2.4). Глава 3. АНАЛИЗ СВЯЗЕЙ МЕЖДУ КЛАССИФИКАЦИОННЫМИ (НОМИНАЛЬНЫМИ) ПЕРЕМЕННЫМИ 3.1. Таблицы сопряженности Ограничимся рассмотрением таблиц с двусторонней груп- группировкой. Для них сформулированы основные гипотезы и ука- указаны методы их проверки, описана логарифмически-линейная параметризация, приведены различные меры зависимости меж- между строками и столбцами таблицы. Вводятся понятия энтро- энтропии случайной величины и информации, содержащейся в од- одной случайной величине относительно другой случайной ве- величины, представляющие самостоятельный интерес. Методы изучения таблиц с тремя и более входами можно найти в [23, 75, 154, 168, 199, 238]. 3.1.1. Три основные выборочные схемы, приводящие к табли- таблицам сопряженности. Схема I возникает в случае, когда рас- распределения строк (хп, ..., хи) i = 1, ..., / (столбцов) табли- таблицы можно рассматривать как независимые выборки из поли- полиномиальных распределений с вероятностями цц 2 qtj = 1 и фиксированным числом наблюдений П{ = 2 ха- Такая ор- организация данных обычно возникает, когда хотят сравнить между собою несколько одномерных распределений, представ- представленных выборками заранее заданного объема. Наиболее важ- важная гипотеза для первой схемы Н\ \ q:; = о j/1, где q ,• = ^v^, q,,. C.1) i 125
Гипотезу Н[ называют гипотезой однородности (см. [14, п. 1.1.3 и 11.21). Схема II. Предполагается, что (хп, х12у ..., xfJ) имеют Полиномиальное распределение с вероятностями (рп, ..., ри) и фиксированным числом наблюдений п = 2 ха- Таблица сопряженности в этом случае является обычной дву- двумерной гистограммой для п наблюдений, а аналогом C.1) —• гипотеза НП:ри = р>.рф C.2) где pi. — 2 Ри и P-J ~ 2j Ри- Если воспользоваться опре- делением условной вероятности [14, п. 4.1.3], то Р {попасть в клетку (/, /)| быть в ряду 1} = Р {быть в столбце /}. По- Поэтому гипотезу Н\1 называют гипотезой независимости. Схема III возникает, когда в схеме II общее число на- наблюдений рассматривается как случайная величина. Ее важ- важным частным случаем является случай, когда п имеет распре- распределение Пуассона. В этом случае все хи независимы между со- собою и также имеют распределение Пуассона с параметрами Xij. Аналогом C.1), C.2) является гипотеза Ки = К1..^/К., C.3) где Xt. = 2*«v. ^./= 2>*v и А,.. = 2*/у- Гипотезу Н\" I i i. f называют мультипликативной пуассоновской моделью, или, короче, гипотезой мультипликативности. В качестве примера схемы III может быть рассмотрена следующая задача. Пусть xtj — число дорожно-транспортных происшествий, зареги- зарегистрированных в какой-либо местности в L-и день на дорогах /-го типа. Параметры Хг-7- в этом случае отражают ожидаемое число дорожно-транспортных происшествий. Если использо- использование транспортом дорог разного типа существенно зависит от дня недели, то гипотеза Н\и , вероятно, не верна. Однако она может иметь место, если, например, рассматривать только ра- рабочие дни. Существует приближенный графический тест для провер- проверки гипотезы Н\и [154]. Он заключается в том, что для каждо- каждого / = 1, ..., J строится график, в котором по оси абсцисс от- откладываются точки xt. = 2*/;» а по оси ординат — Xij. Ес- / ли гипотеза Н1п верна, то нанесенные точки должны группи- группироваться вокруг линии, проходящей через начало координат с наклоном X.j/h... Вероятность выхода заданной точки за 126
/ к • / к Л\1/2 пределы ± 2 \Xi.-j-1 A ^-ч! не более 0,05. Использо- Использование такого графического представления позволяет сразу же локализовать пары (/, /), в которых происходит значимое от- отклонение от HI11. Можно доказать, что если в схеме III зафиксировать х.. = п, то она переходит в схему II с ри = Хи/Х... При этом Н1и переходит в И[1. Аналогично, если зафиксировать в схеме II суммы xtj по рядам, положив пх = 2*и'» •••» ni ~ = 2 х//» то схема И переходит в схему I с qu = Pij/pt., a Я*1 в Я^. Поэтому следует ожидать, что в математической трактовке схем I, II, III должно быть много общего. 3.1.2. Логарифмически-линейная, параметризация таблиц со- сопряженности. Для любой из описанных выше моделей положим + 0т C.4) или txii = ln^ = e<o> + ei1)+e}2>+ej/2> C.4') В данном случае мы несколько отступаем от принятых в книге обозначений, так как индексы сверху 0 означают век- векторы, а индексы снизу — их координаты. Параметры должны удовлетворять ограничениям 2 е^2) =* S W1} = S е^2) - о. C.5) Так же, как в дисперсионном анализе (см. § 13.3), величи- величины 8//2> называют взаимодействиями, 9/1) — эффектами строк, б}2> — эффектами столбцов и 9<°> — общим эффектом. При ограничениях C.5) модель C.4) имеет ровно IJ не- независимых параметров, так как всего имеется одно значение 0<°>, (/ — I) независимых б*1*, (J — 1) независимых Э(/) и (/ — 1) {J — 1) независимых 6//*\ • Из C.4') и C.5) следует, что ^~^; C.7) iM-iw C.8) |i^, C.9) где fi^ = 2 Putt, P*j =Sj*^/A И^** =2^,j/IJ. i t '. / 127
В новых обозначениях гипотезы #*, Н*1 и #Jn перехо- переходят в гипотезу Щ12): е;/2)х=0 для всех i и /. C.10) Оценки максимального правдоподобия для параметров по- получаются из формул C.6)—C.9) путем замены в них jilV на тц = In Xtj. Если все хц Ф 0, то оценки максимального прав- правдоподобия всегда существуют. Для того чтобы снять пробле- проблему существования оценок в общем случае, когда есть xtj = 0, положим для всех i, j ти = In (xu + с), где 0 <.с < 1. Асимптотические (при п -*- оо) свойства новых оценок будут такие же, как и у оценок максимального правдоподобия. 3.1.3. Проверка гипотез #0!, Н\\ Н\п. В [14, п. 11.2.21 описано применение критерия х2 Для проверки однородности нескольких рядоа распределений (гипотеза Н\ в схеме I). В обозначениях настоящего параграфа использованная для этой цели статистика имеет вид Г ^l.C3.ll> В случае когда Н\ имеет место, X2 приближенно распределе- распределено как х2 ((/ — 1) (J — 1))- Этот же критерий можно исполь- использовать для проверки гипотез Я^1 и #?п. Наряду с критерием X2 для проверки этих гипотез приме- применяют информационную статистику — 2 xj, In xj + x.. In jc.V C.12) / / которая при выполнении гипотезы о независимости или одно- однородности при п ->• оо асимптотически так же распределена, как х2 ((/ — 1) (J — 1)). Когда в таблице одна или несколько клеток содержат нули, рекомендуется применять поправку: для каждого нуля отнимать из величины 2м/ единицу1. Кри- Критерий 2п1 легко получить из общих принципов проверки слож- сложной гипотезы [14, п. 9.3.3]. В самом деле, -2 In {!(*„, ...,*„; вA), вB), вA2)-0)/Мхш ...,хи; в*1*, в<2>, хСм.: За кс Л. Статистическое оценивание. —М.: Статистика, 1976, с. 445. 128
равняется правой части C.12), а гипотеза #о12) накладывает ограничения на (/ — 1) (У — 1) параметров. Большие рас- расхождения между критериями X2 и 2п/ на практике наблюда юте я редко. Особое значение информационной статистики заключает- заключается в том, что для таблиц с многосторонней группировкой она может быть разложена на аддитивные составляющие, соответст- соответствующие различным гипотезам. При этом может быть построе- построена теория, во многом параллельная дисперсионному анализу (см. гл. 13). 3.1.4. Меры связи между строками и столбцами таблицы. Если связь, обнаруживающаяся при проверке гипотез неза- независимости или однородности, оказывается значимой, то по- полезно иметь численную меру ее. Хотя величина X2 дает нам удобный критерий значимости связи, она не может служить мерой связи. Так, если оставить неизменными все относи- относительные величины в таблице и увеличивать общее число из- измерений я, то величина X2 будет расти пропорционально п. Предложено много различных мер связи [23], но наиболее из- известными среди них являются меры, основанные на отноше- отношении Х2/п: <р = (Х21п)х/2 —квадратный корень из среднего квадрата со- сопряженности', С = IX2/(X2 + я)]1/2 — коэффициент сопряженности; Т = [X2lnV (/ — 1) (J — I)]1'2 — мера связи Чупрова. Наряду с ними практический интерес представляют ин- информационные меры связи. Прежде чем переходить к ним, вве- введем понятие энтропии случайной величины и информации, со- содержащейся в одной случайной величине относительно дру- другой случайной величины. Пусть случайная величина ? принимает конечное число значений х% (i = 1, ..., k) с вероятностями, соответственно рав- равными pi(xt), тогда ^(Б)=-2л(^Iпл(д:)=:-Е1пЛ(Б) C.13) х называют энтропией ? и рассматривают в качестве меры не- неопределенности ?. Энтропия обладает следующими свойствами: 1) Н (?) ^г 0, причем равенство достигается тогда и только тогда, когда ? принимает только одно значение; 2) Н (?) не меняется при взаимно-однозначных преобразо- преобразованиях ?; 3) Н (?) максимально, когда все возможные значения % рав- равновероятны. 244 129
По аналогии с Я (?) определяются энтропия распределе- распределения пары случайных величин и условная энтропия: я(g, т]) = — 2 pi. л (*. #)lnpg. л(*. 1/) = — Elnpi. ч (?. л); Основные свойства Я ( 1) Я (?, |) - Я (?); 2) Я (?, л) = Н&) + НШ\ 3) Я E, т]) ^ Я (^) + Я (т]), причем равенство достигает- достигается тогда и только тогда, когда \ и ц статистически независимы. Основные свойства Я (||т]): 1) Я (?11) - 0; 2) Я (?fo) ^ Я E), причем равенство достигается тогда и только тогда, когда | и г\ статистически независимы. Информационная мера зависимости ? и г\ определяется как / (g, Л) - Я (?) + Я (Л) - Я (?, Л). C.14) Про / (?, л) говорят, что она измеряет количество информа- информации в 5 относительно т] или количество информации в г\ от- относительно ?. Основные свойства / (?, л) легко следуют из свойств Я E, л): 1) / E, л) ^0» причем равенство достигается тогда и только тогда, когда ? и л статистически независимы; 2) / (|, 9 = Я (?). При анализе таблиц сопряженности используют направлен- направленные меры связи: C.15) C.15') Коэффициенты С заключены в пределах между 0 и 1 и по своим свойствам во многом аналогичны обычным коэффициен- коэффициентам корреляции. Они равны нулю, когда переменные ? и л статистически независимы; Сцц равно 1, когда I однозначно определяется по л; они не меняются при взаимно-однознач- взаимно-однозначных преобразованиях переменных. Пример 3.1. Пусть взаимное распределение ? и л задано с помощью табл. 3.1. Тогда Я (g, л) = 1,06; Я (I) = 0,77; Я (л) = 1,06; / (?, Л) = 0,77; CSI4= 1; Сч16 = 0,73. 130
Таблица 3.1 I 0 1 0 0,40 0 0,40 1 0,20 0 0,20 2 0 0,40 0,40 0,60 0,40 1 3.2. Приписывание численных значений качественным переменным (дуальное шкалирование) 3.2,1. Методическое место дуального шкалирования. Наряду со статистическими методами, изложенными в предыдущем параграфе, в работе с таблицами сопряженности может быть использован принципиально отличный подход. Градациям пе- переменных, измеренных в общем случае в шкалах наименова- наименований, приписываются численные значения так, чтобы достиг своего экстремума определенный функционал. Далее с новы- новыми переменными работают как с переменными, измеренными в качественных шкалах. В целом этот подход, который мы, следуя предложенному в [232], будем называть дуальным шкалированием (dual scaling), по своему методическому со- содержанию ближе к анализу данных, чем к традиционным ста- статистическим методам. В нем не формулируется математиче- математическая модель распределения исходных данных, предлагаемые статистические критерии носят, вообще говоря, эвристический характер, но зати четко и наглядно формулируется принцип приписывания численных значений. Дуальное шкалирование за последние 50 лет открывалось и переоткрывалось независимо разными исследователями и известно под различными названиями: «метод взаимных усред- усреднений» (the method of reciprocal averages) [210, 246], «аддитив- «аддитивное или оптимальное шкалирование» (additive or optimal scoring) [183], «метод максимизации коэффициента корреля- корреляции» (bivariate correlation approach) [198, 230], «взвешивание по Гутману» (Guttman weighting) [169], «анализ главных ком- компонент качественных данных» (principal component analysis 5* 131
of qualitative data), «одновременная линейная регрессия- (simultaneous linear regression) [2031. С точки зрения исполь- используемого алгебраического аппарата к дуальному шкалирова- шкалированию примыкают современные методы визуализации таблич- табличных данных: «биплот» (biplot) [171], «(факторный) анализ соответствий» (correspondance (factor) analysis) [165, 166], хотя их целевая направленность шире задачи оцифровки зна- значений переменных. Широкое использование при обработке данных ЭВМ сде- сделало дуальное шкалирование одним из основных инструмен- инструментов первичного анализа данных. Этим объясняется возрожде- возрождение внимания к нему в начале 70-х годов. Основные публика- публикации, последних лет по дуальному шкалированию — [222, 224, 232, 247]. Вычислительные программы могут быть найде- найдены в [169] и [232]. Сопоставление различных подходов к выбору оптимизи- оптимизируемого функционала в дуальном шкалировании позволяет глубже понять заложенные в методе возможности. Поэтому в дальнейшем сформулируем несколько различных принци- принципов приписывания численных значений и покажем, что все они ведут к одному и тому же результату. 3.2.2. Максимизация F-отношения суммы квадратов отклоне- отклонений между объектами к полной сумме квадратов отклоне- отклонений. Изложение начнем с гипотетического численного приме- примера. Предположим, что 10 экспертов произвели оценку органи- организации труда в четырех лабораториях. Эксперты могли исполь- использовать лишь три категории оценок: хорошо, удовлетворитель- удовлетворительно, неудовлетворительно, и один из экспертов оценивал лишь первые три лаборатории. Пусть полученные данные представ- представлены в виде таблицы сопряженности X, в которой Хц означа- означает число оценок градации /, полученных i'-й лабораторией (табл. 3.2). Таблица 3.2 Порядковый номер лаборатории @ 1 2 3 4 Итого x.j Оценка (/) хорошо 1 2 3 6 12 удовлетво- удовлетворительно 3 4 5 3 15 неудовлетво- неудовлетворительно 6 4 2 0 12 Итого 10 10 10 9 *.. = 39 132
Припишем численные значения оценкам: vx — хорошо, v2 — удовлетворительно, v3 — неудовлетворительно. Тогда на- набранные лабораториями оценки можно представить в виде односторонней таблицы дисперсионного анализа (см. гл. 13), в которой СКП — полная сумма квадратов отклонений, СКМ — сумма квадратов отклонений между лабораториями и СКВИ — сумма квадратов отклонений внутри лабораторий (табл. 3.3): Таблица 3.3 Порядковый номер лабо- лаборатории @ 1 2 3 4 Итого 01. 01. 01. 01, 02, 01. 01, 01, 02, 02, 01, 01, Оценки 02, 02, 02, 01, 03, 02, 02, 01, 0з. 02, 02, 01. и) 0з, 0з, 02, 02 0з, 0з, 02, 02 0з, 0з, 0з, 02 0з 0з 0з Итого (w-.) 01+3^2+603 = ^1. 2v x + 4i>2 + 4у з = w2. 3^+5^+2и3 = о'з. 6^+3^2 = ^4- 12^ + 15^2 + 12^3 = = Ш1.+Ш2.+Ш3.+^4.= 0. х . = 12+ 15+ 12 =39; 2- 4. СК„ = 5. CKM = 6. СКВН i i 3. + oi|. /10 + of| . /10 + ш|. /9; Величину т|2 = СКм/СКвн будем называть корреляцион- корреляционным отношением (correlation ratio). Поскольку СКП = СКМ + + СКВН, то 0<т|2< 1. Если v1 = v2 = v3 = const, то СКМ = СКВН = СКП = 0 и т]2 не определено. Исключим этот неинтересный случай и подберем численные значения vt так, чтобы оптимизировать ц2. Полагая для однозначности wmt = 0, v1 >0, СКП = 39 и временно опуская детали вычислений, имеем 133
C.16) Таким образом, нами одновременно решены следующие задачи: 1) приписаны численные значения {vt} градациям оце- оценок, которыми пользовались эксперты; 2) оценена в услов- условных единицах (баллах) {wj} организация труда в лаборато- лабораториях; 3) оптимизировано корреляционное отношение (т]2). Дадим общую формулировку принципа, по которому при- приписываются численные значения, и опишем соответствующую вычислительную процедуру. Матричная формулировка основного принципа оптимиза- оптимизации. Пусть X — (т X д)-матрица таблицы сопряженности; А = (Х1ч •••» Хт-У — (т X 1)-вектор сумм элементов X по строкам; В = (х.\, ..., х.п)'—(п X 1)-вектор сумм элемен- элементов X по столбцам; х.. — общая сумма элементов X; w = (mXm) r Lo 0 ' xm. ; v = (ПХП) x.\ 0 " * .0 x.n_ вспомогательные диагональные матрицы; V = (vu ..., vn)' — (n X 1)-вектор численных значений, приписанных строкам; W = (w11 ..., шт)' — (т X 1)-вектор численных значений^ приписанных столбцам; до = ^WiXiJx.. = A'WIx.. = 5'W /а:.. —общее среднее значение. В нашем примере /п = 4, л = 3, X определяется по табл. 3.2; А = A0, 10, 10, 9)'; Б = = A2, 15, 12)'; х.. = 39; 10 0 0 0 О 10 0 0 О О 10 0 0 0 0 9 векторы У, W определяются из C.16); w = 0. При сделанных предположениях (ср. с табл. 3.3) C.17) 134
откуда tf = К' X' Vf-iXV/V VV C.18) при условии, что В'К = уд = о. C.19) Оптимизация величины тJ. Поскольку уравнениями C.18) и C.19) V определяется с точностью до постоянного множи- множителя, положим для определенности х... C.20) Будем искать максимум числителя C.18) при ограничениях C.19) и C.20) методом множителей Лагранжа. Пусть Q (V) = = V'X'W^XV-^^V'VV — x..)—k2V'B, тогда для на- нахождения V должны быть решены уравнения dQ/dV = 2 [X' W-^X] V — 2X1VV — к2В = 0; C.21) dQ/дХг = V'W — x.. = 0; C.22) dQld\2 = V'B = 0. C.23) Умножим C.21) слева на V и, воспользовавшись уравне- уравнением C.23), получаем с учетом C.18), что J У'Х' W^XWV'VK ^ ч Для оценки величины Х2 умножим C.21) слева на \п = = A, ..., 1)' и воспользуемся легко проверяемыми равенства- равенствами Ux'w^x = A' w-ix = i;w- ^,; UV = B'. C.24) В силу C.19) отсюда следует, что Ха = 0. Уравнения C.21) могут теперь быть представлены в виде (V-1 X' W-1 X — т]2 I) V = 0; C.25) таким образом, т]2 должно быть собственным значением урав- уравнения C.25). Поскольку легче работать с симметричными ма- матрицами, произведем замену переменных, положив V = Vl/W. C.26) Уравнения C.21)—C.23) при этом перепишутся в виде 1/2—туЧ) У*=0; C.2Г) C.22') C.23') 135
По аналогии с цепочкой уравнений C.24) непосредственно, проверяется, что вектор Vo = Vxl2\n является собственным вектором C.2Г), отвечающим собственному числу к\2 = 1 удовлетворяет C.22') и не удовлетворяет C.23'). Отсюда следует, что искомое т]2 будет вторым по порядку после 1 собственным числом C.2Г), а вектор V — соответствующим ему собственным вектором. При этом будет выполнено и усло- условие C.23'), так как собственные векторы, отвечающие разным числам, взаимно перпендикулярны. С помощью стандартной алгебраической процедуры [102, гл. 5] можно исключить из матрицы R = V-1/2 X' W-^XV-1/2 собственное число ц2 = 1. Для этого R достаточно заменить на C.27) Нахождение максимального собственного числа и соот- соответствующего ему собственного вектора уравнения (С— у\Ч) х X V = 0 проводится стандартными методами [102, гл. 4]. 3.2.3. Двойственность в определении V и W. В примере пре- предыдущего пункта мы приписывали веса различным градациям оценок и получили баллы для лабораторий. При этом -~ sup r'v-'"X'w-»xv-'/«V C.28) -\/1п V'V Однако аналогичную задачу мы могли бы решить в обрат- обратном порядке, приписывая численные веса лабораториям так, чтобы максимизировать среднеквадратический разброс меж- между средними баллами, соответствующими разным градациям оценок. При этом по аналогии мы получили бы - sup ^w^xv^x'w-'/2^ C29) ^2m W W Если обозначить D = V-^X' W-1/2, то в формуле C.28) т]2 является вторым по величине собственным числом матри- матрицы DD', а в C.29) — вторым по величине собственным чис- числом D'D. Известно [102], что отличные от нуля собственные числа матриц DD' и D'D совпадают. Следовательно, совпа- совпадают и значения т|2. Возьмем теперь вектор Vly вычисленный как решение C.21)—C.23), и найдем вектор Wx средних значений, припи- приписанных лабораториям Wx = W-1 XVV C.30) 136
Будем считать, что лабораториям приписаны численные значения, определяемые вектором U7lf и вычислим средние баллы, которые получат градации оценок: F2=V-1X'Wr1 = V-1X'W-iXl/1. C.31) В силу C.25) левая часть C.31) есть t\2V1} т. е. векторы V2 и Vx пропорциональны. Продолжая, мы находим Wr25=W-1XF2 = W-1Xri2F1==rj2U71. C.32) Таким образом, безразлично, решим ли мы экстремальную задачу п. 3.2.2 для столбцов или строк, мы определим значе- значения V, W с точностью до множителя пропорцио^льности. На этом свойстве, а также на том, что ц2 — максимальное собственное число, меньшее 1, основан метод взаимных усред- усреднений. В нем выбирается значение Vx (или WJ так, чтобы выполнялось соотношение C.23), далее по формулам C.30) и C.31) находятся Wx и V2. Вектор V2 каким-либо образом нормируется, например умножается на величину, обратную максимальному абсолютному значению его координат. Процесс вычислений повторяется до тех пор, пока последовательные значения V не будут близки друг к другу. Условие C.23) гарантирует, что у начального вектора Vx нет составляющей, соответствующей ц2 = 1. Описанный итерационный процесс сходится тем быстрее, чем удачнее выбрано начальное прибли- приближение. 3.2.4. Максимизация коэффициента корреляции. Рассматри- Рассматривая матрицу X в качестве выборки из двумерного распре- распределения (V, W) и для простоты выкладок полагая B'V = A'W = =0, можно определить коэффициент корреляции между пере- переменными как r w v C.33) ww-v vv Будем теперь V и W искать из условия максимизации зна- значения г. Для этого, так же как в 3.2.2, воспользуемся методом множителей Лагранжа. Пусть Q(V, W) = W'XV — %! (V'VV — х..) — Х2 (W X X WB? — х..), тогда уравнения для нахождения V и W име- имеют вид: *= X' W—2X1 W = 0; C.34) dQ/dW = XV—2\2 WW - 0; C.35) 137
.. = 0; C.36) x.. = 0. C.37) Умножив слева C.34) на V\ a C.35) на W и воспользовав- воспользовавшись C.36), C.37), C.33), имеем V'X' W = 2k1V'VV^2X1x..; W XV = 2X2 W WW - 2X2 *..; Откуда r = 2kx = 2Я2. Воспользовавшись C.35), C.36), C.37), заменим в уравнении для определения г W через V: г = max —. = — max = —i— . w.v yurwwvv г к и' vv r Таким образом, г2 = т]2 и У является собственным векто- вектором C.25), т. е. максимизация коэффициента корреляции при- приводит к тем же численным значениям, что и изложенные вы- выше методы. 3.2.5. Изучение оптимального решения. Когда найдено оп- оптимальное решение (г|2, К, W), возникает вопрос, в какой степени оно исчерпывает информацию, содержащуюся в ис- исходных данных. Ведь у матрицы С (см. C.27)) есть другие собственные значения и векторы. По аналогии с методом глав- главных компонент [14, § 10.5] для ответа на этот вопрос будем ис- использовать величину 6 = 100%-rJ/Sp (С), C.38) где Sp (С) — сумма диагональных элементов С. В примере п. 3.2.2 б = 92,3%, т. е. оптимальное решение C.2Г)—C.23') объясняет существенную долю информации, содержащейся в табл. 3.2. Строго обоснованного теста для проверки значимости от- отличия от нуля оптимального значения т|2 нет. В [2321 рекомен- рекомендуется приближенный критерий х» = _[*.. _ 1 _ (п + т — 1)/2] In A — г]2) C.39) с числом степеней свободы / = т + п — 3. В нашем случае /-4 + 3 — 3 = 4, Х2 = _ [39 — 1 _ C + 4 — 1)/2] In A —0,292) - 12,10. Различие следует считать значимым с уровнем значимости 0,017. 138
Для сравнения к тем же данным применим статистиче- статистические критерии из §3.1. Традиционный критерий C.11): X2 = 12,35 (/ = 6); уро- уровень значимости связи между переменными — 0,055. Логлинейный подход C.12): 2/г/ = 13,13 (с поправкой на нулевую ячейку), (/ = 6); уровень значимости связи между переменными — 0,041. Из приведенных данных видно, что в рассмотренном при мере с точки зрения оценки статистической значимости свя- связи между строками и столбцами традиционный и логлинейный подходы к таблицам сопряженности, с одной стороны, и дуаль- дуальное шкалирование, с другой стороны, дают сравнительно близ- близкие результаты. Однако в общем случае связь между этими двумя методами пока достаточно не изучена [232, с. 181]. 3.2.6. Таблицы «объект—многомерный отклик». Исходные данные для дву-, трех- и более мерных таблиц сопряженности часто могут быть представлены в форме таблицы, в которой строки соответствуют объектам (субъектам), столбцы — гра- градациям используемых классификационных переменных и на пересечении 1-й строки и столбца, соответствующего у-й гра- градации /-и переменной, стоит 1 или 0 в зависимости от того, имеет ли место для i-ro объекта эта градация A) или нет @). В случае когда для ряда объектов значения одной из перемен- переменных не определены (измерены в непредусмотренной шкале, не измерены, утрачены при обработке и т. п.), либо исклю- исключают из таблицы соответствующие объекты, либо вводят для этой переменной дополнительную градацию «значение не опре- определено». Пример фрагмента таблицы, которая могла бы быть исходной для данных примера п. 3.2.2, дан в табл. 3.4, где приведена оценка организации труда в четырех лабораториях (таблица «Единица наблюдения —(лаборатория, оценка, экс- эксперт)»). В качестве единицы наблюдения (объекта) в ней взя- взято резюме из карточки, заполняемой экспертом после обсле- обследования и оценки организации труда в лаборатории, в котором указываются номер лаборатории, оценка, номер эксперта. Если бы априори было известно, что эксперты эквивалент- эквивалентны друг другу и их оценки не зависят как от обследуемых ими лабораторий, так и от оценок, выставляемых другими исследо- исследователями, то в табл. 3.2 и 3.4 содержалась бы одна и та же ин- информация, но представленная в разном виде. Однако на прак- практике эти условия обычно не выполняются. Так из табл. 3.4 видно, что первый эксперт по сравнению со вторым имеет тен- тенденцию завышать оценки. Поэтому табл. 3.4 содержит больше информации, чем табл. 3.2, и дает возможность изучить не 139
« о к & W к к 1 2 3 4 5 6 7 8 37 38 39 40 Ит ого Лаборатории 1 1 0 0 0 1 0 0 0 1 0 0 0 10 2 0 1 0 0 0 1 0 0 0 1 0 0 10 3 0 0 1 0 0 0 1 0 0 0 1 0 10 4 0 0 0 1 0 0 0 1 0 0 0 10 Оценка* 1 1 0 1 1 0 0 0 0 0 0 0 0 12 9 0 1 0 0 0 0 0 1 0 0 1 0 15 3 0 0 0 0 1 1 1 0 1 1 0 0 12 4 0 0 0 0 0 0 0 0 0 0 0 1 1 Табли Ц.а Эксперт 1 1 1 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 1 1 1 1 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 4 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 7 0 0 0 0 0 0 0 0 0 0 0 0 8 0 0 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 1 1 1 1 3.4 о о н X 3 3 3 3 3 3 3 3 3 3 3 3 120 * Градации оценок: хорошо, удовлетворительно, неудовлетворительно, не оп- определено. только соотношение между лабораториями и экспертами (связь экспертов с лабораториями), но и соотношение между экспертами и оценками (средний критический уровень экс- эксперта). Приписывание численных значений в таблицах «Объект — (многомерный отклик)» можно провести по полной аналогии с тем, как это сделано в п. 3.2.2 [232]. Введем необходимые обозначения, указывая в скобках соответствующий аналог в обозначениях п. 3.2.2: / — число переменных в отклике; nk — число градаций &-й переменной; п = 2 пк — общее число градаций переменных (я); т — число объектов (субъектов, единиц наблюдения) (т)\ F — (га X п) -матрица данных, состоящая из нулей и еди- единиц (X); F— (п X 1)-вектор сумм по столбцам (Л); G — (т X 1) -вектор сумм по строкам (В)\ D — (я X я)-диагональная матрица сумм по столбцам (V); II т—диагональная матрица сумм по строкам (W); /.. — общая сумма элементов F =/•/л (#..); X — (п X 1) -вектор значений, приписываемых перемен- переменным (V)\ 140
Y — (m X 1)-вектор значений, приписываемых объектам W). Условия C.19) теперь формулируются так, что сумма взве- взвешенных откликов внутри переменных должна равняться нулю. С учетом этого условия СКП = СКМ + СК0СТ + СКпер, где СКпер — 0 — сумма квадратов отклонений между средними значениями по переменным, СКП — полная сумма квадратов отклонений в таблице, СКМ — сумма квадратов отклонений между строками, СК0СТ — остаточная сумма квадратов от- отклонений. Оптимизации подвергается величина X2 = СКМ/СКП- В случае таблиц «Объект — (многомерный отклик)» так же сохраняется свойство взаимозаменяемости оптимизации, выполняемой по строкам, и оптимизации по столбцам. При вы- выполнении условий F'X = GT = 0 и с учетом более простого вида аналога W имеем . а ^ X' Г' FX/1 _ У FD-iF' Y ~" Xf DX ~~ IV Y Если оптимизация проводится по X, то C = /-1-D-1/2F/FD-1/2 — /- если по У, то Если дуальное шкалирование выполнить для таблицы со- сопряженности и соответствующей ей таблицы «Объект — (дву- (двумерный отклик)», то численные значения, приписанные пе- переменным после нормировки, совпадут, а А,2 = A + т])/2. ВЫВОДЫ 1. Распределения многомерных случайных величин, коорди- координаты которых измеряются в номинальных и порядковых шка- шкалах, часто представляют в виде многомерных прямоугольных таблиц, называемых таблицами сопряженности. При этом в клетке, соответствующей it — градации первой переменной, ..., ik — fe-й переменной указывается х^.лк — число наблю- наблюдений в выборке с этими градациями. В двумерном слу- случае по организации сбора данных различают три выборочные схемы, приводящие к таблице сопряженности: 1) распределения столбцов (строк) независимы и являют- являются полиномиальными распределениями с вероятностями {qtj} и фиксированным числом наблюдений в столбце nt = S» основная гипотеза: {qu} от i не зависит; 141
2) распределение частот в двумерной таблице есть полино- полиномиальное распределение с вероятностями {р^} и фиксирован- фиксированным числом наблюдений п = Упи; основная гипотеза: для л/ всех /, / ри = Pi.p.f 3) все Xtj независимы между собою и имеют пуассоновское распределение с параметрами А,*/, основная гипотеза в этом случае: для всех /, / Хи = )^Л.Д... 2. Для описания совместного распределения Хц предложе- предложена логарифмически-линейная параметризация таблиц сопря- сопряженности, в которой предполагается, что где параметры 6 удовлетворяют соотношениям 2 е/1»=2 0/2) = 2 Ф/2> = 2 Щ" = о. В новых обозначениях основная гипотеза записывается как Я{,12): для всех i,jQj}2)^0. Для проверки этой гипотезы используются либо обычный критерий X2 как критерий однородности распределений столб- столбцов (строк) в таблице, либо имеющий то же асимптотическое распределение информационный критерий 2д/, получаемый стандартным способом для проверки сложной гипотезы 0|}2) = 0. 3. Предложен ряд различных мер связи между строками и столбцами в двумерных таблицах сопряженности. Среди них выделяются информационные меры связи как легко допускаю- допускающие обобщение на многомерный случай. 4. Один из методов анализа двумерных таблиц сопряженности заключается в том, чтобы приписать градациям классифика- классификационных переменных численные значения так, чтобы макси- максимизировать некоторый функционал. Оказывается, что ряд из- известных под различными названиями и максимизирующих различные функционалы методов таких, как «метод взаимных усреднений», «аддитивное или оптимальное шкалирование», «метод максимизации коэффициента корреляции» и др., при- приводит к приписыванию одних и тех же численных значений. 142
Глава 4. анализ структуры связей МЕЖДУ КОМПОНЕНТАМИ МНОГОМЕРНОГО ВЕКТОРА 4.1. Связи прямые и опосредованные. Введение в проблематику 4.1.1. Цепи Маркова. Рассмотрим такую последовательность Случайных (для определенности непрерывных) величин 1и ?2,-..,?», .... D.1) что для каждого k = 2, ..., п условное распределение %k при ?,h-i = Xk-i совпадает с условным распределением %к при ус- условии, что lh-x = xh-l9 lh-2=xh-2i ..., Нх = хг для всех на- наборов Xk-x,..., хъ для которых соответствующие условные распределения определены. На языке условных плотностей это условие может быть записано так: для всех k ^ 2 к^Ч\1и-1=Ч-1) = Нк(Хи\1н.-1^Ч-ъ-''Л1 = хг) D.2) или, для краткости опуская значения случайных величин и нижние индексы у буквы /, для всех k ^ 2 f(U\lk-i) = f(h\lk-i,-,li)- D.2') Про последовательность D.1) говорят, что она образует цепь Маркова. В цепи Маркова каждый член зависит от всех предшествующих, но непосредственно зависящими (связан- (связанными) можно в силу D.2) считать только члены, стоящие ря- рядом, рассматривая не рядом стоящие члены ?z и ?z+fe (k ^ 2) как связанные опосредованно через |i+1,..., li+k-v Пример 4.1. Пусть случайные величины тIэ..., г\п не- независимы между собой и нормально распределены со средним О и дисперсией 1, р — некоторая константа 0<р<1, а li = Пи Тогда случайные величины ?i, |2»«-.> ?п также имеют нор- нормальное распределение с теми же параметрами, что и т]ь и связаны в цепь Маркова. Их корреляционная матрица имеет вид 1 р Р2 рп-l р 1 р р"- Р2 . р 1 2 pt-3 % ¦• Р" •• Р" - Р" .. 1 — 1- -2 -3 143
т. е. зависит всего от одного параметра р. Непосредственно свя- связанные члены имеют коэффициент корреляции р, а члены, опо- опосредованно связанные и отстоящие друг от друга на k членов последовательности, имеют меньший коэффициент корреля- корреляции pfe+1. Таким образом, чем связь непосредственнее, тем она сильнее. Удобна геометрическая иллюстрация цепи Маркова, при которой случайные величины изображаются точками или круж- кружками, а непосредственные (прямые) связи между ними — сое- соединяющими их отрезками (рис. 4.1). Для обозначения связей мы использовали отрезки, а не s-\ /~\ г-\ г\ стрелки, так как если последова- (Т) (?) (?) кЮ ••* тельность D.1) образует цепь Рис. 4.1. Прямые связи МаРК0«а. ™ и последователь- между случайными вели- НОСТЬ gn, ьп—i, ..., §i> K&K не- нечинами, образующими цепь трудно убедиться (см., напри- Маркова мер, [78, с. 590—591]), также яв- является цепью Маркова. Цепи Маркова являются простейшей моделью зависимостей между случайными величинами и нашли очень широкое применение в практике (физика, техника, экономика, биология, лингвисти- лингвистика) особенно в тех случаях, когда есть естественное (например, временное) упорядочение случайных величин [26, 62, 96]. В кратких обозначениях формулы D.2') плотность совмест- совместного распределения ?lf..., ln может быть выражена как -. / (Ел I En-i Ei) = / (Ei) /(E21 Ei) - /(En I En-i). D.3) Откуда следует, что для описания распределения цепи Мар- Маркова достаточно знать распределение первого члена последова- последовательности и для i = 2,..., п — условные распределения ?,• при известном значении Е,-_1э т. е. плотности условных распределе- распределений пар векторов, непосредственно связанных друг с другом. Это свойство используется ниже при введении понятий пря- прямой и опосредованной связи между координатами вектора. 4.1.2. Прямые связи между координатами вектора. По анало- аналогии с первым равенством формулы D.3) по формуле условной вероятности для координат р-мерного вектора | = (?A), ..., Е(р>)'. имеющего невырожденное непрерывное распределе- распределение, имеем S*'-1», ...,6(|)). D-4) 144
Предположим теперь, что для каждого / = 2, ..., р найдет- найдется такое / (i) < i, что выражение в правой части D.4) может быть представлено в форме, близкой к правой части D.3), а именно /F(|),..мБ^) = /(БA))/(БBIБ<^2>).-./(Б<«|Б^^>). D.5) В этом случае пары координат с номерами B,/ B)), C,/ C)), ..., (р, / (/?)) можно назвать непосредственно (прямо) связан- связанными, а остальные координаты считать связанными опосредо- опосредованно. В общем случае естественно отказаться от ограничений, накладываемых нумерацией коорди- координат вектора, предполагая, что суще- существует такая перестановка индексов координат, при которой представление вида D.5) возможно. Удобно также ввести значение / = О как соответст- соответствующее неслучайной дополнительной координате ?<°> = 1. Пример 4.2 [150]. На рис. 4.2 Рис 4.2. Прямые связи, графически показаны прямые связи, ^"ктурГ r^l выделенные при изучении структуры вых ресурсов трудовых ресурсов. Рассматривалась 9-мерная случайная величина, реали- реализациями которой являлись значения показателей по 71 регио- региону РСФСР за 1969 г. Использовались следующие показатели: 1) доля среднегодовой численности рабочих, служащих, кол- колхозников в среднегодовой численности населения; 2) доля спе- специалистов с высшим и средним специальным образованием, за- занятых в народном хозяйстве, в среднегодовой численности ра- рабочих, служащих, колхозников; 3) доля специалистов с выс- высшим и средним специальным образованием, занятых в сельском хозяйстве, в общей численности работающих в сельском хо- хозяйстве; 4) доля работающих в промышленности и строитель- строительстве в среднегодовой численности рабочих, служащих, колхоз- колхозников; 5) доля работающих в сельском хозяйстве в среднего- среднегодовой численности рабочих, служащих, колхозников; 6) доля работающих на транспорте и в связи в среднегодовой численно- численности рабочих, служащих, колхозников; 7) доля работающих в области просвещения, науки, культуры, искусства в среднего- среднегодовой численности рабочих, служащих, колхозников; 8) доля работающих в области государственного и хозяйственного уп- управления, кредита, государственного страхования в средне- среднегодовой численности рабочих, служащих, колхозников; 9) доля работающих в области здравоохранения, физической 145
культуры, социального обеспечения в среднегодовой числен- численности рабочих, служащих, колхозников. На рис. 4.2 хорошо видна на изучаемый год центральная роль в распределении трудовых ресурсов по отраслям народ- народного хозяйства доли занятых в сельском хозяйстве (показа- (показатель 5). Это хорошо согласуется с качественными представле- представлениями специалистов по трудовым ресурсам. Обращает на себя внимание тесная связь показателей 2 и 9, что также допускает качественное истолкование. Предположением D.5) введен новый малопараметрический класс распределений, обобщающий многомерные распределе- распределения, которые возникают в цепях Маркова, и получивший наз- название «распределения с древообразной структурой зависимос- зависимостей» (ДСЗ). Происхождение этого названия будет ясно из ма- материала следующего параграфа, где в более строгой и полной форме даны все необходимые определения и рассмотрены свой- свойства нормальных распределений с ДСЗ. Можно ожидать, что в приложениях новый класс распределений окажется столь же удобным инструментом, каким сегодня являются цепи Маркова при изучении временных рядов. Первые результаты использо- использования распределений с ДСЗ очень обнадеживают [113]. Распределения с ДСЗ были введены в статистическую прак- практику С. Чоу [174, 175, 176]. Если не считать краткого изложе- изложения результатов Чоу в [48], они не нашли еще отражения в мо- монографической литературе. В отечественной литературе разра- разработка теоретических вопросов, примыкающих к этому новому направлению, дана в [40, 61]. На работы В. И. Заруцкого [58, 59] мы существенно опираемся в последующем изложении. 4.1.3. Математические задачи, связанные с изучением рас- распределений с ДСЗ. Прежде всего надо более четко описать класс распределений с ДСЗ и выявить соотношения между раз- различными параметризациями одного и того же распределения, возникающими при разном упорядочении координат. Ведь да- даже в простейшем случае, когда координаты образуют цепь Маркова, возможны два упорядочения: в прямом направлении цепи Маркова и в обратном. Необходимо также найти аналог выявленному на цепях Маркова соотношению, что прямым связям отвечает более высокая корреляция между координата- координатами (см. § 4.2). Нужно научиться оценивать структуру связей по выбороч- выборочным данным. Было бы желательно исследовать свойства этой процедуры как в обычной асимптотике растущего объема, так и в специальной более адекватной для многомерных данных асимптотике, когда рассматривается последовательность задач восстановления структуры зависимостей, в которой при пере- 146
ходе от одной задачи к другой одновременно растут и объем выборки, и число координат вектора (см. § 4.3). Если несколько видоизменить формулу D.3), оставив под знаком условия не один предшествующий член, а/п^2 пред- предшествующих, т. е. то придем к так называемым т-зависимым Марковским цепям. Естественно понятие m-зависимости перенести на координаты вектора (см. § 4.4). При изучении связей между координатами мы уже исполь- использовали геометрический язык, изображая координаты точками, а связи между ними — соединяющими их отрезками. Это язык теории графов. Терминология и методы теории графов широко используют при изложении основного материала этой главы. Поэтому ниже приводятся предварительные сведения из тео- теории графов. 4.2. Распределение с древообразной структурой зависимостей 4.2.1. Предварительные сведения из теории графов. Изложе- Изложение начнем с напоминания основных понятий теории графов [134]. Определение 4.1. Простым графом G называется пара (V (G), Е (G)), где V (G) — непустое конечное множество элементов, называемых вершинами графа G (V (G) — множе- множество вершин G), a E (G) — конечное множество неупорядочен- неупорядоченных пар различных элементов из V (G), называемых ребрами графа G (E (G) — множество ребер G). В дальнейшем термин «простой» опускается. Отметим, что так как Е (G) определено как множество, а не как совокупность и состоит из неупорядо- неупорядоченных элементов, то в графе G каждую пару вершин а, Ь ? ? V (G) может соединять не более чем одно ребро (а, Ь) и (а, Ь) = ф, а). В дальнейшем (как и на рис.4.1 и 4.2) вершины графа мы будем отождествлять с координатами вектора, а реб- ребра графа — со связями. Определение 4.2. Граф G± называется подграфом G, если V (Gj) с= V (G) и Е (GJ a E (G). Определение 4.3. Конечная непустая последова- последовательность ребер графа G М = {(аи а2), (а2, а3), •••> (ат,ат+1)} называется простой цепью, соединяющей вершины ах и ат+ъ 147
если все вершины аь..., ат+1 различны, кроме, быть может, Ят+i — #1- В последнем случае простая цепь называется цик лом. Определение 4.4. Граф G называется связанным, если для любых его вершин а и Ъ существует простая цепь, сое- соединяющая а и Ь. Определение 4.5. Лесом называется граф, не содер- содержащий циклов, связанный лес называется деревом. Графы, изображенные на рис. 4.1 и 4.2, связанные и не име- имеют циклов. Следовательно, их можно назвать деревьями. На них легко проверяются утверждения следующей теоремы. Теорема 4.1 [134]. Определяющие свойства графа-дере- графа-дерева. Пусть граф Т имеет р вершин, тогда следующие утвержде- утверждения эквивалентны: 1) Т является деревом; 2) Т не содержит циклов и имеет (р — 1) ребер; 3) Т связан и имеет (р — 1) ре- ребер; 4) любые две вершины Т соединены ровно одной простой цепью; 5) Т не содержит циклов, но, добавляя к нему любое новое ребро, мы получим ровно один цикл. 4.2.2. Распределения с древообразной структурой зависимо- зависимостей (ДСЗ). Изложение начнем с определения. Определение 4.6. Будем говорить, что р-мерный вектор X имеет ДСЗ, если существует хотя бы одна переста- перестановка координат вектора а A,..., р) = (а A), а B), ..., а (р)), такая, что для каждого а (I) найдется номер /<а@) € {0, аA),..., а(х-1)}, D.7) что «почти всюду по {х(аA>>, .... д;(а(р))}» х для всех г D.8) При этом у = 0 соответствует фиктивной координате л^°> = 1 и /(<хA))=0. Для вектора X с ДСЗ рассмотрим граф G = A/, ?), где V = {0, 1, ..., р} и Е = у (f, / @). Граф G имеет р ребер и в силу D.7) не имеет цикла, поэтому согласно п.2 теоремы 4.1 он является деревом. Отсюда и происходит термин «древооб разная структура зависимостей». Граф G будем называть гра- фом структуры зависимостей X. Заметим, что в случае, когда для некоторого a (i) можно положить / (а (/)) = 0, т. с. рас- распределение jt(a«*>> не зависит от х(аA)), ....лг^-^Чтоза /(«(;)) ХВ дальнейшем изложении взятые в кавычки слова, выражающие сугубо внутриматематическое требование общности, опускаются. 148
можно было бы выбрать любое из чисел, стоящих в правой час- части D.7). Таким образом, граф G определяется, вообще говоря, неоднозначно. Однако единственность будет, если на распределение X на- наложить дополнительное ограничение; для всех пар координат xi?\ х(/\ для всех возможных значений х^ = и и х^ = v в случае дискретного распределения X Р {*<'> = и, *</> = о}>0 D.8) и в непрерывном случае (/, / ^ 1) f*<0. *</>(".»)> О- D.8') В важном частном случае невырожденного р-мерного нор- нормального распределения условие D.8') выполняется всегда. Теорема 4.2. Пусть вектор X имеет ДСЗ, выполняются условия D.8) и D.8') и Gx и G2 — два различных графа струк- структуры зависимостей X. Тогда для любого ребра (/, /)??" (Gj) и ф Е (G2), координаты (вектора) х^> и xW независимы, т. е. графы Gx и G2 отличаются друг от друга только ребрами, соот- соответствующими независимым координатам. Ввиду принципи- принципиальной важности этого результата изложим схему его доказа- доказательства. Оно проводится в несколько шагов. 1. В графе G2 выбирается простая цепь, соединяющая вер- вершины i и /. Согласно п. 4 теоремы 4.1 она всегда существует. Так как (/, /) ф Е (G2), цепь содержит хотя бы одну вершину, отличную от /, /. Обозначим эту вершину /. 2. Координаты х^\ х<1\ х^\ как лежащие на простой це- цепи (в графе G2), образуют марковскую последовательность. Следовательно, в дискретном случае совместное распределение х^\ х{1\ л:</> описывается формулой Р (*<'>) р (хЩхЫ) Р (х<1ЦхМ). D.9) 3. Возьмем в графе G2 простую цепь, соединяющую / и /. Возможны два случая: 1) цепь содержит вершину / и 2) цепь не содержит вершину /. В первом случае на простой цепи верши- вершины лежат в порядке /, /, /; во втором — в порядке /, /, /. Оба случая рассматриваются одинаково. Пусть для определенно- определенности имеет место первый случай, тогда совместное распределение х^\ х^ описывается формулой Р (*<*>) р (XU) | х(/>) р (Х(О | *</>). D.10) 4. Формулы D.9) и D.10) описывают одно и то же распреде- распределение, поэтому их можно приравнять. Опираясь на условие 149
D.8), в полученном равенстве можно произвести упрощения. После несложных преобразований получаем Р ( Произведем суммирование по всем возможным значениям В результате получаем, что что и требовалось доказать. Случай непрерывных распределе- распределений рассматривается аналогично с заменой вероятностей на со- соответствующие плотности. Рассмотрим теперь задачу о нахождении при известном гра- графе структуры зависимостей G перестановки координат а, позво- позволяющей представить распределение X в виде D.5). Положим а @) = 0 и возьмем произвольную простую цепь, начинаю- начинающуюся в 0. Будем двигаться вдоль нее от нуля, считывая но- номера проходимых координат и приравнивая их а A), а B), ... Затем берем следующую простую цепь, начинающуюся в од- одной из уже пройденных вершин или в 0, и двигаемся вдоль нее, продолжая считывание, и т. д. до тех пор, пока не будут исчерпаны все вершины графа и тем самым определена полно- полностью перестановка а. Поскольку координаты, лежащие вдоль простой цепи, образуют цепь Маркова (см. п. 2, 3 схемы дока- доказательства теоремы 4.2), из построения а сразу же следует воз- возможность представления распределения X в виде D.5). В от- отдельных случаях перед построением а может оказаться удоб- удобным в графе G изменить некоторые несущественные связи, со- соответствующие независимым координатам (ср. с теоремой 4.2). 4.2.3. Нормальное распределение с ДСЗ. Пусть X имеет невы- невырожденное р-мерное распределение с вектором средних М и ковариационной матрицей 2 = ||ст^|| с известной структурой зависимостей, заданной функцией /(/). Вопросы, связанные с нахождением / (/), обсуждаются в следующем параграфе. Наша ближайшая цель — найти общий вид плотности X. Известно (см. [14, с. 172] и теорему 2.5.1 [20, с. 45]), что ус- условное распределение #<*> при фиксированном значении компо- компоненты х^ нормально с параметрами rt 150
где о? = Оц, rtj равна: . Откуда в силу D.5) плотность X Bя)-"/2 X ехр — - '?/</))~1/2 X __т</ (О)))» D.11) Таким образом, гауссовские распределения сДСЗ имеют очень простой вид 2-1 — матрицы, обратной ковариационной. В ней над диагональю стоят не более р —1 отличных от нуля элементов. Если перестановка а совпадает с исходной нумера- нумерацией координат X, то над главной диагональю в каждом столб- столбце 2-1 стоит не более одного отличного от нуля элемента. В качестве примера приведем ковариационные матрицы случайных векторов, графы структуры зависимостей которых показаны на рис. 4.1 и 4.2. В первом случае 2-1-П — и во втором 2-1 = 0 0 0 0 0 * 0 0 ) 0 0 0 * 0 * 0 * п 0 0 * с * 0 0 0 0 — 0 0 0 * 0 0 0 0 1 -р р 1 0 -р 0 0 0 0 0 0 * 0 * 0 * 0 * * * * 0 0 * 0 0 0 0 -р 1 0 0 * * 0 0 0 0 * 0 0 ... ... ... 0 0 0 0 * 0 0 * 0 ( ( э 3 0 1 —р 0~ 0 0 0 0 0 0 * > 0 0 0 —р 1 здесь знаком * показаны отличные от нуля элементы. Полезно представление 2-1 в виде D.12) 151
где С = \\сц\\ — матрица с элементами сц - от1 A -r?j ю)-1'2; си (о = -гц ( D.13) Если перестановка а совпадает с исходной нумерацией коор- координат, то / @ < i и С — нижняя треугольная матрица. Граф структуры зависимостей G нормально распределен- распределенного вектора X может быть использован при вычислении коэф- коэффициентов корреляции между координатами X. Для этого нам необходимо знать только р коэффициентов корреляции между парами координат, соответствующих ребрам G. Теорема 4.3. Для нормального вектора X с ДСЗ для всех 1 <; i <Z j < р ги = П rkh D.14) k, I :(k, i) <=M (i,/) где M (i, j) — простая цепь, связывающая в графе G структу- структуры зависимостей вершины i и /. Доказательство. Последовательность координат X, обра- образующая простую цепь, является марковской (см. п.2 и 3 дока- доказательства теоремы 4.2). Пусть эти координаты будут г, Zlf 4» •••» h, /. В силу теоремы 1 [140, с. 122] для последовательно- последовательности нормальных величин, связанных в цепь Маркова, что и требовалось доказать. Остановимся теперь на выборочной оценке 2-1 при извест- известном графе G структуры зависимостей. В качестве первого шага по графу G находится перестановка а. Это можно, например, сделать так, как указано в конце предыдущего пункта. Далее строится С — оценка матрицы С путем замены в С величин ®и гиа) их выборочными оценками. S-1 — оценка S" нахо- находится как S^^C'^. D.12f) Если в качестве аи Пло взять обычные в нормальном слу- случае выборочные оценки [14, табл. 6.3, п. 6],то( Sr1 есть оценка максимального правдоподобия [14, § 8.2] для 2-1 при известной структуре зависимостей. Для доказательства этого можно воспользоваться леммой 3.2.2 [20], позволяющей найти в рассматриваемом случае максимум уравнения правдоподобия. 152
4.3. Оценка графа структуры зависимостей компонент нормального вектора 4.3.1. Вес связи. Пусть X — нормально распределенный век- вектор с ДСЗ своих компонент. Весом связи (/, /) назовем \ги\9 где Гц — коэффициент корреляции между #('> и *</>. Весом графа назовем суммарный вес его ребер. Тогда вес графа струк- структуры зависимостей a>(G)~ 2 \гцц)\. D.15) <*. / (О) е е (G) Формула D.14) подсказывает, что среди всех деревьев Г, ко- которые можно построить на вершинах {0, 1,..., р}, графы струк- структуры зависимостей, отличающиеся между собой (в силу теоре- теоремы 4.2) только несущественными связями с нулевым весом, будут иметь наибольший вес. Т е орем а 4.4. Для невырожденного нормального векто- вектора с ДСЗ вес графа структуры зависимостей строго больше ве- веса любого дерева, отличающегося от него хотя бы одним ребром, имеющим ненулевой вес. Доказательство теоремы проводится методом математичес- математической индукции. Для р = 2 оно верно. Предположим, что оно верно для всех р' ^ р, и докажем, что оно верно и для р + 1. Не нарушая общности, можно считать, что перестановка а со- соответствует естественной нумерации координат. Обозначим Gp и Тр граф структуры зависимостей X и произвольное дере- дерево, построенные на V (Gp) = {0, 1, 2, ..., р}. Тогда Е (GJ)+1)= =? (Gp) + (р + 1, / (р + 1)) и Е (Тр+1) = Е(ТР+ (р +1, ft), гдеk < р + 1 — некоторая вершина G. Если k = у (р + 1), то утверждение теоремы верно согласно предположению, так как D.16) Но если й=т^/(р + 1), то согласно D.14) | J — \rirk\, где вершины р + 1, / (р + 1), /ъ..., /,, k берутся вдоль про- простой цепи в Gp+l, соединяющей р + 1 и k. Поскольку все коэф- коэффициенты корреляции по модулю строго меньше единицы (в си- силу невырожденности распределения X), то l. D.17) 153
если только |/>+ь уG,+1)| Ф О. В силу сделанного предполо- предположения, а также DЛ6) и D.17) утверждение теоремы верно и для р + 1. 4.3.2. Построение графа структуры зависимостей по корреля- корреляционной матрице. Как установлено выше, граф G структуры зависимостей нормального вектора строго тяжелее любого дере- дерева, построенного на тех же вершинах и отличающегося от G хо- хотя бы одним ребром ненулевого веса. Поэтому задача нахожде- нахождения G при известной корреляционной матрице R = \\ги\\ сво- сводится к задаче отыскания среди деревьев, которые можно пост- построить на вершинах V(G) с весами, определяемыми W= |||/*^|||, дерева наибольшего веса. В теории графов последняя задача ре- решается с помощью алгоритма Крускала [1341, носящего итера- итерационный характер и заключающегося в следующем: сначала матрица W пополняется весами, отвечающими 0— 0 0...О 0 координате х<0) s I, W° = L0 W J далее в качестве первого шага выбирается любое из ребер, имеющих в W0 наибольший вес; на /-м шаге B ^ / ^ р) — любое из ребер наивысшего веса среди оставшихся и не об- образующих цикла с ранее выбранными ребрами. Поскольку всего имеется р + 1 вершина, в алгоритме Крус- Крускала делается р шагов, и на каждом из них выбирается ребро, не образующее цикла с ранее выбранными, то в результате его применения возникает дерево (см. теорему 4.1). Работу алго- алгоритма Крускала удобно проиллюстрировать на примере пост- построения дерева для однородной цепи Маркова, описанной в п. 4.1.1. На каждом из первых п — 1 шагов выбираются ребра вида (/, i + 1), на последнем шаге — ребро вида @, /), так как все остальные ребра образуют цикл с ранее выбранными. Ес- Если отбросить связь нулевого веса, то получаем дерево, изобра- изображенное на рис. 4.1. Если известна только выборочная корреляционная матрица R, то по ней может быть построена выборочная весовая функ- функция W^ llkijlll- Результат применения к ней алгоритма Крус- Крускала обозначим G. Так как при росте объема выборки R ->- R (по вероятности), то G также сходится к G в том смысле, что dG) U ?(G\G))->-0 (по вероятностиI. D.18) 1Здесь G\G означает множество элементов G, не входящих в С 154
4.3.3. Асимптотика Колмогорова — Деева. В практической работе часто р — размерность вектора X и п — число наблюде- наблюдений суть величины одного порядка. Например, в медицинских исследованиях при диагностике относительно редких заболеваний приходится работать с век- векторами размерности р = 10-^-15 при выборках объема п = 20—30. Ясно, что в этих условиях результаты типа D.18), установленные в предположении, что распределение фиксиро- фиксировано, а п ->• оо, вряд ли могут служить надежным обосновани- обоснованием. В последние годы получила распространение новая асимп- асимптотика, специально рассчитанная на многомерные задачи, в ко- которых отношение pin не стремится к нулю. В этой асимптотике рассматривается последовательность (по некоторому параметру т—>- со) многомерных задач изучаемого класса. При росте т (переходе в последовательности от одной задачи к другой) растут как р (т), так и п (т), причем их отношение стремится к пределу р (т) —>- оо, /2 (т) -> оо, р(т)/п (т) -> X <оо (т -»- оо). D.19) В этой специальной асимптотике, которую мы в дальней- дальнейшем будем называть асимптотикой Колмогорова — Деева, на- нарушаются многие привычные свойства статистических проце- процедур. Например, если X имеет многомерное нормальное распре- распределение с нулевым вектором средних и независимыми коорди- координатами с дисперсией а2 иХ,-(/= l,...,/i) — независимая вы- выборка объема п, то квадрат длины вектора выборочного сред- среднего р р ' п к — 1 к = 1 \ / = 1 а не к 0, как это было бы в обычной асимптотике. Достоинство новой асимптотики не в том, что в ней не обяза- обязательно верны многие общепринятые статистические процедуры, а в том, что полученные в ней предельные формулы, например для ошибок классификации многомерных объектов, исключи- исключительно хорошо работают даже при относительно небольших значениях п. Алгоритм Крускала оказывается устойчивым по отношению к новой асимптотике. Так, если равномерно по т для некото- некоторого б > 0 min \r\>2n~l'*+\ { } 155
т. е. при переходе от одной задачи к другой в асимптотике Кол- Колмогорова — Деева max \ги\ по всем парам координат не при- приближается слишком быстро к единице, a min \г^\ по существен- существенным (ненулевого веса) связям не стремится слишком быстро к нулю, то D.18) имеет место и в асимптотике D.19). При этом выборочные значения коэффициентов корреляции совсем не обязаны удовлетворять соотношению D.14), задающему свойство древообразности для нормальных распределений. Они только должны быть близки к теоретическим значениям коэффициентов, которые удовлетворяют D.14). 4.4. R(k) -распределения Распределения с ДСЗ обобщают совместное распределение пос- последовательных членов в дискретных цепях Маркова. Если дви- двигаться вдоль ветвей графа-дерева структуры зависимостей, то последовательно проходимые вершины графа (координаты век- вектора наблюдений) образуют цепь Маркова. Этот факт позво- позволил доказать единственность в нормальном случае графа — дерева структуры зависимостей, предложить простой алго- алгоритм его оценки по выборочной корреляционной матрице и, наконец, показать, как, зная дерево структуры зависимостей, получить исходное распределение. В этом параграфе рассматриваются R (й)-распределения (удовлетворяющие условию R (&)), обобщающие так называе- называемые ^-зависимые марковские последовательности. R (^-рас- (^-распределение — это уже известное нам распределение с ДСЗ. По аналогии со случаем k = 1 вводится понятие графа струк- структуры зависимостей и показывается, как найти этот граф по вы- выборочным данным. Однако в общем случае (k > 1) пока не уда- удалось доказать однозначность обратного перехода: восстановле- восстановления по графу структуры зависимостей и (k + 1)-мерным рас- распределениям координат вектора X исходного распределения X. Этим обусловлена некоторая незавершенность излагаемой ниже теории. 4.4.1. Основные определения. Начнем с обобщения понятия распределения с ДСЗ. Определение 4.7. Распределение X удовлетворяет условию R (k) (k ^1), если для некоторой перестановки но- номеров компонент X а = (а A),..., а (/?)) для каждого i = 1,2, ..., р найдется J (i) — такое множество из {0,1,..., р}, что J(*(i)) = {a(lj):lj<i / = 1, ...,*,<*}, D.21) 156
и почти для всех возможных значений для всех z D.22) где Х^ <«<'»> = {*<» : у 6 J (<* @)} и Из этого определения немедленно получаем, что если рас- распределение X непрерывно и удовлетворяет условию R (?), то в обозначениях D.2') /(X)- П f(x<')|X<^ <•))). D.23) 1 < i < Р При fe=l из D.21) — D.23) получаем D.7), D.8), т. е. распределение, удовлетворяющее условию R A), есть распре- распределение с ДСЗ. Для распределений, удовлетворяющих условию R (й), так же как в § 4.2, можно ввести понятие графа структуры зависи- зависимостей G, положив В отличие от случая к = 1 в общем случае k > 1 граф струк- структуры зависимостей зависит от выбора перестановки а и не оп- определяется однозначно. 4.4.2. Нормальное R (/^-распределение. Пусть /, / — два упо- упорядоченных непересекающихся подмножества / = {/i,..., х"г}> J = {/i»--«» /ft} координат вектора X. Образуем вектор и пусть его корреляционная матрица По аналогии с п. 4.2.3 имеем Е (*<'•> | Х« ('») = т(') + 2/, j (/) SJf0 j (/) (Х^ ( D (^@ | Х^ с») = о? - 2,, j (/) SJ Jo , (/) Sy (/), f ^ a? Откуда с учетом D.23) получаем ? SJ(',-, у (/) (X«J <г»> -М<^ <'»)]*/2о?. j (,-)}¦ D.24) 157
Так же, как при к --- 1, матрица 2-1 имеет очень простой вид. В случае когда а совпадает с исходной нумерацией коор- координат X, в каждом столбце 2~' над главной диагональю сто- стоит не более к отличных от нуля элементов. Пусть С (к) = |! си (к) ||, где сп (к) - аг \, (/); / j о" С/, j (о (к) = — S/t у (ij-Sj (/), j сп(к) = 0,1ф{1} \JJ(i)9 тогда имеет место аналог D.12j. Для гауссовских /? (/^-рас- (/^-распределений 2-i = C'(*)C(*). D.25) При описании алгоритма выделения графа структуры зави- зависимостей нам потребуется также следующее определение Определение 4.8. Граф GcK(C)« {I, ...,p} удов- удовлетворяет условию Т (Л), если существует хотя бы одна перес- перестановка номеров вершин {1, ...,/?}<*=* (а A), ..., а (р))., что для каждого 1 <; i < р найдется не более к вершин a (l^i)), ..., a (lk. (i)) (ki ^ k)t таких, что для всех / = 1, ..., kt\ lj @ < f; (a (i); а (/, (/)) ? ? (G) и U U (а @> а (/;(/)) = = Е (G). 4.4.3. Восстановление графа структуры зависимостей. Пусть г1и.г — частный коэффициент корреляции между х^^ и х{к) при фиксированном значении х(/> (см. § 1.2 и [20, § 2.5]). Тогда в случае нормального распределения с ДСЗ для (iy k) ? ? Е (G)— дереву структуры зависимостей и (/, /) ф Е (G) minl^fc.,1^0, min| ^..,( = 0. D.26) Это свойство после необходимого обобщения может быть ис- использовано для выделения графа структуры зависимостей в случае R (/^-распределений. Пусть rik.j — частный коэффи- коэффициент корреляции между x{i\ x{k) при фиксированном зна- значении *<'«>, ..., л'(//{), J = {/ь..., //<}; назовем k-весом связи (i> 1) SftO'./) = injn|rl7.y|, D.27) где минимум берется по всем наборам из k координат X, от" личных от Л'(/) и x(i\ Теорема 4.5. Для невырожденных нормальных R (k)- распределений граф структуры зависимостей единствен с точ- точностью до связей нулевого /г-веса. 158
Перейдем к описанию алгоритма выделения графа структу- структуры зависимостей. По своему содержанию он близок к описан- описанному в п\ 4.3.2 алгоритму Крускала, только понятие ребра графа, образующего цикл с уже выделенными ребрами, при- приходится заменить более сложной конструкцией. Обобщенный алгоритм Крускала. Выбираем на первом шаге ребро 1г наибольшего /г-веса; определяем по индукции последо- последовательность ребер /2, /3,..., /п-ь выбирая на каждом шаге ребро с наибольшим /г-весом, отличное от уже выбранных и обладаю- обладающее тем свойством, что при добавлении /п-го к отобранным реб- ребрам граф ({1, ..., р}, {/ь..., /д}) будет обладать свойством Т (k). В том случае, когда граф структуры зависимостей единст- единствен с точностью до связей нулевого /г-веса (нормальные R (ft)- распределения), обобщенный алгоритм Крускала дает возмож- возможность его восстановить. 4.5. Структура связей нормального вектора (общий случай) С важными, но частными моделями структуры связей между компонентами многомерного нормального вектора мы познако- познакомились в предшествующих параграфах. Наша цель — дать краткую сводку основных результатов общей теории [40, 56, 1791. 4.5.1. Марковская тройка. Структура многомерного вектора. Пусть X ^= (хA),..., х(р))' имеет невырожденное р-мерное рас- распределение; V= {I,..., p} — множество номеров координат X; Л, В, С — непересекающиеся подмножества V\ X{A) — подмножество координат X, номера которых входят в Л. Определение 4.9. Тройка (Л, В, С) называется мар- марковской, если f (Х<4> | Х<*\ Х<с>) = / (Х<л> | Х<*>). D.28) В определении марковской тройки допускается тривиаль- тривиальный случай С = 0. Для того чтобы тройка (Л, В, С) была марковской [61], необходимо и достаточно, чтобы 2лс=2Ле2вА2ж;, D.29) где 2лс=Е(Х<л> — ЕХ<*>)(Х<*> — ЕХ<*>)' или, что эквива- эквивалентно, 0, D.30) 159
где 2ЛС (А, С) — блок матрицы 2-1, соответствующий блоку Еле в матрице S. Условие D.30), очевидно, обобщает соответствующие ут- утверждения о нулях S-1 в случае R (/^-распределений. В [611 предложен статистический критерий для проверки гипотезы D.30), построенный в традиционной асимптотике, когда фик- фиксирована матрица 2, а число наблюдений п -> оо. Определение 4.10. Структурой связей многомер- многомерного невырожденного нормального вектора X называется граф G = (К, ?"), такой, что для любой марковской тройки (i, Ву /): а) любая цепь в С из / в / проходит через В и б) для каждого k ? В существует в G цепь из / в /, проходящая через k. Пусть Г (/) — множество вершин, смежных на G вершине /, т. е. Г @ = {/: (i, /) ??}, тогда '> | Х<г <'») ----- / (*«'> | Х^\'>), D.31) причем Г(/) минимально в том смысле, что ни для какого под- подмножества его компонент D.31) не имеет места. Теоретический способ отыскания Е состоит в том, что для каждой пары компонент (г, /) подсчитывается частный коэффи- коэффициент корреляции между i и / при фиксированных значениях всех других компонент [20, § 2.5]. Если он не равен нулю, то (/, /) ? ?", в противном случае (/, /) ?=? Е. На практике, по-ви- по-видимому, можно задавать некоторый порог б > 0 и считать связь (i, /) ??, если \ги.у\ {/,/>| 2^6, и (?, /) ф Е — в противном слу- случае. При другом способе все частные коэффициенты корреля- корреляции при фиксированных значениях всех других кохмпонент рас- располагают в вариационный ряд по абсолютным величинам и от- отбирают наперед заданное число наибольших из них. Если (i, /') соответствуют отобранным членам вариационного ряда, то принимают совокупность (i,j)?E. Статистические свойства этих рекомендаций не изучены. 4.5.2. Информационная интерпретация структуры связей. Математическое выражение количества информации в векторе X относительно вектора Y определяется [751 как ^ ГГ/(Х, Г)In f(X'Y) dXdY, JJ f[X)f(Y) где / (X), / (У), / (X, Y) — соответственно плотности распреде- распределения X, Y и (X, Y). В нормальном случае информация, за- заключенная в подмножестве Х(Л> координат вектора X ? 160
jV@,2) относительно подмножества координат Х'В) (А П В~ 0), задается выражением ([75], гл.9, формула G.4)) det 2(ЛиЛ) (. D.32) Пусть Г (/) определено, как в предыдущем пункте, тогда [561 / (*<'">, Х<г С"») > / (а:"'\ Х<л>), D.33) где В —любое подмножество компонент X, не содержащее Х(Г(/)) целиком. Сравним D.32) с формулой B0) [20, п. 2.5.2]. Из срав- сравнения и D.33) следует, что максимум взаимной информации между x{i) и Х{А) достигается на том же наборе компонент Х(Г(/)), что и максимум коэффициента множественной корреля- корреляции. При этом структура связей выделяет не парные, а мно- множественные зависимости, в большей степени отражающие ре- реальное взаимодействие переменных. Для каждой компоненты x{i) с помощью графа структуры связей легко находится груп- группа координат Х(Г(/)), непосредственно связанных с х(/> и несу- несущих максимальную информацию о ней. 4.5.3. Использование структуры для представления распреде- распределения в виде композиции более простых распределений. Нач- Начнем с формулы D.4). Разобьем каждое из подмножеств ком- компонент, входящих в правые части сомножителей D.4), на два таких подмножества {X(-1i), X(Bi)}, {X(^2), X(/^)}? ..., {X(%-i),X^-i)}, что тройки A, А1У ВО. -.. (P. Ap-i* fl;i-i) будут марковскими. В результате получаем аналог разложе- разложений D.5) и D.23): К сожалению, в общем случае так же, как для R (^-рас- (^-распределений, не выработано простых рекомендаций, как наибо- наиболее удачным образом с точки зрения простоты окончательной формулы выбрать первоначальный порядок координат. ВЫВОДЫ 1. При содержательной интерпретации взаимозависимостей между координатами случайного вектора целесообразно вы- выделять связи прямые и опосредованные. Важным примером не- непосредственной связи является связь последовательных на- наблюдений (? „, ?Л+1) в цепи Маркова. Связь наблюдений (?н, ln+h) опосредуется через наблюдения Цп+Ъ ?||+2, ..., Sn+ft-i). & Зак.244 161
Для визуального представления зависимостей широко исполь- используются графы структуры зависимостей, в которых координа- координаты вектора изображаются в виде вершин графа, а непосредст- непосредственные связи между ними — в виде связывающих их ребер. 2. Понятие древообразной структуры зависимостей между координатами случайного вектора возникает как обобщение понятия марковости для совокупности случайных величин, лишенных временной упорядоченности. Говорят, что распре- распределение X = (jcA> ,..., х{р)У имеет ДСЗ, если существует такая перестановка координат вектора (а A),..., а (р)), что где /(а@) ? {«A),..., а (/- 1)}. 3. Невырожденные р-мерные нормальные распределения с ДСЗ имеют очень простой вид матрицы 2-1, где 2 — ковари- ковариационная матрица координат вектора. В 2-1 над главной диа- диагональю стоит не более р — 1 отличных от нуля элементов. Эта малопараметричность описания ковариационной матрицы в сочетании с большим разнообразием описываемых классов зависимостей, включающим, в частности, все ковариационные матрицы цепей Маркова, делает распределения с ДСЗ одним из основных инструментов в многомерном анализе. 4. Для распределений с ДСЗ при выполнении дополнительного условия, справедливого для всех невырожденных нормальных распределений, графы структуры зависимостей определяются однозначно с точностью до связей, соответствующих независи- независимым координатам. С другой стороны, для этих распределений по графу структуры зависимостей восстанавливается, хотя и неоднозначно, естественный порядок координат, фигурирую- фигурирующий в определении распределений с ДСЗ. 5. Если известна корреляционная матрица невырожденного нормального вектора с ДСЗ, то по ней с помощью известного в теории графов алгоритма Крускала граф структуры зависи- зависимостей восстанавливается однозначно. Алгоритм Крускала, примененный к выборочной корреляционной матрице, оказы- оказывается состоятельным в асимптотике Колмогорова -г- Деева, специально рассчитанной на изучение ситуаций, когда число наблюдений вектора и его размерность суть величины одного порядка. 6. R (/^-распределения (k ^ 1) возникают как результат обоб- обобщения, с одной стороны, распределений с ДСЗ (R (^-рас- (^-распределений), а с другой — fe-зависимых марковских последова- последовательностей. На R (^-распределения удается перенести многие свойства распределений с ДСЗ. 162
7. Пусть А, В, С — непересекающиеся подмножества номеров координат, а Х(*4), Х^и\ Х<с> — соответствующие наборы координат. Тройка (Л, В, С) называется марковской, если /(Х^> | (Х(В>, Х<с>) = /(Х<л> | Х<*>)> Построены статистиче- статистические критерии для проверки гипотезы, что заданная тройка — марковская. В случае когда X имеет невырожденное нор- нормальное распределение, структурой связей X называется граф G, вершинами которого являются номера координат X, а реб- ребрами — соединяющие их дуги и для которого выполняется условие, что для каждой марковской тройки (/, В, /): а) любая цепь в G из / в / проходит через В и б) для каждого к ? В су- существует цепь в G из / в /, проходящая через k. Вся информа- информация в координатах Х\х(/> относительно координаты x{i) со- содержится только в Хт'»у где Г (/) — вершины графа G, смеж- смежные с вершиной /. Ребрам (/, /) графа G соответствуют отлич- отличные от нуля частные коэффициенты корреляции между / и / при фиксированных остальных координатах вектора X. Этот факт можно использовать для нахождения графа структуры связей. 163
Раздел II. ИССЛЕДОВАНИЕ ВИДА ЗАВИСИМОСТИ МЕЖДУ КОЛИЧЕСТВЕННЫМИ ПЕРЕМЕННЫМИ (регрессионный анализ) Глава 5. основные понятия РЕГРЕССИОННОГО АНАЛИЗА Предыдущий раздел (гл. 1—4) посвящен описанию математи- математического аппарата, привлекаемого для реализации 3-го этапа статистического исследования зависимостей (см. «Корреля- «Корреляционный анализ» в п. В.6), на котором исследователь пытается проанализировать структуру связей между рассматриваемыми переменными и измерить степень их тесноты. После того как он убедится в наличии статистически значимых связей между анализируемыми переменными, он приступает к выявлению и математическому описанию конкретного вида интересующих его зависимостей: подбирает класс функций, в рамках которого будет вести свой дальнейший анализ (этап 4); производит, ес- если это необходимо, отбор наиболее информативных предска- предсказывающих переменных (этап 5); вычисляет оценки для неизвест- неизвестных значений параметров, участвующих в записи уравнения искомой зависимости (этап 6); анализирует точность получен- полученного уравнения связи (этап 7). Этапы 4—7 и составляют содер- содержание регрессионного анализа, описанию которого посвящен данный раздел. Но прежде чем переходить к изложению методов, составля- составляющих аппарат регрессионного анализа, необходимо ввести и прокомментировать ряд основных понятий и определений. 5.1. Функция регрессии как условное среднее и ее интерпретация в рамках многомерной нормальной модели Во введении при общей формулировке задачи статистического исследования зависимостей (п.В.1), при описании основных прикладных проблем, в решении которых используется аппа- аппарат статистического исследования зависимостей (п. В.4), и при классификации основных типов исследуемых зависимостей (п. В.5) мы, по существу, уже использовали понятие «функции 164
регрессии». Перед тем как сформулировать общее определение функции регрессии, вернемся к примерам В.1 и В.2 В примере В.1 мы исследовали, как меняется средняя вели- величина удельных денежных сбережений семьи (ц) в зависимости от ее среднедушевого дохода (?), причем усреднение денежных сбережений (ц) производилось по всем семьям данной группы по доходам (т. е. при g =--= х). Другими словами, анализирова- анализировалась зависимость условного среднего значения удельных семей- семейных сбережений г/ср (х) = Е (ч\ \ ? = х) от среднедушевого дохода х (см. табл. В.1 и рис. В.2). В примере В.2 анализировалось поведение показателя сред- средней долговечности (ц) испытуемого образца в зависимости от величины характеристики эксплуатационного напряжения (#), где усреднение величины ц производилось по всем образцам, испытанным при заданном значении характеристики эксплуа- эксплуатационного напряжения х. Таким образом, речь опять идет об исследовании зависимости условного среднего значения ре- результирующего показателя ц (вычисленного при условии, что объясняющая переменная приняла заданное значение х) от те- текущего значения объясняющей переменной (см. табл. В.4 и рис. В.5). Рассмотрим общую схему. Пусть значение исследуемого ре- результирующего показателя ц при данных фиксированных величинах объясняющих переменных л^1), л:B), ..., х{р) случай- случайным образом флюктуирует вокруг некоторого (вообще говоря, неизвестного) уровня/ (#A), х{2\ ..., #(р)), зависящего от кон- конкретных значений предикторов хA), л:B> ,..., #(р\ т. е. Tl = f (*<¦>, Х<2>, .... *<*>) +?(*<¦>, ..., XiP))% E.1) где остаточная компонента е (X) определяет случайное откло- отклонение значения ц от постоянного (при фиксированных хA),..., х<р>) уровня /. При этом наличие флюктуации е может быть при- присуще самой природе эксперимента или наблюдения (как в при- примерах В.1 и В.2), а может объясняться случайными ошибками в измерении величины/ (тогдаrj является результатом несколь- несколько искаженного измерения значения /). Когда говорят, что «не- «некоторая величина (г|) случайным образом флюктуирует вокруг определенного (неслучайного) уровня /», то, как правило, име- имеют в виду, что среднее значение такой флюктуирующей слу- случайной величины должно быть равно /, т. е. Ег| = /. Посколь- Поскольку условия эксперимента и, в частности, уровень, около кото- которого флюктуирует т), зависят от конкретных значений х<г\ <2\ м некоторого набора объясняющих переменных, со- 165
ответственно I*1), |B), ..., ?(р), то из E.1) и только что сказан- сказанного непосредственно следует E.2) Функция / (jcA>, л:B), ..., х{р)), описывающая зависимость условного среднего значения уСр (X) результирующего показа- показателя т] (вычисленного при условии, что величины предсказы- предсказывающих переменных зафиксированы на уровнях #<*>, #B> ,..., ..., х{р)) от заданных фиксированных значений предсказываю- предсказывающих переменных, называется функцией регрессии. В общем случае для точного описания функции регрессии необходимо точное знание условного закона распределения результирующего показателя ц (при условии, что ? = X). Поскольку в статистической практике мы никогда не распола- располагаем такой информацией, то обычно ограничиваются поиском подходящих аппроксимаций для / (X), основанных на исходных статистических данных вида (В.1) (о методах построения таких аппроксимаций см. гл. 7—10). Однако в жестких теоретических рамках модельных допу- допущений о типе распределения исследуемого вектора показателей (?A), ?B\..., ?(р); Л) может быть получен общий вид функции регрессии / (X) = Е (tj | g = X) (здесь, как и ранее, I = = (?<*>, ..., ?<">)' и X - (х<х>, ..., *<'»>'). Так, например, если предположить, что исследуемый вектор переменных (|'; г\)г подчиняется (р + 1)-мерному нормальному распределению с вектором средних значений и с ковариационной матрицей
то из A.3) непосредственно следует = Е fa | S - X) Таким образом, если анализируемый многомерный признак {?A\ ?B>, •••, ?(р); л) подчинен (р+1)-мерному нормальному за- закону, то функция регрессии результирующего показателя ц по объясняющим переменным ЕA>, Е<2>, ..., ?(р) имеет линейный (по X) вид, а ее коэффициенты выражаются в терминах первых двух моментов анализируемых случайных величин. Происхождение термина «регрессия» (лат. «regression» — отступление, возврат к чему-либо) связано только с приклад- прикладной спецификой одного из первых конкретных примеров, в ко- котором это понятие было использовано, но никак не с его обще- смысловым наполнением. Этот термин был введен английским психологом и антропологом Ф. Гальтоном в связи с вопросом о наследственности роста. Обрабатывая статистические дан- данные, Гальтон нашел, что сыновья отцов, отклоняющихся по росту на х дюймов от среднего роста всех отцов, сами отклоня- отклоняются от среднего роста всех сыновей меньше, чем на х дюймов. Гальтон назвал выявленную тенденцию «регрессией к сред- среднему состоянию» («regression to mediocrity»). Однако термин столь прочно внедрился в статистическую литературу, что мы не делаем попытки заменить его более подходящим для выражения существенных свойств понятия статистической зависимости. 5.2. Функция Д-регрессии как решение оптимизационной задачи В предыдущем параграфе обращается внимание читателя на то, что в статистической практике приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истин- истинной функции регрессии / (X), поскольку исследователь не рас- располагает точным знанием условного закона распределения вероятностей анализируемого результирующего показателя г\ (при условии, что объясняющие переменные ? приняли «значение», равное X). В данном параграфе будет уточнено, что значит «подходя- «подходящая аппроксимация», т. е. будут описаны критерии адекват- адекватности модели, в соответствии с которыми естественно измерять качество предполагаемой аппроксимации fa (X) искомой функ- функции регрессии / (X) в том или ином случае. Общий оптимизационный подход к построению статисти- 167
ческих решающих процедур описан в [13] и кратко воспроиз- воспроизведен в [14, § 1.2]. Остановимся на конкретизации этого подхода применитель- применительно к задачам статистического исследования зависимостей и, в частности, к задаче наилучшего восстановления (по исходным статистическим данным вида (В.1)) условного значения резуль- результирующего показателя ц (X) = (т| | ^ = А') и неизвестной функции регрессии / (X) = Е (г\ | ? = X). С этой целью вос- воспользуемся следующей схемой рассуждений. а. Введем функцию потерь р (е^ (X)), измеряющую убыт- убытки от неточности восстановления значения ц (X) = {г]|| ==Х} с помощью функции fa (X); здесь е; = ц (X) —fa (X), а функция р (и)у как правило, монотонно неубывающая, чаще всего выпуклая, функция аргумента и с неотрицательными значениями (см. различные варианты функции р в § 7.2). б. Определим теоретический и соответствующий ему выбо- выборочный критерии адекватности модели fa (X), используемой в качестве аппроксимации для неизвестного условного значения результирующего показателя ц (X) = (ц | | = X): теоретический А (/а)«= Ер (ef (X)); E.4) выборочный Дп (/а) - ± 2 р GSa (Xt)). E.4') Sa В E.4) усреднение производится и по всем возможным значе- значениям случайной величины Ef (X) (при каждом фиксирован- фиксированном X) и по всем возможным значениям X, а в E.4') — по всем имеющимся наблюдениям. в. Зададимся классом допустимых решений F, в рамках ко- которого будем вести дальнейший поиск наилучшей, в смысле критериев Д или Дп> аппроксимации f% (или f%) для ц (X). При этом если в качестве класса F задаются некоторым пара- параметрическим семейством функций E.5) то задача подбора наилучшей аппроксимации fa (или f%) сво- дится к определению таких значений параметров в* (или в*), при которых некоторая агрегированная характеристика точ- точности восстановления значений г] (X) по значениям fa (X; в) (или fa (X; в)) является наилучшей (подход, основанный на ис- 168
пользовании в качестве класса допустимых решений F парамет- параметрических семейств вида E.5) называют параметрическим). г. Будем называть функцию /* (X) функцией ^-регрессии, если она дает прогноз для условных значений результирующего показателя г\ (X), являющийся наилучшим в смысле критерия адекватности А. Другими словами: E.6) Покажем (на примере квадратичной функции потерь, т. е. при р (и) = ы2), что задача минимизации функционала E.4) содержит задачу наиболее точного восстановления регрессии. Действительно, для критерия E.4) справедливо тождество (см. п. 1.3.1) A (fa) = J $ (У-fa (X))* РЧ{У\Х) Р1 (X) dydX =* /-f(X))*Prl(y\X)pl(X)dyuX + Xy + \(fa(X)-f(X))*Pl(X)dX X (здесь pn (y\X) и pi (X) — соответственно условная функция плотности результирующего показателя ц при условии, что g = X, и частная функция плотности предикторной перемен- переменной I). Так как первое слагаемое в правой части этого тождества не зависит от функции fa (X), то минимум функционала А(/а) определяется величиной второго слагаемого и достигается на такой функции f^ (X) ? F, на которой минимизируется погреш- погрешность описания истинной функции регрессии / (X) с помощью функций из класса F. В дальнейшем, чтобы отличать теоретическую версию этого определения (которая соответствует функционалу E,4)) от выборочной (функционал E.4')) и с целью упрощения обозначе- обозначений, будем полагать (если не требуется специальных поясне- пояснений, связанных с выбором критерия А ) E.7) E.7') с* и называть их соответственно теоретической и выборочной an- проксимациями истинной функции регрессии. Основанием для 169
подобной терминологии служат простые асимптотические соот- соотношения,.связывающие в ряде достаточно общих случаев функ- функции / (X) = Е (г| | I = X), fa (X) и их выборочные анало- аналоги (см. следующий параграф). Обратим внимание читателя на ряд частных случаев функ- функции потерь р (и), широко используемых в теории и практике статистического исследования зависимостей: 1) р (и) = а2; получаемая в соответствии с E.6) регрессия называется среднеквадратической, а метод, реализующий ми- минимизацию функционала An (fa), принято называть методом наименьших квадратов (см. § 7.1); 2) р (и) = \и\\ получаемая в соответствии с E.6) регрессия называется сред неабсолютной (или медианной), а метод, реа- реализующий минимизацию функционала Дп (/а), называют ме- методом наименьших модулей (см. п.7.2.1); 3) р (и) — \и\ху где т-> оо; можно показать, что в этом слу- случае минимизация критерия Дп (fa) сводится к минимизации (по fa ? F) max \ yt — fa (Хг)|, поэтому соответствующую регрес- сию называют минимаксной. Другие важные частные случаи Д-регрессии читатель най- найдет в §7.2. 5.3. Взаимоотношения различных регрессий Взаимоотношения истинной и Д-регрессий существенно зави- зависят от вероятностной природы регрессионных остатков е (X) в моделях типа E.1) и от способа выбора класса допустимых ре- решений F. Попробуем вначале понять эти взаимоотношения на примере. Пример 5.1. Результирующий показатель tj связан с объясняющей переменной ? соотношением E.8) где регрессионный остаток г — случайная величина, подчиня- подчиняющаяся нормальному закону распределения со средним зна- значением Ее = 0 и с дисперсией D г = 4, а диапазон возмож- возможных значений ? определяется, отрез ком [2; 10]. Очевидно, ис- истинная функция регрессии в данном случае имеет вид ^x)^2xi>5. E.9) Предположим, нам не известен точный вид соотношения {5.8) и соответственно не известно уравнение функции регрес- 170
сии E.9). Однако мы располагаем следующей системой дву- двумерных наблюдений (xiy yi)i==r^ , генерируемых моделью E.8), т.е. связанных соотношением уг = 2х}-ъ + гь (табл. 5.1) Таблица 5.1 Номер наб- наблюдения (/) (xt) i-e наблюденное значение ? (Уг) *-е наблюденное значение т] 1 2 6,58 2 3 10,67 3 4 20,91 4 5 21,71 5 6 29,25 б 7 37,64 7 8 44,67 8 9 56,60 9 10 61,33 Расположение точек — наблюдений на рис. 5.1 дает нам основание ограничить класс допустимых решений только ли- линейными зависимостями, т. е. определить в качестве класса до- допустимых решений параметрическое семейство Рлин={во + в1х}. E.10) Имея априорную информацию о типе распределения регрес- регрессионных остатков, остановим свой выбор на квадратичной функции потерь. Решая оптимизационную задачу вида ¦mm E.11) получаем оценки Go, 6f для неизвестных параметров 60, 6Ь участвующих в записи аппроксимирующей функции fa (х) = = 60 + 0i х. График соответствующей выборочной аппрокси- аппроксимирующей функции регрессии fa (х) = 0o+9i*# изображен на рис. 5.1. Для сравнения на том же рисунке изображены гра- графики истинной функции регрессии f (х) = 2*1'5 и теорети- теоретической аппроксимирующей функции регрессии fa (x). Послед- Последняя характеризует результат, к которому мы бы неограниченно приближались (в смысле сходимости по вероятности), решая оптимизационную задачу E.11) для неограниченно расширяю- расширяющейся по объему выборки {(хь #0h=!Tm n -»- оо. Поскольку мы «не угадали» класс допустимых решений (истинная функция регрессии не принадлежит к выбранному нами классу E.10)), то в данном случае мы находимся в ситуации (к сожалению, достаточно типичной для практики статистических исследова- 17J
ний), в которой наши статистические выводы и оценки не будут обладать свойством состоятельности. Другими словами, как бы мы ни увеличивали объем исходной статистической базы, мы не сможем добиться сходимости нашей выборочной аппрокси- аппроксимирующей функции регрессии fa(x) к истинной функции рег- регрессии / (х). Напротив, если бы мы правильно выбрали класс допусти- допустимых решений, что в данном примере означало бы FCT = {6o*6lh E.12) У 60 55 50 40 35 30 25 20 15 10 5 О 123 456783 10 X Рис. 5.1. Взаимное расположение истинной, теоретической аппроксимирующей и выбо- выборочной аппроксимирующей функций рег- регрессии в примере 5.1: то неточность в описании / (х) с помощью /а (х) объяснялась бы только ограниченностью выборки, по которой строится функ- функция fa (x), и, следовательно, могла бы быть сделана сколь угодно малой за счет п -*- оо. Сформулируем в заключение несколько общих положений, относящихся к сравнению различных функций регрессии: 172
а) истинная регрессия / (X) = Е (т) | ? = X) является од- одновременно среднеквадратической, т. е. дает решение оптими- оптимизационной задачи вида E.6) при квадратичной функции потерь (р (а) == и2) и при отсутствии ограничений на класс допусти- допустимых решений F (доказательство приведено в п. 1.3.1); б) для широкого класса критериев адекватности А (/а) выборочная аппроксимирующая функция регрессии fa (X) схо- сходится (по вероятности) к теоретической аппроксимирующей функции регрессии fa (X) при п->- со; в) в случае удачного выбора класса допустимых решений, т. е. при / (X) ? F, теоретическая аппроксимирующая функ- функция регрессии fa (X) (при надлежащем выборе критериев адек- адекватности А) совпадает с истинной и соответственно выборочная аппроксимирующая функция регрессии fa (X) будет сходиться (по вероятности) к истинной; г) в случае неудачного выбора класса допустимых решений, т. е. при/ (X)^F, ошибку в описании истинной функции рег- регрессии / (X) с помощью выборочной аппроксимирующей функ- функции регрессии fa (X) удобно представить в виде суммы двух компонент: ошибки выборки и ошибки аппроксимации. При этом ошибка выборки (разность fa (X) — fa (X)) при п ->• со стре- стремится (по вероятности) к нулю, в то время как ошибка ап- аппроксимации (разность fa{X) —/ (X)) не стремится к нулю ни при каком выборе критерия адекватности А. Обсуждение мотивов выбора вида функции потерь р (и со- соответственно критерия адекватности А) приводится в гл. 7. ВЫВОДЫ 1. Центральное место в аппарате статистического исследования зависимостей между количественными переменными занимает понятие регрессии результирующего показателя г\ по объяс- объясняющим переменным J-*1), |<2>, ..., ?<р>. 2. Функция /(X), описывающая изменение условного среднего значения #ср (X) = Е (т) | I = X) результирующего показа- показателя г] в зависимости от изменения заданного значения X предикторной переменной ?, называется функцией регрессии. 3. Для точного описания функции регрессии / (X) = Е (л 15= = X) необходимо знание закона условного распределения результирующего показателя г] (при условии ? = X). В стати- статистической практике ограничиваются оценкой (на основании имеющихся выборочных данных вида (В.1)) подходящих ап- аппроксимаций fa (X) фуНКЦИИ / (X). 173
4. Наряду с приведенным выше классическим определением функции регрессии в теории и практике статистического иссле- исследования зависимостей используются функции /^-регрессии, являющиеся наилучшими прогностическими моделями для анализируемого результирующего показателя г) (X) в смысле минимизации заданного критерия адекватности (агрегирован- (агрегированной ошибки прогноза) Д (/а). Функции Д-регрессии позволяют подбирать наилучшие аппроксимации для неизвестной истин- истинной функции регрессии. Кроме того, они представляют и само- самостоятельный интерес, позволяя строить и анализировать иную, чем условное среднее, условную характеристику места груп- группирования результирующего показателя г) (X) = (г\Ц = X), обладающую в ряде ситуаций определенными преимущества- преимуществами перед условной средней. 5. Наиболее распространенными частными случаями Д-рег- рессий являются среднеквадратическая, медианная и мини- минимаксная регрессии. Весьма полезными являются и различные варианты так называемых «робастных» регрессий (см. § 7.2). 6. Соотношение истинной (/(X)), теоретической аппроксими- аппроксимирующей (fa (X)) и выборочной аппроксимирующей (fa (X)) рег- регрессий существенно зависит от выбора критерия адекватности Д (fa) (определяемого природой регрессионных остатков е) и класса допустимых решений F. В частности, даже при удач- удачном выборе критерия адекватности Д в ситуациях, когда истин- истинная функция регрессии / (X) не «накрывается» классом допус- допустимых решений F (т. е. когда / (X) ф F), выборочная аппрок- симирующая функция регрессии fa (X) не будет стремиться к истинной при неограниченном росте объема выборки (отсутст- (отсутствие свойства состоятельности у fa (X), объясняемое неустрани- неустранимостью ошибки аппроксимации). 7. Истинная регрессия f (X) = Е(г}|§ = X) является одновре- одновременно среднеквадратической, т. е. дает решение оптимизаци- оптимизационной задачи вида E.6) при квадратичной функции потерь (при отсутствии ограничений на класс допустимых решений F). Глава 6. выбор общего вида ФУНКЦИИ РЕГРЕССИИ Собственно регрессионный анализ, т. е. восстановление по име" ющимся наблюдениям предикторной переменной ? и резуль- результирующего показателя г\ Уг), (Х%9 */2),..., (ХП9 Уп)} F.1) 174
неизвестной функции регрессии / (X) = Е (г]|? = X), начи- начинается с выбора класса допустимых решений F — класса функций, в рамках которого предполагается вести поиск на- наиболее подходящей аппроксимации fa (X) для / (X). Наиболее распространенными в статистической практике являются параметрические регрессионные схемы, когда в ка- качестве класса допустимых решений выбирается некоторое пара- параметрическое семейство функций F.2) В этом случае дальнейший поиск аппроксимации / (X) сво- сводится к наилучшему (в смысле заданного выборочного крите- критерия адекватности, см. § 5.2) подбору неизвестного значения параметра в*, что в свою очередь осуществляется с помощью полностью формализованного алгоритма решения соответству- соответствующей оптимизационной задачи, составляющей математичес- математическую основу процедуры, называемой статистическим оценива- оцениванием параметра. Но до перехода к процедуре статистического оценивания не- неизвестного значения параметра мы должны сделать и обосно- обосновать определенный выбор типа параметрического семейства F.2). Так, например, в качестве класса допустимых решений можно использовать р линейные функции: /(X; 6) = 60+ 2 0ft .*<*>; F.2') k= i степенные функции: /(X; 0) = 0o(*A))ei (*B>)в2... алгебраические полиномы степени т ^ 2: /(X; 0)= 0о+2 efc.**>+ S 2 e*t*,*<*'>• и т. д. Следует подчеркнуть, что этап 4 (см. § В.6), т. е. этап ис- исследования, посвященный выбору общего вида функции регрес- регрессии (параметризация модели), бесспорно, является ключевым: от того, насколько удачно он будет реализован, решающим об- образом зависит точность восстановления неизвестной функции регрессии / (X). В то же время приходится признать, что этот этап находится, пожалуй, в самом невыгодном положении: к со- сожалению, не существует системы стандартных рекомендаций 175
и методов, которые образовывали бы строгую теоретическую базу для его наиболее эффективной реализации. Остановимся на некоторых рекомендациях, связанных с реализацией трех основных моментов, учет которых необхо- необходим при решении проблемы выбора общего вида функции рег- регрессии: 1) максимальное использование априорной информа- информации о содержательной (физической, экономической, социоло- социологической и т. п.) сущности анализируемой зависимости; 2) предварительный анализ геометрической структуры исход- исходных данных вида F.1), на основании которых конструируется искомая зависимость; 3) различные статистические приемы обработки исходных данных, позволяющие сделать наилучший выбор из нескольких сравниваемых вариантов. 6.1. Использование априорной информации о содержательной сущности анализируемой зависимости Анализируя содержательную сущность изучаемой зависимос- зависимости, исследователь еще до обращения к исходным статистичес- статистическим данным может (и должен!) попытаться ответить на ряд во- вопросов по поводу характера искомой регрессионной связи: а) будет ли искомая функция / (X) монотонной или она должна иметь один (или несколько) экстремум? б) следует ли ожидать стремления (в процессе х^ ->¦ оо) / (X) к асимптотам (по одной или нескольким предикторным переменным) и какова их содержательная интерпретация? Так, например, если / (X) — средний объем благ определенного ви- вида, потребляемых семьями группы X по доходам, то, очевидно, при X ->¦ оо следует ожидать «насыщения», т. е. / (X) будет стремиться (снизу) к горизонтальной асимптоте (см. п. 4 и 10 в табл. В.З); в) какова принципиальная природа воздействия предик- торных переменных я*1), х^\ ..., jc<p> на формирование резуль- результирующего показателя у — аддитивная или мультипликатив- мультипликативная? Так, например, многие схемы зависимостей в экономике и квалиметрии характеризуются мультипликативной природой воздействия предикторов на у (см. п. 1—3 в табл. В.З, а также 151); г) не диктует ли содержательный смысл анализируемой за- зависимости обязательное прохождение графика искомой функ- функции / (X) через одну или несколько априори заданных точек в исследуемом факторном пространстве (X, у)? Поясним необходимость и возможность максимального изв- извлечения информации об общем виде анализируемой функции 176
у, футов регрессии / (X) из соображений профессионально-теоретичес- профессионально-теоретического характера на двух примерах. Пр и мер 6.1. На рис. 6.1 представлены 63 результата специального эксперимента [50, с. 57]. Расположение точек на рис. 6.1 не дает ответа на вопрос, описывать ли зависимость между скоростью автомобиля (х миль/ч) и расстоянием (у футов), пройденным им после поданного сигнала об остановке, линейной или параболиче- параболической зависимостью. Этот вопрос остается без ответа и после построения соответствующих кривых и применения известных ста- статистических кр итер иев, предназначенных решать, насколько хорошо согласу- согласуются кривые с эксперимен- экспериментальными данными. Однако несложные рассуждения профессионально-теорети- профессионально-теорети15 20 25 30 35х,мт/ч Рис. 6.1. График зависимости тор- тормозного пути автомобиля (у) от скорости его движения (х) ческого характера все-таки позволяют сделать этот выбор. Действительно, для каждого отдельного автомобиля и водителя расстояние, пройденное до остановки, определяется в основном тремя фак- факторами: скоростью автомобиля (л:) в момент подачи сигнала об остановке, временем реакции на этот сигнал водителя (9Х, ч) и тормозами автомобиля. Автомобиль успеет пройти путь dtx до момента включения водителем тормозов и еще 92-л;2 после этого момента, поскольку согласно элементарным физи- физическими законам теоретическое расстояние, пройденное до оста- остановки с момента торможения, пропорционально квадрату ско- скорости. Итак, у = 9Х х + 92л:2, что после оценивания 9Х и 92 с по- помощью мнк (см. гл. 7) дает у = 0,76л:+0,056л:2. Пример 6.21. Рассмотрим в качестве результирующего показателя г] вес коровы, а в качестве предикторов 2;*1) — ок- окружность ее туловища и ?<2> — длину от хвоста до холки. Ста- Ставится задача определения регрессионной зависимости 1Исходные данные примера заимствованы у А. Я. Боярского и пуб- публикуются с его любезного разрешения. 177
по результатам контрольных замеров {х\г\ х(?\ */*Ь=1,2>--->20 20 коров. Были подвергнуты расчету и сравнительному анализу три варианта параметризации модели: вариант 1 (линейный): f(x<l\ x вариант 2 (степенной): f(x^l\ вариант 3 (учитывающий содержательный смысл задачи): /(*<*>, *<2>) = e (jc^)I^1). Происхождение варианта 3 легко объяснить. Для этого следует представить себе приближенно тушу коровы в форме цилиндра с длиной образующей, равной лгB>, и радиусом ос- основания, равным хA>/2я. Используя формулу вычисления объ- объема цилиндра и пропорциональную зависимость между весом и объемом цилиндра, получаем зависимость вида где остаточная компонента г отражает специфику формы туло- туловища каждой конкретной коровы. Для проверки работоспособности всех трех вариантов моде- моделей были проведены два цикла расчетов по методу наимень- наименьших квадратов (см. гл. 7). Вначале были оценены коэффициен- коэффициенты 0 моделей по всем 20 наблюдениям и подсчитаны (по тем же 20 наблюдениям) характеристики «качества» моделей: множест- множественный коэффициент корреляции Ryt{xa) xi*)) (см. формулу A.24/)) и остаточные средиеквадратические отклонения F-3) (здесь т — размерность оцениваемого векторного параметра 0, а Д/i (/) отличается от выборочного критерия адекватности Ап (/) лишь множителем , см. формулу E.4')). Результаты первого цикла расчетов приведены в гр. 2, 3 и 4 табл. 6.1. Из них как будто следует, что формально-аппрокси- мационные варианты 1 и 2 оказались несколько точнее вари- варианта 3, выбранного с учетом содержательного смысла задачи. Однако «благополучие) моделей 1 и 2 лишь кажущееся, что и выявляется в ходе второго цикла вычислений, когда имею- имеющаяся выборка из 20 наблюдений была разбита на две: первая, состоящая из 10 тяжелых коров, была использована для оцен- оценки параметров, по методу наименьших квадратов (такие выбор- 178
ки называют обучающими), а вторая, состоящая из 10 легких коров, была использована для оценки величины выборочного критерия адекватности Д„ (/) (такие выборки называют экзаме- экзаменующими1). Из гр. 5 и 6 табл. 6.1 мы видим, что формально- аппроксимационные варианты моделей не выдержали «экза- «экзамен» на устойчивость (сравните значения коэффициентов 6 в гр. 2 и 5), и, кроме того, дают явно худшую точность при их использовании в задачах экстраполяции (сравните первые две строки с третьей в гр. 6). Таблица 61 Номер варианта модели 1 1 2 3 Результаты расчетов по всем 2 0 наблюдениям Оценки коэффи- коэффициентов в 2 9^ = 4,73 6^.1 = 1,556 "9= 1,13-Ю-4 «-4 н 3 0,84 0,85 0,83 Ул2о</) 4 25,9 24,5 26,6 Оценки коэффи- коэффициентов моделей 6 по 10 тяжелым коровам 5 9^.0 = 453,2 (?.1=0,62 9^.2 = — 0,22 9^ = 0,203 6^.2= — 0,072 "8*=! ,11-10-* Оценки по 10 лег- легким коро- коровам 6 81 79 28 Этот пример убедительно демонстрирует, помимо предпочти- предпочтительности экстраполяционных и «устойчивых» свойств мо- модели 3, что не следует гнаться за чрезмерной сложностью моде- модели, ориентируясь при этом на минимизацию выборочного кри- 1Подробнее о разбиении выборки на обучающую и экзаменующую см. гл. 11, 179
терия адекватности Дп (/), когда и оценки неизвестных значе- ний параметров в модели и значение критерия Дп (/) вычисля- вычисляются на основании одной и той же выборки. Несостоятельность подобного подхода можно пояснить и теоретически: в соответст- соответствии с известным в математическом анализе результатом для любой заданной системы из п точек плоскости (хъ у^9 ..., (*п, уп) (с неповторяющимися абсциссами) можно подобрать такой алгебраический полином степени п — 1, который прой- пройдет через все точки этой системы. А значит, увеличивая число параметров в параметрическом семействе функций, задающем класс допустимых решений, мы можем добиться «идеальной «--^ точности» в смысле нулевого значения критерия Ад (/). На том, чего и как надо добиваться в действительности, мы подробнее остановимся в § 6.2, 6.3 и в гл. 11. 6.2. Предварительный анализ геометрической структуры исходных данных При выяснении вопроса о параметрическом виде исследуемой зависимости, как правило, идут от простого к сложному. Простейшей же аппроксимацией неизвестной функции регрес- регрессии / (X) = Е (т] | | = X) является, естественно, линейная модель, т. е. функция вида faWs=e0 + eiJC<1>+... + epJC^>. F.4) В предыдущей главе (см. п. 5.1) уже упоминалось, что если анализируемые переменные (&1), ?<2>, ..., !¦<*>; у\) подчиняются (р + 1)-мерному нормальному закону распределения, то ис- истинная функция / (X) регрессии r\ no |^>,..., gw принадле- принадлежит классу линейных (по x<k\ k = 1,2,..., р) функций F.4). Однако статистическая проверка многомерной нормальности изучаемой векторной случайной величины относится к зада- задачам, до сих пор плохо оснащенным достаточно эффективным инструментарием для их решения (см. сноску к с. 152 [14]). К тому же возможны ситуации, когда анализируемый много- многомерный признак (I*1),..., ?<*>>; ц) не является нормальным, но в то же время регрессия г| по (?A),..., ?(р)) линейна. Поэтому при предварительном, анализе характера исследу- исследуемых зависимостей (т. е. до проведения вычислительных про- процедур по оценке неизвестных значений параметров, входя- входящих в гипотетичные уравнения связей) ограничиваются неко- некоторыми приближенными эвристическими приемами, связанны- 180
ми в основном с изучением «геометрии» парных корреляцион- корреляционных полей. 6.2.1. Содержание геометрического анализа парных корреля- корреляционных полей. Под корреляционным полем переменных {и, v) понимается графическое представление имеющихся измерений (иъ vi)> (а2» у2)>-"> (ип, Vn) этих переменных в плоскости (ufv). Мы уже неоднократно имели дело с корреляционными полями (см. рис. В.2, В.4—В.7, 1.1, 5.1, 6.1). Анализ парных корреляционных полей состоит обычно в следующем: а) построение на основании имеющихся исходных данных вида F.1) корреляционных полей для всевозможных пар пере- переменных вида (#('>, x(k)) и (;с(/), у), отобранных из набора всех р + 1 исследуемых признаков (хA), xB\ ..., jc(p); y)\ всего таких пар будет, очевидно, р (р + 1)/2, однако процесс этот легко автоматизируется с помощью средств современных ЭВМ; б) визуальное прослеживание характера вытянутости каждого корреляционного поля: эллипсоидально-линейное (см. рис. В.6), нелинейно-монотонное (см. рис. 6.1), с наличи- наличием одного или нескольких экстремумов (см. рис. В.4) и т. п.; в) изучение поведения условных средних значений ре- результирующего показателя при изменении величины перемен- переменной, откладываемой по оси абсцисс и играющей роль предик- торной (см. рис. В.2); для этого (если значения предикторной переменной неконтролируемы в ходе наблюдения или экспе- эксперимента) предварительно разбивают диапазон значений объ- объясняющей переменной на интервалы группирования (см. [14], п. 5.4.2) и подсчитывают средние значения ординат тех точек-наблюдений, которые попали в общий интервал груп- группирования. В результате такого анализа обычно получают формули- формулировку нескольких рабочих гипотез об общем виде искомой за- зависимости, окончательная проверка которых и выбор наибо- наиболее адекватной из них осуществляются (при отсутствии апри- априорных сведений содержательного характера) с помощью соот- соответствующих математико-статистических методов. Описа- Описание наиболее эффективных, с нашей точки зрения, приемов такого типа приводится в § 6.3. Здесь же остановимся на двух вспомогательных приемах, которые полезно использовать при геометрическом анализе парных корреляционных полей. 6.2.2. Учет и формализация «гладких» свойств искомой функ- функции регрессии. Выше упоминалось, что чрезмерное усложне- усложнение класса допустимых решений F и, в частности, завышение порядка аппроксимирующего регрессионного полинома (в но- 181
гоне за снижением значения выборочного критерия адекват- ности Ап (fa)) может привести к неоправданному усложнению вида искомой функции / (л:) = Е (r]|f = х), когда случайные отклонения исходных ((xt, уг), i = 1, ..., п) или условно осред- ненныхпог] ((х%9 yk)> k= l,s) точек неправильно истолковы- истолковываются как определенные закономерности в поведении регрес- регрессионной кривой. На рис. 6.2 представлен наглядный пример такого переусложнения, когда, располагая таблицей исход- исходных данных вида табл. 6.2 п 9 В 10 12 14 1S 18 20 X Рис. 6.2. Аппроксимация регрессионной функ- функции y = \og2x (пунктирная кривая) с по- помощью полинома 3-го порядка Таблица 6.2 к х% #ср (Л) 1 1 0 2 2 1 3 4 2 4 16 4 и подбирая аппроксимирующий полином /ей = 0о + 182
проходящий через все заданные точка (х%> ycv (*?)), k = 1, ..., 4*, приходят к необоснованному нарушению гладкости неизвестной истинной функции регрессии / (л:) = log2x. Из рис. 6.2 мы видим, что это нарушение гладкости уводит нас достаточно далеко от истины как для значений х, располо- расположенных внутри отрезка [5; 15], так и при х^ 17. Поэтому не следует забывать, что если истинный общий вид функции рег- регрессии нам не известен и мы вынуждены ее формально аппро- аппроксимировать (например, алгебраическим полиномом), то вся- всякая интерполяция и тем более экстраполяция г построенной нами аппроксимационной функции регрессии является, строго говоря, действием, теоретически не обоснованным. Приведен- Приведенный пример предупреждает нас о необходимости быть очень осторожными при истолковании и применении регрессионных уравнений, не использующих специальные сведения об изу- изучаемом процессе или явлении. Интуитивные соображения относительно соблюдения необ- необходимых свойств гладкости, высказываемые при выборе об-, щего вида функции регрессии / (х), могут быть формализованы с помощью так называемых функционалов гладкости L (/). Эти функционалы2 устроены таким образом, что чем более гладкой, более плавной является функция f (х), тем меньшее числовое значение они принимают. Нетрудно показать, что к такого рода функционалам относятся функционалы вида =тах|Г (*)|; М/)= f (П *€=Х J Приведем пример, в котором выбор функционала гладкости и требование его минимизации поддаются четкой физической интерпретации. Формально задача выглядит так. Рассматри- *Очевидно, подбор числовых значений 9/ (/ =0, 1, 2, 3) осуществ- осуществляется с помощью решения системы уравнений уср (х%) = 60 + $гх% + + в2 (*/JJ + вз (*&K» k = 1» 2, 3, 4, которое в данном случае дает: 6^ = —1,410; 6^ = 1,633, 9^ = — 0,233; С^ 0,0095. 1 Интерполяция — восстановление значений функции (в данном случае — функции регрессии) по значениям аргумента, расположен- расположенным внутри статистически обследованной области предикторных пе- переменных. Экстраполяция — восстановление значений функции рег- регрессии по значениям аргумента, расположенным вне статистически обсле- обследованного диапазона предикторной переменной. 2Функционал L (/) ставит в соответствие каждой заданной функции f (x) некоторое число L (/). 183
вается парная регрессионная схема типа В (см. § В.5) П = / (X) + 8 (X) с известной величиной дисперсии остаточной случайной компо- компоненты в (*): D е (х) = о2. Имеются результаты наблюдений (xl9 yj, (х2У у2), ..., (хпууп). Требуется определить такую выборочную аппроксимацию fa (x) функции регрессии / (х), для которой одновременно вы- выполнялись бы условия — ^(Уг-ЪШГ^о^; F.5) 00 J f"a(x)Ax. Другими словами, из всех функций, для которых остаточ- остаточная дисперсия равнялась бы заданной величине а2, мы должны выбрать наиболее гладкую в смысле минимизации функционала гладкости L3 (/). Можно привести пример простой физической интерпретации формальной модели F.5): если мы рассмотрим бесконечную тонкую гибкую рейку, закрепленную в точках (*i> #i)> (*2> Уг)> •••. (хп, Уп)* но закрепленную не «намертво», а с помощью пружинок заданной силы (пропорциональной а~2), то эта рейка изогнется как раз по кривой у = fa (x), определя- определяемой соотношениями F.5). Более подробно о результатах, относящихся к решению за- задач типа F.5), см. [123]. 6.2.3. Некоторые вспомогательные преобразования, линеари- линеаризующие исследуемую парную зависимость. Часто при рассмот- рассмотрении парных корреляционных полей ни линейная, ни полино- полиномиальная' регрессия не дают желаемой точности приближения. В этих случаях приходится обращаться к другим видам зависи- зависимостей: гиперболической, степенной, показательной и др. По- Покажем, что в ряде ситуаций эти зависимости оказываются не менее удобными, чем линейная, поскольку легко к ней сводят- сводятся. Так, в примере В.2 при исследовании зависимости между долговечностью образцов N и величиной соответствующего экс- эксплуатационного напряжения v роль зависимой переменной иг- играет величина т) = lg (N — Af0), а аргумента — х = lg v. Поэтому, исследуя линейную зависимость между tj и х, мы в действительности исследуем соотношение степенного вида между исходными переменными N и v, а именно зависимость 184
вида N— No = Ax-vb*, где NOt Ахи b± — некоторые постоян- постоянные величины, две из которых (Аг и Ьг) подбираются с помощью метода наименьших квадратов (см. гл. 7). Перейти от степенной зависимости к линейной нам позво- позволило логарифмическое преобразование переменных. Какие же функциональные зависимости поддаются ли- линеаризации, каковы их основные свойства, геометрическая интерпретация? С помощью каких преобразований переменных сводятся они к линейному виду? Итак, пусть 7]' и х' — исходные переменные (соответствен- (соответственно функция и аргумент), связь между которыми подлежит ста- статистическому исследованию. И пусть между ними существует зависимость Л' = / (*') + 8' <Л\ *'), F.6) где х\ — случайная зависимая переменная, х' — аргумент (случайный или неслучайный), / (#') — некоторая функция от х\ а е' (т]', х') — так называемая остаточная случайная ве- величина, характеризующая разброс случайных значений т)' около функции / (*'), которая в самом общем случае может за- зависеть (стохастически) и от т)', и от х'. Поскольку математичес- математическое ожидание остаточной случайной величины в' (г\\ х') при любых х\ и х' равно нулю, то из F.6) следует, что условное среднее Е (x\\xr) = t/'Cp (x') связано с х' соотношением y'c»(x') = f(x'). Рассмотрим некоторые наиболее распространенные типы зависимостей / (х') и способы их линеаризации. Зависимости гиперболического типа (рис, 5.3, 6.4, 6.5) I) „„,««' +-Le-5^ji± @<*'<oo). Этот тип кривых (рис. 6.3) характеризуется двумя асимптота- асимптотами (прямыми, к которым график функции неограниченно при- приближается, не достигая их): горизонтальной у == а' и верти- вертикальной х' = 0, а также параметром искривления Ь. С помощью преобразования независимой переменной х = \1х' (т. е. пере- перехода к новому аргументу) эта зависимость приводится к линей- линейному виду у = а' + Ьх\ (- В этом случае имеются две асимптоты: у' = 0 и х = =— а'/b (рис. 6.4). Параметр, характеризующий искривление, равен 1/6. Зависимость линеаризуется с помощью перехода к 185
6>0 О Рис. 6.3. График гиперболической зави- зависимости вида у=а' Ь/' новой зависимой переменной к\ = 1/т|' (для выборочных значе- значений yt = \ly'i)\ О\ ..' X' 1/6 а' х' +Ь а'+Ь/ Рассматриваемые кривые (рис. 6.5) имеют горизонтальную асимптоту у' = 1/а', вертикальную асимптоту хг = — Ыа! и характеристику искривления, равную — Ыа2. С помощью х Рис. 6.4. График гиперболической зависимости вида у =\/(а' + Ьх): а) случай 6>0, а'<0; б) случай 6<0, а'<0 186
f " в "a.1 Рис. 6 5. График гиперболической зависимости вида у'=х'/(а'х' + Ь): ух/(х + ) а) случай «положительного» исправления (—0/а^> >0); б) случай «отрицательного» исправления (Ь/'0) перехода к переменным^ = \1х\' и х = \1х' кривые приводятся к линейному виду. Зависимости показательного типа (рис. 6.6, 6.7, 6.8) 1) г/с'р-Ле^ (— оо Кривые (рис. 6.6) проходят через точку @,Л), причем ось х является их горизонтальной асимптотой. Если вместо ц' (соответственно y'i) в качестве зависимой переменной рас- рассмотреть величину к] = In r\r (соответственно yt = In r//), то данная зависимость преобразуется к линейному виду Уср= = а' + ЬХу в котором а' == In A; 2) г/ср<=Ле6/*' @<х'<оо). При b > 0 кривая (рис. 6.7, а) имеет горизонтальную асимп- асимптоту уг = А и вертикальную асимптоту х' = 0. При b < 0 Рис. б.б. График показательной (экспоненциаль- (экспоненциальной) зависимости вида у' — АеЬх: а) случай 60; б) случай 187
(рис. 6.7, б) кривая проходит через начало координат, имеет так называемую «точку перегиба» (— ft/2, Л/е2) и горизонталь- горизонтальную асимптоту у* = Л. Переход к переменным х\ = In к\' (соответственно yt = Iny'i) и xt = 1/лг/ позволяет линеаризо- линеаризовать и эту зависимость, причем в преобразованном виде ycv= = а' + Ьх, параметр а' = In Л; 1 ( —оо<х'<оо). Рис. 6.7. График показательной (экспоненциальной) зависимости вида г/' = Аеь/х': а) случай 6>0; б) случай 6<0 Частный случай так называемой «логистической» кривой по- показан на рис. 6.8. Кривая имеет две горизонтальные асимпто- асимптоты у' = 0 и у' = 1/а' и «точку перегиба» (In (ft/a'), I/2a). Линеаризация этой зависимости производится с помощью пере- перехода к новым переменным ц = 1/т|' (соответственно yt = 1/у/) и х = ег*'. Зависимости степенного типа (рис. 6.9) у'ср=*Ах'ь @<х'<оо). Рис. 6.8. График логистической кривой, описываемой уравнением вида f/' = l/(/ &') 188
A z. 1 x' Рис. 6.9. График степенной зависимости вида у' = к(х?)ь: а) случай 6>0; б) случай Все кривые на рисунке проходят через точку A, Л), причем если Ь > 0, то они проходят еще и через начало координат — точку @, 0), а если Ь'< 0, то координатные оси являются од- одновременно асимптотами. Перейдя к новым переменным х\ = In x\ (соответственно у{ = In y't) и х = In х\ мы преобра- преобразуем исследуемую зависимость к линейному виду. Зависимости логарифмического типа (рис. 6.10) Уср^а' +ЬЛпх' @<х<оо). Кривые на рисунке проходят через точку A, а') и имеют в качестве вертикальной асимптоты ось у (т. е. хг = 0). Пере- Переход к линейному виду зависимости осуществляется с помощью логарифмического преобразования аргумента: х = In x'. а' a' X' о 1 Рис. 6.10. График логарифмической зависимости вида у=а'+ьЛпх': а) случай 6>0; б) случай Ь<0 189
Замечание. Линеаризация связей с помощью преоб- преобразования исследуемых переменных имеет недостаток. Оценки параметров о! и Ьу полученные затем (после линеаризации) с по- помощью метода наименьших квадратов, на самом деле не мини- мизируют сумму квадратов отклонений Ап (а , Ь) — - 2 (у'?— — f {x'i)Y для исходных переменных ц' и х'. Они лишь миними- минимизируют сумму квадратов отклонений преобразованных значе- значений зависимой переменной yt от соответствующей регрессион- регрессионной прямой у = а' + Ьх, т. е. квадратичную форму • 1 а это не одно и то же. Предлагается поэтому производить опре- определенную «доводку», уточнение оценок неизвестных значений параметров, полученных с помощью линеаризации связей [10, с. 172]. 6.3. Математико-статистические методы в задаче параметризации модели регрессии 6.3.1. Компромисс между сложностью регрессионной модели и точностью ее оценивания1. Из общих результатов математи- математической статистики, относящихся к анализу точности оценива- оценивания исследуемой модели при ограниченных объемах выборки, следует, что с увеличением сложности модели (например, раз- размерности неизвестного векторного параметра в, участвующего в ее уравнении) точность оценивания падает. Мы с этим уже сталкивались, например, при анализе точности оценивания частных и множественных коэффициентов корреляции (см. п. 1.2.3, 1.3.3, а также формулы A.34), A.34')). Об этом же свидетельствуют и результаты, приведенные в гл. 11. Это озна- означает, в частности, что в ситуациях, когда исследователь распо- располагает лишь ограниченной исходной выборочной информацией, он вынужден искать компромисс между степенью общности привлекаемого класса допустимых решений F и точностью оценивания, которой возможно при этом добиться. Перед тем как изложить общую схему, в рамках которой можно математически ставить и решать задачу достижения та- *В изложении материала п. 6.3.1, связанного с понятием «емкости» (сложности) класса допустимых решений F и с методом структурной минимизации критерия адекватности, участвовал В. Н. Вапник. 190
кого компромисса (метод структурной минимизации критерия адекватности [34]), поясним эту идею на следующем полуэври- полуэвристическом приеме решения одной частной задачи. Определение оптимального числа предикторов в модели ли- линейной множественной регрессии. Пусть мы строим линейную множественную регрессию результирующего показателя г\ по предикторам (л:*1), хB>, ..., л:(р>), используя для этого выборку ограниченного объема М",хГ>,...,ф;У1)м.2 „, F.7) причем величины р и п — одного порядка (но р <С п — 1) Очевидно, в данном случае сложность модели будет определять- определяться числом включенных в нее предикторов. Нужно ли для дости- достижения максимальной точности в задаче восстановления неиз- неизвестных значений результирующего показателя к\ по значени- значениям предикторов включать в модель все предикторные перемен- переменные, а если не все, то сколько и какие именно? С одной стороны, мы уже знаем (см. A.30)), что присоедине- присоединение каждой новой предсказывающей переменной может только увеличить величину множественного коэффициента корреля- корреляции R между результирующим показателем т] и предикторами и, следовательно, уменьшить ошибку в предсказании г\ (X) (см. A.26)). С другой стороны, нам известны не точные значения теоретических характеристик R, участвующих в A.26) — A.30), а лишь их выборочные аналоги — статистические оценки R. Поэтому естественно было бы добиваться максимизации не R2, а нижней доверительной границы (R2)^in для истинного значения коэффициента детерминации R2 (при заданной дове- доверительной вероятности Р). Если принять приближенное допу- щение, что (R2)™in меньше точечной оценки R2 на величину, пропорциональную среднеквадратической ошибке о^ = R — V туп* (множитель пропорциональности X (Р), конечно, зависит от заданной величины доверительной вероятности Р)у и воспользоваться приближенной формулой A.34'), то получа- получаем следующую формулу для определения (R2)Tn' (R2)pin ^ Я2— А,(Р). 2р("~р~1) A —Л2). F.8) Опираясь на F.8), можно предложить следующую процеду- процедуру определения оптимального состава и числа предикторов мо- модели множественной линейной регрессии. 191
Последовательно для каждого &=1, 2, ..., р с использова- использованием формул A.27), A.28), A.35') рассчитывается величина max F.9) а затем по формуле F.8) — величина (R2 (fe))?in. Тем самым для каждой заданной размерности k модели уже выявлен оп- оптимальный состав предикторов: это тот набор (x(li\ xA*) ..., х^*')» Ha котором достигается максимум правой части F.9). / г з • • • • t0 p Рис. 6.11. Зависимость нижней доверительной границы коэффициента детерминации от числа предикторов (пунктирная кривая) На рис. 6.11 представлены схематические графики величин /?2 (k) и (R* (k))fn как функций от к. В качестве оптимального числа предикторов, включаемых в модель, естественно взять то значение &0, для которого величи- величина (R2 (fe))pin максимальна. Метод структурной минимизации критерия адекватности. Опишем теперь, следуя [34], общую схему, в рамках которой решается задача выбора оптимальной сложности параметричес- параметрического семейства {/ (X; в)}, используемого в качестве класса до- допустимых решений F, в зависимости от объема п и геометричес- геометрической структуры исходных данных F.7). Общая логика, на кото- которой построена эта схема, та же, что и логика решения предыду- предыдущей задачи: и та, и другая опираются на умение дать гаранти- гарантированную оценку оптимизируемой теоретической характерис- 192
тики (в общей схеме — оценку сверху для теоретического кри- критерия адекватности А (в) = Д(/ (X, в)) по значению соответ- соответствующей выборочной характеристики (в общей схеме — по Д (в) = Д„ (/ (X; О)). Однако в условиях полного отсутствия какой бы то ни было априорной информации о характере сов- совместного распределенияр (X, у) исследуемых переменных (?, г\) никаких надежных заключений о величине А (в) по значению Д (в) сделать нельзя. Минимальная информация такого рода, используемая в описываемом методе, состоит в том, чтобы для некоторого q>\ знать величину кду определяющую нера- неравенство вег Ниже в целях упрощения формулировок будем требовать выполнения неравенства для случая q = 2: УЕ(,-М*;6))*<Я FЮ) вг Б(у-/(Х; в))» ^ Априорная информация, заданная в терминах неравенства F.10), является более практически доступной, чем обычно ис- используемая связанная с типом распределения регрессионных остатков. Так, если параметрическое семейство случайных ве- величин г (Х- в) = у-/(Х; в) F.11) таково, что каждая случайная величина е (X; в) распределе- распределена по нормальному закону (со своими параметрами, зависящи- зависящими от в), то Х = КЗ; если семейство F.11) подчинено закону Лапласа [14, п. 6.1.8], то X = УЪ\ если же е (Х^в) подчинено равномерному закону распределения, то X = J/2. Неравенство F.10), по существу, характеризует особенности поведения «хвостов» в случайной выборке наблюдений F.7). В ситуации, когда соблюдается условие F.10), метод струк- структурной минимизации критерия адекватности может быть по- построен на основе емкостных характеристик класса функций {/ (X; в)}, в котором ведется восстановление регрессии. Ниже мы используем одну из возможных таких характеристик — емкость (или сложность) класса функций {/(X; 6)}еег. -7 Зак. 244 193
Для определения понятия «емкость класса {/(X; в)}0ег» внедем множество индикаторных функций {J (X; у; 6, р)} == {sign (у - f (X; в) +р}* на элементах (Хь yt) выборки F.7). Индикаторные функции определяются параметрами в, р, где в ? Г — параметры, определяющие / (X; 6), и E — некото- некоторое число из интервала (— о&, с»). Каждая индикаторная функ- функция J (X, у\ в*, р*) делит выборку F.7) на две подвыборки: подмножество пар, на которых индикаторная функция прини- принимает значение+ 1, и подмножество пар, на которых инди- индикаторная функция принимает значение— 1. Обозначим jVr(Xb yx\ Х2, Уч\-"\ Хп, уп) количество различных разде- разделений множества F.7) на два подмножества с помощью инди- индикаторных функций из класса {J (X, */; в, Р)}вег- Очевидно, что Определение. Назовем функцию т*(п)=х max^ N* (Х19 ух\ ...; Хп, уп) F.12) функцией роста класса {/ (X; в)}0еГ на выборках вида F.7). Для функции роста справедливо следующее утверждение. Утверждение. Определенная соотношением F.12) функция роста либо тождественно равна 2П, либо, если для не- некоторого Л это не так, т. е. тТ (h + 1) Ф 2h+l, то для п >h справедлива оценка h\ Это утверждение позволяет оценивать функцию роста лю- любого класса {/ (X; в)}еег функций. Для получения соответст- соответствующей оценки достаточно указать такие h + 1 пар, которые не могут быть разеделены всеми 2/l+1 способами с помощью ин- индикаторных функций У(Х, у\ в, Р). В частности, для функций / (X; q), линейных по парамет- параметрам в, т. е. /(X; в)^ ?= 1 *Напомним, что функция sign B) определяется соотношенизм sien (г) - I + 1' еСЛИ Z>5; sign кг) - |__^ если 2<0# 194
где {гр! (X), ip2 (X), ..., i|)w_1 (X)} — некоторая заданная сис- система известных функций, имеет место оценка тг(п)<пт/т\ (п>т). Итак, функция роста mF (ft) оценивается либо 2п\ либо< —, если тг{Н + 1)ф2к+1, n>h. h\ Определение. Будем говорить, что класс функций / (X; в) имеет бесконечную емкость, если соответствующая функция роста тождественно равна 2Л, и имеет конечную ем- емкость ft, если функция роста оценивается сверху величиной 2? (п >h). Справедливо утверждение: с вероятностью 1 — а одновре- одновременно для всех функций {/ (X; в)}0еГ имеет место неравенство А(в)< F.13) где 4, если А ^ 0; ), если Л<0. Так как неравенство F.13) с вероятностью 1 — а выполня- выполняется одновременно для всех функций, то оно справедливо и для функции, минимизирующей эмпирический критерий адекват- адекватности. Оценка F.13), по существу, зависит от относительного (по отношению ft) объема выборки п. Таким образом, в условиях F.10) для класса F функций ог- ограниченной емкости по величине эмпирического критерия адек- адекватности Дп (в) удается оценить величину теоретического кри- критерия адекватности Д (9). Теперь на основе полученной оценки F.13) сконструируем метод структурной минимизации критерия адекватности. Пусть на исходном классе F = {/ (X; ©)}вег задана струк- структура FiCF2C...CF,, F.14 ) 7* 195
т. е. задано минимальное подмножество Fj элементов из F, затем подмножество элементов F2, содержащее Flr и т. д. и, на- наконец, подмножество FQ — F, содержащее все элементы класса {/ (X; в)Jeer- Итак, подмножества Flf..., Fh ..., Fg, таковы, что с ростом номера / емкость их растет: hx < h2 < ... < hq. На каждом из подмножеств Fy найдем функцию / (X; 6'), минимизирующую выборочный критерий адекватности. Вы- Вычислим для функции / (X; в/) величину выборочного крите- критерия адекватности Д„ (в'). Очевидно, что с ростом номера / ре- личина Дп (в/) не возрастает. Но при фиксированных я и а оценка F.13) величины теоре- теоретического критерия адекватности для функции, минимизирую- минимизирующей выборочный критерий адекватности на элементах структу- структуры {Fj}f=zj-jy достигает своего наименьшего значения не обя- обязательно на подмножестве Fg = F. Иначе говоря, для фикси- фиксированного объема выборки наилучшее приближение к функции регрессии достигается на некотором элементе структуры F^. Этот метод назван в [34] методом структурной минимизации риска (в нашей терминологии — теоретического критерия адек- адекватности). Для ограниченного объема исходных данных п он позволяет установить компромисс между «сложностью» выби- выбираемой модели регрессии (номером элемента структуры F.14)— чем больше номер, тем сложнее модель ) и качеством прибли- приближения к выборочным данным (величиной Ап (в/)), при котором достигается наименьшая гарантированная оценка теоретичес- теоретического критерия адекватйости. Можно сказать, что дальнейшее усложнение модели приводит к приближению к имеющемуся эмпирическому материалу, а не к искомой зависимости. Метод структурной минимизации риска может быть исполь- использован для восстановления регрессии в различных классах функций. Применим его для построения полиномиальной рег- регрессии. Пусть структура Ft c= ... с: Fg такова, что элемент F, со- содержит полиномы степени / — 1. В атом случае емкость клас- класса F; равна /. И проблема заключается в том, чтобы минимизи- минимизировать выборочный критерий адекватности в классе полиномов такой степени /*, чтобы достичь минимума оценки F.13). На рис. 6.12 показан пример восстановления полинома пя- пятой степени на отрезке [—2,2]. Восстановление проводилось по измерениям функции в 20 случайно взятых точках (крести- (крестики). Видно, что кривая 2 лучше приближает истинную регрес- регрессию, чем кривая /. 196
На рис. 6.13 приведен пример восстановления неполиноми- неполиномиальной истинной регрессии в классе полиномов по 20 измере- измерениям (крестики). При решении этих примеров минимизировался упрощенный вариант правой части F.13), а именно функционал A In — -In a где было принято In a = — 2. 6.3.2. Поиск модели, наиболее устойчивой к варьированию со- состава выборочных данных, на основании которых она оценива- оценивается. Идея этого подхода к выбору общего вида исследуемой регрессионной'зависимости основана на следующем простом со- соображении: если общий параметрический вид зависимости f/ср — / (*A)> *B\-.. *(р); ©) «угадан» правильно, то результаты оценивания вь 62,..., параметра в по различным подвыборкам выборки Вп = {*<]>, х{]\ ..., *<р>; yi}i=2T~n бУЛУт мало отличаться друг от друга (а следовательно, не сильно будут раз- различаться между собой и соответствующие значения / (х<1\ *<2>, ..., xW\ в^), / (х^1) х^2) х^р)' 0 ) ) И, наоборот, при неудачном выборе общего вида иско- искомой зависимости результа- результаты ее восстановления по различным выборкам, как правило, будут сильно от- отличаться один от другого. С проявлением указан- указанного свойства аппроксима- ционных регрессионных мо- моделей мы уже столкнулись в примере 6.2. Действи- рис е{2 Истинная полиномиальная тельно, по данным табл. 6.1 регрессия (—) и ее аппроксимации: МЫ видим, что оценки ко- кривая / — наилучшее приближение в классе полиномов пятой степени эффициентов 9fc0, 0ftl и 9ft2 (k =± 1,2) айпроксимацион- ных вариантов анализируе- анализируемой модели (вариантов 1 и (—о—о—о—); кривая 2 — полу- полученная с помощью алгоритма струк- структурной минимизации критерия адек- адекватности (—•—•—•—) 197
2), подсчитанные по раз- различным выборкам 'сначала по всей выборке из 20 наб- наблюдений, а затем по ее по- половине), могут отличаться не только на несколько по- порядков, но и по знаку (!). В то же время значение оценки коэффициента 0 в модели, общий вид которой выведен из содержательных соображений (вариант 3), практически остается од- одним и тем же при расчете как по всей выборке, так и по ее части. Предлагаются следую- следующая реализация только что сформулированной идеи и ее экспериментально-вычи- экспериментально-вычислительная апробация г Рассмотрим систему В подвыборок выборки Вд : В = {b:b б Вд>. Пусть на множестве X — области определения исследуе- исследуемой функции регрессии — задана система линейно-независи- линейно-независимых (базисных) функций % (X), X ? X, i = Т^ Моделью Ms (X, о Ф)) порядка 5 для функции / (X), по- построенной по базису {ipi (X)}?L 1 и подвыборке b ? В, назовем функцию вида Рис. 6.13. Истинная кусочно-линей- кусочно-линейная регрессия (—) и ее полиноми- полиномиальная аппроксимация, полученная с помощью алгоритма структурной минимизации критерия адекватности ) где коэффициенты в (Ь) = (9Ь..., 0S) = @Х (Ь), являются решением задачи минимизации min (yi-M.{XhB))*. Юписываемая ниже схема изложена на основе результатов и пред- предложений, разработанных В. А. Гусевым (см.: Классификация и аппрок- аппроксимация экспериментальных данных и надежность прогноза: Автореф. дис. ...канд. физ.-мат. наук. — М., 1982. —В надзаг.: ВЦ АН СССР). 198
Пусть 6^0 — заданное число, а X — некоторое подмноже- ство из X. Назовем множества bl ? В и Ь2 ЕЕ В б5 - эквива- эквивалентными (bx bs Ь2)у если они удовлетворяют условию | Ms (X, e(bx))-Ms (X, в (b2)) |< б, X б X. Таким образом, б^эквивалентность множеств Ьг и b2f т. е. подмножеств] множества Вд, означает следующее: значе- ние модели М8 (X, в (Ьх)) функции / (X), определенной по подвыборке bl9 отличается от значения модели М8 (X, в (Ь2))г определенной по подвыборке Ь21 в любой точке X множества X по модулю на величину, небольшую, чем б. Можно рассматри- рассматривать 6S -эквивалентность всей выборки Ъп и ее подвыборок, т. е. сравнивать модель Ms (X, в) = Ms (X, в (Вп)) с моде- лями М8 (X, в ф)), построенными по отдельным частям выбор- выборки Вп. Рассмотрим такие подвыборки b из Вп, которы.е содержат ровно а точек, и обозначим их совокупность через Ва, а их число через пга = С*. Далее, определим число та (б) подвыбо- рок b g Ba, для которых выполнено условие I Ms (X, в)— Ms (X, 0 (&)) | < б при всех X б X. Устойчивость модели М8 (X, в) порядка s на множестве X для заданного б будем измерять величиной = —!— у n-s+\ ** 1 s+ Пусть задана последовательность 0 < 8t < ... <с б,. Величину vs = - 2 vs (Sft) назовем средней устойчивость/о мо- 1 k= 1 на множестве X для последовательности FЬ 62,..., б,). Рассмотрим величину fimax(ft)*=max \M8(X, в) — М8(Х, в (fo)) |, максимальную по модулю разности .моделей на множестве X. Таким образом, можно рассматривать распределение значений величины бтах на системе подвыборок В. В частности, можно оценить математическое ожидание E6S величины 6s и гпэх тэх квантиль ир порядка Р распределения б^ах. Для оценки качества модели можно использовать следую- следующие характеристики: 199
v« (б) — характеристику устойчивости для заданного 6; vs — характеристику средней устойчивости для после- последовательности (б1э. 82,..., б^); Ебтах — математическое ожидание величины бтах> usp — квантиль порядка Р распределения величины бтах- Для наилучшей модели характеристики vs F) и vs дости- достигают максимального, а характеристики Еб^ах и и*р — мини- минимального значений. Практическая реализация данного подхо- подхода, опирающегося на анализ величин vs (б), vs, Е бтах и uspi требует привлечения ЭВМ и расчета необходимых статис- статистических характеристик этих величин с помощью метода Мон- Монте-Карло [14, §6.31. Возможна и иная форма реализации данного подхода, не предусматривающая необходимости использования статисти- статистического моделирования на ЭВМ. Она основана на анализе кри- критических статистик вида i> «a. s) = . П1 S *'*'g»' , FЛб) — У. (Уг - Ms (Xt; * n*~s xfi& где b± и b2 — непересекающиеся подвыборки объемов пх и п2 (nj + п2< п)у случайно и независимо извлеченные (без воз- возвращения) из исходной выборки Ъп. В частности, в условиях справедливости гипотезы Но: Е (г\\Ъ = X) = MS(X\Q) случай- случайная величина F.15) должна подчиняться приблизительно ^-распределению с числом степеней свободы числителя и зна- знаменателя пг — 5 и /г2 — 5 соответственно. Для статистической проверки этого факта можно восполь- зоваться сравнением подсчитанного значения статистики у с процентной точкой ^-распределения (см. табл. П.5). А при до- достаточно больших объемах п исходных выборок Ъп можно не- непосредственно проверять факт F-распределенности случайных величин у с помощью соответствующих критериев согласия [ 14, § 11.1]. Для этого, правда, следует образовать целую после- последовательность подвыборок Ьъ 62,..., Ь# из Вд, подсчитать для различных пар bif bj величины F.15) и применить к ним крите- критерий согласия. 6.3.3. Статистические критерии проверки гипотез об общем ви- виде функции регрессии. Подчеркнем сразу, что описанные ниже критерии проверки справедливости сделанного выбора общего 200
вида искомой функции регрессии не могут ответить на вопрос: является ли проверяемый гипотетичный вид зависимости на- наилучшим, единственно верным? Они лишь либо подтверждают факт непротиворечивости проверяемого вида функции рег- регрессии имеющимся у исследователя исходным данным F.1), либо отвергают обсуждаемую гипотетичную форму зависимости как не соответствующую этим данным. 1. Общий приближенный критерий, основанный на группи- группированных данных (или при наличии нескольких наблюдений при каждом фиксированном значении аргумента). Пусть высказана гипотеза об рбщем виде функции регрессии ~Н0 : Е (т]|? = Х)= =/а№9ьй2,.., 9т)(/а(Х; 0) — известная функция, (9lf 0Я,...', ®т) = в — неизвестные числовые параметры) и пусть вычислены (например, с помощью метода наименьших квад- квадратов, см. гл. 7) оценки .9lf в2,..., 9т неизвестных парамет- параметров, входящих в описание уравнения регрессии. При груп- группировке данных (или при проведении эксперимента) мы долж- должны соблюдать требование, jb соответствии с которым число интервалов группирования (или число различных значений аргумента, в которых производились наблюдения) k должно обязательно превосходить число неизвестных параметров /л, т. е. k — т ^ 1. ВсЛи высказанная гипотеза об общем виде зависимости яв- является правильной, то статистика »2= —!=LT-». F-16) 2 iv»-i должна приближенно подчиняться F (vlf у2)-распределению с числом степеней свободы числителя vt = k — т и знамена- знаменателя — v2 = п — k. Все величины в формуле F.16) соответст- соответствуют ранее введенным обозначениям. В частности, X? — сере- середина 1-го гиперпараллелепипеда группирования (или /-е зна- значение аргумента, в котором было проведено /я* наблюдений); fa (Xf\ 0) — значение гипотетической функции регрессии, вы- вычисленное в точке X = Xf; yt — условное среднее из ординат, попавших в /-й гиперпараллелепипед группирования (или из ординат, измеренных при i-ы фиксированном значении аргу- аргумента Х?)\ ytj —/-е по счету значение ординаты из числа попав- попавших в /-й интервал группирования (или из числа измеренных 201
при /-м фиксированном значении аргумента X?). Легко понять, что числитель в правой части F.16) характеризует меру рассеи- рассеивания экспериментальных данных вокруг аппроксимирующей выборочной регрессионной поверхности, а знаменатель — ме- меру рассеивания экспериментальных данных около своих услов- условных выборочных средних yt (т. е. меру, независимую от выбран- выбранного вида линии регрессии). Причем и числитель, и знамена- знаменатель являются практически независимыми (в некоторых част- частных случаях — точно независимыми) статистическими оцен- оценками одной и той же теоретической дисперсии о2 = D (г\ |? = Х). Соответственно получаем следующее правило проверки ги- гипотезы об общем виде функции регрессии. Задаемся, как обыч- обычно, достаточно малым уровнем значимости критерия а (напри- (например, а = 0,05). С помощью табл. П. 5 находим 100 A — 2J %_ НуЮ ТОЧКу V2_а И 100 ~ %-НуЮ ТОЧКУ Va F (k — /Л, П — k)- распределения. Если окажется, что величина v2, подсчитанная по формуле F.16), удовлетворяет неравенствам 2 то высказанная нами гипотеза об общем виде функции регрес- регрессии признается не противоречащей экспериментальным дан- данным F.1). Если же эти неравенства оказались нарушенными, то гипотеза об общем виде функции регрессии отвергается с уровнем значимости а. При этом если v2 «слишком мало» (т.е. v2 < v2 а) то, очевидно, при выборе общего вида регрессии мы 1 ___ неправомерно реагировали на случайные отклонения то- точек (X?, t/0 от истинной функции регрессии и тем самым необо- необоснованно завысили число параметров т, от которых зависит уравнение регрессии. Напротив, если v2 «слишком велико» (т. е. v2 >Уа), то «гибкость» аппроксимирующей функции рег- 1 рессии fa (X; в) следует признать недостаточной, поэтому це- целесообразно увеличить число неизвестных параметров регрес- регрессии (например, повысить порядок аппроксимирующего поли- полинома) . Для случая, когда условная дисперсия зависимой перемен- переменной пропорциональна некоторой известной функции аргумен- аргумента, т. е. Dt] (X) = o2h2 (X), формула F.16) преобразуется: 202
. * Z~ 2 m —г- Yi «i 2 (yu- F-16') где Так, в примере В.2: п = 40; k = 4: а = 0,05; m = 2; дисперсионное отношение у'2, подсчитанное по формуле F.16'), равно 1,04, в то время как 5% -ная точка/7 B,36)-распределения ^о,о5 = 3,26. Это свидетельствует о том, что гипотеза о линей- линейном виде регрессионной зависимости в данном случае не проти- противоречит имеющимся в нашем распоряжении эксперименталь- экспериментальным данным. При проверке линейности регрессии (так Же, впрочем, как и при проверке гипотезы о полиномиальном характере регрес- регрессии заданного порядка т) в нормальных схемах зависимостей типа В к Сг описанный общий критерий является точным. При этом в линейном случае статистика у2, определенная соот- соотношением F.16), может быть выражена в более удобной форме, не требующей предварительного вычисления выборочной ап- аппроксимирующей функции регрессии, а именно: ^-*>(?U-*>. FЛ7) Здесь, как и прежде, рч.| и г — соответственно выборочные корреляционные отношения (г) по I) и коэффициент корреля- корреляции, вычисляемые по формулам A.16) и A.8'). Логическая схема использования статистики F.17) аналогична ранее изло- изложенным критериям: задаются достаточно малым @,05 ~ 0,15) уровнем значимости а; находят по табл. П.5 100 с&%-ную точку Va распределения F (k — 2, п — k)\ сравнивают величину v2, определенную с помощью F.17), с процентной точкой v%,\ если оказывается, что v2 >> uj, то гипотезу о линейном виде ре- регрессии считают статистически необоснованной. Воспользуемся данным критерием для статистической про- проверки линейности регрессии в примере В.З. Вычисления дают: г2 = 0,429, р?.? = 0,459, так что и2 = 0,513. Принимая во вни- внимание, что величина4 5%-ной точки F D,37)-распределения рав- равна и§,05 = 2,63, делаем вывод о непротиворечивости гипотезы 203
линейности регрессии и данных нашего эксперимента в дан- данном примере @,513 < 2,63). 2. Общий приближенный критерий, основанный на негруп- пированных данных (при известной величине дисперсии остаточ- остаточной случайной компоненты). Встречаются ситуации, когда в результате предваритель- предварительных исследований или из других каких-либо соображений нам удается заранее определить величину дисперсии а2 остаточной случайной компоненты е в разложениях вида (В. 14) и (В. 16) (например, когда е — ошибка измерения, и нам известны ха- характеристики точности используемого измерительного прибо- прибора). В этом случае можно отказаться от стеснительного требо- требования группированности данных и для проверки гипотезы об общем виде функции регрессии воспользоваться фактом X2 (п — /л)-распределенности статистики ^ Щ F.18) (который имеет место при условии справедливости нашей гипо- гипотезы) . Задавшись уровнем значимости критерия а и найдя с по- помощью табл. П. 4 величины 10()(l—5)%- и 100-|%-ных точек Х2-распределения с п — т степенями свободы, соответственно X а (п — т) и х<% (п — т)у проверяем выполнение неравенст- 1 2 ва 2а (п — где у2 подсчитано по формуле F.18). Если эти неравенства ока- оказались нарушенными, то от гипотезы Но об общем виде функ- функции регрессии следует отказаться. При этом если у2 «слишком мало» (т. е. у2 ^ %2 а(п — т)), то, очевидно, при выборе об- {~ щего вида мы неправильно реагировали на случайные отклоне- отклонения экспериментальных точек (Хь yt) и тем самым необосно- необоснованно завысили число параметров т, от которых зависит урав- уравнение регрессии. Напротив, если у2 «слишком велико» (т. е. у2 ^ %а (п — —-т), то «Гибкость» аппроксимирующей кривой регрессии fa (X; 0) следует признать недостаточной, поэтому целесооб- целесообразно увеличить число неизвестных параметров регрессии (например, повысить порядок аппроксимирующего полинома). 204
Для случая, когда условная дисперсия зависимой перемен- переменной (или, что то же, дисперсия остаточной случайной компо- компоненты) не остается постоянной при изменении X, а пропорцио- пропорциональна некоторой известной функции аргумента, т. е. Dr] (Х)= = o2h2 (X), формула подсчета статистики у2 несколько изме- изменится: где со* = 1/Л2 (Xt). В остальном схема проверки гипотезы об общем виде функции регрессии остается той же самой, что и в случае Dr) (X) = а2 = const. 3. Оценка размерности модели регрессии. Предположим, что неизвестная истинная функция регрессии / (X) представи- ма в виде разложения по заданной системе базисных функций а регрессионные остатки е в моделях (В.14), (В.16) — незави- независимые нормальные случайные величины с нулевым математи- математическим ожиданием и дисперсией а2. Параметры т0, 0 = F1э ..., 9Шо) и а2 не известны исследователю. Величину т0 будем называть размерностью модели регрессии. Рассмотрим два способа оценивания т0, и, следуя) [97], опишем статистичес- статистические свойства такого оценивания. Оба способа основаны на величине «подправленного» вы- выборочного критерия адекватности д;(>>)- —— S (ifi-p) (X,; G)J, F.20) п — т l = 1 где?<"> = /с») (Х;*в) - |в;^ (Дав = (?1 Гто) - оцен- оценки наименьших квадратов параметров 6 (см. гл. 7). В первом способе в качестве оценки необходимого числа ба- базисных функций рекомендуется брать величину тЕ)х) = rnin {т : Я; (?(т~1)) > ^ (?(т)), F.21) Во втором способе с помощью критической статистики 1, п — т—2) =-= 205
которая при m0 = т и сделанных выше предположениях под- подчиняется ^-распределению с числом степеней свободы числите- числителя, равным 1, и знаменателя, равным п — т — 2 [130, с. 133], последовательно длят = 1,2, ... проверяется гипотеза т0 = т и останавливаются на таком наименьшем т(§\ при котором гипотеза впервые не отвергается. В [97] выведены асимптотические (по п ->¦ сю) распреде- распределения для оценок т(о) и т(§). Показано, что для / = 1,2: ; = k(l—k)»9 # = 0,1, где -зз- 1 е 2 dx ж 0,683 для т[1)\ =г Г е 2 dx длят@2). а В последнем соотношении ^ = ?>« A, л — т{1] — 2) — 100 а%-ная точка F A, л — т(§} — 2)-распределения. Эти результаты позволяют, в частности, строить асимптоти- асимптотические доверительные интервалы для неизвестной размерности модели регрессии. Существуют и другие различные способы оценки размерно- размерности модели регрессии, применимые при рассмотрении некоторых частных схем1. 4. Анализ регрессионных остатков. Ряд статистических кри- критериев проверки адекватности используемой аппроксимирую- аппроксимирующей модели регрессии основан на анализе регрессионных ос- остатков (невязок) е (Xt) = yt —fa (X*), i = 1, 2,..., п. В ос- основе их конструирования — положение, в соответствии с ко- которым правильный выбор модели/а (X) предопределяет асимп- асимптотическую (по п ->- сю) независимость остатков 8 (Xt). Поэто- Поэтому статистическая проверка правильности выбора общего вида 1См., например: Б о г а н и к Г. Н. Об установлении порядка урав- уравнения параболической регрессии. — Теория вероятностей и ее приме- применения, т. XII, 1967, № 4, с. 718—727. 206
функции регрессии сводится к проверке статистической незави- независимости остатков, для чего могут быть использованы, напри- например, критерии, описанные в [14, § 11.3]. На этом же основан и критерий определения порядка полиномиальной регрессии и критерии проверки независимости величин f (Xt) и е(Хг) [93]. ВЫВОДЫ 1. Этап параметризации регрессионной модели, т. е. выбора параметрического семейства функций (класса допустимых ре- решений), в рамках которого производится дальнейший поиск неизвестной функции регрессии, является одновременно наибо- наиболее важным и наименее теоретически обоснованным этапом рег- регрессионного анализа. 2. Прежде всего исследователь должен сосредоточить свои усилия на анализе содержательной сущности искомой ста- статистической зависимости, чтобы максимально использовать имеющиеся априорные сведения о «физическом» механиз- механизме изучаемой связи при выборе общего вида функции рег- регрессии. 3. Важную роль в правильном выборе параметрического клас- класса допустимых решений играет предварительный анализ гео- геометрической структуры совокупности исходных данных и в первую очередь анализ геометрии парных корреляционных по- полей, включающий в себя, в частности, учет и формализацию «гладких» свойств искомой функции регрессии, использова- использование вспомогательных линеаризующих преобразований. 4. Сформулированные с помощью содержательного и геометри- геометрического анализа рабочие гипотезы об общем виде искомой функ- функции регрессии могут быть проверены с привлечением соответ- соответствующих математико-статистических критериев. Среди фундаментальных идей, на которых базируются эти статисти- статистические критерии, следует выделить: а) идею компромисса меж- между сложностью регрессионной модели («емкостью» класса до- допустимых решений) и точностью ее оценивания; б) идею по- поиска модели, наиболее устойчивой к варьированию состава вы- выборочных данных, на основании которых она оценивается; в) идею проверки гипотез об общем виде функции регрессии на базе сравнения выборочных критериев адекватности и исследо- исследования статистических свойств получаемых при этом оценок размерности модели. 207
Глава 7. ОЦЕНИВАНИЕ НЕИЗВЕСТНЫХ ЗНАЧЕНИЙ ПАРАМЕТРОВ, ЛИНЕЙНО ВХОДЯЩИХ В УРАВНЕНИЕ РЕГРЕССИОННОЙ ЗАВИСИМОСТИ Рассмотрим общую модель линейной (относительно оцени- оцениваемых параметров в) регрессии в виде У«= S *fc(Zi)-eft+elf i=l,2,...,/i, G.1) где Qk — неизвестные параметры, которые надо оценить по вы- выборочным данным (Zu yt), i=l, ..., п\ {ipft (Z)Jfts=1— — система известных (базисных) функций векторного аргумента Z, по ко- которым разложена неизвестная функция регрессии / (Z) = = Е (л1Е = Z), т. е. / (Z) = Jx|)fe (Z) • 0ft; е,- - случайная погрешность. Сделав замену переменных х ^ = ярл (Zt) и учитывая ранее принятые обозначения модель G.1) можно представить в виде G.2) Вектор X* будем называть наблюденным значением предик- торной переменной (регрессора). В данной главе рассматриваются различные способы оцен- оценки параметра в в зависимости от предположений о природе X и характере распределения г. 7.1. Метод наименьших квадратов 7.1.1. Мнк-уравнения. Предположим, что распределение век- вектора е не зависит от X и нормально с нулевым вектором сред- средних и ковариационной матрицей S = аЧп, где а2 — неизвест- неизвестная дисперсия компонент е, а 1П — единичная матрица поряд- порядка п. Сформулированное условие записывается ве#(в»,очп). G.3) Оценка параметров в модели G.2), G.3) проводится с по- помощью метода наименьших квадратов (мнк), который описан в 208
[14, п. 8.6.3]. При этом в находится из условия минимиза- минимизации суммы квадратов отклонений наблюденных значений у от их сглаженных (регрессионных) значений, т. е. величины IIг-хеи =2 Ы- S *J*)e*Y=(V'-xe)'(y-xe).G.4) Уравнения метода наименьших квадратов, мнк-уравне- ния, в случае, когда г — ранг X равен р, имеют решение ©-(Х'Х^Х'Г. G Ъ) Если г <Ср, то в ряде случаев легко ввести дополнитель- дополнительные ограничения на параметры Нв = 0, где ранг Н равен р —г. Пусть G == (Х\ тогда G'G = Х'Х + Щ имеет размер (р X р) и ранг р и e = (G'Q)-*X'Y. G.6) Другой путь — использование обобщенной обратной мат- матрицы (Х'Х)- [17J для Х'Х. В этом случае в = (Х'Х)-Х'К. G.7) Подправленная на несмещенность оценка максимального правдоподобия [14, п. 8.6.3] для дисперсии а2 задается форму- формулой в» = ||У-Хв|1/(л-г), G.8) —* где \\Y — Хв|| часто называют остаточной суммой квадратов (ОСК). 7.1.2. Свойства мнк-оценок. В случае когда G.3) имеет место, 0 является наилучшей несмещенной оценкой 0, т. е. Е0 =0, и для всякой другой оценки 0 со свойством Е0 = 0 для про- произвольного (неслучайного) (р X 1)-вектора С ЩС 0)<D(C0). G.9) Если дополнительно потребовать, чтобы ранг X = р, то из общей теории мнк-оценок следует, что ©еЛ'@, аа(Х'Х)-1); G.10) (в-в)"Х'Х (в-в)/о* = & G.11) 209
0 не зависит от s2; |1 Y- Х6||/оа = (п- / G.12) G.13) Если сохранить требование Eet = О, Eef = а2 (I = 1,..., /г), cov (еь е;) = 0 (i ф /), но отказаться от нормальности рас- распределения е, то G.9) также будет иметь место, но уже только для линейных несмещенных оценок в. В общем случае при нарушении G.3) мнк-оценки теряют свои оптимальные свойства. Различные способы оценивания, применяемые в этом случае, описаны в § 7.2. 7.1.3. Ортогональная матрица плана. Матрицу X называют матрицей плана эксперимента. Рассмотрим случай, когда мат- матрицу плана X можно разбить на k совокупностей столбцов Хь ..., Xh (что соответствует разбиению на k подмножеств анали- анализируемого набора переменных) так, чтобы для всех i Ф j столбцы матрицы Хг- были ортогональны столбцам матрицы Х7-, т. е. Y /V V \ Y ' Y П I ' t *\ /7 1 Л \ А = (\1У ..., AfJ, Л/ \j = U {I =5= /j. (/ .14) Разобьем соответствующим образом и значения вектора в' =(в<1>', ..., 6<*>'). G.15) к Пусть далее г—ранг X* и 2^ = р. Из G.5) с учетом G.14) и /== 1 G.15) получаем Г х; хх о ... о О Х2Х2... О X'2Y о 0... Х?Х, (х; x^ XJ Г 0B) в Другими словами, 0^> является мнк-оценкой для в(<?> в мо- модели EY = Хд в<?>, а это означает, что в<?> оцениваются не- независимо друг от друга и в^> не изменится, если положить ка- какие-либо другие в<'> (/ Ф q) равными нулю. Величина ОСК в рассматриваемом случае имеет вид: 210
Если про какие-либо значения 6<?> известно, что они апри- априори равны нулю, то соответствующие слагаемые в правой части G.16) отсутствуют и ОСК соответственно больше. Поскольку @W независимы между собой, то целесообразна независимая проверка гипотез 6<?> = 0. Она проводится с помощью F-ot- ношения: Ъ'ЧЦъЪо/г, ^F(rg,n_p). GЛ7) ОСК/(п-р) д И) ' Это свойство широко используется в дисперсионном анали зе (см. гл. 13). 7.1.4. Параболическая регрессия и система ортогональных по- р линомов Чебышева. Пусть Еу = ^txk~1Qh. В силу соображе- ний, изложенных в предыдущем пункте, целесообразно перей- перейти к полиномам, ортогональным друг другу на системе наблю- наблюденных значений предиктора *ь..., хп: Введенные таким образом функции носят название ортого- ортогональных полиномов Чебышева. Соответствующие им стол- столбцы матрицы плана Xk = (tyk (Xi),..., ipfe (х„))', очевидно, ор- ортогональны, и параметры в модели Еу-2 *ftWeft GЛ8) оцениваются независимо друг от друга. Когда истинный порядок полиномиальной регрессии не из- известен, то оценка параметров модели G.18) проводится каж- 211
дый раз последовательно с проверкой гипотезы, что коэффици- коэффициент перед очередным полиномом равен нулю. Как только эту гипотезу отвергнуть нельзя, подбор коэффициентов прекраща- прекращается. Вопросы, связанные с последствием такого выбора прави- правила остановки, обсуждались в гл.. 6 (см. также [77, 147]). 7.1.5.- Обобщенный мнк. Пусть теперь в модели G.2) e?N@,o2V), G.19) где V — известная положительно определенная (п X я)-мат- рица. Важным примером подобной ситуации является случай, когда дисперсия е зависит от значения регрессора X, но ег- и 8/ при i Ф } между собой некоррелированьи В этом случае в V отличны от нуля только диагональные элементы. В общем случае отклики для различных значений предик- предиктора, вообще говоря, зависимы. Но, что принципиально важно в постановке задачи, величина их корреляции известна апри- априори. Пусть V = CC'ji Г = С-ХГ, ХГ = С-ХХ, 8* = С^е. В но- новых переменных Y, X, 8* приходим к уравнению вида G.2) Y = Хв + е*, для которого G.3) имеет место. Оценка в в преобразованной модели равна: в* - (X' X)" X' Y = (X' (СС)-1 X)-1 X' (СС')-1^- *=(Х'V-^X^X'V-^y. G.20) Очевидным образом модифицируются формулы G.8) и G.10): s*2===(y_xe*)' У-г(У—Хв*); G.21) в* е N (в, а2 (X' V-1 X)-1). G.22) 7.2. Функции потерь, отличные от квадратичной Мнк-оценки, получающиеся в результате минимизации выбо^ рочного критерия адекватности с квадратичной функцией по- потерь, неустойчивы к нарушениям предположения о нормаль- нормальности распределения случайных ошибок. С утяжелением «хво- «хвостов» распределения они быстро теряют свои оптимальные свой- свойства [14, п. 10.4.41. Это связано с тем, что квадратичная функ- функция потерь, используемая в мнк, придает слишком большой вес далеким отклонениям от регрессионной поверхности. Про- 2 12
гресс в области вычислительных методов позволяет перейти к использованию функций потерь р (и), растущих при \и\ ->оо более медленно, чем и2. Соответствующие оценки по сравнению с мнк-оценками более устойчивы. Им и посвящен настоящий параграф. Так же, как при оценивании параметров положения и масштаба [14, п. 10.4.4], определенное внимание уделяется экспоненциально-взвешенным оценкам (эв-регрессии). Они допускают простую и наглядную интерпретацию, имеют хоро- хорошие выборочные свойства в случае небольших асимметричных искажений гауссовских распределений ошибок. Для них раз- развита полная асимптотическая теория. 7.2.1. Функция потерь pv (и) = \u\v, I ^ v ^ 2. Параметры регрессионной поверхности находят из условия минимизации по вектору 9: i= 1 Р где ui = tji — S*(?)f9ft. Покажем, что для v > 1 1) решение этой задачи 0V единственно; 2) в модели G.2) для симметричных распределений случай- случайных ошибок оценка 9V состоятельна. В самом деле, функция pv(iii)t рассматриваемая как функция от в, строго выпукла вниз. Следовательно, строго выпукла вниз и сумма Qv (в), поэтому минимум Qv (в) единствен и достигается в одной точ- точке. Из строгой выпуклости р„ (и) и, следовательно, положи- положительности pv (и) вытекает, что для любой симметричной отно- относительно нуля случайной величины ? для любого афО Ер„E + а) >EPv(g). G.23) Из закона больших чисел [14, п. 7.2.1] следует, что в моде- модели G.2) для больших значений п для любого фиксированного вектора С = (с<1>,..., №)' —ХлО/л- G.24) При симметричном относительно нуля распределении слу- случайных ошибок, как следует из G.23), правая часть G.24) бу- будет наименьшей при С = в. Следовательно, в силу G.24) 6^ должно быть при большом п близко к в, т. е. оценка Ov состоя- состоятельная. 213
В сформулированных выше условиях асимптотическая ко- ковариационная матрица Ov имеет вид (см. также гл. 11): EFv-e) (в„-е)' = к-1 -4^-,, G.25) n где К = 2 XtX'i't e — случайный регрессионный остаток. В практической работе математические ожидания, стоящие в правой части G.25), заменяются на их выборочные оценки: ~ п~х Ч1 n2f/7 X1- Й )• Z 9fU n Epv(e)-^ n'1 y\ pv (yi~X'iQv). G.27) Напомним, что формула G.25) верна только для независи- независимых и симметрично (относительно нуля) распределенных рег- регрессионных остатков. «^* Методы вычисления 6V [44, 94, 1863. Основные уравнения имеют вид 3Qv/dQk - -v 2 sign (щ) | щ |v- 1 *<*> = 0, « = ТГр. G.28) <=i Введем под знак суммы веса wt = |wjv~2 и заменим sign (wj) Ittfl" на Wj^j. Получим систему yi ^ -2 ^л х^e/) w* = о, л = 177 1 / Система G.28') решается итеративно, при этом веса оцени- оцениваются на основе параметров, полученных на предыдущем ша- шаге. В качестве нулевого приближения параметров можно взять обычные мнк-оценки. Чтобы не иметь дела со слишком боль- большими весами, выбирают какую-либо большую константу с >0 и для wt ^ с полагают wt = с. Для минимизации Qx (в) поль- пользуются также методами линейного программирования [253, 256] или специальным геометрическим приемом [53]. В качестве математической модели симметричного распре- распределения с более тяжелыми хвостами, чем у нормального рас- распределения, часто берут распределение Лапласа с плотностью /(x) = J-exp{-UI/a}. 214
Если в модели G.2) «остатки» е,- не зависят от Хг-, независимы между собой, одинаково распределены и имеют распределение Лапласа, тоЭх есть оценка максимального правдоподобия для в 7.2,2. Оценка Хубера [213, 2141. Исходя из задачи поиска ми- минимума максимальной (по всем симметричным засорениям нор- нормального распределения) асимптотической дисперсии оценки параметра положения, П. Хубер ввел в рассмотрение функцию потерь Ки|<^ G.29) |m| —Ла/2, если \u\^k. Эта функция, являясь выпуклой, удачно сочетает достоинст- достоинства р2 при малых и умеренных значениях \и\ и рх — при боль- больших отклонениях. Применение рн для оценки регрессии в мо- модели G.2) требует обязательной одновременной оценки 0 и параметра масштаба распределения е. Тем самым теряется одно из преимуществ ри — независимость процедур оценива- ния этих параметров. П. Хубер предложил искать @н и а и из решения системы: n 2 p 2 Ph((#s — X/0)/°) = P. G.30) где Qh(u) = dpn(u)/du = max (min (k, u), — k), p = CO = (n — p) J p?/ (а) ф (м) ди и ср(м) — плотность стандартного — оо нормального распределения. Авторы [124] советуют заменить последнее уравнение в G.30) на о2 = медиана {(^—X/ 6J/а2, ? = 1, ..., л}, G.31) где а ?^ 0,675. Теоретические свойства этих оценок и соответст- соответствующие вычислительные процедуры изучаются в [43, 110, 124]. На практике для оценки ковариационной матрицы 0# в слу- случаях, когда распределение 8 можно считать симметричным, можно использовать формулы G.25), G.26), G.27) с заменой ри на рн. 215
Оценки в# все же еще недостаточно устойчивы к асиммет- асимметричным отклонениям от нормальности распределения е [1491. Следовательно, нужны функции потерь р, которые, растут при ]и] -*¦ <х? медленнее, чем р^. 7.2.3. Функции потерь, имеющие горизонтальную асимптоту. Предложены три семейства функций, специально рассчи- рассчитанных на асимметричные отклонения функции распределе- распределения ошибок от нормального закона. В унифицированных обо- обозначениях в условиях, когда дисперсия основной (незасорен- ной) части распределения регрессионных остатков известна и равна единице, они могут быть приведены к виду (ниже пара- параметр X >0): функция потерь Андрюса [156]: (и)^ mrHlctxmVu)), |и|<яBЬ); функция потерь Мешалкина [89]: рм(и)*=Х-1 A— ехр{—Ли2/2}); G.33) функция потерь Рамсея [243]: pR (а)^Я-1 A — A -ЬЯ1/2 |и |)) ехр {-V/2 | и |}. G.34) Все три функции при k-r*~ О стремятся к и2/2, т. е. перехо- переходят в обычную квадратичную функцию потерь, используемую в мнк. При % Ф О они имеют горизонтальную асимптоту, рав- равную Х"г. Взаимное расположение этих функций для двух зна- значений параметров показано на рис. 7.1. Так же, как при использовании ря, в практической работе с этими функциями приходная выбирать значение парамехра Я (настраивать рл, рй, Рд на определенный уровень отклонения от нормальности) и одновременно оценивать 0 и а. При этом возникают дополнительные по сравнению с рн трудности интер- интерпретационного плана, связанные как с отсутствием выпукло- выпуклости у новых функций, так и с сильным подавлением больших отклонений. Для иллюстрации сказанного рассмотрим пример. Пусть случайная величина е дискретна, принимает всего два значения и Р{е = ±тя BХ)-1/2} = 0,5. Несмотря на сим- симметричность распределения г относительно нуля Е рл (е)> > min Е ра ( 8— 6), причем минимум достигается по край- ь ней мере в двух различных точках. Это обстоятельство связано с локальной вогнутостью рл (и) в окрестности возможных значений е. Аналогичное утверждение имеет место и для рл* и рд. 216
В случае когда распределение е (в общем случае не обяза- обязательно симметричное) сравнительно мало отличается от нор- нормального закона N (...; 1), для всех трех функций рл, рль ря а = argminEp (е —Ь), т. е. значение Ь, при котором ь достигается минимум Ер (е —- 6), единственно и мало отличает- отличается от центра соответствующего нормального закона. Но оно, конечно, зависит от выбора функции р и от значения К. Поэто- Поэтому вопрос о содержательной интерпретации а остаётся акту. Рис. 7.1. Сравнение трех функций потерь при раз- различных значениях К альным. В [14, п. 10.4.6) такая интерпретация описана для функции рм (эв-оценки). По-видимому, аналогичная теория может быть построена и для рл и р#, но рм несколько удобнее в аналитическом отношении, особенно в многомерном случае. Вместе с тем вопрос, насколько распределение е должно быть близко к нормальному закону для того, чтобы существо- существовало только одно значение а, при котором достигается минимум Ер (е — Ь), пока не исследован достаточно подробно. Было бы интересно сравнить оценки параметров, получае- получаемые с помощью рд, рм и ря, между собой в различных ситуа- ситуациях. Но для этого требуется дальнейшее развитие теории ус- устойчивого оценивания. Дело в том, что модель независимой вы- выборки растущего объема из фиксированного распределения Fqi использованная Хубером, в которой Fq {х—\i) = A —q)X 217
ХФ (х — \i) + qH (x — [i)9 где Ф — функция нормального распределения, а Я — функция распределения произвольного симметричного относительно нуля закона не очень подходит как из-за симметрии Я, так и из-за того, что асимптотика, в ко- которой q и Я фиксированы, а объемы выборки п ->• оо, не впол- вполне адекватна статистической практике: с ростом объема выбор- выборки мы узнаем Fq с возрастающей точностью и в принципе мог- могли бы путем преобразования переменных усилить близость распределения к нормальному закону. Более адекватной мо- моделью засорения является схема последовательности серий выборок растущего объема, в которой пропорция засорения q= уп-1/2 убывает с ростом п [149, 215 и 14, п. 6.1.11]. 7.2.4. Эв-регрессия (Х-регрессия). Ниже, используя тот же ме- методический прием,что и при введении эв-оценок [14, п. 10.4.6], с помощью цепочки определений вводится эв-регрессия и спе- специальная мера отклонения от нее. Далее показывается, что эв-регрессия обладает рядом свойств, похожих на свойства обычной мнк-регрессии. Это облегчает содержательную интер- интерпретацию эв-регрессии и выбор подходящего для конкретного случая значения к. В заключение приводится асимптотическое разложение для оценок параметров эв-регрессии. Пусть w (у\Х) — весовая функция у при фиксированном значении X, F(...) — символ функции распределения. Введем d, (X, F) - J yw {у | X) AF {у | X)llw (X, F)\ G.35) gw (X, F) - J (y-dw (X, F)J w{y\X) dF (у \ X)/l (X, F)9 G.36) где/(Х, F) = $w{y \X)dF(y\X). Определение 7.1. Назовем d w (X, F) — w -взве- -взвешенной регрессией у на X (оу-взвешенным откликом вХ), а ?Ш(Х, F) — w -взвешенной дисперсией относительно поверхно- поверхности ^-взвешенной регрессии. Определение 7.2 Распределения F (у \ X) и G {у \Х) назовем регрессионно-подобными, если dw (X, F) - d, (X, G) ngw (X, F) = gw (X, G). Пусть ф {y\ a (X), a2 (X)) — плотность нормального за- закона N (у | X), (К ^-связанного с F (у \ X) [14, п. 10, 4.6], т. е. при w (у \ X) = ЦI взвешенные моменты N (у \ X) и F (у | X) совпадают. Определение 7.3. Назовем Ф*, (у, X) %-регрессион- но-связанной с F (уу X), если 1Ф (у, X) = Ф (у; а (X), a2 (X)) dydF (X). 218
Определение 7.4. Назовем а (X) — Я-регрессией (эв-регрессие^) у на X и а2 (X) — Я -дисперсией у относитель- относительно поверхности Л-регрессии. Аналог мнк утверждения для эв-регрессии. Пусть Ея (у — - с (X)J = J J (у - с (X)J ёФя (у, X), тогда а (X) = arg min Ея (у —с (X)J, т. е. если при каждом X заменить рас- с(Х) пределение F (у, X) на Я-связанный с ним нормальный закон, то для нового распределения Ф%(у, X) а (X) — обычная мнк- оденка регрессии у на X. Пусть расстояние между двумя функциями распределения б F (у) и G (у) определено как р (F, G) = sup | /й (F — G)\ a<b a и М (е), е — окрестность одномерных нормальных распреде- распределений, тогда для любого К > 0 существуют такие с = с (X) >0 и 8 = е (X, с) > 0, что для любого F (у\Х), для которого для всех X F (у | X) ? М (е) существует единственная Х-регрес- сияг/наХ, причем а (X) и? (X) — непрерывные (в смысле р) функции относительно F (у | X). Если F (у | X) нормальны, то Я-регрессия у па X совпадает с обычной регрессией. Таким образом эв-регрессия обладает всеми основными свойствами мнк-регрессии, только наблюдения в соответствую- соответствующие формулы входят со специально подобранными весами. Вве- Введение весов позволяет как бы настраивать регрессию на инте- интересующую исследователя часть выборки (рис. 7.2: в пунктир- пунктирный овал заключены наблюдения (xi9 yt)t получившие малые веса и практически не участвующие в оценке параметров эв- регрессии; куполообразные кривые на прямой эв-регрессии показывают веса, приписанные наблюдениям). Эв-регрессия значительно устойчивее мнк-регрессии и регрессии по Хубе- ру к появлению далеких отклонений от регрессионной поверх- поверхности. Однако она, естественно, не является универсальным методом оценки регрессии для всех случаев, когда нарушаются предположения G.3), лежащие в основе мнк. Четких рекомен- рекомендаций, как выбирать К в конкретном случае, пока не выработа- выработано. Ясно только, что надо давать максимальный вес «основной» части выборки и наименьший — части, где могут лежать «загрязнения». Определенные соображения по выбору величи- величины. X в некоторых модельных случаях приведены в п. 7.2.5. Минимизационное определение эв-регрессии. Для того что- чтобы охватить случай неизвестного а, несколько изменим опре- определение функции потерь по сравнению с G.33). Пусть ехр {—Ы2/2о% G.37) 219
Я-регрессия а (X) = Х'в, где в — вектор неизвестных пара- параметров, и для всех X Х-дисперсия а2 (X) = а2 и а2 также не- нев Е ( Х'Э ) Е р р () известно, Пусть далее у (в, а) = Еря (у — Х'Э, о), где Е — символ математического ожидания по мере dF (у, Х)\ тогда 6х и а*, являются решением уравнений dy/dS = 0 и dy/da = 0 G.38) и на них достигается локальный минимум у (в, а) (вообще го- говоря, не единственный). Рассмотрим итерационную процедуру получения решения G.38): У * у • 1 1 у « А &0-регрессии д ^^ Зесодая функция X Рис. 7.2. Настройка эв-регрессии на интересую- интересующую исследователя часть выборки 0(Vh) «= A +Я) Е (у-Х' в(,+1))а wh/Ewh9 GЛ9) G.40) где wk = ехр { — X (у — Х'%)ЧЬз\к)}. Обозначим WREG оператор перехода по формулам G.39), G.40) от @(ь), аA)) к (в(ь+1), а2(к+1)), тогда (в*, <*i) является неподвижной точкой оператора WREG. Последнее определение Я-регрессии удобно для построения оценок (в*,, ol) по выборочным данным. Для этого достаточно в уравнениях G.38) — G.40) заменить символ математического ожидания Ена знак суммирования по всем наблюдениям и ре- 220
шать их итерационно. Асимптотическая ковариационная мат- рица оценки F*,, а?), полученной по независимой выборке объ- объема п, имеет вид c=sn-i.K-iHKf G.41) где К, Н — квадратные матрицы порядка (р + 1) X (р + 1); и = у - Х'б*; 2at Еш hi, п-м = Для Я > 0 при любом F (у \ X) все входящие в формулы ма- математические ожидания существуют. На практике их, а также d и 0я следует заменить соответствующими выборочными оценками. 7.2.5. Минимизация систематической ошибки. Практическое использование излагаемых выше предложений по повышению устойчивости оценок коэффициентов регрессии наталкивается на следующие неопределенности. Какую минимизируемую функцию риска выбрать? Все предлагаемые оценки содержат параметры: v — в п. 7.2.1, k — в п. 7.2.2 и Я — в п. 7.2.3 и 7.2.4. Какими брать значения этих параметров? Если полезно уменьшать веса больших отклонений прогнозируемой перемен- переменной, то, может быть, полезно взвешивать и предикторные пере- переменные? В общем случае ответов на эти вопросы пока нет. Однако ориентиром может стать изучение модельных ситуаций. В ча- частности, воспользуемся моделью засорения Шурыгина [14, п. 6.1.11]. В качестве основного распределения возьмем мо- модель нормальной полиномиальной регрессии степени р, когда 22|
плотность совместного распределения предикторной перемен- переменной х и прогнозируемой переменной у имеет вид G.43) Рассматривается серия ^-засоренных выборок одинаковой длины /г, и в &-й выборке засорение концентрируется в точке (х%у У%), так что плотности распределения выборок серии имеют вид Pi{*, У) = A — 9) Ф( Рг(^ У) = A —9) Ф(х, У) +9б (^2, где 6 (xj, t/л) — дельта-функция Дирака от точки (х%, у%). Пусть в серии выборок эта точка имеет плотность распределе- распределения h (x*, у*). Найдем квадратичную погрешность регрессионного пред- предсказания у0 для неизвестного значения результирующего по- показателя у0 = у (jc0), измеренного при х = л:0, когда двумер- двумерное распределение (л, у) описывается плотностью распределе- ния G.43), а прогдоз у0 строится по оценкам, основанным на произвольной выборке G.44): (здесь усреднение производится и по л: и по у, a %j = Qj — 8j). Далее 2 вЧУ 2( 2 в,1ув) X /=о / \/=о / /=о Первое слагаемое равно а^ и не может быть минимизирова- минимизировано. Во втором слагаемом сомножители независимы, и матема- математическое ожидание первого из них равно нулю, так что нулю 222
равно все слагаемое. От способов оценивания коэффициентов регрессии зависит лишь третье слагаемое, которое, варьируя эти способы, можно минимизировать. Обозначив 1-й момент стандартной нормальной величины через 1, если / := 0; 0, если / нечетно; 1 -3-5 ... (/ — 1), если / четно, третье слагаемое можно записать в виде / = 0т=0 Предположим для простоты, что величины а?, ц и а* из- известны (устойчивые способы их оценки излагаются в [14, п. 10.4.4—10.4.6)]). Пусть оценки коэффициентов регрес- сии 0О, 01,..., Ор находятся из системы уравнений 2 Kj(xiy yh <Г0, ...,1)р) = 0, /-0, 1, ..., р во всех выборках серии G.44). Обозначим через Ek оператор математического ожидания, вычисляемого в соответствии с распределением pk (x,y) из G.44). Мы можем искать мини- минимум EkS2 по способам оценивания коэффициентов регрессии. Асимптотическое (при п ->¦ оо) поведение величины E&S2 в любой,из выборок G.44) слагается из двух компонент: из дисперсии в модели G.43) («случайная ошибка») и квадрата смещения за счет засорения («систематическая ошибка»). При росте п первая уменьшается как л, вторая — как q2. Между этими величинами возможны следующие соотношения: а) величина q2 уменьшается быстрее, чем я-1. Тогда «систе- «систематическая ошибка» оказывается асимптотически пренебре- жимой по сравнению со «случайной», имеющей порядок я*-1, классические оценки максимума правдоподобия оказываются асимптотически наилучшими, и приведенные выше рассужде- рассуждения окажутся ненужными; б) величина q2 уменьшается медленнее, чем пггу напри- например как л~1+у, где 0 < у < 1. Тогда дисперсия пренебрежимо мала по сравнению с квадратом смещения, и классические оцен- оценки не оптимальны, оптимальными будут оценки, минимизи- минимизирующие «систематическую ошибку»; квадратическая погреш- погрешность оценки уменьшается не как пг1, а медленнее, как /z~1+v; в) величины q2 и пгх имеют одинаковый порядок малости. 223
Этот вариант сводится к б) при рассмотрении иерархии серий [149]. Главный член асимптотического разложения EhS2 в асимп- асимптотике б) определяется «систематической ошибкой» из-за засо- засорения выборки и в среднем по серии G.44), которое будем обо- обозначать через ЕСер, зависит от плотности h (х*, #*), так что существует Используя известные методы минимаксной оптимизации, мы можем найти наилучшие оценки для наихудшей Л, т. е. найти arg min max со2. G.45) НК hz=H Результат зависит от множества Я, среди которого отыски- отыскивается наихудшая h. Наиболее просто предположить, что h от- отличается от ф лишь значениями параметров: h (х*, у*) =<р (х*, у*\ 8о,..., Эр, o?2,fi*, Ox2)- В этом случае решение минимакс- минимаксной задачи G.45) приводит к следующей системе уравнений: ^ / 2 x? ш,; G.46) 2 где весовые функции G.47) являются экспонентами. Коэффициенты vp растут при росте р, оставаясь меньше единицы: vx = 0,365, v2 = 0,82, v3==0,90, ... Учитывая некоторую условность рассматриваемой модели, можно использовать аппроксимацию vp « (р — 0,83)/(р — — 0,54). Система G.46) решается итерациями. Рассмотрим теперь задачу нормальной многомерной линей- ной регрессии^ когда р предикторных переменных, образующих 224
вектор X = (jc<x>,..., х^У ? N (ц,, С), используются для р предсказания скалярной величины у ? N (80 + 21в/*(/\ а2)> так что плотность совместного распределения Хну имеет вид - 2 Oj^T-у(Х-|1)' С-ЧХ-иА • G.48) Рассмотрение аналогичной G.44) схемы ^-загрязненных вы- выборок Л (X, у) = A ~д) Ф (х, у) + (/б (XT, у»; G 49) и вполне аналогичная оптимизация погрешности предсказа- предсказания у о—У (Хо) с помощью регрессии у по X при известных а2, у,, С приводят к следующей системе уравнений для оценки ко- коэффициентов регрессии: - 2 (у*- 2 ^Х1Л) »i/ 2 «>,; /iw^J^ G.60) % - 2 (у« -^о-Р2 Я- *}Л) 4Р)»I / 2 Wp где весовая функция также экспоненциальна: Х(Х~ц)'С-»(Х-11)), G.51) но величины v? убывают с ростом р: G-52) Зак. 244
Сравним полученные оценки коэффициентов регрессии с излагавшимися в предыдущих разделах. Если весовые функ- функции wt положить равными единице, то системы G.46) и G.50) дадут оценки максимального правдоподобия соответственно для плотностей G.43) и G.48). Каждая из весовых функций G.47) и G.51) распадается на два экспоненциальных множите- множителя, первая экспонента одинакова у обеих функций. Если вторые экспоненты заменить единицами, то решения совпадут с из- изложенной в предыдущем пункте эв-регрессией при X = 1/2. Вторые экспоненты определяют взвешивание по предиктор- ным переменным. 7.3. Байесовское оценивание Общая методология байесовского оценивания описана в [14, п. 8.6.61. Она сводится к введению априорной плотности рас- распределения параметров и последующему нахождению по фор- формуле Байеса с учетом экспериментальных данных их апостери- апостериорной плотности распределения. Ключевым моментом в при- применении байесовского оценивания является первый шаг. 7.3.1. Введение априорной плотности распределения парамет- параметров. Для априорных распределений возможны три интерпре- интерпретации: 1) как частотных распределений; 2) как стандартных рекомендаций, что следует полагать о распределении неизвестных параметров в ситуации неопреде- неопределенности; 3) как субъективной меры того, что полагает конкретный индивидуум. Подробное обсуждение достоинств и недостатков этих под- подходов в общем случае может быть найдено в [70]. Здесь же мы ограничимся частной задачей — их использованием при оцен- оценке параметров регрессии. Частотный подход. Предположим, что одна и та же регрес- регрессионная задача решается повторно на близком материале. На- Например, для разных районов страны изучается связь между производительностью труда и рядом параметров, характери- характеризующих условия производства Или в медицине на материале различных медицинских центров по одним и тем же признакам строятся прогностические формулы для оценки риска осложне- осложнений какого-либо заболевания и т. п. Тогда в пространстве пара- параметров, используемых в регрессионном уравнении, возникает эмпирическое распределение точек — оценок параметров, соответствующих отдельным решениям задачи (районам стра- 226
ны, медицинским центрам). После сглаживания оно может ис- использоваться в качестве априорного распределения парамет- параметров регрессии. Этот подход является бесспорным с теоретичес- теоретической и практической точек зрения, но, к сожалению, доволь- довольно редко применимым, так как каждый исследователь стре- стремится привнести что-либо свое в обработку, в набор регрессо- ров, численные значения, приписываемые градациям качест- качественных регрессоров. Простое повторение проведенных други- другими исследований мало популярно. Другое дело, если обработ- обработка данных, собранных в разных местах по единой программе, проводится централизованно. В этом случае использование байесовского подхода может существенно уменьшить разброс в оценках параметров для каждого из массивов данных за счет привлечения к оцениванию информации о распределении па- параметров в других массивах. Введение априорного распределения в ситуации неопреде- неопределенности. Стандартный подход здесь заключается в том, что элемент априорной вероятности распределения (9lf..., 9p,a) в модели G.2) берется пропорциональным [60] dBv..dQpda/a. G.53) Иногда говорят, что плотность априорного распределения про- пропорциональна 1/а: p(8i,...f вр> а) ~ 1/а. G.53') Правая часть G.53') не является плотностью в собственном смысле, так как интеграл от нее не определен, тем не менее при вычислении по формуле Байеса плотности апостериорного рас- распределения параметров формальных трудностей при работе с G.53) или не возникает, или они легко могут быть преодолены. Как мы увидим ниже в п. 7.3.2, выбор G.53) удобен в аналити- аналитическом отношении и, казалось бы, хорошо отражает полное отсутствие априорных знаний о распределении параметров. Однако в нем на самом деле скрываются очень сильные предпо- предположения: отсутствие корреляции между параметрами (не пу- путать с корреляцией между оценками значений параметров, ко- которая зависит от распределения регрессоров и величины а), пренебрежимая малость априорной вероятности того, что век- вектор параметров лежит в любом наперед заданном конечном объ- объеме, какова бы ни была его величина, и т. д. Это приводит по- порою к серьезным трудностям с интерпретацией результатов байесовского оценивания [70]. Субъективный подход. В этом случае исследователь исходя из профессиональных соображений просто постулирует ап« 8* 227
риорное распределение (в, а). Для дальнейших расчетов удоб- удобны две формулы для априорной плотности. В первой из них распределение 0 не зависит от распределения а: — в)' А @— 0)/2> (*-<*•+»> ехр / —^L?jL\ G.54) где v0 >0, с0, матрица А и вектор 0 выбираются исследова- исследователем. При этом априорная ковариационная матрица компо- компонент 0 А-1 предполагается невырожденной. Во втором случае ковариационная матрица компонент про- пропорциональна а2 и = "p(Ql, ..., 6р|а)р*(а)~ |А|/ х X ехр {-@-0)' А @ -0)/2а2} . a-<v«+!> еХр J — -^?<Ц G.55) I 2а2 J Основная трудность субъективного подхода заключается втом, что информация, полученная изданных, рассматривается на равных основаниях с распределением, построенным исходя из не полностью формализованных соображений. Однако этот подход может быть полезен, когда выборка мала. Некоторые соображения в пользу G.53') приведены в п.7.3.3. 7.3.2. Апостериорное распределение параметров. В дальней- дальнейших расчетах предполагается, что имеют место базовые пред- предположения мнк G.2), G.3), т. е. р(У\Х,в,о) —ехр{ — (Y — Х0)'(К—Х0)/2а2} = = — ехр {—[(п—р) s2 + (в—в)' X' X (в — в)]/2аа}, где ^ = G— Хв)'(У—Хв)/(«—р), в^Х'Х^Х'У— — мнк-оценка в. В предположении G.53'), р(в,а|У,Х)~-!-.р(К|Х, в, а). G.56) а 228
Откуда немедленно следует, что — 0)' X' Х@ _e)]-«/2f G.57) т. е. вектор 0 имеет так называемое многомерное распределе- распределение Стьюдента [60, с. 408—414]. Пусть. ти —элемент мат- матрицы М-1 = (Х'Х)-1, тогда величина F/ -*- fy)/s • (ml7I/2 имеет /-распределение Стьюдента с (п — р) степенями свободы, что может быть использовано при построении одномерных до- доверительных интервалов для компонент 0. exp{-(n~ _p)s2/2a2}, G.58) т. е. а имеет обратное гамма-распределение, получаемое из обычного гамма-распределения [14, табл. 6.3] заменой аргу- аргумента х на а = 1/]/"#. Априорная плотность вида G,55). В этом случае р(в; а\У9 Х)~ o>H,J!bVrH exp{-[voc§ + @ - в)' х X А @—0; +(Y — Хву (Y—X0)]/2a2} - ехр{-[гг'с2+@-0)' (А + X' X)@-0)]/2а2}, G.59) гдеп'-n+vo, п' c2 = voc20+Y'Y + в' Ав-в' (\ + + Х'ХH и в = [А + X'XJ-^Ae + X'K). G.60) Интегрируя по а, получаем апостериорную плотность /?@17, X) ~ [п' с2+@ —0)' (А+ X' X) @ — 0)]-(«Ч-р>/2# G.61) Априорная плотность вида G.54). В этом случае, повторив с очевидными изменениями проведенные выше с плотностью вида G.55) выкладки, получаем р@|У, X)~exp{-@-0)/A@-0)/2}.[voc§ + +у у —*0' X' Х0 + @ —Ъу XX' @ — 0)]-(«+v.+p)/2> G.62) где 0 — мнк-оценка 0. 229
7.3.3. Повторная выборка из toft же совокупности. Предпо- Предположим, что из одной и той же совокупности делается повтор- повторная выборка, и обозначим Yiy Xt вектор наблюдений и матри- матрицу плана, относящиеся к t-й выборке (i = 1,2). Выбираем в качестве априорного распределения параметров для первой выборки G.53'), тогда по G.56) апостериорное распределение р(в, о| Yl9 XJ ^ - Хгв)/2о*} Х(в-0)]/2а2}, G.63) где Vl = пл ~ р, Ч^ (Х( Xi)-1 X{ Гь Заметим, что G.63) имеет вид G.55) с v0 = vlf в = вх> А = Х[ХЬ с% = sf, т. е. G.63) можно рассматривать в каче- качестве апостериорного распределения, полученного по байесов- байесовскому методу для некоторой выборки при стандартном выборе G.53') априорного распределения. Возьмем теперь G.63) в ка- качестве априорного распределения для второй выборки, тогда p(8f a\Ylt Xlf Г2, Х2)~ qJ.2+1 — в)'М(в—0)]/2а2}, G.64) где М = Х[ Хх + Х^Х2, 0-М-1 (X1Y1\+ + X2Y2), vs^s=(y1-X1S)'(y1-X1e) + (yr2-X2e)' X X(F2 — X26), v = nL+n2—p, но это тот же вид, что в G.63) для объединенной выборки. Та- Таким образом, два процесса дают одно и то же апостериорное распределение параметров: 1) объединение массивов двух вы- выборок с построением апостериорного распределения с исполь- использованием предположения G.53') и 2) использование предпо- предположения G.53') в качестве априорного только для первой вы- выборки и получившегося апостериорного распределения для первой выборки в качестве априорного для второй. 230
7.4. Многомерная регрессия При изучении эконометрических моделей (см. гл. 14), описа- описании результатов сложных химических реакций, измерениях с помощью дублирующих приборов приходится сталкиваться с ситуацией, когда для каждого заданного значения регрессора X = (л:A), ..., х^У наблюдается не одномерный, как в преды- предыдущих параграфах этой главы, а векторный отклик У = (г/A\ ..., у{1)У. Соответствующую математическую задачу называют многомерной регрессией, или, более точно, многооткликовой регрессией (multiresponce regression) (п. 7.4.1). По сравнению с мнк-методом обычной регрессии (§ 7.1) оценка параметров множественной регрессии в общем случае усложняется, так как приходится одновременно оценивать параметры регрессионной зависимости и ковариационную матрицу случайных ошибок (п. 7.4.2). По аналогиис§7.2 для многомерной регрессии уда- удается построить оценки параметров, устойчивые к отклонениям от предположения нормальности распределения случайных ошибок (п. 7.4.3). В заключение обсуждается задача использо- использования понятия множественной регрессии для параметризации распределения многомерного вектора (п. 7.4.4.). 7.4.1. Случай известной ковариационной матрицы ошибок. Пусть дана последовательность наблюдений (Xit Yt)y i = 1, ..., п, и при этом предполагается, что y« = f (Хь в) + ги i= 1, .... л, G.65) где f (Хи в) = Е (Yt | Xt) — /-мерная векторная регрессион- регрессионная функция от X, известная с точностью до значения неиз- неизвестного векторного параметра 0 = @A>, ..., 0(/))'. Рассмотрим модель, линейную относительно 0 (см. G.1)): f (X, 0) - V (Х).0, (Х) 0 ... О О WW(X)... О где ЧГ(Х)*= О О матрица — функция от X, а (X) — известная Векторы случайных ошибок гг = (е<}>, еф ,..., e<z>) взаим- взаимно независимы и имеют невырожденное /-мерное нормальное распределение с Ее = 0 и Еег' = V (Хг). Для упрощения обозначений будем писать Ч^ и Vj вместо Ч*1 (Xt) и V (Хг). 231
В случае когда Vit известны и Мп определенное G.67), начиная с некоторого л, имеет полный ранг, наилучшая ли- линейная оценка для в имеет вид [1171: вп^Мд1^, G.66) где Mn^n^jg^Vr1*/; G.67) Z^n-^WtWF'Yt. G.68) Формулы G.66) — G.68) легко могут быть получены из G.20), если рассмотреть п наблюдений /-мерного вектора как 1-п наблюдений одномерных векторов с известной блочно-диа- гональной (с блоками V^ размера 1x1) ковариационной мат- матрицей между ними. В сделанных предположениях оценка G.66) состоятельна, несмещена и нормально распределена. Ее ковариационная мат- матрица равна: Е(вп— @)(вп-в)'=п-1М;1. G.69) 7.4.2. Случай неизвестной ковариационной матрицы ошибок, не зависящей от значения предикторной переменной (V (Хг)= = V). По аналогии с G.66) в рассматриваемом случае оценка в находится из решения уравнения Мп(в).в = гп(в), G.70) где G.71) zn (в)=я-12 4r«-v~1 <в)-у«; G-72) lf/e)'. G.73) /=i Решение G.70) удобно искать с помощью итерационной (по /) процедуры вида вт = Mn (&t) Zn (Qt). При выполнении дополнительного требования, что матрица М= EY (X) V-1 V (X) G.74) 232
невырождена, в [137] показано, что в окрестности истинного значения в итерационная процедура сходится с вероятностью, стремящейся к 1 при я-»- оо. В общем случае уже нельзя га- гарантировать единственность решения G.70), а можно лишь ут- утверждать, что при п -»¦ оо среди решений G.70) можно выде- лить последовательность 0П, сходящуюся к истинному значе- значению ©. Эта подпоследовательность асимптотически-нормаль- асимптотически-нормальна с параметрами в и п М. 7.4.3. Эв-оценки. Введённое в п. 7.2.4 понятие экспоненци- экспоненциально-взвешенной регрессий (А-регрессии) допускает естествен- естественное обобщение ни случай многомерной регрессии. При этом сох- сохраняется геометрическая интерпретация эв-регрессии с очевид- очевидным перенесением на многомерный отлик определений 7.1—7.4. Приведем только основные расчетные формулы, взяв за осно- основу итерационный процесс, описанный в предыдущем пункте, и модифицировав его согласно G.39), G.40): wx. i. t = exp{-%(Yt-4l <dt)' VjC1 F,) (Yt-T/ 0,)/2>; G.75) 1 (Щ Y J 2 wK и t J G.76) / i=l ' IS *>к/.*; G-77> / *=i G.78) 2 «>ь.1^(уг—чг; em) x ^,^. G.79) i 7.4.4. Использование многомерной регрессии для параметри- параметризации многомерных распределений. Плотность р (X) распре- распределения р-мерного случайного вектора X = (Х<х>; Х<2>)' = =(х<1>, ...,a:<s>, ^s+1>, ...f jcW)' всегда может быть представлена в вид^ р (X) = рх (Х<х>) р2 (X^fX*1)). В гауссовском случае, когда р(Х)*=<р(Х; М, S), a Af = (A«(»f Af<2>) и S = —вектор средних значений и ковариационная матрица, разбитые в соответствии с раз- разбиением вектора X, 233
М Замечательная особенность многомерного нормального рас- распределения состоит в том, что ковариационная матрица услов- условного распределения ХB) при фиксированном значении ХA> не зависит от ХA) [20]. В общем случае это не так, и описание условного распределения значительно сложнее. Для описания многомерного распределения предлагается распределение части координат (ХA)) аппроксимировать стан- стандартной нормальной моделью или считать таким, как оно получилось в выборке, а распределение остальных ко- координат (Х^) заменить на надлежащим образом подобран- подобранный (р—5)-мерный нормальный закон со средним, линейно зависящим от ХA), и ковариационной матрицей V условного распределения ХB> при фиксированном значении ХA), от ХA) не зависящей. Но это и есть модель линейной многомерной рег- регрессии, в которой ХA)играет роль предикторной точки-наблю- дений (X), ХB> — роль многомерного результирующего по- показателя (У), Е (ХB)|ХA)) — многомерная регрессия ХB) на Х^\ а ХB> — Е (ХB)|Х^>) — регрессионные остатки с кова- ковариационной матрицей V. Если в основу подбора параметров многомерной регрессии при описании распределения ХB> положить требование совпа- совпадения не обычных, а взвешенных моментов условного распреде- распределения Х<2> при известном значении Х^\ то при соответствую- соответствующем выборе весовой функции можно прийти к использованию эв-регрессии. 7.5. Оценивание параметров при наличии погрешностей в предикторных переменных (конфлюэнтный анализ) 7.5.1. Основные типы задач конфлюэнтного анализа. При ана- анализе функциональных связей между переменными (см. § В.5, зависимости по схеме D) можно выделить следующие два слу- случая. 1. Имеются две группы переменных r\ ? Rm и X?R?. Переменные из первой группы известны экспериментатору со значительно большей ошибкой, чем из второй. В э1юм случае целесообразно работать с зависимостями вида Л = f (X; в). G.80) Функция f (X; в) предполагается заданной, и отыскание истинной зависимости заключается в оценивании параметров 234
0 ? jR*. Переменные X могут трактоваться как предикторы (предсказатели): задаваясь каким-либо их конкретным значе- значением, можно предсказать значения переменных т|. Если пере- переменные X в процессе эксперимента могут изменяться по усмот- усмотрению экспериментатора, то говорят о контролируемых пере- переменных. Переменные г\ часто называют откликами. 2. Если все переменные, с которыми имеет дело эксперимен- экспериментатор, известны примерно с одинаковой точностью, то имеет смысл использовать зависимости, представленные в виде М (X; в) = 0. G.81) При этом по-прежнему иногда удобно разделять перемен- переменные на результирующие (т]) и объясняющие (контролируемые- X: М (% X; в) = 0: G.8Г> Ниже основное внимание уделяется регрессионным моде- моделям, связанным с представлением G.80), и лишь в заключи- заключительной части рассмотрены модели, порождаемые G.81 ')• Регрессионные модели, связанные с G.80). Возможно не- несколько постановок регрессионных задач, в основе которых ле- лежит зависимость G.80). Перечислим наиболее характерные из них. Читатель без особого труда сможет построить и некоторые промежуточные или смешанные конструкции. Классическая регрессия (см. §5.1.). В результате экспери- эксперимента (наблюдения) оказываются доступными величины Yt = = t\i + fy и Xiy где гг — случайные величины (погрешности наблюдения). Иными словами, Yt = f (Xt; в0) + *i, i - 1,2 п. G.82) Подчеркнем, что значения предикторных переменных (усло- (условий наблюдения) известны точно. Нижний индекс 0 здесь и да- далее в этом параграфе обозначает истинное значение помечен- помеченной им величины. Погрешности при фиксации условий наблюдения (активные эксперименты). Во многих экспериментах i-e наблюдение проводится при условиях Xiy несколько отличных от желае- желаемых Xoi: Xt = Xoi + eXi, где Ext — случайные величины (по- (погрешности фиксации). Таким образом, экспериментатору до- доступны величины Yt= r\i ¦+• гг и Xoi, связанные между собой соотношением Yt = t(Xoi+Bxi,Qo) + *i, ;=1,2, ..., п. G.83) Пассивные наблюдения. Нередко (например, вэконометри- ческих, социологических исследованиях) возможно лишь наб- 235
людение за одновременным изменением переменных ц и X. Если эти наблюдения проводятся с некоторыми случайными погреш- погрешностями, то для анализа становятся доступными величины Yt = Чь + 8г и Xt = Xoi + eXi, или, в несколько более под- подробной записи, Х1 = По-видимому, впервые достаточно четкое разделение моде- моделей G.83) и G.84) было осуществлено в [167], см. также [65, гл.29]. Регрессионные задачи G.82)—G.84) содержат много общего- как в постановке, так и в методах анализа. Более того, мы соз- сознательно ограничимся рассмотрением именно тех методов, ко- которые базируются на методе наименьших квадратов, широка используемом для классических регрессионных задач. В то же время внимание читателя будет обращено и на некоторые прин- принципиальные различия в методах анализа соответствующих рег- регрессионных задач. 7.5.2. Модифицированный мнк для схемы активного экспери- эксперимента. Обратимся вначале к регрессирнной задаче G.83), кото- которая наиболее близка к классическому случаю. Пусть анализируется единственный результирующий пока- показатель (т = 1) и: а) случайные величины гг и е*$ = Y'Vj, фигурирующие в G.83), независимы в совокупности и Ее, = 0, Ee?=a2, Eex/==0, E(vrv/) = d; E(|vJO v<*> vj'> |) <c<Joo, f = 1, 2, ..., n; /, q, r= 1, 2, ..., p; с — некоторая константа, d — матрица р X p, vt — стандар- стандартизованная (например, da =1) случайная величина; б) су- существуют равномерно ограниченные на множестве допустимых условий наблюдения Х01-, 1=1, ..., п, производные по X функ- функции f (X; в) (см. G.83)) до третьей включительно. В рамках предположений а) и б) имею! место соотношения: Eyt = E[f(xoi+w9 ej+*i]=7(Xo*; ©o)+o(v3); Dyi = X-*(Xoi; eo)+,O(v3), G.85) где D ( ), как обычно, означает дисперсию соответствующей случайной величины, 236
Заметим, что yui — 1, п—независимые случайные величи- величины. Таким образом, регрессионная задача G.83) с точностью до О (у3) сводится к регрессионной задаче G.86) где EjXf = 0, Ejif = X (Xoi\ в0). Отличие G.86) от G.82) заключается в том, что дисперсия погрешности зависит от неизвестных параметров в0, a2, d. Подобным задачам посвящена довольно обширная литература (см., например, [12, 86, 138]. Остановимся на простейших оценках (or2 и d известны), пред- предложенных в [182, 138]. Они определяются как предельная точ- точка следующей итерационной процедуры: G.87) S-*oo 6S = arg min л-1 2 Л- (Xoi, в.-i) Wt - J (Xot, в)]2, или ее модификацией, близкой к методу Ньютона — Рафсона: 6S = в..х Л-^-Zn1 (в,.,)- Wn F...0, G.88) где Zn (в) = п-1 2 А.(Хо|, Щ-Р (Хв„ в) F' (Х„, в); ; e)]F(X0J; в); Множитель as выбирается так же, как и в обычной процеду- процедуре Ньютона — Рафсона. Во избежание усложнений теорети- теоретического плана предполагается, что 68f Q для любого s. Если в дополнение к условию а) из п. 7.5.2 и к условиям, сформулированным в комментариях к G.85), потребовать: в) последовательность ^Х(Хог;во)[/(Хо!;в)- 237
сходится равномерно по Of fi, причем lim v\ @) = у2 (в), и функция v2 (в) имеет единственный минимум при в = в0; г) при всех G ? Q существуют^ непрерывные по в произ- водные в—' и f ^ q,—-, и последовательности -1 2 2 ь во)Ф(Хо,; в)-ф(Хв|; 0)J, где функции ф (Хог-; в) и яр (Хо/; в) могут совпадать с любой из указанных выше производных, сходятся равномерно по е g Q; п д) матрица Z@O)= lim/г 2 ^(^оь ®о) X x/(Xof;eo).F'(Xo,; в0)- неособенная, тогдл: 1) lim Рп = 1, где Рп — вероятность того, что при выбор- ке объема /г процедура сходится; 2) оценка 0П, определяемая G.87), сильно состоятельная, причем если при данных Хо G.87) имеет несколько решений, то за в,, принимается любое из них; 3) опенка вп асимптотически-нормальная, т. е. lim Р {Уп (вп-в0) <t} = Oh (t\ 0, Z-Цв,)), причем Z., @П) (см. G.88)) является сильно состоятельной оцен- оценкой матрицы Z @О). Отметим, что Данная теорема говорит о свойствах оценок для задачи G.86). Для исходной регрессионной задачи все утверждения верны лишь в рамках приближения G.85). Оценки G.87) достаточно просты как с точки зрения их ста- статистического анализа, так и с вычислительной точки зрения. Однако они не могут быть использованы при неизвестных а2 и d. Небольшое усложнение оценок G.87) позволяет преодолеть 238
эту трудность. Рассмотрим следующую вспомогательную рег- регрессионную задачу: Eg,=:Of E&*=b-4Xoi; 68). G.89) В отличие от G.85) в G.89) не предполагается какой-либо специальной структуры X (Хо?; во). Более того, функции g (Хо; во) и К (Хо; во) могут зависеть от разных групп пара- параметров, входящих в во. Чтобы избежать непринципиальных усложнений, будем предполагать, что случайные величины %i распределены нормально (в исходной задаче следует пред- предположить нормальность е и v); при этом в G.85) остаточный член, впрочем, как и для любого другого симметричного рас- распределения, будет равен О (у4). Оценки параметров 0* определяются следующим образом: G.90) = arg min n-i S U(Xoh @t-i)lyi~g(Xoiy 0*)]2 + Свойства оценок G.90) можно проанализировать примерно так же, как это делается в [182] с оценками G.87). Предположим, что функции g (Хо; 0*) и А,-1 (Хо', В*) удов- удовлетворяют условиям, аналогичным (г), а функция + условию в). Введем матрицу ОЛв*)^»-1 S [Л.(Х.«; в*)р(Х0|; в^р'(Х„; ©*) + 1=1 ±W(Xol; Q*)q(Xol; ©*)<7'(Xoi; 0*)}, 239
и потребуем {ср. с в)), чтобы существовала матрица G FJ) = = lim Gn (во) и чтобы она была невырождена. В рамках сделанных предположений: 1) lim Рп = 1, где Рп — вероятность того, что итераци- П-*-оо онная процедура G.90) сходится при выборке объему л; 2) оценка 6J — сильно состоятельная, причем если при данном п имеется несколько решений, то за в« принимается любое из них; 3) оценка в„ асимптотически-нормальна, т. е. limР{Vn (SI— 08)</} = Фк(t; 0, G-1 @J))f причем матрица Gn (&n) является сильно состоятельной оцен- кой матрицы G (во). Выше предполагалась нормальность распределения слу- случайных величин It. Результаты остаются в силе, если потре- потребовать, чтобы 1г имели конечные четыре момента, и заменить всюду «агрегат» ^ X (Xoi; в*) на тГ\(Хьи в*), где Конечно, на практике знание четырех моментов весьма про- проблематично. Но первые два пункта останутся справедливыми и без такой замены, хотя выражение для асимптотического зна- значения дисперсионной матрицы примет при этом несколько бо- более сложный вид. Интересно отметить, что в тех случаях, когда процедура G.90) сходится, т. е. вп определено, то предложен- предложенная оценка совпадает с оценкой максимального правдоподобия. Сформулированные утверждения позволяют получить некото- некоторые полезные результаты для исходной задачи. Если параметры а2ис1 известны (см. комментарии к G.87)), то р (Хо; в) = F (Хо; в) и дХ Асимптотическое значение ковариационной матрицы 2 определяется матрицей GF8)=[lim л-1 2 [М*о*; 68) .F(Xoi; 68) F' (Xoi; 68) + i; eg) .?(XOI.; ej).?(Xel; в»]. 24a
С точностью до О (у4) данная матрица совпадает с матрицей Z F0), т. е. в рамках используемого приближения исходной задачи усложненная итерационная процедура G.90) не при- приводит к оценкам асимптотически лучшим, чем G.87). При не- неизвестных d и а2 можно без труда построить матрицу G (вв; ag; d0), имея в виду, что Из двух последних формул видно, что а2 и d оцениваемы раздельно, если компоненты вектора (О, F') или вектора A, рBУ) линейно-независимы на множестве точек Хь..., Хп. 7.5.3. Пассивные наблюдения. В теоретическом плане регрес- регрессионная задача, определяемая G.84) и условиями а) из п.7.5.2> оказывается существенно сложнее регрессионной задачи G.83). Тем не менее ввиду своей актуальности она уже давно привлек- привлекла внимание статистикой. По-видимому, первая работа, посвя- посвященная задаче G.84), появилась в 1901 г. [235] и содержала идею, лежащую в основе практически всех результатов, свя- зайных с упомянутой задачей. Идея предельно проста: за оцен- оценки параметров 0 принимать те значения, при которых мини- минимально суммарное расстояние точек (Хоь t/i) от поверхности у sb f (Х;6) в легко интерпретируемой метрике, т. е. :arg min JJ //(в), G.91) 241
где 6) Оценки G.91) называют оценками метода наименьших рас- стояний. Ниже рассмотрен приближенный вариант этих оце- оценок, позволяющий обойтись численными процедурами, разви- развитыми для метода наименьших квадратов. Несложные вычисле- вычисления приводят в линейном случае (/ (X; в) = в'Х) к простой формуле 1!=^(у1 — в'Х01)У(о2+уЮ' d&). В случае произволь- произвольной функции / (X; 6) (но имеющей необходимое количество производных) и при ошибках ег и v^, удовлетворяющих усло- условиям а) из п. 7.5.2, имеет место приближенная формула G.92) где Х0 Определим оценки следующим образом: вп = arg min |] К (Xoi; 0) (yt - f(Xoi; в)J. вй & и d(x;e) = G.93) Введем функции Пусть выполняются условия а) —д) из п. 7.5.2 с очевид- очевидной заменой F (Хо; в) на F~(X\ в) и /(Хо; в) на? (Х\ в) и до- дополнительно существует предел ; 0о) • d {Xu 0О); z (О0) = lim м-1 тогда в рамках приближения G.92): 1) оценка G.93) и сильно состоятельна и асимптотически- нормальна, т. е. lim P {Vn (в„-0О) < 0 = Ф, (t; 0, 2^.), 242
где 2U = Z1 (в0) [Z (в0) + y> z (в0)] Z* (в0); 2) сильно состоятельными оценками матриц Z (в0) и z (в0) являются соответственно матрицы л-1 2 МХоГ, ©n) [F(Xot; 0n) F' (X0f;en) 2 /=1 Ряд полезных результатов, описывающих поведение «при- «приближенных» оценок в рамках исходной модели G.91), обсуж- обсуждается в [81]. При подсчете оценок G.93) оказывается удобным введение фиктивных наблюдений */ф ==г 0 и отклика f(Xoi; в) =,*»/* (*of, в)[у,-?(*„; в)]. Для минимизации функции можно обратиться к любой программе нелинейного мнк. Обыч- Обычно в этих программах в качестве оценки ковариационной мат- матрицы используется матрица 2^ (n) = Ъ~\, где Z =п-1 V дГ(Х0;; 6) df(Xoi; в) Можно показать, что Zn -> Z (в0) + y2l2 (®о) ПРИ п ~** °° почти наверное, т. е. 2в (л) является заниженной оценкой дисперсионно-кова- дисперсионно-ковариационной матрицы 2^ч. 7.5.4. Некоторые принципиальные отличия регрессионных задач G.83) и G.84). Как нетрудно видеть, в первом случае любая оценка вида 243
является сильно состоятельной. Оценка G.87) является по эф- эффективности асимптотически эквивалентной наилучшей (т. е. с оптимально выбранными весами ю*) среди них. Для задачи G.83) оказывается возможным состоятельно оценить парамет- параметры 0, не используя информации о Дисперсиях а2 и d. Этот факт позволяет в свою очередь говорить о состоятельном оценива- оценивании параметров а2 и d (см G.90)). В случае G.84) отсутствие информации о а2 и d не позволяет построить состоятельных оце- оценок параметров 0. Подобный результат был впервые отмечен, по-видимому, в [223]. Другим, менее существенным отличием является знак поп- поправки к функции / (Хо; 0) в схемах активного и пассивного экспериментов. 7.5.5. Неявное задание отклика. В тех случаях, когда пере- переменные, подверженные ошибкам, не разделяются естествен- естественным образом на две группы (зависимые переменные и предик- предикторы), целесообразно обратиться к рассмотрению неявных зави- зависимостей G.81). Будем рассматривать модель М (Хо; 0) = 0,Xi = X0i + е,, i ^TTT. G.94) Экспериментатору известна функция М (Хо; 0) и искажен- искаженные наблюдения Xt. Переменные % входящие в G.8Г), опу- опущены, так как их введение непринципиально для последующих результатов. Предположим, что ошибки е* = yvt удовлетворяют следую- следующим правилам: они независимы в совокупности и Evt =* 0, Е (vz. v/) *= d, Е (| vf> v<*> vj'>|) < с < oo, i=l,2, ...,ai; /, <7,r=l,2, ...,/?. Так же, как и выше, рассмотрим оценки метода наименьших расстояний: ^ G.95) где /?(©):= гшп(Х;-Х01.)' d-1^*-^); M(Xoi; Пусть вначале М{Х0; 0)=1+®'^о- Тогда Г* 6'de * <== 1 244
что, по существу, совпадает с G.91). Если М (Хо; в) = 1 + в' г|> (Хо), то, полагая дХ -и с точностью до О (y3) G.85) можно переписать в виде В случае произвольной параметризации с точностью до O(y3): вп= argmin у где М (Xt; в) = М (Хг, 0) — -?- Sp Для оценок вп имеют место результаты, практически пол- полностью аналогичные изложенным в п. 7.5.3. В заключение отметим, что в [86] можно найти описание конкретных реализаций на ЭВМ описанных выше алгоритмов. 7.6. Оценивание в регрессионных моделях со случайными параметрами (регрессионные задачи второго рода) ISA. Постановка задачи. Рассмотрим следующую модель: i=\7nh /=ТГ^ G.9б> где случайные величины е^ при фиксированном / удовлет- удовлетворяют стандартным требованиям: Ее^=?=0, Е (еув^)=вд»вЛ Параметры 0у предполагаются случайными, причем в} == 245
(i/ .... в„), ESj - e0> E l(Qj - 0O) @,- - eoI = 2. В зависимости от постановки задачи вектор в0 и матрица 2 мо- могут быть илизаданы, или неизвестны. Величины 07- и ги пред- предполагаются некоррелированными. В практических исследованиях индексом / может служить, например, номер предприятия из совокупности аналогичных, номер партии сырья, номер пациента из группы больных, под- подвергающихся одному и тому же способу лечения, и т. д. В тех случаях, когда выясняется поведение каждого /-го объекта,^необходимо решать задачу об оценивании параметров 0у, / = l9k. Если же необходимо понять поведение всей сово- совокупности объектов, то приходится говорить об оценивании век- вектора 0О. 7.6.2. Случай, когда средние значения 0О и ковариационная матрица 2 оцениваемых параметров известны (требуется оце- оценить параметры ©у). Необходимо, чтобы оценки удовлетворяли следующим требованиям (ср. с. § 7.1): == Li в; = 0; G.97) )=E[(в,-е,)(в,-е,)']*= min где В G.97) подразумевается, что матрица В* является реше- решением экстремальной задачи А (В*) = min А (В), где А (В)— положительно .полуопределенная матрица при всех допусти- допустимых В, если выполняется матричное неравенство А (В) ^ А* >() По аналогии с§7.1 нетрудно получить (см. например, [135]), что в, = (М, + S-M-i (S-i в0 + Y,)\ G.98) где 246
2 Очевидно, что D (в7) ^ D (ву), где Qj — обычная мнк- оценка (в = М~/^). Выше предполагалось, что дисперсия а2 задана. В противном случае в G.98) следует использовать какую-либо подходящую оценку этой величины, например 2 ev- ¦ Конечно, два последних требования из G.97) будут при этом выполняться лишь приближенно. Данное замечание от- относится и к случаям, рассмотренным в п. 7.6.3 и 7.6.4. Нетруд- Нетрудно проверить, что оценки G.98) могут быть получены так же, как решение следующей экстремальной задачи: 6,*= argmjnjo2 2 (Уц-в'ПХи))*+(в-е0)' 2-1(в-0оI. G.99) 7.6.3. Случай, когда известна только ковариационная матрица 2 (требуется оценить параметры Qj и 0О). Начнем с оценки для 60. Регрессионная задача G.96) может быть переписана в виде причем из свойств случайных величин 6У- и е^- следует S; = a4rt/ + F/ SFif v/ = (vu> ..., vnji). В соответствии с 115] (случай коррелированных наблюде- наблюдений) наилучшие линейные оценки имеют следующий вид: в^ЛГ1?, DF0) = J^, G.100) где 247
Формула G.100) приводит к весьма громоздким вычисле- вычислениям, особенно при tij > /, вследствие необходимости обраще- обращения матриц Sj-, / = 1, k. Можно уменьшить объем вычислений, если прибегнуть к формуле которая является очевидным следствием известной формулы [117] (А + ВСВ')-1 = А-1—А-1 В (В' А-^В+С-^В'А-1. При |F/F/| Ф 0 удается добиться дальнейшего упроще- упрощения вычислений. Оказывается, что где Qj = M~}Yj. Иными словами, в0 является линейной ком- комбинацией наилучших линейных несмещенных оценок для каж- каждой /-й серии наблюдений без учета случайного характера в/, ^го позволяет проводить основную часть расчетов по стандартным алгоритмам линейного регрессионного анализа. Вычисления становятся совсем простыми, если F? s F, т. е. планы экспериментов над различными объектами одинаковы. При этом 0О = ft-i 2 ® ^ где М = a2FF' Оценки 07- вычисляются по формуле G.98) с заменой в0 на оценку в0. 7.6.4« Случай неизвестных 80 и S (требуется оценить в/, О0 и S). В качестве оценок Qj можно использовать G.98), если 0О и S заменить на любые подходящие оценки. Например, в качестве таких оценок можно выбрать следующие величины: в0 ^0з, в; )-1; G.101) 248
Если F; = F, то итерационная процедура G.101) оказыва- оказывается состоящей из одного шага: eo^k-* 2s* s=(ft-i)^2 (б,-ео)(е,-~во)'. выводы 1. Общая математическая модель линейной регрессии имеет вид Y = X© + е, где Y — (п X 1)-вектор наблюдений, X = (Хх... Хп)'— (п X р)-матрица плана экспериментов, Xk — регрессор й-го наблюдения, в — (р X 1) -вектор не- неизвестных параметров, г — (п X 1) — вектор случайных ошибок. В классической постановке задачи линейной регрес- регрессии предполагается, что 8 ? Л/" @, оЧп), где 1П — (п X п)- единичная матрица. Оценки по методу наименьших квадратов (мнк-оценки) отыскиваются из условия минимизации по 0 величины \\Y — Хв||. Когда |Х'Х|=т^0 (ранг X равен р), в = (Х'Х^ХТ. Оценкой а2 является s2 = \\Y — Х0|| /(/i — г) где г — ранг матрицы X. Случай, когда г ? N @, a2V), где V— известная положительно определенная матрица, легко сводится к рассмотренному путем линейного преобразо- преобразования Y и X. 2. В классических предположениях в случаях, когда матрицу плана экспериментов можно представить состоя- состоящей из k взаимоортогональных совокупностей столбцов X = (Xlv...9 Xft), X/X; = 0, 1=7^/, вычисления значительно упрощаются, и компоненты вектора 0=(©A>',..., ©<*>') , соот- соответствующие Xk, оцениваются независимо друг от друга. Для проверки гипотез Я?:0(/> = 0 (ранг X/ равен rt) исполь- зуются отношения F = ©^'Х/Х^в^/г^2, имеющие, когда Ht верно, F (rt, n—/^-распределение. 3. В классических предположениях мнк-оценки совпада- совпадают с оценками максимального правдоподобия и явля- являются наилучшими среди всех несмещенных оценок 0. Однако при отклонении распределения г от нормаль- нормального в сторону увеличения вероятности больших отклоне- отклонений мнк-оценки быстро теряют свои оптимальные свойства. В связи с этим в практической работе широко используются функции потерь р(и) Ф и2. Среди них выделяется функция ря, (и) = А,-1 A — ехр {— А,м2/2}), при К -> 0 стремящаяся к и2/2, а при и -*- оо (X > 0) имеющая горизонтальную асимпто- асимптоту. Она приводит к так называемым эв-оценкам параметров регрессионной зависимости (эв-регрессия или Х-регрессия). Эти оценки устойчивы к нарушению предположения нормаль- 249
ности, имеют наглядную геометрическую интерпретацию, для них (при весьма общих предположениях) получены асимптоти- асимптотические (при п -> оо) разложения. 4. Формой учета априорных сведений о распределении пара- параметров регрессионной модели является байесовское оценива- оценивание. При этом следует различать три подхода: частотный; стан- стандартные рекомендации, как поступать в условиях неопреде- неопределенности; субъективный. Частотный подход не вызывает воз- возражений с методологических позиций. Во втором подходе апри- априорная (несобственная) плотность распределения параметров полагается пропорциональной clG^1)... d9(p)da/a, что приводит порою к серьезным интерпретационным трудностям. Основная трудность субъективного подхода состоит в том, что информа- информация, полученная из данных, рассматривается на равных осно- основаниях с распределением, получаемым из не полностью фор- формализованных соображений. Вместе с тем байесовское оценива- оценивание обладает замечательным свойством — если выборка раз- разбита на две части, то эквивалентны результаты двух подходов к оцениванию: 1) применение байесовского оценивания к первой выборке, использование полученного апостериорного распределения в качестве априорного для второй и повторное байесовское оце- оценивание параметров второй выборки; 2) одномоментное применение байесовского оценивании к объединенной выборке. 5. В экономических и технологических исследованиях при фиксированном значении регрессора X часто рассматривается многомерный отклик Y = W (Х)Э + е, где Y — (/X 1) - вектор наблюдений при значении регрессора X, 41* — извест- известная (/ х р)-матричная функция X, в — (рх 1)-вектор неизвест- неизвестных параметров, а е — (/X 1)-вектор ошибок ? N (О, V), где V — неизвестная положительно определенная (/ X /)- матрица. Оценка вектора в многомерной регрессии проводится одновременно с оценкой матрицы V путем итеративного реше- решения нелинейной системы уравнений. Разработаны устойчивые методы оценки многомерной регрессии. Многомерная регрес- регрессия может использоваться при описании многомерных распре- распределений. 6. Во многих задачах регрессионного типа разбиение перемен- переменных на две жесткие группы (в первую входят переменные, наблюдаемые с ошибкой, во вторую — переменные, значения которых известны точно) оказывается неадекватным реальному положению дел: все переменные наблюдаются или фиксируют- фиксируются с некоторыми ошибками. К настоящему времени в литера- литературе предложен ряд моделей, описывающих подобные ситуа- 250
ции. Соответствующие им оценки базируются в основном на традиционном мнк. 7. При анализе поведения схожих объектов (например, реак- реакция однородной группы больных на испытываемое лекарство) удобно использовать регрессионные модели второго рода (на- (например, уи=в/ -1(Хи)-\-еи, где индекс/ соответствует номеру объекта). Предполагая, что параметры 67- (точнее, их измен- изменчивость) могут быть описаны некоторой вероятностной мо- моделью, удается построить оценки, которые оказываются эф- эффективнее оценок, строящихся в отдельности для каждого /-го объекта без учета имеющейся информации о других схожих объектах. В формальном плане эти оценки оказываются во многом схожи с байесовскими оценками. Глава 8. оценивание параметров регрессии в условиях мультиколлинеарности И ОТБОР СУЩЕСТВЕННЫХ ПРЕДИКТОРОВ 8.1. Явление мультиколлинеарности и его влияние на мнк-оценки Рассмотрим обычную модель линейной по параметрам регрес- регрессии с неслучайными переменными X = A) ))' Еь 1=1, П. (8.1) Оценки коэффициентов регрессии G получаются из решения системы уравнений (см. п. 8.6.1) (8.Г) где S — матрица ковариаций объясняющих переменных раз- размера р X р, Сух — р-мерный вектор оценок ковариаций между объясняющими переменными и у. Пусть теперь X = (д:A>,..., х(р))' — вектор, компоненты которого суть средние значения предсказывающих переменных п !</) = -L JJ *</>. (8.2) п ._ Тогда с учетом очевидного тождества для свободного „член а— 90 = Еу — Х'в, его оценка может быть записана в виде Эо = 251
= у — X' 6, где у = - 2i/i — оценка среднего значения Еу. Предсказанное значение у может быть вычислено по одной из следующих формул: у* = 6о + Х{ @ или yi = #4-X/f в, (8.3) где Xic = Xt —X — центрированный вектор X. Матрица ковариаций между оценками параметров запи- запишется V@) =J-o2S-1, (8.4) п а ее оценка VF)=-Ls2S-i, (8.4') где s2 — несмещенная оценка а2 (см. § 11.1). Далее иногда будут использоваться и стандартизованные (нормированные) объясняющие переменные (jc</>— ~x{i))/oh (8.5) где ^ п гт? — — V (yV) ~Y(i)\2 (Я Ъ'\ \J l ?j уХ\ ' Лх ') у {СО ) of — дисперсия переменной х^К Оценки коэффициентов регрессии для стандартизованных переменных получаются из решения системы уравнений (8.6) где R — матрица корреляций объясняющих переменных, гух— вектор оценок корреляций переменных X с у, а? = - 2 (i/j —i/J» / = l Деление мультиколлинеарности возникает, если между объясняющими переменными существуют почти точные линей- линейные зависимости (в интервале их изменения, определяемого матрицей плана X). В случае существования точных линейных соотношений между переменными матрица S (а следователь- следовательно, и R) будет вырожденной и значит обычная обратная матри- матрица S" (R") не существует, а матрица X (мы рассматриваем 252
случай п>р) будет Матрицей неполного ранга. (Случай точ- точной линейной зависимости иногда называют «мультиколлине- арностью в строгом смысле»). В случае почти точных зависимо- зависимостей матрицы S и R будут плохо обусловлены (см. п. 8.6). Мультиколлинеарность в основном появляется в задачах пассивного эксперимента, когда исследователь, собирая дан- данные, не может влиять на значения объясняющих переменных. В активном эксперименте матрица данных X планируется (см. [ 136]), причем таким образом, что либо матрица S хорошо обус- обусловлена, либо априори точно известны линейные зависимости, имеющие место между строками (столбцами матрицы X), и, следовательно, ее ранг. Применение обычного мнк в условиях мультиколлинеар- ности приводит к некоторым нежелательным последствиям (ни- (ниже используются нормированные переменные): 1) значения нормы вектора оценок параметров Эй соответ- соответственно абсолютных величин отдельных его компонент могут быть очень велики; количественно оценить этот эффект можно, рассматривая величину среднего значения квадрата нормы век- вектора ^ + -2L & -L, (8.7) где kt (i=l—р) собственные числа матрицы R; если минималь- минимальное собственное число кт-т достаточно мало, то вклад второго слагаемого будет велик; 2) дисперсии компонент вектора в могут стать относитель- относительно столь большими, что оценки параметров будут статистичес- статистически незначимыми; из A1.11) легко получить, что дисперсия оцен- оценки параметра 9? равна: где Rf — коэффициент множественной корреляции между переменной х(/) и остальными предсказывающими перемен- ными; сама оценка параметра 9^ распределена по нормальному закону N (9?, Dfy) (см. A1.13)); очевидно, если Q что может произойти при величине R*, достаточно близкой к 1, то вероятность того, что значение |9*| превзойдет некоторый уровень, выбранный для отвержения нулевой гипотезы (т.е. гипотезы 9, = 0), будет мала; 253
3) абсолютные значения коэффициентов корреляции между оценками параметров 6? и 0у (/, /= 1,р; / ф /) близки к 1, что делает, например, бессмысленным построение доверительных интервалов отдельно для каждой из этих оценок (в подобных ситуациях приходится строить совместную доверительную об- область для обеих оценок); 4) величины оценок 0; существенно меняются при незначи- незначительном возмущении матрицы X (может измениться даже знак коэффициента 6г); здесь количественной характеристикой яв- являются числа обусловленности матриц X и R (подробнее о числах обусловленности см, п.8.6). Все эти эффекты затрудняют и без того сложную задачу ин- интерпретации коэффициентов регрессии или вообще делают не- невозможным ее решение без привлечения новых способов обра- обработки и дополнительной информации. В этих условиях нельзя применять уравнение регрессии и для прогноза значений пере- переменной у. В то же время если уравнение регрессии предполага- предполагается использовать для целей прогноза значений переменной у только в точках, близких к значениям объясняющих перемен- переменных хA), ..., х^из матрицы данных X, то оно может оказать- оказаться вполне удовлетворительным: независимо от степени связи между предсказывающими переменными качество уравнения регрессии определяется значением коэффициента множествен- множественной корреляции Ry.x между переменной у и переменными X (хотя при этом может быть необходимо принять некоторые предосторожности чисто вычислительного характера). Таким образом, последствия мультиколлинеарности тем серьезнее, чем больше информации мы хотим получить из имеющейся со- совокупности наблюдений. 8.2. Регрессия на главные компоненты Поскольку мультиколлинеарность связана с высокой степенью корреляции между исходными переменными, можно попытать- попытаться обойти эту трудность, используя в качестве новых перемен- переменных некоторые линейные комбинации исходных переменных, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали. Тогда матрица корреляций между оцен- оценками параметров относительно новых переменных будет близ- близка к диагональной, что существенно упростит интерпретацию. 254
Когда переменных немного или имеются некоторые априорные теоретические данные, выбор таких комбинаций может быть осуществлен из содержательных соображений; в более общей ситуации один из возможных подходов основывается на исполь- использовании так называемых главных компонент (см. [14, п. 10.5.2]), что приводит к регрессии на главные компоненты [195, 201, 219]. Пусть Ult..., Up — нормированные собственные векторы матрицы R, расположенные в порядке убывания соответствую- соответствующих им собственных чисел А,х ^ А,2 ^ ... ^А,р. Тогда /-я глав- главная компонента [14, п. 10.5.2] определяется как линейная ком- комбинация исходных переменных, коэффициенты которой равны компонентам /-го собственного вектора, т. е. z('> = 2 UtjX{i)- Поскольку главные компоненты некоррелированы, значе- значения оценок gj параметров gj регрессии при у-й компоненте не зависят от того, какие еще компоненты включены в уравнение регрессии, и равны: Ъ = r-±rr 2 4Л Ук = -~ G'yx U,), (8.9) где z(?> — значение /-й главной компоненты для fe-ro наблюде- наблюдения. Матрица ковариаций оценок g} диагональна, и непосред- ственно из A1.11) следует, что дисперсия /-го коэффициента gj равна: оа/(л—1)Я/, (8.10) т. е. ошибка коэффициента регрессии минимальна для первой главной компоненты и растет с увеличением номера главной компоненты. Квадрат коэффициента корреляции между /-й главной ком- компонентой и у П=& Vjflh^l (8.11) Отсутствие корреляции между главными компонентами по- позволяет легко организовать пошаговую процедуру отбора (см. п.8.7.3) информативных для предсказания у главных ком- компонент, результат которой в этом случае будет эквивалентен полному перебору. Рассмотрим следующие критерии отбора, использующие главные компоненты. 255
1. /-статистика для проверки значимости коэффициента регрессии при /й главной компоненте: В случае истинности нулевой гипотезы (gj = 0) эта величи- величина имеет /-распределение. Будем использовать схему пошагово- пошагового удаления переменных. Задаваясь некоторым пороговым зна- значением /удал, исключаем из уравнения регрессии /-ю главную компоненту, если (8.13) В силу независимости оценок параметров^-никакого пере- пересчета остальных крэффициентов при удалении той или иной главной компоненты проводить не надо. Обычно в качестве 'удал» выбирают значения /Otl, /0f05, /0|025 для /-распределе- /-распределения с соответствующим числом степеней свободы. Другой спо- способ выбора критического значения дан в п. 8.5.2 (см. (8.58)). Число степеней свободы зависит от того, какая оценка дис- дисперсии ошибки используется. Можно использовать мнк-оцен- ку дисперсии или, что эквивалентно, оценку дисперсии, полу- получаемую при включении в уравнение регрессии всех р главных компонент. Тогда число степеней свободы v = п — р — 1, а оценка дисперсии sa имеет вид: ^('-«Ь> (8Л4) п—р— 1 где Ry.p = Ry.x — оценка коэффициента множественной корреляции между у и всеми р главными компонентами. С другс^й стороны, пусть после удаления очередной главной компоненты /ft+1 осталось k главных компонент. Тогда, про- продолжая процедуру отбора, можно использовать оценку дис- дисперсии s|, соответствующую уравнению с оставшимися k глав- главными компонентами: п — где Ry.k — коэффициент множественной корреляции между у и оставшимися k главными компонентами. Поскольку главные р компоненты некоррелированы, то имеем R\.k = 2ЛГ<?> гДе |1 bt — 1, если главная компонента включена в набор главных 256
компонент, входящих в уравнение регрессии, и 0 — в против- противном случае. При такой оценке дисперсии число степеней сво- свободы v = п — k — 1. 2. F-статистика для добавочной информации. Используем пошаговую процедуру простого присоединения главных компо- компонент. Пусть в наборе уже имеется k главных компонент. Тогда из всех оставшихся главных компонент находим компоненту с максимальным значением F-статистики и включаем ее в уравнение регрессии, если выполняется условие F >/7вкл- В качестве критического значения FBWt берут значения процентных точек, например Fo,ObJ FOy02b Для ^-распределения с одной hv^ л — k — 2 степенями свободы. Если компонент, для которых выполняется условие F >/7вкл, нет, то процесс отбора главных компонент считается окон- оконченным. Можно показать, что использование /^-критерия при- приводит к тому же набору компонент, что и использование /-критерия с меняющейся оценкой дисперсии (8.15). 3. Величина собственного числа для t-й главной компонен- компоненты. Именно эта величина предлагается для отбора главных компонент в некоторых работах [163, 43, 219]. Если xA\...t х^ сильно взаимно коррелируют, то, начиная с некоторого номера iOy значения собственных чисел А,г-0+1, ..., Я7> близки к нулю, а соответствующие коэффициенты регрессии могут стать большими по абсолютной величине. Дисперсии оценок коэффи- коэффициентов регрессии, соответствующих этим главным компонен- компонентам, также будут велики. Отсюда следует целесообразность уда- удаления главных компонент с малыми собственными числами, т. е. полагаем gj = J J ffi 10, i • если XJ > ^кР; (8.16) если А,у<Азд, или, учитывая, что главные компоненты упорядочены по убы- убыванию собственных чисел, gj ;= \gJ> если /<V, (8Л6') [0, если /> i0, где i0 — первый номер, для которого выполняется неравенство ho < ^кр- 9 зак. 244 257
Критическое значение Якр обычно выбирается в виде К 2 где Sp (R) = р — след корреляционной матрицы; е — малая величина, например 10~5. Другой метод выбора числа компонент основан на общепри- общепринятой методологии использования главных компонент. Зада- Задаемся некоторой величиной доли следа а, близкой к 1, и вклю- включаем в уравнение регрессии компоненты до тех пор, пока Как только это неравенство перестает выполняться, вклю- включение компонент прекращается, и коэффициенты регрессии ос- оставшихся главных компонент объявляются статистически не- незначимыми. Подход к отбору главных компонент на основе величины собственных чисел эквивалентен регуляризации при вычис- вычислении псевдообратной матрицы на ЭВМ [17]. Он может быть ис- использован и при наличии точной линейной зависимости между переменными, которая, однако, «замаскирована» ошибками округления при представлении данных в ЭВМ. Однако процедуры отбора главных компонент, основанные на /-и F-статистиках, правильнее нацелены на решение сущно- сущности задачи, хотя при их использовании могут быть отброше- отброшены и некоторые главные компоненты, соответствующие боль- большим значениям kt (если они слабо коррелированы с перемен- переменной у). Правда, как правило, компоненты с малыми значения- значениями собственных чисел оказываются одновременно и слабо кор- коррелированными с у и также отбрасываются, так что отбор су- существенных главных компонент по этим критериям автомати- автоматически приводит и к регуляризации задачи. Зная включенные в уравнение компоненты и соответствующие им коэффициенты регрессии, легко найти коэффициенты регрессии относительно исходных переменных хA),..., х(р> где 6ft =1, если главная компонента включена в информатив- информативный набор, и 6k = О — в противном случае. 258
Вообще говоря, полученные таким образом оценки для ко- коэффициентов 9; будут смещенными. Формулы для дисперсий и смещений этих коэффициентов приведены в п. 8.5. 8.3. Смещенное оценивание коэффициентов регрессии Как известно (см. п. 7.1.2 и 11.1.1), мнк-оценки являются не- несмещенными оценками с минимальной дисперсией в классе ли- линейных по Y = (у1у ..., уп)' оценок. Однако в условиях мульти- коллинеарности эта минимальная дисперсия может быть чрез- чрезмерно велика. Оказывается, если отказаться от несмещенно- несмещенности, можно построить линейные по Y оценки в, для которых средний квадрат отклонения от истинных значений парамет- параметров в будет меньше, чем для мнк-оценок в, т. е. Е(в — в)'(в —в)<Е(в — в)'(в—в). (8.20) Любую оценку в, линейную по У', можно представить в виде в = Св, (8.21) где В обычная мнк-оценка, а С — матрица размера р X р, не обязательно невырожденная, называемая матрицей редук- редукции. Оценка вида (8.21) имеет следующие математическое ожида- ожидание и матрицу ковариаций: Ев-Св; У(в) = С.У(в).С' = — CS-XC. (8.22) п Для нормированной суммы квадратов отклонений имеем (8.23) где Дп (О) — нормированная сумма квадратов отклонений для мнк-оценки. После некоторых преобразований выражение (8 23) можно записать: ? (в) = Д, (в) 4- в' (С -1„)' S (С - 1Р) в. (8.24) 9* 259
Среднее значение величины Ап равно: ё <*-*-'> sP(c-ip)». п() (p)(p)+ п п (8.25) Введем функционал, характеризующий качество оценки (8.21) (функцию потерь) Lw (в, в) = Е [(в — в)' W (в —в)], (8.26) где W — неотрицательно определенная весовая матрица. Наиболее часто используются весовые матрицы вида W = = Ip, W- diag(sn spp), W = S. Будем искать теперь оценки Э, минимизирующие функцию по- потерь (8.26). g^ (С0, в). (8.27) с Такие оценки допускают следующую интерпретацию. Пусть, используя матрицу X и я-мерный вектор значений про- прогнозируемой величины К, мы получили некоторую оценку па- параметров 0 и среднего значения зависимой переменной у. Ис- Используем теперь эти оценки для прогноза значений перемен- переменной у для векторов X*, не входящих в матрицу X. Будем счи- считать при этом, что модель (8.1) остается верной,а компоненты векторов X* распределены согласно некоторому закону распре- распределения с вектором средних значений X = (х<1\ ..., *<*>)' и матрицей ковариаций W. Пусть б2 (X*, 0) есть квадрат ошиб- ошибки предсказания значения у* для вектора X*: !2(Х*, в) = (у* — 0; (Х-*Х)—^J = (в'ХМ- Е где X? — X* — X — центрированный вектор X*. Тогда Ех* б2 (X*, 01 Y) = @ — в)' W @ — в) + 0/- Е^J + (в*J + 2в*(^-Ег/). Усредняя теперь по е*, имеем Взяв далее математическое ожидание по V, получаем, что tf5 (X*, 0) - Ur + — + о\ (8.28) п 260
Таким образом, уравнение регрессии с параметрами, опре- определенными из условия минимума функционала (8.26), миними- минимизирует математическое ожидание квадрата ошибки прогноза на векторах X*, не входящих в состав матрицы плана X, ис- использованной для оценки, в то время как обычная мнк-оценка ми- минимизирует сумму квадратов отклонений для матрицы X. Линейное преобразование объясняющих переменных. Рас- Рассмотрим теперь, как преобразуются оценки параметров урав- уравнения регреосии и функционал (8.26) при линейном преобразо- преобразовании объясняющих переменных. Пусть для некоторого набора переменных хA),..., х{р) оп- определена оценка вида (8.21), удовлетворяющая условию (8.27) минимума функционала (8.26) с весовой матрицей W*. Перей- Перейдем теперь к системе переменных z =- (z<l>,..., z(p))', связан- связанных с X невырожденным линейным преобразованием L : Z =• «= L'X. Тогда мнк-оценкой параметров уравнения регрессии для переменных Z будет вектор B^L^Ox, (8.29) где через &х> ®z обозначена мнк-оценка соответственно для переменных X (Z). Аналогично смещенная оценка в* (8.21) преобразуется в оценку ez^L-'ex^L-'Cxdx. (8.29) С учетом (8.29) имеем )Bz. (8.30) Таким образом, оценке параметров уравнения регрессии в пространстве переменных X с матрицей редукции Сх в про- пространстве переменных Z соответствует оценка с матрицей ре- редукции Cz^LCxL-1. (8.31) Весовая матрица в мере качества оценки тоже меняется. Имеем (8.32) 261
Таким образом, матрица Cz получается как решение задачи минимизации функционала (8.26) с преобразованной весовой матрицей > Wz - (L-1)' Wx L. (8.33) Заметим, что если Wx есть ковариационная матрица пере менных X, то матрица Wz будет ковариационной матрицей переменных Z. 8.4. Редуцированные оценки для стандартной модели линейной регрессии Как уже указано в § 8.3, общий вид редуцированной оценки коэффициентов регрессии задается с помощью соотношения (8.21). Используемая там матрица редукции С, как показано дальше, является либо функцией неизвестных параметров в, т. е. С = С (в), либо функцией оценок этих параметров С = = С (в). Следовательно, в последнем случае С будет случайной величиной. Такую матрицу назовем стохастической (формулы (8.22), (8.25) в случае стохастической матрицы уже не будут верными). Если матрица С — стохастическая, то оценки вида (8.21), строго говоря, не будут линейными по Y, однако самое важное их свойство, определяющее их полезность для прило- приложений,— уменьшение среднего квадрата отклонений (8.26) (в метрике матрицы W) — сохраняется. Первоначально название «редуцированные («shrinkage») оценки» относилось к оценкам вида 6 = А,6, где скаляр к ? ? @,1). Матрица С для этой оценки имеет вид С = diag (Я,..., К). Смысл введения множителя А, состоит в уменьшении длины (евклидовой нормы) вектора оценок в, по сравнению с в, ко- которая в условиях мультиколлинеарности может существенно превышать длину истинного вектора параметров в (см. (8.7)). 8.4.1. Оценка Джеймса — Стейна. Для рассмотрения оценки Джеймса — Стейна перейдем предварительно к ортонормиро- ванным переменным V = (u(l>,..., viP))' и модель регрессии запишем в виде yi = Vo+T'Vt + Eh 1 = ТГп, (8.34) Такая модель может быть получена, например, в полиноми- полиномиальной регрессии при переходе к ортонормированной системе полиномов. В общей модели регрессии ортонормированными 262
переменными, в частности» будут переменные и(/) --= = zM/ynkj, гдег<'> — главные компоненты (см. §8.2) матри- матрицы X. Мнк-оценка для коэффициентов Г записывается в виде Г =- =. пСиу, и ее распределение подчиняется р-мерному нормаль- нормальному закону Г ~ Nр (Г, o2lp). Пусть теперь в качестве функции потерь, соответствующей некоторой оценке Г паоаметров регрессии Г, используется функция потерь вида (8.26) с единичной матрицей, т.е. Li (Г, Г)- 2 Е (Г, — Г4)*=^ Е || Г — Г ||«. (8.35) Для мнк-оценки L\ (Г, Г) = /?а2, верна следующая теоре- теорема [216]. Теорема Джеймса — Стейна. Пусть р ^ 3. Тогда оценка r(c)=XjSf, (8.36) где Xjs = A —- псАп (Г)/||Г||2), с — любое число в интер- интервале 0<? < 2 (р — 2I (п — р + 2), «лучше» мнк-оценки Г, в смысле критерия (8.35), каков бы ни был вектор неизвестных параметров Г. Иными словами, при любом Г верно неравенст- неравенство Ц (Г (с), Г) - Е || Г (с) - Г ||2 < Е || Г-Г |Р - ро\ Условие р ^ 3 является существенным, так как, как пока- показано в [216J, когда р = 1 или р = 2, не существует оценки Г* лучшей, чем мнк-оценка в смысле (8.35), т. е. такой оценки, что- чтобы L! (Г*, Г) < L! (Г\ Г) для всех Г. Используя оценку коэффициента множественной корреля- корреляции между у и X, множитель Стейна можно записать в виде, инвариантном относительно преобразования предсказываю- предсказывающих переменных hs^l-c n~p~X (l-Rlx)/Ry\x. (8.37) п Когда с = 2 (р — 2I {п — р + 1), получим оценку Г, для которой L\ (Г, Г) = L\ (Г, Г) = ра2 при всех Г, так что это значение*; приводит к оценке, не лучшей чем мнк-оценка. Если с = 0, оценка Стейна, очевидно, просто совпадает с мнк-оцен- Кой. Минимальное значение функции потерь L\ (Г (с), Г) 263
достигается при значении с* = (р—2) / (п —р + 2). Тогда Li (Г (с*), Г) = 2по'2/(п — р ~\- 2), т. е. примерно рав- равно 2а2, когда п^> р. Отсюда следует, что оценка Джеймса — Стейна при больших р и п лучше мнк-оценки примерно в р/2 раз. В то же время при наличии мультиколлинеарности оценка Джеймса — Стейна может оказаться столь же неудовлетвори- неудовлетворительной , как и обычная мнк-оценка. Чтобы показать это, вер- вернемся от ортонормированных переменных V к главным компо- компонентам Z, что соответствует линейному преобразованию z(/> = ~ VrikjvW (j =* l, p). Тогда согласно формуле (8.30) оценка Джеймса — Стейна для параметров уравнения регрессии на главные компоненты будет иметь в точности вид (8.36). т. е. G = A.J5 G. (8.38) Однако согласно формуле (8.32) оценка G минимизирует уже не функцию потерь (8.35), а функцию потерь ~ р ~ а (О, G) = E у А; (я,—Яг)"- (8.39) Таким образом, ошибки оценок коэффициентов gif соответ- соответствующих главным компонентам с минимальными значения- значениями дисперсии ki, т. е. компонентам, «наиболее ответственным» за мультиколлинеарность, входят в функцию потерь с мини- минимальными весами А,;. Это означает, что улучшение оценки Джеймса — Стейна по сравнению с мнк-оценкой достигается в первую очередь за счет уменьшения вклада компонент с отно- относительно большой дисперсией, хотя при мультиколлинеарно- мультиколлинеарности, напротив, следует подавлять вклад компонент с минималь- минимальной дисперсией. Улучшенная оценка Джеймса — Стейна. Как следует из выражения (8.37), при достаточно малых значениях Ry x мно- множитель A,js может стать отрицательным. Этого недостатка ли- лишена улучшенная оценка типа Джеймса — Стейна, приведен- приведенная в 1249] 1. Она определяется как редуцированная оценка <Э* ----- |iB. (8.40) 2В [249] приведены ссылки на источники, в которых получена и изучалась улучшенная оценка Джеймса—Стейна. 264
где множитель |X,,(rt. когда *,.(CJ>0; (g41) 10, когда Xjs (с) < 0, в — обычная мнк-оценка. Для ортонормированных переменных V показано [249], что оценка с редуцирующим множителем \i лучше оценки Джеймса — Стейна (а тем более мнк-оценки по критерию L\ (Г, Г)), хотя оптимальное значением* и соответствующее ми- «шлал&ное значение L\ (Г (с*), Г) для нее аналитически не оп- определены. Однако можно полагать, что онет близки соответст- соответствующим значениям для оценки Джеймса — Стейна. Для регрессии у на главные компоненты и на исходные пере- переменные оценки типа (8.40) лучше оценки Джеймса — Стейна и мнк-оценки по соответственно взвешенным критериям L\ и и. Применение оценки Джеймса — Стейна для уточнения час- части параметров. Оценку Джеймса — Стейна, равно как и улуч- улучшенную оценку (8.40), можно применить для уточнения части параметров уравнения регрессии, лишь бы количество уточ- уточняемых параметров q удовлетворяло неравенству q ^ 3. Рассмотрим снова модель (8.34). Представим вектор Г' в виде Г' = (Г*1)', Г<2>'), где Г<х>' имеет размерность р — q> а г<2>' — размерность q. Вектор Г разобьется на два подвек- тора Г' = (Г<1)', П2>') размерности р — q и q соответственно Введем множитель | где 0 < с & <2(q- 2)/(/i ~ p + 2). Тогда оценки (8.41), (8.42) зУ Г<2>/ V лучше мнк-оценки по критерию (8.35). Оптимальное значение с<2) = (q — 2I (п — р + 2). В таком виде оценка Джеймса— — Стейна позволяет существенно улучшить мнк-оценку в ус- условиях мультиколлинеарности. Действительно, выделяя во вторую составляющую Г<2> вектора Г коэффициенты, соответ- соответствующие, например, малым собственным числам %г или ма- 265
лым значениям ^-статистики (8.12), и используя затем множи- множитель Стейна, можно существенно уменьшить вклад этих компо- компонент в оценку параметров уравнения регрессии при возвраще- возвращении к исходным переменным. 8.4.2. Редуцированная оценка Мейера — Уилке. Матрица ре- редукции С для этой оценки получается как решение задачи ми- минимизации следа ковариационной матрицы вектора Э = С*8 при условии, что нормированная сумма квадратов отклоне- отклонений Ад (в) = б0 >0 [231]. Используя формулы (8.22), (8.24), задачу минимизации для определения матрицы С* можно за- записать в виде С* = arg min Sp (CS" С) (8.43) с при условии К(©) +в'(С*~-I)S(C* — 1)в = б0, (8.43') что дает в результате С* = 6вв'A+6в'в')-1, (8.44) где б выбирается так, чтобы выполнялось условие (8.43'), от- откуда после преобразования по формуле Бартлетта [117] оцен- оценка1 запишется e = WO, (8.45) где Как положительное качество оценки (8.45) отметим, что множитель Xmw является функцией только мнк-оценки. С дру- другой стороны, поскольку оценка Мейера и Уилке является сто- стохастической редуцированной оценкой, формула (8.22) для ко- ковариационной матрицы будет неверна (матрица С*^-1 С*' отнюдь не является в этом случае ковариационной матрицей оценки), поэтому нельзя утверждать, как это делают авторы оценки, что она минимизирует след ковариационной матрицы. Величина функционала качества (8.26) для нее также пока не- неизвестна, так что в отличие от оценки Стейна нельзя сказать, при каких условиях и в каком смысле она лучше мнк-оценки. Некоторые другие типы редуцированных оценок приведены в [43, §6.5]. ХВ [231] при преобразованиях была допущена ощибка, в результа- результате чего множитель XMW определен неверно. Эта ошибка исправлена в [43]. 266
8.5. Оценки, связанные с ортогональным разложением Использование функционала Ly, (8.26) как меры качества оцен- оценки в не гарантирует еще, что каждая компонента вектора Э имеет меньшую среднеквадратическую ошибку, чем вектор мнк-оценок (см., например, п. 8.3.1). Однако, как г оказано в [192], оценки, уменьшающие среднеквадратическую ошибку каждой из компонент вектора, существуют, в частности таки- такими являются ридж-оценки [208, 209]. В настоящем разделе проводится рассмотрение достаточно общего класса оценок, об- обладающих указанным выше свойством. Вернемся к регрессии на главные компоненты Z = (z<x>,..., z(p>) (см. п. 8.2). Пусть, как и прежде, вектор G есть вектор те- .»—> еретических значений параметров, a G — вектор мнк-оценок. Пусть (Ух,..., Up — собственные векторы матрицы S. По- Поскольку матрица S невырождена, векторы Ut (i — 1,р) об- образуют полную ортонормированную систему (см. [102]), и по- поэтому любой вектор оценок параметров может быть представ- представлен в виде 8=S git/,. <8-47> Для мнк-оценки *gt = gt = y*^, где СуХ — оценка вектора ковариаций Сух между прогнозируемой переменной у и переменными (хA),..., х^р)). Для самого вектора неизвестных параметров^- = gt. Мы будем рассматривать класс оценок ви- вида (8.47) с коэффициентом gt = atgi. Таким образом, множитель at можно рассматривать как относительный вес i-й главной компоненты в оценке параметров регрессии в (8.47) по сравнению с ее весом в мнк-оценке. Дальше веса А = (#!,..., ар) будут определяться из усло- условия минимума функционала качества (8.26). Будем полагать при этом, что весовая матрица W перестановочна с матрицей S, т. е. что векторы Ut являются и собственными векторами мат- р рицы W, и она представима в виде W = 2>? (иги$. Очевидно, /= 1 здесь охвачены случаи W = I и W = S. После несложных преобразований получаем следующую формулу для функцио- функционала качества (8.26): U=E2 WiQi-gif. (8.48) 267
Чтобы получить аналитическое выражение Lw, запишем его в виде и-в ?-.(¦?-•*-«)'• <8-49> где сь =Сух Uiy ct ^C'yxUi- Взяв теперь математическое ожидание, получим L2(G, G)= t ^^((я*~1J+М?аа/л), (8.50) или в эквивалентной форме L4G, 0)=pS», fg? (a,- IJ +-j-af aVn]. (8.50') Для дальнейшего анализа понадобится еще преобразован- преобразованное выражение для нормированной суммы квадратов отклоне- отклонений Д„ F). Из (8.23) имеем An(G) = (/i-/>-l)'^(l-^.*)+ S ^i(fl«- 1)*г?- (8-51> Первое слагаемое в (8.51) соответствует применению мнк- оценки, а второе возникает, если хотя бы один из вкладов ахф\. Укажем некоторые часто используемые типы оценок, пред- ставимые в виде (8.47). Однопараметрическая гребневая регрессия [208, 209]. Стандартная запись этой оценки имеет вид1 e(k) = (S+k\)^CyX, (8.52) или, что более предпочтительно, когда диагональные элемен- элементы матрицы S различны, 6^(S+feDG(S))-1C,x, (8.52') где DG (S) — диагональная матрица diag (su,...T spp), k >0— малое число, так называемый параметр гребня. ХВ литературе часто употребляется запись вида (Х'Х+^I) Х'У, которая для центрированных переменных эквивалентна (8.52). 268
От оценки вида (8.52') можно перейти к оценке вида (8.52) с помощью нормировки матрицы S к матрице корреляций. Даль- Дальше будем рассматривать только оценки вида (8.51). Собственные векторы Ui (i = 1,р) матрицы S являются и собственными векторами матрицы S + k\ с собственными чис- числами \xt = Xt + k. Следовательно, матрица (S + kl)-1 = = 2 г\А и с учетом (8.48) и вида gt получаем, что относитель- = 1 * • ные весовые коэффициенты at для оценки гребневой регрессии равны; (8.52") Значение параметра k подбирается из решения минимиза- ционной задачи для функционала (8.50). Многопараметрическая гребневая регрессия [192]. Стан- Стандартная запись соответствующей оценки имеет вид. 6ГР (*)«(S + К)-1 Сух, (8.53) где К — матрица, перестановочная с S. Собственные числа этой матрицы пусть будут ?lf..., kp. После несложного пересчета получаем, что веса вкладов главных компонент для этой мо- модели равны: [i = T7p). (8,53) Значения параметров kt (i = l,p) подбираются из решения оптимизационной задачи для функционала (8.50). Оценка Марквардта [227] (оценка дробного ранга). Для этой оценки определяются два параметра: ранг г и вес а. Весаа^ имеют вид 1, Кг; S 1, i -= г; 0, i>r. Методы определения ранга г и а приведены в [227]. Регрессия на главные компоненты. Веса а\ могут принимать одно из двух значений: а-г — 1, если выполняется какое-либо из условий информативности данной главной компоненты (см. п. 8.2), либо at = 0, если данная компонента удаляется. Заметим, что редуцированные оценки Джеймса — Стейна И 269
Мейера — Уилке также могут быть легко представлены в тер- терминах весовых коэффициентов аь. 8.5.1. Оптимальное взвешивание вклада главных компонент. Найдем теперь значения вкладов аь минимизирующие функционал Ly/ (G (Л), G) (8.50). Для этого учтем, что функцио- функционал (8.50) представляет собой сумму квадратичных по at сла- слагаемых, каждое из которых является функцией только одного параметра at и не зависит от весовых коэффициентов дог в функ- функционале качества. Значения аи минимизирующие функцию потерь, будут оп- определяться простыми выражениями (8.54) и не зависят от весовой матрицы W. Минимальное значение величины Lw (8 (А*), А), соответ- соответствующее точке минимума А* = (а*, •¦•¦ Яр)» будет равно: - р ог gf Lb(G, G)= 2 wt -?-. : . (8.55) в то время как для мнк-оценки L2v,(GyG) = t a, * . /-! nXi Оценка G (Л*), соответствующая оптимальному значе- значению Л*, обладает следующими свойствами: 1) средний квадрат отклонения любого коэффициента gi(A*) при z-й главной компоненте от истинного значения gt меньше, чем для мнк-оценки gt. Действительно, в силу (8.49) каждый член суммы в (8.55) представляет собой средний квад- квадрат отклонения коэффициента gt(А*) от истинного значения 8и т. е. Е (Ъ (А*) - giJ - ^ • gf + l,%in, что меньше со- а2 ответствующеи величины -т- для мнк-оценки; tlKi 2) среднеквадратическое отклонение любого из параметров Ъг, (i = 1,р) оценки G (Л*) (8.48) для переменных х^,..., х(р) от истинного значения 0 меньше, чем у мнк-оценок для со- соответствующих параметров [192]; 270
3) для применения выражения (8.54) важным является то, что в точке щ = 1 (i = \Ур) первая производная нормиро- нормированной суммы квадратов отклонений An (G (А)) по щ равна О (см. формулу (8.51)), и, следовательно, величина Дд (G (А)) в окрестности точки at = 1 (i = l,p) меняется медленно. В то же время первая производная L2 (G (A), G) в окрестности точ- точки at = 1 (/= 1,р) положительна. Это позволяет надеяться, что можно подобрать такие значения at < 1, что значение ве- величины Дп (G (А)) возрастет ненамного, а значение функцио- функционала L2 (G (Л), G) при этом уменьшится достаточно заметно. В заключение заметим, что многопараметрическая гребне- гребневая регрессия (8.53), основанная на определении значений пара- параметров гребня kt (i = 1,/?), которые минимизируют функцио- функционал (8.49), полностью эквивалентна регрессии с оптимальными весами вкладов главных компонент. 8.5.2. Оценка оптимальных вкладов главных компонент. Воз- Возникает вопрос, как воспользоваться формулой (8.54) на прак- практике, если обе величины gt и а2 неизвестны? Следуя [207], рас- рассмотрим два метода оценивания аг. 1. Вместо значений gf подставляем в (8.54) мнк-оценки git а в качестве оценки для а2 берем величину s2= nAn(&) Тогда получим оценки ^^Q). (8.56) 2. Можно организовать итеративную процедуру следую- следующим образом: Значения a(V получаем из (8.56). Величина s2 остается не- неизменной на всех итерациях. Аналогично [207] можно пока- показать, что такой итеративный процесс сходится. Предельное значение at должно удовлетворять уравнению а = (a*gf)/(a2gf-{- + s2lnki). Это уравнение имеет три корня: а = 0 и корни, удовлетворяющие квадратному уравнению a2gf — agf + s2/ 271
Ink = 0. Последнее имеет вещественные корни, когда выполня- выполняется условие at « Отсюда получаем, что О, если riki gf/s2 < 4; (8.59) 1 у gi —4s2fkt n , если nkt gf/s2 ^ 4. 2 С Заметим, что отношение nKtgf/s2 есть квадрат /-статистики, ис- использованной в § 8.2 в одном из методов выделения существен- существенных главных компонент. Таким образом, отношение (8.57) устанавливает еще одну границу для объявления коэффициен- коэффициентов при главных компонентах нулевыми. 8.6. Вопросы точности вычислительной реализации процедур линейного оценивания 8.6.1. Два метода получения мнк-оценок. Когда набор пред- предсказывающих переменных и модель определены, мнк-оценки неизвестных параметров линейного уравнения регрессии мож- можно определить путем решения одной из следующих четырех сис- систем линейных уравнений: 1) ХО^Г, (8.60) где X — матрица данных, расширенная путем добавления стро- строки из единиц; ©^ = (90, 6')— вектор размерности (р + 1), а 0О — свободный член уравнения регрессии; 2) ХС0 = 7С, (8-60') где Хс — центрированная матрица данных; Yc — я-мерный вектор центрированных значений зависимой переменной у\ 3) (X'XNP = XY, (8.60*) т. е. вр является решением нормальной системы уравнений, связанной с системой (8.60); 272
т. е. в является решением нормальной системы уравнений, свя- связанной с системой (8.60"). Решение системы нормальных уравнений (8.60") или (8.60'") начали применять для получения оценок коэффициен- коэффициентов регрессии раньше, чем непосредственное решение системы линейных уравнений (8.60). Последний метод стали использо- использовать примерно с середины шестидесятых годов [193, 194] (см. также более поздние работы [142, 143]). Основанием для актив- активной пропаганды непосредственного решения системы (8.60), минуя этап получения нормальных уравнений, является дока- доказанная в [193] большая устойчивость численного решения урав- уравнения (8.60) при наличии ошибок округления и представления данных в ЭВМ по сравнению с решением системы нормальных уравнений. Однако, как показано далее, увеличение устойчиво- устойчивости может быть обосновано лишь при некоторых предположе- предположениях относительно свойств системы уравнений (8.60), которые далеко не всегда имеют место на практике. Вопрос о выборе способа численного решения имеет смысл лишь в том случае, когда погрешность вычисления оценок ко- коэффициентов регрессии на ЭВМ сравнима по величине с их ста- статистическим разбросом, который определяется формулой (8.8). Необходимым для этого условием, как мы увидим далее, явля- является наличие мультиколлинеарности. Но при выраженной мультиколлинеарности с точки зрения статистической устой- устойчивости оценок лучше переходить к решению регуляризован- ных (тем или иным способом) систем уравнений (8.60), (8.60'), {8.60"), (8.60"). Для систем нормальных уравнений метода- методами регуляризации будут уже рассмотренные метод главных компонент (см. § 8.2) и гребневая регрессия (см. § 8.5). 8.6.2. Оценки величин возмущений для решений центриро- центрированной и соответствующей ей нормальной системы уравнений. Пусть А'9 = С некоторая система линейных уравнений, мат- матрица А' которой имеет размерность q X k (k не обязательно равно q)t 9 — вектор размерности fe, правая часть С — вектор размерности q. Как показано в [39], решение такой системы, получаемое на ЭВМ1, на самом деле совпадает с решением некоторой воз- возмущенной системы уравнений *В том случае, когда система А'6 = С не имеет ръшенмя в «бъгч- ном смысле или имеет не единственное решение* ^ й й р руд пониматься псевдорешение с минимальной нормой, т. е. так называемое нормальное псевдорешение A7]. 273
Введем относительную величину возмущения решения 0: «вв||в-в»||/цв||. Величина возмущения 6в как функция возмущений ДС,Р зависит от двух характеристик системы уравнений: 1) числа обусловленности матрицы системы [39] * (А) = pmax (A)/pmin (A), где ртах, pmin — соответственно наибольшее и наименьшее (ненулевое) сингулярные числа матрицы А. Если матрица А имеет ранг /, то у нее имеется / ненулевых сингулярных чисел Pi > Р2 > ••• > Pi и ргаах = Pi, Pmin = Pz- Дл* сингулярных чисел матрицы АА' соответствующей нормальной системы урав- уравнений имеют место равенства [39] Ртах (АА') = pLx (A), pmin (АА') = pmin (A), поэтому 2) величины относительной несогласованности системы Ао2тн (А, С) - min || А0 -С ||2/|| С \\\ е Для согласованной системы уравнений Д^н (А, С) = 0. Рассмотрим теперь для определенности центрированную систему уравнений (8.60"), т. е. А = Хс, С = Y9 q = n, k = р. Тогда верно следующее'утверждение. Утверждение. Квадрат величины относительной несог- несогласованности для центрированной системы уравнений {0, когда п<р+ 1; Соответствующая нормальная система уравнений всегда согласована, поэтому Д2ТН (ХДС, X'CY) = 0. Используя результаты [39, п. 37; 257], запишем теперь сле- следующие оценки сверху для относительных погрешностей реше- решений центрированной системы (8.60") и нормальной системы (8.60"'): 4,9Aх(Хс) +1 {у? (X.) +1) Дотн (Хс, Y)) е 274
О* Норм— II в II где емаш — машинная ошибка округления [136, п.2.2]. Когда система плохо обусловлена, величина х (Хс) велика, и основную часть погрешности определяют слагаемые с множи- множителем х2 (X). Из приведенных неравенств можно видеть, что с точки зре- зрения влияния квадрата числа обусловленности х(Х) на верх- верхнюю границу погрешности решения решать систему (8.60) вы- выгоднее, если система неопределенная (п < р), а в случае пере- переопределенной системы полного ранга (п >р, I = р), только г- .... если выполняется неравенство 4,9 р ]/ ^~ A — R2y.x) < 3, т. е. если коэффициент множественной корреляции между у и X достаточно велик. Для нецентрированной системы получает- получается аналогичный результат. Сравнивая два способа решения систем (8.60) (непосредст- (непосредственно с матрицей X и с переходом к системе нормальных урав- уравнений), можно сделать вывод, что несогласованные системы (8.60), как правило, лучше решать, используя переход к нормаль- нормальной системе уравнений. В статистической практике несогла- несогласованные системы возникают, когда матрица данных X переоп- переопределена, т. е. число объектов (столбцов) в ней больше числа переменных (строк), и при этом линейные уравнения, входя- входящие в систему (8.60), не могут выполняться точно. Но превы- превышение числа объектов над числом переменных — типичная си- ситуация в регрессионном анализе. Второе условие несогласо- несогласованности также часто выполняется, так как обычно системы ли- линейных уравнений используются для оценки параметров линей- линейных моделей типа (8.1), являющихся лишь приближением дей- действительных соотношений между переменными (мерой этого приближения как раз и является дисперсия случайной компо- компоненты е). Для обоснования перехода к нормальной системе уравнений существенно и то, что матрица Х'Х тесно связана с ковариационной матрицей, которая является исходным объек- объектом для различных видов многомерного анализа (главных ком- компонент, факторного анализа и т. д.). 8.6.3. Центрирование и нормирование матрицы данных. Рас- Рассмотрим более подробно, как связаны решения систем нормаль- нормальных уравнений для центрированной Хс и расширенной мат- матриц данных. Так как элементы первой строки расширенной матрицы дан- данных полагаются равными единице, система нормальных урав- 275
нений (8.60") имеет вид пх (Х) пх п A) ... пх (р) п V v(i) —, . n nx (p) (8.61) где x{J) — среднеарифметическое значение переменной х{}'\ а суммирование в выражениях для элементов вектора Х'У и матрицы Х'Х проводится от 1 до п. Если решать систему (8.61) методом последовательного ис- исключения Гаусса или приведением матрицы Х'Х к треугольной форме, то первый шаг состоит в делении первого уравнения на п и вычитании соответствующих кратных первого уравнения A-й строки матрицы Х'Х) из остальных уравнений (строк мат- матрицы Х'Х) таким образом, чтобы оставшиеся р элементов первого столбца матрицы Х'Х обратились в нуль. Таким обра- образом после первого шага мы получим систему уравнений вида I XA)... ? 0 0 nS So (8.6Г> При этом элементы ковариационной матрицы sjh (i, / = = 1,р) фактически вычисляются по формуле = У\ xWxW—"xU)'xik). (8.62) Хотя выражение (8.62) теоретически эквивалентно выраже- нию (8.63) 276
однако при реализации на ЭВМ формула (8.63) позволяет вы- числять элементы sjk с существенно меньшей погрешностью (особенно когда п велико), чем формула (8.62) (подробнее см. в п. 8.Ь.4). Из первого уравнения системы (8.6Г) следует, что "e. = F-S^*(/>' (8.64) /= 1 а вектор О' = F1э..., 6Л) является решением системы nS9 == = пСух> т. е. системы (8.60'"), поскольку nS = ХсХс. Таким образом, решение нормальной системы уравнений для расширенной матрицы данных сводится к решению систе- системы нормальных уравнений с центрированной матрицей данных не только теоретически, но и во многих случаях при практичес- практической реализации вычислительной процедуры. Отметим в связи с этим следующее. 1. Согласно теореме о разделении собственных чисел [1021 имеют место неравенства Атпах(Х/Х) ^ А,тах(Хс Хе) И Хт{п (X 'X) ^ Kwin (Хс' Хс), где Хтах B), Хт[п B) — соответственно максимальное и ми- минимальное собственные числа матрицы 2. Поэтому для чисел обусловленности имеет место неравенст- неравенство х (Х'СХС) < х (Х'Х), т. е. центрированная система, как пра- правило, лучше обусловлена, чем система с расширенной матрицей данных. 2. Вычисление элементов ковариационной матрицы S прово- проводится по неудовлетворительной, при реализации на ЭВМ, фор- формуле (8.62), что может привести к возникновению дополнитель- дополнительной погрешности в решении. Поэтому если переходить к систе- системе нормальных уравнений, то целесообразнее получать устой- устойчивую (в вычислительном отношении) оценку ковариационной матрицы S (см. п. 8.6.4), решать систему вида (8.60'") или эк- эквивалентную ей систему Se = CyX> а значение свободного чле- члена 60 получать из (8.64). Дальнейшее улучшение обусловленности системы (8.60"') и повышение точности вычислительной процедуры можно полу- получить, переходя к нормированным переменным [163]. 8.6.4. Вычисление элементов ковариационной матрицы. Коэф- Коэффициенты системы линейных уравнений для центрированных переменных являются элементами матрицы ковариаций с точ- точностью до множителя п. В связи с этим возникает задача акку- аккуратного вычисления элементов матрицы ковариаций, чтобы из- избежать внесения дополнительной погрешности в решение ис- 277
ходной системы (8.69') при переходе к соответствующей нор- нормальной системе уравнений. Для этого следует воспользовать ся так называемой двухэтапной оценкой = nsn = 2 (*i'> -xU)) (x(il) - *«>). (8.65) Эта оценка названа двухэтапной, поскольку требует предва- предварительного вычисления средних значений х^'К Довольно часто в литературе по регрессионному анализу предлагается исполь- использовать оценку вида ап = \ х\п х\1)—- *(/) *(/)- (8-66> Эта оценка обладает определенным преимуществом перед двухэтапной оценкой (8.65) с точки зрения организации вычис- вычислений, поскольку позволяет вычислить элементы a\i за один просмотр данных. Однако она является неудовлетворительной в отношении величины погрешности, с которой вычисляются элементы ковариационной матрицы. Приведем некоторые результаты, позволяющие сравнить точ- точность оценки диагональных элементов atj при использовании формул (8.65) и (8.66). Далее для упрощения формул опустим индекс номера переменной и будем считать, что оценивается дисперсия некоторой переменной х соответственно по одной из двух схем: ~^J; (8.67) #2 ==: Я$2 = Zj Xi X . (о.О/ ) . /г t = l Теоретически sf = s| = sj. Для оценки погрешности вве- введем, следуя [173], число обусловленности данных k = \\x\\/]/^nsx, п где s? — точное значение дисперсии л:, ||л:||2 = ^xf. Легко видеть, что значение 4>1 и оно возрастает, когда si убывает при фиксированном значении ||л:||. Для относитель- относительной погрешности оценок (8.67) и (8.6Г) верны следующие не- неравенства: si — i ^маш» 2 Маш» 278
где емаш — машинная ошибка округления. Для реальных задач /гемаш < 1 и, следовательно, двух- этапная оценка существенно точнее оценки (8.66), особенно когда значение числа обусловленности для данных k велико. В некоторых случаях оценка (8.66) может дать даже отрица- отрицательные значения для sj. He вдаваясь в детальный анализ, можно сказать, что относительно низкая точность оценки (8.66) объясняется тем, что она представляет собой разность двух неотрицательных величин, которые при больших k (малых зна- значениях si) близки друг другу. При вычислении на ЭВМ такая ситуация как раз и приводит к потере точности. В некоторых ситуациях, например, когда объем данных ве- велик, и они размещены во внешней памяти, желательно избе- избежать двукратного считывания данных при вычислении элемен- элементов ковариационной матрицы. Для этого можно использовать оценки типа скользящего среднего, которые позволяют вычис- вычислять ковариационную матрицу с той же относительной погреш- погрешностью, что и двухэтапная оценка. Приведем один из возмож- возможных вариантов алгоритмов вычисления элементов ап [259]: t\t) - Vd Ф> 1 f Однако этот алгоритм без дополнительных затрат памяти нельзя использовать при наличии пропущенных наблюдений. Когда значения k и п велики, величина погрешности для двухэтапного алгоритма может стать недопустимо большой. Один из простых способов улучшения оценки в этом случае состоит в вычислении средних значений х^ с двойной точно- точностью. Тогда имеет место следующее неравенство для погрешно- погрешности ошибки: I sl-s* Для оценки скользящего среднего этого же эффекта можно добиться, накапливая с двойной точностью значения tf и tl. О некоторых дальнейших возможностях повышения точно- точности оценок ковариационной матрицы см. [173]. 279
8.7. Отбор существенных переменных в задачах линейной регрессии 8.7.1. Влияние отбора переменных на оценку уравнения рег- регрессии. Один из подходов к оцениванию параметров уравнения регрессии при наличии мультиколлинеарности состоит в со- сокращении количества входящих в модель предсказывающих переменных путем отбора подмножества предсказывающих переменных, существенных для прогноза значений переменной у. Каким бы способом ни проводился отбор переменных, число обусловленности уменьшается с уменьшением числа регрессо- ров. Процедура отбора существенных переменных, рассматри- рассматриваемая как процедура выбора модели, полезна и когда исход- исходная матрица Х'Х хорошо обусловлена. Но особенно она эффек- эффективна в условия* мультиколлинеарности, когда объясняющие переменные сильно коррелированы. Так, если две какие-либо переменные сильно коррелированы с у и друг с другом, то час- То бывает достаточно включения в модель одной из них, а до- дополнительным вкладом от включения другой можно пренеб- пренебречь. Отбор существенных переменных в пространстве главных компонент рассмотрен в п. 8.3. Как там-показано, он приводит к следующим результатам: с одной стороны, к некоторому уве- увеличению наблюдаемого значения нормированной суммы квад- квадратов отклонений Д„, но одновременно к уменьшению средне- квадратического отклонения от соответствующих истинных значений параметров и к уменьшению средней ошибки прогноза для векторов X*> не входящих в матрицу плана X (т. е. в обу- обучающую выборку, см. п. 11.3). Последнего можно достичь и при отборе существенных переменных в исходном пространст- пространстве (опять-таки за счет увеличения нормированной суммы квад- квадратов отклонений на обучающей выборке). Фактически отбор переменных означает, что исходное множество из р переменных делится на два подмножества X (р—q) и X (q), состоящих из таких р — q и q переменных, что коэффициенты регрессии при р — q переменных, входящих в первое подмножество, по- полагаются равными нулю, а коэффициенты при q переменных из второго подмножества оцениваются по мнк (по окончании про- процедуры отбора для оценки можно использовать и методы, изло- изложенные в § 8.2—8.5). В предположении, что матрица данных X является неслу- неслучайной, возможны две точки зрения на оценку уравнения рег- регрессии, полученную после отбора существенных предсказы- предсказывающих переменных. 280
Первая точка зрения исходит из того, что модель регрессии (8.1) является истинной, и несмещенная оценка коэффициен- коэффициентов регрессии получается мнк путем решения системы уравне- уравнений (8.3) (в условиях мультиколлинеарности эта оценка может быть неудовлетворительной, но тем не менее несмещенной). Тогда принудительное приравнивание части коэффициентов регрессионного уравнения к 0, что и происходит при отборе переменных, естественно, приводит, если матрица S недиаго- йальна, к смещенным оценкам коэффициентов при оставшихся переменных, т. е. мы приходим к классу смещенных оценок, рассмотренных в § 8.3. С другой стороны, процесс отбора существенных перемен- переменных можно рассматривать как процесс выбора истинной моде- модели из множества возможных линейных моделей, которые могут быть построены с помощью набора предсказывающих перемен- переменных, и тогда полученные после отбора оценки коэффициентов можно рассматривать как несмещенные, хотя сама процедура отбора вводит некоторое смещение [931. Этой точки зрения мы будем придерживаться далее. Для случая, когда переменные хA),..., х(;;), у — случайные величины, вопрос о правильности (истинности) модели не воз- возникает. Все, что мы ищем в этом случае,— это модель, сохраня- сохраняющую ошибку предсказания на разумном уровне, при ограни- ограниченном количестве переменных. 8.7.2. Критерии качества уравнения регрессии. Любой алго- алгоритм отбора существенных регрессоров выполняет следующую последовательность действий: генерацию подмножеств переменных; сравнение этих подмножеств по некоторому критерию каче- качества уравнения регрессии, построенного по этим пере- переменным; проверку конца генерации (остановки алгоритма). Рассмотрим наиболее употребительные критерии качества уравнения регрессии. Почти все они основаны на измерении средней величины ошибки прогноза, на векторах X, не вошед- вошедших в обучающую выборку (матрицу данных X), при тех или иных предположениях о распределении или способе формиро- формирования этих векторов. !. Коэффициент детерминации (квадрат коэффициента мно- множественной корреляции) х ¦=- 281
Максимизация Ry x эквивалентна минимизации нормиро- нормированной остаточной суммы квадратов Лп. В этом смысле Ry х можно рассматривать как меру согласия модели с данными. Однако, поскольку в выражение для Ry.x входит и дисперсия переменной уу при анализе двух различных совокупностей дан- данных (матриц (X, Y)) может иметь место ситуация, когда одна из регрессий имеет меньшее значение Д„ и в то же время мень- меньшее значение Ry.x за счет увеличения дисперсии <згу. В случаях задачи отбора переменных это обстоятельство можно не учи- учитывать, поскольку матрица данных не меняется и Ry.x мож- можно рассматривать как относительную меру качества уравнения регрессии. Недостаток Ry.x как критерия качества уравнения регрес- регрессии состоит в том, что значение коэффициента детерминации не убывает (по крайней мере) с ростом числа предсказывающих переменных, входящих в модель. Таким образом, модели, в ко- которых больше переменных, будут более предпочтительными, ес- если для сравнения использовать R*y.x> Однако для сравнения уравнений регрессии с одинаковым числом зависимых перемен- переменных величина R%.x является вполне подходящей. Некоторые из перечисленных ниже критериев являются монотонными функциями от Щ. х, которые в то же время зависят от числа включенных в модель регрессоров q и объема выборки п и мо- гут убывать с ростом Ry. x. 2. Скорректированный коэффициент детерминации. Чтобы ввести скорректированный коэффициент детерминации, вспомним, что при п -*¦ оо имеет место равенство а2 = = сг2 A — Ry-x(q)) или Rl-xiq) = 1 — а2/<т?. Для конечного объема обучающей выборки несмещенной оценкой для а2 яв- является величина s2 = An l(n — q — 1) (q — число регрессоров в модели), а для а% — величина Определим теперь скорректированный коэффициент детер- детерминации из равенства 7?J.x^> = 1 — s2/ol. После несложных преобразований получаем связь между обычным и скорректи- скорректированным коэффициентами детерминации: <,>т^ (<«) (8-69) 282
В отличие от обычного скорректированный коэффициент дерерминации может уменьшаться с ростом числа предсказы- предсказывающих переменных q, если в результате введения дополнитель- ной переменной изменение 1 — Ry-x{q) оказывается недоста- недостаточным для компенсации увеличения отношения (п — 1)/ l(n — q—1). В отличие от обычного коэффициента детерминации скор- скорректированный уменьшается с ростом числа предсказываю- предсказывающих переменных qy если в результате введения дополнитель- дополнительной переменной изменение 1 — Rl.x(q) оказывается недоста- недостаточным для компенсации увеличения отношения (п — 1)/ l(n-q~- 1). 3. Статистика Мэллоуза Ся. В [225] предложено использо- использовать так называемую Ся статистику как меру качества уравне- уравнения регрессии с q предсказывающими переменными. В приня- принятых здесь обозначениях (8.70) l~Ry.X (p) 4. Средний квадрат ошибки предсказания СКОП. Этот критерий предлагается в [24] (см. также [164, 42, 52]). При вве- введении этого критерия предполагается, что переменные (у, хA), ..., х^) являются случайными величинами и имеют в совокуп- совокупности (р + 1) -мерное распределение. Таким образом, мат- матрица данных (X, Y) представляет собой выборку объема п из (р + 1)-мерного нормального распределения. Пусть теперь y{q) (X) = 'у + в'(?) (X(q)—X (q)) — функция регрессии, основанная на q из р возможных предсказыва- ющих переменных, и в (q) — мнк-оценка вектора регресси- регрессионных коэффициентов для набора из q переменных, X (q)— ^-мерный вектор средних значений для переменных х^\ принадлежащих набору X (q). Пусть теперь уравнение рег- регрессии используется для предсказания значения переменной у для некоторого нового случайного вектора X*. Величина СКОП определяется как СКРП(„ = Е^(ч)(Х*)-у*Г, где математическое ожидание берется по всем случайным пере- переменным, в том числе и по «новому» наблюдению X*. Если ис- использовать понятия обучающей и контрольной выборки, то можно- сказать, что СКОП определяет среднюю квадратичес- кую ошибку прогноза на контрольной выборке. 283
В 1251) показано, что где К (л, q) - (п2 — п — 2)/(л (л — ? — 2)), л X/ + 2 и а^.х(<7) — условная дисперсия (/ относительно q переменных, входящих в уравнение регрессии. При применении этого кри- критерия неизвестное значение дисперсии oly X(q) заменяете** ее оценкой максимального правдоподобия: °1х(д) =(п— l)sl(l— Rl.x(q))/(n — q — 1). Окончательно используемая как критерий оценка имеет вид -^^ . (8.71) q2) 5. Несмещенная оценка коэффициента множественной кор- корреляции. Если переменные (у, л;<1\..., х^р)) имеют в совокуп- совокупности многомерное нормальное распределение, то оценка квад- квадрата коэффициента множественной корреляции Ry.x(q) явля- является смещенной. Несмещенная оценка (с точностью до членов О A/я2)) определяется с помощью выражения (q) = Ky.X (q) n — q— 1 \2 (8.72) Эта величина также может быть использована как критерий качества уравнения регрессии. 8.7.3. Схемы генерации наборов переменных. Когда критерий качества набора предсказывающих переменных фиксирован для выбора оптимального или хотя бы «хорошего» набора, не- необходимо провести сравнение достаточно большого числа раз- различных наборов переменных и выбрать среди них наилучший. Рассмотрим некоторые схемы генерации наборов, применяю- применяющиеся в настоящее время. Схемы полного перебора («всех возможных регрессий», метод «ветвей и границ» ). Задачу полного перебора можно сформулировать следующим образом: для ^ = 1, ..., р — i найти набор из q предсказывающих переменных с минималь- минимальным значением остаточной суммы квадратов Ax(?) или, что эквивалентно, с максимальным значением коэффициента де- детерминации Ry.x(q)- Так как критерии, приведенные в 284
П. 8.7.2, ЯВЛЯЮТСЯ МОНОТОННЫМИ фуНКЦИЯМИ ОТ Rl.X{q)± ТО этот набор будет оптимальным и по любому из них. Число различных подмножеств из q переменных, если всего имеется р переменных, будет равно Cq (числу сочетаний по q элемен- элементов из р возможных), а полное число наборов при изменении q от 1 до р будет 2р. Ясно, что это число очень быстро растет с ростом р. Так, при р = 20 оно будет примерно 10е, а при р = 30 — 109. Все же на современных ЭВМ возможна реали- реализация полного перебора для значений р порядка 15. В связи с необходимостью просмотра большого числа регрессионных моделей особенно важное значение приобрета- приобретает использование экономных (в смысле количества машинных операций) методов расчета значений критерия и коэффициен- коэффициентов для соответствующих регрессионных моделей. Поэтому процедура генерации последовательности наборов перемен- переменных должна удовлетворять двум требованиям. Во-первых, переход от набора к набору должен осуществляться путем добавления или отбрасывания только одной переменной, что позволяет использовать экономные схемы пересчета значений критерия (см. п. 8.7.4) вместо полного решения соответствую- соответствующей новой задачи регрессии. Среднее число операций для прямого расчета регрессии с q переменными имеет порядок д3, а формулы пересчета уменьшают среднее число операций до порядка q2. В [189] предложена еще более эффективная процедура пе- пересчета, позволяющая сократить число операций до порядка <7, если требуется вычисление коэффициентов регрессии, и 6, если вычисляется только величина R% x(q)- При этом, одна- однако, требуется дополнительная память для размещения р ма- матриц размера р X р. Второе требование состоит в том, чтобы любой набор гене- генерировался только один раз. Описания процедур генерации, удовлетворяющих этим требованиям, приведены в [189, 191, 2481. Если в качестве основного лимитирующего фактора принять время вычислений, то наилучшим из алгоритмов полного перебора в настоящее время следует признать алго- алгоритм Фёрнивала, предложенный в [189]. Объем вычислений при прямом переборе с ростом р растет настолько быстро, что уже при р ^ 20 превышает реальные возможности большинства ЭВМ. Выход из положения ищут с помощью методов ветвей и границ. Смысл этого метода за- заключается во введении какого-либо грубого правила, кото- которое позволяет отбросить большинство наборов, не вычисляя для них значения критерия в силу их бесперспективности. Такое правило может быть ' основано на неравенстве 285
^ий^() где X (А) — любой набор предсказываю щих переменных, а X (В) — его подмножество. Другими сло- словами, при исключении из регрессии каких-либо переменных значение R%.x(t) может только убывать. Пусть теперь мы знаем некоторую оценку снизу Rg для оптимального значения q)- Если для какого-либо набора X (/) /??.*</> < Rg и / , то, очевидно, все поднаборы размерности qy получен- полученные из X (у), являются бесперспективными и могут не рас- рассматриваться. Использование методов ветвей и границ позволяет рас- рассматривать задачи ср« 50—70. Наиболее эффективной яв- является реализация алгоритма, предложенная в работе Фёр- нивала [190]. Подробное описание одного из алгоритмов, реализующего метод «ветвей и границ», — алгоритма Хокин- га—Лесли [206] на русском языке приведено в [79]. 8.7.4. Пошаговые процедуры генерации наборов. Существен- Существенного сокращения числа генерируемых для сравнения наборов предсказывающих переменных можно добиться с помощью пошаговых (STEP—WISE) процедур отбора переменных. Хотя ни одна из пошаговых процедур не гарантирует получе- получения оптимального по заданному критерию набора переменных (соответствующие примеры приведены, например, в [226, 205, 79]), все же обычно получаемые с их помощью наборы переменных являются достаточно хорошими для практичес- практического применения. Кроме того, возможны простые модифика- модификации традиционных пошаговых схем, которые позволяют прео- преодолеть ряд присущих им недостатков. Основными пошаговыми процедурами генерации наборов являются процедура последовательного присоединения, про- процедура присоединения-удаления и процедура последовательного удаления. Рассмотрим один из возможных способов организации вы- вычислений в пошаговой процедуре последовательного присое- присоединения. На первом шаге из исходного набора предсказывающих пе- переменных X (р) — (хA), ..., х(р)) выбирается переменная х{'и\ имеющая максимальное значение квадрата коэффициента пар- парной корреляции с уу т. е. /i—-argmaxrj (Л). i < к < р ух Признак *(ь> составляет информативный набор предска- предсказывающих переменных X A). Применяя теперь к матрице А 286
прямой оператор симметричного выметания Wjt (см. п. 8.7.5), получим матрицу Ах и переходим ко второму шагу. Второй шаг состоит в следующем. Пусть уже построен информативный набор из q предсказывающих переменных X (q) = (x(/l\ ..., хия}); пусть Aq — матрица, полученная из исходной матрицы А путем применения оператора выметания по переменным из X (q). Ищем переменную jt^Vf-O^ имеющую максимальное значение квадрата коэффициента частной кор- корреляции с у при фиксированных переменных из X (q): К(, (X <«)>)¦ При этом как кандидаты на присоединение к набору X(q) используются лишь переменные, для которых вычисляется условие (см. п. 8.7.5) 1 — Rl(k).x<q) >тш>р- Если таких пере- переменных не окажется, то работа алгоритма (отбор переменных) прекращается. Отбор переменной jt(/<?+l) из условия максимума квадрата частного коэффициента корреляции эквивалентен ее выбору из условия максимума коэффициента множественной корре- корреляции между у и набором X (q + 1) = X (q) © хия+1\ так как имеет место тождество (см., например, [24, п. 3.2.4]) После определения переменной х(/<7+1) проверяется условие остановки процедуры отбора. Основные из используемых условий остановки следующие: а) процедура останавливается, если отобрано заданное пользователем количество переменных &, т. е. если q + 1 = = k. При этом переменная x(/9+i) присоединяется к набору X (q), а к матрице Aq применяется оператор выметания по переменной jt(/'g+i); б) проверяется гипотеза Ни : г? + 1 = rlx(iq+i) iX{q)) = 0, для чего вычисляется значение /^-статистики Если величина Fg+1 < FWJl9 где FBHJI — некоторая зара- заранее заданная величина, то переменная j^'g+i) не присоединя- присоединяется к набору X {q)y который и считается результатом работы алгоритма. 287
Используемая статистика Fq+1 формально совпадает со статистикой для проверки значимости соответствующего рег- регрессионного коэффициента в обычной задаче регрессии. Поэ- Поэтому в качестве значения для FBKJ1, как правило, выбирают классические уровни §1начимости E, 10, 15%), соответствую- соответствующие F-распределению с 1 и (n — q — 2) степенями свободы. Однако величина Fg+X в пошаговой процедуре на самом деле не подчиняется /^распределению с соответствующим числом степеней свободы, поскольку проверяется гипотеза о равенст- равенстве нулю максимального по абсолютной величине коэффициен- коэффициента частной корреляции из р-—.q коэффициентов частной кор- корреляции для переменных, не входящих в X {q). Неизвестно поэтому, какому уровню значимости соответствует выбранное значение; в) процедура останавливается, если достигнуто макси- максимальное (минимальное) значение критерия качества набора переменных. Пусть Кг^— текущее значение какого-либо из критериев п. 8.7.2. Тогда процедура останавливается, если выполняются условия Kq < Kq+i для критериев (8.69), (8.72) или Кд >/Сд+хДля критериев (8.70), (8.71). Результирующим считается набор X (q). Можно показать, что правило остановки по текущему зна- значению критерия эквивалентно правилу остановки по значению F-статистики при некоторой величине Ръкл. О других спосо- способах использования критериев в правилах остановки см. в [1641. Если условие остановки не выполняется, то к матрице Ад применяется оператор прямого выметания по переменной Jt(/Vn\ и путем включения вХ (q) переменной ^('д+О форми- формируется новый текущий информативный набор X (q + 1). За- Затем второй шаг повторяется для набора X(q+\). Пошаговая процедура последовательного присоединения- удаления переменных (обычно именуемая в литературе просто как процедура последовательного присоединения) была впер- впервые предложена в [180]. Приводимое ниже описание процеду- процедуры имеет некоторые отличия от исходной процедуры Эфро- имсона. Формирование информативного набора переменных в этой процедуре организовано следующим образом. Первый шаг совпадает с первым шагом процедуры после- последовательного присоединения. На втором шаге, начиная с q = 3, перед поиском присое- присоединяемой переменной хия+1} добавляется подшаг поиска пере- переменной х<1\ которую целесообразно удалить из текущего на- набора X (q). Для этого определяется переменная х<1) 6 X (<$f ?88
удаление которой приводит к минимальному уменьшению коэффициента детерминации, т. е. / = argmin (R2y.x w—'rS.x^ <«-n), *(*) ex (g) где X-k (q — 1) — набор X (q) с удаленной переменной x^k>. После определения номера / целесообразность удаления пе- переменной х^ обычно проверяется на основе сравнения ^-СТаТИСТИКИ ДЛЯ ПрОВерКИ ГИПОТеЗЫ Но I Ry.X(q) = Ry X^iq-i) или эквивалентной ей гипотезы о коэффициенте частной кор- корреляции #0 : ryx(i){X (<7_1}) = 0 с некоторым заранее заданным пороговым значением /искл. Обычно выбирают значение ^искл >^вкл (так чтобы исключить переменные из набора было труднее, чем добавлять) соответственно 2%-, 1%-, 0,5%- ному уровням значимости при /-распределении с 1 и (п—q—2) степенями свободы. На самом деле по тем же причинам, что и при присоединении переменных, величина /-статистики при удалении переменных не подчиняется /-распределению, и точный уровень значимости неизвестен. Другой способ определения целесообразности удаления переменной х^ основан на проверке «улучшения» качества набора по какому-либо из критериев качества п. 8.7.2. Если качество набора «улучшается», то переменная уда- удаляется. При удалении переменной х(/) из X (q) к матрице Aq применяется оператор обратного выметания О\. После фазы удаления переменной проводится фаза расширения набора (X (q), если не было удаления, и Х_/ (q — 1), если была уда- удалена переменная хЩ, точно так же, как и в процедуре после- последовательного присоединения. Остановка процедуры присое- присоединения-удаления проводится по тем же правилам, что и ос- остановка процедуры последовательного присоединения. Пошаговая процедура последовательного удаления (исклю- (исключения). Перед началом работы процедуры необходимо по- получить матрицу Ар. Именно она теперь является той исходной матрицей, к которой применяется последовательность опера- операторов выметания Wht Uk. Для этого необходимо вычислить Кх\в(Х(р))=Ъ и Rl.X(p). Первый шаг процедуры последовательного удаления сос- состоит в определении такой переменной a:(/i), удаление которой из исходного набора X (р) приводит к минимальному увели- чению остаточной суммы квадратов Дл или, что эквивалентно, к минимальному уменьшению коэффициента детерминации. Величина изменения коэффициента детерминации проверяется Ю Зак. 244 289
на значимость таким же образом, как и в фазе удаления про- процедуры последовательного присоединения (q при этом заме- заменяется на р). Можно также проверять «улучшение» качества набора по какому-либо из критериев. Если значение .F-ста- тистики превышает значение ^удал или если произошло «улучшение» качества набора переменных, то формируется набор X (р — 1) с удаленной переменной x{ii\ а к матрице Ар применяется оператор обратного выметания Uix. Второй шаг состоит в следующем. Пусть X (q) — текущий информативный набор, полученный в результате удаления (Р — Я) переменных, и Aq— матрица, полученная из Арпри- менением к ней (р — q) операторов обратного выметания. В наборе X (q) ищем переменную х^1я\ удаление которой из X (q) приводит к минимальному уменьшению коэффициента множественной детерминации. Затем проверяется условие остановки. Могут быть использованы следующие условия остановки: а) получение набора с заданным количеством к предиктор- ных переменных, т. е. проверяется условие & = q— 1; б) превышение порогового значения F11CKJ1 величиной ^-статистики для проверки гипотезы Яо : Ry.xu) = Ry.x{q-i)l в) отсутствие «улучшения» качества набора по какому-либо из критериев п. 8.7.2. По поводу других правил остановки см. [24, п. 3.3.2]. Если выполняются условия остановки б) и в), информа- информативным набором при выходе из процедуры считается набор X (q), а при выполнении условия а) выходным будет набор X (q — 1), получаемый из X (q) удалением переменной х^1я\ и к матрице Aq применяется оператор ?А . Если остановки процедуры не происходит, то текущим ин- информативным набором становится набор X (q — 1), к матрице kq применяется оператор выметания Ui . После этого второй шаг повторяется в применении к набору X (q — 1). Рассмотрим теперь один экономичный по количеству вы- вычислений способ определения удаляемой переменной х^1\ Он может быть использован и в фазе удаления переменной для процедуры присоединения-удаления. Пусть 9; (X (q)) (i = 1, q) — оценка коэффициента урав- уравнения регрессии у для переменной xifi) 6 X (q). Эти коэффи- коэффициенты являются соответствующими элементами матрицы Aqy и, следовательно, проводить дополнительных вычислений не нужно. Предлагаемый метод расчета основан на следующем равенстве. Если из набора X (q) удаляется переменная x(JkK 290
то где a/ft/ft — элемент обратной матрицы корреляции для пере- переменной из X (q)\ X_fe (q — \) — набор переменных, получен- полученный из X (q) при удалении x(Jk\ Значение величины dh'h также может быть извлечено из матрицы Aq. Напомним, что рассматриваемое равенство относится к нормированным пе- переменным. Переменная, подлежащая удалению, определяется как = argmin Д/??. xfheX (q) 8.7.5. Оператор симметричного выметания. С вычислительной точки зрения пошаговые процедуры последовательного при- присоединения и присоединения-удаления удобно реализовать как. последовательность операций выметания, примененных к ис- исходной расширенной корреляционной матрице А размера (р + 1) (р + 1), которую можно представить в виде сле- следующей блочной матрицы A = уХ] У где Rx — матрица коэффициентов корреляции между предска- предсказывающими переменными порядка р X р\ туХ — р-мерный вектор коэффициентов корреляции независимой переменной у с предсказывающими переменными. Таким образом, при отборе переменных мы фактически переходим к нормирован- нормированным предсказывающим переменным и у. Рассматриваемый ниже оператор симметричного вымета- выметания предложен в [162, 191, 119 п. 12.2]. Будем различать опе- оператор прямого выметания Wk по переменной х (fe) (это соответ- соответствует расширению текущего набора за счет включения пере- переменной л:(/г)) и оператор обратного выметания Uh по перемен- переменной х{к) (что соответствует удалению переменной х(/г> из те- текущего набора). Действие оператора выметания на матрицу А состоит в пересчете ее элементов по одной из следующих схем: для оператора прямого выметания ik — 1/#/?/{; IOB HOB i HOB r • • i i 1 • * * / U\* 10* 291
для оператора обратного выметания ов • , k — —l/ahh, Uh (A) = аТ - аТс = -aik al? (t - 1, /> + 1; i =? k); а1Г = Щ?в = au-aih at?" (i, j = 1, p + 1; i, j Ф k). Операторы выметания Wh, Uh обладают следующими важ- важными свойствами: а) обратимость б) коммутативность Эти свойства легко интерпретируются в терминах включе- включения и исключения переменных л'и) и х(/) в текущий набор; в) оба оператора сохраняют симметрию матрицы А. Бла- Благодаря свойству в) при вычислениях необходимо использовать только верхний треугольник матрицы А, что позволяет вдвое сократить необходимую память и объем вычислений. Предположим, что в результате работы какой-либо про- процедуры отбора получен информативный набор X (q) из q пред- предсказывающих переменных и при этом применялся пересчет элементов матрицы А с помощью соответствующей последо- последовательности операторов выметания Whi Uh. Для упрощения обозначений будем считать, что в набор X (q) включены q пер- первых переменных хA), ..., ,v(<?> (этого всегда можно добиться перенумерацией переменных из X). Тогда результирующая матрица А^ будет иметь следующую структуру: А„= - I Rx\q) I L -B'(X(?))I i — i -B(Xfo)> Cx (p-q) (X G)) -в(Х(,)) CyX (p-q) (X (q) где Rxlq) — матрица размера q X q, обратная к матрице кор- корреляций переменных из X (q)\ Cx(P~q)(x(q)) — матрица раз- размера (р — q) X (р — q) частных ковариаций нормированных переменных X (р — q) = (x{q + l), ...,x(p)), не включенных в 292
информативный набор; В (X (q)) — матрица размера q X X (р—q), компоненты /-го столбца которой представляют собой коэффициенты регрессии нормированной переменной xiq + n 6 X (р — q) на нормированные переменные из X (q)\ 0 (X (q)) — ^-мерный вектор коэффициентов регрессии нор- нормированной переменной у на нормированные переменные из X(q)\ CyX(p~q) (X(q) — (р — ^-мерный вектор частных коэф- коэффициентов ковариаций нормированных переменных из X (р — q) с у\ R2y.x{q))— квадрат коэффициента множествен- множественной корреляции между переменной у и предсказывающими переменными из X (q). Таким образом, матрица Aq содержит полное решение за- задачи регрессии независимой переменной у на переменные из X (q) за исключением значения свободного члена. Из нее также легко извлечь частные коэффициенты корреляции переменных rtx(Q+ihx( )) с У* не°бходимые для продолжения пошаговых процедур. Именно СХ /\\ l-~CX (p-q) (X {q)) V \ ~~ %l. X (q) X (p-q) iX(q)) где c}/x(i)-q)X(q) — '-и элемент вектора частных ковариаций; cx{p-q)(X(q)) — диагональный элемент (остаточная дисперсия нормированной переменной x((J+i)) матрицы частных ковариа- ковариаций Cx(p-q){X{q))' Зная значение Ry.x{q), легко вычислить и значения кри- критериев качества уравнения регрессии, приведенных в п. 8.7.2. Диагональные элементы матрицы частных ковариаций Cx(P-q)(X(q)) представляют собой остаточные дисперсии норми- нормированных переменных x{q+i) 6 X (р — q) относительно пере- переменных из X (<7) и могут быть записаны в виде Т/ = CX(p-q) (X (q)) "¦= 1 — Rx<1 + О . х (q)' В условиях мультиколлинеарности значения Rl{q+i).x(q) для некоторых переменных л;<?+'> могут быть очень близки к'1. При попытке добавить такую переменную в информатив- информативный набор необходимо использовать величину, обратную к ть что при чрезмерной малости последней может привести к вычислительным трудностям. Поэтому целесообразно ввести пороговое значение, которое запретило бы использовать пере- переменную л:<'7+/), если соответствующее значение тг- будет мень- 293
ше порогового, т. е. если выполнится неравенство xt < тпор, то переменная х(<7+'> не будет использоваться для расширения набора X (q). Если же это неравенство выполняется для всех переменных из X (р — q), то отбор переменных следует счи- считать оконченным. 8,7.6. Методические аспекты использования процедур отбора существенных предикторных переменных. Когда число потен- потенциальных переменных велико, формальное применение любой из рассмотренных процедур отбора может привести к неудов- неудовлетворительному с содержательной точки зрения набору пре- предикторных переменных. Рассмотрим некоторые методические приемы, позволяющие увеличить эффективность применения пошаговых процедур отбора. 1. Повторное применение процедур отбора с принудитель- принудительно включаемыми переменными (ПВП). Возможность принуди- принудительного (обязательного) включения переменных в выходной набор X (q) достигается достаточно простой модификацией описанных пошаговых процедур, а также методов «всех рег- регрессий» и «ветвей и границ». При использовании ПВП в процедурах последовательного присоединения и присоединения-удаления формирование вы- выходного информативного набора происходит путем расшире- расширения начального набора, состоящего из ПВП, а для процедуры последовательного удаления переменная, удаляемая на ка- каком-либо шаге, не должна входить в число ПВП. Если имеется возможность использовать ПВП, целесооб- целесообразно провести, помимо автоматизированного отбора, также и несколько вариантов отбора с различными ПВП. Оконча- Окончательный набор получится в результате сравнения найденных наборов. Состав ПВП определяется, например, из эксперт- экспертных соображений. Другой возможный подход к формирова- формированию ПВП основан на анализе графика какого-либо из крите- критериев качества набора, выводимого при работе пошаговых про- процедур. С этой целью отбор переменных целесообразно прово- проводить по возможности до исчерпания всего исходного множест- множества потенциальных переменных с одновременным выводом на каждом шаге значений коэффициентов детерминации и крите- критериев качества набора. Такой режим легко осуществить, если в процедуре предусмотрено условие остановки по достижении определенного числа k переменных в выходном наборе. Тог- Тогда, например, для процедур прямого присоединения и присое- присоединения-удаления достаточно положить k = р. В случае ус- условия остановки, управляемого величиной Fmjl, увеличения числа отбираемых переменных можно добиться, уменьшая 294
значение FBKJ1, полагая его равным 20% или даже 30% уров- уровню значимости. На рис. 8.1 приведены два графика критерия качества на- набора для процедуры последовательного присоединения (зна- (значения критерия качества определены лишь в целых точках, однако для наглядности они соединены линией). Кривая I отражает случай, наиболее часто возникающий при отборе переменных: сначала монотонное возрастание величины кри- критерия качества, а затем ее монотонное убывание. Набор, со- 0,5 Число переменных 6 наборе Рис. 8.1. Варианты зависимости несмещенной оценки коэффи- коэффициента множественной корреляции (Ry.X(q)) от количества переменных для пошаговой процедуры последовательного присоединения ответствующий точке максимума, или какой-либо набор в ближайшей (плюс—минус одна-две переменные) его окрест- окрестности, является искомым информативным набором. Кривая II представляет потенциально более интересный случай от- отбора: после достижения локального минимума кривая вновь начинает возрастать, и величина критерия качества даже пре- превосходит первый максимум. В этом случае целесообразно ис- исследовать следующие вопросы: добавление какой переменной изменило ход графика? пусть это переменная х^'О, тогда сочетание каких пере- переменных из X— / (/ п и x^l) привело к скачку критерия ка- качества? В первую очередь подозрительна переменная *</i-i>. Затем необходимо провести отбор переменных с принудитель- принудительным включением переменных х{'1\ х^1-^ и других переменных, обусловивших изменение хода графика (такой отбор может также использоваться и для получения ответа на второй во- 295
прос, если, кроме xill~l\ в изменении хода графика «виновны» еще и другие переменные из X-jt (/ — 1)). 2. Экспертное упорядочение переменных по степени их информативности. Для успешного применения процедур от- отбора, в особенности когда переменных много, важную роль играет априорная (экспертная) оценка значимости потенци- потенциальных переменных для рассматриваемой задачи [2, 3, 93]. Например, источником для такой априорной оценки могут быть, во-первых, содержательные соображения об исследуе- исследуемом явлении и, во-вторых, задачи-аналоги, с которыми уже имел дело исследователь. Во всяком случае полезно разделить имеющиеся переменные на три группы ([93, гл. 15]): 1) ключевые—переменные, о которых известно, что они оказы- оказывают существенное влияние на зависимую переменную у\ все или некоторые из этих переменных могут быть по требованию исследователя включены в выходной набор в принудительном порядке; 2) потенциально информативные — переменные, возможность влияния которых на зависимую переменную у представляется достаточно обоснованной; 3) «шумовые» — пе- переменные, влияние которых на переменную представляет- представляется маловероятным. После сортировки переменных отбор производится сле- следующим образом. На первом этапе задача регрессии решается в пространстве ключевых переменных. Проводится анализ точности и адек- адекватности соответствующей линейной модели (см. гл. 11). Если не все из ключевых переменных необходимо в принудитель- принудительном порядке включить в итоговую модель, то можно попытать- попытаться сократить их число, применяя тот или иной пошаговый алгоритм. При этом переменные, не вошедшие в информатив- информативный набор, переводятся ь группу потенциально информатив- информативных переменных. Второй этап проводится, если качество регрессионного уравнения, оцененного на первом этапе, является неудовлет- неудовлетворительным. На этом этапе осуществляется отбор перемен- переменных из множества, полученного объединением ключевых и потенциально информативных переменных. Переменные, отобранные на первом этапе, включаются в выходной набор в обязательном порядке. Переменные, не вошедшие в информа- информативный набор на втором этапе, переводятся в группу «шумо- «шумовых». Если первые два этапа не привели к удовлетворитель- удовлетворительному результату, проводится отбор среди «шумовых» пере- переменных с принудительным включением переменных, отобран- отобранных на первом и втором этапах. 296
выводы 1. При практическом применении мнк-оценок исследователь часто сталкивается с явлением мультиколлинеарности, когда объясняющие переменные сильно коррелированы, т. е. су- существуют выраженные, хотя и неточные, линейные связи меж- между несколькими или всеми объясняющими переменными. В этой ситуации точность обычных мнк-оценок резко падает: ошибки некоторых параметров уравнения регрессии становят- становятся очень большими, эти ошибки сильно скоррелированы, вы- выборочные дисперсии резко возрастают. Резко сокращаются возможности интерпретации уравнения регрессии. Степень мультиколлинеарности измеряется либо обратной величиной минимального собственного числа нормированной (корреля- (корреляционной) матрицы, либо числом обусловленности, равным от- отношению максимального собственного числа к минимальному. Если минимальное собственное число равно нулю, то степень мультиколлинеарности и число обусловленности являются бесконечно большими, и мы имеем дело с точной мультикол- линеарностью или вырожденной системой линейных уравнений. 2. Оценивание параметров уравнения регрессии в случае сильной мультиколлинеарности основано на различных ме- методах регуляризации задачи — модификациях регрессии на главные компоненты, гребневых и редуцированных оценках. Со статистической точки зрения получаемые оценки являются, в отличие от мнк-оценок, смещенными. Однако они обладают рядом оптимальных свойств, в частности обеспечивают лучшие прогностические свойства оцененного уравнения регрессии на объектах, не вошедших в обучающую выборку. 3. Одним из методов получения оценок параметров уравнения регрессии при мультиколлинеарности является отбор сущест- существенных (информативных) объясняющих переменных. Сущест- Существует ряд мер качества набора переменных, которые исполь- используются алгоритмами отбора. Все они являются функциями от коэффициента детермина