Текст
                    ПРИКЛАДНАЯ
СТАТИСТИКА
СА.Айвазяв
* В.МБухшгабер
Т И.С.Енююв
Л.Д.Мешалкив
КЛАССИФИКАЦИЯ
И СНИЖЕНИЕ
РАЗМЕРНОСТИ


S.A.Aivazyan V M.Buchstaber I.S.Yenyukov L.D.Meshalkin APPLIED STATISTICS ¦ CLASSIFICATION AND REDUCTION OF DIMENSIONALITY Reference edition Edited by prof. S.A.Aivazyan Finansy i statistika Moscow 1989
С.А.Айвазян В. М. Бухштабер И.С.Енюков Л. Д. Мешалкин ПРИКЛАДНАЯ СТАТИСТИКА КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ Справочное издание I Год редакцией проф. С.А.Айвазяна МОСКВА "ФИНАНСЫ И СТАТИСТИКА" 1989
ББК 22.172' П75§ Рецензенты: Б. Г. Миркин, Е. Г. Ясин Прикладная статистика: Классификации и сни- П75 жение размерности: Справ, изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин; Под ред. С. А. Айвазяна.— М.: Финансы и статисти- статистика, 1989.— 607 с: ил. ISBN 5—279—00054—X. Книга логически завершает справочные издания «При- «Прикладная статистика: Основы моделирования и первичная об- обработка данных» A983 г.) и «Прикладная статистика: Иссле- Исследование зависимостей» A985 г.). Рассматриваются задачи классификации объектов, снижения размерности Большое внимание уделяется разведочному статистическому аиализ>. Для специалистов, применяющих методы анализа данных 1702060000—036 П 100—88 010@1)—89 ISBN 5—279—00054—X ББК 22.172 © Издательство сФинансы и статистика», 1989
ПРЕДИСЛОВИЕ Данная книга является третьей в трехтомном справоч- справочном издании, задуманном и реализуемом нашим автор- авторским коллективом. В первом томе (Айвазян С. А., Еню- ковИ. С, Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. — М.: финансы и статистика, 1983. — 472 с.) дается, в частности, определение прикладной статистики (см. с. 19) как само- самостоятельной научной дисциплины, разрабатывающей и си- систематизирующей понятия, приемы, математические мето- методы и модели, предназначенные для организации сбора, стан- стандартной записи, систематизации и обработки статистиче- статистических данных с целью их удобного представления, интерпре- интерпретации и получения научных и практических выводов. Вто- Второй том (Айвазян С. А., Енюков И. С, Мешалкин Л. Д. Прикладная статистика: Исследование зависимостей. — М.: Финансы и статистика, 1985.—488 с.) посвящен описанию методов анализа структуры, тесноты и конкретного вида статистических связей между исследуемыми признаками разной природы — количественными, ординальными, но- номинальными (категоризованными), а также обзору програм- программного обеспечения этих методов. В числе описанных мето- методов — корреляционный, регрессионный, дисперсионный, ковариационный анализ, элементы анализа временных ря- рядов и систем одновременных эконометрических уравнений. При минимальной вероятностно-статистической подго- подготовке читателя, обеспечиваемой, например, обычным веро- вероятностно-статистическим курсом экономического или техни- технического вуза, данный (третий) том пригоден для полностью автономного чтения (т.е. ег'о понимание не требует знания каких-либо специальных сведений, содержащихся в первых двух томах). Он посвящен актуальнейшим аспектам общей проблемы статистического анализа данных — задачам клас- классификации объектов, снижения размерности исследуемого признакового пространства и статистическим методам их
решения. Лишь в последние два-три десятилетия, когда оп- определенного уровня достигли вычислительная база иссле- исследований и теоретические разработки многомерного статис- статистического анализа, главной проблемой теории и практики классификации и снижения размерности стало развитие достаточно изощренного и эффективного в приложениях математического аппарата. На этом пути уже имеются серь- серьезные достижения, однако до сих пор в отечественной, да пожалуй, и в мировой специальной литературе не было из- издания, в котором эти достижения были бы достаточно пол- полно просистематизированы, выстроены в общую методологи- методологическую схему, снабжены необходимыми практическими ре- рекомендациями (включая вопросы преодоления вычислитель- вычислительных трудностей и использования подходящего типового программного обеспечения). Авторы предлагаемой вниманию читателей книги стави- ставили перед собой именно такую целевую установку. При этом изложение построено таким образом, что уже знакомство с «Введением» должно позволить читателю составить доста- достаточно ясное представление о сущности, роли и назначении статистических методов классификации и снижения размер- размерности, понять их разноаспектную типологизацию, узнать о содержании и логических связях всех частей книги (вклю- (включая основные постановки задач и «адреса» их решений в кни- книге). Следует отметить в общем замысле и в содержании кни- книги один аспект, который выдел яет ее среди другой литерату- литературы данного профиля. Речь идет о том специальном и не- неослабном внимании, которое уделяется в книге реализации важнейшего, узлового этапа всякого прикладного исследова- исследования, использующего математические методы и модели, — этапа разведочного статистического анализа. Как извест- известно, назначение этого этапа — тщательный предварительный анализ, своеобразное «прощупывание» исходных статистиче- статистических данных с целью выявления их вероятностной и геомет- геометрической природы, формирования и верификации тех или иных рабочих гипотез, касающихся этого аспекта проб- проблемы. Принятые на этом этапе рабочие исходные допуще- допущения о математической модели реального механизма генери- генерирования анализируемых данных являются определяющими в выборе необходимого математического инструментария, а значит, — ив успехе всего статистического исследования. Однако, к сожалению, в существующей практике приклад- прикладных статистических исследований этот важнейший этап ча- чаще всего либо полностью игнорируется, либо реализуется весьма поверхностно. И одна из главных причин этого — почти полное отсутствие необходимой научно-методологи-
ческой литературы (изданный много лет назад перевод кни- книги Дж. Тьюки «Разведочный анализ», в свое время весьма полезный, ныне приходится отнести к устаревшим источни- источникам информации). В данной же книге эти вопросы занимают центральное место: так или иначе с ними связано большин- большинство глав (кроме гл. 1—4), а непосредственно этой пробле- проблематике посвящен специальный раздел IV (гл. 18—21). Авто- Авторы старались сопровождать изложение этих важных вопро- вопросов подробным описанием существа, роли и научно-приклад- научно-прикладного значения результатов, полученных отечественными специалистами (в сравнении с результатами зарубежных исследователей). Книга состоит из 4 разделов и 21 главы. Раздел I (гл. 1—4) посвящен задачам классификации в ситуации, когда исследователь обладает так называемыми обучающими выборками (т. е. «классификации с учителем»). Математический аппарат, используемый при решении по- подобных задач, объединяется в разделе многомерного стати- статистического анализа, именуемого дискриминантный анализ. Раздел II (гл. 5—12) посвящен задачам «классификации без учителя» (исследователь не располагает обучающими вы- выборками). Математический аппарат решения таких задач включает в себя методы кластер-анализа, или автоматиче- автоматической классификации (в том числе иерархические процедуры классификации), а также статистические методы расщепле- расщепления смесей вероятностных распределений. Раздел III (гл. 13—17) содержит описание наиболее раз- разработанных и эффективных методов снижения размерности исследуемого признакового пространства и отбора наиболее информативных показателей. Среди представленных здесь методов — главные компоненты, факторный анализ, метод экстремальной группировки параметров, многомерное шка- шкалирование, экспертно-статистический метод построения ин- интегрального (латентного) показателя, методы нелинейного отображения многомерных данных в пространства низкой размерности по различным критериям, анализ соответ- соответствий в случае неколичественных переменных. Раздел IV (гл. 18—21) объединяет в себе описание мето- методов так называемого разведочного статистического анализа и одновременно вопросов вычислительной и программной реализации представленных в книге методов, включая обзор по соответствующему программному обеспечению ЭВМ (в том числе персональных ЭВМ) и краткое освещение проблем интеллектуализации статистического программного обес- обеспечения. Методы разведочного (предмодельного) статнстй-
ческого анализа данных (и, в частности, методы целенаправ- целенаправленного проецирования многомерных наблюдений) направ- направлены на «прощупывание» геометрической и вероятностной природы обрабатываемых данных с целью формирования адекватных реальности рабочих исходных допущений, на которых строится дальнейшее исследование. Эти методы как один из инструментов разведочного анализа являются естественным и необходимым дополнением к методам пер- первичной статистической обработки, описанным в гл. 10, 11 первого тома данного издания. Сделанный в книге особый акцент на этих методах обусловлен тем обстоятельством, что в существовавшей до последнего времени практике ста- статистических исследований этапу предмодельного анализа, методам выявления геометрической и вероятностной при- природы обрабатываемых данных, различным приемам тести- тестирования гипотетических структур используемых моделей, как правило, не уделялось должного внимания. В книгу включен ряд оригинальных результатов иссле- исследований авторов, а также результаты, ранее не публиковав- публиковавшиеся в отечественной литературе: общая теория автомати- автоматической классификации (гл. 10), экспертно-статистический метод построения единого сводного показателя эффектив- эффективности (гл. 15), некоторые приемы томографического анализа и целенаправленного проецирования многомерных данных (гл. 18—20), методы классификации при наличии элементов обучения (гл. 11), методы оцифровки неколичественных пере- переменных (гл. 17). Книга написана: С. А. Айвазяном — предисловие, вве- введение, гл. 5 (без п. 5.4.7), 6, 13 (без § 13.6), 14, 15 и § 21.2; В. М. Бухштабером — гл. 7, 8, 10, 20, а также гл. 9, 19 (совместно с И. С. Енюковым); И. С. Енюковым—гл. 11, 12, 16, 17, 18,а также гл. 9, 19 (совместно с В. М. Бухштабе- Бухштабером), §13.6 и §21.1; Л. Д. Мешалкиным — гл. 1,2,3,4; п. 5.4.7 написан Б. Г. Миркиным. Поскольку книга завершает труд коллектива авторов, посвященный кругу проблем, обозначенному как приклад- прикладная статистика, попробуем обсудить положение дел в этой области. Подавляющее большинство исследователей и целых на- научных коллективов, работающих в области теории и прак- практики статистического анализа данных, понимают и призна- признают, что эффективность прикладной реализации математико- статистических методов, успешное развитие конкретных проблемно- и методо-ориентированных систем автоматизи- автоматизированной статистической обработки данных (представляю- 8
щих важную составную часть разнообразных автоматизиро- автоматизированных систем поддержки принятия решений в различных отраслях человеческой деятельности) зависят не только от уровня теоретических вероятностно-статистических раз- разработок (в этом плане отечественная школа традиционно от- относится к передовым), но и от степени продвинутое™ в раз- разработке ряда смежных теоретических и прикладных проб- проблем, остающихся, по существу, вне традиционных рамок математической статистики. И дело, разумеется, не в том, как именно назвать статистическую дисциплину, занимаю- занимающуюся комплексной разработкой всех необходимых инстру- инструментальных и методологических проблем: в некоторых стра- странах (во Франции, например) ее чаще называют «анали- «анализом данны х». Мы считаем, что термин «прикладная статистика» вполне приемлем, тем более что он уже давно в обиходе в целом ря- ряде стран (США, ФРГ и др.), в которых имеются специализа- специализации студентов, институты и журналы такого названия. Хоте- Хотелось бы обратить внимание читателя на наиболее актуаль- актуальные направления исследований этой научной дисциплины. а) Развитие методов анализа данных, не апеллирующих к их вероятностной природе, а также методов, нацеленных на выявление вероятностной и геометрической природы обраба- обрабатываемых данных в условиях отсутствия соответствующей априорной информации. Именно таким методам уделено большое внимание в данной книге (кластер-анализ, много- многомерное шкалирование, томографические методы, целенап- целенаправленное проецирование многомерных данных и т. п., см. разделы II—IV книги) и именно они, как правило, оказыва- оказываются вне поля зрения монографий и руководств по матема- математической статистике. б) Формализация (математическая постановка) реаль- реальных задач статистического анализа данных в различных предметных областях (экономике, социологии, медицине и т. д.) и на базе этого опыта выработка типовых математи- математических постановок задач, выходящих за стеснительные рам- рамки жестких канонических моделей. Этот самый важный и самый трудный этап математико-статистического исследова- исследования является и самым неблагодарным, поскольку de facto оказался как бы «незаконнорожденным дитем» теории и практики статистического анализа данных. Искусство реа- реалистического моделирования формально не предусмотрено ни в одном из разделов инструментальной статистической науки, его развитие никак и ничем не стимулируется. Раз- Разрозненный положительный опыт такого рода, однако, при- 9
вел в последние полтора-два десятилетия к возникновению ряда интересных типовых постановок математических за- задач, связанных в основном с развитием подходов к получе- получению устойчивых статистических выводов и к построению и обоснованию различных критериев качества метода, исполь- используемых в оптимизационных формулиров- формулировках статистических задач (см. «Введе- «Введение», а также § 2.4, 2.6, 3.1, 5.4, гл. 10, 15, 18 и др.). в) Вычислительные вопросы компьютерной реализации методов статистического анализа данных. Это особенно ак- актуально для сложных и подчас громоздких процедур много- многомерного статистического анализа. В книге этим вопросам посвящена (помимо отдельных пунктов) гл. 21. г) Теория и практика генерирования на ЭВМ данных заданной природы и развитие на этой основе методов ста- статистического анализа малых выборок. Этот подход предо- предоставляет статистику эффективное (а иногда единствен- единственно возможное) средство исследования свойств обсуждае- обсуждаемых процедур многомерного статистического анализа, многие из которых не поддаются строгому аналитическому изучению. д) Развитие прикладного программного обеспечения по методам статистического анализа данных с акцентом на создание интеллектуализированных проблемно- и методо- ориентированных программных комплексов, способных обес- обеспечить исследователя развитой системой машинного асси- ассистирования. В книге этим вопросам посвящена гл. 21. Содержание и основные акценты теоретико-методоло- теоретико-методологических и алгоритмических разработок прикладной стати- статистики гораздо динамичнее, чем в традиционных математиче- математических дисциплинах, в том числе в математической статисти- статистике. Так, например, превалирующий удельный вес практиче- практической работы с существенно ограниченными выборками и воз- возможности исследования свойств статистических процедур с помощью имитационного статистического моделирования на ЭВМ (см., например, г)) обусловливают исключение из категории актуальных (для прикладной статистики) значи- значительной части асимптотической теории математической ста- статистики. Равно как и теоретические разработки, основанные на понятии достаточности статистики или на принципе мак- максимального правдоподобия, в той форме, как они формули- формулируются сегодня: пока верили, что для распределений, близ- близких к нормальному, целесообразно использовать рекомен- рекомендации, гарантирующие оптимальность правил статистиче- статистической обработки в рамках статистики нормального закона, 10
упомянутые понятия и подходы казались актуальными для приложений. В свете сказанного нам представляется вполне оправдан- оправданной и объективно назревшей необходимость специальных изданий по прикладной статистике. Данное справочное издание адресовано как статистикам, экономистам, социологам, медикам и специалистам в дру- других областях, использующим статистические методы клас- классификации и снижения размерности в ходе решения задач, так и математикам, профессионалам-разработчикам описы- описываемого математического аппарата (включая математиков- программистов). Специалист не математик может ограничить- ограничиться «потребительским» стилем пользования данной книгой, при котором внимание сосредотачивается на постановках задач и рекомендациях по реализации предложенных ре- решений (алгоритмах, описании диапазона их применимости, практических приемах анализа данных, программах), а усвоение обоснований этих рекомендаций и свойств исполь- используемых процедур не является необходимым. В заключение одно важное, с нашей точки зрения, наблюдение. Все мы в настоящее время являемся свиде- свидетелями и в той или иной мере участниками набирающе- набирающего все большую силу глобального процесса информати- информатизации общества. В проекции на проблематику данного издания это означает, в частности, что через сравни- сравнительно небольшое время персональный компьютер, а с ним и широкие возможности анализа данных станут неотъемлемой частью не только учрежденческого, но и домашнего уклада жизни. А следовательно, в повестке дня — бурная динамика роста спроса на методы и про- программы прикладной статистики. Научный и научно-методический багаж, послуживший основой для написания данного издания, наработан автора- авторами в основном в рамках их деятельности в Московском го- государственном университете им. М. В. Ломоносова, в Цент- Центральном экономико-математическом институте АН СССР, в Главном научно-исследовательском вычислительном центре 4-го Главного управления при Министерстве здравоохране- здравоохранения СССР и во Всесоюзном научно-исследовательском инсти- институте физико-технических и радиотехнических измерений Госстандарта СССР. Бесспорное влияние на замысел и содержание книги ока- оказали постоянные контакты авторов со своими коллегами по научному семинару «Многомерный статистический анализ и вероятностное моделирование реальных процессов», дейст- 11
вующему с 1969 г. в рамках Научного совета АН СССР по комплексной проблеме «Оптимальное планирование и управ- управление народным хозяйством» и Совета по автоматизации на- научных исследований при Президиуме АН СССР, а также по Всесоюзному научно-методическому семинару «Вычисли- «Вычислительные вопросы математической статистики», функциони- функционирующему в Московском государственном университете им. М. В. Ломоносова под руководством акад. Ю. В. Прохо- Прохорова. Авторы признательны Е. Г. Ясину к Б. Г. Миркину, взявшим на себя труд прочесть рукопись настоящего изда- издания и сделавшим ряд ценных замечаний. С. А. Айвазян
ВВЕДЕНИЕ. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ. СУЩНОСТЬ И ТИПОЛОГИЗАЦИЯ ЗАДАЧ, ОБЛАСТИ ПРИМЕНЕНИЯ В.1. Сущность задач классификации и снижения размерности и некоторые базовые идеи аппарата многомерного статистического анализа Необходимость анализа и формализации задач, связанных со сравнением и классификацией объектов, сознавали ученые да- далекого прошлого. «Его (Аристотеля) величайшим и в то же время чреватым наиболее опасными последствиями вкладом в науку была идея классификации, которая проходит через все его работы ... Аристотель ввел или, по крайней мере, кодифицировал способ классификации предметов, основан- основанный на сходстве и различии ...», — писал Дж. Берналл в «Науке истории общества» (М.: Изд-во иностр. лит., 1956.— С. 117). После Аристотеля с его «деревом вещей жизни» имеется еще в докомпьютерной эре ряд интереснейших при- примеров прекрасно построенных классификаций как в естест- естественных, так и в общественных науках. Упомянем здесь (в хронологическом порядке) три из них: а) иерархическая классификация (основанная на понятии сходства) растений и видов М. Адансона A757 г., [170]); б) знаменитая периоди- периодическая система элементов Д. И. Менделеева A869 г.), пред- представляющая собой, по существу, классификацию многомер- многомерных наблюдений (каждый химический элемент может быть представлен в виде вектора характеризующих его разнотип- разнотипных признаков, включая характеристики конфигурации внешних электронных оболочек атомов) с выявленным еди- единым классифицирующим фактором (зарядом атомного ядра) и с упорядочением элементов внутри каждого класса; в) классификация крестьянских хозяйств, уездов и губерний России по характеру и уровню развития капитализма, по- полученная В. И. Лениным на основе анализа земско-стати- стических подворных переписей A899 г., [1]). Надо сказать, что, хотя аьторы упомянутых выдающихся классификаций и не располагали современным математи- математическим аппаратом многомерного статистического анализа, основные идеи и методологические принципы этого аппарата явно или неявно пронизывают логику их конструкций, а 13
подчас (в частности, в работе В.И. Ленина «Развитие капи- капитализма в России») и прямо формулируются. Остановимся на четырех генеральных идеях и методоло- методологических принципах многомерного статистического анализа, на которых базируются, по существу, все основные разделы и подходы математического аппарата классификации и сни- снижения размерности. 1. Эффект существенной многомерности. Сущность этого принципа в том, что выводы, получаемые в результате ана- анализа и классификации множества статистически обследо- обследованных (по ряду свойств) объектов, должны опираться одно- одновременно на совокупность этих взаимосвязанных свойств с обязательным учетом структуры и характера их связей. В [5] природа эффекта существенной многомерности по- поясняется на таком примере: попытка различить два типа потребительского поведения семей, основанная на последо- последовательном применении критерия однородности Стьюдента 112, п. 11.2.81 сначала по одному признаку (удельные расхо- расходы на питание), потом по другому (удельные расходы на про- промышленные товары и услуги) не дала результата, в то время как многомерный аналог этого критерия [12, п. 11.2.9], ос- основанный на так называемом расстоянии Махаланобиса и учитывающий одновременно значения обоих упомянутых признаков и характер статистической связи между ними, дает правильный результат (т. е. обнаруживает статисти- статистически значимое различие между двумя анализируемыми совокупностями семей). Формулировку существа этого принципа мы находим уже в упомянутой работе В. И. Ле- Ленина [1]. Возражая против классификации крестьянских хозяйств изолированно по каждому из анализируемых при- признаков с ориентацией на их средние значения, он пишет [1, с. 96]: «Признаки для различения этих типов должны быть взяты сообразно с местными условиями и формами земледе- земледелия; если при экстенсивном зерновом хозяйстве можно ог- ограничиться группировкой по посеву (или по рабочему скоту), то при других условиях необходимо принять в расчет посев промышленных растений, техническую обработку сельско- сельскохозяйственных продуктов, посев корнеплодов или кормовых трав, молочное хозяйство, огородничество и т. д. Когда крестьянство соединяет в широких размерах и земледель- земледельческие и промысловые занятия, — необходима комбинация двух указанных систем группировки (курсив наш. — С. А.), т. е. группировки по размерам и типам земледелия и груп- группировки по размерам и типам «промыслов». Вопрос о при- приемах сводки подворных записей о крестьянском хозяй- хозяйстве вовсе не такой узко специальный и второстепенный 14
вопрос ¦•¦ Вследствие неудовлетворительной сводки масса драгоценнейших сведений прямо-таки теряется, и иссле- исследователь получает в свое распоряжение только «средние» цифры (по общинам, волостям, разрядам крестьян, по ве- величине надела и т. д.). А эти «средние» ... зачастую совер- совершенно фиктивны». Итак, статистический анализ множества объектов, даже если по каждому из них зарегистрированы значения набора признаков, будет неполным, ущербным, если ограничиваться при этом только средними значениями признаков и не использовать разнообразные характеристи- характеристики тесноты и структуры связей между ними. 2. Возможность лаконичного объяснения природы ана- анализируемых многомерных структур. Определим вначале, что понимается (здесь и в дальнейшем изложении) под много- многомерной структурой. Речь идет о множестве статистически обследованных объектов {Оь О2, ..., О„}. Результаты стати- статистического обследования представляются, как правило (но не всегда), в одной из двух форм; таблицы (матрицы) «объект — свойство» вида Х = (Х1, Х2, ..„ Хп), (В.1) в которой Хг — {х\1), х,B), ..., х\р))' — вектор значений1 ана- анализируемых признаков (свойств) х*1*, х<2), ..., х<р), заре- зарегистрированных на i-u обследованном объекте; или матрицы (таблицы) попарных сравнений вида (В.Г) где элемент а^ определяет результат сопоставления объек- объектов О, и Oj в смысле некоторого заданного отношения: ац может выражать меру сходства или различия объектов О, и Oj, меру их связи или взаимодействия в каком-либо процессе (например, поток продукции отрасли i в отрасль/), геомет- геометрическое расстояние между объектами, отношение предпоч- предпочтения (atj — 1, если объект О, не хуже объекта О;, иа.;= О в противном случае) и т. д. Под возможностью лаконичного объяснения природы анализируемой многомерной струк- 1 Штрих как верхний индекс матрицы или вектора означает операцию их транспонирования. 15
туры подразумевается априорное допущение, в соответствии с которым существует небольшое (в сравнении с р) число оп- определяющих (типообразующих) факторов, с помощью кото- которых могут быть достаточно точно описаны как наблюдае- наблюдаемые характеристики анализируемых объектов (т. е. все эле- элементы х\ и а1} соответственно матриц X и А) и характер -связей межд\ ними, так и искомая классификация самих объектов. При этом упомянутые определяющие факторы мо- могут находиться среди статистически обследованных характе- характеристик, а могут быть латентными, т.е. непосредственно ста- статистически не наблюдаемыми, но восстанавливаемыми по исходным данным вида (В.1) или (В. Г). Гениальный пример практической реализации этого принципа дает нам периоди- периодическая система элементов Менделеева: в этом случае роль идеально информативного единственного определяющего фактора играет, как известно, заряд атомного ядра элемента. Отметим, что на данном принципе многомерного статисти- статистического анализа построены такие важнейшие разделы мате- математического аппарата классификации и снижения размер- размерности, как метод главных компонент и факторный анализ (см. гл. 13, 14), многомерное шкалирование (см. гл. 16), це- целенаправленное проецирование в разведочном статистиче- статистическом анализе данных (см. гл. 18—21) и др. 3. Максимальное использование «обучения» в настройке математических моделей классификации и снижения раз- размерности. Для пояснения этого принципа представим за- задачи классификации и снижения размерности по схеме «на входе задачи — на выходе задачи» (табл. В.1). Таблица В.1 Объект На «входе» за- задачи классифика- классификации и снижения размерности На «выходе» задачи классификации На «выходе» задачи снижения размер- размерности («-1,2, .... п) A) х или (p)\ (ап, .., а1п) (см. ф-лы (В 1) и (В 1')) Номер класса, к которому отнесен О,, или перечень статистически представленных в форме (В 1) или (В Г) объектов, ВХОДЯЩИХ В ТОТ же класс, что и объект Oi Значения иско- искомых определяю- определяющих (типообра- (типообразующих) факто- факторов, характеризу- характеризующих объект Oi 16
Если исследователь располагает и «входами» и «выхода- «выходами» задачи, то исходную информацию называют обучающей и целью исследования является описание процедур, с по- помощью которых при поступлении только входных данных нового объекта его можно было бы с наибольшей (в опреде- определенном смысле) точностью отнести к одному из классов (в задаче классификации) или снабдить значениями определяю- определяющих факторов (в задаче снижения размерности). Именно к таким ситуациям относятся типичные задачи медицинской диагностики, когда в клинических условиях в качестве ис- исходных данных исследователь располагает как «входами»— результатами инструментальных обследований пациен- пациентов, так и «выходами» — уже установленным диагнозом («болен»— «здоров») по каждому из них. Цель исследований такого типа — использование имеющегося «обучения» для отбора из множества результатов обследований небольшо- небольшого числа наиболее информативных (с точки зрения диаг- диагностической силы) показателей и для построения на их ос- основе формального диагностирующего правила (см., напри- например, [115]). Однако в задачах социально-экономического профиля ис- исследователь, как правило, располагает в качестве исходных ) данных лишь «входной» информацией (второй столбец табл. В.1) и в лучшем случае отдельными элементами «обучения»: например, известно, что определенная группа (из числа ста- ¦ тистически обследованных) объектов относится к одному и тому же классу, но какие есть другие классы и как между ' ними распределены остальные статистически обследованные ^ объекты, неизвестно. Сущность обсуждаемого принципа как раз и состоит в том, что даже такая урезанная и обеднен- обедненная обучающая информация оказывается весьма полезной в решении узловых задач «настройки» используемых мате- математических моделей, как, например, выбор метрики в иссле- исследуемом признаковом пространстве, оценка общего числа классов, выбор критерия качества классификации и т. д. 4. Оптимизационная формулировка задач классифика- классификации и снижения размерности. Среди множества возможных методов, реализующих поставленную цель статистической обработки данных (разбиение совокупности статистически обследованных объектов на однородные классы, переход от заданного широкого набора признаков хA),..., х(р) к неболь- небольшому числу определяющих факторов), нужно уметь найти наилучший метод с помощью оптимизации некоторого экзо- генно заданного критерия (фхвдщионала) качества метода. Выбор конкретного вида этого, кратЦ^Я^лснован либо на ап- априорном знании вероятностной и геометрической природы
обрабатываемых данных, либо на соображениях содержа- содержательного (экономического, медицинского, технического н т. п.) плана. В сочетании с некоторыми другими (более спе- специфицированными) базовыми идеями * этот подход дает воз- возможность построить достаточно общую математическую кон- конструкцию, в рамках которой удается «навести порядок» в огромном множестве существующих алгоритмов классифи- классификации и снижения размерности, подчас стихийно (и эврис- эвристически) возникающих из нужд разнообразных приложе- приложений. В.2. Типовые задачи практики и конечные прикладные цели исследований, использующих методы классификации и снижения размерности До разработки аппарата многомерного статистического анализа и, главное, до появления и развития достаточно мощной электронно-вычислительной базы главные пробле- проблемы теории и практики классификации и снижения размер- размерности относились не к разработке методов и алгоритмов, а к полноте и тщательности отбора и теоретического анализа изучаемых объектов, характеризующих их признаков, смысла и числа градаций по каждому из этих признаков. Все методы классификации сводились, по существу, к ме- методу так называемой комбинационной группировки, когда все характеризующие объект признаки носят дискретный характер или сводятся к таковым (пол или мотив миграции индивидуума, уровень жилищных условий или число детей в семье и т.п.), а два объекта относятся к одной группе толь- только при точном совпадении зарегистрированных на них гра- градаций одновременно по всем характеризующим их призна- признакам (одинаковый пол, мотив миграции и т. д.). Методы сни- снижения размерности ограничивались простым агрегировани- агрегированием однотипных признаков (например, переход от фиксации семейных расходов отдельно на молоко, сыр, сметану и т.п. к общим семейным расходам на молочные продукты) и от- отбором (на уровне содержательного анализа) некоторой на- 1 Например, идея расширительного толкования понятия ядра класса ядром класса может быть точка, группа точек, ось, поверх- поверхность, случайная переменная и т д На этом, в частности, построен весьма общий подход к решению задач анализа данных, названный авторами «методом динамических сгущении^» [106] Эта же идея ис- использована нами и при построении общей теории автоматической классификации (гл 10). 18
иболее информативной части из исходного набора призна- признаков. Однако по мере роста объемов перерабатываемой инфор- информации и, в частности, числа классифицируемых объектов и характеризующих их признаков возможность эффективной реализации подобной логики исследования становилась все менее реальной (так, например, число k групп или классов, подсчитываемое при комбинационной группировке по фор- формуле k = тх-т2 ... тр, где/п, — число градаций по призна- признаку xiJ), ар — общее число анализируемых признаков, уже при т} = 3 и р = 5 оказывается равным 243). Именно электронно-вычислительная техника стала тем главным ин- инструментом, который позволил по-новому подойти к реше- решению этой важной проблемы и, в частности, конструктивно воспользоваться разработанным к этому времени мощным аппаратом многомерного статистического анализа: метода- методами распознавания образов «с учителем» (дискриминантный анализ) и «без учителя» (автоматическая классификация, или кластер-анализ), методами и моделями факторного анализа, многомерного шкалирования и т. д Развитие электронно-вычислительной техники как сред- средства обработки больших массивов данных стимулировало проведение в последние годы широких комплексных иссле- исследований сложных социально-экономических, технических, медицинских и других процессов и систем, таких, как об- образ и уровень жизни населения, совершенствование орга- организационных систем, региональная дифференциация соци- социально-экономического развития, планирование и прогно- прогнозирование отраслевых систем, закономерности возникно- возникновения сбоев (в технике) или заболеваний (в медицине) и т п. В связи с многоплановостью и сложностью этих объектов и процессов данные о них по необходимости носят много- многомерный и разнотипный характер, так как до их анализа обычно бывает неясно, насколько существенно то или иное свойство для конкретной цели. В этих условиях выходят на первый план проблемы построения группировок и класси- классификации по многомерным данным (т е. проблемы классифи- классификации многомерных наблюдений), причем появляется воз- возможность оптимизации этого построения с точки зрения на- наибольшего соответствия получаемого результата поставлен- поставленной конечной цели классификации. Цели классификации существенно расширяются, и одно- одновременно содержание самого процесса классификации ста- становится неизмеримо богаче и сложнее. Оно, в частности, до- дополняется проблемой построения самой процедуры класси- классификации, ранее носившей чисто технический характер. 19
Для пояснения сущности основных типов задач класси- классификации и конечных прикладных целей, которые ставит при этом перед собой исследователь, рассмотрим примеры. Пример В.1. Выявление типологии потребительско- потребительского поведения населения, анализ сущности дифференциации этого поведения, прогноз структуры потребления [154]. В качестве исходной информационной базы используют- используются данные бюджетных обследований семей [105]. Поясним логическую схему исследования. Многомерная статистика рассматривает совокупность изучаемых многомерных объ- объектов (В.1) как совокупность точек или векторов в прост- пространстве описывающих их признаков. Применительно к схе- схеме потребления совокупностью объектов, подлежащих изу- изучению, является множество элементарных потребительских ячеек —семей. Каждая семья характеризуется, с одной стороны, некоторым набором X факторов-детерминантов (социально-демографические и другие признаки, описываю- описывающие условия жизнедеятельности семьи), а с другой — на- набором Y параметров поведения («переменных поведения»), в которых отражаются ее фактические потребности. В качестве социально-демографических факторов, име- имеющих существенное значение для изучения потребитель- потребительских аспектов социальной жизни, целесообразно использо- использовать, например, общественную и национальную принад- принадлежность, уровень образования и квалификацию, характер труда, демографический тип и возраст семьи, тип населен- населенного пункта и характер жилища, размер и структуру имуще- имущества, уровень доходов. Имеется некоторое сомнение относительно включения последнего показателя (уровень доходов), так как принци- принципиально он может быть выражен через другие социально- демографические характеристики. Величина доходов явля- является производной от уровня образования, квалификации, характера трудовой деятельности (через заработки работни- работников семьи), половозрастного и численного состава семьи 1. Поэтому доход остается в нашей конструкции как один из вспомогательных компонентов, в концентрированном виде выражающий разницу в основных факторах-детерми- факторах-детерминантах. Различия в потребностях, складывающиеся под влияни- влиянием социально-демографических и природно-климатических 1 Рассматривая в дифференцированном балансе доходов и по- потребления населения структуру потребления семей только по признаку различий в доходе, мы фактически абстрагируемся от всех других социально-демографических факторов. 20
условий, являются объективно существующими; они фор- формируют весь строй поведения потребителя в конкретно- исторических условиях, а в конечном счете порождают своеобразные типы потребителей, ориентированные на су- существенно разное потребление. Весь комплекс социально-демографических и других факторов, существенно воздействующих на структуру по- потребления, будем называть типообразующим. Они име- имеют определяющее значение, в то время как все другие дают лишь случайную вариацию в пределах одной группы (типа) потребительского поведения. В качестве признаков поведения Y можно рассматривать три группы параметров: а) уровень и структуру потребле- потребления; б) характер (объем и содержание) использования сво- свободного времени; в) интенсивность изменения социального, трудового, демографического статуса (в [154] рассмотрена только первая группа признаков). Итак, в задаче даны числовые характеристики и града- градации типообразующих и одновременно поведенческих при- признаков каждой семьи из анализируемой совокупности. Решение общей проблемы, связанной с выявлением и прогнозом структуры и дифференциации потребностей на- населения, распадается в соответствии с принятой в [154] ло- логической схемой исследования на следующие этапы. 1. Сбор и первичная статистическая обработка исход- исходных данных. Исследуемые объекты (семьи) выступают в ка- качестве многомерных наблюдений или' точек в двух много- многомерных пространствах признаков. Фиксируя в качестве ко- координат этих точек значения (или градации) типообразую- типообразующих переменных X (т. е факторов-детерминантов), рассмат- рассматриваем их в «пространстве состояния» П (X), т. е. в прост- пространстве, координатами которого служат основные показате- показатели жизнедеятельности семей. Фиксируя же в качестве ко- координат тех же самых объектов значения показателей Y их потребительского поведения, рассматриваем их в «прост- «пространстве поведения» П (Y). Очевидно, при надлежащем выбо- выборе метрики в пространствах П (X) и П (Y) геометрическая близость двух точек в П (X) будет означать сходство усло- условий жизнедеятельности соответствующих двух семей, так же как и геометрическая близость точек в П (Y) будет оз- означать сходство их потребительского поведения. Среди ме- методов первичной статистической обработки анализируемых данных, обычно используемых на этой стадии исследования (см., например, [12, гл. 10—11]), широко распространенны- распространенными и весьма полезными являются методы изучения различ- различных одно-, двух- и трехмерных эмпирических распределе- 21
ний, которые сводятся к построению и различным представ- представлениям (графическим, табличным) упомянутых выше ком- комбинационных группировок. Пример табличного представле- представления одной из таких двумерных комбинационных группиро- группировок приведен в табл. В.2. Таблица Ъ2 Градации признака *Ч) (доход) «Низкий» «Средний» «Высокий» Сумма Градации признака *W (жилищные условия) «низкоо 24 20 4 48 «удовлет- воритель- ворительное» 12 100 8 120 «хорошее» 4 140 28 172 «очень хорошее» 0 20 40 60 Сумма 40 280 80 400 Эта комбинационная группировка построена на основе статистического обследования 400 семей по двум признакам из пространства П (X): по *A) (руб.) — величине среднеду- среднедушевого семейного дохода (с тремя градациями: «низкий», «средний» и «высокий»), и по *B) — качеству жилищных условий (с четырьмя градациями: «низкое», «удовлетвори- «удовлетворительное», «хорошее» и «очень хорошее»). Каждая клетка таблицы соответствует классу, полученному в результате проведенной комбинационной группировки; внутри клетки обозначено число семей, имеющих данное сочетание града- градаций анализируемых признаков (подобные таблицы называ- называют также «таблицами сопряженности», см., например, [12, п. 10.3.5], а также [11, 3.1]). Для более полного представления результатов подобной классификации можно было бы ввести в программу компью- компьютера требование выпечатывать номера семей, попавших в каждую из двадцати клеточек таблицы. Заметим, что непрерывным аналогом комбинационной группировки является обычный переход от исходных наб- наблюдений непрерывной случайной величины к «группиро- «группированным» выборочным данным [12, п. 5.4.2]. Результат тако- такого перехода представляется либо в виде таблицы, подобной табл. В.2, либо в виде графика {гистограммы). 2. Выявление основных типов потребления с помощью разбиения исследуемого множества точек-семей на классы в «пространстве поведения» ЩУ). Гипотеза существова- 22
ния «естественных», объективно обусловленных типов по- поведения, т. е. какого-то небольшого количества классов се- семей, таких, что семьи одного класса характеризуются срав- сравнительно сходным, однотипным потребительским поведе- поведением, геометрически означает распадение исследуемой в «пространстве поведения» совокупности точек-семей на со- соответствующее число «сгустков» или «скоплений» точек. Выявив с помощью подходящих методов многомерного статистического анализа (кластер-анализа, таксономии) эти классы-сгустки, тем самым определим основные типы потребительского поведения. Попутно в качестве «побочно- «побочного результата» решения главной задачи этого этапа конст- конструктивно реализуется метод построения целевых функций предпочтения, являющийся развитием и некоторой модифи- модификацией метода, предложенного в [47]. По существу, при этом решается одна и та же задача регрессионного анализа [11], но функция регрессии строится отдельно только по одно- однородным данным, попавшим в один какой-то класс. 3. Отбор наиболее информативных типообразующих признаков (факторов-детерминантов) и выбор метрики в пространстве типообразующих признаков. Очевидно, не- неправомерно рассчитывать на то, что диапазоны возможных значений каждого из кандидатов в типообразующие при- признаки окажутся непересекающимися для семей с разным типом потребительского поведения. Другими словами, зна- значения каждого из признаков х^ в отдельности и их набора в совокупности подвержены некоторому неконтролируемому разбросу при анализе семей внутри каждого из типов по- потребления. Естественно считать наиболее информативными те факторы-детерминанты или те их наборы, разница в за- законах распределения которых оказывается наибольшей при переходе от одного класса потребительского поведения к другому. Эта идея и положена в основу метода отбора на- наиболее информативных (типообразующих) признаков-де- признаков-детерминантов. Наконец, отобрав небольшое число наиболее информативных признаков-детерминантов, мы можем попы- попытаться снова разбить исследуемую совокупность семей на классы-сгустки, но уже в пространстве выявленных типооб- типообразующих признаков. При этом результат разбиения будет существенно зависеть не только от состава группы на- наиболее информативных типообразующих признаков, но и от способа вычисления расстояния между двумя точками- семьями в этом пространстве и, в частности, от того, с ка- какими весами участвуют в этом расстоянии отобранные ти- типообразующие признаки. Поэтому веса подбираются таким образом, чтобы результат разбиения семей на классы в про- 23
странстве наиболее информативных факторов-детерминан- факторов-детерминантов в некотором смысле наименее отличался бы от разбие- разбиения тех же точек-семей, которое было получено в «простран- «пространстве поведения». Таким образом, добиваемся наибольшего совпадения, наибольшей связности в результатах классифи- классификации одного и того же множества семей в двух разных признаковых пространствах — «пространстве поведения» П (Y) и пространстве типообразующих признаков ЩХ). 4. Анализ динамики структуры исследуемой совокупно- совокупности семей в пространстве наиболее информативных типо- типообразующих признаков. Конечной целью этого этапа являет- является прогноз тех постепенных преобразований классификаци- классификационной структуры совокупности потребителей (семей, рас- рассматриваемых в пространстве типообразующих признаков), которые должны произойти с течением времени. Реализация этапа может быть осуществлена с использованием резуль- результатов и подходов, описанных в [50], а также с помощью прив- привлечения математического аппарата марковских цепей (ана- (аналогично тому, как используется этот аппарат при анализе динамики структуры трудовых ресурсов; см., например, [17]) и многомерных временных рядов [146]. При этом, ко- конечно, должны быть учтены существующие методы прогно- прогноза социально-демографической структуры населения [31], [145]. 5. Прогноз структуры потребления. На этом этапе ис- исследования опираемся на результаты, полученные в итоге проведения предыдущего этапа, т. е. исходим из заданной классификационной структуры потребителей в интересую- интересующий нас период времени в будущем. Восстанавливая клас- классификационную структуру потребления (классификацион- (классификационную структуру совокупности семей в пространстве призна- признаков П (К), характеризующих потребительское поведение семьи) по классификационной структуре потребителей "(по классификационной структуре той же совокупности, но в пространстве типообразующих признаков), будем относить каждую конкретную семью к тому типу потребления, для которого значения характеризующих ее типообразующих признаков являются, грубо говоря, наиболее типичными. П р и м е р В. 2. Классификация как необходимый пред- предварительный этап статистической обработки многомерных данных [9]. Пусть исследуется зависимость интенсивности миграции населения х^ (профессиональной или террито- территориальной) от ряда социально-экономических и географиче- географических факторов jcA>, Jt<2>, ...,jc(p~1), таких, как средний зара- заработок, обеспеченность жилой площадью, детскими учрежде- учреждениями, уровень образования, возможности профессиональ- 24
ного роста, климатические условия и т. п. Естественно пред- предположить (и результаты исследования это подтверждают), что Для различных однородных групп индивидуумов одни и те же факторы влияют на х^ в разной степени, а иногда и в противоположных направлениях. Поэтому до применения аппарата регрессионно-корреляционного анализа следует разбить все имеющиеся в нашем распоряжении данные Х\ — = (jcj-1', х\2), ..., х\р)) (г — 1, 2, ..., п) на однородные классы и решать далее поставленную задачу отдельно для каждого такого класса. Только в этом случае можно ожидать, что полученные коэффициенты регрессии х(р> по хA), хB), ..., ..., х(р~]) будут допускать содержательную интерпретацию, а мера тесноты связи между х(р) и (jcA>, jc<2>, ..., jc'''-1') ока- окажется достаточно высокой. Подобные задачи можно найти в [130, с. 77]. Другой вариант такого рода примера получим, если в ка- качестве объектов исследования рассмотрим предприятия оп- определенной отрасли, а в качестве вектора наблюдений Xi — совокупность объективных (нерегулируемых) условий рабо- работы t-ro обследованного предприятия (сырье, энергия, ос- оснащенность техникой и рабочей силой и т. п.). Классифика- Классификация предприятий по X производится как необходимый пред- предварительный этап для возможности последующей объектив- объективной оценки работы коллективов и разработки обоснованных дифференцированных нормативов: очевидно, лишь к пред- предприятиям, попавшим в один класс по X, может быть примене- применена одинаковая система нормативов и стимулирующих пока- показателей (см. описание подобной задачи в [53]). Далее можно рассматривать задачу, аналогичную сформулированной вы- выше, а именно: если Y — (г/A\ ..., y(q))' — вектор показате- показателей качества работы предприятия (объем и качество выпус- выпускаемой продукции, ее себестоимость, рентабельность и т.п.), a U — (и*1), ..., и<т>)' — вектор регулируемых факторов, от которых зависят условия производства (число основных под- подразделений, уровень автоматизации и т. д.), то задачу описа- описания интересующей нас зависимости вида Y = f (U) естест- естественно решать отдельно для каждого класса по X. Пример В.З. Классификация в задачах планирова- планирования выборочных обследований [91. Здесь речь пойдет о пла- планировании выборочных экономико-социологических обсле- обследований городов. Предположим, что необходимо достаточно детально проанализировать подробные статистические дан- данные о городах с целью выявления наиболее характерных черт в экономико-социологическом облике типичного сред- среднерусского города. Производить подробный, кропотливый 25
анализ по каждому из городов РСФСР, очевидно, слишком трудоемко, да и нецелесообразно. По-видимому, разумнее попытаться предварительно выявить число и состав различ- различных типов в совокупности обследованных городов по набо- набору достаточно агрегированных признаков (jc<1), jc<2), ..., jc<p>), характеризующих каждый город (например, понимать под х</> число жителей города, приходящееся на каждую тысячу жителей, обладающих заданным у'-м признаком, скажем, высшим образованием, специальностью металлурга и т.п.). А затем, отметив наиболее типичные города в каждом клас- классе (наблюдения-точки Xit наиболее близко располагаю- располагающиеся к «центрам тяжести» своих классов), отобрать их для дальнейшего (более детализованного) социально-экономи- социально-экономического анализа. При этом, очевидно, мера представитель- представительности отобранных «типичных городов» определится удель- удельным весом количественного состава точек данного класса среди всех рассматриваемых точек (городов). Подробнее об этой задаче см. в [9, гл. 5]. Похожие задачи планирования выборочных обследований с использованием методов клас- классификации рассмотрены в [130, с. 34]. Анализ рассмотренных примеров с учетом, конечно, и другого накопившегося к настоящему времени опыта ре- решения практических задач классификации в экономике, со- социологии, психологии, технике, медицине, геологии, архео- археологии и других сферах практической и научной деятельности человека позволяет произвести определенную систематиза- систематизацию этих задач в соответствии с их основными типами и ко- конечными прикладными целями исследования (табл. В.З). В качестве комментария к табл. В.З поясним методологи- методологическую общность задач 3.1—3.3: прогноза экономико-социо- экономико-социологических ситуаций, диагностики и автоматического рас- распознавания зрительных и слуховых образов. Для этого ле- лежащую в основе их решения методологическую схему связ- связной неупорядоченной типологизации представим следующим образом. Пусть в качестве исходных данных об объекте О,- (i = 1, 2, ..., п) имеем вектор описательных (объясняющих) признаков Xt = {х\г\ ..., х\р))' (это, в частности, характе- характеристики условий жизнедеятельности i-й обследованной се- семьи в примере В.1, значения параметров исследуемого тех- технологического процесса, геофизических характеристик грунта или результаты обследований i-ro пациента в зада- задачах диагностики, геометрические, или частотные характе- характеристики распознаваемого образа в п. 3.3) и некоторую ин- информацию Y{ о том результирующем свойстве, по которому производится классификация объектов (специфика соци- социально-экономического поведения t-й семьи в примере В.1; 26
Таблица В.З -в— а g 1 2 3 Тип задачи кдассификацви Комбинационные группи- группировки и их непрерывные обобщения Простая типологизация: выявление «стратификаци- «стратификационной структуры» множест- множества статистически обследо- обследованных объектов, «нащупы- «нащупывание» и описание четко вы- выраженных скоплений («сгу- («сгустков», «кластеров», «обра- «образов», классов) этих объек- объектов в анализируемом много- многомерном пространстве и по- построение правила отнесения каждого нового объекта к одному из выявленных классов Связная неупорядоченная типологизация: исследова- исследование зависимостей между не поддающимися упорядоче- упорядочению классификациями од- одного и того же множества объектов в разных призна- признаковых пространствах, одно из которых построено на результирующих (поведен- (поведенческих) признаках (отра- (отражающих специфику функ- Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации Составление частотных таблиц и графиков, характеризующих распределение статистически обследованных объектов по градациям или интервалам группирования характеризую- характеризующих их признаков (см. п. 1 в примере В.1) 2.1. Классификация как необ- необходимый предварительный этап исследования, когда до проведения основной статисти- статистической обработки множества анализируемых данных (по- (построения регрессионных мо- моделей, оценки параметров ге- генеральной совокупности и т д.) добиваются расслоения этого множества на однород- однородные (в смысле проводимого за- затем статистического анализа) порции данных (см. примеры В.1 и В.2) 2.2. Выявление и описание рас- расслоенной природы анализируе- анализируемой совокупности статистиче- статистически обследованных объектов с целью формирования плана выборочных (например, эконо- экономико-социологических) обсле- обследований этой совокупности (см. пример В.З) 2.3. Первый шаг в построении связных типологий (см. п. 3 таблицы и пример В.1) 3.1. Прогноз экономико-социо- экономико-социологических ситуаций или от- отдельных социально-экономи- социально-экономических показателей, включая задачу выявления так называ- называемых типообразующих призна- признаков, в том числе латентных, т. е. иепосредсгвенно не наб- наблюдаемых (см. пример В.1) 3.2. Диагностика в промыш- промышленности, технике, георазведке, медицине [94, 156, 83, 115] 27
Продолжение с с ¦к 4 5 Тип задачи классификации ционирования объекта, его социально-экономическое поведение, состояние здо- здоровья и т п), а другое — на описательных (отража- (отражающих условия функциониро- функционирования и другие характери- характеристики, от которых могут зависеть значения результи- результирующих признаков) Связная упорядоченная ти- пологизация: модификация связной неупорядоченной типологизации (см п 3 табшцы), обусловленная донО шительным допуще- допущением, что классы, получа- получаемые в пространстве ре- результирующих (поведен- (поведенческих) признаков, подда- поддаются экспертному упорядо- упорядочению по некоторому свод- сводному (как правило, латент- латентному, непосредственно не наблюдаемому) свойству эффективности функцио- функционирования, качеству, степе- степени прогрессивности (опти- (оптимальности) поведения и т. п Структурная типологиза- ция дополнение и развитие простой типологизации (см. п 2 таблицы) в направле- направлении изучения и описания структуры взаимосвязей полученных классов, вклю чая построение соответст- соответствующих иерархических си- систем (на классифицируемых элементах и на классах эле- элементов), анализ роли и ме- места каждого элемента и класса в общей структурной Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации 3 3 Автоматическое (машин- (машинное) распознавание образов — зрительных, слуховых [59, 74, 83] Построение и интерпретация единого (сводного) латентного признака-классификатора в ви- виде функции от исходных опи- описательных признаков класси- классификация химических элемен- элементов по заряду их атомного яд- ядра (периодическая система Д И Менделеева), классифи- классификация сельских поселений по уровню их социально-экономи- социально-экономического развития Г128], по- построение фактора общей ода- одаренности в педагогике и пси- психологии [9], построение свод- сводного показателя эффективности функционирования предприя- предприятия [87]; построение интег- интегральной характеристики уров- уровня мастерства спортсменов в игровых видах спорта [6]; оценка тяжести заболевания пациента и т д 5 1 Классификация задач мно- многоцелевого комплекса (круп- (крупной программы, научного на- направления производственного комплекса и т. п.) 5 2 Классификация элементов и подсистем по их функцио- функциональному назначению (произ- (производств — в территориально- производственном комплексе, территориальных единиц — в народнохозяйственном разде- разделении труда и потребления, элементов организационных структур и т. п.)
Продолжение и с % 6 Тип задачи классификации классификационной схеме При этом структурная клас- классификационная схема опре- определяется составляющими ее классами (подсистемами) и характеристиками (прави- (правилами) их взаимодействия Классификация динамиче- динамических траекторий развития систем тнпологнзацня тра- траекторий многомерных вре- временных рядов X (t) = = (х<'>@, • , х(р)@)', среди компонент х^'* (t) которых могут быть как ко- количественные, так н качест- качественные переменные Варианты (примеры) конечных прикладных целей исследования для данного типа задачи классификации 5 3 Классификация лиц, при- принимающих решение, по нх ро- роли н близости позиций в пони- понимании ситуации и способе ре- решения задачи 5 4 Классификация исследу- исследуемых признаков и анализ структуры связей между ними Примеры по всем подпунк- подпунктам данного пункта таблицы можно найгн в [11, гл. 4; 111, гл 5—8, 34, 1581 Задачи биологической система- систематики fill], анализа типов Дн- намнкн семейной структуры [50], анализа типов динамики потребительского поведения семей [154] н др. наличие или отсутствие сбоев в i-м анализируемом техноло- технологическом процессе, месторождений полезных ископаемых на г-м обследованном участке, заболевания у г'-го обследуе- обследуемого пациента в задачах диагностики; конкретный содержа- содержательный смысл распознаваемого зрительного или слухового образа в задачах п. 3.3). Разница между задачами типа3.1 и задачами 3.2 и 3.3 заключается в том, что в задачах прогно- прогноза экономико-социологических ситуаций информация Yt об исследуемом результирующем свойстве объекта не является окончательной, т. е. не задает однозначно, как это делается в задачах 3.2 и 3.3, образа (класса, типа), к которому отно- относится этот объект. Эта информация в задачах типа 3.1 носит лишь промежуточный характер и представляется, как пра- правило, в виде вектора результирующих показателей Yt — = (y\l) y\q))'¦ Поэтому в отличие от задач 3.2 и 3.3 (в которых уже «на входе» задачи имеем распределение ана- анализируемых объектов-векторов Xt по классам, что и состав- составляет так называемую «обучающую выборку») в задачах типа 3.1 нужно предварительно осуществить простую типологи- зацию множества объектов {Ог} (/ = 1, ..., п) в пространа стве результирующих показателей и лишь затем исполь- 29
зовать полученные в результате этой типологизации клас- классы в качестве обучающих выборок для построения класси- классифицирующего правила в пространстве описательных при- признаков П (X). «На выходе» же всех задач типа 3.1 — 3.3 должны быть 1) набор наиболее информативных объясняющих перемен- переменных (так называемых типообразующих признаков) г'1* (X), г<2> (X), ..., г(р'> (X), которые либо отбираются по опреде- определенному правилу из числа исходных описательных призна- признаков x(l), Jt<2>, ..., х(р), либо строятся в качестве некоторых их комбинаций; 2) правило отнесения (дискриминантная функция, классификатор) каждого нового объекта О*, задан- заданного значениями своих описательных признаков X*, к одно- одному из заданных (или выявленных в процессе предваритель- предварительной простой типологизации) в пространстве П (Y) классов или образов. При этом типообразующие признаки Z = =(z^ (X), ..., z<p*> (X))' и искомое правило классификации должны быть подобраны таким образом, чтобы обеспечивать наивысшую (в определенном смысле) точность решения за- задачи отнесения объекта к одному из анализируемых классов по заданным значениям его описательных признаков X. Из сформулированных выше конечных целей классифи- классификации видно, что тематику разбиения многомерных данных на однородные (в определенном смысле) группы подчас труд- трудно отделить от задачей ижен ия размерности исследуемых дан- данных. Однако прикладные цели методов снижения размер- размерности не исчерпываются сформулированной выше задачей перехода от исходного набора описательных признаков *A), ..., *(р> к существенно более скромному (по численному со- составу) набору так называемых типообразующих признаков 2^> (X), ..., 2(р'> (X), которые являются наиболее характер- характерными, наиболее определяющими с точки зрения полноты и точности разбиения исследуемых объектов на классы. Выделим в качестве основных следующие типовые при- прикладные задачи снижения размерности анализируемого признакового пространства, обслуживаемые соответствую- соответствующими разделами многомерного статистического анализа. I. Отбор наиболее информативных показателей (включая выявление латентных факторов). Речь идет об отборе из ис- исходного (априорного) множества признаков X = (*A\ •.., ..., х^)' или построении в качестве некоторых комбинаций исходных признаков относительно небольшого числа р' переменных Z (X) = (г*1) (X), ..., 2<р'> (X))', которые обла- обладали бы свойством наибольшей информативности в смысле, определенном, как правило, некоторым специально подоб- подобранным для каждого конкретного типа задач критерием 30
информативное/т. 1Р- (Z). Так, например, если критерий Ip- (Z) «настроен» на достижение максимальной точности регрессионного прогноза некоторого результирующего ко- количественного показателя у по известным значениям предик- торных переменных х*1', х<2>, ..., х(р\ то речь идет о наилуч- наилучшем подборе наиболее существенных предикторов в модели регрессии f 11, § 8.7]. Если же критерий I p> (Z) устроен таким образом, что его оптимизация обеспечивает наивысшую точ- точность решения задачи отнесения объекта к одному из клас- классов по значениям X его описательных признаков, то речь идет о построении системы типообразующих признаков в задаче классификации (см. § 1.4, 2.5, 2.6, гл. 11) или о выяв- выявлении и интерпретации некоторой сводной (латентной) ха- характеристики изучаемого свойства (см. гл. 15). Наконец, критерий IP'(Z) может быть нацелен на максимальную авто- автоинформативность новой системы показателей Z, т. е. на максимально точное воспроизведение всех исходные призна- признаков jc'1', Jt<2), ..., х<р> по сравнительно небольшому числу вспомогательных переменных z'1', ..., z<p'> (p' <^ р). В этом случае говорят о наилучшем автопрогнозе и обращаются к моделям и методам факторного анализа и его разновидно- разновидностей (см. гл. 13 и 14). П. Сжатие массивов обрабатываемой и хранимой инфор- информации. Этот тип задач тесно связан с предыдущим и, в частности, требует в качестве одного из основных приемов решения построения экономной системы вспомогательных признаков, обладающих наивысшей автоинформативно- автоинформативностью, т. е. свойством наилучшего автопрогноза (см. выше). В действительности при решении достаточно серьезных за- задач сжатия больших массивов информации (подобные зада- задачи весьма актуальны и в плане необходимости минимиза- минимизации емкостей носителей, на которых хранится архивная информация, и в плане экономии памяти ЭВМ при обработке текущей информации) используется сочетание методов классификации и снижения размерности. Методы класси- классификации позволяют подчас перейти от массива, содержаще- содержащего информацию по всем я статистически обследованным объ- объектам, к соответствующей информации только по k эталон- эталонным образцам (ft ^ л), где в качестве эталонных образцов берутся специальным образом отобранные наиболее типич- типичные представители классов, полученных в результате операции разбиения исходного множества объектов на од- однородные группы. Методы же снижения размерности позво- позволяют заменить исходную систему показателей X = (х*1», ..., х(р>У набором вспомогательных (наиболее автоинфор- автоинформативных) переменных Z (X) = (г*1) (X), ..., z<"'> (X))'. 31
Таким образом, размерность информационного массива понижается от рхп до р'Xk, т.е. во многие десятки раз, если учесть, что р' и k обычно на порядки меньше соответ- соответственно pun. III. Визуализация (наглядное представление) данных. Вернемся к примеру В.1. При проведении простой типоло- гизации семей в «пространстве поведения» приходится иметь дело с множеством точек (семей) в 98-мерном прост- пространстве1. А для формирования рабочих гипотез, исходных допущений о геометрической и вероятностной природе со- совокупности анализируемых данных Ylt ..., Yn важно было бы суметь «подсмотреть», как эти данные точки располага- располагаются в анализируемом пространстве П (Y). В частности, уже на предварительной стадии исследования хотелось бы знать, распадается ли исследуемая совокупность точек на четко выраженные сгустки в этом пространстве, каково при- примерное число этих сгустков и т.д.? Но максимальная размер- размерность «фактически осязаемого» пространства, как известно, равна трем Поэтому, естественно, возникает проблема: нельзя ли спроецировать анализируемые многомерные дан- данные из исходного пространства на прямую, на плоскость, в крайнем случае — в трехмерное пространство, но так, чтобы интересующие нас специфические особенности ис- исследуемой совокупности (например, ее расслоенность на кластеры), если они присутствуют в исходном пространстве, сохранились бы и после проецирования. Следовательно, и здесь речь идет о снижении размерности анализируемого признакового пространства, но снижении, во-первых, под- подчиненном некоторым специальным критериям и, во-вторых, оговоренном условием, что размерность редуцированного пространства не должна превышать трех. Аппарат для ре- решения подобных задач называется в книге «целенаправлен- «целенаправленным проецированием1» многомерных данных и излагается в гл. 18—20. IV. Построение условных координатных осей (многомер- (многомерное шкалирование, латентно-структурный анализ). В данном типе задач снижение размерности понимается иначе, чем прежде. До сих пор речь шла о подчиненном некоторым спе- специальным целям переходе от заданной координатной систе- системы X (т. е. от исходных переменных л:*1), л:<2\ ..., х(р)) к но- новой координатной системе Z (X), размерность которой р' су- существенно меньше размерности р и оси которой 0z<x\ ..., 0г(р') конструируются с помощью соответствующих преобра- 1 Размерность вектора Y, т. е. число статей, по которым фикси- фиксируются удельные семейные расходы в бюджетных обследованиях, равна 98. 32
зований осей Ох*1), ..., 0х(р). Теперь же рассматриваем си- ситуацию, когда исходной содержательно заданной координат- координатной системы не существует вовсе, а подлежащие статисти- статистическому анализу данные представлены в виде (ВЛ'), т. е. в виде матрицы А попарных отношений al} (i, / = 1, 2,...,п) между объектами (см. (В.Г)). Ставится задача: для задан- заданной, сравнительно невысокой, размерности р' определить вспомогательные условные координатные оси 02<х\ ..., Qz(p"> и способ сопоставления каждому объекту 0t его координат z\1\ ..., z\p ') в этой системе таким образом, чтобы попарные отношения аг] (Z) (например, попарные взаимные расстоя- расстояния) между объектами, вычисленные исходя из их содер- содержательного смысла на базе этих условных координат, в оп- определенном смысле минимально бы отличались от заданных величин a,,(i, j — 1, 2, ..., п). В определенных условиях (в первую очередь в задачах педагогики, психологии, по- построения различных рейтингов1 и т. п ) построенные та- таким образом условные переменные поддаются содержатель- содержательной интерпретации и могут тогда рассматриваться в качест- качестве латентных характеристик определенных свойств анали- анализируемых объектов (такого типа задачи называют часто задачами латентно-структурного анализа). Снижение размерности происходит здесь в том смысле, что от исход- исходного массива информации размерности п кп переходим к матрице типа «объект —• свойство» (см. (В.1)) размерности р'Хл, где р' <^ п Аппарат для решения подобных задач состоит из методов так называемого многомерного шкалиро- шкалирования и представлен в гл. 16. В.З. Типологизация математических постановок задач классификации и снижения размерности Целесообразность и эффективность применения тех или иных методов классификации и снижения размерности так же, как их предмегная осмысленность, обусловлены кон- конкретизацией базовой математической модели, т. е. матема- математической постановкой задачи. Определяющим моментом в выборе математической постановки задачи является ответ на вопрос, на какой исходной информации строится модель. При этом исходная информация складывается из двух час- 1 В подобных ситуациях элементы матрицы (В Г) отражают обычно результаты попарных сравнений объектов 0г и Oj по анали- анализируемому результирующему свойству и, следовательно, представ- представляют одну из возможных форм обучающей информации (см. В.З). 2 Заказ № 291 33
тей: 1) из априорных сведений об исследуемых классах', 2) из информации статистической, выборочной, т. е. так на- называемых обучающих или частично обучающих выборок (точные определения см. в § 2.1 и 9.1). Априорные сведения об исследуемых генеральных сово- совокупностях относятся обычно к виду или некоторым общим свойствам закона распределения исследуемого случайного вектора X в соответствующем пространстве и получаются либо из теоретических, предметно-профессиональных сооб- соображений о природе исследуемого объекта, либо как резуль- результат предварительных исследований. Получение выбороч- выборочной исходной информации в экономике и социологии, как правило, связано с организацией системы экспертных оце- оценок1 или с проведением специального предварительного этапа, посвященного решению задачи простой типологи- зации анализируемых объектов в пространстве результиру- результирующих показателей (см. выше пример В.1). Классификация задач разбиения объектов на однород- однородные группы (в зависимости от наличия априорной и предва- предварительной выборочной информации) и соответствующее рас- распределение описания аппарата решения этих задач по гла- главам и параграфам данной книги представлены в табл. В.4. Математическая модель, лежащая в основе построения того или иного метода снижения размерности, включает в себя обычно три основных компонента 1. Форма задания исходной информации. Речь идет об ответе на следующие вопросы: а) в каком виде (т. е. в виде (В.1), (В.Г) или еще каком-либо) задана описательная ин- информация об объектах? б) имеется ли среди исходных стати- статистических данных обучающая информация, т. е. какие- либо сведения об анализируемом результирующем свой- свойстве? в) если обучающая информация присутствует в исход- исходных статистических данных, то в какой именно форме она представлена? Это могут быть, в частности, в привязке к объекту 0{ (i = 1, 2, ..., я): значения «зависимой» ко- количественной переменной («отклика») yt в моделях регрес- 1 Меднко-бнологнческие н фнзнко-техннческне задачи имеют в этом смысле определенное преимущество там обучающие выборки можно получить с помощью специально организованного контроль- контрольного экспериментального исследования. Специфика же социально- экономических исследовании до последнего времени практически исключала возможность использования идей и методов контролиру- контролируемого и планируемого эксперимента До последнего времени потому, что проводящиеся сейчас в стране работы по созданию средств ма- машинного эксперимента в экономике [100] дают надежду на возмож- возможность осуществления подходов, основанных на активном экспери- эксперименте в экономике, уже в ближайшем будущем. 34
Таблица В.4 Априорные сведения о классах (генераль- (генеральных совокупностях) Некоторые самые общие предполо- предположения о законе распределения ис- исследуемого векто- вектора' гладкость, со- сосредоточенность внутрн ограничен- ограниченной области и т. п. Различаемые ге- генеральные сово- совокупности заданы в виде параметри- параметрического семейства законов распре- распределения вероят- вероятностей (парамет- (параметры неизвестны) Различаемые ге- генеральные сово- совокупности заданы однозначным опи- описанием соответ- соответствующих законов распределения Предварительная выборочная информация нет информации Классификация без обучения кла- кластер-анализ, так. сономня, распоз- распознавание образов «без учителя», иерархические процедуры класси- классификации (гл. 5, 7, 8, 10—12) Интерпретация ис- исследуемой гене- генеральной совокуп- совокупности как смеси нескольких гене- генеральных совокуп- ностей «Расщеп- «Расщепление» этой смеси с помощью мето- методов оценивания неизвестных пара- параметров (гл. 6) Классификация при полностью описанных клас- классах различение статистических ги- гипотез (гл 1) есть частично обучающие выборки Методы кластер- анализа, дополнен- дополненные осно- основанным на частично обучающих выборках выбором начальных приближе- приближений числа и центров классов, их ковариаци- ковариационных матриц (§ 7 3, гл. 9) Методы расщепле- расщепления смеси, дополнен- дополненные оцен- оценками, полу- полученными из частично обучающих выборок Модифика- Модификация мето- методов кла- стер-анали- стер-анализа (гл 9) есть обучающие выборки Непара мет- метрические методы д искр ими- нантного анализа (§ 3.2) Параметри- Параметрические ме* тоды днс- крнмннант- ного ана- анализа (гл. 2-4) Обучающие выборки не нужны 2* 35
сии; номер однородного по анализируемому свойству класса, к которому относится объект 0t в задаче классифи- классификации; порядковый номер (ранг) объекта 0t в ряду всех объектов, упорядоченных по степени проявления рассмат- рассматриваемого свойства, в задачах анализа предпочтений и по- построения упорядоченных типологизаций; наконец, значения Yi ~ (yi1^ •••> у\ч))' набора результирующих призна- признаков, характеризующих анализируемое в классификацион- классификационной задаче свойство (см. пример В.1I. 2. Тип оптимизируемого критерия /P'(Z) информатив- информативности искомого набора признаков Z = (г^1), ..., г^'))'. Как уже отмечалось, критерий информативности может быть ориентирован на достижение разных целей. Следует выделить целый класс критериев автоинформа- автоинформативности, т. е. критериев, оптимизация которых приводит к набору вспомогательных переменных Z = (zA>, ..., 2(p'>)', позволяющих максимально точно воспроизводить (в том или ином смысле, в зависимости от конкретного вида кри- критерия) информацию, содержащуюся в описательном массиве данных типа (В.1) или (В. Г). Если описательная инфор- информация представлена в виде матрицы «объект — свойство» (В.1), то речь идет о максимально точном восстановлении рхп значений исходных переменных х\1], х\2), ..., х\р) по значениям существенно меньшего числа (р'хя) вспомога- вспомогательных переменных г,A), ..., z\pK Если же описательная информация представлена в виде матрицы попарных срав- сравнений объектов (В. Г), то речь идет о максимально точном воспроизведении пг элементов этой матрицы atl (i, / = 1, ..., п) по значениям существенно меньшего числа (р'хя) вспомогательных переменных г,A),..., г\р) (i = 1, ..., п). Будем называть критериями внешней информативности (имеется в виду информативность, внешняя по отноше- отношению к информации, содержащейся в описательном мас- массиве (В.1) или (В. Г)), такие критерии lp> (Z), которые наце- нацелены на поиск экономных наборов вспомогательных пере- переменных Z (X) = (zW(X), ... z(P">(X))', обеспечивающих максимально точное воспроизведение (по значениям Z, а значит в конечном счете по значениям X) информа- 1 Перечисленные варианты не исчерпывают всех возможных форм представления обучающей информации. Так, например, при надлежащей интерпретации элементов atj матрицы (В.Г) она мо- может быть также отнесена к разновидностям обучающей информации (если, скажем, atj понимать как результат сравнения по анализиру- анализируемому результирующему свойству объектов 0t и 0}). 36
ции, относящейся к результирующему признаку (варианты ее задания перечислены выше, в п.1)). 3. Класс L (X) допустимых преобразований исходных признаков X. Вспомогательные признаки Z = (z'1', ..., ..., z(p'')' B случае представления исходной описательной информации в форме матрицы «объект — свойство» (т. е. в виде (В.1)) конструируются в виде функций от X, т. е. Z -- = Z (X). Как обычно в таких ситуациях, чтобы обеспечить содержательность и конструктивную реализуемость реше- решения оптимизационной задачи следует предварительно договориться об ограниченном клас- классе допустимых решений L (X), в рамках которого эта оптимизационная задача будет решаться. Очевидно, от вы- выбора L (X) будет существенно зависеть и получаемое ре- решение 7. (X) = (z^X), ..., z(p'> (X)) упомянутой оптими- оптимизационной задачи. Итак, следуя предложенной выше логике, мы должны были бы произвести типологизацию задач снижения раз- размерности по трем «входам» (или «срезам»): форме задания исходной информации, типу (смыслу) оптимизируемого критерия информативности и классу допустимых преобра- преобразований исходных переменных. Однако в предлагаемой ни- ниже форме представления результатов типологизации задач снижения размерности (табл. В.5) эти принципы реализо- реализованы в упрощенном виде за счет следующих двух практиче- практических соображений: 1) подавляющее большинство методов снижения размерности базируется на линейных моделях, т. е. класс допустимых преобразований L (X) — это класс ли- линейных (как правило, подходящим образом нормирован- нормированных) преобразований исходных признаков я'1', ..., *<р) (в книге нелинейным преобразованиям посвящены лишь § 13.6 и 17.3); 2) спецификация формы задания исходной информации связана со спецификацией смысловой нацелен- нацеленности критерия информативности, а поэтому их удобнее да- давать в общей графе. Данная в табл. В.5 типологизация, как и всякая иная классификация, не претендует на исчерпывающую полноту. Заметим, что пункт 9 этой таблицы повторяет, по существу, 1 Речь идет о нахождении (в виде функции от X) такого вектора Z (X) = (г(,1) (X), ..., г<р> (X)), который обращает в максимум или ми- минимум (в зависимости от конкретного содержательного смысла оп- оптимизируемого критерия информативности) значение 1р. (?). Поэто- Поэтому справа в данном соотношении записано extr («экстремум»). 37
Таблица В.5 Jfcn/п 1 2 3 4 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации АИ: максимизация содержащейся в г*1», .., z(p') доли суммарной вариа- вариабельности исходных признаков *<•>, .... х(р>. Описательная информация: в фор- форме (В.1). Обучающая информация: нет АИ: максимизация точности воспро- воспроизведения корреляционных связей между исходными признаками по их аппроксимациям с помощью вспомога- вспомогательных переменных г'1), .., г(р'>, Описательная информация: в фор- форме (В.1) Обучающая информация: нет АИ: разбиение исходных признаков на группы высококоррелнрованных (внутри группы) переменных и от- отбор от каждой группы фактора, име- имеющего максимальную интегральную характеристику корреляционных связей со всеми признаками данной группы Описательная информация: в фор- форме (В.1) Обучающая информация: нет АИ: приписывание каждому объекту О( значений условных координат BA(', . . , г'^^такнм образом, что- чтобы по ним максимально точно вос- восстанавливалась заданная структура попарных описательных отношении между объектами. Описательная информация: в фор- форме (В Г). Обучающая информация: нет Название соответст- соответствующих моделей и методов, главы и параграфы книги Метод главных компонент, гл. 13 Модели и методы факторного ана- анализа, гл. 14 Метод экстре- экстремальной группи- группировки парамет- параметров, п. 14.2.1 Многомерное шка- шкалирование, гл. 16
Продолжение Л п/п 5 6 7 8 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации АИ: максимальное сохранение задан- заданных описательным массивом (В.1) анализируемых структурно-геомет- рнческнх н вероятностных свойств после его проецирования в простран- пространство меньшей размерности (в прост- пространство, натянутое иа z(I», ..., z*p'', Р'<Р). Описательная информация: в фор- форме (В.1). Обучающая информация: нет "ВИ: минимизация ошибки прогноза (восстановления) значения результи- результирующей количественной переменной по значениям описательных перемен- переменных (предикторов). Описательная информация: в фор- форме (В1). Обучающая информация: в фор- форме зарегистрированных на объек- объектах 0\, ..., 0„ значений соответ- соответственно у\, ..., уп результирующего количественного показателя у ВИ: минимизация вероятностей ошибочного отнесения объекта к од- одному нз заданных классов по значе- значениям его описательных переменных Описательная информация: в фор- форме (В.1). Обучающая информация: для каждого описанного с помощью (В.1) объекта указан номер клас- класса, к которому он относится ВИ: максимизация точности воспро- воспроизведения (по значениям вспомога- вспомогательных признаков) заданных в «обучении» отношений объектов по анализируемому результирующему свойству. Описательная информация: в фор- форме (В.1). Название соответст- соответствующих моделей и методов, главы и параграфы книги Методы целена- целенаправленного про- проецирования н от- отбор тнпообразу- ющнх признаков в кластер-анализе, гл. 11, 18—21 Отбор сущест- существенных преднкто- ров в регрессион- регрессионном анализе, см. [11, §8.7] Отбор тнпообра- зующнх признаков в дискримниаит- ном анализе, § 1.4, 2.5, 2.6 Методы латеитно- структурного ана- анализа, в том числе построение неко- некоторой сводной ла- латентной характе- 39
Продолжение № п/п 9 Класс и смысловая нацеленность критерия информативности, форма задания исходной информации Обучающая информация, в фор- форме попарных сравнений нлн упорядочений объектов по анали- анализируемому результирующему свойству (см сноску к с. 36 о воз- возможности использования формы (В.1') для представления обуча- обучающей информации) ВИ: максимизация точности воспро- воспроизведения (по значениям условных вспомогательных переменных) за- заданных в «обучающей информации» попарных отношений объектов по анализируемому результирующему свойству. Описательная информация: нет. Обучающая информация: в фор- форме (В Г) (см. сноску к с. 36) Название соответст- соответствующих моделей и методов, главы и параграфы книги ристики изучаемо- изучаемого результирую- результирующего свойства, гл. 15 Многомерное шка- шкалирование как средство латент- но-структурного анализа, гл. 16 Примечание. АИ — автоинформативность, ВИ — внешняя ин- информативность. пункт 4, они отличаются только интерпретацией исходных данных вида (В.Г) и соответственно конечными приклад- прикладными целями исследования. В.4. Основные этапы в решении задач классификации и снижения размерности Целью данного параграфа является конкретизация сфор- сформулированных в [12, п. 1.1.3] общих рекомендаций по мето- методике проведения всякого статистического анализа данных. В этой конкретизации будем опираться на описанную вы- выше специфику задач классификации и снижения размерно- размерности, и в частности на имеющуюся теперь возможность вы- выбора подходящего типа практической задачи и соответствую- соответствующих ему конечных прикладных целей исследования (см. § В.2), а также подбора необходимого математического ин- инструментария (см. § В.З). Представим весь процесс решения задач классификации и снижения размерности в виде следующей схемы (рис. В.1) и прокомментируем ее. 40
Этап 1 Этап 2 Этап 3 Основные типы конечных прикладных целей исследования: см. задачи 1—6 табл. С.Зи п. I-IV§ B.2 Этап 4 \' Этап 5 Этап 6 Основные типы базовых математических моделей, используемых в задачах классификации и снижения размерности, и соответствующий матема- математический инструментарий: см табл. В 3 и В 4 Этап 7 М Этап 8 Прикладное про- программное обеспече- обеспечение методов клас- классификации и сниже- снижение размерности- см. гл. 21 Рнс. В.1. Схема поэтапного процесса решения задач классификации и снижения раз- размерности ~
Этап 1 (установочный). На этом этапе главную роль играет «заказчик», т е специалист той предметной области (экономики, социологии, i еоло! ии, медицины и т д ), к ко- которой относится решаемая задача На предметно-содержа- предметно-содержательном уровне должна быть сформулирована постановка задачи, включающая в себя характер научных или практи- практических выводов, которые требуется получить «на выходе» задачи (диагностический, прогнозный, аналитически!! и т. п.), описание предмета исследования, объектов статисти- статистического обследования, выделяемые для решения задачи ре- ресурсы (время, трудозатраты) и т. д. Этап 2 (постановочный) На этом этапе необходимо тес- тесное сотрудничество «заказчика» и «инструментальщика», т. е специалиста по прикладной статистике Отправляясь от выработанной на этапе 1 предметно-содержательной ус- установки на главные цели исследования, они должны сфор- сформулировать эти цели в терминах основных типов приклад- прикладных задач, рассматриваемых в теории статистических мето- методов классификации и снижения размерности (см. § В 2). Необходимым условием успешной реализации этого этапа (и соответственно всего последующего статистического ана- анализа) является полное взаимопонимание и согласие «заказ- «заказчика» и «инструментальщика» в принятом решении (что до- достигается далеко не просто). Этап 3 (информационный) Состоит в выработке и реа- реализации плана сбора исходной статистической информации (если ее не представил «заказчик» уже на этапе 1), в подроб- подробной аттестации этой информации (объяснение способа сбо- сбора, формы представления и т. п.), в вводе исходных данных в ЭВМ, их выверке и редактировании Этап 4 (априорный математико-постановочный). На базе выводов и информации, полученных в результате ре- реализации этапов 1—3, требуется осуществить предвари- предварительный (априорный, т. е. до проведения каких-либо рас- расчетов) выбор базовых математических моделей, которые це- целесообразно использовать в математической постановке данной конкретной задачи (см. § В 3). При этом факторами, от которых решающим образом зависит выбор, являются, как уже знаем, характер конечных прикладных целей ис- исследования, природа и форма исходных статистических дан- данных. Этап 5 (разведочный анализ). Этот этап составляют все- всевозможные методы предварительной статистической обра- обработки, «прощупывания» исходных данных с целью выяв- выявления специфики их вероятностной и геометрической природы ([12, гл. 10 и 111, а также гл. 18—21 данной книги). 42
«На выходе» этапа должны быть уточненные сведения о физическом механизме генерирования наших исходных данных, а значит, о базовой математической модели этого механизма. Этап 6 (апостериорный математико-постановочный). На этом этапе уточняется математическая постановка ре- решаемой задачи с учетом выводов, полученных на предыду- предыдущем этапе. Этап 7 [вычислительный). Производится вычислитель- вычислительная реализация намеченного использования выбранного на предыдущем этапе математического инструментария в решении задачи. При этом желательно воспользоваться ти- типовым программным обеспечением (см. гл 21). Этап 8 (итоговый). Анализируются и интерпретируются результаты проведенной статистической обработки (классы, факторы и т.п.). В зависимости от результатов этого анали- анализа (достигнуты ли все намеченные на этапе 2 прикладные цели исследования, насколько естественно интерпретируе- интерпретируемы полученные результаты, степень их достоверности и т. п.) либо формулируются окончательные научные или при- прикладные выводы, либо даются уточнения и дополнения к за- заданию и возвращаются к одному из предыдущих этапов обычно к этапу 3, 4 или 5). ВЫВОДЫ 1. Разделение рассматриваемой совокупности объектов или явлений на однородные (в определенном смысле) груп- группы называется классификацией. При этом термин «класси- «классификация» используют, в зависимости от контекста, для обо- обозначения как самого процесса разделения, так и его резуль- результата. Это понятие тесно связано с такими терминами, как группировка, типологизация, систематизация, дискри- дискриминация, кластеризация, и является одним из основопо- основополагающих в практической и научной деятельности чело- человека. 2. Переход от характеризующего состояние или функцио- функционирование некоторой совокупности объектов исходного массива данных к существенно более лаконичному набору показателей, отобранных из числа исходных или по- построенных с помощью некоторого их преобразования та- таким образом, чтобы минимизировать связанные с этим поте- потери в информации (содержавшейся в исходном массиве дан- данных относительно рассматриваемой совокупности объек- объектов), составляет сущность процесса снижения размерности. 43
Этот процесс использует, в частности, логику и приемы классификации, и сам в свою очередь используется в классификационных процедурах. 3. В ситуациях, когда каждый из исследуемых объектов или явлений характеризуется большим числом разнотип- разнотипных и стохастически взаимосвязанных параметров, и ис- исследователь имеет возможность получить, или уже полу- получил, результаты статистического обследования по этим па- параметрам целой совокупности таких объектов или явлений, для решения задач классификации и снижения размерности следует привлекать специальный математический инстру- инструментарий многомерного статистического анализа: дискри- минантный и кластер-анализ, методы расщепления сме- смесей распределений, методы иерархической классифика- классификации, многомерное шкалирование, главные компоненты, факторный анализ, целенаправленное проецирование мно- многомерных данных и т. п. Практическая реализация этих методов требует весьма сложных и трудоемких расчетов и стала возможной приблизительно лишь к середине нашего столетия, когда была создана необходимая вычислительная' база. 4. К числу основных методологических принципов, которые лежат в основе большинства конструкций многомерного статистического анализа, следует отнести: а) необходимость- учета эффекта существенной многомерности анализируе- анализируемых данных (используемые в конструкциях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков); б) возможность ла- лаконичного объяснения природы анализируемых многомерных структур (допущение, в соответствии с которым сущест- существует сравнительно небольшое число определяющих, подчас латентных, т. е. непосредственно не наблюдаемых, факто- факторов, с помощью которых могут быть достаточно точно описа- описаны все наблюдаемые исходные данные, структура и характер связей между ними); в) максимальное использование «.обу- «.обучения» в настройке математических моделей классификации и снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статис- «статистические фотографии» соотношений «входов» и «выходов» анализируемой системы); г) возможность оптимизационной формулировки задач многомерного статистического анализа (в том числе задач классификации и снижения размерно- размерности), т. е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого эк- зогенно заданного критерия качества метода. 44
Первые два принципа относятся к природе обрабатывае- обрабатываемых данных, а следующие два — к логике построения со- соответствующих аппаратных средств. 5. Среди типов прикладных задач (конечных прикладных це- целей) классификации следует выделить: 1) комбинационные группировки и их непрерывные обобщения — разбиение совокупности на интервалы (области) группирования; 2) простая типологизация: выявление естественного рас- расслоения анализируемых данных (объектов) на четко выра- выраженные «сгустки» (кластеры), лежащие друг от друга на не- некотором расстоянии, но не разбивающиеся на столь же уда- удаленные друг от друга части; 3) связная неупорядоченная ти- типологизация: использование реализованной в пространстве результирующих показателей простой типологизации в ка- качестве обучающих выборок при классификации той же со- совокупности объектов в пространстве описательных призна- признаков; 4) связная упорядоченная типологизация, которая от- отличается от связной неупорядоченной возможностью экс- экспертного упорядочения классов, полученных в пространстве результирующих показателей, и использованием этого упо- упорядочения для построения сводного латентного результи- результирующего показателя как функции от описательных пере- переменных; 5) структурная типологизация дает на «выходе» задачи дополнительно к описанию классов еще и описание существующих между ними и их элементами структурных (в том числе иерархических) связей; 6) типологизация дина- динамических траекторий системы: в качестве классифицируе- классифицируемых объектов выступают характеристики динамики исследу- исследуемых систем, например дискретные или непрерывные вре- временные ряды или траектории систем, которые в каждый мо- момент времени могут находиться в одном из заданных со- состояний. 6. Основные типы прикладных задач снижения размерно- размерности: 1) отбор наиболее информативной системы показателей (в задачах регрессии, классификации и т.п.); 2) сжатие больших массивов информации; 3) визуализация (наглядное представление многомерных данных); 4) построение услов- условного координатного пространства, в терминах переменных которого в некотором смысле наилучшим образом описыва- описываются и интерпретируются анализируемые свойства объек- объектов рассматриваемой совокупности. 7. При выборе подходящего математического инструмента- инструментария для решения конкретной задачи классификации следует исходить из согласованного с «заказчиком» типа конечных прикладных целей исследования и характера априорной и выборочной информации (см. табл. В.4); при определении 45
математической модели, лежащей в основе выбора метода решения задачи снижения размерности, следует идти от ти- типа прикладной задачи (см. предыдущий пункт выводов) к характеристике состава и формы исходных данных, а за- затем — к смысловой нацеленности и конкретному виду под- подходящего критерия информативности (см. табл. В.5). 8. Вся процедура статистического исследования, нацелен- нацеленного на решение задачи классификации или снижения размерности, может быть условно разбита на восемь эта- этапов (см. рис. В.1): 1) установочный (предметно-содержатель- (предметно-содержательное определение целей исследования); 2) постановочный (определение типа прикладной задачи в терминах теории классификации и снижения размерности); 3) информа- информационный (составление плана сбора исходной информации и его реализация, если ее не было уже на этапе 1, затем пред- предварительный анализ исходной информации, ее ввод в ЭВМ, сверка, редактирование); 4) априорный математике-по- математике-постановочный (осуществляемый до каких бы то ни было рас- расчетов выбор базовой математической модели механизма генерации исходных данных); 5) разведочный (специаль- (специальные методы статистической обработки исходных данных, на- например целенаправленное проецирование, нацеленные на выявление их вероятностной и геометрической природы); 6) апостериорный математико-постановочный (уточнение выбора базовой математической модели с учетом резуль- результатов предыдущего этапа); 7) вычислительный (реализация на ЭВМ уточненного на предыдущем этапе плана матема- тико-статистического анализа данных); 8) итоговый ( под- подведение итогов исследования, формулировка научных или практических выводов).
Раздел I. ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАННЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ Глава 1. КЛАССИФИКАЦИЯ В СЛУЧАЕ, КОГДА РАСПРЕДЕЛЕНИЯ КЛАССОВ ОПРЕДЕЛЕНЫ ПОЛНОСТЬЮ 1.1. Два класса, заданные функциями распределения 1.1.1. Критерий отношения правдоподобия как правило классификации. В настоящей главе наблюдение X' — = (хA), ..., х(р)) всегда является упорядоченным набором из р признаков-координат. Событие, что наблюдение извле- извлечено из /'-го класса, а также соответствующая гипотеза обо- обозначаются Hf, распределение вектора X, принадлежащего /-му классу (/ = 1, ..., k), обозначается Fj (...) == F (... \Hj), плотности вероятностей (вероятности) —соответствен- но /,(...) = /(-|Н,). Задача построения классификационных правил рассмат- рассматривается при двух способах задания распределений X в классах: аналитическом, когда непосредственно задаются Fj с помощью подходящей математической формулы, и вы- выборочном, когда распределения в классах задаются с по- помощью указания соответствующих генеральных совокупно- совокупностей. Сюда в принципе можно было бы отнести и случаи дискриминантного анализа с выборками настолько боль- большого объема, что выборочными флуктуациями используе- используемых статистик можно пренебречь (§ 1.3). Задача отнесения наблюдения X в один из двух ранее Известных классов / = 1,2 тесно связана с классической статистической задачей проверки простой гипотезы против простой альтернативы [11, § 9.3]. Например, гипотезы Ну: X ? F1 против гипотезы Я2: X 6 F2. Известно (лемма Ней- Неймана — Пирсона), что в достаточно широком классе си- ситуаций [88] среди всех возможных критериев с ошибкой первого рода а наиболее мощным, т. е. имеющим наимень- наименьшую ошибку второгорода р\ является критерий отношения правдоподобия, основанный на статистике M где L — функция правдоподобия [11, с. 269]. 47
При этом при у (X) < са принимается гипотеза Ни а при у (X) > са принимается гипотеза Н2. Таким образом, R — пространство возможных значений X — с помощью у (X) разбивается на две непересекающиеся области: Кг ==- {Х:у(Х) < са, X 6#}— область принятия Я, и /B = {X : v (X) > са, X ?/?} — область принятия Н.2, или, как принято говорить в статистической теории про- проверки гипотез, критическую область для гипотезы Нг. Пусть tcj = P {Hj} означает априорные вероятности ги- гипотез. Правило классификации *.MX) >1^(Яз A,2) называется байесовским. Очевидно, оио является частным случаем критерия отношения правдоподобия. Рассмотрим произвольный критерий проверки гипотезы Нг с критической областью (областью принятия гипотезы Я2) — К- Тогда по формуле полной вероятности 111, фор- формула D.14)] вероятность принять ошибочное решение Р {ошибка} = щР {ошибка |//х} + п2Р {ошибка |Я2}= -яЛМХ)<1Х + щ J f,(X)dX = щ f/1(X)dX + К к К + »Ч A - f /. (X) dX) = л2 + J (я,Л - Я2/2) dX. A.3) Интеграл в правой части A.3) принимает наименьшее зна- значение в случае, когда область К состоит из всех точек, где подынтегральная функция отрицательна, т. е. zt1f1 (X) < < я2/2 (X), но это и есть определение байесовского клас- классификатора. Таким образом, байесовский классификатор минимизирует вероятность принятия ошибочного решения. Как будет видно из последующего материала, большин- большинство используемых на практике алгоритмов классификации строится исходя из формулы A.1). При этом либо оценивают- оцениваются неизвестные параметры в предполагаемых теоретических распределений и вместо в в плотности подставляются оцен- оценки в и далее вычисляется оценка у (X) как 9 МХ'ва) . A.4) ) Л(Х, в,) Это так называемые параметрические методы построения алгоритмов классификации. Либо для данной точки X сра- сразу, мииуя оценку параметров в, строится оценка отноше- отношения f2 (X)/f1 (X). Это так называемые непараметрические методы. 48
Введем несколько моделей, используемых в теоретиче- теоретических исследованиях задачи классификации, и применим к ним критерий отношения правдоподобия для получения со- соответствующих критических областей. При этом удобно вме- вместо y (^0 использовать h (X) — In у (X). 1.1.2. Основные математические модели. Ниже, там, где это не вызывает недоразумений, для случайной величины и ее конкретного значения будет использоваться одно и то же обозначение X. Это позволит сделать формулы более обозримыми. При этом запись / (X) в случае непрерывного распределения X будет означать плотность распределения случайной величины X в точке X, а в случае дискретного распределения X — соответственно вероятность того, что случайная величина X примет конкретное значение X. Рассмотрим четыре основные модели. Модель двух дискретных распределений с независимыми координатами. В этом случае для /=1,2 L(X\Hj) - П Р(*<*>|Я,) =-- П Ы**>), A-5) *=1 а=1 и области принятия гипотез К] (} — 1, 2) имеют вид А(Я) = 2 а*(*(А))>с, A.6) где с — некоторая постоянная и = In (М**))//! (*<*>)). A-7) Естественно трактовать ak (jc(*>) как балл в пользу Н2 про- против Нх, приписанный соответствующему значению k-й координаты. Алгоритмы вида A.5) из-за их простоты и на- наглядности часто используют в практической работе, хотя служащая их основанием модель весьма искусственна. Что- Чтобы уменьшить влияние на результаты классификации несо- несоответствия модели данным, в формуле A.5) берут не все ко- координаты X, а только их подмножество jcAi>, ..., jc( '** (k <Z p), подбирая х 1 так, чтобы вместе взятые они оставались до- достаточно информативными в отношении различения Н1 и Н2 и зависимость между ними (при фиксации гипотезы Н} (j — 1, 2) была небольшой. Кроме того, для уменьшения эффекта зависимости при определении баллов ак (л;(*>) (оцифровке значений jc(*>) для зависимых координат отступают от формулы A.7), подбирая ak (jc(*>) так, чтобы оптимизировать выбранный показатель качества классифи- классификации среди всех правил вида A.6). 49
Разность ожидаемых значений ah (x(/'>) при Я2 и Я,: Л -Е(ah (*<*>)| Я2)-Е(а„ (xW)| Я,) = где суммирование проводится по всем возможным значениям jt<*>, рассматривают в качестве параметра, характеризую- характеризующего среднюю информативность k-ik координаты в различе- различении гипотез Нх и Я2- Основание для этого обсуждается в п. 1.2.4. Модель двух дискретных распределений с одной и той же древообразной структурой зависимостей координат (ДСЗ- распределеиий). функция правдоподобия для ДСЗ-распре- делений имеет вид [12, § 4.2] L(X\Hj)^ ft =-- П Ы*(/I*D(/))). U-9) где a = (a A), ..., а{р)) — некоторая перестановка коорди- координат вектора X, 6 (а(/)) Е {0, аA), .... a(t —1)} и k(...)=0 соответствует фиктивной координате дг<0) = 1. Применение критерия отношения правдоподобия дает области /^ (/ =1, 2) вида *(*)= I ЬЛх<!\ *<*<'») ^«, A.10) где 6, (И, ») = ln/,tJ((n(tt|jK<*(/))-.= t,)_ -In/1( 40 И *<*<!» «о). A.11) Если координаты X (при фиксированной гипотезе Ях или Я2) независимы, то оцифровки A.7) и A.11) совпадают. В ли- литераторе встречаются указания на большую практическую эффективность правил классификации, основанных на фор- формулах A.10) и A.11), по сравнению с классификацией с по- помощью формул A.6) и A.7) 1127]. Модель двух нормальных распределений с общей ковари- ковариационной матрицей (модель Фишера). Теоретические рас- распределения в этом случае суть N (Mi, 2) и N (М2, 2), при- причем |2| > 0. Правило классификации, соответственно /(i и /С2. определяется с помощью неравенств ^-1(M2-M1)^c. A.12) 50
Особенность модели Фишера состоит в том, что это простей- простейшая математическая модель, допускающая произвольную ковариационную матрицу координат 2, лишь бы только она не была вырожденной. Необычайно просто выглядит в мо- модели и граница между областями принятия гипотез Нх и #2. Это гиперплоскость в уо-мерном пространстве, касатель- касательная в одной и той же точке к одной из линий постоянного уровня плотности N (М,, 2) и одной из линий постоянного уровня плотности N (М2, 2) (рис. 1.1). „B) Рис. 1.1. Классификация плоскостью двух нормальных распределений с общей ковариационной матрицей Модель двух нормальных распределений с разными кова- ковариационными матрицами. Распределения в этом случае суть Области /С, и > 0, / = 1, 2. определяются выражением A.13) + ln(|21|/|22|)Jc. A.14) Здесь h (X) — полином второго порядка от координат X. 1.1.3. Классификация посредством задания границы кри- критической области. Как показано в предыдущем пункте, для основных статистических моделей граница, разделяю- разделяющая Ki и /С2 — области принятия соответственно Нх и Н2, выглядит достаточно просто. На практике в случаях, когда исходные распределения отличаются от базовых моделей, рассмотренных в предыдущем пункте, пренебрегают возмож- возможностью повышения эффективности классификации за счет точного следования критерию отношения правдоподобия A.1) и ограничиваются областями принятия гипотез с гра- 51
ницами, принадлежащими какому-либо простому малопара- малопараметрическому семейству. При этом по-прежнему остается за- задача поиска критерия, наилучшего в заданном смысле (см. п. 1.1.4) среди допустимых (предположениями о границе) об- областей. Классификация посредством линейной гиперплоскости. Рассмотрим модель A.13) двух нормальных распределений с различными средними и ковариационными матрицами и по- попытаемся найти гиперплоскость h (X) = V'X + v0 = О та- такую, чтобы критерий вида A.15) минимизировал ошибку классификации второго рода р* при заданной ошибке классификации первого рода а [178]. Вве- Введем необходимые обозначения. Пусть для /==1,2 aj=E(h(X)\Hj)=V' E(X[Hj)+vo = V M} + v0, A.16) о?= E{lh(Х)-а,)* | Hj}= V ЕЦХ-Mt) (X-M,)' | H,) V= = V'2jV. A.17) Поскольку линейная комбинация нормально распределен- распределенных случайных величин распределена нормально, из A.15) — A-17) следует, что A.18) A.19) t где Ф«) = Bл)-'/2 С exp{—u2/2}du. — а» Для отыскания V и v0 воспользуемся методом множителей Лагранжа. Пусть ф = Ф (—a2la2) + I A — Ф(— ах1ох)— jr-a), тогда ¦|L= Ф (-0,70.) S- (-ajoj -ЯФ i-aJoJ-L- (-e./o,)= = Ф (—аъ/ог) (М2 — а2 02* 22 V)/a2 — АФ (—OiM) X x(A«1-a1<rriS1V)/o1=0; A.20) = 0; A.21) A.22) OK 52
Исключив из уравнения A.20) с помощью уравнения A.21) множитель к, получаем Ma~^i=[o2aF2S2—fljOr'SJF. A.23) Предположим для простоты, что хотя бы одна из матриц 2у Q = 1, 2) положительно определена и что аир меньше 0,5. Тогда, как нетрудно видеть, ах <С 0, а2 > 0, матрица, стоя- стоящая в квадратных скобках в правой части A.23), положи- положительно определена и имеет обратную. Воспользуемся послед- последним обстоятельством для решения системы A.20) — A-22). Обозначим Ъ = a2a^2 — axa72, s = — а^2/Ь. В сделанных выше предположениях 6>0 и 0<s<l. Из A.23) сле- следует, что V = b-1 [s\ + A — S) Sj-i (М2- MJ. A.24) Далее, заменив а?(/ = 1, 2) по формулам A.16) в опреде- определении s, получаем г>0 = —(sa? V M2+(l — s)a! V AfJ/f»? + A— s)ol). A.25) Вычислительная процедура теперь может быть следующей: 1) для каждого 0<С s<C I при Ъ = 1 вычисляется зна- значение V (s) по формуле A.24) и далее последовательно по формулам A.17), A.25), A.16), A.18), A.19) находятся a} (s), Щ (s), aj (s), a (s), p (s); 2) на двумерной плоскости (и, v) строится график кри- кривой и = a (s), v = р (s) @ < s< 1); 3) пусть этот график пересекается с прямой и = а при s = s0. Тогда ^искомый критерий )(So) и P = p(s0). A.26) Достоинство этой процедуры состоит в том, что для на- настройки используется только один параметр s, а не р + 1 параметров, как при поиске решения напрямую в простран- пространстве (У, v0). Одновременное приведение к диагональному виду матриц 2Х и 22 в начале работы дает дальнейшую эко- экономию общего объема вычислений. Кусочно-линейные классификаторы. Пусть пространство наблюдений Rp разбито на k взаимно непересекающихся подобластей Rt (i = 1, ..., k): Ri[)Rj= 0 для 1ф\ и U Rt = RP; ht (X) = V'iX + vi0, i = 1, .... k, — уравне- уравнения линейных плоскостей. Классификатор вида t X)^ O^f2, где t=t:X?Rh A.27) будем называть кусочно-линейным [44, с. 94—95]. 53
Один из приемов приближенного малопараметрического описания многомерных распределений заключается в том, что их представляют в виде конечной смеси однотипных нор- нормальных законов, отличающихся только параметрами сдви- сдвига 1> A.28) илн Р(и)хЪщЫ(и, Аи S) Bш,= 1). A.29) При применении преобразования Y = 2~1/2ХA.29) сво- сводится к A.28). В практической работе наиболее часто исполь- используется представление A.28) [166, 168, 1691, при этом векто- векторы называют центрами или эталонами. Рассмотрим задачу классификации распределений F (U) = 2ш„ N (U, Аи 1р) (гипотеза Нг) н G(U) = Zwj2N(U, Bjt lp) (гипотеза Я2). Оптимальный критерий согласно A.1) должен задаваться с помощью у (X) = 2шу,ехр{-(Х-В7)'(Х-В7J) A щ 2wexp{ (XA)' (XAJjZ) ' На практике часто оставляют в суммах в числителе и знаме- знаменателе A.30) по одному слагаемому, для которого соответст- соответствующий эталон наиболее близок к X, пренебрегают разли- различиями в весах wt. При этом наблюдение X относится к той популяции, к наиближайшему эталону которой оно ближе. Полученный классификатор называется кусочно-линейным классификатором по минимуму расстояния. Разделяющая поверхность в этом случае является кусочно-линейной, со- состоящей из кусков гиперплоскостей. Вид разделяющей по- поверхности может быть разнообразным и зависит от взаим- взаимного расположения классифицируемых совокупностей (рис. 1.2). Статистические вопросы, связанные с применением к мо- моделям A.28) описанного выше кусочно-линейного класси- классификатора, исследовались в [168, 169]. 1.1.4. Функция потерь. В предшествующих томах справоч- справочного издания [11, 12] уже неоднократно сталкивались с ме- методическим приемом, когда для характеристики решения не- некоторой статистической задачи вводится подходящая функ- функция потерь Q, а наилучшее (в смысле Q) решение определяет- определяется как решение, на котором при заданных ограничениях до- достигается минимум Q. Укажем основные функции потерь, ис- 54
# Эталон Граница критических областей J"\ . Рис. 1.2. Разделяющая поверхность кусочно-линейного классифика- классификатора по минимуму расстояния для трех случаев расположения классов 55
иользуемые в задаче классификации двух статистических распределений. Вероятность ошибочной классификации (б). Пусть, как в п. 1.1.1, nt ¦— априорная вероятность гипотезы Н} (/ = = 1,2), тогда 2 б =Р{ошибка} = ^ луР{ошибка|Я/} = л1а+я2р. A.31) Ввиду важности введенного понятия дадим его параллель- параллельное определение. Пусть у = j в случае, когда верна гипотеза Hj (/ = 1, 2), и у (X) — решающая функция, которая тоже принимает два значения: у (X) = /, когда принимается ги- гипотеза Н}, тогда б может быть определена так же, как где математическое ожидание берется с учетом априорного распределения гипотез. Частный случай формулы A.31), получаемый при л} = — 0,5, дает полусумму ошибок (а + р")/2. Как увидим в сле- следующем параграфе, эта величина является удобной мерой разделения статистических совокупностей в случае модели Фишера. На практике ошибки первого и второго рода не всегда эквивалентны. Так, например, при диспансеризации на- населения пропуск возможного заболевания более опасен, чем ложная тревога. Так возникает взвешенная ошибка класси- классификации A.32) где cj — штраф за ошибку, когда верна гипотеза Hj (j = = 1,2). Пусть у и у (X) определены как выше и пусть тогда по аналогии с A.31') Q = Efc,.e,(X). (Ь32') С точностью до постоянного множителя A.32) эквивалентно A.31), но с другим априорным распределением n't = 2 56
На практике используются также функции потерь, за- зависящие не только от у и его оценки у (X), но и от условной вероятности Р {у =• у\Х) [238]. Потому что одно дело — до- допустить ошибку там, где сомневаешься в ответе, другое — там, где уверен. Простейшая функция потерь, завися- зависящая от условной вероятности, имеет вид: q(y, y(X),h(X)) = )<-а, если _Л(Х ~а,у=1, .*ИЬ?. а-Д<Л«)<а, у = 2, I 0 в остальных случаях, где О <С а < А — некоторые постоянные, а Л(Х) - = In (n2P{j} = 2\ХIщР$ = \\Х}). 1.1.5. Другие многомерные распределения. В теоретиче- теоретических и прикладных работах по классификации использует- используется ряд многомерных распределений, в различных направле- направлениях обобщающих многомерное нормальное распределение и его частные случаи. Укажем наиболее важные из них. Эллипсоидальные распределения. Пусть \ ? Rp равно- равномерно распределено на /7-мерной сфере Ср = {X : ХтХ=р}; т] — неотрицательная случайная величина, не зависящая от | и имеющая строго возрастающую функцию распределения F (и) такую, что J u2F (du) =1; А ? Rp; В — матрица невырожденного линейного преобразования Rp и S = = В В'. Будем говорить, что случайная величина С = т|.В| + Л A.33) имеет эллипсоидальное распределение El (А, 2, F). Осно- Основанием для названия служит то, что, как и для нормального распределения, на концентрических эллипсоидах вида (X—АуЪ-ЦХ—Л) = const, A.34) где А = Е?и2= Е (? — А)(? — А)', плотность распреде- распределения ? постоянна. В частном случае, когда рц2 имеет ^-распределение с р степенями свободы, распределение ? совпадает с нормальным Af (A, 2). Это обстоятельство ис- используется при статистическом моделировании случайных величин |. Так, если ? ? JV (О, 1Р), то | = Ур ?/(?'?I/2 равномерно распределено на Ср 57
В модели независимых выборок из El (Mlt 2, FJ и El {M2, 2, F2) при дополнительном предположении сущест- существования плотностей fj (и) = dFj (u)/du отношение правдопо- правдоподобия имеет вид: где (j^iX-MjYZ-^X-Mj), / = 1, 2. Откуда при /2 (и) = /х (и) = / (и) в случае, когда Ы7Р х X f(ua)f(u^'pf(u1)) — монотонная функция разности и\ —и\, общий вид классификатора максимального правдоподобия такой же, что ив A.12). Сохраняется также и способ нахож- нахождения наилучшей разделяющей плоскости в модели незави- независимых выборок из El (Mlt 2Х, FJ и El (M2, 22, F2), МхфМ2, 2Х ф 22 (см. п. 1.1.3 и [25]). Распределения, трансформируемые к нормальному. Пусть координаты вектора ? = (?A), ..., t(p))' имеют непре- непрерывные одномерные функции распределения F} (и) — = P{^i"> <С и} с плотностями соответственно fj (и) — = dF} (u)/du (j — 1, ..., р). Будем говорить, что ? имеет трансформируемое к нормальному (короче, Т-нормальноё) распределение NT(X, 2, F), где 2 — (рх/^-неотрицательно определенная матрица, a F' (Х)==(/='1 (хA)), ..., Рр ( вектор-функция одномерных распределений X, если 2), и где Ф — функция, обратная Ф (и) = Bл)~1/2 | ехр {— о2/ —-оо /2} dv. Введем р одномерных функций tj (и) = Fj1 (Ф (и)), тогда Т-нормальное распределение можно также опреде- определить как распределение вектора Z, — (<х (|A)), ..., fp (?<р)))', | (?A> Е(р)) € # @, 2). Обозначим плотность Т-нормального распределения (X, 2, F). Предположим, что |2| ф 0, и пусть /<"> (Х)= 2 Ч (X, 2, F)= |2|-'/2 ехр {- (Ф-HF (Х)))' X -1 - 1Р) (Ф-1 (F (Х)))/2), тогда <рТ(Х, 2, F) = 9(X, 2, F)./W(X). A.35) Пусть |lf .... |„ — независимая выборка объема п из JVT (S, F), lil) — t'-я координата fc-ro наблюдения, гг (Л) — 58
ее ранг в вариационном ряду i-x координат |<г>A)«<... .. < 6@ (/)< ... < ЦП („). R (п) = |1 гг (k) У—(р х п)-матрица рангов и B(n) = j|?(f) (/)|j — (рхп)-матрица вариационных рядов. Замечательная особенность Т-нормальных распределений заключается в том, что для оценки F надо использовать толь- только матрицу S (п), а для оценки 2 — только матрицу R(n) [194]. Сформулированные выше модели выборок из нормаль- нормальных распределений обобщаются на случай Т-нормальных распределений. Так, аналог модели Фишера (см. п. 1.1.2) формулируется: даны две независимых выборки из NT B, Fi) и NT B, F2), при этом известно, что для всех X где L = GA> /(р))' — некоторый ненулевой вектор, и матрица 2 положительно определена. Распределения с простой структурой связей между при- признаками. С простейшей моделью дискретных распределений с признаками, имеющими древообразную структуру зависи- зависимостей, познакомились в п. 1.1.2. Эта модель, естественно, может быть усилена предположением, что признаки имеют R (^-распределение [12, § 4.4]. Однако без дополнительных предположений общий вид у (X) для k > 1 слишком сло- сложен. Вместе с тем предположение о R (&)-зависимости при- признаков для нормальных распределений позволяет заметно уменьшить число параметров, от которых зависит ковариа- ковариационная матрица, и это дает существенный выигрыш в ряде задач (см. пп. 1.4.1, 2.3.1 и 2.3.3). Другое обобщение моделей с независимыми признака- признаками—это параметрические модели, в которых вектор парамет- параметров 0 и вектор наблюдений X могут быть так разбиты на k взаимно непересекающихся подмножеств 0' = {б*1)',..., и X'-JXW' X<*>'}, что плотность /(X, 0)=Д/г(х«>,е«>). A.36) Распределения, удовлетворяющие A.36), будем называть распределениями с независимыми блоками. Они широко ис- используются в теоретических исследованиях (см. пп. 2.3.2 и 2.5.3). 59
1.2. Характеристики качества классификации Как уже выше сказано, с математической точки зрения зада- задача классификации наблюдения X в одно из двух известных распределений Fj (/ = 1, 2) сводится к проверке простой гипотезы «X принадлежит Fx» (или, короче, «X ? Fx») против простой альтернативы «X принадлежит F2». Известно 111, § 9.2—9.4], что качество решения в этом случае описы- описывается ошибками первого и второго рода. Однако ввиду вы- высокой содержательной важности рассматриваемой задачи на практике используются более сложные формы заключений, такие, например, как трехградационное решение «X ? /ч». «отказ от классификаций», «X ? F2* или указание условной вероятности PIXGFjIX}. Соответственно видоизменя- видоизменяются и показатели качества классификации. В общем слу- случае статистический критерий классификации может быть представлен в форме у (X) g= с, где у — известная функция X, ас — порог критерия. При изложении материала этого параграфа наряду с нейтральной математической терминоло- терминологией будет использоваться терминология, «окрашенная» спе- спецификой конкретных приложений. 1.2.1. Случай простого правила. Будем для удобства назы- называть объекты первой совокупности «случаями» (случай бра- брака, случай заболевания и т. п.), а объекты второй совокупно- совокупности—«не-случаями». Пусть далее принимается гипотеза, что объект с характеристикой X является случаем, если у (X) <С < с, и гипотеза, что объект является не-случаем, если У (X) > с Результаты классификации изучаемой группы объек- объектов удобно представить в виде табл. 1.1, в которой ука- указано число объектов, удовлетворяющих условиям, наложен- наложенным на соответствующие строки и столбцы. Таблица 1.1 Результат применения критерия Принимается гипотеза «случай» у(Х)<с Отвергается гипотеза «случай» у(Х)^с Всего Стат>с объема «случай» №) а е а+е «не-случай» №) Ь f Всего а+Ь e+f л 60
В практической (особенно медицинской) работе широко используют следующие характеристики, получаемые с по- помощью чисел, определенных в табл. 1.1. Частота случаев — (а + еIп. Чувствительность критерия в обнаружении (предска- (предсказании) случая а/(а + е), т. е. доля случаев, для которых у (X) <с. С чувствительностью связано введенное ранее понятие ошибки первого рода (а) в проверке гипотезы, что изучаемый объект есть случай. Чувствительность = 1—а. Специфичность критерия — fl(b + /), т. е. доля не-слу- чаев, для которых у (X) > с. Специфичность равна 1 — р*, где р" — ошибка второго рода в проверке гипотезы, что изучаемый объект случай. Относительный риск — отношение вероятности быть случаем при условии, что гипотеза «случай» принята, к ве- вероятности быть случаем при условии, что эта гипотеза от- отвергнута Д = ±^ Доля ложноположительных — Ы{а + Ь), т. е. доля не- неслучаев среди объектов, признанных случаями. Доля лож неотрицательных — е/(е + /), т. е. доля слу- случаев среди объектов, признанных не-случаями. Среди введенных характеристик только три независи- независимых, остальные могут быть получены из них простым пере- пересчетом. Представляется целесообразным выбрать в качестве ведущих частоту случаев (как параметр, связанный с выбо- выборочной схемой) чувствительность и специфичность (как параметры, связанные с разделимостью распределений слу- случаев и не-случаев) или, что то же самое, частоту случаев и ошибки первого и второго рода. Никакие две из указанных характеристик не дают полного представления о ситуации. В прикладных исследованиях об этом часто забывают и со- сообщают только общий процент ошибочных диагностических заключений. При этом близость к нулю этого процента при низкой частоте случаев вообще не гарантирует высокую чувствительность критерия. Неполные наборы характери- характеристик встречаются даже в высшей степени интересных рабо- работах [49, с. 262]. 1.2.2. Изменение порога критерия. Часто в приложениях возникает необходимость описать качество классификации, достигаемое с помощью заданной функции у (X) при раз- различных значениях с. Для этой цели достаточно привести одно число — частоту случаев и одну кривую — график «чувствительность — специфичность». Предположим теперь дополнительно, что имеет место классическая модель Фишера (см. п. 1.1.2), в качестве у(Х) 61
используется логарифм отношения правдоподобия. В этом случае у (X) является линейной функцией X и, следователь- следовательно, для случаев и не-случаев у (X) имеет нормальное рас- распределение с одной и той же дисперсией. Обозначим ее а2 и пусть »/о. A.37) жкю 70 80 90 100 Чувствительность, % Рис. 1.3. Кривые «чувствительность — специфичность» для различных значений d (модель Фишера) Тогда кривая «чувствительность — специфичность» (рис. 1.3) в параметрической форме имеет вид A.38) ~O«_d), Ф@), где Ф (t) — функция распределения стандартизованной нормальной величины. Если изменить масштабы по оси абсцисс и ординат по формулам и — ty (x), v = г|) (у), где 62
tp— функция, обратная к Ф, то кривая A.38) перейдет в прямую (d—t, t), -oo<t<oo. A.38') В самом деле, и = грA-Ф<*—d))=— tp(O(/ — d))= — (t—d); Существует специальная бумага, называемая двойной нор- нормальной, на которой описанное выше преобразование выпол- выполнено. Кривые на ней распрямляются (рис. 1.4). Когда рас- распределения у (X) для случаев и не-случаев по-прежнему нормальны, но имеют разные стандартные отклонения, кривая «чувствительность — специфичность» на двойной нормальной бумаге будет опять прямой, причем если ср — угол ее наклона к оси абсцисс, то отношение стандартного отклонения случаев к стандартному отклонению не-случа- не-случаев равно |tg ф| Опыт показывает, что кривые «чувствительность — спе- специфичность», построенные по реальным данным, при нане- нанесении их на двойную нормальную бумагу часто распрямля- распрямляются хотя бы в своей центральной части. Это дает возмож- возможность в интересующем исследователя диапазоне чувстви- чувствительности (специфичности) характеризовать приближенно разделяющую силу используемого критерия у (X) одним числом d. 1.2.3. Условная вероятность быть случаем. В исследовани- исследованиях, направленных на выявление риск-факторов стать за фиксированное время случаем, принято разбивать исход- исходные объекты на несколько частей равного объема согласно увеличивающемуся риску стать случаем и для каждой части указывать соответствующую долю случаев [277, 322]. Если дополнительно предположить, что распределения для слу- случаев и не-случаев приближенно нормальны с общей диспер- дисперсией, то по заданному значению d и частоте случаев легко найти распределение доли случаев для разбиения изучаемой популяции согласно риску быть случаем. В табл. 1.2 часто- частота случаев указана для квартилей риска. Подобные таблицы можно использовать и в обратном направлении: по данной частоте случаев и долям случаев в квартилях (или децилях) найти соответствующее d. Аналогично, если при классифи- классификации используется трехградационное правило («объект является случаем», «отказ от классификации», «объект явля- является не-случаем»), известны частоты принятия каждого из решений и соответствующие частоты ошибочных заключе- 63
в тасч о <о о — та -ч< о о о та оооо о" о" о" о" юоо<- . О — Ю СЧ о оо та оооо СО Ю СО ¦"* о сч со о о о о та оооо оооо" СЧ -ЧЧЛ 00 — та t~- f- OOOIN ОООО Г-- CM CO CO ююол oooo oooo о о Ю f- -Ч< -Ч< — СОСЧ О) о о о — oooo сч о со о оопю о о о — сч г^ сч t-~ ¦ч< та ¦¦* <т> О — СО -ч< о о о — ! ¦¦* О О ! СО ОЮ ! — ¦* ео ) ОО — ^- СО СЧ о та ю — сч -ч<сч о оо — со t^ сч сч — СЧ Tj< О ооо — оооо SSS8 о* о" о" о эсо - . . )S оооо }СЧ СО О > о ота сч -ч< та — о та f~ со оо осч * ото — ¦* СО Ю ооосч — 010И сч ю С71 та ооо сч о о —сч о о" о о о 9 Tj« CD О ) СО О1Я 4J-O (ОО Q0 55 •*•¦ sgooi с?" о о о о о г- -ч<ю •* со сч та ю СЧ 00 —00 ^ ^ •""¦ СО о о •—¦ ю -JOtOO сч f- со — оо —ш та оо со <Ю 00 — о о ^ — СО ОСЧ OlOSCO lO — О СЧ О •—' СЧ Tj< ю сч со t^ о — <м та о со coo ю ю ю сч аил — та о —сч та —ai оо тата со — — сч сч оооо" — СЧСО-* ON(J со о ота о со со ai Кс оос Ос ^ сч оо та ^5 со CD Ol сч со та t^ — та со со оооо г~ сосч та О!И?» Оэ сч со — О — со <у> СЧ т*« 1Л Г~ ю о о ю t^ со со сч СС*Ю(О cgtco со со «э СО 00— « оооо — ечсо •* S о 64
ний, то опять, зная общую частоту случаев в тех же пред- предположениях о распределениях у (X) для случаев и не-слу- чаев, можно оценить d. Верны и обратные утверждения для известных d и частоты случаев: 1) для заданных частот каж- каждого из трех решений можно рассчитать соответствующие 97 95 90 С 80 \ \ \ \ \ \\ 70- 60- \ \ 60 70 80 90 Чувствительность, % 4.0 3,8 3.6 3.4 3,2 3,0 2,8 2.6 Рис. 1.4. Прямые «чувствительность — специфичность» различных значений d (модель Фишера) на двойной wальной бумаге ДЛЯ нор- вероятности ошибок или 2) для заданных вероятностей оши- ошибок найти частоты соответствующих решений. Таким образом, при известной доле случаев и дополни- дополнительных предположениях о распределении у (X) величина d является очень удобной характеристикой разделения, позво- позволяющей придать результатам классификации самую разно- разнообразную форму: от графиков «чувствительность— спе- специфичность» до доли случаев в квартилях риска и доли оши- 3 Заказ № 291 65
бочных заключений при заданном числе отказов от решения. Желательна определенная стандартизация представления результатов классификации. Величина d, определенная гра- графически с помощью двойной нормальной бумаги, может служить универсальным эмпирическим параметром, харак- характеризующим разделимость распределений. 1.2.4. Аналитические меры разделимости распределений. Пусть в модели Фишера (см. п. 1.1.2) d определено как в A.37), тогда с учетом A.16) и A.17) из A.12) получаем di^(M2-M1)'I,-1(M2 — M,). A.39) Для невырожденных многомерных нормальных распределе- распределений с общим 2 величина d2, определенная формулой A.39), называется расстоянием Махаланобиса между распреде- распределениями [16J. Она обладает следующими важными свойст- свойствами: в задаче Фишера d однозначно определяет кривую «чув- «чувствительность — специфичность». При этом минимаксная ошибка классификации с помощью критерия отношения правдоподобия выражается формулой min max (а, р\) = Ф ( — d/2), а т. е. чем d больше, тем минимаксная ошибка меньше. При d = 0 ошибка равна 0,5 и соответствующие распределения совпадают; если в задаче Фишера случайные векторы Z,' — (Х\, Y\) (t = 1, 2) состоят из двух взаимно независимых векторов Xt, Y,, то сР(гъ Zt) d*(Xv Xj+cPiY^YJ. A.40) Свойство A.40) называют аддитивностью по отношению к независимым компонентам; если X г t N (М,, S) (i = 1, 2, 3) |S|#0, то й(Хъ X,)<d(Xlt X2) + d(X2, X,) A.41) (неравенство треугольника). В качестве обобщения расстояния Махаланобиса на про- произвольные распределения в теоретических работах широко используется дивергенция (в [91J расхождение) или, как еще иногда говорят, расстояние Кульбака между распределе- распределениями с плотностями fi (i = I, 2) J = J (h (X) -h (X)) In (h (X)fft W) dX. A.42) В модели Фишера J = d2. Аналогично расстоянию Махала- Махаланобиса: У — 0 только тогда, когда распределения совпа- 66
дают; / также аддитивно по отношению к независимым ком- компонентам и инвариантно относительно любого взаимно однозначного отображения координат. Какого-либо прос- простого аналога A.40) в литературе не приводится. Другой мерой разделимости распределений является расстояние Бхатачария [160, гл. 91 B=-ln$(fL{X)-ft{X))WdX. A.43) Оно также инвариантно по отношению к взаимно одно- однозначным отображениям координат, аддитивно по отноше- отношению к независимым компонентам, обращается в ноль при /х = /2. В случае модели Фишера A.44) и в общем случае двух нормальных распределений A.13) A.45) С помощью расстояния Бхатачария удается оценить сверху среднюю ошибку классификации при использовании крите- критерия отношения правдоподобия Более подробно эти вопросы обсуждаются в I189J и [160, гл. 3 и 9]. 1.3. Два класса, заданные генеральными совокупностями В параграфе рассматривается случай, когда классы описаны путем указания всех входящих в них наблюдений. Введен- Введенные ранее понятия — такие, как отношение правдоподобия, различные характеристики качества классификации, могут быть определены и в этом случае. Для описываемых ниже правил классификации подход с явным указанием возмож- возможных наблюдений более естествен. Эти правила (см. п. 1.3.2 — 1.3.5) не опираются прямо на отношение правдоподобия, но в простых случаях дают хорошее приближение к реша- решающему правилу, построенному на его основе. Интерпрети- Интерпретируемость полученных формул классификации часто служит з* 67
залогом их успешною применения. В этом смысле выделя- выделяются древообразные алгоритмы (см. п. 1.3.2), методы поиска характерных закономерностей (см. п. 1.3.4) и определение областей компетентности нескольких правил (см. п. 1.3.5). 1.3.1. Вычисление основных показателей. С целью боль- шеи преемственности обозначении с последующими главами зададим классы с помощью последовательности пар (Х„, у„), k=\, 2, ..., л}, A.46) где Xh — вектор возможного значения наблюдения, а ук — 1, если Xk принадлежит первому классу, и yh — 2, если второму. Будем считать также, что новые наблюдения извлекаются наудачу и независимо друг от друга из ряда A.46). Таким образом, априорная вероятность гипотезы Hj (j —1, 2) Я; = P{y = j} = 2 1/л; функция распределе- ния X при гипотезе Hj будет F {Z | #,-)= 2 ^nJ> k-yk=i. xk<z где П) — 2 1- Использованная при суммировании запись Xh<d Z означает, что для всех 1 < i < p имеем x[l) < z(/). Отношение правдоподобия в точке X 2 1'пЛ О-1') ) Ряд излагаемых ниже методов опирается на функции по- потерь, введенные в п. 1.1.4. Они легко могут быть оценены по ряду A.46). Так, например, определенная с помощью фор- формул A.31) и A.3Г) вероятность ошибочной классификации запишется k= 1 В дальнейшем будем широко оперировать понятием услов- условного математического ожидания, каждый раз подразумевая, что читатель самостоятельно может перейти от формулы ти- типа A.31') к A.31"). 1.3.2. Древообразные классификаторы. В основе описывае- описываемой ниже группы методов лежит понятие бинарного дере- дерева— графа. Эти деревья принято изображать в переверну- перевернутом виде: корень — сверху, листья — внизу (рис.1.5), при этом Под словом «корень» понимаем самый верхний узел (вершину) графа, а под словом «лист» — узел, из которого т
вниз не выходят стрелки к расположенным ниже узлам. С каждым узлом / дерева связаны следующие объекты: Rt — подмножество пространства наблюдения (R); Vt — подмножество генеральной совокупности A.46) с XktRr, At—правило классификации из разрешенного набора правил для X 6 Rt- Кроме того, для узлов «не-листьев» вводится правило разбиения Rt на два подмножества Rl(t) и Rrw таких, что Rut) U Rrw = Rt и Rm П R,(t) = 0. "КОРЕНЬ" Рис. 1.5. Пример графа древообразного классификатора: О — промежуточный узел; ? — концевой узел — «лист> Древообразные классификаторы определяются рекурсив- рекурсивно. Для этого задаются: 1) критерий качества классифика- классификации на Rt; 2) разрешенный класс правил для построения At; 3) способ построения /?;(() и Rr(t)'> 4) правило объяв- объявления узла листом, т. е. правило прекращения последую- последующих делений. В качестве корневого (нулевого) узла принимается узел с Ra, совпадающим со всем пространством возможных зна- значений X, и Vn — {(Хк, Ук), k 1, ..., л}. Критерий качества классификации. Пусть с,—¦ штраф за ошибочную классификацию, когда верна гипотеза Я,- и функция потерь Q классификатора определена согласно A.32'). Возьмем в качестве меры качества классификации на Rt классификатора At Q(Rt, At) = E(qAt(X)\X?Rt). A.47) При этом чем Q меньше, тем классификатор лучше. Разрешенный класс правил. Используются максимально простые классификаторы: линейные, линейные с дополни- дополнительными предположениями, например о структуре зависи- зависимостей признаков; простейшие, относящие все наблюдения 69
X 6 Rt K одной из классифицируемых совокупностей. Среди всех допустимых правил в качестве At выбирается правило, минимизирующее выбранную функцию риска. При этом ог- ограничимся классами правил, на которых минимум достига- достигается. Простота разрешенного класса правил компенсирует- компенсируется структурой дерева. Правило разделения. Рассмотрим шкалу, в которой из- измерена /-я координата X (/ — 1, ..., р). Если шкала номи- номинальная, то элементарными событиями Т будем называть события вида х(/) — а или *<'> Ф а, где а — одно из воз- возможных значений *</>. Если же шкала порядковая или ин- интервальная, то элементарными событиями будем называть события вида х<" =? а. Рассмотрим теперь всевозможные разбиения Rt с помощью элементарных событий (Rt Г) Т, Rt П Т), таких, что min (Р{Х 6 Rt Л Т), Р{Х ERt П Т}) > еи A.48) где 6j — некоторое заданное число. Тогда по определению критерия качества классификации A.47) Q(Rt, Al) = P{X?T\X?Rt}E(qAt(X)\X?Rt()T) + + P{X?T\X?Rt}E(qAt(X)\X?Rt Л7)> + Р{Х ?f\X?Rt}inlE(qA(X)\X?Rt()T)- A.49) Нижняя грань в правой части A.49) берется по всем допу- допустимым классификаторам. Пусть Tt — одно из элементар- элементарных событий, удовлетворяющих A.48), на котором достигает- достигается максимальная разность между левой и правой частями A.49); положим тогда Rm ¦= Rt f] Tt и Rr(t) = Rt f] Tt. Правило объявления узла листом. Узел t объявляется лис- листом, если не существует элементарного события, удовлетво- удовлетворяющего условию A.48), или такое событие существует, но Q(Rt, At)~P{X?Tt\X?Rt)Q(Rlit), Al(t))- A.50) Наглядный смысл условий A.48), A.50) очевиден: от услож- усложнения классификатора должен быть заметный выигрыш и не следует слишком мельчить разбиения. Древообразные классификаторы обладают рядом прив- привлекательных свойств. Они относительно просты: при умень- уменьшении ех и еа и соответствующем росте числа ветвей сходят- сходятся к классификатору, минимизирующему выбранную функ- функцию потерь; инвариантны относительно монотонных преоб- 70
разований координат; легко интерпретируемы; при выборе в качестве допустимого класса простейших правил допуска- допускают наличие в классифицируемом векторе X ненаблюдаемых, так называемых «стертых», координат, если, конечно, эти координаты не используются в качестве аргументов ветвле- ветвления. В отечественной литературе древообразные правила на- называют также логическим методом классификации [94]. 1.3.3. Метод потенциальных функций. Это — исторически один из первых достаточно универсальных методов построе- построения классификационных правил в условиях хорошей разде- разделимости классов 113, 131]. Он представляет собою пример результата научного направления, центр тяжести которого лежит не в оптимальном решении задачи классификации при дефиците выборочной информации, а в разработке рекур- рекуррентной процедуры, удобной для ЭВМ и дающей решение в условиях большой выборки. Метод основан на предположе- предположении, что объекты с близкими значениями X принадлежат одному классу. Поэтому при классификации нового объекта X надо лишь подсчитать «относительные потенциалы» в X, порожденные объектами первого и второго классов, и отне- отнести объект к тому классу, чей относительный потенциал вы- выше. Более точно." пусть в пространстве наблюдений опреде- определено расстояние р, например евклидово. Относительный по- потенциал в X, созданный объектами /-го класса, подсчиты- вается как %(Х)= V Ф(р(Х, Xh))lnj, A.51) kwk=f где ф («) — некоторая известная положительная функция положительного аргумента, стремящаяся к нулю при и-*- оо, например ехр {—арр} или A + арР)-1, где а > 0, р" > 0. Правило классификации записывается: \ A.52) i Изложенный алгоритм близок с описываемым в § 3.3 непа- непараметрическим методом классификации. Различие заключа- заключается в том, что статистическому подходу более соответство- соответствовало бы использование: 1) вместо относительного потенциа- потенциала в X абсолютного, как лучше учитывающего априорные вероятности классов и 2) вместо разности A.52) отношения Ф*{Х) ^с^Р2 A.53) 71
1.3.4. Поиск характерных закономерностей. Ниже описы- описывается общая логическая схема одного из наиболее извест- известных алгоритмов, возникшего из эвристических соображений о деятельности человека при распознавании образов — ал- алгоритма «Кора» [28, 43]. В нем рассматриваются все воз- возможные конъюнкции вида ThnThf)...f)Ttl(L<l0), A.54) где Т —• события, определенные в п. 1.3.2 при введении пра- правил разделения, а /0 — некоторое наперед заданное число ¦(в алгоритме «Кора» /0 = 3). Среди конъюнкций выделяются те, которые характерны (верны на обучающей выборке чаще, чем некоторый порог 1 — et) для одного из классов и не ха- характерны для другого (верны реже, чем в доле случаев е2 (в алгоритме «Кора» е2 = 0)). Если коэффициент корреляции между какими-либо двумя выделенными конъюнкциями по модулю более 1 —• е3, то оставляется «наилучшая» с точки зрения различения классов из них, а если конъюнкции экви- эквивалентны, то более короткая (имеющая в представлении A.54) меньшее /) или просто отобранная ранее. Параметры е1? е2, е3 подбираются так, чтобы общее число отобранных (информативных) конъюнкций не превосходило некото- некоторого числа т. Для нового наблюдения X подсчитываете я mi — число характерных для f-ro класса отобранных конъ- конъюнкций, которые верны в точке X. Если m1 > т2, то при- принимается решение, что верна гипотеза Нх, в противном слу- случае — что верна гипотеза Я2. Поскольку при отборе конъ- конъюнкций в принципе возможен полный перебор, вычисли- вычислительный процесс должен быть организован эффективно, чтобы не рассматривать бесперспективные ветви. Алгоритм «Кора» зарекомендовал себя удачным в ряде прикладных об- областей 128, 82]. Идея поиска закономерностей, характерных для одного из классов, положена в основу алгоритма авто- автоматизированного поиска гипотез [49]. 1.3.5. Коллективы решающих правил. В прикладных иссле- исследованиях для классификации наблюдений' иногда одновре- одновременно используется не одно, а несколько решающих правил. При этом, естественно, встает вопрос о выборе правила объ- объединения частных заключений и как ответ на него возникает двухуровневая схема принятия решения (рис. 1.6). На ри- рисунке первый уровень—-блоки Аг — Ас, второй — блок синтеза. В изложенном выше алгоритме «Кора», если счи- считать отдельными правилами отобранные конъюнкции, реше- решение принимается большинством «голосов», осуществившихся при X конъюнкциях. В системах, в которых используются высокоспецифические (см. п. 1.2.1) правила риска, объеди- 72
нение возможно по принципу «максимум предсказанного риска». В [131] предложен третий подход — выделение об- областей компетентности каждого из использованных алго- алгоритмов. Пусть функция потерь Q {R, А) правила А на мно- множестве R определена по формуле A.47). Правило Л/* A < < /* <L) считается на R компетентным среди правил < L), если AL A Q(R, = minQ(R, Л,). * 1 J A I—LJ A2 Ш * AL 1 %! К \ г Блок синтеза / \ Рис. 1.6. Двухуровневая схема принятия решения При классификации сна- сначала выбирается наиболее компетентный алгоритм, за- затем с его помощью прини- принимается решение (рис. 1.7, где F — блок выбора наибо- наиболее компетентного алгоритма). Пусть пространство наблюдений R разбито на L обла- областей Rh таких, что R = (J Rt и R, П Rr = 0 при / ф V и для каждого R\ указан компетентный на нем алгоритм А^. Тогда на первом шаге по значению X находится Rt : X 6 Ri Рис. 1.7. Схема классификации с использованием обла- областей компетентности и по R\ — номер компетентного на нем алгоритма /*. На втором шаге правило А^ применяется к X. В качестве при- примера изложенного подхода можно указать древообразные классификаторы (см. п. 1.3.3), где механизм нахождения R, — ветви дерева (без листьев), правило решения At* — правило соответствующего листа. Опишем два простейших правила нахождения областей компетентности. Метод априорного разбиения пространства наблюдения R на подобласти основан на профессиональных соображениях конкретной науки. Для каждой из введенных подобластей находят компетентное на ней правило классифи- классификации. Этот метод удобен тем, что введенные области легко строить и интерпретировать. Во втором методе области ком- 73
петентности {Rt} строятся локально путем построения алго- алгоритма, с помощью которого для каждого наблюдения можно вычислить, какой области Rt оно принадлежит. Пусть для каждого Хо можно ввести семейство вложенных друг в дру- друга расширяющихся окрестностей. Фиксируем какое-либо число k и для Хо найдем наименьшую окрестность О (Хо). которая включает в себя не менее k точек последовательно- последовательности A.46). Пусть далее си — 1, если i-e наблюдение по- последовательности классифицировано At алгоритмом пра- правильно, и Сц = О в противном случае; сг = 2cim, где суммирование проводится по всем точкам, принадлежащим О (Хо), и ci' = max ci. A.55) Тогда точка Хо объявляется принадлежащей области ком- компетентности правила Ai*. Чтобы обойти случаи, когда мак- максимум в A.55) достигается не на одном, а на нескольких зна- значениях 1п, ...,/, , положим /* равным наименьшему из них. Если на R определено расстояние между точками р, то ок- окрестности можно задавать с помощью расстояний и в опре- определении си вместо 1 брать g (р (X,, Хо)), где g— некото- некоторая убывающая функция от положительного аргумента. Например, g (р) = \/(а + р), где а > 0. В [ 131] предлага- предлагается для выделения областей компетентности использо- использовать также метод потенциальных функций. 1.4. Отбор информативных переменных Любое практическое исследование с применением методов статистической классификации включает в себя в виде спе- специального этапа отбор информативных для классификации переменных. Дело здесь заключается не столько в экономии затрат на сбор не- или малоинформативных признаков, сколько в том, как увидим в следующей главе, что включение в решающее правило в условиях дефицита выборочной инфор- информации малоинформативных признаков ухудшает (!) среднюю эффективность классификации. В этом параграфе рассмат- рассматриваются два принципиально отличных подхода к отбору переменных. В первом из них делаются сильные математичес- математические предположения о характере классифицируемых распре- распределений и это позволяет четко и однозначно ответить на во- вопросы, следует или нет включать рассматриваемую перемен- переменную в решающее правило и если нет, то почему. Во втором подходе специальных предположений не делается, предла- 74
гаются некоторые эвристические итеративные процедуры, каждый шаг которых разумен, но общий результат их при- применения осмыслить и изучить трудно. 1.4.1. Модель Фишера с дополнительными предположения- предположениями о структуре зависимостей признаков. Рассмотрим снача- сначала простейшую математическую модель двух нормальных распределений с независимыми переменными of 0 . "a? 0 ...0 .. a ... 0 ы, = Решающее правило и расстояние Махаланобиса между Nt и N2 согласно A.12), A.39) имеют вид h (Х)=Ъ (х<1> — (/п'« + М°)/2) (т<*> — т[»)ог* ^с; A.56) cPiN» NJ = 2(mP — mi4)aor'. П-57) Естественно считать неинформативными переменные, у ко- которых не отличаются средние, т. е. соответствующие т[1> — — mW = 0, и малоинформативными переменные, у которых (mW — m^faj2 < е, где е — некоторое число. Таким об- образом, в простейшей математической модели об информа- информативности переменной можно судить по ее одномерным рас- распределениям при Нг и Н2. В общем случае это неверно, так как даже переменные, имеющие идентичные одномерные рас- распределения при Н1 и Н2, могут нести существенную инфор- информацию о проверяемых гипотезах в силу взаимозависимости переменных. В качестве примера вернемся к рис. 1.1. Распределения д:<2) при обеих гипотезах совпадают, однако эта переменная в совокупности с ж*1' существенна для клас- классификации. Рассмотрим теперь модель Фишера с древообразной структурой зависимостей (ДСЗ) переменных [12, п. 4.2.3] N1 = N (Мъ S) и Л/2 - N (М2, S), где S имеет ДСЗ. Внеди- агональные элементы S = ||crJ/|| отличны от нуля тогда, когда они принадлежат G — графу структуры зависимостей распределений. На основании A.12) h (X) = 2 75
В последнюю сумму наряду с парой (С, /) входит и (/, i). Таким образом, в h (X) входят только те переменные, для которых или 1) их индивидуальный вклад в разделение от- отличен от нуля, т. е. т(,1> — m{1) ф О, или 2) индивидуаль- индивидуальный вклад равен нулю, но они непосредственно связаны на графе структуры зависимостей с переменными /, для кото- которых т(р — т{'> ф 0. Этот результат остается верным и для распределений с R (б)-зависимостью [12, 4.4|. 1.4.2. Функции потерь. Пусть S S {1, ..., р} — некоторое подмножество координат X. Обозначим Х<6' входящие в него компоненты X. Для того чтобы произвести отбор инфор- информативного подмножества координат, вводится функция по- потерь Q (S), обладающая следующими свойствами: для S,s5 Q(St)>Q(S); A.58) для Q Ej) = Q (S) наборы признаков Sx и S считаются эквивалентными, для Q (Sj) > Q (S) набор признаков S считается пред- предпочтительнее набора Sv В качестве Q (S) можно взять, например, ожидаемую ошиб- ошибку байесовского классификатора QB (S) = Е (l -max щ (Х^)\ A.59) где л, (X(s)) — условная вероятность i ипотезы Ht при наб- наблюдении X(s>, а математическое ожидание берется по мере Р (X) = Ел,Р (X | Нг). Нетрудно показать, что для Qfi условие A.58) выполняется. Это условие помогает эффектив- эффективно организовать процесс отбора признаков. Пусть, напри- например, исследованы два подмножества признаков S, и S2 и пусть Q (Sj) <ZQ (Sz), тогда нет необходимости исследовать любое из подмножеств S2, так как в силу A.58) заранее из- известно, что они менее предпочтительны, чем Sx. Это сообра- соображение легло в основу многих высокоэффективных вычисли- вычислительных алгоритмов. Заметим, что для определения Q можно использовать любую из мер разделимости распределений, введенных в п. 1.1.5. Для этого достаточно положить где т — соответствующая мера, a F, (Х^) — функция рас- распределения X(S> при условии, что верна гипотеза Я, (i — = 1, 2). Взаимоотношения между различными функциями потерь систематизированы в [189]. Для нас только важно, что нет функции потерь, которая отбирала бы признаки 76
в том же порядке, что и Qfi. Вместе с тем многочисленные примеры показывают, что корреляция между наборами, отобранными с помощью различных функций Q, высокая. В заключение отметим, что только в сильных предполо- предположениях п,4,5.1 удается надежно оценивать групповую ин- информативность признаков по индивидуальной. В общем слу- случае неожиданности возможны даже в модели Фишера. В [325] утверждается, что для любого набора чисел {Q (S): ?сг{1, ,,,, р}}, удовлетворяющего условиям согласова- согласования A.58), можно подобрать задачу Фишера, в которой чис- числу / соответствует вектор ХМ и при этом для всех 5 имеем Qb (S) = Q (S), В частности, возможна, например, такая неожиданная комбинация информативностей, когда при трех группах признаков индивидуально наиболее информатив- информативна третья группа, а попарно — совокупность первых двух групп. 1.4.3. Схемы последовательного испытания наборов приз- признаков. Общая логическая схема рассуждения здесь тради- ционна: выбирается функция потерь Q (S); для каждого набора переменных, порождаемого с по- помощью какой-либо пошаговой процедуры, строится наилуч- наилучший (в смысле Q) критерий классификации; среди всех построенных наборов отбирается тот (те), в ко- который входит наименьшее число переменных и при котором Q минимально. Схемы генерации наборов переменных, по существу, аналогичны схемам, используемым при отборе переменных в регрессионном анализе [12, п. 8.7.41 и опираются на эври- эвристическое предположение, что наилучший набор из k + 1 переменных часто содержит в себе наилучший набор из k переменных. Однако в общем случае так же, как и в регрес- регрессии, это предположение неверно, и пошаговые процедуры не гарантируют получения оптимального набора переменных, т. е. в общем случае без дополнительных предположений полный перебор неизбежен (см. п. 1.4.2). Практические ас- аспекты отбора переменных в условиях дефицита выборочной информации обсуждаются во второй и третьей главах. 1.5. Три и более полностью определенных класса 1.5.1. Общая постановка задачи. Пусть имеется k генераль- генеральных совокупностей (классов) с плотностями распределения вероятностей /7- (X), 77
где / = 1, ..., k; Hj — гипотеза, состоящая в том, что наблю- наблюдение X извлечено из /-и совокупности; п} — априорные ве- вероятности гипотез; с (/ | i) — цена ошибочной классифика- классификации наблюдения из i-й совокупности как наблюдения из /-й совокупности. Задача в том, чтобы разбить пространство наблюдений R на k попарно непересекающихся областей Ru ..., Rk, таких, что если X 6 Rj, то принимается гипотеза Hj (/ = 1, ..., k), и при этом минимизировать потери. Вероят- Вероятность принять гипотезу Hj, когда X извлечено из i-й сово- совокупности, составит P (Hj I Hi) = J ft (X) <iX A.60) и функция потерь f\ ^1 ». v^ /t/t i л Если значение вектора X фиксировано, то яг (X) — апо- апостериорная вероятность Ht — равна A.62) а ожидаемые потери при решении, что X извлечен из /-й совокупности, составят A63) i* i ' Очевидно, что потери будут минимальными, если iU(X)c(j\i) = min S щ ft (X)с(I| i). A.64) Поэтому определим Rj как множество точек, для которых верно A.64). Если минимум для некоторого X достигается при нескольких значениях /, то относим X к любому из со- соответствующих Rj. Сформулированное правило при с(/|0=1 A-65) очевидно сводится к отнесению X к тому Rj, для которого nifi (X) наибольшее. Это правило классификации называют байесовским. В случае, когда распределения генеральных совокупно- совокупностей непрерывны с точностью до значений X, попадание в 78
которые имеет нулевую вероятность, Rj для байесовского классификатора могут быть также определены как Rj = {X: hn = In (fj (ВД (X)) > —In (я,./я,) для всех A.66) т. е. построение байесовского классификатора в случае k классов сводится к последовательному пбстроению байесов- байесовских классификаторов для двух классов,т. е. к методам, ко- которые уже рассмотрены в предшествующих параграфах. 1.5.2. Модель нескольких многомерных нормальных рас- распределений с общей ковариационной матрицей. Эту модель иногда называют также моделью Фишера для k классов. Пусть ./V (Mt, 2) — распределение X в j-m классе (i = 1, ..., k). Тогда согласно A.64) и A.66) области Rt определяются условиями R, = {X : hu = (Х-Шг+'М})/2)' 2-i (М}- Mt) > >1п(я,/я,), 1-1, .... k; »#/}. A.67) Поскольку каждая из функций Нц линейна по X, то об- область Rj ограничена гиперплоскостями. Покажем теперь, как оценить вероятности правильной классификации. Для этого рассмотрим случайную величи- величину htj (X). При гипотезе Нг она как линейная функция нормально распределенных величин имеет распределение ( ) р N(jdw где A.68) Ковариации между hff (X) и hih (X) при гипотезе Я,- равны [16, § 6.7] dJiA=(Af,-Af/S-4Ali-Mfc). A-69) Таким образом, распределение векторов Г? (X) = (И.ц(Х), ..., Ы, i-x (X), hi,i+l (X), ..., кц (X))' является много- многомерным нормальным с вектором средних Мт — -^ (diu ..., dbj-i. dt,i+1, ..., dih)' и ковариационной матрицей 2Г. = = \\dt, ji\t; i = \- Для нахождения вероятности правильной классификации вектора Г,- (X) надо найти вероятность по- попадания его в область A.67). 1.5.3. Упорядоченные классы. Иногда между введенными в п. 1.3.1 классами можно ввести отношение предшествова- предшествования ( -< ). Если это отношение транзитивно, т. е. если для любых классов i, /, k из i -< / и / -< k следует, что i -< k, 7Э
то классы будем называть упорядоченными. Упорядочение может быть связано с содержательным истолкованием клас- классов и с их геометрическим расположением вдоль какой-ли- какой-либо гладкой кривой в выборочном пространстве. В случае, когда классы соответствуют последовательным стадиям не- некоторого процесса, содержательное и геометрическое упо- упорядочения часто совпадают. При работе с упорядоченными классами используется ¦следующий методический прием. С каждым классом i свя- связывают волевым путем выбранное число 8,- так, чтобы раз- разности 6,- — 6; соответствовали интуитивному представле- представлению исследователя о «расстоянии» между классами i и /, и находят функцию от наблюдения t (X), такую, чтобы раз- разность 6 — t (X) была бы в некотором смысле наименьшей. Классификацию далее осуществляют в зависимости от зна- значения t (X). В одной из конкретных реализаций этого приема [24] на распределение t (X) в классах накладывается ограниче- ограничение E(t(X)\Hi) = Qi. A.70) Качество классификации измеряется как где wt > 0, 2ш,- = 1. Функция t, минимизирующая A.71) при условиях A.70), имеет вид f'(X)B-ie w' f (X) где w = К, .... wh)'; в = (в1; .... вк)'; f (X) = ft (X),..., ft, (X))', где fi (X) — плотность распределения X при Ht; В = \\bij\\, где Ьи — \ w'i(x\" dX. Если рассматривать wt как априорную вероятность того, что наблюдение выбра- выбрано из 1-го класса (Я,-), то v (t) — среднее квадратическое от- отклонение / (X) от соответствующего 6, a t (X) — линейная функция от апостериорных вероятностей классов w-jjiX)! /w'f (X). Если классы не пересекаются, т. е. при (ф]~ ft (X)-fj (X) =¦ 0, то v (t) -=¦ 0 и функция на каждбм из клас- классов равна соответствующему значению 9. В ус.ювиях дефицита выборочной информации о рас- распределениях к предположениям типа A.70), A.71) иногда добавляют предположения, что ft (X) нормальны и их сред- средние лежат на одной прямой. 80
выводы 1. Среди критериев классификации в одно из двух извест- известных распределений с заданной ошибкой первого рода а на- наименьшую ошибку второго рода Р имеет критерий отноше- отношения правдоподобия вида A.1). Байесовский классификатор определяется с помощью формулы A.2), Он минимизирует вероятность ошибочной классификации. При выборе между двумя многомерными нормальными распределениями с об- общей ковариационной матрицей {модель Фишера) i раница критической области критерия является гиперплоскостью в пространстве наблюдений, зависящей от параметров рас- распределений по формуле A,12 ). Наряду с критерием отноше- отношения правдоподобия на практике широко используются пра- правила классификации, критические области которых находят- находятся путем минимизации заданной функции потерь при дан- данных ограничениях на границу критической области. При этом функцию потерь и ограничения на границу критиче- критической области обычно выбирают так, чтобы в случае, когда верна одна из базовых теоретических моделей классифика- классификации, построенный критерий совпадал с критерием отноше- отношения правдоподобия. ' 2. Для характеристики простого правила классификации при двух классах в условиях полностью известных распре- распределений необходимо использовать не менее двух чисел- вероятностей ошибок а и р. К ним часто добавляют третье число — вероятность того, что наблюдение извлечено из одного из классов. Все остальные характеристики прави- правила получаются простым пересчетом из указанных трех базо- базовых. На практике широко используется прием, когда класси- классификация проводится с переменным порогом и для каждого диапазона значений отношения правдоподобия указывается условная вероятность, что наблюдение принадлежит одному из классов при условии, что оно попало в данный диапазон, В этом случае в качестве базовой характеристики критерия рассматривается кривая A — а (с), 1 — р (с)), где с— по- порог критерия. Ее называют кривой «чувствительность — специфичность». В модели Фишера при специальном выборе масштаба на координатных осях все кривые «чувствитель- «чувствительность — специфичность» превращаются в параллельные прямые, идущие под углом 135° к оси абсцисс и отстоящие от прямой (и, 1 — и) на расстояние, пропорциональное d, где d2 — расстояние Махаланобиса, определенное формулой A.39). 81
3. Наряду с аналитическим описанием распределений в классах используется также прием задания распреде- распределений путем указания соответствующих генеральных сово- совокупностей. Его можно рассматривать как теоретическое представление большой выборки. Все основные показатели распределений могут быть оценены и в этом случае. Вместе с тем прямое задание генеральных совокупностей позволяет использовать при классификации методы, осуществление которых невозможно или крайне затруднительно при ана- аналитическом задании распределений. Одним из примеров здесь являются древообразные или логические классифи- классификаторы. Они обладают рядом привлекательных свойств: просты, легко интерпретируемы, при увеличении числа ветвей сво- сводятся к классификатору, минимизирующему заданную функцию потерь. 4. При построении классификационного правила часто про- производится отбор информативных для разделения классов ко- координат. При этом используются два методических подхода. В первом из них на взаимозависимость переменных накла- накладываются сильные упрощающие предположения, но сам от- отбор не требует чрезмерных вычислений, и всегда можно от- ответить на вопрос, почему берется или отвергается перемен- переменная. Второй подход связан с минимизацией некоторой функ- функции потерь и проводится путем последовательного испыта- испытания наборов признаков. При этом широко используются различные эвристические соображения, направленные на то, чтобы уменьшить перебор. Они часто хорошо оправды- оправдываются на практике, однако встречают серьезные теорети- теоретические возражения. Четкого ответа на вопрос, почему вклю- включена или отвергнута переменная, при втором подходе дать нельзя. 5. В случае k~>2 классов построение байесовского класси- классификатора сводится к построению байесовских классифика- классификаторов для всех пар классов. Наиболее распространенная мо- модель в этом случае — это предположение, что Ft ¦=- N (Mt, 2), где матрица 2 одна и та же для всех классов. Особый интерес представляет случай, когда можно предположить, что классы упорядочены по какому-либо признаку. В этом случае каждому классу приписывается некоторое число в так, чтобы расстояние между последовательными числами отвечало интуитивной идее исследователя о расстоянии между классами. Далее строится / (X) оценка Э для наблюдения X, и классификация проводится по величине /. 82
Глава 2. ТЕОРЕТИЧЕСКИЕ РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫЙ АНАЛИЗ) В предыдущей главе распределения векторов X внутри классов предполагались известными: они задавались ана- аналитически или с помощью перечисления всех возможных значений X. С использованием этой информации строилось правило (критерий) классификации. В этой и последую- последующих двух главах распределения X внутри классов опреде- определяются лишь частично. При этом используются два вида ин- информации: предположения о свойствах распределений (глад- (гладкость, принадлежность к некоторому известному параметри- параметрическому классу) и обучающая выборка. Совокупность алго- алгоритмов, порождающих на основании предположений и вы- выборки конкретное правило классификации, называют дис- криминантным анализом (ДА). Построенное правило клас- классификации как функция от случайной выборки отражает ее особенности и тоже в определенной степени случайно. Это затрудняет сравнение алгоритмов ДА. Цель главы — познакомить с основными понятиями ДА, методами сравнения алгоритмов и результатами теоретиче- теоретического исследования свойств алгоритмов в условиях дефици- дефицита выборочной информации. 2.1. Базовые понятия дискримииаитного анализа 2.1.1. Выборка, предположения, алгоритм, оценка качества дискриминации. В дальнейшем предполагается, что слу- случайная выборка представляет собой последовательность независимых, пар наблюдений вида A.46) Wn={(Xt, yt), f=l л}, B.1) где Р {tfi — /} = ttj, j = 1, ,.., k; yt трактуется как номер класса, которому принадлежит наблюдение Xf, n} — неиз- неизвестная вероятность, что X будет извлечено из /-го класса; число классов k известно исследователю, 2Л,--=1; все Xt принадлежат одному и тому же пространству наблюдений; X; — такие, что yt = /, одинаково распределены с не- неизвестной исследователю функцией распределения Fj. Чи- 83
ело у, - /в выборке будем обозначать я7- и называть объе- объемом выборки из /-го класса. Предположения о характере рас- распределений Fj (/ - 1, .... k) в наиболее информативном слу- случае утверждают, что Fj принадлежат некоторому известно- известному семейств} распределений, зависящему от неизвестного векторного параметра в. В модели Фишера предполагается, что X ? Rp. Имеются всего два класса (к - 2), Fj(j—l, 2) имеют многомерные нормальные распределения с общей невырожденной кова- ковариационной матрицей. В этом случае каждое из F} опреде- определяют одним /7-мерным вектором средних, своим для каждого распределения, и р (р + 1)/2 — параметрами ковариацион-» ной матрицы, общими для обоих распределений. Иногда предполагается с точностью до неизвестных пара- параметров аналитический вид отношения правдоподобия и, на- наконец, самый слабый вид предположений — постулирова- постулирование непрерывности F}. Формальная процедура, использую- использующая часть информации предположений и выборку для полу- получения конкретного классификационного правила, называ- называется алгоритмом. Приведем примеры описания алгоритмов. Пример 2.1. Имя: Подстановочный алгоритм с не- независимой оценкой параметров (k = 2). Применяется: вслу- чаях, когда предполагается, что 1) Fj (X) - F (X, 67), j ¦=- 1, 2; 2) 6j и в2 не имеют общих значений координат. Вычисления над выборкой: независимо для каждого из 6^ строятся оценки максимального правдоподобия в, [12, гл. 8]. При этом при оценке вх используются пх наблюдений из первого класса, при оценке 02 — п2 наблюдений из вто- второго. Прогностическое правило: где fj — плотности соответственно распределений Fj (j = = 1, 2) и Н) — гипотеза о том, что новое наблюдение извле- извлечено из /-го класса. „ Пример 2.2. Имя: Подстановочный алгоритм в за- задаче Фишера. Применяется: в случаях, когда предполагает- предполагается, что Fj = N(M}, 2), у=1, 2, |2}>0, Mj и 2 неизвестны. В отличие от предшествующего примера матрица 2 — общая для обоих распределений. 84
Вычисления над выборкой: строятся оценки максимального правдоподобия для Мъ Мг, 2: Х)^ 2 Xt/n,(j=l, 2); B.2) S= i 2 №-^)(Xi-X7O(ni + n»-2). B.3) Прогностическое правило: /(X, X2, S) gg^}^» B.4) /(-v, a:,, S) [Я/ где/(Х, X, S)-BK)-P/->|S|-1 Оценка качества построенного правила классифика- классификации— завершающая операция ДА В ней используются оценки определенных в гл. i показателей качества разде- разделения. Оценка качества дискриминации — это не только оценка конкретного правила классификации, но в более широком смысле и проверка удачности сделанных предпо- предположений и выбора алгоритма ДА. В гл. i объектом изучения были различные правила классификации. В настоящей главе — алгоритмы, порож- порождающие конкретные правила. В приведенных выше описа- описаниях в; (/ = 1, 2) случайны, следовательно, случайны и правила. 2.1.2. Основные виды ошибок. Базовым понятием, как и в гл. 1, остается вероятность ошибочной классификации конк- конкретного правила. Теперь, однако, это уже случайная вели- величина, зависящая от выборки, алгоритма, объема обучающей выборки. Итак, пусть для i=fi.\ Р^, (г, /) — условная вероят- вероятность ошибочной классификации (УОК) нового (не входяще- входящего в обучающую выборку) наблюдения из г-го класса в /-Й при данной обучающей выборке объема п = {пЛ, ..., nk) и алгоритме Л. Пусть Е — символ математического ожидания по обучающим выборкам объема п, тогда ЕРп называют ожи- ожидаемой ошибкой классификации (ООК) алгоритма на выбор- выборке объема п. Естественно также ввести предел ООК при рос- росте числа наблюдений: Pt = lim EP^. Pt называют асимп- тотической ожидаемой ошибкой классификации (АОК)- 85
Часто оказывается, что при я-> оо и УОК сходится по ве- вероятности к неслучайному пределу. В этом случае этот пре- предел совпадает с />„. Тем самым пропуск второй буквы «О» в сокращении АОК оправдан. Обычно ООК больше АОК, и отношение <-=ZP*/Pt B.5) характеризует относительное качество обучения алгоритма на выборке объема я. Это очень важный показатель, широко используемый в теоретических и прикладных исследова- исследованиях, ввел егоШ. Ю. Раудис, внесший весомый вклад в и лу- лучение свойств алгоритмов в условиях дефицита выборочной информации. Для того чтобы проиллюстрировать масштаб возникаю- возникающих проблем, в табл. 2.1 приведены значения х2п для одного из основных алгоритмов дискриминантного анализа — ли- линейной дискриминантной функции, используемой, когда k = 2, распределения в классах предполагаются многомер- многомерными нормальными (см. п. 2.1.1). При этом предполагается также, что в обучающей выборке имеется ровно по я наблю- наблюдений из каждого класса. Параметр d в таблице — это ко- корень из расстояния Махаланобиса между классами (см. п. 1.2.4). 2.1.3. Функции потерь. Ограничимся случаем двух классов. Пусть у определено, как в B.1); у „ (X) — решение, при- принятое в точке X при использовании решающего правила, построенного с помощью алгоритма А на данной выборке объема я; q (и, v) — функция потерь, такая, что q (и, и) —О и q (и, и) > 0 при и ф v. Величину Е19 (У, Й W) I ^«1 ~ Q (A> Wn), B.6) где математическое ожидание берется по всем возможным парам (X, у) при выбранной модели данных, естественно на- назвать функцией средних потерь алгоритма А при обучаю- обучающей выборке Wn. Если q (и, v) = (и — иJ и у ? {1, 2}, то Q (Л, Wn) — это средняя ошибка классификации правила, построенного с помощью А на выборка Wn. Взяв математи- математическое ожидание по всем обучающим выборкам объема я, по- получаем Qn(A) = EQ(A, Wn)~ B.7) функцию ожидаемых потерь алгоритма А на обучающей выборке объема я. 86
IN та vo СЗ О 00 О -о СО и -08 1Л° СОо -»• II II 8 ¦в а, СО—¦ "".о II " -«У О II а. 00 и о. щ II о. со 11 а. о с* || о. со О. щ II СО || а. о II о. с© II О. ю II о. СО О. та 00 00 "¦-< CN СО CN С* 33 CN СО 00 о CN та о CN 00 СО in 3 о та 00 та та та S та о II in in о CN та CN S _^ со ж та CN CN СО S СО та t~- о о оо to CN CN CN CN CN CN CN Cl. || II С CN 1П СО —' СО о in CN in CN СО CM in —' — in —* s —' CN || II С о 00 S3 — CO ОС _ 00 ™— ^* ¦^ _^ in _ in —' in —* —' 00 — 00 —' —' о. in II II й та in та — in та та ™- о CN „ч О CN _ — 8 — — S — о — 8 ~ S3. с? II с СО _ СО —' СО „ч сО о о _ о — S — g — S — S —' О CN II С (^ о _ о — СО о СО о - О S —' о — S —' CN о — CN О "• CN О —' О 1П II 87
Поскольку теоретические распределения не всегда из- известны, в качестве оценки Q (A, Wn) рассматривают <Ээмп (Л, Wn) = 2<7 (уи Й (Хд/п B.8) и называют его эмпирической функцией средних потерь ал- алгоритма А на выборке Wn. 2.2. Методы изучения алгоритмов ДА 2.2.1. Базовые асимптотики. В математической статистике принято доверительные интервалы и дисперсии оценок для конечного объема выборки п приближенно представлять через асимптотические (при п~*- оо) распределения соответ- соответствующих оценок [11, § 8.4]. Это позволяет не только полу- получать хорошие приближения, но и делает теорию более на- наглядной. Аналогичный прием используется и в дискрими- нантном анализе. Однако здесь в зависимости от особенно- особенностей реальной задачи используются разные асимптотики. Остановимся на этом вопросе более подробно. Каждый естествоиспытатель знает, что чем больше наб- наблюдений (п) каких-либо статистических объектов он имеет, тем на большее число вопросов относительно характеристик этих объектов он может ответить. Другими словами, чем больше информации, тем более сложная математическая мо- модель может рассматриваться. Если ввести некоторый пока- показатель «сложности» математической модели (С), то различ- различные варианты связи между С и объемом выборки могут быть представлены графически (рис. 2.1). Горизонтальная прямая A) на рисунке отвечает тради- традиционной асимптотике математической статистики, исполь- используемой главным образом при оценке параметров распределе- распределений. Здесь сложность модели — число параметров — фик- фиксирована, а объем выборки п растет [11, § 8.11. Для регрес- регрессионных задач, в которых с ростом числа наблюдений уве- увеличивается число параметров, используемых для описания регрессионной кривой [12, § 6.3, 10.2], более характерна кри- кривая B), у которой рост С пропорционален па, где а < 1. В задачах статистической классификации широкое распро- распространение получила асимптотика Колмогорова — Деева 112, п. 4.3.3], в которой сложность модели — размерность пространства наблюдений р — растет прямо пропорцио- пропорционально числу наблюдений (кривая 3). Кривые на рис. 2.1 пересекаются в одной точке с абсциссой п0. Эта точка соот- соответствует вероятностной модели, которую строит исследо- 88
ватель, имеющий данное число наблюдений, параметров и т. п. Для всех кривых на рис. 2.1 при п—п0 вероятностная модель одна и та же, однако асимптотические (при п -*¦ оо) свойства изучаемого метода классификации существенно зависят от того, какую модель усложнения вероятностной модели с ростом п, или, другими словами, какую модель развития вероятностной модели выберет исследователь. В [26] предлагается объединение вероятностной модели и мо- ch Рис. 2.1. Основные асимптотики: A) — р фиксировано, п-*-оо (традиционная); B) — р=па (а<1); л->-оо; C) — р, п-^оо, pfn-+k<oo (Колмогорова — Деева); D) — р-*-°°, п фиксировано дели ее развития называть статистической моделью. Прав- Правда, само понятие модели развития в [26] тракт>ется шире, чем здесь. Рассмотрим асимптотики, используемые в теории статис- статистической классификации. В традиционной асимптотике математическая модель не меняется, только объем выборки га->оо. Эксперименты с моделированием выборок из нор- нормальных распределений показывают, что асимптотические (по га-> оо) разложения для ошибок классификации, полу- полученные в традиционной асимптотике [132, 135], близки к ре- результатам моделирования только при пг ^> р. Используется также схема серий выборок с моделью рас- растущей (одновременно с ростом объема выборки) размерно- размерности пространства наблюдений (асимптотика Колмогорова — Деева). Рассматривается последовательность задач класси- классификации (по параметру т —*- оо), при переходе от одной зада- задачи к другой одновременно растут р = р (т) — размер- размерность пространства наблюдений и п} = tij (т) — число наб- 89
людений в обучающей выборке из /-го класса, / = 1, ..., k. В асимптотике предполагается, что rij, /?->-oo; р1п}^>-Х}< оо (т^-оо). B.9) Для изучения статистической задачи классификации эта асимптотика была предложена в 1968 г. А. Н. Колмогоро- Колмогоровым, первым обратившим внимание на то, что классифика- классификация в задаче Фишера существенно конечномерна. А. Д. Деев [55] исследовал задачу Фишера (см. п. 2.3.1). Хорошее сов- совпадение полученных асимптотических формул для асимпто- асимптотических ошибок классификации с результатами моделиро- моделирования [1351 привлекло к этой асимптотике внимание теоре- теоретиков. Несколько раньше при изучении распределений слу- случайных матриц, связанных с физическими задачами, асим- асимптотика растущей размерности использовалась в работе [1031. Асимптотика растущей размерности при фиксирован- фиксированном числе наблюдений [3041 пока носит чисто теоретический характер. 2.2.2. Инвариантность и подобие алгоритмов. В дискрими- нантном анализе при небольшом числе принципов построе- построения правил классификации предложено очень много конк- конкретных алгоритмов. Поэтому весьма настоятельной явля- является задача выделения алгоритмов в чем-то похожих. Введем необходимые обозначения. Пусть Wn означает выборку B.1) объема я; Fj— распределение X, принадле- принадлежащих /-му классу; (X, у) — новое наблюдение, не завися- зависящее от Wn; А — алгоритм, A (W) — правило классифика- классификации, построенное с помощью алгоритма А на выборке W; yA(W) (X) — результат применения к наблюдению X правила классификации A (W); G = {g (X)} — группа преобразова- преобразований пространства Rp; g (Wn) -=- {{g (X,), yt), i = 1 n}. Будем говорить, что алгоритм А инвариантен относительно G, если Два алгоритма А и В будем называть асимптотически (в традиционной асимптотике) подобными для семейства рас- распределений М, если для любого е > 0 и любых Fj ? М (/ = 1, .... k), таких, что Fj =fiFy (j ф ']'), найдется п„, такое, что для п> пв Р \уА (wn) {Х) = ун iwn) {Х)) > 1 -». B.11) Для асимптотики Колмогорова — Деева в вышеприве- вышеприведенном определении слова «любых Fj ? Mi> надо заменить 90
на «любой последовательности (по т) F}? M, удовлетворя- удовлетворяющей условиям асимптотики». Причем в условия асимптоти- асимптотики должно обязательно включаться требование стремления расстояний между распределениями к конечным и отлич- отличным от нуля пределам. Пусть у (с) — правило классификации по отношению правдоподобия A.2), алгоритм А будем называть состоятель- состоятельным в традиционной асимптотике над М, если для любого г > 0 и любых Fj е М (/ = 1, 2), F, ф F2> найдется п0, такое, что для п> п0 Р \уА (v«) (X) = Уу м (Х)\ > 1 -е. B.12) Для асимптотики Колмогорова— Деева понятие состоя- состоятельности алгоритма не вводится, поскольку в ней даже для многомерных нормальных распределений sup х fix, <Г.) f(x, e2) B.13) Приведем несколько примеров использования введенных выше понятий. В п. 1.2.3 описан класс алгоритмов построения древо- древообразных правил классификации в условиях полного зна- знания распределений в классах. Если в формулах A.48), A.50) заменить функцию потерь Q и вероятности событий на соответствующие оценки типа B.8) и частоты, оцененные по выборке Wn, то получим класс древообразных классификато- классификаторов. Древообразные классификаторы, очевидно, инвариант- инвариантны относительно произвольных монотонных преобразований координат и не инвариантны относительно группы общих линейных преобразований R". Более того, если в традицион- традиционной асимптотике с ростом объема выборки п ег ->- 0, но так, что ег/г-^оо, то для достаточно гладких распределений Pi Ф Ft древообразные классификаторы асимптотически минимизируют используемую функцию потерь и, в частно- частности, при выборе в A.47) q (u,v) = (и — dJ асимптотически подобны байесовскому классификатору и, следовательно, у (я1/я2) состоятельны. Подстановочный алгоритм, использующий классифици- классифицируемое наблюдение (X, у) при оценке неизвестных парамет- параметров распределений в модели Фишера. Обозначим МЛ, Mj2, 2; оценки параметров модели Мъ М2, S по объединенной выборке {Wn, (X, у)}, где х — наблюдение, которое пред- предстоит классифицировать, и у положено равным /. 91
Тогда критерий отношения правдоподобия может быть представлен в виде отношения ~ LJwn, X, М21, М22, %) b{wn, х, ми, мы, %) Нетрудно найти новые оценки (в них Хи Х2, S — традици- традиционные оценки B.2) и B.3).) Г, = Г(л —2) S + —^— (Х—ХЛ (X—X,)'] I (п — \). Итак, в силу очевидных сокращений •^ | \(п+1)/2 Из-за того, что матрицы добавок к S в определении 2Х и 22 имеют ранг 1, формула для у может быть упрощена: Можно доказать, что подстановочные алгоритмы с исполь- использованием пары (X, у) и без нее при оценке параметров асимп- асимптотически подобны и в традиционной асимптотике, и в асим- асимптотике растущей размерности. 2.2.3. Методы выработки рекомендаций. Опыт показывает, что статистические феномены, с которыми сталкивается ис- 92
следователь, работающий в области классификации, слож- сложны и не всегда предсказуемы. Законченных теоретических результатов, которые могли бы выполнять роль ориенти- ориентиров для практики, по сравнению с другими областями при- прикладной статистики, здесь заметно меньше. В связи с этим заслуживает специального обсуждения сложившаяся прак- практика осмысления происходящего и выработки соответствую- соответствующих рекомендаций. Возникшее у исследователя первоначальное наблюде- наблюдение или предположение-гипотеза (об источнике ошибок, пу- 1ях улучшения используемого правила классификации и т. п.) проверяется методом статистического моделирования с известной 1еоретической моделью на предмет существова- существования. Когда существование феномена установлено, прово- проводится теоретическое исследование, чтобы на простейших ма- математических моделях как в обычной асимптотике, так и в асимптотике растущей размерности Колмогорова — Деева попять его действующие механизмы и дать их асимптотиче- асимптотическое количественное описание. На этой стадии обычно не удается получить ни оценок скорости достижения асимптоти- асимптотических утверждений в изучаемых крайне идеализирован- идеализированных моделях, ни границ их применимости. Поэтому необхо- необходимо повторное применение метода статистического модели- моделирования, но на этот раз уже с учетом качественного и коли- количественного понимания, достигнутого на простейших моде- моделях. Окончательная проверка полученных рекомендаций проводится на реальных данных. Состояние теоретических исследований в различных зада- задачах статистической классификации описывается в последу- последующих параграфах настоящей главы. Однако, прежде чем пе- переходить к ним, необходимо отметить, что главное неизвест- неизвестное любой статистической модели — это состояние природы. Поэтому для конкретных областей применения классифика- классификации, с точки зрения прикладной статистики, задачей номер один является накопление примеров эффективного примене- применения конкретных моделей, методов, упрощающих предполо- предположений. 2.3. Подстановочные алгоритмы в асимптотике растущей размерности Как уже сказано в п. 2.1.1, подстановочным (plug-in) алго- алгоритмом называют метод построения правила классификации, при котором неизвестные в отношении правдоподобия пара- параметры распределений в заменяют их оценками максималь- 93
ного правдоподобия в. При минимальных требованиях к плотности распределений подстановочные алгоритмы в тра- традиционной асимптотике асимптотически подобны и у (с) состоятельны. Как следует из формулы B.13), положение в случае асимптотики растущей размерности сложнее. Здесь уже многое зависит от того, как оцениваются параметры и насколько эффективно используются упрощающие пред- предположения. 2.3.1. Модель Фишера в асимптотике B.9). Базовое пред- предположение B.9) дополним условием, что т. е. что расстояние Махаланобиса между распределениями стремится к конечному пределу. Рассмотрим сначала случай, когда 2 известно (см. п. 1.1.2). Согласно A.12) подстановочное правило класси- классификации имеет вид: h{X) = (*-(*!+ Х~М' S-1 (Хъ-Х^с, B.15) где Хг, X2 — обычные выборочные средние для обучаю- обучающих выборок из первой и второй совокупностей. Предполо- Предположим для определенности, что X извлечено из первой сово- совокупности, и найдем условную вероятность ошибки классифи- классификации по правилу B.15) при фиксированной обучающей вы- выборке P{Ht\Hlt Wn}= 1 -Ф((с-аМо), B.16) где а, = <МХ - {Хг + ХМ' Е-* (Xt-XJ. B.17) а* = D[X' 2-1 QCt-Xd I Hu Wn] = (Xt - — Xty 2-1 (Хъ—%). B.18) Аналогично P{H1\Ht,Wn) = <S>((c-a^la), B.16') где ^ 2-i (X,-Ai). B.19) В предположениях B.9), B.14) с ростом объема обучающей выборки а-у, а2, а2 сближаются со своими математическими ожиданиями и стремятся соответственно к пределам О!-*— У/2 + (-Я1 + Х2)/2, B.20) 94
2)/2, B.21) М-А-.- B.22) Из B.20) — B.22) видно, что асимптотическое значение а- минимаксной опшбки классификации достигается при рав- равных асимптотических ошибках первого и второго рода, т. е. при с->- (к2 — ^i)/2, и а^.ф( — J/2yJ +к1 + к2). B.23) В проведенном выше рассуждении сразу от условной ошибки классификации перешли к асимптотической ошибке, не вычисляя в качестве промежуточного этапа ожидаемую ошибку классификации. Общая модель с матрицей S, оцениваемой по выборочным данным, была изучена А. Д. Деевым [551. В предположении, что к^1 + к%1 > 1, он показал, что для подстановочного правила минимаксная ошибка классификации (—J (l — B.24) Как видно из сравнения формул B.23) и B.24), цена (в тер- терминах а), которую приходится платить за р (р -\- 1)/2 не- неизвестных параметров общей ковариационной матрицы, до- достаточно высока. Как уже сказано в п. 2.2.1, формулы Деева дают хорошую аппроксимацию даже при умеренных объе- объемах обучающих выборок В этом можно убедиться непосред- непосредственно, сравнив данные табл. 2.1 и 2.2. В табл. 2.2 приведе- приведены асимптотические значения х2п= ЕРгп/Рх для линейной дискриминантной функции, полученные по формуле B.23), когда матрица известна, и B.24) — в общем случае при Л1 = Л2 ~ 0,5. ге = 0,6р п = р гс = 2р п = 5р л— Юр л-=-20р Матрица <г=2,5б 1,49 1,31 1, '7 1,07 1,04 1,02 1,01 d Рос 2 известна = 4,65 = 0,01 ,52 ,30 ,15 ,06 ,03 ,02 ,01 d = 6 18 /^=0,001 1,52 1,30 1,14 1,06 1,03 1,01 1,00 Та б л ица 2.2 Матрица 2 неизвестна <i=2,56 3,35 2,10 1,51 1,19 1,09 1,05 1,02 <г=4,б5 Роо = 0,01 18,85 5,78 2,45 1,44 1,20 1,10 1,04 <г = б,18 Poc^O.OOl 113,14 16,59 4,12 1,77 1,30 1,16 1,06 2.3.2. Распределения с независимыми блоками. Эти рас- распределения введены в п. 1.1.5. Они служат простейшей мо- 95
делью негауссовских распределений. Добавим к базовым предположениям B.9) предположения, что размерность век- векторов Х(!) и в(/> в блоках ограничена pj, mj<c <oo; B.25) что значения соответствующих параметров в классифицируе- классифицируемых распределениях сближаются друг с другом: U^—е(/М<с/КлГ B.26) и что суммарное расстояние между распределениями стре- стремится к конечному пределу 2/;-»-/<с<оо, B.27) где J} = 2 (в« — 9(<>) »м <e1)(B(f> - 8<s>) и суммирова- ние проводится по всем t, s, принадлежащим j-му блоку; I с dinf(X, в) dinf(X, в) формационная матрица Фишера 112, § 8.2—8.31. При вы- выполнении условий B.9), B.25) — B.27) и некоторых до- дополнительных условий регулярности в [109] показано, что для подстановочного алгоритма справедлива формула B.23). Более того, если в j-м блоке имеются trij различающих и /7- неизвестных, но общих обоим распределениям парамет- параметров, причем Ij < с <С оо, и одна и та же оценка общих па- параметров подставляется в обе плотности, то B.23) также име- имеет место. Другими словами, О (р) общих параметров не ухуд- ухудшают асимптотические свойства подстановочного алгорит- алгоритма. Можно надеяться, что и в задаче Фишера в случае, ког- когда 2 зависит только от ср параметров и при оценке этот факт учитывается, B.23) также будет справедлива. Эту гипоте- гипотезу удалось доказать в случае древообразных распределений. 2.3.3. Модель Фишера в случае древообразных распределе- распределений. Если при древообразных (ДСЗ) распределениях с из- известной структурой зависимостей оценку 2 проводить не по общей схеме, а с учетом структуры зависимостей, как ука- указано в [12, п. 4.2.3], то согласно [77, 78] асимптотическая минимаксная ошибка модернизированного классификатора будет не B.24), а B.23), т. е. существенно меньше. Более того, известно, что при минимальных дополнительных предположениях древообразная структура зависимостей восстанавливается в асимптотике Колмогорова — Деева с точностью до несущественных связей с вероятностью 1 [12, п. 4.3.3 и 4.3.4]. 2.3.4. Оцифровка градаций качественных переменных. Если в исследовании встречаются качественные переменные, 96
то для применения к ним общих линейных моделей ди- скриминантного анализа их градациям часто приписывают численные значения-метки и далее работают с этими оци- оцифрованными переменными как с обычными числами. При этом используются две стратегии: первая (универсальная) состоит в том, что каждая градация качественной перемен- переменной выделяется в новую двоичную переменную, принимаю- принимающую два значения: 0, если градация не осуществилась, и 1, если осуществилась [11, п. 10.2.4]; вторая стратегия приме- применяется тогда, когда качественные градации можно рассмат- '/з Рис. 2.2. Границы квантования и плотности рас- распределений в задаче об оцифровке качественных переменных ривать как результат квантования некоторой непрерывной случайной величины (ее математическая техника описа- описана ниже). Наша ближайшая цель — сравнить на простей- простейшей математической модели эффективность этих подходов в асимптотике растущей размерности. Математическая модель: рассматриваются два класса с независимыми переменными в каждом из классов. Пусть Ри (Яи) — вероятность того, что t-я переменная в первом классе (соответственно во втором) принимает свое /-е зна- значение, j = 1, ..., kt <Z с <z оо, и рц (qu) — оценки этих ве- вероятностей по частотам на основании обучающих выборок. Предположим, что существует такая известная функция G (г) с непрерывной первой производной; такие числа At— расстояния между функциями G для первого и второго клас- классов; границы квантования dtj, i = 1, ..., р; j = 0, 1, ..., kt— —оо = di0 < dtl <Z ... <Z d(ki = oo, такие, что ptj = G (dti + AJ2)-G (dt^ B.28) B.29) Это наглядно показано на рис. 2.2. 4 Заказ № 291 97
Пусть далее выполняются следующие асимптотические (в асимптотике растущей размерности) предположения: kt<cl<oo; B.30) р, k, nlt «2-»-оо; р/п.!-*-)^, р/пг-+-'кг; 2*Я4; B.31) B.32) &ц = Ри~qtj = 6tjlmm(nu nt), 0<c3 < \Ь,}\ < с4< оо; B.33) 4 = 2S А?//@,5(Рц + qu))-+ J< оо, B.34) Подготовительные вычисления по второй схеме rtj = ? ? ft,, - G (/?„) - 6 В данных предположениях: при оцифровке по первой схеме, когда градации оцифровываются независимо друг от друга так, что /-й градации t-й переменной приписывается зна- чение ztJ = In (pljlq-,i) и классификация проводится по пра- правилу 22j ^ с, где порог с подбирается из условия миними- минимизации максимальной вероятности ошибки а, B.35) при оцифровке по второй схеме, когда /-й градации t-й переменной приписывается значение гц = atJAt и класси- классификация проводится по тому же правилу, выполняется со- соотношение B.23). Формулы B.35) и B.23) совпадают только в случае, когда у переменных имеются всего по две града- градации kt = 2. Уже при kt = 3 формула B.35) дает заметно большую ошибку. Таким образом, независимой оцифровки градаций признаков следует избегать. 2.4. Статистическая регуляризация оценки обратной ковариационной матрицы в линейной дискриминантной функции для модели Фишера 2.4.1. Качественный анализ трудностей линейного дискри- минантного анализа в асимптотике растущей размерности. Как показано в п. 2.3.1, замена неизвестной обратной кова- ковариационной матрицы 2 ее оценкой S в общем случае
приводит к заметному росту ООК. Это отчасти можно объ- объяснить плохой обусловленностью матрицы S при р ~ п и тем, что оценка S не является состоятельной в асимпто- асимптотике растущей размерности, так как где fS|>0, p<.n, симметричная (рхр)-матрица О имеет максимальное собственное число О /- ). Для того чтобы по- понять, в чем дело, зафиксировав обучающую выборку, по- попытаемся построить наилучшее при данной выборке решаю- решающее правило, а затем сравним его с правилом, получаемым при использовании подстановочного алгоритма. При этом оп- оптимальное для УОК правило выведем при использовании до- дополнительной информации, которой нельзя воспользовать- воспользоваться в обычной практике. Тем не менее сравнение двух правил покажет направления для возможного улучшения подста- подстановочного алгоритма. Произведем два последовательных преобразования про- пространства наблюдений: линейное, превращающее обычную ковариационную матрицу в единичную и ортогональное, ориентирующее координатные оси вдоль направлений собственных векторов выборочной ковариа- ковариационной матрицы в пространстве Y; Sy= i 2 {Yi Z = CyY, где Су (р X р)-матрица, составленная из собствен- собственных векторов матрицы Sy. В пространстве Z выборочная ковариационная матрица диагонадьна и дискриминантная функция имеет простой вид 2 S' W> - (z\i] + zBi])/2) (itf>-"*«). B.36) Рассмотрим теперь функцию h (Z) вида h(Z) = V а, (*(«> -(?</> + 4")/2) Й'>-*«), B.37) где аг — постоянные, подобранные так, чтобы d = |E(/T(Z)|tf2, Sy)- -Е(h(Z)|Hlt SY)\/VD(h(Z)\H~ Sy),
а следовательно, и УОК были оптимальны. Находим а ° B.38) здесь <*<«> = Е (г« |Я2, Sy) - Е (г«> |ЯЪ Sy); ?<•'» = = г}° + (-1у+Ы«>/2еЫ@, nj1) (/= 1, 2; j = 1, ...,/>) и независимы между собой. В рассуждении использовано то обстоятельство, что (Y~u Y2) и Sy независимы между собой и ковариационная матрица Y единичная. Сравним теперь формулы B.36)—B.38): 1) в традиционной асимптотике при d(l) Ф 0 аг ->- 1, ана- аналогично бг ->- 1, поэтому обычный линейный дискри- дискриминантныи анализ и алгоритм оптимизации УОК асимптотически подобны; 2) теоретически [51, 103, 142] и путем моделирования показано, что в асимптотике растущей размерности 6г не стремятся к пределу, а имеют предельное распре- распределение с размахом, зависящим от Яг, t= 1, 2; распре- распределение 6г- не зависит от d('> и \I), поэтому взвешива- взвешивание не оптимально и линейный дискриминантныи ана- анализ ведет к большим по сравнению с алгоритмом B.37)—B.38) ошибкам (напомним, что последний алгоритм использует информацию об истиняых пара- параметрах модели); 3) из-за нормализующего преобразования X ->- Y алгоритм евклидова расстояния в пространстве Y, относящий наблюдение к той совокупности, к выбо- выборочному центру которой оно ближе, может иметь меньшую ООК по сравнению с линейной дискри- минантной функцией; 4) алгоритмы, уменьшающие вклад в дискриминант- ную функцию экстремальных значений бг как источ- источника больших погрешностей и учитывающие при выборе весов в B.37) величину d(l), могут в асимп- асимптотике растущей размерности вести к уменьшению ООК по сравнению с традиционным дискрими- нантным анализом. Особенно опасны б;, близкие к нулю. 2.4.2. Регуляризованные оценки S. Специальные меры, направленные на улучшение обусловленности матрицы S и уменьшение случайных колебаний корней обратной мат- матрицы S-1, принято называть регуляризацией. Пусть X — 100
собственный вектор матрицы S, соответствующий собствен- собственному числу б, т. е. SX = 6Х. B.39) Тогда X являетсй собственным вектором матрицы 1Р + + с& (а > 0), соответствующим собственному числу 1 + + аб, так как (lp + aS)X = X + a8X = (l+ab)X. B.40) Заменим теперь в линейной дискриминантной функции пре- предыдущего пункта Sy1 на AР + aSy), тогда в силу сохра- сохранения собственных векторов представление B.36) имеет место, и в нем величины бг1 заменяются на A + aS^)-1. Раз- Разброс последних заведомо меньше разброса б7\ они ближе к предельному взвешиванию слагаемых и, следовательно, обес- обеспечивают меньшую ООК, чем B.36). При а = 0 получаем алгоритм евклидова расстояния. К сожалению, невозможно воспользоваться только что проведенным рассуждением непосредственно, так как ис- исходная матрица 2 неизвестна. Однако на практике регуля- регуляризация рассмотренного вида часто применяется к исход- исходной выборочной ковариационной матрице (без предваритель- предварительного перехода в пространство Y). При этом, так же как в рас- рассмотренном выше случае, направления собственных векто- векторов не меняются, а собственные числа матрицы отодвига- отодвигаются от нуля. Это так называемые ридж-оценки S. В ра- работе [23] теоретически и в [217] путем моделирования пока- показано, что ридж-оценки действительно уменьшают ООК. В [167] подобный результат достигается при замене S на (S + а А), где А — некоторая симметричная положи- положительно определенная матрица. В частности, в качестве А можно взять матрицу, составленную из диагональных эле- элементов S. Другой вид регуляризации, с успехом используемый на практике [148] и называемый оценкой главных ком- компонент (ОГК-оценкой) — это замена S на Sf' = = С diag (бГ1 7 (б! - V) Sp1 V (бр - v)) €\ где С—ортогональная (р X р)-матрица, составленная из соб- собственных векторов матрицы S; (б1( ..., бр) — собственные чи- числа матрицы S, а V (и) = 0 для и •< 0 и V (и) = 1 для ы> 0. Простая геометрическая иллюстрация рассмотренных выше правил дана на рис. 2.3 посредством функций взвеши- взвешивания собственных значений матрицы S. Пусть Си {б:, ..., бр} определены как выше и пусть ?/= СХ, тогда в тер- 101
минах U линейная дискриминантиая функция представля- представляется в виде y G7,— B.41) Введем в B.41) формально в виде сомножителя функцию взвешивания v\ (8t). Это позволяет единообразно предста- . вить основные орто- а / 9.6 1 гонально- инвариантные методы регуляризации: а — Ц (б) з= 1 для ли- линейной дискриминант- ной функции Фишера; б~ ч(б)= Г0для6<т 1 1 >у для ОГК-оценки S~l; в—Tj (б) =6 для метода ^Т евклидова расстояния; 4 Рис. 2.3. Весовые коэффициенты различных методах регуляризации ридж-оценок вида (alp+ + S)-1. 2.4.3. Обобщенная ридж-оценка В. И. Сердобольского [142, 145]. Представляет собой линейную комбинацию простых рндж-оценок (I + ^S)-1 с функцией взвешивания a(t), где a (t) — функция ограниченной вариации B.42) Для того чтобы для заданной функции a (t) при использова- использовании Sir1 вместо S-1 в линейной днскримннантной функции существовало в асимптотике растущей размерности предель- предельное распределение для УОК, предположения B.9) должны быть дополнены следующими: 1) обе совокупности нормальны N (М}, S), / = 1,2; 2) собственные числа матриц 2 лежат на отрезке [сг, С2Ь где С]. > 0 и с2 от т не зависят; 3) при каждом т сумма пг + п2 ^ р + 4, 0< Я = я2)< 1. Введем функцию распределения неслучайных собствен- собственных значений матрицы 2: Fm (и) = р~х 2 !• Обозначим компоненты г * = М2 — Mlt и пусть ниже ц,<"> означают вектора fi в системе координат, в которой 102
матрица 2 диагональна. Введем функцию Rm (и) = I 6; <Н. 1= 1 Р 4) при и > 0 существуют пределы 5) выборки из совокупностей независимы. Матрица S вы числяется обычным образом согласно B.3). В сделанных предположениях существуют пределы в сред- среднем квадратическом: AB) = l.i.m. p^Spilp—zS)~1= J(l— zs(z)u)-1dF(u), B.43) где a(z)=l-~k+)Ji(zy, b (z) = 1. i. m. ц' (Ip — zS)-1 |A =» J A — zs (z) u)-1 udR (u); B.44) k B) -1. i. m. (Хг-%)' (I- 2S)-i (X2-;Q = -6B) + (Я1+^)(ЛB)-1)/(г8B)). B.45) Предельная минимаксная ошибка (а) классификации по правилу h{X) ^ 90, где в0 = l.i.m. 90m = ~ {К2 — Ях)х т-*<» 2 X | (te (—f))-1 (I — А (— t)) Aa (t), выражается через них: B.46) где ^ B.47) = l.i.m. (ц' SaM G 7)p *<^*(Ц fl^. B.48) В [142] доказывается, что функция a0 @. минимизирую- минимизирующая а, может быть найдена при некоторых дополнительных предположениях в явном виде. Переход от предельных реко- рекомендаций [142] к построению практического алгоритма для конечных выборок является довольно сложной задачей и выполнен в [145]. Соответствующая программа, названная ЭЛДА — экстремальный линейный дискриминантныи ана- анализ — хорошо работает начиная с р > 5. Ее сравнение с 103
алгоритмами Фишер и Парзен (см. § 3.2) на ряде реальных коллекций данных ср~и, выполненное с помощью паке- пакета СОРРА-2 [125], показало явное преимущество ЭЛДА перед алгоритмом Фишер и заметный выигрыш по сравне- сравнению с универсальным алгоритмом Парзен при использо- использовании в последнем стандартных значений параметра сгла- сглаживания, предусмотренных в СОРРА-2. 2.5. Отбор переменных 2.5.1. Увеличение ООК малоинформативными признаками. Один из очевидных выводов из формул § 2.3 состоит в том, что включение в прогностическое правило малоинформатив- малоинформативных переменных может заметно ухудшить его качество. Рис. 2.4 показывает это наглядно. Каждый признак наряду * ш ¦ щ * •* ¦ •* и ¦ 12 3 I сигнал 7 8 переменные шум Рис. 2.4. Зависимость отношения сиг- сигнал/шум от числа отобранных параметров: * — отношение сигнал/шум для k первых переменных с положительным вкладом в разделение несет в себе в силу ограниченности выборки и шумовую (случайную) состав- составляющую. Если много малоинформативных признаков, то от- отношение сигнал/шум значительно лучше для группы высо- высокоинформативных признаков, чем для всей выборки. Тот же вывод подтверждают и числовые данные. Из анализа данных табл. 2.2 видно, что при известной ковариационной матрице 2 обучаемость подстановочного алгоритма заметно лучше, чем в общем случае, когда 2 не- неизвестна. Однако и при известном 2 роль отношения pin 104
существенна. Поэтому при относительно небольшом объеме выборки малоинформативные признаки в прогностическое правило лучше не включать. Однако заранее информатив- информативность признаков обычно не известна и отбор наилучших сре- среди них производится по выборке, но здесь мы сталкиваемся с новым явлением — отбор признаков может заметно ухуд- ухудшить обучаемость алгоритма. 2.5.2. Влияние выборочных флуктуации на результаты от- отбора признаков. Задача формирования наилучшей системы признаков трудна сама по себе как с технической, так и с ме- методологической стороны даже в случае полностью опреде- определенных распределений (см. § 1.4). В дискриминантном ана- анализе она усугубляется еще и выборочными флуктуациями. Для представления масштаба возникающей проблемы снова обратимся к модельному примеру. Пусть в модели Фишера с известной единичной ковариационной матрицей Fj = N(Mj, !„)(/= 1, 2) B.49) средние случайны: М1= — М2 и Мг?Ы@, о21р/4). B.50) При моделировании сначала получают значения Мх и М2, далее моделируются независимые выборки объема п каждая из Fx и F2, и по ним с помощью изучаемого алгорит- алгоритма А строится правило классификации. Поскольку значе- значения Мх и М2 известны, нетрудно оценить Pf, „, — асимпто- асимптотическую ошибку классификации, которая, естественно, за- зависит от Мг и М2. Подбирая величину а2, можно добиться того, что значение EPPi „ будет достаточно близко к любо- любому числу 0 < е < 0,5. Пусть А — подстановочный алгоритм, действующий в Rp и порождающий правило вида h{X) = {X-(X1 + X2l2))' (ffs-Xi)S=c, B.51) где с подбирается в каждой серии так, чтобы УОК была ми- минимаксной. Пусть далее В — аналогичный подстановочный, алгоритм, но с предварительным отбором г признаков из р. При этом отбор переменных проводится по величине мо- модуля разности 1^2° — х\1) | так, что переменные с разно- разностью, большей некоторого порога, включаются как «ин- «информативные», а с меньшей— нет. В табл. 2.3 показаны три отношения хА = EP?2jEP$iX, xB = ЕРЦ,2П/ЕР?.» и у = (хв — 1) / (ил — 1), полученные методом статисти- статистического моделирования. Общий вывод, который можно сделать из табл. 2.3, следующий: в рассматриваемой моде- 105
Рае 0,10 0,10 0,10 0,10 0,01 0,01 0,01 0,01 г 5 8 12 20 5 8 12 20 Щг 0,5 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0 5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 0,5 1 2 5 10 Р к» 1,78 1,40 1 19 1,08 1,04 1,74 1,38 1,19 1,08 1,04 1,73 1,35 1 18 1,07 1,04 1,63 1,35 1,18 1,07 1,03 2 36 1,58 1,29 1,11 1,05 2,21 1,51 1,25 1,09 1,04 1 ,99 1 43 1,21 1,08 1,04 1,85 1,38 1,19 1,07 1,04 = 0,125 кв 2,73 2,15 1,64 1,25 1,13 2,67 2,05 1,59 1,28 1,15 2,52 2,03 1,58 1,25 1,13 2,52 2,02 1,59 1,24 1,13 5,94 2,97 1,83 1,30 1,13 5,14 2,61 1,84 1,31 1,14 4,42 2,61 1,72 1,27 1,14 4,25 2,43 1,70 1,28 1,12 V 2,2 2,9 3,4 3,3 3,3 2,2 2,8 3,2 3,5 4,2 2,1 2,9 3,3 3,6 3,5 2,4 2,9 3,4 3,4 3,8 3,6 3,4 2,9 2,64 2,62 3,4 3,2 3,4 3,3 3,2 3,4 3,7 3,4 3,4 3,7 3,8 3,8 3,7 3,8 3,5 Таблица 2.3 р = 0,25 *А 1,73 1,39 1,31 1,08 1,04 1,76 1,37 1,20 1,07 1,04 1,58 1,35 1,17 1,07 1,04 1,63 1,33 1 17 1,07 1,04 2,44 1,63 1,25 1,10 1,06 2,19 1,48 1,23 1,08 1,04 2,03 1,42 1 20 1,09 1,04 1,78 1,40 1,13 1,07 1,04 'х- 2,45 1,86 1,57 1,20 1,10 2,41 1,82 1,50 1,20 1,10 2,23 1,79 1,45 1,19 1,10 1,2 1,77 1,45 1,19 1,10 3,96 2,57 1,66 1,22 1,13 3,88 2,30 1,54 1,19 1,10 3,34 2,29 1,52 1,21 1,10 3,20 2,01 1,38 1,19 1,09 V 1,9 2,19 2,8 2,6 2,5 1,9 2,2 2,5 2,8 2,7 2,1 2,3 2,6 2,6 2,9 1,9 2,4 2,6 2,7 2,7 2,1 2,5 2,7 2,10 2,27 2,4 2,7 2,3 2,3 2,4 2,3 2,8 2,5 2,4 2,3 2,9 2,5 1,6 2,73 2,61 Г 1,74 1,39 1,17 1,08 1,04 1,66 1,35 1,19 1,08 1,04 1,66 1,35 1,17 1,07 1,04 1,65 1,34 1,18 1,07 1,04 2 09 1,60 1,23 1,08 1,05 2,07 1,46 1,25 1,08 1,04 1,93 1,45 1,22 1,09 1,04 1,84 1,37 1,17 1,07 1,03 = 0,5 „в 1,98 1,6 1,30 1,14 1,06 2,00 1,56 1,33 1,13 1,07 1,96 1,55 1,30 1,13 1,07 1,96 1,59 1,32 1,13 1,07 2,73 1,93 1,38 1,13 ,08 2,80 1,78 1,41 1,12 1,07 2,53 1,75 1,35 3,13 1,06 2,53 1,64 1,29 1,11 1,05 11331 V 1,3 ,5 g ,7 1,6 ,5 ,6 1,7 1,7 1,7 1,5 1,57 1,8 1,9 1,8 1,5 1,7 1,8 1,8 1,9 1,6 1,6 1,7 1,6 1,6 1,7 1,7 1,68 1,5 1,6 1,6 1,7 1,6 1,5 1,5 1,8 1,7 1,7 1,6 1,56 106
ли, когда объем обучающей выборки ограничен и число ото- отобранных признаков в 4—8 раз меньше числа исходных пере- переменных, ожидаемая ошибка алгоритма с отбором призна- признаков по обучающей выборке заметно больше ожидаемой ошиб- ошибки алгоритма без отбора. Правда, в качестве примера взя- взята модель ситуации, весьма трудной для отбора. 2.5.3. Изучение эффекта отбора признаков в асимптотике растущей размерности. Основное добавление к предположе- предположению B.9) асимптотики растущей размерности при изучении эффекта отбора состоит в том, что г — число отбираемых признаков — пропорционально р, т. е. что г/р-+р>0. B.52) Естественно также потребовать, чтобы расстояние между классифицируемыми распределениями оставалось ограни- ограниченным при росте р и п, т. е. чтобы oi = Q(p~1). B.53) Поскольку априори известно, что признаки независимы и нормально распределены с единичной дисперсией, перемен- переменную i включаем в число отобранных, когда 14<> — *</> | > Т W + 2/п, B.54) где Т = Т (р) определяется из условия 1 — Ф (Т) = р/2. Условие B.52) выполняется, так как *B° —х['> 6 N @, ст2 + + 21 п). Пусть B.55) где для i, He удовлетворяющих условию суммирования, по- положено dt = 0. Согласно B.3) АОК Рр, «. = Ф (—Hmrf/2). Найдем математическое ожидание одного, отличного от нуля, слагаемого в B.55): -re B.56) Число отличных от нуля слагаемых асимптотически равно рр, поэтому для больших р « 2ст2р/ф(—Т) +-^г ехр{—Г/2)У B.57) 107
Обозначим Е, (i = 1, 2) условное математическое ожида- ожидание по наблюдению X при условии, что I) X ? Ft и 2) обу- обучающая выборка фиксирована Пусть далее в соответствии с предположением B.53) а2-р-+[г2<оо, B.58) тогда согласно B.57) для р = 0,125; 0,25; 0,5 (соответствую- (соответствующие значения Г равны 1,53; 1,15; 0,674) для получения Pf = = 0,01 fi2 должно быть соответственно равным 43,1; 29,9; 23,3 и для Pi = 0,10 ц2= 13,08; 9,08; 7,08. Для подсчета асимптотического значения УОК по конечной выборке при отборе и обучении надо найти в изучаемой асимптотике B.9), B.52), B.49), B.50), B.58) предел отношения Он существует, так как в силу закона больших чисел суще- существуют конечные пределы числителя и знаменателя. Обозна- Обозначим его d2, тогда = Ф (—2/2). B.60) Теперь для значений р, Я, Р^,, указанных в табл. 2.3, можно найти соответствующие предельные значения Xs (табл. 2.4). Таблица 2.4 Роо 0,10 0,01 lim л/г 0,5 1 2 5 10 ад 1 2 5 10 р=0,125 3,18 2,56 1,96 1,48 1,23 7,3 3,8 2,3 1,4 1,2 р=0,25 2,78 2,19 1,69 1,30 1,18 4,9 2,7 1,79 1,29 1,14 Р=0.5 2,22 1.75 1.41 1,18 1,13 2,9 - 1,9 1,42 1.16 1,07 Качественное соответствие данным табл. 2.3 полное. Од- Однако численно изучаемый эффект более сильно выражен в асимптотической теории. В близкой постановке ошибку классификации при от- отборе переменных изучал В. И. Сердобольский [140]. Отличие 108
от рассмотренной выше задачи состояло в том, что он рассматривал модель блочно-независимых распределений (см. п. 1.1.5 и 2.3.2) с одинаковым числом оцениваемых в блоках параметров (аналог матрицы 1Р в предположении B.49)) и вместо предположения B.50) на Jt -расстояния Кульбака между г-ми блоками (i = 1, ..., k) накладыва- накладывалось в асимптотике B.9) условие к-1 2 \-+F(v), B.61) Jt<v/k где F (v) известно. Соответственно отбор переменных про- проводился по условию Jt S с (т), где с (т) подбиралось так, чтобы выполнялось условие B.52). 2.6. Метод структурной минимизации риска Одна из основных трудностей традиционных алгоритмов дискриминантного анализа состоит в том, что они сущест- существенно зависят от субъективных предположений (см. п.2.1.1), которые трудно и не всегда можно проверить по имеющимся данным. Более того, исследователь порой знает, что предпо- предположения не верны, а продолжает ими пользоваться, так как они, существенно ограничивая класс возможных решаю- решающих правил, успешно работают в данной предметной обла- области. Таким образом, результат применения дискриминант- дискриминантного анализа существенно субъективен, хотя сами алгорит- алгоритмы полностью формализованы. Поэтому возникло направ- направление исследований, рассчитанное на тех, кто не хотел бы начинать исследование с субъективных предположений. Цель его — не столько предложить эффективные рабочие формулы, сколько развить общую теорию оценивания и на ее основании доказать, что в принципе при п —*- оо можно найти решение и без априорных предположений. В основе нового подхода лежит известное понятие функции потерь. Для простоты изложения ограничимся случаем двух клас- классов, для которого функция потерь Q(a) = $(t,-J(X, a)LF(X, у), B.62) где {J (X, а)} — некоторый класс функций, принимающих значения / = 1, 2 и зависящих от абстрактного параметра a; F (X, у) — неизвестная функция распределения (X, у). При вычислениях Q (а) заменяют на ее выборочную оценку Зэмп(а) = ? tot-J(Xt, *)?ln. B.63) 1= 1 109
Обозначим класс функций {/ (X, а)} через S, обычно его выбирают заметно шире, чем класс функций, используемый в статистическом дискриминантом анализе. Это позволя- позволяет, с одной стороны, отказаться от априорных предположе- предположений, а с другой — служит источником трудностей, о кото- которых речь ниже. В классе S ищут минимум по a QaMa(a). Пусть он до- достигается при а=а0. Далее строится оценка, показываю- показывающая, насколько могут отличаться Q (а0) и Q3Mn (а0). Эта оценка зависит от доверительной вероятности е и имеет вид p{|Q(ao)-Q3MnK)|<Q(At -JiLLJ^i-e, B.64) где Q (и, v) — известная непрерывная функция своих ар- аргументов Q @,0) = 0; п — объем выборки; h — новое фун- фундаментальное понятие, называемое емкостью класса S [44, с. 195—196]. Оно характеризует число способов разделе- разделения выборки Хъ .... Хп с помощью функций класса S. По- Поскольку это понятие не используется в дальнейшем, не будем его здесь определять, а отошлем читателя к ориги- оригинальным работам [44, 45]. Отметим только, что емкость Л= = р в случае линейных от функций X правил вида / (X, а)» U { ^ а, ф| (X)) + U B.65) где (/(d)'= J -"' ' q>t(X) —-известные функции X. ]0 и<0, Если бы были сделаны априорные предположения о классифицируемых распределениях, то можно было бы за- заранее сузить класс функций S, среди которых ищут минимум <2эмш и формула B.64) давала бы оценку точности реше- решения. Однако исходная целевая установка заключалась в от- отказе от априорных предположений и рассмотрении макси- максимально широкого класса S. Для того чтобы соединить по- потенциальную широту S и ограниченность объема выборки, на S выделяется некоторая структура вложенных друг в друга подмножеств {/ (X, а)} растущей емкости и минимизация проводится внутри подходящего S4 так, чтобы сбалансировать оцениваемые по обучающей выборке потери от использования не самого широкого класса функ- функций с потерями при переходе от Q0KC к Q, оцениваемыми но 110
формуле B.64). Этот подход к построению алгоритмов клас- классификации получил название структурной минимизации риска. Достоинства метода структурной минимизации: 1) отказ от априорных предположений; 2) решение прямой задачи — поиск а0, а не оценка пара- параметров гипотетических распределений; 3) построение универсальных оценок B.64); 4) наличие рекомендаций по сочетанию объема выборки п и сложности используемого класса функций; 5) существенное развитие общей теории минимизации эмпирического риска, введение новых понятий, что не мо- может не сказаться на будущем развитии дискриминантного анализа. Недостатки этого метода: 1) сильно завышены оценки погрешности, делающие ме- метод неконкурентно способным по сравнению с современ- современными алгоритмами дискриминантного анализа; 2) перенос трудностей, связанных с выбором предполо- предположений, на этап введения последовательности структур B.66); 3) отсутствие рекомендаций по выбору структур в зави- зависимости от геометрии расположения классов. Одна из возможных программных реализаций метода структурной минимизации риска названа алгоритмом «обоб- «обобщенный портрет» [44]. Алгоритм начинается с отображе- отображения исходного пространства переменных в бинарное прост- пространство В, каждая координата которого принимает лишь два значения: 0 и 1. Пространство В имеет размерность р Рнов =2 kt, где kt — число градаций, на которые раз- разбивается i-й признак. Это обеспечивает универсальность по- последующей трактовки, а с другой стороны, как показано в п. 2. 3. 4, порой ведет к очень большим потерям информа- информации. Интерпретация формул, получаемых с помощью алго- алгоритма «обобщенный портрет», часто бывает затруднительна из-за большой зашумленности используемых оцифровок. ВЫВОДЫ 1. В дискриминантном анализе (ДА) распределения X в классах известны не полностью. Они задаются предполо- предположениями и выборкой. Обычно предполагается, что либо fi (X) (j — I, ..., k), либо их отношения принадлежат из- 1П
вестному параметрическому классу функций с неизвестными значениями параметров. Выборка имеет вид {(Хь Dt), i =1, ..., /г}, где уг показывает, из какого класса взято наблюде- наблюдение /. 2. Алгоритмом ДА называют метод, с помощью которого на основании обучающей выборки и предположений стро- строится конкретное правило классификации. Поскольку вы- выборка случайна, случайно и построенное на ее основе прави- правило. Поэтому наряду с характеристиками конкретного пра- правила часто рассматривают и средние (ожидаемые) значения этих характеристик, полученные путем усреднения по всем выборкам данного объема п. Это уже характеристика алго- алгоритма. Наиболее часто используются Ррг „ — УОК — услов- условная ошибка классификации правила, построенного с помо- помощью алгоритма Л приданной обучающей выборке, ЕРр, „ — — ООК — ожидаемая ошибка классификации алгоритма А и Рр, „ = lim ЕРр, „ — АОК — асимптотическая (при П —> оо л—*- оо) ошибка классификации алгоритма А, а также хА = называемое коэффициентом обучаемости алгорит- алгоритма А на выборке объема и, или, проще, коэффициентом Раудиса. 3. Для изучения свойств алгоритмов классификации в условиях, когда р ~ /г;, удачной оказалась ассимптоти- ка растущей размерности Колмогорова — Деева, в кото- которой рассматривается последовательность задач классифика- классификации (по параметру т), такая, что р = р (т), п} = п} (т) -> -> оо и p/tij -*¦ kj <Z оо. Для получения в этой асимптотике содержательных результатов в конкретных задачах на рас- распределения обычно накладываются дополнительные усло- условия. 4. В ДА наиболее часто используются так называемые подстановочные алгоритмы, в которых неизвестные в отно- отношении правдоподобия параметры модели заменяются их оценками, построенными по выборке. Пусть а — предельная в асимптотике Колмогорова — Деева минимаксная ошибка классификации. Тогда для подстановочного алгоритма в мо- модели Фишера с известной ковариационной матрицей а = = Ф (— cP-I2~V(P + Xj + Х2), где d — предельное расстоя- расстояние между центрами классов: в той же модели, но с неиз- вестной матрицей S а = Ф (— сР A — A^/fti + ^I/3/ ,j +X2), т. е. заметно больше. 5. Теоретические исследования показывают, что послед- последняя ошибка может быть заметно уменьшена в частных слу- 112
чаях, когда 2 имеет простую структуру зависимостей Ошибку можно уменьшить также, заменив в линейной дис- криминантной функции S на специальным образом подоб- ранную регуляризованную оценку S-1. 6 В условиях дефицита выборочной информации часто бывает целесообразным для улучшения свойств алгоритма использовать не все переменные, а только часть из них. Вместе с тем задача отбора переменных сопряжена со значи- значительными как техническими, так и чисто статистическими трудностями. Глава 3. ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО КЛАССИФИКАЦИИ ПРИ НАЛИЧИИ ОБУЧАЮЩИХ ВЫБОРОК (ДИСКРИМИНАНТНЫИ АНАЛИЗ) 3.1. Предварительный анализ данных Это один из наиболее ответственных этапов дискриминант- ного анализа, направленный на формирование математиче- математической модели данных, которая в свою очередь служит осно- основой для выбора конкретного алгоритма. Редко исследование с применением ДА осуществляется изолированно. Поэтому при предварительном анализе обязательно надо использо- использовать опыт других близких работ, а не полагаться всецело на данную конкретную обучающую выборку. Кроме того, следует различать условия, при которых метод классифи- классификации выводится, и условия, при которых он может быть ус- успешно применен. Анализ обычно начинается с общего осмотра данных, проводимого с помощью метода главных компонент [11, 10.5]. Ниже описываются более специфические приемы. 3.1.1. Проверка применимости линейной дискриминантной функции (ЛДФ) В п. 1.12 ЛДФ выведена как логарифм отношения правдоподобия в задаче Фишера. Соответствую- Соответствующая математическая модель— два многомерных нормальных распределения с общей ковариационной матрицей. Постро- Построим графический тест для проверки этого базового предполо- предположения. Но прежде, чем описывать тест, обратим внимание на качественное смысловое различие классов, часто встре- встречающееся в приложениях. Это поможет понять интуитив- интуитивную идею, лежащую в основе теста. Один из классов обычно соответствует или стабильному состоянию, или устойчивому течению какого-либо процесса. Он относительно одноро- однороден. Для него, как правило, я > 0,5 и нет основания ожидать слишком большого отклонения от многомерной ИЗ
нормальности распределения X. Назовем объекты этого класса не-случаями С другой стороны, объекты другого класса — случаи — представляют собой отклонения от рав- равновесия, устойчивости Отклонения могут происходить в разных направлениях Можно ожидать, что разброс век- вектора X для случаев больше, чем для не-случаев Случаи хуже изучены по сравнению с не-случаями Спроектируем случаи на двумерную плоскость Для этого нормализуем выборочные векторы случаев Ххн сог- ласно выборочным оценкам среднего и ковариационной мат» рицы не-случаев *i.« hoPm = S-1/2(X1!-X2), C 1) где X и S определены как обычно Найдем теперь двумерную плоскость, проходящую через начало координат (центр не-случаев после нормализации), такую, что сумма квадратов расстояний Xli!jHOpM от нее минимальна Нетрудно видеть, что эта плоскость должна быть натянута на первые два собственных вектора, соответствующих наибольшим корням матрицы В =¦ = 2Х1, г HopMXi, г норм Далее спроектируем каждый вектор на эту плоскость и построим отдельно гистограмму, показы- показывающую распределение расстояний случаев от этой плоско- плоскости Если пх и п2 достаточно велики по сравнению с р и верны базовые предположения, то линии постоянного уровня плотности случаев должны быть концентрическими окружностями с центром в точке, соответствующей Мх Распределение расстояний точек Х1гнорм от плоскости должно соответствовать примерно х2"Распределению с р — 2 степенями свободы Визуальный анализ расположения проекций случаев на плоскости позволяет ответить на следующие вопросы 1 Возможна ли вообще эффективная классификация с помощью плоскости? 2 Насколько геометрия расположения случаев соответ- соответствует гипотезе о равенстве ковариационных матриц? 3 Насколько однородны случаи? Не распадается ли их распределение на отдельные кластеры? 4 Нет ли среди случаев слишком удаленных от плоско- плоскости? и т п Пример применения предложенного анализа к конкрет- конкретным данным показан на рис 3 1, а, б Из рисунка видно, что: 1) эффективная классификация (в данном случае речь идет о прогнозе события стать случаем) возможна, 2) распределе- распределение случаев имеет разброс больше ожидаемого согласно мо- 114
Квартили не случаев I II III IV * . * Центр случаев -3.0 -2.0 -1.0 10 2,0 3,0 4.0 5 6 Квадрат расстояния Рис 3 1 Геометрическая проверка условий применимости ли- линейного дискримииаитного анализа а) проекции случаев на плоскость, б) распределение квадратов расстояний случаев от плоско- плоскости, О — два случая в той же точке 115
дели двух нормальных распределений с общей ковариаци- ковариационной матрицей; 3) случаи не распадаются на отдельные кластеры. Совпадение распределения расстояний с распре- распределением %2р-2 вполне удовлетворительно. 3.1.2. «Главные компоненты» одного из классов как новые ин- информативные координаты. Пусть, как и в предыдущем пунк- пункте, один из классов из содержательных соображений может быть выделен в качестве стабильного устойчивого состояния и принадлежащие ему объекты названы не-случаями. Объ- Объекты других классов будем называть случаями типа / (/ =2, ..., k). Интуитивная идея, лежащая в основе предложения перейти к «главным компонентам» не-случаев, следующая: класс не-случаев не вполне однороден и в него наряду с ти- типичными не-случаями входят объекты, которые все еще ос- остаются не-случаями, но вместе с тем уже сдвинуты в направ- направлениях случаев. Ковариационная матрица не-случаев долж- должна нести следы этих сдвигов. При надлежащей обработке, расположении сдвигов и удаче в выборе параметра К (см. ниже) эти следы можно выявить и воспользоваться ими при выборе информативных для различения классов координат. Введем теперь более точные определения. Пусть М%, S*,— экспоненциально взвешенные оценки среднего и ковариа- ковариационной матрицы не-случаев [11, п. 10.4.6], причем параметр к подобран так, чтобы е (к)—средний вес наблюдения обу- обучающей выборки — был бы равен, например, 0,5. Положим V*= 2 №-M>.)ST(X—МьOл„е-сл. C.2) Собственные векторы матрицы V&, будем называть глав- главными компонентами не-случаев. Для нас принципиально важно, что эти компоненты не зависят от векторов других классов. Если при проверке на обучающей выборке окажет- окажется, что векторы Мсп, типа t — M% (i =2, ..., k) достаточно хо- хорошо описываются первыми главными компонентами, то переход к новым координатам на базе первых главных ком- компонент целесообразен. При проверке удобно построить гра- график «(отношение квадрата проекции вектора на первые / главных компонент к квадрату длины вектора) х /» (рис. 3.2) с нанесенным ожидаемым значением квадрата длины проек- проекции единичного равномерно распределенного случайного вектора, равным Ир, с учетом соответствующих стандарт- стандартных отклонений, примерно равных p~l~V2l A — 1/р). Как видно из рисунка, проекции на первые три главные компо- компоненты значимо отличаются от ожидаемого значения. 116
3.1.3. Устойчивые оценки параметров распределений в классах. Когда распределения X в классах можно считать приближенно многомерными нормальными, для оценки сред- средних и ковариационных матриц рекомендуется использовать устойчивые к отклонениям от нормальности оценки, напри- например ЭВ-оценки [11, п. 10.4.6]. При этом наблюдения, полу- 0,8 0,6 0,4 0,2 i w X У 0 1 // / / / / 1 1 X / / i X ^ tf / / / / 1 1 1 1 1 6 8 10 t Рис. З.2. Отклонения квадрата длины проекции вектора на I первых главных компонент от ожи- ожидаемого значения при полностью случайной ори- ориентации вектора (р=10): ф — отношение квадрата проекции вектора на / первых главных компонент к квадрату длины векгора, О — математическое ожидание отношения; X — математическое ожидание отношения плюс два асимптотических (р->-оо) стандартных откло- отклонения чившие аномально низкий вес, должны быть внимательно проэкзаменованы: не вкралась ли в их запись (X, у) ошибка. ЭВ-оценки помогают эффективно определять параметры классов при возможных ошибках в отнесении наблюдений к классам. 3.1.4. Проверка гипотез о простой структуре 2. В § 2.3 по- показано, что информация о простой структуре ковариацион- ковариационной матрицы S дает возможность существенно улучшить ре- результаты классификации. Поэтому всякий раз перед при- 117
менением ЛДф следует проверить, имеет ли ковариацион- ковариационная матрица 2 древообразную структуру зависимостей 112, 4.2—4.3]. Для этого с помощью алгоритма Крускала оценивается структура зависимостей, а далее с учетом струк- структуры строится SAc3- Пусть S—обычная оценка 2. Для оцен- оценки значимости различия S и вдсз в условиях, когда X внут- внутри класса распределены нормально, можно воспользовать- воспользоваться критерием максимального правдоподобия для проверки сложной гипотезы [11, п. 9.3.3]. При этом если предполо- предположение о ДСЗ верно, то величина У = 2 (Xt~X)' (S^-S-1) №-X) +nln (| SW i C.3) где суммирование производится по всем объектам класса, должна иметь асимптотически при п -+¦ оо ^-распределение с г = р (р -}. i)/2 — Bр — 1) степенями свободы, а если гипотеза не верна, то Y должно быть в среднем больше. 3.2. Оценивание отношения правдоподобия 3.2.1. Параметрическое и полупараметрическое оценива- оценивание неизвестных плотностей. В том случае, когда на основа- основании априорной информации или предварительного анализа данных можно предположить аналитический вид плотностей распределений в классах, надо использовать обычные под- подстановочные алгоритмы, следя при этом за тем, чтобы там, где неизвестные параметры в распределениях предполага- предполагаются равными, подставлялись одни и те же оценки (см. § 2.3). Ниже разбирается случай полупараметрического оценива- оценивания. Предположим, что имеются два класса с законами рас- распределения Fj {X) = NT B;-, ?j), / = 1, 2, где NT (...,...) означает класс распределений, трансформируемых к много- многомерным нормальным (см. п. 1.1.5), для / = 1,2 F;- (X) — ~ (^i(*A)),..., Fjp(x(p)))' — вектор-функция непрерывных одномерных распределений координат^, 2У- — положитель- положительно определенная матрица. Общая стратегия решения задачи классификации следующая: для каждого класса построить гладкие оценки плотностей fn, оценить 2;-, далее с помощью формулы A.35) оценить fj и рассмотреть критерий отношения правдоподобия вида /2 //i S с. Если при поста- постановке задачи сделаны дополнительные предположения, то использовать их при оценке /^ и 2у. 118
Оценивание/^; и Fjt. Там, где это ясно из контекста, ин- индексы i и j будем в дальнейшем опускать. Назовем а-кван- тилем (—- < а< ^ту) вариационного ряда |х< |г< < ... <?„ эмпирического распределения г-й координаты в выборке из /-й совокупности величины где [и] — целая часть и и б = и — [и]. Выберем теперь число __ , __ f[log2 п] + 2 при п < 64 ||Уп] при п>64 и построим последовательность (</0, qlt ..., ^8+1)цгде длят— Положим теперь О для t<q9, ((s + 0 Wm+i—Ят))~х Для </те < г < qm+1, (ЗА) О для t> qs+l; О для f<?e, —г + (t-Ят) hit) ДЛЯ qm<t<qm+1, C.4') 1 для f>qs+v В качестве оценок S^¦ = \\Oj, 1кЦ возьмем Oj.ik = 2 ф-1 (Ог (тI(Щ + 1)) X C-5) где для tn:ym = / Гц (т)—ранговый номер х(т в вариаци- вариационном ряду значений г-й координаты в выборке из /-го клас- класса. Заменим в формуле A.35) неизвестные параметры их оценками и построим оценку отношения правдоподобия. Если дополнительно предположить, что 2Х — Е2, то при оценке плотностей надо использовать объединенную оценку C.6) Если дополнительно предположить еще, что Ф-1 (F, (X)) = Ф-1 (Fj-^) + L, C.7) 119
где L = {№, ..., /<р>) — неизвестный вектор (см. п. 1.1.5), то после преобразования координат получаем модель Фишера. В этом случае Т (Х)-объединенную функцию преобразова- преобразования к нормально распределенным величинам можно найти путем итерационного решения системы уравнений Г(Х) = —b_O-i(F1(X)) + —5—(O-MFiWJ+L); C.8) L= 2 Т{ХпIщ- 2 Т(Хт)/П1. C.9) 1 3.2.2. Непараметрическое оценивание плотностей. В слу- случае, когда сделать предположение об аналитическом виде f, (X) нельзя, делают предположение о гладкости f} (X) и оценивают у (X) как отношение непараметрических оценок плотностей nV 2 k{nXt-X\\4*lb) ^ , (зло) пT^ 1-уг=\ где ||Z|| — норма элемента Z; b — малый параметр; k (и)— функция, удовлетворяющая следующим условиям: k(u) ^ >0, Ik («)d« = l, Л(и)-*-0(|«|-*-оо), *(«)=*(—«). В качестве & («) обычно берут плотность нормального закона с параметрами @,1). Наряду с формулой C.10) широко ис- используется оценка "г1 2 П ft ((*J/>-*</>)/*</>) 9ldll=l 1 C.11) «Г1 2 П получившая название оценки Парзена. Часто для упроще- упрощения проводится предварительная покоординатная нормали- нормализация переменных, чтобы они имели одну и ту же меру раз- разброса, и Ь выбираются равными [132]. Для оценок C.10) и C.11) ключевым является выбор параметров Ы'К Его естественно связать с какой-либо ме- мерой качества классификации (см. п. 1.3.4) аналогично тому, как для задачи регрессии это сделано в [12, § 10.1]. На прак- практике оценки Парзена работают хорошо. Их существенные не- недостатки: необходимость запоминания всей обучающей по- последовательности и высокая чувствительность метода к не- непредставительности обучающей выборки. 120
В [198] для распределений, несколько похожих на мно- многомерные нормальные, рекомендуется следующая эвристи- эвристическая приближенная процедура, основанная на рангах. Для каждой из координат / = 1, ..., р строится вариацион- вариационный ряд из п значений х\1) [11, п. 5.6.4]. Исходная величи- величина х\1) заменяется на z\l) — ее номер в вариационном ряду. Если в вариационном ряду были связи, т. е. ...< х\1? = = х\1? = ... - х[1) < ..., то z'f = ... = z[1^ и равня- равняется среднему рангу х\[\ ..., х\1) в вариационном ря- ряду. Далее {Zk:yk — 1} и {Zh : yk = 2} рассматриваются как выборки из многомерных нормальных совокупностей и классификация проводится по одному из правил для много- многомерных нормальных распределений. Сравнения этой реко- рекомендации с изложенным в предыдущем пункте подходом с Т-нормальными распределениями не проводилось. Одна- Однако последний нам кажется более логичным. 3.2.3. Прямое оценивание отношения правдоподобия. Час- Часто аналитический вид плотностей f} неизвестен, но известен с точностью до неизвестных параметров аналитический вид отношения правдоподобия. Так, в частности, будет, если в модели Фишера каждое из наблюдений обучающей выбор- выборки удаляется или остается в выборке независимо от других наблюдений с вероятностью, зависящей только от значения X. В этом частном случае /, (X) = g(X)-y(X, Mi, 2) (/ = 1, 2), C.12)' где ф — плотность многомерного нормального закона; g (X) — некоторая неизвестная положительная функция, вообще говоря, зависящая от яу, М}, 2. Несмотря на то что C.12) может заметно отличаться от плотности нормаль- нормального закона, отношение правдоподобия по-прежнему ос- остается линейной функцией X: C.13) Условная вероятность гипотезы Ни когда дано наблюде- наблюдение X, легко выражается через h (X): Уп}Ь (X) Wl + J^ = A + exp {In (щ/щ) + h (X)})-1 ^ p (X). C.14) 121
В частном случае, когда h (X) — линейная, как в C.13), функция от X /3(Х) = (] + ехр{е<(" + Х'в})-1, C.15) где 0<О) = 0 + In (Jtj/ni). Функция, стоящая в правой части C.15), называется логистической. Предполагая, что имеет место C.15), можно воспользо- воспользоваться соотношением C.14) для того, чтобы найти неизвест- неизвестные параметры 6<°> и в. Для этого воспользуемся методом условного максимального правдоподобия: (в, ?((VargsuplnL({^H6, 0'", {Xk}), C.16) в,в @) где L = Ylp2-yHXk, в, е<")A-р(Хь, в, 1 При условии, что имеет место модель Фишера, метод ус- условного максимального правдоподобия использует не всю информацию, содержащуюся в обучающей выборке. Однако, как показывает теоретическое исследование [220J, проигрыш. в эффективности для близких совокупностей незначителен. В случае, если на обучающей выборке совокупности мо- могут быть отделены друг от друга некоторой плоскостью, мак- максимальное значение In L равно бесконечности и решение уравнения C.16) не единственно. Тогда надо просто найти соответствующую плоскость, например с помощью метода потенциальных функций (см. п. 1.3.3). Рекомендации, как действовать в случаях, когда при некоторых значениях ар- аргумента In L-*- оо, можно найти в [175]. 3.2.4. Непараметрическое оценивание отношения правдо- правдоподобия. Наиболее известен здесь метод «^-ближайших со- соседей», предложенный в работе [225]. Он состоит в следую- следующем: 1) в пространстве наблюдений вводится расстояние меж- между произвольными точками р (Хи Х2); 2) в зависимости от объема обучающей выборки п и пред- предположений о гладкости плотностей распределения класси- классифицируемых совокупностей выбирается нечетное k; 3) вокруг классифицируемой точки Z строится сфера Oft (Z) наименьшего радиуса р, содержащая не менее k то- точек из обучающей последовательности; 4) точка Z относится к той совокупности, к которой при- принадлежит большинство точек из обучающей выборки, по- попавших в 0^ (Z). Конечно^ вместо сфер можно было бы брать области бо- более общего вида. Например, фиксировать какую-либо 122
окрестность нуля (J ограниченного диаметра и рассматри- рассматривать системы окрестностей вида Up (Z) — {X : Z — X = = rV, где V 6 ?/ и г < р}, р — произвольное положитель- положительное число. Некоторые теоретические вопросы, связанные с изло- изложенным методом, обсуждаются в [108]. 3.2.5. Локальная линейная аппроксимация отношения правдоподобия. В [12, п. 10.1.4 и§ 10.2] видим, что в регрес- регрессионных задачах эффективным оказывается использование локальных параметрических описаний регрессии. По срав- сравнению с традиционным непараметрическим подходом оно в меньшей степени зависит от особенностей обучающих выбо- выборок и позволяет получить более полное описание регрессион- регрессионной поверхности. Аналогично и в задаче классификации. Пусть Хо — произвольная точка, тогда правдоподобно, что в достаточно широкой ее окрестности О (Хо) прибли- приближенно выполняется соотношение **.(*>« е+в'(х-*о). C.17) Оценка параметров этой модели на Xt ? О (Хо) позволяет не только провести классификацию нового наблюдения в точке X = Хо по значениям 9, Э и отношению я2/я1? где яу — доля наблюдений в обучающей выборке из ;-й сово- совокупности в окрестности О (Хо), но и получить описание от- отношения правдоподобия в окрестности Хо. 3.3. Сводка рекомендаций по линейному дискриминантному анализу Линейным дискриминантным анализом (ЛДА) называют совокупность алгоритмов, связанных с общей моделью Фишера (см. п. 1.1.2) и некоторыми ее обобщениями, сохра- сохраняющими общий линейный (по X) вид решающего правила A.12), B.15), п. 2.4.3, C.15). 3.3.1. Проверка базовых предположений. Заметим сначала, что выраженная негауссовость одномерных распределений xW (k—l, ..., р) при гипотезах Hj (j -= 1, 2) (например, дискретность распределений) обычно не рассматривается в качестве серьезной помехи к применению линейной дис- криминантной функции (ЛДФ). Более важны другие свой- свойства модели: существование постоянных аг, таких, чтобы /х (*<'> + аг) » /2 (х<1)) и fj были бы примерно симметрич- симметричны. Или даже просто выполнение условий Е (xir>\ Нг) Ф Ф Е (*<«>| Н2) и D (х«>| Нг) « D (х«>| Яг). 123
Описанный в п. 3.1.1 визуально-графический метод дает комплексную проверку условий применимости ЛДА. Если распределения ни одного из классов не распадаются на от- отдельные кластеры, то можно попытаться добиться больше- большего совпадения с моделью Фишера с помощью параметричес- параметрического преобразования координат [11, п. 10.3.4] или перехода к Т-нормальным распределениям (см. пп. 1.1.5 и 3.2.1). 3.3.2. Гипотеза о простой структуре зависимостей между признаками. Примеры распределений с простой структу- структурой связей даны в пп. 1.1.2 и 1.1.5. Независимость приз- признаков, наличие ДСЗ или R (к) позволяют путем использо- использования оценок S~\ учитывающих структуру зависимостей, заметно уменьшить ООК(см. § 2.3). Кроме того, в этом слу- случае отбор информативных признаков носит неитеративный характер и всегда можно сказать, почему включен или не включен в число отобранных тот или иной признак (см. п. 1.4.1). Метод проверки гипотезы о наличии ДСЗ описан в п. 3.1.4. Эту проверку целесообразно проводить всегда. 3.3.3. Методы выделения информативных комбинаций ко- координат. Линейные комбинации — это главные компоненты общей ковариационной матрицы данных или главные ком- компоненты, связанные с ковариационной матрицей одного из классов (см. п. 3.1.2). Последние легче интерпретировать, так как в них направления компонент статистически не за- зависят от средних второй совокупности. Иногда бывает целе- целесообразным выделить, исходя из содержательных соображе- соображений, подгруппу X(i) координат, направленных на оценку только одного прямо не измеримого свойства объекта, и спроектировать Х<г) на направление первой главной ком- компоненты этой подгруппы для наибольшего класса. Обозна- Обозначим проекцию z(i). Замена ХA) на z(i) позволяет сущест- существенно сократить размерность пространства переменных, учи- учитываемых в асимптотических формулах § 2.3. 3.3.4. Методы вычислений. Если min п.; ^> р, то в случае, /=1,2 когда распределения X близки к многомерным нормальным законам, можно использовать подстановочный алгоритм (см. п. 2.1.1), в остальных случаях лучше подгонять логи- логистическую функцию (см. п. 3.2.3), как менее зависящую от гауссовости распределений. В случае min nj ~ p, когда /==1.2 нельзя сделать упрощающих предположений о зависимо- зависимости координат (см. 3.3.2), целесообразно для уменьшения 00 К использовать регуляризованные оценки S (см. § 2.4). 3.3.5. Альтернативные алгоритмы. Если исходные предпо- предположения ЛДА не выполняются (см. п. 3.3.1) и их выполне- 124
ния нельзя добиться преобразованием координат или пере- переходом к Т-нормальному варианту модели Фишера (п.3.2.1), можно рекомендовать либо малопараметрические пред- представления распределений в виде смесей (см. п. 1.1.3), либо использовать непараметрические методы пп.3.2.2 и 3.2.4. 3.3.6. Другие вопросы. В случае, когда предположения о простой структуре зависимостей не верны, отбор информа- информативных переменных проводится с помощью общего подхода, изложенного в п. 1.4.3. Полученный результат контроли- контролируется при этом обычно с помощью оценки расстояния Ма- халанобиса (см. п. 3.4.3) и с учетом эффектов, описанных в §2.5. В случае, когда есть подозрение, что некоторые наблю- наблюдения в обучающей выборке (Хь yt) могут быть определены с ошибкой (засоренные выборки), надо использовать устойчи- устойчивые оценки параметров распределений, как это рекоменду- рекомендуется в п. 3.1.3. 3.4. Оценка качества дискриминации Как сказано в § 2.1, оценка качества построенного пра- правила классификации является завершающей операцией ДА. Выбор конкретных показателей и методов их оценивания зависит от целей построения правила классификации, от начальных предположений и степени уверенности в них, от выбранного алгоритма и, наконец, от доступного програм- программного обеспечения. 3.4.1. Показатели качества разделения. В табл. 3.1 дана сводка основных показателей качества дискриминации, там же указано, где в книге можно найти соответствующие раз- разделы. Средняя ошибка входит в две группы показателей A.2 и 2.1). Показатели A.3 и 3.1) так же связаны друг с дру- другом. Их сопоставление может быть использовано для прямой проверки применимости модели Фишера. Особое место за- занимают показатели, требующие численной оценки отноше- отношения правдоподобия в каждой точке выборочного простран- пространства B.2 и 3.2). Если умеем его оценивать, то «первичная» оценка расстояния Бхатачария по обучающей выборке мо- может выглядеть, например, следующим образом: /\ 125
Таблица 3.1 №n/n 1 2 3 Класс показателей Ошибка классифи- классификации Функция потерь Расстояние между распреде- распределениями Показатели 1.1. Минимаксная ошиб- ошибка 1.2. Средняя ошибка 1.3. Кривая «чувстви- «чувствительность — специфич- специфичность» и расчетные зна- значения d 2.1. Средняя ошибка 2 2 То же, но с взве- взвешенным учетом проме- промежуточных значений от- отношения правдоподобия 3 1. Расстояние Махала- нобиса d2 3.2. Расстояния, опреде- определяемые через отношение правдоподобия Где описаны п. 1.2.4, ф-ла A.40) п. 1.1.4, ф-ла A.31) п. 1.2.2 п. 1.1.4, ф-ла A.31') п. 1.1.4 п. 1.2 4, ф-ла A.39) п 1.2 4, ф-лы A 42) я A.43) Смысл слова «первичная» будет ясен из материала сле- следующего пункта. 3.4.2. Методы оценивания. Хорошо известно, что если при- применить построенное правило классификации к обучающей выборке, то оценка качества классификации будет в среднем завышена по сравнению с той же оценкой качества по не за- зависимым от обучения данным. Это означает, что регистри- регистрируемые на обучающей выборке значения ошибок и функции потерь будут ниже ожидаемых, а значения расстояний— больше. Укажем основные приемы борьбы с этим завыше- завышением качества. Разбиение имеющихся данных на две части: обучающую и экзаменующую выборки. Это самый простой и убедительный метод. Им следует широко пользоваться, если данных до- достаточно. Тем более что, если разбиение данных произведе- произведено по какому-либо моменту времени, метод позволяет оце- оценивать качество правила, построенного по прошлым данным, в применении к сегодняшним данным. С чисто статистиче- статистической точки зрения метод разбиения данных на две части расточителен. Поэтому предложен ряд других, более слож- сложных методов, которые полнее используют выборочную ин- информацию. Метод скользящего экзамена. При этом методе одно из наблюдений отделяется от выборки и рассматривается в ка- 126
честве экзаменующего наблюдения. По оставшимся п — 1 наблюдениям строится правило классификации, которое применяется к выделенному наблюдению. Результат при- применения регистрируется и оценивается. Наблюдение возв- возвращается в выборку, выделяется следующее наблюдение и т. д. Процесс прекращается через п шагов, когда будет перебрана вся выборка. Последовательные оценки, получае- получаемые с помощью скользящего экзамена, несмещены, однако зависимы между собой. Существенная особенность метода— л-кратное построение правила классификации. В случае непараметрических оценок пп. 3.2.2 и 3.2.4 это сделать лег- легко — достаточно просто не включать выделенное наблюде- наблюдение в суммы в формулах C.10), C.11) или не учитывать его в окрестности О (X). В случае использования линейной дискриминантной функции, оцениваемой через Хи Х2, S, при коррекции S используется формула Бартлетта для обратных симметричных матриц А \C 18 I * L" A-1K ' которая существенно упрощает расчеты. В общем случае, особенно при отборе переменных, метод скользящего экза- экзамена слишком трудоемок. Использование обучающей выборки в качестве экзаме- экзаменационной с последующей поправкой на смещение. Идея метода достаточно проста. Пусть оценивается некоторый параметр г. Обозначим его оценку на обучающей выборке гоб и оценку на новой выборке гэкз. Пусть далее А = — Е (гэкз — гоб), а А — некоторая оценка А. Тогда ?=?об+А. C.19) Предложены различные способы оценки А: аналитические, опирающиеся на предельные соотношения гл. 2, и эмпири- эмпирические, использующие специальные вычислительные про- процедуры. Оба подхода описываются ниже. 3.4.3. Аналитические поправки. Они наиболее просты в вы- вычислительном плане, но существенно опираются на мате- математические предположения проверяемых моделей. Поэтому их следует рассматривать только в качестве первых при- приближений. Поправка для оценки расстояния Махаланобиса в модели Фишера. Пусть DS-^-X^'S-MXj-X,). C.20) 127
Оценка D2 смещена. Несмещенная оценка расстояния Ма- халанобиса [264] C.21) Поправка для 00К- На основании теоретического рас- рассмотрения модели Фишера и ряда результатов моделирова- моделирования с различными алгоритмами РаудисШ. [132] рекомендует при конструировании поправки использовать параметр х (см. гл. 2); если х< 1,5и ац — оценка ошибки классифи- классификации, полученная на обучающей выборке, то а — оценка ООК может быть приближенно оценена с помощью a = xa-a*. C.22) 3.4.4. Метод статистического моделирования (bootstrap method). Предложен В. Эфроном [219]. В нем рекоменду- рекомендуется принять обучающую выборку за генеральную совокуп- совокупность. Из нее производить повторные по параметру i набо- наборы обучающих и экзаменующих выборок и для каждой i-й пары выборок оценивать разность Аг = ггэкз— rii06. Среднее арифметическое А, принимается за А. Далее нс- пользуется формула C.19). 3.5. Рекомендации для к~^Ъ классов Условимся говорить, что объем (обучающей) выборки до- достаточен, если min п} > р\ объем выборки относительно ограничен, если min щ ~ р. Знаки ^> (много больше) и ~ (одного порядка) здесь надо трактовать с учетом геометрии расположения классов: при пересечении центральных час- частей распределений X в разных классах наблюдений должно быть больше, а при упорядоченности центральных частей распределений вдоль какой-либо гладкой кривой — мень- меньше. В первом случае выборочные оценки параметров рас- распределений при аналитических предположениях о форме распределений (см. п. 3.2.1) и прямые описания распреде- распределений при использовании полупараметрических и непара- непараметрических методов (см. пп. 1.3.2 и 3.2.2) дают довольно хорошие совпадения реальных распределений и их оценок, поэтому в этом случае полностью можно использовать мате- материал п. 1.5. 128
Во втором случае, когда объем выборки относительно ог- ограничен, надо использовать упрощающие предположения, но только такие, которые не выводят за рамки распределе- распределений. В частности, следует опасаться использовать попра- поправочные члены, возникающие из предельных теорем в тра- традиционной асимптотике теории вероятностей, хотя такие предложения порой и вносятся [184]. Описываемые ниже предположения упорядочены по степени ограничений, на- накладываемых на распределения в классах: сначала идут на- наиболее сильные предположения, затем они ослабляются. Конечно, полной упорядоченности достичь не удается, так как ограничения существенно не одномерны. Независимость одномерных распределении координат в классах. Это предположение довольно часто и успешно ис- использовалось при диагностике в случае большого числа классов. Но сегодня его следует заменить на более реалистическое предположение, что переменные в классах имеют древооб- древообразную структуру зависимостей (см. пп. 1.2.2, 1.1.5, 2.3.3). При этом в случае предположений о нормальных распре- распределениях в классах можно требовать совпадения соответст- соответствующих ковариационных или (что не то же самое) корреля- корреляционных матриц или вообще ограничиться требованием, что- чтобы одинаковым в классах был только граф структуры зави- зависимостей [12, § 4.2—4.3], а ковариационные матрицы раз- различны. Наконец, можно потребовать равенства ковариаци- ковариационных матриц, не предполагая ДСЗ. Предположения о средних: 1) средние лежат в простран- пространстве первых главных компонент одного из классов (см. п. 3.1.2); 2) средние классов лежат на прямой; 3) классы могут быть упорядочены (см. п. 1.5.3). ВЫВОДЫ 1. Предварительный анализ данных — один из наиболее ответственных этапов дискриминантного анализа. При его проведении следует различать условия, при которых конк- конкретное правило классификации выводится, и условия, при которых оно применяется. Так, теоретическим основанием для линейной дискриминантной функции служит модель Фишера, применяется же ЛДФ в значительно более широких условиях. 2. Основные методы ДА основаны на параметрических, по- полупараметрических и непараметрических оценках плотно- 5 Заказ № 291 129
стей распределений или на непосредственной оценке отно- отношения правдоподобия. 3 В настоящее время еще не решена задача создания едино- единого дерева рекомендаций по проведению ДА, полностью ис- исключающего субъективный фактор. Поэтому рекомендации приходится группировать по разделам: проверка базовых предположений, упрощающих условий, методы вычисле- вычислений, альтернативные решения и т.п. с неформализованным выбором между альтернативами. 4. Оценки качества конкретного правила классификации проводятся либо на новой выборке, либо на обучающей вы- выборке Первый метод дорог, но наиболее убедителен. Во втором случае, чтобы избежать искусственного улучшения результатов, либо к параметру качества, оцененному пу- путем реклассификации обучающей выборки, применяется по- поправка, полученная аналитически или с помощью метода математического моделирования, либо используется метод скользящего экзамена. Последний состоит в том, что одно из наблюдений исключается из выборки, по оставшимся стро- строится правило классификации, которое применяется к пер- первому наблюдению, затем первое наблюдение возвращается в выборку и исключается второе, по оставшимся наблюде- наблюдениям строится новое правило классификации и применяется ко второму выделенному и так далее до тех пор, пока не бу- будут по очереди классифицированы все наблюдения. По итогам классификации строится оценка качества. Глава 4. ПРИМЕНЕНИЯ ДИСКРИМИНАНТНОГО АНАЛИЗА Статистические методы классификации применяются при распознавании сигналов, диагностике состояний сложных технических систем и человека, а также при прогнозирова- прогнозировании будущих отказов, неисправностей, заболеваний. Ис- Использование статистических методов для решения принци- принципиально новых для конкретной области знания задач всегда носит творческий характер и часто требует приспособления и развития соответствующего математического аппарата. Поэтому при изложении материала большое внимание уде- уделяется как методическим особенностям применения опи- описанных в предшествующих главах методов, так и изложе- изложению математического инструментария, направленного на решение тех же задач, что и классификация, с обязатель- обязательным указанием связи между методами. 130
4.1. Группы риска и сравнительные испытания 4.1.1. Группы риска. Пусть группа объектов периодически подвергается осмотру с целью обнаружения неисправных объектов, а также выделения объектов, которые исправны в момент осмотра, но могут выйти из строя до следующего ос- осмотра Для решения поставленной задачи, если, конечно, нет прямых надежных индикаторов возникновения в буду- будущем неисправности, можно воспользоваться методом статис- статистической классификации. Пусть X — результат осмотра ис- исправного объекта. Тогда на основании значения X можно попытаться принять одно из двух решений (гипотез): Нх— «объект останется исправным до следующего осмотра» или Нг — «объект выйдет из строя до следующего осмотра». Ес- Если условные распределения Р (X | Ht) и Р (X | Н2) основа- основательно пересекаются, а это типичный случай, то ошибки классификации (см. § 1 2) будут высокими и такой подход индивидуального предсказания судьбы объекта малопродук- малопродуктивен. Вместе с тем можно оценить Р {Н2 \ X) и тем самым отнести соответствующий объект к одной из групп риска Н2. Такой прогноз, в отличие от первого, иногда называют груп- групповым (не путать с групповой классификацией). Оба метода прогноза почти не отличаются по используемому математи- математическому аппарату, различны лишь формы представления результатов (см. § 1.2). Однако с точки зрения приложения они принципиально различны. Нечетким предсказанием ин- индивидуальной судьбы объекта (в терминах Нх и Н2) восполь- воспользоваться трудно. В то же время указание группы риска весьма информативно. В самом деле, если есть ограниченный дополнительный ресурс для более полного обследования объ- объектов, то его, видимо, целесообразно применить к объектам, принадлежащим к группам более высокого риска. Так, на- например, поступают при диспансеризации населения. При лечении профилактические средства с заметным побочным действием также стоит давать только тем больным, у кото- которых ожидаемый основной эффект лекарства будет выше ожи- ожидаемого ущерба от побочных действий, т. е. и здесь учет Р {#2 | X} крайне существен В разобранной выше задаче лишь немного отклонились от традиционной формы представления результатов и сразу же получили очень интересные варианты практического ис- использования ДА. 4.1.2. Индикаторы и факторы риска. Предположим, что в разобранной в предыдущем пункте задаче хотим найти ком- компоненты X, наиболее тесно связанные с осуществлением события Нг. С помощью описанных в предыдущих главах 5* 131
методов (см. § 1.4, 2.5) можем выделить группу переменных X = (x<li), ...,xilh))', такую, что сила прогноза при расши- расширении набора Л до исходного X на имеющемся в распоряже- распоряжении материале статистически значимо не увеличивается. Переменные, входящие в X, называют риск-индикаторами Н2. При этом в слове индикатор выделяются два смысловых оттенка: 1) на индикатор не всегда можно воздействовать, например, как на возраст объекта и 2) индикатор не обяза- обязательно причинно обусловливает возникновение Нг. Он, на- например, может быть только связан с внутренним механиз- механизмом, порождающим Нг. Перевод части индикаторов в факторы риска. Предполо- Предположим, что можно воздействовать на часть риск-индикаторов, например x(li\ ..., л:('т) (т <; k), изменяя их значение на новые Лн'1', ..., хп т , в то время как остальные риск-индика- риск-индикаторы остаются без изменения. Обозначим X,,H вектор риск- индикаторов для i-ro объекта после изменения. Если после различных воздействий частота события Нг останется сопо- сопоставимой с 1>Р {Н2 | Х?тН}/2 1, где условная вероятность подсчитывается по установленным ранее для X формулам и профессиональный анализ показывает, что переменные *<'»>, ..., л:('т) можно рассматривать как непосредственные состав- составляющие механизма возникновения Н2, то эти переменные называют риск-факторами Нг. На этом пути были, в част- частности, установлены риск-факторы развития ишемической болезни сердца, послужившие основой развертывания широ- широкой программы профилактики сердечно-сосудистых заболе- заболеваний [277, 322]. 4.1.3. Сравнительные испытания. Предположим, что к опи- описанным в п.4.1.1 объектам, признанным исправными при осмотре, применяются определенные воздействия с целью предотвратить их выход из строя за определенный промежу- промежуток времени. Для того чтобы эмпирически отобрать наибо- наиболее эффективное воздействие, проводятся так называемые сравнительные испытания. В простейшем случае они за- заключаются в следующем. Пусть требуется сравнить два воз- воздействия: А — старое и В — новое. Из объектов образуют- образуются две по возможности близкие по свойствам {Хг} группы: О — основная и К,— контрольная. К объектам основной группы применяется воздействие В, а к объектам контроль- контрольной группы — воздействие А. Об эффективности воздейст- воздействий судят по альтернативному признаку: остался ли объ- объект исправным (событие Нх) или вышел из строя (собы- 132
тие Нг). Вопросам формирования сравниваемых групп посвя- посвящена обширная статистическая литература [85, 102]. Тем не менее добиться полного сходства групп даже при умерен- умеренной размерности X удается редко. Это обстоятельство меша- мешает интерпретации результатов испытаний, поскольку априо- априори известно, что Р{Нг\Х) зависит от X. В случае, когда заранее известны риск-группы при ста- старом воздействии А, поправку на неоднородность основной и контрольной i рупп сделать не трудно. Для этого достато- достаточно оценить разность ) D.1) и далее проверять гипотезу, что Но P{Ht\B, Х?О) = Р{Нг\А, Хе/С} + 8. D2) Частным, но практически важным случаем «испытаний» является анализ эффективности разных воздействий на рет- ретроспективных данных Возможность такого анализа обус- обусловлена тем, что четкие однозначные правила назначения воздействия в зависимости от X обычно или отсутствуют, или в силу разных причин не соблюдаются и поэтому в бан- банках данных накапливается довольно обширная информация о различных сочетаниях нар (X, воздействие) и соответст- соответствующих исходах. Многочисленные примеры проведенных исследований показывают, что на основании априорных про- профессиональных соображений исследователь может разде- разделить объекты на относительно однородные группы риска — страгы и проводить анализ эффективности внутри соот- соответствующих групп [85, 1791 Видимо, целесообразно вклю- включать проведение подобного анализа в качестве специальной задачи информационных технологических систем с целью автоматизированного подбора гипотез для дальнейшего их анализа исследователем. В случае, когда риск-группы априори не известны и не могут быть убедительно назначены исследователем, прихо- приходится рассматривать полную математическую модель ситу- ситуации. Простейшая модель влияния X и воздействия V 6 {А,В} на условную вероятность Н2 имеет вид: Р{Н2\Х, V}-A+ ехр{е<"> + в' X + q(V)})~\ D.3) где q (А) = — q (В) = q, 8<0), в — неизвестные парамет- параметры. Проверяемая в испытании гипотеза заключается в том, что эффект сравниваемых воздействий тождествен, т. е. что H0:q = 0. D.4) 133
Очевидно, при q <z О более эффективно новое воздействие, а при q > О — старое. Предположения D.3) и D.4) надо до- дополнить предположениями, что при заданных X и V резуль- результаты испытаний независимы и что распределения X в основ- основной и контрольной группах независимы между собой, и за- задать эти распределения. Например, положив, что в основной группе X?N(M0, 2), D.5) а в контрольной X?N(MK, 2), D.6) где Мо, М/с, 2 — неизвестные параметры, причем det 2 Базовые предположения D.3) —¦ D.6) погрузим в одну из асимптотик: традиционную или растущей размерности (см. п.2.2.1). Можно также пополнить модель упрощающими предположениями о взаимной близости векторов Мо и к и о структуре S. Сводку практических рекомендаций по методам интер- интерпретации результатов сравнительных испытаний с учетом возможного несовпадения распределений в контрольной и основной группах можно найти в [179]. 4.2. Методы описания риска развития события 4.2.1. Мгновенный риск и факторизация Кокса. В предыду- предыдущем параграфе для описания вероятности возникновения неисправности за время от одного осмотра до другого ис- использовалось понятие риск-группы. Но для той же цели можно использовать понятие мгновенного риска (или про- просто риска) г (f) = lim 6rlP {объект неисправен в t+ 4- Д| объект исправен в t}. D.7) Риск и вероятность события Н = {появление неисправно- неисправности за интервал s <C t <C s + Т} связаны соотношением s + T Р{Н | объект исправен до s} == 1 —ехр { — J r(t) dt}. D.8) s По аналогии с D.7) можно ввести условный риск в момент t при условии, что в момент осмотра s <z t объект имел век- вектор показателей X(s) r (t \ X (s)) = lim Д-1 Р {неиспра- д-*о вен в / + А| исправен в t, X (s)}. J34
Понятие условного риска — более тонкий инструмент для описания закономерностей возникновения неисправно- неисправности, чем Р{Нг | X (s)} — понятие условной вероятности. Однако г (t \ X (s)), вообще говоря, требует для своей оцен- оценки заметно большего числа наблюдении. С целью частичного преодоления этой трудности в 1972 г. Д. Кокс [206] предложил факторизовать г (t \ X (s)) путем представления D.9) или r(t\X(s)) = 8(X(s)).h(ts), D.9'} где h (t) в D.9) — функция «возраста» объекта, а в D.9')— функция времени, прошедшего после осмотра; g (...) — функция изучаемых признаков. В зависимости от сооб- соображений предметной области выбирается одна из указанных моделей. Поскольку обе модели трактуются одинаково, в дальнейшем будет рассмотрена только первая из них. При предположении, что g (X) = / (X, в), где / — из- известная функция, а в — вектор неизвестных параметров, факторизация D.9) позволяет оценивать g (X) независимо от функции h. Для этого на шкалу возраста наносятся точки ttl<z ...<z tu, соответствующие возрасту ij объек- объекта в момент наступления неисправности, и для каждой точки tt выписывается Р {i \ tt} — условная вероятность, что среди всех объектов возраста t, в исследовании неис- неисправность наступит только у /-го объекта при условии, что она действительно наступила у объекта возраста tt где суммирование проводится по всем объектам /, в возрас- возрасте tt находившимся в исследовании. Полученные вероятно- вероятности объединяются в общую функцию условного правдоподо- правдоподобия lnL= 2 In Параметры в оцениваются из условия максимиза- максимизации lnL. Наиболее часто используется функция g (X) — = ехр {в'Х}. Процедуры оценки в входят во многие стати- статистические пакеты. Асимптотические свойства в изучены по- пока только в традиционной асимптотике. 4.2.2. Связь между риском и линейной дискримииаитиой функцией. Формула D.8) показывает, что всегда возможен 135
переход от риска события (возникновение неисправности) к вероятности его осуществления за заданный промежуток времени. Проанализируем с эюй точки зрения риск r(t, X) = g(X)h(t) = exp{&' X}.exp{e0J-ef}. D11) Эта формула важна для медицинских приложений, так как h (t) = exp {e0 + еОдостаточно хорошо описывает средний риск кардиоваскулярной смерти для лиц старше 30 лет, а g (X) = exp {в'Х} — наиболее часто используемое предпо- предположение о g (X). Пусть Ни — как прежде, гипотеза, что неисправность не наступила. Если объект был обследован в возрасте s, имел при этом вектор показателей X и пробыл в исследовании Т лет, то -| r(X,t)dt\ = \п((ехр{еТ}—\)/е)}}. D.12) С другой стороны, в классической модели Фишера дискри- минантного анализа для описания той же вероятности ис- используется логистическая функция, в которой s — возраст объекта — в момент обследования рассматривается в каче- качестве одной из переменных Р{Я,|Х. s}=(l-bexp{-ci.»)-Ci.X-4''+1>s}ri. D-13) Формулы D.12) и D.13) похожи в том смысле, что в обеих в качестве аргумента используются линейные комбинации ко- координат X и s, но они различны аналитически. Если положить с[0> = — @,3665+е0 + In ((exp {eT}—1) le) у1; cf = - e<oy-i (i = 1 р); <#+1) = - еу~\ to для у « 0,80ч-0,90 оба выражения для вероятности чис- численно близки. Это видно из табл. 4.1, в которой приведены значения функций A + ехр{ — х})-1 и ехр{ —ехр{ —у#— 0,3665}} для у^= = 0,80 -г- 0,95. Это позволяет связать оба метода и, в частности, использо- использовать оценки, полученные с помощью дискриминантного ана- анализа, в качестве первого приближения в итеративных про- процедурах оценки г (X, t). При работе с риском события информация, содержащаяся в исходных данных, используется более полно, чем при ра- работе с вероятностью осуществления события за время Т, 136
Таблица 4.1 X 0 0,5 1,0 1,25 1,50 1,75 2,0 2,25 2,5 3,0 3,5 4,0 С h +ехр{-л.)Г ' 0,5000 0,6225 0,7311 0,7773 0,8176 0,8520 0,8808 0,9047 0.9241 0,9526 0,9707 0 9820 exp (—ехр {-ух— 0,366г)>> у — 0,80 0,5000 0,6284 0,7324 0,7749 0,8116 0,8429 0,8694 0,8917 0,9105 0 9391 0.9587 0.9721 V = 0,85 0,5000 0,6356 0,7436 0,7870 0,8239 0,8550 0,8811 0,9027 0.9205 0,9473 0,9652 0,9771 у- 0 У0 0,5000 0,6428 0,7544 0,7985 0,8355 0,8663 0,8917 0,9126 0,9295 0,9545 0,9707 0,9812 у = 0,95 0,5000 0,6498 0,7649 0,8095 0,8464 0,8768 0,4015 0,9215 0,4376 0,4607 0,9754 0,9846 описывается ли она формулой D.12) или D.13) Если в фак- факторизации D.9) g (X) ограничено снизу, a h (t) не убывает с ростом t, то при Т-э-оо «разрешающая» сила любого метода ДА стремится к нулю, поскольку все объекты становятся случаями При использовании функций риска это не страш- страшно, так как при оценке параметров используется информа- информация о том, когда объекты становятся случаями. 4.2,3. Измерение динамики силы влияния факторов. Рстест- венно думать, что влияние того или иного фактора или груп- группы факторов различно в ближайшем и отдаленном периодах. Несмотря на высокую практическую важность количест- количественного изучения динамики силы фактора или интенсивно- интенсивности событий, строго документированные сведения в ряде об- областей знания практически отсутствуют. Немалую роль в этом сыграло отсутствие до последнего времени подходящего математического аппарата, позволяющего проводить ис- исследование при сравнительно умеренных затратах. В [271] показано, что повышенное систолическое арте- артериальное давание у мужчины в возрасте 45—60 лет весьма информативно в отношении коронарной смерти в ближай- ближайшие 20 месяцев, что со временем информативность падает и что она весьма мала через 90 месяцев после первоначаль- первоначального измерения. Ниже приводятся результаты этой работы с целью демонстрации возможностей, открываемых соответст- соответствующим математическим аппаратом. Пусть s — возраст в момент включения субъекта в ис- исследование, когда проводилось начальное измерение систо- систолического артериального давления, х — величина систоли- систолического артериального давления (в мм Hg); Л1/4 и яз/4 — 137
нижний и верхний квартили распределения х; t — текущий возраст; г (t, s, х) — условный риск коронарной смерти для субъекта возраста t при условии, что в возрасте s он имел систолическое артериальное давление х. В исследовании ис- использованы данные из London Busmen Study, эпидемиоло- эпидемиологического исследования, направленного на выявление риск- <*- — — Доверительный интервал B стандартных отклонения) 0.1 10 20 30 40 50 60 70 80 90 100 110 120 Время, месяцы Рис. 4.1. Сила предсказания для двух математических моде- моделей [27IJ факторов, ведущих к развитию ишемической болезни серд- сердца. В исследование были включены 684 мужчины в возрасте от 39 до 65 лет. Здоровье каждого из них прослеживалось в течение десяти и более лет. За это время случилось 66 карди- оваскулярных смертей. Если бы имеющиеся данные были разделены на несколько групп согласно возрасту и величи- величине артериального давления, то численность наблюдений в каждой из получившихся групп была бы недостаточной для каких-либо выводов. Только комплексное использование всего материала на базе предположений о форме зависимо- 1Э8
сти риска смерти от х, s и t делает анализ возможным. В ка- качестве показателя прогностической силы использовано g=\oglO<r(t> s. X3/A)/r(t, S, Модельные предположения о г (t, s, х): ri(t, s, x) = exp{(a + «)(l-fr)-}-AW; D.14) r,{t. s, x) = exp{(a + cx)/[l-rbu)}-h(t), D.15) где a, b, с — неизвестные постоянные; и — t — s, a h (t) = = exp {eg + e*}, где е0 и ex — постоянные. Анализ можно бы- было бы провести и без конкретизации вида h (t), но при этом на 25 % возросла бы длина доверительных интервалов. На рис. 4 1 показатель прогностической силы, опреде- определенный в предположении D.14), обозначен g,, в предполо- предположении D.15) — g2. Как видим, качественного различия при использовании моделей D.14) и D.15) нет. Предсказующая сила убывает очень быстро, уменьшаясь в два раза к концу второго года. Общая математическая модель для изучения динамики влияния нескольких факторов строится [107] из геометриче- геометрических соображений модели Фишера классического дискрими- нантного анализа (см. § 2.3). Пусть t, s, X определены как выше, М — вектор средних, а 2 — ковариационная матри- матрица X, тогда r(t; s, X) = exp{(X—My где A - bj» ... 0 ....; «=/—s, в, ьх ьр— D.17) неизвестные параметры модели. Асимптотические свойства модели D.16) в асимптотике растущей размерности пока не исследованы. 4.3. Другие применения ДА 4.3.1. Распознавание сигналов. До сих пор рассматривали задачи, в которых ресурсы, используемые на выработку ре- решающего правила и на саму классификацию нового объекта, не учитывались. При распознавании сигналов картина, как правило, другая: и выработка решающего правила должна быть доступна используемому микропроцессору и классифи- классификация (идентификация) объекта должна произойти за конеч- 139 d(«) =
ное время (часто доли секунды). В качестве примера подоб- подобной задачи рассмотрим речевое общение с ЭВМ. Сначала диктор начитывает ЭВМ используемый им сло- словарный фонд (задает «эталоны»), а затем в ходе общения ма- машина должна правильно идентифицировать произносимые им слова и принимать соответствующие, заранее предусмот- предусмотренные действия. В работе [1441 образ слова в ЭВМ состоит из (/х/?)-мат- рицы чисел, столбцы которой соответствуют полосам частот в диапазоне от 200 до 5000 Гц и их число фиксировано, стро- строки — последовательным отсчетам времени через 5—15 мил- миллисекунд и их число зависит от длительности произнесения слова, а элементы соответствуют спектральной плотности сигнала на выходе фильтра соответствующей полосы, оце- оцененной за соответствующий интервал времени, и отдельно числа п, показывающею, сколько пересечений нулевого уровня сделано сигналом при произнесении слова. На повторное произнесение одного и того же слова дик- диктор, вообще говоря, тратит разное время. Поэтому при иден- идентификации слов обязательно производится выравнивание времен так, чтобы допустить небольшие колебания в дли- длительности произношения отдельных звуков. Отложим по оси абсцисс точки i - 1, ..., т., соответствую- соответствующие последовательным отсчетам первого слова, а по оси ор- ординат— точки / - 1, ..., п, соответствующие отсчетам второго. Рассмотрим далее прямоугольник с вершинами A, 1), A, п), (т, п), (/л, 1) (рис. 4.2). Точки прямоугольника с целочисленными координатами назовем узлами. Каждой ломаной, выходящей из узла A,1) и идущей в узел (т, п) по правилу, что из узла (k, l) ломаная может попасть только в один из узлов (k + 1, /), (к + 1, / + 1), (k, I + 1), соответ- соответствует вариант сопоставления последовательных отсчетов двух слов. Ограничения на колебания длительности произ- произнесения отдельных звуков можно задать в виде прямых, па- параллельных диагонали прямоугольника. Расстояние между двумя словами берется как минимум по разрешенным колебаниям суммы (по столбцам и строкам) квадратов разностей соответствующих элементов матриц, т. е. берется простейшее расстояние. Новое слово идентифи- идентифицируется с тем эталоном, к которому оно оказывается ближе. В настоящее время на распознавание одного слова при сло- словаре в 100—200 слов и одном дикторе коммерческие системы тратят до 1—2 с времени и обеспечивают среднюю правиль- правильность результатов опознания 98—99 %. Один из путей повышения надежности распознавания — это сопоставление с одним словом нескольких эталонов, как НО
эго предложено в п. 1.1.3. При этом возникает чисто статис- статистическая задача выделения Небольшого числа представи- представительных вариантов произнесения слова. 4.3.2. Групповая классификация. В технической и реже медицинскон диагностике иногда априори известно, что по- поступившая на диагностику партия из / объектов X — (X,, ..., X,) извлечена из одного из классов. При этом наб- наблюдения Xi W — 1, ..., /) при условии, что класс фиксиро- ш п ш о / / / У s / / у / у / у / у / / у / У У у ЭТАЛОН Рис. 4.2. Схема сопоставления координат двух вариантов произнесения одного н то- того же слова (эталон и образец): — траектория сопоставления (ТС); границы отклонения ТС ван, независимы между собой. Предположим сначала, что нам известны л} — априорные плотности классов и/7- (X) — плотности распределения X в классах / = 1, ..., к. Тогда байесовское правило классификации должно быть по анало- аналогии с A.66) следующим: принимается гипотеза Ht, если X 6 ? Ri, где Rt = |Х : у„ = S In (fi (Xm)lf3 (Xm))> - In <я,/я,) m*= 1 для всех j=?i\. D.18) Очевидно, что если исследователь не знает я} и f}, но может оценить их по выборочным данным, то целесообразно в D.18) заменить л} и f} на их оценки. Частный случай, когда f}$N (M,, S), изучен в работах [97, 98]. 141
выводы 1. Одним из основных инструментов применения статисти- статистических методов классификации является понятие условной вероятности попадания в один из классов при заданном наб- наблюдении Р {случай \Х) или, как принято говорить, поня- понятие группы риска. Оно позволяет эффективно выделять объ- объекты, требующие наибольшего внимания, и производить по- поправку на состав основной и контрольной групп при сравни- сравнительных испытаниях. 2. При предсказании будущих событий эффективно введе- введение понятия г (t, X) —¦ мгновенного риска (или интенсивно- интенсивности) стать случаем в момент t при условии, что объект с ха- характеристикой X оставался не-случаем до момента време- времени t (см. формулу D.7)). Для того чтобы уменьшить число наблюдений, необходимых для оценки г (t, X), и для более легкой интерпретации г (/, X), Д. Кокс предложил фактори- зовать риск на два сомножителя г (/, X) — g (X)- h{t) и оценивать параметры, входящие в g (X), независимо от функции h (t). В случае, когда g (X) — ехр {Х'Щ и h (/) = — ехр {е0 + et}, удается установить связь между подхо- подходом с использованием понятия мгновенного риска и подхо- подходом с условной вероятностью стать случаем, оцененной с по- помощью дискриминантного анализа. 3. Понятие мгновенного риска при надлежащей параметри- параметризации позволяет изучать динамику изменения (убывания) прогностической силы результатов прошлого обследования объекта с целью определения оптимального интервала меж- между периодическими обследованиями. 4. При распознавании сигналов часто используются про- простейшие классификационные правила, в которых каждый класс задается набором эталонов, а новый объект приписы- приписывается к тому классу, к одному из эталонов которого он ока- оказывается ближе. 5. Если априори известно, что поступившие на классифика- классификацию I наблюдений X = (Хх, ..., Xt) являются независимой выборкой из одного из классов, то общее правило класси- классификации строится исходя из плотностей = пыхи (/==1 щ.
Раздел II. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛАСТЕР-АНАЛИЗА) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАСПРЕДЕЛЕНИЙ В этом разделе описаны методы классификации объектов (индивидуумов,семей, предприятий, городов, стран,техни- стран,технических систем, признаков и т. д.) Ох, О2, ..., Оп в ситуа- ситуации, когда отсутствуют так называемые обучающие выбор- выборки, а исходная информация о классифицируемых объектах представлена либо в форме матрицы X «объект — свойство» ¦*, Aj ... Лп где л;''* —значение/-го признака на i-u статистически обсле- обследованном объекте (так что г'-й столбец этой матрицы X г = = (х[1), Х{2), ..., х1Р))' характеризует объект Oh т. е. пред- представляет результат его статистического обследования по всем р анализируемым переменным), либо в форме матрицы ft попарных взаимных расстояний (близостей) объектов 'Pll Pl2 ••• Pin' р =: | Pai Рп 1 Рп2 •¦• PnnJ где величина Pij характеризует взаимную отдаленность (или близость) объектов О, и Oj. Переход от формы исходных данных типа «объект — свойство» к форме матрицы попарных расстояний осуществ- осуществляется посредством задания способа вычисления расстоя- расстояния (близости) между парой объектов, когда известны коор- координаты (значения признаков) каждого из них (вопросам вы- выбора метрики в исследуемом признаковом пространстве по- посвящена гл. 11; см. также § 5.2, 7.6). Обратный переход — от формы записи исходных, данных в виде матрицы попарных расстояний (близостей) между объ- 143
ектами к форме, представленной матрицей «объект •— свой- свойство», осуществляется с помощью специального инструмен- инструментария многомерного статистического анализа, называемого многомерным метрическим шкалированием (см. гл 16). В зависимости от наличия и характера априорных сведе- сведений о природе искомых классов и от конечных прикладных целей исследования следует обратиться либо к гл. 6, где описаны методы расщепления смесей вероятностных распре- распределений, которые оказываются полезными в том случае, ког- когда каждый (/-и) класс интерпретируется как параметриче- параметрически заданная одномодальная генеральная совокупность fj (X; Qj) (/ — 1,2, ..., k) при неизвестном значении опреде- определяющею ее векторного значения параметра 9, и соответст- соответственно каждое из классифицируемых наблюдений Xi считает- считается извлеченным из одной из этих (но не известно, из какой именно) генеральных совокупностей; либо к гл. 7, где опи- описаны методы автоматической классификации (кластер-ана- (кластер-анализа) многомерных наблюдений, которыми исследователь вынужден пользоваться, когда не имеет оснований для па- параметрического представления искомых классов, а подчас даже просто для интерпретации классифицируемых наблюде- наблюдений в качестве выборки из какой-либо вероятностной гене- генеральной совокупности; либо, наконец, к гл. 8, в которой излагаются основные классификационные процедуры иерар- иерархического типа, используемые в ситуациях, когда «на выходе» исследователь хочет иметь не столько окончатель- окончательный вариант разбиения анализируемой совокупности объ- объектов на классы, сколько общее наглядное представление о стратификационной структуре этой совокупности (например, в виде специально устроенного графа — дендрограммы). Глава 5. ОСНОВНЫЕ ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ, ИСПОЛЬЗУЕМЫЕ В МЕТОДАХ КЛАССИФИКАЦИИ БЕЗ ОБУЧЕНИЯ 5.1. Общая (нестрогая) постановка задачи классификации объектов или признаков в условиях отсутствия обучающих выборок Говоря о классификации совокупности объектов, подразу- подразумеваем, что каждый из них задан соответствующим столб- столбцом матрицы X либо геометрическая структура их попар- попарных расстояний (близостей) задана матрицей р. Аналогич- 144
но интерпретируется исходная информация в задаче класси- классификации совокупности признаков, с той лишь разницей, что каждый из признаков задается соответствующей строкой матрицы X. В дальнейшем, если это специально не оговоре- оговорено, не будем разделять изложение этой проблемы на «объ- «объекты» и «признаки», поскольку все постановки задач и ос- основная методологическая схема исследования здесь общие. В общей (нестрогой) постановке проблема классификации объектов заключается в том, чтобы всю анализируемую со- совокупность объектов О = {Ог} (L - 1, п), статистически представленную в виде матриц X или р, разбить на сравни- сравнительно небольшое число (заранее известное или нет) однород- однородных, в определенном смысле, групп или классов. Для формализации этой проблемы удобно интерпретиро- интерпретировать анализируемые объекты в качестве точек в соответст- соответствующем признаковом пространстве. Если исходные дан- данные представлены в форме матрицы (X), то эти точки явля- являются непосредственным геометрическим изображением мно- многомерных наблюдений Хъ Х2, ..., Хп в р-мерном простран- пространстве Пр (X) с координатными осями Ох*1*, 0х<2> 0х(р). Если же исходные данные представлены в форме матрицы попарных взаимных расстояний р, то исследователю не из- известны непосредственно координаты этих точек, но зато задана структура попарных расстояний (близостей) между объектами. Естественно предположить, что геометрическая близость двух или нескольких точек в этом пространстве означает близость «физических» состояний соответствующих объектов, их однородность. Тогда проблема классификации состоит в разбиении анализируемой совокупности точек — наблюдений на сравнительно небольшое число (заранее известное или нет) классов таким образом, чтобы объекты, принадлежащие одному классу, находились бы на сравни- сравнительно небольших расстояниях друг от друга. Полученные в результате разбиения классы часто называют кластерами (таксонами, образами) 1, а методы их нахождения соответст- соответственно кластер-анализом, численной таксономией/ распоз- распознаванием образов с самообучением. Однако, берясь за решение задачи классификации, ис- исследователь с самого начала должен четко представлять, 1 Cluster (англ.)—гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством. Тахоп (англ.) — систематизированная группа любой категории (термин биологи- биологического происхождения). Название «кластер-анализ» для совокуп- совокупности методов решения задач такого типа было впервые введено, по-видимому, Трайоном в 1939 г. (см.: Tryon R. С. Cluster Analysis// Ann. Arb., Edw. Brothers. — 1939). 145
какую именно из двух задач он решает. Рассматривает ли он обычную задачу разбиения статистически обследованно- обследованного (р-мерного) диапазона изменения значений анализируе- анализируемых признаков на интервалы (гиперобласти) группирова- группирования, в результате решения которой исследуемая совокуп- совокупность объектов разбивается на некоторое число групп так, что объекты такой одной группы находятся друг от друга на сравнительно небольшом расстоянии (многомерный аналог задачи построения интервалов группирования при обработ- обработке одномерных наблюдений). Либо он пытается определить естественное расслоение исходных наблюдений на четко вы- выраженные кластеры, сгустки, лежащие друг от друга на не- некотором расстоянии, но не разбивающиеся на столь же уда- удаленные части. В вероятностной интерпретации (т. е. если ин- интерпретировать классифицируемые наблюдения Хъ Х2, ..., Хп как выборку из некоторой многомерной генеральной со- совокупности, описываемой функцией плотности или полиго- полигоном распределения / (X), как правило, не известными ис- исследователю) вторая задача может быть сформулирована как задача выявления областей повышенной плотности наб- наблюдений, т. е. таких областей возможных значений анали- анализируемого многомерного признака X, которые соответст- соответствуют локальным максимумам функции f (X). Если первая задача — задача построения областей груп- группирования — всегда имеет решение, то при второй поста- постановке результат может быть и отрицательным: может ока- оказаться, что множество исходных наблюдений не обнаружи- обнаруживает естественного расслоения на кластеры (например, об- образует один общий кластер). Из методологических соображений (в частности, для уп- упрощения понимания читателем некоторых основных идей теории автоматической классификации и для создания удоб- удобной схемы исследования свойств различных классифика- классификационных процедур) будем иногда вводить в рассмотрение теоретические вероятностные характеристики анализируе- анализируемой совокупности: генеральную совокупность, плотность (полигон) распределения или соответствующую вероят- вероятностную меру Р (dX), теоретические средние значения, дис- дисперсии, ковариации и т. п. Очевидно, если мысленно «про- «продолжить» множество классифицируемых наблюдений до всей генеральной совокупности (методологический прием, уже ис- использованный в гл. 1), задача классификации заключает- заключается в разбиении анализируемого признакового пространства Пя (X) на некоторое число непересекающихся областей. Ус- Условимся в дальнейшем называть такую схему теоретико- вероятностной модификацией задачи кластер-анализа. 146
5.2. Расстояния между отдельными объектами и меры близости объектов друг к другу Наиболее трудным и наименее формализованным в задаче автоматической классификации является момент, связанный с определением понятия однородности объектов. В общем случае понятие однородности объектов опреде- определяется заданием правила вычисления величины рц, характе- характеризующей либо расстояние d (Ot, Oj) между объектами Ot и Oj из исследуемой совокупности O(i, j = 1,2,..., и), либо степень близости (сходства) г (Оь Oj) тех же объектов. Если задана функция d (Ot, ОД то близкие в смысле этой метрики объекты считаются однородными, принадлежащими к одно- одному классу. Естественно, при этом необходимо сопоставление d (Ot, Oj) с некоторым пороговым значением, определяемым в каждом конкретном случае по-своему. Аналогично используется для формирования однород- однородных классов и упомянутая выше мера близости г [О,, Oj), при задании которой нужно помнить о необходимости соб- соблюдения следующих естественных требований: требования симметрии (г (Oj, Oj) = r (Oj, Ot)); требования макси- максимального сходства объекта с самим собой (г (Ot, Ot) — = max r (Ot, Oj)) и требования при заданной метрике моно- монотонного убывания r(Ot, Oj) по d (Oit Oj), т. е. из d (Oh, O()> > d (Ot, Oj) должно с необходимостью следовать выполне- выполнение неравенства г (Oh, О() < г (Oi; Oj). Конечно, выбор метрики (или меры близости) является узловым моментом исследования, от которого решающим об- образом зависит окончательный вариант разбиения объектов на классы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор должен производиться по- своему. При этом решение данного вопроса зависит в основ- основном от главных целей исследования, физической и статисти- статистической природы вектора наблюдений X, полноты априорных сведений о характере вероятностного распределения X. Так, например, если из конечных целей исследования и из природы вектора X следует, что понятие однородной группы естественно интерпретировать как генеральную совокуп- совокупность с одновершинной плотностью (полигоном частот) рас- распределения, и если к тому же известен общий вид этой плотности, то следует воспользоваться общим подходом, описанным в гл. 6. Если, кроме того, известно, что наблюде- наблюдения Xi извлекаются из нормальных генеральных совокуп- совокупностей с одной и той же матрицей ковариаций, то естествен- естественной мерой отдаленности двух объектов друг от друга явля- является расстояние махаланобисского типа (см. ниже). 147
В качестве примеров расстояний и мер близости, сравни- сравнительно широко используемых в задачах кластер-анализа, приведем здесь следующие. Общий вид метрики махаланобисского типа. В общем случае зависимых компонент jc*1), jc<2\ ...,*<''> вектора наб- наблюдении X и их различной значимости в решении вопроса об отнесении объекта (наблюдения) к тому или иному классу обычно пользуются обобщенным («взвешенным») расстоянием махаланобисского типа, задаваемым формулой г =У(Х,~Х})'\' Ъ-*АМ-Х,). Здесь 2 — ковариационная матрица генеральной совокуп- совокупности, из которой извлекаются наблюдения Xt, а Л — не- некоторая симметричная неотрицательно-определенная мат- матрица «весовых» коэффициентов Ат(/, которая чаще всего вы- выбирается диагональной Г195, 279J. Следующие три вида расстояний, хотя и являются част- частными случаями метрики da, все же заслуживают специаль- специального описания. Обычное евклидово расстояние dE(xn x,)= К ситуациям, в которых использование этого расстояния можно признать оправданным, прежде всего относят следу- следующие: наблюдения X извлекаются из генеральных совокупнос- совокупностей, описываемых многомерным нормальным законом с ко- ковариационной матрицей вида о2-!, т е. компоненты X вза- взаимно независимы и имеют одну и ту же дисперсию; компоненты х<Л\ х<-\ ..., х{^ вектора наблюдении X од- однородны по своему физическому смыслу, причем установле- установлено, например с помощью опроса экспертов, что все они оди- одинаково важны с точки зрения решения вопроса об отнесе- отнесении объекта к тому или иному классу; признаковое пространство совпадает с геометрическим пространством нашего бытия, что может быть лишь в слу- случаях р 1, 2, 3, и понятие близости объектов соответствен- соответственно совпадает с понятием геометрической близости в этом пространстве, например классификация попаданий при стрельбе по цели. 1 В случаях, когда каждый объект Oj представлен вектором признаков Х{ (т. е. в случае исходных данных, представленных в форме X), часто удобнее в формулах и различных соотношениях вместо О, писать сразу Xt. Например, d(Xi,Xj) bmpcto d{Ol,Oj). 148
«Взвешенное» евклидово расстояние Обычно применяется в ситуациях, в которых так или иначе удается приписать каждой из компонент х<*> вектора наблю- наблюдений X некоторый неотрицательный «вес» <ой, пропорцио- пропорциональный степени его важности с точки зрения решения во- вопроса об отнесении заданного объекта к тому или иному классу. Удобно полагать при этом 0 < <oft < 1, & - \, р. Определение весов о>,, связано, как правило, с дополни- дополнительным исследованием, например получением и использо- использованием обучающих выборок, организацией опроса экспер- экспертов и обработкой их мнений, использованием некоторых спе- специальных моделей. Попытки определения весов ш,, только по информации, содержащейся в исходных данных [72, 3301, как правило, не дают желаемого эффекта, а иногда могут лишь отдалить от истинного решения. Достаточно заме- заметить, что в зависимости от весьма тонких и незначительных вариаций физической и статистической природы исходных данных можно привести одинаково убедительные доводы в пользу двух диаметрально противоположных решений это- этого вопроса^ выбирать o>j, пропорционально величине средне- квадрэтической ошибки признака х<*> [1381 либо пропорцио- пропорционально обратной величине среднеквадратической ошибки этого же признака [332, 72, 3301. Хеммингово расстояние. Используется как мера разли- различия объектов, задаваемых дихотомическими признаками. Оно задается с помощью формулы йн(Хь Х,)= \] \^-xf\ s— 1 и, следовательно, равно числу v^ несовпадений значений соответствующих признаков в рассматриваемых i-м и ;-м объектах. Другие меры близости для дихотомических признаков. Меры близости объектов, описываемых набором дихотоми- дихотомических признаков, обычно основаны на характеристиках vj?', vtf> и vy - v'j» -f v<;\ где v<?> (vj,1')- число нулевых (единичных) компонент, совпавших в объектах X, и Xj. Так, например, если из каких-либо профессиональных сооб- соображений или априорных сведений следует, что все р приз- признаков исследуемых объектов можно считать равноправны- равноправными, а эффект от совпадения или несовпадения нулей такой 149
же, что и от совпадения или несовпадения единиц, то В ка- качестве меры близости объектов Xi и Xj используют вели- величину г (Xt, Xj) = ^-. Весьма полный обзор различных мер близости объектов, описываемых дихотомическими признаками, читатель най- найдет в [136, 29]. Меры близости и расстояния, задаваемые с помощью по- потенциальной функции. Во многих задачах математической статистики, теории вероятностей, физической теории по- потенциала и теории распознавания образов, или классифика- классификации многомерных наблюдений, оказываются полезными не- некоторые специально устроенные функции К(Х, Y) от двух векторных переменных X и Y, а чаще всего просто от рас- расстояния d {X, Y) между этими переменными, которые будем называть потенциальными х. Так, например, если пространство Пр(Х) всех мыслимых значений исследуемого вектора X разбито на полную систе- систему непересекающихся односвязных компактных множеств- или однородных классов Slt ..., Sh и потенциальная функ- функция К (X, Y) определена для X ? П" (X) и Y б П" (X) следующим образом: к(х У)=A> если X€S;' Y^Ss (/= *• 2> -' k)' [О в противном случае, то с помощью этой функции удобно строить обычные эмпи- эмпирические гистограммы (оценки плотности распределения fn (?/)) по имеющимся наблюдениям ХЛ, Х2, ¦¦-, Хп. Дейст- Действительно, легко видеть, что где v ((/) — число наблюдений, попавших в класс содержащий точку U, a W(Snu)) — объем области (геометрическая интерпретация для одномерного случая по- показана на рис. 5.1). Если в исследуемом факторном пространстве Пр(Х) задана метрика d (U, V), то можно не связывать себя за- 1 В некоторых работах можно встретить, по существу, те же функции, но под другим названием, например window — «окно» [280, 290]. Определение «потенциальные функции» обосновывается1 тем, что примером подобных зависимостей в физике является по- потенциал, определенный для любой точки пространства, но завися- зависящий от того, где расположен источник потенциала. 150
ранее зафиксированным разбиением ЩХ) на классы, а за- задавать К (U V) как монотонно убывающую функцию расстояния d (U, V). Например, K(U, V) = K(U, V) = a>0; V)]-\ а>0. E.2) Приведем здесь еще лишь одну достаточно общую форму связи между d (U, V) и К (?/, у), в которой расстояние d '„(fit S1 S2 S3 V ¦*.- Рис 5.1. Гистограмма 7^A/), построенная с помощью разбиения на группы выборочной одномерной совоку ™ ЯОСТИ Ль ..., An J выступает как функция некоторых значений потенциаль- потенциальной функции К: d(U, V) = V)-2K(U, V). E.3) В частности, выбрав в качестве К (U, V) скалярное про- произведение векторов и и V, т. е. положив к(и, v)=(t/, v)=2 «U)y(f), получим по формуле E.3) обычное евклидово расстояние dP Легко понять, что и в случае задания потенциальной функции в виде соотношений E.2) формулы E.1) позволяют строить статистические оценки плотности распределения E.1), хотя график функции?» (Ц) будет уже не ступенчатым, а сглаженным. При отсутствии метрики в поостпангтве ЩХ) функции К (U, V) могут быть^спользоГн^вТкаче- быть^спользоГн^вТкачестве меры близости объектов f/и V, а также объектов и це- 151
лых классов и классов между собой. В первом случае эта мера позволяла получить лишь качественный ответ: объек- объекты близки, если U и V принадлежат одному классу, и объ- объекты далеки — в противном случае; в двух других случаях мера близости является количественной характеристикой. О физически содержательных мерах близости объектов. В некоторых задачах классификации объектов, не обяза- обязательно описываемых количественно, естественнее использо- использовать в качестве меры близости объектов (или расстояния между ними) некоторые физически содержательные число- числовые параметры, так или иначе характеризующие взаимоот- взаимоотношения между объектами. Примером может служить зада- задача классификации с целью агрегирования отраслей народ- народного хозяйства, решаемая на основе матрицы межот- межотраслевого баланса [97]. Таким образом, классифицируе- классифицируемым объектом в данном примере является отрасль народно- народного хозяйства, а матрица межотраслевого баланса представ- представлена элементами s,;-, где под s^ подразумевается сумма го- годовых поставок в денежном выражении t-й отрасли в j-ю. В качестве матрицы близости {гц} в этом случае естествен- естественно взять, например, симметризованную нормированную матрицу межотраслевого баланса. При этом под нормиров- нормировкой понимается преобразование, при котором денежное вы- выражение поставок из t-й отрасли в j-ю заменяется долей этих поставок по отношению ко всем поставкам i-й отрасли. Сим- Симметризацию же нормированной матрицы межотраслевого баланса можно проводить различными способами. Так, на- например, в [97| близость между i-й и/-й отраслями выража- выражается либо через среднее значение их взаимных нормирован- нормированных поставок, либо через комбинацию из их взаимных нор- нормированных поставок. О мерах близости числовых признаков (отдельных фак- факторов). Решение задач классификации многомерных данных, как правило, предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих су- существенно сократить размерность исходного факторного пространства, выбрать из компонент х<1}, ..., jc(p) наблюда- наблюдаемых векторов X сравнительно небольшое число наиболее существенных, наиболее информативных. Для этих целей бывает полезно рассмотреть каждую из компонент х*1), ..., *с> в качестве объекта, подлежащего классификации. Дело в том, что разбиение признаков jcA), ..., jc(p> на небольшое число однородных в некотором смысле групп позволит ис- исследователю сделать вывод, что компоненты, входящие в од- одну группу, в определенном смысле сильно связаны друг с другом и несут информацию о каком-то одном свойстве ис- 132
следуемого объекта. Следовательно, можно надеяться, что не будет большого ущерба в информации, если для дальней- дальнейшего исследования оставим лишь по одному представителю от каждой такой группы. Чаще всего в подобных ситуациях в качестве мер близо- близости между отдельными признаками jc<() и jc</>, так же как и между наборами таких признаков, используются различные характеристики степени их коррелированное™ и в первую очередь коэффициенты корреляции. Проблеме сокращения размерности анализируемого признакового пространства специально посвящен раздел III книги. Более подробно вопросы построения и использования расстояний и мер бли- близости между отдельными объектами рассмотрены в [136, 288, 296, 29]. 5.3. Расстояние между классами и мера близости классов При конструировании различных процедур классификации (кластер-процедур) в ряде ситуаций оказывается целесооб- целесообразным введение понятия расстояния между целыми груп- группами объектов, так же как и понятия меры близости двух групп объектов. Приведем примеры наиболее распростра- распространенных расстояний и мер близости, характеризующих взаим- взаимное расположение отдельных групп объектов. Пусть St — i-я группа (класс, кластер) объектов, tij — число объектов, образующих группу Si, вектор X(i) — среднее арифметиче- арифметическое векторных наблюдений, входящих в St (другими слова- словами, X (i) — «центр тяжести» t-й группы), а р (Sb Sm) — рас- расстояние между группами St и Sm. Ниже приводятся наиболее употребительные и наиболее общие расстояния и меры близости между классами объек- объектов. Расстояние, измеряемое по принципу «ближнего соседа» («nearest neighbour») Pmm (S,,Sm)= rnin d(Xt, X,). E.4) Расстояние, измеряемое по принципу «дальнего соседа» («furthest neighbour») [262, 224] Ртах (S^ Sm)= max d(Xt, X,). E.5) X#S X*S Расстояние, измеряемое по «центрам тяжести» групп [262, 224] p(S,, Sm)^d{X(l)f X(m)). F.6) 153
Мера близости групп, основанная на потенциальной функции [57] ± K(Xt,Xj). 1 т Расстояние, измеряемое по принципу «средней связи». Определяется [262, 2241 как арифметическое среднее все- всевозможных попарных расстояний между представителями рассматриваемых групп, т. е. У yd(Xi,Xj). E.7) Естественно задать вопрос: нельзя ли получить достаточ- достаточно общую формулу, определяющую расстояние между клас- классами по заданному расстоянию между отдельными элемен- элементами (наблюдениями), которая включила бы в себя в каче- качестве частных случаев все рассмотренные выше виды расстоя- расстояний? Изящное обобщение такого рода, основанное на понятии так называемого «обобщенного среднего», а точнее, степенно- степенного среднего, было предложено А. Н. Колмогоровым. Под обобщенным средним величин с19 с2, ..., cN понимается вы- 1 N ражение вида MF (cu с2, ..., cN) = F~x (— 2 F (ci)), в кото- ром F (и) — некоторая функция и соответственно F~x — преобразование, обратное к F. Частным случаем обоб- обобщенного среднего является степенное среднее, определяемое как 1 A N \г — 2 ci I • Нетрудно показать, что (при С/ > 0, i — 1, 2, ..., N) М_»(с!, с%, .... cN)— min (a); )= max (ct); f N \\!N , сг, ..., Cn)= I |~I ct I —геометрическое среднее; l N Ml(cu c3, ..., cn) — — У Ct—арифметическое среднее. Л" уЫ 454
Обобщенное (по Колмогорову) расстояние между класса- классами, или обобщенное /(-расстояние, вычисляется по формуле у V rft {Хи Х})] т . E.8) $? J В частности, при т-> оо и при т-> — оо имеем p<*>(S,, Sm) = Pmax(S/, Sm); p<*>(S,, Sm) = PmIn(S,, Sm). Очевидно также p<*>(S,, Sm) = Pcp(S,, Sm). Из E.8) следует, что если 5 (т, q) = Sm [j Sq — группа элементов, полученная путем объединения кластеров Sm и Sq, то обобщенное /(-расстояние между кластерами S; и 5 (т, q) определяется формулой ; Понятие расстояния между группами элементов особен- особенно важно в так называемых агломеративных иерархических кластер-процедурах, поскольку принцип работы таких ал- алгоритмов состоит в последовательном объединении эле- элементов, а затем и целых групп, сначала самых близких, а потом все более и более отдаленных друг от друга. Подробнее об агломеративных иерархических процедурах см. в гл. 8. Учитывая специфику подобных процедур, для задания расстояния между классами оказывается достаточ- достаточным определить порядок пересчета расстояния между клас- классом 51 и классом 5 (т, q) = Sm [j Sq, являющимся объеди- объединением двух других классов Sm и Sq, по расстояниям pim~ = р (S;, Sm), piq = р (Si, Sq) и pmq = p (Sm, Sq) между этими классами. В [255] предлагается следующая общая формула для вычисления расстояния между некоторым классом Si и классом S (m, q): 9i (m, q) = P (Si, Sim, q)) = apim + $plq -f ypmq + + б|ргт-ргд|, E.9) где a, p, у и б — числовые коэффициенты, значения которых и определяют специфику процедуры, ее нацеленность на ре- решение той или иной экстремальной задачи. Так, например, полагая а = р*= — 5 = у и v = 0, приходим к расстоя- расстоянию, измеряемому по принципу «ближайшего соседа». Если 155
же положить а = р = б = уИ7 = 0, то расстояние между двумя классами определится как расстояние между двумя самыми далекими элементами этих классов, по принципу «дальнего соседа». И наконец, выбор коэффициентов соот- соотношения E.9) по формулам «= -!ha—, р=^—^ = 6 0 , р, ^ 6 0 1 nm-\-tlq приводит к расстоянию рср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой — из другого. То, что формула для рцт, q) и, в частности, выбор коэф- коэффициентов а, р, у и б в этой формуле зачастую определяют нацеленность соответствующей агломеративной иерархиче- иерархической процедуры на решение той или иной экстремальной задачи, т. е. в каком-то смысле определяет ее оптимальную критерийную установку, поясняет, например, следующий результат [331]. Оказывается, если для вычисления рг <„,, д) воспользоваться следующей модификацией формулы E.9): E-10) Р/ (т. q) =—; ; Pirn i ; f P/«— « + Я + Я ni-j-nm-\-nq то соответствующий агломеративный иерархический алго- алгоритм обладает тем свойством, что на каждом шаге объеди- объединение двух классов приводит к минимальному увеличению общей суммы квадратов расстояний между элементами внут- внутри классов. Отметим сразу, что такая пошаговая оптималь- оптимальность алгоритма в указанном смысле, вообще говоря, не влечет его оптимальности в том же смысле Для любого на- наперед заданного числа классов, на которые требуется раз- разбить исходную совокупность элементов. 5.4. Функционалы качества разбиения на классы и экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оценивания параметров Естественно попытаться определить сравнительное качест- качество различных способов разбиения заданной совокупности элементов на классы, т. е. определить тот количественный критерий, следуя которому можно было бы предпочесть од- 156
но разбиение другому. С этой целью в постановку задачи кластер-анализа часто вводится понятие так называемого функционала качества разбиения Q (S), определенного на множестве всех возможных разбиений. Функционалом он называется потому, что чаще всего разбиение 5 задается, вообще говоря, набором дискриминантных функций бх (X), б2 (X), .... Тогда под наилучшим разбиением S* понимается то разбиение, на котором достигается экстремум выбранно- выбранного функционала качества. Выбор того или иного функцио- функционала качества, как правило, осуществляется весьма произ- произвольно и опирается скорее на эмпирические и профессио- профессионально-интуитивные соображения, чем на какую-либо стро- строгую формализованную систему. Приведем примеры наиболее распространенных функцио- функционалов качества разбиения и попытаемся обосновать выбор некоторых из них в рамках одной из моделей статистического оценивания параметров. 5.4.1. Функционалы качества разбиения при заданном чис- числе классов. Пусть исследователем уже выбрана метрика d в пространстве Пр (X) и пусть 5 = E1; S2, ..., Sk) — неко- некоторое фиксированное разбиение наблюдений Хг, Х2, ..., Х„ на заданное число k классов Slt S.2, ..., Sk. За функционалы качества часто берутся следующие ха- характеристики: сумма («взвешенная») внутриклассовых дисперсий Qi(S)= S 2 d*(XitX(l)), E.11) весьма широко используется в задачах кластер-анализа в качестве критерийной оценки разбиения [268]; сумма попарных внутриклассовых расстояний между элементами либо 2 ' xi,xJesl в большинстве ситуаций приводит к тем же наилучшим раз- разбиениям, что и Qj E), и тоже используется для сравнения кластер-процедур [228]; обобщенная внутриклассовая дисперсия Q3 (S) является, как известно [16, с. 231], одной из характеристик степени 157
рассеивания многомерных наблюдений одного класса (гене- (генеральной совокупности) около своего «центра тяжести». Следуя обычным правилам вычисления выборочной кова- ковариационной матрицы Wj, отдельно по наблюдениям, попав- попавшим в какой-то один класс Si, получаем /= 1 где под det А понимается «определитель матрицы А», а эле- элементы wqm (I) выборочной ковариационной матрицы Wj класса St подсчитываются по формуле «wo=™ 2 H«)-*<')(Q)Wm)-*<m)(Q), ч>т= = 1, 2 р, E.13) где jc'-v) — v-я компонента многомерного наблюдения Xit a a:(v)/(/) — среднее значение v-й компоненты, подсчи- подсчитанное по наблюдениям 1-го класса. Встречается и другой вариант использования понятия обобщенной дисперсии как характеристики качества раз- разбиения, в котором операция суммирования Wj по классам заменена операцией умножения Q«(S)= ft (detW,)"'. Как видно из формул E.12) и E.13), функционал Q3 (S) является средней арифметической (по всем классам) характе- характеристикой обобщенной внутриклассовой дисперсии, в то вре- время как функционал Q4 E) пропорционален средней геомет- геометрической характеристике тех же величин. Использование функционалов Q3 (S) я Qt (S) является особенно уместным в ситуациях, при которых исследова- исследователь в первую очередь задается вопросом: не сосредоточены ли наблюдения, разбитые на классы Slf Sit ..., S&, в про- пространстве размерности, меньшей, чем р? Замечание. При теоретико-вероятностной моди- модификации схем кластер-анализа соответственно видоизме- видоизменится запись приведенных выше функционалов. Так, на- например, d(X,X(l))P(UX), 158
где или k EЛ4) 5.4.2. Функционалы качества разбиения при неизвестном числе классов. В ситуациях, когда исследователю зарапее не известно, на какое число классов подразделяются исход- исходные многомерные наблюдения Xlt Х2, ..., Хп, функционалы качества разбиения Q(S) выбирают чаще всего в виде про- простой алгебраической комбинации (суммы, разности, произ- произведения, отношения) двух функционалов lx (S) и /2 E), один из которых /j является убывающей (невозрастающей) функцией числа классов k и характеризует, как правило, внутриклассовый разброс наблюдений, а второй /2 — воз- возрастающей (неубывающей) функцией числа классов k. При этом интерпретация функционала /2 может быть различной. Под /2 понимается иногда и некоторая мера взаимной уда- удаленности (близости) классов, и мера тех потерь, которые приходится нести исследователю при излишней детализации рассматриваемого массива исходных наблюдений, и величи- величина, обратная так называемой «мере концентрации» всей структуры точек, полученной при разбиении исследуемого множества наблюдений на k классов. В [218], например, предлагается брать где k (S) — число классов, получающихся при разбиении S, ас — некоторая положительная постоянная, характери- характеризующая потери исследователя при увеличении числа клас- классов на единицу. 159
Другой вариант функционалов качества такого типа можно найти, например, в [57], где полагают 2 /= 1= 1 / > 1 Здесь К (X, Y) — упомянутая выше потенциальная функ- функция, а гE„ Sj) — мера близости t-ro и /-го классов, осно- основанная на потенциальной функции E.6). Очевидно, в первом случае будем искать разбиение S*, минимизирующее значение функционала S), E.15) в то время как во втором случае требуется найти разбие- разбиение S0, которое максимизировало бы значение функционала S). E.16) Весьма i ибким и достаточно общим подходом, реализу- реализующим идею одновременного учета двух функционалов, яв- является подход, основанный на схеме, предложенной А.Н. Колмогоровым. Эта схема опирается на понятия меры кон- концентрации Zx (S) точек, соответствующей разбиению S, и средней меры внутриклассового рассеяния ItK)(S), характери- характеризующей то же разбиение S. Под мерой концентрации Zt (S) предлагается понимать степенное среднее (см. § 5.3) вида 7 /<Л— М I v (Х»> у<*г) v (Xn) \ _ \ л л п } где v (Хг) — число элементов-в кластере, содержащем точку Хг, а выбор числового параметра т находится в распоряже- распоряжении исследователя и зависит от конкретных целей разбие- разбиения. При выборе т полезно иметь в виду следующие частные случаи Zx (S): 160
где k — число различных кластеров в разбиении S; logZo(S) = 2 — log — — естественная информационная <= 1 Я Я мера концентрации; Z» (S) = max f-SLV 1<?<*\ Л / -„(8±= min f-b Заметим, что при любом т предложенная мера концентра- концентрации имеет минимальное значение, равное 1/л, при разбие- разбиении исследуемого множества на п одноточечных кластеров, и максимальное значение, равное 1, при объединении всех исходных наблюдений в один общий кластер. При конструировании и сравнении различных кластер- процедур полезно иметь в виду, что объединение двух клас- кластеров Si и Sm в один дает прирост меры концентрации Zx (S), равный А 7 _! Чп _1_я \2 „2 „2 1 ^П1Пт AZ1 = —7^1\п1 + Пт) rt/—Пт\= Я* Я* Определение средней меры внутриклассового рассеяния (S) также опирается на понятие степенного среднего. В частности, полагают 1 E.18) где под понимается обобщенная средняя мера рассеяния, характе- характеризующая класс St. Числовой параметр т здесь, как и преж- прежде, выбирается по усмотрению исследователя. Полагая 6 Заказ № 291 161
где, как и прежде, S (X)— кластер, в который входит наб- наблюдение X, a v (X) — число элементов в кластере S (X), формулу E.18) можно переписать в виде E.19) При конструировании и сравнении различных кластер- процедур полезно иметь в виду, что объединение двух клас- кластеров Si и Sm в один дает прирост величины п [IXK) (S)]x, непосредственно характеризующей среднюю меру внутри- внутриклассового рассеяния, равный {2 [p(K>(SIf sm)y- «г Очевидно, если ориентироваться на сокращение числа кластеров при наименьших потерях в отношении внутри- внутриклассового рассеивания, не обращая внимания на меру кон- концентрации, то естественно объединять два кластера, для ко- которых минимальна величина А (п [l[K)]x). Если же одно- одновременно ориентироваться и на рост взвешенной концентра- концентрации Zx (S), то объединение кластеров следует подчинить тре- требованию минимизации величины {2 К*» (Si, 5.4.3. Формулировка экстремальных задач разбиения ис- исходного множества объектов на классы при неизвестном чис- числе классов. Возможно множество вариантов таких формули- формулировок. Рассмотрим два из них, относящиеся к наиболее ес- естественным и часто используемым. В а р и а н т 1: комбинирование функционалов качества. Требуется найти такое разбиение S*, для которого некото- некоторая алгебраическая комбинация функционала, характери- характеризующего среднее внутриклассовое рассеяние E.19), и функ- функционала, характеризующего меру концентрации получен- полученной структуры E.17), достигала бы своего экстремума. В ка- качестве примеров можно привести комбинации Q (S) и Q' (S), 162
задаваемые формулами E.15) и E.16), а также более общие выражения вида о -Л (S) + р72 (S) и [Д (S)J-.[/, (S)}P, E.20) где /г (S) = 1<К) (S); /2 (S) - yijy a и P ~ некоторые положительные константы, например а = E = 1. Вариант 2: двойственная формулировка. Требуется найти разбиение S*, которое, обладая концентрацией ZX(S*), не меньшей заданного порогового значения Zo, да- давало бы наименьшее внутриклассовое рассеяние l[K)(S*), или, в двойственной подстановке: при заданном пороговом значении /0 найти разбиение S* с внутриклассовым рассе- рассеянием l[K) (S*) < /0 и наибольшей концентрацией ZT (S*). 5.4.4. Общий вид функционала качества разбиения как функции ряда параметров, характеризующих межклассовую и внутриклассовую структуру наблюдений. Зададимся вопросом, нельзя ли выделить такой достаточно полный на- набор величин их (S), и2 (S), ..., характеризующих как меж- межклассовую, так и внутриклассовую структуру наблюдений при каждом фиксированном разбиении на классы S, чтобы существовала некоторая функция Q(u1; u2, ...) от этих вели- величин, которую мы могли бы считать в каком-то смысле уни- универсальной характеристикой качества разбиения. В част- частности, в качестве таких величин иг — ur (S), ы2 =- и2 (S),... можно рассмотреть, например, некоторые числовые характе- характеристики: степени близости элементов внутри классов (uj); степени удаленности классов друг от друга (и2);степени «одинаковости» распределения многомерных наблюдений внутри классов (и3); степени равномерности распределения общего числа классифицируемых наблюдений п по классам Что касается установления общего вида функции Q (и1У «2> "з. "J» то без введения дополнительной априорной ин- информации о наблюдениях Хг (характере и общем виде их закона распределения внутри классов и т п ) единственным возможным подходом в решении этой задачи, как нам пред- представляется, является экспертно-экспериментальное иссле- исследование Именно с этих позиций в [63] сделана попытка оп- определения общего вида функции Q. Чтобы определить рас- рассмотренные в этой работе величины иъ и2, и3 и и4, введем понятие кратчайшего незамкнутого пути (КНП), соединя- соединяющего все п точек исходной совокупности в связный неори- неориентированный граф с минимальной суммарной длиной ре- 6* 163 i
бер 1. Под длиной ребра понимается расстояние между соот- соответствующими точками совокупности в смысле выбранной метрики. Построение такого графа можно начать с пары на- наиболее близких точек. Если таких пар несколько, то выби- выбирается любая из этих пар. Пусть это будут наблюдения с номерами i0 и /„. Затем с помощью сравнения расстояний d (X[o, Xj) (/=1,2, ..., п; j ф i'o» / Ф /о) и d (Х/о, Xq), где q = 1, 2, ..., я; q ф jQ и q Ф iQ, определяются точки Xm(h) и Хт(,о), наименее уда- удаленные соответственно от то- точек Хг„ и Х/о, и выбирается ближайшая из них Хт<1, т. е. Хте — ХтDо), если d(Xi,, Хто — Хт{/о), если d (Xlt, тем точка Хт<) «пристраивает- «пристраивается» к той из точек X,, и Х,„, к которой она ближе. Да- Далее сравниваются расстояния d (Х,о, ХД d (X/o, Xq) и v=^/o и /, <?, v =^m0) и т. д. Очевидно, «разрубая» $ ребер такого графа, будем делить со- совокупность на s + 1 классов. Пусть р, (/) — /-е ребро части графа, отнесенной к 1-щ классу. Всего таких ребер, как легко видеть, будет пг —1. И пусть pmln (p) — минимальное из ребер, непосредствен- непосредственно примыкающих к ребру р и относящихся к l-щ классу, если таковое имеется. Пронумеруем в определенном порядке граничные, («разрубленные») ребра кик2, ...Дй^ таким об- образом, чтобы имелось взаимно однозначное соответствие между номерами граничных ребер и номерами примыкаю- примыкающих к ним классов, за исключением одного, геометрически представленного одним из «хвостов» графа. Выбрасывая реб- ребра I, II, III (рис. 5.2), получаем четыре связных графа, что 1 Методы классификации, основанные на КНП, используются для решения задач в области антропологии, биологии, сельского хо- хозяйства, лингвистики (см , например: Czekanowski J. Zur Differen- tialdiagnose der Neandertalgruppe//Kor — blatt Deutsch. Qes. Ant- гор. — 1909.— XL — S. 44—47; Florek K., Lukaszew icz J., Perkal H., Zubzucki S. Sur la liaison et la division des points d'un ensemble fini//Coll. Math. — 1951. — 2. — P. 282—285). 2 Если d (XH, Xm{U)) = d (Xfo - можно выбрать любую из точек Хт^ 164 Рис. 5.2. Графическое изо- изображение кратчайшего не- незамкнутого пути Хт(,0))'> то в качестве Хт>
соответствует разбиению совокупности на четыре группы. Обозначим с помощью Xt одно из таких ребер 1-го класса. Теперь, следуя I 63 ], определим величины ut таким об- образом: 1 где р (/) = B рг A)I(Щ — 1) — средняя длина ребер /-го класса; 1-1 П Эмпирический перебор различных вариантов общего ви- вида функции в сочетании с анализом результатов экспертных оценок качества всевозможных разбиений привели авторов [63] к следующей формуле для функционала: Q(S)=ln где а, Ь, с и d — некоторые неотрицательные параметры, ос- оставляющие исследователю определенную свободу выбора в каждом конкретном случае. Авторы [63] отмечали хорошее согласие своих экспериментов с экспертными оценками при Из смысла величин щ (t = l, 2, 3, 4) следует, что луч- лучшим разбиениям соответствуют большие численные значения функционала Q, так что в данном случае требуется найти такое разбиение S*, при котором Q (S*) — max Q (S). s Конечно, данный выбор количественного и качественного состава величин иг и, в еще большей степени, их точное оп- определение являются чисто эвристическими и подчас просто спорными. Это относится в первую очередь к величине и3. Поэтому читатель должен принимать описанную здесь схему не как рекомендацию к универсальному использованию функционалов типа E.21) в задачах кластер-анализа, а 165
лишь как описание конкретного примера одного из возмож- возможных подходов при выборе функционалов качества разбиения. 5.4.5. Функционалы качества и необходимые условия оп- оптимальности разбиения. Естественно попытаться просле- проследить, в какой мере выбор того или иного вида функционала качества определяет класс разбиений, в котором следует ис- искать оптимальное. Приведем здесь некоторые результаты, устанавливающие такого рода соответствие. Будем предполагать используемую метрику евклидовой. Обозначим через е = (еъ .... ек) группу из k р-мерных век- векторов е, (у = 1 k), а через S (е) = (S1 (е) Sh (e)) — так называемое минимальное дистанционное разбиение, порождаемое точками е = {ех, ..., eh), а именно' е,), / = 2, .... к); 52(е) =S1 r\~Sk-i(e)C\{X:d(X, eh) (Здесь и в дальнейшем S, означает дополнение множества 5г- до всего пространства Пр (X), т. е. совокупность всех наблюдений (элементов пространства Пр (X), не входящих в состав S,.) Таким образом, класс S7 (e) состоит из тех точек пространства Пр (X), которые ближе к е,-, чем ко всем ос- остальным ег (i =76/). Если для некоторых точек из ПР(Х) самыми близкими являются сразу несколько векторов е/ (j = 1, ..., к), то эти точки относим к классу с минималь- минимальным индексом. Разбиение S = (St, ..., Sh) называется несмещенным, если это разбиение с точностью до множеств меры нуль совпадает с минимальным дистанционным разбиением,, по- порождаемым векторами средних Xt = -g- J XP (dX), где/^ — Р' *i = I P {AX). si Утверждение 1 (для функционалов типа Qt (см. E.11))). Минимальное значение функционала Qx (S) = k — 2! J P2 (X> Xi) Р @Х) достигается только на несме- щенных разбиениях. Это означает, что оптимальное разбие- разбиение обязательно должно быть несмещенным [166]. Следующий результат относится к довольно широкому классу функционалов качества разбиения совокупности 166
на два класса. Разбиение на два класса может быть задано с помощью так называемой разделяющей функции. А именно точки пространства ПР(Х), на которых разделяющая функ- функция принимает неотрицательное значение, относятся к од- одному классу, а остальные— к другому. Поэтому поиск клас- класса оптимальных разбиений в этом случае эквивалентен по- поиску класса оптимальных разделяющих функций. Для иллюстрации дальнейшего изложения будем рас- рассматривать вероятностную модификацию функционала Q2' <см. E.14)). Пусть расстояние d (X, Y) задается с помощью соотно- соотношения E.3) потенциальной функцией вида где фг (X) (i = 1, ..., М) — некоторая система функций на П" (X). Функционал Q'z через потенциальную функцию К (X,Y) выражается следующим образом: i(S) = 2 J K(X, X)P(AX)~2-~ J J/C(*. У) ПР (X) s> s> xP(dX)P(dY) — 2 — Г Г/С(Х, Y)P(dX)P(dY). Поскольку в правой части этого равенства первый интеграл не зависит от разбиения, то минимум функционала Q2' (S) достигается на тех разбиениях, на которых функционал О2E)=— С {К(Х, Y)P(dX)P(dY) + Si St достигает максимума. Введем в рассмотрение спрямляющее пространство HN(Z), координаты г('> векторов Z ? IlN (Z) которого опре- определяются соотношениями В спрямляющем пространстве ГР (Z) вероятностной мерой Р, заданной в исходном пространстве Пр (X), индуцируется 167
своя вероятностная мера /><*>. Однако в целях упрощения обозначений будем опускать верхний индекс Z у этой новой меры. Функционал Q2 (S) в спрямляющем пространстве примет вид Пусть M(,v)= |Z*P(dZ) (v = 0, 1, .... r; t = l, 2). Здесь Z2/ = [ (Z, Z)V — числа, ZV+1 = [(Z, Z)]/ Z — векто- векторы. В работе [32] формулируется утверждение, устанавлива- устанавливающее класс функций в спрямляющем пространстве YlN (Z), среди которых следует искать разделяющую функцию, доставляющую экстремум функционалу качества разбие- разбиения. Показано, что если функционал качества Ф является дифференцируемой функцией от М) (v = 1, ..., г), а вероят- вероятностное распределение Pz сосредоточено на ограниченном множестве и обладает непрерывной плотностью, то в случае достижения функционалом Ф своего экстремума на некото- некоторой разделяющей функции, этот же экстремум достигается на разделяющей функции, являющейся полиномом г-й степени вида: /(Z)= 2 (с», Zy)t где дФ дФ a (cv, Zv) означает при четном v произведение чисел cv и Zv, а при нечетном v — скалярное произведение векторов cv и Zv Утверждение 2 (для функционалов типа Qi (S) и разбиений на два класса). Для функционала Q2' утвержде- утверждение 1 означает, что класс разделяющих функций, среди ко- которых надо искать наилучшее в спрямляющем пространстве разбиение, имеет вид f(Z) = {c, Z)-a, 168
где С=Ш ЭД«_ = 2№—^М; E.22) дМг дМ% \ Р, Р2 ) v Класс разделяющих функций в спрямляющем пространстве очевидным образом определяет класс разделяющих функ- функций в исходном пространстве Пр (X). Если К (X, Y) — (X, Y) является скалярным произведе- произведением векторов X и Y, то спрямляющее пространство tlN (Z) совпадает с исходным пространством Пр (X), а метрика, задаваемая потенциальной функцией К (X, Y), совпадает с обычной евклидовой метрикой. Функционалы Q2 и Q2, рас- рассматриваемые относительно этой метрики, совпадают с точ- точностью до константы. В этом случае, как нетрудно видеть, разбиение, задаваемое разделяющей функцией / (Z), являет- является несмещенным разбиением. 5.4.6. Функционалы качества разбиения как результат применения метода максимального правдоподобия к задаче статистического оценивания неизвестных параметров. Приведем пример, иллюстрирующий возможность обоснова- обоснования выбора общего вида функционала качества разбиения на классы в ситуациях, в которых исследователю удается опи- описать механизм генерирования анализируемых данных одной из классических моделей. Пусть априорные сведения позволяют определить t-й однородный класс (кластер) как нормальную генеральную совокупность наблюдений с вектором средних аг и ковари- ковариационной матрицей 2г. При этом аг и 2,, вообще говоря, не- неизвестны. Известно лишь, что каждое из наблюдений Xit ' Х2 Хп извлекается из одной из k нормальных генераль- генеральных совокупностей N (аг, 2г) (i =- 1,2, ..., k). Задача ис- исследователя — определить, какие я, из п исходных наблюде- наблюдений извлечены из класса N (а1г 2Х), какие л3 наблюдений извлечены из класса N (а2, 22) и т. д. Очевидно, числа лх, п2, ..., пк, вообще говоря, также неизвестны. Если ввести в рассмотрение вспомогательный вектор «параметр разбиения» у =- (ух, у2, ..., у„), в котором компо- компонента определяет номер класса, к которому относится наб- наблюдение Xh т. е. у,- = /, если Х^ N (аг, 2г) (I — 1,2, ..,, п), то задачу разбиения на классы можно формулировать как задачу оценивания неизвестных параметров у1( у2,..., у„ при «мешающих» неизвестных параметрах аг и 2г 169
(/ -1,2,..., k). Обозначив весь набор неизвестных пара- параметров с помощью 6, т. е. 9 — (у; а.х, ..., ah; 2Ь ..., Sh), и пользуясь известной [16] техникой, получаем логарифми- логарифмическую функцию правдоподобия для наблюдений X,, Х2> .... X.„: Ч- л, (y) log | Sf I j. E.23) Как известно, оценка 9 параметра 0 по методу максимально- максимального правдоподобия находится из условия / (9) — max / (9). Поэтому естественно было бы попытаться найти такое значение «параметра разбиения» у, а также такие векторы средних а; и ковариационные матрицы 2,, при которых ве- величина — 2/ @) достигла бы своего абсолютного минимума1. При известном разбиении у оценками максимального правдоподобия для а( будут «центры тяжести» классов X<v){/)=_!_ V Xi (/-1,2 k). Подставляя их в E.23) вместо аг и воспользовавшись оче- очевидными тождественными преобразованиями, приходим к эквивалентности задачи поиска минимума функции - -2/(9), определенной соотношением E.23), и задачи поиска мини- минимума выражения (r()) n,log 12,1], E.24) или, что то же, выражения 2 iSp(*,«?,24-*)+л,/log|S,Ц. E.25) i= i В последнем выражении W; — выборочная ковариацион- ковариационная матрица, вычисленная по наблюдениям, входящим в со- состав /-го класса (см. E.13)). 1 Оговоримся сразу, что длжефлю сосюятельноои полученных при этом оценок Э остается под сомнением, поскольку размерность неизвестного векторного параметра Э превосходит в данном случае общее число наблюдений, которыми располагаем. 170
Анализ выражений E.24) и E.25) в некоторых частных случаях немедленно приводит к следующим интересным вы- выводам: если ковариационные матрицы исследуемых генеральных совокупностей равны между собой и известны, то задача оценивания неизвестного параметра 0 по методу макси- максимального правдоподобия равносильна задаче разбиения наблюдений X, на классы, подчиненной функционалу каче- качества разбиения вида Q, (S), в котором под расстоянием d подразумевается расстояние Махаланобиса; если ковариационные матрицы исследуемых гене- генеральных совокупностей равны между собой, но неизвестны, то, подставляя в E.25) вместо 2, — 2 ее оценку макси- максимального правдоподобия убеждаемся в эквивалентности задачи оценивания (по мето- методу максимального правдоподобия) параметра 6 и задачи по- поиска разбиения наблюдений X, на классы, наилучшего в смысле функционала качества Q3 (S); если ковариационные матрицы исследуемых генераль- генеральных совокупностей не равны между собой и не известны, то, подставляя в E.25) вместо 21; их оценки максимального правдоподобия W;, убеждаемся в эквивалентности задачи оценивания по методу максимального правдоподобия пара- параметра 6 и задачи поиска разбиения наблюдений Хг на клас- классы, наилучшего в смысле функционала качества Qt (S). В [303] авторы пытаются конструировать алгоритмы, ре- реализующие идею получения оценок максимального правдо- правдоподобия для параметра 6. Однако, нам представляется, глав- главная ценность подобного подхода лишь в его методологиче- методологической, качественной стороне, в том, что он позволяет строго осмыслить и формализовать некоторые функционалы каче- качества разбиения, введенные ранее чисто эвристически. Кон- Конструктивная же сторона подобного подхода упирается в трудно преодолимые препятствия вычислительного плана, связанные с колоссальным количеством переборов вариан- вариантов уже при сравнительно небольших размерностях р и объ- объемах выборки. Роль функционалов качества разбиения в построении об- общей теории автоматической классификации и разнообраз- разнообразные примеры функционалов качества, используемых в кон- конкретных (распространенных в статистической практике) ал- алгоритмах автоматической классификации, описаны в гл. 10. 171
5.4.7. Функционалы качества классификации как показате- показатели степени аппроксимации данных. Поскольку формируе- формируемая классификационная структура является приближен- приближенным представлением имеющихся данных, естественно воз- возникает идея формализации задачи классификации как зада- задачи аппроксимации матрицы данных матрицей, характеризу- характеризующей искомую классификацию. Для реализации этой идеи необходимо тем или иным образом выбрать, во-первых, мат- матричный способ представления классификации и, во-вторых, меру близости между матрицами, соответствующими ис- исходным данным и искомым классификациям. Рассмотрим некоторые' возникающие при этом задачи для ситуаций, когда классификация рассматривается как а) иерархия классов, б) разбиение, в) совокупность непустых (возможно, пересекающихся) подмножеств, а в качестве меры бли- близости матриц используется обычная евклидова метрика — сумма квадратов разностей их соответствующих элементов. В одной из первых версий аппроксимационная постанов- постановка задачи была рассмотрена для классификации, представ- представленной иерархической системой кластеров, т. е. совокуп- совокупностью разбиений S1, S2,..., Sm множества объектов О, такой, что каждое последующее разбиение S* получается из предыдущего разбиения S' объединением некоторых его классов (t = 1,2, .... т), причем последнее разбиение Sm состоит из единственного класса, совпадающего со всем множеством О1. Разбиение S1 соответствует t-му уровню ие- иерархии, характеризуемому также индексом уровня ut, мо- монотонно зависящим от t (обычно полагают ut = t). Такая иерархическая система порождает, в частности, матрицу рас- расстояний между объектами О,, О,- по следующему правилу: расстояние d (i, /) между ними равно индексу уровня ut того разбиения S1, в котором они впервые попадают в один и тот же класс. Мера близости d (i, j) является ультра- ультраметрикой, т. е. удовлетворяет усиленному неравенству треугольника: d (i, j) ^ max (d (i, k), d (/, k)) для любых i, j, k = 1, ..., п. Имеет место и обратное утверждение: всякая ультраметрика порождает иерархическую систему кластеров, индексами уровня которой служат различающие- различающиеся значения ультраметрики. Таким образом, иерархические системы кластеров эквивалентно представимы ультрамет- ультраметрическими матрицами близости. Это позволяет формули- формулировать задачу построения иерархической системы класте- кластеров как задачу аппроксимации заданной матрицы расстоя- расстояний ptj с помощью ультраметрических матриц [250]. Ока- 1 Иерархическим процедурам классификации посвящена гл. 8. 172
залось, что если искомая ультраметрика удовлетворяет ап- априорному ограничению d (i, j) < ptj, а критерий аппрокси- аппроксимации — сумма квадратов (или других монотонных функ- функций) от разностей d (/, /) — ри-, то оптимальной будет сис- система кластеров, получаемая по методу «ближайшего соседа». Иными словами, ультраметрическое расстояние d (/,/) есть не что иное, как минимальное значение р, при кото- котором /?-граф Тр — {(/, jY-Ptj <; р) содержит последователь- последовательность ребер, соединяющую объекты 0г и О; (или, что то же самое, максимальное ребро на той части кратчайшего незамкнутого пути, которая соединяет эти объекты). Из сказанного вытекает следующее свойство «компакт- «компактности» оптимальных кластеров: любое «внутреннее» расстоя- расстояние рц для объектов Oit О, принадлежащих одному и тому же кластеру S, меньше любого расстояния d (к, I) «во вне», т. е. при любых 0k из S и 0и не принадлежащих S. Задача аппроксимации с противоположным ограниче- ограничением d (f, /) > ptj приводит к методу «дальнего соседа» с аналогичными свойствами. Задача аппроксимации матрицы близости с помощью ие- иерархической системы кластеров без ограничений не рассмат- рассматривалась практически в литературе, в отличие от задач ап- аппроксимации с помощью разбиений и подмножеств (задавае- (задаваемых, впрочем, специальными типами ультраметрик). Рас- Рассмотрим некоторые результаты, полученные в [92] примени- применительно к ситуации, когда элементы матрицы характеризуют не расстояние, а сходство (связь) между объектами. Разбиение S = {Slt ..., Sh} множества объектов О пред- представим матрицей связи вида {^stj}, где s^ •= 1, если Оь О} содержатся в одном и том же классе разбиения S, и Sij—Q в противном случае, а К — вещественное число, характе- характеризующее уровень связи между объектами «внутри» классов S. Нетрудно видеть, минимизация суммы квадратов разно- разностей величин Ри — Xstj при заданном К > 0 эквивалентна задаче отыскания такого разбиения S, которое максимизи- максимизирует суммарные внутренние связи /E, я)= f S <Ри-*>= 2 2 p«-*2n?- <5-26) t= i i,/est t= l i./est t Величина я = %12 играет здесь, с одной стороны, роль порога существенности связей р1}, поскольку при ри > я выгодно поместить О,- и О, в один и тот же класс (рг, —я > 0), а при pij < л, напротив, это невыгодно, и, с другой стороны, роль параметра компромисса двух противоречивых 173
критериев—максимума суммы внутренних связей 2 2>рц t nes net = 1 (S) и минимума меры концентрации — Snf = Zt (S). n2 ( Оптимальное по данному критерию разбиение S = {Su ..., Sk} компактно в том смысле, что средняя связь р (St)= -- 2 Pijln't в каждом из его классов St не меньше, чем сред- няя связь р (St, St) BO вне и чем средняя связь между лю- любыми классами р (Si, St). Точнее, для любых t, q, I справед- справедливо неравенство р (Sh §,), р (Sq, S() < я < р (St). Разбиение, удовлетворяющее данному свойству, может быть найдено с помощью локально-оптимального агломера- тивного алгоритма, на каждом шаге которого объединяются те классы St, Sq, для которых сумма связей 2 2 (ри — я) максимальна и положительна. Процесс объединений пре- прекращается, когда такие суммы для всех t ^A ц становятся неположительными. Таким образом, данная задача приво- приводит к сумме всех связей (за вычетом порога) как мере бли- близости классов. В том случае, когда величина К не фиксирована заранее, а подбирается в соответствии с квадратичным критерием ап- аппроксимации, ее оптимальное значение (при данном S) рав- равно среднему значению внутренних связей t= I i-/est I t=. i В этой ситуации необходимое условие оптимальности S может быть уточнено следующим образом: средняя внут- внутренняя связь к (S) по крайней мере вдвое превышает сред- средние связи между любыми двумя классами (р (St, S q)) или во вне (р (St, St)). Данное условие также может исполь- использоваться в качестве критерия оптимизации и остановки в агломеративном методе последовательного объединения классов. К достоинствам рассмотренной аппроксимационной за- задачи классификации относится то, что, во-первых, она до- допускает интерпретацию в терминах порога существенности (он же показатель компромисса) я; во-вторых, приводит к «компактным» в указанном смысле кластерам, число кото- которых не задается заранее, и, в-третьих, при некоторых кон- конкретных способах расчета связей ptJ эквивалентна другим аппроксимационным критериям многомерной классифика- классификации по матрице «объект — свойство», содержащей как коли- количественные, так и номинальные признаки [111]. Особенно- 174
стью данного критерия является наличие единого порога существенности для всех классов, что неудобно в тех не- нередких ситуациях, когда структура данных отражает нали- наличие кластеров различных «диаметров». Этот недостаток в значительной мере преодолевается в методике последовательной аппроксимации матрицы связи с помощью отдельных подмножеств множества объектов О. Подмножество S ^ О характеризуется (пхя)-матрицей {KstJ}, где su 1 при 0it Oj (i S и s^ - О в противном слу- случае. При фиксированном значении X > О задача квадратич- квадратичной аппроксимации матрицы {p,j} B множестве матриц тако- такого вида эквивалентна задаче максимизации суммы внутрен- внутренних связей f(S, П)= ^ (/?,•;--Л) = ^ Pu — WlS, i./(s ijes что представляет собой часть критерия E.26), соответст- соответствующую одному классу. Здесь я - У2, a /is — число объектов в S. Необходимое условие оптимальности здесь принимает следующий вид. Оптимальное множество S является я- кластером в том смысле, что для всякого объекта О,- ? S его средняя связь р (i, S) - 2 рц/ns с S не меньше, чем л, тогда как для О,- §t S p (i, 5)< я. Это свойство позволяет формировать локально-оптимальный я-кластер путем пос- последовательного присоединения к S, начиная с S=0, объ- объектов, имеющих с «текущим» S максимальную среднюю связь р (/. S), если р (/, S) > я. - В том случае, когда величина К или я - К/2 заранее не задана, ее выбор можно также подчинить аппроксимацион- ному критерию, который, как нетрудно убедиться, равен в этом случае g* {S), где g(S)= S Pn/ns = nsp(S), E.27) ies причем р (S) - 2 Pij/nj — не что иное, как оитималь- ное значение Я, равное средней внутренней связи. Оптимальное по данному критерию множество S являет- является «сильным» кластером в том смысле, что его средняя внут- внутренняя связь р (S) по крайней мере вдвое превышает сред- среднюю связь р (/', S) с S любого объекта О, ф S. Отсюда выте- вытекает алгоритм построения локально-оптимального сильно- сильного кластера S с помощью последовательных присоединений к «текущему» S тех 0;, для которых р (/, S) максимально (по i 63= S), если р (i, S)> p {S)f2. Подобные алгоритмы формирования отдельных кластеров развиваются в литера- 175
туре довольно давно, правда, из чисто эвристических сооб- соображений, например метод р-коэффициентов [161], алгоритм Спектр [34] и др. В случае, когда часть связей ptj может быть отрицательна (если, например, матрица {ри\ предварительно центриро- центрирована), аппроксимационный критерий g2 (S) допускает ре- решение, при котором g (S), а значит, и порог л, отрицатель- отрицательны. В этом случае оптимальное множество S является «ан- «антикластером», так как состоит из наиболее непохожих друг на друга объектов. До последнего времени задачи по- построения антикластеров в приложениях рассматривались редко. Описанный подход допускает естественное развитие, со- состоящее в многократном повторении аппроксимации приме- применительно к «остаточным» матрицам связей, получаемым вы- вычитанием из ри «объясненных» на данном шаге связей ^si7. Очевидно, на разных этапах процесса аппроксимируемые матрицы связи будут разными, так что конструируемые кла- кластеры и их средние внутренние связи будут, вообще говоря, разными. Указанный метод последовательного исчерпания связей pij (качественный факторный анализ 1110]) может рассматриваться как пошаговая процедура идентификации модели аддитивных кластеров, согласно которой заданная матрица связи {рц} представляется (с некоторой погреш- погрешностью) в виде суммы матриц {kts[f}, отвечающих искомым кластерам S,: Pij = K + h si/ + h s'b +--+K ski/+ ?ij, E.28) где Щ) — минимизируемые невязки модели. Согласно методу последовательного исчерпания сначала определяется и вычитается из р1} оптимальное Хо, равное среднему значению pi3, затем матрица ри — Хо аппроксими- аппроксимируется матрицей вида {A,xs/j}; после этого остаточная мат- матрица pij—^0 — Kslu аппроксимируется матрицей {X2s,-/} и т. д. Особенностью метода является декомпозиция «"./ t i.i где справедливая независимо от того, пересекаются класте- кластеры S, друг с другом или нет. -176
Разложение E.29) позволяет трактовать величины vt как характеристики значимости вклада отдельных класте- кластеров в дисперсию исходных связей и на этой основе оцени- оценивать доли объясненной и необъясненной дисперсии данных, что включает кластер-анализ в традиционную методологию многомерного статистического анализа. Указанные свойст- свойства метода последовательного исчерпания (декомпозиция E.29), «сильная компактность» кластеров, вычислительная эффективность) дают ему определенные преимущества по сравнению с другими подходами к оценке параметров модели E.28) [111]. Рассмотрим некоторые критерии классификации, воз- возникающие в задачах аппроксимации таблиц «объект — свойство». В этих задачах подмножества объектов S задают- задаются л-мерными A, 0)-векторами z ~ (zt), где г,- = 1, если хг 6 S и z,i = О в противном случае. Разбиение S = {S,, ..., Sk} множества объектов задается (пX^-матрицей Z = = (zit) со столбцами гъ г2, гк, характеризующими классы разбиения S. Очевидно, (яХ")-матрица ZZ' совпадает с ра- ранее определенной матрицей {s,-7-}, a k X ^-матрица Z' Z — диа- диагональная матрица величин nt. Линейное пространство L (Z) = {г/г = Za при подходящем а} является адекватным представлением разбиения S, поскольку всякий вектор г = Za выражает возможную кодировку классов St величи- величинами at. Аппроксимационные построения в терминах линейных пространств, ассоциированных с номинальными и количе- количественными признаками, приводят к критериям вида E.1), E.11) и E.26) при подходящих способах вычисления харак- характеристик близости объектов [111]. Здесь рассмотрим только наиболее прозрачную схему метода главных кластеров [112]. Согласно этой схеме матрица данных X =- (хц)A— номера объектов, / — номера признаков) аппроксимируется каким- либо элементом г 6 L (Z), где Z — (п X ^-матрица искомой классификации (с не обязательно непересекающимися клас- классами), так что справедливо представление х,} = avztl + cibj zl2 + ... + ah} zth + ги E.30) с «невязками» ef;-. Смысл равенств E.30): значения признаков / на объектах О, 6 St с точностью до невязок гц совпадают с величинами atj, которые задают, таким образом, «эталон» кластера St в признаковом пространстве. Модель E.30) является линейной моделью факторного анализа (см. гл. 14) с той особенностью, что величины zit принимают не любые значения, а только нулеединичные. 177
Аппроксимационная задача отыскания произвольных а,] и нулеединичных г,-, по заданным xti в модели E.30) с целью минимизации суммы квадратов невязок как нетрудно показать, эквивалентна задаче построения классификации 5 = {Slt ..., S,,} (при непересекающихся классах), минимизирующей критерий E.11) с atJ- = х3 (t), или, что то же самое, максимизирующей критерии вида 8E) = ? -i- 2 Ьи, E.32) /=i я< i.lts , где связи между объектами — их скалярные произведения Вид критерия E.31) позволяет в какой-то мере уточнить характер предварительного преобразования данных, необ- необходимого для адекватного применения критериев, эквива- эквивалентных E.11) и E.32). Действительно, в сумму E.32) все невязки ?и входят равноправно, что подразумевает равно- равноправие всех элементов матрицы данных Скажем, измене- изменение масштаба /-го признака в а раз вызовет а--кратное из- изменение «веса» соответствующих невязок в критерии E.31) и соответствующее изменение решения. По-видимому, кри- критерию E.31) соответствует предварительное уравновешива- уравновешивание матрицы данных, приводящее к выполнению равенств 2х2г, — п, Ъхгч - р. Формулировка задачи классификации как задачи оцен- оценки параметров модели E.30) позволяет распространить на нее принцип пошаговой аппроксимации. На первом шаге отыскиваются параметры первого кластера путем миними- минимизации критерия 2 (xtj — а,] г,) 2 по произвольным а3- и нулеединичным г,-. Полученное решение определяет эталон- эталонный вектор первого кластера а, = (а13) и его состав гг = ¦= (гг1). На общем (/ + 1)-м шаге исходя из полученного решения at, zt и «текущей» остаточной матрицы х*ц осуществляется переход к матрице следующего шага Метод назван методом главных кластеров из-за аналогии с методом главных компонент, «простирающейся» вплоть до декомпозиции 2*?/= ? v,+2e?/. E.33) C.J t=\ i.f 178
где vt = g (St) = nt b (S) — вклад г'-го кластера St в суммарный разброс данных, справедливой даже при пересе- пересекающихся главных кластерах. Ситуация здесь похожа на ту, которая обсуждалась применительно к модели аддитив- аддитивных кластеров E.28) с декомпозицией E.29). На каждом ^-м шаге аппроксимация сводится к максимизации величины g (St) и соответственно каждый главный кластер является сильным кластером (относительно матрицы связей {&,/}). Локально-оптимальный алгоритм последовательного при- присоединения объектов к кластеру 5 начиная с .S = 0, по мак- максимуму средней связи b (i, S) (О, t? S), имеет здесь простой геометрический смысл: к S присоединяется тот объект 0г, длина проекции которого на радиус-вектор центра тяжести S превышает половину длины радиус-вектора. С точки зрения интерпретации главных кластеров и от- отбора «значимых» компонент решения особый интерес пред- представляют разложения = У b(i, Sf) = 2fl?/"" которые характеризуют относительный вклад (значимость) отдельных объектов (b (i, St)) и признаков (a't,nt) примени- применительно к данному конкретному кластеру. Таким образом, обращение к модели E.30) расширяет возможности традиционного дисперсионного критерия E.11) и дает решения, обладающие определенными преимущест- преимуществами («шлейф» интерпретирующих характеристик, «силь- «сильная компактность» кластеров, возможность пересечений и т.п.). ВЫВОДЫ 1. Общая постановка задачи классификации совокупности объектов 0и 02, ..., Оп в условиях отсутствия обучающих выборок состоит в требовании разбиения этой совокупно- совокупности на некоторое число (заранее известное или нет) однород- однородных в определенном смысле классов. При этом исходная информация о классифицируемых объектах представлена либо значениями многомерного признака (по каждому объек- объекту в отдельности), либо матрицей попарных расстояний (или близостей) между объектами, а понятие однородности осно- основано на предположении, что геометрическая близость двух или нескольких объектов означает близость их «физических» состояний, их сходство. 179
2. Математическая постановка задачи автоматической классификации требует формализации понятия «качество разбиения». С этой целью в рассмотрение вводится понятие критерия (функционала) качества разбиения Q (S), кото- который задает способ сопоставления с каждым возможным разбиением S заданного множества объектов на классы не- некоторого числа Q (S), оценивающего (в определенной шкале) степень оптимальности данного разбиения. Тогда задача по- поиска наилучшего разбиения S* сводится к решению оптими- оптимизационной задачи вида Q[S) — extr, E.34) S6 A где А — множество всех допустимых разбиений. 3. В зависимости от наличия и характера априорных сведе- сведений о природе искомых классов и от конечных прикладных целей исследователь обращается к одной из трех основных составных частей математического аппарата классификации в условиях отсутствия обучающих выборок1 1) методам расщепления смесей вероятностных распределений (каждый класс интерпретируется как параметрически заданная одно- модальная генеральная совокупность при неизвестном зна- значении определяющего ее параметра, а классифицируемые наблюдения —как выборка из смеси таких генеральных со- совокупностей), 2) методам собственно автоматической классификации или кластер-анализу (исследователь не имеет оснований для параметризации модели, а иногда и для ин- интерпретации последовательности классифицируемых наблю- наблюдений в качестве выборки из генеральной совокупности); 3) классификационным процедурам иерархического типа (главная цель—получение наглядного представления о стратификационной структуре всей классифицируемой со- совокупности, например в виде дендрограммы). 4. Выбор метрики (или меры близости) между объектами, каждый из которых представлен значениями характеризу- характеризующего его многомерного признака, является узловым мо- моментом исследования, от которого решающим образом зави- зависит окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. В каждой конкретной задаче этот выбор должен произво- производиться по-своему, в зависимости от главных целей исследо- исследования, физической и статистической природы анализируе- анализируемого многомерного признака, априорных сведений о его вероятностной природе и т.п. В этом смысле схемы, осно- основанные на анализе смесей распределений, а также класси- 180
фикация по исходным данным, уже представленным в виде матрицы попарных расстояний (близостей), находятся в вы- выгодном положении, поскольку не требуют решения вопро- вопроса о выборе метрики. 5 Важное место в построении классификационных проце- процедур, в первую очередь иерархических, занимает проблема выбора способа вычисления расстояния между подмножества- подмножествами объектов Изящное обобщение большинства используе- используемых в статистической практике вариантов вычисления рас- расстояний межд} двумя группами объектов дает расстояние, подсчитываемое как обобщенное степенное среднее всевоз- всевозможных попарных расстояний между представителями рас- рассматриваемых двух групп (см. E.8)). 6. В статистической практике выбор функционала качества разбиения Q (S) обычно осуществляется весьма произволь- произвольно, опирается скорее на эмпирические и профессионально- интуитивные соображения, чем на какую-либо точную фор- формализованную схему (см., например, способ вывода функ- функционала качества E.21)). Однако ряд распространенных в статистической практике функционалов качества удается постфактум обосновать и осмыслить в рамках строгих мате- математических моделей. Возможность этого появляется при на- наличии дополнительных априорных сведений о классах, по- позволяющих, например, представлять каждый класс в каче- качестве параметрически заданной одномодальной генеральной совокупности (см. основанный на смеси нормальных сово- совокупностей математико-статистический анализ функциона- функционалов Q1 (S), Q, (S) и Q4 (S) в п. 5.4.6) 7. Еще один подход к осмыслению и обоснованию методов автоматическои классификации представлен аппроксимаци- онными моделями, когда искомая классификация характе- характеризуется матрицей определенной структуры (например, ультраметрической матрицей близости или аддитивными кластерами E 28)), а задача состоит в том, чтобы оценить па- параметры этой структуры таким образом, чтобы она мини- минимально отличалась от матрицы исходных данных. В такой постановке проблема классификации сближается с пробле- проблемами факторного анализа (см., в частности, модель главных кластеров E.30), которая является реализацией для дан- данного случая соотношений линейной модели факторного ана- анализа — см. гл. 14). Поэтому данный подход в определенной мере интегрирует традиционные методы кластер-анализа («компактность» кластеров в признаковом пространстве) и многомерной статистики (декомпозиция разброса исход- исходных данных на «вклады» отдельных кластеров и других эле- элементов решения). 181
Главаб. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ (ПАРАМЕТРИЧЕСКИЙ СЛУЧАИ). РАСЩЕПЛЕНИЕ СМЕСЕЙ ВЕРОЯТНОСТНЫХ РАСПРЕДЕЛЕНИИ 6.1. Понятие смеси вероятностных распределений 6.1.1. Примеры. Начнем пояснение понятия смеси распреде- распределений с рассмотрения ряда конкретных примеров. Пример 6.1. Контроль (по количественному призна- признаку) изделий (полуфабрикатов) совокупности, составленной из продукции двух разных станков. В отдел технического контроля (ОТК) поступают партии изделий, составленные с помощью случайного извлечения из объединенной продук- продукции двух станков (станка А и станка В). Изделия контроли- контролируются по некоторому количественному параметру (линей- (линейному размеру) | мм, так что результатом контроля г-го изде- изделия партии является число xt мм (изделия на станках не маркируются, так что в ОТК не известно, на каком именно станке произведено каждое из них). Производительность станка Л в 1,5 раза выше производительности станка В. Задано номинальное значение контролируемого параметра а -= 65 мм и известно, что точность работы станков характе- характеризуется одинаковой величиной среднеквадратических от- отклонений аА = ]^D?,a и ов = [/"Din, равной 1,0 мм1. Поз- Позже выяснилось, что станок А был настроен правильно (про- (производил изделие со средним значением Е|« — 65 мм, рав- равным номиналу), в то время как настройка станка В была сбита в направлении завышения номинала (а именно ЕЕВ= = 67 мм). Известно также, что распределение размеров изделий, произведенных на каком-то определенном станке, описыва- описывается нормальным законом с параметрами av =~ E|v и а| = = D|T (у ¦= А или у — В). Очевидно, анализируемая в ОТК по наблюдениям xlt х.г, ..., хп ... генеральная совокупность будет состоять из смеси двух нормальных генеральных совокупностей, одна из 1 Случайная величина ? будет снабжаться нижним индексом (А или В) в тех случаях", когда речь идет о продукции какого-то оп- определенного станка (соответственно стайка А или станка В). 182
которых представляет продукцию станка А и описывается в соответствии с вышесказанным плотностью а другая — продукцию станка В и описывается плотностыа aB, ah)= -е 2о Обозначая 9Т - (ау, о$), а удельный вес изделий стан- станка у через Ру (у = А, В), можем записать уравнение функ- функции плотности f(x), описывающей закон распределения ана- анализируемого признака ? во всей (объединенной) генеральной совокупности, в виде: ' (х) = pa ф (х; 9.4) + рв Ф (х; 9В). F.1) Учитывая, что в объединенной генеральной совокупно- совокупности продукции станка А в 1,5 раза больше, чем продукции станка В (поскольку производительность станка А в 1,5- раза выше), а также то, что ал = 65 мм, ав = 67 мм, о% ~ = ав = 1 мм2, имеем: , _J*-65J (X-67)* -I=e ^ . FЛ'> Правыми частями уравнений F.1) и F. Г) и представлен частный случай того, что принято называть смесью вероят- вероятностных распределений х. На рис. 6.1 представлены графики функций плотности fA (х), /в (х) и f(x). В соотношениях F.1) и F.Г) величины рл =0,6 и рв~ •=* 0,4 представляют удельные веса соответствующих компо- компонентов смеси (их еще называют априорными вероятностями появления наблюдений именно из данного компонента сме- смеси), а 9д = (па, о\) и 9в^ (ав, ав) — векторные пара- параметры, от значений которых зависят законы распределения компонентов смеси. 1 Речь идет о частном случае, поскольку в общей модели смесн распределений, во-первых, могут участвовать более чем два (и даже континуум) составляющих смесь распределения, а во-вторых, ана- анализируемые распределения могут быть многомерными и не обяза- обязаны быть однотипными (в данном примере оба компонента — нор- нормальные). 183
Если сотрудники ОТК или потребители изделий-полу- изделий-полуфабрикатов захотят по наблюдениям хъ хг, ... определить, на каком именно станке произведено каждое из них, то как раз и возникает одна из типичных задач классификации наб- наблюдений в условиях отсутствия обучающих выборок (ко- (конечно, в данном примере можно представить себе специаль- специально организованное производство этих изделий, в результате 0,6 f, M X, ММ Рис. 6.1. Графики функции плотности от- отдельных компонентов и самой смеси из примера 6.1 для/(х) которого можно получить отдельно изделия от станка А и отдельно — от станка В и использовать их в дальнейшем в качестве обучающих выборок). Пример 6.2. Выявление и анализ типов потреби- потребительского поведения по данным обследований семейных бюд- бюджетов [154, с. 47—48, 68—69]. Здесь представлен один из фрагментов исследования, проведенного с целью изучения (на базе семейных бюджетов) дифференциации потребностей, выявления основных типов потребительского поведения и определения главных типообразующих признаков (социаль- (социально-демографической, региональной, экономической приро- природы).Исследуемым многомерным признаком является вектор Y показателей уA), у(г\ ..., г/(р) потребительского поведения семьи, т. е. каждой (t-й) обследованной семье ставится в со- соответствие многомерное наблюдение , t=l, 2, .... n, где yffi — удельное (т. е. рассчитанное в среднем на одного члена семьи) количество m-го вида благ (товаров или услуг, 184
включая сбережения), потребляемое г-й обследованной се- семьей в базовый период (за год) и выраженное в натуральных или денежных единицах. В соответствии с одним из принятых в исследовании ба- базовых исходных допущений постулируется существование в анализируемом пространстве Tlp(Y) (Y ? ПР(У)) сравнитель- сравнительно небольшого (и неизвестного) числа k типов потребитель- потребительского поведения, таких, что различия в структуре потребле- потребления Y семей одного типа носят случайный характер (т. е. обусловлены влиянием множества случайных, не поддаю- поддающихся управлению и учету факторов) и незначительны по сравнению с различиями в потребительском поведении се- семей, представляющих разные типы. При этом предполага- предполагается, что случайный разброс структур потребительских поведений Y (j) внутри любого (/-го) типа описывается мно- многомерным (в нашем случае р-мерным) нормальным законом распределения с некоторым вектором средних (ив то же вре- время— наиболее характерных, наиболее часто наблюдаемых) значении и с ковариационной матрицей (см. сведения о многомерном нормальном законе в [11, п. 6.1.51). Однако в начале исследования нет сведений об упомяну- упомянутых гипотетических типах потребительского поведения: неизвестно ни их число k, ни значения определяющих эти типы многомерных параметров Q} — (а (/), S (/)). Поэтому вынуждены рассматривать имеющиеся в нашем распоряже- распоряжении результаты бюджетных обследований семей Yy, Y, Yn F.2) как выборку из генеральной совокупности, являющейся смесью многомерных нормальных законов распределения. Другими словами, функция плотности / (У), описывающая распреде- 185
ление вектора Y в этой объединенной генеральной совокуп- совокупности, имеет вид /00 - ? РШ>(У: а(/); 20")), F.3) /= 1 где pj (/ = 1, 2, ..., k) — не известный нам удельный вес (априорная вероятность) семей /-го типа потребительского поведения в общей совокупности семей; аО); 2 (/)) = G' -^-(К-а(Л)' 2G)' (К-а(/)) _?- -L (In) 2 |S(/)j 2 многомерная нормальная плотность, описывающая закон распределения исследуемого признака Y (/) внутри совокуп- совокупности семей /-го типа потребительского поведения (/ — 1, 2, ... *). Далее необходимо но выборке F.2) оценить неизвестные значения параметров k, ръ р2, ..., рк-ъ а0) и 2 (/) (/ = 1, ..., k) модели F.3), чтобы в конечном счете суметь расклассифицировать (в определенном смысле наилучшим образом) семьи F.2) по искомым типам потребительского по- поведения. Общая схема действий, увязывающая задачу ста- статистическою оценивания параметров смеси типа F.3) с за- задачей автоматической классификации, изложена в п.6.2. 6.1.2. Общая математическая модель смеси распределений. Рассмотренные в примерах смеси F.1) и F.3) представляют собой частные случаи общей модели смеси, определение ко- которой дадим здесь. Обобщение рассмотренных в примерах смесей может быть произведено в направлении: 1) отказа от конечности и даже дискретности компонентов, составля- составляющих смесь, распространения понятия смеси на непрерыв- непрерывную смешивающую функцию; 2) отказа от однотипности участвующих в смеси компонентов (под однотипностью ком- компонентов-распределений понимается их принадлежность к общему параметрическому семейству распределений, на- например к нормальному). Итак, пусть имеется двухпараметрическое семейство р- мерных плотностей (полигонов вероятностей) распределе- распределения F = {fM(X; е(ш))}, F.4) где одномерный (целочисленный или непрерывный) пара- параметр а» в качестве нижнего индекса функции / определяет 186
специфику общего вида каждого компонента — распределе- распределения смеси, а в качестве аргумента при многомерном, вообще говоря, параметре б определяет зависимость значений хотя бы части компонентов этого параметра от того, в каком именно составляющем распределении Д, он присутствует. И пусть Р = {Р(ш)} • F.5) — семейство смешивающих функций распределения. Функция плотности (полигон вероятностей) распреде- распределения ) F.6) называется Р-смесью (или просто смесью) распределений се- семейства F (интеграл в F.6) понимается в смысле Лебега— Стильтьеса; см., например, [86]). Нас интересует использование моделей смесей в теории и практике автоматической классификации, поэтому сузим данное выше определение смеси и будем рассматривать в дальнейшем лишь случай конечного числа k возможных зна- значений параметра ш, что соответствует конечному числу скач- скачков смешивающих функций Р ((о). Величины этих скачков как раз и будут играть роль удельных весов (априорных ве- вероятностей) Pj компонентов смеси (/= 1, 2, ..., k), так что F.6) в этом случае может быть записано в виде Если же дополнительно постулировать однотипность компонентов-распределений ft (X; 9 (/)), т. е. принадлеж- принадлежность всех fj(X; 9(/)) к одному общему семейству {f(X; 9)}, то модель смеси может быть представлена в виде i 9(/)). F.6") -/=1 Интерпретация в задачах автоматической классификации /-го компонента смеси (/-й генеральной совокупности) в ка- качестве /-го искомого класса (сгустка, скопления) обуслов- обусловливает естественность дополнительного ограничения усло- условия, накладываемого на плотности (полигоны вероятно- вероятностей) fj (X; 9(/)) и заключающегося в их одномодальности. 6.1.3. Задача расщепления смеси распределений. Решить 187
эту задачу в выборочном варианте — значит по выборке классифицируемых наблюдений Xlt Хг, ..., Хп, F.7) извлеченной из генеральной совокупности, являющейся смесью F.6) генеральных совокупностей типа F.4) (при за- заданном общем виде составляющих смесь функций fa (X. 0(со)), построить статистические оценки для числа компонентов смеси k, их удельных весов (априорных вероятностей) рх, р2, ..., ри н, главное, для каждого из компонентов /(р) (X; 0((о)) анализируемой смеси F.6). В некоторых частных случаях имеющиеся априорные сведения дают исследователю точное знание числа компонентов смеси k, а иногда и апри- априорных вероятностей ps, p2, ..., pk. Тогда задача расщепле- расщепления смеси сводится лишь к оцениванию функций /щ (X; б((о)). Однако не следует ставить знак тождества между задачей расщепления смеси и задачей статистического оценивания параметров в модели F.6) по выборке F.7), поскольку зада- задача расщепления сохраняет смысл и применительно к гене- генеральным совокупностям, т. е. в теоретическом варианте. В этом случае она заключается в восстановлении компонен- компонентов /ш (X; 9 (со)) и смешивающей функции Р (со) по задан- заданной левой части / (X) соотношения F.6) и называется зада- задачей идентификации компонентов смеси. В п. 6.3 показано, что эта задача не всегда имеет единственное решение. 6.2. Общая схема решения задачи автоматической классификации в рамках модели смеси распределений (сведение к схеме дискриминантного анализа) Базовая идея, лежащая в основе принятия решения, к какой из k анализируемых генеральных совокупностей отнести данное классифицируемое наблюдение Xг, состоит в том, что наблюдение следует отнести к той генеральной совокупно- совокупности, в рамках которой оно выглядит наиболее правдоподоб- правдоподобным. Другими словами, если дано точное описание (напри- (например, в виде функций Д (X), ..., / k (X) плотности в непре- непрерывном случае или полигонов вероятностей в дискретном) конкурирующих генеральных совокупностей, то следует поочередно вычислить значения функций правдоподобия для данного наблюдения Xi в рамках каждой из рассматри- рассматриваемых генеральных совокупностей (т. е. вычислить зна- значения fx (Xi), U (Xt), ..., fh (Xt)) и отнести Xt к тому классу, 188
функция правдоподобия Которого максимальна1. Если же известен лишь общий вид функций fl (X; 6;), f2 (X; 62), ..., fh № 9fc)> описывающих анализируемые классы, но не из- известны значения, вообще говоря, многомерных параметров 0j, 02, ..., 6fe, и если при этом располагают так называемыми обучающими выборками, то данный случай лежит в рамках параметрической схемы дискриминантного анализа и поря- порядок действий будет следующим (см. гл. 2 и 3): сначала по у'-й обучающей выборке оцениваем параметр 6;- (/= 1,2,..., k), а затем производим классификацию наблюдений, руководст- руководствуясь тем же самым принципом максимального правдоподо- правдоподобия, что и в случае полностью известных функций /у (X). В схеме автоматической классификации, опирающейся на модель смеси распределений, как и в схеме параметриче- параметрического ДА, задающие искомые классы функции Д (X; 6^, f-i(X; 62),... также известны лишь с точностью до значений параметров. Но в схеме автоматической классификации не- неизвестные значения параметров 6Х, 02, ..., так же, впрочем, как и параметров k, pv p.z, ..., ph, оцениваются не по обуча- обучающим выборкам (их нет в распоряжении исследователя), а по классифицируемым наблюдениям Хъ Х2, ..., Х„ с помощью одного из известных методов статистического оценивания параметров (метода максимального правдоподобия, метода моментов или какого-либо другого; см. о процедурах стати- статистического оценивания параметров смеси в § 6.4). Начиная с момента, когда по выборке F.7) сумели получить оценки k, plt р2, ..., ph, Qu ..., 6fc неизвестных параметров k, pu p2, ..., ph, 6Х, 62, ..., 6fe модели F.6') или F.6"), снова имеем схему дискриминантного анализа и собственно процесс клас- классификации наблюдений F.7) производим точно так же, как и в схеме параметрического ДА (т. е. относим наблюдение Xt к классу с номером у0, если pfJJo (Хй 6/о) = max {pjX ^-~ 1 </< "k XfjiXr, в,)}). Итак, главное отличие схемы параметрического ДА от схемы автоматической классификации, производимой в рам- рамках модели смеси распределений,—в способе оценивания не- неизвестных параметров, от которых зависят функции, описы- описывающие классы. Но оценивание параметров в модели смеси— процесс неизмеримо более сложный, чем оценивание пара- параметров по обучающим выборкам. 1 Для большей ясности здесь подразумевается простой случай равных априорных вероятностей н равных потерь от неправнльного отнесения наблюдения Х( к любому из классов. Более общая схема и более подробно представлена в гл.1. 189
6.3. Идентифицируемость (различимость) смесей распределений Семейство смесей F.6) (Я(соNР, см. F.5)) называется иден- идентифицируемым (различимым), если из равенства f L (X; 6 (со)) dP (со) = j fa (X; в (to)) dP* (со) следует, что Р (со) s Р* (со) для всех Р (со) 6 Р- Поскольку нас интересуют в первую очередь конечные смеси типа F.6'), переформулируем понятие идентифициру- идентифицируемости (различимости) смесей специально применительно к ним. Конечная смесь F.6') называется идентифицируемой (различимой), если из равенства 2 следует: k = k* и для любого / A < / < k) найдется гакое / A < / < k% что Pj = pi и U (X; 9(/)) е /, (X; 6*(i)). В работах 1320, 321, 327] сформулированы необходимые и достаточные условия различимости для непрерывных и ко- конечных смесей. Из них, в частности, следует, что различными являются конечные смеси из распределений: 1) нормальных (в том числе многомерных); 2) экспоненциальных; 3) -нуас- соновских; 4) Коши. Описание и свойства перечисленных распределений см., например, в 111, гл. 6]. В то же время конечные смеси биномиальных, равномерных распределений в общем случае не являются идентифицируемыми. При оп- определенном классе смешивающих распределений не явля- являются идентифицируемыми и непрерывные смеси нормаль- нормальных распределений. Поясним это на примерах. Пример 6.3. Пусть семейство компонентов смеси со- состоит из равномерных распределений с неизвестными пара- параметрами, т. е. 6 = (а, о) и плотность f(X; Q) = f(X; a, a) = 0 при Х>а+а, при а~а < X 0 при X<Za—о. Рассмотрим класс конечных смесей, когда функция Я (со) = Р (а) имеет лишь два скачка, что соответствует 190
смешиванию двух различных однородных классов. Легко проверить, что для любого X (О < X < 1) /(А'; а, o) = Xf(X; а -аA-Х), aX) + (l-X)f(X; a+ + аХ, а A-Х)). Это означает, что смешивающая функция Р% (а) делает два скачка величины X и A — X) и если Х1 Ф Х2 , то /\, (а) ф ф Р%г (а). Аналогично можно произвести разбиение для любого числа классов. На рис. 6.2 представлен частный слу- 2 1 1 - Класс 1 i  -v 1 3 i ^ 0,33 0,5 0,33 0,5 Ы) Смесь классов I и II (Г и 1Г) 0,5 \ftl.M Класс II' 0.5 1,0 ¦'», Р2 х) - 1 1 ¦¦*! Класс II i 1 1 1 1 ^ 1-Q Класс Г 0,5 1 1 1 1 i 1,0 i -, 1,0 1,0 Рис. 6.2. Пример неразличимых смесей- произвольное разбиение точек, равномерно распределенных на отрез- отрезке прямой, на два класса 191
чай разбиения на два класса, когда два разных варианта смешивающих функций A-й вариант: Я,х = т, 2-й вариант: ^г = к) приводят к одному и тому же выражению для плот- плотности смеси распределений. Другими словами, однородная группа представителей, которые могут появиться равнове- равновероятно в любой точке неопределенной области, может трак- трактоваться как смесь (даже конечная) групп представителей, однородных в том же смысле. Но если об области, где могут появляться представители, кое-что известно, например в данном случае а = -^, то равномерное распределение уже нельзя разбить на смесь двух равномерных распределений с Пример 6.4. Рассмотрим семейство двумерных рав- равномерных распределений на секторах круга единичного радиуса с центром в точке @,0). Сектор задается начальным направлением <р и углом при вершине Р > 0, т. е. F = = {f(X; в)}, где Х= (tf1), *<2>), a 6 =• (ц>, |J). Таким обра- образом, для любых ф, р\, P2 (Pi + Р2 < 2я) выполняется равен- равенство т Pi4-P2 P1 + P2 = /(*; cp, I^ + Ps), что означает, что семейство смесей F неразличимо. Следова- Следовательно, равномерное распределение на круге с плотностью / (X; 0, 2я) ? F можно представить в виде — f(X; ф, n)+—f(X; ф + я, я). Это означает, что возможно любое разделение точек на два класса прямой, проходящей через центр. 6.4. Процедуры оценивания параметров модели смеси распределений Итак, из § 6.2 известно, что задача автоматической клас- классификации многомерных наблюдений F.7), решаемая в рамках модели смеси распределений вида F.6"), может быть сведена к обычной схеме дискриминантного анализа: не- необходимым предварительным этапом этой редукции явля- является процесс статистического оценивания по выборке F.7) (которую будем полагать в дальнейшем случайной, состоя- 192
щей из п независимых наблюдений многомерного признака X с законом распределения F.6")) неизвестных параметров k, pt, p2, ..., Ph-ъ ^i, 92, •••> 9fc- Во всем дальнейшем изло- изложении материала данной главы предполагается, что анали- анализируемая смесь идентифицируема (различима). И в теоретико-методическом, и в вычислительном плане проблема построения и анализа свойств процедур оценива- оценивания параметров смесей вида F.6") по выборке F.7) является весьма сложной. Одна из главных трудностей связана с оцениванием целочисленного параметра k — числа компо- компонентов (или числа классов) анализируемой смеси. Во всех описываемых ниже процедурах (кроме процедуры SEM) схема оценивания строится таким образом, что вначале за- заготавливаются оценки параметров р} и 8; (у — 1, 2,..., k) для последовательности фиксированных значений k (k — 1, 2, ..., К, где К — некоторая гарантированная мажоранта для возможного числа классов), а затем с помощью того или ино- иного приема подбирается «наилучшее» значение k в качестве оценки для не известного нам истинного числа классов k0. 6.4.1. Процедуры, базирующиеся на методе максималь- максимального правдоподобия. В данном пункте речь идет о процеду- процедурах, позволяющих находить максимум (по параметрам ри рг, ..., pk-u Gj, 62 8fe при фиксированном k) опреде- определяемой с помощью соотношения F.6) логарифмической функции правдоподобия (о функции правдоподобия см. [11, § 8.2]), т. е. о решении оптимизационной задачи вида B^/№^) F.8) /=l I Pj-ej Наиболее работоспособная общая схема построения про- процедур, позволяющих находить решения задачи F.8), была впервые, по-видимому, предложена в работах [166, 209, 2101, а затем развита в [333, 212, 254, 295] и др. Конкретные алго- алгоритмы, построенные по этой схеме, часто называют алгорит- алгоритмами типа ЕМ, поскольку в каждом из них можно выделить два этапа, находящихся по отношению друг к другу в после- последовательности итерационного взаимодействия: оценивание (Estimation) и максимизация (Maximisation). Общая схема построения процедур и их некоторые свой- свойства. Введем в рассмотрение так называемые апостериор- апостериорные вероятности gtj принадлежности наблюдения Xt к у-му классу: g,7- kPff{Xi;6j) (i= 1, 2, ..., л; /= 1, 2, .,., k). F.9) 7 заказ № 291 193
k Очевидно, gfj >0 и % gtj=l для всех i = 1, 2, .... п. За- тем обозначим в=(р1, /?2, ..., pft; 9^ 92, .... 8ft) и предста- представим анализируемую логарифмическую функцию правдопо- правдоподобия ЬЦВ)= 2 lnf 2 />./(*i5 в,)) в виде i \ i ' lnLF)= 2 ? ft/In ft + 2 2 4ts^f(Xt; Q,)- -2 2 g«ingu (ело) /= i «¦= i (справедливость этого тождества легко проверяется с уче- k том F.9) и того, что 2 йа — 0- Далее идея построения итерационного алгоритма вычис- вычисления оценок в = (/?!, р2, ..., рк\ 0!, 92 9fe) для пара- параметров в = (Pl, р2, ..., Ph; Qt, 92, ..., 0ft) состоит в том, что, отправляясь от некоторого начального приближения 6°, вычисляют (по формулам F.9)) начальные приближения gfj для апостериорных вероятностей gl} (этап оценивания), а затем, возвращаясь к F.10), при вычисленных значениях gij определяют значения в1 из условия максимизации от- отдельно каждого из первых двух слагаемых правой части F.10) (этап максимизации), поскольку первое слагаемое k Bi SgolnPj) зависит только от параметров pj(j — k п = 1, 2, ..., k), а второе слагаемое B 2 gt7- In / (Xt; 0Л) зависит только от параметров 97 (/ = 1,2,..., k). Очевидно, решение оптимизационной задачи 2 2 «!J)lnft-> max <6-n> /= 1 f=* I Vi.Pi, ¦ , Ph k дается выражением (с учетом v Pj = 1) здесь < — номер итерации, t = 0, 1, 2, ... 194
Решение оптимизационной задачи g\? inflX* Qj)-+ max F.13) получить намного проще решения задачи F.8): выражение для 9('+п записывается с учетом знания конкретного вида функций f (X; 9). Ниже приведены выражения для 9('+!> (при заданных g,y) для случая нормальных плотностей f(X; 9). В той же работе М. И. Шлезингера, где эта схема (позд- (позднее названная ЕМ-схемой) впервые предложена [166], уста- установлены и основные свойства реализующих ее алгоритмов (позднее в работах [334, 197, 295, 222] эти свойства были передоказаны и частично развиты). В частности, было дока- доказано, что при достаточно широких предположениях (на- (наиболее неприятным, жестким из них является требование ограниченности логарифмической функции правдоподобия, которое, правда, было неправомерно опущено в формули- формулировках [166]) предельные точки всякой последовательности, порожденной итерациями ЕМ-алгоритма, являются стацио- стационарными точками оптимизируемой логарифмической функ- функции правдоподобия In L (в) и что найдется неподвижная точ- точка алгоритма, к которой будет сходиться каждая из таких последовательностей. Если дополнительно потребовать поло- положительной определенности информационной матрицы Фи- Фишера для In L (в) при истинных значениях параметра в Ц1, § 8.2], то можно показать [295], что асимптотически по п -> оо (т. е. при больших выборках F.7)) существует един- единственное сходящееся (по вероятности) решение в (п) урав- уравнений метода максимального правдоподобия и, кроме того, существует в пространстве параметров в норма, в которой последовательность 8<'> (п), порожденная ЕМ-алгоритмом, сходится к в (п), если только начальная аппроксимация в0 не была слишком далека от 9 (п). Таким образом, результаты исследования свойств ЕМ-ал- горитмов метода максимального правдоподобия расщепле- расщепления смеси и их практическое использование показали, что они являются достаточно работоспособными (при известном числе компонентов смеси) даже при большом числе k ком- компонентов и при высоких размерностях р анализируемого признака X. Основными «узкими местами» этого подхода являются: необходимость предъявления требования ограниченности 7* 195
к анализируемой функции правдоподобия L (в), высокая слож- сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходимость по- порождаемых ими итерационных процессов. Смеси нормальных классов. Продолжим исследование за- задачи статистического оценивания параметров в смеси F.6"), состоящей из известного числа k классов. Дополнительно постулируем при этом, что каждый объект X класса / пред- представляет собой элемент нормальной генеральной совокуп- совокупности N (&}, 2), где векторы средних а; различны для раз- разных классов, а ковариационные параметры S совпадают, но неизвестны компоненты ни a.j (/ = 1, 2, ..., k), ни S. Кроме того, неизвестны априорные вероятности классов pj (j -¦= - 1, 2, ...,*). Легко проверить [210], что в этом случае 8и = -т - где I <Xj=ii Bj И pj = 2 Учитывая описанную выше схему ЕМ-алгоритма, следу- следует определить процедуру, которая максимизировала бы 1 хе -—(*«-•>)' по а^ и 2, или, учитывая, что в данном случае в7- = ( определить процедуру, которая максимизировала бы при условии, что g(V каким-либо способом уже получены. Эта процедура даст величины 6f+u = а(.'+1) для (t + 1)-го шага и б*^1» = 2f<+u по данным в}/* и в^. Два последую- 196
щих утверждения определяют точку максимума для In L} k и X 'п L) в итерационной процедуре, построенной по схеме /=i ЕМ-алгоритма. Для простоты их формулировки будем опускать индекс /, подчеркивающий связь с шагом процедуры. Напомним, что последовательность gu (/= 1, 2 k; г = 1, 2, ..., п) тако- такова, что 8и>Ь 2 Sij = g.i>0, 2 2, 8ti = n. j= i j= i i= i Утверждение 1. Пусть gJ7- — определенная вы- выше последовательность и / (X | 87) — р-мерные нормальные плотности, такие, что 9/ = (а7-, 2;). Тогда для любых век- вектор-столбцов Xlt Х2, ..., Хп величины In L} (j = 1,2, . ,, /?) достигают максимума при e> . 3 • i Утверждение 2. Пусть g;;- — определенная вы- выше последовательность и / (X | Э7) — р-мерные нормальные плотности, такие, что 9; = (а7, 2). Тогда для любых вектор- к столбцов Хь Х2,..., Хк величина 2 In L, достигает макси- максимума при п . к п а;= J- 2 gyX,, 2 = -!- 2 2 8,ЛХ1 ё' /= 1 ,= 1 (•= 1 и max У lnL;= — -^- |1п Bя)| - — In |?|. aj-s fT\ 2 2 Доказательство этих утверждений опирается на леммы 3.2.1 и 3.2.2 из 1161. Таким образом, при заданных (/) е*Р [«/«)*<+ P/WI 197
где величины ft п ,1/-!"' максимизируют 2 1° L}. Далее легко получить, что И «#'+»> = (/><< + «», *)'+«), »' + »»; /=1, 2, .... А). Если существуют пределы lira/rt') = ft, lima}4=aj, /= 1, 2, ..., k, limS<'>=S, то точка в=(/?ь /?2, ..., /?ft, aj, a2t ..., aft, S) является точ- точкой максимума функции правдоподобия (возможно, правда, что этот максимум является локальным). Легко видеть, что в качестве начальных данных можно- задать не точку 8<»> = (р{0), .... pi0), a|0), .... а1*0», ^<°>), а набор величин а;- @), E^ @), с помощью которых можно по- получить g',"' и т. д. Именно такая итерационная процедура предлагается в работе [210]. Замечание. Точки, для которыхgtj = \!k, явля- являются неподвижными точками итерационной процедуры, но представляют собой посторонние точки, так как в этом слу- случае а7- = а(/ = 1,2, ..., k). В случае двух классов (k ==? 2), как показано в B031, процедура сильно упрощается. Для произвольных а' @)= = (ах @), ..., а„ @)) и р @), имеем 198
я Далее определяются уточнения аир следующим образом: где Подставляя а A) и р* A) вместо а @) и р* @), можно итера- итерационную процедуру продолжить до тех пор, пока значения а и р не перестанут изменяться. Далее, после того как зна- значения а и р* установятся, можно определить оценку ковариа- ковариационной матрицы Естественно точку Xj отнести к классу 1, если gn >¦ gj2, т. е. если gfl > 1/2. Отсюда следует, что Xt будет отнесена к классу 1, если a'Xt -\- р <С 0, или к классу 2, если a'Xt-\- + Р > 0. Следовательно, а'Х + р* — 0 будет оценкой раз- разделяющей поверхности классов 1 и 2, а а и р* — оценками па- параметров разделяющей поверхности (см. гл. 2,3). Основные трудности этого метода классификации состо- состоят в том, что скорость сходимости итерационного процесса зависит от расстояния Махаланобиса р (аь а2) между класса- классами (см. гл. 1) и от начальных значений искомых парамет- параметров. Более того, может быть несколько локальных макси- 199
мумов и требуется, изменяя начальные данные, определить абсолютный максимум. Грубо говоря, итерационный про- цесс сходится к абсолютному максимуму а, (} (при k — 2) из точек а @), E @), если угол между а и а @) менее 45°. Это ясно показывает возрастание трудностей при росте раз- размерности. Если точка а @) выбрана случайно, то вероят- вероятность выполнения этого условия при р = 5 равна 0,076, при /?-=10 — 0,01, при /?= 15 —0,001, при р^= 20 — 0,0002. Поэтому при больших размерностях наблюдений (р > 10) желательно предварительно эту размерность снизить (на- (например, методом главных компонент; см. раздел III). Пример 6.5. Неограниченная функция правдоподо- правдоподобия. Рассмотрим простейший случай, когда число классов k = 2 и наблюдаемые величины X, (/ = 1,2,..., п) являются одномерными (р — 1). Плотность распределения смеси где в = (/?!, р2, аъ а2, аъ а2) являются неизвестными пара- параметрами (р1 + р2 = 1). В этом случае функция правдоподобия запишется ч П f(Xi)=L(pu р2, а^, а2, ах, а2). Рассмотрим поведение / (X) как функции от в. Если а) Ф Хи то / (Xt) является ограниченной функцией, так как 1 2О? 1 [ / о п е / < е~1''! ^/^Я*0у |/ ^Я | Л j — fly | для любых pj и о;. Если же pj > 0 и а> = Хи то / (Хг) стремится к бесконечности как A/ох) при ах -> 0. Однако, учитывая конечность предела / (Хг) при I Ф i, получаем, что при ах = Xt и о -> оо функция L (р^ р2, а, = Хг, а2, G[, а2) стремится к бесконечности, как 11а1 для любого р1 ф\ и любых а2 и а2, чего не происходит при а2 = alt так как при а2 = Gi = о lim Z. (рх, р2, ах = Хг, а2, а, а) = 0. Таким образом, любой набор plt p2, a, — Xit а2, ах = 0, а2 = 0, Р1+Рг= 1 и 0< рх< 1 обращает в бесконечность функцию правдоподобия. 200
Обобщение примера на многомерные смеси нормальных классов не представляет труда. Для этого достаточно рас- рассмотреть случай, когда компоненты наблюдений X,- какого- либо класса / линейно зависимы, т. е. |2| —>- 0 при а7- = Л'г. Пример показывает, что возможны ситуации, когда не выполняются условия сходимости итерационной процеду- процедуры ЕМ-алгоритма к оценкам максимального правдоподобия. Оценивание числа компонентов (классов) в модели смеси распределений. До сих пор, описывая процедуру статисш- ческого оценивания неизвестных значений параметров в мо- модели смеси, предполагали число k компонентов (классов) в правой части модели F.6") заданным. Однако в реальных задачах часто общее число искомых классов неизвестно, и, следовательно, параметр k приходится также оценивать по тем же исходным данным F.7). С этой целью воспользуемся тем, что для ряда последова- последовательных значений k = 1, 2, ... выше уже решены оптимиза- оптимизационные задачи вида F.8), т. е. вычислены такие значения параметров в (k) (k = \, 2, ...), при которых соответствую- соответствующие логарифмические функции правдоподобия In L (в (k)\ достигают максимума, т. е. при каждом фиксированном зна- значении k имеем Воспользуемся известным асимптотическим результатом (см., например, 1157, § 13.81), в соответствии с которым ста- статистика критерия отношения правдоподобия - 1)) — \nL(Q(k))] F.14) при условии справедливости гипотезы Hk: «истинное число компонентов смеси равно />» и при некоторых условиях ре- регулярности функции L (8) имеет распределение, сходящее- сходящееся (при /i-> оо) к распределению %2 с числом степеней сво- свободы, равным а + 1 (q — размерность параметра Э, от ко- которого зависит функция, задающая компонент смеси, а q + 1 — разность размерностей параметров в (k + 1) и 0 (k)). Процедуру построения оценки k для неизвестного числа классов k определим следующим образом: задавшись некоторой величиной а уровня значимости критерия, про- производим последовательную (по & —1, 2, ...) проверку гипо- гипотезы Hh при альтернативе #ft+1 с помощью статистики F.14) (гипотеза Нк отвергается, если величина F.14) оказывается большей 100 а — процентной точки х2"РаспРеДеленИя с (q + 1)-й степенью свободы); величину k, при которой гипо- 201
1еза Нk впервые оказалась неотвергнутой, принимаем за оценку истинного числа классов. В 1119] приводится результат, в соответствии с которым построенная таким образом оценка k (ti) дает при постоян- постоянных значениях уровня значимости а несколько завышенные величины числа классов, а именно имеет распределение (при истинном числе классов k0): lim P{k(n)<.k0} = 0; П~*оо lim P (k(n)=k0 4- т} = A — а) а"', т -0, 1, 2,... Нетрудно подсчитать асимптотическую (по п —*- оо) вели- величину среднего значения оценки k: lim E%(n) = k0 + —2—. Поэтому, если несколько модифицировать вышеописан- вышеописанную процедуру, выбирая в качестве уровней значимости критериев проверки гипотез Hh последовательности а (п), ч 1ены которых зависят от объема классифицируемых выбо- выборок и стремятся к нулю при п —>- оо,то можно добиться асим- асимптотической несмещенности и состоятельности оценок k (n). Другие полезные приемы подбора подходящих значений неизвестного числа классов k основаны на различных мето- методах разведочного статистического анализа, в частности на предварительной визуализации классифицируемых много- многомерных данных, например, с помощью процедур целенаправ- целенаправленного проецирования (см раздел IV). 6.4.2. Процедуры, базирующиеся на методе моментов. Речь идет о процедурах решения системы уравнений метода моментов [11, соотношения (8.25)] применительно к рассмат- рассматриваемой в данной главе модели смеси распределений. При составлении системы уравнений метода моментов реализуется следующая схема: 1) используя знание общего вида функции плотности (полигона вероятностей) смеси / (X) (см. формулу F.6")), вычисляют, в терминах неизвестных параметров /?-,, ..., рк, 0j, ..., 9;4, всевозможные теоретические моменты компонен- компонентов х<'> исследуемого многомерного признака X — (х<1>, *<2>, .... х<р>): первые моменты m'/J — Ex(l>, вторые мо- моменты т*,'1'^ = Е (x<li> ¦ хA*>) и т. д. в количестве, равном общей размерности оцениваемого параметра в (если размер- размерность параметра 0, определяющего распределение внутри класса, равна ц, то общая размерность оцениваемого пара- 202
метра в при заданном числе компонентов смеси k составит к — 1 + kq)\ 2) по выборке классифицируемых наблюдений F.7) нод- считываются соответствующие выборочные моменты m(hi^) и т. д.; 3) составляется система вида I тО) (в) = т</> i ,1, k,h,...-^\, 2, ...,/>, где левые части уравнений суть известные функции от неиз- неизвестных значений параметров в — (plt р1у . ., р^-ъ 8ц 82» .. , 9Л), а правые части уравнений — известные числа. Дальнейшие усилия направлены на решение системы {6 15), которое в каждом конкретном случае (при конкрети- конкретизации общего вида компонентов / (X, 8;) в F.6")) имеет свои специфические вычислительные трудности. «Узкими местами» данного подхода являются- чрезмерная громоздкость (а подчас практическая невозможность) его вычислительной реализации в случае многомерных анали- анализируемых распределений / (X, 9;) и большого числа k сме- смешиваемых классов, весьма скромное качество статистиче- статистических свойств получаемых при этом оценок 0 (в частности, дисперсия оценок тъ для s > 2, а соответственно и диспер- сия получаемых решений в остается слишком большой даже при возрастании объема выборки и). В работах [312, 178, 205, 291] содержатся примеры использования этого подхо- подхода для решения задачи расщепления смеси распределений, предпринимаются попытки преодолеть отмеченные выше трудности. Пример 6.6 Исследование весового распределения хлопкового волокна по длине [1591. При решении некоторых задач из области технологии текстильной промышленности и, в частности, в задачах о вытягивании, смешивании, рас- расчетах прочности пряжи, оценки неровности полуфабрикатов и т. п. необходимо исследовать весовое распределение хлопка по длине волокна. Предпринимавшиеся ранее специалиста- специалистами попытки описать это распределение с помощью кривых Гаусса, Шарлье, Пирсона, закона %2 «работали» лишь как формальная аппроксимация данной (обрабатываемой) вы- выборки волокон и теряли свою работоспособность при пере- переходе к другим выборкам, поскольку не отражали самого ме- механизма образования анализируемого распределения. 203
Визуальный анализ эмпирических плотностей весового распределения хлопкового волокна по длине, построенных по различным выборкам, позволил выявить некоторые об- общие (присущие всем экспериментальным кривым) законо- закономерности (см. пунктирную кривую на рис. 6.3): каждая кри- кривая имеет в зоне коротких волокон (в диапазоне от 15,5 до 21,5) небольшое, но устойчиво выраженное «плато» (близкое 7.5 11,5 15,5 19,5 23,5 27,5 31,5 35,5 39,5 43,5 47,5 51 Рис. 6.3 Графики плотностей весового распределения хлопкового волокна по длине (LM=38,1; LCp = 35,2; a — = 7,89) — экспериментального, —О — О модельного %2, —— — модельного, представленного смесью двух нормальных законов к локальному максимуму) и, кроме того, четко выраженный глобальный максимум в диапазоне от 30 до 40,5 мм с формой кривой в этом диапазоне, близкой к нормальной. Это при- привело нас к гипотезе, что каждое из анализируемых распреде- распределений может быть представлено смесью двух нормальных распределений: первое из них (коротковолокнистое) /х (х) с относительно малым удельным весом рх, небольшим сред- средним значением щ и относительно большим коэффициентом вариации определяет закон распределения волокон в их ко- короткой зоне, а второе (основное) /2 (х) с преобладающим удельным весом р2 = 1—plt средним значением а2> а^ и относительно малым коэффициентом вариации v2 = а2/а.г определяет закон распределения волокон в их основной («длинной») зоне. 204
Итак, модель смеси F.6") имеет здесь вид f(x)=p1(f1(x; alt о*) + ргщ{х; аг, а\), где (f>j(x; a,, a}) = -— е Т/2я а,- Поскольку нужно оценить пять неизвестных параметров ри alt of, аг, o%, то для построения системы уравнений метода моментов вида F.15) необходимо, с одной стороны, вычис- вычислить в терминах этих параметров первые пять теоретиче- теоретических моментов исследуемой случайной величины mq (в) (q= 1, 2, ..., 5), а с другой — подсчитать те же самые мо- моменты, но по имеющимся экспериментальным данным, т. е. вычислить выборочные моменты м та= q м Здесь М — число интервалов группирования по длине волокон; шч — вес волокон, отнесенных к s-му интервалу группирования; xs — длина волокна, соответствующая се- середине s-ro интервала группирования. Переходя для удобства от моментов к семиинвариантам1, получаем следующую систему уравнений относительно не- неизвестных plt p2, а,, а2, of и а\: k, k2 {к\ — Щкг+ k\) (a2-ai)*+ 6*! hfa-ks) (a,— -OlJ(°;-o?) + 3kx k2{o\-o\) = K, k1k2(kii—\\k\ki+Uklk\--k\){ai-alf+\0kxk2(k\— 1 Семиинварианты — некоторые вспомогательные характерис- характеристики распределения, определенным образом связанные с его мо- моментами. В частности, для первых пяти семиинвариантов X.,,..., Х5 имею! место следующие соотношения' X] = mj. Х2 = щ, ^з ^ ^з- Х4 = 1*4 — 3|'| н '«в — (*¦» — '0 ИгЦз- гДе I1; — <?-й центральный мо- момент анализируемой случайной величины. 205
В дальнейшем, правда, система была несколько модифи- модифицирована: в последнем пятом уравнении вместо Х5 использо- использовалась связь теоретических и экспериментальных модаль- модальных значений (xmod). При численном решении этой системы мы воспользова- воспользовались методикой, номограммами и таблицами, предложен- предложенными в [312]. В табл. 6.1 приведены результаты 30-кратной численной «прогонки» этой системы: решалась задача расщепления 30 разных выборок. Таблица 6.1 Р« Ю И 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 25, 25,1 26 26, 0 23 23,9 0 24,6 2 24 5 24 26,2 24,9 24 26, 26, 26 27 27 30 30 30 30 31 31 31 32 32 32 36 36 36,7 6 25, 8 25, 25, 2 25. 725; 528 628 7 26 8 28 9 29. 9 29 9 29 3 29 5 30 30 32 33 33 34 34 34 35 34 9 35 38, ,70 26,63 30,47 25,30 ,50 22,65 19,62 ,55 ,52 .73 ,44 ,90 ,10 ,45 ,19 41,90 ,60 ,10 ,40 45 70 56,80 50,69 56,2. 63,68 51,80 ,10 62,25 66,26 ,89 59,00 5 27 6 26 9 26 2 39 2 33 6 49 3 40 9 39 1 6 42 0 44 5 67 9 78 9 69 — 80, — 78 — 137 — 87 —ПО —107 — 99 — 133 — 128, — 128, —228, —163, —223, —254, —249, —255, — 169, —295, —184, —319, —404, —403, —404, —515, —360, —559, —539, —572, -660, —598, 2136, 2248, 3428, 2192, 2346, 2232, 2088, 3191, 2921, 3012,8 5864,1 0,86 0,82 ,86 ,85 ,87 865 26 0,82 0,81 0,82 0,80 0,86 16 4420 6740 5760 6592 6390 6012 7248 11829,2 ,0 0,84 ,0 0,70 ,8 0,856 0,88 ,5 0,83 20,75 ,50,79 8375. 10923 11539. 11639. 15699. 10383. 20922 16307 16833 18780 18148 0,70 0.85 7 0,82 0 0,89 0,85 0,86 7 0,86 0,83 7 0,87 50,83 0,85 0,90 24,8 25,2 26,0 26,2 26,2 ,5 27,0 27,0 27,5 27,5 30,55 30,1 30,5 30,2 31,5 31,4 32,0 31,5 33,0 32,5 35,1 35,34 3,72 09 0 4 4 3 3 3 2 3 3 3,54 4,0 3 4 4 4 4 5 3,96 6,81 4 54 95 1 .0 0 86 0 190 190 31 03 0 06 0 35 36,6 36,5 37,5 37,5 36,9 38,4 40,2 ,150 ,86 0 ,84 0 ,79 ,14 ,62 ,20 0 ,.1-вО 07 350 4 4 4 5 4 6 5 5 5 5,17 ,13 ,135 ,18 ,19 ,18 0,20 0,14 ,16 ,30 ,144 0,12 ,17 ,25 0,21 0,30 15 18 И 0,15 0,14 0,14 17 13 0,17 15 0,10 16 15 16 19 19 19 19 16 18 18, 17,0 18 18 23 19 25 17, 21,-2 19 19 19 21 22 20 21 21 5 3 94 06 56 65 94 34 54 05 0 5 04 56 56 08 84 .8 5 06 2 о 21,97 ,16 ,36 ,62 ,58 ,16 ,85 ,28 ,0 ,75 ,81 ,84 ,20 ,68 ,29 ,44 ,45 6,21 ,11 ,41 ,86 6,84 6,62 52 95 6,14 8,20 18 76 6,07 ,76 Для всех 30 выборок независимо от селекционного сорта и модальной длины хлопкового волокна эксперименталь- экспериментальные и теоретические (модельные) кривые плотностей графи- 206
чески хорошо совпадают как в центре диапазона, так и по краям. Более того, выведенная таким образом модель смеси распределений получила «задним числом» и содержательное обоснование, исходящее из механизма роста волокон хлоп- хлопка. Данный пример показывает, как статистическое исследо- исследование может «натолкнуть» специалистов на некоторые содержательные выводы о физической природе изучаемого явления. Построенная модель смеси позволила вывести важные новые и уточнить имевшиеся ранее соотношения между ба- базовыми характеристиками распределения хлопкового во- волокна по длине, используемые в технологии текстильной промышленности. 6.4.3. Другие методы оценивания параметров смеси распре- распределений. Практически каждую из существующих процедур статистического оценивания параметров смеси распределе- распределений можно отнести к одному из двух подходов. В первом из них (подход «от оценивания к классификации»)- исследова- исследователь начинает с решения задачи оценивания параметров смеси F.6"), а затем переходит к собственно задаче клас- классификации (если таковая стоит перед ним), причем решает ее, уже располагая оценками Bj параметров В} каждого из компонентов смеси (/=1, 2, ..., k), т. е., по существу, в рамках схемы ДА. К этому подходу относятся, в частности, представленные в п. 6.4.1 и 6.4.2 процедуры, базирующиеся на методе максимального правдоподобия и методе моментов. Практикуется также диаметрально противоположный по своей логической схеме подход (подход «от классификации к оцениванию»), при котором исследователь начинает с разби- разбиения совокупности классифицируемых наблюдений на k под- выборок, а затем использует каждую (/-ю) из полученных подвыборок в качестве выборки из соответствующей (у-й) генеральной совокупности для оценивания ее параметров 6^, после чего уточняет разбиение, и т. д. К этому подходу можно отнести, в частности, описанный ниже алгоритм адаптивного вероятностного обучения (или «алгоритм SEM: Stochastique—Estimation—Maximisation» 1202]), а также процедуры, базирующиеся на так называе- называемом методе динамических сгущений [303, 302, 316, 1061. Алгоритм адаптивного вероятностного обучения (алго- (алгоритм SEM). Впервые предложен и проанализирован в [2021. По существу, авторы используют описанную в п. 6.4.1 схему ЕМ-алгоритмов, дополняя ее байесовской идеологией и эта- этапом вероятностного обучения, которое реализуется в виде специальной процедуры генерирования на ЭВМ случайных 207
последовательностей. Прием вероятностного обучения с вве- введением априорного распределения оцениваемых парамет- параметров использовался и ранее в задачах статистического оцени- оценивания, см., например. [314, 172, 310]. Использование алго- алгоритма SEM позволяет в определенном (достаточно широком) классе идентифицируемых смесей решать (в рамках основной процедуры) задачу оценивания неизвестного числа k компо- компонентов смеси F.6") и добиваться существенного снижения эффекта зависимости получаемого решения от исходной по- позиции начального приближения параметров алгоритма. На исходной позиции алгоритма SEM фиксируются: начальное значениеfc<0> = kmAX для неизвестного числа ком- компонентов смеси k (оно должно «с запасом» мажорировать ис- истинное число классов k); некоторое пороговое значение с (п, р), зависящее от объема п классифицируемой совокуп- совокупности и от размерности р наблюдений X, таким образом, что с (п, р) -> 0 при п -*¦ оо (в [202J рекомендуется брать с (п, р) = pin) и величины апостериорных вероятностей g\p, ё&'> •- gJLax (S\V + ... + я|?тах = 1) принадлежности случайно извлеченного из смеси наблюдения Xt соответст- соответственно к классу 1, 2, ...,Amai(i =¦ 1,2, ...,п). Далее в следующей хронологической последовательно- последовательности итерационного взаимодействия реализуются составляю- составляющие алгоритм SEM этапы «Stochastique» (статистическое моделирование), «Maximisation» (максимизация функционала метода максимального правдоподобия) и «Estimation» (оце- (оценивание параметров смеси). Статистическое моделирование (v-я итерация, v = 0, 1,2, ...). Последовательно для каждого i — \, 2, ..., л с помощью метода статистического моделирования Монте-Карло Ш, § 3.3, 6.3] генерируются («разыгрываются») значения {1 с вероятностью М?> 0 с вероятностью l—g\]' </=1, 2, .... Г<4 t = l, 2, .... п) полиномиально распределенных (с параметрами gW, g<.^), • •¦, gik<v)) случайных величин е\у) (Xt). При этом про- производится по одному испытанию для каждой фиксированной пары (i, j). Полученные реализации ( () ?) ч)) t= I, 2, .... n, 208
определяют разбиение S<v> — (S\v\ S^, ..., S?(v)) анализи- анализируемой выборки X,, X2,.... Х„ на классы по следующему правилу: S<v) = [Xt: e<v) (X,) - 1 1, / = 1, 2, .... ?<Л F.17) причем если в какой-либо класс попало в соответствии с этим правилом наблюдений меньше, чем п с (п, р) (т. е. мень- меньше, чем п- pin - p), то этот класс изымается (аннулируется) из нашего дальнейшего рассмотрения, а общее число клас- классов соответственно уменьшается (переходят от оценки об- общего числа классов fe<v) к fe<4+1> = fe<v)—/, где / — чисто таких «малонаселенных» классов). При этом апостериорные вероятности пересчитываются по формулам О, если /—«малонаселенный» класс; , если /—«достаточно представительный» g'J* класс, t где /v — множество номеров «достаточно представительных» (на v-й итерации) классов и оставшиеся «непристроенными» наблюдения (попавшие в «малонаселенные» классы) снова «разыгрываются» по правилу F.16), F.17) с вероятностями gif* и ими таким образом доукомплектовываются fe<v+1> = = fe<v) — / достаточно представительных классов. Максимизация (v-я итерация). По сущесгву, этот этап так же, как и последующий, посвящен оцениванию парамет- параметров: его название обусловлено тем, что для реализации ос- основной части процедуры оценивания приходится максими- максимизировать (по искомому параметру) соответствующие функ- функции правдоподобия. На этом этапе (в рамках v-й итерации) вычисляются оцен- оценки e(v+1> = (piv+1\ 6<.V+J^) параметров компонентов смеси F.6") по выборкам {Хг- 6 S<v>}, / = 1, 2, ...,"" Оценки 6<v+1> определяются как решения оптимизационных задач вида 2 In/(Xt; Qj)-* sup, / = l] 2, .... fti*+ '> es/v> e; 209
I (некоторые вспомогательные приемы в случае, когда урав-; пения метода максимального правдоподобия не дают реше-1 ния, рассмотрены в [302, 2121). Отметим, что если математические ожидания а^ — (а*/*, .... a(tp))' и (пли) ковариационные матрицы 2^ = — (°qr (/'))> q,r=u г. '••> i> полностью определяют распределе- распределения внутри /-го класса, / = 1,2, ..., k (случай смесей нор- мальных, пуассоновских, экспоненциальных и других рас- распределений), то очередная итерация оценок максимального правдоподобия aiv+1) и 2<v+l> имеет вид ' а Оценивание (v-итерацня). Отправляясь от найденных на предыдущем этапе оценок ^ , /- I, 2, ..., A«v+i)t определяем значения оценок апостериорных вероятностей \+i) по формулам после чего переходим к следующей (v -f- 1)-й итерации этапа «статистическое моделирование». Свойства алгоритма SEM исследованы в 1202] аналити- аналитически в простейшем (представляющем лишь методический итерес) случае смеси, состоящей из двух полностью извест- известных распределений f1 (X) и f2 (X), так что неизвестным па- параметром задачи является лишь единственное число рг — удельный вес первого компонента смеси (априорная вероят- вероятность принадлежности наблюдения, случайно извлеченного 210
из смеси, к классу 1). Правда, с помощью метода статисти- статистического моделирования авторы [202] рассмотрели большое число модельных примеров смеси ' и пришли к выводу, что алгоритм SEM расщепления смеси распределений типа F.6") обладает следующими преимуществами в сравнении с другими алгоритмами: а) он работает относительно быстро и его результаты практически не зависят от «исходной точ- точки»; б) позволяет избегать выхода на неустойчивые локаль- локальные максимумы анализируемой функции правдоподобия и, более того, дает, как правило, глобальный экстремум этой функции; в) получаемые при этом оценки параметров смеси являются асимптотически несмещенными; г) позволяет оце- оценивать (в рамках самой процедуры) неизвестное число клас- классов (компонентов смеси). Пример 6.7. Расщепление смеси пятимерных нор- нормальных распределений с помощью алгоритма SEM ([202], метод статистического моделирования). Зададимся в каче- качестве компонентов смеси тремя (k = 3) пятимерными (р =^5) нормальными распределениями с удельными весами (апри- (априорными вероятностями) рг — 0,5, р2 = Рг = 0,25, с векто- векторами средних значений о о ая= о 4 О/ и с ковариационными матрицами 1 0 0 0 0\ 0 2 0 0 0 0 0 10 0 0 0 0 10 0 0 0 0 1/ /40000 0 4 0 0 0 i=| 0 0 1 0 0 0 0 0 3 0 ,00004 1 Напомним схему рассмотрения модельных примеров с по- помощью метода статистического моделирования. Задаются полным описанием анализируемого закона распределения вероятностей / (х) (в нашем случае—величинами k, pj и функциями / (X; Qj), /= 1, 2,..., к); в соответствии с этим законом генерируют на ЭВМ выборку Xlt Х2, .... Хп; затем, «забывая» знание закона / (X), используют для об- обработки этой выборки анализируемый алгоритм, после чего сравни- сравнивают полученные результаты с тем, что было задано «на входе» (т. е. с / (X)).
16 0 0 0 0 0 16 0 0 0 0 0 4 0 0 0 0 0 1 0 0 0 0 0 16 Генерируем на ЭВМ с помощью метода статистического моделирования [11, п. 6.3.3] выборку Xlt X2, ..., Хп из 400 наблюдений (п — 400), извлеченную из генеральной сово- совокупности с плотностью распределения вероятностей /(Х) = 0,5ф(Х; аь 2Х) -f 0,25ф (X; а2, 2«j) + + 0,25ф1Х; а3, 23), где ф (X; &j, 2j) — плотность пятимерного нормального распределения с вектором средних значений а; и ковариа- ковариационной матрицей 2^(«значения» а^и 2^ для /'= 1, 2, 3 зада- заданы выше). Заметим, что оценка векторов средних а/ и ковариацион- ковариационных матриц 2ij по той части сгенерированных наблюдений, которая принадлежит /-Й генеральной совокупности, дает (в качестве эмпирических аналогов aJ9 и 27-э заданных тео- теоретических значений а7 и 2^: 0,032 0,962 0,049 0,066 — 0,108 » а2э — — 0,016 \ — 0,122 2,923 0,012 — 0,175/ > азэ — / 0,272 — 0,290 0,197 3,787 \ 0,143 0,827 0,020 0,127 0,087 0,069 3,990 0,560 0,057 0,488 0,350 0,020 1,779 0,085 — 0,082 0,113 0,560 3,660 0,494 0,236 — 0,724 0,127 0,085 1,136 0,102 — 0,087 — 0,057 0,494 1,062 0,226 — 0,242 0,087 — 0,082 0,102 0,970 — 0,084 0,488 0,236 0,226 2,871 — 0,512 — 0,069 \ 0,113 — 0,087 — 0,084 0,948/ — 0,355 — 0,724 — 0,242 -0,512 3,413] 212
16,850 0,594 0,474 0,093 1,085 0,594 17,818 1,252 — 0,032 0,963 0,474 1,252 3,514 0,463 — 0,244 0,093 — 0,032 0,463 1,088 — 0,462 1,085 0,963 — 0,244 — 0,462 18,444 Применение к «перемешанной» (сгенерированной на ЭВМ) выборке объема п — 400 алгоритма SEM (при k° = 6 и g,(,0) = 1/&@>-= 1/в для всех i= 1, 2, ..., 400) дает следующие оценки параметров смеси: k — 3; рх = 0,508; р2 — 0,245; р3 = = 0,247; 0,232 \ — 0,361 а, = П.887 , а,= 2 947 , ая~ 0,153 3,822 / 0,214/ s, = 0,035 \ " 0,886 0,887 0,085 \-0,157/ 0,772 0,060 0,145 0,012 — 0,032 4,205 0,582 — 0,021 0,720 — 0,491 а2 = 0,060 1,802 - — 0,028 — 0,115 0,206 - 0,021 0,074 2,947 — 2,027 — 0,144 0,145 -0,028 - 1,212 0,128 -0,124 - 0,582 —0,021 3,997 0,280 0,491 — 0,551 - 0,280 1,125 0,363 -0,538 - 0,012 0,115 0,128 0,950 - 0,074 0,720 0,491 0,363 2,831 - 0,609 0,506 17,807^ 0,033 0,741 0,306 1,068 3,329 0,549 0,100 0,171 0,033 0,549 1,044 — 0,655 — 0,032 \ 0,206 — 0,154 — 0,074 0,869 — 0,491 — 0,551 — 0,538 — 0,609 3,368 / 0,158 \ 0,741 0,100 - 0,655 18,792 / Наконец, классификация анализируемых 400 наблюде- наблюдений, произведенная на последней итерации этапа «Статисти- «Статистическое моделирование» (доставляющей, кстати, наиболь- наибольшее значение исследуемой функции правдоподобия), дает следующую картину «перекрестной» классификации в срав- 213
нении с исходным (правильным) отнесением сгенерирован- сгенерированных наблюдений по составляющим генеральным совокуп- совокупностям (табл. 6.2): Таблица 62 Классы полученные с помощью алгоритма SEW 5, f Исчодная (правильная) классификация класс 1 200 191 9 0 класс 2 100 11 86 3 класс 3 100 1 3 96 Распределе- Распределение наблю- наблюдений по классам SEM 203 98 49 Таким образом, в данном примере доля неправильно рас- расклассифицированных с помощью алгоритма SEM наблюде- наблюдений составила 6,75% B7 наблюдений из 400). Этот результат так же, как и точность оценивания параметров смеси, мож- можно признать вполне удовлетворительным. 6.5. Рекомендации по определению «исходных позиций» алгоритмов расщепления смесей распределений Из предыдущего материала главы следует, что эффектив ность используемых для расщепления смесей алгоритмов (скорость их сходимости, опасность стабилизации итера- итерационной процедуры алгоритма на стационарной точке функ- функции правдоподобия, не дающей ее глобального экстремума, статистические свойства получаемых оценок) существенно зависит отвыбора идходной позиции алгоритма, т. е. от конк- конкретных начальных приближений для числа классов, апри- априорных или апостериорных вероятностей и т. п., которые ис- используют на нулевой итерации алгоритма. Поэтому обычно настоятельно рекомендуется предпо- предпослать каждому из таких алгоритмов этап так называемого разведочного статистического анализа классифицируемых данных (техника разведочного статистического анализа опи- описана в разделе IV). Он предназначен для предварительного «прощупывания» геометрической и вероятностной природы совокупности анализируемых данных и, в частности, позво- позволяет формировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей принадлежности наблю- наблюдения каждому из классов и т. п. Одним из основных прие- 214
мов такого типа анализа является проецирование анализи- анализируемых многомерных наблюдений на плоскость таким об- образом, чтобы максимально сохранить при этом интересую- интересующие исследователя специфические особенности рассматрива- рассматриваемой совокупности данных, например наличие и общее число четко выраженных «сгустков» (классов) или эффект концент- концентрации данных этой совокупности вдоль некоторой гиперпо- гиперповерхности размерности меньшей, чем размерность исходного признакового пространства (такие процедуры носят назва- название методов целенаправленного проецирования; см раздел IV). Производимый затем визуальный анализ спроецирован- спроецированных на плоскость исходных данных позволяет генерировать рабочие тпотезы по поводу требуемых начальных прибли- приближений алгоритмов. ВЫВОДЫ 1. В задачах классификации без обучения одной из распро- распространенных математических моделей, используемых при описании механизма генерирования классифицируемых дан- данных, является модель смеси вероятностных распределений, koi да каждып класс интерпретируется как параметриче- параметрически заданная одномодальная генеральная совокупность (при неизвестном значении определяющего ее параметра), а классифицируемые наблюдения — как выборка из смеси таких генеральных совокупностеи 2 Решить задачу расщепления смеси распределений (в вы- выборочном варианте) — это значит по имеющейся выборке классифицируемых наблюдении, извлеченной из генераль- нои совокупности, являющейся смесью генеральных одно- модальных совокупностеи известного параметрического ви- вида, построить статистические оценки для числа компонен- компонентов смеси, их удельных весов и параметров, их определяю- определяющих В теоретическом варианте задача расщепления смеси заключается в восстановлении компонентов смеси и смеши- смешивающей функции (удельных весов) но заданному распреде- распределению всей (т е смешанной) генеральной совокупности и называется задачей идентификации компонентов смеси. Эта задача не всегда имеет решение. 3. Базовая идея, лежащая в основе принятия решения, к ка- какой из k анализируемых 1енеральных совокупностей сле- следует отнести классифицируемое наблюдение, является од- одной и той же как для модели дискриминантного анализа (классификация при наличии обучения, см. гл 1—4), так и 2Г>
для модели смеси: и в том и в другом случае наблюдение приписывают к той генеральной совокупности (к тому ком- компоненту смеси), в рамках которой (которого) оно выглядит наиболее правдоподобным. Однако главное отличие схемы параметрического ДА от схемы автоматической классифика- классификации, построенной на модели смеси распределений, — в спо- способе оценивания неизвестных параметров, от которых зави- зависят функции, описывающие классы (в первом случае — по обучающим выборкам, а во втором неизмеримо сложнее — в рамках одного из методов оценки параметров смеси распределений). 4. Основными «узкими местами» подхода, основанного на ме- методе максимального правдоподобия статистического оцени- оценивания параметров смеси распределений, являются (помимо необходимости «угадать» общий параметрический вид рас- распределения, задающего каждый из классов) требование ог- ограниченности анализируемой функции правдоподобия, вы- высокая сложность и трудоемкость процесса вычислительной реализации соответствующих процедур и медленная сходи- сходимость порождаемых ими итерационных алгоритмов. 5. «Узкими местами» подхода, основанного на методе мо- моментов статистического оценивания параметров смеси рас- распределений, являются громоздкость его вычислительной ре- реализации (особенно в случае высоких размерностей анали- анализируемых распределений и большого числа смешиваемых классов) и относительно невысокое качество статистических свойств получаемых при этом оценок. 6. Статистический анализ смесей распределений проводит- проводится обычно в рамках одной из двух логических схем. В пер- первой из них реализуется логика mm оценивания параметров смеси к классификации» (ЕМ-алгоритмы, основанные на методе максимального правдоподобия, методе моментов и т.д.). Во второй, напротив, идут «от классификации к оце- оцениванию», затем, имея оценки параметров распределений внутри классов, уточняют классификацию и т.д. (алгоритм SEM адаптивного вероятностного обучения). 7. Исследование свойств алгоритмов SEM, в которых схема ЕМ-алгоритмов дополнена байесовской идеологией и этапом вероятностного обучения (реализованным в виде специаль- специальной процедуры генерирования на ЭВМ случайных последо- последовательностей), показало следующие их достоинства: а) они работают относительно быстро и их результаты слабо зави- зависят от выбора «начальных приближений»; б) SEM позволя- позволяют практически избегать выхода (в процессе итераций) на неустойчивые локальные максимумы анализируемой функ- функции правдоподобия; в) позволяют в рамках самой процеду- 216
ры оценивать неизвестное число классов (компонентов сме- смеси). 8. Поскольку эффективность используемых для расщепле- расщепления смесей алгоритмов в большинстве случаев существенно зависит от выбора их «исходной позиции», целесообразно каждому из таких алгоритмов предпослать этап так называ- называемого разведочного статистического анализа (см. раздел IV), который позволяет сформировать рабочие гипотезы о числе классов, типе вероятностного распределения внутри каждого из классов, величинах априорных вероятностей и т. п. Глава 7. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ОСНОВАННАЯ НА ОПИСАНИИ КЛАССОВ «ЯДРАМИ» 7.1. Эвристические алгоритмы Рассмотрим сначала методы автоматической классифика ции (АК), непосредственно опирающиеся на постановку задачи выделения в многомерном пространстве компактных групп точек.Такие методы и отвечающие им алгоритмы на- называются эвристическими, так как само понятие «компакт- «компактная группа (облако) точек» не поддается строгой формализа- формализации. В прикладных задачах автоматической классификации они стали применяться одними из первых и до сих пор со- сохраняют большое значение в разведочном анализе данных благодаря наглядности интерпретации полученных резуль- результатов и, как правило, простоте реализации. Для ряда эври- эвристических процедур с развитием теории АК были найдены функционалы качества разбиения на группы и тем самым формализовано соответствующее им понятие «компактно- «компактности». 7.1.1. Параллельные процедуры. Процедуры, в которых вы- выборка вся сразу поступает на классификацию, называются параллельными. Алгоритм k эталонов. Следуя [561, приведем типичный пример эвристического алгоритма, основная идея которо- которого заключается в том, что совокупность объектов, находя- находящихся на одинаковом расстоянии от каждого из k эталонов (ядер), образует компактную группу. Пусть для классификации имеется выборка 0ъ ..., 0„, причем t'-й объект О,- характеризуется вектором признаков Xi = (х{;1), ..., х<р}). Рассмотримр-мерное признаковое про- 217
странство Хр вместе с функцией d (Xi, Xj), задающей в Хр расстояние (либо степень близости). Схема алгоритма 1. Выберем k эталонов XI, ..., Х% и порог d0. 2. Поставим в соответствие объекту О,- код из k двоич- двоичных символов et = (е|", ..., е\к)), где е[1) — 1, если d (Xt, Xi) < d0 и ej'> = 0 в противном случае. 3. Разобьем выборку на классы, относя к одному клас- классу объекты с одинаковым кодом. В зависимости от порога dn и геометрии выборки число классов может варьироваться от 1 до 2к. Анализируя полу- полученное разбиение выборки на классы, исследователь может уточнить выбор эталонов и перейти к следующей итерации алгоритма. Если в качестве эталонов взять векторы призна- признаков объектов из данной выборки, то на вход алгоритма до- достаточно подать матрицу взаимных попарных расстояний {pij = d (Хг, Xj)}. В [56] рекомендуется набор этало- эталонов составлять из k случайно выбранных точек. Укажем на- наиболее важные модификации алгоритма, связанные со спо- способом выбора эталонов: а) эталоны строятся на основе представлений экспертов (или какой-либо другой априорной информации о типичных представителях классов); б) эталоны берутся из векторов, соответствующих пред- представителям заведомо разных классов, но не обязательно типичных в своем классе. При этом достоинством алгорит- алгоритма является то, что число эталонов не обязано равняться числу классов; в) эталоны могут пониматься в расширенном смысле, как ядра в методе динамических сгущений (см. п. 7.4). Следующая модификация рассматриваемой процедуры связана с возможностью варьировать порог сходства. Алгоритм взаимного поглощения. Рассмотрим процеду- процедуру автоматической классификации, целесообразность кото- которой обосновывается в [58] правилом формирования сплочен- сплоченных коллективов людей по принципу взаимного интереса и симпатии. Ключевым словом здесь является «взаимный», т. е. подразумевается, что отношение «объект О, близок (интересен) объекту Oj» не симметрично и объекты О,- и Oj объединяются, если не только О, близок к Oj, но и на- наоборот. Схема алгоритма в предыдущих обозначениях алгоритма k эталонов; 218
1. Объекту Oi поставим в соответствие порог di !> О, на- называемый его радиусом влияния, т. е. объект 0} считается близким к 0t (находится в сфере влияния объекта 0г), если d(Xi,Xj) ^dt. 2. Объекту Ot поставим в соответствие код ег = (efl), ..., е<">), где е/'> = 1, если d (Xt, Xi)<dh »й=О-в про- противном случае. 3. Выделим в выборке классы, относя набор объек- объектов Oi , ..., 0,т, т. < я, к одному классу, если у их кодов Ег1, ..., e,m все координаты с номерами /= ilt ..., im равны I. 4. Выделим в выборке минимальное число классов, объ- объединение которых дает всю выборку. Ясно, что алгоритм дает в общем случае нечеткую классификацию выборки. Геометрически каждому объекту 0{ в признаковом пространстве Хр отвечает шар tt радиуса dt с центром в точке X,. Классу {0^, ..., 0im) отвечает пере- т сечение П X,ix шаров & v содержащее все центры Х^, ..., Х}т и называемое областью взаимного поглощения данного класса [58]. В ряде задач основной целью классификации яв- является покрытие признакового пространства областями вза- взаимного поглощения классов. Ясно, что настройка рассматриваемого алгоритма на специфику решаемой задачи осуществляется выбором поро- порогов d,, I < i ^ п. Приведем примеры такого выбора, взя- взятые из [58]: a) б) di dt 1 = max d(Xu Xj i j? mijd(Xi, n >-в; S Здесь б — некоторая константа; mt} > 0 — весовые мно- множители. Они задаются либо эвристически, либо на этапе раз- разведочного анализа служат управляющими параметрами. 7.1.2. Последовательные процедуры. Процедуры, в которых элементы выборки поступают на классификацию по одному или малыми порциями, называются последовательными. Приведем простой последовательный алгоритм класси- классификации, в основе которого лежит предположение, что пред- 219
ставители одного класса не могут быть удалены друг от дру- друга более чем на заданную пороговую величину. Пусть на классификацию объекты поступают последова- последовательно, например по одному. Если исходная информация представлена в форме матрицы «объект — свойство», то параметрами алгоритма являются функция близости (рас- (расстояние) d (О,-, О/) между объектами и пороговое значение d0; если исходная информация представлена матрицей вза- взаимных расстояний, то единственным параметром является пороговое значение d0. Схема алгоритма 1. Первый объект 01 объявляется ядром ег первого клас- класса. 2. Пусть на т-ы шаге выделено k классов с ядрами ех,..., ..., eh. Для поступившего объекта 0т: если d @т, еа) < d0, то 0т относим к первому классу; если d@m, ei-t) > d0 и d @т, ег) ^ d0, 2< / < к, то 0т относим к 1-му классу; если d @т, е,) > d0, 1 < / < k, то 0т объявляется ядром eh+1 нового (k + 1)-го класса. Если функция d @t, Oj) удовлетворяет неравенству тре- треугольника, как, например, когда d @h Oj) — метрика, то объекты, отнесенные алгоритмом к одному классу, удалены друг от друга не более чем на 2 d0. . 7.2. Алгоритмы, использующие понятие центра тяжести При решении практических задач полезно иметь набор про- простых быстродействующих алгоритмов классификации для выработки первых представлений о структуре данных в при- признаковом пространстве. Таким алгоритмам посвящен этот параграф. Модификации алгоритмов, приведшие к ряду важных многопараметрических семейств их, ориентирован- ориентированных на проверку более сложных гипотез, возникающих уже в ходе исследования, описаны ниже в этой главе и в гл. 10. Пусть исходная информация о классифицируемых объ- объектах представлена матрицей «объект—свойство», столбцы которой задают точки р-мерного евклидова пространства. 7.2.1. Параллельные процедуры. Опишем один из наиболее известных алгоритмов, модификациями которого являются 220
многие важнейшие алгоритмы, приведенные далее (общая схема таких модификаций дана в гл. 10). Алгоритм А-средних. Единственным управляющим пара- параметром является число классов, на которые проводится раз- разбиение S = (S], ..., Sk) выборки X. В результате получа- получается несмещенное разбиение (см. п. 5.4.5) 5* = (Si ,..., Si). Схема алгоритма 1. Выберем начальное разбиение S° — (Si, ..., S%), где S? ={*?,, .... XUt\. U5? = X, 5?П5?.= 0, 1Ф1'. 2. Пусть построено лг-е разбиение Sm = (Sf, ..., S™). Вычислим набор средних em = (ef, ..., е™), где е™ = 1 ni — v У" = „, ДХ<г 3. Построим минимальное дистанционное разбиение, порождаемое набором ет и возьмем его в качестве Sm+1 = = (Sf+S .... S^1), т. е. (ср. п. 5.4.5): S?+x={X?X:d(X, e?)= min d(X, ef\\ = min d(X, e?,)\, 2 < / < k. где d (X, e) = ||X — e|| — расстояние в Rp. 4. Если 5m+1 Ф Sm, то переходим к п. 2, заменив да на т + 1, если 5m+1 = 5m, то полагаем Sm = S* и заканчиваем работу алгоритма. Введем расстояние d (X, е) от точки X € /?р до множества е = (еа, ..., ek), где ег 6 R" по формуле , e)= min d(X, ег). Тогда можно рассмотреть статистический разброс выборки X относительно множества е = (еи ..., вь): ; е)= 2 d(X, ef. Х6Х 221
Определим статистический разброс разбиения S = (Sj,..., Sfe) выборки X как разброс этой выборки относительно мно- множества е (S)=(e1(S), ..., ek (S)), где ег (S) — средний век- вектор класса Su т. е. положим F(S) = F(\; e(S». Непосредствен»» из построения минимального дистанцион- дистанционного разбиения следует формула = ? 2 |U-^E)|2. G.1) Так как на последовательности разбиений S°, S1, ..., Sm, ..., которая строится в алгоритме ^-средних, функцио- функционал F (S) не возрастает, причем F (Sm) = F (Sm+1), только если Sm = Sm+1, то для любого начального разбиения S0 алгоритм через конечное число шагов заканчивает работу (см. гл. 10). Содержательно процедура алгоритма ^-средних направ- направлена на поиск разбиения S* выборки X с минимальным раз- разбросом. В ряде случаев начальное разбиение S0 задается как ми- минимальное дистанционное разбиение, порожденное некото- некоторым набором точек е° = (е\, ..., е%). Результат классифи- классификации зависит от выбора е°. Обычно для проверки устой- устойчивости результата рекомендуется варьировать выбор е°. В тех случаях, когда из априорных соображений нельзя сразу выбрать число классов k, его находят либо перебо- перебором, либо вместо алгоритма ^-средних используется алго- алгоритм ИСОМАД (Isodata), в котором k является параметром, настраиваемым в ходе классификации (см. §. 7.4). Алгоритм Форель *. Единственным управляющим пара- параметром является порог г — радиус шаров, которыми покры- покрывается выборка X. Пусть Dr (е) с Rp — шар радиуса г с центром в точке е. Подвыборка X1 = X fl DT (e) называется несмещенной в Dr (e), если ее средний вектор совпадает с е. Классификация при помощи алгоритма Форель разбивает- разбивается на несколько последовательных этапов. На первом в вы- выборке X выделяется несмещенная подвыборка \1 в неко- некотором Dr (ex), которая объявляется первым таксоном. На втором этапе та же процедура применяется к выборке Х\Х2. Таким образом, достаточно описать алгоритм только для первого этапа. 1 Первоначальное название ФОРЭЛ — ФОРмальный ЭЛемент. 222
Схема алгоритма 1. Выберем начальное разбиение S° = (S?, S§) выборки X. 2. Пусть построено т-е разбиение Sm = (S™, S%). Вычислим средний вектор е™ класса Sf. 3. Построим разбиение Sm+1 -¦= (S?+\ Sf+1), где 4. Если S"'+t Ф Sm, то переходим к п. 2, заменив т на m + 1, если Sm+1 — Sm, то полагаем Sm = Хг и за- заканчиваем работу первого этапа алгоритма. Пополним пространство Rp «точкой» *, такой, что d (X, *) = г для всех X 6 Rp- Тогда статистиче- статистический разброс выборки X относительно множества е = = (е, *), где е 6/?р, запишется в виде F(X; e)= 2 d(X, e)*= 2 Ц А-г||а + га| Sj, G.2) хх xs где 5j = {X 6 Х- d (X, е) = \\Х — е\\ < г}, [Si| — число элементов в множестве X\S!- При помощи функционала G.2) в гл. 10 показано, что последовательность разбиений S0,..., Sm,.. , которая строится на первом этапе алгоритма Форель, стабилизируется и алгоритм через конечное число шагов заканчивает работу. Применение алгоритма Форель для ряда последователь- последовательных значений гЛ — г0 — vA, где А = ^, v= 1, 2, ..., W —1, позволяет оценить наиболее предпочтительное число классов для данной выборки. При этом основанием для выбора числа классов может служить многократное повто- повторение одного и того же числа классов для нескольких после- последовательных значений /\ и его резкое возрастание для сле- следующего шага по v На основе алгоритма первого этапа Форели строится целое семейство алгоритмов, целью которых является раз- разбиение выборки на заданное число классов, покрытие вы- выборки X областями более сложной формы, чем шары, и т. п. Подробное описание этого семейства см. в f75]. Имеется мо- модификация алгоритма первого этапа Форели, в которой по- порог г является параметром, настраиваемым в ходе поиска первого сгустка Xj (см. алгоритм П\льсар в п. 7.3 1) 7.2.2. Последовательные процедуры. Пусть Xlf ..., Х„, ¦¦¦— последовательность точек пространства Rp, описываю- описывающая последовательно поступающие на классификацию объ- 223
¦екты Ox, • •-, Оп, ... . Предполагается, что последователь- последовательность сколь угодно длинная. В тех случаях, когда число классифицируемых объектов конечно, применяется стан- стандартный прием зацикливания конечной последовательности Xlt ..., Хт, по правилу Xn+q = Xч, q = 1, 2, .... 1 п Положим X (п) = - v Xt. Тождество X (п + 1) = = X (п) Н—-г-у (Xn+i — X («)) позволяет параллельные процедуры, использующие понятие центра тяжести, моди- модифицировать в последовательные процедуры. В качестве ос- основного примера рассмотрим алгоритм ^-средних. Схема алгоритма 1. Выберем набор центров е° — {е\, ..., е?),где е? 6 Rp, и набор весов Q0 = (со?, ..., со*), где cof > 0. 2. Пусть на т-и шаге построены набор центров еш = = (е?, ..., е™) и набор весов Qm = (со™, ..., со^). Для вновь поступившей точки Хт вычислим dm= min d(Xm, е?) и построим новые наборы еот+1 и QOT+1: если d (Xm, ef) = dm, то положим ^¦«--^ k\ если d (Xm, ef_x) >dmn d (Xm, ef) = dm, где 1 < / < k, то положим: =em 3. Критерием сходимости алгоритма ^-средних является получение набора центров еэ = (е,, ..., eh), для которого ми- минимальное дистанционное разбиение последовательности, порождаема набором еэ, является несмещенным. В связи с этим алгоритм останавливается, если в течение N rnai ов подряд практически не происходит пересчет центров. На- Например, если последовательность точек получена зацикли- зацикливанием выборки объема п, то в качестве N достаточно взять 224
я. В общем случае число N задается априори или оценива- оценивается в ходе работы алгоритма исходя из модели всей сово- совокупности точек Пусть es = (elt .., eh) — набор центров, полученный на последнем шаге алгоритма. Итоюм классификации являет- является минимальное дистанционное разбиение последователь- последовательности, порождаемое набором еэ Более подробный анализ этого алгоритма можно найти в I9J Модификация этого алгоритма, в которой число классов k является параметром, настраиваемым в ходе классифика- классификации, приведена в п 7 3.2. 7.3. Алгоритмы с управляющими параметрами, настраиваемыми в ходе классификации 7.3.1. Параллельные процедуры. Рассматриваемые ниже алгоритмы ИСОМАД и Пульсар являются модификациями соответственно алгоритмов ^-средних параллельного типа и Форель Алгоритм ИСОМАД (Isodata) *. Основной процедурой в этом алюритме, как и в алгоритме ^-средних, является ми- минимальное дистанционное разбиение, порожденное набором центров. Число классов заранее не фиксируется, а опреде- определяется в ходе классификации Для этого используется ряд вспомогательных эвристических процедур, параметрами которых регулируются характеристики межклассовой и внутриклассовой структуры выборки на этапах классифи- классификации Конфигурация (схема) ИСОМАД не является фик- фиксированной, ее развитие отражает богатый опыт практиче- практического применения этого алгоритма Опишем наиболее распространенный вариант (ср. с [21, 156]). Параметры, определяющие процедуру классификации: k — предполагаемое число классов; k0 — начальное (разведочное) число классов; 6„ — минимально допустимое число элементов в классе (функция от п, где п — число элементов во всей выборке); 8S — порог внутриклассового разброса; 6С — порог межклассового разброса; Q — максимально допустимое количество пар центров классов, которые можно объединить; / — допустимое число циклов итерации. 1 Isodata — Iterative Self-Organizing Data Analysis Techni- Techniques (ИСОМАД — Итеративный Самоорганизующийся Метод Ана- Анализа Данных). 8 Заказ № 291 225
Конкретные значения параметров задаются на основе априорной информации либо на этапе разведочного анализа выбираются из общих соображений, а затем корректируются от итерации к итерации. П>сть на классификацию поступила выборка X — {Хи ..., X,,}, где Xt 6 Rp- Выберем начальный набор центров с I'll •••> е*л/' Схема алгоритма 1. Выбираются значения параметров. 2. Строится минимальное дистанционное разбиение 5 — (Si, ..., Sft0) выборки X, порожденное набором центров. 3. Пусть tii — число элементов в классе St. Составляет- Составляется S==rSi, ..., Sftm) из классов S; разбиения S, у которых П; > 0„, где km— полученное (текущее) число классов. S присваивается обозначение S = (Sb ..., S>,m). 4. Вычисляется набор центров е — (еи ..., eft/n) из сред- средних векторов классов, входящих в разбиение S. 5. Вычисляется вектор D — (Du ..., Dhm), где 1 Ж-1 и у II / 1 U I ~~ ~~~ У. || Л Ci ||, i ¦— I, ..., кт. Ill ¦*¦" 6. Вычисляется D- -L ymDi. п /f. 7. а) Если текущий цикл итерации последний, то пере- переход к 11; б) если km < k/2, то переход к 8; в) если текущий цикл итерации имеет четный порядковый номер или km ^ ^ 2 k, то переход к 11; в противном случае переход к 8. 8. Для каждого класса Si вычисляется вектор at = = (<т/ аР), где —е\П)% . /=1. -. Р> 1= 9. В каждом векторе а, отыскивается координата в'«= max 1 226
10. Если oJti > 6S для некоторого /, причем a)D, > D ипг>2(вп + 1) или б) km < k/2, то класс Si с центром е, расщепляется на два новых класса Sf, St с центрами ej nef, где соответственно ef = e, ±?ь е, = (е,1,..., ef) и е{ = 0, если /#=/,, к^-=уа^, 0<?< 1. Если расщепление класса на этом шаге происходит, то пере- переход к 2с набором центров (еи ..., ег_3, ej, ef, el+1, ..., ekjn), в противном случае переход к 11. 11. Вычисляется матрица (dl}) взаимных расстояний между центрами классов кц — \\ег — е}\\. 12. Расстояния &ц, где i < /, сравниваются с порогом 6С. Пусть d;j, <dtj2 < ¦•¦<diQjQi — упорядоченная по- последовательность тех из них, которые меньше 6С. Вычерк- Вычеркнем из этой последовательности d;Qi jQi, если и только если в наборе Ци i2, ..., /<?,_]) встречается индекс Iq1 либо в наборе (у,, у2, ..., y'o,_i) встречается индекс /q,. Проде- Проделаем аналогичную операцию с diQ _з ^0 _ и так далее До d,Jt. Пусть d,ltl <dt2t2 < ¦¦¦ <d;QjQ —полученная в ре- результате последовательность. Заметим, что по построению h ~ h, h = h- Положим q = min (Q, Q2). 13. Слияние классов. Для каждой пары (/,-, tt), I < i <q классы Si. и Stl сливаются в класс Si. (J St{. Непосредст- Непосредственно из 12 следует, что, если на предыдущем шаге было km классов, то теперь остается km — q классов совокупности, которым переиндексацией присваивается обозначение S = = (Si, ..., Skjn_?n). Вычисляется набор центров е = (е1г ..., ..., eftm_g) средних векторов классов, входящих в S. 14. Если текущий цикл итерации последний, то алго- алгоритм заканчивает работу. В противном случае переход к 1, если пользователь решил изменить какой-либо из пара- параметров алгоритма, либо переход к 2, если в очередном цикле итерации параметры не меняются. Завершением цикла ите- итерации считается каждый переход к 1 либо к 2. Алгоритм Пульсар. Этот алгоритм, как и алгоритм Фо- Форель, состоит из последовательности одинаковых этапов, на каждом из которых выделяется один компактный класс (сгусток). Но радиус шара (величина окна просмотра) не фиксируется, а меняется (пульсирует) в ходе класси- классификации. Для этого в алгоритм включены управляющие параметры, позволяющие поиск окончательного радиуса 8* 227
реализовать в виде процедуры стохастической аппроксима- аппроксимации. Опишем этап выделения одного сгустка [42]. Параметры, определяющие процедуру классификации: rmin, гЛ1йХ — минимальный и максимальный радиусы; яш1п, nmdX — минимальное и максимальное число эле- элементов в классе; удоп — допустимое число колебаний радиуса. (Говорят, что произошло колебание радиуса, если Armx X Arm+1< 0, где Агт = гт — гт_ь гт — значение радиу- радиуса на т-м шаге); б - - порог, регулирующий скорость изменения радиу- радиуса. Схема алгоритма 1. Выберем начальный центр е° и значения параметров. 2. Для радиуса г„ = mi" ^ построим класс S0 = {X 6 Х:||.Х—е°|| < г„}, вычислим число элементов п0 в классе S0 и присвоим v (числу колебаний радиуса) значе- значение v0 — 0. 3. Пусть на т-и шаге для центра ет выбран радиус гт, построен класс Sm — {X 6 X: ||Х — в || < гт}, подсчи- подсчитано число его элементов пт и значение v = vm. Положим r = т 1 , rmax), если пт i max(r—yb, rmin), если пт>птах, причем vm<vJion или ет+1 фет; гт—в остальных случаях. Здесь у = A + vj-1, Порог удоп учитывается при выборе радиуса гт+1 только тогда, когда ет+1 = ет и одновре- одновременно пт > nmax. Далее положим Vl = vo= 0 и для т ^ 1 m+1 Wm + 1, Arm • Дгт+1 < 0. 228
4. Если ет+1 = ет, гт+1 = гт, то алгоритм заканчива- заканчивает работу, в противном случае переходим к 3, заменив т на т ¦+- 1. 7.3.2. Последовательные процедуры. В качестве основного примера, следуя [58], опишем вариант последовательного алгоритма ^-средних (см. п. 7.2.2), в котором число классов не фиксировано, а меняется от итерации к итерации, настра- настраиваясь под влиянием управляющих параметров на структу- структуру выборки. Параметры, определяющие процедуру классификации: k%— начальное число классов; Ф — минимально допустимое расстояние между центра- центрами разных классов; ¦ф — максимально допустимое удаление элемента от центра его класса; / — допустимое число циклов итерации. Пусть на классификацию поступает последовательность точек {Хи ..., Хп, ...}. Первые k0 точек возьмем в качестве начального набора центров е° = (е\, ..., е?о), присвоим центрам веса со' = 1. Схема алгоритма 1. Выберем значения параметров ф и if. 2. Проведем огрубление центров е°. Расстояние между двумя ближайшими центрами срав- сравнивается с ср. Если оно меньше ф, то эта пара центров заме- заменяется их взвешенным центром, которому присваивается вес, равный сумме соответствующих двух весов. К получен- полученному набору из (k0 — 1) центров опять применяется проце- процедура огрубления и так далее до тех пор, пока расстояние между любыми двумя центрами будет не меньше, чем ф. Пусть в результате получается набор центров е° = (е\, ..., е%~)> ^« < ^о с набором весов Q — (со", ..., со?о). 3. Для вновь поступившей точки Xh,+i вычислим мини- минимальное расстояние до центра: Если d1 > ¦$, то Xkt+i объявляется центром е^+1 с весом со~+1 = 1 Если d, < i|), то самый близкий к Xka+1 центр заменяется взвешенным центром этого старого центра и точ- точки Xkll+i- Вес нового центра считается равным сумме соот- соответствующих весов. Все остальные центры и их веса не пере- 229
считываются. Полученные в итоге наборы центров я весов обозначаются через Е1 = (е\, .., e\t) и й'= (о»}, ..., ш1,). Заметим, что k0 < k± < k0 + 1. 4. Цикл итерации состоит из шагов п. 1—3. Если поль- пользователь решил изменить значение параметров ф или ¦$, то переход к п. 1, если ср и ¦$ не меняется, то переход к 2. 5. После прохождения / циклов полученный набор цент- центров е7 = (е[, ..., e'kl) объявляется набором эталонов клас- классов и используется для классификации последующих наблю- наблюдений по методу минимального дистанционного разбиения. Выбор значений параметров признается удачным (удов- (удовлетворительным), если получаемая в результате классифи- классификация оптимальна или с точки зрения экспертов, или в смыс- смысле принятых функционалов качества разбиения. 7.4. Алгоритмы метода динамических сгущений Изложим, следуя в основном [106], один общий подход к статистической обработке данных, предложенный Э. Диде и его сотрудниками и названный «методом динамических сгущений» — МДС (Methode des Nuees Dinamiques — MND). Этот подход хотя и формулируется в терминах общей задачи классификации, но, по существу, при соответствую- соответствующем подборе управляющих параметров индуцирует разнооб- разнообразные методы решения следующего широкого класса задач: 1) разбиение данной совокупности объектов или призна- признаков на некоторое число (известное заранее или нет) одно- однородных классов — собственно проблема автоматической классификации; 2) снижение размерности (числа анализируемых показа- показателей) массива исходных данных, отбор наиболее информа- информативных показателей; 3) статистический анализ предпочтений, задача их типо- логизации и агрегирования; 4) статистический анализ линейных моделей регрессион- регрессионного типа; 5) оптимальная (в рамках решаемой конкретной задачи) оцифровка анализируемых переменных; 6) статистический анализ «двухвходовых» таблиц сопря- сопряженности. Основная идея МДС, являющаяся далеким обобщением идеи метода ^-средних (см. п. 7.2.1, 7.2.2), достаточно отчет- отчетливо выражена словами Э. Диде: «Среди всех разбиений на k классов следует найти разбиение, относительно каждого 230
класса которого заданное «ядро» оказалось бы наиболее представительным. Понятие ядра ... имеет самый широкий смысл: ядро класса (т. е. группы точек) может быть подгруп- подгруппой точек, центром тяжести, осью, случайной переменной и т. д.» [106, с. 25] (курсив наш. — В. Б.). 7.4.1. Основные понятия и общая схема метода. Пусть X = = {Хь ..., Х„} — исследуемое множество объектов, каж- каждый из которых характеризуется /7-мерным вектором приз- признаков, т. е. Xi = (лг,П), ..., х\р)). Пространством k покрытий S1' называется множество, каждый элемент которого S — (Si, ..., Sh) представляет со- бои систему подмножеств (классов) элементов X, удовлет- удовлетворяющих заданной структуре классов. На практике встре- встречаются обычно следующие типы структур классов: разбие- разбиения, покрытия,иерархии. Пространством представителей L называется множест- множество, каждый элемент которого может служить представите- представителем (ядром) класса элементов X. Выбирается мера сходства D (X, I) между объектом X 6 X и представителем / ? L. Например: a) L = Rp, тогда / ? Rp и D (X, I) = 2 № — '')а — рат стандартного евклидова расстояния; б) L =- Ri>xM, где М — некоторое семейство расстояний (см. § 5.2). Тогда / = (е, d), е ? Rp, d 6 М и D (X, I) = = d (X, е). Семейство М обычно задается в параметриче- параметрическом виде, например: 1) М == {М} : d (X, е) = (X — е)'Х ХМ (X — е) — семейство махаланобисского типа, где М — положительно определенная, симметрическая матрица; 2) М = {К = (к1, ...,kp)?RpAl>0, П Х'= 1} :d(X, e) = < = 1 р = Ъ\1\х1 — е*\ — семейство «сити блок» (City BIock) 1. Пространством k представительств Lk для простран- пространства покрытий Sk называется множество наборов f = tfi, .... iklhtL. Для построения представительства / покрытия 5 = = (Slt ..., Sh): 1) выбирается пространство представителей L и мера сходства D (X, I); 2) выбирается функция представительства g, относя- 1 В литературе иногда метрики этого семейства называются маи- хэттенскими. 231
щая к классу S, представителя /,-, т. е. g (S,) = lt. Напри- Например, g (Si) = arg min v d (X, I). XS:S. Для построения покрытия S = (Slt ..., Sj,), отвечающего представительству /= (/x, ..., lh): 1) выбирается пространство покрытий Sk; 2) выбирается функция назначения f, с помощью которой каждый объект X получает «назначение» в тот или инои класс, т. е. / (/) = S. Например, / (/) — минимальное ди- дистанционное разбиение выборки X, порожденное набором / = (/,, ..., lh) относительно меры сходства D (X, /). Метод динамических сгущений состоит из следующих частей (этапов): 1. Выбор пространства покрытий S*. 2. Выбор пространства представителей L и меры сходст- сходства D (X, /). 3. Выбор оптимизируемого критерия W (S, /), позволя- позволяющего, используя D (X, /), измерить «степень адекватности» между" всяким покрытием S 6 5* и всяким представитель- представительством этого покрытия / 6 L. Критерий W строится обычно так, чтобы он принимал только неотрицательные значения. 4. Постановка задачи минимизации критерия W; вы- выбор функции представительства g и функции назначения /, позволяющих решать эту задачу. 5. Построение алгоритма динамических сгущений (ADC), состоящего в последовательном итеративном использовании функций f и g, начиная с некоторого покрытия Sw 6 Sk или представительства /@) 6 Lk. 6. Изучение свойств сходимости алгоритма динамиче- динамических сгущений. 7.4.2. Алгоритмы классификации. Основная цель настоя- настоящего раздела — изложить подход МДС к построению алго- алгоритмов автоматической классификации. Подробное описа- описание, практические рекомендации и примеры применения этих алгоритмов содержатся в [106]. У всех рассматриваемых ниже алгоритмов одинаковыми являются: пространство k покрытий Sk — множество всех разби- разбиений S = (S1,..., Sft)совокупности X наkнепересекающихся классов; вид оптимизируемого критерия W (S, I): W(S,t)= 2 D(Sif Id, rAeS=(Slt .... Sk), l=(llt ..., lk),D(Sh /,)= S D (XJt) 232
разброс i-ro класса St относительно представителя (яд- (ядра) U и D (X, /;) — некоторая мера сходства между объек- объектом X и представителем lt; способ построения функции назначения f. При выбран- выбранных ядрах классов (/ь ..., lh) и мерах сходства D (X, /,) объект X относится к i-му классу по правилу минимальнога дистанционного разбиения: f(li, .... lk) = (Si, .... Sh), где й = {*€Х:О(Х, /х) = min D(X, /,)} u Sr- D(X, /,) = min D(X, способ построения функции представительства g. При выбранном пространстве представителей L задается прост- пространство представительств V' как подмножество наборов (/ц •••. /ft) 6 L х ... х L = (L)*, выделяемое в (L)* некото- некоторыми условиями. Тогда для заданного разбиения S = = (Sj, ..., 5h) его представительство g (S) находится как решение задачи условной минимизации критерия W (S, I), т. е. g(S)=arg min W(S, I). В наиболее важном частном случае, когда Lk— (L)h, пред- представительство я (S) находится'как решение задачи безуслов- безусловной минимизации на L: S(S) = (g(S1), ..., g(Sh)), где g(St) = arg min D(Sh I). ieL Схема алгоритма 1. Выберем начальное разбиение S° ~ (Si S%). 2. Пусть построено т-е разбиение Sm — (S™, ..., Sf). Найдем т-е представительство (набор ядер) /"' — g (Sm). 3. Найдем (т + 1)-е разбиение Sm+1 — f (lm). 4. Если Sm+1 Ф Sm, то переходим к 2, заменив т на tn -f- 1. Если Sm+1 = Sm, то полагаем Sm = S* и заканчи- заканчиваем работу алгоритма. 233
Для получения конкретного варианта алгоритма клас- классификации по приведенной схеме достаточно описать только следующие его компоненты: а) пространство представителей L; б) меру сходства D (X, I), X_ 6 X, / 6 L; в) условия, выделяющие пространство представительств Lk в (L)". В приведенных ниже алгоритмах будем использовать терминологию и, по возможности, обозначения из [106]. Пусть П (X) — множество подмножеств исследуемой со- совокупности объектов X = {Хъ ..., Хп}. Для Р 6 П (X) обо- обозначим через \Р | число элементов (мощность) множества Р. Предположим, что на X задана положительная норми- нормированная мера (распределение массы) \i, т. е. функция (х (X) > 0, X 6 X, такая, что ? ц (X) = 1. е Опишем сначала компоненты а, б, в алгоритмов, в кото- которых представителями классов являются подмножества то- точек классифицируемой совокупности X, т. е. L Е П (X). 1. Метод ядерного разбиения а) ? = П(Х); б) D(X, />)= ? li(X)ii(Y)d(X, Y), где d (X, Y) — некоторая мера близости между объектами из X; в) Lk = (L)k. 2. Метод, использующий ядра фиксированной мощности в) Lk^(L{m))k. 3. Метод, использующий ядра переменной мощности a) L-LM = {/>e П(Х):(х(/>) < ио>> где и. (Р) — 2 И (У) и М'О — фиксированный уровень У6Я массы ядра; в) L*-(L0i))*. Следующая группа алгоритмов использует в качестве ядер точки пространства признаков (формальные объекты). 234
Будем считать, что пространством признаков является Rp, т. е. X с Rp. 1. Метод центра тяжести а) L = ДР; б) D (X, I) = (х (X) d (X, /), где d (X, I) = (X — /)' М (X — /) — квадрат расстояния махаланобисского типа и М — фиксированная симметри- симметрическая положительно определенная матрица. Разброс i-ro класса 5' относительно ядра lt ? Rp в этом слу- случае имеет вид 2 xes1 в) L* =(/?')*• Когда (х (X) = Мп, где п = |Х| и М — единичная матрица, то этот алгоритм представляет собой алгоритм ^-средних параллельного типа. 2. Метод адаптивных расстояний а) L = -RPxDist, где Dist — некоторое семейство мер сходства в RP; б) D (X, l) = d (X, е), где I = (е, d), е 6 Я", d € Dist; в) Lk cz (L)k. В [106] исследуются отдельно варианты с квадратичны- квадратичными и неквадратичными расстояниями. Квадратичные расстояния. В этом случае Dist — {М}: г d (X, е) = (X — е)' М (X — е) — семейство махалано- махаланобисского типа. 1. Независимый выбор меры сходства для каждого клас- класса, т. е. Lk = (L)k, и представитель (еь Мг) ?-го класса S* находится как решение задачи: (е?, M?)=arg min 2 (Х—е)'М(Х—е), евЯр X6S; где Distr — подмножество в Dist, составленное из матриц с определителем, равным 1. Решая эту задачу, получаем (см. гл. 11) et = X (St) — центр класса 5,, М, = ISjP/pS-J, где 2г — ковариацион- ковариационная матрица элементов /-го класса. Теоретико-вероятностная модель, в рамках которой этот алгоритм оптимален, описана в п. 5.4.6. Каждое из наблю- наблюдений X 6 X = {Xiy ..., Хп} извлекается из одной из k нор- нормальных генеральных совокупностей N (et, )?,•), i = 1, ...,k. При этом ег и 2, неизвестны. Модели, в которой каждое наблюдение извлекается из одной из k нормальных генеральных совокупностей N (еь 235
2), i — 1, .... k, с общей ковариационной матрицей 2, где ег, ..., eh и 2 неизвестны, соответствует алгоритм: 2. Мера сходства, общая для всех классов, т. е. Lk cr (L)* и состоит из наборов (с,, ..., eft, M). В этом случае для заданного разбиения S = (Slt ...,Sh) представительство g (S) = (elt ..., eft, M) находится как решение задачи: g(S) = arg min у у (X-e,)' M(X-e,), которую нельзя расщепить на & задач поиска представите- представителей каждого класса в отдельности. Решая эту задачу, полу- получаем (см. гл. 11): в( = X (Si) — центр класса S1; М = |W| Vp W-1, где W = 2 2 (X—X(St)) (X—X(S ))'= 2 2,, 2«—ко- вариационная матрица i-го класса. Неквадратичные расстояния. В качеств основного при- примера рассматривается Dfst = {X = (К1, ..., А,р), А,' > О, р П А,/ = 1}, семейство «сити блок», которое приводит к мето- /=! ду, использующему медианную оцищу центра класса. Представитель (eudi (X, е)) t-ro класса St, гдее,-—центр класса, a d; (X, е) = 2 %{\ х'—е>\ — мера сходства, /=1 ассоциированная с этим классом, находится как решение задачи: (et, d() = Так как Б ? %J\xf—ef\ = получаем е{ = (e}( .... ef), где e{ = arg min 2l*y— e/l eJ XeS. т. e. e' — медиана значений /-го признака по всем элемен- элементам j-ro класса Si. Положим а = (а1, ..., ар), где aJ = = 2 И — е{|. Тогда 236
т.е. 7.4.3. Автоматическая классификация неполных данных. На практике встречаются ситуации, когда исходная инфор- информация о классифицируемых объектах представлена матри- матрицей «объект — свойство» с пропущенными значениями. Например, в социологических обследованиях некоторые индивидуумы могут отказаться ответить на те или иные во- вопросы, отдельные данные могут оказаться «стертыми» и т.п. Опишем алгоритм МДС автоматической классификации совокупности объектов 0г, ..., 0„, характеризуемой непол- неполной матрицей данных. Большим достоинством подхода МДС к этой задаче является то, что он не требует предваритель- предварительного восстановления пропущенных значений и максималь- максимально использует специфику разбиения совокупности объек- объектов на классы по принципу минимального дистанционного разбиения, порожденного набором ядер. Выберем некоторое число (неважно какое) в качестве метки пропущенного значения. Поставим в соответствие объекту О,, / = 1, ..., п, пару (А,, Хс), где А, — диаго- диагональная (р х р)-матрица, a Xt 6 Rp- Диагональный эле- элемент Щ' матрицы А; равен 1, если у 0t известно значение/-го признака, а аи = 0 в противном случае. Координата xl вектора Xt = (я,1, ..., xf) равна значению /-го признака, если а*/ = 1 и равна метке в противном случае. Введем в Rp евклидову метрику при помощи некоторой положительно определенной симметрической матрицы М (М-метрику). Квадратом псевдорасстояния от пары (Аг, Xt) до про- произвольной точки е ? Rp называется dM ((A,, Xi), e) = (Xi-e)' А/ МА< (Х4-е,). Непосредственно из определения следует, что значение псевдорасстояния ^м ((А;, Xi), e) не зависит от выбранно- выбранного значения метки, поэтому можно говорить о псевдорас- псевдорасстоянии ^м @г, е) от объекта О, до точки е 6 Rp- Пусть (х @г) — некоторая весовая функция (положи- (положительная нормированная мера) на исследуемой совокупно- совокупности объектов {Ог, ..., Оп). 237
Выберем некоторый класс St = (О,,, .... О* ). Выраже- Выражение 2 ц (Of) d/л (Oj, ё) естественно назвать псевдоразбросом o^st класса St относительно точки е € Rp, а точку е* = arg min ^ у. (О,) (Х}—е)' — псевдоцентром тяжести класса St. Пусть М — 1Р — единичная матрща и Si совпадает со всей совокупностью объектов {0lt ..., 0п}. Положим \it — = \i @(). Тогда псевдоцентр тяжести вычисляется по фор- формуле: i = В общем случае нетрудно показать [106], что если каждый из р признаков наблюдается по крайней мере на одном из объектов класса S[y то матрица является положительно определенной и псевдоцентр тяже- тяжести е^ класса Si однозначно вычисляется по формуле: \ojesl Возвращаясь к общей схеме алгоритмов классификации МДС, получаем, что если в качестве меры сходства взять псев- псевдорасстояние, а в качестве центра класса — псевдоцентр, то можно непосредственно перенести на случай неполных данных алгоритмы метода центра тяжести и метода адап- адаптивных квадратичных расстояний, изложенные в п. 7.4.2. При реализации этих алгоритмов необходимо только пре- предусмотреть коррекцию на тех шагах алгоритма, когда встре- встречается класс, для которого существует хотя бы один при- признак, ненаблюдаемый у всех элементов этого класса. Про- Продемонстрируем такую коррекцию на примере алгоритма k-средних параллельного типа для неполных данных. Поставим в соответствие исследуемой совокупности объ- объектов {0ъ ...,.0п} набор {(аи XJ, ..., (ап, Хп)}, где at = = (aj, ..., аР) — вектор диагональных элементов матрицы Aj (см. выше). В Rp для простоты фиксируем стандартное 238
евклидово расстояние и будем считать, что точки имеют оди- одинаковые веса. Тогда меру сходства между объектом О,- и точкой е 6 Rp можно записать в виде Схема алгоритма 1. Выберем начальный набор центров {е\, ..., е%), е) ?Rp. 2. Пусть на т-и шаге построен набор центров (е™,..., е™). Построим минимальное дистанционное разбиение Sm = = (Sf, ..., Sg) совокупности объектов, используя псев- псевдорасстояние D (Oi, е). 3. Для каждого класса Si = {Ot , ..., 0jnf} вычислим вектор bt = (b\ bp), где *?=2 of . Построим набор центров (ey+I, ..., e™+1), где d 4 t d 4 А^ если = em./, если ft/ = 0. 4. Если ef+1 Ф ef хотя бы для одного i, то переходим к 2, заменив m на т+1, в противном случае заканчиваем работу алгоритма. 7.5. Алгоритмы метода размытых множеств При анализе социально-экономических и биологических си- систем, в ряде задач технической и медицинской диагностики встречаются ситуации, когда вопрос не в том, принадлежит ли данный объект 0t, 1 < i < п классу S,, 1 < / < k, а в том, до какой степени 0t принадлежит Sh В связи с этим большое развитие получили методы не- нечеткой классификации, в основе которых лежит представ- представление о классе как о размытом (нечетком) множестве объ- объектов, для которых переход от принадлежности к данному классу к непринадлежности постепенен, а не скачкообразен. 7.5.1. Основные понятия, функционалы качества разбие- 239
кия, постановка задач. Пусть {Ох О,,} = О — исследу- исследуемая совокупность объектов. Размытое подмножество объ- объектов задается при помощи функции S, сопоставляющей с объектом О, число 5 (О,), называемое степенью принадлеж- принадлежности объекта Ог этому подмножеству. Предполагается, что О <S (Ог) < 1 для всех г'= 1,..., п. Ясно, что подмножество в обычном смысле задается функцией, принимающей значе- значение 1 на элементах этого подмножества и 0 — на остальных элементах. Размытые подмножества Sly ..., Sk совокупности О об- k разуют разбиение на нечеткие классы, если 2^1 (О,-) = 1 для всех i. В случае когда ^S\ (О,) > 1 для всех /, говорят, что размытые подмножества образуют покрытие нечеткими клас- классами. Таким образом, разбиение 5 = (Si, ..., Sk) на нечет- нечеткие классы задает отображение S:O-+R*:S(Ot) = (S1(Ol), .... Sk(Ot)), -сопоставляющее с объектом О, ^-мерный вектор S (О,) его принадлежностей к классам этого разбиения. Рассмотрим сначала случай, когда исходная информа- информация о классифицируемых объектах представлена матрицей р = (рг/) попарных взаимных расстояний (близостей) объ- объектов. Тогда качество разбиения S оценивается тем, на- насколько соответствующее ему отображение S : О->- Rk ис- искажает «геометрическую» конфигурацию совокупности О, описываемую матрицей р. Например, [193]: где s't = St (О,) и о — параметр. Задача классификации — найти S* = argmin (<2(S): о € Я1, S = (Slt ...,Sh), S,= (S I ) k В такой постановке задача нечеткой классификации представляет собой вариант задачи многомерного метриче- метрического шкалирования (см. гл. 16), в котором экстремум функ- функционала Q (S) ищут на подмножестве отображений S = (Sit 240
k ..., Sft), выделяемом условиями {sl. > О, У sl. = 1, i = 1,..., n}. Ясно, что функционалы качества ^-мерного метрическо- метрического шкалирования мог>т служить функционалами качества разбиения на k нечетких классов. Среди таких функциона- функционалов отметим (см. [66]) Q(S)= 2 2 («фм-рЛ'р?/, который является частным случаем функционалов Qj (Z) (формула A6.8)) и Q2 (Z) (формула A6.8')). Здесь рн = (У (sl — s'JI/2> о — параметр, а = alt если ~ / = 1 _ Ри > Рг;> и а =- а2, если р!у < р^-. Пусть теперь исходная информация представлена мат- матрицей «объект — свойство», т. е. совокупность объектов можно отождествить с набором р-мерных точек X = {Xt, .... *»},*, = (х], ...,хр). Предположим, что Х( 6 Rp- Опишем критерии качества разбиения, аналогичные критериям, использующим поня- понятие усредненного внутриклассового разброса. Выберем мо- монотонную функцию ср на отрезке [0, 11, такую, что ср @) =0 ИфA) = 1. Для размытого подмножества S в X и точки е ? Rp по- положим D(S, e; Ф)= 2 фЫН^-е||8, где s( = S (Xt)- Для обычного подмножества S (когда s,=0 либо 1) выражение для D (S, е; ц>) не зависит от выбора ц> и называется разбросом этого подмножества относительно точки е. По аналогии общее выражение для D (S, е; ц>) на- назовем у-взвешенным разбросом размытого множества S. Центр размытого множества S определим, естественно, как решение задачи e(S; <pj=argmin D(S, e; ф). Имеем «Р («Л 241
Внутриклассовый разброс размытого множества 5 опре- определим как разброс этого множества относительно его центра, т. е. D (S; q>) = D (S, е (S, q>); q>). Теперь пусть S = (Slr ..., 5Й) — некоторое разбиение на нечеткие классы. Положим Q(S)= V D(St; Ф(). В задаче классификации, отвечающей этому критерию, ве- весовые функции ф1; ..., фй являются параметрами, которые можно фиксировать либо подбирать в ходе классификации. Широкий класс критериев качества разбиения на нечет- нечеткие множества получается, если использовать подход мето- метода динамических сгущений (см. п. 7.4). Выберем некоторую меру сходства D (X, ё). Тогда, как и выше, для монотонной функции ф (s), s 6 [О, И, ф @) = 0, ф A) = 1 вводится раз- разброс размытого подмножества S относительно представите- представителя I по формуле: D(S, /; Ф)-2 4>&H(*ь 0- Пусть теперь S=(Si, ..., Sk)—некоторое разбиение на нечеткие классы и /=(/1( ..., /*) 6 Lk cz (L)k—некоторое представительство (см. 7.4.1). Положим W(S, /)= 2 DlS*> l'' Ш- i= i Критерий качества разбиения, соответствующий W (S, I) в МДС, имеет вид Q (S) = W (S, g (S)), где g (S) — функция представительства. В рассматриваемом случае, при L* = = (!)*, г (S) = (/i, ...,/*). где 7.5.2. Алгоритмы нечеткой классификации. Специфику этих алгоритмов покажем на алгоритме ^-средних [192,193]. Пусть X = {Xlf ...,Хп), где Xt б Rp. Управляющие параметры: k — число классов; М — симметрическая положительно определенная мат- матрица, задающая расстояние в R" р|(Х, К)-(Х — Y)'M(X—Y) 242
(далее для простоты будем предполагать, что М = 1Р — единичная матрица); а — число, 1 < а < оо, определяющее весовую функ- функцию ф (s) = sa (см. п. 7.5.1). Схема алгоритма 1. Выберем начальное разбиение S@> = (S\9), ..., Si0)) на k нечетких классов, т. е. массив s<0) из п fc-мерных векто- векторов s(,e>, ..., s«»,sle) = (s<ei>, .... s}°*>), s<°*> > 0, S s}°*> = 1 для всех / = 1, ..., п. 2. Пусть построено m-e разбиение 5(т) в виде массива s<m> из « ^-мерных векторов s{m>, ..., s^">. Вычислим набор центров e(jm>,..., e?m>, где 2 3. Построим (т + 1)-е разбиение 5(т+1> в виде массива {s<m+1>, ..., s{nm+1)}, порождаемое центрами е^"\ ... ?> где 2 т.е. если/« = {/| 1 < t <, k :\\Xi—e«|| = 0}, to <)== 0, *? /J" и 'е/Г 4. Если 5|m+1) # S[m) для некоторого i, 1 < i < /t, то переходим к 2; если S<m+1> — 5<m>, то полагаем 5"") = --=5* и заканчиваем работу алгоритма. 243
При фиксированных k и М описанный алгоритм ?-сред- них представляет собой параметрическое семейство по а, где 1 < а <; оо. Построение нечеткого разбиения, порож- порождаемого набором центров (см. 3), определено при а->- 1 и а—*- оо. Пусть а-> 1. Положим 7™ = {/, 1 < t < k : || X,- — — е^|| = min || Xt ~^||}. Тогда О, t t Т«, s((m+I)O = С Другой стороны, непосредственно из определения нечет- нечеткого класса s("'+1) следует, что при а = 1 он имеет вид: j—е?\\\ s")= Решением этой задачи линейного программирования явля- является любой ^-мерный вектор, лежащий на грани симплекса {s 6 Rk '¦ s@ > 0, 2 2 выделяемого условиями S(O = 0, если t(? I'p. В частности, любая из вершин этого симплекса, у которой все координаты, кроме одной с номе- номером из множества /(т, равны 0. Таким образом получается, что минимальное дистанционное разбиение, порождаемое набором центров е'{\ ..., е™—это одна из допустимых клас- классификации в алгоритме Беждека при а = 1. Пусть а-> оо. Тогда sj('"+1)') = т, т. е. классификация вырождается. Таким образом, в алгоритме Беждека брать слишком большие значения параметра а не имеет смысла. Точно так же, как расписан алгоритм нечеткой класси- классификации по методу ^-средних, можно расписать соответст- соответствующие алгоритмы по всем методам, основанным на описа- описании классов «ядрами», рассмотренным в § 7.2 и 7.4. Напри- Например, полностью сохраняется общая схема алгоритмов клас- классификации по методу динамических сгущений (см. 7.4.2). В случае нечеткой классификации необходимо только ис- использовать следующий способ построения функции назна- назначения / при выбранных ядрах классов (/х, .... lh) и мерах сходства D (X, /<): с объектом Xt сопоставляется /г-мерный 244
вектор s* = (st1, ..., s*fe) принадлежности к классам, такой, что st = argmin 1 2 <Pt И D (Xit /t): s = u= i (= l Например, в качестве весовых функций <р (s) можно, как и выше, взять функции s", 1 < ос < оо. Тогда такие алго- алгоритмы нечеткой классификации по МДС при а —у 1 перей- перейдут в алгоритмы, вариантами которых являются алгоритмы, описанные в § 7.4. Детальное описание алгоритмов нечеткой классификации и исследование их можно найти в [193]. 7.6. Алгоритмы, основанные на методе просеивания (решета) Общим для всего этого семейства алгоритмов является нали- наличие следующих трех блоков [35]: 1) парное сравнение объектов 0lt ..., Оп и составление для каждого объекта О, кортежа {0A, ..., 0in.) «похожих» на него объектов; 2) упорядочение (оцифровка) выборки в соответствии с целью классификации; 3) классификация, моделирующая принцип решета Эратосфена х: на вход классификатора поступает выборка, упорядоченная в блоке 2. Первый объект объявляется ти- типичным представителем первого таксона, в который включа- включается кортеж похожих на него объектов, составленный в блоке 1, после чего этот кортеж удаляется (вычеркивается) из выборки 1 ипичным представителем следующего таксона объявляется первый из оставшихся объектов упорядочен- упорядоченной выборки, а кортеж похожих на него объектов включа- включается во второй таксон, те же из них, которые не были удале- удалены на предыдущем шаге, удаляются из выборки. Такая процедура классификации продолжается до тех пор, пока 1 Одна из формулировок решета Эратосфена (III в. до н. э.): если в множестве натуральных чисел 2. 3, 4,. зачеркнуть числа, кратные первым г простым числам 2,3,5 .., рг, то первое (наимень- (наименьшее) незачеркнутое число будет простым 245
вся выборка или наперед заданная доля ее не будет расклас- расклассифицирована. Классификация, проведенная алгоритмами семейства, в общем случае приводит к покрытию классами, а не разбие- разбиению, так как таксоны могут пересекаться. Это связано с тем, что хотя элементы выборки на этапе 3 последовательно ис- исключаются из рассмотрения, тем не менее они оказывают су- существенное влияние на последующую классификацию, по- поскольку на этапе 2 они участвовали в упорядочении выбор- выборки и порядок этот после их исключения не пересматривает- пересматривается. Переход внутри семейства от одного алгоритма к друго- другому осуществляется настройкой управляющих параметров. В блоке 1 такие параметры определяются видом входной информации. Так, если выборка характеризуется матрицей «объект — свойство», то оценка похожести происходит с по- помощью той или иной меры близости, которая тем самым ста- становится параметром алгоритма. Если же входная информа- информация представлена в виде матрицы попарных взаимных рас- расстояний, то кортеж похожих объектов рассчитывается с ис- использованием пороговых значений, которые либо задаются, либо оцениваются на основе анализа матрицы взаимосвя- взаимосвязей. В блоке 2 упорядочение элементов выборки, как правило, проводится при помощи функционала, который сопостав- сопоставляет с каждым объектом Ог выборки число, характеризую- характеризующее, насколько этот объект типичен для совокупности по- похожих на него {О1у, ..., Oljn} сточки зрения целей класси- классификации. Для выбранного функционала F (Ог) = F (О,; Otl, ..., Oljn) полагаем О, < Oj, если F (Ог) > F (О;); в слу- случае F (О,) — F(Oj), если нет дополнительной ин- информации, то полагаем Ог <С Oj при i <С /. Блок 3 не содер- содержит управляющих параметров, поэтому далее при описа- описании конкретных алгоритмов классификации методом Эра- тосфена (АКМЭ) опускаем его. Рассмотрим более детально алгоритмы семейства, реали- реализующие выделение таксонов при помощи поиска локальных максимумов функции плотности распределения объектов в признаковом пространстве X. Алгоритм на основе модельной локальной плотности. Выберем в качестве модельной некоторую плотность рас- распределения Д, (X), имеющую единственный максимум в ну- нуле, и пусть Хя с \р — такая область, что Р!о {X 6 Х?} =А.. Будем считать, что Хх является носителем плотности U (X), т. е. \р - {X € X" : /0 (X) > 0}. Возьмем 246
оценку плотности распределения / (X) по выборке {Xlt ..,*„} в виде 2> i *= 1 1=1 где {ц;} — веса точек {Х*}. Тогда первые два блока алго- алгоритма можно описать следующим образом: 1. Для каждого Xt выделим подвыборку X (t) = {Xix, ..., Xtmi}, составленную из всех элементов Xj, для которых Х( - X; € Хх. 2. Упорядочим выборку {Хх Хп} при помощи плот* ности /" (X), т. е. считая, что Х( < Хи если J (Xt) >~f (Xj). Например, возьмем модельную локальную плотность в R? вида где ср,а = Г У+*) г2 = Bа + р) а2 и а2 - дис- |B+)]р^2Г()Р персия случайного вектора в /?р с плотностью распределения /0 (X) (см. § 20.2). Рассмотрим семейство алгоритмов для области X.J = = {X 6 Rp, \\X\\ < г}. Это семейство имеет два управляю- управляющих параметра: г и а. Похожими на элемент X; считаются все элементы выборки, отстоящие от него не более чем на г, т. е. X @ = {Xj : II Xi — X; || < г }. При фиксированном г с ростом а в модельной плотности fp,a (X) а2 убывает и в упорядочении выборки все большее значение начинает иметь разброс кортежа X (i) относительно Xlt т. е. на первые мес- места выходят Xj с меньшим разбросом кортежа Х(г) относи- относительно Xj. Для модельной плотности fp, 2 (X) и одинаковых весов Hi, I < i <. п, классификация проводится при помощи плотности распределения j 247
которая с точностью до константы —- совпадает с функцио- функционалом качества в алгоритме Форель. Ясно, что выделение первого таксона в алгоритме Фо- Форель представляет собой градиентный поиск локального максим} ма плотности / (X). Таким образом, если выборка представляет собой объе- объединение сгустков, каждый из которых полностью помеща- помещается в шар радиуса г, то алгоритм Форель даст практиче- практически тот же результат, что и алгоритм классификации мето- методом Эратосфена (АКМЭ) для плотности/,,,2 (X). Следующий таксон алгоритмом Форель выделяется после того, как из выборки удалены точки первоготаксона, и т.д., что в ряде случаев (например, не угадан порог г) приводит к сильной зависимости результата классификации от выбора началь- начальной точки, в то время как в АКМЭ вообще отсутствует необ- необходимость выбора начальной точки. Алгоритм на основе ближайших соседей. В этом алго- алгоритме классификация проводится, по существу, при помо- помощи оценки плотности распределения, получаемой по методу «ближайших соседей». Выберем параметр Л., 0 < Я. <; 1, и возьмем в качестве т целую часть числа Ял, где п — объем выборки, поступившей на классификацию. Первые два блока этого алгоритма будут следующими. 1. Для каждого Xt составим кортеж X (t) = {Xix = — Xt, ..., Xt j) из т ближайших к нему элементов. 2. Пусть S (X (L), Xt) — разброс кортежа X (t) относи- относительно Xt. Упорядочим выборку {Х%, ..., Хп}, считая, что Xt < XJt если S (X (i), Xt) < S (X </), X,). В блоке 2 можно использовать также следующий спо- способ упорядочения выборки {Xlt ..., Хп}: 2'. Пусть rt (т) — расстояние от Xi до самого дальнего из т ближайших к нему соседей {Xi1 = Xi, ..., Xtm+1). Упорядочим выборку {Хи ..., Хп}, считая Xt ^Xj, если U (m) ^ rj (т). Описанные здесь блоки 1 и 2' вместе с блоком 3, общим для всех алгоритмов метода просеивания, составляют алго- алгоритм Уишарта [332], предложенный им в качестве альтер- альтернативы агломеративной процедуры иерархической класси- классификации по методу «ближайшего соседа» в тех случаях, ког- когда она приводит к нехарактерным для исследуемого явле- явления объединениям типа «цепочного эффекта». 248
выводы 1. Описаны наиболее известные и хорошо зарекомендовав- зарекомендовавшие себя при решении прикладных задач ал! оритмы разби- разбиения исследуемой совокупности объектов на классы как при известном, так и при неизвестном заранее числе классов. 2. Общим для всех рассмотренных алгоритмов является то, что в них распределение объектов по классам (классифика- (классификация) осуществляется при помощи сформированного в ходе классификации набора «ядер» классов. Понятие ядра клас- класса в широком смысле обсуждается в п. 7.4. 3. Алгоритмы различаются правилами распределения объ- объектов по классам, типом ядер, тем, является ли класс чет- четким или нечетким (см. § 7.5) подмножеством исследуемой со- совокупности объектов, является ли набор управляющих па- параметров фиксированным или настраиваемым в ходе класси- классификации (см. § 7.3), а также тем, как пост\ пают объекты на классификацию: вся совокупность сразу (параллельные ал- алгоритмы) или порциями по одному, по нескольку (последо- (последовательные алгоритмы). Глава 8. ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ 8.1. Основные определения Пусть X = {Хх, ..., X,,} — конечное множество. Определение 8.1. Иерархией s на X называет- называется система подмножеств (классов) {S:S cr X}, такая, что 1) X6s; 2) {Xt}?s,i= I, .... я; 3) если классы S и S' из s имеют не пустое пересечение, то S' cr S либо S cr S'. Пример 8.1. Пусть X = {Хи ..., Х:}. Тогда систе- система подмножеств s — {{Хг}, i = 1, ..., 7, {Xlt Х2}, {Х3, Xt, Х5}, {Хъ Х2, Х6}, X} является иерархией на X. Исследование структуры иерархий удобно вести в терминах теории графов [831. Определение 8.2. Графом G = G (s) иерархии s на X называется ориентированный граф (V, Е), вершины v 6 V которого соответствуют множествам 5 6 s, а ребра е ? Е—па- Е—парам E', S), таким, что: 5'=^= S, S' с S и в s не существует S" ?= S', для которого 5' с= 5" с= 5. Ребро е = E', 5) изображается стрелкой с началом S' и концом S. 249
Пример 8.2. Граф G = (V, Е) иерархии s из примера 8.1 имеет множество вершин: V = {vt = {X,}, i = 1, ..., 7, i's = {Xt, X?}, v4 — {Х3, X4, Хъ}, v10 = {X,, X2, X6}, vn = X} (рис 8 1). В графе иерархии вершина может быть концом нескольких стрелок, но, как следует из 3 ) опреде- определения 8 1, она является началом только одной стрелки. Определение 8.3. Иерархия называется бинар- бинарной, если любое множество S 6 s, содержащее более одного элемента, является объединением множеств S' и S" из s, где S' П S" = 0. Рис. 8.1. Граф G=(V, E) иерархии s из примера 8.1 Иерархия s из примера 8.1 не является бинарной, так как множество {X j, X4, Х5} нельзя представить в виде объеди- объединения двух множеств изв. Нетрудно показать, что в любой бинарной иерархии s разбиение множества S 6 s на подмно- подмножества S' и S" из s, т. е. представление S = S' (J S", од- однозначно. Иерархия является бинарной тогда и только тог- тогда, когда в ее графе каждая вершина, соответствующая мно- множеству, содержащему более одного элемента, является кон- концом двух стрелок. Определение 8 4. Иерархической классификаци- классификацией данного множества объектов X — {Хи ., Хп) называ- называется построение иерархии s на X, отражающей наличие одно- однородных, в определенном смысле, классов X и взаимосвязи между классами. Алгоритмы иерархической классификации бывают: ди- визимные, в которых множество X постепенно разделяется на все более мелкие подмножества, и агломеративные, в которых точки множества X постепенно объединяются во все более крупные подмножества. 250
Графы иерархий, полученных при помощи этих алгорит- алгоритмов, называются соответственно дивизимными и агломера- тивными Если их изобразить на плоскости так, как на рис 8.2, то видно, что они описывают процедуру классифи- классификации при движении вверх по оси ординат Поэтому дивизим- ные алгоритмы называют также нисходящими (движение про- против стрелок), а агломеративные — восходящими (движение вдоль стрелок). 8.2. Методы и алгоритмы иерархической классификации В основе алгоритмов иерархической классификации лежит тот или иной критерии качества Q (St, ..., Sk) разбиения множества S на подмножества Slt ..., S)t (см. § 5.4). Обычно используются бинарные алгоритмы, ко1Да k = 2 В этом случае Q {Sx, S2) имеет смысл близости р (St, S2) между мно- множествами Sx и S2 (см § 5 3). Далее, говоря об алгоритмах иерархической классификации, будем иметь в виду только бинарные алгоритмы. 8.2.1. Дивизимные алгоритмы. Дивизимные алгоритмы строятся на принципе разделения множества 5 на подмно- подмножества (S*, Sz), такие, что (S], S!) = arg max 9E,, SJ. (8 1) SUSs В реально используемых алгоритмах берется некоторое приближенное решение задачи (8.1), так как точное решение ее фудоемко даже при относительно небольшом объеме эле- элементов в S Вид меры близости р (Slt S2) может меняться в ходе алгоритма. Изложим на важном примере основные приемы разделе- разделения класса S на подклассы Sx и Sa в дивизимных алгорит- алгоритмах. Пусть X = {Хг, ..., Хп), где X, = <х«\ .... х<«) б R» В качестве критерия однородности класса S с X возьмем статистический разброс QE)= ^ II*-ZIP, (8-2) где Z=— 2 *—центр класса S и \\Х — Z\f—квад- \S\ xes X Z рат евклидова расстояния между X и Z. Положим , S, П S,= 0, (8.3) 251
т. е. мерой близости между классами считаем приращение статистическо1 о разброса при объединении классов. Пусть F (Si,52) = Q (Si)-t- Q {Sj}. Для фиксированного класса 5 имеем: р (Su 52) + F (Slt S2) = const. Следова- Следовательно, для решения задачи (8.1) разделения класса 5 до- достаточно найти <Si, SS)=arg min F(Slt 52). (8.4) •S,US2=S Функционал F (Slt S2) является функционалом качест- качества разбиения 5 на подклассы S, и 52 в методе 2-средних, по- поэтому для получения классов S} и S% можно использовать алгоритмы 2-средних (см. п. 7.2.1). Опишем теперь распространенный способ разделения множества 5 на подмножества при помощи линейного клас- классификатора: S: v'X>a}, { где v?Rp, ||i>f=l. Для данного вектора v 6 Rp, |M| = 1, рассмотрим проек- проекцию v: Rp -v R1: X -*- у — v'X и обозначим через 5 образ множества 5. Положим р (Su 52) = Q Eа U^a) ~ Q (Si) — — Q (S2), где Q (•) — как и выше, статистический разброс. Пусть Тогда имеет место формула: p(Sl5 S,) = Fx $х, Ы где т, ш, и nt2 — число элементов в множествах 5, Sx и 52 соответственно. Следовательно, для фиксированного S достаточно найти: E1, SS) = arg max F^sl, ?). (8.5) SUSS Пустьух > yt > ¦¦¦> ym—упорядоченная числовая по- следовательность элементов множества S cz R1. Так как ищем на прямой точку а, разделяющую эту последователь- последовательность на две части, то 5i = S1(m,) = {^j, .... ymt}, S2=?2(mi) = {i/m1+i, ... Ут) (8.6) 252
для некоторого т1г т. е. в этом случае вместо метода 2-сред- них можно применить для решения задачи (8.5) метод по- последовательного перебора. Вычислив числовую последова- последовательность {ф (/na) = Fx Ej (trij), 52 {nij)), m1 = 1, ..., т— 1}, получим пару "EJ =-\ (т\), SI =% (т\), где m* = arg max и, следовательно, Таким образом описан алгоритм нахождения порогового значения а для линейного классификатора, задаваемого век- вектором v 6 R", \\v\\ — 1. В качестве v обычно берется какой- либо координатный вектор либо собственный вектор кор- корреляционной матрицы множества 5 cz R". Вектор v можно получить также как решение задачи целенаправленного про- проецирования (см. гл. 19), дающее проекцию Rp—^-R1, для которой 5 = {у1г ..., ут} — наиболее неоднородная число- числовая выборка в смысле некоторого критерия. Алгоритм иерархической классификации множества X из п элементов состоит из (п— I) шагов. На вход дивизимного алгоритма подается все множество X. На &-м шаге получа- получается разбиение Sw множества X на (k -f 1) непересекаю- непересекающихся множеств (классов) S\k), ..., Si%, называемое раз- разбиением &-го уровня. Итоговая иерархия s представляет собой систему s = = U 5<*>, образованную вложенными разбиениями 5<0> zd А = 1 zd 5*1» zd ... zd S*"-1). Здесь 5@> = X. (Говорят, что раз- разбиение 5A) = (S{i\ ..., SjtV) вложено в разбиение 5(^> = = Ei2), -.., Si*?), если каждый класс из 5A> является под- подклассом некоторого класса из 5<2>.) Если на &-м шаге полу- получается разбиение 5(ft), все классы которого удовлетворяют выбранному критерию однородности, то алгоритм обычно останавливается. 8.2.2. Агломеративные алгоритмы. На вход агломератив- иого алгоритма подается разбиение 5@) = El0), ..., S(n0)), где 5'0) = {Х{}. Разбиение ft-го уровня имеет вид 5(i> = = E<*>, ..., 5^fcJ_ft) и строится из разбиения 5<*-1), k > 1, путем объединения пары классов (S\, 5г), где E?, S*2)=arg min рE„ 52). (8.7) 25Н
Итоговую иерархию s образует система вложенных разбие- разбиений S<°> с 5(J» <=...<= 5С-1) Здесь S^-1» = X Отметим, что иерархическая классификация при помо- помощи бинарного алгоритма всегда дает бинарную иерархию. Замечание. Иногда (см , например, [9]) иерархи- иерархической классификацией множества X называют построение системы вложенных разбиений 5@> id SA) ^э . . zd 5("-г\ где S<°) = X или S<°> с S<]> c= ... с S("~l\ где S*"-1) = = X. Предыдущие рассуждения показывают эквивалент- эквивалентность такого определения иерархической классификации и данного выше определения 8.4. Напомним, что наиболее употребительные в агломератив- ных алгоритмах меры близости р (Su S2) приведены в § 5.3 Свойства этих мер йлизости и методы эффективного решения задачи (8.7) обсуждаются ниже. Здесь же только отметим, что мера близости (8.3) удовлетворяет рекуррентному соот- соотношению E.10). Как будет видно далее, она обладает рядом важных свойств, которые обеспечивают широкое использо- использование ее при решении задач классификации В то же время ниже показано, что «Расстояние по центрам тяжести» E.6) не обладает такими свойствами. 8.3. Графические представления результатов иерархической классификации Алгоритмы иерархической классификации по сравнению, на- например, с алгоритмами, описанными в гл. 7, применимы для классификации множеств X относительно небольшого объ- объема1, но зато позволяют в ряде случаев получить более пол- полный анализ структуры исследуемого множества объектов Так, граф классификации дает представление о взаимосвя- взаимосвязи между разбиениями 5(fti) и S(**' на разных уровнях, и если принято решение остановиться на разбиении S(ft) множества X, то для каждого элемента X 6 X можно оце- оценить степень его принадлежности к классу Sf> для некото- некоторого / при помощи пути (простой цепи, см. 112, с. 147]), соединяющего вершины графа, соответствующие X и клас- классу S<*>. Существенным преимуществом алгоритмов иерархиче- иерархической классификации является возможность наглядной интер- интерпретации проведенного анализа. Имеется большая свобода 1 При программной реализации алгоритмов иерархической клас- классификации требования к объему оперативной памяти ЭВМ и время счета быстро растут с ростом числа элементов в множестве X. 254
в построении на плоскости данного графа иерархии. Изучая различные изображения, согласованные с его структурой, можно получить ряд нетривиальных результатов об исследу- исследуемом множестве объектов, которые и рассмотрены ниже. 8.3.1. Индексации иерархии. Методы построения на плос- плоскости графа иерархической классификации. Опишем об- общую схему построения на плоскости i рафа агломеративной классификации Для получения изображения графа дивизим- ной классификации применимы те же методы, только во всех построениях надо поменять на противоположное на- направление оси ординат (см. рис. 8.2). Определение 8.5 Индексацией v иерархии назы- называется отображение v: s-*- /?\ ставящее в соответствие мно- множеству 5 6 s число v E) таким образом, что: 1) \ {S) = О тогда и только тогда, когда 5 состоит из одно- одного элемента; 2) v (S') «С v E) для каждой пары E', 5) из s, такой, что S' с S. Определение 86 Grpoi oil индексацией v иерар- иерархии s называется ее индексация, удовлетворяющая условию: 2') v E') < v E) для каждой пары (S1, S) из s, такой, что S' <= 5 и S' Ф S. Пусть (s, v) — некоторая индексированная агломератив- ная иерархия s на множестве X = {Xlt ..., Хп}, построен- построенная при помощи меры близости р E,, S2). Вершины графа этой иерархии, соответствующие множествам {Xt}, i — 1, ..., п, обозначим через vt, а вершины, соответствующие мно- множествам S 6 s, \S\ > 1, — через vs. Допустим, что верши- вершины vst и vss нанесены на плоскость, т. е. можно записать в координатах: vSt = (vSt, vSt) и vs,_ = (vs,, vs2). Тогда, если 5X U 52 = 5 g ?, то положим — (ОS, "f" ySs)« v E) м соединим точки vsx и vs, с vs. Далее будем использовать соединение, показанное на рис. 8 3. Начальный шаг пост- построения обеспечивается тем, что, по предположению, верши- вершины vt располагаются на оси абсцисс. На этой оси они упоря- упорядочиваются так, чтобы в итоговом изображении графа мини- минимизировать число пересечений ребер графа Например, если v — строгая индексация, то можно так упорядочить верши- вершины уг, 1 < i < п, что ребра будут соединяться только в вер- вершинах. Таким образом каждая индексация задает изобра- изображение графа. До последнего времени в пакетах программ реализовы- валось графическое представление агломеративной иерар- 255
Рис. 8.2. Графы иерархий, описывающие процедуры классификации: а) дивизимная (нисходя- (нисходящая) процедура; б) агломеративная (восходящая) процедура
хии, основанное на строгой индексации v, ставящей в соот- соответствие множеству S?s номер шага, на котором это множе- множество было включено в иерархию. В этом случае индексация v любой иерархии s принимает значения 0, 1, ..., (п— II. Важные исследования по индексациям иерархий проведены в [248], на результаты [248] опирается изложение этих вопросов в книге. 8.3.2. Оцифровка изображения графа иерархической клас- классификации. При наглядной интерпретации результатов vis) vis2) vis,) - - " V t 1 J 1 .^ • 1 -2 X4 *3 •2 1 -1 I5 1 e 4 1 i 1 - I' X7 > i 2 • Рис. 8.З. Правило соединения вершин при изображении иа плоскости графа иерархиче- ской классификации с исполь- использованием индексирующего ото- отображения v Рис. 8.4. Конфигурация точек множества X={xt, ..., х\о) из примера 8.3 классификации большое значение имеет то, какую допол- дополнительную информацию о структуре исследуемой совокуп- совокупности объектов несет распределение на отрезке [0,1] число- числовой последовательности {v E)/v (X), |5| > 1, S (zs) для выбранной индексации v. Пример 8.3. Пусть X = {Xv .... Хго} — множество точек на плоскости, изображенное на рис. 8.4, и s — его агломеративная иерархия, построенная по мере близости E.6): р (Sj, 52) = \\ZX — Z2\\\ где Zt — центр класса St, i= 1,2. Здесь Х3 = (— 1,5,е)иХ, = A,5, е), где 0< е < < 0,125. Поэтому Из рис. 8.5 видна роль выбора индексирующего отобра- отображения v. В случае а) наглядна последовательность вхожде- вхождения классов Si в иерархию; в случае б) это невозможно уви- 1 На распечатках графа иерархии, изображенного с помощью такой индексации, обычно вместо номера уровня выводят значения меры близости р {St, S2) между классами St и S2, которые иа этом уровне образовали новый класс S = Si U S2. 9 Заказ № 291 2&7
СИ 00 v 9 8 7 6 5 4 3 2 1 О h б) I | 89 10 Рис 8 5 Изображение графа иерархии 5 множества Х={хи ..., Х\0) из примера 8.3 a) v(S)=&, где й —номер шага, на котором 5 включается в s; б) vE) = |5| — 1
деть, но очень наглядно распределение тех же классов 5,- ло числу элементов в них, хотя речь идет об одной и той же иерархии s. Большое значение для визуального анализа иерархии s имеет такое построение ее графа, при котором множество 5 g s изображается точкой с ординатой v (S), соответствую- соответствующей значению р (Su S2) для множеств S^ и 52, из объедине- объединения которых оно получено. Такие изображения графа на- называются оцифрованными. Возникает задача: пусть s—бинарная иерар- иерархия множества X, получен- полученная агломеративным алгорит- *, v2 v3 мом при помощи меры бли- близости р (Sj, S2). Найти индек- Рис 8 6. Инверсия в изо- сацИЮ V ЭТОЙ иерархии, та- бражении графа иерархиче- r r скои классификации мно- кую, что жества точек из примера ,, /с 11 с \ п /с с \ /о о» 8 3 Здесь v, = {хЛ, /= 1, 2, 3, v Pi U ¦Jj) - Р W li -Jy- (&¦&) „ _ry Y\ v _/v v У5' —V*l» **2f» " $"—\*11 *2» Так как любое множество *з} 5 6s однозначно представи- мо в виде S' U S", S' (] S" = 0 для некоторых S' и S" из s, то формула (8.8) вместе с условием v ({X,}) = =0, X, 6 X, i = 1, .... п, однозначно задает отображение v на s. Таким образом, сформулированная задача эквива- эквивалентна следующей: для каких мер близости р (Su S2) отображение v, зада- задаваемое формулой (8.8), является индексацией. Пример 8.4. Пусть X = {Хи ..., Х„} — набор то- точек в евклидовом пространстве Rp и р (Su S2) = \\ZX — — Z2||2, rfleZ, — центр класса S, cz X, i — 1,2. Тогда ото- отображение v, задаваемое формулой (8.8), не является индек- индексацией. Действительно, для точек {Х^ ..., Xj0} из примера 8.3 имеем в случае Sx = {Xlt Х2} и 52 = {Х3}: Z, = (- 1,5, 1), Z2 = Х3 и р (Slt St) = A - еJ, где е > 0. Таким образом, для v (S) = р (Slt 52) получаем: S, с S = S,U S2> но vE) = (l— e — противоречие с определением индексации. Если же мыс- мысленно для такого отображения v изобразим граф иерархии по правилу, описанному выше, то на этом изображении полу- получим следующий фрагмент (рис. 8.6), где вершина, соответст- соответствующая объединению двух подмножеств, лежит по оси ор- 9* 259
динат ниже, чем вершина, соответствующая одному из этих подмножеств. В этом случае говорят, что мера близости име- имеет инверсии. В § 8.4 приведены условия на меру близости, обеспечивающие отсутствие инверсий у нее. Ряд важнейших мер близости р (Su S2) этим условиям удовлетворяет (см. теорему 8.1). 8.4. Приложения общей рекуррентной формулы для мер близости между классами 8.4.1. Расчет матрицы взаимных близостей классов данного уровня иерархии. Рассмотрим более подробно переход от разбиения S**-1) к разбиению Slk), k<.n — 1, на k-u шаге агломеративного алгоритма. Имеем 5<*-х> = (Sf-1) S1*-^)- Вычислим матрицу взаимных расстояний р**) между классами разбиения 5**-1) и найдем пару классов E', 5"), такую, что 'E', 5")=arg min pfSJ*-1», S<*-") Пусть S' = Sf-1) и 5" = S)*-1), где i < /. Тогда по- положим 5^ = 5Ги, 1Ф1, i, n-k+l. Sj*> = Следовательно, для получения матрицы взаимных расстоя- расстояний р<*> можно воспользоваться матрицей р**), вычислив дополнительно только расстояния рE1*), 5^'), / Ф- i при фиксированном L Так как S[k) = S[k~1'> {] 5**"), то для этого оказывается полезной рекуррентная формула Жамбю [248]: рE, S'{jS")=a1p(S, S') + a2p(S, S") + обобщающая формулу Ланса и Вильямса E.9). 8.4.2. Условия на меру близости, обеспечивающие отсут- отсутствие инверсий. Эти условия дает результат, полученный Г. Миллиганом [248]. Теорема 8.1. Пусть s — иерархия на множестве X, полученная при помощи меры близости р (Sx, 52), для кото- которой верна формула (8.9). Тогда, если ах + а2 + а3 > 1, a.j > 0 для j = 1, 2, 4, 5, 6 и а, > — min (а^ а2), то ото- отображение v: s-y-R1, задаваемое формулой v EX U 52)= 260
= p (Slt S2) и условием v ({Xt}) = 0, t= 1, ..., n, являет- является индексацией. Пример 8.5. Пусть X = {Хи ..., Хп] — набор то- точек в евклидовом пространстве R" и \x-zf- 2 \x-zlf- s2 X6S, (8.10) где Z, Zx и Z2 — центры классов 5t U S2, 5j и 5г. Тогда верна формула p(S, 5'U 5") = —pi^__p(S, S')+ *"?' . X х рE, S') -4—гРE', S") (ср. с формулой E.10), где п = \S\, n' = \S'\ и п" = = \S"\. В обозначениях формулы (8.9) имеем: п~\-п' п-\-п" п а*~ п + п' + п" в*~ п + п' + п" ' "*-- п + п'+п"' flft = = 0, ft = 4 7. Имеем % -f a2 + аз = 1, т. е. все условия теоремы Г. Мили- гана выполняются и поэтому мера близости (8.10) не имеет инверсий. Замечание. Из (8.10) следует, где пх = |5Х|, п2 = |52|. Таким образом, введение множите- множителя ¦ * * позволяет исправить инверсию меры близости р (Slf is2) = || Zx—Z2||2 из примера 8.4, которая удовлет- удовлетворяет формуле (8.9) с параметрами: , at= П\П* Здесь 0x4-^ + 03= 1 - , П\П*,. < 1. 8.4.3. Алгоритм гибкой стратегии иерархической классифи- классификации. Формула Жамбю (8.9) позволяет обобщить гибкую стратегию Ланса и Вильямса [150]. Пусть исходная информация о классифицируемых объек- объектах представлена в форме матрицы взаимных расстояний 261
P — (Pjv)i 1 ^= (> / <i л- В алгоритмах гибкой стратегии рас- расстояние между классами р (S1; S2), где |Si|-|S2| > 1, за- заранее не фиксируется, как это делается обычно, а настраива- настраивается в ходе классификации. Положим р@> = р. Пусть, по индуктивному предположению, известны матрица взаим- взаимных расстояний р**-1) между классами разбиения Sik~l\ k= 1, ..., п — 2, и индексирующее отображение v: S**-1) -> ->- jf?1. Напомним, что v на S<0)— нулевое отображение. Тогда, подобрав любым способом параметры аъ ..., а7, удов- удовлетворяющие теореме 8.1, получаем возможность при помо- помощи формулы Жамбю вычислить матрицу взаимных расстоя- расстояний р**' между классами разбиения S(K), а при помощи фор- формулы v (S1 U S2) = p (Slt S2) — индексирующее отображе- отображение v: 5<й> -у R1. 8.4.4. Процедуры иерархической классификации, использу- использующие пороговые значения. Как уже отмечалось выше, трудности реализации классических алгоритмов иерархи- иерархической классификации (см. п. 8.2.2) быстро растут с ростом числа п классифицируемых объектов. Это объясняется тем, что на k-м шаге алгоритма для каждого k = 1, ..., п — 1 приходится искать минимальный элемент в матрице взаим- взаимных расстояний pf*-1), т. е. находить минимальный элемент в массиве из Nk^x = (п — k + 1) (n — k)l2 чисел. Ясно, что минимальный элемент в матрице р<*~1) достаточно ис- искать среди ее элементов, не превосходящих некоторый по- порог с, а массив таких элементов при соответствующем выбо- выборе порога с содержит элементов намного меньше, чем Nh-X. В связи с этим разрабатываются процедуры иерархической классификации, использующие пороговые значения. Об- Общая схема подобных процедур следующая: задается или фор- формируется в процессе классификации последовательность порогов сг<С Съ<С ... < ct. На первом этапе алгоритма по- попарно объединяются элементы, а затем и классы, меры бли- близости которых не превосходят сх. На втором этапе — с2 и т. д., пока все элементы не объединятся в один класс. Эффек- Эффективность таких процедур существенно зависит от внутренней структуры исследуемого множества объектов, от выбора по- последовательности пороговых значений съ ..., ct и меры бли- близости р (Si, S2) между классами. Сравнительно недавно было показано, что если мера близости р (Slf S2) обладает свойст- свойством редуктивности (см. определение 8.7), то процедуры ие- иерархической классификации, использующие пороговые значения, позволяют построить точно такую иерархию, что и классические агломеративные процедуры, но рабо- работают они существенно быстрее последних [249f. Этим вопросам посвящен § 8.5. 262
Опишем свойство редуктивности мер близости и способ его проверки. Пусть s = {S<°> с: ... с: S^-1) с: S<*> с: ... } — бинар- бинарная иерархия, полученная агломеративным алгоритмом при помощи меры близости р (Slf S2) и SJ*-1), Sj*-1)— пара классов, которая объединяется в один класс на k-м уровне иерархии. Определение 8.7. Мера близости р (Slt S2) обла- обладает свойством редуктивности (является редуктивной), если для любого класса S/? S<*-1> , k = 1, ..., n—1, и по- порога с > О, такого, что р (S}*~1\ S}*~n) <C с, из условий Р (Si, Sg~l)) > с и р (Si, S/*-!)) > с вытекает, что р (Sh sikr1' \js?-ir)>c. Для мер близости р (Slt S2), удовлетворяющих формуле Жамбю (8.9), свойство редуктивности проверяется при по- помощи следующего теоретического результата: Теорема 8.2 (Диде). Если параметры at,..., а, меры близости р (Slt S2) удовлетворяют условиям аг -\- а2 + ^| >{ар1>__ min (flii aa)i a. > о, / = 1, 2, 4, 5, 6, то мера близости р (Slt S2) является редуктивной. Сравнивая утверждения теорем 8,1 и 8.2, получаем, что для каждой редуктивной меры близости р (Slf S2) ото- отображение v :s -»¦ 7?1 : v (St U 52) =¦ p (Slt S2) является ин- индексацией соответствующей ей иерархии s. Пример 8.6. Для меры близости р (Slt S2) из примера 8.5 имеем: аг + аг + —^— = 1, т. е. приращение внут- внутриклассового разброса при объединении классов является редуктивной мерой близости между классами. Другие важ- важные примеры рассмотрены в § 8.5. 8.5. Быстрый алгоритм иерархической классификации Опишем сначала основной блок алгоритма. Пусть X = {Xlt ..., Хп) и р (Slt S2) — некоторая мера близости между подмножествами из X. Выберем порог с. Из матрицы взаимных расстояний рх = (pjj = р (Хг, Xj)) выберем массив Wc = (р^ : р^<Сс). Допустим, что Шаг А. Найдем р*./, = пш1рц. 263
Объединим точки Хи и X и в один класс {Хи, X}t), которому присвоим обозначение Хп+1. Положим * X ={Xi, ..., Xit, ..., Xlt, ..., Хп, Хп+1}, где . — символ удаления элементов. Сформируем массив WI из матрицы взаимных расстоя- расстояний множества рхь включив в него: ри, если ptj?Wc и {i, /}П0*, /*}= 0; Pi,n+i=P(Xh Xn+i), если p7i^Wc или р{/.€^с» причем рг,п+1<с. Таким образом получаем пару (X1, Wi). Если W] Ф 0, то описанный шаг А можно повторить. Итогом работы рассматриваемого блока алгоритма явля- является последовательность пар (X, We), (X1, Wi), ..., (X't Wi), 1«?/<л—1, где Xft — множество, полученное из X*-1, k ^ 1, объеди- объединением двух каких-либо элементов, №* — массив, сформи- сформированный из матрицы взаимных расстояний множества X* и W'c — пустой массив. Схема алгоритма 1. Задаем множество X = {Xlt .... Хп} и меру близости Р (Si, S2). 2. Выбираем значение порога с0 и формируем массив Wc. Например, с0 выбирается так, чтобы qx |X| ^ \We\ < ^^2|Х|, где qu ц.г — числовые параметры. 3. Применяем к (X, Wc) процедуру основного блока алго- алгоритма. В результате находим множество X', для которого Wlc= 0. По построению элементам множества X' соответ- соответствуют непересекающиеся классы из Х,т. е. X' — разби- разбиение множества X. 4. Если |Х'| > 1, то возвращаемся к шагу 1, заменив X на X'. (В алгоритмах гибкой стратегии заменяется и мера близости.) Если |Х'} = 1, то заканчиваем, работу алгоритма. Итогом работы алгоритма является бинарная иерархия на X, но в общем случае эта иерархия не совпадает с иерар- иерархией, получаемой классической агломеративной процедурой при помощи меры близости р (S1( S«)..Соответствующий при- 264
мер нетрудно привести для меры близости р (Slt Sa) = | |Zj — — Z2||2, где Zu Z2 — центры классов. В то же время, как уже отмечалось, для редуктивных мер близости (см. определение 8.7) описанная процедура представляет собой ускоренный вариант классической аг- ломеративной процедуры. Приведем важнейшие редуктивные меры близости. Про- Проверка опирается на теорему 8.2 и проводится в терминах параметров ах, ..., а, общей рекуррентной формулы для мер близости. /Оз — | Оз I \ Положим ах + аг + I I = 6 и min (аь а2) =—d. Тогда, по теореме 8.2, если параметры аъ ..., а7 таковы, что b>\, aj^O, \— 1, 2, 4, 5, 6 и d < а,, то определяемая ими мера близости р (Sx, S2) редуктивна. Для краткости указываем только наименование меры близости: 1) «ближайший сосед» E.4): а 0 3 6=1, d=—L = a7; 2) «дальний сосед» E.5): al = a1 = fl7 = -i-' ^ = 0« 6=1, d=—i-<fl7; 3) средней связи E.7): 4) приращение статистического разброса при объединении классов (см. примеры (8.5 и 8.6)). ВЫВОДЫ 1. Введены понятия иерархии s на множестве объектов Х= = {Хи ..., Х„} и графа иерархии. 2. Общая постановка задачи иерархической классификации состоит в требовании построить иерархию s на исследуе- 265
мой совокупности объектов, отражающую наличие одно- однородных, в определенном смысле, классов и взаимосвязи между этими классами. 3. В основе алгоритмов иерархической классификации ле- лежит тот или иной критерий качества Q (St,..., Sk) разбие- разбиения множества S на подмножества Su ... ,Sk. Обычно ис- используются бинарные алгоритмы (fc= 2). В этом случае Q (Slt S2) имеет смысл близости р (Slt S2) между множест- множествами Sj и S2. Мера близости р (Slt S2) либо фиксирована, либо меняется (настраивается) в ходе алгоритма. В по- последнем случае говорят о гибкой (адаптивной) стратегии классификации. 4. Алгоритмы иерархической классификации бывают: а) дивизимные, результатом которых является система вложенных разбиений S<°> гэ S*1' гэ ... гэ S'"-1* множе- множества X, где S<°> = X и S<*> = (S<*>, .... Si%i)— раз- разбиение X на непересекающиеся классы, называемое разбие- разбиением &-го уровня. Переход с &-го уровня на (к + 1) осу- осуществляется разбиением некоторого класса S\k) на подклас- подклассы S\, S%, где (S7, S|) = arg max p(Slf S,); б) агломеративные, результатом которых является система вложенных разбиений S(O)c:SA) c= ... с: S<"~i> множества X, где S<°> = (Хи ..., Хп) и S<fc) = (SJ*> S?L») — раз- разбиение й-го уровня. Переход с й-го уровня на (k + 1)-й осуществляется объединением пары классов (S*, SI), где min p(S1, S2). ss ^. Существенным преимуществом алгоритмов иерархиче- иерархической классификации является возможность изображения на плоскости графа полученной иерархии, называемого графом классификации. Имеется большая свобода в по- построении на плоскости данного графа классификации. Изучая различные изображения, согласованные со струк- структурой этого графа, можно получить ряд тонких резуль- результатов об исследуемом множестве объектов. 6. Описана общая схема построения на плоскости графа классификации. В основе построения лежит понятие ин- индексации иерархии, которая представляет собой отобра- отображение, ставящее в соответствие каждому классу S число v (S) таким образом, что v (S) = 0 тогда и только тогда, 266
когда 5 состоит из одного элемента, и v (Sr) < v(S), как только S'czS. 7. Для визуального анализа иерархии s большое значение имеет построение на плоскости такого изображения ее графа, при котором классу S (: s соответствует точка с ординатой v (S) = р (Slt S2), где Sx и S2 — классы, из объединения которых получен класс S. Такие изображе- изображения называются оцифрованными. 8. Важнейшие меры близости р (Slt Sa) описываются общей рекуррентной формулой (8.9). В терминах параметров ах, ..., а7 из (8.9) а) даны условия, достаточные для существования оциф- оцифрованного изображения графа классификации, соответст- соответствующего мере близости с этими параметрами; б) описана общая схема построения алгоритмов гибкой стратегии иерархической классификации; в) описана общая схема процедур иерархической клас- классификации, использующих пороговые значения, но дающих тот же результат, что и классические агломеративные про- процедуры. В рамках этой схемы описан быстрый алгоритм ие- иерархической классификации, позволяющий получать иерархическую классификацию больших массивов данных на ЭВМ средней мощности, в частности на персональных компьютерах. Глава 9. ПРОЦЕДУРЫ КЛАСТЕР-АНАЛИЗА И РАЗДЕЛЕНИЯ СМЕСЕЙ ПРИ НАЛИЧИИ АПРИОРНЫХ ОГРАНИЧЕНИИ 9.1. Разделение смесей при наличии неполных обучающих выборок Здесь и далее в главе рассматриваются процедуры кластер- анализа и разделения смесей распределений, когда у ис- исследователя имеется некоторая априорная информация от- относительно желаемой классификации, задаваемая в виде тех или иных ограничений. Иногда возникает ситуация, когда исследователю извест- известна принадлежность некоторых объектов из матрицы данных X к некоторым компонентам смеси или кластерам (классам). Дальше будем считать без ограничения общности, что имеют- имеются обучающие выборки (ОВ) {Х}^/ =A, /) для /первых клас- классов и объем такой выборки vj. Суммарный объем таких выбо- 267
рок v = Sv^ <^ n и не позволяет воспользоваться процеду- процедурами дискриминантного анализа. Количество ОВ (/) может быть меньше количества выделяемых классов k. 9.1.1. Модификация ЕМ-алгоритма. ЕМ-алгоритм для оцен- оценки параметров смеси распределений описан в § 6.4. Этот алго- алгоритм носит итерационный характер, на каждом шаге /, в частности, пересчитываются вероятности принадлежности /-го объекта X,- к /-му классу по формуле F.9) 6У-") / 2 Pif[Xt; в}'»). (9.1) Модификация алгоритма при наличии неполных ОВ состо- состоит в том, что для объектов, которые в них содержатся, значе- значения g\P корректируются следующим образом [66]: если объ- объект Xj принадлежит ОВ для r-го класса, то $} = 0 (/ Ф г, 1=ТГЩи &= 1. Эффективность использования неполных ОВ весьма ве- велика. Имеются примеры, когда использование ОВ, состав- составляющих примерно 10 % исходной выборки, приводило к резкому улучшению результата разделения смеси 1. 9.1.2. Разделение смеси с неизвестным числом классов. Рассмотрим случай смеси нормальных распределений с рав- равными матрицами ковариаций, число компонентов k которой неизвестно. Кроме того, имеются неполные ОВ, так же как и в п. 9.1.1. Вычислительная'процедура состоит из следующих ша- шагов [66]. Шаг 1. Вычисляются оценки векторов средних значений Xj (/ = 1, /) и общей матрицы ковариаций 2V_/ по непол- неполным ОВ. Нижний индекс указывает число степеней свобо- свободы, соответствующее оценке матрицы ковариаций. Далее для измерения расстояния между объектами Xi и Хт ис- используется расстояние Махаланобиса * (Xit Хт) = (X, - Хт)' 2>1/ (Xt -Хг). (9.2) Пусть теперь h — вектор размерности п, у которого /-я компонента равна номеру класса для объекта Xi. Прирав- Приравниваем к нулю компоненты h, а объектам из ОВ присваива- присваиваем соответствующие номера. Текущее значение числа клас- 1 Hosmer D. W. Jr. A compargsion of Iterative Maximum Like- hood Estimates of the Parameters of a Mixture of Two Normal Distribu- Distribution under Three Different Types of Sample //Biometrics. — 1973. — Vol. 29.— P. 761—760. 268
сов т полагается равным /. Значение счетчика числа клас- классифицированных объектов v = 2 vi> гДе vi — объемы ОВ. / Шаг 2. Обнуляются счетчики числа классификаций объ- объектов т] и числа случаев образования новых классов \. Проведем последовательный просмотр неклассифици- неклассифицированных объектов, т. е. объектов Xt, для которых /г,- = 0. Пусть Xt — такой объект. Тогда вычисляются расстоя- расстояния от Xt до центров уже образованных классов d? (Xt, величины tj = ^I7Ov-m) * {Xi' *'> И значения F (t)) функции ^-распределения с р и v — т — р + 1 сте- степенями свободы от /*. Вычисляется fj= 1 — F (t)). При сде- сделанных допущениях (нормальность, равные матрицы кова- риаций) величина fj равна вероятности реализации расстоя- расстояния от Xt до Xj, большего или равного t) при условии, чта X, действительно принадлежит /-му классу. Пусть теперь /max= max fh /max=argmax fjy т.е. fmBX = fjmtLX. Относительно объекта Xi принимается одно из трех реше- решений: 1) если /max > clf то объект Xt относится к классу с номером /тах и проводится корреляция оценки Х^тах и S: . (9-4) Используя формулу Бартлетта 1129], получаем скорректи- скорректированную обратную матрицу (9.5) /„,„; 269
2) если /max< С2. то считается, что объект Xt принад- принадлежит некоторому новому (т + 1)-му классу; счетчик чис- числа классов т увеличивается на 1 (т = т + 1) и полагает- полагается, Хт = Xit к, — m; I = I + 1; v = v + 1; 3) если выполняются неравенства ~сг < /max < Clt то никаких действий не проводится. Если просмотр объектов не окончен, то переходим к про- просмотру следующего объекта. Шаг 3. Проверяется, все ли объекты расклассифициро- расклассифицированы, т. е. равенство v = п. Если оно выполняется, то про- производится переход на шаг 5, в противном случае на шаг 4. Шаг 4. Проверяются значения счетчиков ц и ?. Если хо- хотя бы один из счетчиков не равен нулю, то переходят на шаг 2. Если одновременно т) = 0 и I = 0, то, следовательно, на шаге 2 не было образовано ни одного нового класса и не бы- было классификации объектов. Поэтому проводится умень- уменьшение порога сх на величину 6^ и увеличение порога с2 на величину бс2, т. е. сг = сг — 6clt с2 = с2 + бс2. Таким обра- образом, увеличиваются возможности классификации объектов и образования новых классов (принятые при реализации ал- алгоритма значения бсх = 0,01 и бс2 = 0,001). Производит- Производится переход на шаг 2. Шаг 5. Проводится реклассификация исходной совокуп- совокупности объектов X так же, как на шаге 2, но при сг = 0 и без пересчета оценок статистических характеристик Xj, S. Полученная классификация считается окончательной. 9.2. Классификация при ограничениях на связи между объектами Довольно типичной является ситуация, когда исследова тель желает получить разбиение совокупности объектов Ои ..., Оп на классы, согласованное с матрицей ограниче- ограничений В = (Ьи), 1 < /,/ < п, где bij = Ьи, Ьц = 1 и bu = Q, I Ф j, если объекты Ot и Oj, по априорным сведениям, являются разнородными, и btj = 1, если таких сведе- сведений об объектах Ог- и Oj нет. Например, в задачах формиро- формирования нескольких экспертных комиссий для анализа неко- некоторой производственно-экономической системы объектами группировки являются эксперты, описываемые их профес- профессиональными показателями, но при формировании комис- комиссий желательно учитывать особенности взаимоотношений между экспертами. В ряде задач, где объекты описываются 270
данными измерений, проб и т. п., при классификации часто необходимо учитывать качественную однородность этих объектов. Приведем примеры построения матриц ограничений В= = (btJ), 1 < i, / < п. Пример 9.1. Пусть (У cz О = @^ ..., 0„) — под- подмножество объектов, объединенных общностью какого-либо показателя щ, скажем, в задачах социологии, демографии и т. п. Допустим, что набор показателей nt, I < t < Т поз- т воляет представить О в виде объединения U О', вообще го- говоря, пересекающихся подмножеств О'. Тогда для пары объ- объектов Ot и Oj положим btj = 0, если не существует ни од- одного показателя ль объединяющего их, и btj = 1, если {О,-, Oj} а О1 для некоторого t. Пример 9.2. Пусть исследуемый объект Ot описыва- описывается точкой Xt — (л;,-1', ..., х\р)) 6 Rp, причем набор при- признаков х\ х(р), таков, что для некоторого порогового значения с можно, априори, сделать вывод: если \\Xi — — Х]\\ > с, то объекты О,- и Oj не являются однородными. Тогда положим Ьи = 0, если \\Х[ — Х}\\ > с, и bi}- = 1, если \\X, — Xj\\ <c. Пример 9.3. Пусть объект О,- описывается парой (X,,Zi), где X; =¦ (х\1), ..., х\р))—вектор признаков, под- поддающихся измерению, a Z; = (Zf'\ ..., zf?)) —вектор при- признаков, для которых не существует объективно обусловлен- обусловленной шкалы, скажем, г\ч) — выраженное в баллах мнение ^-го эксперта об i-u объекте. Допустим, что существует ме- мера близости р' (Z,-, Zj), такая, что для некоторого порогово- порогового значения с из условия р' (Zt, Zj) > с вытекает, что объек- объекты О, и Oj заведомо не являются однородными. Тогда поло- положим bij = O, если р' (Zt,Zj) > с, и btj= 1, если р' (Zb Z) Итак, пусть имеется совокупность объектов О = (Ог, ..., 0„), исходная информация о которых представлена либо в форме матрицы объект — свойство X = (х[п), 1 < i < < п, 1 < / < р, и матрицы ограничений В = (btj), 1 < /, / < п, где Ьц = 0 или 1, либо в форме матрицы р = (р^), 1 < i, j < n взаимных близостей между объектами, причем в этой матрице пропущены элементы р^, где (i, /) — пары ин- индексов, для которых btj = 0. Опишем схему соответствующего агломеративного ал- алгоритма иерархической классификации. 271
Схема алгоритма 1. Выберем меру близости р (Slt 52) между подмножест- подмножествами исследуемой совокупности. Подадим на вход алгорит- алгоритма разбиение 5° = E?, ..., 5*) на одноточечные классы 5* = {Xf} и матрицу ограничений В = (Ьг/}. 2. Допустим, что на т-и шаге имеется разбиение S" ==¦ = (S"~\ ..., Sn-m+i), 1 <т <л— 1, и матрица ограни- ограничений В"»-1 = ФТГ1), 1 < i, J < п — m + 1. Найдем Объединим классы S?-1 и S™ в одни класс и получим раз- разбиение Sm ~ (S™ 5^_'т), где Sjt = 5^-1, если /=т^'*> /*» п—т+ 1; Далее, получим матрицу ограничений Вт = (Ь^), где bi}=b?rl>если ГО, если 6fy1-f-b^-1 = 0; '•' [1, если b^-l+bfjl^0, /#/*; {О, если б!" 1, если б,".Гп—+ bTlt = b"-Jm+l, если iФ^. 3. Если Вт — единичная матрица, то объявляем раз- разбиение 5т итоговой классификацией. Если вне диагонали матрицы Вт имеются ненулевые элементы, то возвращаем- возвращаемся к шагу 2, заменив m на m + 1. Результатом работы алгоритма является последователь- последовательность разбиений S°cz...cz Sk. где 0 <& <я— 1, при- причем каждое разбиение 5е = (Sf, ..., 5*_,) согласовано с матрицей ограничений В в следующем смысле: если объекты Ot и Oj попадают в один класс, скажем 5?, 1 < / < п — 1, то в этом классе обязательно содержится цепь объектов Ои Oit Oljn_v О,, m ^ 1, такая, что bitti ... bim_l} = 1. Все результаты об агломеративных алгоритмах иерар- иерархической классификации (см. гл. 8) естественным образом распространяются на описанный выше алгоритм классифи- классификации при ограничениях на связи между объектами. 272
9.3. Классификация иа графах Опишем методы и алгоритмы классификации, основанные на представлении исходной информации о классифицируемых объектах в виде графа близости G = (V, E), вершины »i,..., оп 6 V которого соответствуют объектам 0±,..., 0п, а ребра вц 6 Е, с Ф j, соединяющие вершины vt и Vj — неупорядо- неупорядоченным парам @г, Oj), 1ф j, т. е. вц = вц. Длина ребра etj считается равной рг]- для выбранной меры близости меж- между объектами О, и О/. В изложении будем существенно опираться на работу Д. В. Матулы из [83, с. 83—111]. 9.3.1. Основные понятия и определения. Предварительные сведения из теории графов приведены в [12, п. 4.2.1]. Определение 9.1. Граф G = (V, Е), где V = = {»!,..., vn}, Е = (ец), называется полным, если любые его две вершины о,- и v}- соединены ребром etJ ? Е. Например, граф близости G = G (О) совокупности объек- объектов О является полным. В задачах классификации при нали- наличии ограничений на связи между объектами (см. § 9.2) ис- используются неполные графы (В-графы близости, где В = = (Ьи)), полученные из полного графа близости удалением ребер etj при условии, что Ьц — 0. Определение 9.2. Пусть G = (V, Е) — некото- некоторый граф. Вектором инцидентности вершины vt называет- называется вектор a>i = (ша, ..., win), где Wij = 1, если вц 6 Е, и Wij — 0, если ei} | E1. Степенью вершины vt в графе G называется число dt (G) — п — dt = 2 wij- Ясно, что граф G полный тогда и только тогда, когда степень любой его вершины равна п — 1. Определение 9.3. Подграф G' ? G называется максимальным по отношению к некоторому свойству F (F-максимальным), если G' обладает свойством F и в G не существует подграфа G", обладающего свойством F, такого, что G' cz G cz G, G' ф G" Ф G. Пример 9.4. Пусть О' cz О = {Olt ..., Оп) и V cz cz V — соответствующее подмножество вершин графа бли- близости G (О) = (V, Е). Тогда среди всех подграфов с множе- множеством вершин V максимальным является граф близости G (О'). 1 Обратим внимание, что Шц = 0 для всех i, т. е., как и в [12], рассматриваем только простые графы, у которых ребра, соединяю- соединяющие вершину с собой, отсутствуют. 273
Напомним, что граф G — (V, Е) называется связанным, если любые две его вершины v(, v} можно соединить последо- последовательностью ребер {et , tq+lt q = О, ..., т—1, т ^ 1}, где et<>ti = ?;,«.> ae*TO-i'm — e*m-i" т- е- связать вершины vt и v, путем» Определение 9.4. Максимальный связанный под- подграф G' = (V, Е') графа G = (V, Е) называется компо- компонентой. Пусть G' = (V, Е') и G" = (У", Е") — две компонен- компоненты данного графа G = (V, Е). Тогда непосредственно из оп- определений вытекает, что V' и V, как подмножества в У. имеют пустое пересечение. 9.3.2. Алгоритм выделения компонент графа. В рамках общего подхода, изложенного в [83, с. 83—1111, каждый метод классификации на графах опирается на процедуру выделения соответствующих F-максимальных подграфов. Более подробно рассмотрим это в п. 9.3.4. Здесь же опишем процедуру, лежащую в основе ряда известных методов, свя- связанных с выделением компонент графа. Исходя из некоторой модели класса, описываемой в тер- терминах теории графов (см. п. 9.3.3 и 9.3.4), строится подграф G' графа близости G (О) = (V, Е) с тем же множеством вер- вершин V, т. е. G' = (V, ?"). гДе Е' получается из Е удалением ребер, не отвечающих модели класса. Затем применяется алгоритм выделения компонент G[ = (V{, E{), ..., G'k = = (V'k, E'k) графа G' = (V, ?") и тем самым находится раз- разбиение множества V на подмножества Vlt ..., Vh, т. е. клас- классификация множества объектов О. Указанная процедура, примененная к В-графу близо- близости, позволяет провести классификацию при наличии мат- матрицы ограничений В на связи между объектами. Определение 9.5. Подграф G' = (V, ?") неко- некоторого графа G — (V, Е) называется G-полным подграфом (короче, G-подграфом), если любое ребро из G, соединяющее какие-либо вершины из G'', принадлежит G', т. е. Е' = {е,-/ 6 EV'} Непосредственно из определения получаем: 1) существует взаимно-однозначное соответствие между подмножествами множества вершин V и G-подграфами гра- графа G = (V, Е); 2) каждая компонента G' графа G является его G-подгра- G-подграфом. Опираясь на эти утверждения, опишем основной этап алгоритма. 274
Шаг А. Пусть G1 = (V1, Е^-связанный подграф графа G = (У, Е) и V1 = К, ..., vtj с V = {v,, ..., vn}, m < < л. Положим У2 = {vj 6 V : eHt ? Е, t = 1, ..., т), т.е. введем множество вершин в G, связанных с вершинами из G' хотя бы одним ребром. Тогда G-подграф G2 = (У2, ?2) графа G, соответствующий множеству вершин У2, будет связанным. Если У2 = У1, то получаем, что G2 является ком- компонентой, содержащей данный граф G1. Если V2 ф V1, то аналогично построим множество вершин V3 и G-под- G-подграф О3=(У3, Е3), соответствующий множеству вершин V3. Так как V — конечное множество, то последовательность множеств V'1 с: У2 с: V2 а ... стабилизируется, т. е. V = = Vq+l для некоторого q и получим G-подграф & = (У*, Еч), являющийся компонентой графа G, содержащей дан- данный граф (?. Замечание. Программную реализацию шага А можно провести, оперируя только векторами инцидентно- инцидентности вершин (см. определение 9.2). Итак, на вход алгоритма выделения компонент подается связанный граф, например граф близости (vu 0) первой вер- вершины. Применяя шаг А, получаем компоненту Gx = (Ух, •Ej) графа G = (У, Е) и переходим к выделению компонент графа (У\ Vu E\Ei) и т. д. до тех пор, пока не исчерпаем все исходное множество вершин V. 9.3.3. Алгоритмы классификации, использующие процедуру выделения компонент графа. Рассмотрим матрицу взаим- взаимных близостей р = (р,у = р @г, 0}), 1 <л, / < л), между классифицируемыми объектами Оъ ..., 0п. Без ограничения общности можно считать, что 0 < piy < 1, причем р,; = О тогда и только тогда, когда i = j. Пусть 0 = с0 <С с1 < ... < ст — 1 — некоторая последовательность пороговых значений. Тогда определена последовательность подграфов графа близости G (О) = (У, Е) : G° s G1 s ... s Gm, где G' = (У, Е') и Е* = {el} 6 E : pl} < ct}. Заметим, что G° = (У, 0) и С" = G. Граф G* называется графом бли- близости на уровне ct. Опишем сначала общую схему алгоритмов. Параметром алгоритма является оператор U, ставящий в соответствие последовательности графов (??...?(}"" последовательность графов G" s ... s G^", где G* = (У, ?'), и Ei получается из Е* удалением некоторых связей в соответствии с выбранной моделью классов. Основные при- примеры операторов U рассмотрены в конце этого и в следую- 275
щем пункте. Ясно, что G° = G°, а в тех случаях, когда нет априорных ограничений, на связи между объектами, то и G™ = Gm. В общем случае граф О" представляет собой В- граф близости, где В = (bti) — матрица ограничений на связи между объектами. Схема алгоритма 1. На вход подается граф G0, множество его компонент задает разбиение совокупности объектов 0г, ..., 0п на одно- одноточечные классы. 2. На вход t-ro шага, t > 1, подается граф <У~\ разби- разбитый на компоненты G[~i, ..., GlJ, и граф С. Так как С cz G', то каждая компонента графа G' является связанным подграфом графа G*. Поэтому можно, начиная, например, с G{~1, при помощи алгоритма выделения ком- компонент (см. п. 9.3.2) получить компоненту G{ графа G и перей- перейти к выделению компонент графа G'\G[. Так как компо- компоненты графа не пересекаются, то компонента графа С может входить только в одну компоненту графа G'. Следо- вательно, выделение компонент в Gf\G[ можно начинать с одной из компонент графа G'~\ не вошедших в G[, и т. д. до тех пор, пока не будут выделены все компоненты графа G*. Итогом ?-го шага является разбиение графа G1 на компонен- компоненты д[, ..., Gk и, следовательно, разбиение множества вер- вершин V на непересекающиеся подмножества V[, ..., Vlt. Соответствующая классификация (S[, ..., Sit) множест- множества объектов называется классификацией на уровне ct. Алгоритм заканчивает работу на т-и шаге. В результате получаем последовательность вложенных раз- разбиений 5° с: S1 а ... cz Sm, т. е. иерархию на множестве объектов О. Рассмотрим теперь наиболее известные примеры алго- алгоритмов, основанные на простых моделях классов и соответ- соответственно простых операторах U. Построение операторов U для более сложных моделей классов требует привлечения 276
результатов теории графов и изложено в следующем пунк- пункте. Определение 9.6. Алгоритм классификации на графах с тождественным оператором U, т. е. О = G' для всех t называется односвязывающим. В случае когда последовательность пороговых значе- значений 0 = с0 <С сг <С ... < ст = 1 совпадает с последова- последовательностью рангов для последовательности р,-у-, 1 < i, /' <п, иерархическая классификация при помощи односвязываю- щего алгоритма совпадает с иерархической классификацией, получаемой классической агломеративной процедурой по принципу «ближайшего соседа» (см. § 8.2). Алгоритм назы- называется односвязывающим, так как он соответствует модели класса, в которой каждый объект из данного класса связан с остальными объектами из этого класса по крайней мере одной связью. Определение 9.7. Алгоритм классификации на графах с оператором U, удаляющим в графах G' ребра (свя- (связи), идущие к вершинам степени, меньше k, k > 2, называ- называется к-связывающим. Название алгоритма объясняется тем, что он соответст- соответствует модели класса, в которой представитель данного клас- класса связан с остальными, по крайней мере, к связями. Определение 9.8. При данном к, к > 1 макси- максимальный связанный подграф G' графа G называется к-связ- кой, если степень каждой его вершины не меньше k. Заметим, что каждая ^-связка графа G' является компо- компонентой графа G* для оператора U из определения 9.7. Сле- Следовательно, ^-связывающий алгоритм выделяет в исследуе- исследуемом множестве объектов все ^-связки на каждом уровне близости. ' 9.3.4. Метод послойной классификации. Общий подход к построению алгоритмов классификации на графах. Рассмот- Рассмотрим сначала, какие максимальные подграфы наряду с k- связкой используются для описания структур классов. Определение 9.9. При данном k, k ^ 1, макси- максимальный связанный подграф G' = (V, Е') графа G называ- называется k-компонентой, если при любом разбиении множества вершин V на непересекающиеся подмножества V[, V'2 су- существует, по крайней мере, k связей (ребер) в ?" между под- подмножествами V[ и V2- Определение 9.10. Связанный подграф G' = = (V, E') графа G называется k-связанным, k>l, если |У |> k + 1, и удаление любых (k — 1) вершин из V оставля- 277
ет его связанным, т. е. любой подграф G" — {Vя, Е") а С, у которого |У| > |У | — k + 1 является связанным. Определение 9.11. При данном k, k ^ 1, мак- максимальный k -связанный подграф G' — (V, Е') cz G назы- называется k-блоком. Определение 9.12. Кликой графа G называется максимальный полный подграф G' = (V, Е'). Клика графа, содержащая более k вершин, называется k-кликой. Непосредственно из определений 9.8—9.12 следует: 1) для любого графа G каждая й-клика является подгра- подграфом некоторого й-блока, каждый ?-блок является подграфом Рис. 9.1. Классификация на графе. Компоненты {1 12}, {13, .... 16}; 2-связки- {1, .., 11), {14, 15, 16}; 2-компонеиты {1, ..., 7}; {8 11}, {14, 15, 16}; 2-блоки. {1, ..., 5}; {5, 6, 7}, {8, ..., 11}, {14, 15, 16}; 2-клики- {1, 2, 3, 4}, {3, 4, 5}, {5, 6, 7}, {8, ..., 11}, {14, 15, 16} некоторой ^-компоненты, которая в свою очередь является подграфом некоторой ^-связки (рис. 9.1, где k — 2); 2) любые две ^-компоненты и, следовательно, любые две ^-связки одного графа G имеют пустое пересечение; 3) пересечение любых двух ^-блоков одного графа мо- может содержать не более чем (k — 1) общих вершин. Для удобства изложения будем считать, что каждая вер- вершина графа G, не вошедшая ни в один подграф, максималь- максимальный по отношению к выбранному свойству /, формально об- обладает этим свойством. Например, будем говорить, что вер- вершина, не вошедшая ни в одну ^-компоненту графа G, сама является его ^-компонентой. При таком соглашении можно сказать, что выделение в данном графе G = (V, Е) всех его подграфов Gt = (V^Ej), ..., Gft = (Vh, Ek), максимальных по отношению к выбран- выбранному свойству F, задает покрытие множества вершин V под- k множествами Уг, ..., V\, U Vq = V. 278
В случае ^-компонент и ^-связок получается разбиение множества V на непересекающиеся подмножества, а в слу- случае ^-блоков — покрытие, каждые два множества которого имеют не более чем (k — 1) общую точку. Теперь можно описать общую схему алгоритма класси- классификации на графах как естественное обобщение схемы из п. 9.3.2. Пусть, как и выше, G° sG's .:. s Gm—последова* тельность подграфов графа G, где G*— граф близости на уровне ct. Параметром алгоритма является процедура Ар выделения в графе G* всех его подграфов, максимальных по отношению к выбранному свойству F. Эти подграфы будем называть F-компонентами графа G. Роль F- компонент, в за- зависимости от F, играют ^-компоненты, ^-связки, й-блоки или й-клики. Схема алгоритма 1. На вход подается граф G0, множество его .F-компо- нент задает покрытие совокупности объектов {0ъ ..., 0„} одноточечными классами. 2. На вход t-vo шага, t > 1, подается граф G'-1, покры- покрытый F-компонентами G^-», ..., G*^ и граф G'. Так как Qt~i ^ Qt T0 каждая F-компонента графа G' является связным подграфом в G*. На вход процедуры Ар подается граф G[-l. При помощи нее он достраивается до .F-компо- ненты G[ графа G'. Затем среди F-компонент графа С берется та, которая не вошла в G[, и при помощи той же про- процедуры достраивается до следующей F-компоненты графа G* и так далее, до тех пор, пока не будут выделены все F- компоненты G[, ..., G\ графа G'. Соответствующее покрытие (S?, ..., Si) совокупности объектов называется .F-классифи- кацией ее на уровне ct. Классы 5^. q — 1, ..., kt, могут пересекаться, как в случае классификации ^-блоками, но ни один класс не может целиком содержать другой. Алгоритм заканчивает работу на (т — 1)-шаге, так как О" является графом близости совокупности объектов, т. е. полным графом. (Это в случае, когда нет ограничений на связи между объектами, а если матрица априорных ограни- ограничений имеется, то алгоритм заканчивает работу на т-и ша- шаге.) В результате получается последовательность вложен- вложенных покрытий 5° с= S1 с ...с 5т, которая называется по- послойной ^-классификацией. В тех случаях, когда для каж- 279
дого t покрытие 5' состоит из непересекающихся классов, то /•'-классификация является иерархической, т. е. задает иерархию на множестве объектов (см. определение 8.1). Отмеченные выше взаимоотношения между F-компонен- тами для различных свойств F позволяют рассматривать в целом метод послойной классификации как последователь- последовательность уточняющих друг друга методов послойных F-клас- сификаций. Классификация ^-компонентами уточняет клас- классификацию ^-связками и сама в свою очередь уточняется классификацией ^-блоками и т. п. Эффективность алгоритмов послойных /•'-классификаций определяется эффективностью реализации процедуры Ар выделения в графе всех его /^компонент. Как следует из п.9.3.3, в случае ^-связок существует достаточно эффектив- эффективная процедура Ар благодаря тому, что каждая ^-связка гра- фа G* является компонентой графа G*, полученного из G1 удалением некоторых связей. Непосредственные процедуры Ар для F-классифика- ций, уточняющих классификацию ^-связками, очень трудо- трудоемки, и реализация их затруднена даже для относительно не- небольших совокупностей объектов. Но, привлекая резуль- результаты теории графов, удается существенно сократить наибо- наиболее трудоемкую часть процедур выделения F-компонент, связанную с перебором вариантов разбиения множества вер- вершин. Для построения алгоритмов классификации й-компо- нентами и ^-блоками большое значение имеют следующие ре- результаты, полученные К. Менгером [83, с. 102—106]. Теорема 9.1. а) Минимальное число связей, удаление которых разъединяет две какие-либо вершины графа, равно максимальному числу не содержащих общих связей путей между этими двумя вершинами; б) минимальное число вер- вершин, удаление которых разъединяет какие-либо две несмеж- несмежные (не связанные непосредственно) вершины графа, равно максимальному числу непересекающихся (за исключением концов) путей между этими двумя вершинами. Следствие 9.1. Каждая пара vlt v} различных вер- вершин й-компоненты С графа G соединена k путями подграфа G', не содержащими общих связей, причем подграф G' — максимальный подграф с этим свойством. Следствие 9.2. Каждая пара vt, Vj различных вер- вершин Л-блока С графа G = (U, E) соединена к путями под- подграфа С, не содержащими общих точек (за исключением концов), причем G' — максимальный подграф с этим свой- свойством, если \U\ ^ k + 1. 280
Опишем, например, как на основе следствия 9.1 постро- построить процедуру Ар выделения ^-компонент графа G*. Схема алгоритма 1. Применяя процедуру выделения ^-связок из п. 9.3.3, разобьем граф G* на ^-связки G[, ..., Glm . 2. Пусть G\ — некоторая ^-связка. Выделим все одно- одноточечные ^-компоненты. Согласно следствию 9.1 вершина Vi графа Ga является одноточечной компонентой тогда и только тогда, когда существует хотя бы одна другая верши- вершина Vj этого графа, такая, что а, и v} соединяет меньше, чем k путей, не содержащих общих связей. 3. Пусть (jq — подграф ^-связки Gq, у которой удалены все одноточечные компоненты. Так как любые две /г-компо- ненты одного графа не пересекаются, то G^ представляет со- собой граф, связные компоненты которого являются &-ком- понентами графа Gq. (Фактически здесь описана конст- конструкция оператора удаления U (см. п. 9.3.3) для получения ^-компонент.) Применяя теперь алгоритм выделения компо- компонент графа Gg, получаем, наконец, набор Л-компонент гра- графа Gl Применяя шаги 2 и 3 последовательно к ^-связкам Gq, q = 1, ..., mt, получаем набор всех ^-компонент графа G*. ВЫВОДЫ 1. Алгоритмы разделения смесей легко модифицируются для работы при наличии неполных обучающих выборок. Такой тип задания априорной информации весьма эффекти- эффективен — известны примеры, когда использование ОВ объема 10 % исходной совокупности резко улучшало результаты классификации. 2. Описаны методы и алгоритмы классификации в ситуации, когда исследователь желает получить разбиение объектов на классы, согласованное с ограничениями на связи между объектами. 3. Описаны методы и алгоритмы классификации, основан- основанные на представлении исходной информации о классифици- классифицируемых объектах в виде последовательности подграфов 281
G° S ... S G"» графа близости G, где G' — граф близости на уровне t-ro порога. 4. Каждый метод классификации опирается на модель клас- класса в виде максимального подграфа (/^компоненты) одного из графов близости С, / = 0, ..., т, где F — свойство клас- класса. В качестве моделей классов рассматриваются ^-связки, ^-компоненты, &-блоки и &-клики. 5. Описана общая схема алгоритмов, задающих последова- последовательность покрытий S0 с: ... cz Sm совокупности объектов 0и ..., 0„, где S' — покрытие, образованное всеми F-kom- понентами графа (?. Рассмотрены важнейшие примеры ал- алгоритмов и взаимосвязи между получаемыми с их помощью классификациями. Глава 10. ТЕОРИЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ 10.1. Математическая модель алгоритма автоматической классификации (ААК) Как и выше, предполагаем, что исходная информация об исследуемой совокупности (выборке) объектов О = (Oj,..., Оп) представлена либо в форме матрицы «объект — свой- свойство» X = {х\!)), 1 < i < п, 1 < / < р, либо матрицы вза- взаимных близостей р = (рг;), 1 <I i, / < п. В случае число- числовых признаков отождествляем объект О, с точкой Хг = = (jc,(i), ..., #!р)) евклидова пространства Rp. Начнем с развернутой характеристики компонент ма- математической модели алгоритма автоматической классифи- классификации (АК) [10, 41]. 10.1.1. Пространство состояний So- Эта компонента описы- описывает допустимые классификации, возникающие на шагах алгоритма. Так, если результатом /п-го шага является раз- разбиение S = (Sx, ..., Sft) совокупности О на k непересекаю- непересекающихся классов, то So — это пространство всех разбиений множества из п элементов на фиксированное или нефикси- нефиксированное число классов в зависимости от того, не зависит или зависит k от номера шага. В алгоритмах метода динами- динамических сгущений роль So играет пространство покрытий (см. § 7.4). В рассматриваемой модели каждый элемент S 6 So отож- отождествляется с некоторым отображением выборки О в мно- множество Z — множество значений классификаций. Состав и структура Z определяют тип решаемой задачи, т. е., по 282
существу, дают средство ответить на вопрос, какую задачу классификации предполагается решить? Например, когда Z =- {1, ..., к} — список номеров классов, то So = {s : 0-^- -*¦ Z} совпадает с множеством разбиений выборки О на k не- непересекающихся классов Определение 10.1. Будем считать, что классифи- классификация s:O->Z выборки О согласована с информацией, вы- выражаемой функцией <p:O-»-2z (обозначение s 6 ф), если s (О,) 6 ф (Ог) для любого i. В этом случае пространство допустимых классификаций будет иметь вид: So = {s : О —v -*¦ Z : s 6 ф}. Таким образом, чтобы задать пространство состояний So, необходимо формализовать задачу, т. е. указать Z и сформулировать условия, выделяющие So в множестве всех отображений из О в Z. 10.1.2. Пространство описаний L. Эта компонента связана с выбором средств информативного описания классов для до- достижения цели классификации. Например, в алгоритмах метода динамических сгущений роль L играет пространство представительств (см. п. 7.4.1). В рассматриваемой модели каждый элемент I ? L отож- отождествляется с некоторым отображением Z в Yo, где Yo— множество значений, в терминах которых выражается результат классификации. Пример 10.1. Пусть О = {Хъ ..., Хп} cz R? и Z = {1, ..., k). Тогда, если описывать каждый класс SczO его средним У,Х 6 R", то Yo = Rp и \s\ xes L = {Z -> Yo} = Rp x... X Rp = (RP)k. Пример 10.2. Пусть имеется набор опорных точек У?, ..., Y%, У$ ? Rp, причем известно, что ядро ^-го клас- класса У д, Уд 6 Rp, должно находиться в окрестности радиуса г, точки Yg, причем случай rq=0 для некоторых q не ис- исключается, то Z. = {(Kx Ул), У,€Я", ||Уд-У$|К/-д, ?=1 k). Роль опорных точек {Yg} могут играть как реальные пред- представители классов, так и точки, построенные на основе до- дополнительных сведений — формальные представители классов. Пример 10.3. Пусть предполагается описывать класс S cz О набором из т его представителей. Тогда Yo — совокупность всех т — элементных подмножеств в О. 283
Пространство Yo может иметь совершенно иную приро- природу, чем пространство измеряемых признаков. Так, если в ка- качестве ядра класса брать проходящее через центр класса линейное пространство главных факторов этого класса, то Ко является многообразием линейных подпространств в в Rp. Более того, само Yo может быть составлено из прост- пространств различной природы соответственно предположениям о природе различных классов (см. данное ниже описание мо- модели алгоритма Форель). Таким образом, чтобы задать пространство описаний L, необходимо выбрать, в каких терминах выражать резуль- результат классификации, т. е. указать пространство информатив- информативного описания классов и сформулировать условия, выде- выделяющие L в множестве всех отображений из Z в Yo. 10.1.3. Множество порций Р, в которых выборка поступает на классификацию и генератор порций G. Эта компонента вводится для того, чтобы в рамках модели можно было рас- рассматривать алгоритмы как параллельного (Р = {О,} со- состоит из одного элемента, символизирующего всю выборку), так и последовательного типа (например, если на классифи- классификацию поступает по одному объекту, то Р = О). Генератор порций G описывает способ получения из вы- выборки О порций объектов для проведения очередного шага алгоритма. В общем случае G представляет собой оператор, значение которого на (т+1)-м шаге зависит от результата классификации sm и ее описания 1т, полученных на преды- предыдущем шаге. Например, в алгоритмах, использующих по- пороговые значения (при классификации выборок большого объема), генератор G из всей выборки отбирает только те элементы, которые отстоят от ядер классов, полученных на /п-м шаге, не более чем на пороговое значение ст+1. 10.1.4. Классификатор К. Эта компонента представляет со- собой оператор из SoXL x Pв So, называемый классификато- классификатором, поскольку он определяет, что нужно сделать с имею- имеющимися средствами Yo для данного типа Z задачи АК, чтобы из предыдущего состояния sm выборки О с описанием 1т перейти в другое состояние /то+1 при поступлении очеред- очередной порции рт+1 сг О, т. е. провести переклассификацию. Частным случаем оператора К. является функция назначе- назначения g : L -> So (см. § 7.4). Обычно оператор К строят исхо- исходя из функционала F, оценивающего качество классифика- классификации согласно априорному представлению исследователя о «хорошей» классификации. П р и м е р 10.4. Опишем, как строится оператор К. в ис- исторически одном из первых и наиболее общем алгоритме разбиения на k классов методом локальной оптимизации. 284
Пусть s : 0->Z = [1, ..., k] —некоторая классификация и X 6 О. Обозначим через s (q, X) новую классификацию: s (q, X) (X1) = s (X1), если X ф X' и s (q, X) (X) = q. Фиксируем критерий качества классификации F : So -*¦ R1 и определим оператор /С : So X Р -> So для алгоритмов по- последовательного типа, т. е. когда Р = О, формулой K(s, X) = s, если F (s) =* mm F(s(q, X)); A0.1) я K(s, X)~s(q, X), где q=?s(X) и q — argmin F(s(q' Формула 10.1 для классификатора К, не налагает прак- практически никаких ограничений на вид функционала F, но в общем случае приводит к довольно медленной процедуре классификации, реализующей минимизацию функционала F способом перебора на дискретном множестве So. Пример 10.5. Предположим, что F (s) имеет вид к 2 Fq (О (q)), где О (q)=s~1 (q) и Fq {•) — критерий одно- «7=1 рода ости q-то класса, представляющий собой функцию на множестве всех подмножеств из О, такую, что F q (Sx) < < F q (S2), как только Sx с: S2. Тогда классификатор /^мож- /^можно задать следующим образом. Пусть A (q, X) = Fq (О (q) [}X)-Fq ((О (q) [} Х)\Х). A0.2) Положим K(s, X) = s, если A(s(X), X) = minA(9, Xy, " A0.3) K(s, X) = s(q, X), если q?=s(X) и ?=argmin A(q', X). </' Опишем алгоритм равномерного распределения объек- объектов по классам, в котором классификатор К действует по формуле A0.3). В этом алгоритме критерием качества раз- разбиения выборки О на классы О A), ..., О (k) является сумма попарных внутриклассовых расстояний между объектами (см. п. 5.4.1), т. е. F (s) = 2 ?q (О (<?))» где Fq(O(q))= S IXt-Xjf. A0.4) Пусть d (О (q)) — статистический разброс класса О (q), Y q — центр этого класса я п„ — число элементов в нем. За- Заметим, что F q (O(q)) = 2nqd @ (q). Пусть классификация s относит данный объект X 6 О к классу О (t). 285
Положим О' (t) = 0 (t)^X .Непосредственно из формул A0.2) и A0.4) получаем: A(q, X) = 2(d(O(q)) + nq\X—Yqf), если q^t и A (t, X) = 2(d(О' @) + (л,-1)\\X~Y't |Р), где Y't — центр класса О' (t). Таким образом, процедуру перехода к новой классификации К, (s, X) можно в этом слу- случае описать следующим образом. Дана выборка О' = О\Х, разбитая на классы О' (q}, q — 1, ..., k, где О' (q) = О (q), если q ф t. Поступает на классификацию объект X, не принадлежащий выборке О'. Рассчитываем для каждого класса О' (q) его центр Y'q, статистический разброс d (О' (q)) и число элементов n'q. Ме- Меру близости р (X, О' (q)) между элементом X и классом О' (q) задаем формулой: р(Х, О' (q))=d(Of (q)) 4-nHX-Ytf. A0.5) Тогда классификация К (s, X) относит элемент X к ближай- ближайшему классу в смысле меры близости A0.5). Классификатор К (Ю 3) применим и в случае, когда име- имеется дополнительная информация о допустимой принадлеж- принадлежности элементов к классам, т е. имеется функция ф : O->-2z (см. определение 10.1). Тогда, например в алгоритме рав- равномерного распределения объектов классификатор К (s, X) отнесет элемент X к ближайшему из классов О' (q), где Рассмотренные выше классификаторы A0.1) и A0-3) действуют только в процедурах последовательного типа1. Для построения классификатора в процедурах параллель- параллельного типа обычно используются функционалы F : SoX L-*~ -> R1 вида F(s, 0= 2 2 F«(x> l№> где Fg (X, l(q)) описывает, насколько объект X близок ядру Kg), В этом случае классификатор К. можно взять в виде: К (s, I, р) (X) » f= argvm-in F"(X' l Ш' Х ^ Р' (Ю.6) Ь(Х) х^р Ь(Х), Если функционал F q (X, Y) не зависит от номера класса q, 1 Точнее, только в процедурах последовательного типа можно гарантировать убывание глобального критерия F (s) при переходе к новой классификации. 286
то классификатор A0.6) совпадает с функцией назначения g:L^So (см. § 7.4). 10.1.5. Дескриптор D. Эта компонента представляет собой оператор из So X LbL, называемый дескриптором, посколь- поскольку с его помощью на основании предыдущего описания 1т выборки О и полученной классификации sm+1 вырабаты- вырабатывается новое, более оптимальное описание. Частным случа- случаем оператора D является функция представительства So^~ -*¦ L. В алгоритмах АК, основанных на описании классов ядрами, оператор D строят исходя из функционала F: Sx X ? ->- R1 вида F(s, l)= 2 F4(O{q), l{q)), <7=1 по формуле: D(s, l)(q)=*BTftmmFq(O(q), Y). (Ю.7) У6У Таким образом, для вычисления значений D (s, I) (q) дескрип- дескриптора D необходимо применить некоторую процедуру мини- минимизации функционала Fч @(q), Y) на Yo. Наибольшее распространение получили алгоритмы АК, в которых в ка- качестве F q (О (q), Y) используется статистический разброс класса О (q) относительно Y 6 Yo, так как в этом случае удается получить явное решение задачи минимизации и за- заменить формулу A0.7) явной формулой расчета ядра <7-го класса по элементам этого класса. Пример 10.6. В алгоритме ^-средних имеем Yo = = RPnFq@ (q), y)= 2 | |Х - ГЦ2. Поэтому хео) D(s, l){q)=—1 У X. ' ' \0(q)\ <** Пример 10.7. Опишем алгоритм типологического главного фактора [106]. Пусть О = {Х1( ..., Х„} с ^ и Z= {1 k). Ядро класса Y описывается парой (Y, v), Y?RP, v?Rp, | |t»11 = 1, а мерой близости от точки X до ядра у = (У, v) считается квадрат расстояния от точки X до прямой, проходящей через точку Y с направляющим векто- вектором v, т. е. Fq(X, Y) = UX-Y)-v' {X-Y)vf. A0.8) Допустим, что на т-и шаге алгоритма совокупность О раз- разбита на k классов 0A), ..., О (k). Статистический разброс 287
класса О (q) относительно Y = (Y, v) вычисляется по фор- формуле: Fq(O(q),Y)= 2 \(X-Y)-v'(X-Y)vf. A0.9) Минимизируя функционал A0.9) на пространстве Yo = = {Y = (Y, v), Y?Rp, v?Rp, ||o||=l}, получаем, что D (s, I), (q) = (Y (q), v (q)), где Y (q) — центр класса О (q), v (q) — собственный вектор с наибольшим собственным зна- значением ковариационной матрицы класса О (q), т. е. главная компонента этого класса. На (т + 1)-м шаге этого алгорит- алгоритма применяется классификатор A0.6), т. е. строится мини- минимальное дистанционное разбиение, порождаемое набором ядер {(Y П), v A),) ..., (Y (k), v (k))} для меры близости A0.8). Алгоритм останавливается, если новое разбиение имеет тот же набор ядер, что предыдущее. 10.1.6. Основные понятия и определения, используемые при исследовании математической модели АК. Опираясь на ма- материал п. 10.1.1 — 10.1.5, естественно дать следующие оп- определения. Определение 10.2. Моделью алгоритма АК на- называется набор его компонент (So, L, Р; К., D, G), наделен- наделенных описанной выше структурой. Определение 10.3. Движением алгоритма, от- отвечающим начальным данным s0 6 So, /0 6 ^ и р0 6 Р, на- называется последовательность (s0, /0), (slt lt), ..., (sm, lm), .... ГДе Sm+1 = A \Sm, lm, pm), lm+l = D (sm+l, lm)> Pm+1 ~ = G (pm, sm+1, lm+1, m + 1). Определение 10.4. Алгоритм АК называется сходящимся, если для его движения (s0, l0), ..., (sm, lm),... последовательность описаний 10, ..., 1т, .., сходится в мет- метрике пространств L к некоторому предельному описанию К- Алгоритм АК называется стабилизирующимся, если су- существует номер т0, такой, что 1т — 1то для всех т > т0. Определение 10.5. Функционал F:So X L-> R1 на- называется интерпретирующим для модели ААК, если F(sm,lfn)>F(sm+1,lm); A0.10) A0.11) для всех т, начиная с некоторого т0. Таким образом, если функционал F рассматривать как меру потерь при задании выборки О в состоянии (классифи- (классификации) s ее описанием /, то неравенства A0.10) и A0.11) слу- служат объяснением, почему от состояния sm при фиксирован- 288
ном 1т переходим к состоянию sm+1 = К (sm, lm, рт) и от описания 1т выборки О при фиксированном sm+1 перехо- переходим к lm+1 = D (sm+1, lm). Для данной модели алгоритма АК, очевидно, может существовать много интерпретирую- интерпретирующих функционалов, причем роль их при исследовании дан- данного алгоритма может быть различной Пример 10.8. Рассмотрим алгоритм Форель (см. п. 7 2.1), выделяющий в выборке О = {Х1; ..., Хп} cr Rp несмещенную подвыборку О* = {X 6 О:\Х — F*| < г}, где г — параметр алгоритма, а К* •—центр класса О*, кото- который находится как результат стабилизации последователь- последовательности описаний Yo, ..., Ym, ... При исследовании этого алгоритма используются два интерпретирующих функционала: Fi(Om, Ym)= 2 №—У Л (О.. Ут)= V (ttX—Km||a—Г2)^ где (•)+ = (•). если (•)>(), и (•)+ = 0, если (•)< 0. Здесь От — класс, выделенный на т-и шаге алгоритма, Ym 6 Rp — описание класса (его центр) на этом шаге и пт = \От\. Используя Flt получаем, что стабилизируемость движе- движения алгоритма Форель является следствием легко доказы- доказываемой стабилизируемости движения алгоритма 2-средних (см. [41, 42]). В терминах F2 доказать стабилизируемость труднее [27], но зато, используя этот функционал, получаем, что предельное описание Y+ является точкой локального максимума оценки плотности распределения случайного вектора по выборке О (см. § 7.6). 10.2. Базисная модель алгоритма АК, основанного на описании классов ядрами Пусть F q (X, Y) — некоторая мера близости между объек- объектом X и точкой Y пространства Yq, называемого пространст- пространством ядер q-ro класса. Для класса О (q) cr О и точки Y ?Yq определим меру близости F q (О (q), Y) формулой Fq(O(q), Y)= 2 рч&> П (I0-12) 10 Заказ № 291 289
Определение 10.6. Математическая модель АК, в которой So cr {O-+Z}, где Z = {{,..., k} — список имен классов, и классификатор задается формулой K(s, I, P)(X)=\ef=aTgmAnF«{X> l{^' X^C0' A0.13) Is (X), Х?р, а дескриптор — формулой D(s, l)(q) = argmmFq(O(q), Y), A0.14) rev где F g (О (q), Y) имеет вид A0.12), называется базисной моделью алгоритма АК, основанного на описании классов ядрами. Далее для краткости эту модель алгоритма будем назы- называть базисной моделью ядерного алгоритма. Опишем ядерный алгоритм, в модели которого мера бли- близости F q (X, Y) между объектом X и ядром q-vo класса Y зависит от дополнительной информации об этом классе. Пример 10.9. Пусть О = {Хъ ..., Хп} с^- клас- классифицируемая совокупность объектов и V= {Vlt ..., Vh}cz cr Rp — обучающая выборка, где Vq = {Y%u ..., Yqnq) — k представители q-vo класса, причем 2«9((i и не исключа- q = \ ется, что множества Vq для некоторых q пустые. Рассмотрим задачу разбиения выборки О на k классов. Так как обучающая выборка V мала, то применить обыч- обычные процедуры классификации при наличии обучающих выборок не представляется возможным. Для решения этой задачи можно рекомендовать алгоритм АК, описываемый базисной моделью ядерного алгоритма с Fq(X, Y)= ± \\Yqt-Xf+ ± m-Xf, A0.15) t=\ /= i где Y = (Yql, ..., Yqr ) — ядро <7-го класса, составленное из точек пространств Rp, a Tq — максимально возможное число вводимых эталонов в q-u классе, q = 1, ..., k. Любой алгоритм АК, описываемый базисной моделью ядерного алгоритма, допускает две важные модификации. 1. Введение класса «джокер» (так называемый класс «не знаю», «отказ» и т. п.). Обычно класс «джокер» определяется следующим образом Задается порог б, и если для классифи- классифицируемого объекта мера близости F q (X, Y q) превосходит S для всех q, I < q < k, где Y q — ядро q-ro класса на дан- данном шаге алгоритма, то оператор К отказывается от клас- 290
сификации и относит элемент X к символическому этало- эталону * класса «джокер». На следующих шагах алгоритма, когда набор ядер (Yx Yk) сменится, этот элемент может быть уже отнесен к некоторому классу. Для включения класса «джокер» в общую схему базисного ядерного алго- алгоритма достаточно присвоить этому классу номер (k + 1) и положить Fq+1 (X, Yk+1) = б для всех X 6 О. Тогда Fq+1 (О (k + 1), Yk+1) = nk+1 б, где nk+1 = \0 (k + 1)| - число элементов в (k + 1) -м классе, т. е. число элементов, которые на данном шаге не классифицированы. 2. Следующая модификация применяется тогда, когда имеется дополнительная информация о допустимой принад- принадлежности элементов к классам, т. е. ф : О—*¦ 2Z. В этом случае классификатор задается формулой min /у (X, l(q')),X$p. K(s, 9' s(X), A0Л6) 10.3. Иерархическая структура многообразия алгоритмов АК В данной модели алгоритма АК одни и те же множества So и L могут быть получены для различных конкретизации множеств Z и Yo соответственно. Таким образом, в рамках данной модели алгоритма АК элементы Z, Yo ее структуры являются варьируемыми параметрами. Покажем, как эти параметры позволяют восстанавливать иерархическую структуру многообразия алгоритмов. 10.3.1. Модель алгоритма 6-средних параллельного типа. Пусть О = {Х1; ..., Хп} cz Rp. Для простоты будем счи- считать, что р-мерное евклидово пространство Rp наделено р стандартной метрикой: ||Х — Y\\2 = ? (х'— У*J> гДе (х1, ..., хр) и (у1 ур) — координаты векторов X и К соот- соответственно. В качестве первой конкретизации множества Z возьмем список номеров классов Zx = {1, ..., k). Положим So = = {s: O-^-Z^) и будем отождествлять каждое отображение s : O—*~Zx с разбиением множества О на классы @A), •••, O(k)), где О (q) = s-1 (q). Имеем: U О((/) = Ои О (q) f] 4=1 П О (q') = 0, q Ф q'. Каждый класс будем описывать его средним, т. е. в качестве Yo возьмем само простран- пространство R" и положим L = {l\Zx-+ Yo) = R" X ... X Rp, 10* 291
vHM образом / = (F1( ..., Yh) и потому в L можно ввести Члетрику следующим образом: Ц/i — /2И2= 2 ll^ig —^29И2» где I, = (Yllt ..., Ylq) и12 = (Ytl, ..., К^ Так как строим модель алгоритма параллельного типа, то в качестве Р должны взять одноэлементное множество (выборка О вся участвует в классификации на каждом ша- шаге), поэтому в дальнейших формулах компоненты Р и G мо- модели можно не учитывать. Операторы К. и D возьмем, следуя базисной модели ядерного алгоритма с F q (X, Y) = \\Х — — F||2. Детальное описание этих операторов дано в п. 7.2.1. Непосредственно из конструкции этих операторов следует, что функционал где s = (О A), ..., О (?)), 1= (Y A), ..., Y (k)), является интерпретирующим для этой модели (см. §. 10.4). Итак, мо- модель алгоритма ^-средних параллельного типа описана. Начнем модификацию ее параметров. 10.3.2. Модель алгоритма (k— г)-средиих. Эта модель свя- связана с введением класса «джокер» (см. § 10.2). Задается «порог отказа» г, и если значение меры сходства объекта X с каждым из k ядер классов превосходит г, то такой объект относится к символическому классу *. HxaK>Z1(*)= {1, ...,*.*+ 1}. В этом случае So точно такое же, как в алгоритме (k + 1)-средних. Далее, Y0 = Y1\} Y2 = Rp (J Y (*) — объединение пространства Rp и изолированной точки Y (*). В качестве L возьмем часть множества отображений Z± (*)в Yo, состоя- состоящую из всех отображений, переводящих символ (k + 1) в Y (*). Тогда каждая точка / ? L будет иметь вид (F(l), ...,Y(k), F(*)). Операторы К и D зададим формулами A0.13) и A0.14) соответственно с Fq(X, Y(q))=IX-Y(q)f. q=\, .... k; Fk+l(X, У(*)) = г*. Имеем: O(k+ \)=O(*) = {X?O: min Fh+1(O(*), y(*)) = |0(* 292
Таким образом описана модель алгоритма (k — ^-сред- ^-средних и тем самым определено его движение. Теперь непосред- непосредственной проверкой можно убедиться, что функционал ? 2 A0.18) <7=i хео (q) является интерпретирующим для этой модели. Можно подвести первые итоги. Получение модели алгоритма (k — г)-средних иллюстри- иллюстрирует подъем снизу вверх в описываемой иерархии. Дейст- Действительно, отправляясь от модели 10.3.1, получаем данную модель с дополнительным параметром г. Утверждение, что модель 10.3.2 лежит выше по иерархии, чем модель 10.3.1, обосновывается тем, что, отправляясь от модели 10.3.2 и устремляя г-> оо, очевидно, получим модель 10.3.1. 10.3.3. Модель алгоритма Форель. Для получения этой мо- модели (см. п. 7.2.1) достаточно, отправляясь от модели 10.3.2, спуститься вниз по иерархии, полагая k =1. Этот результат иллюстрирует способность данной иерархи- иерархической структуры устанавливать связи между известными алгоритмами, которые появились для решения разных задач классификации. Между моделями 10.3.1 и данной, лежа- лежащими на одном уровне иерархии, устанавливается связь через модель 10.3.2, лежащую выше. Применение алгоритма Форель опирается на гипотезу: выборка О представляет собой объединение О A) (J О B), где 0A) — компактный кластер, ядро которого совпадает с его геометрическим центром, а точки из О B) лежат на до- достаточном удалении от кластера О A). Следующая модель описывает алгоритмы, опирающиеся на аналогичную гипо- гипотезу в предположении, что ядро компактного кластера О A) совпадает с взвешенным центром. 10.3.4. Модель алгоритма выделения размытого кластера. Параметром модели является невозрастающая функция V : R1-* [0, 1], такая, что у @) = 1 и у (t) = 0, t > t0. В этой модели Z = [0, 13 и пространство допустимых клас- классификаций имеет вид So = {s : О-*- [0, lj: s (x) = у (| | X— — К11) для некоторого Y ? Rp}. Согласно терминологии тео- теории размытых множеств (см. п. 7.5.1) каждая такая класси- классификация s 6 So задает размытый класс О A) в О. Класс О A) описывается точкой из Rp (формальным элементом, как и в алгоритме Форель), т. е. Ко = Rp и L = Rp. Разброс клас- класса О A) относительно ядра Y 6 Rp задается формулой У) = 2 хс 293
Для завершения описания модели осталось указать опера- операторы К и D. Пусть на пг-и шаге алгоритма получен размы- размытый класс 0т A) и его ядро Ym. Тогда is /« Y \ ( У^ ч л» (\\ "У V 1\\' D{sm+1, ym) = Km+1=argmin 2 y(lX-YJ>\\X-Yf, Y?RP X 60 т.е. 2 y<\\*-Ym\\)X У г X 6 О m+1 ~ —~ • S Т(ЛХ-УтН) Здесь sm — описание класса От. Для получения из данно- данного алгоритма алгоритма 10.3.3 надо спуститься вниз по иерархии, положив ( @, \t\>r. 10.3.5. Модель алгоритма А(к)-средних. Опишем модель алгоритма, получение которой дает пример еще одного спо- способа подъема снизу вверх в исследуемой иерархии. Для это- этого покажем сначала, как можно изменить параметры моде- модели 10.3.1, совершенно не меняя ее основные компоненты, а значит, и движение алгоритма. Обозначим через A (k) стандартный (k— 1)-мерный сим- симплекс, т. е. множество точек {(г1, ...,г1"), & >0, 2г»=1}. Пронумеруем вершины Лх, ..., Л& симплекса A (k) так, что- чтобы вершина Afy имела координаты @, ..., О, 1, 0, ..., 0), где 1 стоит на д-м месте. Теперь в качестве второй конкретиза- конкретизации множества Z в модели 10.3.1 возьмем симплекс A (k). Тогда So из этой модели можно отождествить с частью мно- множества отображений из О в А (&), состоящего из всех ото- отображений, переводящих О в подмножество вершин {Д^ ..., А,}с: Д(Л). Каждую точку Z ? Л (k) можно однозначно записать в к виде Z= X z"Aq, где z9 > 0, 2z» = 1. Поэтому каждое ли- нейное отображение / : Л (k) -*¦ Rp, т. е. такое отображение, k что I (Z) — 2 2* * (А?) однозначно определяется набором об- «7 = 1 разов вершин (/ (Aa), ..., I (Ah). Следовательно, в новой кон- конкретизации множества Z модели 10.3.1 множество L можно отождествить с множеством всех линейных отображений из Л (*) в Rp. 294
В новой интерпретации множеств So и L функционал {10.17) можно записать в виде F(s, /)= 2 2 Vq(s(X))\\X-Y(q)l\ A0.19) i x где 4% (s (X)) = 1, если s (X) = Д9, и 0 — в противном случае, a Y (q) = I (Л,,). Тогда согласно общей схеме оп- оптимизационного подхода к построению операторов К. и D (см. формулы A0.6) и A0.7)), имеем: sm+i = K(smi lm)—отображение из О в А (&), такое, что (X) = argmin V Vg(s{X))\X—Y(g)ft A0.20) т. е. минимум берется по всем возможным значениям клас- классификаций s для данного X. Аргумент, в котором функция из A0.20) достигает минимума, может быть не единственным, поэтому необходимо фиксировать еще способ выбора требу- требуемого аргумента. В формуле для классификатора из алго- алгоритма ^-средних (см. п. 7.2.1) заложен в явном виде способ выбора, наиболее употребительный на практике. Далее име- имеем lm+1 = D (lm, sm+1) — лийейное отображение из A (k) в Яр, такое, что т. е. (Х))Х 2 хео Итак, требуемая модификация параметров модели 10.3.1 завершена. Она немедленно приводит к модели алгоритма нечеткой классификации, который назвали выше алгорит- алгоритмом А (&)-средних. Для Z = A (k) возьмем в качестве So множество всех отображений из О в А (&). Таким образом, классификация s^So ставит в соответствие объекту X вектор (г1, ..., г*), в котором координата гк имеет смысл степени принадлежно- принадлежности объекта X к <?-му классу. Множество L возьмем таким же, как в модели 10.3.1. Интерпретирующий функционал возьмем вида A0.19), но теперь будем считать, что функ- функции 4!q (•), q = 1, ..., k, являются параметрами модели. Операторы К и D зададим согласно формулам A0.20) и 00.21). 295
10.3.6. Модель алгоритма нечеткой классификации Беждека. Для того чтобы спуститься от модели 10.3.5 к модели 10.3.6, достаточно конкретизировать вид весовых функций }Vq(-), рассматриваемых как функции на симплексе A (k). В алго- алгоритме Беждека (см. п. 7.5.2) В этом случае можно дать явное решение оптимизационной задачи A0.20): найти argmin 2 (*)alX-Y(q)f,Z=(zV\ ..., 2*) k при условии, что zq > 0 и 2 z" — 1- Это решение использо- q =1 вано в описанном (см. п. 7.5.2) алгоритме Беждека. 10.3.7. Модель алгоритма (A (k) — г)-средних. Модель 10.3.5 описывает ядерный алгоритм нечеткой классифика- классификации, поэтому точно так же, как был осуществлен подъем ал- алгоритма ^-средних до алгоритма (k— г)-средних, можно от алгоритма А (&)-средних перейти вверх по нашей иерархии до алгоритма (A (k) — г)-средних. Таким образом получа- получается модель алгоритма, отстоящая от модели 10.3.1 уже на два уровня. 10.3.8. Модель алгоритма (Д A) — г)-средних для весовых функций Беждека. Спускаясь вниз по уровням иерархии от модели 10.3.7, получаем: Zo = А B) = {Z = 21А1 + г2А2, г» > 0, г1 + г2 = 1}; So = {s : 0^ А B)}; Yo = {ty + A - t) Y (*) : 0 < t < <; 1, Y? Rp} и Y (*) — изолированная точка, т. e. Yo — конус над^Р с вершиной Y (*). Далее, L — часть множества линейных отображений А B) в Y, состоящая из всех отобра- отображений, при которых вершина А2 переходит в точку Y (*). Классификатор К. и дескриптор D задаются формулами: ГДе > sm+l,2 — \ ' / J 1 xeo 2* sra+l.l' xeo 296
В заключение отметим, что при а -*- 1 от модели 10.3.8 переходим (спускаемся по иерархии) к модели 10.3.3, а, полагая от модели 10.3.4 — к модели 10.3.8. 10.4. Исследование сходимости алгоритмов АК Определение 10.7. Модель ААК называется кор- корректной, если 1) для данных s? So, I 6 L и р ? P оператор К меняет состояние только подмножества р ? О, причем это изменение полностью определяется описанием /; 2) существует интерпретирующий функционал F, огра- ограниченный снизу на данном движении алгоритма, такой, что для любого е > 0 и т > пг0 существует б > 0, что, как только F (sm, lm) — F (sm+1, /то+1) < б, то р Aт, 1т+1) < < е (см. определение 10.5). Далее, говоря об интерпретирующем функционале F кор- корректной модели, всегда будем подразумевать, что он удов- удовлетворяет условию 2 определения 10.7. Лемма 10.1. Пусть F — интерпретирующий функцио- функционал корректной модели ААК- Тогда из равенства F (sm, lm) =" F (sm+1, /m+1) следует, что lm = lm+1 для всех т > > mo- Оказывается, что для большого класса ААК верно и об- обратное утверждение. Лемма 10.2. Если множество значений интерпрети- интерпретирующего функционала F конечно, то в модели ААК условие 2 определения 10.7 выполняется тогда и только тогда, когда из F (sm, lm) = F (sm+1, lm+x) для m > т0 следует, что /т= +1 Теорема 10.1. Если множество значений интерпре- интерпретирующего функционала F корректной модели ААК ко- конечно, то в движении этого алгоритма последовательность описаний 1-у, ..., 1т стабилизируется, т. е. существует такое пг0, что 1т = /т+1 для всех т ^ т0. Доказательство предыдущих результатов использует только свойство 2 определения 10.7. Следующий результат показывает роль свойства 1. Теорема 10.2. Если в движении алгоритма, опи- описываемого корректной моделью, последовательность опи- 297
саний lr, ..., lm стабилизируется начиная с номера т0, то соответствующая последовательность состояний su ..., sm задает стабилизирующуюся классификацию выборки О, т. е. как только Х? рп сг О для т ^ пг0, то sm+1 (X) = = sm+1+k (Л) для всех k > I. В случае когда оператор D не зависит от первого аргу- аргумента, т. е. задается отображением So —*• L (это имеет место во многих алгоритмах, например во всех алгоритмах МДС (см. § 7.4)), то из конечности множества So и теорем 10.1 и 10.2 следует стабилизируемость движений алгоритмов, опи- описываемых такими корректными моделями. Следующий ре- результат лежит в основе исследования сходимости алгоритмов последовательного типа, описываемых корректной моделью для бесконечных выборок (ср. [139]). Лемма 10.3. Пусть (sb /j), ..., (sm, lm) — движение алгоритма, описываемого некоторой корректной моделью. Тогда для любого е > 0 и натурального N существует но- номер ти такой, что р (lm, /m+f)<e для всех t <; N и т > т-у. Определение 10.8. Модель ААК называется усиленно корректной, если: 1) оператор К удовлетворяет условию 1 определения 10.7; 2) существует интерпретирующий на данном движении алгоритма ограниченный снизу функционал F и строго мо- монотонно возрастающая функция ф, причем ф @) = 0, та- такие, что как только т > т0, то F(Sm, lm)>F(Sm+1, *m+l) + <P(p('m. *«+!»• (Ю.22) Нетрудно проверить, что усиленно корректная модель является корректной. Доказательство усиленной корректности моделей мно- многих ядерных алгоритмов, использующих в качестве меры близости F q (О (q), Y) между классом О (q) и ядром У ста- статистический разброс класса О (q) относительно ядра Y, вы- вытекает из классического тождества Гюйгенса: 2 y{X)\X-Yf= хео + 2 V(X)\X-Y\\ A0.23) хео где 298
Пример ШЛО. Рассмотрим интерпретирующий функционал ^.0= 2 2 \\*-УШ\2 X в модели алгоритма ^-средних. Тогда из A0.23) получаем am = (Om(I), ..., Om(k)), /m = = (У»A) Ym{k)). Так как p (Zm, /m+1) = | \\Ym(q) - Ym + t (q)\\2 В «7=1 nm (q) > 1 для всех q, то получаем, что модель алгоритма ^-средних является усиленно корректной. Аналогично проверяется, что и модель алгоритма (k—г)- средних является корректной для любого г. Применяя теперь теорему 10.1, получаем, что движение алгоритма (k — г)-средних стабилизируется. Пример 10.11. Пусть у : R1 ->¦ [0, 1] — невозраста- ющая функция, являющаяся параметром модели алгоритма выделения размытого кластера (см. п. 10.3.4). Для каждого натурального числа N введем новую функцию уы (t) = = ' ^ , где [•] —т символ операции взятия целой части числа. Из свойств операции [•] следует, что 0 < у (t) — — Tn @ < jf Для всех N. Теорема 10.3. Допустим, что у (f)= lim у (?) для f-*4 — 0 всех ^6 [0, оо). Тогда движение алгоритма выделения раз- размытого кластера с параметром уы (t) стабилизируется для всех N [42]. В заключение приведем результат, который служит ос- основой для построения новых усиленно корректных моделей ААК. Лемма 10.4. Пусть заданы следующие компоненты структуры модели ААК: (So, L, Р; К, G) и некоторый ог- ограниченный снизу функционал F : 5bxL->- R1, такой, что F (s, I) > F (К (s, /, р), I). Тогда для любой строго монотон- монотонной функции ф существует оператор D : SoX L —*• L, вместе с которым данные компоненты образуют усиленно коррект- корректную модель ААК- 299
Требуемый оператор D (s, I) действует по формуле: D(s, /) = argmin(F(s, О + ф(р(^'. ОМ- ВЫВОДЫ 1. Многообразие алгоритмов автоматической классифика- классификации (ААК) представляется в виде некоторой иерархической структуры. На самом верхнем уровне находится математи- математическая модель ААК, компоненты которой образуют средства, облегчающие переход от содержательной постановки зада- задачи классификации к ее математической формализации. На самом нижнем уровне располагаются конкретные алгорит- алгоритмы АК. Переход с высших уровней на низшие происходит за счет конкретизации, наполняющих компоненты структу- структуры ААК информацией о характере данных, конечной цели классификации, априорных гипотезах и сведениях о свой- свойствах исследуемых объектов, результатах предварительной обработки и т. п. 2. Описанная теория имеет следующие три аспекта. A. Сопоставление различных известных алгоритмов и раз- разработка методов целенаправленного конструирования новых алгоритмов, основанных на переходах снизу вверх и сверху вниз по уровням иерархической структуры в многообразии алгоритмов. Б. Получение параметрических семейств алгоритмов с це- целью реализации их в виде комплексов программ, предназна- предназначенных для автоматизации процедур проверки сложных иерархических гипотез. B. Исследование модели АК как математической струк- структуры с целью получения условий сходимости алгоритмов и описания класса функционалов, оптимизируемых ими. Глава 11. ВЫБОР МЕТРИКИ И СОКРАЩЕНИЕ РАЗМЕРНОСТЕЙ В ЗАДАЧАХ КЛ АСТЕР-АН АЛ ИЗА Проблема выбора метрики и тесно связанная с ней проблема сокращения размерности задачи кластер-анализа возникает, когда исходная информация задана в виде матрицы данных X. Выбор метрики, т. е. функции для вычисления расстоя- расстояния между объектами, является одним из основных управля- управляющих факторов, влияющих на результаты кластер-анализа. 300
В данной главе рассмотрим несколько подходов, позво- позволяющих в некоторых случаях удовлетворительно решать обе проблемы—выбора метрики и сокращения размерности в тех случаях, когда у исследователя отсутствует априорная информация, позволяющая сделать выбор метрики более обоснованно. Что касается выделения переменных, то для решения этой задачи в настоящее время не имеется эффективных вы- вычислительных алгоритмов. Частично эта задача решается с помощью процедур адаптивной настройки, менее инфор- информативным переменным скорее всего будет присвоен и мень- меньший вес. 11.1. Целенаправленное проецирование данных в пространство небольшой размерности с сохранением кластерной структуры Этот подход пригоден, когда все переменные измерены в количественной шкале. Будем искать последовательность из q (q < p) линейных комбинаций исходных переменных вида (U',X), таких, что векторы Ult ..., Uq попарно S-орто- гональны и являются решениями оптимизационной задачи U=argmaxQ{U, X) A1.1) V при условии (U',SUj) = О (/ = 1, ..., i— 1); S — матрица ковариаций или ее оценка. В качестве функционала Qp (U, X) используется вели- величина (см. гл. 19) Q,(U, X) = s*EfP(z), p>0, где / ( ) и s1 (U) — соответственно оценки плотности и дис- дисперсии для одномерной случайной величины z = U'X, оцененной по совокупности одномерных проекций zt ~ =¦(?/'Х,)(/ ~- 1, -, п). Смысл использования критерия A1.1) состоит в том, что чем больше его величина, тем более неоднородным можно считать распределение одномерной проекции z = (U' X), например, в рамках модели смеси нормальных распределе- распределений. Перейдем сначала к махаланобисовой метрике, т. е. сде- сделаем преобразование Y ~ S~1/2X. Пусть из условия макси- максимума A1.1) определены линейные комбинации Ь\, ..., Uq. Теперь они будут ортогональны, так как в новом базисе S = = Ij,. И пусть Qlt ..., Q4 — соответствующие им значения 301
функционала QB (U, X). Вместо исходного р-мерного при- признакового пространства будем далее использовать ^-мерное пространство новых переменных z<" = {U[X), предвари- предварительно нормированных так, чтобы s2 (z(t)) = 1 {при этом величина Q; не меняется). Расстояние между объектами бу- будем вычислять следующим образом: Я/== S где г* =(U'kXi), uk = (p Ф (•) — некоторая монотонно возрастающая функция. 11.2. Метрики для задач кластер-анализа с неколичественными переменными Некоторые из метрик для измерения расстояний между объ- объектами, когда переменные являются неколичественными, приведены в гл. 5. Из них наиболее простой является хэм- мингова метрика, которую можно определить как число переменных, у которых объекты a" iv v \ ^fc> ^1 попали в разные категории /ii o\ «h (Aft, Л.1) — — Kll*> (общее число переменных) Расстояние Хэмминга можно рассматривать как квадрат евклидова расстояния в пространстве бинарных переменных, соответствующих категориям исходных переменных (далее, для краткости, просто в пространстве категорий), т. е. 2 где i — номер исходной переменной; / — номер категории; li — число категорий i-я переменной. Иногда хэмминговой метрикой называют величины A1.2) и A1.2'), у которых отсутствует деление на р. Так как величины ylk, могут принимать лишь значения 1 (для k-то объекта реализовалась /-я категория i-я перемен- переменной) или 0 (в противном случае), то выражения A1.2) и A1.2') совпадают. Теперь, по аналогии с евклидовой метрикой, можно под- подчеркнуть важность переменных или отдельных их катего- категорий в формировании различий между объектами, вводя веса либо для переменных, либо даже для отдельных категорий (т. е. бинарных переменных у)). 302
Один из подходов к присваиванию весов ы) категориям состоит в переходе к %2-метрике, возникающей в множествен- множественном анализе соответствий. Веса для категорий в этой метри- метрике возникают при решении оптимизационной задачи, имею- имеющей ясную статистическую интерпретацию (см. п. 17.2.5), а не внесены извне. Поэтому можно полагать, что х2-метрика определяет некоторую «естественную» меру измерения от- отношений между объектами и, следовательно, ее целесооб- целесообразно использовать при проведении кластер-анализа в каче- качестве одного из основных претендентов. Другой способ введения весов, основанный на эвристи- эвристических соображениях, предложен в работе [174]. Пусть для 1-й переменной в категорию / попало tij объ- объектов. Тогда для двух случайно выбранных объектов опре- определим вероятности следующих событий: у обоих объектов одна и та же /-я категория i-й перемен- переменной у &-го объекта реализовалась категория у, а у 1-го — категория г Будем вводить веса категорий исходя из следующего со- соображения. Пусть для 1-го признака для &-го объекта yl/ = 1 (реализовалась/-я категория), а для 1-го объекта — *//г = 1. Чем меньше вероятность Р)г такого события при случайном выборе объектов, тем более близкими их будем считать х. Чтобы получить теперь расстояние для объектов, можно вос- воспользоваться следующим подходом. Определим меру бли- близости между объектами в виде ±2гк/1г Вклад i-й переменной в А2 /'Г где 1 Если оба объекта принадлежат к одной редкой группе (кате- (категории), то это может оказаться более важным, чем сходство или раз- различие по другим переменным. 303
Так как только одно из произведений y'^ylr отлично от нуля, а все остальные равны нулю, то реально вклад А? равен одному из весов a)r. Это взвешивание как раз и уве- увеличивает сходство согласно вышеизложенному принципу— чем меньше вероятность реализованной комбинации кате- категорий переменной для наблюдаемых двух объектов, тем больше сходство между этими объектами. Выражение A1.3) есть не что иное, как скалярное произ- произведение вида A2-7fcW7it A1.5) где матрица W — блочно-диагональная матрица весов to}r. Евклидово расстояние из А2 можно теперь получить, ис- используя обычную формулу d?(Xk, Xl) = \\Yk\%/-2A* + IYlW,, A1.6) где 2^4 Для введения метрики в пространстве неколичественных переменных можно использовать подход, основанный на оци- оцифровке, т. е. присвоении меток неколичественным перемен- переменным, например по критерию A7.31) (см. § 17.3). 11.3. Алгоритмы классификации с адаптивной метрикой Один из способов получения метрики, подходящей для клас- классификации, состоит в ее уточнении («настройке») в процессе работы самой процедуры классификации. 11.3.1. Адаптивная махаланобисова метрика. Квадрат рас- расстояния между точками xt и Xj задается в этом случае (см. гл. 5) как ffi(Xt, Xm) = db = (Xl-Xm)'V(Xl-Xm), A1.7) где V — некоторая положительно-определенная симметрич- симметричная матрица. Для определенности положим, что определи- определитель V равен 1, det (V) = 1. Докажем следующую лемму. Лемма 11.1. Пусть расстояние между точками задано в виде A1 7); точки распадаются на k непересекающихся кластеров Glf ..., Gk; S — матрица полного рассеивания (ко- (ковариационная матрица для X). 304
Пусть теперь W — величина внутриклассового рассеи- рассеивания, вычисленная на основе расстояния A1.7), к Минимальное значение W (V) достигается на множест- множестве положительно-определенных матриц V с единичным оп- определителем тогда, когда матрица V = о№~х, nieW-— матрица внутриклассового разброса ' 'V \^ /v vwv v\' /11 оч 7 7 I'M" ¦Лт)\Л.1- Лтп) . I 1 1 .СМ а множитель а выбран таким, чтобы |V| = alW-1! ^= 1, т. е. a= |W|Vp. Доказательство. Величину внутриклассового разброса можно представить в виде . -\^ чгч лг Т= V4 \^ (У У 1 = nSp(VW). , A1.10) Дальше доказательство аналогично доказательству теоре- теоремы в приложении 1 [106, гл. 12]. Рассмотрим теперь следующий двухфазный алгоритм классификации Фаза 1. При фиксированной метрике V<'> (t — номер шага итерации) проводим разделение выборки X с помощью алгоритма ^-средних (Мак-Кина). Число классов k задается пользователем при начале работы алгоритма и дальше не ме- меняется. Фаза 2. По полученной классификации вычисляем мат- матрицу внутриклассового разброса W(^ x> согласно формуле A1.9). Вводим новую метрику с матрицей (множитель at+1 вычисляется попутно в процесс обращения матрицы W, но, вообще говоря, его использование необяза- необязательно) и переходим к фазе 1. Остановка алгоритма производится либо когда матрица > перестанет изменяться, либо когда относительное умень- 305
шение критерия wt станет меньше пороговой величины, т. е. либо либо (WW_ Рис. 11.1. табл. 11.1 Классификация даииых Сходимость алгоритма (в вычислительном отношении) следует из того, что на каждой фазе работы алгоритма зна- значение критерия W убывает. 11.3.2. Состоятельность алгоритма с адаптивной махалано- бисовой метрикой. Рассмотрим следующую вероятностную модель — смесь элип- соидально-симметрич- ных распределений (см. гл. 19) с ограни- ограниченными непересека- непересекающимися носителями и одинаковой кова- ковариационной матри- матрицей W. Тогда, если X — выборка из такого распределения, то верна следующая лемма. Лемма 11.2. Алгоритм с адаптив- адаптивной махаланобисо- вой метрикой есть ЕМ-алгоритм (см. гл. 6) решения уравне- уравнения правдоподобия для оценки параметров смеси: набора весов аг (i = I, k), средних векторов компонент Мг и мат- матрицы ковариаций W. Соответствующими оценками будут ве- величины njn, Xt, W (П.9), оцененные на последнем шаге работы алгоритма. Поскольку ЕМ-алгоритм дает оценку максимального правдоподобия, то состоятельность получа- получаемых оценок (при п -*- оо) следует из общей теории. Пример 11.1. Рассмотрим набор двумерных дан- данных из п. 12.5.2 (табл. 11.1). Результаты применения алгоритма из п. 11.3.1 представ- представлены на диаграмме рассеивания (рис. 11.1) («крестик» — точки, отнесенные в 1-й кластер, «квадрат» — точки, от- отнесенные во 2-й кластер). Состав кластеров: первые 20 то- точек из табл. 11.1 — первый кластер, точки с 21 по 40 — второй. Как можно судить по рисунку, обычная евклидова метрика здесь не дала бы успешной классификации. 306
Таблица 11.1 Номер объекта 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 * 40,89 39,04 38,49 38,08 37,40 35,89 36,71 35,66 34,11 35,27 33,42 33,49 31,92 35 55 34,45 32,33 30,41 29,86 31,78 28,01 * 35,00 36,51 34,79 33,49 31,85 31,95 33,49 30,55 30,55 29,11 29,11 27,74 27,74 27,74 25,62 25,62 25,62 23 97 23.97 22,05 Номер объекта 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Х 29,93 25,62 25,68 25,00 20,21 23,01 21,03 25,14 23,29 23,68 24,04 26,92 27 33 29,38 28,42 30,21 28,36 25,96 21,71" 23,42 * 22,05 22,05 21,53 25,00 21,58 24,45 24,45 26,99 26,99 30,96 29,73 29,73 33,70 33,70 31,99 36,44 36,44 33,08 27,47 28,90 Исходная матрица v = Матрица V после четырех итераций (конец работы алгорит- алгоритма) практически совпала с результирующей матрицей, по- полученной в [106J. у Г 2,66 -1,52 [-1,52 1,1 11.3.3. Адаптивная взвешенная евклидова метрика. Пред- Предположим, что матрица V в A1.7) диагональна: V = diag (v\, .... Up). Тогда A1.7) соответствует взвешенной евкли- евклидовой метрике. Действуя так же, как в лемме 11.1, можно показать, что веса vf, минимизирующие внутриклассовый разброс W (V), определяются соотношениями A1.11) где гшгг—г-й диагональный элемент матрицы W-\ а а—нор- р мирующий множитель — выбирается так, чтобы П о? = 1 (выполнение условия |V | = 1). 307
Состоятельность алгоритма, описанного в п. 11.3.1, бу- будет теперь иметь место только в случае модели смеси распре- распределений с диаюнальной внутрикомпонентной матрицей рас- рассеивания W (см. лемму 11.2). Поэтому на практике можно заменить A1.11) более простым выражением иг = аатЛ A1.12) Состоятельность для смеси с диагональной внутриком- внутрикомпонентной матрицей имеет место и в этом случае, а точность оценок даже будет лучше. В случае недиагональной матрицы W оба способа вычис- вычисления весов приведут к смещенным оценкам параметров смеси. Вычислительная сходимость алгоритма с адаптивной ди- диагональной матрицей следует из тех же соображений, что ив п. 11.3.1. В отличие от махаланобисовой метрики, результаты классификации в данном случае зависят от исходной метри- метрики. 11.3.4. Адаптивная взвешенная метрика типа «сити •'блок». Расстояние в этой метрике определяется как /= 1 р Потребуем, чтобы П Vj = 1. Алгоритм снова состоит из двух фаз, как и в п. 11.3.1, но имеются следующие отличия: 1) центр i-ro класса Xt определяется как вектор, компо- компоненты которого суть медианные значения признаков a i-u классе; 2) внутриклассовый разброс находится по формуле i= 1 X6G. На фазе 2 вектор весов V, минимизирующий W (V), опреде'- ляется (см. [106, п. 12.4.2.2]) из следующего выражения р i k п 21 2 308 2 2 l^- /= 1 X€G.
Заметим, что в 1106] приведены выражения для v,, т. е. метрика считается разной в разных классах. Здесь приве- приведен вариант весов, полученный в предположении одинако- одинаковости весов во всех классах. 11.4. Оценка метрики с помощью частично обучающих выборок Понятие частично обучающей выборки (ЧОВ) введено в ра- работе 19, гл.1]. ЧОВ определяется как множество пар объек- объектов, таких, что относительно двух объектов, составляющих некоторую пару, известно, что они принадлежат одному и то- тому же классу. Более детальная информация, вообще говоря, отсутствует. Например, неизвестно, принадлежат ли неко- некоторые пары, составленные из непересекающихся пар объ- объектов, одному и тому же классу или нет. Таким образом, фактически исследователь на примерах определяет, какие объекты считать близкими, если исходить из неформализо- неформализованных содержательных представлений. Пусть дальше ячов — число пар в ЧОВ, а п„ — число независимых объектов, входящих в множество пар из ЧОВ. Рассмотрим теперь следующий способ оценки метрики, основываясь на ЧОВ. Предположим, что неизвестная нам р метрика является взвешенной евклидовой бгц = V v\ (xikJ— — х(к>J, причем все веса v% > 0 (ненулевые). Без ограничения близости можно считать, что выполня- выполняется условие П v}=\. A1.I5) Выполнения этого условия можно добиться, умножая все веса vt на одно и то же положительное число а, т. е. од- одновременно и одинаково изменяя масштаб по всем перемен- переменным. Это, естественно, не влияет на результаты примене- применения кластер-процедур. Суммируя расстояния между всеми парами, из ЧОВ по- получаем где V==diag(u*. .... uj); кчов чов W= 2 (Xu-X2i)(Xu-X2iy (Xu,X2i-i.H пара ю ЧОВ). i— i 309
Так как слагаемые в A1.16) суть расстояния между пара- парами точек из одного и того же класса, т. е. близкими между собой точками, нужно стремиться получить V, такую, чтобы значение A1.16) было как можно меньше (при выполнении условия A1.15)). Итак, веса V — это решение минимиза- ционной задачи SpWV=^min (П. 17) v р при условии П v\ = 1. fe=l Решением задачи A1.17) будут следующие значения ве- весов (см. п. 11.3.3): vf^awTt1, ' A1.18) где значение параметра а > 0 выбирается так, чтобы удов- удовлетворялось условие A1.15). Впрочем, выбор а несущест- несуществен, поскольку задача кластер-анализа инвариантна относи- относительно изотропного одновременного изменения масштаба переменных. Если объем ЧОВ достаточно велик, чтобы матрица W была невырождена, то можно построить и оценку махаланобисо- вой метрики, решая задачу A1.17), но уже не считая матри- матрицу V диагональной. Решением будет матрица V = aW, а метрика будет задаваться выражением ВЫВОДЫ 1. В случае когда у исследователя отсутствует априорная информация о том, как измерять расстояния между объек- объектами в пространстве переменных, и шкалы, в которых изме- измерены переменные, количественные, полезными могут ока- оказаться предварительное сокращение размерности простран- пространства с помощью методов целенаправленного проецирования (подробнее см. гл. 19) и конструирование метрики в прост- пространстве сокращенной размерности. Этот подход не следует использовать, когда объем выборки невелик (п <С 100 или р/«>0,5). 2. В случае неколичественных переменных можно сконст- сконструировать метрики, являющиеся взвешенными вариантами метрики Хэмминга. Среди них особого внимания заслужива- заслуживает метрика х2 (см. 17.4). 310
3. Целесообразно использование алгоритмов с адаптивной метрикой (§ 11.3). 4. При наличии некоторого типа априорной информации о близостях между объектами частично обучающих выборок оказывается возможным оценить весовые коэффициенты для адекватной взвешенной евклидовой метрики, а при до- достаточном объеме информации — и матрицу метрики ма- халанобисова типа. Используя эти оценки как стартовые, можно затем применить для их уточнения алгоритмы с адап- адаптивной метрикой. Глава 12. СРЕДСТВА ПРЕДСТАВЛЕНИЯ И ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ 12.1. Некоторые средства оценки результатов кластер-анализа 12.1.1. Оценка качества классификации с помощью крите- критериев классификации. Предположим, что, используя неко- некоторую процедуру кластер-анализа (классификации), полу- получили разбиение объектов из нескольких групп. Один из важ- важных вопросов, который возникает у исследователя: насколь- насколько удачно полученное разбиение. Основным критерием ка- качества и обоснованности полученного разбиения является содержательный анализ результатов, основанный на осмыс- осмыслении исследователем возможных причинных механизмов осуществления и обособления полученных групп объектов. Чисто статистические критерии оказывают лишь помощь в этом процессе. С одной стороны, они позволяют отбрако- отбраковывать плохие группировки, но, с другой стороны, груп- группировка, удачная по этим критериям, может и не иметь со- содержательной ценности. Известны десятки критериальных величин, используе- используемых в кластер-анализе (см. гл. 5, 7, 10, 11). В работе [2731 тридцать из них подвергнуто изучению методом статистиче- статистического моделирования. В результате эти критерии были упо- упорядочены по степени согласованности их величины с удач- ностью применения кластерного анализа (использовалось 15 различных процедур) к массивам данных, кластерная структура которых была заранее известна. Две величины, которые рассматриваются дальше, входили в шестерку луч- лучших. Следует отметить, однако, что при проведении модели- моделирования использовалась только евклидова метрика. В част- 311
ности, возможно, поэтому инвариантные критерии не «про- «проявили» себя в должной мере и не попали в шестерку лучших. Пусть совокупность объектов разбита на k групп Glt.... Gh. Рассмотрим здесь следующие две величины, полезные для оценки качества разбиения: величина объясненной доли об- общего разброса Т и точечно-бисериальный коэффициент кор- корреляции Rb- Некоторые другие величины приведены также в § 12.2. Чтобы определить величину Т, введем следующие три ха- характеристики степени рассеивания объектов из X: общее рассеивание S= jg da(X?, X)', • A2.1) i= 1 межклассовый разброс В = J? tijd?(Xj, X)', A2.2) k внутриклассовый разброс W= V Wj, W} = = S &{XUX), A2.3) X6G где X — —y\Xi — общий центр тяжести, Xj =? — S^j— центр тяжести /-й группы1; п} — число объектов в группе Gj. Если используется евклидово или взвешенное евклидово расстояние, то имеет место известное равенство . A2.4) Рассмотрим величину T=l-W/S. A2.5) Чем больше величина Т, тем большая доля общего раз- разброса точек «объясняется» межклассовым разбросом и мож- можно считать, с определенным основанием, тем лучше качество разделения. Очевидно, 0 <; Т < 1. Точечно-бисериальный коэффициент корреляции Rb оп- определяется следующим образом. Каждой паре объектов X, и Xj поставим в соответствие две величины — расстояние 1 Если входной является матрица расстояний, то в качестве центра группы выбирается объект (строка матрицы D)Xj, такой, что если X = X,, величина S принимает минимальное значение. Из аналогичных соображений выбираются центры групп. 312
между ними в выбранной метрике и индекс эквивалентно- эквивалентности . _ A, если Xt и X] принадлежат одному классу; и ~ \0 — в противном случае. Коэффициент Rb подсчитывается как обычный коэффи- коэффициент корреляции между dtj и бинарной величиной 6ti по всем парам объектов, что дает Rb=[db-dw){fwhlniyi2l4 A2.6) где &ъ — среднее расстояние между точками из разных клас- кластеров; dw — среднее расстояние между точками из одного кластера; fw — число расстояний между точками, попавшими в одну группу; /ь — число расстояний между точками из разных клас- кластеров; nd — общее число расстояний; sd — стандартное отклонение расстояний. 12.1.2. Оценка компактности выделенных групп. Другие полезные для оценки качества разбиения характеристики можно ввести с помощью следующих определений [ПО]. Кластером называется группа объектов Gt, такая, что выполняется неравенство d\ = WJn < Sin, т. е. средний квадрат внутригруппового расстояния до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности. Чем больше среди групп G, класте- кластеров, тем более успешным можно считать разбиение. Еще более полезным является понятие «сгущение». Груп- Группа объектов Gt называется сгущением, если максимальный квадрат расстояния объектов из Gt до центра группы мень- меньше I2 = Sin, т. е. df, n,ax = max d2 (Х„ Х}) < 1\ В [ПО] эти понятия введены в случае, когда использу- используются не расстояния между объектами, а некоторые меры бли- близости между ними. Агломеративные иерархические процедуры классифика- классификации устроены так, что группировки, получаемые при разре- разрезании дерева на любом уровне, будут кластерами в смысле, определенном выше. Для других процедур, например типа ^-средних, это не гарантируется, поэтому получение клас- кластеров при их применении можно рассматривать как доста- достаточно важное указание на хорошее качество разделения. 12.1.3. Визуальные средства оценки степени разнесенности и компактности выделенных групп объектов. 313
Полезным средством, позволяющим быстро оценить ус- успешность разделения, компактность классов, наличие в них выбросов и т. д., являются одно-, двумерные отображения множества точек, с указанием их групповой принадлеж- принадлежности, в виде гистограмм и диаграмм рассеивания на не- некоторые подходящим образом выбранные направления. В качестве таких отображений обычно используют отображе- отображения на оси главных компонент и факторные оси (количест- (количественные признаки, см. гл.13): нелинейное отображение (количественные переменные, см. гл. 13); метрическое и неметрическое шкалирование (обрабаты- (обрабатывается матрица расстояний или удаленностей, см. гл. 16); оси, получаемые в анализе соответствий (неколичест- (неколичественные переменные и переменные смешанной природы, см. § 17.2). В случае количественных, а также оцифрованных (§ 17.3) переменных эффективным будет отображение на канониче- канонические дискриминантные направления (подробнее о них см. гл. 19), которые определяются как собственные векторы обобщенной задачи на собственные числа и векторы вида (S—XW) = 0, где S — полная ковариационная матрица; W — матрица внутригруппового разброса. Для получения проекций используются векторы, соот- соответствующие наибольшим собственным значениям. Заметим, что имеется не более чем min (p, k — 1) ненулевых собст- собственных чисел. Отсюда следует, что если имеется k = 3 клас- класса и р > 2, то отображение на плоскость двух первых кано- канонических направлений содержит полную информацию о различиях между классами, и их образы необходимо не должны иметь пересечения (если в процедурах классифика- классификации использовалась какая-то разновидность евклидовой мет- метрики). При k > 3, вообще говоря, отображение на плос- плоскость, определяемую первыми двумя каноническими на- направлениями, может содержать пересекающиеся классы, их отсутствие возможно только при определенном располо- расположении центров тяжести классов (на некоторой плоскости, на прямой или на плоской кривой в р-мерном пространстве; см., например, рис. 12.1). Но тогда можно использовать и больше канонических век- векторов и исследовать отображения, например, на 1-е и 3-е или 2-е и 3-е направления и т. д. Отображение, определяемое па- парой канонических направлений, на котором любой указан- указанный класс будет отделен от других, должно существовать Из сказанного, в частности, можно сделать следующий вывод. Если на плоскости, определяемой первыми двумя ка- 314
4,038 1.866 -0.307 -2,479 г В ввг в АА А ВВ\ А2 2 ВВ А А В А2 3 А А А 2 АА АА АА А А А А А 2СС С С С С В С С ВВ С 2 2 С С | В С...С-.jC С ВС С с с -2.3 -1,1 30 20 10 : о 0,04 1.2 2,4 3,6 4,272 2,181 0.089 2,003 -A A A АА А 2 A AAA A A A 2 В В в в в -..:...вв.В.2В..ВВ. ВВВ ВВ В 22 в в ВВС в с ссс Г 1 б) ее °с с с С 2 2С с с D D D D / DD D i - D D DD D О - - 20 .- 10 -3.5 -1.6 3.6 2.3 4,2 7 О 6,2 Рис. 12.1. Отображение результатов классифика- классификации на плоскость двух первых канонических направлений a) ft=3; б) fe=4 315
ионическими направлениями, разделены все группы и k> > 3, то это означает определенную закономерность в рас- расположении центров классов и, следовательно, уверенность в том, что это деление несет в себе некоторую смысловую на- нагрузку, возрастает. Отображения можно использовать для нескольких це- целей. Во-первых, для получения перечисленной в начале па- параграфа информации. Во-вторых, для получения информа- информации о структуре, которую образуют сами кластеры, напри- например, об их возможной пространственной упорядоченности, имеющей в то же время содержательный смысл, как это вид- видно из примера 12.1 (рис. 12.1). Такую информацию трудно получить другими способами. В-третьих, для интерпрета- интерпретации. Поскольку в большинстве случаев (за исключением нелинейного отображения и шкалирования) отображения оп- определяются векторами, коэффициенты этих векторов можно использовать для интерпретации таким же способом, как и нагрузки в факторном анализе. Пример 12.1. Применим процедуру классификации (разделения смесей) к реальным данным г. Матрица этих данных содержит значения 31 показателя социально-эко- социально-экономического развития для 85 несоциалистических стран (данные относятся к началу 70-х годов). Из этих перемен- переменных нами было использовано 29. Приведем в сокращенном виде реаультаты работы про- программы при разбиении на три класса 1-Й КЛАСС (ГРУППА) НОМЕРА ОБЪЕКТОВ 59 60 21 51 82 30 74 81 9 ... КОЛИЧЕСТВО ОБЪЕКТОВ В КЛАССЕ = 31 2-Й КЛАСС (ГРУППА) НОМЕРА ОБЪЕКТОВ 64 84 11 58 42 37 47 44 39 ... КОЛИЧЕСТВО ОБЪЕКТОВ В КЛАССЕ = 27 3-Й КЛАСС (ГРУППА) НОМЕРА ОБЪЕКТОВ 4 78 36 73 52 1 50 20 6 77 ... КОЛИЧЕСТВО ОБЪЕКТОВ В КЛАССЕ = 27 СУММА РАССТОЯНИЙ ДО ОБЩЕГО ЦЕНТРА 5 = 40 649 СРЕДНЕЕ РАССТОЯНИЕ ДО ОБЩЕГО ЦЕНТРА S/N = = 4.782 ДОЛЯ РАЗБРОСА, ОБЪЯСНЕННАЯ КЛАССИФИКА- КЛАССИФИКАЦИЕЙ, Т = 0.270. БИСЕРИАЛЬНЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ Rb = 0.404 1 Типология несоциалистических стран — М.1 Наука, 1976 272 с. 316
Часть результатов, полезных для анализа удачности разбиения, суммируется в табл. 12.1. Таблица 12.1 Номер группы 1 2 3 Среднее расстояние до центра tf) 2,769 3,343 4,369 Эталонный объект 54 57 76 Максималь- Максимальное расстоя- расстояние до центра ( <Ч, шах) 4,37 14,43 7,975 Объект, наиболее удаленный от центра 12 64 40 В третьем столбце приведены номера эталонных объек- объектов, наиболее близких к центрам групп, в пятом — номера объектов, на которых достигаются максимальные расстоя- расстояния. Согласно определению, приведенному в п. 12.1.2, все три выделенные группы являются кластерами, а первая будет также сгущением Значения критериев Т и В также доста- достаточно велики. Однако визуальный анализ рис. 12.1а (про- (проекции на канонические направления) показывает, что раз- разделение групп 1 и 2 (символы А и В соответственно) нельзя признать выраженным. Скорее можно считать, что сущест- существует непрерывный переход от группы А к группе В. На ри- рисунке хорошо выделен один объект из 2-й группы (обведен кружком), на котором реализуется максимальное расстоя- расстояние. Группа 3 (символ С) хорошо отделена от первых двух групп. Применим тот же алгоритм к тем же данным, но положим &=4, т. е. проводим разделение на 4 группы. Результаты классификации теперь будут такими: Т = 0,356, Rb = = 0.450. Другие величины приведены в табл. 12.2. Таблица 12.2 Номер группы 1 2 3 4 л2 di 2,363 2,524 3,336 4,254 d2 а{, max 4,605 5,084 5,933 9,208 Объем группы 17 29 19 20 317
Снова все выделенные группы ¦— кластеры, а одна из них — сгущение. Значения d? и df, max уменьшились. Визу- Визуальная картина разделения (см. рис. 12.16) также указыва- указывает на лучшее качество разделения между группами и отсут- отсутствие далеко отстоящих объектов. На рисунке ясно просле- прослеживается подковообразная структура, образованная проек- проекциями объектов. Следует отметить, что на рис. 12.1 а и б символы, соответствующие одному и тому же объекту, мо- могут не совпадать. Так, большинство объектов из группы 2 примера 12.1а (символ В на рис. 12.1а) перешли в группу 4 (символ D на рис. 12.16). Соотнесение объектов из выделен- выделенных групп (k — 4) с исходными данными показывает, в част- частности, что в группу D вошли в основном высокоразвитые страны (США, европейские страны, Япония) и, напротив, в группу А — развивающиеся страны с низкими показате- показателями социально-экономического развития. Таким образом, расположение кластеров, упорядоченное вдоль указанной подковообразной кривой, соответствует их некоторому со- содержательному упорядочению, что, по-видимому, повышает доверие к результату классификации. 12.2. Связь между показателями качества прогноза переменных, метрикой и некоторыми критериями качества классификации в кластер-анализе 12.2.1. Случай, когда переменные измерены в количествен- количественной шкале. Рассмотрим задачу кластер-анализа (классифи- (классификации) в формулировке, обобщающей постановку задачи отыскания главных компонент. Будем искать номинальную категоризованную переменную (фактор) г, имеющую k ка- категорий, такую, чтобы критерий вида A2.7) где р2 (a;W, z) — корреляционное отношение (см., напри- например, [7,12]) между хA> и г; и,— весовой коэффициент, 0<уг- < 1. Иными словами, нужно получить такую класси- классификацию объектов, которая наилучшим образом, в смысле критерия A2.7), объясняла бы наблюдающийся разброс пе- переменных x(V (i = 1, р). Вес же vt определяет степень важности, которую придаем «объяснению» переменной х('> посредством фактора г. Такого рода группировки объектов 318
в [ПО] предлагается называть объясняющими (фактор z «объясняет» переменные х<1>). Далее будем полагать, что матрица данных X центриро- центрирована. Классификационную переменную z можно предста- представить в виде булевой матрицы Z с k столбцами и п строками и такой, что элемент zti = 1, если i-й объект принадлежит /-му классу (/-й категории переменной г) и zlj = 0 в противном случае. Такое представление часто используется, например, в регрессионном и дисперсионном анализе для введения так называемых фиктивных переменных. Столбцы матрицы Z ор- ортогональны О, если 1ф\ \\Z4jf = tij, если i = }\ tij—число элементов в /-м классе (/-й категории фактора г). Коэффициент корреляционного отношения центриро- центрированного признака x(i> и номинальной категоризованной пе- переменной z можно записать в виде где sj — оценка дисперсии признака jc(j); x(p — среднее значение признака х(^ для объектов, попавших в /-й класс (т. е. с /-й категорией фактора г); tij — количество объектов в /-м классе. Замечание. Следует помнить, что, строго говоря, в формулах A2.7) и A2.8) имеем дело с оценкой коэффици- коэффициента р2 (хм, г) по выборке объема п, поэтому над ними сле- следовало бы поставить символ "~\ Однако поскольку это не приводит к путанице, в данном параграфе опускаем этот символ и слово «оценка» применительно к упомянутым величинам. Далее имеем (легко проверяется непосредственным вы- вычислением) где XI. — я-компонентный вектор, ?-я строка матрицы X. Откуда -L-Z:/Xi.XL Z.j/WXif. A2.9) 319
Используя A2.9), критерий A2.7) после некоторых пре- преобразований можно представить в виде k . К* = У — Z'., UZ.j, A2.10) /-1 "' где матрица U= J?-Jj-—Xt.XL. Учитывая известное равенство для квадратичных форм Z'fUZj = Sp [U (ZjZ'j)], критерий К* можно представить в более компактной форме A2.10'; где R == (Гц, i = 1, я, / = 1, п — матрица смежности объ- объектов из X, элемент rtm = 1/я, если Xt и Хт принадлежат одному и тому же ;-му классу, и 0 — в противном слу- случае. Элементы матрицы пU суть просто взвешенные скалярные произведения объектов (столбцов матрицы X) пи1т = 2 v' 4° «i?/*? =*x'i Vх™, где V — диагональная матрица, V' = diag (vjsl, ..., vpls%)~ Если перейти к нормированным переменным у = xlsir то можно записать Итак, U= — XVX'= — YVY'. A2.11) п п С другой стороны, непосредственным вычислением лег- легко проверяется, что Г., VZ. j = ^- X} V X], A2.12) я где Xj — вектор средних значений для /-го класса. Следовательно, tf*= SpV у -^-XjDj'X/^SpVDx'Bx, A2.13) /-i n 320
где Dx = diag (s\, ..., sjj), Bx —матрица межклассового рассеивания. Матрицу же Dx можно рассматривать как полную мат- матрицу рассеивания. Рассмотрим два случая выбора весов vt (i = К Р): а) пусть vt = 1 (i = 1, р) и iij = Us*. Тогда V = 1„ и V = Dxx и критерий примет вид где By — матрица межклассового разброса для нормиро- нормированных переменных. В частности, отсюда следует, что ес- если использовать нормированные переменные, или, что то же самое, метрику вида i-1 как функцию расстояния между объектами, то максимиза- максимизация К2 эквивалентна максимизации суммы корреляцион- корреляционных отношений между фактором г и переменными A> б) пусть vi = s}. В этом случае vf=\ и К2 — Sp Bx. Рассмотрим теперь критерий Т A2.5), определяемый как доля разброса, объясняемая классификацией T^=SpBx/ SpDx- Критерий Т отличается от К2 только наличием знаме- знаменателя Sp Dx. Отсюда следует, что если в исходной метрике для получения классификации использовать критерий Т, то это эквивалентно максимизации следующей взвешенной сум- суммы корреляционных отношений -4— Р2(*«>, *)• Ясно, что если дисперсии sf сильно различаются, то по- получаемая классификация будет настраиваться на объясне- объяснение переменных с большими значениями sf. Однозначно ап- априорно нельзя сказать, хорошо это или плохо. Все зависит от решаемой задачи. В табл. 12.3 суммированы результаты о соотношениях между метриками и соответствующими им критериями в тер- терминах сумм корреляционных отношений и матриц рассеи- рассеивания. И Заказ № 291 321
Таблица 12.3 Метрика Евклидова в исходном координатном про- пространстве р — Zi\X I Xm) Евклидова с норми- нормированными перемеи- Р ННМИ "*/jn / i 1" / ^^ p V /.,(') .»(')\2 "~~ ^.J |if i '~~~V 1 j где y('> = jc<'Vsj — нормированные пере- переменные Взвешенная евклидо- евклидова для исходных пе- переменных Взвешенная евклидова с нормированными пе- переменными Формулировка критерия в терминах корреляци- корреляционных отношеивй где s\—оценка дис- дисперсии признака дс("; р2(х('\ г) — корреля- корреляционное отношение признака дс("и г р = 2 р*(*<0' г) /(*= ?xi s? ps (^, г) р Формулировка крите- критерия в терминах матриц рассеивания /C*=SpBx или где Dv = diag (sf,... .....J); Вх — матрица меж- межклассового рассеива- рассеивания = SpBy/p, Т=ф Z^^SpVB^ или T = SpVBx/SpVDx V = diag (»!,..., vp) = SpVBy 322
Классификация, объясняемая через переменные. Груп- Группировку объектов, получаемую на основе максимизации кри- критерия A2.7), можно рассматривать как группировку, ко- которая «объясняет» разброс переменных xS^,..., xW с помо- помощью классификационного признака г. Ниже рассмотрим критерий группировки, который можно интерпретировать как критерий, «объясняющий» получаемую на основе его максимизации группировку, т. е. категории некоторой номи- номинальной переменной г, посредством переменных л;A>,..., х(р>. Будет показано, что при определенном выборе метрики объ- объясняющая группировка совпадает с объясняемой. Введем критерий вида , X), A2.14) где г2 (г(*>, X) — rj — квадрат коэффициента множествен- множественной корреляции между фиктивной бинарной переменной z(i> (/ = 1, k) и переменными д^1*, ..., х^, vt > О — весовые коэффициенты. Таким образом, каждая бинарная фиктивная перемен- переменная гМ аппроксимируется некоторой линейной комбина- комбинацией переменных л^1), ..., х<р>. Будем искать группировку (классификацию) из условия Z = argmax/C?, A2.15) где 2 Докажем следующее утверждение: если выбрать вес V] = 1 — tijln, то критерий К\ эквивалентен критерию Q2= = SpS В, где S — матрица ковариаций для X. Для этого запишем аналитическое выражение коэффици- коэффициента множественной корреляции в виде (см. § 17.2) г*B</>, X) = — Z.', X' (XX')-1 XZ.,/D*ft п И Матрица X (ХХ')-1Х является матричным представле- представлением проекционного оператора Рх, проектирующего п- мерные векторы на подпространство, натянутое на строки матрицы X. С другой стороны, XX'=/iS, a \'Z.j = njXj — вектор средних для /-й группы. Поэтому г2 <2</>, X) = -!У- X'j S-1 X./(l -nj/n). A2.16) я 11* 323
Учитывая, что XjS~x X} =Sp [S-1 (XjXj)], получим после подстановки A2.16) в A2.14) /Cf = Q2=SpS-1B. В отличие от критерия Д критерий Кл афинноинвариан- тен. В махаланобисовой метрике S = 1Р, и критерий К2 (объясняющая группировка) и А"? (объясняемая группиров- группировка) совпадают. 12.2.2. Границы значений некоторых критериев классифика- классификации. Дадим две оценки величины критерия К2, полезные для целей интерпретации, а именно для получения представ- представления о том, насколько удачным с формальной (критери- (критериальной) точки зрения является полученное разбиение. Эти оценки в какой-то степени заменяют статистические крите- критерии, определяющие значимость классификации (отличие ее от случайной). Граница снизу. Первая граница носит эвристический характер, хотя и является, по-видимому, достаточно точной и измеряет среднее значение критерия К? на множестве всех возможных разбиений объектов на k (k > 2) классов. Будем предполагать, что случайным образом многократно генери- генерируется классификационная матрица Z и каждый раз вычис- вычисляется значение критерия К2. Рассмотрим только случай нормированных переменных, полагая веса vt = 1 (t = l,p). Для получения оценки используем представление /С2 в виде A2.10). Значение квадратичной формы Z'.j VZ.j мож- можно представить в виде где значение A,mln < ц,< Хтах, Я,тах (mtn) — соответствен- соответственно максимальное (минимальное) собственное число матрицы U. Матрица U имеет не более чем р ненулевых положитель- положительных собственных чисел, совпадающих с собственными чис- числами матрицы корреляций, и нулевое собственное число кратности не менее чем п — р. Средним значением собст- собственного числа матрицы U будет кср = SpU/n = pin. Сред- Среднее значение ц при многократном случайном выборе Z.}- будет как раз ц = Хср. Аналогичное равенство приближенно верно при любом / (/ = ГТ). Поэтому имеем приближенно * k где ц,г = |г = 324
Более точно к Аср.случ 1, если-^>1. A2.17) Отсюда, в частности, следует, что если получена класси- классификация Z, для которой /С2 (Z) < ^С2Ср.случ> то ее следует признать неудачной. Такая классификация может получить- получиться как при неправильной настройке алгоритма кластер-ана- кластер-анализа (например, выборе начальных центров групп), так и при отсутствии неоднородности в данных. Граница, определяемая разбиением, предполагающим, что центры классов лежат на одной прямой. Граница Kip случ получена при усреднении значений критерия по множеству всех возможных разбиений, в том числе и очень неудачных разбиений, порожденных чисто случайным механизмом, ког- когда точки, удаленные друг от друга, попадают в один клас- кластер и, наоборот, очень близкие точки могут оказаться в раз- разных кластерах. Поэтому реальное значение критерия дава- даваемой процедурами классификации обычно существенно боль- больше /С2ср случ A2.17). С другой стороны, известно, что на- наилучшее разбиение (в смысле любого из критериев A2.7)— A2.14) достигается в подклассе разбиений, получаемых с помощью линейных дискриминантных плоскостей [56, 60]. Естественно попробовать найти некоторое относительно просто вычисляемое линейное разбиение имеющейся мат- матрицы данных X. Одна из возможных кластер-процедур та- такого рода получается при использовании метода ^-средних в предположении, что центры классов лежат на одной пря- прямой. Получаемое таким образом значение критериальной величины обозначим через Ктт лин- Очевидно, что Кт\а лик**2 > /С2ср. случ и в отличие от /С2ср случ является величиной, зависящей от имеющейся матрицы X, т. е. ^СтшЛин ~ — Лтшлин ("¦)¦ Верхняя граница для значения критерия. Для получения этой границы обратимся к представлению К2 в виде A2.10). Векторы Z j,..., Z. k взаимно ортогональны, и норма вектора \\Z.j\\2 = tij. Используя экстремальные свойства собствен- собственных векторов (см. гл. 13), получаем после некоторых преоб- разованнй, что К2 <2 ^ь где A,,>A,2^...>A,ft — собствен- ные числа матрицы I), упорядоченные в порядке убывания. 325
p p+l Так как 2^i = 2X = SpU при любом / > О (поскольку имеется только р ненулевых собственных чисел), имеем (JU, если *<,; A218) [SpU, если k>p. Заметим далее, что ненулевые собственные числа мат- матрицы U совпадают с собственными числами матрицы корре- корреляций SpU = SpS. 12.2.3. Случай, когда центры классов лежат на одной пря- прямой. В этом случае следует использовать метрику Махалано- биса. Расположение центров классов на одной прямой мож- можно рассматривать как простую модель упорядоченной клас- классификации. Действительно, вектор средних значений /-го класса в этом случае можно представить в виде Mt = Мо+ -\-dtL (i = l,k), где Мо — общий центр тяжести; L — неко- некоторый вектор, задающий направление прямой. Естественно, классы можно рассматривать упорядоченными в соответст- соответствии со значением параметра а. Если данные центрированы, то Мо = 0, и, следовательно, i=i Этот случай и будем рассматривать дальше. Без ограниче- ограничения общности можно также считать, что = п. Критерий для выбора вектора направления А и разбиения z запишем в виде A2.19) Здесь у — новый признак, линейная комбинация исходных данных у= аххх + ... + архр = (А'Х). Значение крите- критерия A2.19) не зависит от длины вектора А. Пусть теперь классификация Z фиксирована. Определим вектор А, даю- дающий критерию A2.19) максимальное значение. При этом по- потребуем выполнения следующего условия нормировки A'SA =1 (S — ковариационная матрица х), т. е. будем тре- требовать, чтобы проекция у = А'Х имела единичную диспер- 26
сию. Корреляционное отношение при выполнении условия нормировки A'SA = 1 можно представить в виде РЧУ, г)= V —И. Х'2^. A2.20) После дифференцирования по Л с учетом условия нормиров- нормировки с помощью множителя Лагранжа получаем уравнение, которому должен удовлетворять искомый вектор А (В—AS) .4 = 0, A2.21) я где В = 2 — Х]Х\ — матрица межклассового разброса. Это хорошо известное вдискриминантном анализе урав- уравнение, определяющее канонический базис дискриминантного подпространства (см. гл. 19). В махаланобисовой метрике S= \р Используя вышесказанное, можно сформулировать следующий алгоритм направленной кластеризации. Схема алгоритма 1. Переходим к метрике Махаланобиса и центрируем данные. 2. Задаем некоторое начальное направление А = Л<°>. 3. Производим группировку проекций объектов на А г, = (A'Xt) ... (i, = 1, я). Подсчитываем центры Xlt ..., Xh и матрицу В. Проверяем условие остановки (стабилизацию центров). 4. Пересчитываем А здесь В — матрица межгруппового рассеивания по центрам. Переходим на шаг 3. На каждом шаге значение функционала качества не убывает, а так как он ограничен, то отсюда следует сходи- сходимость за конечное число шагов (если следить за критерием оптимизации как условием остановки). 327
12.3. Некоторые методические рекомендации Использование априорной информации. Успех применения процедур классификации во многом зависит от информации, которой обладает исследователь относительно ожидаемого разделения объектов на классы. Возможно использование априорной информации в одной из следующих форм: задание метрики в пространстве, т. е. функции расстоя- расстояния между объектами (подробнее см. гл. 5, 11); частично обучающие выборки (ЧОВ) (см. гл. 11); неполные обучающие выборки (см. гл. 9). Эффективность применения ОВ весьма высока. Часто ОВ суммарного объема, составляющего 5—-10% общего числа объектов, позволяют получить содержательно осмыслен- осмысленную классификацию, трудно реализуемую при их отсут- отсутствии. Итеративное использование процедур классификации. Как правило, использование процедур классификации но- носит итеративный характер, в особенности если априорная информация отсутствует. Для получения содержательно ос- осмысленной классификации (если она вообще потенциально возможна) полезны следующие методические приемы: применение к данным нескольких алгоритмов классифи- классификации с последующим сравнением результатов; применение для анализа данных нескольких метрик и нескольких вариантов параметров, управляющих работой алгоритма, с последующим сравнением результатов; при этом выбирается вариант классификации, наиболее устой- устойчивый к вариации параметров. Визуализация данных. Подчеркнем еще раз пользу при- применения средств визуализации, т. е- отображения на пло- плоскость главных компонент я нелинейных проекций, построе- построения гистограмм на направлениях проектирования и т. д. Визуализация может быть использована как для выделе- выделения сгущений объектов до применения процедур классифи- классификации (тогда некоторые точки из сгущений можно попытать- попытаться использовать как ЧОВ), так и для отображения резуль- результатов работы процедуры классификации. Результаты классификации тем устойчивее, чем больше объем выборки п и меньше соотношение pin. В частности, поэтому полезно провести классификацию объектов, спроек- спроектированных в пространство небольшой размерности, напри- например использовать несколько линейных или нелинейных глав- главных компонент (см. гл. 13) и целенаправленное проецирова- проецирование (см. гл. 19). 328
Использование дополнительных (иллюстративных) пере- переменных. Применение иллюстративных переменных в интер- интерпретации и оценке устойчивости разбиения описано в § 12.4. Удаление аномальных наблюдений. Наличие аномаль- аномальных наблюдений, как правило, ухудшает результаты клас- классификации, «сжимая» имеющиеся классы. Поэтому проверка наличия таких наблюдений (см., например, § 19.5) и их уда- удаление являются необходимым этапом перед проведением ав- автоматической классификации. 12.4. Средства, помогающие интерпретации результатов Предположим теперь, что в результате применения той или иной процедуры кластер-анализа или разделения сме- смесей получена группировка исходных объектов на k групп. На дальнейшем этапе задачей исследователя является интер- интерпретация (объяснение) полученного разделения на группы в терминах некоторого причинно-следственного механизма. При интерпретации применяются обычно следующие средства. Анализ состава объектов, попавших в одну группу. Изучение статистических характеристик распределений переменных для объектов внутри каждой из групп. Для коли- количественных переменных такими характеристиками для каж- каждой переменной являются характеристики положения (ме- (медиана, мода, средняя величина) и рассеивания вокруг вы- выбранной характеристики положения (обычно внутригруп- " повое стандартное отклонение, но может использоваться, например, и абсолютное отклонение). В качестве характе- характеристики совместного распределения переменных внутри группы используется корреляционная матрица. В качестве переменных-индикаторов, полезных для ин- интерпретации группы, в первую очередь ищут такие, для ко- которых их внутригрупповое стандартное отклонение или дис- дисперсия много меньше стандартного отклонения (дисперсии) по всей совокупности объектов. Некоторую интерпретирую- интерпретирующую информацию можно получить из сравнения коэффи- коэффициентов корреляции между переменными для разных групп. Вспомогательным, но полезным простым средством для одновременного анализа разброса значений какой-либо переменной вокруг средних значений в каждой группе и их взаимного расположения служит линейная диаграмма. Это прямая линия, на которой расположены координаты цент- центров групп поданной переменной с указанием интервала раз- 329
броса этой переменной вокруг каждого из центров (обычно ± а — одно внутригрупповое стандартное отклонение). Если среди переменных имеются неколичественные, то как индикаторы используются частоты градаций этих пере- переменных. Если для некоторой переменной х частота ее /-й градации в i-и группе существенно выше, чем по всей вы- выборке в среднем, то она может использоваться для интер- интерпретации. Использование дополнительных (иллюстративных) пере- переменных. Кроме переменных, которые непосредственно ис- использовались при получении классификации (активных переменных), полезно включать в рассмотрение и перемен- переменные, которые будут использованы только на этапе интерпре- интерпретации. Для этих переменных в целях интерпретации оцени- оцениваются внутригрупповые статистические характеристики аналогично тому, как это делается для активных. Другое возможное их применение состоит в проведении дискрими- нантного анализа. Использование дискриминантного анализа. Полученные группы объектов можно использовать как обучающие вы- выборки для дискриминантного анализа в пространстве ак- активных или иллюстративных переменных. Проведение ДА в пространстве активных переменных можно использовать, с одной стороны, для целей оценки ус- устойчивости классификации, для чего, например, подсчиты- вается такая характеристика, как частота ошибочной клас- классификации (полная и попарные частоты) при применении метода скользящего экзамена. С другой стороны, для целей интерпретации можно выделить информативные перемен- переменные (пошаговый дискриминантный анализ) и использовать в интерпретации коэффициенты линейных дискриминантных функций. Проведение ДА в пространстве иллюстративных пере- переменных добавляет еще один аспект. Если в этом случае ре- результаты ДА будут хорошими (низкая частота ошибок), то это будет служить дополнительным доводом в пользу пред- предположения, что полученная группировка не случайна, а от- отражает некоторые существенные свойства структуры данных. ВЫВОДЫ 1. Задача оценки качества группировки и ее интерпрета- интерпретации носит комплексный характер и основывается на исполь- использовании совокупности большого числа характеристик, отра- 330
жающих компактность групп, их взаимное расположение и распределение объектов в группах. Весьма важным, если не основным, является использование содержательных сооб- соображений. 2. В качестве средств, позволяющих оценить качество полу- полученной группировки, полезными являются критериальные величины, характеристики компактности классов, визуаль- визуальный анализ отображений на плоскости, образованные глав- главными компонентами и факторными осями, осями, получае- получаемыми в анализе соответствий, и особенно каноническими дискриминантными направлениями. 3. Процедуры классификации целесообразно проводить не- несколько раз, меняя метрики, число классов и другие пара- параметры настройки. 4. Основной подход к интерпретации полученных групп основан на использовании статистических характеристик внутригрупповых распределений. Полезным приемом яв- является использование дискриминантного анализа и иллю- иллюстративных переменных.
Раздел III. СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛИЗИРУЕМОГО ПРИЗНАКОВОГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПОКАЗАТЕЛЕЙ Глава 13. МЕТОД ГЛАВНЫХ КОМПОНЕНТ 13.1. Сущность проблемы снижения размерности и различные методы ее решения В исследовательской и практической статистической работе приходится сталкиваться с ситуациями, когда общее число р признаков jc*1), х^2\ ..., xip), регистрируемых на каждом из множества обследуемых объектов (стран, городов, предприя- предприятий, семей, пациентов, технических или экологических си- систем), очень велико — порядка ста и более. Тем не менее име- имеющиеся многомерные наблюдения *= 1, 2, .... п, A3.1) следует подвергнуть статистической обработке, осмыслить либо ввести в базу данных для того, чтобы иметь возмож- возможность их использовать в нужный момент. Желание статистика представить каждое из наблюдений A3.1) в виде вектора Z некоторых вспомогательных показа- показателей г*1*, 2<2>, ...,z<p') с существенно меньшим (чем р) чис- числом компонент р'бывает обусловлено в первую очередь сле- следующими причинами: необходимостью наглядного представления (визуализа- (визуализации) исходных данных A3.1), что достигается их проециро- проецированием на специально подобранное трехмерное пространст- пространство (р' = 3), плоскость (р' = 2) или числовую прямую (зада- (задачам такого типа посвящен раздел IV); стремлением к лаконизму исследуемых моделей, обуслов- обусловленному необходимостью упрощения счета и интерпрета- интерпретации полученных статистических выводов; необходимостью существенного сжатия объемов храни- хранимой статистической информации (без видимых потерь в ее информативности), если речь идет о записи и хранении мас- массивов типа A3.1) в специальной базе данных. 332
При этом новые (вспомогательные) признаки 2A>, z<2>, ..., 2(р'> могут выбираться из числа исходных или определять- определяться по какому-либо правилу по совокупности исходных при- признаков, например как их линейные комбинации. При форми- формировании новой системы признаков к последним предъявляв юте я разного рода требования, такие, как наибольшая ин- информативность (в определенном смысле), взаимная некор- некоррелированность, наименьшее искажение геометрической структуры множества исходных данных и т. п. В зависимо- зависимости от варианта формальной конкретизации этих требова- требований (см. ниже, а также раздел IV) приходим к тому или ино- иному алгоритму снижения размерности. Имеется, по крайней мере, три основных типа принципиальных предпосылок, обу- обусловливающих возможность перехода от большого числа р исходных показателей состояния (поведения, эффективно- эффективности функционирования) анализируемой системы к сущест- существенно меньшему числу р' наиболее информативных перемен- переменных. Это, во-первых, дублирование информации, достав- доставляемой сильно взаимосвязанными признаками; во-вторых, не- неинформативность признаков, мало меняющихся при переходе от одного объекта к другому (малая «вариабельность» при- признаков); в-третьих, возможность агрегирования, т. е. про- простого или «взвешенного» суммирования, по некоторым при- признакам. Формально задача перехода (с наименьшими потерями в информативности) к новому набору признаков 2<*>, z<2), ..., 2(р') может быть описана следующим образом. Пусть Z = Z (X) — некоторая р-мерная вектор-функция исход- исходных переменных jcA), x(8), ..., х(р) (р' <t P) и пусть IP-(Z(X)) — определенным образом заданная мера информа- информативности р'-мерной системы признаков Z (X) = (г^ЦХ), ..., z<p/) (X)). Конкретный выбор функционала /р< (Z) зави- зависит от специфики решаемой реальной задачи и опирается на один из возможных критериев: критерий автоинформатив- автоинформативности, нацеленный на максимальное сохранение информа- информации, содержащейся в исходном массиве {Х,}1=^ относи- относительно самих исходных признаков; и критерий внешней ин- информативности, нацеленный на максимальное «выжимание» из {Xj}j=i~ информации, содержащейся в этом массиве от- относительно некоторых других (внешних) показателей. Задача заключается в определении такого набора при- признаков Z, найденного в классе F допустимых преобразова- преобразований исходных показателей ^1J, ..., х(р), что max<V(Z(X))>. A3.2) Z6F 333
Тот или иной вариант конкретизации этой постановки (определяющий конкретный выбор меры информативности /р- (Z) и класса допустимых преобразований) приводит к конкретному методу снижения размерности: к методу глав- главных компонент, факторному анализу, экстремальной груп- группировке параметров и т. д. Поясним это на примерах. 13.1.1. Метод главных компонент (см. § 13.2—§ 13.6). Имен- Именно к р первым главным компонентам придет исследователь, если в качестве класса допустимых преобразований F опре- определит всевозможные линейные ортогональные нормирован- нормированные комбинации исходных показателей, т. е. 2 */% = 1, /= 1, 2 р; A3.3) р 2 c/vCkv = 0, j, k = 1, 2, .... р; 1Фк v=l (здесь |i<v> = Ejc(v) — математическое ожидание *<v))> а в качестве меры информативности //-мерной системы показа- показателей (г*1) (X), ..., 2<р') (X)) выражение A3.4) (здесь D, как и ранее, знак операции вычисления дисперсии соответствующей случайной величины). 13.1.2. Факторный анализ (см. гл. 14). Как известно (см. § 14.1), модель факторного анализа объясняет структуру связей между исходными показателями лс'1*, ..., jc(p> тем, что поведение каждого из них статистически зависит от одного и того же набора так называемых общих факторов г/'1), ..., у(р'), т. е. */>-,»</} - 2 <7/v^v)+"(/) (/=1, 2 р), где q,y — «нагрузка» общего фактора y(v> на исходный по- показатель x(l\ a ud)—остаточная «специфическая» случай- случайная компонента, причем Ey<v> — 0, Еы<'> = О, D#<V> = 1 и у^\ ..., #<">', ы'1), .... ы'р> — попарно некоррелированы. Оказывается, если F определить как класс всевозможных линейных комбинаций д^1', ..., х^ с учетом упомянутых ог- 334
раннченнй на yW, а в качестве меры информативности р- мерной системы показателей выбрать величину /P'(Z(X))— = 1 — II Rx — R^ 112, то решение оптимизационной зада- задачи A3.2) совпадает с вектором общих факторов (г/A>,..., yf'i) в модели факторного анализа. Здесь Rx — корреля- корреляционная матрица исходных показателей xtl\ ..., jc(p>, Rj — корреляционная матрица показателей х(М — 2 (Jjv y(v). v=l а ||А|| — евклидова норма матрицы А. 13.1.3. Метод экстремальной группировки признаков (см. п. 14.2.1). В данном методе речь идет о таком разбиении со- совокупности исходных показателей *<*>, ..., xW на заданное число р групп Slf ..., SP', что признаки, принадлежащие од- одной группе, были бы взанмокоррелнрованы сравнительно сильно, в то время как признаки, принадлежащие к разным группам, были бы коррелнрованы слабо. Одновременно ре- решается задача замены каждой (i-й) группы сильно взанмо- коррелнрованных исходных показателей одним вспомога- вспомогательным «равнодействующим» показателем г(<>, который, естественно, должен быть в тесной корреляционной связи с признаками своей группы. Определив в качестве класса до- допустимых преобразований F исходных показателей все нор- нормированные (Dz(l> = 1) линейные комбинации *<*>, ..., jc(p), ищем решение (S*, .... Sp; z*1), ..., г(р/>), максимизируя (по 5 и Z (X)) функционал г(р'))- где г (х, г) — коэффициент корреляции между переменными X И 2. 13.1.4. Многомерное шкалирование (см. гл. 16). В ряде си- ситуаций и в первую очередь в ситуациях, когда исходные статистические данные получают с помощью специальных опросов, анкет, экспертных оценок, возможны случаи, когда элементом первичного наблюдения является не состоянне i- го объекта, описываемого вектором Xt, а характеристика pti попарной блнзостн (отдаленностн) двух объектов (нлн приз- признаков) соответственно с номерами i и /. В этом случае нсследователь располагает в качестве мас- массива исходных статистических данных матрицей размера (если рассматриваются характеристики попарной бли- 335
зости объектов) или рхр (если рассматриваются характе- характеристики попарной близости признаков) вида Р == (ргЛ. *\ /=1» 2. •¦•» /", т = л или m==/>» A3.5) где величины р!} интерп-ретируются либо как расстояния между объектами (признаками) i и /, либо как ранги, задаю- задающие упорядочение этих расстояний. Задача многомерного шкалирования состоит в том, чтобы «погрузить» наши объ- объекты (признаки) в такое р'-мерное пространство (р'<^тт (р, п)), т. е. так выбрать координатные оси 0г<х>, ..., 0г<р'>, чтобы исходная геометрическая конфигурация совокупно- совокупности анализируемых точек-объектов (или точек-признаков), заданных с помощью A3.1) или A3.5), оказалась бы наи- наименее искаженной в смысле некоторого критерия средней «степени искажения» A(Z) взаимных попарных расстояний. Одна из достаточно общих схем многомерного шкали- шкалирования определяется критерием где dij — расстояние между объектами 0t и Oj в исходном пространстве, du- (Z) — расстояние между теми же объек- объектами в искомом пространстве меньшей размерности р', а а и Р — свободные параметры, выбор конкретных значений ко- которых производится по усмотрению исследователя. Определив меру информативности искомого набора при- признаков Z, например, как величину, обратную упомянутой выше величине степени искажения геометрической структу- структуры исходной совокупности точек, сведем эту задачу к общей постановке A3.2), полагая ± p 13.1.5. Отбор наиболее информативных показателей в моде- моделях дискриминантного анализа (см. § 1.4; 2.5). Приведен- Приведенные выше функционалы являются измерителями автоинфор- автоинформативности соответствующей системы признаков. Приве- Приведем теперь примеры критериев внешней информативности. В частности, нас будет интересовать информативность сис- системы показателей 2<Х)(Х), ..., г<р/> (X) с точки зрения пра- правильности классификации объектов по этим показателям в схеме дискриминантного анализа. При этом класс допусти- допустимых преобразований F определим исходя из требований, что в качестве z<*> (X) могут рассматриваться лишь представи- 336
тели набора исходных показателей, т. е. Z (X) — (jc(Ji), х('г), ..., х '"' ). Распространенным исходным тезисом при ре- решении задачи выявления наиболее информативных р' по- показателей из исходного набора я*1*, xS'2), ..., х(р) является утверждение, что вектор показателей (x(li), х('*>, ..., xilp')) заданной размерности р' тем более информативен, чем боль- больше различие в законах его вероятностного распределения, определенных в разных классах в рассматриваемой задаче классификации. Если ввести меру попарного различия б {Р, (Z), P] (Z)} законов PjfZ),..., Pk(Z), описывающих распределение вероятностей вектора признаков Z = (х<">, ..., х<?р'>) в классах с номерами 1, 2, ..., k, то можно форма- формализовать вышеприведенный принцип отбора наиболее ин- информативных показателей х('«), ..., лс('р'\ определяя их из условия максимизации (по iu i2, --., iP') величины Наиболее употребительные меры различия между законами распределения вероятностей б {Pt, Pj} — это расстояние информационного типа (расстояние Кульбака, расстояние Махаланобиса), а также «расстояние по вариации» (подроб- (подробнее об этом см. в Е154, с. 76—84]. 13.1.6. Отбор наиболее информативных переменных в моде- моделях регрессии (см. [12, гл. 8]). При построении зависимо- зависимостей регрессионного типа одним из центральных оказывает- оказывается вопрос выявления сравнительно небольшого числа р' переменных (из априорного набора хA>, jcB), ..., х(р)), на- наиболее существенно влияющих на поведение исследуемого результирующего признака у. Таким образом, как и в предыдущем пункте, класс F сос- состоит из всевозможных наборов переменных Z = (х('«>, ..., х('р/)), отобранных из исходного множества факторов-аргу- факторов-аргументов jcA), ..., х(р>, и имеем дело с критерием внешней ин- информативности таких наборов. Его вид обычно задается с помощью множественного коэффициента детерминации Щ (xUi\ ..., xUp'y) — характеристики степени тесноты связи показателя у с набором переменных х<'»>, ..., ;с(/р). При этом для фиксированной размерности р' < р набор переменных х 1 , ..., х р будет, очевидно, считаться наиболее инфор- информативным (с точки зрения точности описания поведения показателя у), если значение меры информативности на этом наборе достигает максимума. 337
13.1.7. Сведение нескольких частных критериальных пока- показателей к единому интегральному (см. гл. 15). Речь идет о ситуациях, в которых «качество функционирования» ис- исследуемой системы или объекта (предприятия, сложного из- изделия, отдельного специалиста и т.д.) характеризуется на- набором поддающихся измерению частных критериальных показателей jc*1», jc<2>, ..., jc(p>. Однако требуется перейти к некоторой не поддающейся непосредственному измерению скалярной интегральной оценке у. При этом постулируется, что латентный показатель у является функцией известного общего вида от д^1), ..., jc<p>, т. е. у — f (хA>, ..., х<р); в), и требуется подобрать лишь неизвестное значение парамет- параметра (вообще говоря, векторного) в. Для решения этой задачи к зарегистрированной в ре- результате контрольного обследования исходной статистиче- статистической информации вида A3.1) приходится добавлять один из следующих вариантов экспертной информации о показа- показателе у. В а р и а н т 1: балльная оценка «выходного качества» у, т. е. значения у1э, у2э, ..., упэ, экспертно оценивающие в определенной балльной шкале «выходное качество» 1-го, 2-го, ..., п-го объектов. Вариант 2: ранжирование анализируемых объектов, т. е. их упорядочение по степени убывания «выходного ка- качества» у; таким образом будем иметь ранги R3 = {/?*э},=1—, т. е. порядковые номера объектов в этом упорядоченном ряду. Вариант 3: результаты попарных сравнений анализи- анализируемых объектов по интересующему нас «выходному каче- качеству» или результат разбиения контрольной совокупности объектов на группы, однородные с точки зрения «выходного качества»; и в том и в другом случае экспертные данные мо- могут быть представлены с помощью булевой матрицы Г = ^(УИэХ^ТГп' где Т«в =1' если °* не хУже °^ У И ==Ов ПР°" тивном случае. Алгоритмы определения неизвестного параметра в ис- используют в качестве исходной статистическую информацию A3.1), дополненную одним из вариантов экспертной ин- информации (поэтому метод называется экспертно-статисти- ческим), и построены на следующей идее. Если было бы из- вестно значение параметра в, можно было бы вычислить значение целевой функции/ (я*^, ...,х^>; в) для каждого из контрольных объектов и определить с помощью этой це- целевой функции и балльные оценки / (хA), ..., х^; в), и ран- 338
ги R(B) = {Ri (в)}/=,—, и матрицу парных сравнений Поэтому если хотим формализовать с помощью целевой функции / (X; 6) экспертные критерийные установки, в со- соответствии с которыми формируется единый интегральный показатель «выходного качества» у, естественно подчинить алгоритм поиска параметра в оптимизационному критерию вида h(Z(X, 6))= I \1 + 2 [»b—f[*io, -. xlp)> e)YVl B варианте 1; в, Я (в)) в варианте 2; 1-1 11 1 + 2 I Vi/a — Yi/ (e) 11 B варианте 3 (здесь под г (S, Q) подразумевается коэффициент ранговой корреляции Спирмэна между ранжировками S и Q). Разра- Разработаны алгоритмы и программы, позволяющие вычислять в в задаче максимизации критерия /X(Z (X; в)) для всех трех вариантов (см. гл. 15). 13.2. Определение, вычисление и основные числовые характеристики главных компонент Во многих задачах обработки многомерных наблюдений и, в частности, в задачах классификации исследователя инте- интересуют в первую очередь лишь те признаки, которые обна- обнаруживают наибольшую изменчивость (наибольший разброс) при переходе от одного объекта к другому. С другой стороны, не обязательно для описания состоя- состояния объекта использовать какие-то из исходных, непосред- непосредственно замеренных на нем признаков.Так, например, для определения специфики фигуры человека при покупке одеж- одежды достаточно назвать значения двух признаков (размер — рост), являющихся производными от измерений ряда пара- параметров фигуры. При этом, конечно, теряется какая-то доля информации (портной измеряет до одиннадцати параметров на клиенте), как бы огрубляются (при агрегировании) полу- получающиеся при этом классы. Однако, как показали исследо- 339
вания, к вполне удовлетворительной классификации людей с точки зрения специфики их фигуры приводит система, использующая три признака, каждый из которых является некоторой комбинацией от большого числа непосредственно замеряемых на объекте параметров. Именно эти принципиальные установки заложены в сущ- сущность того линейного преобразования исходной системы при- признаков, которое приводит к главным компонентам. Форма- лиз> ются же эти установки следующим образом. Следуя общей оптимизационной постановке задачи сни- снижения размерности A3.2) и полагая анализируемый при- признак X р-мерной случайной величиной с вектором средних значений ц = (цA), ..., ц(р)) и ковариационной матрицей 2 = (ои) (i, j = 1, 2, ..., р), вообще говоря, неизвестными, определим меру (критерий) информативности /р' (Z) вспо- вспомогательной р'-мерной системы показателей Z-^(zA>, ..., 2&">) с помощью A3.4), а класс допустимых преобразова- преобразований — в виде A3.3). Тогда при любом фиксированном р' = = 1, 2, ..., р вектор искомых вспомогательных перемен- переменных Z (X) = (г*1) (X), ..., г^">(Х))' определяется как такая линейная комбинация Z=LX (где матрица кг - кР 1р' 1 ••¦ to' pj а ее строки удовлетворяют условию ортогональности), что = max Полученные таким образом переменные г*1) (X), ..., г*"' (X) и называют главными компонентами вектора X. По- Поэтому можно дать следующее определение главных компо- компонент. Первой главной компонентой гA)(Х) исследуемой системы показателей X = (хA>, ...,jc(p))' называется такая нормиро- ванно-центрированная линейная комбинация этих показа- показателей, которая среди всех прочих нормированно-центриро- ванных линейных комбинаций переменных jc*1) х(р) обладает наибольшей дисперсией. k-й главной компонентой (k — 2, 3, ..., р) исследуемой системы показателей Х= (*A>, ... дс<р))' называется такая 340
нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с k — 1 предыдущи- предыдущими главными компонентами и среди всех прочих нормиро- ванно-центрированных и не коррелированных с предыдущи- предыдущими k — 1 главными компонентами линейных комбинаций переменных хA>, ..., х(р> обладает наибольшей дисперсией. Замечание 1 (переход к центрированным перемен- переменным). Поскольку, как увидим ниже, решение задачи (а именно вид матрицы линейного преобразования L) зави- зависит только от элементов ковариационной матрицы 2, ко- которые в свою очередь не изменяются при замене исходных переменных х^ переменными х('> — с*'> (с*') — произволь- произвольные постоянные числа), то в дальнейшем будем считать, что исходная система показателей уже центрирована, т. е. что Ех(/) = 0, / = 1,2, ..., р. В статистической практике этого добиваются, переходя к наблюдениям х<р = х^> — п — x{i), где ж"' = 2 х\п1п (для упрощения обозначений вол- нистую черту над центрированной переменной и над главной компонентой в дальнейшем ставить не будем). Замечание 2 (переход к выборочному варианту). Поскольку в реальных статистических задачах располагаем лишь оценками ц, и 2 соответственно вектора средних р. и ковариационной матрицы 2, то во всех дальнейших рассуж- рассуждениях под ц(/) понимается х(/), а под okj — выборочная ковариация ?ki = ? (х\к) —~хЮ) (хр — х<Л)/л (/, к = = 1,2, ..„ р). Вычисление главных компонент. Из определения глав- главных компонент следует, что для вычисления первой главной компоненты необходимо решить оптимизационную задачу вида '• A3.7) где 1г — первая строка матрицы L (см. A3.6)). Учитывая центрированность переменной X (т. е. ЕХ = 0) и то, что Е (XX') = 2, имеем D (/г X) =- Е (lt Х)г = Е (/, XX' /,') - /, Щ. 341
Следовательно, задача A3.7) может быть записана {t\ 2/{-»-max; /. A3.7') /Л 1 Вводя функцию Лагранжа ф {1Ъ к) = 1{LI\ — X (tji —1) и дифференцируя ее по компонентам вектор-столбца l[t имеем что дает систему уравнений для определения /х: <2—ЗЛ)Л = О A3.8) (здесь 0 = @, 0, ...0)' — р-мерный вектор-столбец из ну- нулей). Для того чтобы существовало ненулевое решение систе- системы A3.8) (а оно должно быть ненулевым, так как /х/{ = 1), матрица 2 — АЛ должна быть вырожденной, т. е. |2—М| = 0. A3.9) Этого добиваются за счет подбора соответствующего зна- значения К. Уравнение A3.9) (относительно А.) называется ха- характеристическим для матрицы 2. Известно, что при сим- симметричности и неотрицательной определенности матрицы 2 (каковой она и является как всякая ковариационная мат- матрица) это уравнение имеет р вещественных неотрицатель- неотрицательных корней Я,х > А,2 ... > Хр > 0, называемых характери- характеристическими (или собственными) значениями матрицы S. Учитывая, что Dz*1) = D AХХ) = ^2 /{ (см. выше) и /j 2 1[ = Я. (последнее соотношение следует из A3.8) пос- после его умножения слева на 1и с учетом 1г1{ = 1), получаем Поэтому для обеспечения максимальной величины дис- дисперсии переменной zA> нужно выбрать из р собственных зна- значений матрицы 2 наибольшее, т. е. Подставляем А.г в систему уравнений A3.8) и, решая ее относительно 1и, ..., /1Р, определяем компоненты вектора lv Таким образом, первая главная компонента получается как линейная комбинация zA> (X) — /t • X, где lx — соб- собственный вектор матрицы 2, соответствующий наиболь- наибольшему собственному числу этой матрицы. 342
Далее аналогично можно показать, что z<*> (X) = lh-X, где lk — собственный вектор матрицы 2, соответствующий А-му по величине собственному значению Kh этой матрицы. Таким образом соотношения для определения всех р главных компонент вектора X могут быть представлены в виде где Z = («(Ч, ..., z<">)\ X = (л*Ч, .... xWY, а матрица L состоит из строк I) = (/д, ..., ljp), j = 1, р, являющихся собственными векторами матрицы 2, соответствующими собственным числам к}. При этом сама матрица L по постро- построению является ортогональной, т. е. Основные числовые характеристики главных компонент. Определим основные числовые характеристики (средние значения, дисперсии, ковариации) главных компонент в тер- терминах основных числовых характеристик исходных пере- переменных и собственных значений матрицы S: а) EZ = б) ковариационная матрица вектора главных компонент: 2Z= E(ZZ') = E((LX)(LX)') = E(LXX' L') = =L.E(XX')-L'==L.SL'. Умножая слева соотношения на lj (/ = 1, p), получаем, что О и, следовательно: A3.10) 343
Из A3.10), в частности, следует подтверждение взаим- взаимной некоррелированности главных компонент, а также в) сумма дисперсий исходных признаков равна сумме р дисперсий всех главных компонент. Действительно, 2Dzw = = SpSz -Sp(LSL') = Sp((LS)-L') = Sp(L'*(L2)) = г) обобщенная дисперсия исходных признаков (X) рав- равна обобщенной дисперсии главных компонент (Z). Дейст- Действительно, обобщенная дисперсия вектора Z равна Следствие. Из б) и в), в частности, следует, что критерий информативности метода главных компонент A3.9) может быть представлен в виде . A3.9') где %у, Х2, ...,%р — собственные числа ковариационной мат- матрицы 2 вектора X, расположенные в порядке убывания. Кстати, представление lp- (Z (X)) в виде A3.9') дает исследователю некоторую основу, опорную точку зрения, при вынесении решения о том, сколько последних главных компонент можно без особого ущерба изъять из рассмотре- рассмотрения, сократив тем самым размерность исследуемого прост- пространства. Действительно, анализируя с помощью A3.9') изменение относительной доли дисперсии, вносимой первыми р' глав- главными компонентами, в зависимости от числа этих компо- компонент, можно разумно определить число компонент, которое целесообразно оставить в рассмотрении. Так, при измене- изменении /Р', изображенном на рис. 13.1, очевидно, целесообраз- целесообразно было бы сократить размерность пространства с р = 10 до р'= 3, так как добавление всех остальных семи главных компонент может повысить суммарную характеристику рассеяния не более чем на 10 %. Замечание 3. Использование главных компонент оказывается наиболее естественным и плодотворным в си- ситуациях, в которых все компоненты д^1), д^2), ..., л:<р> иссле- исследуемого вектора X имеют общую физическую природу и со- соответственно измерены в одних и тех же единицах. К та- таким примерам можно отнести исследование структуры бюд- 344
жета времени индивидуумов (все лг(/) измеряются в единицах времени), исследование структуры потребления семей (все лг(() измеряются в денежных единицах), исследование об- общею развития и умственных способностей индивидуумов с помощью специальных тестов (все лгA) измеряются в баллах), разного рода антропологические исследования (все лгA> из- измеряются в единицах меры длины) и т.д. Если же различ- различные признаки д^1), *<2>, ..., xw измеряются в различных 1 23456789 10 г Рис. 13.1. Изменение относительной доли суммар- суммарной дисперсии исследуемых признаков, обуслов- обусловленной первыми р' главными компонентами, в за- зависимости от р' (случай р=10) единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения. Поэтому в подобных ситуаци- ситуациях исследователь предварительно переходит к вспомога- вспомогательным безразмерным признакам х*A), например с помо- помощью нормирующего преобразования П = 1, 2, .... р\ lv=l, 2, .... п]' где ait соответствует ранее введенным обозначениям, а за- затем строит главные компоненты относительно этих вспомо- 345
гательных признаков X* и их ковариационной матрицы 2*», которая, как легко видеть, является одновременно выбороч- выборочной корреляционной матрицей R исходных наблюдений Xt. Замечание 4. В некоторых задачах оказывается полезным понятие так называемых обобщенных главных ком- компонент, при определении которых оговаривают более общие р (чем 2^и — 1) ограничения на коэффициенты /,-/, т. е. тре- /=i буют, чтобы где oihj — некоторые дополнительно введенные веса. Оче- Очевидно, если cofty = 1 при k = / и <akj = 0 при k Ф /, то имеем обычное условие нормировки коэффициентов 1^ и обычные главные компоненты. Можно показать, что при та- такой модификации условий нормировки коэффициенты It = = (hi, I12, •••> Uv)< c помощью которых обобщенные главные компоненты z(i) выражаются через исходные признаки 1 tf8), ..., л:<р), определяются как решения уравнений где %i —t-й по величине корень уравнения |2 — Я,Я| =0, а матрица Q = (со,у), i, j = 1,2, ..., р — некоторая поло- положительно определенная матрица весов. При этом, как и прежде, дисперсия обобщенной главной компоненты z(v> равна kt, a z(() и г^ при i^j взаимно fl-не коррелированы. Заметим, кстати, что если в качестве матрицы весов вы- выбрать матрицу 0 ... 0 ег22 • 0 0 ... ар то, как легко показать, обобщенные компоненты (в метрике Q), построенные по исходным признакам лгA>, ..., х<р), сов- совпадут с обычными компонентами, построенными по вспомо- вспомогательным безразмерным (нормированным) признакам л:*<1), Проиллюстрируем определение главных компонент на численном примере, заимствованном из [279]. Пример 13.1. По данным измерений (в мм) длины ^), ширины (j?2)) и высоты (л**>) панциря 24 особей (я= 346
= 24) одного из видов черепах определена выборочная ко- ковариационная матрица л /451,39 271,17 168,70> 2=1271,17 171,73 103,29 \ 168,70 103,29 66,65; Решая, в соответствии с A3.4), кубическое уравнение (относительно X) вида 451,39—Я 271,17 168,70 271,17 171,73—Я 103,29 =0. 168,70 103,29 66,65—X находим Хх — 680,40, %2 = 6,50, Х3 = 2,86. Подставляя последовательно численные значения Я1( к, и Х3 в систему A3.3) и решая эти системы относительно неизвестных /, = (/г1, li2, li3) (i = 1, 2, 3), получаем /0,8126\ /—0,5454\ /—0.2054N '1=4 0,4955 Ь ^=( 0,8321 , /з = ( —0,2491 I- \0,3068/ \ 0,1006/ \ 0,9465/ В качестве главных компонент получаем z<s> = —0,55л;") , Юл;*3»; Здесь под л:A), л^2> и л^3> подразумеваются отклонения раз- размеров длины (хA)), ширины (л^2))и высоты (а;<3>) панциря от своих средних значений. Вычисление относительной доли суммарной дисперсии, обусловленной одной, двумя и тремя главными компонен- компонентами, в соответствии с формулой A3.9') дает я B) =ттгтг= =0'9958; = 1. Отсюда можно сделать вывод, что почти вся информация о специфике размеров панциря данного вида черепах содер- 347
жится в одной лишь первой главной компоненте, которую и естественно использовать при соответствующей классифи- классификации исследуемых особей. 13.3. Экстремальные свойства главных компонент. Их интерпретация Свойство наименьшей ошибки «автопрогноза» или наилуч- наилучшей самовоспроизводимости. Можно показать [293, 283, 284], что с помощью первых р' главных компонент z<J>, z<2>, .... z<p'> (р < р) исходных признаков л:*1), лг<2), ..., лг<р> до- достигается наилучший прогноз этих признаков среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набора из р произвольных признаков. Поясним и уточним сказанное. Пусть требуется заменить исходный исследуемый р-мерный вектор наблюдений X на вектор Z = (z*1), z<2>, .... z<p'>)' меньшей размерности р', в котором каждая из компонент являлась бы линейной ком- комбинацией р исходных (или каких-либо других, вспомога- вспомогательных) признаков, теряя при этом не слишком много ин- информации. Информативность нового вектора Z зависит от того, в какой степени/?' введенных линейных комбинаций да- дают возможность «реконструировать» р исходных (измеряе- (измеряемых на объектах) признаков. Естественно полагать, что ошибка прогноза^по Z(обозначим ее а ) будет определять- определяться так называемой остаточной дисперсионной матрицей век- вектора X при вычитании из него наилучшего прогноза по Z, т. е. матрицей А = (Д,у), где р' Здесь 2^1*2</> — наилучший, в смысле метода наименьших i=i квадратов, прогноз х^ по компонентам z*1', г<*>, ..., *<"'>, т. е. а = f (А), где / (А) — некоторая функция (качества предсказания) от элементов остаточной дисперсионной мат- матрицы А. В 1293] решалась задача наилучшего прогноза X только в классе р' линейных комбинаций от исходных признаков jcA>, ..., *<"> и рассмотрены естественные меры ошибки про- прогноза, такие, как f(A) = Sp(A) = Au+Ae+...+ Aw, A3.11) 348
2 2 1 /=¦ 1 Здесь Sp (А) и |1Д|| — соответственно след и евклидова нор- норма матрицы А. С. Р. Рао показал, что функции A3.11) и A3.12) одновременно достигают минимума тогда и только тогда, когда в качестве г<*>, z<2>, .. , z<p/> выбраны первые р главных компонент вектора X, причем величина ошибки прогноза о явным образом выражается через последние р — р' собственных чисел Кр-+1, ..., Кр исходной ковариа- ковариационной матрицы 2 или через последние р — р' собствен- собственных чисел ЛР'+1, ..., Кр выборочной ковариационной мат- матрицы 2, построенной по наблюдениям Xv X2, ..., Хп. В ча- частности, при ПрИ / jt»; — || и || . и — у пр'+\ "T 'V +2 ~Г ••• ~T'Vp • В работах [283, 2843 эта схема обобщена на случай произ- произвольных предсказывающих признаков г/*1*, г/<2>, ..., г/<р'> и более широкого класса функций / (А) и показано, что min /(А) достигается тогда и только тогда, когда в качестве искомых предсказывающих признаков г/1', ..., г/<р'> берутся сами исследуемые (измеряемые) признаки х^, л^2), ..., х<р>, а в качестве р линейных комбинаций (предикторов) zA), z<2>, ..., z<p'> от них выбраны первые р' главных компонент вектора X. При этом величина ошибки прогноза о, как и прежде, определяется лишь р — р последними собственны- собственными значениями КР'+1, Я.Р'+2, ..., Хр исходной ковариацион- ковариационной матрицы 2. В эту схему укладывается, в частности, случай / (А) = = |А|, в котором о — Хр-+1 ¦ %р-+2 ¦ ... ¦ %р. Поясним идею описания (прогноза) исходных признаков xf1', л:<2), ..., х<р) с помощью меньшего, чем р, числа их ли- линейных комбинаций на примере 13.1. В этом примере р = 3. Зададимся целью снизить раз- размерность исходного факторного пространства до единицы (р' = 1), т. е. описать все три признака с помощью одной ли- линейной комбинации от них. В соответствии с описанным выше экстремальным свойст- свойством «автопрогноза» главных компонент возьмем в качестве этой единственной линейной комбинации первую главную компоненту, т. е. переменную ),31*<3>. 349
. Метод наименьших квадратов приводит к следующему правилу вычисления неизвестных коэффициентов Ьц [12 с. 209]: 0,81 cov (*<", *<*>)+О.БОсоу^", л^О+0,31 cov(х<я>, Подставляя в эту формулу значения cov (*<'>, л:(Л), взя- взятые из ковариационной матрицы I! примера 13.7, получаем =0>805z<!)+e<D; где е<'> — случайные (остаточные) ошибки прогноза исход- исходных центрированных компонент по первой главной компо- компоненте zA). Если в качестве относительной ошибки прогноза исход- исходного признака х^ по первой главной компоненте z*1' рас- рассмотреть величину б, = (De<')/Dx<'))-100 %, то неслож- несложные подсчеты дают 8Х = 2 °6, б2 = 1,2 % и б3 = 0,8 %. Суммарная характеристика относительной ошибки про- прогноза признаков д^1', х^2) и д^3) по zA) (в соответствии с вы- вышеописанным) может быть подсчитана по формуле «стм отн сум-отн = 100%- К+К =1,36%. Свойства наименьшего искажения геометрической струк- структуры исходных точек (наблюдений) при их проектировании в пространство меньшей размерности р' «натянутое» на р' первых главных компонент. Всякий переход к меньше- меньшему числу (р1) новых переменных z<1), ., z<p'>, осуществляе- осуществляемый с помощью линейного преобразования (матрицы) С = == (с,3), — i = 1, 2, ..., р', j = 1, 2, ..., р, т. е. z«>= v C (T7F) или в матричной записи Z-CX, A3.13) 350
удобнее будет рассматривать теперь как проекцию иссле- исследуемых наблюдений Хъ Х2, ..., Хп из исходного факторного пространства Лр(Х) в некоторое подпространство меньшей размерности Up'(Z). Геометрическая интерпретация сформулированных выше экстремальных свойств «автопрогноза» (самовоспроизводи- (самовоспроизводимости) главных компонент позволяет получить следую- следующие интересные свой- свойства. X1 Свойство 1. Сумма квадратов рас- расстояний от исходных точек-наблюдений Xlt Х2, , Хп до прост- пространства, натянутого на первые р' главных компонент, наимень- наименьшая относительно всех других подпрос- подпространств размерности р', полученных с по- помощью произвольного линейного преобразо- преобразования исходных коор- координат. Это свойство ста- станет понятным (в све- свете вышеописанного экстремального свойства «автопрогноза»), если напомнить, что сумма квадратов расстояний от исходных точек до под- подпространства, натянутого на р' первых главных компонент, есть не что иное, как умноженная на п (общее число наблю- наблюдений) суммарная дисперсия остаточных компонент (ошибок прогноза) е*1», е<2>, . ., е<р>, следовательно, эта сумма квадра- квадратов равна п (КР'+1 + kp'+2 + ... -f- kp). Наглядным поясне- пояснением этого свойства может служить рис. 13.2, на кото- котором ось z<]) соответствует подпространству, натянутому на первую главную компоненту (т. е. р = 2 и р' = 1), а сум- сумма квадратов расстояний до этого подпространства есть сумма перпендикуляров, опущенных из точек, изобража- изображающих наблюдения Хг = (х\]], х\г)), на эту ось (сама ось 2*1* может быть интерпретирована в данном случае как линия ортогональной регрессии xS^ по х<г), см. [7, с. 127]). Свойство 2. Среди всех подпространств заданной размерности р' (р' < р), полученных из исследуемого фак- факторного пространства Пр (X) с помощью произвольного ли- 351 Рнс. 13.2 Эллипс рассеяния исследуе- исследуемых наблюдений и направление коор- координатных осей главных компонент z(" Н 2<2>
нейного преобразования исходных координат х<1), х<а), .... xip), в подпространстве, натянутом на первые р' главных компонент, наименее искажается сумма квадратов расстоя- расстояний между всевозможными парами рассматриваемых точек- наблюдений. Поясним это свойство. Пусть П? (Z) — подпространство размерности р', натянутое на оси г*1), 2<2), .... г(р), полу- получаемые из исходных осей хA), хB), .... х(р) с помощью произвольного линейного преобразования A3,13), а Zlf ..., Zn — проекции исходных наблюдений Хъ .... Х„ в подпространство Ilg'(Z), т. е. запись исходных наблюде- наблюдений в координатах подпространства П? (Z). Введем в рас- рассмотрение величины Mp=S S (Xi-X,)' (Xi-Xj)', Mp-(C)= 2 2 {Zt-ZjY {Zt-zii, выражающие суммы квадратов расстояний между всевоз- всевозможными парами имеющихся наблюдений соответственно в исходном пространстве Пр (X) и в подпространстве Пс (Z). Из простых геометрических соображений очевидно, что всегда Мр- (С) < Мр при р' ¦< р. Рассматривая в качестве меры искажения суммы квадра- квадратов попарных взаимных расстояний между точками-наблю- точками-наблюдениями величину Мр — МР' (С), можно показать [293], что Мр—Мр< (Lp') = min{Mp—М„.(С)} = С где L (р') — матрица размера р'Хр, строками которой яв- являются первые р' собственных векторов /{, Г2, ..., 1'р< ис- исходной ковариационной матрицы 2 (т. е. подпространство ^Ч(р') № является подпространством, натянутым на пер- первые р' главных компонент вектора наблюдений X). СвойствоЗ. Среди всех подпространств заданной размерности р' (р' < р), полученных из исследуемого фактор- факторного пространства Ир(Х) с помощью произвольного линейного преобразования исходных координат хA), .... *<р>, в прост- пространстве, натянутом на первые р' главных компонент, наи- наименее искажаются расстояния от рассматриваемых точек- наблюдений до их общего «.центра тяжести», а также углы 352
между прямыми, соединяющими всевозможные пары точек- наблюдений с их общим «.центром тяжести». Поясним это свойство. Рассмотрим матрицу G размера (рХп) «центрированных» наблюдений *<'> = xW—хA). Здесь, как и прежде, Х} = (л^1}, ..., jc^)) — исходные наб- наблюдения, а *<'> = D° + 4° + ••• + *л°)/я — средняя арифметическая по всем наблюдениям 1-го признака, т. е. Л, Лг ... An ЯB)д.B) И*> Введем в рассмотрение матрицу размера (пхп): Н = = G'G = (hjq), j, g — 1, 2, ..., п. Нетрудно установить ге- геометрический смысл элементов этой матрицы: ОТ =2 г1 ОТ =2 это квадрат расстояния от точки-наблюдения Xj до об- общего «центра тяжести» X, а hiq = Д ^ *<« = 2 (^</>~х«) р<<> -^<')) - величина, пропорциональная косинусу угла между прямы- прямыми, соединяющими точки Хд и X; с центром тяжести X. Если рассмотреть, кроме того, матрицу G (С) наблюде- наблюдений Zx, ..., Zn, являющихся проекциями исходных (цент- (центрированных) наблюдений Хг, ..., Хп в подпространство ng' (Z), и соответствующую ей матрицу Н (С) — G' (С)Х XG (С), то оказывается, что —Н(С)| = где под ||А|| понимается, как обычно, евклидова норма мат- матрицы A, a L (р') соответствует ранее введенным обозначени- обозначениям. Из описанного выше следует, что естественной мерой от- относительного искажения геометрической структуры исход- исходной совокупности наблюдений при их проектировании в про- 12 Заказ № 291 353
странство меньшей размерности, натянутое на первые р главных компонент, является величина либо величина При неизвестной истинной ковариационной матрице 2 ее собственные значения Xlt ..., Кр следует заменить собствен- собственными значениями Хъ ..., Хр выборочной ковариационной матрицы 2 (соответственно теоретические характеристики х и 7 заменятся своими выборочными аналогами х и у). 13.4. Статистические свойства выборочных главных компонент; статистическая проверка некоторых гипотез Смысл математико-статистических методов, как известно, состоит в том, чтобы по некоторой части исследуемой гене- генеральной совокупности (по выборке или, что то же, по огра- ограниченному ряду наблюдений Xlt Х2, ¦¦-, Хп) выносить обос- обоснованные суждения о ее свойствах в целом. Применительно к рассматриваемой задаче нас в первую очередь интересует, как сильно свойства и характеристики выборочных главных компонент могут отличаться от соот- соответствующих свойств и характеристик главных компонент всей генеральной совокупности и, в частности, как эта мера отличия зависит от объема выборочной совокупности (п), по которой эти выборочные главные компоненты были пост- построены. Так, например, для изучения природы внутренних связей между характеристиками различных статей семей- семейного бюджета потребления и для выявления небольшого числа наиболее существенных в этом смысле показателей исследователь может обследовать какое-то количество (л) се- семей и по полученным результатам наблюдения Хг, Х2,..., Хп построить главные компоненты гA>, г<2>, ..., z<p'>. Одна- Однако, увеличивая объем выборки п, т. е. добавляя к имею- имеющимся наблюдениям результаты наблюдения по дополни- дополнительно обследованным семьям, естественно ожидать, что пересчет главных компонент с учетом добавленных набмо- 354
дений, вообще говоря, изменит (хотя, быть может, и незна- незначительно) ранее полученные значения интересующих нас характеристик: %t, lt (i; = 1, 2, ..., р) и т.п. В то же время существует, по-видимому, такое (столь большое) п, даль- дальнейшее увеличение которого уже не будет практически при- приводить к изменению основных характеристик главных ком- компонент (другими словами, мы вправе ожидать, что главные компоненты выборок достаточно большого объема практи- практически совпадают с главными компонентами всей генераль- генеральной совокупности). Выяснению некоторых вопросов, связанных с оценкой —^ ^~ч —^ близости различных выборочных (z<'\ /,, Xt) и теоретиче- теоретических (z<'), /,, к,) характеристик главных компонент, и по- посвящен настоящий параграф. Приведенные ниже результа- результаты исследований неизменно опираются на допущение нор- нормальности исследуемой генеральной совокупности и взаим- взаимной независимости извлеченных из нее наблюдений. Как и прежде, под Xlt X2,..., Х„ будем понимать центрированные наблюдения, которые, строго говоря, даже при независи- независимых исходных наблюдениях уже не будут независимыми. Однако при достаточно больших п можно пренебречь этим эффектом нарушения независимости. Таким образом, Хг ? N (О, 2), i = 1, 2, ..., п (как следует из предыдущего, вектор средних значений ц = Е X определяет лишь точку в р-мерном пространстве, в- которую переносится начало координат при переходе к главным компонентам, и с са- самого начала будем считать этот перенос уже осуществлен- осуществленным). Вспомогательные факты, относящиеся к свойствам выбо- выборочных характеристик главных компонент [16, 279, 177, 176, 236, 235, 20]. Если все характеристические корни Хъ ?i2. •••. ^р ковариационной матрицы 2 различны, что и имеет место в большинстве приложений анализа главных компо- компонент, то справедливо следующее: 1) характеристические корни Кь ki7 ...,КР и соответст- соответствующие им собственные векторы 1Ъ /2,..., 1рвыборочной ко- ковариационной матрицы S являются оценками максималь- максимального правдоподобия для соответствующих теоретических характеристик (соответственно К1У Кг, ..., %р и 1Ъ 12, ¦-., 1р) и обладают всеми хорошими свойствами этих оценок (со- (состоятельность, асимптотическая эффективность). Следо- Следовательно, выборочные главные компоненты 2<*> = ltX (i — = 1, р) можно интерпретировать как оценки главных компо- 12* 355
нент г<г> всей генеральной совокупности. Если среди харак- характеристических корней Xlt Х2, ..., Хр встречаются равные между собой, то оценки максимального правдоподобия для А,; и U определяются иначе. Аналогичные результаты име- имеют место и при оценке характеристических корней и соот- соответствующих им собственных векторов корреляционной мат- матрицы; 2) величины Уп — 1 (Xt —Xt) (i = 1, р) асимптотиче- асимптотически (по п -*- сю) нормальны со средним значением 0 и с дис- дисперсией, равной 2Xf, и независимы от других выборочных ха- характеристических корней; 3) вектор У~п — 1 (U — /,•)' (i = 1, р) асимптотиче- асимптотически (по п -v сю) подчиняется многомерному нормальному распределению с вектором средних значений^ и с ковариаци- ковариационной матрицей Этот результат имеет место для всякого А,ь отличного от всех остальных характеристических корней, каждый из ко- которых может иметь произвольную кратность; 4) выборочный характеристический корень kt распреде- распределен асимптотически (по п-*- сю) независимо от компонент соответствующего ему собственного вектора /* (i = \,р); 5) ковариация между r-й компонентой выборочного соб- собственного вектора U и q-й компонентой выборочного собст- собственного вектора I, равна величине Следующее (шестое) утверждение [20] относится к весь- весьма специфической ситуации, характеризуемой так называе- называемым «эффектом большой размерности», когда, несмотря на достаточно большой объем выборки п, поведение выбороч- выборочных характеристик обнаруживает неожиданные особенности из-за соизмеримо (с п) большого значения размерности р; при этом для вывода этого факта не требуется нормально' сти исходных наблюдений, 6) если компоненты х°> вектора наблюдений X взаимно независимы и пронормированы таким образом, что Е#<'>=0 и Ш<'"> = 1, причем существуют все моменты Е (*<i))v, и 356
если объем выборки п и размерность р одновременно доста- достаточно велики, причем ЕМ-=с @<с<оо), П то распределение случайно выбранного из последовательно- последовательности Кг, Х2, .... Хр характеристического корня «слабо схо- сходится»1 к некоторому предельному распределению (сосредо- (сосредоточенному на конечном отрезке), моменты которого задают- задаются формулой , V(v-l)(v-l)...(v-/+l)(v-i+l)(v-/) 1-2.2..././.(/ + 1 '=1,2...) так, что ЕХ= 1, ЕК2= \-\-c, Е^3= 1 4-Зс + с2 и т. д. (здесь с — некоторая постоянная величина, причем 0< с< сю). Примером подобного соотношения между объемом выборки и размерностью может служить задача, описанная в [9, §2 гл. V], в которой п = 74, а р = 32 (так что pin = 0,43). В заключение приведем два факта, относящихся к ситуа- ситуациям, в которых компоненты нормального вектора наблю- наблюдений X взаимно независимы: 7) пусть X 6 N (ц, 2), где ковариационная матрица име- имеет диагональный вид, т. е. cov (;е<'>, *('>) = 0 при i ф /, i, j= — 1, 2, .... р. И пусть |R| = det (ги) — определитель выбо- выборочной корреляционной матрицы, построенной по наблюде- наблюдениям (Xlt ..., Хп). Тогда при достаточно больших п (п -voo) статистика критерия отношения правдоподобия для про- проверки гипотезы о диагональном виде S может быть опреде- ленаввиде у = — (п ^ ) In |R|, а для ее функции распределения справедливо приближенное соотношение при относительной ошибке, не превосходящей сотых долей процента; 1 Последовательность функций Fn(x), в частности последова- последовательность функций распределения, называется слабо сходящейся (при п -*¦ °о) к функции F (х), если Fn (¦*) сходится к функции F{x) на множестве ее точек непрерывности. 357
8) пусть наблюдения Xj извлечены из так называемой сфе- сферической р-мерной нормальной совокупности N (ц., а2/), т. е. компоненты каждого из векторов Xj взаимно независимы и имеют одинаковые дисперсии Dx{t/, равные о2. Тогда ковариа- ковариационная матрица 2 = а2/ имеет единственный корень (кратности р), оценкой максимального правдоподобия для которого является величина причем величина У а* распределена по закону %2 (р (п — 1)). Статистика критерия отношения правдоподобия для про- проверки гипотезы о сферичности распределения исследуемого вектора наблюдений имеет вид [ т * и при достаточно больших п (п -*- <х>) при относительной ошибке данного приближенного соотно- соотношения, не превосходящей сотых долей процента. Применения свойств выборочных характеристик главных компонент. Опишем некоторые методы построения раз- разного рода интервальных оценок для интересующих нас не- неизвестных характеристик главных компонент и статистиче- статистической проверки гипотез, относящихся к этим характеристи- характеристикам: 1) интервальная оценка (доверительный интервал) для i-го характеристического корня К{. Она получается (при больших п) с учетом асимптотической нормальности стати- статистики ]/"я — 1 (%i — %t): 358
где данное неравенство справедливо с вероятностью 1 (величиной а заранее задаемся), а иа —100- ~%-ная точка  стандартного нормального распределения (находится из таблиц). Возвращаясь к примеру 13.1, по формуле A3.9) находим 95%-ный (а = 0,05) доверительный интервал Для наимень- наименьшего характеристического корня ^3 по его выборочному зна- значению Ks = 2,86. В этом случае п = 24, «а = 1,96, так что 1,81 < Xs < 6,78. Возможно обобщение асимптотического (по п -*• оо) до- доверительного интервала на случай кратных, т. е. повторяю- повторяющихся, корней. Если г—кратность корня %t, то 100 A—а)%- ный доверительный интервал для неизвестного значения %i задается неравенством М A3.15) где Вопрос о том, что неизвестный характеристический ко- корень %t имеет кратность и, в частности, кратность, равную г, может быть решен с помощью следующего критерия, пред- предложенного в [176]; 2) проверка гипотезы о равенстве нескольких (а именно г) характеристических корней: hi = ^;+1 = ... = Л,г+7._х. Очевидно, альтернативой этой гипотезе является утверж- утверждение, что не все корни среди Kt, Kt+1,..., Xi+r-i равны между собой. Оказывается, в предположении справедливости про- проверяемой гипотезы статистика распределена (асимптотически по п-»-оо) по закону «хи- квадрат» с г (г + 1)/2 — 1 степенью свободы. Поэтому ги- гипотеза Kt = Xi+1 = ... = h+r-i отвергается (с вероят- вероятностью ошибиться, равной а), если 359
где х? (т) — 100 а % -ная точка х2-распределения с т сте- степенями свободы. Особый интерес может представить специальный случай i = р — г + 1, т. е. проверка гипотезы о равенстве послед- последних г собственных значений X, что будет означать независи- независимость и сферичность г последних признаков исследуемого вектора наблюдений. Возвратимся к примеру 13.1. Тот факт, что оценка вто- второго собственного значения (Х2 = 6,50) попадает в довери- доверительный интервал для К3 (см. выше), приводит к мысли, что, возможно, К2 — ?i3- Проверим эту гипотезу. В данном слу- случае п = 24, р = 3, i = 2, г = 2, так что у2 = —23 (in 6,50 + In 2,86) + 46 In 6'5O+2'86 = 3,70. А поскольку Хо,о5 B) =5,99 и, следовательно, Т2< <Хо,о5 B), то гипотезу К2 — К3 следует принять. Но тогда следует пересчитать доверительный интервал для Я2 с уче- учетом его кратности (в соответствии с A3.10)). Несложные подсчеты (при а = 0,05 и соответственно «а = «0,025 =1-96) 1 дают: 2,62 < Я2 < 6,21, последнее неравенство будет справедливо в среднем в 95 случаях из 100; 3) проверка гипотезы о независимости признаков д^1), xS2~>, ... д^р), являющихся компонентами вектора наблюдений X. Такая проверка нужна для установления целесообраз- целесообразности применения метода главных компонент: если признаки являются взаимно независимыми, то переход к главным ком- компонентам сведется, по существу, лишь к упорядочению ис- исходных признаков по принципу убывания их дисперсий. Воспользуемся статистикой критерия отношения правдо- правдоподобия для проверки гипотезы о диагональном виде ко- ковариационной матрицы с целью проверки независи- независимости компонент вектора наблюдений в следующем при- примере. Пример 13.2. Исследовалось время, затрачиваемое работниками швейной фабрики на выполнение различных элементов операции глаженья одежды. Эту операцию можно разделить на следующие шесть элементов: 1) одежда размещается на гладильной доске (^Х)); 2) разглаживаются короткие швы (хB)); 3) одежда перекладывается на гладильной доске (х<8)); 4) разглаживаются длинные швы на три четверти 5) разглаживаются остатки длинных швов (^5>) 6) одежду вешают на вешалку (<6)) 360
В этом случае Xv представляет собой вектор измерений над v-м индивидуумом. Компонента *<'> —это время, затра- затраченное на выполнение t-ro элемента операции, п = 76. Данные (время в секундах) обработаны, получены выбо- рочные вектор рица ft, — 2: 9,47 25,56 13,25 31,44 27,29 8,70 2,57 0,85 1,56 1,79 • среднего 0,85 37 3 13 00 34 47 1,56 3,34 8,44 5,77 значения 1 13 5 34 ,79 ,47 ,77 ,01 1 7 2 и к 33 59 00 10,50 ОВ? 0 0 фИ 42 52 0,50 1 77 1,33 7,59 2,00 10,50 23,01 3,43 Выборочные стандартные отклонения равны A,604; 6,041; 2,903; 5,832; 4,798; 2,141). Выборочная корреляцион- корреляционная матрица R = (г*;) имеет вид: R= 1,000 0,088 0,334 0,191 0,173 0,088 1,000 0,186 0,384 0,262 0,334 0,186 1,000 0,343 0,144 0,191 0,383 0,343 1,000 0,375 0,173 0,262 0,144 0,375 1,000 0,123 0,040 0,080 0,142 0,334 0,123 0,040 0,080 0,142 0,334 1,000 Для исследователей представляет интерес проверка гипо- гипотезы о взаимной независимости шести случайных величин. Часто при изучении затрат времени предлагается новая опе- операция, в которой элементы комбинируются иным способом. В новой операции некоторые элементы могут повторяться по нескольку раз, а некоторые могут быть выброшены. Если оказываются независимыми величины, обозначающие вре- время, затрачиваемое на различные элементы операции, то ес- естественно считать, что и в новой операции они останутся независимыми. Тогда распределение затрат времени на но- новую операцию можно будет оценить, пользуясь средними значениями и дисперсиями, вычисленными для остальных элементов. Кроме того, нас интересует возможность выделе- выделения небольшого количества вспомогательных признаков 361
(двух-трех), с помощью которых можно производить неко- некоторую содержательную классификацию исследуемых работ- работников (в том или ином смысле). В этой задаче статистика критерия отношения правдопо- правдоподобия, определенная в соответствии с п. 7 (см. с. 357), имеет вид: у = — (п- 2р+" ) In |R| = — — in 0,472 = V 6 J 6 = 54,1, а р (р— 1)/2 = 15. Задавшись уровнем зна- значимости критерия а = 0,01 (вероятность ошибочно от- отвергнуть проверяемую гипотезу), находим (из таблиц) ве- величину 1%-ной точки ^-распределения с 15 степенями сво- свободы: хо,о 1 A5)=30,6. Поскольку 7>Xo.oi A5), то гипотезу следует отвергнуть, т. е. приходим к выводу, что значения затрат времени на различные элементы операции нельзя считать независимыми; 4) статистическая проверка некоторых предположений (гипотез) относительно собственных векторов Ц ковариаци- ковариационной матрицы исследуемых признаков (i = 1, 2, ...,р). Пусть у нас есть основания предполагать, что «нагрузки» всех признаков на первую главную компоненту равны меж- между собой (факт симметричной зависимости первой главной компоненты от исходных признаков), т. е. 1ц = /12 = ... /1Р = —, или, напротив, что некоторые из признаков, VP скажем x<p-1%> и xW, вообще не влияют на первую главную компоненту (т.е. /i(P_d = /iP = 0), в то время как осталь- остальные р — 2 признака влияют на нее симметрично, т. е. /и= = /1а = ... = /i(p-2) = . И Т. Д. Vp-2 Для решения подобных вопросов можно использовать статистический критерий равенства г-го собственного век- вектора неизвестной ковариационной матрицы некоторому за- заранее заданному вектору Ц. В [176] показано, что гипотеза /,- = /? должна быть отвергнута (с вероятностью ошибиться, т. е. с уровнем значимости критерия, приблизительно рав- равной а), если окажется, что где подразумевается, что характеристический корень Я{> оценка которого Kt участвует в выражении для критической статистики, имеет кратность, равную единице, а все осталь- остальные величины соответствуют ранее введенным обозначе- обозначениям; 362
5) проверка гипотезы о равнокоррелированности всех р исходных признаков, т. е. гипотезы rtJ = г°, где ги — пар- парный коэффициент корреляции между признаком *<'> и при- признаком х<'"> [279]. Эта гипотеза означает, что последние р —1 характеристических корней корреляционной матрицы рав- равны между собой. Кроме того, постулируемый здесь специ- специальный вид корреляционной матрицы допускает простые явные выражения в виде решений соответствующих характе- характеристических уравнений (кг = 1 + (р — 1) г°, к2 = ... = = Хр = 1 - г°, z'1) = (tf1) + *2> + ... + x«»)/Vp~ и т.д.) [279, с. 224]. 1 Оказывается, гипотезу г и = г° следует отвергнуть (с ве- вероятностью ошибиться, приблизительно равной а), если 1 = 2 (ъ-Ъ'-с 2 fc-> где rti — выборочные парные коэффициенты корреляции между лс<'> и лс<'), подсчитанные по наблюдениям Xt, X2, ¦¦¦, Хп, а h>$t7» Возвращаясь к примеру 13.1, имеем: ^ /1,0000 0,9740 0,9726\ R = ( 0,9740 1,0000 0,9655 )• \0,9726 0,9655 1,0000/ •Ч, ^*^ ^^s Несложные подсчеты дают: гх = 0,9733, г2 = 0,9698, г3 = == 0,9691, 7— 0,9707, так что в конечном счете ? = = 0,825. Задавшись уровнем значимости а = 0,05 и отыскав по таблицам хо,05 B)= 5,99, приходим к выводу, что гипотеза о равнокоррелированности всех трех исходных признаков может быть признана не противоречащей имеющимся у нас результатам наблюдения. 363
13.5. Главные компоненты в задачах классификации Общие идеи использования главных компонент в задачах классификации. Дуализм в постановке задачи. Очевидно, возможность геометрической интерпретации и возмож- возможность наглядного представления исследуемых наблюдений Xt = (л;Ф, .,., x(pi)' (i = 1, 2,..,, п) существенно облегча- облегчает решение задач по их классификации и, в частности, про- проведение таких этапов, как предварительный анализ класси- классифицируемых наблюдений, выбор метрики, выбор началь- начальных приближений для неизвестного числа классов k, для системы эталонных множеств Е, наконец, для самого иско- искомого разбиения S. Так, например, одного взгляда на рис. 13.3, на котором изображены проекции тридцати одного (п — 31) восемнад- восемнадцатимерного наблюдения (р = 18) на плоскость первых двух главных компонент (построенных по исходным 18 призна- признакам л;*1), л:<2), ,.., л:<18)), достаточно, чтобы обнаружить чет- четкое распадение исследуемой совокупности наблюдений на три класса г. Уловить же это распадение непосредственно в исходном восемнадцатимерном пространстве Пр (X), очевидно, невоз- невозможно. Источником оптимизма в отношении результатов ис- использования такого проецирования исследуемых многомер- многомерных наблюдений на плоскость являются, как легко сообра- сообразить, геометрические экстремальные свойства главных ком- компонент, в частности вышеупомянутые свойства 1—3, в соот- соответствии с которыми проецирование исходной совокупности наблюдений в пространство меньшей размерности, «натяну- «натянутое» на р первых главных компонент (// •< р), наименее ис- искажает ее геометрическую конфигурацию. Однако, говоря 1 Данные заимствованы из работы [19] В ней, в частности, ис- исследовалась возможность разбиения испытываемых экземпляров рас- растений (томатов) в пространстве признаков, характеризующих раз- различные процессы роста растений, на однородные группы. Эти груп- группы должны были выявить в конечном счете наличие трудноулавли- ваемых различий в исходных условиях выращивания (при постанов- постановке эксперимента эти условия предполагались — и, кяк выяснилось, необоснованно! — одинаковыми для всех растений). При исследова- исследовании было обнаружено, что первые две главные компоненты 2*1) и zB) содержат 80 % общей суммарной дисперсии всех 18 исходных признаков При этом первую главную компоненту (zW) удалось ин- интерпретировать как характеристику общего состояния растения, в то время как вторая главная компонента (г<2)) характеризовала процесс фотосинтеза. 364
о «наименьшем искажении геометрической конфигурации» совокупности исходных данных как об одном из свойств ме- метода главных компонент, следует предостеречь читателя от «абсолютизации» в восприятии этого тезиса. В действи- действительности далеко не всякие геометрические свойства исход- исходной совокупности наилучшим образом сохраняются при про- проецировании в плоскость первых двух главных компонент. Так, если при проецировании исходных данных на плоскость ста- •33*40*37 •21*25*39*31 •32 zt2) 1 • 13 •12*15' •18*19' 16 •17 20*9 10 60 •51 •54*57 »58»61 «59 •49*48*56 • 52 43 •53 Рис. 13.3. Расположение проекций 18-мерных наблюдений на плос- плоскость первых двух главных компонент z*1' и z<2> раются максимально сохранить разделимость существую- существующих в исходном многомерном пространстве «сгустков», ско- скоплений точек, то базисные оси такой плоскости будут, во- вообще говоря, отличаться от первых двух главных компонент. Так же, как и от осей, дающих решение аналогичной зада- задачи при требовании (к результату проецирования) наиболее точно «выловить» резко выделяющиеся на фоне основной группы наблюдения, и т. д. Решению подобных задач, т. е. поиску плоскостей, проецирование исходных данных на ко- которые максимально сохраняет те или иные, но наперед за- заданные, их геометрические свойства, посвящен раздел IV, а соответствующие методы называются методами целенаправ- целенаправленного проецирования. Перед тем как перейти к некоторым конкретным приме- примерам применения главных компонент в задачах классифика- 365
ции, обратим внимание читателя на возможную двойствен- двойственность (дуализм) в интерпретации многомерного наблюде- наблюдения Хг = (x^W ..., х^)' вообще, и в постановке за- задачи при эксплуатации метода главных компонент в част- частности. Действительно, если в матрице наблюдений рассматривать в качестве наблюдения столбцы Xt, то клас- классифицируемыми объектами (в количестве п штук) будут объ- объекты, на каждом из которых было замерено по р призна- признаков х <х\ х^, ..., х(р), так или иначе характеризующих его состояние. Если же в качестве «наблюдения» рассматривать строки Xl = (л:*!0, л:^', -.., х{У) этой матрицы, то класси- классифицируемыми объектами будут уже сами признаки (в коли- количестве р штук), рассматриваемые соответственно в п-мер- ном пространстве П" (X*). Очевидно, задачи классификации в одном № (X) и в дру- другом П" (X*) пространстве преследуют совершенно разные цели. Относительно целей классификации в пространстве № (X) выше уже говорили. Что же касается классификации в пространстве П" (X*) (классификации самих признаков), то наличие небольшого (сравнительно с р) числа однородных групп признаков позволяет сделать вывод о близости (кор- релированности, взаимном дублировании) признаков, вхо- входящих в одну группу, и в конечном счете существенно сни- снизить размерность исходного факторного пространства Пр (X), оставив, например, для дальнейшего рассмотрения лишь по одному представителю от каждой такой группы. Замечание о необходимости нормировки в прост- пространстве П* (X)*. Классифицируя признаки, необходимо пом- помнить, что два признака Х'у, и Х*„, естественно считать близ- близкими не только в случае сравнительной малости расстоя- расстояния р (Xv, Х„) (евклидова типа) между ними, но и в слу- случае их достаточно тесной взаимной зависимости, например Xv = cX*m, где с -некоторый скалярный множитель. Для того чтобы это оказалось учтенным при проектировании «наблюдений» X*, Х|, ..., Х*р в пространство меньшей раз- размерности с помощью метода главных компонент, необхо- необходимо предварительно (до применения метода) соответствую- 366
щим образом пронормировать исходные данные в простран- пространстве П" (X*), например, переходя к «наблюдениям» &=:§-<*= 1,2, ...,/>), = C?ix'V)ln — среднее арифметическое v-ro призна- ка, подсчитанное по п исходным наблюдениям. И наконец, в целях большего удобства технического представления результатов исследования (графиков, таблиц и т. п.) помимо необходимой нормировки иногда еще допол- дополнительно центрируют рассматриваемые наблюдения Х$, т. е^переходят в конечном счете к наблюдениям Х$ — Х% — — Xv, где X* — среднее арифметическое (центр тяжести) наблюдений Х\, Х\, ¦¦¦, Хр. В дальнейшем, как правило, будем предполагать вспомо- вспомогательные операции нормировки и центрирования в прост- пространстве П" (X*) выполненными, но в целях упрощения обо- обозначений будем опускать две верхние волнистые черточки при записи соответствующих пронормированных и процент- рированных наблюдений. Применение главных компонент при анализе структуры семейного потребления 1. В процессе исследований реша- решалась следующая частная задача. Объект исследований — семья. Набор измеряемых на каждом «объекте» признаков — удельные характеристики потребления (в расчете на од- одного члена семьи за период времени) по различным статьям расходов (табл. 13.1), всего в количестве 31 штуки (р = 31). па первом этапе исследований была отобрана так называе- называемая «контрольная» выборка семей небольшого объема (п = = 106). Результаты проецирования 31 106-мерного наблюдения X*v' = (x(V , x{V, ..., х[%в), v*= I, 2, .... 31, на плоскость первых двух главных компонент (z\, zl) представлены на рис. 13.4. Если разбить исследуемые признаки на пять ус- условных классов так, как это сделано на рисунке, то это даст пищу для достаточно естественного содержательного анали- анализа взаимосвязей, существующих между исследуемыми при- признаками (лишь «расходы на кондитерские изделия» л:<19) дали вряд ли поддающиеся содержательной интерпретации результаты проецирования: они оказались почему-то в клас- 1 Более полно результаты этих исследований описаны в 11541 • 367
Таблица, 13.1 я v an s 1- X Я и a; nn: н ма, дема: обре ра Щ1 U (г С Р *C> /it ,<5) ,<6) ,<7> ,<8> ,<9) *<10> Х(Ц) *<12) *A3) хA4) *<15> хA7, ^A8) Наименование товара (статья расхода) Ткань Готовая одежда (без ме- меховой) Меховая одежда Трикотаж Обувь Книги, газеты Музыкальные инстру- инструменты Спорт ЛЯ лАл ITL Предметы домашнего обихода Хлебобулочные изделия Овощи Мясные продукты Рыбные продукты Молочные продукты Жиры Яйца Сахар Кондитерские изделия я о s = s @ К Н ,B0) XW ,B2) ,B3) /од\ ,B4) *<25> ,B6) /О QV ,B8) X xw ,C1) Наименование товара (статья расхода) Общественное питание (включая расходы вре- временно выехавших членов семьи) Культурно-просвети- Культурно-просветительные мероприятия Транспорт Услуги почты и телегра- телеграфа Жилищно-коммуналь- иые расходы Продукты растительно- растительного происхождения Продукты животного происхождения Услуги (включая *<м> и *B4> плюс бытовые и т. п.) Общественное питание (исключая расходы вре- временно выехавших членов семьи) Все продовольственные товары Алкогольные напитки Все промышленные това- товары се, объединяющем в себе расходы на услуги и на наиболее необходимые промышленные товары). Применение главных компонент при анализе производи- производительности труда рабочих. Различные показатели произво- производительности труда F' = (y<1>, г/B>, ..., г/(ш)) характеризуют, как известно, отношение реально произведенной продук- продукции к затратам труда на ее производство. Задача изучения зависимости показателей производительности труда от на- набора регулируемых (и нерегулируемых) признаков X' = 368
\ xW, ..., лс^), характеризующих технический и орга- организационный уровень производства, личные качества рабо- рабочих, социально-демографические условия их жизни, посто- постоянно (и правомерно) привлекает к себе пристальное внима- внимание исследователей. Среди различных возможных подходов к решению этой задачи выделим следующие две схемы иссле- исследования. У У /•7 \ . • 1 Г 4 | / / уу^8«24 ' / / / 1 »21/ 1 • • f * • 15 /•" \ Ч • 16 • 18 .14 2 ell Л »3i 22 17 • 4 • 13 • 12 \ ¦ 1 1 У • 26 • 25 .29, / Рнс. 13.4. Исследование взаимосвязей между призна- признаками, характеризующими структуру и объем семейного потребления Схема 1. Состоит из двух этапов: 1) разбиение исследуемой совокупности рабочих на од- однородные группы в пространстве объединенных признаков (X', Y'), например, с помощью главных компонент, постро- построенных по набору признаков^4, х<2), ..., д^р), г/<1}, .... г/<т); 2) статистическое исследование зависимостей типа Y = = ft (X), произведенное отдельно внутри каждой группы, выявленной на первом этапе (i — номер группы, внутри ко- которой анализируется искомая зависимость).
С х е м а 2. Состоит из трех этапов: 1) разбиение исследуемой совокупности рабочих на од- однородные группы в пространстве признаков-аргументов П" (X), например, с помощью главных компонент, постро- построенных по набору признаков л:*1', л:<2), ..., л:<р); 2) расщепление вектора признаков-аргументов X' = = (л^1*, л:<2) ,..., х<р)) на два подвектора: подвектор ХA>' = — (л:*1*, лг<2), ..., лс<«>) признаков (как правило, труднорегу- лируемых), описывающих технический и организационный уровень производства (q<.p), и подвектор Х<2)/ = (лг<«+1>, лг<«+2>, ..., x<p)) признаков (регулируемых), описывающих социально-демографические условия труда. Затем разбие- разбиение исследуемой совокупности рабочих на однородные груп- группы S{\\ S*2* ,..., Si\} в подпространстве П" (X*1*) «нерегу- «нерегулируемых» признаков, а также на однородные группы S(V, SB}, ¦¦¦, Si2? в подпространстве up~i (X<2>) «регулируемых» признаков; 3) статистическое исследование зависимостей типа /=1, 2, .... *0 произведенное отдельно внутри каждой однородной группы подпространства П« (ХA)) (при аргументах Х<2)) и подпрост- подпространства П"-« (Х<2>) (при аргументах Х<Х)). Здесь означает векторную функцию от (p — q) переменных лс<«+1), хС+2\ ..., л:<р), описывающую зависимость Y от Х<2) при ус- условии, что значения «нерегулируемых» аргументов л:*1*, xS^, ..., *<*> принадлежат области S^. Аналогично опре- определяется векторная функция ftW. В [9] приводятся результаты статистического анализа исходных данных по 100 работницам-ткачихам (п = 100) льнокомбината «Красная текстильщица» г. Нерехта Кост- Костромской области, составляющим более 80 % всей численно- численности ткачих комбината. Эти результаты можно рассматривать как фрагменты осуществления этапов 1 и 2 и в вышеописан- вышеописанных схемах исследования. Интересный пример применения главных компонент, в прямой и двойственной постановках задачи, связанный со статистической обработкой экспертных оценок применитель- применительно к задаче классификации картин абстрактной живописи, читатель найдет в [181]. 370
13.6. Нелинейное отображение многомерных данных в пространство низкой размерности В некоторых случаях более точного отображения гео- геометрической структуры исходной матрицы данных X в про- пространстве малой размерности можно добиться, используя нелинейное отображение [300, 9, 152]. Для получения таких отображений задаются тем или иным критерием (мерой) ис- искажения / (Z (X)) и решают задачу на определение миниму- минимума /. Рассмотренные в данном параграфе меры искажения основаны на сравнении попарных расстояний между точка- точками в исходном пространстве и пространстве отображения. В зависимости от выбранного критерия может получаться та или иная конфигурация точек и существенно меняется время вычисления. 13.6.1. Нелинейное отображение по критерию типа стресса. Мера искажения, рассматриваемая ниже, была предложена Сэммоном [300] и является аналогом критерия «стресса», ис- используемого в многомерном шкалировании (см. гл. 16) 1.  I > 1 A3.16) где Dtj — расстояние, например, евклидово, между г-м"и /*-м объектами, т. е. i-й и /-й строками матрицы; di} — евк- евклидово расстояние между образами соответствующих объ- объектов в ^-мерном пространстве. Пусть Z,, Zj — ^-мерные векторы координат образов объектов Х{, X] при нелинейном отображении X -*¦ Z. Расстояние d^ будем считать евклидовым, т. е. dt* — — Zd \z i — z i) • 4=1 Так как евклидово расстояние не меняется при повороте осей координат, то координаты образов объектов, которые будем искать с помощью минимизации, можно считать некор- некоррелированными (ортогональнымиУ и центрированными z^ = 0, k Ф I. Это ие меняет величины критерия, а *=i результаты работы метода становятся более наглядными. 1 В отличие от стресс-критериев (см. гл. 16) в критерии Сэммона значения Dtj не меняются в процессе работы алгоритма. 371
Рассмотрим сначала случай, когда а < 0. Тогда крите- критерий Qs с й< 0 более чувствителен к ошибкам искажения малых расстояний и менее сильно реагирует на искажение больших расстояний. Обычно рекомендуемое значение а = —1. При а > 0 лучше отображаются большие расстоя- расстояния и хуже малые, так как ошибки в передаче больших рас- расстояний сильнее влияют на значение критерия. Обычно ре- результаты, получаемые для а<0, лучше, чем для а > 0. Использование двухпараметрического критерия, предло- предложенного в [152] a==ialt если dtj>Dij- \а2, если dti < Dih дает большие возможности, поскольку естественно ожидать, что можно удачно отобразить конфигурацию в пространство меньшей размерности, если искажения носят такой харак- характер, что большие расстояния несколько увеличиваются, а малые несколько уменьшаются. Это, например, может ока- оказаться полезным для дальнейшего использования преобра- преобразованной матрицы данных в задачах классификации, по- поскольку малые расстояния характерны для объектов, при- принадлежащих одному классу, а большие — разным. Поэтому можно ожидать, что степень разнесенности классов не слиш- слишком уменьшиться в результате такого преобразования, а, возможно, и возрастет. Для получения такого эффекта надо положить ах < 0 и а2 > 0. В качестве расстояния между точками Xt и Xj в исход- исходном пространстве признаков хA>, ...,х^р) может быть исполь- использовано любое из расстояний, перечисленных в гл. 5. Рассто- Расстояние dtj в пространстве образов, как уже указывалось, счи- считается евклидовым. Поиск образов объектов, минимизирующий значение функционала A3.16) при нелинейном отображении, осу- осуществляется, например, с помощью итерационной градиент- градиентной процедуры: г«/> (*+ 1) = z\n (t)+bp Чц Q<<>, A3.17) где t — номер шага итерации; 2(^ — /-я координата (/ = = 1, q) образа 1-го объекта (i = \,п) в ^-мерном простран- пространстве; VijQ{is — первая производная Qs no z'P; 6'f вычисля- п ется по формуле Ь{? = 1/2 2 ?*?/• Выражение для градиента Vtj Q(f приведено в [11]. Пусть Q{ts — значение критерия на ?-м шаге итерационной 372
процедуры. Остановка процедуры на ^-м шаге происходит, когда выполняется хотя бы одно из условий Q(ts+1) < eDop, (Q(s> - Q?+1))/Q(? < Ю-6, t > fmax, где гтах - мак- максимально допустимое число итераций; еП(ф — допустимая точность искажения конфигурации по критерию Qs. В качестве начального приближения Z<°> для итерацион- итерационной процедуры могут использоваться, например, проекции объектов на главные компоненты. Размерность пространст- пространства образов q, допустимое количество итераций tmax и точ- точность еПоР для градиентной процедуры считаются заданны- заданными. В работе [152] предлагается применять для минимиза- минимизации A3.11) метод сопряженных градиентов, который мо- может быть эффективнее, чем градиентная процедура A3.12). 13.6.2. Быстрое нелинейное отображение с помощью опор- опорных точек. Рассмотренный в п. 13.5.1 алгоритм нелиней- нелинейного отображения требует при реализации выполнения боль- большого количества арифметических операций, на каждом шаге итерации количество умножений пропорционально qn2. Формирование матрицы расстояний между точками в исход- исходном пространстве перед началом работы алгоритма также требует порядка у рп2 умножений. Число умножений на каждом шаге итерации в предлагаемом ниже алгоритме бы- быстрого нелинейного отображения (БНО) пропорционально величине (q + 1) п, т. е. растет лишь линейно, в зависимо- зависимости от числа используемых объектов. Результирующая мат- матрица точек образов на выходе этого алгоритма может быть использована либо непосредственно для дальнейшего ана- анализа, либо как начальная конфигурация для алгоритма не- нелинейного отображения из п. 13.5.1. Идея алгоритма БНО. Алгоритм БНО [66] основан на том, что в (^-мерном пространстве координаты точки Z мож- можно однозначно определить набором евклидовых расстояний D = (d0 (Z), ..., 2q (Z))' между Z и (q + 1)-й соответст- соответствующим образом выбранными опорными точками Zo, ..., Zq. Действительно, разности df (Z) — dl (Z) — Z'(Z0 — — Zt) Z + \\Zi\\2 — ||Zof|3 лишь линейно зависят от коор- координат вектора Z. Поэтому для определения Z можно исполь- использовать систему из q линейных уравнений KZ = В, где i-я строка матрицы А есть Л, = 2 (Zo — Z,), а i-я компонента вектора В равна bt = ||Z0||2— ||Zt||a + 2? (Z) - ~d\ (Z), т. е. выражается через известные величины [160]. Конечно, опорные точки Zo, ..., Zq должны быть выбраны так, чтобы матрица А была невырождена. 373
Если опорные точки зафиксированы, то в качестве функ- функционала качества отображения может быть использована следующая величина: о,B)= i ? (ядхо-ад)J, A3.18) /=<н= 1 где Dj (Xt) — расстояние между объектом Xt и опорной точкой X, в исходном пространстве, a d} (Zt) — аналогич- аналогичные расстояния, но в пространстве образов. Итерационная процедура уточнения координат точки Zj в пространстве образов имеет вид: ? < 1)+ Zp ? «> + !)/(</+ 1), /=0 /=0 где а#> = ( Выбор нулевого приближения. Начальные значения (i = 1, «) получаются из решения п. систем линейных урав- уравнений AZ'?' = Б(,0), где /-я компонента вектора Б((о) выражается через расстоя- расстояния и нормы в исходном пространстве, т. е. Xj — /-я опорная точка в исходном пространстве. Выбор системы опорных точек. Выбор системы опорных точек может производиться случайным способом. Обычно его повторяют несколько раз. При этом опорные точки не должны быть слишком близки друг к другу. Поэтому новая опорная точка добавляется к ранее выбранным, только ес- если минимальное расстояние этой точки от ранее выбранных не менее у dcp, где dcp — среднее расстояние. В качестве окончательной конфигурации выбирается та, которая ми- минимизирует критерий A3.18). Другой способ состоит в разбиении матрицы X на (q + 1) сгущений с помощью алгоритма Мак-Кина и в качестве опор- опорных выбираются точки, ближайшие к центрам классов. При наличии априорных соображений точки могут задаваться исследователем. Указанные методы можно комбинировать и выбирать отображение либо с минимальной величинойкритерия, либо наиболее подходящее с визуальной точки зрения. 374
Пусть Хо, ..., X q-^- объекты из матрицы данных, вы- выбранные в качестве опорных. Образы опорных точек Zo,.. . ..., Z ч получаются с помощью следующей процедуры. Шаг 1. Вычисляется матрица попарных скалярных про- произведений размера (q + 1) х (q + 1) Шаг 2. Вычисляются собственные числа и векторы мат- матрицы V. 130 120 110 100 90 80 70 60 50 40 30 20 10 о - ¦ ¦ в .Л* • ¦ ¦ ¦ 1 1 1 ¦ я щ ¦" ¦ - ¦ . 1 ai I I la 50 1 i i 100 43®® i i I I .1 :> 'л в я ¦: i . ¦ ¦ * * " 3 Ш ¦ ¦ ¦¦ ¦ ¦ ¦ ¦ ¦ tilt 20 40 60 80 100 120 140 160 180 200 220 Рис 135 Быстрое нелинейное отображение сельскохо- сельскохозяйственных регионов СССР в двумерное пространство Пусть Yi есть i-й собственный вектор с (q + 1)-й компо- компонентой, а X, — соответствующее собственное число. Тогда 1-е координаты опорных точек будут компонентами вектора Пример 13.3. На рис. 13.5 предоставлены отображе- отображения, полученные с помощью алгоритма БНО. В качестве матрицы данных использовалась матрица данных из [149] (р = 26, п = 130). См. также пример 19.2. Номера опор- опорных точек 43, 50, 100. На рисунке они обведены кружками. Как видим, точки разделились на три хорошо выделенных кластера, объективность существования которых подтверж- подтверждается их соотнесением с классификацией, предложенной в [149].
13.6.3. Быстрый алгоритм нелинейного проецирования мно- многомерных данных. Как меру искажения геометрической кон- конфигурации будем рассматривать здесь 2 где dl,= 2 DГ)-2ГJ- г= 1 Для дальнейшего удобно будет использовать величину A3.19') Очевидно, 4toS(Z)=x2(Z) / 2 #*/• Будем искать преобразование Z (X) : Rp => jR», минимизи- минимизирующее A3.19'), или, что то же самое, A3.19). Оказывается, для минимизации A3.19') можно построить эффективную итеративную процедуру, причем количество арифметиче- арифметических операций (умножений) на каждой итерации будет за- зависеть от п линейно, т. е. Л^умн — с (р, q) n, где константа с (р, q) от п не зависит *. Дальше, в силу того, что расстояния не меняются при преобразованиях переноса, не ограничивая общности, бу- п дем считать, что выполнены следующие условия: 2 Xt=0, / = i п 2 Zt — 0 (исходные данные и их образы центрированы). Из аналогичных соображений (инвариантности рассто- расстояний при ортогональных преобразованиях) можно считать, п что 2 ^'Vf* =0, если 1фт, т.е. что переменные-образы попарно ортогональны. Пусть дальше s4 (z<*>) есть дисперсия (точнее, ее оценка) для 2(*> и s2 (х<к))— дисперсия для j^*). Введем еще коэффи- коэффициент сопряженности между двумя n-компонентными векто- векторами у и t ? 1 В [122] предложена другая процедура минимизации критерия A3.19) с числом операций, зависящим от п линейно. 376
Таким образом, это скалярное произведение у и t, деленное на п. Если у и t центрированы, то с (у, t) есть просто коэффи- коэффициент ковариации между переменными у и t. Найдем теперь первую производную от т2 (Z) пог(?,т.-е. dt2 (Z) /dz'P, где z^t — r-я координата образа 1-го объекта (i = 1, п, г = 1, q). Имеем В точке глобального минимума dt2 (Z)/dz(f = 0. Это приводит к следующему уравнению: /= i /= i /= i Далее имеем &\,*р= 2 г/)(г}')-г<'))*= 2 (z«/)z<» 2_2z<o2(J@ Меняя порядок суммирования по Г и /, получим с учетом условий ортогональности и центрированности компонент г: 2 d!,zy)= 2 2 гПф-ф)^ - /1 {i/i 2 где векторы Аналогично получаем, что 2 DI,2</> = -2л 2 с(xftzr)д<*) + л ? с(хJ, zr). Кроме того, 2 Dif = n[ 2 dl- = nt 377
Окончательно вектор производных по компонентам zf Vtt2=— 4п(— bt Zt+2СХ2Х1+С2г21д—Cx*zlP) \q — вектор размерности q (p) с единичными компонента- компонентами; Cz*z — матрица коэффициентов сопряженности c(z?,zr) размера qXq; Bf = 2V -1, (|| Xt f-| Zi f + Sp Sx - Sp S*); V = diag(s2(?<l>) ... — матрица размера qx p с элементами С{й=с (x|,Z|); — матрица размера ^Хр с элементами cik =c(xhzi). Поскольку #<*> и z<z> центрированы, элемент c;ft есть не что иное, как ковариация между переменной л;(*> и переменной z<;>. Используем для поиска точки минимума разновидность алгоритма с переменной метрикой, для чего потребуется еще матрица вторых производных по Zt. Непо- Непосредственным дифференцированием V,t2 убеждаемся, что матрица вторых производных \ft2 имеет вид Предлагаемый алгоритм основан на применении итера- итерационного соотношения процесса Ньютона отдельно для каждого вектора Zt Ztt+i) =.Zu) + J_ (Ri + 2ZiZ'i)-t VfX2(Z). A3.20) Вопросы вычислительной реализации и сходимости ите- итерационной процедуры. Дальнейшие упрощения могут быть получены за счет использования формулы Бартлетта для обращения матрицы (В, + 2ZtZ,V = ВГ-2 ОГ'*»)№-'*,)' Матрица В, диагональная, и ее обращение не представ- представляет вычислительных трудностей. Конечно, ее диагональ- диагональные элементы должны быть ненулевыми. Кроме того, для схо- сходимости итерационного процесса A3 20) необходимо, чтобы каждая из матриц В,- была положительно определенной. Не- Необходимым и достаточным условием положительной опреде- определенности всех матриц Вг- является выполнение соотноше- соотношения 2 min s»(zW)> max (IXif-||Zif)+(SpSx —SpSz). A3.21) 378
В частности, в точках минимума функционала A3.19') ус- условие A3.21) выполняется, поскольку матрица V2t2 там не- неотрицательно определена и, следовательно, неотрицательно определены ее диагональные блоки V?t (хотя допустимо, что A3.21) обращается в равенство). Оценим теперь трудоемкость вычисления градиента Vt2 и матрицы вторых производных V2t2. В выражение, задающее каждый из частных градиентов VjT2, входят матрицы Cxz, Cz*z, Cx*z, одинаковые для всех (i = 1, п). Учитывая это, получаем после некоторых преобразова- преобразований, что для градиента число операций умножения пропор- пропорционально C/э + 2q + q2/2+pq) n. Что касается Vft2 (Z), то здесь необходимо дополнитель- дополнительно вычислить только матрицы Z,Z'i (i — 1, я), что дает в со- совокупности примерно q2nl2 умножений. Умножение гради- градиента на обратную матрицу (по всем j=1, n в совокупности) дает ~ q%n умножений и обращение матрицы V? т2 (Z) с учетом формулы Бартлетта — (q -f- q2) n умножений и де- делений. Окончательно количество вычислений (умножений), свя- связанное шагом итерации по методу Ньютона, будет NyuH ~ ~Cр + 3<7 + 3<72 + pq) п., т. е. является линейной функци- функцией п. 13.6.4. Сравнение нелинейного проецирования (картирова- (картирования) с линейным. На первый взгляд кажется, что уменьше- уменьшение суммарного искажения геометрической конфигурации данных, которое обеспечивается нелинейным проецирова- проецированием, обязательно должно привести к получению большей информации о структуре данных в исходном многомерном пространстве. Ниже приводится модельный пример, кото- который показывает, что применение нелинейного отображения может не только не улучшить, но и ухудшить передачу дета- деталей строения многомерной конфигурации при ее отображе- отображении в пространстве более низкой размерности. Пример 13.4. Предположим, что в двумерном прост- пространстве переменных tf1', xS2) (p = 2) точки некоторой гене- генеральной совокупности равномерно заполняют внутрен- внутренность области, образованной двумя полуокружностями, рас- расположенной так, чтобы Etf1' = Ел^2> = 0. Присоединим к каждой из точек этой фигуры несколько переменных л:C), х<4), ..., л^р), равномерно распределенных на отрезке [0, а] н независимых между собой и с л:A) и х<-2). Так что в резуль- результате получим р-мерные объекты. В трехмерном пространст- пространстве область, заполняемая такими трехмерными точками, име- 379
ет вид полутороида с прямоугольным сечением (рис. 13.6). Внешний R и внутренний г радиусы тороида выберем так, что Dx^ > Dx«> и D*<2> > D*w (/="з7р). Тогда проекция на две первые главные компоненты будет просто проекцией на плоскость j^1) 0 *B) (легко проверить, что матрица кова- риаций будет диагональной). Эта проекция представляет со- собой исходную подковообразную структуру на плоскости. Точки Рг и Р2, лежащие симметрично плоскости *A) 0х<-2) соответственно на верхней и нижней плоскостях тороида „C) Рис. 13.6. Тороидальная структура данных в 3-мерном пространстве для трехмерного случая, отображаются при этом в одну точ- точку Р. Однако существенная особенность исходной конфигу- конфигурации — ее подковообразность — с помощью проекции на главные компоненты передается. Процедура нелинейного проецирования стремится умень- уменьшить искажения в передаче совокупности попарных расстоя- расстояний между точками. В частности, для проекции трехмерного пространства в двумерное точки Р1 и Р2 будут разделены. Но подковообразная структура будет передана хуже. На рис. 13.7 представлены результаты отображения мо- моделированных данных соответственно на плоскость двух первых главных компонент и с помощью нелинейного отображения по критерию Сэммона A3.16). Исполь- Использована выборка из я—100 трехмерных точек (р = 3, q = 2), равномерно распределенных внутри тороида, представлен- представленного на рис. 13.6, с параметрами R — 2, г = 1,8, а = 1,7» Подковообразная структура на рис. 13.7, б существенно бо- более «размыта», чем на рис. 13.7, а. Добавляя дополнитель- дополнительные «шумовые» переменные, можно добиться полного исчез- 380
новения подковообразной структуры при нелинейном ото- отображении. Получается, что за счет улучшения передачи несущест- несущественных деталей конфигурации ухудшается отображение на- 20 40 60 80 100 120 140 160 180 200 220 130 120 110 100 90 80 70 60 50 40 30 20 10 • . • • .. • • • • • • • I. i I .1 I I I I I i I i i i о о 20 40 60 80 100 120 140 160 180 200 220 Рис. 13.7. Отображение: а) иа плоскость двух первых главных компонент (л=100); б) нелинейное (по критерию Сэммона) иболее интересной информации о ней. В данном случае это явление можно объяснить следующим образом. Истинное расстояние между точками X,- и Xj измеряется только с по- помощью координат л:'1* и jcB>, т. е. 381
Третья и последующие координаты х<3> вносят ошибку в расстояния, и в нелинейном проецировании имеем дело не с Dfj, а с расстояниями Df, — Df, + ttj, где eu = 2 (***' — *=3 — x{fJ. При достаточно большом уровне ошибки (шума) нелинейное отображение приводит к неверной передаче осо- особенностей исходной информации. Главные же компоненты в данной ситуации обладают лучшими фильтрационными свой- свойствами В то же время, если координата х<3) будет нести информа- информацию о некоторой структуре данных (например, точки разде- разделяются по х^ на две хорошо обособленные группы), не- нелинейное отображение передает эту особенность — будем иметь две параллельные «подковы» на плоскости, а картина отображения на плоскость главных компонент не изме- изменится. Приведенный пример подтверждает необходимость пра- правильного выбора переменных и метрики при использовании нелинейного проецирования и метода главных компонент, а также целесообразность использования совокупности этих методов для анализа структур данных (см. также гл. 18, 19). ВЫВОДЫ 1. В исследовательской и практической статистической де- деятельности часто приходится иметь дело с исходными дан- данными высокой размерности, т. е. с ситуациями, когда число регистрируемых на каждом из статистически обследованных объектов показателей составляет несколько десятков, а иногда — сотни и даже тысячи. В подобных ситуациях лег- легко объяснимо желание исследователя существенно снизить размерность анализируемого признакового пространства, т. е. перейти от исходного набора показателей к небольшо- небольшому числу вспомогательных переменных (которые либо отби- отбираются из числа исходных, либо строятся по определенному правилу по совокупности исходных показателей), по кото- которым впоследствии он мог бы достаточно точно воспроизве- воспроизвести интересующие его свойства анализируемого массива данных. Одним из наиболее распространенных методов сни- снижения размерности исследуемого признакового пространст- пространства является метод главных компонент. 2. Имеется по меньшей мере три основных типа принципи- принципиальных предпосылок, обусловливающих возможность прак- 382
тически «безболезненного» перехода от большого числа ис- исходных показателей состояния (поведения, качества, эф- эффективности функционирования) анализируемого объекта к существенно меньшему числу наиболее информативных переменных. Это, во-первых, дублирование информации, доставляемой сильно взаимосвязанными показателями; во- вторых, неинформативность показателей, мало меняющихся при переходе от одного объекта к другому (малая вариабель- вариабельность показателя); в-третьих, возможность агрегирования, т. е. простого или взвешенного суммирования некоторых физически однотипных показателей. 3. Первой главной компонентой г^ЦХ) исследуемой системы показателей X = (*A\ ..., xf-p~>)' называется такая нормиро- ванно-центрированная линейная комбинация этих показа- показателей, которая среди всех прочих нормированно-центриро- ванных линейных комбинаций переменных хA\ ..., х(р) обладает наибольшей дисперсией. И далее: k-u главной ком- компонентой (k = 2, ..., р) исследуемой системы показателей X называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с k — 1 предыдущими главными компонентами и среди всех прочих нормированно-центрированных и не коррелирован- коррелированных с предыдущими k —1 главными компонентами линейных комбинаций переменных xf~l\ ..., х(р> обладает наибольшей дисперсией. 4. В оптимизационной постановке задачи снижения размер- размерности решение, получаемое с помощью метода главных ком- компонент, максимизирует критерий информативности, опре- определяемый суммарной дисперсией заданного (небольшого) числа искомых вспомогательных переменных (при соответ- соответствующих условиях их нормировки). Для вычисления k-u главной компоненты г^ЦХ) (k = 1, ..., р) следует найти соб- собственный вектор lk = ihi, ••-. hv) ковариационной матри- матрицы 2 исходного набора показателей X = (х^\ ..., х(р>)\ т. е. решить систему уравнений B — hh I) I'k = 0, где hh — k-й по величине корень (при их расположении в порядке убывания) характеристического уравнения |2 — Я,1| =0. Компоненты lh] (j = 1, р) собственного вектора lh являются искомыми весовыми коэффициентами, с помощью которых осуществляется переход от исходных показателей х^1', ... л<"> к главной компоненте 2<*> (X), т. е. г<-кЦХ) — 1ъ-Х. 5. Основные числовые характеристики вектора Z = (г*1' ,..., z<p))' главных компонент могут быть выражены через основ- основные числовые характеристики исходных показателей и соб- собственные числа их ковариационной матрицы 2. В частности, 383
EZ=O; 2 Dz</> '= 2 6. Вектор p' (// < p) первых главных компонент () = (г^ЦХ), ..., 2<p') (X))' обладает рядом экстремальных свойств, среди которых отметим следующие. а) свойство наименьшей ошибки автопрогноза или наилуч- наилучшей самовоспроизводимости: с помощью р' первых главных * компонент 2*1*, ..., 2<р'> исходных показателей х<х\ ..., *<р> (// < р) достигается наилучший (в определенном смысле) прогноз этих показателей среди всех прогнозов, которые можно построить с помощью р' линейных комбинаций набоь ра из р произвольных признаков, б) свойство наименьшего искажения некоторых геометри- геометрических характеристик совокупности исходных многомерных наблюдений Х±, ..., Хп при их проецировании в простран- пространство меньшей размерности, натянутое на р' первых главных компонент 2*1', ..., zSp">. 7. Главные компоненты, построенные не по истинной ко- ковариационной матрице 2 вектора исходных показателей X = (х'1*, ... хС))', а по ее выборочному аналогу (оценке) S, называются выборочными главными компонентами и в опре- определенных (достаточно широких) условиях обладают (вместе с собственными числами и векторами матрицы S) всеми тра- традиционными свойствами «хороших» оценок: состоятельно- состоятельностью, асимптотической эффективностью, асимптотической нормальностью (в условиях растущей размерности, т. е. в «асимптотике А. Н. Колмогорова», анализируемые выбороч- выборочные характеристики могут вести себя некоторым специаль- специальным образом). 8 Геометрически определение первой главной компоненты равносильно построению новой координатной оси Ог*1) та- таким образом, чтобы она шла в направлении наибольшего раз- разброса исходных данных, т. е. — в направлении вытянуто- сти анализируемого юблака» многомерных наблюдений. За- Затем среди направлений, перпендикулярных к Ог*1), отыски- отыскивается направление «наибольшей вытянутости» 0г<2> и т. д. Очевидно, если характер вытянутости анализируемого «об- 384
лака» данных в исходном признаковом пространстве суще ственно отличен от линейного, то линейная модель главных компонент может оказаться неэффективной. В подобных ситуациях исследователь должен обратиться к нелинейным версиям метода главных компонент (см., например, §13.6). 9. Главные компоненты используются при решении следу- следующих основных типов задач анализа данных: 1) упрощение, сокращение размерностей анализируемых моделей статистического исследования зависимостей или классификации с целью облегчения счета и интерпретации получаемых статистических выводов; 2) наглядное представление {визуализация) исходных многомерных данных, получаемое с помощью их проециро- проецирования в пространство, натянутое на первую, первые две или первые три главные компоненты, 3) предварительная ортогонализация объясняющих пере- переменных в задачах построения регрессионных зависимостей как средство «борьбы» с мультиколлинеарностью [ 12, гл. 8]; 4) сжатие объемов хранимой статистической информа- информации. Глава 14. МОДЕЛИ И МЕТОДЫ ФАКТОРНОГО АНАЛИЗА 14.1. Сущность модели факторного анализа, его основные задачи Описываемые в данной главе методы основаны на общей ба- базовой идее, в соответствии с которой структура связей меж- между р анализируемыми признаками х^\ jc<2), ..., д:<р > может быть объяснена тем, что все эти переменные зависят (линей- (линейно или как-то иначе) от меньшего числа других, непосредст- непосредственно не измеряемых («скрытых», «латентных») факторов /A), /B), ¦•-, f1"') (p' < р), которые принято называть общи- общими1 и которые в большинстве моделей конструируются так, чтобы они оказались взаимно некоррелированными. При этом в общем случае, естественно, не постулируется возмож- возможность однозначного (детерминированного) восстановления значений каждого из наблюдаемых признаков &Я по соот- 1 Встречающийся еще в литературе перевод «commen factor» как «простой фактор» ие несет в себе главной смысловой нагрузки этого термина ведь смысл каждой из переменных /(Ч, ..., ftp'^ как раз и состоит в том, что она является общей для всех исходных при- признаков х*1), ..., х^р\ 13 Заказ № 291 385
ветствующим значениям общих факторов Рг),..., /(р<) (в пред- предположении, что мы их умеем вычислять): допускается, что каждый из исходных признаков х& зависит также и от некоторой «специфической» (для него) остаточной случайной компоненты и(/>, которая и обусловливает статистический характер связи между *<'>, с одной стороны, и /A>,..., /<р'> — с другой. Конечная цель статистического исследования, проводи- проводимого с привлечением аппарата факторного анализа, как пра- правило, состоит в выявлении и интерпретации латентных об- общих факторов с одновременным противоречивым стремле- стремлением минимизировать как их число, так и степень зави- зависимости л#> от своих специфических остаточных случай- случайных компонент м"">. Как и в любой модельной схеме, эта цель может быть достигнута лишь приближенно. В некотором смысле искомые общие факторы /A), ...,/<р') можно считать причинами, а наблюдаемые признаки х<г),..., х<р> — следствиями. Принято считать статистический ана- анализ такого рода успешным, если большое число следствий удалось объяснить малым числом причин. Таким образом, методы и модели факторного анализа на- нацелены на сжатие информации или, что то же, на снижение размерности исходного признакового пространства Пр (X). При этом из трех упомянутых в § 13.1 предпосылок возмож- возможности снижения размерности (взаимная коррелированность исходных признаков, малая «вариабельность» некоторых из них, агрегирование) методы факторного анализа базируются, в основном, на первой. Возникновение схемы и моделей факторного анализа обязано задачам психологии, относится к началу двадцато- двадцатого века и связано с именами Ч. Спирмэна, Л. Тэрстоуна, Г. Томсона 1. Однако в силу ряда исторических причин и, в частности, из-за субъективных пристрастий и специфиче- специфических научных интересов первых исследователей, работав- работавших в данной области, вероятностно-статистические аспек- аспекты этого раздела многомерного статистического анализа дол- долгое время оставались практически неразработанными, а интерпретации и анализу различных моделей факторного анализа была присуща некоторая неопределенность. Лишь с середины 50-х годов начинают появляться интересные ре- результаты именно вероятностно-статистических исследова- 1 В качестве первой опубликованной по этой теме работы назы- называют обычно статью Spearman С. General intelligence objectively determined and measured/Amer. J. Psychol. — 1904. — Vol. 15.— P. 201—293. 386
ний этого аппарата [180, 294, 185], среди которых работу Т. Андерсона и Г. Рубина следует выделить как основопола- основополагающую. При разработке моделей факторного анализа приходит- приходится последовательно анализировать и решать следующие во- вопросы. Существование модели. Далеко не для всякой заданной структуры связей между исходными признаками X — (*A>, ..., *(р))' можно (при заданном р' < р) построить модель факторного анализа, т. е. указать такие общие факторы /A), ..., /<"'> (или доказать их существование), которые полно- полностью объяснили бы имеющуюся корреляцию между различ- различными парами *<г) и л#>. При каком характере связей между исходными признаками д^1*, ..., •*<">, т. е. при каких корре- корреляционных (ковариационных) матрицах R = (riy) B = = (<*и)), а также при каком соотношении между числом на- наблюдаемых признаков р и числом скрытых общих факторов р' (р' < р) сделанное допущение о наличии определенных свя- связей между х1 (i = 1, 2, ..., р), с одной стороны, и /(/> (/' = = 1,2, ..., р') — с другой, является обоснованным и содер- содержательным — в этом и заключается вопрос существования модели. Единственность (идентификация) модели. Оказывает- Оказывается, что если р, 2 и р' таковы, что допускают построение модели факторного анализа, то определение соответствующих факторов F' — (/<1), ..., /<р)) и коэффициентов линейного преобразования Q ~ (qa), связывающего X и F, не единст- единственно. Спрашивается, при каких дополнительных огра- ограничениях на матрицу преобразования Q и на ковариацион- ковариационную матрицу V -- (иц) остаточных специфических факторов ма>, ..., м<"> определение параметров искомой модели фак- факторного анализа будет единственным? Алгоритмическое определение структурных параметров модели. При заданной ковариационной матрице 2 исходных признаков и известном числе общих факторов р' (и в пред- предположении, что решение задачи определения структурных параметров Q и V существует) как конкретно вычислить не- неизвестные параметры модели? Статистическое оценивание (по наблюдениям Xi, X2, ..., Хп и при заданном р') неизвестных структурных пара- параметров модели. Статистическая проверка ряда гипотез, связанных с природой модели и значениями ее структурных параметров, таких, как гипотеза об истинном числе р' общих факторов, гипотеза адекватности принятой модели по отношению к име- имеющимся результатам наблюдения, гипотеза о значимом от- 13* 387
линии от нуля интересующих нас коэффициентов qtj линей- линейного преобразования и т.п. Построение статистических оценок для ненаблюдаемых значений общих факторов fW, ..., /<"'). 14.2. Каноническая модель факторного анализа 14.2.1. Общий вид модели, ее связь с главными компонен- компонентами. Как и прежде, будем для удобства полагать исследуе- исследуемые наблюдения Х1г Х2, ..., Хп центрированными. Переход от исходных наблюдений Xt, X.2, ..., Х„ и центрированным осуществляется с помощью простого переноса начала коор- координат в «центр тяжести» исходного множества наблюдений, т.е. д^() = xf-i>—*<'>, i- 1, 2, ..., п. Тогда линейная версия модели факторного анализа представляется в виде соотношений или в компонентной записи ... ., A4.1) Здесь Q = (qij) — прямоугольная матрица размера р х р' коэффициентов линейного преобразования (нагрузок общих факторов на исследуемые признаки), связывающего исследуемые признаки д^'> с ненаблюдаемыми (скрытыми) общими факторами /A), ..., /(р'>, а вектор-столбец U =- (м*1*, ..., ы(р'))' определяет ту часть каждого из исследуемых приз- признаков, которая не может быть объяснена общими фактора- факторами, в том числе мA) включает в себя, как правило, ошибки измерения признака^". Применительно к каждому конкретному наблюдению Хч (v = 1,2, ..., п) соотношение A4.1) дает A4.1') или в компонентной записи = 2 1 Будем предполагать, что вектор остаточных специфиче- специфических факторов U подчиняется р-мерному нормальному рас- распределению N (О, V), не зависит от F и состоит из взаимно независимых компонент, т. е. его ковариационная матрица V = Е (?/?/') имеет диагональный вид, где по диагонали сто- стоят элементы Оц = Dm*'*. 388
Вектор общих факторов F = (/A>, ..., Рр">)', в зависи- зависимости от содержания конкретной задачи, может интерпре- интерпретироваться либо как р'-мерная нормальная случайная вели- величина со средним EF = 0 (в силу центрированности исходных наблюдений) и с ковариационной матрицей специального вида Е (FF') = I1, либо как вектор неизвестных неслучай- неслучайных параметров, вспомогательных переменных, значения которых меняются от наблюдения к наблюдению. При по- последней интерпретации вектора общих факторов более правильной является запись модели в виде A4.1), причем условия центрированности независимости и нормированно- сти дисперсий компонент вектора F в этом случае имеют вид: п п V= 1 V = 1 Однако при обоих вариантах интерпретации вектора об- общих факторов F исследуемый вектор наблюдений X оказы- оказывается нормально распределенной р-мерной случайной вели- величиной: при первом варианте как линейная комбинация двух нормальных случайных векторов (F и U), а при втором ва- варианте за счет нормальности специфических факторов uS'K При этом из A4.1) и из сделанных выше допущений немед- немедленно следует, что Ех«> = О, v=l р' r/v (i, или в матричной записи A4.2) Примером достаточно прозрачной интерпретации моде- модели факторного анализа может служить ее формулировка в терминах так называемых интеллектуальных тестов. При этом наблюдение по признаку x(f выражает отклонение оценки, например в баллах, данной /-му индивидууму на экзамене по f-му тесту, от некоторого среднего уровня. Ес- Естественно предположить, что в качестве ненаблюдаемых об- общих факторов /A), ..., /(о'), от которых будут зависеть оцен- оценки индивидуумов по всем р тестам, выступят такие факторы, как характеристика общей одаренности индивидуума/0', 1 Требование независимости компонент /С) и нормированности их дисперсий объясняется в основном соображениями идентифика- идентификации модели, см. § 14.1. 384
характеристики его математических /B), технических /<3> или гуманитарных /D) способностей. Отметим, что соотношения A4.1) в точности воспроизво- воспроизводят модели множественной регрессии и дисперсионного ана- анализа [12], в которых под/A) (/ = 1, 2, .... //) понимаются так называемые объясняющие переменные (факторы-аргу- (факторы-аргументы). Однако принципиальное отличие модели факторного анализа от регрессионных схем и дисперсионного анализа состоит в том, что переменные /(*>, выступающие в роли ар- аргументов во всех этих моделях, не являются непосредствен- непосредственно наблюдаемыми в моделях факторного анализа, в то время как в регрессионном и дисперсионном анализе значения /<*>' измеряются на статистически обследованных объектах. Замечание 1. О связи метода главных компонент и метода факторного анализа. Рассмотрим следующую общую схему, включающую в себя в качестве частных случаев обе сравниваемые модели. Примем гипотезу, что существуют такие взаимно некоррелированные факторы/A),/B), ... (быть может, в неограниченном числе), что ) A4.3) или в матричной записи Х = АР, где о случайных переменных /<Х), /<2>, ... без ограничения общности можно предположить, что D/(i) = 1. Очевидно, представление A4.3), если оно существует, не единственно, так как переходя от f с помощью произволь- произвольного ортогонального преобразования С к новым переменным Z = CF, будем иметь вместо A4.3) следующее соотношение: X = BZ. A4.4) Исследователю не известны коэффициенты а,ц, но он хочет научиться наилучшим (в некотором смысле) образом аппроксимировать признаки л^д>, .... д*р> с помощью линей- линейных функций от небольшого (заранее определенного) числа т факторов /A> (/л), ..., /(т> (т), которые поэтому естест- естественно назвать главными или общими. Аппроксимация приз- признаков X с помощью /A) (/л), .... /(т> (т.) означает представ- представление X в виде A4.3), но с «урезанной» суммой, стоящей в правой части, т. е. 390
где Am — матрица, составленная из первых тстолбцов мат- матрицы A, a F (т) = (/<х> (т), ..., /<«> (т))'. Оказывается, что, по-разному формулируя критерий оп- оптимальности аппроксимации X с помощью F (т), придем либо к главным компонентам, либо к общим факторам. Так, например, если определение элементов матрицы Ат подчи- подчинить идее минимизации отличия ковариационной мат- матрицы 2 исследуемого вектора X от ковариационной мат- матрицы 2# =\т-Ат аппроксимирующего вектора Х(т) (в смысле минимизации евклидовой нормы ||2— ^jfll). TO f(l)(m) определяется пропорционально г'-й главной ком- _i _ поненте вектора X. в частности f^l>(m) =X; 2 f(t), где X,- — i-й tio величине характеристический корень ковариацион- ковариационной матрицы 2, a f({> — t-я главная компонента X; г'-й столбец матрицы Ат (/ = 1, ..., т) есть V%/j, гДе U — собственный вектор матрицы 2, соответствующий харак- характеристическому корню X,. Если же определение аппроксимирующего вектора Х(т) = ВТП/Г (т) подчинить идее максимального объясне- объяснения корреляции между исходными признаками х<*> и л:</> с помощью вспомогательных (ненаблюдаемых) факторов /<х> (т), /<2> (m) ,...,/<m) и, в частности, идее минимизации ве- величины cov —cov (^@ (от) Л(/) (т)) A4.5) t л при условии неотрицательности величин ati — Dx*'' (m), то можно показать [180, 293],что <-я строка оптимальной в этом смысле матрицы преобразования Вт состоит из т фак- факторных нагрузок общих факторов /<*> (т), ..., /(т) (т) на t-й исходный признак д:(!> в модели факторного анализа вида A4.1). Другими словами, сущность задачи минимизации (по Вт и F (т)) величины A4.5) состоит в следующем. Первый из т общих факторов /A) (т) находится из условия, чтобы попарные корреляции между исходными признаками были как можно меньше, если влияние на них этого фактора f1'(т) учтено. Следующий общий фактор/B)(т) находится из условия максимального ослабления попарных корре- корреляционных связей между исходными признаками, оставших- оставшихся после учета влияния первого общего фактора /**> (т), и т. д.
Из сказанного, в частности, следует, что методы главных компонент и факторного анализа должны давать близкие результаты в тех случаях, когда главные компоненты стро- строятся по корреляционным матрицам исходных признаков, а остаточные дисперсии vtl сравнительно невелики. Замечание 2. Вопрос о существовании модели фак- факторного анализа. По-видимому, не всякая ковариационная матрица 2 допускает представление вида A4.2), а следова- следовательно, не всякий вектор наблюдений X допускает интерпре- интерпретацию в рамках модели факторного анализа типа A4.1). Очевидно, условия представимости вектора наблюдений X в рамках модели факторного анализа должны формулировать- формулироваться в терминах свойств ковариационной матрицы 2, а также в виде некоторых соотношений между размерностью исход- исходного пространства р и числом общих факторов р'. Одним из наиболее общих (но малоконструктивных) результатов та- такого рода является, например, следующее утверждение: для того чтобы вектор X допускал представление вида A4.1), необходимо и достаточно, чтобы существовала диагональная матрица V с неотрицательными элементами, такая, что мат- матрица 2 — V была бы неотрицательно-определенной и имела бы ранг р'. Более детальное и конструктивное исследование условий существования модели факторного анализа чита- читатель сможет найти, например, в [180]. Заметим лишь, что изучение проблемы существования (разрешимости уравне- уравнений A4.1)) модели факторного анализа дает основу для по- построения различных статистических критериев адекватно- адекватности модели по отношению к исследуемым наблюдениям Хи Х2, -.., Хп. 14.2.2. Вопросы идентификации модели факторного анализа. Будем в дальнейшем предполагать, что имеется по мень- меньшей мере одно решение (Q, V) уравнений A4.2). При ис- исследовании вопроса единственности решения системы A4.2) относительно (Q, V) (при заданных а,7) следует различать два аспекта проблемы. Во-первых, надо понять, при каких дополнительных условиях на искомую матрицу нагрузок Q и на соотношение между р и р' не может существовать двух различных решений Q^> и Q<2), таких, чтобы одно из них нельзя было бы получить из другого с помощью соответ- соответствующим образом подобранного ортогонального преобра- преобразования С (единственность с точностью до ортогонального преобразования или с точностью до вращения факторов). Оказывается [180], достаточным условием единственности такого рода является требование к матрице Q, чтобы при. вычеркивании из нее любой строки оставшуюся матрицу 392
можно было бы разделить на две подматрицы ранга р', от- откуда автоматически следует требование A4.6) Можно показать, что для р' = 1 и р' = 2 это условие яв- является одновременно и необходимым, откуда, в частности, следует, что случаи р = 2, р' = 1 и р = 4, р' = 2 не допу- допускают идентификации модели факторного анализа в указан- указанном выше смысле (более подробное исследование идентифи- идентификации этого типа можно найти в [180]). Будем предполагать далее, что имеется по меньшей мере одно решение (Q, V) системы A4.2) и что оно единствен- единственно с точностью до ортогонального преобразования. Вставляя в уравнения A4.2) вместо найденного решения (Q, V) другую пару матриц (QC, V), где С — матрица (раз- (размера р' X р') любого ортогонального преобразования, лег- легко убедиться, что и она (эта пара матриц) удовлетворяет данной системе уравнений. Следовательно, возвращаясь к модели A4.1), получаем, что наряду с общими факторами F = (/A), ..., /(р))' можно рассмотреть (при тех же нагруз- нагрузках qtj) общие факторы Z — CF. Поскольку, как известно, ортогональное преобразование координат F геометрически означает вращение осей/'1', ...,/<р'> около начала коорди- координат на некоторый угол, то получается, что при отсутствии дополнительных условий на природу искомой матрицы на- нагрузок Q общие факторы /A), ..., /<?'> могут быть определе- определены лишь с точностью до вращения системы координат в со- соответствующем р'-мерном пространстве. Существует не- несколько вариантов дополнительных условий на класс мат- .риц Q, в котором следует искать решение системы A4.2), обеспечивающих уже окончательную однозначность реше- решения (Q, V). От конкретного содержания этих условий зави- зависит и способ численного выявления структуры искомой мо- модели и соответственно способ статистического оценивания не- неизвестных параметров q,j, v,, и факторов /A). Поэтому оста- остановимся на них параллельно с описанием методов статисти- статистического исследования модели факторного анализа. 14.2.3. Определение структуры и статистическое исследова- исследование модели факторного анализа. Итак, в распоряжении ис- исследователя — последовательность многомерных наблюде- наблюдений Хи Х2, .... Хп и с помощью модели A4.1) нужно перейти от исходных коррелированных признаков *A), х<2>, ..., xtrt, являющихся компонентами каждого из наблюдений, к меньшему числу некоррелированных вспомогательных 393
признаков (общих факторов) /(Ц, .,., fW>. Для этого надо су- суметь определить оценки неизвестных нагрузок qtj остаточ- остаточных дисперсий vu и, наконец, самих общих факторов /@. Как упоминалось, в основной модели A4.1) при р' > 1 оказывается слишком много неизвестных параметров для их однозначного определения. Поэтому вначале исследова- исследователь должен выбрать какую-то систему дополнительных априорных соотношений, связывающих неизвестные пара- параметры модели, которые делают решение задачи однозначным и позволяют получить относительно простое частное решение системы A4.2). Затем он может отказаться от этих дополни- дополнительных соотношений, подбирая с помощью подходящего ортогонального преобразования (вращения осей) тот вари- вариант оценок нагрузок qit и остаточных дисперсий vn, кото- который ему кажется предпочтительнее в основном в отношении возможности содержательной интерпретации получаемых при этом общих факторов и их нагрузок. Остановимся под- подробнее на основных этапах статистического исследования модели факторного анализа. Варианты дополнительных априорных соотношений между qn н v;i, постулируемых исследователем с целью одно- однозначной идентификации анализируемой модели: 1) решение (Q, V) системы A4.2) лежит лишь в классе таких матриц Q и V, для которых матрица Q' V Q имеет диа- диагональный вид, причем диагональные элементы ее различ- различны и упорядочены в порядке убывания1; 2) из всех решений системы A4.2) выбирается лишь то, для которого матрица Q'Q диагональна, причем все диаго- диагональные элементы различны и упорядочены (в порядке убы- убывания); 3) решение системы A4.2) ищут лишь среди таких мат- матриц Q, которые для заранее заданной матрицы (размера р х р') В = (btj), — i = 1, ..., р, j = 1, .... р' ранга р' удов- удовлетворяют требованию B'Q = 1 В некоторых случаях к этому условию добавляется требова- требование специального вида матрицы остаточных дисперсий, а именно 394
В частности, выбор ПГо <ГТо 1 О ... О v0 ... 1 0 ... 0; приводит к ограничению на Q типа qn 0 ... 0 Яп Ят - О <7р'1 Яр'2 — <7р'р ?pi 9p. •," Ярр' f что означает: первый исходный признак л:'1) должен выра- выражаться только через один первый общий фактор /<х>, второй признак хB) — через два общих фактора /<Х) и /<2> и т. д. Можно, кстати, показать, что при соответствующем вы- выборе вспомогательной матрицы В определение искомых па- параметров модели приводит к решению ранее сформулирован- сформулированной задачи A4.5). Содержательную интерпретацию условий 3) следует ис- искать в ситуациях, когда исследователь располагает некото- некоторой априорной информацией, из которой можно, во-первых, извлечь реальный гипотетический смысл общих факторов, и, во-вторых, постулировать наличие определенного числа нулевых элементов в матрице нагрузок Q (с более или менее точным указанием их «адреса»), что означает априорное от- отрицание завнснмостн исходных признаков хA) от некоторых нз общих факторов /(;) (/= 1, 2, ..., р'). Эта же идея реали- реализуется и в других, менее формализованных вариантах до- дополнительных условий («простые структуры», «нулевые эле- элементы в специфических позициях» [180]), на которых здесь не будем останавливаться. Описание общего итерационного подхода к выявлению структуры модели факторного анализа. Конкретная реали- реализация этого подхода зависит от выбора варианта идентифи- идентифицирующих условий типа 1) — 3). Как правило, исследова- исследователю известна лишь ковариационная матрица 2 (если ее вы- выборочное значение 2, пока не будем их различать). Логическая схема итераций следующая: задаемся некоторым нулевым приближением V<°> матри- матрицы V; 395
используя A4.2), получаем нулевое приближение Чг<°) = = 2 — V<°> матрицы ? = QQ' = S — V; по Т с помощью некоторого специального приема (см. ниже) последовательно определяем нулевые приближения <7(i\ q{V ,-••, (jpV Для столбцов qlr q2, ..., qp- матрицы Q. Затем определяем следующее (первое) приближение VA) и т. д. Специальный прием определения столбцов qt (i = 1, 2, ..., р') матрицы Q при известной матрице ЧГ = QQ' опи- опирается на то, что матрица ЧГ может быть представлена в виде Ч*" -= qtql + q^q'i + ... + qp- q'p>. Используя специ- специфику выбранных идентифицирующих условий, определяют вначале столбец qt. Затем переходят к матрице Чг1 = = Чг — qxq{ = q^q'i + ... + qp- q'p> и определяют столбец <72 и Т-Д- Так, например, в случае условия 3) («обобщенного усло- условия треугольности») этот прием дает D = B'Q = (db d, dp.). Здесь dt — t-й столбец матрицы D: YB=QQ' B = QD' =qtd\ ^...+qp-d'p-; B' YB = B' QQ' В = DD' = dt d\ +... + dp- d'p-. Последние два матричных уравнения можно расписать в ви- виде q1dil + ... + qidi, (i-1, 2 р'); Отсюда можно последовательно находить A4.7) В случае условий идентификации типа 1) легко проверить, что столбцы qlt ..., qp- являются первыми р' обобщенными собственными векторами (в метрике V) матрицы Чг, т. е. яв- являются решением уравнения 4ty-XfV?, = 0(i=l p'), A4.8) где %t — t-й по величине характеристический корень урав- уравнения рГ—XV| = 0. A4.8') 396
Поэтому общая итерационная схема определения струк- структуры моделн реализуется здесь в такой последовательности: V<°> -*- Vе» = 2 — V<°> -* Q<°) — решение уравнений A4.8) -*- VI1* = Q@) Q@)/ -*¦ V<*> = 2 — Y^-fr-QW — решение уравнений A4.8) и т.д. Аналогичная реализация общей итерационной схемы оп- определения структуры моделн нмеет место н в случае условий идентификации типа 2) с той только разницей, что уравне- уравнения A4.8) и A4.8') следует заменить уравнениями |*-XI| = 0(i=l, 2 />'). Статистическое оценивание факторных нагрузок qtj и ос- остаточных дисперсий и„. Оценивание производится либо ме- методом максимального правдоподобня (см. [11, гл. 8)), либо- так называемым центроидным методом. Первый метод ис- используется обычно при идентифицирующих условиях типа 1) и 2). Он хотя и дает эффективные оценки для qtj н vti, но требует постулирования закона распределения исследуе- исследуемых величин (разработан лишь в нормальном случае), а так- также весьма обременительных вычислений. Центрондный ме- метод используется при идентифицирующих условиях типа 3). Давая оценки, близкие к оценкам максимального правдопо- правдоподобня, он, как и всякий непараметрнческнй метод, является более «устойчивым» по отношению к отклонениям от нор- нормальности исследуемых признаков н требует меньшего объ- объема вычислений. Однако нз-за определенного произвола в его процедуре, которая приведена ниже, статистическая оценка метода, исследование его выборочных свойств (в об- общем случае) практически невозможны. Можно представить себе проведение подобных исследований лишь в каких-то специальных случаях, одни нз которых намечен, напри- например, в [180]. Общая схема реализации метода максимального правдо- правдоподобня следующая. Составляется логарифмическая функ- функция правдоподобня как функция нензвестных параметров qij н vu, отвечающая исследуемой моделн, т. е. с учетом нор- нормальности Xlt ..., Хп моделн A4.1) н соответственно A4.2); в качестве дополнительных идентифицирующих условий берутся условия 1) нлн 2). С помощью дифференцирования этой функцнн правдоподобня по каждому нз нензвестных па- параметров и приравнивания полученных частных производ- производных к нулю получается система уравнений, в которой из- известными величинами являются выборочные коварнацни 397
ои, а также числа p и p , а неизвестными — искомые пара- параметры qij и vlt. И наконец, предлагается вычислительная (как правило, итерационная) процедура решения этой сис- системы. Подробнее см. в [96, 161, 180]. Реализация описанной выше (для случаев 1 и 2) общей итерационной вычисли- вычислительной схемы с заменой неизвестной ковариационной мат- матрицы исходных признаков 2 ее выборочным аналогом 2 приведет как раз к оценкам максимального правдоподобия параметров </;у и vn (i — 1,2,..., р; / == 1,2, ..., р'). Отме- Отметим также, что в [180] при достаточно общих ограниче- ограничениях доказана асимптотическая нормальность оценок максимального правдоподобия Q и V, что дает основу для построения соответствующих интервальных оценок. Как выше отмечено, центроидный метод является од- одним из способов реализации вычислительной схемы A4.7), приспособленной для выявления структуры модели фактор- факторного анализа и оценки неизвестных параметров в случае идентифицирующих условий типа 3). Этот метод поддается весьма простой геометрической интерпретации. Отождествим исследуемые признаки л^, ..., х<р) с векторами, выходя- выходящими из начала координат некоторого вспомогательного р-мерного пространства, построенными таким образом, что- чтобы косинусы углов между х^1) и xS?> равнялись бы их пар- парным корреляциям (Гц), а длины векторов xSl) — стандарт- стандартным отклонениям соответствующих переменных (а,1/ )• Да- Далее изменим, если необходимо, направления, т. е. знаки от- отдельных векторов так, чтобы как можно больше корреля- корреляций стало положительными. Тогда векторы будут иметь тен- тенденцию к группировке в одном направлении в пучок. Пос- После этого первый общий фактор /A) определяется как нормиро- нормированная (т. е. как вектор единичной длины) сумма всех исход- исходных векторов пучка, и, следовательно, он будет проходить каким-то образом через середину (центр) этого пучка; от- отсюда название «центроид» для общего фактора в этом слу- случае. Переходя затем к остаточным переменным *(ll) = *A) — — </и/A)> подсчитывая ковариационную матрицу 2A> = = 2 — qtf'x для этих остаточных переменных и проделывая относительно *(П) и 2A) ту же самую процедуру построе- построения пучка и т.п., выделяем второй общий фактор («второй центроид») /B) и т. д. Формализация этих соображений приводит к следующей итерационной схеме вычислений по определению факторных нагрузок qtl и остаточных дисперсий vH с учетом описанной ранее вычислительной схемы A4.7). Задаемся некоторым на- 398
чальным приближением V@) для дисперсий остатков V. Обычно полагают [96, 161] I О* II- Подсчитываем ЧГ<°) = 2— V<°). Выбираем в качестве ну- нулевого приближения Ь[°> первого столбца Ьх вспомогатель- вспомогательной матрицы В столбец, состоящий из одних единиц *¦-(!} Далее в соответствии с A4.7) определяем нулевое приближе- приближение <7i0) первого столбца матрицы нагрузок Затем вычисляется матрица ЧГ^°> — Т(в>—«Т^М0*' и оп' ределяется нулевое приближение <7<г0) второго столбца мат- матрицы нагрузок 1,@) ^ _t A4 Ш) 2 где вектор ЬB0) состоит только из + 1 или — 1, а знаки под- подбираются из условия максимизации знаменателя правой ча- части A4.10) и т. д. Получив, таким образом, нулевое прибли- приближение Q<0) = (q[0), ..., 9р0/)) Для матрицы нагрузок Q, вычис- вычисляем Vf1) = 2 — Q(°)Q(°)' и переходим к следующей итера- итерации. При этом матрица В'1' не обязана совпадать с В<°). Кстати, как нетрудно усмотреть из вышесказанного, 1-й столбец матрицы В задает веса, с которыми суммируются векторы одного пучка для образования г-го общего фактора («центроида»). Поскольку смысл центроидной процедуры в простом суммировании векторов пучка, она иногда так и на- называется — «процедура простого суммирования», то ис- исследователю остается определить лишь нужное направле- направление каждого из векторов пучка, т. е. знаки единиц, образу- образующих столбцы Ьг. Непосредственная ориентация (при под- подборе знаков у компонент вектора Ьг) на максимизацию вы- выражений b\v) Ч1"^! b[v) хотя и несколько сложнее ре- реализуема, чем некоторые эвристические приемы, опирающи-
•еся на анализ знаков элементов остаточных матриц ЧГ,-! [96, с. 41—461, но быстрее и надежнее приводит к выделению именно таких центроидов, которые при заданном р' будут обусловливать возможно большую часть общей дисперсии исходных признаков, т. е. минимизировать дисперсию ¦остаточных компонент и,. Если не все исходные ковариации а[} положительны, мо- может быть целесообразным использование и в качестве Ь[0) вектора, состоящего как из + 1, так и из— 1. Отметим так- также, что недостатком центроидного метода является зависи- зависимость центроидных нагрузок ql} от шкалы, в которой изме- измерены исходные признаки. Поэтому исходные признаки *<[> обычно нормируют с помощью среднеквадратических откло- отклонений а,1/2, так что выборочная ковариационная матрица 2 заменяется во всех рассуждениях выборочной корреляци- корреляционной матрицей R, Анализируя описанную выше процедуру центроидного метода, нетрудно понять, что построенные таким способом общие факторы могут интерпретироваться как первые р' «условных» главных компонент матрицы 2 — V, найденные при дополнительном условии, что компоненты соответствую- соответствующих собственных векторов могут принимать лишь два зна- значения: плюс или минус 1. Оценка значений общих факторов. Это одна из основных .задач исследования. Действительно, мало установить лишь сам факт существования небольшого числа скрыто дейст- действующих общих факторов /f1', ..., /<р/), объясняющих при- природу взаимной коррелированности исходных признаков и ос- основную часть их дисперсии. Желательно непосредственно определить эти общие факторы, описать их в терминах исходных признаков и постараться дать им удобную со- содержательную интерпретацию. Приведем здесь идеи и результаты двух распространен- распространенных методов решения этой задачи, предложенных в разное время М. Бартлеттом A938 г.) и Г. Томсоном A951 г.) В обоих случаях предполагаем задачу статистического оценивания неизвестных нагрузок Q' — (ql}) и остаточных дисперсий V — (vn) уже решенной. Метод Бартлетта рассматривает отдельно для каждого фиксированного номера наблюдения v (v — 1, 2, ..., п) мо- модель A4.1) как регрессию признака xv по аргументам q.lt q.2, ..., q-P'\ при этом верхний индекс i = 1, 2, ..., р у признака (и соответствующий первый нижний индекс у на- 400
трузок) играет в данном случае роль номера наблюдений в этой регрессионной схеме, так что Ч°= 2 /1Л ?«+'<" (*=1 р)- Таким образом, величины /v0,/v2), ¦ ¦¦,fv> } интерпрети- интерпретируются как неизвестные коэффициенты регрессии xv no q.u q.2)..., q.p'. В соответствии с известной техникой метода на- наименьших квадратов (с учетом «неравноточностн» измерений, т. е. того, что, вообще говоря, Dx<'>' Ф Dx<'=> при г, Ф i2), определяющей неизвестные коэффициенты регрессии Fv — ft..,?l''))' из условия FV = (Q'\~1Q)-1Q'\-хХх (v = l n). A4.11) Очевидно, если исследуемый вектор наблюдений X нор- нормален, то эти оценки являются одновременно и оценками максимального правдоподобия. Нестрогость данного мето- метода'— в замене истинных (неизвестных нам) величин qtj и vu их приближенными (оценочными) значениями ql} ни,,. Метод Томсона рассматривает модель A4.1) как бы «вы- «вывернутой наизнанку», а именно как регрессию зависимых переменных f1), ..., /с'> по аргументам я*1), ..., х^. Тогда коэффициенты си в соотношениях ?')= 2?0х</> (i=i, .... р') или в матричной записи 401
где С — матрица коэффициентов си размера р'хр, находят в соответствии с методом наименьших квадратов из усло- условия n p' •V—1 1= 1 n p' = min ^ 2 р 2 /= 1 A4.12) Поскольку решение экстремальной задачи A4.12) вы- выписывается, как известно [16], в терминах ковариаций *<'> и /W, то отсутствие наблюдений по зависимым переменным /<'"> можно компенсировать знанием этих ковариаций, так как легко подсчитать, что fii) _ f<p) /QQ' + V Q\ ~l Q' I/' Отсюда, используя известные формулы метода наимень- наименьших квадратов, получаем (с заменой матриц Q и V их выборочными аналогами) ^^(I + r)-1^' V-XXV (v= 1, 2, .... n), A4.13) где матрица Г (размера рхр) определяется соотношением Сравнение выражений A4.11) и A4.13) позволяет полу- получить явное соотношение между решениями по методу Барт- летта ЯБ) и методу Томсона Ят>. Если элементы матрицы Q'V Q достаточно велики, то эти два метода будут давать близкие решения. Статистическая проверка гипотез. Проверка гипотез, связанных с природой и параметрами используемой модели 402
факторного анализа, составляет один из необходимых мо- моментов исследования. Теория статистических критериев при- применительно к моделям факторного анализа разработана весь- весьма слабо. Пока удалось построить лишь так называемые кри- критерии адекватности модели, т. е. критерии, предназначен- предназначенные для проверки гипотез типа гипотезы #„, заключающей- заключающейся в том, что исследуемый вектор наблюдений X допускает представление с помощью модели факторного анализа A4.1) с данным (заранее выбранным) числом общих факторов р'. При этом критическая статистика у (Xlt ..., Хп), т. е. функ- функция от результатов наблюдения, по значению которой при- принимается решение об отклонении или непротиворечивости высказанной гипотезы Яо, зависит от вида дополнительных (идентифицирующих) условий модели. Так, если рассмат- рассматривается модель с дополнительными идентифицирующими условиями вида 1), т. е. дополнительно постулируется диаго- нальность матрицы Г = Q'V Q, то гипотеза Но отверга- отвергается (с вероятностью ошибиться, приблизительно равной а) в случае где число степеней свободы vt = -j l(p — р'J—(р-\-р')]; его положительность обеспечивается условием A4.6), а х? (vx) — как и ранее, величина 100 а %-ной точки х2-распределения с V] степенями свободы (находится из таблиц). На языке ковариационных матриц гипотеза Но означает в данном случае, что элементы матрицы 2 — (QQ' + V) должны лишь статистически незначимо отличаться от нуля, или, что эквивалентно, матрица 2 — V должна иметь ранг, равный р'. А это в свою очередь означает, что последние р — р' характеристических корней A,,- + 1, ..., кр уравне- уравнения |2 — V — к\\ ~0 должны лишь незначимо отличать- отличаться от нуля. Статистика ух (Xlt ..., Хп) может быть записана в терминах этих характеристических корней: Если же в качестве идентифицирующих условий допол- дополнительно к A4.1), или, что то же, к A4.2), постулируется наличие какого-то заранее заданного числа т нулевых на- нагрузок qij из общего числа р-р' на определенных («специфи- 403
ческих») позициях, то гипотеза Яо отвергается (с вероятно- вероятностью ошибиться, приблизительно равной а) в случае, когда -. Xn) = n(ln|VJ)+ln|Q'V-1SV-1Q|- где число степеней свободы v2 = у р (р — 1) — (р-р' — т). Иногда удобнее вычислять критическую статистику у2 (Xlt ..., Хп) в терминах характеристических корней zly z2, ..., гр, (нумерованных в порядке убывания их величин) вы- выборочной корреляционной матрицы R исследуемого вектора наблюдений X: Статистики уг (Xl7 ..., Xn) и v2 (Xlt ..., Xn) получены в результате реализации известной схемы критерия отноше- отношения правдоподобия. Пользуясь этой схемой, можно построить аналогичные критерии адекватности и для некоторых специальных ва- вариантов центроидного метода [96, с. 50]. Однако из-за слишком узких рамок такой модели эти критерии, с нашей точки зрения, не представляют достаточного интереса. До сих пор не удалось построить многомерной решающей процедуры типа р' (S), т. е. оценки для неизвестного числа общих факторов р'. В настоящее время приходится ограни- ограничиваться последовательной эксплуатацией критериев адек- адекватности #0 : р' — р'о (р'о заранее задано) при альтернативе #i : р' > р'о. Если гипотеза Яо отвергается, то переходят к проверке гипотезы Но : р' = р'о -f 1 при альтернативе Н{ :р' > р0 -4 1 и т. д. Однако по уровням значимости а каждой отдельной стадии такой процедуры трудно сколько- нибудь точно судить о свойствах всей последовательной процедуры в целом. Пользуясь асимптотической нормальностью оценок Q и V, можно было бы попытаться строить критерии для провер- проверки гипотез, касающихся значений факторных нагрузок, на- 404
пример, гипотез о том, что некоторые признаки не зависят от заранее определенных факторов, т. е. что на определен- ных местах матрицы Q стоят элементы, статистически не- незначимо отличающиеся от нуля. Однако построение этих критериев затруднено из-за сложности процедуры вычис- вычисления ковариационных матриц оценок Q и V1. Правда, это затруднение можно обойти, используя в качестве прибли- приближенного решения критерий незначимого отклонения от ну- нуля множественного коэффициента корреляции между задан- заданным исследуемым признаком х(/) и заранее определенным на- набором факторов /<'»>, /С»), ..., / ('ч) (q < р'). 14.2.4. Факторный анализ в задачах классификации. Выше уже была отмечена близость моделей главных компонент и факторного анализа. Поэтому замечания, сформулирован- сформулированные в гл. 13, относящиеся к общим идеям использования главных компонент в задачах классификации и к так назы- называемому дуализму в постановке задачи, в полной мере отно- относятся и к модели факторного анализа. Будет полезно пояснить это на конкретном примере с использованием специфики и терминологии именно фактор- факторного анализа. В табл. 14.1 приведены коэффициенты корреляции меж- между отметками по шести школьным предметам, подсчитан- подсчитанные по выборке из 220 учащихся [96]. В последних двух столбцах таблицы даны факторные нагрузки qit, qit на исследуемые признаки в бифакторной модели (р' = 2), подсчитанные по приведенной здесь кор- корреляционной матрице с помощью центроидного метода. Про- Простой анализ величин и знаков этих нагрузок склоняет нас к тому, чтобы интерпретировать первый фактор /A> как фак- фактор общей одаренности, а второй фактор /B) — как фактор гуманитарной одаренности. В прямой постановке задачи классификации (т. е. при классификации обследованных учащихся) исследователь должен был бы в первую очередь определить, как эти два общие фактора /A) и /<2) выражаются через исходные при- признаки дс<*>, лг'2), ...,jcF); затем подсчитать значения (Д1', /i2), v = 1,2 220) этих двух факторов для каждого из обсле- обследованных учеников и, наконец, нанести 220 точек i/v1*. Д2)) на плоскость/*1* 0 /<2>. Расположение «точек-учеников» 1 Банников В. А. Аппроксимация матриц и ее приложение в фак- факторном анализе // Алгоритмическое и программное обеспечение при- прикладного статистического анализа. — М.: Наука, 1980,—С. 208—232. 405
Содержа- Содержательный смысл признака Отметка по- гэльскому языку*'1' англий- английскому языку *'2) истории *C) арифмети- Кб X алгебре л;'5' геометрии *<6> 1 1 0,439 0,410 0,288 0,329 0,248 Номер признака | 2 0,439 1 0,351 0,354 0,320 0,329 3 0,410 6,351 1 0,164 0,190 0,181 4 0,288 0,354 0,164 1 0,595 0,470 5 0,329 0,320 0,190 0,595 1 0,464 Табли 6 0,248 0,329 0,181 0,570 0,464 1 ца 14.1 Нагрузка факторов на признаки "и 0,606 0,611 0,458 0,683 0,686 0,575 "i, 0,337 0,197 0,384 -0,365 -0,335 —0,212 на плоскости позволило бы исследователю получить ряд вспомогательных сведений, полезных при формулировке окончательных выводов (наличие четко выраженных «сгу- «сгущений точек» — классов, их число, их интерпретация и т. п.I. Кстати, метод Г. Томсона A4.13) дает в качестве оцен- оценки общих факторов выражения: р > ¦--= 0,245* »-f 0,208*<2> -f 0,158*<3> + 0,278*И> + -f0,309*<3> —0,351*<4>—0,303*<5>—0, При обратной (двойственной) постановке задачи, т. е. при классификации исследуемых признаков я'1*, jc<2>, ..., *<*>, оказывается полезной следующая геометрическая интерпре- интерпретация общих факторов и исходных признаков. Рассмотрим рис. 14.1, на котором осями координат являются общие фак- факторы /<г> и /<2>, а координаты точек (/(Л\ /(Л>) = (qtl, qti) определяются нагрузками t-ro исходного признака на общие факторы (t = 1, 2, ..., 6). Соответственно точку (^г1, qi2) удобно интерпретировать как изображение t-ro исходного признака л<г>. Расположение точек на рис. 14.1 свидетельст- 1 Аналогичная задача классификации ткачих при исследовании их производительности труда упоминалась в гл. 13. 406
аует о естественном распадении совокупности исходных при- признаков на две группы: группу гуманитарных признаков jc<2>, jcC>) и группу математических признаков (*<*>, / 0,5 /ж13' ,111 Подобная геометрическая интерпретация помогает вы- выбрать вращение системы общих факторов, наиболее подходя- подходящее в отношении воз- возможности их содер- содержательной интерпре- интерпретации. Дело в том, что, как уже отмеча- отмечали, параметры моде- модели факторного анали- анализа, в том числе и са- сами общие факторы P\fW, ...,/<"'>, опре- определяются не однознач- однозначно, а лишь с точ- точностью до некоторого ортогонального пре- преобразования, т. е. с точностью до враще- вращения осей /A>, /<2>, ..., /с'> в простран- пространстве. При этом выбор окончательного реше- решения, т. е. закреп- закрепление системы /<*>, /B>, ..., /<р'> в опреде- определенном положении, находится в распоря- распоряжении исследовате- исследователя. Другими слова- -0.5 ми, исследователь должен решить во- вопрос: как, распола- располагая некоторым част- частным решением /A>, I 0,5 F) \ гE) \ \ Рис 14 1. признаков д общих факторов /A>, ?B> Изображение исходных О, ..., х<5> в плоскости двух /1> ?2 /<2), ..., f(p'K полученным, напри- например, с помощью центроидного метода, выбрать такое ортогональное преобразование, такой поворот осей /W, /<2>, ..., /(р'\ при котором получаемые при этом новые общие факторы /<г), /<2),..., /<*>') допускают наиболее естест- естественную и убедительную содержательную интерпретацию. Рассматривая расположение исходных признаков в плоско- сти /<Ч 0 /<2> или в пространстве, натянутом на первые три 407
общих фактора, естественно повернуть координатную сис- систему таким образом, чтобы координатные оси прошли через наиболее четко выраженные сгущения точек-признаков (см. поворот, намеченный пунктирными осями /f1) и /<2> на рис. 14.1). При этом иногда бывает полезно отказаться от ортогональности общих факторов, переходя к косоугольной системе координат. 14.3. Некоторые эвристические методы снижения размерности 14.3.1. Природа эвристических методов. Описанные выше методы сокращения размерности исследуемого признакового пространства (метод главных компонент и модели фактор- факторного анализа) допускали интерпретацию в терминах той или иной строгой вероятностной модели и, следовательно, под- подразумевали возможность исследования свойств рассматри- рассматриваемых процедур в рамках теории математической статисти- статистики. В данном параграфе речь пойдет о методах, подчинен- подчиненных некоторым частным целевым установкам (наименьшее искажение геометрической структуры исходных «выбороч- «выборочных точек», наименьшее искажение их эталонного разбие- разбиения на классы и т. д.), но не формулируемых в терминах ве- вероятностно-статистической теории1. Процедура выбора це- целевой установки, подходящей именно для данной конкрет- конкретной задачи, практически не формализована, носит эвристи- эвристический характер, т. е., тсак правило, обусловливается лишь опытом и интуицией исследователя. Поэтому будем называть такие методы эвристическими. При отсутствии априорной или выборочной предвари- предварительной информации о природе исследуемого вектора наблю- наблюдений и о генеральных совокупностях, из которых эти наб- наблюдения извлекаются, точно в таком же невыгодном поло- положении находятся и методы факторного анализа и главных компонент. Однако для них все-таки существует принципи- принципиальная возможность теоретического обоснования (при на- наличии соответствующей дополнительной информации), в то время как лишь некоторые из эвристических методов удает- 1 Отсутствие строгой вероятиостио-статистической модели, ле» жащей в основе тех или иных методов, ие исключает возможности использования отдельных вероятностно-статистических понятий и соответствующей терминологии, как это имеет место, например, в методе экстремальной группировки признаков, в методе корреля- корреляционных плеяд и некоторых других. 408
ся впоследствии теоретически обосновать в рамках строгой математической модели. Подчеркнем, что факт описания здесь методов снижения размерности, не использующих предварительной информа- информации, например обучающих или квазиобучающих выборок, целесообразно расценивать лишь как следствие признания неизбежности ситуаций, в которых такой информации не имеется, но не как стремление рекламировать эти методы в качестве наиболее эффективных. В действительности же обо- обоснование и эффективное решение задач снижения размерно- размерности без слепой надежды на удачу можно, по нашему мнению, получить лишь на пути глубокого профессионального ана- анализа, дополненного статистическими методами, использую- использующими предварительную выборочную (обучающую) информа- информацию. 14.3.2. Метод экстремальной группировки признаков. При изучении сложных объектов, заданных многими параметра- параметрами, возникает задача разбиения параметров на группы, каж- каждая из которых характеризует объект с какой-либо одной стороны. Но получение легко интерпретируемых результа- результатов осложняется тем, что во многих приложениях измеряе- измеряемые параметры (признаки) лишь косвенно отражают сущест- существенные свойства, которыми характеризуется данный объект. Так, в психологии измеряемые параметры — это реак- реакции людей на различные тесты, а выражением существенных свойств, общими факторами, являются такие характеристи- характеристики, как тип нервной системы, работоспособность и т.д. По- Подобная природа формирования набора частных характерис- характеристик объекта или системы присуща широкому классу явле- явлений и процессов в экономике, социологии, медицине, педа- педагогике и т. д. Оказывается, что во многих случаях изменение какого- либо общего фактора сказывается неодинаково на измеряе- измеряемых признаках, в частности, исходная совокупность из р признаков обнаруживает такое естественное «расщепление» на сравнительно (ср) небольшое количество групп, при кото- котором изменение признаков, относящихся к какой-либо од- одной группе, обусловливается в основном каким-то одним об- общим фактором, своим для каждой такой группы. После при- принятия этой гипотезы разбиение на группы естественно стро- строить так, чтобы параметры, принадлежащие к одной группе, были коррелированы сравнительно сильно, а параметры, принадлежащие к разным группам, — слабо. После такого разбиения для каждой группы признаков строится случай- случайная величина, которая в некотором смысле наиболее сильно коррелирована с параметрами данной группы; эта случай- 409
ная величина интерпретируется как искомый фактор, от ко- которого существенно зависят все параметры данной группы. Очевидно, подобная схема является одним из частных случаев общей логической схемы факторного анализа. В от- отличие от ранее описанных классических моделей факторного анализа при эвристически-оптимизационном подходе груп- группировка признаков и выделение общих факторов делаются на основе экстремизации некоторых эвристически введен- введенных функционалов. Разбиения, оптимизирующие функцио- функционал У, или У2 (см. ниже), называются экстремальной груп- группировкой параметров. Вообще под задачей экстремальной группировки набора случайных величин *A>, *<2> ..., *<р> на заранее заданное число классов р' понимают отыскание такого набора подмножеств Slt 52, ..., Sp- натурального р' ряда чисел 1, 2, ..., р, что (J 5,= {1, 2, .... р), a Si(]Sn = — 0 при 1фд, и таких р' нормированных (т. е. с единич- единичной дисперсией D/O =1) факторов /A>, /<2\ ..../(р'), кото- которые максимизируют какой-либо критерии оптимальности. Остановимся здесь на алгоритмах для двух различных критериев оптимальности [33]. Первый алгоритм экстремальной группировки признаков в качестве критерия оптимальности использует функционал j1= 2 [сог(*«>, /и >]«+...+ 2 в котором под cor (x, /) понимается обычный парный коэффи- коэффициент корреляции между признаком х и фактором /. Обозна- Обозначим Ai = {xil), i 6 Si}, /== 1,2, ..., p'. Максимизация функ- функционала Jx (как по разбиению признаков на группы Аъ ... Ар-, так и по выбору факторов Z*1), /<2\ ...,/(р#)) отвечает требованию такого разбиения параметров, когда в одной группе оказываются наиболее «близкие» между собой, в смысле степени коррелированное™, признаки: в самом деле, при максимизации функционала Jlt для каждого фиксиро- фиксированного набора случайных величин /(Ч, /B>, ..., /(р/), в одну /-ю группу будут попадать такие признаки, которые наиболее сильно коррелированы с величиной /<'>; в то же время среди всех возможных наборов случайных ве- величин /а\ /B>, ..., /(р/> будет выбираться такой набор, что каждая из величин /((> в среднем наиболее «близка» ко всем признакам своей группы. Очевидно, что при заданных классах- Slt 52, ..., Sp» отпимальный набор факторов /W, /<2>, ..., /<*>'> получается 410
в результате независимой максимизации каждого слагае- слагаемого откуда р' max Jt= \] A,*, @ где X; — максимальное собственное значение матрицы 2г, составленной из коэффициентов корреляции переменных, входящих в Аг. При этом оптимальный набор факторов /(/', / = 1,2, ..., р' задается формулами: 2 } /(#) = 'es' , /= 1, 2, .... р', A4.14) i/ где г„ = cor (*<'>, д<П), а а«» =(а<'), а<<>, .... оЙ') — собст- собственный вектор матрицы 2/, отвечающий максимальному собственному значению %и т. е. S/.aO = Хг • a">. С другой стороны, считая известными факторы /A), /B), ..., /<р'>, нетрудно построить разбиение 5Ь 52, ..., Sp', максимизирующее Jt при фиксированных /f1', /<2\ ... /(р'), а именно: Sl = {i: сог2(л:('>, f^)>cor2(л;<?), /<«)) для всех ? = = 1, 2, .... р'}. A4.15) Соотношения A4.14) и A4.15) являются необходимыми усло- условиями максимума Jt. Для одновременного нахождения оптимального разбие- разбиения Slt 52, ..., Sp' и оптимального набора факторов /A), /B>, ..., /(р'> предлагается итерационный алгоритм, по- последовательно осуществляющий выбор оптимальных (по от- отношению к разбиению, полученному на предыдущем шаге), факторов, а затем выбор разбиения, оптимального к факто- факторам, полученным на предыдущем шаге. Пусть на v-м шаге итерации построено разбиение пара- параметров на группы Аг, ..., АР'. Для каждой такой группы параметров строят факторы/"' по формуле A4.14) и новое (v + 1) разбиение параметров Л<}'+1), ..., А{^+1) в соответ- 411
ствии с правилом: параметр лс<'> относится к группе Ajv+l\ если cor*(x<'>, /V>)>coi*(*<«, /<•>) (? = I, 2, ..., />'). A4.16) Если для некоторого параметра лс<'> найдутся два или бо- более факторов таких, что для л<() и этих факторов в A4.16) имеет место равенство, то параметр *<'> относится к одной из соответствующих групп произвольно. Очевидно, что на каждом шаге итераций функционал J1 не убывает, поэтому данный алгоритм будет сходиться к максимуму. Максимум может быть локальным. Для описания второго алгоритма экстремальной груп- группировки признаков введем функционал 2 /Ш)| + ^ |сог(х«>, , ^ 1 «*(*«>, /(*'>) |. В содержательном смысле функционал /2 похож на функ- функционал /t и его максимизация также соответствует основно- основному требованию к характеру разбиения признаков на группы. В [33] показано, что имеет место следующее утвержде- утверждение. Необходимыми и достаточными условиями максимума функционала /2 являются следующие: разбиение параметров на группы Аг, ..., Ар- таково, что функционал (где gt—некоторые числовые коэффициенты, равные либо + 1, либо— 1) достигает максимума как по разбиению на группы, так и по значениям коэффициентов gt. Здесь под Dz понимается, как обычно, дисперсия случайной величины г; факторы /*г> определяются соотношениями A4.17) i gj Логическая схема доказательства этого следующая. Сна- Сначала, варьируя функционал /2 и используя метод множите- 412
лей Лагранжа для учета условия D/<'> = 1, показывают, что в точке максимума функционала /2 фактор /('> имеет вид A4.17). Затем доказывается, что если /<'> имеет вид A4.17), то при любом наборе коэффициентов gj = ± 1 и любом разбиении параметров на группы имеет место соот- соотношение /2 > ^з. а если же J 3 достигает максимума, то /2 = J3. Из этого утверждения следует, в частности, что для нахождения групп Si и факторов /<'> достаточно макси- максимизировать функционал J3. При фиксированном разбиении на группы функционал J 3 достигает максимума тогда, когда для каждого / соответствующие коэффициенты gt максимизи- максимизируют величину 2 gi*fA. A4.18) tesl J Поэтому естественно воспользоваться рекуррентной про- процедурой максимизации J3. В процедуре циклически переби- перебираются переменныех*1*, л*2*, ..., х(р>, и на каждом шаге при- принимается решение об отнесении очередного параметра х</> к одной из групп Аъ ..., А,,- и определяется знак gt. Пусть к v-му шагу алгоритма построены разбиения пара- параметров на группы A[v), ..., А(р), вычислены коэффициенты giv>> gav)> •••> §{р'' равные + или — 1, и пусть на этом шаге рассматривается признак х(?> 6 A\v). Тогда строятся р' вспомогательных коэффициентов gl^t1* (I — U •••> Р) п<> формуле 7(v+U = 31gn где 1 при О при х— О, -1 при x<zO и для всех I = 1,2, ..., р' вычисляются разности 1Ф1 414
Затем выбирается такой номер 1 = 1*, что = max и признак хA) исключается из группы Л; и присоединяется к группе Л/«; остальные группы признаков на этом шаге не меняются. В результате получаем новое разбиение призна- признаков— Л<*+", Л<*+'>, .... Л(рУ'+1). Новые значения коэффи- коэффициентов g^/t1' определяются по формулам: glv+1) = g/v) (Для / ф i), ««v+1) = «№>. На следующем (v + 1)-м шаге алгоритма рассматривается параметр х<1+1>, если i ф р, и хA>, если i = р. Процедура заканчивается, если при рассмотрении всех признаков очередного цикла сохранились как разбиения признаков на группы, так и значения всех коэффициентов; полученное разбиение и значения коэффициентов рассмат- рассматриваются как оптимальные. Для демонстрации сходимости метода к локальному мак- максимуму в [33] доказывается, что на каждом шаге алгоритма значение J3 не убывает. Нетрудно проследить идейную близость метода экстре- экстремальной группировки факторов с методами, опирающимися на логическую схему факторного анализа. Так, например, отправляясь от общей модели вида 9-= 1 A4.1), первую компоненту /A> и «нагрузки» ltl в методе главных компонент можно определять из условия минимума р выражения 2 D (*<1) — 'ч/A)) ПРИ нормирующем ограниче- »=i нии D/A> ¦= 1. Решение этой условно экстремальной зада- задачи очевидным образом сводится к нахождению максимума р выражения 2 1СОГ (*<1)> /A)I2 ПРИ условии D/W = 1. Для построения следующего фактора /<2> (второй главной компоненты) рассматриваются случайные величины л<'2> = — ;е<1> — сог (дс*'', /A)) /A). Для этих случайных величин аналогичным образом находится свой фактор, который и яв- является фактором /<2\ и т. д. Очевидно, что при реализации первого алгоритма метода экстремальной группировки признаков для каждой группы признаков Ai строится фактор, имеющий смысл первой главной компоненты для признаков этой группы. 414
В центроидном методе общий фактор ищут в виде 2 ^1» A4.19) где gt = ± 1 и gi выбирается так, чтобы максимизировать величину S ёгХ^У A4.20) Сравнение выражений A4.19) и A4.20) с выражениями A4.17) и A4.18) показывает, что максимизация функционала J2 приводит к построению для каждой группы признаков фактора, отличающегося на некоторый множитель от пер- первого общего фактора, который был бы построен для этой группы центроидным методом. 14.3.3. Метод корреляционных плеяд. Задача разбиения признаков на группы часто имеет и самостоятельное зна- значение. Например, в ботанике для систематизации вновь от- открытых растений делают разбиение набора признаков на группы так, чтобы 1-я группа характеризовала форму листа, 2-я группа — форму плода и т. д. В связи с этим и возник эвристический метод корреляционных плеяд [48, 1511. Метод корреляционных плеяд, так же как и метод экст- экстремальной группировки, предназначен для нахождения та- таких групп признаков—«плеяд», когда корреляционная связь, т. е. сумма модулей коэффициентов корреляции между пара- параметрами одной группы (внутриплеядная связь) достаточно велика, а связь между параметрами из разных групп (меж- плеядная) — мала. По определенному правилу по корреля- корреляционной матрице признаков образуют чертеж — граф, ко- который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подгра- подграфов, и образуют плеяду. Рассмотрим корреляционную матрицу R=(rl}), i, j =\, 2, ..., р, исходных признаков. Нарисуем р кружков; внутри каждого кружка напишем номер одного из признаков. Каж- Каждый кружок соединяется линиями со всеми остальными кружками; над линией, соединяющей t-й и /-й элементы (ребром графа), ставится значение модуля коэффициента корреляции \rtj\. Полученный таким образом чертеж рас- рассматриваем как исходный граф. Задавшись (произвольным образом или на основании предварительного изучения корреляционной матрицы) не- некоторым пороговым значением коэффициента корреляции 415
r0, исключаем из графа все ребра, которые соответствуют коэффициентам корреляции, по модулю меньшим г0. Затем задаем некоторое г1 > г0 и относительно него повторяем описанную процедуру. При некотором достаточно большом г граф распадается на несколько подграфов, т. е. таких групп кружков, что связи (ребра графа) между кружками различных групп отсутствуют. Очевидно, что для получен- полученных таким образом плеяд внутриплеядные коэффициенты корреляции будут больше г, а межплеядные — меньше г. В другом варианте корреляционных плеяд [481 предла- предлагается упорядочивать признаки и рассматривать только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе. Упорядочение производится на основании принципа мак- максимального корреляционного пути : все р признаков связы- связываются при помощи (р — 1) линий (ребер) так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: в корреляционной матрице находят наибольший по абсолютной величине ко- коэффициент корреляции, например |гг,то| =¦ г<х> (коэффици- (коэффициенты на главной диагонали матрицы, равные единице, не р ассматр иваютс я). Рисуем кружки, соответствующие параметрам jc<" и лс<т> и над «связью» между ними пишем значение г*1'. Затем, исключив г*1', находим наибольший коэффициент в т-и столбце матрицы (это соответствует нахождению признака, который наиболее сильно после х<" «связан» с х(т), и наиболь- наибольший коэффициент в 1-й строке матрицы (это соответствует нахождению признака, наиболее сильно после х(т) «связан- «связанного» с х*^). Из найденных таким образом двух коэффициен- коэффициентов корреляции выбирается наибольший — пусть это бу- будет \гц\ = г<2>. Рисуем кружок х(/>, соединяем его с кружком х(/) и проставляем значение г<2>. Затем находим признаки, наиболее связанные с х(/), х(т) и х</>, и выбираем из найден- найденных коэффициентов корреляции наибольший. Пусть это будет \r]q\ = гC). Требуем, чтобы на каждом шаге получался новый признак, поэтому признаки, уже изображенные на чертеже, исключаются, следовательно, q ф I, q Ф т, q Ф /. Далее рисуем кружок, соответствующий х<»>, и соединя- соединяем его с х(/> и т.д. На каждом шаге находятся параметры, наиболее сильно связанные с двумя последними рассмотрен- рассмотренными параметрами, а затем выбирается один из них, соответ- соответствующий большему коэффициенту корреляции. Процеду- Процедура заканчивается после (р — 1)-го шага; граф оказывается состоящим из р кружков, соединенных (р— 1) ребром. За- Затем задается пороговое значение г, а все ребра, соответству- 416
ющие меньшим, чем г, коэффициентам корреляции, исклю- исключаются из графа. Назовем незамкнутым графом такой граф, для которого для любых двух кружков существует единственная траекто- траектория, составленная из линий связи, соединяющая эти два кружка. Очевидно, что во втором варианте метода корреля- корреляционных плеяд допускается построение только незамкнутых графов, а в первом варианте такое ограничение отсутствует. Поэтому разбиения на плеяды, полученные разными спосо- способами, могут не совпадать. В работе [97[ приводятся результаты экспериментальной проверки алгоритмов экстремальной группировки парамет- параметров, а также сравнение полученных результатов с резуль- результатами, даваемыми методом корреляционных плеяд. Эксперимент проводился на физиологическом материале: исследовались влияния шумов и вибрации на работоспособ- работоспособность и самочувствие. Регистрировались 33 признака (р = 33), из них 7 параметров, характеризующих температу- температуру тела; 4 — кровяное давление; 14 — аудиометрию (порог слышимости на заданной частоте); 2 — дыхание; 4 — силу и выносливость рук и 2 (особенных параметра) — пульс и скорость реакции, С точки зрения физиолога «идеальным» было бы разбие- разбиение, при котором все характеристики температур образова- образовали бы отдельную группу; параметры, характеризующие дав- давление , — свою отдельную группу и т.д., обособленные пара- параметры образовали бы группы, состоящие из одного элемен- элемента. Наиболее близким к «идеальному» оказалось разбиение, полученное вторым алгоритмом экстремальной группировки, хотя алгоритм и присоединяет обособленные параметры к другим группам. Наименее точные (среди трех сравнивае- сравниваемых алгоритмов) результаты дал метод корреляционных плеяд. Исторически раньше возникшие различные варианты метода корреляционных плеяд являются в действительно- действительности несколько упрощенными эвристическими версиями бо- более совершенных в математическом плане алгоритмов иссле- исследования структуры связей между компонентами многомер- многомерного признака, использующими графы-деревья (см. [12, гл. 4). 14.3.4. Снижение размерности с помощью кластер-процедур. В ряде ситуаций удобно рассматривать признаки л*(?> (i = = 1,2 р) как одномерные наблюдения и использовать многократное повторение этих наблюдений (на п. исследуе- исследуемых объектах) для введения и вычисления таких естествен- естественных мер близости между объектами (признаками) *<'> и дсИ>, 14 Заказ № 291 417
какими являются в данном случае абсолютная величина ко- коэффициента корреляции rtJ или корреляционное отношение г\ц (вычисления rtj и ц^ и их свойства см., например, [12]I. Следуя идее обобщенного (степенного) среднего {см. гл. 5), введем в качестве меры близости групп призна- признаков Л1 и A q величину где 1 — некоторый числовой параметр, выбор конкретного значения которого находится в нашем распоряжении; tnv — число признаков, составляющих группу Av. Аналогично вводится средняя мера близости R (At) признаков, входя- входящих в одну группу Если желаемая размерность р' (р' < р) задана заранее, то исходные р признаков х^, дс<2>, ..., х(р) разбивают на р' од- однородных групп одним из двух способов: либо, последова- последовательно объединяя в одну группу два наиболее близких, в смысле г,, или R\^\ признака (или признак и группу, или две группы) до тех пор, пока не останется ровно р' групп (иерархическая кластер-процедура), либо, находя такое раз- разбиение исходных признаков на р' групп, при котором усред- усредненная мера внутригрупповой близости признаков /?<т) = — ( — 2 тД^ (Л<)]т]т была бы максимальной. Последнего обычно удается добиться с помощью простого перебора ва- вариантов, так как общее число признаков р, как правило, не 1 Если для описания меры близости между *С> и *<'> использу- используется корреляционное отношение, то предварительно целесообразно произвести симметризацию этой меры, рассматривая в качестве сим- симметричной характеристики степени близости этих признаков вели- ~- 1 чину т|4у=— (т||у + t|7-j), где i\ij—обычное корреляционное отно- отношение переменной *<'> по переменной *</>. 418
превосходит несколько десятков, ар — несколько единиц. После этого от каждой группы следует отобрать по одному представителю, используя для этого технику метода глав- главных компонент или факторного анализа (отдельно внутри каждой группы). Если желаемая размерность р' заранее не определена, то разбиение исходных признаков на группы, а следовательно, и выбор неизвестного р' можно подчинить задаче максимиза- максимизации функционала типа RW + Zx, где Zx — введенная в гл. 5 мера концентрации разбиения, т. е. Здесь v (;е<*>) — число признаков в группе, содержащей признак х<'>. Можно воспользоваться также и двойственной формулировкой экстремальной задачи разбиения объектов (признаков) на неизвестное число групп. ВЫВОДЫ 1. Различные версии моделей и методов факторного анализа (центроидный, максимального правдоподобия, экстре- экстремальной группировки параметров, корреляционных пле- плеяд и др.) основаны на общей базовой идее, в соответствии с которой значения всех признаков х'1), ..., х<р> анализи- анализируемого набора формируются под воздействием сравни- сравнительно небольшого числа одних и тех же (общих) факто- факторов /f1), ..., /<р'>, не поддающихся, правда, непосредствен- непосредственному измерению (и потому называющихся латентными). В определенном смысле эти общие факторы выступают в роли причин, а наблюдаемые (анализируемые) приз- признаки — в роли следствий. 2. Поскольку число общих (латентных) факторов сущест- существенно меньше числа анализируемых признаков, то мето- методы факторного анализа в конечном счете нацелены (так же как и метод главных компонент) на снижение размер- размерности анализируемого признакового пространства. 3. Статистическая реализация модели факторного анализа предусматривает последовательное решение вопросов существования такой модели, ее идентификации (т. е. возможности ее однозначного восстановления по исход- 14* 419
ным статистическим данным), алгоритмического определе- определения ее структурных, параметров (т. е. определения спо- способа вычисления неизвестных параметров модели при точно известной ковариационной матрице анализируемого многомерного признака) и их статистической оценки по имеющимся наблюдениям, включая статистические оцен- оценки для самих общих (латентных) факторов. 4. Наиболее распространенной в практике статистических исследований и наиболее теоретически разработанной является каноническая модель факторного анализа, в ко- которой признаки линейно зависят от факторов, факторы взаимно некоррелированы между собой и со случайными остатками модели, а случайные остатки в свою очередь взаимно некоррелированы и нормально распределены. 5. Между методом главных компонент и линейной моделью факторного анализа имеется идейная общность: и тот и другой метод можно рассматривать как метод аппрокси- аппроксимации набора анализируемых переменных с помощью ли- линейных функций от сравнительно небольшого числа од- одних и тех же вспомогательных переменных (главных ком- компонент — в одном методе и общих факторов — в другом). Их небольшое различие — лишь в конкретизации крите- критерия точности аппроксимации. 6. Наиболее «узкие места» в практической дееспособности модели факторного анализа связаны с решением задачи оценки числа р' общих факторов модели и с содержатель- содержательной интерпретацией найденных общих факторов. Для ус- успешного решения последней задачи широко пользуются неоднозначностью (с точностью до ортогонального преоб- преобразования) определения общих факторов и соответствен- соответственно возможностью их разнообразных «вращений» в фактор- факторном пространстве. 7. Наряду с математико-статистическими методами сниже- снижения размерности, т. е. с методами, допускающими описа- описание и интерпретацию в терминах строгой вероятностной модели, существуют и широко используются в статисти- статистической практике так называемые эвристические методы. Свое название они оправдывают тем, что порождаются обычно некоторыми частными целевыми установками, выраженными в виде установленных на содержательно- субъективном уровне оптимизируемых критериев качества решения задачи. К таким методам, в частности, с но- носятся методы экстремальной группировки параметров, метод корреляционных плеяд, некоторые «кластерные» приемы и т. п. 420
Глава 15. ЭКСПЕРТНО-СТАТИСТИЧЕСКИЙ МЕТОД ПОСТРОЕНИЯ ЕДИНОГО СВОДНОГО ПОКАЗАТЕЛЯ ЭФФЕКТИВНОСТИ ФУНКЦИОНИРОВАНИЯ (КАЧЕСТВА) ОБЪЕКТА (СКАЛЯРНАЯ РЕДУКЦИЯ МНОГОКРИТЕРИАЛЬНОЙ СХЕМЫ) И в профессиональной деятельности, и в своей повседневной жизни человек постоянно сталкивается с ситуациями, когда ему приходится сравнивать межд) собой и упорядочивать по некоторому не поддающемуся непосредственному измере- измерению свойству ряд объектов. Речь может идти, в частности, о сравнении стран по прогрессивности их макроструктуры по- потребления, предприятий отрасли по эффективности их дея- деятельности, сложных изделий (например, определенного про- программного средства) по обобщенной характеристике качест- качества, специалистов по эффективности их участия в выполне- выполнении поставленной задачи, участников игровых видов спорта по уровню проявленного ими (в определенном состязании) мастерства и т. д. Формализации подобных ситуаций и вы- вытекающим из нее рекомендациям по построению некоторого условного измерителя упомянутого свойства объекта и по- посвящена данная глава. 15.1. Латентный единый (сводный) показатель «качества». Понятия «выходного качества» целевой функции и «входных переменных» (частных критериев) Пусть обобщенная сводная характеристика / анализируе- анализируемого свойства объекта определяется набором частных крите- критериев, задаваемых поддающимися учету и измерению пере- переменными х^, х'2>, ..., х(р> (в дальнейшем будем называть их «входными»), однако сама эта характеристика является латентной, т. е. не поддается непосредственному количест- количественному измерению (для нее не существует объективно обус- обусловленной шкалы). Естественно предположить, что интуи- интуитивное экспертное (профессиональное) восприятие этой ха- характеристики (обозначим его у) можно представить как несколько искаженное значение / (хA>, ..., х'р))> причем это искажение б носит случайный характер и обусловлено как разрешающей способностью такого «измерительного при- прибора», каковым в данной схеме является эксперт, так и су- 421
Шествованием ряда слабо влияющих на у, но не входящих в состав X = (х^, ..., хС>) «входных переменных». Тогда модель, связывающая между собой интуитивное представле- представление о сводном показателе качества (у), сам сводный показа- показатель как функцию от X (/ (X)) и случайную погрешность б (X), может быть определена в виде у = /(Х)+б(Х). A5.1) Практически, не ограничивая общности данной схемы, можно принять естественные допущения относительно пер- первых двух моментов остаточной случайной компоненты б (X): Е8(Х)==0, D6(X)=o2(X)<oo. A5. Г) Тогда, очевидно, обобщенная (сводная) характеристика / (X) может интерпретироваться как регрессия у по X, к если бы в качестве исходной статистической информации располагали бы наряду со значениями X, = щ1}, .-., xf*) и результатами регистрации соответствующих значений зависимой переменной у, (i—номер наблюдения), то данная схема непосредственно сводилась бы к обычной модели рег- регрессии (см. [12, гл. 5]). Специфика модели A5.1), A5.Г) со- состоит в том, что вместо прямых измерений у можно получить (с помощью экспертов) лишь некоторые специального вида сведения о его значениях, чаще всего— сравнительного пла- плана (типа ранжировок или парных сравнений обследован- обследованных объектов по свойству у). Это обусловливает и более скромные претензии в отношении целей статистического ана- анализа модели A5.1), A5.Г): вместо требуемого в регрессион- регрессионном анализе восстановления (оценивания) функции / (X) ставится задача оценивания / (X) с точностью до произволь- произвольного монотонного преобразования. Определение. Целевой функцией исследуемого обобщенного свойства («выходного качества») называется лю- любое преобразование вида ср (х*1), ... хС>) = ср (X), сохраня- сохраняющее заданное соотношение порядка между анализиру- анализируемыми объектами Оъ 02, ..., 0п по усредненным значе- значениям выходного качества, т. е. обладающее тем свойством,. что из / (Xti) > f (Х1г) >...>/(X,n) с необходимостью следует выполнение неравенств ср (Xlt) > ср (Х*2) > ... 3» > ср (Xt ), и, наоборот, из последней серии неравенств вы- вытекает выполнение соответствующих неравенств для / (Xlk), k = 1,2, ..., ..., п. Очевидно, данное здесь определение целе- целевой функции неоднозначно. Действительно, если ср (X) есть целевая функция и U (ср) — любая взаимно-однозначная монотонно возрастающая функция, то всякая функция вида 422
г]з (X) = U [<р (X)] также будет целевой функцией. Это озна- означает, что допущение о наличии определенной шкалы в изме- измерении единого сводного показателя играет во многих слу- случаях чисто вспомогательную роль и нацеливает на поиск, связанный с выявлением этой шкалы лишь с точностью до произвольного допустимого преобразования шкал. Ведь в соответствии с данным определением само значение целе- целевой функции не отражает никакой реальной, физически со- содержательной количественной закономерности. Реальные закономерности отражаются только соотношениями «боль- «больше» или «меньше» между значениями этой функции для раз- различных наборов величин входных параметров X — (хA>, ..., л(р)). Тем самым эти соотношения отражают предпочте- предпочтение с точки зрения анализируемого выходного качества од- одних значений X перед другими. Поэтому в задачах, в кото- которых возможно регулирование значений X (в некоторой до- допустимой области), наиболее рациональным управлением естественно признать то, которое максимизирует, при за- заданных ограничениях на X, значения целевой функции. Данное определение целевой функции допускает ее со- содержательную (экономическую, социально-экономическую, квалиметрическую, психологическую и т.д.) интерпрета- интерпретацию. Помимо приведенных ниже примеров оно может быть использовано при построении и анализе различных глобаль- глобальных и частных целевых функций благосостояния и потреб- потребления (о которых речь идет, например, в [52, 99, 188, 247], в других задачах аналогичного профиля. Итак, функция f(X), с помощью которой можно было бы производить сравнительную оценку анализируемого «вы- «выходного качества» на рассматриваемых объектах, определена лишь с точностью до произвольного монотонного преоб- преобразования. Тем не менее для построения алгоритма ее вос- восстановления было бы удобно параметризовать модель A5.1), т. е. определить параметрическое семейство F = {/ (X; в)}, в рамках которого будет производиться поиск целевой функ- функции / (X). Выбор этого параметрического семейства, как правило, не удается подкрепить исчерпывающим теорети- теоретическим обоснованием, а потому с этого момента исследова- исследователь имеет дело не с целевой функцией / (X), а с некоторой ее аппроксимацией / (X). Это не должно смущать. Опери- Оперирование с аппроксимацией избавляет от необходимости по- постулирования существования самой целевой функции (что в ряде ситуаций является весьма спорным моментом): в то время как сама целевая функция как объективно существу- существующая универсальная скалярная характеристика выходного 423
качества может и не существовать, ее аппроксимация имеет определенный условный смысл и может плодотворно исполь- использоваться как некая вспомогательная характеристика в огра- ограниченном интервале времени и при некоторых заранее ого- оговоренных условиях. Имея в виду достаточную однородность обследуемых объ- объектов по всем неучтенным переменным, т. е. по переменным, не вошедшим в состав х*1), ..., %<р), и ограниченность интер- интервала времени, в течение которого будем использовать иско- искомую аппроксимацию целевой функции, а также реализуя идею разложения любой функции в ряд Тейлора, ограничим- ограничимся в дальнейшем изложении аппроксимациями линейного и квадратичного вида, т. е. 2 Т(Х; в)= V в,*<')+ 2 вц *<«*</>. Коэффициенты 9f и Оц оцениваются статистически (см. § 15.3) по исходным данным, структура и происхождение ко- которых описываются в следующем параграфе. 15.2. Исходные данные Итак, пусть речь идет о построении непосредственно не поддающегося измерению единого сводного показателя эф- эффективности функционирования (качества) объекта и пусть с этой целью были собраны исходные данные по п та- таким объектам: 0ъ 02, ..., 0п. На основании этих исходных данных как раз и оцениваются параметры 0 искомой целе- целевой функции / (X; в). Эти исходные данные состоят из двух частей: экспертной и статистической (отсюда название метода). Экспертная часть исходных данных. Эта часть исходных данных относится к сведениям о значениях случайной вели- величины yi (i — номер обследованного объекта) в модели A5.1) и получается с помощью специально организованного опроса экспертов и соответствующей статистической обра- обработки экспертных оценок. При этом сведения об yt (i = 1 При конкретизации постановки задачи коэффициентам в| и 8jy часто удается дать содержательную интерпретацию [188]. 424
= 1,2, ..., n) получают от экспертов в одной из следующих форм. Форма (а) — наиболее информативный (а потому наибо- наиболее трудный для экспертов) вариант. Предусматривает по- получение экспертных балльных оценок выходного качества Уыэ' •••» Утя JW »., Упъ A5.2а) Угтэ> •••> Уптаг где ijijg — оценка выходного качества объекта О,-, получен- полученная от /-го эксперта (здесь п— число оцениваемых объектов, т — число участвующих в оценке экспертов). Форма (б) — средний по информативности (и по степени трудности для экспертов) вариант. Предусматривает получение лишь экспертных упорядо- i чений обследованных объектов по степени проявления в них анализируемого свойства, т. е. ранжировок вида ме, Я22Э A5.26) где RiJa — ранг (место), присвоенный объекту Ot /-м экс- экспертом в ряду из п обследованных объектов, упорядочен- упорядоченном этим экспертом по степени проявления анализируе- анализируемого свойства. Форма (в) — наименее информативный (и наименее труд- трудный для экспертов) вариант. Информация от каждого (/-го) эксперта поступает в форме булевой матрицы парных срав- сравнений i, k=TTn, A5.2в) /=1, 2, ... m. где Tife. h — результат парного сравнения /-м экспертом объектов Ot и Oft, может выражаться либо единицей, либо нулем по одному из следующих правил: если эксперт производит сравнение объектов О{ и Оь типа их упорядочения по анализируемому свойству, то II, если по мнению /-го эксперта О* не хуже Оч, A5.2в') О—в противном случае; 425
если эксперт производит сравнение объектов 0г и 0к лишь с точки зрения принадлежности этих объектов к одно- однородному (по анализируемому свойству) классу, то A, если объекты О; и 0k однородны, .,_ _. ,. yth.ja = n A5.2b ) [О—в противном случае. Вычислительные трудности, связанные с реализацией ал- алгоритма оценивания параметров в искомой целевой функции /(X; в), естественно, возрасыют по мере перехода от более информативных вариантов экспертной информации об уг к менее информативным. Статистическая часть исходных данных. Как выше уже отмечено, входные переменные (частные критерии) х*1), je<2), ..., х(р\ на основании которых формируется представление об исследуемом выходном качестве, поддаются непосредст- непосредственному измерению (регистрации) на каждом из обследуе- обследуемых объектов. Поэтому статистически обследовав анали- анализируемые объекты О], 02,..., 0„ по переменным хA), х<2>,.... х<р>, будем иметь статистическую часть исходных данных в виде матрицы (таблицы) типа «объект—свойство»: А= где х\1) — значение 1-й входной переменной, зарегистриро- зарегистрированное на г-м объекте. Таким образом, приступая к оценке параметров в иско- искомой целевой функции / (X; в) в модели A5.1), исследова- исследователь располагает исходной информацией об объектах 0]f О2, ..., On, состоящей из данных таблицы A5.3) и одного из вариантов A5.2а) — A5.2в) сведений об г/,. 15.3. Алгоритмические и вычислительные вопросы построения неизвестной целевой функции 15.3.1. Общая логическая схема оценивания параметров в целевой функции f (X; в). Располагая конкретными значе- значениями в0 параметров в, для каждого объекта О, можем вы- вычислить величину единого сводного показателя / (Xt; в0) и далее, ориентируясь на сравнение значений / (Хх; в0), f (Х2; в0), ..., / (Хп; в0), получить основанную на целевой 426
функции ранжировку объектов по искомому выходному ка- качеству #i(©o). Я2 (©о) #» (®о) A5.4) либо их разбиение на однородные (по /) классы, которое так же, как и уже имеющиеся экспертные разбиения A5 2в), может быть представлено в виде булевой матрицы у (в„; А). (Способ получения такого разбиения с помощью вычисле- вычисления значений целевой функции / (Х1\ в0) и смысл «свобод- «свободного» скалярного параметра А объяснены ниже). Оценку в неизвестных параметров в предлагается под- подбирать таким образом, чтобы: 1) минимизировать расхожде- расхождения в экспертных (Уц^) и полученных с помощью целевой функции {f{Xt; в)) балльных оценках выходного качества (в варианте (а) экспертной информации); 2) максимизиро- максимизировать согласованность экспертных и полученной с помощью целевой функции ранжировок объектов но анализируемому выходному качеству (в варианте (б) экспертной информации); 3) минимизировать расхождения в экспертных и полу- полученном с помощью целевой функции разбиениях объектов на классы (в варианте (в) экспертной информации). Из сказанного следует, что экспертно-статистический ме- метод построения единого сводною показателя нацелен на фор- формализацию (в виде соответствующим образом подобранной целевой функции / (X; в)) тех критерийных установок, которыми руководствовались привлеченные к контрольно- контрольному эксперименту эксперты при формировании своих оценок вида A5.2а), A5.26) или A5.2в). Поэтому состоятельность и эффективность этого метода целиком зависит от компе- компетентности и согласованности используемых в нем эксперт- экспертных оценок. 15.3.2. Оценивание неизвестных параметров целевой функ- функции при балльных экспертных оценках выходного качества. В этом случае задача сводится к обычной схеме регрес- регрессионного анализа и соответственно к использованию метода наименьших квадратов. Действительно, располагая дан- данными вида A5.2а) — A5.3), можем записать модель A5.1) в виде A55 где величина (как правило, неизвестная) о$ характеризует погрешность в оценке /-м экспертом выходного качества г-го 427
объекта. Критерий метода наименьших квадратов дает нам оценку в векторного параметра в как решение оптимизаци- оптимизационной задачи вида -f^b в))«-тш. A5.6) в 2 (Ушf^b в))-т Если не располагают никакими сведениями относитель- относительно величин a2tJ, то принимают упрощающее предположение <т2и- = const, и задача A5.6) соответственно упрощается. В некоторых случаях удается априори задаться «весами» (Oj, оценивающими сравнительную компетентность /-го эксперта (/ = 1,2, ..., т). Тогда эти веса вставляются в A5.5) в качестве сомножителей слагаемых вместо величин 1/а-\,- Конкретные рекомендации по вычислительной реализа- реализации решения задач типа A5.5) приведены в [12, гл. 7—9]. '15.3.3. Оценивание неизвестных параметров целевой функ- функции при экспертных ранжировках и парных сравнениях объ- объектов. Каждая экспертная ранжировка R.J3 = {Ry3, R2j0, ...,Rnj3), (/-я строка в A5.26)) может быть представ- представлена в виде булевой матрицы yj3 в соответствии с правилом A5.2в'). Поэтому в дальнейшем (в данном пункте) будем считать, что экспертная информация о выходном качестве объектов представлена в виде матриц парных сравнений вида A5.2 в). В общем случае задача состоит в том, чтобы на основе из- известных сравнений N пар объектов {не обязательно всех воз- возможных пар из п объектов, т. е. N может быть меньше С„) определить скалярную функцию /(X; в), такую, что парные сравнения, установленные по этой функции относительно тех же пар объектов, минимально (в смысле заданного кри- критерия) отличались бы от экспертно установленных. В случае парных сравнений в виде отношений предпочте- предпочтения (см. правило A5.2в') формирования элементов YjWu)' поставив на первое место в каждой из N экспертно оцененных пар лучший (не худший) объект, будем иметь пары (/1; kt), (i3, ks), ..., (iV, Алг), значения целевых функций элементов которых должны были бы удовлетворять системе неравенств (f(Xtq, в)-/(Хч; в»0; 5 W=L 2 N. 428
Однако в общем случае эта система оказывается несов- несовместной. Поэтому в каждое неравенство (iq, kq) вводится не- невязка г 0' есЛй , (v ) -(f(Xtql &)—f(Xkq; 6))—в противном случае и вектор оценок в определяется из условия минимума сум- суммы невязок V bt k (©)->- min при некоторых ограничениях (типа нормировки) на компоненты искомого параметра 6. В работе [87] подробно расписан алгоритм вычисления оценки в для случая линейной целевой функции 1. В случае парных сравнений, задающих разбиение объек- объектов на однородные классы (см. правило A5.2в") формирова- формирования элементов ylh.j3), матрицы у1з, ..., утв задают т раз- различных разбиений множества {0х, 02, ..., 0„) на классы, элементы каждого из которых близки по анализируемому выходному качеству. Для любых двух разбиений 7s и у может быть введена мера близости между этими разбиения- разбиениями ^-ч Р Пусть / (X; в) = У, 0г ^ — некоторая линейная ап- 7 = 1 проксимация /. Задавшись некоторым е > 0, можно с по- помощью / (X; в) построить разбиение п объектов на клас- классы. В один класс при этом попадут те объекты, у которых О < / (X; в) < е, в другой—те, у которых е</ (X; Q) <. < 2е и т.д. Полученное разбиение у (е, в) зависит, очевид- очевидно, от значений е и в. Подбираются такие значения е и в, т чтобы величина 2 ^ G»э> V (г' ®)) была минимальна. /=1 Для наилучшего выбора вектора коэффициентов в мож- можно использовать также так называемый «метод голосования». При любом е > 0 с помощью линейной функции / (X; в)— 1 Алгоритм основан на результатах, изложенных в работе: Киселев Н. И. Экспертно-сгатнстнческий метод определения функ- функции предпочтения по результатам парных сравнений объектов // Алгоритмическое н программное обеспечение прикладного стати- статистического анализа: Ученые записки по статистике. — М.: Наука, 1980.—Т. 36.— С.\\\—122. 429
= 261**" строится разбиение п объектов следующим обра- образом. Пусть в разбиениях классы занумерованы и у$ —¦ v-й класс в /-м экспертном разбиении. Для любого объек- объекта Xt подсчитывается величина 2 y(Xit X,), где е; 1, если О, если Объект Xi относится к тому классу, для которого величи- величина Г (Xt, 7/э') максимальна. Полученное разбиение обо- обозначим через У] (е; в). Параметры е и в подбираются из ус- т ловия минимизации величины 2d (yjg, yj (e; в)) (при наличии априорных «весов компетентности» vlt ..., vm минимизирует- т ся взвешенная сумма ^Vj-d (yh, у, (г; в)). Используется алгоритм эвристического типа. Замечание. Выше отмечалось, что успех описыва- описываемого подхода целиком зависит от качества экспертной час- части исходной информации. Поэтому прежде чем непосредст- непосредственно приступить к процедурам оценивания параметров в целевой функции, необходимо тщательно исследовать струк- структуру и степень согласованности экспертных мнений. В ва- варианте балльных оценок это сводится в основном к анализу резко выделяющихся наблюдений [11, § 11.5]. В варианте ранжировок используется аппарат ранговой корреляции [12, гл. 2] в первую очередь для того, чтобы проверить гипо- гипотезу об отсутствии какой бы то ни было согласованности в упорядочениях различных экспертов (см. также [9, с. 212— 213]). В варианте парных сравнений исследуется струк- структура попарных расстояний между экспертными разбиения- разбиениями на классы. Иногда удобно пользоваться единым вариантом эксперт- экспертной оценки выходного качества объектов. В случае балль- балльных оценок после исключения аномальных некомпетентных мнений пользуются средними арифметическими (усреднение по всем оставшимся экспертам) баллами для каждого объек- 430
та. В случае ранжировки и парных сравнений объектов сле- следует пользоваться медианными оценками: каждому объекту приписывается ранг, равный медиане ряда рангов, присво- присвоенных ему всеми экспертами; в качестве единого разбиения используется медианное разбиение, определяемое как реше- решение оптимизационной задачи вида т [9, §4, гл.З]. 15.4. Применение экспертно-статистического метода построения латентного интегрального показателя к решению практических задач 15.4.1. Построение целевой функции для оценки уровня мастерства спортсменов в игровых видах спорта (на примере «АИС-ХОККЕЙ-73» ). Знание целевой функции позволяет в данном случае: 1) производить формализованную оценку мастерства хоккеиста, проявленного им в данном матче или в серии матчей, основанную только на знании отдельных числовых показателей, характеризующих его игру; 2) на- наиболее целесообразно строить индивидуальные планы тре- тренировок, особое внимание уделяя совершенствованию тех компонентов игры, которые вошли в целевую функцию с от- относительно большими весами и за счет которых, следова- следовательно, можно добиться наиболее существенного прироста в оценках мастерства. Как и в любой работе такого профиля, в данной были по- последовательно реализованы следующие семь основных эта- этапов: этап 1: постановка задачи; этап 2: предварительный отбор входных параметров; этап 3: организация экспертных обследований; этап 4: организация службы наблюдений, т. е. съема зна- значений входных признаков; этап 5: вывод целевой функции (определение ее общего вида и вычисление весовых коэффициентов); этап 6: экспериментальная проверка адекватности целе- целевой функции; этап 7: рабочая эксплуатация целевой функции. Ход и результаты данного исследования подробно опи- описаны в [4]. 15.4.2. Об использовании экспертно-статистического метода в анализе макроструктуры фондов потребления. В [1731 431
отражен опыт применения описанного выше экспертно-ста- тистического метода (ЭСМ) для решения одной из задач Международного проекта «Plan/Cons» («Критерии выбора между рыночной и внерыночной формами удовлетворения потребностей населения»), осуществлявшегося в начале 70-х годов под эгидой ЮНЕСКО 1. Обусловленные специ- спецификой анализируемой задачи принципиальные трудности реализации ЭСМ (см. ниже) в данном случае существенно снизили практическую ценность его прикладного «выхода». Смысл и место целевой функции в задаче оптимизации структуры потребления. В данном случае целевую функцию (функцию общественного благосостояния) следует интерпре- интерпретировать не как неизменную во времени объективно сущест- существующую универсальную характеристику благосостояния общества, но лишь как удобный вспомогательный аппрокси- аппроксимирующий инструмент при решении задач оптимизации структуры потребления. Все этапы применения описанного здесь формального аппарата должны сопровождаться проведением подробней- подробнейшего географического, политического, экономического, со- социологического, психологического и историко-этнографиче- ского анализа различных аспектов этой сложной комплекс- комплексной проблемы (при отборе стран — объектов исследования; при отборе входных параметров; при выборе общего вида аппроксимации и т.д ). Требование однородности объектов по неучтенным пере- переменным. Несмотря на то что вектор входных переменных (хA), ..., х(р>) должен отражать структуру потребления благ и услуг, понимаемых в самом широком смысле, ряд важ- важных факторов и переменных остается при этом за рамками исследования К таким факторам относятся политические, географические, психологические, историко-этнографиче- ские и другие характеристики стран. Поэтому для того, что- чтобы предлагаемый метод был эффективным, он должен приме- применяться лишь к совокупности стран, приблизительно одно- однородных в отношении упомянутых выше неучтенных факто- факторов. Во всяком случае бессмысленно было бы сопоставлять с помощью экспертно-статистическои аппроксимации целевой функции страны различных формаций, скажем, социалисти- социалистические и капиталистические. х С. А. Айвазян входил в состав рабочей группы СССР и являлся автором предложенного этой группой варианта решения задачи моделирования, оценки и анализа тенденций структуры об- общественных фондов потребления стран. 432
О выборе входных параметров. При реализации эксперт- но-статистического метода в данной задаче встретились принципиальные трудности. При выборе входных парамет- параметров приходится одновременно считаться с двумя противоре- противоречивыми требованиями. С одной стороны, для достаточно пол- полной характеристики структуры потребления, ее прогрессив- прогрессивности желательна весьма насыщенная система показателей, отражающих соотношение отдельных частей потребления на разных уровнях агрегации и при различных аспектах клас- классификации. С другой стороны, специфика данной задачи такова, что предоставляет исследователю крайне скудное количество исследуемых объектов (однородных стран), а потому вынуж- вынуждает ограничиться лишь небольшим числом наиболее инфор- информативных агрегированных показателей. Невозможно обой- обойти ограничение, в соответствии с которым число неизвест- неизвестных параметров целевой функции не может превосходить числа обследуемых объектов, а это накладывает ограниче- ограничение на размерность р вектора входных параметров. Поэтому конкретная реализация экспертно-статистичес- кого метода построения целевой функции предусматривает необходимость максимального сжатия информации, содер- содержащейся в достаточно развернутой системе показателей, и, в частности, переход к небольшому числу (не превышающему число анализируемых стран) наиболее существенных с точ- точки зрения характера и степени прогрессивности структуры потребления показателей. В качестве таких показателей были предварительно выбраны: д^1) — доля общественных фондов потребления — сум- сумма поступлений населению, финансируемая из коллектив- коллективных источников- государственного бюджета, средств со- социального обеспечения, средств предприятий, организа- организаций и профсоюзов, — и попадающих к населению в двух основных видах — товары и услуги и выплаты (трансфер- (трансферты). К первому виду поступлений относятся бесплатные или отпускаемые по льготным ценам товары и услуги, потреб- потребляемые населением в таких областях, как образование, здравоохранение, социальное обеспечение (учреждения для детей, престарелых и инвалидов), культура и информация, спорт, досуг и развлечения, жилище. Ко второму виду по- поступлений относятся выплаты престарелым и нетрудоспо- нетрудоспособным членам общества, учащимся: пенсии, всякого рода пособия и стипендии; х<2) — удельный вес общественной формы организации потребления. Под общественной формой организации по- потребления подразумевается коллективное потребление това- 433
ров и услуг в таких областях, как образование, социальное обслуживание детей и престарелых в специальных учрежде- учреждениях, здравоохранение, общественное питание, зрелищные мероприятия, общественный транспорт, культурно-просве- культурно-просветительная работа; х{3) — удельный вес (в общем фонде расширенного по- потребления) пособий, стипендий, дотаций, бесплатных услуг и т.п. в системе государственной помощи семье, включая дет- детские ясли, сады, школу, среднее специальное и высшее образование; jc<4) — удельные расходы (в общем фонде расширенного потребления) на здравоохранение и культуру, включая информацию, спорт, досуг и развлечения. Помимо трудностей, связанных с необходимостью совме- совмещения жесткого ограничения по числу оцениваемых стран1 со стремлением иметь достаточно полную систему входных переменных, существенной помехой в успешной реализа- реализации ЭСМ в данной задаче являлась практическая невозмож- невозможность получения согласованных компетентных мнений в экспертной части исходной информации: и по компетентно- компетентности, и по согласованности своих оценок (даваемых, как пра- правило, лишь в форме парных сравнений) эксперты-«межстра- новики» существенно уступали экспертам, участвующим в решении задачи, описанной в п. 15.4.1. О понятии прогрессивности структуры потребления. Само понятие прогрессивности макроструктуры потребле- потребления весьма условно и относительно. В частности, оно может иметь содержательный смысл лишь в пределах сравнитель- сравнительно однородной по общественному и политическому устройству, по географическому положению и, в какой-то мере по масштабам, человеческому и природному потенциа- потенциалу группы стран и лишь в пределах относительно небольшо- небольшого, порядка 10—12 лет, отрезка времени. С учетом этих оговорок представляется все-таки возмож- возможным и целесообразным сформулировать некоторые из основ- основных критерийных соображений, опираясь на которые экс- эксперт сможет произвести требуемую ранжировку группы со- социалистических (или капиталистических) стран по степени прогрессивности структуры их фондов потребления и даже оценить это качество в баллах (исходя из 10-балльной сис- системы оценок) 1 Оцениваемые страны были разбиты (подобно хоккеистам, для которых строили целевую функцию отдельно по защитникам и на- нападающим) на две группы по семь объектов в каждой 1) НРБ, ВНР. ГДР, ПНР, СРР, СССР. ЧССР, 2) Бельгия, Франция, Финляндия, Италия, Норвегия, ФРГ, Швейцария.
Это, во-первых, анализ и оценка принятой в данной стра- стране системы ценностей и общественных институтов и, в част- частности, принятая там трактовка и реализация таких понятий, как социальная справедливость, свободное и всестороннее развитие личности, психологическое равновесие индиви- индивидуума: различные положительные и отрицательные аспекты влияния окружающей среды на человека, урбанизация и т. п. Во-вторых, это достигнутый к настоящему моменту уро- уровень благосостояния населения и перспективы (на ближай- ближайшие 10—12 лет) его повышения. Построенную в данной схеме с помощью ЭСМ целевую функцию предполагалось использовать при анализе, сопо- сопоставлении и частичном регулировании макроструктуры фондов потребления рассматриваемых стран. 15.4.3. Построение сводного показателя эффективности деятельности промышленного предприятия (см. также [87]). Объектами исследования являются 17 промышленных предприятий, специализирующихся на выпуске асинхрон- асинхронных двигателей переменного тока различного назначе- назначения. Цель исследования -— построение единого сводного по- показателя экономической эффективности работы предприя- предприятия в форме линейной функции от ряда частных показателей экономической эффективности. С помощью сочетания экс- экспертного анализа и статистических методов снижения раз- размерности (метода экстремальной группировки признаков, метода главных компонент, см. гл. 13, 14) из априорного на- набора, состоящего из 22 частных показателей эффективности, было оставлено в качестве входных переменных экспертно- статистического метода восемь: х(г) — удельный вес продукции высшей категории качества в общем объеме товарной продукции (ТП) пред- предприятия; хB> — динамика1 выпуска ТП на I рубль затрат; хC) — выработка нормативно-чистой продукции (НЧП) на единицу промышленно-производственного персонала (ППП); х<4> -— выполнение плана выпуска НЧП на единицу ППП; xSb) ¦— динамика фондоотдачи; д<<>> .— выполнение плана выпуска ТП; 1 Показатель динамики исчисляется как отношение прироста анализируемого показателя в данном периоде к его величине в предшествующем. 435
X(V> — выполнение плана по оборачиваемости нормиру- нормируемых оборотных средств (отношение фактического числа оборотов к нормативному), х<-8) — выполнение плана по балансовой прибыли. Из двенадцати привлеченных к задаче экспертов пять да- дали оценку интегральной эффективности деятельности анали- анализируемых предприятий (по результатам их работы в 1982 и 1983 гг.) в десятибалльной системе, остальные семь проран- жировали предприятия, причем четверо из них дополнитель- дополнительно представили результаты своих парных сравнений По- Поэтому реализовывались все три версии оценивания неизвест- неизвестных коэффициентов линейной целевой функции. Приведем здесь для примера один из полученных с помощью ЭСМ ва- вариантов решения, а именно вариант, ориентированный на экспертные балльные оценки только одного из экспертов: /(X; в)-— 2,94+ О,Ю*1)Н- 0,07л:B>-^0,55л53> —0,13 х^ + + 0,06 *E> — 0,03 *»•> - 0,07 лЯ> — 0,02 х^. Мера согласованности балльного оценивания предприя- предприятий, произведенного с помощью этого эксперта и с помощью данной целевой функции, характеризуется величиной коэф- коэффициента корреляции, равной 0,77 Обращает на себя вни- внимание тот факт, что формализация критерийных установок эксперта показала практическое игнорирование им при фор- формировании интегральной оценки эффективности функцио- функционирования предприятия всех частных показателей выполне- выполнения плана (т. е. входных переменных х^, xt6) x'8)) В то же время если бы этому специалисту предложили непосредст- непосредственно (экспертно) оценить значимость коэффициентов при этих переменных, то результат, можно не сомневаться, был бы совсем иным! ВЫВОДЫ 1. Задача построения не поддающегося непосредственному измерению интегрального (агрегатного) сводного показа- показателя у эффективности функционирования (качества) объ- объекта по заданным значениям частных критериальных характеристик х*1*, х<2>, ., х^ анализируемого свойства может рассматриваться как задача снижения размер- размерности исследуемого признакового пространства П(^ (X) до единицы. Эта же задача может быть сформулирова- сформулирована в терминах построения целевой функции анализируе- анализируемого обобщенного свойства исследуемых объектов. 2. Целевой функцией исследуемого обобщенного свойства объекта, характеризуемого значениями хA), ..., л:(р) его 436
частных критериальных характеристик, называется лю- любое преобразование cpOtA), ..., х(р)), сохраняющее задан- заданное соотношение порядка между анализируемыми объ- объектами, т. е. обладающее тем свойством, что из 0,х У~ 0и У~ ... )> 0in с необходимостью следует выполне- выполнение неравенств и, наоборот (здесь знак «)>» означает «не хуже», a Xj, как обычно, вектор {х\1), ..., xjp> )')¦ 3. Если рассмотреть линейную модель целевой функции, то задача ее определения (или, что то же, задача постро- построения интегрального показателя у) сводится к определению весовых коэффициентов 91? 92, , 9р в формуле <р (X) = = Э^1) + ... -4- 9рх(р> Статистическая практика свидетель- свидетельствует, что от экспертов гораздо проще получить инфор- информацию, относящуюся к сравнению объектов по анализи- анализируемому интегральному свойству, чем к сравнению удельных весов 9^ влияния на него отдельных частных критериальных показателей. 4. Базовая идея жспертно-статистического метода по- построения единого сводного показателя эффективности функционирования (качества) объекта заключается в «настройке» искомых коэффициентов 9^ целевой функции Ф (X) на заданную (в различной форме) экспертную ин- информацию, относящуюся к сравнению статистически об- обследованных объектов по анализируемому интегрально- интегральному свойству. Название метода объясняется тем, что его реализация бснована как на статистической информа- информации об объектах (это данные Хъ Х2, ..., Х„ о значениях их частных критериальных показателей), так и на экс- экспертной (это представленные в той или иной форме экспертные оценки анализируемого интегрального свой- свойства у). 5. Вычислительная реализация экспертно-статистического i метода (т. е. алгоритм определения искомых «весов» 9,) сводится к известному методу наименьших квадратов лишь в тех сравнительно редких случаях, когда от экс- экспертов удается получить балльные оценки у1э, . ., уП1 анализируемого интегрального свойства по каждому из исследуемых объектов Если же в распоряжении иссле- исследователя лишь сравнительные оценки объектов по анали- анализируемому свойству (упорядочения, парные сравнения, классификации), то вычислительная процедура по опре- определению коэффициентов 9;- существенно усложняется 437
(ее описание и обоснование требуют специальной разра- разработки). 6. Экспертно-статистический метод имеет широкий диапазон возможных применений, однако необходимым условием его достоверности и эффективности является четкое оп- определение анализируемого интегрального свойства и ком- компетентность используемых экспертных мнений. Глава 16. МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ Рассматриваются методы обработки таблиц эксперимен- экспериментальных данных, заданных в виде одной или нескольких матриц мер различия (или близости) между п объектами F<<>); i, }=1, ..., п, 1=1, ..., k. Таким образом, в общем случае имеем дело с трехвходо- вой матрицей, называемой еще «ящиком» эксперимен- экспериментальных данных. Индекс / указывает, что 1-я порция (матрица) близостей получена при проведении измерений на том же множест- множестве объектов (единиц обследования, измерения), что и все другие матрицы А(г) (г Ф I), но с помощью некоторого 1-го способа измерения, /-го эксперта, в 1-й момент вре- времени и т. д., т. е. / определяет условия, в которых прово- проводилось формирование матрицы А(/). Основное внимание будем уделять случаю, когда уда- удаленности (близости) 6,,- измерены либо в количественной шкале (интервальной или шкале отношений), либо в орди- ординальной. В последнем случае для анализа играет роль толь- только порядок расположения величины Ьи. Цель методов, со- составляющих многомерное шкалирование (МШ), состоит в том, чтобы отобразить информацию о конфигурации точек, заданную матрицами близостей А, в виде геометрической конфигурации из п точек в многомерном пространстве. Если имеется несколько матриц Л(/>, /= 1, ..., k, то одновремен- одновременно строится и геометрическая конфигурация из k точек в пространстве той же размерности, каждая из которых является «образом» совокупности условий измерения (экс- (эксперта, измерительного прибора и т. д.). Такие методы носят название «многомерное шкалирование индивидуаль- индивидуальных различий» (МШИР). Это отображение достигается пу- путем приписывания каждому из объектов наблюдения (и, если k > 1, каждому из условий измерения) ^-мерного век- вектора характеризующих его количественных показателей. Компоненты этих векторов определяются таким образом, 438
чтобы расстояния или близости (например, скалярные про- произведения) между точками (образами объектов) в простран- пространстве отображения в среднем мало отличались от матриц А(/> в смысле некоторого критерия. Размерность пространства q либо задается заранее, либо определяется в процессе реше- решения задачи МШ или МШИР. 16.1. Метрическое многомерное шкалирование 16.1.1. Статистическая модель метрического МШ. В случае метрического МШ предполагается, что элементы единствен- единственной матрицы удаленностей А есть расстояния, измеренные с некоторой ошибкой, между объектами исследуемой сово- совокупности, которые рассматриваются как точки в некото- некотором «/-мерном пространстве R9: bij-dij + tij, A6.1) где da — расстояние между точками Xt и Ху, еи — ошиб- ошибка измерения. Обычно, хотя это и не обязательно, пространство Rg пред- полагается евклидовым, тогда йц = ( 2 (xtr) — х)г))г I/2- г= 1 Дальше в данном параграфе будем иметь дело только с евк- евклидовой метрикой. 16.1.2. Классическая модель и решение задачи метрическо- метрического МШ. Описанные далее модель и способ определения ко- координат точек Xv..., Xn подробно рассмотрены в работах 1318, 61, 152]. В данной модели предполагается, что ошибки измерения егу = 0 (i, / — 1, п), так что &ц — это в точно- точности евклидовы расстояния. Метод определения координат точек Хъ ..., Хп (с точ- точностью до ортогонального вращения) и заодно размерности пространства, в которое они отображаются, основан, однако, не на непосредственном использовании матрицы А, а на преобразовании ее в матрицу В скалярных произведений центрированных векторов Ьц = {Хй-Х)'[Х,-Х). A6.2) Переход от матрицы исходной информации Д к матрице В производится следующим образом. Оказывается 2+т 2*- A6.3) 439
Процедура перехода от А к В называется двойным, центри- центрированием Л. Матрица В размера (л хп) обладает следующи- следующими свойствами: 1) В неотрицательно определена; 2) ранг матрицы В равен размерности искомого простран- пространства отображения; 3) ненулевые собственные числа матрицы В, упорядочен- упорядоченные в порядке убывания, совпадают с соответствующими собственными числами матрицы S— XX', где X — цент- центрированная матрица данных (неизвестная нам), т. е. мат- матрица, элементы i-го столбца которой и являются коор- координатами вектора Xt. Матрица S/л есть матрица кова- риаций для X; 4) пусть UТ есть г-й собственный вектор матрицы S, соот- соответствующий r-му собственному числу К, тогда вектор значений r-й главной компоненты будет гг = X'Ur. В то же время пусть уг — г-й собственный вектор мат- матрицы В, соответствующий тому же самому собственному значению "кг, т. е. Вуг=Лу„ A6.4) тогда гт — УКуг- Из свойства 4) следует, что, решая проблему собственных чисел и собственных векторов для матрицы В и ограничива- ограничиваясь ненулевыми собственными числами klt ..., kq, получим координатное представление точек в пространстве глав- главных компонент, основываясь на формуле A6.4); величину размерности такого пространства, равную чис- числу положительных собственных чисел матрицы q. Элементы матрицы В могут быть представлены в виде г 1 Очевидно, решение Z является линейной функцией X и определяется лишь с точностью до ортогонального пре- преобразования, поскольку, применяя к матрице Z преобразо- преобразование вращения, получим, что преобразованная матрица Z* столь же точно восстанавливает матрицу В, как и мат- матрица Z. Такое шкалирование можно назвать линейным. 16.1.3. Погрешность аппроксимации. Оптимальность линей- линейного метрического МШ. Если возьмем число собствен- собственных векторов матрицы q* < q, то получим некоторое приб- приближение для элементов Ьц\ 440
Как следует из экстремальных свойств главных компонент (см. гл. 13), 2 (*«/-«/)•=*s" *$.+<• A6-5) 1,1 f=l и это минимальное значение погрешности, которое может быть достигнуто при аппроксимации матрицы В матрицей М ранга q*, т.е. матрицей, представимой в виде М = = 2 ctUt'i (где t,- — л-мерные ортонормированные векторы), если измерять погрешность аппроксимации величиной -т«)а. A6-6) Заметим, что решение т^ = Ь*ц, где &**/ определены равенством A6.4), доставляет глобальный минимум крите- критерию A6.6), хотя координатные векторы ZlT ..., Zq* являют- являются линейными функциями от X. Этот результат носит наз- название теоремы Эккарта — Юнга г. На практике размерность пространства отображения q* выбирают из тех же соображений, как и в анализе глав- главных компонент, т. е. руководствуясь величиной объяснен- объясненной доли следа. 16.1.4. Возможности расширения применимости линейного метрического МШ. Проблема аддитивной константы. При- Применение алгоритма линейного метрического шкалирования, строго говоря, будет корректным при выполнении следую- следующих условий: все dl} — евклидовы расстояния, и эти рас- расстояния измерены без ошибки. Об устойчивости алгоритма к ошибкам свидетельствует значительное количество удач- удачных его применений [90, 61, 89]. В случае, если различия Ьи не являются евклидовыми расстояниями, матрица В может не быть положительно оп- определенной. Прием, который используется в линейном мет- метрическом МШ для преодоления этого, заключается в пере- переходе к модели с так называемой аддитивной константой dw. A6.7) 1 Eckart С, Young G. The approximation of one matrix by an- another of lower rank J/ Psychometrika. — 1936. — Vol. 1. — P 211—318. 441
Очевидно, существует такое значение а > 0, что для ве- величин dl} будет выполняться неравенство треугольника, т.е. они будут расстояниями. В частности, это будет, если а = (— l)max(8h; —б,„—8„). ft, t.i Значение а есть минимальное значение константы а, при котором выполняется неравенство треугольника [201] для всех троек объектов из преобразованной матрицы D. Однако из выполнения неравенства треугольника еще не следует, что величины dl} можно рассматривать как евк- евклидовы расстояния и, следовательно, нельзя гарантиро- гарантировать неотрицательной неопределенности матрицы В, получаемой в результате процедуры двойного центриро- центрирования. Поэтому необходимо выбрать аддитивную константу таким образом, чтобы, с одной стороны, обеспечить положи- положительную определенность матрицы В (или хотя бы неболь- небольшие значения модулей отрицательных собственных чисел), а с другой стороны, не увеличить существенно число значи- значимых по величине положительных собственных чисел матри- матрицы В, т. е размерность пространства отображения (с ростом а она будет расти). Подробнее о подходах к решению этой проблемы см [299] Недостатком, ограничивающим практическое применение метода метрического МШ, является трудность работы с про- пропущенными данными, т. е. в случае, когда часть значений мер различия отсутствует. Тогда неясно, как корректно осу- осуществить переход от матрицы А к В В то же время для не- нелинейного подхода к МШ и для неметрического МШ отсут- отсутствие части данных практически не сказывается на резуль- результатах. 16.1.5. Нелинейные методы метрического МШ. Эти методы основываются на получении матрицы путем прямой миними- минимизации критерием вида Ql(Z)^c1(\)XvlJAJ-diJf A6 8) или -d\,f. A6.8') Семейство критериев вида A6 8) с различным выбором весов v,j рассматривается в [300, 9, 152,811 (см также§ 13 6). Критерий вида A6 8') предложен в 19, 3291. Вычислитель- Вычислительные аспекты, связанные с минимизацией A6 8), описаны в 442
§ 13 6, некоторые другие подходы, например использова- использование метода сопряженных градиентов, описаны в [152]. Веса vXJ в критерии A6.8) обычно выбирают в одной из следующих форм. vtl = \/81}, vt] = 6ij (см также § 13.6). Вид критериев типа A6 8) аналогичен виду клас сического критерия неметрического шкалирования типа «стресс» (stress) '. Нормирующие константы подбирают- подбираются так, чтобы, во первых, критерий стал однородным по бг7, и во-вторых, отражал некоторую относительную ве- величину качества аппроксимации. Например, в критерии Сэммона (см § 13.5) вес у„=1/6,, и с(А) = \/И6г] Нали- чие нормирующей константы не влияет, однако на полу-> чение минимизирующего решения, поскольку величины б,, считаются неизменными в процессе минимизации (в отличие от процедур неметрического МШ) В качестве расстояний dl} не обязательно брать евклидо- евклидовы, можно использовать например, метрику Минковского [1521 Решение задачи шкалирования, полученное классиче- классическим методом, часто используется как начальная конфигу- конфигурация для минимизации указанных критериев При метрическом МШ, основанном на критериях типа A6 8), A6 8'), уже можно обрабатывать матрицы А с про- пропущенными элементами Для этою суммирование в A6.8) и A6 8') достаточно проводить только дтя тех пар объектов, для которых удаленности измерены Экспериментально по- показано, что качество восстановления конфигурации будет почти таким же, как для полной матрицы, даже при доста- достаточно большом числе пропусков (порядка 1/3 расстояний для каждого объекта) [90]. 16.2. Неметрическое многомерное шкалирование [307, 261, 260, 152] 16.2.1. Структурная модель. В неметрическом МШ предпо- предполагается, что различия (близости) б,; измерены в ординаль- ординальной шкале, так что важен только ранговый порядок раз- различий, а сами их численные значения не так важны. Проце дуры неметрического МШ стремятся построить так^ю гео метрическую конфигурацию точек в ^-мерном пространстве, чтобы ранговый порядок попарных расстояний, между ними 1 Основное отличие критериев типа A6 8) A6 8') от критериев типа «стресс» (см A6 10), A6 10')) нормир>ющне множители сг (А) зависят от искомых координат точек и меняются в процессе работы алгоритма оптимизации 443
совпадал по возможности с ранговым порядком различий, т. е отобразить неметрическую (ранговую) информацию в метрической шкале. Поскольку ранговый порядок не меня- меняется при любом монотонно возрастающем преобразовании, задаваемом функцией /(•), то приходим к следующей струк- структурной модели. /(б,;) « dl}. Это означает, что процеду- процедура построения подходящей геометрической конфигурации включает в себя не только подгонку координат точек-обра- точек-образов, но и самой функции f (¦). Дальше через &1} будем обозначать значение / (Ь1}), т. е. du = f (8,;). Для измерения того, насколько в среднем близки эти значения к аппроксимирующим их расстояниям dtJ, используются различные критерии, например /) = j/S^-d^ / j/Sd?,. A6.9) Это известный «стресс»- критерий (форма 1), предложенный Краскалом [261]. Используются и его модификации [329, 89]: A6.10) S,(Z, f) = Wyi7u-dlj)\ A6.10') где d = -j S dtj —среднее значение расстояния. Функция / (•) может задаваться как в параметрическом виде, так и непараметрически Для последнего случая Крас- Краскалом предложен метод получения геометрической конфигу- конфигурации по критерию A6 9) или A6 10), который носит назва- название шкалирования на основе монотонной регрессии [2601. При параметрическом задании функцию / (•) выбирают из некоторого параметрического семейства монотонных функций / (б, в) и, кроме ^-мерных наборов координат, оп- определяются и значения параметров Аддитивная констчнта, рассмотренная в п. 16 1.4 , может служить простейшим при- примером задания функции / (б, 0). Эта константа является единственным оцениваемым параметром при таком задании функции. Большие возможности дает использование линей- линейной функции dij-abtj+bi. A6.11) 444
Здесь уже имеется двумерный вектор параметров Gj = а, 92 = Ъ 16-2.2. Некоторые замечания о вычислительной процедуре. Когда функция/ (б, в) задана, критерий A6 9) (равно как и критерии A6 10), A6 10')) можно переписать в виде 5t (Z, 0). Будем считать, что имеется единственное значение во= = 0O(Z), которое минимизирует A6.9) при фиксированном Z (для функции вида A6.11) это, очевидно, имеет место). Теперь, подставляя в 5Х (Z, 0) минимизирующее значе- значение 0О, видим, что для получения Z нужно минимизировать критерий S(Z)=S1(Z, 6(Z)). A6.12) Вычислим теперь градиент A6.12) по Z. Имеем У?; ,у\ dS-i /у q, . dSj ав0 '~ az ae az Но, поскольку значение в0 получено само из условия мини- минимума Sj (Z, 0) по в, необходимо должно выполняться ус- условие = 0 г, в0 и, следовательно, выражение для градиента упрощается: v5<z)=-g4Z, е0). A6.13> Таким образом, каждая итерация в задаче минимизации критерия A6.10) может быть разбита на две фазы 1) минимизация по в при заданном Z. В случае функции A6 11) эта задача сводится к оценке а и Ъ по методу наи- наименьших квадратов и решается просто и однозначно, 2) минимизация 5 (Z) при фиксированном в. Здесь, как правило, используется градиентная процедура. Затем происходит возврат к фазе 1. Весьма важным моментом на фазе 2 является выбор шага. По этому поводу и относитель- относительно других деталей вычислительной процедуры см. работу 189]. 16.3. Шкалирование индивидуальных различий (ШИР) В этом случае имеется k(k> 1) таблиц удаленностей или расстояний (если используется метрическое шкалирование). Будем обозначать различия между i-м и /-м объектами для 445
l-ц таблицы (/ = 1, k) через в//*. В случае матриц расстоя- расстояний структурная модель (ШИР) предполагает, что расстоя- расстояния б!'* между точками для 1-й матрицы могут быть пред- представлены в виде взвешенного евклидова расстояния 6@ » d\p= l/ 2 vlr {zV-zyy. A6.14) В неметрическом случае структурная модель будет / ШР) * ^> = т/ 2 ^ И'»-^I- A6-15) Г г= 1 В метрическом случае и в предположении об отсутствии оши- ошибок можно обобщить подход, рассмотренный в § 16.1. Имен- Именно процедура двойного центрирования применяется для каждой из k матриц, что дает в результате набор уравнений а bin ^ S2'r> z)r) vir, гДе векторы Zt центрированы. /•=1 Значения Z и V (V — матрица значений весов размером kxq) получаются из минимизации, например, следующей функции потерь s (z, V) = 2 (ьт - 2 x\r) *p v^ V. (Ш.ш) i./.Л г=\ ! Вычислительные процедуры для ШИР приведены, например, в работах [317, 329, 152]. ВЫВОДЫ 1 Многомерное шкалирование — совокупность методов, по- позволяющих по заданной информации о мерах различия (близости) между объектами рассматриваемой совокуп- совокупности приписывать каждому из этих объектов вектор характеризующих его количественных показателей; при этом размерность искомого координатного пространства задается заранее, а «погружение» в него анализируемых объектов производится таким образом, чтобы структура взаимных различий (близостей) между ними, измеренных с помощью приписываемых им вспомогательных коорди- координат, в среднем наименее отличалась бы от заданной в смысле того или иного функционала качества. Процеду- 446
ры многомерного шкалирования применяются, когда данные заданы в виде матрицы попарных расстояний между объектами или удаленностей или их порядковых отношений. В первом случае используются методы так на- называемого метрического шкалирования, а во втором — неметрического шкалирования. 2. Важной целью методов шкалирования ¦— дать нагляд- наглядное визуальное отображение данных в виде некоторой геометрической конфигурации точек. 3. Решения как в метрическом, так и в неметрическом слу- случае неоднозначны — они определяются с точностью до поворота и переноса начала координат. 4. При наличии нескольких матриц расстояний (удаленно- (удаленностей), порядковых отношений этих удаленностей, задача шкалирования носит название задачи шкалирования ин- индивидуальных различий. При этом, кроме образов объек- объектов как точек в пространстве низкой размерности, можно получить и точки-образы для условий, породивших раз- различные матрицы. 5. Вычислительные процедуры как в метрическом, так и в неметрическом случае весьма трудоемки (порядок числа умножений растет как я2). Глава 17. СРЕДСТВА АНАЛИЗА И ВИЗУАЛИЗАЦИИ НЕКОЛИЧЕСТВЕННЫХ ДАННЫХ В данной главе рассматривается подход к анализу неколи- неколичественных данных, основанный на использовании методов анализа соответствий и оцифровки. Анализ соответствий (АС) был введен и довольно широко используется в практическом анализе данных начиная с начала 60-х годов группой французских статистиков [191, 263]. Многие результаты, теоретически эквива- эквивалентные результатам АС, в особенности относящиеся к ана- анализу двумерных таблиц сопряженности, неоднократно пере- переоткрывались начиная с 30-х годов различными исследовате- исследователями под названиями «дуальное шкалирование», «опти- «оптимальная оцифровка», «одновременная линейная регрессия» и т.д. (см. библиографию в 12, гл. 3). Несомненной заслугой французских статистиков явля- является, помимо распространения АС на случай более чем двух переменных, широкое использование возможностей визу- визуализации данных, предоставляемых АС. 447
В этой главе рассматривается применение АС для ана- анализа двумерных частотных таблиц сопряженностей, т. е. собственно «классический» АС, введенный в [191]; распро- распространение АС на анализ некоторых типов матриц данных с неотрицательными элементами; множественный анализ со- соответствий (MAC), т. е. методы АС в случае многомерных (р > 2) матриц данных с категоризованными переменными; методы оцифровки, отличные от MAC. Как в АС, так и в MAC имеются определенные возможно- возможности включать, использовать и непрерывные переменные. Рассмотрение АС для двухвходовых таблиц сопряженно- сопряженности, т. е. собственно АС, ведется здесь в основном, следуя стилю работ французских авторов (см., например, [2631). MAC вводится как некоторое обобщение метода главных компонент, что позволяет сразу же дать статистическую ин- интерпретацию MAC. 17.1. Анализ соответствий для двухвходовых таблиц сопряженностей 17.1.1. Основные понятия анализа соответствий. Рассмот- Рассмотрим основные понятия АС: таблицы сопряженностей, про- профили, веса их, метрики. Таблица сопряженностей. Пусть имеем в качестве объ- объекта статистического анализа двухвходовую таблицу сопря- сопряженностей (ТС) (кросс-классификации) для двух категори- зованных переменных хг и хг с it и t2 категориями соответст- соответственно. Эта таблица представляет собой матрицу F с 1г стро- строками и /2 столбцами. Значением элемента (клетки) fti явля- является вероятность одновременного наблюдения i-й категории признака xt и /-Й категории признака х2. Таким образом, с помощью этой таблицы полностью описывается совместное распределение двух категоризованных переменных хх и х2. На практике обычно приходится иметь дело с некоторой оценкой ТС, а именно с матрицей F, элементы которой fti представляют собой оценки соответствующих вероятностей fij по выборке объема п, например, с помощью относи. тельных частот fa = п^/п, где п,; — частота появления события х1 = i и х2 = j (т. е. количество объектов с подоб- подобным сочетанием категорий) в выборке. Однако там, где это не связано с изучением выборочных свойств ТС, будем применять обозначения F, ftj и т. д. 448
В дальнейшем будем иногда использовать и частотную ТС, т. е. матрицу N=(rc,;) (t = l, ilt /= 1, г2). значениями элементов которой являются сами наблюдаемые частоты. Очевидно, что ? nt} —п. и Анализу ТС F и N посвящено большое количество ра- работ (см., например, [12, 211; в этих же работах приведена и обширная библиография). Основная направленность обыч- обычного анализа ТС— проверить с помощью статистических критериев гипотезу о независимости переменных хл и хъ и если они оказываются зависимыми, измерить с помощью ка- какого-либо коэффициента связи степень их связи. Методы АС применимы к ТС не только типа кросс-клас- сифнкационных таблиц, но и таблиц F более общего вида, элемент fu которых можно рассматривать как степень свя- связи, влияния строки i на столбец / или наоборот. Например, в качестве строк могут выступать страны мира, а в качестве столбцов — продукты питания, тогда элемент fu определяет долю /-го продукта питания в структуре питания жителей i-ii страны. Другим важным примером является таблица — матрица межотраслевого баланса. Профили. АС используется для объяснения структуры связей (соответствия) между категориями переменных х1 и хг. При этом категории рассматриваются как точки в неко- некотором многомерном пространстве. Приведем теперь некото- некоторые определения. профилем i-й строки ТС называется строка с элемента- элементами Pij^tiijltii., A7.1) где "ь=2"г;. A7. Г) Очевидно, что рц можно выразить и через элементы ТС от- относительных частот F: A7.2) A7.2') 449 Pit = где %¦ 'tulli =|,7 15 Заказ № • 1 ь. 291
Категорию i признака дг, можно рассматривать как точку в пространстве R1' с компонентами рп рцг. Очевидно, при этом имеется одна связь между компонентами этой точ- ки: 2 Рп — 1- Аналогично можно ввести профили столбцов: Zi = n,j/n ,=7tj/%. П7.3) где Соответственно категории признака xt будем рассматривать как точки в /j-мерном пространстве R'1, координаты кото- которых задаются профилями A7.3). Очевидно, что 'Е.Яи^ 1 для f=i всех (/ = 1, 1г). Вероятностный смысл профиля для категории i призна- признака хъ т. е. вектора с компонентами ри, ..., рц2, следует из того, что компонента рп есть оценка условной вероятности для признака х2 принять категорию /, если признак хг принял категорию i. Таким образом, это строка условных вероятностей (или их оценок). Метрика i2. Для дальнейшего анализа категорий как то- точек в пространствах /?*< и /?'* необходимо ввести некоторую функцию расстояния между ними, т. е. метрику. В АС используется х^метрика. Расстояния между ка- категориями признаков хг и х2 в этой метрике задаются соот- соответственно следующим образом: cP(i, i') = ^ ^r- (Pi, ~Рг ,)*; A7.4) /•/ ^-Gu-?irf. A7.5) ( = 1 h ¦ Таким образом, метрика A7.4) есть просто взвешенная евк- евклидова метрика в пространстве профилей строк R1' с весами, обратными относительной частоте категорий признака х2- То же самое верно для метрики A7.5) (с заменой столбцов на строки и признака х2 на х±). Одна из основных причин использования %2-метрики свя- связана с тем, что она удовлетворяет свойству инвариантности 450
по отношению к слиянию строк (столбцов) с одинаковыми профилями, которое может быть сформулировано следую- следующим образом: а) пусть две строки i и Г (т. е. две категории признака х±) имеют одинаковые профили; тогда, если объединить эти две категории в одну новую категорию i0, расстояния между категориями признака хг не изменятся; б) анало1 ично, если имеем два столбца / и /' с одинако- одинаковыми профилями и объединим категории / и /" в одну новую категорию /„ (т. е. перейдем к новой ТС с /2— 1 категориями для признака х2), то расстояния между строками, задавае- задаваемые формулой A7.4), не изменятся. Доказательство этого свойства несложно (см., например, [263]). Веса профилей. Каждой из /2 точек в пространстве /?'« (т. е. профилям-столбцам) поставим в соответствие ее вес f /(j = 1, /2), аналогично каждой из 1г точек в пространстве /?'= (т. е. профилям-строкам) поставим в соответствие вес /!-(*- Г7Г). Итак, в результате имеем два взвешенных множества то- точек: одно — в пространстве R!i и другое — в пространстве R'\ расстояния между которыми задаются с помощью метрики %г (A7.4), A7.5)). Суммарное представление вве- введенных понятий дано в табл. 17.1. Таблица 17.1 Пространство строк (i?'->) Количество точек 1г Координаты точек—строки матри- матрицы F1 = D~;| F (профили строк матрицы F), где Dh =diag (flm, ¦•-. fh-) Метрика (скалярное произведе- произведение, расстояние, норма) опреде- определяется матрицей Dy1 П\сть Z ? Rh и U ? R1' Тогда ||Z||2 = Z'D^'Z cP(Z, U) = (Z-U)' DJl1 (Z-U) Скалярное произведение векторов Z и U определяется как (*' К и) Веса точек — диагональные эле- элементы матрицы D/, Пространство столбцов (i?'«) Количество точек 12 Координаты точек — строки матрицы F2 = F' D] (профили столбцов матрицы F), где D|, = diag (/.!,...J.b) Метрика (скалярное произведе- произведение, расстояние, норма) опре- определяется матрицей D]™1 Пусть V ? R1' и Y ? R'1 Тогда WYV^Y'DJ^Y d*(V, Y) = (V—У)' Dj;1 (V—У) Скалярное произведение векто- векторов V и Y определяется как (V D^1 Y) Веса точек — диагональные элементы матрицы Dj8 15* 451
17.1.2. Проекции строк и столбцов. Связь с анализом глав- главных компонент. Рассматривая профили строк и столбцов как точки в соответствующих пространствах R' и R1^, даль- дальше можно действовать несколькими способами, которые приводят к одинаковому рез\чьтату. Прежде всего для упрощения датьнейших выкладок нор- нормируем профили строк (столбцов) так, чтобы %2-метрика ста- стала обычной евклидовой (дальше D, D/ ): fpJ = Dr1/2Pl (, = IT/t); 176 = ог -qy (/=Г72). Легко проверить, что евклидово расстояние между нор- нормированными профилями строк (столбцов) совпадает с %2- расстоянием между соответствующими исходными профи- профилями Нормированные профили-строки являются строками матрицы F, = D, x FD71/2. Введем теперь матрицу рассеивания Т, для нормиро- нормированных профилей строк с учетом их весов т,= v ш„р,р;= 2 K^Pii/^p;. A7.7) Матрица 1Т имеет размеры l,Xl2. Это аналог ковариаци- ковариационной матрицы системы из /, точек, но рассеивание измеря- измеряется не относительно их центра тяжести, а относительно ну - левой точки. Будем теперь искать одномерную проекцию с вектором U, для которой рассеивание (дисперсия) образов точек максимально. Но это задача анализа главных компо- компонент (см гл. 13). В вычислительном отношении это приво- приводит к решению проблемы собственных значений и векторов: TtU = Uj. A7.8) С учетом того, что веса тю,г равны диагональным элемен- элементам матрицы D1? матрица Тг может быть представлена в ви- виде Tr= F;WF, .= D^1/2F' Df1 FD71/2. A7.9) Аналст ично матрица рассеивания для нормированных профилен столбцов есть Tc-=-Di '^'FDr'F'Df172. A7.9') Введем в рассмотрение матрицу Ф=ОГи11гО^1/2. A7.10) Тогда имеем Тг = Ф'Ф и Тс = ФФ'. 452
Следовательно, матрицы Тг и Тс имеют одни и те же поло- положительные собственные числа Яо;> А.^ ... > Xi+ >0 и коли- количество ненулевых собственных чисел /+ < mm (/j, /2). Собственные векторы матриц Т, и Тс с единичной нормой, соответствующие одному и тому же собственному значению kh > 0, связаны соотношением При практических вычислениях, естественно, выбирается задача на собственные значения с минимальной размерно- размерностью 17.1.3. Интерпретация главных компонент в анализе соот- соответствий. Легко видеть, что фактор Wh =-D~l/2Vh пропорци- пропорционален /гмерному вектору координат проекций нормиро- нормированных профилей-строк р, U - 1, /,) на вектор Uk. Анало- Аналогичный смысл, но для нормированных вектор-столбцов име- имеет вектор «Ph= Dj[/2Uh Действительно, вектор координат проекции нормированных профилей строк будет FrUh Несложные преобразования дают F,Uh - D'j~1FD,r1<'2?/h = D~1<'2 Ф Uh -= l/VX^ft. Но это значит, что координаты проекций точек из R1' (R1') на направление, задаваемое собственным вектором Uh (Vh), пропорциональны (с мно- множителем l/VA.h) компонентам фактора в другом простран- пространстве (R1' или R1 ), соответствующем тому же самому соб- собственному числу. Итак, координаты проекций получаются умножением факторов «pft, i|>ft на VA.fe: <pfe — Yh, Фй — координаты проекций из /?'»; "$}, — V^k ty> — координаты проекций из R1k Теперь, используя соотношения A7.11), имеем: j2- vm (*•= ПГ); '=• ' A7.12) Соотношения A7.11) можно интерпретировать следую- следующим образом проекция г-ro профиля строки на ось Uh (рав- (равная ij)fe,) с точностью до множителя 1/V^,fe (одинакового для всех i = 1, 1г) является взвешенным центром тяжести для 45а
проекции профилей столбцов на ось Vk, вычисленным с ве- весами fijlfi., т. е. /-й вес равен /-й компоненте профиля i-u строки. Это свойство полностью характеризует факторы «pfe и tjjfc и может быть взято как исходное при определении АС. Отметим теперь еще три свойства решений уравнений A7.11) и A7.8): 1) существуют факторы «р„> Фо с единичными компонен- компонентами и собственным числом Хо = 1 (тривиальный фактор). Это решение появляется в силу того, что сумма элементов для любого из профилей равна 1. Если при выводе уравне- уравнений для векторов U и V использовать разброс относитель- относительно центра тяжести, а не относительно нулевого профиля, как было сделано, то тривиальное решение не появилось бы; 2) все собственные числа 0 < Xh < 1. Количество нену- ненулевых собственных чисел /т, включая тривиальное, не пре- превышает l+ -= min AЪ /2). Для суммы ненулевых собственных чисел имеет место равенство где X2 — статистика х2, вычисленная для таблицы сопря- женностей N, 3) имеет место следующее разложение матрицы F по си- системе факторов y>h и ij>fe (см. [263, 12]): A7.13) 17.1.4. Присвоение числовых меток строкам и столбцам. Компоненты факторов «ph, 4|5h можно рассматривать как на- наборы числовых меток, которые присваиваем строкам (столб- (столбцам) матрицы F. Таким образом, можно говорить о квантифи- кации (или оцифровке) строк (столбцов) матрицы F. В слу- случае, когда матрица F есть ТС, с помощью АС получается переход от неколичественных шкал для переменных xlt x2 к нескольким наборам количественных. Заметим, что из соотношения A7.13) следует, что каждый из наборов меток «ph, i|5ft обладает свойством наилучшего в смысле среднеквадратической ошибки взаимного прогноза. Действительно, i-я компонента tprft (i = 1, /2) фактора «pfe пропорциональна условному математическому ожиданию фактора ipft при фиксировании i-й категории признака *2- Аналогичным свойством обладают компоненты фактора i|>fe. Но условное математическое ожидание как раз и обладает 454
свойством наилучшего прогноза [16, 7, 12]. При этом урав- уравнения регрессии (fh no tyu и tyk no (р& будут линейными. Использование факторов срк и iMft. Как же предлагается использовать получаемые факторы <ph, i|)fe (k~\, /+) в AC? Во-первых, их можно использовать, в силу A7.16), для аппроксимации элементов матрицы F (или F, тогда над все- всеми величинами в A7.13) следует поставить символ ^-). Во-вторых, и это основное использование получаемых факторов в АС, их используют для визуального отображения строк и столбцов на прямую или на плоскость. Для отобра- отображения на плоскость вычисляются факторы i^, ч|л2 и q>], cp2, соответствующие наибольшим собственным числам кг и к2. Пара чисел (V^i ^,i> ^^2^12) d — 1, ^i) служит коорди- координатами для t-и строки (i-й категории признака л,). Соответ- Соответственно пара чисел (ТАхФд, У^Ф/г) служит координатами для /-го столбца Далее проводится визуальный анализ по- получаемых конфигураций точек, соответствующих строкам и столбцам для выявления различных особенностей: наличие кластеров, скоплений некоторых точек-столбцов вблизи тех или иных строк, и наоборот. 17.2. Множественный анализ соответствий (MAC) MAC является обобщением обычного АС на случай несколь- нескольких переменных, что можно сделать несколькими способами, которые приводят к эквивалентному результату. В случае р = 2 в любом случае придем к обычному АС [263]. Рассмотрим два эквивалентных подхода, ведущих к MAC Первый позволяет легко ввести расстояния между объ- объектами и между катеюриями, второй рассматривает MAC как обобщение метода главных компонент и допускает про- прозрачную статистическую интерпретацию MAC. Другие воз- возможные подходы к обобщению АС рассмотрены, например, в [263, ПО] 17.2.1. Бинарная форма матрицы данных. Предположим, что исходные данные представлены в виде матрицы данных X и что все переменные, входящие в матрицу данных, явля- являются категоризованными (или некоторые из них могут быть получены квантованием количественных непрерывных пере- переменных). Представимвсе переменные в бинарной форме, т.е. переменной х<^ с числом категорий /г поставим в соответст- соответствие набор из li бинарных переменных у) (/ = 1, /,), таких, 455
что у) = 1, если значение х(() есть /-я категория и у) = О — в противном случае Матрица данных в бинарной форме представляет собой матрицу Y размера пх т, значениями элементов которой могут быть только 0 и 1, а число столбцов р т = У/,, т. е. равно суммарному количеству категорий для itTi всех признаков лA) (i = 1, р). Таким образом, в отличие от матрицы X объекту соответ- соответствует строка матрицы Y, а категориям переменных — столбцы. (Это не имеет принципиальною значения, но упрощает обозначения.) Матрица Y может быть представ пена как объединение матриц Y, с п строками и /, столбцами, соответствующих би- бинарным представлениям признаков Y = [Уи ..., Y;)]. Сумма элементов матрицы Y равна у — п х. р. 17.2.2. Подход, основанный на непосредственном использо- использовании матрицы Y. Матрицу Y можно рассматривать как таблицу с неотрицательными элементами с /х = п строками, /2 = т столбцами и применить к ней АС из § 17.1. С этой целью сначала получим аналог матрицы F=—Y A7.14) У Сумма элементов матрицы F равна 1. Сумма элементов лю- любой строки этой матрицы (т. е любого объекта в данном случае) будет одинакова ft = \ln (i — 1, , /г), поскольку для любого объекта реализуется одна и только одна катего- категория каждой переменной Следовательно, строки матрицы F имеют одинаковый вес, а матрица Dx = — 1„, где 1„ — единичная матрица размерности п. Сумму элементов для столбца матрицы F, отвечающего k-u категории Л-го при- признака, обозначим через A7.15) где ilk — число объектов, у которых /i-й признак принял k-ю категорию Здесь для обозначения столбца используем два индекса* h и k, чтобы было более ясно, о какой катего- категории идет речь Величины / нь. являются диагональными эле- элементами матрицы D2 Далее будем также использовать диа- диагональную матрицу D = пр D2, т. е. ее диагональные эле- элементы суть частоты «ft. Теперь можно определить профили строк (объектов) и столбцов (категорий) и ввести х2 -метрики в пространствах объектов и категорий (см. п. 17.1.1). 456
Расстояние между k-\\ катеюриеи /i-ro признака и /-и категорией r-го признака будет задаваться выражением О, если h=r, k = l; n/n^-j-n/nrn если h = r, кф1, A7.16) если h ^Ф г; где r\ki — число объектов, принявших категорию k для /i-ro и катеюрию I для r-го признаков Расстояния между профилями строк (объектов) F, и F, в метрике %z б) дут A=Ik=\ 1 \ '* ^ Л— 1 fc = I ' A7 17) вес со* — nlnhk, а величина п1} определена в A7 15) и являет- является частотой k-н кате! opии /i-й переменной, «/,'* (Д) — это соответствующий i-й строке и /-му столбцу элемент матрицы Yh (Fh), Y, — t-я строка матрицы Y Расстояние dt] можно рассматривать как взвешенное (по категориям) хэммиш ово расстояние между объектами в пространстве бинарных переменных Вес whk увеличивает вклад различий объектов по редким (по частоте) категори- категориям 17.2.3. Присвоение числовых меток объектам и категориям (оцифровка). Действуя так же, как в п. 17 1.2, получим мат- матрицу Ф Di I/2FD2~I/2--=—^YD '-2 A7.18) Ур и матрицы ТГ-=Ф'Ф -= — D -'/2 Y' YD-1'2(размера т\т)\ р A7.19) Тс — ФФ' --— YD-1 Y' (размера п х п). Р Пусть теперь |А0 > 1-4 > ... > Ц/+ > 0 — ненулевые собственные числа матрицы Tr (Tc), a Uh (Vh) — соответст- 457
Ск = УТн D7'/2 t/ft = Кщ лр D- вующие им собственные векторы. Введем наборы числовых меток (z<*>, Cft) для строк (объектов) и столбцов (категорий): Вектор z{k) будет n-компонентным вектором, а вектор Ск является m-компонентным. Так же как и в п. 17.1.3, k-и вектор (набор) меток для строк пропорционален вектору, компоненты которого равны проекциям нормированных профилей строк на k-й собственный вектор матрицы Тг, т. е это вектор k-x главных компонент для профилей строк (в метрике %2) Аналогичное утверждение имеет место и для векторов меток для столбцов (категорий). Таким образом, имеем /+ наборов (z<*\ Ch) числовых ме- меток для объектов и категории Иными словами, можно ска- сказать, что использование MAC для обработки матрицы дан- данных с переменными, измеренными в неколичественной шка- шкале, приводит в результате к квантификации (или оцифров- оцифровке) матрицы данных. Далее полученные наборы меток мож- можно использовать для обработки данных как измеренных в ко- количественных шкалах. Рассмотрим сначала, какими свой- свойствами обладают наборы числовых меток, получаемые в MAC. 1. Существуют тривиальные наборы меток z<°>, Co, со- соответствующие максимальному собственному числу Ко — 1. Все компоненты этих наборов равны 1. Причина появле- появления наборов обсуждалась в п. 17.1.4. 2. Наборы меток для объектов z*1*, ..., z</+) можно рас- рассматривать как новые количественные переменные (факто- (факторы). Эти переменные центрированы Bгг;) =0) с дисперсией i _ 2 (zf;)J=fi/ и попарно некоррелированы ( 2 z^zjk) = 0, Я ?=1 если k ф)). 3. Используя уравнения A7.11), можно показать, что метки для объектов и категорий удовлетворяют следующим уравнениям перехода: Следовательно, координата i-ro объекта для А-го набора (т. е. значение &-го фактора для i-ro объекта) пропорцио- 458
надьна среднему арифметическому значению меток катего- категорий, реализующихся для этого объекта (всего реализуется р категорий, по одной для каждой переменной) i<c^ (l7-22) = i /== i где Chlk (j — 1, 4) — компоненты вектора Ck, соответствую- соответствующие переменной *(*). Аналогично координата (метка) /-Й категории /i-й пере- переменной для &-го набора пропорциональна с множителем (l/VVft) среднему значению фактора z<fc) для объектов, име- имеющих значением для /i-и переменной /-ю категорию, т. е. эта 'метка пропорциональна соответствующему условному среднему значению фактора z(*>. Из свойства 3 следует, что можно одновременно отобра- отображать объекты н категории в одной и той же системе коорди- координат для визуального анализа, так как метки, соответствую- соответствующие объектам и категориям, измерены в одинаковых шкалах. Пусть, например, следует провести визуальный анализ данных для первых двух факторов. Тогда для i-ro объекта имеем координаты zt-'\ г^2), а для отображения категорий следует взять координаты (V\ixch,\. \ [И2С%) (/~я категория h-и переменной). 17.2.4. Матрица Берта. Матрица В - YY, которая появ- появляется в MAC, впервые была получена в работе [200] и но- носит название матрицы Берта (Burt). Это симметричная мат- матрица, состоит из р2 блоков. Имеется р диагональных блоков- матриц. Диагональный блок Y;'Y; соответствует /-й перемен- переменной (/ = 1, р) и представляет собой диагональную матрицу размера 1;х 1}, так как две категории одной переменной не могут появляться одновременно. Диагональная матрица D имеет те же самые диагональные элементы, что и мат- матрица В. Внедиагональный блок Y/ Y, (/ Ф i) представляет со- собой частотную таблицу сопряженности /-Й и i-и переменных. 17.2.5. Подход, основанный на максимизации статистиче- статистического критерия. Здесь рассматривается подход конструиро- конструирования количественных факторов (переменных), которые на- наилучшим образом объясняют (аппроксимируют) матрицу Y в смысле некоторого статистического критерия. Одновре- Одновременно с получением значений (метод для объектов) факторов при данном подходе получаются и метки для категорий пере- 459
менных. Получаемые метки, а также возникающие здесь мет- метрики совпадают с метками и метриками, определяемыми на основе подхода, рассмотренного в п. 17.2.2, 17.2.3. Пусть теперь следует присвоить числовые метки v — = (иъ ..., V,,)' п объектам. Потребуем, чтобы для набора ме- меток v выполнялись условия центрирования и нормировки V О| = 0, ? »? = л. A7.23) Присвоить каждому объекту X, некоторое числовое зна- значение Vi — это и значит ввести некоторый новый признак (фактор) v. Введем теперь величину (статистический критерий), определяющую качество набора меток 0*= ? Rln A7.24) где /?!,,- — квадрат коэффициента множественной корреля- корреляции между фактором v и бинарными переменными t/k (k — 1, .v, b), т. е. «5./ = -bv'Y,(Y;-Y;)-»Y;v. A7.25) Построенный из условия максимума Q2 фактор v можно рассматривать как аналог первой главном компоненты, мак- максимизирующей сумму квадратов коэффициентов корреля- корреляции (см. гл. 13). Так как бинарные переменные линейно независимы, то к= 1 т. е. R'v, / есть просто сумма квадратов корреляций бинар- бинарных переменных у{, соответствующих переменной xW>, с и. Будем теперь искать фактор из условия максимума кри- критерия A7.24). Это приводит, с учетом условий нормировки A7.23), к следующей задаче на обобщенные собственные зна- значения \ = Yv, A7.26) где 1 — вектор размерности п с единичными компонентами; матрица Р vp.; матрица Р; - - Y, (Y/Yy)-' Yf1 460
— (p'ik) ('. k — \, n); элементы матрицы P,- вычисляются следующим образом: il/nL если 4/)==4"^s; „/,= s *¦ A7.27) '** |0, если х\Пфх]р. где 5 номер категории признака; /, k—номера объектов; п{ — число объектов, соответствующих s-fi категории приз- признака х(/'. Суммарная матрица Р -— (р;/,) есть матрица свя- связен (близостей) между объектами X,- и Xj, измеряемых ска-, лярными произведениями профилей строк в метрике х2. Каждая из величин pjh — YiD~*Yj представляет собой сум^ му весов \ln's значении признаков х</> (/ — 1, р), которые совпадают для объектов / и k. Легко проверить, что матри- матрица Р = рТс A7.19). Ее собственные векторы совпадают с собственными векторами матрицы Т,., и, следовательно, реше- решением максимизационноп задачи -A7.24) будут факторы г*1', ..., г</ + ), определенные в п. 17.2.3. 17.2.6. Некоторые вопросы вычислительной реализации и интерпретации в множественном анализе соответствий Итерационная вычислительная процедура. Факторы (z('°, С,.) можно получить, основываясь на решении проб- проблемы собственных чисел п векторов для матриц Т,., Т,.. Естественно, следует выбирать матрицу с минимальной раз- размерностью, а сопряженные наборы меток для объектов п ка- категории получать с помощью уравнении перехода A7,21). Этот подход пригоден, когда какая-либо из матриц Т,. пли Т,. помещается в оперативной памяти ЭВМ. В этом случае можно использовать и методы сингулярного разложения матриц, применяя их к матрице Ф A7.18). При задачах боль- большей размерности можно использовать итерационную про- процедуру, основываясь непосредственно на уравнениях A7.21). Так, используя уравнения A7.20), получим следующую процедуру': где t — номер итерации; k — номер фактора; Xh — текущая оценка собственного числа. 461
Векторы Vk} на каждой итерации необходимо нормиро- нормировать и центрировать в соответствии с условиями A7.23), а вектор и\1) нормировать. Через определенное число итераций необходимо орто- гонализировать текущие векторы JV^ (или U%}) к ранее найденным векторам Уъ ..., Vh-t (Uu ..., ик-г) и триви- тривиальным факторам. Основной прием, делающий эту процедуру достаточно эффективной даже при больших размерностях т, п, связан с использованием специфической бинарной формы матрицы Y. Действительно, умножение г-й строки матрицы на вектор С[1) = D/2 U'k^ на самом деле требует использования только р операций сложения (поскольку только р элементов этой строки равно 1, а остальные равны 0). Таким образом, умножение матрицы Y на вектор Cil) требует всего пх р сложений (так же как и умножение Y' на V^). Операция сложения намного экономнее по времени выполнения, чем операция умножения, и этих операций нужно всего пхр на каждой итерации, что и обеспечивает приемлемую эф- эффективность вычислительной процедуры даже при боль- больших размерностях пир. При этом матрица Y может считы- ваться поблочно из внешней памяти. Итерационная процедура тем более пригодна, что обычно требуется небольшое количество факторов q <^ т. Сущест- Существуют способы повышения эффективности итерационной про- процедуры, например одновременная итерация сразу несколь- нескольких векторов, и др. (см. [263]). Собственные числа \к, ..., kq, полученные в результате итеративного процесса A7.28), будут связаны с собствен- собственными числами ц матриц Тг, Тс соотношением Xh — рцк, а векторы ?/й, Vk — совпадать с собственными вектора- векторами этих матриц. Используя соотношения A7.20), отсюда не- нетрудно перейти и к факторам z(k), CV Некоторые вопросы интерпретации. Как и при анализе главных компонент, перед исследователем, использующим MAC, возникает ряд вопросов, среди которых основными являются следующие: сколько факторов использовать и как их интерпретировать. Решение первого из них наталкивает- наталкивается на трудности, которых нет в анализе главных компонент, где наиболее принятый способ отбора числа значимых фак- факторов связан с использованием доли следа ковариационной (корреляционной) матрицы, объясненной первыми ^фактора- ^факторами (см. гл. 13). В MAC этот подход использовать обычно нельзя. Действительно, след матрицы Sp (Тг) — Sp (Tc) = 462
= ml p. Исключая вклад собственного числа |*в = 1, соот- соответствующего тривиальному фактору, имеем, что сумма не- ненулевых собственных чисел 2 С другой стороны, величина (ift <; 1 (& = 1, /+). Поэтому доля следа, объясненная первыми q факторами, равная -^L_^qp/(m-p), A7.28) может быть очень невелика, если общее число градаций т значительно. Одна из возможностей эвристической оценки числа факторов состоит в сравнении собственных чисел с их сред- средним значением — отбираются только факторы с собствен- собственными числами, большими среднего значения. Чтобы полу- получить оценку среднего значения, оценим число положитель- положительных собственных чисел /+. Она получается на основе следую- следующих соображений, поскольку для каждой из матриц Yft, составляющих матрицу Y, сумма ее столбцов равна вектору с единичными компонентами, ранг матрицы Y не более чем rank(Y)<m—p+l. A7.29) (Более точно rank (Y) <C min (л, т — р + 1), но поскольку обычно л> т — р + 1, можно использовать A7.29).) Поэтому для числа /+ положительных собственных чисел для нетривиальных факторов верно неравенство /+ < т —р. Отсюда в качестве оценки средней величины ненулевого соб- собственного числа получаем -^ sP(Tr)-i =lJp т—р Интерпретация факторов. Подход к интерпретации вы- выделенных факторов уA), ..., и(*> (г*1), .... г*й>) основан на анализе множественных коэффициентов корреляции Riv),t между факторами vij) (/ = 1, q) и исходными переменными (наборами бинарных переменных у1г). Аналогично интерпре- интерпретации факторов в анализе главных компонент эти величины играют роль нагрузок переменных на факторы (см гл. 13). Из тех же соображений полезными для интерпрета- интерпретации являются коэффициенты корреляции между фактором 463
и бинарными перемершими (категориями). Указанные вели- величины, полезные для интерпретации факторов, получаются следующим образом: квадрат коэффициента множественной корреляции меж- между фактором и(Л> и бинарными переменными у\, ..., у). квадрат коэффициента корреляции между фактором и(*> и бинарной переменной 17.3. Алгоритмы оцифровки неколичественных переменных Общие принципы. Пусть имеется матрица данных X из и р-мерных объектов, у которых все или часть признаков из- измерены в какой-либо неколичественной шкале — шкале по- порядка, номинальной и т.д. Рассмотрим подход, позволяющий распространить на данные такого вида методы многомерного статистического анализа: анализа главных компонент, регрессионного, дис- криминантного, кластер-анализа и т. д. Суть подхода за- заключается в оцифровке неколичественных переменных, т. е. в присвоении категориям неколичественных переменных «разумных», в рамках решаемой задачи, числовых меток. Этот же подход пригоден и для преобразования количест- количественных переменных, которые предварительно подвергаются квантованию, и для анализа переменных смешанной приро- природы. Метод приписывания меток для случая только неколиче- неколичественных переменных приведен в НО, гл. 12]. Здесь формули- формулируются критерии, подходящие для оцифровки с дальней- дальнейшим использованием преобразованной матрицы в различ- различных видах анализа, а метод из [10, гл. 12] обобщается на слу- случай данных смешанной природы. Критерии, на основе которых производится присвоение числовых меток, зависят от используемого метода статисти- статистического анализа. Однако все они представляют собой неко- некоторые функционалы матрицы ковариаций (корреляций) в пространстве оцифрованных признаков. Это связано преж- прежде всего с тем, что матрица ковариаций (корреляций) явля- является основным объектом, который используется методами статистического анализа. 464
Введем теперь некоторые очевидные требования, кото- которым должны удовлетворять наборы числовых меток, полу- получаемые в результате работы процедуры оцифровки. Пусть х — некоторый неколичественный признак из матрицы дан- данных X, имеющий 1Х градаций (категорий) значений. Пусть каждой из 1Х градаций присвоена числовая метка С/° (/ = == 1, 1Х). Поскольку корреляции между признаком х и" другими признаками не зависят от преобразования сдвига и масштабирования меток, потребуем выполнения усло- условий центрированности и нормировки Л где г (i) — номер градации признака х для t-ro объекта. Пусть теперь /.,-— л?/я— частота t-й градации при- признака х у объектов из X. Тогда условия A7.30) можно эквивалентным образом записать в виде 1Х 1 X _L у„х^=о; -L у nxcw«=i. 07.30') г=\ г=\ Выполнение условий A7.30), -A7.30') гарантирует, в частности, от появления тривиальных наборов меток, когда числовые метки, присваиваемые градациям признака ху одинаковы. Оцифровка для сокращения размерностей, статистичес- статистического исследования зависимостей, кластер-анализа. В этом случае категориям неколичесгвенных признаков приписы- приписываются числовые метки, удовлетворяющие условиям A7.30) и максимизирующие величину ?a S?/, A7.31) где i, j = 1, р; р—число признаков; р^-—-коэффициенты корреляции между i-u и /-м признаками после кодировки. Пусть теперь множество переменных х*1), ..., х&) раз- разбито на две группы — группу ХA) из q переменных, подле- подлежащих кодировке (оцифровке), и группу ХB) из р — q пере- переменных, для которых сохраняется исходная шкала (или ис- исходные значения меток). В частности, в группе ХB) могут быть переменные, измеренные и в количественной шкале. Для определенности будем считать, что признаки пронумерова- пронумерованы так, что вХA) входят признаки л:*1),..., х^\ авХ<2> — при- 465
знаки х{ч+1>, ..., xw. Критерий Q2 может быть представлен в виде суммы трех слагаемых: Q2 = Qf+Qf, 2 + Qh где Q'f — сумма квадратов коэффициентов корреляции перемен- переменных из ХA>; Qf,2 — сумма квадратов коэффициентов корре- корреляции между переменными из ХA> и ХB>; Q1 — сумма квад- квадратов коэффициентов корреляции между переменными из Х^2К Величина слагаемого QI не зависит от кодировки, поэтому определение оптимальных меток будем проводить исходя из условия максимума критерия Q2 = Q* -}- Qi,2- Приведем теперь формулы для вычисления оценок коэф- коэффициентов корреляции, входящих в состав сумм Qf и Qf,2- Пусть признаки х('> 6 Х^ и х^ 6 ^A> и пусть lt — число ка- категорий признака дг('>. Тогда, если выполнены условия нор- нормировки A7.30'), получаем, что где С,- — вектор числовых меток для категорий признака x(f>, F (/, /) — нормированная таблица сопряженности размера liXlj между признаками *<{> и xW>, т. е. F (г, /) = - l-fi(i, /) (см. п. 17.1.1). Пусть теперь признак х<1> 6 Х^>, а *<Л 6 ^B> и пусть предварительно признак xSn нормирован и центрирован. Тогда ро- = С'{Р{С}1), где Рг = diag (plt ..., pi(), pk —^часто- —^частота появления &-й градации признака x<f> (k == 1, /j); (С,0)' = (с!1/, ..., с(/*/), а 4(> — среднее значение признака х(/> на множестве объектов с &-й категорией признака х№ (k = I, /j). Для каждого признака х('> 6 ^A> введем симметричную неотрицательно определенную матрицу А/, такую, чтобы удовлетворялось равенство dQ/dCt — \(Ct. Непосредственным дифференцированием получаем, что A,- S N(f, /;C/C;.N(/, 0 + 2 /=«+> Вычислительная процедура. Числовые метки, максими- максимизирующие величину критерия Q2, находятся в результате 466
итерационного процесса, аналогичного описанному в [11, гл. 12]. Пример 17.4. [66] Рассмотрим применение метода оцифровки по критерию A7.31) к данным табл. 17.2, пред- представляющей результаты наблюдения за 12 посетителями ка- кафе (пример условный). Переменные имеют следующий смысл: ^ — сумма, затраченная посетителем, ден. ед.; — время, проведенное посетителем в кафе, мин.; дс<*>, дс<4>, xSh) —соответственно закуска, блюдо и напи- напиток, выбранные посетителем. 100 85 65 65 ПО 120 63 63 45 45 95 95 хC) 1 1 1 2 2 2 4 2 2 2 3 3 1 1 2 2 3 3 125 170 180 95 105 175 135 95 135 63 95 135 Тг *<з> 2 2 2 3 3 3 |блица *«> X 3 1 1 4 3 4 17.2 E) 4 3 4 1 3 4 Переменные хA> и xS7* — количественные, а xS3\ хD>, л^5) — номинальные категоризованные, переменная дс<3> имеет три, а х<4> и х<5> — по четыре градации. Возможно использование переменных, которые не будут подвергаться оцифровке, но их вклад в критерий A7.31) бу- будет учитываться, В данном примере это количественные переменные xS1^, х*~2К Ниже приводятся результаты при- применения оцифровки процедуры. МАТРИЦА КОРРЕЛЯЦИИ ДО ПРЕОБРАЗОВАНИЯ х<5> 1.0000 0.8514 0.3846 —0.1694 0.7244 0.8514 1.0000 0.4474 0.0067 0.8847 0.3846 0.4474 1.0000 0.3441 0.4228 —0.1694 0.0067 0.3441 1.0000 —0.1940 0.7244 0.8847 0.4228 —0.1,940 1.0000 СУММА КВАДРАТОВ КОЭФФИЦИЕНТОВ КОРРЕЛЯ- КОРРЕЛЯЦИИ 2.0191 МАТРИЦА КОРРЕЛЯЦИЙ ПОСЛЕ ПРЕОБРАЗОВАНИЯ 467
1.0000 0.8514 —0.4969 —0.7737 —0.8451 x<2> 0.8514 1.0000 —0.5685 —0.7319 —0.9719 xC) —0.4969 —0.5685 1.0000 0.6288 0.6276 0.7737 —0.7319 0.6288 1.0000 - 0.8200 0.8451 —0.9719 0.6276 0.8200 —1.0000 СУММА КВАДРАТОВ КОЭФФИЦИЕНТОВ КОРРЕЛЯ- КОРРЕЛЯЦИИ 4.8241 ТАБЛИЦА НАЙДЕННЫХ МЕТОК д.C) 1 0.8880 —0.5079 0.6163 2 —0.4589 0.6095 0.5304 3 -0.0274 —0.4869 0.5086 4 0.0000 0.3784 -0.2891 Из сравнения матриц корреляций до и после оцифровки следует, что после оцифровки значения некоторых коэффи- коэффициентов корреляции значительно возросли по абсолютной ве- величине. Так, величина р4> до оцифровки была 0.0067, а пос- после оцифровки стала равной —0.7319. Оцифровка для линейного дискриминантного анализа. Для задач классификации оцифровка иеколичественных признаков производится по критерию, предложенному в 168!. Этот критерий построен па том, что основной информа- информацией, которую используют линейные дискриминантные функции для классификации, являются различия средних значений признаков в разных классах, измеренные в еди- единицах дисперсии (см. гл. 1). Другие компоненты информа- информации о различиях между распределениями классов исполь- используются линейной дискриминантной функцией в меньшей степени. Исходя их этого в качестве набора числовых меток для категорий некоторого признака х примем числа, макси- максимизирующие сумму оценок квадратов расстояний Махала- нобиса от общего центра тяжести по признаку х (т (С)) до центров классов по этому же признаку (rrij (С), / = 1,.^., k) - m (c»2/a2 (C)' A7-32) где olj — вероятность появления объектов из /-го класса; k — число классов; о2 (С) — усредненная дисперсия. Введем в рассмотрение таблицу сопряженности F, столб- столбцы которой соответствуют категориям классификационной 468
переменной, а строки — категориям признака х. Элемент ftj (i=l, ..., lx; /=1, •¦:,*) является, таким образом, ве- вероятностью появления /-й категории переменной х в j-u классе. (В реальной ситуации мы обычно имеем дело с обу- обучающими выборками, и поэтому вместо частот известны лишь их оценки fa — частоты категории / в классе /.) Теперь величины т (С), /п; (С), а2 (С), входящие в A7.32), можно представить в следующем виде: 2 i= I = 2/¦/«/= 2 А-.сь 2 = 2 «¦= 1 t= I очс)= 2 Л/оН 2 с*^- - 2 1 ?1 - - 2 Вводя матрицы мы можем записать к л2 V „ ™) Г" РГ*~ * Р' С- т 1С\ — Г» С- В новых обозначениях критерий A7.32) можно записать в виде **<O=(p«-m*tC»/<s*-p>). П7.33) Очевидно, задача поиска максимума t'z (С) инвариантна относительно преобразований сдвига и масштаба координат 469
С, а потому может быть сведена к задаче иа условный экстре- экстремум р2 (С) => max A7.34) с при условиях т (С) — О, s2 = 1, что приводит в результате к обобщенной задаче на собствен- собственные числа (FDi^F — Ша)С = О. A7.35) Но эта задача эквивалентна рассмотренной в п. 17.1.2 за- задаче на собственные числа ТСУ = XV с переходом С = ^D^1'2 V. При этом, чтобы удовлетворить условиям A7.34), мы должны взять собственный вектор, соответ- соответствующий второму по величине собственному числу kt (см. п. 17.1.2). Итак, мы снова пришли к каноническим мет- меткам. Величина собственного числа Хг = р2 (С) связана с от- отношением t2 (С) выражением *2(C) = pa(Q/(l-p2(C)). A7.36) Как показано в гл. 2, при объемах выборки, сравнимых с числом переменных р и числом градаций /w, применение процедуры оцифровки следует проводить с осторожностью. В частности, целесообразно оцифровывать те признаки, для которых значение р2 (С) статистически высоко значимо. При- Приведем один из полезных критериев, для определения допу- допустимости оцифровки, основанный на асимптотическом рас- распределении выборочных собственных чисел Яг. Оказывается (см. [263, 265, 287]), имеет место следующий результат. Пусть таблица сопр яженностей F с /х строками и /2 столб- столбцами (/, > /2) удовлетворяет условию независимости, т. е. собственные числа канонических уравненийkt— ... = ^/2_i = = 0 (существует только тривиальный набор меток для Я„ = = 1). То1да выборочные числа пки ..., пХ[,^1 для F асимп- асимптотически распределены как собственные числа матрицы, подчиненной распределению Уишарта [16] W {1г—1, /2 — 1, 1/2_-!), где 1/2_х — единичная матрица размерности /2 —¦!. Теперь для построения критерия можно воспользоваться, например, результатами по распределению максимального собственного числа матрицы Уишарта {241] в асимптотике Колмогорова (см. гл. 2). Используя эти результаты, получаем, что при 1Х, /2-*-ор, значение пЯх /(/j — 1) почти наверное сходится к величине \ где 470
Это приводит к следующей формулировке критерия — переменную х следует использовать для линейной класси- классификации в оцифрованном виде, если после оцифровки вели- величина р2 (С) будет удовлетворять неравенству ( , A7.37) Где у = (к- 1)/(/я - 1). В случае, когда к > 1Х, следует поменять местами k и 1Х в A7.37). ВЫВОДЫ 1. АС (см.§ 17.1) является аналогом метода главных компо- компонент в пространстве профилей строк и столбцов ТС. В результате применения АС получаются сопряженные на- наборы числовых меток для строк и столбцов АС (оциф- (оцифровки), что позволяет, в частности, получать визуаль- визуальное отображение строк и столбцов ТС на диаграммах рассеивания. АС применим не только к ТС, но и к матри- матрицам данных типа «объект — свойство», элементы которых неотрицательны и имеют одинаковую природу (на- (например, доли, проценты, денежные платежи и т. д.). 2. MAC (см. § 17.2) применим к матрицам данных гипа «объект — свойство» с переменными, измеренными в неколичественных категоризованных шкалах. Его при- применение позволяет ввести /2-метрику между объектами и между категориями переменных, а также получить набо- наборы числовых меток для объектов (новые факторы) и для категорий. Введенная %2-метрика и факторы могут быть использованы дальше для реализации других процедур статистического анализа, в частности для визуального отображения объектов и категорий. 3. Оцифровку неколичественных переменных (метки для категорий) можно получить и на основе максимизации некоторых статистических критериев (см. § 17.3), выби- выбираемых в зависимости от целей дальнейшего анализа (главные компоненты, дискриминантный анализ). По- Получаемые наборы меток часто близки к получаемым в MAC, но, вообще говоря, не совпадают с ними.
Раздел IV. РАЗВЕДОЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И НАГЛЯДНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ В настоящем разделе рассматривается совокупность моде- моделей и методов, позволяющих анализировать многомерные данные с помощью их отображения в пространство низкой размерности с сохранением существенных для исследовате- исследователя их структурных особенностей. В некоторых случаях структура данных оказывается та- такой сложной, что небольшого числа таких проекций будет недостаточно для их представления и возникает потреб- потребность описания этой структуры на основе агрегирования ин- информации, содержащейся в достаточно большом числе таких низко размерных проекций. Типичной задачей такого клас- класса является задача восстановления плотности многомерной случайной величины. Такая ситуация имеет место при некоторых конфигура- конфигурациях расположения классов в задаче дискриминантного анализа, когда число классов превышает размерность выборки, и т. п. Рассматриваемые модели и методы, естественно, делятся на два класса, в зависимости от размерности q пространства, куда отображаются данные. Если q = 1, 2 (в крайнем случае 3), то они в первую очередь относятся к собственно разведоч- разведочному анализу (РА), когда по некоторому критерию при по- помощи вычислительной процедуры оптимизации ищут ото- отображения, дающие наиболее выразительные проекции, а окончательное решение принимается визуально путем ана- анализа, например на экране дисплея, гистограмм отображен- отображенных данных q = 1 или их диаграмм рассеивания для q =2. Здесь наибольший успех можно ожидать в задачах разделе- разделения смесей, кластеризации, т. е. когда ищется явно выражен- выраженная структура. Успеха можно достичь и в задачах обнару- обнаружения неинформативных признаков. К этому же классу относятся модели и методы решения тех задач, когда исходным статистическим материалом явля- является не описание объектов в виде вектор-признаков, а описа- 472
ние в виде наборов линейных функций от этих вектор-при- вектор-признаков. Типичной задачей этого вида являются задачи ста- статистического анализа по результатам косвенных измерений. Если <7С р, то соответствующие методы можно рассматри- рассматривать как один из подходов к снижению размерностей, на- например для целей кластер-анализа. В этом разделе в основном рассматриваются методы, свя- связанные с линейным проецированием данных. Совокупность таких методов в последнее время получила большое развитие и известна в статистической литературе как «projection pursuit» (PP). Ряд других методов, которые можно от- отнести к РАД, рассмотрен в предыдущих главах. Это ме- метод главных компонент, кластер-анализ, методы много- многомерного шкалирования, а в случае неколичественных пе- переменных— анализ соответствий. Глава 18. РАЗВЕДОЧНЫЙ АНАЛИЗ. ЦЕЛИ, МОДЕЛИ СТРУКТУР ДАННЫХ, МЕТОДЫ И ПРИЕМЫ АНАЛИЗА 18.1. Цели разведочного анализа и модели описания структуры многомерных данных Разведочный анализ данных (РАД; Exploratory data analysis) употребляется, когда, с одной стороны, у исследователя имеется таблица многомерных данных, а с другой стороны, априорная информация о физическом (причинном) механиз- механизме генерации этих данных отсутствует или неполна. В этой ситуации РАД может оказать помощь в компактном и по- понятном исследователю описании структуры данных (на- (например, в форме визуального представления этой структу- структуры), отталкиваясь от которого он уже может «прицельно» поставить вопрос о более детальном исследовании данных с помощью того или иного раздела статистического анализа, обоснования полученной структуры данных с помощью ап- аппарата проверки статистических гипотез, а также, воз- возможно, сделать некоторые заключения и о причинной моде- модели данных. Этот этап называется «подтверждающим анали- анализом данных» (confirmatory data analysis). Иногда выяв- выявление структуры данных с помощью РАД может оказаться и завершающим этапом анализа. С другой стороны, ряд ме- методов РАД можно рассматривать и как методы подготовки данных для последующей статистической обработки без ка- 473
кого-либо изучения структуры данных, которое предполага- предполагается осуществить на последующих этапах. В этом случае этап РАД играет роль некоторого этапа перекодировки и преобразования данных (путем, например, сокращения раз- размерности) в удобную для последующего анализа форму. В любом случае, с какой бы целью ни применялись методы РАД, основная задача — переход к компактному описанию данных при возможно более полном сохранении существенных аспектов информации, содержащихся в исходных данных. Важно также, чтобы описание было понятным для пользова- пользователя. Впервые термин «разведочный анализ данных» был введен Дж. Тьюки в 1962 г. Модели структуры многомерных данных. Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р-мерном) пространстве. Для описания структуры этого множества точек в РАД использу- используется одна из следующих статистических моделей: а) модель облака точек примерно эллипсоидальной кон- конфигурации; б) кластерная модель, т. е. совокупность нескольких «облаков» точек, достаточно далеко отстоящих друг от друга; в) модель «засорения» (компактное облако точек и при этом присутствуют далекие выбросы); г) модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем ис- исходное; типичным примером является выборка из вы- вырожденного распределения; д) дискриминантная модель, когда точки разделены не- некоторым образом на несколько групп и дана информа- информация о их принадлежности к той или иной группе. В рамках модели (г) можно рассматривать и регрессион- регрессионную модель, когда соответствующее многообразие допускает функциональное представление Хц = F (Xi) + е, где Xi и Хц — две группы переменных из исходного набора (пере- (переменные из Хц носят тогда название прогнозируемых пере- переменных, а из Xi — предсказывающих переменных); е — ошибка предсказания. Разумеется, реальные данные обычно лишь приближенно могут следовать этим моделям, более того, структура дан- данных может не подходить ни под одну из указанных в описа- описании моделей даже приближенно. Модели описания структуры зависимостей. В пространст- пространстве переменных для описания структуры зависимостей между переменными часто используются следующие модели: модель независимых переменных, модель линейно зависи- 474
мых переменных, древообразная модель зависимости, фак- факторная модель для линейно зависимых переменных, кластер- кластерная модель (произвольные коэффициенты связи), иерархиче- иерархическая модель зависимости. Основные методические приемы при проведении разве- разведочного анализа данных. Способы анализа и интерпрета- интерпретации результатов в значительной степени зависят от выбран- выбранного метода обработки. Однако можно выделить ряд эффек- эффективных приемов и подходов к анализу результатов, которые являются наиболее общими и в значительной степени опре- определяют специфику собственно разведочного анализа, отли- отличают его от остальных этапов статистической обработки. Это визуализация данных и манипуляции с данными на основе графического отображения; использование аппарата ак- активных и иллюстративных переменных; преобразование данных, облегчающее выявление структур, анализ остатков. 18.2. Визуализация данных 18.2.1. Роль визуализации в разведочном анализе данных. Как выше указывалось, основное назначение РАД — дать компактное и понятное для исследователя описание струк- структуры данных или структуры зависимости переменных. Ви- Визуализация данных, которая предполагает получение тем или иным способом их графического отображения, так что исследователь может просто путем непосредственного ви- визуального анализа этого изображения определить, имеет ли место одна из моделей структуры данных (а, б, в, г), являет- является, по-видимому, наиболее наглядным способом описания. Графическое отображение (гистограммы, диаграммы рас- рассеивания) может быть получено непосредственно в простран- пространстве исходных переменных. Однако «информативное» гра- графическое отображение многомерных данных получается с по- помощью методов РАД, нацеленных на выявление перечислен- перечисленных структур данных и зависимостей (например, главных компонент, анализа соответствий, целенаправленного прое- проецирования и т.д.). В результате применения этих методов получаются образы объектов, переменных и (для неколиче- неколичественных переменных методом соответствий анализа) кате- категория в виде точек обычно размерности 1-—3. Выходная раз- размерность данных может быть и больше 3, но для графического отображения все равно берутся какие-либо одна, две или три их координаты, обычно при этом первые координаты бо- более информативны и используются для визуального анализа в первую очередь. Быстро возрастающая роль визуального 475
анализа многомерных данных стимулирована широким рас- распространением и доступностью технических (вычислитель- (вычислительных) средств, обеспечивающих построение визуальных об- образов. В 60-е и 70-е годы основным и наиболее широко ис- использовавшимся техническим средством для представления графических форм, возникающих в статистическом анализе, служило алфавитно-цифровое печатающее устройство (АЦПУ). Существенно менее доступными были графопостро- графопостроители и графические дисплеи. Тем не менее некоторые дина- динамические формы визуального анализа были разработаны уже в начале 70-х годов именно с целью использования возмож- возможностей графического дисплея, обслуживаемого достаточно мощной ЭВМ. В качестве такого примера можно привести систему PRIME [230]. Современная графика для статистического анализа обла- обладает всеми свойствами и преимуществами компьютерной графики — построение, обработка и модификация графи- графических форм возможна в интерактивном режиме и за корот- короткое время. 18.2.2. Диаграммы рассеивания. Рассмотрим вопросы визу- визуализации многомерных данных, связанные с использовани- использованием диаграмм рассеивания (ДР), которые являются широко распространенной, простой и эффективной формой визуаль- визуального представления данных. Некоторые другие формы ви- визуального представления данных (гистограммы, графики оценок плотности и др.) рассмотрены в [223, 11, гл. 10]. В гл. 8 книги приведены формы визуализации структур, воз- возникающих в иерархических процедурах кластер-анализа. ДР многомерных данных является визуальной формой представления результатов некоторого отображения исход- исходной матрицы данных в двумерное евклидово пространство. Роль исходной матрицы данных может играть матрица «объ- «объект — свойство» или матрица близостей (отношений «объ- «объект— объект», «переменная—переменная»). В качестве отоб- отображенных на ДР единиц могут выступать объекты, пере- переменные, категории переменных (если переменные неколи- неколичественные). Далее они будут называться отображенными единицами (ОЕ). Графические же элементы, с помощью которых ОЕ изображаются на ДР, будут называться выра- выразительными элементами (ВЭ). В табл. 18.1 приведены ос- основные методы анализа, порождающие информативные ДР. Рассмотрим теперь некоторые способы, позволяющие улучшить способность ДР к отображению структурных данных. Маркирование ОЕ. Маркирование достигается, в зави- зависимости от технических возможностей средств графического 476
Таблица 18.1 № п/п 1 1 2 3 4 5 6 7 Типы матрицы данных 3 «Объект — признак» с количественными пере- переменными «Объект — признак» с количественными пере- переменными или с перемен- переменными смешанной приро- природы «Объект — признак» с количественными пере- переменными с добавлением группирующей перемен- переменной «Объект — признак» «Объект — признак» «Объект— признак» «Объект — объект» или «признак — признак» Цель визуального анализа 3 Выделения любой струк- структуры в Данных; интер- интерпретация линейных н нелинейных факторов Выделение любой струк- структуры в данных; интер- интерпретация выделяемых структур Изучение взаимного про- пространственного распо- расположения групп объектов в днскриминантном или кластерном анализе Выделение аномальных наблюдений (outliers) Выделение кластеров Выделение нелинейных структур Выделение любой струк- структуры в данных Способ получения отображения 4 Главные компоненты; не- нелинейное отображение (см. гл. 13) Множественный анализ со- соответствий, нелинейное отображение (см. гл 17, 13) Канонические направления по Рао, целенаправленное проецирование при наличии обучающих выборок (см § 194) Целенаправленное проеци- проецирование (см. § 19.5) Кластер-анализ и далее отображения из стр. 3 табл.; целенаправленное проеци- проецирование (см. § 19 2, 19 3) Целенаправленное проеци- проецирование (см § 19.6) Многомерное шкалирова- шкалирование; анализ соответствий (см. гл. 16, 17) Единицы, отображаемые на ДР 6 Объекты, переменные Объекты, категории пе- переменных, переменные, одновременное отобра- отображение объектов и пере- переменных Объекты, группы объек- объектов (задаваемые различ- различными маркерами для различных групп) Объекты с маркировани- маркированием объектов, подозри- подозрительных как «outliers» Объекты Объекты Объекты илн переменные, или категории в зависи- зависимости от типа матрицы
отображения, путем вариации окраски, формы и величины ВЭ, используемых для представления на ДРотображаемых единиц — объектов, переменных, категорий. Так, обыденной практикой в дискриминантном и кластер- кластерном анализе является выделение на ДР, путем маркирова- маркирования объектов, принадлежащих к разным группам, катего- категорий, принадлежащих к разным переменным в множествен- множественном анализе соответствий. Другой пример — маркирование объектов, подозри- подозрительных на аномальность, на ДР, используемой в целена- целенаправленном проецировании для выделения аномальных наб- наблюдений (см. пример 19.3). Маркирование может быть использовано и с целью ото- отображения на двумерной ДР информации о некотором допол- дополнительном третьем измерении (например, о третьей главной компоненте на ДР, соответствующей двум первым ГК). Для этого, например, объекты изображаются точками, а из этих точек восстанавливается отрезок, параллельный оси Оу (вертикальной оси). Длина этого отрезка пропорциональ- пропорциональна значению третьей координаты, а ее направление вверх или вниз соответствует знаку этой координаты. Если коли- количество ОЕ невелико, то можно маркировать и четвертое из- измерение с помощью, например, горизонтальных отрезков. Другой возможностью на цветном графическом дисплее яв- является использование окраски и ее интенсивности. Напри- Например, красная, оранжевая и желтая окраска для положи- положительных значений третьей координаты (диапазон значений разбивается на три градации — большие, средние, малые) и синий, циан, белый — для отрицательных значений (с ана- аналогичным разбиением диапазона отрицательных значений на три градации). Разумеется, такие ДР могут лишь частично передать информацию о взаимном расположении точек в пространстве более чем двух измерений, и Дж. Тьюки пред- предлагает называть эти ДР 2-^ -мерными [323]. Изменение масштаба. Меняя масштабы ДР по вертикали и горизонтали, тем самым изменяем метрику двумерного изображения — визуально наблюдаемые расстояния и вза- взаимное расположение точек (изменение масштаба соответст- соответствует некоторому линейному преобразованию ОЕ в двумер- двумерном пространстве). Тем самым можно добиться более выра- выраженного визуального представления тех или иных структур на ДР. Один из простых технических приемов изменения мас- масштабов состоит в следующем. Обычно при построении ДР задаются ее размеры — количество строк (линий) по оси 478
Оу и интервалов по оси (к. Размах значений ОЕ по оси Оу делится на число строк, а размах значений по оси Од: ¦— на число интервалов. Полученные частные и являются масшта- масштабами измерений. Меняя задаваемое на ДР число строк и интервалов, можно добиться таким образом и изменения масштабов. Рис. 18.1. Проекция точек, концентрирующихся вокруг параболической кривой На рис. 18.1, а представлено облако точек, которые кон- концентрируются вокруг некоторой кривой. Сжатие по оси Од: делает эту структуру более выраженной, что и демонстри- демонстрирует рис. 18.1, б. При построении ДР часто используются и нелинейные преобразования координат ОЕ, например логарифмический масштаб и т. д., что в ряде случаев позволяет выявить до- дополнительные структурные особенности в данных. 18.2.3. Динамические формы диаграмм рассеивания Многооконные ДР. Новые возможности для визуального анализа представляет одновременное изучение нескольких ДР для одного и того же множества ОЕ. На экране дисплея 479
создается несколько окон, в каждом из которых высвечива- высвечивается своя ДР. При этом отображения исходной матрицы данных могут быть получены как в рамках применения одно- одного какого-либо статистического метода (например, главных компонент), так и при применении нескольких методов (например, целенаправленное проецирование для выделе- выделения кластерной структуры (см. § 19.4) и главных компонент (см. гл. 13}). Конечно, рассмотрение изображений на не- нескольких ДР полезно и в статическом режиме. Однако вве- введение динамических элементов позволяет использовать ка- качественно новые возможности [183, 315]. Простым, но эффективным приемом является использо- использование подвижного окна, положение и размеры которого управляются пользователем. Окно движется по одной из ДР и ОЕ, попавшие внутрь этого окна, маркируются одно- одновременно на всех ДР. Для каких целей может быть исполь- использовано подвижное окно? Приведем только некоторые воз- возможные применения. Одно из возможных использований — проверка предпо- предположения о том, что выделяемое сгущение ОЕ на какой-либо ДР действительно представляет собой кластер в исходном многомерном пространстве, а не является просто свойством данной проекции. Для этого подвижное окно накладывают на сгущение и наблюдают, как расположены те же самые точки на других ДР. Если на какой-либо ДР ВЭ, соответст- соответствующие выделенным с помощью подвижного окна ОЕ, раз- разбросаны равномерно по всему экрану, то, значит, сгущение не является кластером. Если же на всех экранах выделен- выделенная совокупность ОЕ распределена компактно, уверен- уверенность в том, что полученное образование действительно не- некоторый кластер, возрастает. Конечно, ДР нужно выбирать так, чтобы расстояния между ОЕ на них были бы величины одного порядка. Другое возможное использование состоит в изучении ус- условных распределений. Действительно, фиксация точек внутри подвижного окна на какой-либо из ДР соответствует тому, что рассматриваем на других ДР распределение ОЕ, удовлетворяющих условиям xt < х< хг, yd<L у <L yu, где хъ хт, yd, уи — границы окна; х, у — координаты точек на ДР с подвижным окном. На рис. 18.2 показана ситуа- ситуация, когда точки, достаточно равномерно распределенные внутри подвижного окна на левой ДР (рис. 18.2, а), концент- концентрируются вокруг некоторой кривой линии на другой ДР (рис. 18.2, б). Наконец, наиболее обыденный путь использования под- подвижного окна состоит в использовании его для идентифика- 480
ции ОЕ. Для этой же цели может служить и подвижный маркер в виде креста, стрелки и т. д. Вращение. Другим приемом, позволяющим изучать ДР в динамике, является получение последовательности ДР, полученных путем вращения трехмерного облака ОЕ во- вокруг некоторой оси, и изучения его двумерных проекций в фиксированном направлении. Таким образом, можно вы- выбрать наиболее интересные двумерные проекции трехмерных точек. Итак, пусть имеем некоторое отображение наших ОЕ a) • . I • • • *• + + + + + i 4. • • • • Рис. 18.2. Две проекции одного и того же множества объектов: а) пунктиром дано положение подвижного окна, крестами выде- выделены точки, попавшие внутрь подвижного окиа; б) положение тех же точек на другой проекции в трехмерное пространство (например, пространство трех первых главных компонент или трех направлений целена- целенаправленного проецирования по какому-либо из критериев и т. д.). Расположим оси Ох и Оу на экране дисплея, а ось Ог — перпендикулярно к нему. Начнем теперь вращать прост- пространство вокруг оси (к или Оу, а направление проекции пусть остается ортогональным экрану. Выберем для опреде- определенности ось Ох. Координаты ОЕ вдоль этой оси не меняются, а вертикальные координаты получаются из следующих урав- уравнений: — ycost-\-zs'mt A8.1) или 16 Заказ № 291 A8.2) 481
Если координаты у и г были нормированы, то новая ко- координата у также нормирована (имеет единственную дис- дисперсию). Обычно значение t берется с малым шагом и, если ЭВМ позволяет пересчитывать и подавать на экран дисплея ДР достаточно быстро, возникает плавная картина модифи- модификации изображения, своего рода фильм. Вращение, задаваемое уравнением A8.1), отличается от задаваемого A8.2). Чтобы увидеть это, продифференцируем их по t. Имеем —ysxnt;. A8.3) y'(t) = z-y. A8.4) Скорость изменения положения точек по вертикали для вращения A8.2) не зависит от /. В то же время для вращения A8.1) скорость изменяется с изменением угла вращения и в начале вращения скорость зависит только от неотображае- мой визуально координаты г (это явление называется парал- параллакс-эффектом [183]). 18.2.4. Обработка диаграмм рассеивания с помощью статис- статистических методов. Рассмотренные ранее приемы манипуля- манипуляции ДР, хотя и оказываются эффективными на практике, носят тем не менее технический характер. Способы обработ- обработки ДР, приведенные в настоящем параграфе, основаны на статистических идеях, и их целью является повышение «кон- «контрастности» структур, представленных на ДР, что позволяет легче обнаружить их визуально. Рассматриваемый ниже подход основан на выделении А-ближайших соседей (см. гл. 7) для каждой ОЕ на ДР. При этом /г-ближайших соседей выделяются либо в двумерном пространстве, соответствующем ДР, либо в исходном р- мерном пространстве. В качестве метрик может использо- использоваться практически любая метрика, перечисленная в гл. 6, 11. Таким образом, данная процедура управляется тремя факторами: числом соседей; типом метрики; прост- пространством переменных. После выделения /г-ближайших соседей получаем для каждой точки радиус минимальной сферы, в которую попа- попали соответствующие /г-соседей. Радиус такой сферы является: монотонно убывающей функцией от оценки плотности рас- распределения в данной точке по методу /г-ближайших соседей. Теперь можно поступить по крайней мере двумя способами: 1) удалить заданный процент E, 10, 20 %) точек с мини- минимальной локальной плотностью; 2) позволить точкам дви- 482
гаться в направлении градиента оценки плотности (подроб- (подробнее см. [233]). Если на ДР есть какая-либо структура (например, клас- кластерная), то обычно в результате одной из этих процедур она становится более выраженной визуально (см. [323]). 18.3. Преобразования данных в разведочном анализе данных В данном параграфе речь идет о нелинейных преобразо- преобразованиях исходных данных, представленных в виде матрицы «объект — признак». Нелинейные преобразования могут быть использованы в РАД: а) для линеаризации зависимо- зависимостей между переменными, б) для упрощения структуры дан- данных. Линеаризация зависимостей между переменными. Цель использования таких преобразований состоит в переходе к новому набору переменных, зависимость между которыми является, возможно, более близкой к линейной. Если такое преобразование удается найти, то дальше к новой матрице данных можно с большим основанием применять такие ли- линейные статистические методы, как главные компоненты, факторный анализ, линейную регрессию и т. д. Будем рассматривать только преобразования вида где ф< (*A)) — функции из некоторого класса допустимых функций Ф. В качестве критерия, по которому ищется преобразова- преобразование, можно использовать, например, критерий Q= 2 r\h A8.5) i<i t. ;= i аналогичный критерию A7.30). Получить приближенное ре- решение можно, если переменные х^ предварительно градуи- градуировать (область значения переменной *A> разбить на /,- градаций) и дальше использовать алгоритм из § 17.3. Естественно, после градуирования для получения преоб- преобразований фг (х,) можно использовать и множественный ана- анализ соответствий. Дальше, в § 19.6, будет необходим случай максимиза- максимизации A8.5), когда число переменных р = 2. Из регрессионно- регрессионного анализа известно [12, гл. 5], что, когда имеются две слу- 16* 483
чайные величины t/B) и л^1*, наилучшим, в смысле средней квадргплческой ошибки, регрессором вида <рх (я*1*) для слу- случайной величины */<2> (т. е. для регрессии вида t/<2> = — фх (хA)) + е) будет условное математическое ожидание этой случайной величины при я*1*, т. е. q>! (хA)) ~ Е (#B)/ *A)), и, следовательно, функция Е (t/B)/ *A)) имеет макси- максимальный коэффициент корреляции с t/B>. Аналогично верно и для регрессии //A> на *<2>. Поэтому функции <р2 (х<2>) и 4>i (*A)) должны удовлетворять уравнениям '>); 2>) Константы с, и с2 не влияют на коэффициент корреляции. Кроме подхода, связанного с предварительным градуирова- градуированием переменных, можно использовать и некоторые семей- семейства монотонных преобразований, например преобразова- преобразования Бокса — Кокса [196]: (*/('> = ((*<'>)**- 1)/а,, а,^0; или более обширное двухпараметрическое семейство Коэффициенты корреляции ru являются теперь функция- функциями от ak, ph (k — 1, р) и задача A8.5) есть задача максими- максимизации по этим параметрам. Упрощение структуры данных. В этом случае стремятся получить преобразования, после применения которых рас- распределение становится максимально похожим на многомер- многомерное нормальное. Используется некоторый класс преобразо- преобразований, например A8.17), A8.8), но параметры а, и рг оце- оцениваются уже не на основе максимизации критерия A8.5), а при максимизации функции правдоподобия. Рассмотрим случай преобразования A8.7). Если предпо- предположим, что векторная случайная величина Y= (yW, ... у^)' подчинена многомерному нормальному распределению Nр (в, S), то для функции правдоподобия имеем следую- следующее выражение: р(Х\в, S, а) = Bп)-«/ хехр Г—L 2 (X<°>-e'J-i(X«-e)l , A8.9) 484
где <* = («,, .... а,)'; Х?> = ((*<•>)«•,..., (*<»>)«*>); Р n a,—I п—число объектов; Ja = 2 2 W / ~ /= 1 (= i якобиан преобразования. Оценки параметров щ (i = 1, /?), в и 2 получаются из ре- решения задачи (а, в, 2)=** argmaxp (Х|в, 2, а), в, s, сГ Можно использовать и логарифм функции правдоподо- правдоподобия. 18.4. Использование дополнительных (иллюстративных) переменных и объектов При использовании методов РАД существует опасность об- обнаружить в данных такие структуры, которые связаны, скорее, со спецификой данной выборки, но в силу ее недоста- недостаточного объема не отражают каких-либо устойчивых законо- закономерностей в генеральной совокупности. В случае, когда ис- исследуемое множество объектов само представляет собой всю генеральную совокупность, такой проблемы не возникает, однако если результаты, полученные при изучении вы- выборки, будут использоваться для работы с объектами, не входящими в нее, проблема становится серьезной. Конечно, можно надеяться, что этап «подтверждающего анализа» должен отсеять неправомерные со статистической точки зрения выводы. Однако некоторые возможности такого отсева существуют и в РАД. Один из приемов, применяемый с этой целью, состоит в разделении объектов и переменных на две части — активные (объекты, переменные) и иллюстра- иллюстративные, экзаменующие. Разделение объектов на «обучение» и «экзамен» широко используется в дискриминантном ( см. гл. 3) и регрессионном анализе. Использование иллюстра- иллюстративных переменных менее распространено. Применение ил- иллюстративных переменных в кластер-анализе описано в § 12.4. Помимо проверки устойчивости выделенных структур, использование дополнительных элементов помогает и в ин- интерпретации результатов РАД. 485
18.5. Основные типы данных и методы, используемые в разведочном анализе данных РАД применяется к данным, заданным в одной из сле- следующих форм: матрица данных (МД) типа «объект — признак» с пере- переменными, измеренными в количественных шкалах (МДК); МД с переменными, измеренными в ординальной шкале (МДО); МД с переменными, измеренными в номинальной шкале (МДН); МД с переменными, измеренными в шкалах разной при- природы (гетерогенная МД, МДГ); таблица данных типа «объект — объект» (будем рассмат- рассматривать только случай матрицы расстояний (МР)); таблица сопряженностей (ТС). Процедуры статистической обработки, используемые в РАД, могут быть разбиты на следующие группы в зависимости от целей анализа и типа обрабатываемых данных. 1. Вычисление основных статистических характеристик для матрицы типа МДК [101. 2. Преобразования переменных для МДК с целью линеари- линеаризации связей и (или) «нормализации» данных симметри- симметризации (см. § 18.3). 3. Преобразование переменных (оцифровка) для МДК, МДО, МДН, МДГ по различным критериям (см. § 17.4, 18.3). 4. Сокращение размерности данных с помощью линейных отображений: главные компоненты (ГК) (см. гл. 13), целенаправленное проецирование (гл. 19). 5. Нелинейные методы отображения данных типа МДК, МДО, МДН, МДГ (последние три матрицы в метрике Хемминга) (см. гл. 13). 6. Метрическое шкалирование для матриц типа МР (см. гл. 16). 7. Множественный анализ соответствий для МДО, МДН и МДГ, ТС (см. гл. 17). 8. Классификационные методы: кластер-анализ для таблиц МДК, МДО, МР, МДН, разделение смесей распределе- распределений, дискриминантный анализ (см. гл. 6—12). 9. Типологический анализ главных компонент (см. гл. 7). Анализ древообразной структуры зависимостей для МДК (см. гл. 2). 486
10. Кластер-анализ переменных МДК, МДО, МДН, МДГ, ТС. Пошаговый метод анализа структуры зависимостей переменных для МДО, МДН, ТС. 11. Анализ регрессионных зависимостей (метод целена- целенаправленного проецирования, линейная модель) (см. гл. 19). ВЫВОДЫ 1. Этап РАД применяется, когда у исследователя отсутст- отсутствует априорная информация о статистическом или при- причинном механизме порождения имеющихся в его распо- распоряжении данных. Основная цель РАД — построить не- некоторую статистическую модель данных (описания их структуры), которую, вообще говоря, необходимо даль- дальше верифицировать. Можно сказать, что на этапе РАД формулируются статистические гипотезы, которые долж- должны быть проверены на этапе подтверждающего анализа. 2. Важнейшим элементом РАД является широкое исполь- использование визуального представления многомерных дан- данных, возможности которого возросли с появлением ди- динамических форм визуального представления. 3. Преобразование данных в РАД позволяет либо линеари- линеаризовать связи между переменными, либо упростить для дальнейшего описание структуры данных. 4. Для верификации результатов РАД эффективным прие- приемом является использование аппарата иллюстративных переменных и объектов. Глава 19. ЦЕЛЕНАПРАВЛЕННОЕ ПРОЕЦИРОВАНИЕ МНОГОМЕРНЫХ ДАННЫХ В этой главе в основном рассматриваются методы линей- линейного проецирования данных. Совокупность таких методов в последнее время получила большое развитие и известна в заружебной статистической литературе, как «projection pursuit» (PP). Будем здесь использовать термин «целенаправленное проецирование» (ЦП). Методы ЦП являются естественным обобщением классических методов многомерного статисти- статистического анализа, таких, как факторный анализ, анализ глав- 487
ных компонент, линейный дискриминантный анализ и т. д. В отечественной литературе [36—40, 65, 67, €9, 104, 328J содержатся постановки ряда задач ЦП и методы их ре- решения. 19.1. Цель и основные понятия целенаправленного проецирования Метод ЦП [230, 246, 251, 328] основан на поиске наиболее «интересных» («выразительных») ^-мерных линейных проек- проекций исходных р-мерных данных X(n> = (Л\ Х„), где q <Г р. В РАД q = 1,2, реже 3. Пусть U — оператор линейного проецирования р-мер- р-мерных данных на ^-мерное пространство, т. е. набор из q ли- линейно независимых р-мерных векторов 11г, ..., Uд, таких, что по определению VXk = (U\ Xh, ..., U'4Xh)', 1<? < < я и Q (U, X) — некоторая статистика, выборочное зна- значение Q которой вычисляется по ^-мерной выборке объема п. Тогда Q = Q(U, X<»>) - Q (?/%, ..., U'Xn) называется проекционным индексом (ПИ), характеризующим вырази- выразительность проекции U относительно статистики Q. Решение задачи РАД методом ЦП состоит из двух этапов: 1) выбор проекционного индекса Q (U, Х(а)); 2) поиск проекций U, наиболее интересных относительно Q, т. е. решение задач: найти U=argmax^@, X»). A9.1) и Первому этапу посвящены следующие параграфы, здесь же кратко остановимся на втором. При решении задачи {19.1) для ряда важных ПИ Q (U, Х(">) удается использо- использовать последовательный (пошаговый) метод получения про- проекционных векторов Ux, ..., Uч. Допустим, что уже выбраны первые (q — 1) проекцион- проекционных векторов (/j, ..., Uq-i- Тогда решается задача A9.1) в классе операторов U= A1г, ..., Uq), где первые (q — 1) век- векторов — это отобранные ранее векторы, a U q — любой ли- линейно независимый с ними вектор. Иногда из формулы для Q (U, Xin>) ясно, что достаточно брать векторы Ux, ..., Uq ортогональными, но в общем случае направления образуют косоугольную систему. Эта процедура может быть улучшена в результате использования дополнительного критерия «не- интересности» направления проецирования. Тогда в алго- алгоритм можно включать шаги, на которых «неинтересные» на- направления выбрасываются. В каждом из рассмотренных ва- 488
риантов пошаговый метод реализуется обычными процедура- процедурами условной оптимизации (условия линейной независимости, ортогональности или S-ортогональности, где S — напри- например, ковариационная матрица). Имеются важные ПИ, для которых пошаговый метод не эффективен. В этом случае не- необходимо вернуться к оптимизационной задаче A9.1) в ис- исходной постановке, т. е. решать ее как задачу безусловной оптимизации на многообразии всех операторов ^-мерного проецирования. Численные процедуры решения таких за- задач разработаны в [37—39] и рассмотрены в гл. 20. Прежде чем перейти к последующему изложению, крат- кратко остановимся на вопросе, почему собственно используют- используются линейные отображения? Имеется несколько обоснований различной природы для использования линейных отобра- отображений многомерных данных для целей анализа. Перечис- Перечислим некоторые из них (оговорим, что порядок перечисления не отражает их относительной важности). Во-первых, линейные отображения приводят к тому, что в качестве новых переменных в пространстве образов исполь- используются линейные комбинации исходных переменных. Это существенно упрощает интерпретацию выделяемых струк- структур (например, кластеров), поскольку позволяет исполь- использовать такие хорошо освоенные в статистике понятия, как факторные нагрузки или вклады переменных (нормирован- (нормированные тем или иным способом коэффициенты линейных комби- комбинаций). Во-вторых, имеется важное статистическое обоснование, связанное со статистическими свойствами линейных проек- проекций многомерных случайных величин. Именно при доста- достаточно широких предположениях относительно плотности распределения многомерной случайной величины X [215] распределение случайно выбранной линейной комбинации переменных стремится к нормальному, когда р->-оо. На практике это означает, что при достаточно большом числе переменных подавляющее большинство линейных комбина- комбинаций исходных переменных будет иметь «почти» нормаль- нормальное распределение. Поскольку нормальное распределение является неко- некоторым эталоном распределения, не обладающего какой-ли- какой-либо из перечисленных в § 18.1 структур (за исключением структуры типа эллипсоидального рассеивания), при по- поиске этих структур можно выбирать линейные комбинации, распределение которых наиболее сильно отличается от нор- нормального. В частности, в качестве ПИ можно использовать любые критериальные величины, применяемые для провер- проверки гипотезы нормальности. 489
В-третьих, имеется довольно общая статистическая мо- модель для кластерной структуры в виде смеси эллипсоидаль- эллипсоидально симметричных распределений, рассматриваемая в сле- следующем параграфе. Оказывается, что вся информация о клас- кластерах содержится в некотором линейном подпространстве R+, называемом дискриминантом подпространства. Если компонентами смеси будут нормальные распределения, то снова придем к разложению исходного пространства на два компонента — «интересный», имеющий распределение, от- отличное от нормального, и содержащий линейные комбина- комбинации с нормальным распределением. 19.2. Проекционные индексы, подходящие для выделения кластеров 19.2.1. Смеси эллипсоидально симметричных распределений как модель кластерной структуры. Будем предполагать, что плотность распределения р (X), генерирующего выборку Х(/!), представляет собой смесь унимодальных эллиптиче- эллиптически симметричных плотностей Р(Х)= ijflidiW, A9.2) «•= i где d,[X) = c(d,p, Vf)d((X-Mt)'Vf-l(X-Mt)); (I9.2') k с (d, р, W) — нормирующая константа; а, > 0, ^ °г ~ 1 — веса компонента смеси; d (у) — некоторая неотрицательная, монотонно убывающая при у —*- оо функция (yp~1d (у) dy ¦< <; оо); Mt — вектор средних i-й компоненты смеси; W — невырожденная матрица ковариаций (внутрикомпонент- ного рассеивания), одинаковая для всех компонент. В частности, если d (у) ~ ехр (- у'2), то d, (X) будет плотностью нормального распределения. (Некоторые дру- другие примеры плотностей приведены в § 20.1.) Смесь плотностей вида A9.2), A9.2') можно рассматри- рассматривать как одну из возможных моделей для описания кластер- кластерной структуры. Плотность р (X) имеет k модальных значе- значений (если компоненты смеси достаточно разнесены), и точки в окрестности какой-либо модальной точки можно считать относящимися к одному н тому же кластеру. 490
Матрицу ковариаций для случайного вектора с плотно- плотностью р (X) можно представить в виде S = В + W, где В— матрица межкомпонентного рассеивания В= V а,(М,-М0)(М,-А1в)'; i — 1 к Wo '= ^ atMi — вектор средних значении для X. Дальше, i 1 не ограничивая общности, для простоты будем считать, что величина X центрирована, т. е. Мо = 0. Пусть теперь z — U'X — некоторая одномерная проек- проекция. Плотность случайной величины z есть А-компонентная смесь симметричных унимодальных распределений * /(z)= >] atet(z), et(z) = e((z—mt)/w)/w, i= 1 где e(z)=c(d, p, /„) jd (z* + *2 Дисперсия г равна s2 = б2 + ну2, где б2 62(?/) — вели- величина межкомпонентного разброса для z, т. е. b2 = t/'Bf/. Введем отношение ^(и) = Ь2(и)/и>2(и), A9.3) которое можно рассматривать как мер> различия компонент смеси для одномерной проекции, задаваемой вектором U. Поиск направлений проецирования, максимизирующих отношение t1 (U), приводит к каноническим переменным. 19.2.2. Дискриминантное подпространство. В дискрими- нантном анализе используются так называемые канониче- канонические переменные иA) - У,' X (/ 1, ..., q+) (см. [129]), где векторы V, (i - 1, ..., q+) суть собственные векторы с поло- положительными собственными значениями tlt ..., tq+ > 0 зада- задачи (В—-^W) К — 0. Число qv< ruin (p, k — 1) и зависит от геометрической конфигурации векторов средних М, (/ — 1, k). В частности, если центры компонент смеси лежат на одной прямой, то q+ ~- 1. Векторы V, б>дут В-ортогональ- ными, W—ортогональными, и, следовательно, S-ортого- нальными. Величина собственного числа t, равна значе- значению t1 {V,), т. е. отношения A9.3) для направления проеци- проецирования Vt. Подпространство R+ = span (Vu..., V7ь) называется дискриминантным подпространством (ДП) и содержит пол- 491
ную информацию о различиях среди компонент смеси A9.2), другое эквивалентное определение этого подпространства будет: R+ = span (W~x Мъ ..., W-1 Мк). В связи с вышесказанным следует, что проекционные век- векторы для ЦП (в рамках модели A9.2), A9.2')) должны принадлежать R+. Оценка ДП является одной из задач дискриминантного анализа. Однако в ДА считается, что известны или могут быть оценены обе матрицы В и W. Оценка матрицы W про- производится по обучающим выборкам (ОВ), т. е. в дискрими- нантном анализе матрица Х(п> должна быть разбита на k под- подматриц X'"'* (/ = 1, k) относительно объектов (наблюде- (наблюдений), из которых известно, что они принадлежат /-й компо- компоненте смеси A9.2). Если же ОВ нет, то может быть оценена только матрица и приходится использовать другие подходы. 19.2.3. Проекционные индексы, использующие математи- математическое ожидание монотонных функций плотности одномер- одномерной проекции. Рассмотрим однопараметрическое семейство проекционных индексов (ПИ) для одномерных проекций, за- задаваемых вектором U. Qa(?/, Х) = зЭЕ//3(г), (р>0), A9.4) где Ef — оператор математического ожидания по плотно- плотности / (г). Приведем без доказательств неравенства, связывающие значение Qp (U, X) и отношение t2 (U) - b2lw2 в рамках модели A9.2): <g(e,$)(\ + t4U))W. A9.5) где константа g (е, Р) = Е^ (г) не зависит от U. В частности, если имелась смесь нормальных распреде- распределений, то g (e, р) = ЩУЩ^УТЩ. Можно показать, что когда t2 (U) = 0, то Qp (U, Х)~ — § (е> Р)' те- точной будет правая граница. Величина g (e, P) является минимальной, достигаемой индексом Qp (U, X). С другой стороны, левая граница асимптотиче- асимптотически достигается, если все попарные расстояния Махалано- биса ftj — (m, — nijJ/w2 между компонентами смеси неогра- неограниченно возрастают, т. е. ?г}->оо. Поэтому можно ожи- ожидать, что если имеются проекции, где компоненты смеси хорошо разделены, то они будут найдены решением соответ- 492
ствующей A9.4) максимизационной задачи. Конечно, это, скорее, эвристическое соображение, нежели точные рассуж- рассуждения (можно, в частности, показать, что Qp (?/, X) не яв- является монотонной функцией t2 (U)). Пример 19.1. Приведем выражение для вычисле- вычисления Qfi (U, X) в случае смеси нормальных распределений при Р = 1. Qt(U, X) = g(e, 1)A+<»({/))>/» f 1 + 2 \ Для нормальной плотности величина g (е, 1) = 1/Bугл). Когда Р-»-О, критерий A9.4) переходит в энтропийный критерий Qo (U, X) = - j / (г) In (s/ (г)) dz. A9.6) Все приведенные выше эвристические соображения мо- могут быть применимы и к A9.6). Замечание. Можно использовать и отрицательные значения Р в A9.4). Тогда, однако, нужно либо искать на- направления U, минимизирующие величину Qp (U, X) ф < 0), либо переходить к ПИ вида 1/Qp (U, X) или —Qp (V, X) и снова решать для последних задачу на максимальное зна- значение. 19.2.4. Проекционные индексы, основанные на использо- использовании моментов третьего и четвертого порядков. Идея ис- использования момента третьего порядка для поиска направ- направлений, хорошо отображающих кластеры (если они есть), достаточно очевидна, если предполагать верной модель сме- смеси симметричных распределений. Пусть U — проекционный вектор, тогда третий момент для одномерной проекции за- запишется щA/)=2а,т1. A9.7) i= i Дальше всюду, без ограничения общности, будем считать данные центрированными, т. е- полагать S atMt=0, тогда к 2 ам = о. Из выражения A9.7) видно, что отличие fi3 (U) от нуля" обусловлено только несовпадением средних значений ком- компонент смеси (тг= M'tU). Конечно, даже при несовпадении средних \х3 может быть равен 0 для любой проекции, напри- 493
мер, для любой проекции двухкомпонентной смеси с равны- равными весами а1 ~ а2 ~ 1/2. В качестве ПИ в решении максимизационной задачи целе- целесообразнее использовать не сам третий момент, а коэффи- коэффициент асимметрии 7i ~ Цз/s6- Хотя возможно и непосред- непосредственное использование ц3 (U) для восстановления дискри- минантного подпространства (см. п. 19.3.2). Использование четвертого момента и связанного с ним коэффициента эксцесса у2 как ПИ основано на том сообра- соображении, что если имеется смесь нормальных плотностей, про- проекциям, на которых компоненты смеси не разделены, соот- соответствует нулевое значение коэффициента эксцесса у2. Для выделения выразительных проекций, вообще говоря, сле- следует решать две задачи — искать как проекции, доставля- доставляющие максимум 7г. так и проекции, доставляющие минимум. Выражение для четвертого момента одномерной проекции имеет вид: ' A% A9.8) Константа с зависит только от функции d (у). В частности, для нормального распределения с -- 3. Коэффициент экс- эксцесса тесно связан с ПИ, предложенными Краскалом в ра- работе [259]. где Ddtt — дисперсия расстояний в степени а между точками из Х(">; Erf" — среднее значение а-х степеней расстояний Т. е. Украск — это коэффициент вариации а-х степеней рас- расстояний. Дж. В. Краскал предлагал использовать значения а< 1, в частности а = 2/7. Однако, как показывает опыт практи- практического использования таких ПИ, на самом деле более эф- эффективно использовать а > 1. Легко показать, что при а 2 ^Краск -~ 7а+ 1- Как и при использовании моментов треть- третьего порядка, для восстановления дискриминантного подпро- подпространства не обязательно решать оптимизационную задач) с 7а- Альтернативный подход используется в п. 19.3.2. 19.2.5. Проекционные индексы, основанные на распределе- распределении разностных векторов. В задачах кластерного анализа и разделения смесей важной характеристикой структуры дан- данных является распределение разностного вектора Xtl — -Х„. 494
Предположим, что р-мерный случайный вектор X имеет плотность распределения р (X). Введем ПИ где z,- — U'Xi, a > 0. Плотность распределения случайной величины z = zx — z2 имеет вид: Следовательно, Q2, a (U, X) = s JJ /t/ ft) fv (zt + st) % (t, a) dtdzu -— oo где x (t, a) — плотность равномерного распределения на интервале [— a, al. Таким образом, Q2,a (.U, X) является оценкой Qj (U, X) и при a -> 0 Q2 a (U, X) -*• Qj (U, X) (Qx (U, X) -- Qp (U, X) при Р =- 1); В случае, когда имеется матрица данных Х(">, в качестве оценки значения ПИ Q2,a естественно взять частоту встреча- встречаемости пар векторов Хп — Xi2, таких, что \U'Xn — —U'X,.,| < as, где s-—выборочное стандартное откло- отклонение. Обратим внимание, что указанную оценку для ПИ Q2?a можно использовать для поиска и ^-мерных выразительных проекций q > 1. Выборочное значение ПИ Q2>a дает оценку значения ПИ Q, A9.4) и тем самым еще одну содержательную интерпрета- интерпретацию ПИ Qg (U, X). Покажем, что соответствующая интерпре- интерпретация ПИ Qp (U, X) существует и для всех целых р. Пусть Хи ..., Хщ •— выборка из генеральной совокупно- совокупности случайного вектора X с плотностью р (X). Введем про- проекционный индекс Qr. «(U, X) = L—- Р {S (ZW) < as}, сг<х где г — произвольное целое; ZW = (U'Xt U'XrY и S2 (ZW) = J- S \zj — 2b|2v z0 = - ^ Z;; cr — объем единичного шара в г — 1-мерном пространстве. Плотность распределения r-мерной случай- случайной величины {г1 — г0, ..., zr — г0) сосредоточена на под- 495
пространстве, задаваемом уравнением га+ •••+?,. = О и имеет вид: gu(zlf ..., гт) =$fu(zi + f) ... fu(zr+t)dt, Следовательно, Or, a (U, X) = ЯГ- » J ... J /у (Zl+/)... Д/ (zr+ ft где Ха B<г))—плотность равномерного распределения в шаре с центром 0, радиуса а в подпространстве 2 z,-=0. В слу- случае, когда задана матрица Х<">, выборочной оценкой значе- значения ПИ является частота встречаемости в данной выборке объема п подвыборок объема г, стандартное отклонение ко- которых не превосходит as, где s — стандартное отклонение всей выборки. Те же рассуждения, что и выше, показывают, что выборочное значение ПИ Qr,a дает оценку значения ПИ Q^r-i<U, X). 19.3. Выявление эллипсоидальной кластерной структуры (восстановление дискриминантного подпространства) 19.3.1. Восстановление дискриминантного подпространства на основе проекционных индексов типа функционалов от плотностей распределения проекций. Почему решение оп- оптимизационной задачи A9.1) с использованием ПИ вида A9.4) приведет к выявлению кластерной структуры? Час- Частично ответ следует из рассмотрения неравенства A9.5). Бо- Более того, оказывается, что, решая пошаговым методом зада- задачу A9.1), придем к некоторому новому базису в ДП, которое, как указывается в п. 19.2.2, содержит полную информацию о кластерной структуре в случае, если .верна модель A9.2), A9.2'). Верна следующая лемма. Лемма 19.1. Пусть имеет место модель смеси распре- распределений A9.2), A9.2'). Предположим теперь, что векторы ?/,, ..., Uq* найдены с помощью последовательной (step-wise) процедуры максимизации ПИ Qp (U, X) A9.4) и при этом каждый из векторов Ut S-ортогонален подпространству, на- натянутому на векторы Uu ..., !/,-_!, т. е. к span A1Ъ ..., V,^. Тогда каждый вектор Иг принадлежит к дискримннантному подпространству R+ и, более того, /?+ = span (?/lf ..., Uq+). Таким образом, векторы U1, ..., Uq+ образуют некоторый базис в R+, отличный от канонического Vu ..., Vq+. 496
Доказательство. ПИ Qp (V, X) есть некоторая функция от G от s, w, тъ ..., тк, т. е. Qp (U, X) — (G (s, w, m-i, ..., mh). Каждая же из величин s, w, mx, ..., mk есть функ- функция вектора V. Дифференцируя G по U и приравнивая про- производную нулю, получим уравнение, которому необходимо должен удовлетворять вектор, максимизирующий Qp (U, X): {= 1 где через Gb Gw, Cm. обозначены соответствующие частные производные. Умножим это уравнение слева на W-1, что дает после некоторых преобразований (h(U)lp + W-lb)U=V, где V= V GmW-lMtt h(U)= Gw+Gs. A9.10) Вектор V является линейной комбинацией векторов W-1 Mit каждый из которых принадлежит R+ (предполагаем X цент- центрированным) и, следовательно, сам вектор V б R+- Теперь покажем, что вектор Vu максимизирующий Qp (U, X), принадлежит R+. Предположим, что это не так, т.е. Их= = c,U+ + с2 U-, где U+ б R+ и U- б R~ (R~ есть S- ортогональное дополнение к R+) нс2=^0. Подстановка 1!г в A9.10) приводит к следующему уравнению: Вектор в правой части этого равенства принадлежит R+. С другой стороны, значение h (L/) = 0 только, если t2 (U)=0, т. е. если Ux б R~ (это можно проверить непосредственным вычислением производных G's и G'w). Следовательно, ра- равенство A9.10') верно, если L/t б R~ (и тогда V = 0, сх=0 и 1/г не является максимизирующим вектором) или если U~ = 0. Итак, вектор 1/г, максимизирующий Qp (V, X), принадлежит к R+. Аналогично доказывается, что векторы U2, ..., U q+ также принадлежат R+ (при условии попарной S-ортогональности). Так как rank (R+) — q+ и эти векторы S-ортогональны, то R+ = span ({/,, ..., Uq+). Заметим теперь, что число q+ обычно неизвестно. Одна- Однако и в этом случае лемма 19.1 позволяет получить неко- некоторые полезные следствия. Например, если q+ = 3, то пер- первые три вектора иъ U2, U3 позволяют извлечь всю информа- информацию о различиях между компонентами смеси. Когда же 497
q+ > 3, но собственные числа tA, ..., tq+ достаточно малы по сравнению с t3, то по соображениям непрерывности те же самые три вектора Ult U2, U3 извлекают главнуючасть та- такой информации. С другой стороны, если все собственные числа ti примерно одинаковы, безразлично, какие векторы брать для проецирования, лишь бы они принадлежали R+, но это обеспечивается. Другими словами, если задача поддается визуализации, т. е. имеется проекция размерности q < 3, на которой компо- компоненты смеси хорошо разделены, то она будет получена с по- помощью критерия A9.4). Приведем пример, показывающий, что условие равенства внутрикомпонентных матриц ковариации является сущест- существенным для оценки дискриминантного подпространства на основе максимизации ПИ типа Qp (U, X). Пример 19.2. Рассмотрим двумерное распределе- распределение Легко проверить, что X имеет среднее, равное нулю, н еди- единичную ковариационную матрицу. Проекция Хна первую координатную ось имеет плотность вида а на вторую ось Заметим, что /j (z) не зависит от т, а /2 (г) не зависит от а, поэтому 1) для любого а существует такое т0 = т0 (а), что для всех т > т0 критерий Qx A9.4) достигает максимума на проекции ?/ = A,0)'; 498
2) для любого т существует такое а;, = а0 (т), что для всех а > а0 критерий Qx достигает максимума на проекции U = @, 1)'. В обоих случаях для выделения кластеров, ска- скажем, по критерию дискриминантного анализа или визу- визуально, предпочтительнее вторая координатная ось. На этой оси расстояние махаланобисского типа между компонента- компонентами смеси максимально. В то же время следует отметить, что проекция на первую координатную ось обладает следующим экстремальным свой- свойством: различие по вторым моментам (отношение дисперсии первого компонента смеси (У~2 при а -»- оо) к дисперсии вто- второго компонента @ при а->оо) максимально). Таким об- образом, можно сказать, что в условиях, когда модель смеси с равными ковариационными матрицами неверна, проек- проекции, получаемые из условия максимума критерия, могут быть экстремальными как в отношении неоднородности средних значений компонент, так и в отношении неоднород- неоднородности дисперсий. 19.3.2. Оценка дискриминантного подпространства на осно- основе моментных индексов. Использование ЦП на основе крите- критериев вида A9.4) на практике требует значительного объема вычислений. В данном параграфе предлагается простой спо- способ оценки ДП или нескольких векторов на него на основе критериев асимметрии и эксцесса [69]. Полученные таким способом направления проецирова- j иия могут использоваться как самостоятельно, так и как > «хорошие» стартовые точки для определения направлений проецирования на основе критерия A9.4). Рассмотрим способ получения векторов, математическое ожидание которых принадлежит не самому ДП, а подпрост- подпространству Rm = span (Mlt ..., Mk). Переход к ДП осуществля- осуществляется умножением этих векторов на матрицу S. (Напомним, что величина X предполагается центрированной). Используя A9.7), A9.8), докажем следующую лемму. Лемма 19.2. Пусть по выборке получены векторы t/, (U) = A In) 2 (W Xjf X), A9.11) U% (U) = A /л) 2 (W Xjf X} - cs* Si/, A9.12) /= i где S — оценка матрицы ковариаций X; U — произвольный вектор. 499
Тогда для математических ожиданий векторов A9.11), A9.12) верны соотношения W, (U) = сх (л) 2 at (Mi Uf Mt; A9.13) i = 1 И/, (I/) = Ci(n) I 2 atWUfMi- - ?( 2 a, /n? ) 2 a, m, Mt) , A9.13') \»=i /»=i / где константы cx(n) и с2 (и) зависят только от л и Cj (л), сг (п)->- ->- 1, когда л ->- оо. Из A9.13), A9.13') следует, что Докажем только равенство A9.13) для вектора A9.11). Имеем /— I (в левой части в квадратных скобках стоит смещенная оцен- оценка третьего момента ц3). Возьмем производную по U от обеих частей этого равенства. Так как дифференцирование — ли- линейная операция, то в левой части равенства его можно провести под знаком оператора усреднения Е, что и дает со- соотношения A9.13). Следующая лемма определяет способ получения оценки некоторого вектора из RM, свободный от произвола в выборе вектора U. Лемма 19.3. Пусть Н есть некоторая положительно определенная матрица, а 2 а*(Л*;НМ,)Ме. A9.14) I— i Тогда для вектора U(H)^(l/n) 2 (Х'/НХ,)Х, A9.15) 500
верно равенство EU (Н) = сг (п) U (Н). Действительно, пусть вектор U в A9.11) распределен независимо от X с средним 0 и матрицей коварнаций Н. И пусть Еу— опе- оператор усреднения по U. Тогда Еу (Е?/х (?/)) = Еу i/j = Операторы Ее/ и Е в левой части равенства можно поме- нять местами, поскольку U н X независимы. Но Еу Ux {U)~ — U (Н), что и доказывает лемму 19.3. 19.3.3. Оценка подпространства RM- Пусть теперь Uo, ..., k U q+-i — последовательность векторов вида Uj+i = 2 Вектор Uo задается формулой A9.14). Каждый нз векто- векторов Ui ^ RM. Предположим, что ранг набора векторов Uo, ..., U q+ равен q+, тогда верна следующая лемма (дается без доказательства). Лемма 19.4. Пусть последовательность векторов Vт задается соотношением где i/e определяется нз выражения A9.15). Тогда I Поскольку ранг системы векторов Uo, ..., U g+-t равен р+, то подпространство Rm, натянутое на векторы Uo, ..., ,+_!, будет являться оценкой для RM- Хотя в реальной ситуации ранг q+ неизвестен, можно все же построить оценку RM, например, с помощью сле- следующей процедуры. Пусть Rq — подпространство, натянутое на Uo,..., Ut-U а г|г — угол менаду Rq и Ui+1. Можно показать, что углы векторов Uq+, ..., Up с R\ и тем более углы цч+, .»., \\р должны стремиться к 0. Анализируя последовательность углов r|j, можно определить номер q+, начиная с которого они становятся малы, и в качестве оценки для Rm взять Ri+. 501
19.4. Проекционные индексы для дискриминантного анализа Как направления проецирования в ДА можно использо- использовать канонические направления по Рао. Таким образом, в качестве ПИ выступает отношение Р A9.3). В случае двух классов придем к единственному направлению— дискрими- нантной функции Фишера (см. п. 1.1.2). Однако использо- использование канонических направлений эффективно только тогда, когда соответствующая структура может быть описана смесью вида A9.2), A9.2') с равными матрицами внутриком- понентного рассеивания и, что, пожалуй, самое главное, рас- расстояния Махаланобиса между классами должны быть до- достаточно велики. Кроме того, оценка матрицы ковариаций W и средних чувствительны к наличию аномальных наблю- наблюдений. Предлагаемые в п. 19.4.1, 19.4.2 подходы позволяют иногда построить направления проецирования, которые дают картину взаимного расположения объектов из разных классов в ситуациях, отличающихся от модели A9.2), A9.2'). 19.4.1. Проекционные индексы для линейных классифика- классификаторов. Пусть р-мерная выборка X разбита на две подвыборки ^м = { Xiu> . . . , Хп,д) и Ха = {Хъг, . . . , ХПг>г }. В рамках классической модели ДА (построение линейного классификатора) наиболее интересной одномерной проек- проекцией этой выборки является решение задачи ЦП для ПИ: A9.16) где Xh—средний вектор выборки X.t, k= I, 2 и sy — сред- неквадратическое отклонение проекции выборки X = = \г (J Х2. В качестве робастного варианта такого ПИ рассматривается 0(U\= mad((/'X) * У - > Здесь med — медиана, a mad — медиана абсолютных от- отклонений, например, mad U'X — медиана последователь- последовательности |#jt — угг\, где yti, yu пробегают выборку U' X. В [246] П. Хьюбер особо рекомендует следующую модифи- модификацию ПИ: mad{({/'X,-med(/'X1)U(f'Xa-medt;'Xa)} 502
В тех случаях, когда нет оснований для классической модели ДА даже вробастном варианте, желательно исполь- использовать проекционные индексы, опирающиеся на более де- детальную информацию о распределении разностного вектора Хг~ Х2, Х„е Х„, Л- 1, 2. Рассмотрим проекционный индекс Qx (U) - ^ X XP(\U'(X1—Х2)\ <Я), где X—задаваемый, априорный по- порог разрешимости и ||1/|| = 1. Он относится к тем ПИ, для которых критерий выразительности непосредственно зало- заложен в их построение. Пусть fh (X) — плотность распределения случайного р-мерного вектора Xh и fk (у, U) — индуцированная плот- плотность распределения проекции yk —U'Xh. Тогда проекция разностного вектора U' (Xt — Хг) имеет плотность распре- деления / (у, U)-= J Д (уи U) f2 (y + yt, U) d yx и поэтому — оо 00 ОО можно записать Qx (U) = J" Xi (i/. ^) / (У, U) dy = JJ XiX Х(У1 — У2, Я-) h (Уп U) /2 (гГ2. V) d^i dy2, где Xi (у, Я,) — плотность равномерного распределения на отрезке I—Xlt X\. Таким образом, в теоретическом случае при малых X ПИ Qx (U) близок к ПИ: Q0(U)-] к{у,и)Ш U)dy. Сравним выборочные варианты этих ПИ. Пусть, как и вы- выше, заданы две обучающие выборки Хг и Х2. Тогда в качестве Qx (U) — выборочного варианта ПИ Qk (U) — возьмем Qx (У) = ¦~^Р(\ W (XiA-X,J | < X), 1 < i < пх где Р (•) — частота, a Qe (U) построим следующим обра- образом: —^ выберем оценку плотности fh (у, U) в виде /ft (у, U) — 1 nk A, •= ~.2j Xi (У — yi'h, г)- гДе ^ь* = U'Xi,h. Тогда 00 [ J X 503
_ f 0, 2 < 0 d с$десьг+ - j ^ Z>Q- Заметим, что ?72+^2»+ = = (i2>o'поэтому -\У^-ЪЛ\)\- A9.19') Сравнивая формулы A9.19) и A9.19'), приходим к сле- следующему результату: Qb{U)^Q0(U) + ±±-Q0(U). A9.20) Докажем формулу A9.20). Для любых *, /и Я, >0 непос- непосредственное вычисление показывает, что | 2А, X* 4- к d (^~1Уг.1—У;,а)+ ПО9П + Т1Г к • {19М} Разделив A9.21) на щп^ и просуммировав по i, j, получа- получаем формулу A9.20). В многоклассовой задаче, когда X = U Xs, где Х«—s-я р-мерная обучающая выборка объема «,; обозначим через \g,t массив разностных векторов {X,-,e— X7-,t}. Положим ±? M, s<t); A9.22) k). A9.23) Ясно, что QJ(tf) = 2>,tQ*,st<*/), A9.24) где nst — п$щ . Таким образом, ПИ A9.24) является скаляризацией матрицы критериев Qxt st (U)- На основе скаляризации этой матрицы строятся и другие ПИ, напри- например, A9.25) A9.26) 504
где ast > 0 — матрица штрафов за ошибки неправильной классификации. Отметим еще один способ построения ПИ в многоклассовой задаче. Образуем массив V = {V = = (Хъ..., Xh)}, где X ft€ Xft, т. е. V — массив наборов V представителей классов, и положим Ю <*¦•}» A9.27) где sk (U'V) = I ? |t/'X. - t/'У I2, V = i S X и с*.»- объем единичного шард в (k — 1)-мерном пространстве Для рХ/г-мерного случайного вектора V — (Xlt ..., Xh) его /г-мерная проекция {Hi — у, ..., Уп — У)> где г/« = = i/'Xs, ay = т y^j имеет плотность распределения к i поэтому ПИ A9.27) является оценкой теоретического проек- проекционного индекса Qx (U) - jj-hh-i toi-y,.... jfc-i -Р, я,) л Oflt i/)... /0 )y j где /ft-! (•, Я) — плотность равномерного распределения на (k — 1)-мерном шаре радиуса X. Таким образом, в качестве QX (U) естественно взять <K<f)= J fiiy, U) .» fk(y, U)iy. (»9.28) — oo Выбирая, как и выше, оценку fe (у, U) плотности fs (у, U), после несложных вычислений получаем: во J tl. 1, ..., ytk,k) — к+ A9.28') Для ПИ Q^ (U) имеется аналог соотношения A9.20). 505
Обозначим через Vit, ...in (U) набор (ytlil tftt,k), где yis,t = U'Xis,t. Тогда A9.28') можно переписать в виде п.. ih где w(V(l...tk{U))— размах набора (ytl, ^ yih, k) представителей выборок Xlf .... Xk. Всего таких набо- наборов, очевидно, nx...nh. Имеем (K-w)% _. (k-w)+ . d (Я— ш)+ Следовательно, ПИ QJf (t/) связан с ПИ ИVk)<xl A9-29) соотношением ^^ (^- A9.30) Проекционные индексы A9.19), A9.19'), A9.24) хорошо зарекомендовали себя при решении задач технической и медицинской диагностики (распознавании образов) и ис- используются с начала 70-х годов [38, 39, 70, 104]. Для поиска «выразительной» проекции U: Rp -*¦ Rq, U — = (Vu ..., Uq), доставляющей минимум этим ПИ, в [104] был применен пошаговый алгоритм условной оптимиза- оптимизации, в котором после того, как найдены векторы Uit .... Unf n<iq, следующий вектор Un+1 ищут как решение зада- задачи: П+\ 1 ... ±Un;BvA где J_ — символ ортогональности, Z — разностный вектор, а условие Вп+1 означает, что в построении очередного век- вектора Un+1 участвуют только те разностные векторы Z, дли- длина проекции которых на подпространство с базисом Ult..., Un меньшей. Когда объемы пг пк выборок Xlf .... Xft ве- 506
лики, алгоритм применяется к выборкам их типичных пред- представителей, полученным предварительно, например, при помощи процедур автоматической классификации. В этом случае часто удается получить результат при помощи ПИ: = max||Z—U'UZll2, A9.31) где Z пробегает разностные векторы типичных представите- представителей. Алгоритмы поиска выразительных проекций, реализую- реализующие методы безусловной оптимизации сразу на всем много- многообразии всех ортогональных проекций из R" в Ri, разра- разработаны в [37—39]. В [38] дано детальное описание алго- алгоритма минимизации ПИ A9.31), основанного на методе гра- градиентного спуска в задаче векторной оптимизации. 19.4.2. Проекционные индексы и направления в задаче классификации нормальных распределений с неравными кова- ковариационными матрицами. Здесь рассматривается случай k = 2 классов. В этом случае, если матрицы ковариаций классов равны, существует единственное направление про- проецирования (размерность </+ для ДП R+ равна 1). И это на- направление есть дискриминантный вектор Фишера (см. гл.1). В принятых здесь обозначениях f/^W-^M,—Mt). A9.32) В случае, когда матрицы внутриклассового рассеивания не равны (Wj ф W2), направление A9.32) можно получить, ис- используя матрицу W = ах Wx -f а2У/2. Однако в этой ситу- ситуации возможно построить и другие направления проециро- проецирования. Более того, можно получить направления проециро- проецирования и для случая, когда Мх = М2 (центры групп совпа- совпадают). Один из способов получения вектора U2 предложен в [301]. В качестве U2 используется вектор, получаемый из условия максимума ПИ X)={V'\M2~vMlJ A9-33) при дополнительном условии ортогональности (и\иг) = 0, т. е. иг= argmax Q(V, X). В результате получается следующее выражение для ?/2: ^ = Мг-М,. A9.34) 507
Недостаток этого подхода состоит в том, что вектор U2 оп- определен и тогда, когда Wx = W2 = W, хотя для нормаль- нормальных распределений в этом случае имеется только одно на- направление проецирования — вектор Фишера. Еще один подход, отличный от предлагаемого далее для построения векторов U2 ^.дополнительных к вектору Фишера, дан в работе [101]. Рассмотрим процедуру построения проекционных векто- векторов для ПИ, зависящих от моментов первого и второго по- порядка для первого и второго классов (так как нормальные распределения отличаются только по этим характеристи- характеристикам). Ограничимся построением только одного вектора U2. Более полное изложение дано в [67]. Меру расстояния для одномерных распределений, соот- соответствующих проекциям компонент Gx и С2 на вектор V и зависящую от первых двух моментов, можно записать в виде Я2 (U) = Я2 И (U), w} (U), А2 (*/)), где A2 (U) = (лц — т2) 2. В качестве R\u) можно выбрать расстояние Махаланобиса, дивергенцию Кульбака [91], расстояние Бхаттачария и др. (см. гл. 1). Для того чтобы построить ПИ, введем понятие условного расстояния и среднего условного расстояния. Условное расстояние между проекциями компонент (клас- (классов) на вектор V, когда проекция точки X на некоторый другой вектор U равна z, z = U'X определяется как расстояние между соответствующими условными нормаль- нормальными распределениями с параметрами mt {Viz), wl (Viz). Заметим, что дисперсии w\ (Viz) не зависят от конкретного значения г, а зависят только от направления U [67], т. е. можно записать: wl (Viz) = до? (VIU). В то же время вели- величина А (V, z) = т2 (Viz) — mi (Viz) есть линейная функ- функция z. Дадим теперь определение среднего условного расстояния между проекциями компонент на вектор V: R2 (V/U) = ER* (Viz) = (> (V/г) JJ ai4>fe 0 i= l mt(U), wt(V))Az, где R2 (Viz) = Я2 (w\ (VIU), w\ (V/U), A» (V/г)); <p (z; m, w2) — плотность нормального распределения с па- параметрами т и w2. Величина R2 (V/U) и является проекционным индексом. Пусть в качестве вектора Ut выбираем вектор Фишера A9.32) (это только один из возможных вариантов). Тогда, 508
если в качестве расстояния использовать величину A9.34), в качестве вектора U2, максимизирующего A9.34) (соответ- (соответствующее этой величине аналитическое выражение приведе- приведено в [67]), получим векторы /i; A9.35) где ORTcji (U2) — составляющая вектора U2, ортогональ- ортогональная Vi. 19.5. Выделение аномальных наблюдений 19.5.1. Проекционный индекс и приближенная вычислитель- вычислительная процедура. В качестве ПИ, подходящего для полу- получения проекций, на которых аномальные наблюдения (outliers) могли бы наблюдаться визуально, можно вос- воспользоваться отношением Q (U, X<»)) = s2 (l/)/sJeT (U). A9.36) где s2 (U) — обычная оценка дисперсии одномерной проек- проекции выборки Х("> на вектор U; SyCT (U) — некоторая ус- устойчивая оценка параметра масштаба. Известно, что обычная оценка s2 (U) весьма чувствитель- чувствительна к наличию аномальных наблюдений и их присутствие приводит, как правило, к возрастанию ее величины. Поэто- Поэтому те направления, на которых значения ПИ A9.36) дости- достигают максимума, могут обоснованно рассматриваться как направления, где влияние аномальных наблюдений наибо- наиболее выражено (если, конечно, таковые вообще имеют место). В числителе A9.36) стоит квадратичная форма s2 (U)= = U'SU, знаменатель приближенно можно аппроксимиро- аппроксимировать квадратичной формой s?CT ^ U'SyCTU, где SyCT — некоторая устойчивая оценка матрицы ковариаций. Поэтому как приближенное решение оптимизационной задачи для A9.36) можно использовать решение обобщенной задачи на собственные значения и векторы (S-hSrCT)U = 0. A9.37) Имеется не более р положительных собственных чисел для задачи A9.37), которые можно упорядочить в порядке убывания их величины hr > h2 ^ ... > hq > 1. Для полу- получения проекций используются собственные векторы иг, ..., ..., Uq, соответствующие наибольшим собственным числам, превосходящим 1. 509
Устойчивые оценки матрицы ковариаций и вектора сред- средних. Устойчивые оценки матрицы ковариаций можно по- получать разными методами. В частности, имеющаяся в пакете ППСА [66] программная реализация основана на использо- использовании разновидности М-оценок [269], так называемых экс- экспоненциально-взвешенных оценок [11, гл. 10]. Однако экспо- экспоненциально-взвешенные оценки обладают тем недостатком, что в случае дискретных переменных с некоторым значени- значением, частота которого больше частот остальных значений (что часто встречается на практике), оценкой матриц ковариа- ковариаций может быть матрица с нулями на диагонали, т. е. оцен- оценки дисперсий для этих переменных равны нулю, что иногда приводит к трудностям в реализации процедуры. Модификация индекса выразительности A9.36). Крите- Критерий A9.36) можно усовершенствовать, если учесть еще раз- различие между оценками параметров положения (обычной М и устойчивой Муст), например, положив Q (U, Х(«>) = (s2 (U) + \\ m-mycT ]ft/$ct (U), где m—M'U, туСТ = МуСТ U. Приближенное решение снова получается как решение пол- полной проблемы собственных векторов и чисел (S+(M-M1CT)(M-MycT)'-/iSyCT) = 0. Пример 19.3. Рассмотрим пример применения мето- метода главных компонент и ЦП к выборке реальных данных. Используем матрицу данных из работы [149], содержа- содержащую сведения о 130 сельскохозяйственных районах СССР за 1975 г. Показатели, использованные в этой матрице, пред- представляют собой некоторые обобщенные характеристики: возрастной состав населения, состав сельскохозяйственной продукции, техническую оснащенность и т. д. Всего имеется 26 таких показателей (р = 26), каждый из них имеет пять градаций, измерены они в ординальной шкале. Результаты применения метода главных компонент в ЦП приведены соответственно на рис. A9.1, а, б) , где квад- квадратами обозначены 5% наблюдений, имеющих минимальный вес xt>i - (Xt — MyCT)'S^c\ (Xi — Муст) (они рассматри- рассматриваются в качестве «подозрительных» как аномальные наблю- наблюдения). На рис. A9.1, а) эти наблюдения хорошо выделены и далеко отстоят от основной массы наблюдений. Важно, однако, знать, действительно ли эти наблюде- наблюдения могут в каком-либо содержательном смысле играть роль аномальных? Идентификация этих наблюдений показывает, что им соответствуют Магаданская, Архангельская, Мур- 510
100 90 80 70 60 50 40 30 20 10 0 а) 1 I 20 40 60 80 100 40 60 80 100 Рис. 19.1. Диаграмма рассеивания для 130 сельскохозяйственных регионов СССР: а) целенаправ- целенаправленное проецирование для выделения аномальных наблюдений, точки, «подозрительные» как ано- аномальные, обозначены закрашенными квадратами; б) отображение тех же объектов на плоскости двух первых главных компонент 01
манская и т. д. области. В смысле структуры сельскохозяй- сельскохозяйственного производства это действительно районы, резко отличающиеся от большинства сельскохозяйственных райо- районов СССР —- сельское хозяйство в них направлено в основ- основном на удовлетворение нужд крупного промышленного го- города (Магадана, Архангельска и т.д.) и почти ничего не про- производит для других потребителей в СССР. 19.6. Выделение нелинейных структур в многомерных данных Значительный интерес при анализе многомерных данных вызывает наличие в них нелинейных структур, т. е. концент- концентрации распределения в окрестности некоторого нелинейного многообразия размерности q <^ р. Разумеется, столь же интересно наличие и линейных мно- многообразий, в окрестности которых концентрируется распре- распределение. Однако линейные многообразия достаточно хоро- хорошо могут быть выделены с помощью, например, метода глав- главных компонент. Здесь же рассмотрим применение ЦП для выделения нелинейных многообразий. В качестве ПИ может быть использован любой критерий независимости. Действительно, пусть иъ ..., Uq — базис пространства отображения, причем векторы Ut (i = l,q) вы- выбраны так, чтобы случайные величины z('> = (UIX) были линейно независимы (нескоррелированы), т. е. cov (z(l), z</>) = 0, i Ф j. Для этого необходимо и достаточно, чтобы векторы Ui были попарно S-ортогональными, поскольку cov(z(t), z(/>) = U'i SU. Тогда наличие какой-либо струк- структуры в пространстве отображения означает, что перемен- переменные г*1', ..., г(«> должны быть зависимы. При этом, посколь- поскольку исключили линейную зависимость между переменными г*1',..., z(*>, эта структура не может быть описана с помо- помощью линейных функций от них. При выборе критериев независимости, подходящих в ка- качестве ПИ, нужно учитывать еще следующие факторы: воз- возможность получения выборочной оценки критерия, простой в вычислительном отношении (ибо именно она будет на прак- практике использоваться в качестве ПИ), и возможность быстрой оценки градиента ПИ. Предлагаемые ниже ПИ основаны на использовании оп- определения независимости набора случайных величин [11]: случайные величины г<1), ..., z(?) распределены независимо тогда и только тогда, когда их совместная функция распре- 512
деления может быть представлена в виде произведения маргинальных функций распределения (Ffa, ..., g = P(z<D<^, ..., z<«<g= fl Fi(ti), A9.38) t=i где Ft (tt) = P (z<'> •< ti)— маргинальная функция распре- распределения для z<'>. Из A9.38) можно получить аналогичные соотношения для плотностей и т. д. Перейдем теперь к формулировке ПИ. 19.6.1. Интегральное квадратичное расхождение. Для не- непрерывных случайных величин в качестве ПИ можно ис- использовать следующую величину: Q(U, JQHW/. f (p(Z)~ ft /i(z<'))VdZ, A9.39) J V *=i / где /,- (z('>) — плотность распределения одномерной проек- проекции z{{) = {/<Х; р (Z) — плотность совместного распреде- распределения; S^ — матрица ковариаций для Z, диагональная в силу выбора Ut. ПИ A9.39) инвариантен относительно преобразований масштаба в пространстве Z и аффинноинвариантен относи- относительно преобразований в пространстве X. Однако относи- относительно вращений в пространстве Z этот ПИ неинвариантен, поскольку при этом могут меняться маргинальные функции плотности ft (z('>). Можно получить некоторую «разумную» аффинноинва- риантную относительно преобразований Z разновидность ПИ A9.39), заменив маргинальные плотности ft (z<'">) плот- плотностями нормального распределения. При этом, учитывая инвариантность A9.39) относительно линейных преобразо- преобразований X, можно заранее перейти в пространстве X к махала- нобисовой метрике (см. § 5.2). Векторы Иъ ..., ия будем вы- выбирать ортонормированными. Соответствующий критерий будет иметь вид ); 0, l)YdZ, A9.40) где q> (z; 0,1) — плотность стандартного нормального рас- распределения. Этот критерий направлен на поиск ^-мерных проекций, индуцированное распределение для которых наиболее силь- сильно отличается от стандартного ^-мерного нормального рас- распределения с независимыми компонентами. 17 Заказ № 291 513
Поскольку, как указывалось в § 19.1, известно, что невы- невыразительные проекции имеют, при широких предположени- предположениях, нормальное распределение, критерий A9.40) будет об- обладать достаточной общностью. Для поиска одномерных проекций такой критерий предлагается в [65]. Нормальное распределение с независимыми компонента- компонентами в A9.40) выступает, таким образом, в качестве эталона бесструктурности. Возможна дальнейшая полезная модификация критерия A9.40) на основе следующего приема. Если случайные вели- величины z распределены по закону Nq@, Ig), то случайные ве- величины у^=ф(г<% A9.41) где Ф (z) — функция нормального стандартного распреде- распределения, распределены равномерно в единичном кубе с вер- вершинами @, ..., 0), A, 0, ..., 0) и т. д. Интеграл A9.40) после преобразования A9.41) переходит (с точностью до множите- множителя, не зависящего от неизвестных векторов t/j Uq) в Q(U, Х)=\{р(У)-\)яй?, A9.42) п где р (У) — плотность распределения, а область интегриро- интегрирования — единичный куб. Здесь в качестве эталона однородности выступает рав- равномерное распределение в единичном кубе. Элементарное преобразование A9.42) приводит снова к критерию типа среднего значения степени плотности j?2(y)dr, A9.42') ? поскольку проекции, максимизирующие A9.42) и A9.42'), совпадают. Критерий, аналогичный A9.42), предложен в 1227]. 19.6.2. «Наивные» ПИ на основе параметризации вида зави- зависимости. Хотя сами случайные величины z'1', ..., z<*> линей- линейно независимы (т. е. cov (z">, z(/>) = 0 при i Ф j), можно по- попытаться установить наличие зависимости между ними, ис- используя некоторые функции от них и изучая линейную зави- зависимость между этими функциями. Пусть q — 2. Будем искать функции % (z*1*) и 1|52B<2))> такие, чтобы коэффициент корреляции между грх (z<*>) и 1р2 (z<a>) был бы максимальным. Решение этой задачи дано в § 18.3. 514
Однако, если ограничиться конкретным классом функций, например полиномов от zA), можно получить решение зада- задачи максимизации коэффициента корреляции в аналитиче- аналитическом виде, что, конечно, существенно удобнее для реализа- реализации вычислительных процедур по максимизации критерия. В частности, ограничиваясь двумя степенями от г<'>, можно использовать такие ПИ: j у,)+гНУи г<2>); A9.43) I Qu ((/, X) = Qx (U, X) + г* (уи у2), A9.43') где yt = (z<'> J, г (•, •) — соответствующий коэффициент корреляции. Приведем аналитическое выражение как функцию компо- компонент векторов проецирования, например для г (z<1>, y2). Для упрощения обозначений положим, что z<3) = (U'X), гB) = (V'X). Кроме того, будем считать, что (?/'V) — О, ЕХ — О, S ¦= \ч (махаланобисова метрика). Тогда ЕгA) — = Ег<г> = О, D**> = Dz<2> = 1, Ei/, = Ei/2-- 1, Dy2= Е(уг-\у^ Eyl-l. Далее Eyl^E(V'X)'~ f Of,o».o«.o«. X X Eix<'«> л:<'»> л-«=) л-<г«)|. A9.44) Коэффициент корреляции г (z*1), y2) = Ezl(y2 — 1) /]/ Dy2- Отсюда получаем A9.45) где значение Еу% определяется формулой A9.44). Анало- Аналогичные формулы получаются и для остальных коэффициен- коэффициентов корреляции. Это дифференцируемые функции от компо- компонент U и V. Для вычисления производных нужно знать зна- значения смешанных третьих и четвертых моментов компонент вектора X (на практике используются их оценки) 19.7. Регрессия на основе целенаправленного проецирования Пошаговая аддитивная процедура аппроксимации функции регрессии. Подход для аппроксимации функции регрессии с использованием ЦП предложен в работе [2291. Пусть име- 17* 515
ется выборка объема п из (р -f 1)-мерного распределения вектора Y и необходимо восстановить функцию регрессии у(р-(-1)-й компоненты на р первых компонент вектора. Далее для упрощения формул будем употреблять обозначение у вместо j/<p+1> и X для вектора, составленного из р первых компонент вектора Y. Предположим, что функцию регрес- регрессии можно представить в виде У = 2 8t(UtX)+e* A9.46) где gi (•) — неизвестные функции: Ut — неизвестные век- векторы; ц — число проекций, которое также неизвестно. Уравнение A9.46) может рассматриваться как развитие обобщенной линейной модели Г121. Вычислительная процедура состоит в следующем. На первом шаге ищут такую функцию qx (•) и вектор Ult чтобы S A9.47) /= 1 Этот поиск осуществляется следующим образом. Задавая некоторую проекцию Ult ищут непараметрическую оценку функции gl (•), например с помощью сплайн-аппроксима- сплайн-аппроксимации, минимизирующую 6?. Далее при фиксированной функ- функции gj (•) ищут новый вектор Ux. Затем снова настраивается функция gi (•) и т.д. до тех пор, пока значение 6f (Uu g,) не стабилизируется. После этого от величин у}- переходят к остаткам у} = ys — giiU^ Xj). Поиск вектора U2 и функции gt (•) проводится теперь из условия минимизации величины описанным выше способом. Данный процесс итерируется до тех пор, пока остаточ-) ная сумма квадратов 6j для некоторого ц не станет меньше порогового значения. Доказано [6311, что регрессия в форме A9.46) точно восстанавливает истинную функцию регрессии, если последняя имеет вид полинома некоторой степени от компонент X. В качестве примера в [229] рассмотрен слу- случай, когда р ~ 2 и истинная зависимость между у и дсA) и х<4> имеет вид у— х<1>л:<2). Тогда легко проверить, что gx as am 1/4, g-2s= 1/4, U{ =A,1), Щ -= A,-1) точно восста- восстанавливают функцию регрессии. 516
Этот же пример использован и для иллюстрации работы предлагаемого алгоритма при наличии выборки. Другие возможные подходы. В отличие от работы [229], где делается попытка прямой аппроксимации функции рег- регрессии, будем искать подпространство span (U^ ..., Uq), для которого достигает максимума значение ПИ: Qper(U, Х)Н2г|1/2$Ж*/> Z)-<?(y)f(Z)LZdy, A9.48) где -ф (у, Z) — плотность совместного распределения слу- случайных величин Z = (z*1*, ...,z^)',z^ — U'tX;f (z)— марги- маргинальная плотность распределения только Z; ц> (у) — маргинальная плотность распределения у; 2г — матрица ковариаций Z. ПИ A9.48) инвариантен относительно линейных преоб- преобразований Z, поэтому без ограничения общности можно счи- считать, что компоненты вектора Z некоррелированы, В случае махаланобисовой метрики в пространстве Пр (X) это экви- эквивалентно обычной попарной ортогональности векторов (У,-, поэтому без ограничения общности можно считать, что 12*1- 1. ПИ A9.48) является мерой расхождения модели «слу- «случайная величина у независима от Z» с ситуацией, имеющей место на самом деле. Максимизируя A9.48), ищут подпрост- подпространство, где это расхождение максимально, т. е. такое, где у наиболее сильно зависит от Z. 19.8. Восстановление плотности и связь с томографией 19.8.1. Оценка плотности методом целенаправленного про- проецирования. Пусть имеется выборка Х<"> = (X,, ..., Хп) р-мерных наблюдений объема п. Опишем итерационную про- процедуру получения оценки плотности / (X) в виде /„ (X) X xYlgm (Q'mX). Здесь /0 (X) — начальная плотность, кото- которая задается вместе с некоторой р-мерной выборкой Х(п«> = = (Х10, ..., Х„о0) из нее, п0 > п. На М-и шаге процедуры строится оценка в виде плотности !м (X) = fM-i (X) gM {вм X) A9.49) вместе с выборкой \Пм = (Ххм, ¦¦-, ХПмм) из нее. Поправоч- Поправочная функция giu(y) и направление 8^ ? Rp, \$м\\ — 1, вы- 517
бираются так, чтобы они минимизировали значение функ- функционала относительной энтропии в классе всех плотностей / (X) вида fM-i (X) g (в'Х). Име- Имеем н (f (X), fM_, (X) g (в- X)) = н (/ (X), ы_, (X)) - -\logg(Q'X)f(X)dX = H(f(X), fM-x(X))- - J log g (У) 7 (У, в) d(/, где У (у,Щ ~ J / (X) dX. Далее, из условия J fdX = 1 следует, что J /м-1 (у, в) X Xgr((/)di/- 1. Положим W (в, g ((/)) = \ log ^ (i/)T0/, в) Ау. Таким образом, gM (у) и вм являются решением задачи: найти ( g()) A9.50) в. & ¦"— при условии J /м -1 ((/, В) g(y)dy— 1. При каждом фиксированном в задача A9.50) будет стан- стандартной вариационной задачей, решением которой являет^ ся функция ge(y)=T(y, Щ/7м-iG/, в). A9.51) Таким образом, gM (у) = ^в (У)' гДе ^* ~ решение сле- следующей задачи целенаправленного проецирования: найти argmax W(Q, J(y, Щ/Тм-i (у> в)). A9.52) в Наряду с выборкой Х<"' = (Xlt ... , Хп), но предположению индукции, имеется выборка Х"м~1 = (Xi,m- \, ¦ ¦ ¦, Опишем, как при помощи этих выборок получить оценку шачения функционала W(Q, f (у, в))//л< i (у, в)) каждого в. 518
Фиксируем некоторый алгоритм оценки <р (у) плотности <р {у) одномерной случайной величины по выборке уи ..., yN. Например, <р(у)=-?-2*(у-л; Л), I , . h —, если|(/|< —; где к (у; h) = | О, если \у > —.' 2 Тогда можно положить ge(«) = ! A9.53) пм—\ п 2 ?(</—6' Х;. m_j;/i) 1 В A9.53) остается свободным параметр Л. В [631J рекоменду- рекомендуется h выбирать зависящим от у так, чтобы условию \у — ~—Ъ'Х1,м-\ I < j- удовлетворяло ровно а- лм-i точек Л"Л Af—1, где а= const, например, 0,1; 0,05 и т.д. Тогда A9.53) примет вид: Г-6'Х,; Л ((/)). A9.54) В качестве оценки функционала W (Э, gg (у)) можно взять функционал 2g?e(, t) g п *¦•» ал 2 log 2 *<е'(х'-х«); а (в' х,)). Решив теперь задачу: Найти argmaxr(8), A9.55) в Получаем оценку для 6М и, следовательно,^ («/)¦ Для завер- завершения шага осталось построить выборку Х"м = (Х\м, 519
..., Хпм, м) из распределения /м (X). Воспользуемся сле- следующим общим фактом [231], [258]. Пусть /о (X) и f1 (X) — плотности распределения р- мерных случайных векторов; X == (Хъ..., XN) — выборка из распределения /0 (X). Тогда если г (X) = }г (X)lf0 (X)— ограниченная функция, то следующий алгоритм просеи- просеивания позволяет получить из выборки X выборку X из рас- распределения /j (X). Положим v = max г (X). Пусть (щ uN) — выборка из равномерного распределения на интервале 10, 1]. Тогда наблюдение Xt 6 X включается в X, если uty < г (X;), и выбрасывается из рассмотрения в противном случае. Из A9.49) и A9.51) теперь получаем: Взяв согласно A9.54) в качестве оценки функции гг функцию #и (в' X) = — У k (в' (X—Xt); h (в' X)), при помощи описанного выше алгоритма просеиваем выбор- выборку Х"м^' из распределения /м-i (Х) и получаем выборку \"м из распределения /м (X). Таким образом, М-й шаг процедуры описан. В качестве начальной плотности /0 (X), если нет дополнительной ин- информации, обычно берется р-мерное нормальное распреде- распределение N (а, 2), где а и 2 — оценки по выборке Х(л> средне- среднего значения и ковариационной матрицы. 19.8.2. Вычислительная томография и прикладная статисти- статистика. Термин «томография» (томо — сечение, слой; графия — описание) возник впервые в рентгенографии в начале на- нашего века и относился к восстановлению плотности сече- сечения /п (X) по ее проекциям аналоговым способом. В общих чертах схема рентгеновской томографии сле- следующая [1621. Пусть В — некоторое тело, например голо- голова пациента, и / (X) — плотность этого тела в точке X ? #3. Если на В вдоль прямой 1 направить тонкий пучок рентге- рентгеновских лучей, то измеряемую величину log /0// можно с приемлемой точностью считать равной интегралу от / (X) вдоль прямой ?, где /0 и / —¦ интенсивности пучка до его попадания на тело В и после его выхода из В соответствен- соответственно. Заставив источник рентгеновского излучения и детектор 520
двигаться так, чтобы соединяющая их прямая ? находи- находилась все время в плоскости Я, получаем возможность из- измерить проекцию fn (у, 9) плотности сечения /я (X) гела В плоскостью Я, где 8 — направление, ортогональное | в плоскости Я. Технические возможности рентгеновского то- томографа позволяют для фиксированной плоскости П полу- получить достаточно большой набор проекций fn (у, 9,), ..., f (у, 8м). Ясно, что на самом деле измеряется не функция fn (У, 9т), а набор ее значений fn (</;,, вт), k = 1, .... К- Основная задача томографии: - восстановить плотность сечения fn(X), по ее про- проекциям fn {у, в,,),..., fn (у, Qm), точнее, восстановить A9.56) fn (X) по массиву данных {fniyi,, 9,„), k—\, ... К, я = 1, .... Л'}. Аналоговый способ давал такую оценку fn (X), которая не всегда позволяла с необходимой точностью решить основ- основную задачу. Только соединение устройства для получения проекций fn (у, 9т) с ЭВМ и создание соответствующего математического обеспечения позволило решить с>ту задачу с нужной для прикладных целей точностью. Рождение вычис- вычислительной рентгеновской томографии относится к началу 70-х годов. В настоящее время вычислительная томогра- томография — область научной и прикладной деятельности, в ко- которой, с одной стороны, изучаются способы получения про- проекции fn {у, 9) на основе того или иного способа взаимодей- взаимодействия проникающего излучения (не обязательно рентгенов- рентгеновского) с телом, а с другой стороны, развиваются методы и программно-алгоритмическое обеспечение решения задачи A9.56). Рассмотрим следующую статистическую задачу: пусть имеется набор выборок К"> = (уп, . . . , yn,i), -¦-, У"м - (</i,m УпМм) одномерных наблюдений. Восстановить плотность f(X), XdR", если известно, что Y'1 — выборка из распредели {19.57) ния f (у, 9,„) для каждого т. = 1, . . . , М, 9т 6 Rp, ||9т|| - 1, где J(у, ej= JjJX)d X. Задача A9.57) тесно связана с задачей томографии A9.56). Действительно, если дана выборка X" = (Xj, ..., Х„) р-мерных наблюдений, то, положив Y"m = {Q'm Xlt..., 521
О'тХ„), оказываемся в условиях задачи A9.57) для любого набора направлений 8„ ..., вМ- С другой стороны, если даны выборки Y"m, /n= 1, ..., М, то, восстановив по выборке Y"m плотность / (у, 6„,), оказываемся в условиях задачи A9.56). 19.8.3. Алгоритм восстановления плотности по ее проекци- проекциям на основе принципа минимальной вариабельности. Опишем теперь ишестный алтритм из математического обес- обеспечения томографии [162| как алгоритм восстановления многомерной плотности /л (К) но ее одномерным проекциям К (У. в.). ¦¦- /* (У, в«)- В томографии, естественно, рассматриваются только плотности, сосредоточенные в ограниченных областях, по- поэтому будем считать, что /^ (X) обращается в 0 вне шара Dc Rp. Обошачим через Ll(D) L, гильбертово про- пространство фунмши / (X), X € Rr/, Г f* (X) АХ = ||/||2< оо со скалярным произведением (/,, /2)-- \ /t (X) /2 (X) АХ и D через L2 im) с: L2 подпространство функций, таких, что ((Q'mX-y)dX^%(y, вж). A9.58) Ъ Так как /*(у, вт) является плотностью распределения, то из A9.58) следует, что J / (X)d X 1 для всех / 6 Ь.г (т). D Обозначим через л,„ ортогональный проектор из L.z в Lj (m). Напомним, что, по определению, 3tm(f) = argmin ||/-/.II2- !,fL2 (ш) Оператор ят задается формулой пт ф (X)=/ (X) +1 /* (в; х, вj ^7 (в; х, в)] х х,*(Х:(>) , A9.59) «(в^Х, вт)' где ^ (X, р) —равномерное распределение в шаре/) ра- радиуса р. Используя операторы ят, можно для любого /„ 6 L2 по- построить последовательность /о, /i = ni/o, -, /« = яи/„..,, .-, A9.60) где яш, s: яШ2, если /% ¦— т2 делится на М, которая будет сходиться к решению следующей задачи: 522
г найти lf(x) -arg niin J/ — /,,f. A9.61) ^-Решение задачи A9.61) и берется в качестве оценки плотно- плотности / (X) с данными проекциями J(i/, 6,) У (у, вм). Используя явную формулу A9.59) для проектора л,„, получаем из A9.60) описание алгоритма построения оценки |/(Х). В качестве начального приближения /„ (X), если пет I дополнительной информации, обычно берется равномерное распределение R (X; р). В этом случае получается оценка f (X), которая среди всех / ? (] ц {т) имеет наименьшую i i вариабельность, т. е. доставляет минимум функционалу /' d X на П L, (т). о 1 И* A9.59) и A9.60) след\ет II/,,,-, - я„, /„,_, ||2 = j (К (К X, 9т) X,-, (в/,, X, 0n,)f х ь где ( ¦= const. Таким образом, можно испольювать аргументы целенаправ- целенаправленного проецирования для получения более быстрой моди- модификации описанного алгоритма. Положим Пусть уже построены приближения/,,,/,, ..,/,,. Взяв функ- функционал F (8m, /,,) в качестве критерия выразительности проекции f\ (у, 6т) относительно приближения fh, найдем /H(fe)=argmax.F@m, /,.) и зададим следующее приближение формулой /,;+, (X) =• Замечание. Функционал A9.62) можно использо- использовать в рашедочном анализе для нахождения выразительных проекций данной выборки Х<"> -=- (X,, ..., Х„) р-мериых наблюдений, считая k-ц но важности выразительной проек- 523
цией проекцию (Q'kXj,..., Q'kX,,), для которой оценка функ- функционала F (Gb /ft^j), k > 1 достигает своего максималь- максимального значения. Таким образом, решая ^дачу восстановле- восстановления плотности по выборке указанным выше алюритмом, по ходу получения оценок плотности fK_1 будем получать и со- соответствующие выразительные проекции 19.8.4. Алгоритм восстановления плотности по ее проекци- ям на основе принципа максимума энтропии. Пусть/+ (у, Qj), ..., /* (у, QM) — данный набор"одномерных проекций иско- искомой многомерной плотности /+ (X) Обозначим через L\ пространство плотностей f(X) в D и через LJ (т) сз L\ — подпространство плотностей / (X), таких, что Здесь, в отличие от п. 19.8.3, можно считать D неограничен- неограниченным подмножеством в Rp, в частности, D может совпадать с R». В основе конструкции алгоритма из п. 19.8.3 лежит гео- геометрия гильбертова пространства L2. Используя геометрию, задаваемую в Lf функционалом относительной энтропии = \\og-Lfdx, J U D несимметричную пифагорову геометрию информационного уклонения, в терминологии Н. Н. Ченцова [165], можно тем же способом построить проекционный алгоритм восста- восстановления плотности. Определим проектор тт из Ц в Lt (m) как оператор, ставящий в соответствие плотности / ? Lt плотность йП H(fи f). и<ёЦ (т) Оператор тт задается формулой 524
которая вытекает из соотношения н (f, (X), f (X)) = н (ь (X), f (X) ЬЗнЬ -т-Д(М.<л 6m), /(«/, 6га)), верного для всех ft ? Lt (т) и f ? L\. При помощи операторов тт так же, как и в п. 19.8.3, для любой начальной плотности f№ ? Lf строится последова- последовательность /о, /i = tJ0, .... fm^xmfm-x, ... A9.63) Цель алгоритма A9.63) — дать в качестве оценки плотно- плотности /^ (X) решение задачи: найти 7(*) = arg min #(/, /0). A9.64) Пусть /# (X) сосредоточено в шаре D радиуса р. Тогда, взяв в качестве /0 (X) равномерное распределение R (X; р), получаем H(f, R(X, p))= Jlog-?-/dX = j log/-/dX+ const = т. е. в этом случае задача A9.64) сводится к задаче: найти f(X)= arg max H{f). A9.65) Пусть ранг системы векторов в,, ..., вт, т - 1, ..., М, в,„ 6 Rp не меньше р. Без ограничения общности в этом слу- случае можно считать, что матрица 0, составленная из вектор- столбцов 6lt .... в,,, является невырожденной. Тогда, взяв р ^ . в качестве начального приближения /0 (X) — П/* (В'е X, в,,) | dete |, получаем: nif, /„)=-яф-ье|ае1в|+2 H{f,{y, во), I- 1 т. е. Н if, /0) = — Н (/) + const для любой плотности / 6 Lf (m). Следовательно, и в этом случае задача A9.64) 525
сводится к задаче A9.65), по теперь уже без дополнительного предположения о том, что /^ (X) сосредоточено в таре D. Из A9.63) следует H(fm, /„_,)- mYjy, е,„), 7™-, (у, е„,)). Таким образом, как и в п. 19.8.3, можно использовать аргу- аргументы целенаправленного проецирования для модификации алгоритма. Положим Ф (вт, /) - MTU (У, em),7(y,em)). A9.66) Пусть уже построены приближения /',,, /,, , /,,. Взяв функ- функционал Ф (вт, /fc) в качестве критерия выразительности проекции /^ (у, вт) относительно приближения //(, найдем m(k)~ argniax<J>@m, /,,) I $/н <М и зададим следующее приближение формулой /fc+, (X) — Замечание. Если использовать функционал A9.66) в разведочном анализе для нахождения наиболее вырази- выразительных проекций данной выборки Х("> - (X,, . , Х„) среди всех проекций (%,Хи , 0,'я Л",,), где 0m пробегает фиксированный список направлений, а именно так и бывает при численной реализации алюригмов ЦП, то видно, что в этом случае алгоритм оценки плотности, данный в п. 19.8.1, совпадает с только чю рассмотренным модифицированным алгоритмом. 19.9. Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проецирования 19.9.1. Вычислительные процедуры. Для части ПИ вычисли- вычислительные процедуры рассмотрены в соответствующих пара- параграфах (см. § 19.5, 19.7, 19.8) Здесь же остановимся на ПИ типа, рассмотренного в § 19.4. Для реализации вычисли- вычислительной процедуры, когда задана выборка Х('°, необходи- необходимо уметь вычислять оценку ПИ (см. § 19.4) для любой про- проекции по выборке и градиент или матрицу вторых производ- производных от этой оценки. Оценка значения ПИ. Возможно несколько способов оценки функционалов вида, рассмотренного в § 19.4, от плотности проекций z = b"X. Во-первых, можно несколь- несколькими способами непараметрически оценить саму плотность (ядерная оценка, оценка по методу А-ближайших соседей, 526
гистограммная оценка и т.д.) и затем оценить сам функцио- функционал 11641. Другой метод основан на использовании так на- называемых gaps-статистик [208, 3261. Этот подход и будет да- далее рассмотрен. Пусть z,- — (U'Xj) (/ = 1, п) — проекции векторов из выборки на вектор U, а zA), ..., z(ll) — соответ- соответствующие порядковые статистики (вариационный ряд; см., например, 1111). Образуем gaps-статистики вида *|.г = г<иг)-—*(,-,-).. A9.67) где (/ -f г)~ = min (и, I -+¦ г); (/— гL" = max A, / — г), г — целое число {г •< /г/2). Мож}ю показать, что сумма A9.68) является оценкой для E,/P(z). Оценка A9.68) асимптоти- асимптотически нормальна и состоятельна при некоторых условиях на скорость роста г с ростом объема выборки п. Величина окна г играет роль, аналогичную роли пара- параметра сглаживания для ядерных оценок или числа соседей для оценки по методу ^-ближайших соседей. Как >же ука- указывалось, она должна возрастать с ростом п. Некоторые соображения о выборе значения г на практике приведены ниже. Окончательной оценкой ПИ A9.4) будет Q(U, X<">)=7P?p. г- A9.69) Дальше, поскольку ПИ A9.69) афинноинварианген, бу- будем считать, что предварительно перешли к махаланобисо- вой метрике. Это дает следующее преимущество — условие S -ортогональности в лемме 19.1 заменяется обычной орто- ортогональностью и. кроме того, облегчает аналитическое вычис- вычисление направления градиента для A9.69). Вычисление градиента. Градиент ПИ A9.69) получается прямым дифференцированием Q (U. Х(">) по U. При этом нужно учесть, что направление градиента должно быть ор- ортогонально вектору U. Так как производная от sf1 no U да- дает только составляющую, параллельную U, то направление градиента будет совпадать с направлением ортогональной к О составляющей дЕ$, rldU\ grad Q\(U, X<»>) ~ ORTu (dEf, r/dU). 527
Выражение же для (d?p, rIdU): / , = i A9.70) где X(j) — вектор из выборки Х(п), проекция которого дает /-ю порядковую статистику, т. е. z(n = U'X(j) Зная направление градиента, можно теперь строить раз- различные оптимизационные процедуры. 19.9.2. Практические рекомендации при проведении ЦП. Выбор величины окна г. При программной реализации уп- управление значением этого параметра должно быть в той или иной степени доступно пользователю. Оптимальное значение параметра г зависит от объема выборки п, параметра Р и не- неизвестной функции плотности распределения компонентов смеси. В реальной ситуации, когда модель A9.2) может вы- выполняться лишь приближенно, теоретический выбор еще более затруднен. Имеется лишь некоторое предваритель- предварительное впечатление для величины г, полученное на основе ста- статистического моделирования с использованием смесей нор- нормальных распределений. Так, при п ~ 100 диапазон «удачных» значений г будет 5—15, при п = 200 — 10—30. Впрочем, влияние величины г не слишком значительно. Все же рекомендуется провести вычисления с разными значени- значениями г. Это позволяет увеличить и вероятность попадания в глобальный максимум функции A9.69). Переход к махаланобисовой метрике. Как указано в п. 19.9.1, целесообразно перейти перед проведением ЦП к ма- махаланобисовой метрике, так чтобы общая ковариационная матрица выборки стала единичной (S — !,,). Это позволя- позволяет испольчовать обычное условие ортогональности вместо 5-ортогональности. В программе, реализующей ЦП, при использовании ПИ вида A9.4) такой переход должен де- делаться принудительно, без участия пользователя. Сокращение размерности перед использованием проце- процедур ЦП. Процедуры ЦП целесообразно сочетать с предвари- предварительным сокращением размерности по методу главных ком- компонент. Необходимо удалить компоненты с малой диспер- дисперсией — подпространство, где отсутствует разброс точек, не может содержать какой-либо структуры. Контроль за коли- количеством отбрасываемых компонент может осуществляться как пользователем, так и самой программой. Как и при вы- выборе параметра сглаживания, имеет смысл провести несколь- несколько отсчетов с разным количеством отброшенных главных компонент. 528
Подавление влияния аномальных наблюдений. Эти наб- наблюдения сильно влияют на результаты ЦП практически при использовании любых ПИ Так, при наличии аномальных наблюдений проекции, получаемые с использованием ПИ A9.4), в основном будут выделять эти аномальные наблюде- наблюдения, но не кластеры. Поэтому целесообразно сначала прове- провести ЦП для выделения аномальных наблюдений с помощью простой процедуры из § 19.5. Там же будут получены веса w, для каждого из наблюдений Xi (см. пример 19.3). Даль- Дальше можно либо отбросить долю а наблюдений с минималь- минимальным весом (эта доля может иметь стандартное значение а— — 0,05 либо задаваться пользователем), либо перейти к взвешенной оценке ПИ. Например, для ПИ A9.4) можно за- заменить оценку A9.68) на 2шгАГгР- A9.71) И использовать устойчивую оценку дисперсии s2. Соответственно меняется и градиент. Сглаживание. В реальной практике распределения часто либо дискретны, либо содержат дискретную составляющую. Чтобы избежать вычислительных трудностей, связанных с тем, что величина А,,г A9.67) обращается в нуль, можно ис- использовать сглаженную величину Air = Air -j- б, где б есть, например, 6=7 (Z{n-i)—zB)Vn. a V — малая величина порядка 0,01. ВЫВОДЫ 1. Техника ЦП основана на поиске небольшого числа q вы- выразительных (информативных, интересных) линейных про- проекций исходных р-мерных данных (р ^> q) из условия макси- максимизации некоторых функционалов (проекционных индек- индексов). ПИ подбираются таким образом, чтобы в спроециро- спроецированных данных сохранялась вся информация о структуре ис- исходных многомерных данных. 2. Полученные проекции могут быть использованы либо для визуального анализа структур (если q > 3), либо произво- производится агрегирование содержащейся в них информации для восстановления поверхности регрессии (см. §19.7) плотности распределения (см. § 19.8). 3. ПИ для поиска выразительных проекций конструируют- конструируются на одном из следующих принципов: как мера отклонения от нормального распределения, как мера отклонения от ги- 529
потезы независимости (см. § 19.6, 19.7), как ПИ, максими- максимизация которых порождает базис в дискриминантном подпро- подпространстве (см. § 19.2). 4. При практическом применении ЦП нужно, во-первых, но возможности сокращать размерность пространства пере- переменных (например, используя метод главных компонент), во-вторых, подавлять влияние аномальных наблюдений. Глава 20. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ЦЕЛЕНАПРАВЛЕННОГО ПРОЕЦИРОВАНИЯ И ТОМОГРАФИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ 20.1. Проекции многомерных распределений и их свойства 20.1.1. Основные определения. Рассмотрим евклидово про- пространство Rp размерности р. Проекцией из Rp в #«, ц < р будем называть линейное отображение А из Rp на все Ri. Фиксировав в Rp и R" ортонормированные базисы в1( ..., 8,, и вц ..., вч, можно задать проекцию (рх<?)-матрицей А ранга q, т. е. АА' будет невырожденной матрицей. Здесь А'— транспонированная матрица А. Проекция называет- называется ортогональной, если АА' — I,, —единичная матрица. Важным частным случаем являются одномерные проекции, т. е. проекции из R" в R1. Они задаются формулой = в' X, р где е'Х= V 8('> xll) —скалярное умножение в Rp. 1 Ортогональные одномерные проекции задаются векторами в с цеп - (в'вI/' -. 1. Проекцией распределения векторной величины в Rp, со- соответствующей проекции А из Rp в R" называется распре- распределение (/-мерной величины, индуцированное проекцией А. Например, если | — случайный вектор в R" с плотностью распределения /| (х), то его проекция А| — г\ — случай- случайный вектор в Ri с плотностью 1, H(X)dX, Y?R«, X?R». B0.1) АХ=У 530
20-1.2. Общие свойства проекции распределения. Пусть р : Rp —*¦ Rp, Q,, : Rt -^ Rf — невырожденные линейные гображения и Хп 6 Rp- Тогда p|-'; B0.2) B0.3) qY)\detQq\>. B0.4) Для данной проекции А : Rp -*¦ Rq рассмотрим симмет- симметрическую положительно определенную ((/Х</)-матрицу АА'. Пусть С — ортогональная матрица, составленная из собст- собственных вектор-столбцов матрицы АА' и Л — диагональная матрица \к,, ..., к,,\, где к, > 0 — соответствующие собст- собственные числа, т. е. С'(АА') С Л. Положим В = С\~'/2С, где Л-'/2 [А,, 1/2 ,..., к~Ч2\. Тогда (ВА)(ВА)'--В(АА')В -1„ т. е. ВА — матрица ортогональной проекции из R>' в Rq. Используя формулу B0.4), получаем, что проекция /д^ (К) выражается через ортогональную проекцию /bas (Y). Фор- Формулу B0.1) в случае одномерных проекций А| — 6'| р — S 9'Е' можно написать в виде преобразования Радона i плотности /| (X) 11631: ; в)= f /(X)dX- $ /6(Х)«(в'Х-0<1Х, B0.5) в' к f в' к -и % где б (у„ — у) (б-функция Дирака) — одномерная плот- плотность, сосредоточенная в точке уе. Формулы B0.2) и B0.3) перепишутся теперь в виде: %р 6+х. (У; а) - Тг (у-а' Хо) Qp a; B0.6) %(у, Ла)-_-1_7б (-р а), 'B0.7) где А, — ненулевое число. Рассмотрим характерисчическую функцию ^j (<; а) случайной величины у а'| |11|: Ф (/: а) - Е (е"") -= J е»« ^ (у, a) dy. 531
Имеет место формула Ф (/; а) = J е** / J ft (X) б (а' Х-у) dX = = fMX)e«<«'*">dX. B0.8) Следовательно, <р A; а) как функция вектора a d Rp яв- является характеристической функцией р-мерного случайного вектора |. Так как (рA, а) рассчитывается но h(y, а), то из теоремы обращения характеристической функции [129] получаем: распределение р-мерного вектора полностью оп- определяется распределениями его одномерных проекций. Этот важнейший результат в теории преобразования Ра- Радона называется теоремой о связи преобразований Радона и Фурье, теоремой о проекциях и сечениях [162, 163], а в мно- многомерном статистическом анализе — теоремой Крамера и Волда [1291. В теории преобразования Радона получены яв- явные формулы, выражающие /t (X) через семейство h {у, а), где а пробегает множество Sp~l — {а 6 R", || а|| - 1}, а также /g (X) через семейство /д* (у), где А пробегает множе- множество ортогональных проекций из R" в R4. Формула B0.8) описывает частный случай следующего общего свойства проекций /g (у, а) плотности /| (X): Ф (У) Тг (У, a) d* = J <р (a' I) f% (X) dX, —" Rp т. е. Е (Ф (у); % (У, а)) = Е (Ф (а' X); ft (X)). B0.9) 20.1.3. Свойства проекций дифференцируемых распре- распределений. В тех случаях, когда плотность f% (X) дифференци- I д д руема, то ее градиент Vx/| (X) = выражается в терминах проекций / (у, а) формулой <Ь' Vx /t (Х)Му, а) = (Ь' а) -|- X (». а). B0-10) 532
где Ь и а — любые ненулевые векторы из R". В частности, когда b = а и ||а|| = 1, то (a' Vx h (ХГ(у, а) = 4- 1% (у, а). B0.11) Для описания связи между проекциями h (у, 6,) и /| (#> 62) для близких направлений 6, ив2 важна следующая формула: b'VeTt(y,e)= -4-((Ь'Х)/б№М</, в). B0.12) ду Для случайного вектора | в^с плотностью h (X) обо- обозначим через Х| (у, а) вектор в #р, равный среднему среди векторов, лежащих на гиперплоскости а' X — г/, т. е. , а) = -^-! Г Xft (X) dX. B0.13) L Г Xft (X) dX Тогда из B0.12) и BQ.13) получаем: Va 7s (#, а) = —|- (^5 («/. а) У* (J/, а)). B0.14) дУ Рассматривая теперь вектор а как р-мерный параметр распределения /| (у, а), составим для каждого а информа- информационную матрицу Фишера I (а; ?) [11, с. 2561: 1(а; *) = {/„, (а; Б)} = Е [V. log % (у, a)-VJog J^y, a); Применяя B0.14), получаем: Г (•"' а) ^5 <»• а) д11(г/' а) ;l (-w' а) I (a; t) = Е [ dFl(y, a) dF^iy, a) Тъ(У, аI, B0.15) где /ч (г/, а) — функция распределения случайной величи- величины т| = а'|. Когда вектор а пробегает сферу S"~1 = {a 6 R", ||а|| — - 1}, получаем поле неотрицательно определенных симмет- симметрических матриц I (а; |) на S"-1. Это поле можно исполь- 533
.ювать для построения критерия относительной выразитель- выразительности направлений проецирования а 6 S"~'. Положим Ф(а)= Г (b'l(a; g)b)db, 2 B0.16) где 5Г2^{Ь€Яр; ЦЬ|| 1, Ь'а = 0}. Содержательно Ф (а) указывает, какова усредненная по b чувствительность распределения к (у, а) к изменениям направления проеци- проецирования вида а 4 еЬ для малых е. Из B0.15) получаем: , я) U (у, а) [ Используя теперь, что если ||6|| = 1, то Х| («/, 0) - ¦= 0в + Xgl (у, в), где Ч'Х^ (у, в) = 0 и формулу f (b'Z)»db - верную для всех Z Ф(а)-Е| получаем: у, а) /, a) h (У, а) B0.17) Пример 20.1. Пусть | --нормальный р-мерный век- юр N (Ха, 2). Тогда согласно B0.17) получаем: "а Sa от л ,| ~ а Л о а В частности, если 1) Хо #-0hS = 1Р — единичная матрица, то 534
т. е. критерий Ф (а) принимает минимальное значение, если ^ X ; а = " , и максимальное значение, если а'Х0 = 0; I 2) Хо -* 0, тогда \ ф(а)==,2||-^— ааа 1. е. Ф (а) 0 тогда и только тогда, когда 2а — o'i a, т.е. когда вектор проецирования совпадает с главной компонен- компонентой. 20.1.4. Связь многомерного распределения с его одномер- одномерной проекцией. Рассмотрим теперь насколько характеризу- характеризует данное р-мерное распределение с плотностью h (X) его единственная одномерная проекция / (у, а). Положим Y (/? (у, а)) = {у € R\ \{у, а) > 0}, Г</?; а) называется носителем плотности /| (у, а). Пусть /^ (X) — некоторая плотность, удовлетворяю- удовлетворяющая относительно h (X) и фиксированного а0, ||ао|| = 1 только условию Y(k; aJsKfo,; a0). Тогда согласно свойству B0.9) функция / (X) = . /?'(Л) Т5 (а; X, а0) задает плотность распределения, причем/ {у, a.0)===h(y, a0). Таким образом, единственная проекция /| (у, а0) опреде- определяет распределение к (X) только с точностью до множите- множителя к (ХI^ (ао^. ао). где /^ (X) — фактически произволь- произвольная плотность. Столь же малую информацию о распределе- распределении общего вида несет и любой конечный набор его- проекций /| (у, а(), 1=1, ..., L В связи с этим, как уже отмечалось выше (см. гл. 19), в задачах анализа многомерного распределения по его про- проекциям первостепенное значение имеет выбор модели этога распределения, либо критерия, при помощи которого среди всех распределений, имеющих данные проекции /> {у, а*), I = 1, ..., L, отбирается распределение, экстремальное по- поэтому критерию. Алгоритмы решения таких задач рассмот- рассмотрены в § 19.8. 535-
20,2. Радиальные распределения 20.2.1. Основные понятия. Общие свойства радиальных рас- распределений и их проекций. Рассмотрим класс многомерных распределений, смеси которых дают запас модельных зако- законов распределения, достаточный для решений большинства практических задач многомерного статистического анализа методами теории одномерных случайных величин Плотность распределения / (X), X 6 Rp, называется ра- радиальной, если f(X) - cjj (\\X\\), где / (у) — одномерное симметричное распределение. Из свойств проекции распре- распределения следует, что / (X) — радиальное распределение тог- тогда и только тогда, когда f {у, а^^/ {у, а2) для любых еди- единичных векторов а, и а2. Заметим, что [г (у) является плот- плотностью распределения случайной величины у, задаваемой ограничением радиального случайного вектора X на пря- прямую X — уХ0 для некоторого фиксированного Хо, \\Х0\\~- = 1. Далее будем рассматривать только ортогональные про- проекции, поэтому для радиальных распределений можно поло- положить / (у, а) = / (у). Важные примеры радиального распре- распределения дают р-мерное нормальное распределение N (X; 0, вЧр) = (г^У /i A|Х||), где h(y) = N (у; 0, а\ и равномерное распределение R (X; 0, гЧр) в шаре Dp cz cz Rp с центром в начале координат и радиуса г, где f±(y) — = 0 (у; г) и 6 (у; г) = ^, если \у\ < г, и 6 {у, г) = 0, когда \У\ > г. Лемма 20.1. Формула / (X) = cpfr (||X||) задает ра- радиальное распределение в Rp тогда и только тогда, когда /х (у) — одномерное симметричное распределение с конеч- конечным (р — 1)-м центральным моментом vp_j и ср — Г ( —)/ //2 p1 Заметим, что ковариационная матрица радиального рас- распределения / (X) есть вЧр, где о2 = - J || X\\2f{X)dX. Согласно формуле B0.3) для любого невырожденного преоб- преобразования Q:Rp -*- Rp и радиального распределения /| (X) = Ср/х (| \Х 11) имеет место формула где 2 = QpQp — ковариационная матрица случайного век- вектора Q|. 536
Лемма 20.2. Одномерная проекция / радиальной плотности / (X) == Cp/i (| \Х 11) задается формулой J 7(у) = А—г-тт J А <С+ уУ'2) tP~2 dt> B0-18) или р-1 1 f» ^ ' \ (t2— У*) 1. /i (т) dT2, B0.19) / 1 \ /р_1 > где p(-i-, -?—)= /Р\ 2 бета-функция. Пример 20.2. Пусть f(X) = N (X, 0, а21р). Тогда / (А)- ), где Л(у) = iV(y, 0, aV Cp = —V Следовательно, , 0, a2). B0.20) Пример 20.3. Рассмотрим случай равномерного рас- распределения R {X, 0, г2! j,) в шаре Dp cz R" радиуса г. Име- Имеем / (X) - с,/, A1X11), где /, (у) = 6 (у, г) - ^ (г2 - ^)» го»-«> и vp_t = . Следовательно, ^]^~. B0 21) 20.2.2. Важные модели радиальных распределений. Меха- Механизмы формирования случайных векторов с модельными радиальными распределениями. В качестве моделей распре- распределений, сосредоточенных вшаре?>рс Rp, удобно исполь- использовать представителей семейства распределений, описывае- описываемого следующей теоремой. 537
Т е о р е м а 20.1. Для каждого р формула r(f+.) X Л-_!*?_.}— B0.22) У Bа + р)а2/+ v ' задает двупараметрическое семейство (по а > 0 и а) ради- радиальных распределений, сосредоточенных в шаре радиуса |^2а ~г ро, где а2 — дисперсия Одномерная проекция распределения RPt „, имеет вид: RP,* = R „_, (У, 0, а2). B0.23) 1 аЧ g— Заметим, что Rp, j (X, 0, cr2l;,) представляет собой равно- равномерное распределение в шаре радиуса |/2 + р а, а при фик- фиксированной дисперсии а2 и а—>-оо распределение Rp,a переходит в р-мерное нормальное распределение Таким образом, формула B0 23) в качестве частных случаев содер- содержит формулы B0 20) и B0 21) Она показывает, что семей- семейство Rp а (X, 0, ог1})) при фиксированном о2 замкнуто от- относительно оператора проецирования, который на этом се- семействе в явном виде показывает свои сглаживающие свой- свойства, при натуральном а и нечетном р он переводит (а —1) раз дифференцируемую функцию в функцию дифференци- р | руемую (а — 1) + -^— раз Отметим, что и в случае общего р-мерного распределе- распределения h{X) необходимо учитывать это свойство оператора проецирования при подборе модели одномерного распреде- распределения /g (у, а), если из каких-либо соображений уже вы- выбран класс гладкости модели р-мерного распределения /| (х). Опишем схему (механизм) формирования случайных век- векторов с плотностью распределения Rp. „ (X; 0, аЧР) для а — V2, где / — натуральное число. Пусть 1] = (гI if) и g = (?\ ..., l,1) — случайные независимые векторы, распределенные по нормальным зако- законам ЛГ @, 1Л) и N @, I,) соответственно. Положим т|Х^= (л1, •••, Лр> С1. ... V) и где Них ?11 =(Пч112+ \ШУ/2- 538
Ясно, что вектор |р,, 6 R" распределен по радиальному закону, поэтому для вычисления закона распределения ею одномерной проекции достаточно вычислить проекцию на одну из координатных осей, скажем е^ Имеем 1р /е Известно, что случайная величина 61 , где в = F1, ..., в")~ЛГ(О, \т), km—3 распределена по закону — A-2- -2- т>\. Так как л-Xg = (г\1, ..., if, g1, ..., СО - iV @, IP+i), то получаем, что случайная величина |р, *ег распределена по закону ,/,. /ei(j/)=/?i p+,_, (у, 0. т.е. /^l-fr + )/, /ei(j/)i p+ Следовательно, для любого X > 0 Используя теперь, что многомерное распределение пол- полностью определяется своими одномерными проекциями, из формулы B0.22) получаем: pl R j_(X; 0, аЧр), р' 2 где А, = УI -f p о. В частности, согласно формуле B0 22) случайный вектор | 2 -t- рст|,„г имеет равномерное распре- распределение в шаре радиуса \ 2 -\- р о Для а > 0 распределе- распределение /?р, а (X; 0, ст21,,) является невырожденным 539
Заметим, что при а ->¦ -н 0 распределение #;), а (X; О, ст-17)) стремится к вырожденному распределению, которое представляет собой равномерное распределение, сосредото- сосредоточенное на сфере радиуса о Это распределение имеет случай- ныи вектор alp,о = Опишем теперь радиальные распределения, связанные с распределением Стьюдента. Имеет место следующая теоре- теорема. Т е о р е м а 20.2. Для каждого р формула (У- ft гт2! \ \ * / v [Я(а-Р-ИIр/2Г( o+l х /i + Ш!! ) 2 B0.24) задает двупараметрическое семейство (по а > р — 1 и а) радиальных распределений, где а2 — дисперсия. Одномерная проекция распределения tp, „ имеет вид: TP,a = ti,a-p+l(y, 0, о*). B0,25) Заметим, что tltl (X; 0, а2) представляет собой распределение Коши. Из условия а > р — 1 следует, что не существует радиальных распределений tp>1 (X; 0, ог1р) при р>2 Для натуральных т tlt m (X; 0, а2) задает распределение Стьюдента с т степенями свободы и для всех р <; т + 1 существует радиальное распределение tPt т (X; 0, оЧр). Отметим также, что tPi а (X; 0, аЧр)-+ N (X; 0, аЦр) при а —*¦ оо и фиксированной дисперсии о2. Опишем схему формирования случайных векторов с плот- плотностью распределения tp, „ (X; 0, o2lp) для целых а. Известно, что случайная величина * где (б1, .... e-+»)~JV(O, Im+1) имеет распределение Стьюдента с m степенями свободы m+l 540
Пусть ц — (т]1, ., цр) и g = (t,1, ..., 'С,т) — случайные независимые векторы, распределенные по нормальным за- законам N (О,1 р) и N (О, 1 т) соответственно. Рассмотрим р-мерный случайный вектор | = "ПпТ- ^н распределен по радиальному закону, а, как следует из меха- механизма формирования закона Стьюдента, его одномерная проекция распределена по закону т+1 . . I /. . и* \ 2 Л .«(») = Используя теперь формулу B0.25), получаем, что р-мерный случайный вектор г\ распределен по закону fP,m+p-i (X). В качестве следствия получаем: если СП1, ..., if, i\P+l) ~ N @, Ip+x), то р-мерный вектор !=г——, где я = (ц1, ..., rf) распределен по закону lip+1l я 2 а одномерная его проекция распределена по закону Коши: 20.2.3. Экстремальные многомерные распределения. Пусть Fp (Х0,2) — совокупность всех плотностей р-мерных случайных векторов | с фиксированными вектором средних Хо и невырожденной ковариационной матрицей 2. Известно, (см. например, [129, с. 476]), что интеграл энт- энтропии для /| 6 Fp (Xo, 2) достигает максимального значения, толь- только когда = N(X; Хо, 2) = j-! ^-х Bя)~2~ |det Si" i-(X-X,)'S-i(X-X.) хе причем -Н (N (X; Хо, 2» = -^- (р + р log Bя) + log | det 21). 541
Покажем, что аналогичный результат имеет место для рассмотренного выше семейства плотностей Rp a \X\ Xo, ju) — fp, a['°— x (X-Xo) 2a + p где с»,«— Пусть т ф (tf) — некоторая непрерывная строго возрас- возрастающая функция при t > 0 и ф @) = 0. Тогда для любых а > 0 и b > 0 имеет место неравенство Юнга а Ь ab < J ф (t) At 4- J фг1 (т) d-t, B6.26) где ф~' (ф (/)) = /, причем равенство достигается только при Ъ - ф (а). Рассмотрим случай, когда т = ta~ •, где а > 1. Тогда ф-1 (т) = < = та—! и из B0.26) получаем: для любых а > 0 и 6 > 0 имеет место неравенство a^ + i»-1, B0.27) а причем равенство достигается только при b = а"-1 . Положим а — а1 и Ь = Og" . Тогда из B0.27) полу- получаем неравенство ах af^ < (l —i-j fll aj=i +-^Ъ ар1- B0.28) Ясно, что B0.28) эквивалентно неравенству B0.29) Используя теперь, что a (?"—* — I) —>- In / при a -*- с», по- получаем из B0.29) неравенство at 1пл2 < a, In а, — a, f a2, 542
лежащее в основе доказательства экстремальности много- многомерного нормального закона. Положим dx. ha (h) = - J /t ~ dx. Например, для целых т > 2 m — 1 в частности, h2 (/|) — — ||/| (X)||*. Заметим, что На (/«) -v Щ/s) при а -*¦ оо. Так как #„ (/*) = = а (Ла (/|) + 1), то для каждого а, 1 < а<; оо, задачи на экстремум для функционалов На (/*) и ha (/|) эквива- эквивалентны . Полагая в B0.29) ах ~ f\(X), о2 = Rv, а (X; Хо, S) и интегрируя его по Rp, получаем после умножения на г, что имеет место следующая теорема. Теорема 20.3, Функционалы Л» (/|) и На (/|) дости- достигают максимальные значения, только когда /^ (X) ~ = Rp.a (X; Хо, S), причем "Р, а <х-1 а-1 Положим Заметим, что для любого невы рожденного линейного преоб- преобразования Q : Rp -v Rp: Следствие 20.1. Функционал h*a на множестве всех плотностей р-мерных случайных векторов с невырожденной ковариационной матрицей является инвариантным относи- относительно невырожденных линейныч преобразований, ограни- 543
чен сверху константой с и достигает максимальное значение на радиальной плотности /?р, а» гдес = 20.3. Теория процедур оптимизации проекционных индексов Пусть Х<"> = {Хъ ..., Хп) — выборка объема п в Rp. Каждая статистика ср (Yx, ..., Yn) на ^-мерных выборках Y<") - (Yx, ..., Yn) объема п, 1 <?<р, задает проек- проекционный индекс F (А) = ф (AXj, ..., АХп), где А — некоторая проекция из Rp в R". Обозначим через ML (p, q) — множество всех проекций из Rp в /?« (см. п. 20.2.1). Решение статистической задачи методом целенаправленного проецирования содержит два этапа: 1) выбор проекционного индекса F (А); 2) решение оптимизационных задач для функции F (А) на соответствующем подмножестве М s ML (p, q). Вопросы, связанные с этапом 1, достаточно подробно разобраны в гл. 19. Основная цель настоящего параграфа — изложить теорию алгоритмов решения задач этапа 2. 20.3.1. Области оптимизации в задачах поиска вырази- выразительных проекций. Начнем со структуры множества ML(p, q). Как отмечалось в п. 20.2.1, каждая проекция из Rp в Ri однозначно определяется (рх^-матрицей А, удовлет- удовлетворяющей условию det AA' Ф 0. Поставим в соответствие (р х ^-матрице А набор из q ее /^-мерных вектор-строк (в,, ..., в,,) и заметим, что det AA' Ф 0 тогда и только тогда, когда эти векторы линейно независимы. Пусть L (А) — линейное ^-мерное подпространство в Rp, натянутое на векторы {0t, ..., 0ч}, составляющие матри- матрицу проекции А. Тогда имеет место следующая лемма Лемма 20.3. Соответствие А — (L (А), {0,, . , 0„}) позволяет отождествить ML (p, q) с множеством всех нар (L, @, ej), где L — ^-мерное подпространство в /?'', а {Oj, ..., в,,} — некоторый базис в этом подпространстве. Аналогично пусть МО (р, q) — множество всех ортого- ортогональных проекций из Rp в /?« (см. п. 20.2.1). Тогда верна следующая лемма. 544
Лемма 20.4. Соответствие А ->• (L (А), {вг, ..., 0,}) позволяет отождествить О (р, д) с множеством всех пар (L, {&ъ ..., 9Ч}), где L — q -мерное подпространство в Rp, a {0!, ..., Эч} — некоторый ортонормированный базис в этом подпространстве. Указанное соответствие отождествляет, в частности, множество всех проекций из R" в R1 с множеством ненуле- ненулевых векторов Э ? R", а множество всех ортогональных про- проекций из R" в R1 с множеством единичных векторов в (см. п. 20.2.1). Определение 20.1. Статистика ф (Ylt ..., Yn) на (/-мерных выборках называется инвариантной относительно преобразования В пространства Rq, если ф (HYlt ..., BYn)= = Ф (Ylt .... Yn). Практически все важные проекционные индексы строят- строятся по статистикам, инвариантным относительно невырожден- невырожденных либо ортогональных преобразований В. Определение 20.2. Проекционный индекс F, по- построенный по статистике ф (Ylt ..., Yn), инвариантной отно- относительно любого невырожденного преобразования, называет- называется GL-инвариангным и соответственно О-инвариантным, если ф (Ylt ..., Yn) инвариантна относительно любого орто- ортогонального преобразования. Введем теперь так называемое многообразие Гроссмана G (p, q), точками которого являются ^-мерные линейные под- подпространства L в Rp [118]1. Возьмем некоторый GL-инвариантный проекционный индекс F (А). Рассмотрим ^-мерное линейное подпростран- подпространство L с Rp, выберем в нем базис'0!, ..., Э, и тем самым по- получим проекцию A (L) из R" в /?<?. Положим, по определе- определению, O(L) = 77(A(L)). B0.30) Проекция A (L) определена с точностью до выбора базиса в L, но так как F (А) является GL-инвариантным, то формула B0.30) корректно задает функцию на многообразии Грас- смана G (p, q). 1 Многообразие G (p, q) — классический математический объ- объект, названо в честь немецкого математика, физика и филолога Г. Грассмана A809— 1877). В сочинении «Учение о линейном про- пространстве» Г. Грассман дал первое систематическое построение теории многомерного евклидова пространства, ввел скалярное произведение векторов [30]. 18 Заказ № 291 S45
Следствие 20.2. Задача поиска выразительной проекции А.,, для GL-инвариантного проекционного индек- индекса F (А) эквивалентна задаче: найти L*= arg extr <D(L). B0.31) L6G (p, Q) Следствие 20.3. Задача поиска выразительной ор- ортогональной проекции А^. для О-инвариантного проекцион- проекционного индекса F (А) также эквивалентна задаче B0.31). Ес- Естественно, при построении А„ = A (L*), в этом случае не- необходимо взять некоторый ортогональный базис в найден- найденном экстремальном подпространстве L* с R0. Таким образом, показано, что поиск выразительных про- проекций из Rp в R* сводится к решению оптимизационных за- задач на многообразии Грассмана G (р, q). Объясним, какие преимущества дает эта редукция. Ото- Отождествляя, как обычно, пространство всех (р х ^)-матриц А = (а1}у 1 < i ^.р, 1 < / < q) с евклидовым пространст- пространством Rpq, получаем, что ML(p, q) является открытой обла- областью в Rpi, выделяемой условием det |АА' \ф 0, а МО (р, q)— замкнутым подмногообразием в Rpi, выделяемым усло- условием АА' = 1(;, т. е. q (q + l)/2 уравнениями, связывающи- связывающими pq координат {а1}}. Например, МО (р, 1) = {Q 6 Rp, \\Q\\ = 1} (одно уравне- уравнение связи на р координат); МО(р, 2) = {Flf O^tRpxR^R2', «8,1=1, ||92H = 1, е;еа = О)} {три уравнения связи на 2 р координат). Размерность многообразия МО (р, q) на g мень- меньше, чем размерность объемлющего пространства Rpi. Та- Таким образом, применение обычных численных процедур для решения оптимизационных задач на многообразиях ML (p, q) и МО (р, q) как подмножествах евклидова про- пространства Rpq практически невозможно. Отметим, что по- попытка построить метод градиентного спуска на МО (р, q) была предпринята в [121, § 6.10]. Трудности, которые встре- встретились на этом пути, типичны для реализации процедур условной оптимизации при большом числе уравнений свя- связи на координаты. В [37—39} разработаны численные методы оптимизации функций на многообразии G (p, q). Оказалось, что если ис- использовать внутреннюю геометрию этого многообразия, то эти методы реализуются при помощи аналогов основных алгоритмов безусловной оптимизации.
20.3.2. Алгоритмы оптимизации функций на многообрази- многообразиях проекций. Пусть Ф (L) — некоторая функция на много- многообразии G (р, q). Опишем сначала алгоритм решения задачи B0.31), реализующий аналог методов покоординатной опти- оптимизации. Фиксируем в Rp некоторый ортонормированный базис 60 = {Эю, ..., Эр0} и обозначим через Lo = L (в) подпространство, натянутое на первые q векторов {Qt, ..., ..., Qq}. Возьмем Lo за начальную точку алгоритма опти- оптимизации. Допустим, что уже построены Lo, ..., Lm, причем каждое Lm представляет собой ^-мерное подпространство в Rp, натянутое на первые q векторов ортонормированно- го базиса вт = {01т, ..., 0рт}, т. е. Lm = L (вга). Опишем переход от (вто, Lm) к (вто+1, Lm+,). Выберем /, 1 < i < q и /, 1 < / < р — q, введем семейство базисов вт (i, /, а) = {Э1т ({, /), .... Qpm(i, /)}, где im, Ql+Jtm (i, /) = = — sina9,m+ cosa9l+/m, B0.32) fym (l"' /) = вгт, если 1Ф* или '+/'. и получим семейство ^-мерных плоскостей Lm(t, /; а), где Lm (i, j, а) натянуто на {Эт ({, /), ..., Qqm (i, /)}. Определение 20.3. Семейство (/-мерных плоскос- плоскостей Lm (i, /; а) с Rp называется (i, /)-координатной линией в G (q, p), проходящей через точку Lm = Lm (i, /; 0) в ло- локальной системе координат, задаваемой базисом вт. Обоснование такого определения см. в [37], где описаны все необходимые факты о структуре многообразия G (p, q). Ограничив функцию Ф (L) на семейство плоскостей Lm (i, j; a) получаем обычную числовую функцию от а, а 6 10, 2 я]. Положим Ф (Lm (i, /; а)) = Ф,-; (а). Используя одну из стандартных процедур оптимизации числовой функции Ф1} (а), находим a^arg max Фу (а) Об[0,2л] и полагаем вт+1 = в (t, /; a#), Lm+1 = Lm (t, /; aj. Цикл процедуры оптимизации завершен. Используя описанный шаг алгоритма, можно реализо- реализовать методы покоординатной оптимизации. Например, упо- упорядочив множество пар (i, /), 1 < i < q, 1 < / < р — q и зациклив его, можно получить сколь угодно длинную после- последовательность пар (i, j) и соответствующую последователь- последовательность точек Lo, Lb .... Lm, Lm+1, ... Заметим, что по построению, 18* 547
Если функция Ф (L) непрерывно зависит от L, то, ис- используя компактность многообразия G (p, о), получаем, что Ф (L) — ограниченная сверху функция и последователь- последовательность {Ф (Lm)} сходится. Рассмотрим теперь дифференцируемую функцию Ф (L) на G (p, q). Опишем алгоритмы, реализующие методы гради- градиентной оптимизации. Пусть, как и выше, Lo = L (в0) с= Rp, где в0 ¦= = {в10, ..., вро} — ортогональный базис в Rp и L, (t, /; а) — (i, /) -я координатная линия в G (p, q), проходящая через Lo. Определение 20.4. Градиентом функции Ф (L) в точке Lo относительно локальной системы координат, за- задаваемой базисом 60, называется q (p — ^)-мерный вектор Г = {F,j, 1 < /< q, 1 </</? — q}, вычисляемый по формуле 4и-о, B0.33) где Ф„ (а) = Ф (!«,(*, /; а)). Градиент Г={Гг/} удобно представлять в видео х (р—q)~ матрицы с вектор-столбцами у,- = (уи), 1< i < о. Пример 20.4. Пусть X 6 Rp и XL— его ортогональ- ортогональная проекция на некоторое ^-мерное линейное подпростран- подпространство L с R". Рассмотрим на многообразии G {р, о) функ- функцию Ф (L) = IIXlII2 и вычислим ее градиент в точке Lu = = L (в0). Из B0.31) следует Ф(Ц(*. Я а)) - 2 (e;eXJ+(cosaet'oX-f sinae;+/,oXJ, 1 ф 1 B0.34) поэтому непосредственно из B0.33) получаем: <p-q. B0.35) Пусть A (Lo) — проекция из Rp в R", задаваемая (рх q)- матрицей, строки которой Ь[ь, ..., Wq0, и A (Lo")— проекция из Rp в Rp-ч , задаваемая (р х (р—<7))-матрицей со строками в^+1 „, ..., 6'р,0. Тогда из B0.35) следует, что гра- градиент функций ||Xl||2 в точке Lo относительно базиса в0 можно записать в виде ох (р—^-матрицы r = re. = 2A(L«)XA:'A(Li)'. B0.36) 548
При помощи функции ||XL||2 легко показать, как зави- зависит вид градиента Г = Fq от выбора базиса в. Пусть 6ft = {0lft, ..., e;;ft}, k= 1,2 — ортонормирован- ные базисы в Rp. Заметим, что L FХ) = L (в2) = Lo тогда и только тогда, когда существуют ортогональная (q х ^-матрица В, переводя- переводящая базис {в11г ..., Э?1} в подпространстве Lo с Rp в его базис {Э12, ..., вд2}, и ортогональная (р — q) X (р—^-мат- (р—^-матрица В-1-, переводящая базис {в?+1Д, .., Э;, ,} в ортогональ- ортогональном дополнении LJ- к Locz R" в его базис {в,,+1>2, ..., Следовательно, если L (вт) = L (в2) =L0, то Пример 20.5. Пусть Х<"> = (Хи..., Хп) — выборка в Rp. Вычислим градиент функции Ф (L) на многообразии Грассмана, соответствующей проекционному индексу F (А) 1 я для статистики ф (Yu ..., Yn) =— V j|K|— К0||а, где Yo— I средний вектор выборки Имеем Ф (L) = — jg \(Xi-X^L ||V Используя формулу B0.33), получаем в точке Ь„ — L (в0): Г -А У 2А (Lo) (Xi -Xo) (Xt-ХоУ A (Li)' = где Sx — ковариационная матрица выборки Х(п). Таким образом, условие экстремальности подпространства Lo за-. писывается в виде =0 B0.37) или в терминах базиса в0: для всех 1 < i < q, I < / < р — q. Рассматривая (р х р)-матрицу Sx как преобразование пространства R", получаем, что условие B0.37) выполняется тогда и только тогда, когда 2Х переводит подпространство 549
Lo в себя, т. е. когда Lo—собственное подпространство ко- ковариационной матрицы1. Как показано выше, ортогональная проекция A (Lo) из Rp в R* является выразительной относительно F (А) тогда и только тогда, когда Lo = L (А) является экстремальной точкой функции Ф (L). Таким образом, для проекционного индекса F (А), по- 1 п строенного по статистике - УЦ1^« — ^oll2 на «7-мерных вы- п , , борках, выразительными являются ортогональные проекции на собственные q -мерные подпространства ковариационной матрицы 2Х и только они. Для q = 1 этот результат лежит в основе метода главных компонентам, гл. 13). Нетрудно показать, что подмножест- подмножество Lo является собственным для матрицы 2х тогда и толь- только тогда, когда оно натянуто на какие-либо q главных ком- компонент этой матрицы. Если выборка X разбита на k классов (подвыборок) Хг=Х {ni)={XlU ¦¦-, Xnv /); /=1 k, то определены: k Wx = 2 яг^х, — матрица внутриклассового рассеивания; к Вх == 2 ni (Xoi—^о)(^о! — -Ко)' — матрица межклассо- вого рассеивания. Отметим, что Wx + Вх = 2Х- ^от- ^ответственно определены: внутриклассовый разброс: SBx = = Sp Wx; межклассовый разброс: SMx = SpBx, SBx + S5 Пример 20.6. Пусть X = (J Xj. Рассмотрим проек- проекционный индекс F (А) для статистики mY где А — проекция из Rp в R4 и Y; = АХг. Ясно, что F (А} является для всех q > 1 О-инвариантным, а для q = 1 да- даже GL-инвариантным, но F (А) не является GL-инвариант- ным, если q > 1. Следовательно, F (А) можно использо- использовать для поиска выразительных одномерных проекций и вы- выразительных (/-мерных ортогональных проекций из Rp в R4. В каждом из случаев возникает оптимизационная задача 1 В терминах базиса в0 (р X <7)-матрица A (Lo) называется соб- собственной для матрицы 2Х, если существует (q X <7)-матрица С, такая, что A (Lo) 2Х = С A (Lo) При q = 1 это соответствует обычному оп- определению собственного вектора. 550
на многообразии Грассмана для функции, которая в точке L = L (в), где в = (вь ..., вр) — ортонормированный базис, вычисляется по формуле 0>x(L) SpAWxA' ф (L) = BXl ' = -L х— , B0.38) v ' Фх (L) Sp ASX A' V ' где А = A (L)— матрица проекции, составленная из q век- векторов строк Эь ..., Qq. Имеем: grad Ф (L) = фх <L) gfad фвх Следствие 20.4. Для проекционного индекса F (А), соответствующего отношению усредненного внутриклас- внутриклассового разброса к общему разбросу, наиболее выразитель- выразительные ортогональные проекции задаются матрицами, состав- составленными из собственных векторов симметрической матри- матрицы Wx — ySx, где у = F (А). Описанная выше итерационная процедура оптимизации на многообразии Грассмана G (р, q), примененная к функции Sp(AWxA') Ф(А) =!li^' Sp(ASxA') позволяет отыскать такие выразительные проекции. Рассмотрим методы оптимизации проекционных индек- индексов F (А) на множестве всех проекций М (р, q) из R? в R". Пусть П (<7) обозначает совокупность всех положитель- положительно определенных симметричных (^х ^)-матриц. Ставя в соот- соответствие паре матриц (М, А), где М 6 П (<7), а А 6 МО (р, q), матрицу В = МА, получаем взаимнооднозначное соответ- соответствие между множеством всех таких пар H(q)xMO(p, <7) = {(M, А), М€П(<7), А?МО(р, q)} и множеством всех проекций М (р, q) из Rp в R». Обратное отображение из М (р, q) в U(q)y МО (р, q) ставит в соответ- соответствие проекции В пару матриц М = (ВВ'I/2 и А = = (ВВ')~1/2 В. Таким образом, каждому проекционному ин- индексу F (В) соответствует функция F (М, А), и задача по- поиска выразительной проекции В* сводится к оптимизации этой функции на П (q) x МО (р, q). Пусть С — некоторая ортогональная (q x ^-матрица. Тогда если проекции В соответствует пара (М, А), то, как легко видеть, проекции СВ соответствует пара (CMC, CA). 551
Следовательно, задача поиска выразительной проекции для О-инвариантного проекционного индекса /"(В) сводится к за- задаче оптимизации функции F (М, А) на следующем множест- множестве классов эквивалентности пар (М, А): YIG (р, ф = {(М, А): М 6 П (q), A g МО {р, ф: :(М„ А,)-(М2> А2), тогда и только тогда, когда Мх = СМ2С, Ах = СА2 для некоторой ортогональной матрицы С}. Считая координатами симметрической матрицы М ее мат- матричные коэффициенты mt_ t, I < s < t < q, можно отожде- отождествить множество П (q) с соответствующим подмножеством о (я-1-1) „ 5 в ^^-к—- - мерном евклидовом пространстве R г Условие положительной определенности матриц показывает, что это подмножество является открытой выпуклой областью Я («? + !) в R 2 . Следовательно, для вычисления градиента функции F (MA) no M можно использовать обычные правила дифференцирования по матричным коэффициентам m,, ( матрицы М. Вычисление градиента F (МА) по А проводится по описанному выше правилу (см. формулу B0.33)). ВЫВОДЫ 1. Описаны теоретические результаты, лежащие в основе анализа /з-мерных случайных величин в терминах их ^-мер- ^-мерных проекций, 1 < q < р. 2. Исследован класс радиальных распределений. Каж- Каждое из этих распределений полностью восстанавливается по единственной одномерной проекции, поэтому смеси их дают запас многомерных модельных законов, достаточный для ре- решения большинства практических задач восстановления плотности распределения по конечному набору проекций 3. Выделены два важных параметрических семейства ра- радиальных законов /?р_ „ (X; 0, сгЧ^), а > 0 и tp<a (X; 0, оЦ р), а > р f 1, где X 6 Rp и а2—дисперсия. Каждая ^-мерная ортогональная проекция из Rp в Ri переводит Rp a (X; О, а*1р)вЯ ,_, (X; 0, o4q), a tp,a (X; 0, 6Цр) в «7. а + —— tqta-(p^q) (X; 0, azlq), поэтому, задав модель восстанав- восстанавливаемого закона распределения в виде смесей этих законов, получаем, что каждая его проекция имеет ту же модель со 552
сдвигом параметров. Большую роль играет и то, что имеет- имеется естественный механизм формирования р-мерных векторов с плотностями Rp,a и tqa. 4. Для каждого а > 0 построен функционал Л? (/|) на множестве всех плотностей р-мерных случайных векторов 1 с невырожденной ковариационной матрицей, достигающий максимальное значение на плотности Rj,,a (X; О, а2!,,). При а -*- оо функционал ftj (М переходит в классический энтропийный функционал. 5. Показано, как поиск выразительных проекций иа Rp в R" для данного закона распределения (данной выборки) сводится к решению оптимизационных задач на соответст- соответствующих подмногообразиях многообразия всех проекций из Rp и Rq, и описаны алгоритмы решения этих задач. Глава 21. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ ЗАДАЧ СОКРАЩЕНИЯ РАЗМЕРНОСТИ И КЛАССИФИКАЦИИ Задачи сокращения размерности и классификации часто возникают при обработке данных в различных областях на- науки и техники. К настоящему времени разработано и про- продолжает развиваться обширное программное обеспечение (ПО) для решения этих задач. Подробный обзор программных средств для решения по- подобных задач, а также для обеспечения других разделов ста- статистического анализа приведен в [143], где рассмотрено зна- значительное число программных продуктов, разработанных у нас в стране и за рубежом. Сведения о программных средст- средствах, полезных в данном разделе статистического анализа, имеются в [12]. Почти все описанные там пакеты и системы статистической обработки данных имеют в своем составе процедуры для сокращения размерностей и классификации. (См. также [66, 75, 89, 95, 120, 203, 204, 249, 256].) В настоящей главе основное внимание уделено програм- программному обеспечению для персональных ЭВМ (при этом рас- рассматривается программное обеспечение не только для задач сокращения размерностей и классификации, ной для других разделов статистического анализа), а также развитию экспертных систем в статистике. Рассматриваются также программные средства, пред- предназначенные для таких сравнительно новых подходов в статистическом анализе, как визуализация многомерных данных, разведочный анализ. 553
21.1. Программное обеспечение прикладного статистического анализа для ПЭВМ Рассмотрим статистическое ПО в основном для ПЭВМ типа IBM PC и совместимых с ними. В настоящее время статисти- статистическое ПО ПЭВМ является весьма развитым. Обзор его по состоянию на 1985 г. приведен в [309]. Здесь же ограничим- ограничимся рассмотрением сравнительно небольшого списка програм- программных средств, которые, судя по литературным источникам [255] и некоторому нашему личному опыту, представляют- представляются наиболее интересными. Данные по ПО сосредоточены в нескольких таблицах, которые представляют характеристи- характеристики ПО по следующим позициям Использование ресурсов. В табл. 21.1 представлены ха- характеристики рассматриваемых пакетов. Следует учесть, что разные версии одного и того же пакета могут так же сильно отличаться друг от друга, как и разные пакеты. В графе RAM (random access memory) приведен минимальный объем внутренней памяти, необходимый для работы пакета. В гра- графе «Твердый диск» приводятся две цифры: первая — ми- Таблица 21.1 Пакет ABC BMDP/PC (basis) BMDP/PC (full) NCSS PC-ISP P-STAT SPSS/PC 4-(basis) SPSS/PC + (full) STATA (basis) STATA (full) STATGRAPHICS SYSTAT Версия 2.2 PC PC 4.2 — 8 21 PC+ PC+ , 1.3 , 1.3 1.2,2.0 2.2 РАМ (Кб) 256 640 640 196 640 640 384 450 256 256 384 256 Твердый диск Сопро- Сопроцессор Максимальное число пере- переменных — 1 1 0 | 200 + 1-3 +1—20 -0.7 • 0.7 +2—4 f 1—3 ] +2—6 —0 3 —0.4 +» +1-2 + + 0 0 + 0 0 1 о 300 300 250 200 150 200 200 RAM 0 1 RAM 0 \ RAM 0 200 объ- объектов D D D 32К 250К D D D 250К 250К 650К D 554
нимальная память на диске (Мб), необходимая для работы пакета, и вторая — максимальная, запрашиваемая для рабо- работы только некоторых программ. Знак «+» означает необ- необходимость диска, «•» — желательность его, «—» — ненуж- ненужность. В графе «Сопроцессор» знак «t» указывает на необхо- необходимость сопроцессора Intel 8087 для работы пакета, «0» — его использование носит опциональный характер. Заметим, что использование сопроцессора повышает скорость обработ- обработки в среднем в 3 раза. В графе «Максимальное число объектов» буква D озна- означает, что объектов может быть столько, сколько их разме- размещается на диске, число килобайт (К) указывает, что объектов может быть столько, сколько поместится в области памяти такого объема (при заданном числе переменных). Здесь рассматриваются две версии пакета BMDP — ба- базисная (basis) и полная (full), две версии пакета SRSS/PC + (basis и full) и две версии пакета STATA (basis и full). Базисная версия BMDP содержит 6 программ, а пол- полная — 28 программ. Базисная версия SPSS/PC + не вклю- ч-ает некоторые программы по многомерному анализу дан- данных и имеет существенно сокращенные возможности графического анализа данных. Базисная версия STATA, в отличие от полной, не содер- содержит графических средств анализа. Управление пакетом и данными. Некоторые сведения, связанные с этими характеристиками, приведены в табл. 21.2. В графе «Способ управления» указано, каким образом осуществляется управление пакетом — с помощью системы меню или команд. С одной стороны, использование меню проще для пользователя-неспециалиста, с другой —¦ развитая система команд позволяет создавать подготовлен- подготовленному пользователю сложные схемы обработки. В графе «Им- «Импорт/экспорт» пакеты оцениваются по их возможности взаимодействовать по данным с другими широко использу- используемыми ПО для ПЭВМ — интегрированными пакетами, «spreed sheet» (типа Lotus 1—2—3), базами данных (dBase П/Ш и т. д.). Здесь, как и в других графах этой табли- таблицы, «+», означает хорошо развитый и легко доступный для пользователя обмен, «¦»— удовлетворительный уровень, «—»—-возможность имеется, но реализация достаточно труд- трудна. В графе «Манипуляция» приведены оценки возможностей пакетов по работе с файлами —- слияние и разделение фай- файлов по переменным и объектам. В четвертой графе в анало- аналогичной шкале оцениваются возможности, предоставляемые 555
Пакет ABC BMDP/PC (basis) BMDP/PC (full) NCSS PC-ISP P-STAT SPSS/PC 4 (basis) SPSS/PC f (full) STATA (basis) STATA (full) STATGRAPHICS SYSTAT Способ управления Меню Команда Команда Меню Команда Команда Команда Команда Команда Команда Меню Команда Импорт/ экспорт 4- 4- • -1 1 + 1 + 1 1 Манипуляция — — — н ;_ -Ь 1 4- + Та Преобразо- Преобразование пере- переменных - i- . 4 + • блиц Пропуски взвешивание н- а 21.2 Докумен- Документация — • ] ¦ I + 1 + 1 н 1 + 1 + 1 - . -*- | 1 пользователю для создания новых переменных, преобразо- преобразования переменных, перекодировки данных и т.д. В графе «Пропуски» оцениваются возможности по работе с пропуска- пропусками в данных, присвоения весов объектам. В последней гра- графе оценивается уровень документированности и консульта- консультаций (help). Возможности статистической обработки. Данные о реа- реализации в пакетах процедур статистической обработки при- приведены в табл. 21.3, 21.4 Знак «—» в этих таблицах указы- указывает на отсутствие соответствующей процедуры, « ь» — наличие ее, а знак «•» — на то, что имеются ограниченные возможности. Так, для пакета STATGRAPHICS имеется лишь одна кластер-процедура (метод А-средних) и та реали- реализована для небольшого числа объектов (я ~ 100). Следует отметить, что все пакеты хорошо приспособлены для получения дескриптивной статистики одномерных дан- данных и коэффициентов ассоциации (корреляций разных ти- типов, корреляционных отношений, х2-сгатистик и т.д.). На- Наименьшими возможностями в этом отношении обладает па- пакет ABC. 556
Таблица 21.3 Пакет ABC BMDP/PC (basis) BMDP/PC (full) NCSS PC-ISP P-ST^T SPSS/PC (basis) SPSS/PC (full) STATA (bdsis) STATA (full) STATGRAPHICS SYST^T Регрес- Регрессионный анализ • + + + + + + - + -1- Факторный анализ и главные компонен- компоненты — — + ¦ + .— f — — Кластер- анализ — — + — — — + — — + Днскри- минавтный анализ — — + — + | — [ — | Логлнней- ная модель — + — — — | — 1 —' 1 — | — | — • Таблица 21 4 Пакет ABC BMDP/PC (basis) BMDP/PC (full) NCSS PC-ISP P-STAT SPSS/PC+(basis) SPSS/PS+(fuII) STATA (basis) STAT4 (full) STATGRAPHICS SYSTAT Лаговые перемен- ные — - Бокса— Дженкнн- са модель — + - • 1 - - • — — — — + + Сглажи- Сглаживание, тренд — — . + + + — Спокт ральный анализ — — + — + — — — - 1 - ¦ — + I + + + 557
Наиболее полный набор статистических процедур предо- предоставляет пакет BMDP/PC (full). Самым гибким в отноше- отношении управления данными является пакет P-STAT. STATGRAPHICS — сравнительно медленно работаю- работающий пакет, и его лучше использовать на более мощных ЭВМ типа IBM AT. 21.2. Проблемы и опыт создания интеллектуализированного программного обеспечения по многомерному статистическому анализу 21.2.1. Что такое «интеллектуализация программного обес- обеспечения» и почему она нужна в прикладной статистике. Как известно1, конечной целью общей программы разра- разработки ЭВМ пятого поколения является создание компьютеров, в которых будет реализован такой резкий ска- скачок их интеллектуальных возможностей, в результате чего машина сможет непосредственно «понимать» задачу, постав- поставленную перед ней непрофессиональным пользователем на естественном языке, т. е. <: помощью речи, чертежей, чз&ем, графиков и т.п. В этой общей программе можно выделить четыре основных направления разработок: 1) развитие элементной базы (в частности, уже сегодня реально решение задачи достижения плотности «упаковки» порядка нескольких тысяч вентилей на одном кристалле); 2) разработка новой архитектуры (и в первую очередь архитектуры с многими параллельными потоками команд и обрабатываемых данных, предусматривающей, в частности, использование спецпроцессоров); 3) совершенствование программной технологии (и в част- частности, разработка языков высокого уровня для параллель- параллельной обработки данных); 4) интеллектуализация, т. е. оснащение ЭВМ системой решения задач и логического мышления, обеспечивающей способность машины к самообучению, ассоциативной обра- обработке информации и получению логических выводов, что в конечном счете позволит резко повысить уровень «дружелю- «дружелюбия» машины по отношению к пользователю. Именно в русле ключевых задач пятого направления ле- лежат проблемы разного уровня интеллектуализации при- Симонс Дж. ЭВМ пятого поколения: компьютеры 90-х годов: Пер с англ. — М.: Финансы и статистика, 1985. — 172 с. 538
кладного (проблемно- и методо-ориентированного) програм- программного обеспечения (ППО). Экспертные системы принято относить к одной из основных форм высшего уровня интел- интеллектуализации ППО. Их создание связано в первую оче- очередь с разработкой методов и средств формализации и ввода знаний в компьютерные системы (круг этих вопросов со- составляет содержание специальной дисциплины —так назы- называемой «инженерии знаний») и манипулирования введен- введенными знаниями. Таким образом, проблематику, связанную с разработкой экспертных систем, можна отнести к кругу ключевых вопро- вопросов решения общей программы создания ЭВМ пятого поко- поколения. Однако следует подчеркнуть разницу в уровне друже- дружелюбия, характеризующем экспертную систему и ЭВМ пято- пятого поколения: услугами последней смогут пользоваться лица, не имеющие опыта работы с ЭВМ, в то время как для работы с экспертной системой все-таки должна быть опре- определенная профессиональная подготовка. В дополнение к сказанному необходимо остановиться на еще одном факторе, стимулирующем развитие работ в об- области создания именно статистических экспертных систем (СЭС). Дело в том, что бурно возрастающие объемы информации, требующие грамотной статистической обработки, и почти столь же интенсивно растущее количество промышленного (и коммерчески распространяемого) статистического про- программного обеспечения (СПО), в основном в виде специали- специализированных пакетов и библиотек (см., например, 1309]), находятся в явном дисбалансе с относительно медленно рас- растущей численностью квалифицированных специалистов в области прикладной статистики. Это общая тенденция, но в СССР она проявляется особенно остро. В результате катастрофически нарастающее число лиц, не являющихся специалистами в области статистического анализа данных, использует СПО независимо от того, по- получили ли они одобрение специалистов по прикладной ста- статистике и нужно ли это для успешного решения стоящих перед ним задач. Это в свою очередь является причиной раз- развития опасного процесса роста доли неквалифицированного, порой безграмотно-спекулятивного использования СПО, что приводит к дискредитации аппарата прикладной статистики, наносит вред делу. Распространение опыта специалистов по прикладной статистике в виде СЭС, нацеленных на подсказки и машин- машинное ассистирование, в первую очередь в области предмо- дельного (разведочного) анализа данных, выбора подходя- 559
щих моделей и нужной последовательности применяемых методов, интерпретации промежуточных и конечных ре- результатов статистического анализа 1, позволит в какой-то мере ослабить развитие упомянутого опасного процесса роста неквалифицированного использования СПО и смяг- смягчить причину этого процесса-дисбаланса между потребно- потребностью в квалифицированных специалистах по прикладной статистике и их фактическим наличием. И наконец, о социальном аспекте проблемы создания СЭС. В этой связи следует упомянуть о наличии (в рядах специа- специалистов по прикладной статистике) определенной доли скеп- скептиков и даже явных противников, которые считают, что СЭС снижают потребность в знаниях живых специалистов, в ка- какой-то мере заменяют и вытесняют их, выступают в качест- качестве их конкурентов; следовательно, необходимо устраниться от участия в работах по созданию СЭС. В действительности СЭС позволяет существенно повы- повысить лишь средний, так сказать «ширпотребовский», уро- уровень использования статистических методов анализа дан- данных. Им в настоящее время обладает выросшая в последние десятилетия целая армия особого рода пользователей — «смежников», которые, как правило, «понемногу» ориентиру- ориентируются и в предметной области, в рамках которой решаются соответствующие статистические задачи (в экономике, со- социологии, медицине, геологии, технике и т.д.), и в инстру- инструментарии прикладной статистики, не являясь профессиона- профессионалами ни там, ни здесь. Вот для этой армии работников кон- кондиционные СЭС действительно представляют угрозу, так как при наличии хороших СЭС этих работников с пользой для дела целесообразно заменить специалистами-профессиона- специалистами-профессионалами соответствующих предметных областей. Что касается профессионалов-статистиков, то создание и распространение СЭС лишь позволит высвободить часть их рабочего времени, отводимого для выполнения функций специалиста средней квалификации (в основном рутинного характера), и переключить его на решение задач более вы- высокого профессионального уровня. Если к этому добавить продуманную систему экономического стимулирования ра- работ профессионалов-статистиков в области создания СЭС, 1 Все эти вопросы относятся к основным «узким местам» в прове- проведении статистического анализа слабо подготовленным (в области прикладной статистики) пользователем, а стандартные СПО, предо- предоставляя пользователю в первую очередь набор так называемых счет- счетных модулей, практически никак не помогают ему в преодолении этих узких мест. 560
то их заинтересованность в развитии этих работ станет не только профессионально-органичной, но и активной 21.2.2. Интеллектуальные возможности статистической экспертной системы и основные вопросы, возникающие при ее создании. Создатели большинства известных к настоя- настоящему времени статистических экспертных систем1 ставили перед собой задачу обеспечить пользователю СЭС машинное ассистирование по след\ ющему кругу вопросов: 1) подсказки по существующим литературным, методи- методическим и программным материалам, относящимся к специфи- специфике решаемой задачи, 2) советы в выработке адекватных исходных допущений о природе обрабатываемых данных и в выборе общего вида модели; 3) предложение «меню» подходящих методов статисти- статистической обработки с пояснением (в случае запроса пользова- пользователя) их сущности, особенностей, сфер применимости; 4) подсказки в построении технологической цепочки ста- статистических процедур и алгоритмов, из которых должна со- состоять основная обрабатывающая (счетная) программа, и ее автоматическая реализация на ЭВМ; 5) помощь в проведении осмысления и интерпретации промежуточных и конечных результатов статистического анализа и (в случае необходимости) в выработке корректи- корректирующих управляющих команд к проведению дальнейшего статистического анализа; 6) помощь в выборе форм представления результатов проведенного статистического анализа Основной круг пользователей, на который рассчитаны подобные СЭС. это прикладные статистики и математики разного уровня квалификации, а также специалисты пред- предметных областей (экономисты, социологи, медики, инже- инженеры и т. д.), обладающие вероятностно-статистической под- подготовкой в объеме экономического или технического вуза. В процессе создания СЭС разработчикам приходится по- последовательно анализировать следующие вопросы (и уточ- уточнять их решение): а) На какого именно пользователя (предметная область, уровень квалификации) ориентирована создаваемая статис- статистическая экспертная система, каковы конечные прикладные 1 Hahn G. J. More Jntelligent Statistical Software and Statisti- Statistical Expert Systems: Future Directions (with Comment by P. F. Ville- man and J. W. Tukey) // Amer. Stat. — 1985. — Vol. 39, 1.— P. 1 — 16. 561
цели разработки и требования к уровню ее интеллектуали- интеллектуализации? б) Какова структура функционального наполнения и сценария диалога СЭС? в) Какова главная концептуальная направленность (базовый методологический принцип) создаваемого машин- машинного ассистирования (консультации в выборе и реализации используемых статистических методов, помощь в выборе стратегии статистического исследования и т д.)? г) Какие именно технические средства целесообразно привлечь для реализации создаваемой СЭС? д) Какие типовые и оригинальные программные средства и алгоритмические языки необходимы для создания СЭС? е) Какие средства интеллектуального ассистирования и интерактивного режима необходимы для построения СЭС? ж) В какой мере возможно использование существую- существующих, а в какой — необходима разработка новых методов и средств формализации и ввода знаний в компьютерные системы, манипулирования введенными знаниями? з) Как проводить апостериорную оценку уровня интел- интеллектуализации созданной СЭС? 21.2.3. Серия методо-ориентированных статистических экс- экспертных систем (серия МОСЭСI. Серия методо-ориентиро- методо-ориентированных статистических экспертных систем состоит из опре- определенного числа автономных СЭС, каждая из которых может быть использована для решения задач различных предмет- предметных областей (экономики, социологии, медицины, техники и т п.), объединяемых лишь общностью необходимого для их решения статистического инструментария. Другими сло- словами, каждая отдельная экспертная система серии реализу- реализует статистический инструментарий одного из разделов при- прикладной статистики: СЭС по регрессионному анализу, СЭС по классификации объектов и признаков, СЭС по разведоч- разведочному статистическому анализу и т п., и в этом смысле мо- может быть отнесена к методо-ориентированным. Допускается включение в серию и отдельных проблемно- и методо-ориен- методо-ориентированных СЭС, т. е. СЭС, предназначенных для решения задач определенной предметной области. Но при этом они требуют использования лишь однородного статистического инструментария (например, в экономике это могут быть СЭС по решению систем одновременных эконометрических урав- 1 Серия МОСЭС разработана, развивается и сопровождается в Центральном экономико-математическом институте АН СССР и совместном советско-американском предприятии «Диалог». 562
нений или по построению и анализу производственных функ- функций: обе эти системы основаны, в инструментальном плане, на статистическом аппарате регрессионного анализа и ана- анализа временных рядов). Общность различных автономных СЭС, составляющих серию, заключается в их совместимости, а также в возмож- возможности расширяемости серии. Совместимость различных компонентов серии состоит в одинаковой ориентации на тип пользователя и уровень ин- интеллектуализации; общности базового методологического принципа создаваемого в СЭС машинного ассистирования; общности технических и программно-инструментальных средств, на базе которых создается СЭС; возможности вза- взаимных ссылок (т. е., например, пользователь СЭС по регрес- регрессионному анализу в процессе диалога с машиной может по- получить от нее на какой-то стадии решения своей задачи со- совет произвести так>ю-то процедуру статистической обработ- обработки с помощью, скажем, СЭС по классификации из данной серии). Возможность расширяемости серии, т. е. ее пополнения новыми СЭС, сопряжена лишь с необходимостью соблюде- соблюдения при конструировании новой СЭС вышеупомянутых ус- условий совместимости. Ниже приводится краткое описание функционального наполнения компонентов серии методо-ориентированных экспертных систем — «Серии МОСЭС». При выборе разде- разделов прикладного статистического анализа разработчики руководствовались, помимо профессиональных пристра- пристрастий и имеющихся научных заделов, интересами экономиче- экономических и социально-экономических приложений. 1. МОСЭС-АВР— методо-ориентированная статисти- статистическая экспертная система по анализу временных рядов (см. например, [12, гл 12, 17] и др.). Необходимость теку- текущего, оперативного анализа динамики показателей, харак- характеризующих состояние или функционирование системы (экономической, технической и т.п.)—одна из наиболее распространенных черт характера деятельности многомил- многомиллионной армии плановых и управленческих работников на разных иерархических уровнях экономики. Такого же типа задачи постоянно возникают и в разнообразной практике исследовательской деятельности. Здесь и задачи сглажива- сглаживания временных рядов, их разложения на трендовую, перио- периодическую (сезонную) и случайную составляющие, их экст- экстраполяции (прогноз), улавливания моментов и характера резких структурных сдвигов и т.д. Именно на решение та- таких задач нацелена МОСЭС-АВР. 563
2. МОСЭС-РАЗВАД — методо-ориентированная статис- статистическая экспертная система по разведочному анализу данных. В практике статистических исследований сложи- сложилась печальная традиция (ей, правда, можно найти объектив- объективное историческое объяснение), в соответствии с которой важнейший, ключевой этап формирования и обоснования исходных рабочих допущений, закладываемых в основание модели генерирования обрабатываемых статистических дан- данных, как правило, игнорировался Схема подобных исследо- исследований строилась примерно так- «будем полагать (или «есть основания считать»), что анализируемая регрессионная за- зависимость линейна и характеризуется независимыми и нор- нормально распределенными случайными остатками Тогда...». На самом деле обрабатываемые статистические данные мо- могут быть не только не нормальными и не независимыми, но и не однородными (в регрессионном смысле) Именно мимо таких «натяжек» в исходных допущениях и приходилось проходить исследователям Интенсивно развиваемый в по- последние 10—15 лет аппарат разведочного анализа и, в част- частности, такие его методы, как целенаправленное проеци- проецирование многомерных данных, как раз и нацелены на все- всестороннее предварительное «прощупывание» исходных дан- данных с целью формирования адекватных рабочих предполо- предположений об их вероятностной и геометрической природе, о механизме их генерирования К настоящему времени в мире имеются считанные единицы программных продуктов, реа- реализующих этот аппарат (см., например, [143J), и ни одной (по нашим сведениям) экспертной системы Сказанное моти- мотивирует выбор разведочного анализа в качестве «начинки» для одного из компонентов «Серии МОСЭС». В МОСЭС- РАЗВАД, в частности, реализованы методология и значи- значительная часть математического инструментария, описан- описанного в разделах III и IV данной книги. 3 МОСЭС-РЕГРАН — методо-ориентированная статис- статистическая экспертная система по регрессионному анализу. Статистический аппарат, позволяющий выявлять и описы- описывать зависимость некоторого количественного результирую- результирующего показателя от набора объясняющих переменных, со- составляет содержание регрессионного анализа и относится, бесспорно, к наиболее широко и часто эксплуатируемому в разнообразных приложениях статистическому инструмента- инструментарию Особая актуальность интерактивного диалогового ре- режима общения с ЭВМ в процессе использования этого аппа- аппарата связана с реализацией таких его слабо формализован- формализованных этапов, как подбор подходящих преобразований для переменных модели, выбор ее общего вида, исследование яв- 564
лени я мультиколлинеарности, анализ влияния резко выде- выделяющихся наблюдений и т.п. Именно в эти моменты «беседа» с СЭС и ее подсказки особенно ценны для пользователя В обоснование мотивировки выбора этого раздела приклад- прикладной статистики в качестве «начинки» одного из компонентов «Серии МОСЭС» следует включить и необходимость про- программно-вычислительной реализации последних теоретико- методических разработок в данной области и весьма высо- высокую частоту ссылок на этот раздел других компонентов «Серии МОСЭС» В МОСЭС-РЕГРАН реализованы мето- методология и математический инструментарий, описанные в 112] 4 МОСЭС-КЛАСС — методо-ориентированная статисти- статистическая экспертная система по классификации объектов и признаков Наряду с регрессионным анализом статистиче- статистические методы классификации (распознавания образов, ди- скриминантного анализа, автоматической классификации, кластер-анализа и т п ) относятся к наиболее широко и час- часто эксплуатируемому в приложениях, и в первую очередь в экономических и социально-экономических приложениях, статистическому инструментарию Задачи выявления ти- типологии и типообразующих признаков, технической и ме- медицинской диагностики, предварительной обработки масси- массивов информации с целью их разделения на однородные (в оп- определенном смысле) порции и многие др. обслуживаются методами именно этого раздела ПСА Продвинутость отечест- отечественных теоретико-методических разработок в данной обла- области позволяет рассчитывать на достаточно высокую конку- конкурентоспособность (по меньшей мере по своему функциональ- функциональному наполнению) данного программного продукта В нем, в частности, реализованы методология и математический инструментарий, описанные в разделах I й II данной книги 5 МОСЭС-СЭУ — проблемно- и методо-ориентирован- методо-ориентированная статистическая экспертная система по решению и ана- анализу систем одновременных эконометрических уравнений. В ней реализованы методология и математический инстру- инструментарий, описанные в [12, гл 141. 6 МОСЭС-ПАПРОФ — проблемно- и методо-ориентиро- методо-ориентированная статистическая экспертная система по построению и анализу производственных функций. Производственные функции, как известно, позволяют в сжатой математиче- математической форме представить характерные для анализируемой экономической системы (предприятия, отрасли, всего на- народного хозяйства) соотношения между объемом выпускае- выпускаемой продукции, с одной стороны, и размерами основных про- производственных ресурсов (включая факторы научно-техниче- 565
ского прогресса) — с другой. Используемый для их построения и анализа статистический аппарат — это ре- регрессионный анализ и анализ временных рядов. Конечный пользователь «Серии МОСЭС» и характер ее интеллектуализации. «Серия МОСЭС» адресуется как стати- статистику, так и пользователю нестатистику, который, с одной стороны, уже располагает постановкой задачи и четко пред- представляет себе конечные прикладные цели исследования, а с другой стороны, может иметь лишь общее поверхностное представление об аппарате прикладной статистики (на уров- уровне знания основных определений и понятий, таких, как мо- модель регрессии и назначение регрессионного анализа, вре- временный ряд и его тренд, содержание задачи классификации в условиях наличия или отсутствия обучающих выборок, многомерное наблюдение и его проекция на плоскость и т. п.). В эту категорию пользователей попадает, в частно- частности, значительная доля (более 50 %) специалистов той предметной области, к которой относится решаемая задача. Таким образом, среди пользователей «Серии ЛЮСЭС» могут быть как статистики (разного уровня квалификации), так и нестатистики — специалисты соответствующих предмет- предметных областей (экономисты, социологи, инженеры, медики и т.д.), имеющие минимальную статистическую подго- подготовку. При пояснении характера и направленности интеллекту- интеллектуализации описываемых МОСЭС примем следующее условное разложение технологии статистического исследования на элементы. Элемент 1 (стратегически-постановочный): уточнение постановки задачи и конечных прикладных целей исследо- исследования. Элемент 2 (тактико-методический): выбор подходящего статистического инструментария, включая определение со- состава и последовательности реализации статистических про- процедур, используемых для обработки исходных данных. Элемент 3 (счетный): вычислительная реализация вы- выбранного комплекса методов статистического анализа дан- данных. Элемент 4 (интерпретационный): интерпретация про- промежуточных и итоговых результатов статистической обработ- обработки данных, формулировка выводов, в том числе по поводу направлений дальнейших исследований. Из этих четырех основных элементов технологии стати- статистического исследования экспертные системы «Серии МОСЭС» претендуют на частичную автоматизацию и машин- 566
ное ассистирование лишь трех последних: тактико-методи- тактико-методического, счетного и интерпретационного. При этом акцент делается на помощь пользователю в выработке адекватных исходных допущений (гипотез) о вероятностной и геометри- геометрической природе обрабатываемых статистических данных и & правильном подборе и описании модели, генерирующей эти данные («МОСЭС-РАЗВАД» целиком предназначена для ре- решения этих вопросов, а в остальных компонентах «Серии» этому аспекту уделяется существенное внимание). Общая логическая схема построения диалога «пользова- «пользователь-ЭВМ». Диалог строится в компонентах «Серии» по принципу «от общего к все более узко методо-ориентиро- ванному», а именно: на «входе» в систему—«паспорт» задачи; 1-й уровень диалога: ЭВМ — «имеет ли задача статистиче- статистическую природу?»; пользователь — «да» или «нет»; 2-й уровень диалога: если «нет», работа СЭС заканчивается; если «да», то к какой из нижеперечис- нижеперечисленных (в «меню») областей ПСА она относится: регрессионный анализ, классификация, временные ряды и т.д.; 3-й уровень диалога: (при работе, например, с системой «МОСЭС-КЛАСС». т. е. при ответе «классификация»^ на предыдущем уровне): ^ «в какой форме представлены исход- исходные данные?» «меню» возможных форм; 4-й уровень диалога: (если данные представлены в виде многомерных наблюдений): «распола- «располагаете ли Вы обучающими выборками?» 5-й уровень диалога: если «нет», то «известно ли Вам число искомых классов?»; 6-й уровень диалога: если «нет», то «желаете ли Вы произ- произвести целенаправленное проецирова- проецирование исходных данных с целью выра- выработки гипотез о возможном числе классов?», 7-й уровень диалога: если «да», то обратитесь к «МОСЭС- РАЗВАД» и т. д. Каждый вопрос ЭВМ сопровождается вспомогательным «примечанием — вопросом» типа: «если какое-нибудь нз понятий, участвующих в нашем вопросе, требует разъясне- ння, сделайте соответствующий запрос». 567
Инструментальные средства, использованные при созда- создании «Серии ЛЮСЭС». Каждый из компонентов «Серии МОСЭС» оперирует с базой знаний, содержащей не более 400—500 правил и утверждений. Это позволило использо- использовать в качестве технической базы персональные компьюте- компьютеры IBM PC/XT или IBM PC AT (или полностью с ними сов- совместимые 16-разрядные персональные ЭВМ). В качестве базовых алгоритмических языков использо- использовались языки «С», «LISP» и некоторые другие (специ- (специальные). Операционная система — MS-DOS. ВЫВОДЫ 1. В настоящее время происходит интенсивное развитие ПО статистики для ПЭВМ. Большинство известных зарубежных пакетов программ (среди них BMDP, SPSS, P-STAT, SAS) имеет в настоящее время версии для ПЭВМ (модели IBM PC XT,IBM PC AT, IBM PS-2). Эти пакеты в основном яв- являются приспособлением к возможностям ПЭВМ версий этих пакетов для больших ЭВМ. В частности, по этой причине они в меньшей степени используют возможности ПЭВМ для создания интерактивного взаимодействия с помощью меню и возможности графики. Специально разработанные с уче- учетом возможностей ПЭВМ пакеты, такие, как STATA (full) SYSTAT и STATGRAPHICS, с другой стороны, предостав- предоставляют меньшие возможности собственно статистической об- обработки. В целом же следует отметить, что ПО по статистике для ПЭВМ сейчас является достаточно развитым, в том числе и для задач сокращения размерностей и классификации. 2. Перспективной линией развития ПО статистики является разработка интеллектуальных систем статистической обра- обработки данных, в том числе статистических экспертных сис- систем, имеющих широкие возможности машинного ассистиро- ассистирования статистиков-исследователей разного уровня подготов- подготовки во время проведения статистического исследования. В на- настоящее время известно несколько образцов экспертных сис- систем в некоторых областях статистического анализа (см. п. 21.2.1). Их можно рассматривать как первые опытные об- образцы в этом направлении. Развитие интеллектуального ПО для статистики в рамках «Серии МОСЭС», рассмотренной в п. 21.2.2, позволит создать ряд интеллектуальных статисти- статистических систем, охватывающих большинство разделов статис- статистической обработки данных. 568
СПИСОК ЛИТЕРАТУРЫ 1. Ленин В. И. Развитие капитализма в России // Поли, соб, соч.— Т. 3. —791 с 2. Абусев Р. А. К задаче классификации групп многомерных нор- нормальных наблюдений// Прикладная статистика" Ученые за- записки по статистике — М Наука, 1983.— Т. 45.—С 371—372. 3. Абусев РАО сравнении поточечной и групповой классифика- классификации в случае многомерного нормального распределения // Статистические методы — Пермь, 1982 — С. 3—7. 4. Абусев Р. А., Лумельский Я П Несмещенные оценки и задачи классификации многомерных нормальных совокупностей // Теория вероятностей и ее применении — 1980. —№ 2. — С. 381—389. 5. Айвазян С. А. Многомерный статистический анализ в социально- экономических исследованиях // Экономика и математические методы. — 1977.— Т 13 — Вып. 5. — С. 968—985. 6. Айвазян С. А Об опыте применения экспершо-статистического метода построения неизвестной целевой функции // Многомер- Многомерный статистический анализ в социально-экономических ис- исследованиях — М. Наука, 1974.— С. 56—86. 7. Айвазян С. А. Статистическое исследование зависимостей.— М.: Металлургия. 1968.—227 с 8. Айвазян С А. Экстремальная формулировка основных проблем прикладной статистики //Программно-алгоритмическое обес- обеспечение прикладного многомерного статистическогл анализа: Всесоюз. школа, Ереван, сент. 1979. — С. 24—49. 9. Айвазян С. А., Бе-наева 3. #., Староверов О.В. Классификация многомерных наблюдений. — М.. Статистика. 1974 —240 с. 10. Айвазян С. А., Бухштабер В. М Анализ данных, прикладная статистика и построение общей теории автоматической клас- классификации // Методы анализа данных /Пер. с фр. — М.: Фи- Финансы и статистика, 1985.— Вступ ст. — С 5—22. 11. Айвазян С. А., Енюков И. С Мешалкин Л. Д. Прикладная ста- статистика. Основы моделирования и первичная обработка дан- данных. — М. Финансы и статистика, 1983,— 472 с. 12. Айвазян С. А., Енюков И С, Мешалкин Л. Д. Прикладная ста- статистика. Исследование зависимостей.— М.: Финансы и статис- статистика, 1985 — 488 с. 13. Айэерман М. А., Браверман Э.М., Розоноэр Л. И. Метод потен- потенциальных функций в теории обучения машин. — М.: Наука, 1970.— 384 с. 14. Алгоритмы и программы восстановления зависимостей! Под ред. В. Н. Вапиика. — М.: Наука, 1984.—816 с. 569
15. Альберт А. Регрессия, псевдорегрессия и рекуррентное оцени- оценивание /Пер. с англ.— М.. Наука, 1977.—224 с. 16. Андерсон Т. Введение и многомерный статистический анализ/ Пер. с англ. — М. Физматгиз, 1963. — 500 с. 17. Андерсон Т. Статистический анализ временных рядов /Пер. с англ. — М.: Мир, 1976. — 755 с. 18. Андерсон Т. Статистический анализ временных рядов в эконо- экономике/Пер. с англ. —М.- Статистика, 1972. —755 с. 19. Андрукович П. Ф. Некоторые свойства метода главных компо- компонент // Многомерный статистический анализ в социально-эко- социально-экономических исследованиях. — М.: Наука, 1974.—С. 189—228. 20. Архаров Л. В. О предельных теоремах для характеристических корней выборочных ковариационных матриц при больших раз- размерностях // Статистические методы классификации. —М.: Изд-во МГУ, 1972. 21. Афифи А., Эйзен С Статистический анализ. Подход с исполь- использованием ЭВМ /Пер. с англ. — М.: Мир, 1982 — 488 с. 22. Барабанюк Т., Шлезингер М. Об одном алгоритме обучения и оценке качества обучения //Статистические проблемы управле- управления. — Вильнюс, 1976. — Вып 14. — С. 93—104. 23. Барсов Д. М. Минимизация ошибки классификации при исполь- использовании смещенных дискриминантных функций // Статистика, вероятность, экономика.— М.. Наука, 1985.— С 376—379. 24. Благовещенский Ю. Н. Классификация упорядоченных клас- классов // Применение многомерного статистического анализа в экономике и оценке качества продукции1 Тез. докл. II Все- союз. науч -техн. конференции, Тарту, 1981 —С. 255—261. 25. Благовещенский Ю. Н., Мешалкин Л. Д. Линейная классифика- классификация распределений с поверхностями постоянного уровня плот- плотности, состоящими из концентрических эллипсов // Статисти- Статистические методы классификации. — М.: Изд-во МГУ, 1969.— Вып. 1. —С 21—24. 26. Благовещенский Ю. #., Мешалкин Л. Д. Некоторые объекты н проблемы анализа статистических данных // Применение мно- многомерного статистического анализа в экономике и оценке каче- качества продукции: Тез. докл. III Всесоюз. науч.-техн. конферен- конференции, Тарту, 1985 — Ч. I. — С. 27—32. 27. Блехер П. М., Кельберт М. #. Доказательство сходимости алгоритма «Форель» // Прикладной многомерный статисти- статистический анализ. — М.: Наука, 1978. — С. 358—361. 28. Бонгард М. М. Проблемы узнавания. — М.: Наука, 1967. — 320 с. 29. Боннер Р. Е. Некоторые методы классификации // Автоматиче- Автоматический анализ изображений. —М.: Мир, 1969. —С. 205—234. 30. Бородин А. И., Бугай А. С. Биографический словарь деятелей в области математики. — Киев: Радянська школа, 1979. — 607 с. 31. Боярский А. Я- Курс демографии. — М.: Статистика, 1975.— 454 с. 32. Браверман Э. М. Метод потенциальных функций в задаче обу- обучения машин распознаванию образов без учителя // Автомати- Автоматика и телемеханика. — 1966.—№ 10. —С. 100—121. 33. Браверман Э. М. Методы экстремальной группировки парамет- параметров и задача выделения существенных факторов // Автомати- Автоматика и телемеханика. — 1970. — № 1. — С. 123—132. 34. Браверман Э. /И., Мучник И. Б- Структурные методы обработ- обработки эмпирических данных. — М.: Наука, 1983.— 464 с. 570
35. Бухштабер В. М., Векслер Л. С, Автоматическая классифика- классификация, основанная на принципе решета Эратосфена // Примене- Применение многомерного статистического анализа в экономике и оценке качества продукции: Тез. докл. III Всесоюз. науч,- техн. конференции, Тарту, 1985 —Ч. II. — С. 94—97. 36. Бухштабер В. М , Мослов В. К. Векторная оптимизация в СОИИ//Измерительная техника — 1977,—№ 5. — С. 46—49. 37. Бухштабер В. М., МасловВ. К. Задачи прикладной статистики как экстремальные задачи на нестандартных областях //Алго- //Алгоритмическое и программное обеспечение прикладного статис- статистического анализа Ученые записки по статистике.— М.: Нау- Наука, 1980 — Т. 36. — С. 381—395. 38. Бухштабер В. М., МасловВ. К. Факторный анализ и экстре- экстремальные задачи на многообразиях Грассмана 'Математические методы решения экономических задач. — М.: Наука.— 1977 — № 7. — С. 87—102. 39. Бухштабер В. М., Маслов В. К. Факторный анализ на многооб- многообразиях и проблема выделения признаков в распознавании об- образов //Изв. АН СССР. — (Техн. кибернетика). — М., 1975.— № 6. —С. 194—201. 40. Бухштабер В. М., Мослов В. К. Томографические методы ана- анализа данных // Применение многомерного статистического анализа в экономике и оценке качества продукции: Тез, докл. III Всесоюз, науч.-техн. конференции, Тарту, 1985. — Ч. I. — С. 33—42. 41. Бухштабер В. М., Маслов В. К., Зеленюк Е. А. Методы анализа и построение алгоритмов автоматической классификации на основе математических моделей // Прикладная статистика: Ученые записки по статистике,— М,: Наука, 1983.— Т. 45. — С. 126—144. 42. Бухштабер В. М., Маслов В. К., Зеленюк Е. А. Методы пост- построения алгоритмов эталонного типа в задачах автоматической классификации // Машинные методы обнаружения закономер- закономерностей: Вычислительные системы, — Новосибирск, 1981. — Вып. 88. — С. 65—79. 43. Вайнцвайг М. Н. Алгоритм обучения распознаванию образов «Кора» // Алгоритмы обучения распознаванию образов. — М.:Сов. радио, 1973. — С. 8—12. 44. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 447 с. 45. Вапник В. Н., Червоненкис А. Я, Теория распознавания обра- образов. — М.: Наука, 1973,—416 с. 46. Ватанабе С, Разложение Карунена — Лоэва и факторный ана- анализ: Теория и приложения // Автоматический анализ сложных изображений. — М.: Мир, 1969. — С. 163—181. 47. Волконский В. А. Экономико-математические модели согласо- согласованного планирования платежеспособного спроса и рознич- розничных цен //Экономика и математические методы. — 1973. — Т. IX. — №4. —С. 16—25. 48. Выханду Л. К. Об исследовании миогопризиаковых биологичес- биологических систем // Применение математических подходов в биоло- биологии.—Л.: Изд-во ЛГУ, 1964.—С. 19—22. 49. Гаек П., Гавранек Т. Автоматическое распознавание гипотез. — М.: Наука, 1984. —278 с. 50. Герасимова И. А. Структура семьи. —М.: Статистика, 1976.— 176 с. 571
51. Гирко В. Л. Случайные матрицы. — Киев: Радяиська школа, 1975.—448 с. 52. Гранберг А. Г. Целевая функция общественного благосостоя- благосостояния и критерии оптимальности в прикладных народнохозяй- народнохозяйственных моделях // Проблемы народнохозяйственного оптиму- оптимума. — М.: Экономика, 1969. — С. 78—94 53. Группировка предприятий отрасли методами теории распозна- распознавания образов // Экономика и математические методы. —1969.— Т. V.— № 3 — С 353—365. 54. Гусейн-Заде С. О задачах таксономии в теоретической геогра- географии// Прикладная статистика Ученые записки по статисти- статистике — М Наука, 1983. — Т. 45. — С. 378—382. 55. Деев А. Д. Представление статистик дискриминантного анализа и асимптотическое разложение при размерности пространства, сравнимой с объемом выборок// Доклады АН СССР. —1970. — 195. — С. 759—762 56. Дорофеюк А. А. Алгоритмы автоматической классификации (об- (обзор) //Автоматика и телемеханика. — 1971. — № 12. — С. 78 — 113. 57. Дорофеюк А. А. Алгоритмы обучения машин распознаванию об- образов без учителя, основанные на методе потенциальных функ- функций // Автоматика и телемеханика. — 1966. —№ 10.— С. 78— 87. 58. Дубровский С. А. Прикладной многомерный статистический анализ. —М.: Финансы и статистика, 1982. —216 с. 59. Дуда Р., Харт П. Распознавание образов и анализ сцен/Пер. с англ. — Л1 . Мир. — 512 с. 60. Дюран Б., Оделл П. Кластерный анализ. —М.: Статистика, 1977. — 128 с. 61. Дзйвисон М Многомерное шкалирование: методы наглядного представления данных. Пер. с англ.— М.: Финансы и стати- статистика, 1987 — 254 с. 62. Елисеева И И.. Рукавишников В. О. Группировка, корреляция, распознавание образов. Статистические методы классификации и измерения связей —М.: Статистика, 1977. — 143 с. 63. Елкина В. Н., Загоруйко Н. Г. Количественные критерии каче- качества таксономии и их использование в принятии решений// Вычислительные системы. — Новосибирск. Наука. — 1969. — Вып. 36. — С. 32—44. 64. Енюков И. С. Методы оцифровки неколичественных признаков// Алгоритмическое и программное обеспечение прикладного статистического анализа: Ученые записки по статистике. — М.: Наука, 1980. — Т. 36. — С. 309—316. 65. Енюков И С. Дискриминантный анализ в системе математиче- математического обеспечения обработки данных // Статистика. Вероят- Вероятность. Экономика.— М.: Наука, 1985. — С. 39—58. 66. Енюков И. С. Методы, алгоритмы, программы многомерного статистического анализа (пакет ППСА). — (Матем. обеспече- обеспечение прикладной статистики). —М.: Финансы и статистика, 1986.-232 с. 67. Енюков И. С. Решающие правила на основе линейных комбина- комбинаций диагностических показателей // Новости медицинской тех- техники. — 1975. — Вып. 3. — С. 16—25. 68. Енюков И. С, Кулакова Е. П. Числовые метки для неколичест- вениых признаков в дискриминантном анализе // Прикладной многомерный статистический анализ. —М.: Наука, 1978.— С. 353—357. 572
69. Енюков И. С, Нейштадт А. И. Оценка дискриминантиого про- пространства по неклассифицированной выборке // Прикладной многомерный статистический анализ. — М.: Наука, 1978.— С. 326—333. 70. Жирмунская Е. А.. Маслов В. К. Анализ структуры ЭЭГ мето- методами распознавания образов // Физиологический журнал СССР. — Л.: Наука. 1974. — Т. IX. — № 4. — С. 484—490. 71. Жуковская В. М , Мучник И. Б. Факторный анализ в социально- экономических исследованиях. — М.: Статистика, 1976. — 151 с. 72. Журавлев О. Г., Торговицкий И. Ш. Оптимальный метод объек- объективной классификации в задачах распознавания образов // Автоматка и телемеханика. — 1965.— №11.—С. 2062— 2063. 73. Журавлев Ю. И., Камилов М. М., Туляганов Ш. Е. Алгоритмы оценок и их применение. — Ташкент: Фан, 1974. — 124 с. 74. Завалиишн Н. В., Мучник И. Б. Модели зрительного восприя- восприятия и алгоритмы анализа изображений.— М.: Наука, 1974.— 204 с. 75. Загоруйко И. Г., Елкина В. #., Лбов Г. С. Алгоритмы обнару- обнаружения эмпирических закономерностей.— Новосибирск: Наука, 1985. — ПО с. 76. Заде Л. Л. Размытые множества и их применение в распознава- распознавании образов и кластер-анализе // Классификация и кластер / Пер. с англ. — М.: Мир, 1980. — С. 208—247. 77. Зангвилл У. И. Нелинейное программирование /Пер. с англ. — М.: Сов. радио, 1973. —312 с. 78. Заруцкий В. И. Классификация нормальных векторов простой структуры зависимостей в пространстве большой размерности // Прикладной многомерный статистический анализ. — М.: Наука, 1978 —С. 37—51. 79. Заруцкий В.И. О выделении некоторых графов связей для нор- нормальных векторов в пространстве большой размерности // Ал- Алгоритмическое и программное обеспечение прикладного ста- статистического анализа: Ученые записки по статистике. — М.: Наука, 1980. —Т. 36. —С. 189—208. 80. Иберла К. Факторный анализ. — М.: Статистика, 1980. — 389 с. 81. Каменский В. С. Методы и модели неметрического шкалирова- шкалирования // Автоматика и телемеханика. — 1977. — № 8. — С. 118— 156. 82. Карп В. П., Кунин П. Е. Метод направленного обучения в пере- переборной схеме М. М. Боигарда и онкологическая диагностика // Моделирование обучении и поведения.— М.: Наука, 1975. — С. 7 — 17. 83. Классификация и кластер /Под ред. Дж. Вэи Райзина. — М.г Мир, 1980. —390 с. 84. Климов Г. П. Инвариантные выводы в статистике. —М.: Изд- во МГУ, 1973. — 186 с. 85. Кокрен У. Методы выборочного исследования /Пер. с англ. — М.: Статистика, 1976. — 440 с. 86. Колмогоров А. Н., Фоиин С. В. Элементы теории функций и функционального анализа. — М.: Наука, 1981.—542 с. 87. Конотопский В. Ю. Экспертно-статистический метод построе- построения интегрального показателя экономической эффективности деятельности промышленного предприятия: Дис. ... канд. экон. иаук. — М.: МГУ им. М. В. Ломоносова, 1986. —171 с. 573
88. Крамер Г. Математические методы статистики.—М.: Мир, 1975. — 648. 89. Краскэл Дж.Б. Многомерное шкалирование и другие методы по- поиска структуры // Статистические методы для ЭВМ/Пер. с англ.; Под ред. М. Б. Малютова. — М.: Наука, 1986. — С. 301—347. 90. Краскэл Дж. Б. Взаимосвязь между многомерным шкалирова- шкалированием и кластер-анализом /'Классификация и кластер /Пер. с англ — М. Мир, 1980.—С. 21—41. 91. Кульбак С. Теория информации и статистика /Пер. с англ. — М.. Наука, 1967.—408 с. 92. Куперштох В. Л., Миркин Б. Г., Трофимов В. А. Сумма внут- внутренних связей как критерий качества классификации // Авто- Автоматика и телемеханика. — 1976. — №3. —С. 91—98. 93. Лбов Г. С. Выбор эффективной системы зависимостей призна- признаков '/ Вычислительные системы. — Новосибирск, 1965.— Вып. 19. —С. 21—24. 94. Лбов Г. С. Логические функции в задачах эмпирического пред- предсказания '/ Эмпирическое предсказание и распознавание об- образов Вычислительные системы. — Новосибирск, 1978.— Вып. 76. — С. 34—64. 95. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. — Новосибирск- Наука, 1981. — 160с. 96. Лоули Д., Максвелл А. Факторный анализ как статистический метод. — М.: Мир, 1967. — 144 с. 97. Лцмельский В. Я- Агрегирование объектов иа основе квадратич- квадратичной матрицы Ч Автоматика и телемеханика. — 1970. — № J.— С 133—143. 98. Лумельский В. Я- Агрегирование матрицы межотраслевого ба- баланса с помощью алгоритма диагонализации матрицы связи // Автоматика и телемеханика. — 1970. —№9. —С. 69—72. 99. Льюс Р. Д., Райф X. Игры и решения. — М.: Изд-во иностран- иностранной лит-ры, 1961. — 643 с. 100. Макаров В. Л., Айвазян С. А., Житков В. А. Эксперименталь- Экспериментальная экономика и стенд экономико-математического моделиро- моделирования '/Экономика и математические методы. — 1989. — т. XXIV. — №6. 101. Малиновский Л Г. Классификация объектов средствами дис- криминантного анализа. — М. Наука, 1979. — 260 с. 102. Маркова Е. В., Маслак А. А. Рандомизация и статистический вывод. — М. Финансы и статистика, 1986. — 208 с. 103. Марченко В. А., ПастурЛ А. Распределение собственных зна- значений в некоторых ансамблях случайных матриц // Математи- Математический сборник. — 1967. — 72 A14). — № 4. — С. 507—536. 104. Маслов В. К. Алгоритмически* методы поиска информативных признаков при распознавании случайных процессов // Методы представления и аппаратурный анализ случайных процессов и полей: Тез. докл. V Всёсоюз. симпозиума. — Л., 1972.— С. 25—29. 105. Матюха И. Я- Статистика бюджетов населения.—Мл Ста- Статистика, 1967. — 248 с. 106. Методы анализа данных: Подход, основанный на методе дина- динамических сгущений /Пер. с фр.; Под ред. и с предисл. С. А. Ай- Айвазяна и В. М. Бухштабера. — М.: Финансы и статистика, 1985. —357 с. (Математико-статистические методы за рубежом). 107. Мешалкин Л. Д. Одновременное изучение динамики прогнос- прогностической силы некоторых факторов в модели Кокса // Приме- 574
неиие статистических методов в производстве и управлении: Тез. Всесоюз. науч.-техн. конференции. — Пермь, 1984.— С. 132—134. 108. Мешалкин Л. Д. Локальные методы классификации // Статисти- Статистические методы классификации. — М.: Изд-во МГУ, 1969. — Вып. 1. —С. 58—78. 109. Мешалкин. Л. Д , Сердобольский В. И. Ошибки при классифи- классификации многомерных распределений //Теория вероятностей и ее применения — 1978. —С 772—781. ПО. Миркин Б. Г. \нализ качественных признаков и структур. — М. Статистика, 1980. — 320 с. 111. Миркин Б. Г. Группировки в социально-экономических иссле- исследованиях. — М. Финансы и статистика, 1985. — 224 с. 112. Миркин Б. Г. Метод главных кластеров// Автоматика и те- телемеханика. — 1987. — № 10. — С. 131 — 142. 113. Многомерный статистический анализ в социально-экономиче- социально-экономических исследованиях. Ученые записки по статистике /Под ред. С. А. Айвазяна и А. А. Френкеля. — М Наука, 1974. — Т. XXVI —416 с. 114. Нейман Дж. Текущие задачи математической статистики //"Меж- дународный математический конгресс в Амстердаме, 1954 г. (обзорные доклады)/Пер. с англ. и фр Под ред. С. В. Фомина. — М. Физ.-мат. лит-ра, 1961.—С. 229—258. 115. Об индивидуальной оценке состояния миокарда в начальных пе- периодах коронарного атеросклероза (методы многомерного математико-статистического анализа) // Д. Ф. Пресняков, С. А. Айвазян, Ю. А. Розенблат, В. И. Орлов. =— Кардиоло- Кардиология. — 1975 — № 12. — С 68—82. 116. Оберхеттингер Ф. Преобразования Фурье распределений и их обращения Таблицы. — М • Наука, 1979: — 247 с. 117. Окунь Я- Факторный анализ./Пер. с польск. —М.: Статисти- Статистика, 1974 — 200 с. 118. Онищик А. Л. Грассмаиа многообразие//Математическая эн- энциклопедия. — М.: Советская энциклопедия, 1977. — Т.1 — С. 1104—1105. 119. Орлов А. И. Некоторые вероятностные вопросы теории класси- классификации // Прикладная статистика.— М.' Наука, 1983. — С. 166—179. 120. Парринг А. М., Тийпх Е. М. Методическое руководство для пользования пакета САИСИ. — Тарту. Изд-во ТГУ, 1986.— 279 с. 121. Патрик Э. Основы теории распознавания образов /Пер. с англ. — М.: Сов. радио, 1980. — 408 с. 122. Перекрест В. Т. Нелинейный типологический анализ социаль- социально-экономической информации. — Л.: Наука, 1983. — 175 с. 123. ПикялисВ. С Сравнение методов вычисления ожидаемой ошиб- ошибки классификации /'Автоматика и телемеханика. — 1976.— № 5. — С. 59—63. 124. Поляк Б Т. Введение в оптимизацию. — М.: Наука, 1983.— 384 с. 125. Программное обеспечение статистической классификации при ограниченных выборках /Под ред. Ш. Раудиса // Статистические проблемы управления. — Вильнюс. — 1982. — № 58. — 101 с 126. Прогнозирование надежности изделий электронной техники на основе информативных признаков /П. С. Гимлявый, В. В. Коба- ров, С. А. Колосов и др.; Центр, иауч.-иссл. ин-т «Электрони- «Электроника».— М., 1979. — 95 с. 575
127. Прохорскас Р. П., Жюжнис В. ?., Мисюнене Л. Б. Примене- Применение некоторых классификаторов для прогнозирования отдален- отдаленных исходов инфаркта миокарда // Проблемы ишемичсской болезни сердца. — Вильнюс, 1976. — С. 261—267. 128. Развитие сельских поселений /Под ред. Т. И. Заславской. — М.- Статистика, 1976. — 295 с. 129. Рао С. Р. Линейные статистические методы и их применения / Пер. с англ. — М Наука, 1968. — 547с. 130. Распознавание образов в социальных исследованиях I Под ред. Н Г. Загоруйко и Т. Н. Заславской. —Новосибирск: Наука, 1968. — 195" с. 131. Растригин Л. А., Эренштейн Р. X. Метод коллективного рас- распознавания.— М. Энергоиздат, 1981.— С. 1—78. 132. Раудис Ш. Ограниченность выборки в задачах классификации// Статистические проблемы управления. — Вильнюс. — 1976. — № 8. — С. 6—185. 133. Раудис Ш. Ошибки классификации при выборе признаков // Статистические проблемы управления. — Вильнюс. — 1979.— № 38 — С. 9—25. 134. Раудис Ш., Пикялис В., Юшкявичус К- Экспериментальное сравнение тринадцати алгоритмов классификации '/Статисти- '/Статистические проблемы управления. — Вильнюс. — 1975.— № 11.— С. 53—80. 135. Раудис Ш., Пикялис В. Табулирование зависимости ожидае- ожидаемой ошибки классификации линейной дискриминаитной функ- функцией от объема обучающей выборки // Статистические проблемы управления. — Вильнюс. — 1975. — ЛЬ 11. —С. 81—119. 136. Раушенбах Г. В. Проблемы измерения близости в задачах ана- анализа данных //Программно-алгоритмическое обеспечение ана- анализа данных в медико-биологических исследованиях. — М.: Наука, 1987. —С 41—54. 137. Раушенбах Г. В. Об измерении близости между множествами в задачах кластер-анализа // Статистика. Вероятность. Эконо- Экономика. — М. Наука, 1985. — С. 388—392. 138. Розин Б. Б. Теория распознавания образов в экономических исследованиях. — М. Статистика, 1973 — 224 с. 139. Севрюк М. Б. Сходимость алгоритма «Форель» для бесконечно- бесконечного числа объектов //Алгоритмическое и программное обеспе- обеспечение прикладного статистического анализа: Ученые записки по статистике. — М.. Наука, 1980. — Т 36. — С. 377—381. 140. Сердобольский В. И. Влияние отбора компонент случайной ве- величины на классификацию // Изв. высш. учеб. заведений (Ма- (Математика). — 1983. — № 9. — С. 46—55. 141. Сердобольский В. И. Дискриминантный анализ при большом числе переменных // Доклады АН СССР. — 1980. — 254. — №1. —С. 39—44. 142. Сердобольский В. И. О минимальной вероятности ошибки в дискриминантном анализе // Доклады АН СССР. — 1983.— 270. - № 5. — С. 1066—1070. 143. Сильвестров Д. С. Программное обеспечение прикладной ста- статистики — М. Финансы и статистика, 1988. —240 с. 144. Система распознавания речи СИРИУС 2.1/В. Н. Плотников, В. А. Суханов, Ю. Н. Жигульцев, В. А. Кононенков // Тр. Всесоюз. сслшнара «Автоматическое распознавание слуховых образов АРСО-13». — Новосибирск. 1984. — Ч. 2. — С. 94. 576
145. Староверов О. В. Интервальный прогноз структуры населе- населениям/Экономика н математические методы.— 1976.— Т. XII.— № 1. —С. 56—71. 146. Староверов О. В. Модели движения населения. — М.- Наука. 1979.-344 с. 147. Статистический анализ экспертных оценок 'П. Ф. Андруковнч, Г. Н. Веселая, В. П. Козырев, А. Т. Терехнн // Многомерный статистический анализ в социально-экономических исследова- исследованиях: Ученые записки по статистике. — М.: Наука, 1974. — Т. XXVI. —С. 168—188. 148. Степанов В. С. Об ортогонально инвариантных днскрнмннант- ных функциях с асимптотически оптимальными смещенными оценками обратной матрицы коварнаций большой размерно- размерности: алгоритм, моделирование, применение/МГУ им. М. В. Ло- Ломоносова. Фак. вычисл. матем. и киберн.— М., 1987.— С. 87.— Деп. в ВИНИТИ 10.10.87, № 7374—В 87. 149. Социально-демографическое развитие села. Региональный ана- анализ/Под ред. Т. И. Заславской, И. Б. Мучника. — М.: Статисти- Статистика, 1980.—343. 150. Статистические методы для ЭВМ I Под ред. К. Энслейна, Э. Рэлстона, Г. С. Уилфа; Пер. с англ. — М.: Наука, 1986. — 460 с. 151. Терентьев П. В. Дальнейшее развитие метода корреляцион- корреляционных плеяд/'Применение математических методов в биологии.— 1960. — № 1. —С. 44—62. 152. Терехина А. Ю. Анализ данных методами многомерного шка- шкалирования. — М.: Наука, 1986. — 168 с. 153. Типология и классификация в социологических исследованиях I Под ред. В. Г. Андреенкова н Ю. Н. Толстовой.— М.: Наука, 1982. - 296 с. 154. Типология потребления/Под, ред. С. А. Айвазяна н Н. М. Рнма- шевской. — М.: Наука, 1978. — 168 с. 155. Турбович И. Т., Гитис В. Г., Маслов В. Г. Опознание обра- образов. — М.: Наука, 1971. — 246 с. 156. Ту Дж., Гонсалег Р. Принципы распознавания образов.— М.: Мнр, 1978. —416 с. 157. Уилкс С. Математическая статнстика'Пер. с англ. — М.: Наука, 1967.—632 с. 158. Укрупненные и межотраслевые модели народного хозяйства. — Новосибирск: Наука, 1976. — 216 с. 159. Флексер Л. А., Айвазян С. А. Выявление закона распределения хлопковолокна по длине // Известия высших учебных заве- заведений: технология текстильной промышленности. — 1962. — № 1 B6). —С. 33-41. 160. Фукунага К. Введение в статистическую теорию распознавания образов/Пер, с англ. — М.: Наука, 1979. — 367 с. 161. Харман Г. Современный факторный анализ /Пер. с аигл. — М: Статистика, 1972. — 486 с. 162. Харман Г. Восстановление изображений по проекциям. Основы реконструктивной томографии/Пер, с англ. — М.: Мнр,1983.— 349 с. 163. Хелгасон С. Преобразование Радона/Пер, с англ. — М.: Мир, 1983. — 150 с. 164. Хеттманспенгер Т. Статистические выводы, основанные на рангах. —М.: Финансы и статистика, 1987. —334 с. 165. Ченцов И. Н. Статистические решающие правила и оптималь- оптимальные выводы. — М.: Наука, 1972. — 520 с. 19 Заказ № 291 577
166. Шлезингер М. И. О самопроизвольном различении образов// Читающие автоматы. — Киев: Наукова думка, 1965. — С. 38—45. 167. Шурыгин А. М. Пути улучшения линейной дискриминации в нормальном случае //Статистика, вероятность, экономика. — М.: Наука, 1985. — С. 379—382. 168. Юшкявичюс К. 3. Исследование чувствительности кусочно-ли- кусочно-линейного классификатора по минимуму расстояния к ограничен- ограниченности объема обучающей выборки // Статистические проблемы управления. — Вильнюс. — 1983. — № 61. — С. 89—109. 169. Юшкявичюс К. 3., РаудисШ. Ю. Вычисление ожидаемой ошиб- ошибки классификации для кусочно-линейного решающего прави- правила </ Статистические проблемы управления. — Вильнюс. — 1976. — № 14. — С. 67—84. 170. Abend К., Harley T. J. Comments on the mean accuracy of sta- statistical pattern recognition//IEEE Transactions on Information Theory. — 1969. — Vol. 15. — P. 120—121. 171. Adanson M. Histoire naturelle du Senegal. Coquillages. Avec la relation abregee d'un voyage fait dans ce pays de 1749 a 1753. Bauche, Paris, 1757. 172. Agrawala. Learning a probabilistic teacher // IEEE, Inform, theory. — 1970. — Vol. 16. — N 4. 173. Aivazian S. A. Probabilistic —Statistical Modelling of the Distributary Relations in Society // Private and Enlarged Con- Consumption. — Ed. by L. Solari, Q. — N Du Pasquier North — Holland. Publishing Company Amsterdam — New York — Oxford. — 1976. — P. 285—247. 174. Anderberg M.R. Cluster analysis for application. — N. Y.: Aca- Academic Press, 1973. 175. Anderson Q. A. Logistic discrimination//Krishnaiah P. R. (ed.) Handbook of statistics. — Vol. 2: Classification, Pattern recognition and Reduction of dimensionality. — North — Holland. — 1982. — P. 169—191. 176. Anderson T. W. Asymptotic theory for component analysis// Ann. Math. Statist. — 1963. — Vol. 34. — P. 122—148. 177. Anderson T. W. The asymptotic distribution of characteristic roots and vectors// Proc. 2 Berkeley Symp. Math. Statist, and Probab. — Univ. Calif. Press, 1952.— P. 103—130. 178. Anderson T. W., Bahadur R. R. Classification into two multiva- riate normal distribution with different covariance matrices// Ann. Math. Statist. — 1962. —Vol. 33. — P. 422—431. 179. Anderson S. et. al. Statistical methods for comparative stu- studies. — Wiley, 1980.— 283 p. 180. Anderson T. W., Rubin H. Statistical inference in factor ana- analysis. // Proc. 3 Berkeley Symp. Math. Statist, and Probab. — Univ. Calif. Press, 1956, 5. — P. 11—50. 181. Andrukowich P. F. a. o. Abstract painting as a specific — Gene- rale— Language. A Stat. Appr. to the problem //Metron XXIX.— 1971. _ N 1—2. 182. Arable P. Random versus rational strategies for initial con- configurations in nonmetric multidimensional scaling// Psycho- metrika. — 1975. — Vol. 43. — N 1. 183. Asimov D. The grand tour: A tool for multidimensional data // SIAM Journal of Scientific and Statistical. — Computing. — 1985.—6. — P. 128—143. 184. Bahadur R. R. A representation of the Joint Distribution of Responses to n Dichotomous Items // Solomon H. (ed.) Studies in 578
Analysis and Prediction.—Stanford, California. — 1961.— P. 158—168. 185. Bartlett M.S. Factor analysis in psychology as a statistician sees.— Uppsala: Almqvist and Wiksell," 1953. — P. 23—34. 186. Bekker R. A., Chambers J. M. S. An interactive envitroment for data analysis and graphics. — Wadsworth, 1974. 187. Bekker R. A., Chambers J. M. Extending the S system. — Wads- worth, 1985. 188. Benard J. Quelques aspects theoretique des biens collectivs sous tutelle; Le repport sur «Conference sur la planification et le marche», Libilic — Tchecoslovaqiue, 4 — 8 Mai, 1970. 189. Ben — Bassat M. Use of Distance Measure, Information Measures and Error Bounds in Feature Evaluation // Krishnaiah, P. R. (ed.) Handbook of Statistics. — Vol. 2; Classification, Pattern recognition and Reduction of Dimensionality.— North-Holland.— 1982. —P. 773—791. 190. Bennet R. S. The intrinsic dimensionality of signal collections// IEEE Trans. Inform. Theory. — 1969. — Vol. 15. — № 5. 191. Benzecri J. P. L'Analyse des Donnees.— Tome 1; La Taxinomie.— Tome 2; I/Analyse des Correspondances. — Paris; Dunod, 1976 Bnd ed). — 632 p. 192. Bezdek J. C. Pattern recognition with fuzzy objective function algorithms // Plenum Press. — N-У, Z. 1980. 193. Bezdek J. C. Numerical Taxonomy with fuzzy sets// J. of Math. Biol. — 1974. — N1. — P. 57—71. 194. Blagoveshensky Yu. N., Meshalkin L.D. Multidinensional T-nor- mal distribution /' 1 Всемирн. конгресс об-ва матем. стат. и теории вероятностей им. Берпулли: Тез. докл. — М.: Наука, 1986. — Т.1. — С. 79. 195. Bolshev L. N. Cluster analysis // Bull. Int. Stat. Inst. — 1969.— N 43. —P. 441—425. 196. Box Q. E. P., Cox D. R. An analysis of transformation / J. R. Statist. Soc, В — 1964 —Vol. 26. — P. 211—252. 197. Boyles. On the convergence of the EM algorithm // J. R. Statist. Soc., B. — Vol 45. — N 1. — 1983. 198. Broffit. J. Nonparametric classification. // Krisnaiah. P. R. (ed.) Handbook of statistics. — Vol. 2: Classification, Pattern recognition and Reduction of dimensionality. — North-Hol- North-Holland. — 1982. — P. 139—168. 199. Bryant P., Willianson J. Asymptotic Behaviour of Classifica- Classification Maximum Likelihood//"Biometrika. — 1978. —Vol. 65. 200. Burt С The Factorial Analysis of Qualitative Data//J. Stat. Psychol. — 1950. — Vol. 3. — N 3. — P. 166—185. 201. Carrol J. D.. Chang J. J. Analysis of Individual Differences in Multidimensional Scaling via an Generalization of Ecart- Young Decomposition // Psychometrika. — 1970. — Vol. 35.— N 5. — P. 283—319. 202. Celeux Q., Diebolt J. Reconnaissance de melange de densite et classification Un algorithme d'apprentissage probabiliste: l'algorithme SEM // Rapports de Recherche de L' INRIA. Centr de Rocquencort. — 1984. 203. Compstat — 1984, Proceedings in Computational Statistisc. — Wien: Physica, 1984. — 520 p. 204. Compstat — 1986, Proceedings in Computational Statistics- — Heidelberg; Wien: Physica — Verlag, 1986. — 512 p. 205. Cooper. Non supervised adaptative signal detection and pattern recognition // Information and Control. — 1964. — Vol. 7. 19* 579
206. Cox D. R. Regression models and life tables // J. R. Statist. Soc., B. 34. — 187 p. 207. Cox D. R. Some remarkes on role in statistics of graphical met- methods // Applied Statistics. — 1978. — Vol. 27. — P. 4—9. 208. Cressie N. The power results for tests based on high — order gaps // Biometrika. — 1978. — Vol. 65. — P. 214—218. 209. Day N. E. Divisive cluster analysis and test for multivariate normality // Session of the IS1. — London, 1969. 210. Day N. E. Estimating the components of a mixture of normal distributions // Biometrika. — 1969. — Vol. 56. — N 3. — P. 463—474. 211. De Leeuw J., Pruzansky S. A new computational method to the weighted euclidean distance model // Psychometrika. — 1978.— Vol. 43. — N 4. 212. Dempster A., Laird G., Rubin J. Maximum Likelihood from in- incomplete data via the EM algorithm // J. R. Statist. Soc. — 1977. — B. — Vol. 39. 213. Devlin S. J., Gnanadesikan R., Kettering J. R. Robust Estimation of Dispersion Matrices and Principal Components // J. Amer. Stat. Ass. — 1981. — Vol. 76. — P. 354—362. 214. Di Batti&ta G., Tamassia R. An Interactive Graphic System for Disigning and Accessing Statistical Data Bases // Compstat-86, Proceedings in Computational Statistics.—Wien: Physica — Ferlag, 1986. — P. 231—236. 215. Diaconis P., Freedtnan D. Asymptotics of graphical projection pursuit // Ann. Statist. — 1984. — 12. — P. 793—815. 216. Diday E. Classification automatique sequentielle pour grands tableaux // Rev. Fr. Inf. Rech. Oper. — 9-e annee a mars 1975. — B—1 -P. 29—61. 217. Di Pillo P. J. Biased discriminant analysis: evaluation of the optimum probability of misclassification // Commun. Statist.— theor. meth. — 1979. — A8 A4). — P. 1447—1457. 218. Edwards A. W., Cavalli — Sfora L. L. A method for cluster ana- analysis // Biometrics. — 1968. — 21. — P. 362—375. 219. Efron B. Bootstrap methods another at the jackknife // Ann. Statist. — 1979. — 7. — N 1. — P. 1—26. 220. Efron B. The efficiency of logistic regression comprared to nor- normal discriminant analysis II J. Amer. Stat. Ass. — 1975. — 70. — P. 892—898. 221. Everitt B. S. Unresolved problems in cluster analysis // Biomet- Biometrics. — 1979. — Vol. 35. — P. 169—181. 222. Everiti B. S., Hand D. J. Finit mixture distribution. — Chap- Chapman and Hall, 1981. 223. Fienberg S. E. Graphical methods in statistics // The Amer. Stat. — 1979. — Vol. 33. — P. 165—178. 224. Fisher L., Yonh W. Wan Ness. Admissible clustering procedures// Biometrika. — 1971. — 58. — N 1. — P. 91—104. 225. Fix E , Hodges J. L. Jr. Discriminatory analysis, nonparametric discrimination USA School of Medicine. — Texas: Rendolph Field, 1951, 1952. 226. Friedman J. H. A tree-structured approach to nonparametric multiple regression // Lecture Notes in Mathematics 757, Smoot- Smoothing Technigues for Cune Estimation. — Berlin Springer.— P. 5—22. 227. Friedman J. H. Exploratory Projection Pursuit // J. Amer. Stat. Ass. — 1987. — P. 249- 256. 580
228. Fridman H. P., Rubin J. On some invariant criterion for gro- grouping data//J. Amer. Stat. Ass. — 1967. —67. —P. 1159—1178. 229. Friedman J. H., Stuetzle W. Projection pursuit regression // J. Amer. Stat. Ass. — 1981. — 76. — P. 817—823. 230. Friedman J. H., Tukey J. W. A projection pursuit algorithm for exploratory data analysis // IEEE Trans. Comput. — 1974.— Vol. — 23. — P. 881—889. 231. Friedman J. H., Stuetzle W., Schroeder A. Projection pursuit density estimation // J. Amer. Stat. Ass. — 1984. — 79. — P. 599 — 608. 232. Fukunaga K-, Koontzwarren L. G. Application of the Karhunen— Loeve expansion to feature selection and ordering // IEEE Trans. Comput. — 1970. — С 19. — N 4. — P. 311—318. 233. Fukunaga Л'., Hostetter L. D. The extinction of the gradient of a density function with application in pattern recognition // IEEE Trans. Inform. Theory. — 1975. —Vol. 21. — P. 32—50. 234. Galinski R. В., Harabasz J. Dendrite method for cluster analy- analysis//Communications in Statistics.—1974. — Vol. 3. — P. 1 — 27. 235. Girshik M.A. On the sampling theory of roots of determinantial equations//Ann. Math. Statist. — 1939. —Vol. 10. —P. 203— 224. 236. Girshik M. A. Principal components // J. Amer. Stat. Ass.— 1936. — Vol. 31.—P. 519—528. 237. Gittman /., Levine .?. П. An algorithm for unimodal fuzzy sets and application as a clustering technique // IEEE Trans. Comput. — 1970. — Vol. 19. — N 7. — P. 583—593. 238. Glick N. Additive estimators for probabilities of correct clas- classification // Pattern Recognition. — 1978. — 1. — N 3. — P. 211—222. 239. Gordesch J. Non — Standard Graphical Presentation // Compstat- 86, — Proceedings in Computational Statistics. — Wien: Phy- sica — Ferlag, 1986 — P. 237—242. 240. Greenacre M. J., Browne M. W. An efficient alternating least squares algorithm to perform multidimensional unfolding // Psychometrika. — 1986. — Vol. 51. — N 2. — P. 241 — 250. 241. Geman S. A limit theorem for the norm of randon matrices // Ann. Probab. — 1980. — Vol. 8. — P. 252—261. 242. Gupta S. Optimum classification rules for classification into two multivariate normal population //Ann. Math. Statist. — 1965. — 36. — N 4 243. Haas de J. H. Changing of mortalite patterns and cardiovascular diseases. De Erven F. — Bohn, 1964. 244. Holzinger K-, Harman H. Factor analysis. — Univ. Chicago Press, 1941. 245. Huber P. Experiences with three — dimensional scatterplots // I. Amer. Stat. Ass. — 1987. —Vol. 82. — P. 448—453. 246. Huber P. J. Projection Pursuit. Invited paper. // The An- Annals of Statistics. — 1985. — Vol. 13.—N 2. — P. 435—475; Discussion. — P. 475—525. 247. Hothakker H. S. Revealed preference and utility function // Econometrika. — 1949. — 17. — N 2.— P. 195. 2^8 Jambu M. Classification automatiger pour l'analyse des donnees. 1 — methodes et algorithmes — 31O.p. 2 — logiciets — 400 p. Dunod., Bordas — Paris, 1978. 581
249. Jambu M. Fortran IV computer program for rapid hierarchical classification of large data sets // Computers Geosciences, — 1981. — Vol. 7. — P. 297—310. 250. Jardin N., Sibson R, The structure and construction of taxo- notriic hierarchies // Math. Biosciences. — 1967. — A. — p. 173—179. 251. Jones M. C, Sibson R. What is projection pursuit //J. R. Sta- Statist. Soc. — 1987. — sec. A. 150. — Part 1. —P. 1 — 36. 252. Jeffers J. N. R. Two case studies in the application of princi- principal component analysis // Appl. Stat. — 1967.— 16. — N 3. 253. Kendall M. G. Discrimination and Classification. Multivariate Analysis // Proc. Intern. Symp. held in Dayton, lune, 1965. — P. 165-185. 254. Kazakos G. Recursive estimation of prior probabilities using a mixture // IEEE Inform. Theory. — 1977. — Vol. 23. 255. Keller W. J. Statistical vio Personal Computers // Compstat-86, Proceedings in Computational Statistical. —Wien; Physica — Ferlag, 1986. — P. 332—337. 256. Kent D. P., Young F.W. User's guide for VISUALS software for hyperdimensional dynamic graphics/SAS-Institute, 1986. 257. King B. F. Stepwise clustering procedures//J. Amer. Stat. Ass. —Vol. 62. — P. 86—101. 258. Krpnmal R. A,, Peterson A. V. A variant of the acceptance — rejection method for computer generation of random vari- variables I'3. Amer. Stat. Ass. — 1981. — Vol. 76. — N 374.— p. 446— 452. 259. Kruskal J. B. Linear transformation of multivariate data to reveal clustering //Multidimensional Scaling; Theory and Applications in the Behavioral Sciences. — London: Seminar Press, 1972.— Vol. 1. —P. 179—191 260. Kruscal J. B. Monotone Regression- Continuity and Differentia- bilitv Properties // Psvchometrika. — 1971. — Vol. 36. —N 1.— P. 57—63. 261. Kruskal J. В., Carrol J. D, Geometric models and badness- of-fit functions//Multivariate Analysis /Ed. Krishnaiah P. R. — 1969. — Vol. 11. — N 4. —Acad. Press. 262. Lance G. N., Williams W. T. A general theory of classificatory sorting strategies // Hierarchical systems. Сотр., J. — 1967. — p 373 3go 263. Lebart L., Morineane A., Warwick К- М. Multivariate Descrip- Descriptive Statistical Analysis // Correspondence Analysis and Related Techniques for Large Matrices. — N. Y., Chichester, etc. J. Wiley & Sons. — 1985. — P. 231. 264. Lachenburch P. A. and Mickey R. M. Estimation of error in discriminant analysis // Technometrics. — 1968. — 10.— N I.— P. 1—11. 265. Lebart L. The Significancy of Eigenvalues Issued from Corres- Correspondence Analysis // Compstat-76, Proc. Comput. Statist. — Wien. Physica — Verlag, 1976. — P. 38—45. 266. Lefkoviten L. P. Conditional clustering//Biometrics. — 1980.— Vol. 36. — P. 43—58. 267. Logan B, F., Shepp L. A. Optimal reconstruction of a function from its projections // Duke Math. J. — 1975. — 42. — P. 645—659. 268. Mac Queen J. Some methods for classification and analysis of multivariate observations//Proc. Fifth Berkeley Symp. Math. Stat. and Probab. — 1967. — 1. — P. 281—297. 582
269. Maronna R. A. Robust M-Estimators of Multivariate Location and Scatter.//Ann. Statist. — 1967. — Vol. 4. — N 1. — P. 51—67. 270. Mays R. Interactive maximum reliability cluster analysis // Educational and Psychological Measurement. — 1978. — Vol. 38. — P. 783—785. 271. Meshalkin L. D., Kagan A. B. A contribution to the discussion upon the paper «Regression models and life tables» by D. R. Cox// J. R. Statist. Soc. — 1972. — Ser. B. — N 2. 272. Meshalkin L. D. Some mathematical methods for the stu- study noncommunicable diseases // Planning health Services Pro- Proceedings of the Sixth International Scientific Meeting. August 29—September 3, 1971.— Savremena administracija. — Belgrade, 1973. — Vol. 1. — P. 250—256. 273. Milligan G. W. A Monte-Carlo Study of Thirty Internal Crite- Criterion Measures for Cluster Analysis // Psychometrika, — 1 — 81.— Vol. 46. —2.—P. 187—197. 274. Milligan D. W., Cooper M. C. An examination of procedures for determening the number of clusters in a data set. // Psycho- Psychometrika. — 1985. — Vol. 50. — N 2. — P. 159—179. 275. Mirkin B. G. Additive clustering and qualitative factor ana- analysis methods // Journal of Classification.— ! — 87. — 4. -N 1.— P. 7-31. 276. Molenaar I. W. Computer Graphics and Data Presentation, a First Step Toward a Cognitive and Ergonomic Analysis // Comp- stat-86, Proceedings in Computation Statistics. — Wien: Physica—Ferlag, 1986. — P. 243—250. 277. Morris J. N. et. al. Incidence and prediction of ischesmic heart disease in London Busmen//Lancet. — 1966. — Vol. 12.—P. 553—559. 278. Morrison D. G. Measurement problems in cluster analysis // Ma- Management Science. — 13. — P. B775—B780. 279. Morrison D. G. Multivariate statistical methods. — N. Y.: Me Grou Hill Book Company, 1967. 280. Murthy V. K. Nonparametric estimation on Multivariate den- densities with applications // Multiv. Anal. Proc. Intern. Symp. held in Dayton Ohio, June 14—19, 1965. 281. Nady G. State of Art Pattern Recognition//Proc. IEEE.— 1968. — Vol. 56. — N 5. — P. 836—862. 282. Okamoto M. An asymptotic expansion for the distribution of the linear discriminant function// Ann. Math. Statist. — 1963.— Vol. 34. — N 4. — P. 1296—1301. Correction//Ann. Math. Statist. — 1968. — Vol. 39. — P. 1358—1359. 283. Okamoto M. Optimality Principal Components Multivariate Analysis II Proc. 3 Int. Symp. Dayton. — 1967. 284. Okamoto M., Kanazawa M. Minimization of Eigenvalues of a matrix and optimality of principal components // Ann. Math. Statist. — 1968. — Vol. 39. — N 3. 285. Ohrvik J. Structure in noise. Research Report Department of Statistics. — University of Stockholm, 1987. — 25p. 286. Ohsumi N. Practical Use of Color Imaging in Automatic Classifi- Classification // Compstat-86: Proceedings in Computational Sta- Statistics,—Heidelberg, Wien: Phvsica — Verlag, 1986.—P. 489— 497. 287. O'Neill M. E. Distributionnal Expansions for Cannonical Cor- Correlations from Contingency Tables // J. R. Statist Soc. — 1978. — Vol. 40. — Ser. B. - P. 303—312. 583
288. Orloci L. Information theory models for hierarchic and nonhi- erarchic classifications // Numerical taxonomy/ed. by. Cole A.J.—N-Y.- Acad. Press. — 1969. —P. 148—164. 289. Orloci L. Geometric models in ecology. I. The theory and appli- application of oiJination methods Hi. Ecology. — 1966.— Vol. 54.— N 1. 290. Parzen E. On Estimation of Probability Density Function and Mode // Ann. Math. Statist. — 1962. — Vol. 33. — Sept. N 3. — P. 1065—1076. 291. Quandt R. E., Ramsey J. B. Estimating mixtures of normal dis- distributions and switching regression // J. Amer. Stat. Ass. — 1978. — Vol. 73. — P. 730—738. 292. Rao C. R. Linear Statistical Inferences and its Applications. — N.-Y.: Wiley. 1965. 293. Rao C. R.The use and interpretation of principal components ana- analysis in applied research // Sankhya, A. — 1964. — Vol. 26.— N 4. — P. 329—358. 294. Rao С R. Estimation and tests of significance in factor analy- analysis // Psychometrika. — 1955. — 20. — P. 93—111. 295. Reiner L., Walker J. Mixture densities, maximum likelihood and the EM algorithm // SIAM Review. — 1984. — Vol. 26. — N 2. 296. Rubin J. Optimal classification into groups: an approach for solving taxonomy problem Hi. Theor. Biol. — 1967. — 15.— P. 103 — 144. 297. Ruspini E. H. A new approach to clustering// Information and Control. — 1 - 69. — Vol 5. — P. 22—32. 298. Ruspini E. H. Numerical methods for fuzzy clustering // Inform. Sciences. — 1970. — Vol. 2. — N3. — P. 319—350. 299. Saito T. The problem of the additive Constant and eigenvalues in metric multidimensional scaling // Psychometrika. — 1978.— Vol. 43. — N 2. 300. Sammon J. W. A nonlinear mapping for Data Structure Analy- Analysis // IEEE Trans. Comput. — 1969. — С — 18. — N 5. — P. 401—409. 301. Sammon J. W. An optimal discriminant plane // IEEE Trans. Comput. — 1970. — Vol. 19. — N 9. 302. Schroeder A. Analyse d'un melange de distribution de probabilite de meme type // RSA. — 1976. — Vol. 24. — N1. 303. Scott A. J., Symons M. J. Clustering methods based on likelihood ratio criteria // Biometrics. — 1971. — Vol. 27. — P. 387. 304. Semovskii S. V. Linear discriminant analysis when the number of features is unbounded and the sample is finite. Тез. докл. I Всемири. коигр. общества матем. статистики и теории веро- ятн. им. Бериулли. — М.: Наука, 1986. — Т. 1. — Секции 1 — 19.—С. 210. 305. Shepard R. N.y Arable P. Additive clustering: presentation of similarities as combinations of discrete overlapping properties// Psycholog. Review. — 1979. - Vol. 86. — N 2. — P. 87—123. 306. Shepard R. N., Carroll J. D. Parametric representation of non- nonlinear data structures // Miltivariate analysis/Ed. Krishnaiah p. R. _ N.-Y.: Acad. Press, 1966. — P. 561 — 592. 307. Shepard R. N. The analysis of proximites: multidimensional scaling with an unknown distance function // Psychometri- Psychometrika. — 1962. — Vol. 27. — N 2—3. 584
308. Shepp L.A., Kruskal J. B. Computerized tomography: the new medical X—ray technology//Amer. Math. Monthly. — 1978.— 75. — P. 420—439. 309. Siegel J. B. Software for microcomputers. — North — Holland, 1985. 310. Silverman. Some asymptotic properties of the probabilistic teacher //IEEE Inform. theory. — 1980. — Vol. 26. — N 2. 311. Silvertein J. W. The smallest eigenvalue of a large dimensional Wishart matrix // Ann. Probab. — 1985. — Vol. 13. — N 4. — P. 1364—1368. 312. Skandimvisk aktuarietidskrift. Haft 1. 1934. 313. Smith A F.M., Spiegelhalter D. J. Bayesian Approaches to Multiwariate Structure // J. R. Statist. Soc. — 1977. — B. — Vol 39. — N 1. 314. Smith A. F. M., Makov M. A quasi Bayes sequential procedure for mixtures // IRSS. — 1978. — B. — Vol. 40. — N1. 315. Stuetzel W. Plot windows // JASA. — 1987. — Vol. 82.— P. 466—475. 316. Symons M. J. Clustering criteria multivariate normal mixtures// Biometrics, — 1981. —Vol. 37. 317. Takane Y., Young F. W., de Leeuw J. Nonmetric individual differences multidimensional scaling: an alternative least squa- squares method with optimal scaling features // Psychometrika. — 1977. —Vol. 42. — N1. 318. Torgerson W. S. Multidimensional Scaling. Theory and Method// Psychometrika. — 1952. — Vol. 17. — N 4. 319. Takiyma R. A two-level committee machine: a representa- representation and a learning procedure for general piecewise linear disc- discriminant function // Pattern Recognition.— 1981. — 13. — N3. — P. 269 — 274. 320. Teicher H. Identifiability of mixtures//Ann. Math. Statist.— 1961. — 32. — N 1. — P. 244—248. •321. Teacher H. Identifiability of finite mixtures // Ann. Math. Sta- Statist. — 1963. — 34.-- N4 — P. 1265—1269. 322. Truett /,, Cornfield J.. Kannel V. J. A multivariate analysis of the risk of coronary heart disease in Framingham // Journ. Chron. Dis. — 1967 — 19. — P. 711—715. 323. Tukey PA., Tukey J. W. Graphical display of data sets in 3 or more dimensions" preparation; prechosen sequences of views// Interpreting multivariate data / V. Barnet (ed). — Chichester: Wiley. — 1981. — P. 189—274. ¦424. I'sawa H. Preference and rational choice in the theory function // Econometrika. — 1949. — 17. — N2. — P. 195. •325. Van Campenhout J. V. Topics in Measurment Selection // Handbook of Statistics // Krishnaiah P. R. (Ed). — Vol. 2: Classification. Pattern recognition and Reduction of dimensio- dimensionality. — North-Holland. — 1982. — P. 793—803. 326. VasicekO. A test of Normality Based on Sample Entropy//J.R. Statist. Soc. — 1976. — Vol. 38. — Ser. B. — P. 54—59. 327. Yakowitz S. A., Spragins. J. On the identifiability of finite mixtures // Ann. Math. Statist. — 1968. — 39. — N1. — P. 209—214. 328. Yenyukov /. S. Detecting outliers and clusters in multivariate data based on projection pursuit // Proceedings of the World Congress of Bernoulli Society, Tashkent, USSR, September 585
1986. — Utrecht: VHU Science Press. — 1987. — Vol. 2. — P. 137— 141. 329. Young F. W., Null С. Н. Multidimensional scaling of nominal data: the recovery of metric information with ALSCAL // Psycho- metrika. — 1978. — Vol. 43. — N 3. 330. Willmott A. J., Grimshaw P.N. Cluster analysis in social geograp- geography: Numerical taxonomy. — Ld., N. — Y.: Acad. Press., 1969.— P. 271—281. 331. Wishart D. An algorithm for hierarchical classification // Biomet- Biometrics. — 1969 — 22 — P. 165 — 170. 332. Wishart D. Mode analysis, a generalization of nearest neighbour with reduce a chaining effect. Numerical Taxonomy. — Ld., N.-Y. Acad. Press., 1969. — P. 282—311. 333. Wolfe J. H. Pattern clustering by multivariate mixture analysis// Miltiv. Behav. Res. — 1969. — Vol. 5. — P. 329 —349. 334. Wu. On the convergence of the EM algorithm // Ann. Statist.— 1983. —Vol. 11. — N1. 335. Zadeh L. A. Fuzzy sets//Information and Control. — 1965. — Vol. 8. — P. 338—353. 336. Zadeh L. A. Outline of a new approach to the analysis of complex systems and decision process// IEEE Trans, on Systems. Man and Cybernetics. — 1973. — Vol. 3. — P. 28—44.
АЛФАВИТНО-ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Автоматическая классификация 7, 18 19, 143, 144 общая теория 8 Агрегирование (простое) при- признаков 18 АИС-Хоккнт 431 Алгоритм — агломератнвный 250 — днвнзнмный 250 Алгоритм — движение 228 — интерпретирующий функ- функционал 288 — стабнлнзнруемость 288 — сходимость 288 Анализ данных 9 Анализ соответствий для двухвходовых таб- таблиц сопряженностей 448—455 множественный 455— 464 вопросы интерпретации 463—464 вычислительная про- процедура 461—463 Апостериорный математнко-по- становочный этап исследова- исследования 43, 46 Априорный математнко-поста- новочной этап исследования 42, 46 Аппроксимация функции ре- гресснн на основе ЦП 515 Асимптотика растущей размер- размерности 88—90, 93—104, 107— 108, 112 — традиционная 89 Априорные сведения о модели 34, 35 Байесовское правило класси- классификации 48, 78, 81—82 Бинарные переменные 302 Бинарная форма матрицы дан- данных 455 Бхатачарня расстояние — см. Качества классификации ха- характеристики Бюджетные обследования се- семей 20 Вектор инцидентности верши- вершины графа 273 Визуализация (наглядное пред- представление) данных 32 Визуальное отображение строк и столбцов таблицы сопряжен- сопряженностей 455 Вычислительный этап исследо- исследования 43, 46 Генерирование на ЭВМ дан- данных 10 Геометрическая и вероятност- вероятностная природа данных 7 Главная компонента класса 288 Главные компоненты 7, 38, 116, 340 в задачах классифика- классификации 364—371 статистические свойст- свойства 354—363 экстремальные свойст- свойства 348—354 Главных компонент метод 334, 339—348 Градиент функции на многооб- многообразии проекций 548 Граф иерархии 249 — близости 273 на уровне порога 275 — полный 273 — связанный 274 Графа компонента 274 587
— &-блок 278 — клика 278 — &-клика 278 — ^-компонента 277, 279 — й-связка 277 Двойное центрирование матри- матрицы расстояний 440 Деидрограмма 144 Дивергенция — см. Качества классификации характеристики Дискримииаитиый анализ 7, 19, 83, 111-112, 123—125 алгоритм 84—85, 90— 98, 112 качество 85, 112, 125— 128 и епара метрический 35 параметрический 35 Доля разброса, объясиеииая классификацией 312 Допустимых преобразований класс 37 Древообразный классификатор 68—71, 82 ДСЗ — древообразная струк- структура зависимостей координат вектора 50, 59, 75—76, 96, 117—118 Иерархической процедуры классификации 144 агломеративиые 155 Иерархия иа множестве 249 бинарная 250 • иидексироваииая 250 Индексация иерархии 255 строгая 255 Интеллектуализация статисти- статистического программного обеспе- печеиия 7, 10, 558—562 Информационный этап иссле- исследования 42 Использование «обучения» в настройке математических мо- моделей 16 Итоговый этап исследования 43,46 Канонические дискримииант- иые направления 314 Качества классификации ха- характеристики 60—61, 69, 80, 125—126 d 62—67, 81, 127— 128 / 66—67 В 67, 125 методы 126—127 Квалификация — см. Оциф- Оцифровка — динамических траекторий 29 — как необходимый предва- предварительный этап 24 — иа уровне порога 276 — объектов 5, 13, 43, 145 без учителя 7 иерархическая 13 с учителем 7 — объясняемая через перемен- переменные 323 — объясняющая переменные 318, 319 Класс джокер («не знак», «от- каз>) 290 Кластер 313 Кластер-анализ 7 — вероятная модификация 146 Кокса факторизация — см. Риск мгновенный Колмогорова — Деева асимп- асимптотика — см. Асимптотика ра- растущей размерности Комбинационные группировки 18, 27 Компетенции область 73—74 Коордииантная линия в мно- многообразии проекций 547 Корреляционное отношение 318, 319 Корреляционных плеяд метод 415 Коэффициент обучаемости ал- алгоритма 86, 128 Критерий автоинформативио- стн 31, 36, 38, 39 — внешней информативности 36, 39, 40 — информативности 30 — качества классификации 311, 318 метод 17, 156—162, 163 —¦ отношения правдоподобия 47, 54, 58, 118—123 — типа «стресс» 442, 444 Критическая область 48 граница 51 Кульбака расстояние — см. Качества классификации ха- характеристики Кусочио-лииейиый классифика- классификатор 53—55 Лаконичное объяснение при- 588
роды анализируемых много- многомерных структур 15 Латентно-структурный анализ 32 Латентные факторы 16, 31, 421 ЛДФ — линейная дискрими- иаитиая функция — см Раз- Разделяющая гиперплоскость Логический классификатор — см. Древообразный классифи- тор Ложноотрицательных, ложио- положительных доля 61 Макроструктура фондов по- потребления 431, 433, 434 Математическая статистика 9, 10 Матрица Берта 459 — внутриклассового разбро- разброса (рассеивания) 305 — «объект—свойство» 15, 43 — попарных сравнений (вза- (взаимных расстояний) 15, 143 Медиана абсолютных отклоне- отклонений (mad) 502 Метрика 23, 148 — адаптивная 304 — Анденберга 303 — взвешенная евклидова 307 — взвешенная типа «сити- блок» 307 — для задач кластер-анализа с неколичественными пере- переменными 302—304 — махаланобисского типа 148 — махаланобисова 304 — «сити-блок» манхэттенская 231 Метрики семейства Махалаио- биса 231 Многомерная структура 15 Многомерный статистический анализ 14, 44 Многообразие Грассмана 545 Модели структур в данных 473—474 Модель алгоритма 288 корректная 297 усиленно 298 — двух дискретных распре- распределений с независимыми блоками 49, 59, 95—96 с одной и той же древообразной структурой зависимостей 50 нормальных распреде- распределений с общей ковариаци- ковариационной матрицей 50, 61—63, 66, 75, 84, 94—96, 98—104 с разными кова- ковариационными матрицами 51, 67 — упорядоченных классов 79—80 Монотонная регрессия 444 Непараметрическое оценивание 118—123 Неполные обучающие выборки 267—268 Неравенство Юнга 542 Носитель плотности 246 Область взаимного поглощения 219 Обучающая информация (вы- (выборки) 17, 34 Общие факторы (в факторном анализе) 388, 400, 419 ООК — ожидаемая ошибка классификации 85, 12в Оптимизационные (экстремаль- (экстремальные) формулировки статисти- статистических задач 9, 10, 17, 156, 162, 163, 172—179, 180 Основная задача томографии 521 Отбор информативных пере- переменных 74—77, 104—109, 112 — наиболее информативных показателей 7, 30, 336, 337 Относительный риск 61 Ошибка классификации 47, 52—53, 61, 81, 85—86, 95, 128 ожидаемая — см. ООК Ошибочной классификации ве- вероятность 56, 68 условная — см. УОК Оцифровка 8, 96—98, 454—455, 457—459, 464—471 Оцифрованное изображение графа иерархии 259 Подграф г-максимальиый 273- — G-полный 274 — ^-связанный 277 Подвыборка, несмещенная в шаре 222 Покрытие нечеткими классами 240 Постановочный этап исследова- исследования 42 Потенциальных функций метод 71—74 Преобразование Радона 531 Признак объясняющий (описа- (описательный) 26, 28 — результирующий 26, 27 Прикладная статистика 5, 10 589
Принцип взаимного интереса и симпатии 218 Проблема аддитивной констан- константы 441 Прогноз структуры потребле- потребления 24 Программное обеспечение 10, 41 Проекционные индексы вычисление градиента 527—528 для выявления ано- аномальных наблюдений 509— 512 — кластерной струк- структуры 490—496 для дискрнмииантного анализа 502—509 Краскала 493 «наивные», для выделе- выделения нелинейных структур 514 основанные на момен- моментах третьего и четвертого порядка 492, 493 распределении раз- разностных векторов 494—496 оценка значений 526— 527 типа функционалов от плотностей распределения проекций 496 Проекция евклидовых прост- пространств 530 одномерная 530 ортогональная 530 — распределения 530 Пространство описаний 283 — поведения 21, 22 — покрытий 231 — представителей 231 — представительств 231 — состояний 21, 282 Псевдоцеитр класса 238 Профили 449 — веса 451 Процедуры классификации па- параллельные 217 последовательные 219 Псевдоразброс 238 Псевдорасстояние 237 Разбиение на нечеткие классы 240 Разброс — см Рассеивание Разброс размытого множества внутриклассовый 242 представителя (яд- (ядра) 242 относительно точки 241 Разведочный статистический анализ 6, 7, 42, 46 Разделяющая гиперплоскость 52—53, 58, 113—116, 129 Размытое подмножество 240 Распределение с R (k) -зависи- -зависимостью 59, 76 — трансформнрумое к нор- нормальному 58—59, 118—120 — эллипсоидальное 57 Рассеивание внутриклассовое 305, 312 — межклассовое 312 — общее (полное) 312 Расстояние «ближнего соседа> 153 — «дальнего соседа» 153 — евклидово 148 взвешенное 149 — Махалаиобнса — см. Ка- Качества классификации харак- характеристики — (мера близости) между классами 153—156 обобщенное (по Колмогорову) объектами 147— 153 — средней связи 154 — Хэммннга 149 Расщепление смесей вероятно- вероятностных распределений 144 Радиуса коэффициент — см. Коэффициент обучаемости ал- алгоритма Регуляризация оценки 98—104 Редуктнвная мера близости 263 Решето Эратосфеиа 245 Риск группы 131 — индикаторы и факторы 131—132 — мгновенный 134—137, 142 Сгущение 313 Сжатие массивов 31 Сила влияния фактора 137— 138, 142 Симплекс стандартный 294 Скользящего экзамена метод 126—127, 130 Смесь генеральных совокупно- совокупностей 35 — распределений вероятно- вероятностей 144, 182 Снижение размерности исследу- исследуемого пространства 5, 43, 332 — эвристические ме- 590
тоды 408—419 Специфичность критерия 61, 62—63, 81 Среднее обобщенное 154 — степенное 154 Статистика В-иивариаитиая 545 Статистический разброс выбор- выборки относительно множества 221 разбиения выборки 222 Статистических гипотез разли- различение 35 Статистического моделирова- моделирования метод 128 Степень вершины графа 273 «Стресс» — см. Критерий ти- типа «стресс» Структурной минимизации ри- риска метод 109—111 Таблица сопряжеииостей 448 Теорема Крамера и Волда 532 — о проекциях и сечениях 532 — о связи преобразований Радона и Фурье 532 — Эккарта — Юнга 441 Типологизация связная неупо- неупорядоченная 26, 27, 45 упорядоченная 28, 45 — потребительского поведе- поведения 20 — структурная 28, 45 Типообразующие факторы 16, 21, 31, 39 Томографический анализ 8 Томография 520 — рентгеновская 520 Точечио-бисериальный коэффи- коэффициент R 312, 313 Тривиальный фактор (набор меток) в анализе соответствий 454, 458 УОК — условная вероятность ошибочной классификации 85 Условное расстояние между проекциями компонент смеси 508 среднее 508 Установочный этап исследова- исследования 42 Устойчивые статистические вы- выводы 9 Факторный анализ 7, 19, 38, 234. 385—405 в задачах классифика- кации 405—408 Фишера модель — см. Мо- Модель двух нормальных рас- распределений с общей ковариа- ковариационной матрицей аналог 59, 119 обобщенная 79 Форма задания исходной ин- информации 34 Формула Жамбю 260 — Лаиса и Вильямса 260 Функционал относительной эн- энтропии 518 — потенциальный 150 Функционалы качества раз- разбиения на классы 156—179 Функция назначения 232 — правдоподобия 47 — представительства 231 — потерь 54, 56—57, 69, 76—77, 86—88, 109—111 — целевая 422, 426 Характерных закономерностей метод поиска 72 Целеиаправлеииое проецирова- проецирование для оценки метрики 301 — 302 многомерных данных 8, 39, 487—530 Центр размытого (нечеткого) множества 241 Частично обучающие выборки 309 Частота случаев 61 Чувствительность критерия 61 Шкалирование индивидуаль- индивидуальных различий 445 — метрическое 439 многомерное 439 классическая модель 439 линейное 440 нелинейные методы 442 оптимальность 440 — многомерное 7, 19 32 38, 40, 335 — неметрическое 443 Экспертная часть исходных данных 424 Экспертно-статистический ме- метод построения интегрального (латентного) показателя 7, 8, 421 Экстремальная группировка параметров 7, 38, 335, 409 Элементы обучения 8, 17 Эталон 54, 140, 142 Эффект существенной много- многомерности 14 Ядро класса 18, 231
ОГЛАВЛЕНИЕ Предисловие 5 Введение. КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНО- НОСТИ. СУЩНОСТЬ И ТИПОЛОГИЗАЦИЯ ЗАДАЧ, ОБЛАСТИ ПРИМЕНЕНИЯ .... 13 ВЛ. Сущность задач классификации и снижения размер- размерности и некоторые базовые идеи аппарата многомер- многомерного статистического анализа 13 8.2. Типовые задачи практики и конечные прикладные це- цели исследований, использующих методы классифика- классификации и снижения размерности 18 8.3. Типологизация математических постановок задач классификации и снижения размерности .... 33 8.4. Основные этапы в решении задач классификации и снижения размерности 40 Выводы 43 Раздел I. ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАННЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ .... 47 Глава 1. Классификация в случае, когда распределения классов определены полностью 47 1.1. Два класса, заданных функциями распределения . . 47 1.1.1. Критерий отношения правдоподобия как правило классификации 47 1.1.2. Основные математические модели .... 49 1.1.3. Классификация посредством задания границы кри- критической области 51 1.1.4. Функция потерь 54 1.1.5. Другие многомерные распределения . . _ . 57 1.2. Характеристика качества классификации .... 60 1.2.1. Случай простого правила 60 1 2 2. Изменение порога критерия 60 1.2.3. Условная вероятность быть «случаем> . . . ' 63 1.2.4. Аналитические меры разделимости распределений 66 1.3 Два класса, заданных генеральными совокупностями 67 1.3 1 Вычисление основных показателей .... 68 1.3.2. Древообразные классификаторы 68 1.3.3. Метод потенциальных функций 71 1.3.4. Поиск характерных закономерностей .... 72 592
1.3.5. Коллективы решающих задач 72 1.4. Отбор информативных переменных 74 1.4.1. Модель Фишера с дополнительными предположе- предположениями о структуре зависимостей признаков . . 75 1.4.2 Функции потерь 76 1.4.3. Схемы последовательного испытания наборов при- признаков . 77 1.5. Три и более полиостью определенных класса ... 77 1.5.1. Обща» постановка задачи ...... 77 1.5.2. Модель нескольких многомерных нормальных рас- распределений с общей ковариационной матрицей . 79 1.5.3. Упорядоченные классы 79 Выводы . 81 Глава 2. Теоретические результаты классификации при наличии обучающих выборок (днскрнмннантный анализ) 83 2.1. Базовые понятия дискриминацткого анализа . . 83 2.1.1. Выборка, предположения, алгоритмы, оценка ка- качества дискриминации 83 2.1.2. Основные виды ошибок , 85 2.1.3. Функции потерь 86 2.2. Методы изучения алгоритмов ДА 88 2.2.1. Базовые асимптотики 88 2.2.2. Инвариантность и подобие алгоритмов ... 90 2.2.3. Методы выработки рекомендаций .... 92 2.3. Подстановочные алгоритмы в асимптотике растущей размерности 93 2.3.1. Модель Фишера в асимптотике 94 2.3.2. Распределения с независимыми блоками . . 95 2.3.3. Модель Фишера в случае древообразных распре- распределений 96 2.3.4. Оцифровка градаций качественных переменных . 96 2.4. Статистическая регуляризация оценки обратной кова- ковариационной матрицы в линейной дискриминантной функции для модели Фишера 98 2.4.1. Качественный анализ трудностей линейного дис- криминантного анализа в асимптотике растущей размерности 98 2.4.2. Регуляризованные оценки 100 2.4.3. Обобщенная ридж-оценка В. И. Сердобольского 102 2.5. Отбор переменных 104 2.5.1. Увеличение ООК малоинформативными призна- признаками .... 104 2.5.2. Влияние выборочных флуктуации на результаты отбора признаков 105 2.5.3. Изучение эффекта отбора признаков в асимптоти- асимптотике растущей размерности 107 2.6. Метод структурной минимизации риска . . . . 109 Выводы ....111 Глава 3. Практические рекомендации классификации при наличии обучающих выборок (днскрнмннантный анализ) 113 3.1. Предварительный анализ данных . ... 113 3.1.1. Проверка применимости линейной дискриминант- дискриминантной функции (ЛДФ) 113 3.1.2. «Главные компоненты» одного из классов как но- 593
вые информативные координаты 116 3.1.3. Устойчивые оценки параметров распределений в классах 117 3.1.4 Проверка гипотез о простой структуре . . . 117 3.2. Оценивание отношения правдоподобия . . . . 118 3 2.1. Параметрическое и полупараметрическое оценива- оценивание неизвестных плотностей 118 Л 2 2. Непараметрическое оценивание плотностей . . 120 Э 2.3. Прямое оценивание отношения правдоподобия . 121 3.2.4. Непараметрическое оценивание отношения прав- правдоподобия 122 3 2 5 Локальная линейная аппроксимация отношения правдоподобия 123 3.3. Сводка рекомендаций по линейному дискримииаитно- му анализу 123 3.3.1. Проверка базовых предположений .... 123 3.3 2 Гипотеза о простой структуре зависимостей между признаками 124 3.3.3. Методы выделения информативных комбинаций координат 124 Э3.4. Методы вычислений 124 3.3.5. Альтернативные алгоритмы ...... 124 3.3.6. Другие вопросы 125 3.4. Оценка качества дискриминации 125 3.4.1. Показатели качества разделения . . . ... 125 3.4.2. Методы оценивания 126 3.4 3. Аналитические поправки 127 3.4.4. Метод статистического моделирования . . . 128 3.5. Рекомендации для k>2 классов 128 Выводы 129 Глава 4. Применения дискриминантного анализа . . . 130 4.1. Группы риска и сравнительные испытания ... 131 4.1.1. Группы риска 131 4.1.2. Индикаторы и факторы риска 131' 4.1.3. Сравнительные испытания 132 4.2. Методы описания риска развития события . . . 134 4.2.1. Мгновенный риск и факторизация Кокса . . 134 4.2.2. Связь между риском и линейной дискримииантяой функцией , 135 4.2.3. Измерение динамики силы влияния факторов . . 137 4.3. Другие применения дискриминантного анализа . . 139 4.3.1. Распознавание сигналов 139 4.3.2. Групповая классификация 141 Выводы 142 Раздел II. КЛАССИФИКАЦИЯ БЕЗ ОБУЧЕНИЯ: МЕТОДЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ (КЛА- (КЛАСТЕР-АНАЛИЗ) И РАСЩЕПЛЕНИЕ СМЕСЕЙ РАСПРЕДЕЛЕНИЙ 143 Глава 5. Основные понятия и определения, используемые в методах классификации без обучения . 144 5.1. Общая (нестрогая) постановка задачи классификации объектов илн признаков в условиях отсутствия обу- обучающих выборок ¦ ¦ '44 594
5.2. Расстояния между отдельными объектами и меры близости объектов друг к другу 147 5.3. Расстояние между классами и мера близости классов 153 5.4. Функционалы качества разбиения на классы и экстре- экстремальная постановка задачи кластер-анализа. Связь с теорией статистического оценивания параметров . 156 5.4.1. Функционалы качества разбиения при заданном числе классов . 157 5.4.2. Функционалы качества разбиения при неизвестном числе классов 169 5.4.3. Формулировка экстремальных задач разбиения ис- исходного множества объектов на классы при неиз- неизвестном числе классов 162 5.4.4. Общий вид функционала качества разбиения, как функции ряда параметров, характеризующих меж- межклассовую и внутриклассовую структуру наблю- наблюдений 163 5.4.5. Функционалы качества н необходимые условия оптимальности рачбиения 166 5.4.6. Функционалы качества разбиения как результат применения метода максимального правдоподобия к задаче статистического оценивания неизвестных параметров 169 5.4.7. Функционалы качества классификации как пока- показатели степени аппроксимации данных . . . 172 Выводы 179 Глава 6. Классификация без обучения (параметрический случай): расщепление смесей вероятностных рас- распределений 182 6.1. Понятие смеси вероятностных распределений . . 182 6.1.1. Примеры 162 6.1.2. Общая математическая модель смеси распреде- распределений . . 186 6.2. Общая схема решения задачи автоматической класси- классификации в рамках модели смеси распределений (све- (сведение к схеме дискриминантного анализа) . . . 188 6.3. Идентифицируемость (различимость) смесей распре- распределений 190 6.4. Процедуры оценивания параметров модели смеси распределений 192 6.4.1. Процедуры, базирующиеся на методе максималь- максимального правдоподобия 193 6.4.2. Процедуры, базирующиеся на методе моментов 202 6.4.3. Другие методы оценивания параметров смеси рас- распределений 207 6.5. Рекомендации по определению «исходных позиций» алгоритмов расщепления смесей распределений . . 214 Выводы 215 Глава 7. Автоматическая классификация, основанная на описании классов «ядрами» 217 7.1. Эвристические алгоритмы 217 7.1.1. Параллельные процедуры 217 7.1.2. Последовательные процедуры 21>9 7.2. Алгоритмы, использующие понятие центра тяжести 220 7.2.1. Параллельные процедуры ,. 220 7.2.2. Последовательные процедуры 223 595
7.3. Алгоритмы с управляющими параметрами, настраи- настраиваемыми в ходе классификаций 225 7.3.1. Параллельные процедуры 225 7.3.2. Последовательные процедуры 229 7.4. Алгоритмы метода динамических сгущений . . . 230 7.4.1. Основные понятия и общая схема метода . . 231 7.4.2. Алгоритмы классификации 232 7.4.3. Автоматическая классификация неполных данных 237 7.5. Алгоритмы метода размытых множеств .... 239 7.5.1. Основные понятия, функционалы качества разбие- разбиения, постановка задач 239 7.5.2. Алгоритмы нечеткой классификации .... 242 7.6. Алгоритмы, основанные на методе просеивания (ре- (решета) . . . . 245 Выводы 249 Глава 8. Иерархическая классификация 249 8.1. Основные определения 249 8.2. Методы и алгоритмы иерархической классификации . 251 8.2.1. Днвизимные алгоритмы 251 8.2.2. Агломеративные алгоритмы 253 8.3. Графические представления результатов иерархичес- иерархической классификации 254 8.3.1. Индексации иерархии. Методы построения на плос- плоскости графа иерархической классификации . . 255 8.3.2. Оцифровка изображения графа иерархической классификации 257 8.4. Приложения общей рек\ррентной формулы для мер близости между классами 260 8.4.1. Расчет матрицы взаимных близостей классов дан- данного уровня иерархии 260 8.4.2. Условия на меру близости, обеспечивающие от- отсутствие инверсий 260 8.4.3. Алгоритм гибкой стратегии иерархической класси- классификации 261 8.4.4. Процедуры иерархической классификации, исполь- использующие пороговые значения 262 8.5. БысУрый алгоритм иерархической классификации . 263 Выводы . 265 Глава 9. Процедуры кластер-анализа и разделения смесей при наличии априорных ограничений .... 267 9.1. Разделение смесей при наличии неполных обучающих выборок 267 9.11.1. Модификация ЕМ-алгоритма 268 9.1.2. Разделение смеси с неизвестным числом классов 268 9.2. Классификация при ограничениях на связи между объектами 270 9.3. Классификация на графах 273 9.3.1. Основные понятия и определения .... 273 9.3.2. Алгоритм выделения компонент графа ... 274 9.3.3. Алгоритмы классификации, использующие про- процедуру выделения компонент графа .... 275 9.3.4. Метод послойной классификации. Общий подход к построению алгоритмов классификации на гра- графах 277 Выводы 281 596
Глава 10. Теория автоматической классификации . . . 282 10.1. Математическая модель алгоритма автоматической классификации (ААК) 282 10.1.1. Пространство состояний 282 10.1.2. Пространство описаний 283 ЮЛ'.З. Множество порций Р, в которых выборка посту- поступает на классификацию и генератор порций G 284 1.0.1.4. Классификатор К 384 10.1.5 Дескриптор D 287 10.1.6. Основные понятия н определения, используемые при исследовании математической модели ААК . 288 10.2. Базисная модель ААК, основанного иа описании классов ядрами 289 10.3. Иерархическая стр\кт\ра многообразия ААК . ¦ 291 10.3.1. Модель алгоритма й-средиих параллельного типа 291 10 3.2. Модель алгоритма (к—г) -средних .... 292 10.3.3. Модель алгоритма Форель 293 10.3.4. Модель алгоритма выделения размытого кластера 293 10 3.5. Модель алгоритма Д(&)-средних 294 10.3.6. Модель алгоритма нечеткой классификации Беж- дека 296 10.3.7. Модель алгоритма (\k—г)-средних . . . 296 10.3.8. Модель алгоритма (АA)—г)-средних для весо- весовых функций Беждека 296 10.4. Исследование сходимости ААК 297 Выводы 300 Глава 11. Выбор метрики и сокращение размерностей в за- задачах кластер-анализа 300 П.! Целенаправленное проецирование данных в простран- пространство небольшой размерности с сохранением кластер- кластерной структуры 301 11.2. Метрики для задач кластер-анализа с неколичест- неколичественными переменными 302 11.3 Алгоритмы классификации с адаптивной метрикой 304 113.1. Адаптивная махаланобисова метрика . , . 304 11.3.2. Состоятельность алгоритма с адаптивной махала- нобисовой метрикой 306 11.3.3. Адаптивная взвешенная евклидова метрика . . 307 11.3.4. Адаптивная взвешенная метрика типа «ситн-блок» 308 11.4. Оценка метрики с помощью частичио-обучающих выборок 309 Выводы ЗЮ Глава 12. Средства представления и интерпретации резуль- результатов автоматической классификации . 311 12.1. Некоторые средства оценки результатов кластер- анализа 311 12.1.1. Оценка качества классификации с помощью кри- критериев классификации 311 12.1.2. Оценка компактности выделенных групп . . 313 12.1.3 Визуальные средства оценки степени разнесенно- разнесенности и компактности выделенных групп объектов 313 12.2. Связь между показателями качества прогноза пере- переменных, метрикой и некоторыми критериями качест- качества классификации в кластер-анализе . . . . 318 597
12.2.1. Случай, когда переменные измерены в количест- количественной шкале 318 12.2.2. Границы значений некоторых критериев класси- классификации 324 12.2.3. Случаи, когда центры классов лежат на одной прямой 326 12.3. Некоторые методические рекомендации .... 328 12.4. Средства, помогающие интерпретации результатов 329 Выводы , 330 Раздел III. СНИЖЕНИЕ РАЗМЕРНОСТИ АНАЛИЗИРУЕ- АНАЛИЗИРУЕМОГО ПРИЗНАКОВОГО ПРОСТРАНСТВА И ОТБОР НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПО- ПОКАЗАТЕЛЕЙ 332 Глава 13. Метод главных компонент 332 13.1. Сущность проблемы снижения размерности и раз- различные методы ее решения 332 13.1.1. Метод главных компонент 334 13.1.2. Факторный анализ . 334 13.1 3. Методы экстремальной группировки признаков 335 13.1.4. Многомерное шкалирование 335 13.1.5. Отбор наиболее информативных показателей в моделях дискриминантного анализа . , . 336 13.1.6. Отбор наиболее информативных переменных в моделях регрессии 337 13Л.7. Сведение нескольких частных критериальных по- показателей к единому интегральному .... 338 13.2. Определение, вычисление и основные числовые ха- характеристики главных компонент 339 13.3. Экстремальные свойства главных компонент. Их ин- интерпретация 348 13.4. Статистические свойства выборочных главных компо- компонент; статистическая проверка некоторых гипотез . 354 13.5. Главные компоненты в задачах классификации . 364 13.6 Нелинейное отображение многомерных данных в пространство низкой размерности 371 13.6.1. Нелинейное отображение по критерию типа стресса 371 13.6.2. Быстрое нелинейное отображение с помощью опорных точек 373 13.6.3. Быстрый алгоритм нелинейного проецирования многомерных данных 376 13.6.4. Сравнение нелинейного проецирования (картиро- (картирования) с линейным . . 379 Выводы . , 382 Глава 14. Модели и методы факторного анализа . . . 385 14.1. Сущность модели факторного анализа, его основные задачи 385 14.2. Каноническая модель факторного анализа . . . 388 14.2.1. Общий вид модели, ее связь с главными компо- компонентами 388 14.2.2. Вопросы идентификации модели факторного анализа 392 14.2.3. Определение структуры и статистическое иссле- исследование модели факторного анализа . . . 393 14.2.4. Факторный анализ в задачах классификации . 405 598
14.3. Некоторые эвристические методы снижения размер- размерности 408 14.3.1 Природа эвристических методов 408 14.3.2 Метод экстремальной группировки признаков . 409 14.3.3 Метод корреляционных плеяд 415 14.3.4. Снижение размерности с помощью кластер-про- кластер-процедур 41? Выводы 419 Глава 15. Экспертно-статнстическнй метод построения еди- единого сводного показателя эффективности функ- функционирования (качества) объекта (скалярная ре- редукция многокритериальной схемы) .... 421 15.1. Латентный единый (сводный) показатель «качества» Понятия «выходного качества» целевой функции и «входных переменных» (частных критериев) . . 421 15.2. Исходные данные 424 15.3. Алгоритмические и вычислительные вопросы построе- построения неизвестной целевой функции 42$ 15.3.1 Общая логическая схема оценивания параметров в целевой функции f (x, в) 426 15.3.2. Оценивание неизвестных параметров целевой функции при балльных экспертных оценках вы- выходного качества 427 15.3.3. Оценивание неизвестных параметров целевой функции при экспертных ранжировках и парных сравнениях объектов 4% 15.4. Применение экспертно-статнстнческого метода по- построения латентного интегрального показателя к ре- решению практических задач 43! 15.4.1. Построение целевой функции для оценки уровня мастерства сйортсменов в игровых видах спорта (на примере' «АИС—ХОККЕИ-73») .... 431 15.4.2. Об нспользованнн экспертно-статистического ме- метода в анализе макроструктуры фондов потреб- потребления 431 15.4.3. Построение сводного показателя эффективности деятельности промышленного предприятия . . 435 Выводы 436 Глава 16. Многомерное шкалирование (МШ) .... 438 16.1. Метрическое многомерное шкалирование . . . 439 16.1.1. Статистическая модель метрического шкалиро- шкалирования . 430 16.1.2. Классическая модель и решение задачи метри- метрического МШ 439 16.1.3. Погрешность аппроксимации. Оптимальность ортогонального метрического МШ .... 440 16.1.4. Возможности расширения применимости линей- линейного метрического МШ. Проблема аддитивной константы 441 16.1.5. Нелинейные методы метрического МШ . . . 442 16.2. Неметрическое многомерное шкалирование . . . 443 16.2.1. Структурная модель 443 16.2.2. Некоторые замечания к вычислительной про- процедуре .... 445 16.3. Шкалирование индивидуальных различий (ШИР) . 445 Выводы 446 599
Глава 17. Средства анализа и визуализации иеколичествен- ных данных 447 17.1. Анализ соответствий для двухвходовых таблиц со- сопряженности . 448 17.1.1. Основные понятия анализа соответствий . . 448 17.1.2. Проекции строк и столбцов. Связь с анализом главных компонент 452 17.1.3. Интерпретация главных компонент в анализе соответствий 453 17.1.4 Присвоение числовых меток строкам н столбцам 454 17.2. Множественный анализ соответствий (MAC) . . 455 17.2.1. Бинарная форма матрицы данных .... 455 17.2.2. Подход, основанный на непосредственном исполь- использовании матрицы Y 456 17.2.3. Присвоение числовых меток объектам и катего- гориям (оцнфровка) 457 17.2.4. Матрица Берта 459 17.2.5. Подход, основанный на максимизации статисти- статистического критерия 459 17.2.6. Некоторые вопросы вычислительной реализации и интерпретации в множественном анализе соот- соответствий 461 17.3. Алгоритмы оцифровки («количественных перемен- переменных 464 Выводы 471 Раздел IV. РАЗВЕДОЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ И НАГЛЯДНОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ 472 Глава 18. Разведочный анализ. Цели, модели структур дан- данных, методы и приемы анализа 473 18.1. Цели разведочного анализа и модели описания струк- структуры многомерных данных 473 18.2. Визуализация данных 475 18.2.1 Роль визуализации в разведочном анализе данных 475 18.2.2. Диаграммы рассеивания 476 18 2.3. Динамические формы диаграмм рассеивания . 479 18.2.4. Обработка диаграмм рассеивания с помощью ста- статистических методов 482 18.3. Преобразования данных в разведочном анализе данных 483 18.4. Использование дополнительных (иллюстративных) переменных и объектов 485 18.5. Основные типы данных и методы, используемые в разведочном анализе данных 486 Выводы ... 487 Глава 19. Целенаправленное проецирование многомерных данных . . 487 19.1. Цель н основные понятия целенаправленного проеци- проецирования 488 19.2. Проекционные индексы, подходящие для выделения кластеров . . . .... . 490 19.2.1. Смеси эллипсоидально симметрических распреде- распределений как модель кластерной структуры . . . 490 19.2.2. Дискримннантное подпространство . . . 491 600
19.2.3. Проекционные индексы, использующие математи- математическое ожидание монотонных функций плотности одномерной проекции . . . . 492 19.2.4. Проекционные индексы, основанные на использо- использовании моментов третьего и четвертого порядков 493 19.2.5. Проекционные индексы, основанные иа распре- распределении разностных векторов .... 494 19.3. Выявление эллипсоидальной кластерной структуры (восстановление дискриминантного подпространства) 496 19.3.1. Восстановление дискриминантного подпростран- подпространства на основе проекционных индексов типа функционалов от плотностей распределения про- проекций 496 19.3.2. Оценка дискриминантного подпространства на основе моментных индексов 499 19.3.3. Оценка подпространства 501 19.4. Проекционные индексы для дискриминаитного ана- анализа 502 19.4.1. Проекционные индексы для линейных классифи- классификаторов 502 19.4.2 Проекционные индексы и направления в задаче классификации для нормальных распределений с неравными ковариационными матрицами . . 507 19.5. Выделение аномальных наблюдений 509 19.5.1. Проекционный индекс и приближенная вычисли- вычислительная процедура 509 19.6. Выделение нелинейных структур в многомерных данных 51'2 19.6.1. Интегральное квадратичное расхождение . . 513 19.6.2. «Наивные» ПИ на основе параметризации вида зависимости 514 19.7. Регрессия на основе целенаправленного проециро- проецирования 515 19.8. Восстановление плотности и связь с томографией . 517 19.8.1. Оценка плотности методом целенаправленного проецирования 517 19.8.2. Вычислительная томография и прикладная ста- статистика 520 19.8.3. Алгоритм восстановления плотности по ее про- проекциям на основе принципа минимальной вариа- вариабельности 522 19.8.4. Алгоритм восстановления плотности по ее проек- проекциям на основе принципа максимума энтропии 524 19.9. Некоторые вопросы вычислительной реализации и практические приемы целенаправленного проециро- проецирования 526 19.9.1. Вычислительные процедуры 526 19.9.2. Практические рекомендацин при проведении целе- целенаправленного проецирования 528 Выводы 529 Глава 20. Теоретические основы целенаправленного проеци- проецирования и томографических методов анализа дан- данных 530 20.1. Проекции многомерных распределений и их свойства 530 20.1.1. Основные определения 530 201.2. Общие свойства проекций распределения . . 531 601
20.1.3. Свойства проекций дифференцируемых распреде- распределений 532 20.1.4. Связь многомерного распределения с его одно- одномерной проекцией . 535 20.2. Радиальные распределения . . 536 20.2.1. Основные понятия. Общие свойства радиальных распределений и их проекций 536 20.2.2. Важные модели радиальных распределений. Ме- Механизмы формирования случайных векторов с модельными радиальными распределениями . . 537 20.2.3. Экстремальные многомерные распределения . 541 20.3. Теория процедур оптимизации проекционных индек- индексов . . . 544 20.3.1. Области оптимизации в задачах поиска вырази- выразительных проекций 544 20.3.2 Алгоритмы оптимизации функций на многообра- многообразиях проекций 547 Выводы . 552 Глава 21. Программное обеспечение для задач сокращения размерности и классификации 553 21.1. Программное обеспечение прикладного статистичес- статистического анализа для ПЭВМ 554 21.2. Проблемы и опыт создания иителлектуализироваи- иого программного обеспечеиия по миогомериому ста- статистическому анализу 558 21.2.1. Что такое «интеллектуализация программного обеспечеиия» и почему она нужна в прикладной статистике 558 21.2.2. Интеллектуальные возможности статистической экспертной системы и основные вопросы, возни- возникающие при ее создании 561 21.2.3. Серия методо-ориеитироваииых статистических экспертных систем (серия МОСЭС) .... 562 Выводы 568 Список литературы 570 Алфавитио-предметный указатель 588
CONTENTS Preface 5 Introduction. CLASSIFICATION AND DIMENSIONALITY REDUCTION: ESSENCE, PROBLEMS, AREAS OF APPLICATIONS 13 1.1. Essence of classification and dimensionality reduction problems and basic ideas of multivariate statistical analysis 13 1.2. Typical practical problems and final applied aims of research based on classification and dimensionality reduction methods . . 18 1.3. Typizatton of classification and dimensionality re- reduction problems , 33 1.4. Basic steps in classification and dimensionality reduc- reduction problems solution 40 Conclusions 43 Part I. CLASSIFICATION WHEN INTRACLASS DISTRI- DISTRIBUTION ARE KNOWN OR TRAINING SAMPLES ARE GIVEN 47 Chapter 1. Classification when intraclass distributions are completely described 47 1.1. Two classes described by their distribution functions 47 1.2. Characteristics of classification quality 60 1.3. Two classes defined by «large volume> samples ... 67 1.4. Selection of informative variables 74 1.5. Three and more completely defined classes 77 Conclusions 81 Chapter 2. Theoretical results of classification when training samples are given (discriminant analysis) 83 2.1. Basic concepts of discriminant analysis 83 2.2. Methods of study of discriminant analysis algorithms 88 2.3. Plug-in algorithms in asymptotics of increasing dimensionality 93 2.4. Statistical regularization of the estimate of inverse covariance matrix in Fisher's linear model 98 2.5. Variables selection 104 2.6. Method of structural risk minimization 109 Conclusions Ill 603
Chapter 3. Practical recomendations of classification when training samples are given (discriminant analysis) . 113 3.1. Preliminary data analysis 113 '3.2. Estimation of likelihood ratio 118 3.3. Summary of recommendations for linear discriminant analysis 123 3.4. Estimation of discrimination quality . . .... 125 3.5. Recommendations for the case of k > 2 classes . . . 128 Conclusions 129 Chapter 4. Applications of discriminant analysis 130 4.1. Risk groups and comparative trials 131 4.2. Methods of risk description 134 4.3. Further applications of discriminant analysis .... 139 Conclusions 142 Part II. CLASSIFICATION WITHOUT TRAINING- MET- METHODS OF AUTOMATIC CLASSIFICATION (CLUS- (CLUSTER ANALYSIS) AND MIXTURES DECOMPO- DECOMPOSITION 143 Chapter 5. Basic concepts and definitions used in classificati- classification without training 144 5.1. General (informal) statement of objects or variables classification problems without training samples. . . 144 5.2. Distances between objects and measures of closeness of objects 147 5.3. Distances between classes and measures of closeness of classes 153 5.4. Classification quality functionals and extremal ap- approach to cluster analysis problems. Relation with statistical theory of parameters estimation . . . .156 Conclusions 179 Chapter 6. Classification without training (parametrical case): decomposition of mixtures of probabilistic distributions 182 6.1. Concept of mixture of probabilistic distributions. . 182 6.2. Basic scheme of solution of automatic classification problem in model of mixture decomposition (represen- (representation as scheme of discriminant analysis) .... 188 6.3. Identificability (separability) of distributions mixture 190 6.4. Estimation procedure of mixture distribution model parameters 192 6.5. Recomendations for choosing the «start positions> of mixture distributions decomposition algorithm . . 214 Conclusions 215 С h a p t e r 7. Automatic classification based on description of classes by their kernels 217 7.1. Heuristic algorithms 217 7.2. Algorithms using concept of gravity center .... 220 7.3. Algorithms with control parameters chosen during the classification procedure 225 7.4. Algorithms of Dynamic clustering method 230 7.5. Algorithms of fuzzy sets method 239 604
7.6. Algorithms of sieve-type method 245 Conclusions 249 Chapter 8. Hierarchical classification 249 8.1. Basic definition . 249 8.2. Methods and algorithms of hierarchical classification 251 8.3. Graphical representation of hierarchical ciassification results 254 8.4. Applications of general reccurent formula for measu- measures of closeness 260 8.5. Fast algorithm of hierarchical classification : . . . 263 Conclusions 265 Chapter 9. Procedures of cluster analysis and mixtures decom- decomposition under a priori restriction 267 9.1. Mixtures decomposition when uncomplete training samples are given 267 9.2. Classification under restrictions on between objects relations 270 9.3. Classification on graphs 273 Conclusions 281 Chapter 10. Theory of automatic classification 282 10.1. Mathematical model of automatic classification algo- algorithm (АСА) 282 10.2. Basic model of АСА based on description of classes by kernels ' 289 10.3. Hierarchical structure of АСА variety 291 10.4. АСА convergence study 297 Conclusions 300 Chapter 11. Metric choice and dimensionality reduction in cluster analysis problem 300 11.1. Projection pursuit of data into space of low dimensio- dimensionality with cluster structure conservation 301 11.2. Metrics for cluster analysis problems with nonquanti- tative yariables 302 ' 11.3. Classification algorithms with adaptive metric .... 304 11.4. Metric estimation by means of partly training satnp- ples 309 Conclusions 310 Chapter 12. Means of representation and interpretation of automatical classification results 311 12.1. Some means for cluster analysis results inspection . 311 12.2. Relation between seme indeces of variables prognosis quality, metrics and some criteria of classification quality in cluster analysis 318 12.3. Some methodical recomendations 328 12.4. Means helping results interpretation 329 Conclusions 330 Part III. REDUCTION OF ANALYSED VARIABLES SPACE DIMENSIONALITY AND SELECTION OF MOST INFORMATIVE INDECES 332 Chapter 13. Method of principal components 332 605
13.1. Essence of dimensionality reduction problem and different methods of its solution 332 13.2. Definition, calculation and basic numerical charac- characteristics of principal components 339 13.3. Extremal properties and interpretation of principal components 348 13.4. Statistical properties of sample principal compo- components; statistical test of hypotheses 354 13.5. Principal components in classification problems . 364 13.6. Nonlinear mapping of multidimensional data into space of low dimensionality 371 Conclusions 382 С h a p t e r 14. Models and methods of factor analysis 385 14.1. Essence factor analysis model, its main problems . 385 14.2. Canonical model of factor analysis 388 14.3. Some heuristic methods of dimensionality reduction 408 Conclusions 419 Chapter 15. Expert-statistical method of unified aggregated quality indicator construction (scalar reduction of multicriteria scheme) 421 15.1. Unified latent quality indicator 421 15.2. Original data 424 15.3. Algorithmical and computer questions of unknown target-oriented function construction 426 15.4. Application of expert-statistical method of latent integral indicator construction for practical problem solution 431 Conclusions 436 Chapter 16. Multidimensional scaling 438 16.1. Metrical multidimentional scaling 439 16.2. Nonmetrical multidimentional scaling , . 443 16.3. Scaling of individual differences 445 Conclusions i . 446 С h a p t e r 17. Means of analysis and visualisation of nonquan- titative data 447 17.1. Correspondence analysis for twodimensional con- contingency tables 448 17.2. Multiple correspondence analysis 455 17.3. Algorithms numerical coding of qualitative variab- variables 464 Conclusions 471 P A R T IV. EXPLORATORY STATISTICAL ANALYSIS AND DATA VISUALIZATION 472 Chapter 18. Exploratory data analysis. Purposes, models of data structures, methods of analysis .... 473 18.1. Purposes of exploratory data analysis and models of multidimensional data structure description . . . 473 18.2. Data visualization . 475 18.3. Data transformations in exploratory data analysis . 483 18.4. Use of additiona (illustrative) variables and objects. 485 606
18.5. Basic data types and models used in exploratory data analysis 486 Conclusions 487 Chapter 19. Projection pursuit of multidimensional data . . 487 19.1. Purpose and basic concepts of the projection pursuit 488 19.2. Projection indices for cluster detection 490 19.3. Ellipsoidal cluster structure discovery 496 19.4. Projection indices for discriminant analysis 502 19 5. Outliers detection 509 19.6. Nonlinear multidimensional data structure detecting 5!2 19.7. Regression based on projection pursuit method . 515 19.8. Density estimation and its relation with tomography method 517 19.9. Some problems of computing realization of projection pursuit method and some practical recommendations 526 Conclusions 529 С h a p t e r 20. Theoretical background of projection pursuit ap- approach and tomographical methods of data analysis 530 20.1. Multidimensional distribution projections and their properties 530 20.2. Radial distributions 536 20.3. Theory of optimization procedures of projestion indices 544 Conclusions 552 Chapter 21. Software for dimensionality reduction and clas- classification 553 21.1. Software of applied statistical analysis for personal computers 554 21.2. Problems and experience in development of intellec- intellectual software for multidimensional statistical analy- analysis 558 Conclusions 568 Bibliography 569 Index 587
-Справочное издание Сергей Арутюиович Анвазяи, Виктор Матвеевич Бухштабер, Игорь Семенович Енюков, Лев Дмитриевич Мешалкии ПРИКЛАДНАЯ СТАТИСТИКА: КЛАССИФИКАЦИЯ И СНИЖЕНИЕ РАЗМЕРНОСТИ Зав. редакцией Р. А. Казьмина Редактор Л. Н. Вылегжлнина Мл. редакторы В. Г Крылова, Е. В. Гаврилова Худож. редактор С Л. Витте ' Техи. редакторы Е. Д. Кузнецова, И. В. Завгородняя Корректоры Г. В. Хлопцева, Г. А. Баишрина, М. М. Виноградова, Н. П. Сперанская, Т. В. Рослякова Переплет художника Н. А. Пашуро ИБ № 2182 Сдаио в набор 15.06.88. Подписано в печать 6.01.89. А09236 Формат 84Х108'/з2. Бум. ки.-жури. Гарнитура литературная. Печать офсетная. Усл. п. л. 31,92 Усл. кр.-отт. 31,92. Уч.-изд. л. 33,64. Тираж 15 000 экз. Заказ 291. Цена 2 руб. Издательство «Финансы и статистика», 101000, Москва, ул. Чер- Чернышевского, 7. Набрано в Московской типографии № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полигра: фии и книжной торговли, 129041, Москва, Б. Переяславская ул., д. 46. Отпечатано в тип. им. Котлякова издательства «Фиианеы и стати- статистика» Государственного комитета СССР по делам издательств, полиграфии и книжной торговли. 195273, Ленинград, ул. Руста- Руставели, 13.